<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    搜索引擎判定相似文章網頁的原理

    作者:數風流人物 瀏覽:273 發布時間:2018-03-23
    分享 評論 0

    在上一篇文章中已經詳細的介紹了利用TF-IDF算法。接下來,我們再來研究一下另一個相關的問題。這個問題也是我們做SEO的最關心的,有些時候,我們除了要明白如何找到并提取文章關鍵詞,我們還需要找到與原文章相似的其他文章。比如,我們平時在搜索引擎的新聞欄目下搜索某條新聞的時候,在主新聞下方,還提供了多條相似的新聞。


    為了找出相似的文章,我們就需要用到另外一個公式原理了,那就是 余弦相似性(cosine similiarity) 。


    一、什么是 余弦相似性 ?


    余弦相似性是指通過測量兩個向量內積空間的夾角的余弦值來度量它們之間的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。從而兩個向量之間的角度的余弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時,余弦相似度的值為1;兩個向量夾角為90 時,余弦相似度的值為0;兩個向量指向完全相反的方向時,余弦相似度的值為-1。在比較過程中,向量的規模大小不予考慮,僅僅考慮到向量的指向方向。余弦相似度通常用于兩個向量的夾角小于90 之內,因此余弦相似度的值為0到1之間。


    值得注意的是余弦相似度可以用在任何維度的向量比較中,它尤其在高維正空間中的利用尤為頻繁。例如在信息檢索中,每個詞條擁有不同的度,一個文檔是由一個由有權值的特征向量表示的,權值的計算取決于詞條在該文檔中出現的頻率。余弦相似度因此可以給出兩篇文檔其主題方面的相似度。


    二、搜索引擎是如何判定相似文章的?


    下面,還是以舉例子的方式來說明如何才能找出相似文章?


    為了簡單起見,我們先從句子著手。


    句子A:我喜歡看電視,不喜歡看電影。


    句子B:我不喜歡看電視,也不喜歡看電影。


    那么我們怎樣才能計算出上面兩句話的相似程度呢?


    建議的基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。


    第1步:分詞


    句子A:我/喜歡/看/電視,不/喜歡/看/電影。


    句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。


    第2步:列出所有的詞


    我,喜歡,看,電視,電影,不,也。


    第3步:計算詞頻


    句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。


    句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。


    第4步:寫出詞頻向量


    句子A:[1, 2, 2, 1, 1, 1, 0]


    句子B:[1, 2, 2, 1, 1, 2, 1]


    到這里,問題就變成了如何計算這兩個向量的相似程度。


    我們可以把它們想象成空間中的兩條線段,都是從原點([0, 0, ...])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味著方向相同、線段重合;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似,如下圖所示:


    以二維空間為例,上圖的a和b是兩個向量,我們要計算它們的夾角 。余弦定理告訴我們,可以用下面的公式求得:



    假定a向量是[x1, y1],b向量是[x2, y2],那么覺得就可以將余弦定理改寫成下面的形式:



    數學家也已經證明,余弦的這種計算方法對n維向量也成立。假定A和B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角 的余弦等于:


    使用這個公式,我們就可以得到,句子A與句子B的夾角的余弦,如下圖所示:


    余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫 余弦相似性 。所以,上面的句子A和句子B是很相似的,事實上它們的夾角大約為20.3度。


    由此,我們就得到了 找出相似文章 的一種算法:


    (1)使用TF-IDF算法,找出兩篇文章的關鍵詞;


    (2)每篇文章各取出若干個關鍵詞(比如20個),合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);


    (3)生成兩篇文章各自的詞頻向量;


    (4)計算兩個向量的余弦相似度,值越大就表示越相似。


    覺得 余弦相似度 也可能只是搜索引擎在文章相識度其中的一方面的算法,但的確也是一種非常有用的算法,而且就是在其他領域的,只要是計算兩個向量的相似程度,都可以利用這個原理。


    а√在线中文网新版地址在线| 精品无码久久久久久午夜| 无码精品日韩中文字幕| 无码中文人妻在线一区二区三区 | 亚洲一区精品中文字幕| 精品无码久久久久久午夜| 国产AⅤ无码专区亚洲AV| 国产区精品一区二区不卡中文 | 精品久久久无码人妻中文字幕豆芽| 日韩中文久久| 日韩精品人妻一区二区中文八零| 无码久久精品国产亚洲Av影片| 人妻少妇看A偷人无码电影| 无码中文字幕av免费放dvd| 亚洲AV永久无码精品一区二区国产| 亚洲V无码一区二区三区四区观看 亚洲爆乳精品无码一区二区三区 亚洲爆乳无码一区二区三区 | 亚洲精品无码mv在线观看网站| 亚洲日本中文字幕| 亚洲av中文无码乱人伦在线咪咕 | 无码精品人妻一区二区三区免费| 午夜亚洲AV日韩AV无码大全| 无码人妻精品一区二区三区99性| 亚洲精品中文字幕乱码三区| 麻豆国产原创中文AV网站| 免费A级毛片无码鲁大师| 国产精品无码日韩欧| 无码免费一区二区三区免费播放| 亚洲AV永久无码精品网站在线观看| 中文字幕精品久久久久人妻| 色婷婷综合久久久久中文字幕| 日韩乱码人妻无码中文字幕视频| 亚洲欧美中文字幕| 亚洲不卡无码av中文字幕| 性无码专区一色吊丝中文字幕| 欧美日韩中文字幕久久久不卡| 中文字幕一区在线观看视频| 最近中文字幕免费mv在线视频| 日本在线中文字幕第一视频| 最近更新免费中文字幕大全| 中文字幕无码不卡在线| 超清无码熟妇人妻AV在线电影|