<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    搜索引擎判定相似文章網頁的原理

    作者:數風流人物 瀏覽:274 發布時間:2018-03-23
    分享 評論 0

    在上一篇文章中已經詳細的介紹了利用TF-IDF算法。接下來,我們再來研究一下另一個相關的問題。這個問題也是我們做SEO的最關心的,有些時候,我們除了要明白如何找到并提取文章關鍵詞,我們還需要找到與原文章相似的其他文章。比如,我們平時在搜索引擎的新聞欄目下搜索某條新聞的時候,在主新聞下方,還提供了多條相似的新聞。


    為了找出相似的文章,我們就需要用到另外一個公式原理了,那就是 余弦相似性(cosine similiarity) 。


    一、什么是 余弦相似性 ?


    余弦相似性是指通過測量兩個向量內積空間的夾角的余弦值來度量它們之間的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。從而兩個向量之間的角度的余弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時,余弦相似度的值為1;兩個向量夾角為90 時,余弦相似度的值為0;兩個向量指向完全相反的方向時,余弦相似度的值為-1。在比較過程中,向量的規模大小不予考慮,僅僅考慮到向量的指向方向。余弦相似度通常用于兩個向量的夾角小于90 之內,因此余弦相似度的值為0到1之間。


    值得注意的是余弦相似度可以用在任何維度的向量比較中,它尤其在高維正空間中的利用尤為頻繁。例如在信息檢索中,每個詞條擁有不同的度,一個文檔是由一個由有權值的特征向量表示的,權值的計算取決于詞條在該文檔中出現的頻率。余弦相似度因此可以給出兩篇文檔其主題方面的相似度。


    二、搜索引擎是如何判定相似文章的?


    下面,還是以舉例子的方式來說明如何才能找出相似文章?


    為了簡單起見,我們先從句子著手。


    句子A:我喜歡看電視,不喜歡看電影。


    句子B:我不喜歡看電視,也不喜歡看電影。


    那么我們怎樣才能計算出上面兩句話的相似程度呢?


    建議的基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。


    第1步:分詞


    句子A:我/喜歡/看/電視,不/喜歡/看/電影。


    句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。


    第2步:列出所有的詞


    我,喜歡,看,電視,電影,不,也。


    第3步:計算詞頻


    句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。


    句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。


    第4步:寫出詞頻向量


    句子A:[1, 2, 2, 1, 1, 1, 0]


    句子B:[1, 2, 2, 1, 1, 2, 1]


    到這里,問題就變成了如何計算這兩個向量的相似程度。


    我們可以把它們想象成空間中的兩條線段,都是從原點([0, 0, ...])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味著方向相同、線段重合;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似,如下圖所示:


    以二維空間為例,上圖的a和b是兩個向量,我們要計算它們的夾角 。余弦定理告訴我們,可以用下面的公式求得:



    假定a向量是[x1, y1],b向量是[x2, y2],那么覺得就可以將余弦定理改寫成下面的形式:



    數學家也已經證明,余弦的這種計算方法對n維向量也成立。假定A和B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角 的余弦等于:


    使用這個公式,我們就可以得到,句子A與句子B的夾角的余弦,如下圖所示:


    余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫 余弦相似性 。所以,上面的句子A和句子B是很相似的,事實上它們的夾角大約為20.3度。


    由此,我們就得到了 找出相似文章 的一種算法:


    (1)使用TF-IDF算法,找出兩篇文章的關鍵詞;


    (2)每篇文章各取出若干個關鍵詞(比如20個),合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);


    (3)生成兩篇文章各自的詞頻向量;


    (4)計算兩個向量的余弦相似度,值越大就表示越相似。


    覺得 余弦相似度 也可能只是搜索引擎在文章相識度其中的一方面的算法,但的確也是一種非常有用的算法,而且就是在其他領域的,只要是計算兩個向量的相似程度,都可以利用這個原理。


    亚洲欧美成人久久综合中文网| 久久精品无码一区二区无码| 国精无码欧精品亚洲一区| 国产精品综合专区中文字幕免费播放| 波多野结衣AV无码| 亚洲2022国产成人精品无码区| 亚洲欧美日韩一区高清中文字幕| 日韩专区无码人妻| 色综合久久中文字幕无码| 红桃AV一区二区三区在线无码AV| 亚洲中文字幕无码不卡电影| 丰满白嫩人妻中出无码| 人妻无码一区二区三区免费| 日韩AV片无码一区二区三区不卡| 人妻少妇精品中文字幕av蜜桃| 无码乱码观看精品久久| 91精品久久久久久无码 | 欧美激情中文字幕综合一区| 亚洲男人在线无码视频| 久久无码人妻精品一区二区三区| 国产在线无码视频一区二区三区 | 无码人妻少妇久久中文字幕蜜桃| 亚洲中文字幕无码一去台湾| 亚洲一区日韩高清中文字幕亚洲 | 亚洲国产精品无码久久98| 伊人久久无码精品中文字幕| 久久丝袜精品中文字幕| 中文字幕欧美在线| 中文字幕精品亚洲无线码一区应用| 国产资源网中文最新版| √天堂中文www官网在线| 日本精品自产拍在线观看中文| 日韩欧美成人免费中文字幕| 区三区激情福利综合中文字幕在线一区亚洲视频1 | 日韩中文字幕精品免费一区| 亚洲人成影院在线无码观看| 久本草在线中文字幕亚洲欧美| 无码中文字幕日韩专区视频| 久久精品?ⅴ无码中文字幕| 无码国产精品一区二区免费 | 无码精品A∨在线观看|