<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    基于用戶投票的六大排名算法研究

    作者:數(shù)風(fēng)流人物 瀏覽:145 發(fā)布時(shí)間:2018-03-27
    分享 評(píng)論 0

    隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)站的數(shù)量也在隨著成倍的增加著,就中國(guó)的互聯(lián)網(wǎng)來說,根據(jù)中國(guó)互聯(lián)網(wǎng)信息中心的數(shù)據(jù)顯示,目前中國(guó)的網(wǎng)站數(shù)量每半年都會(huì)以接近10%的數(shù)量增長(zhǎng)。這些大量的網(wǎng)站涌現(xiàn),也就意味著我們已進(jìn)入了 信息大爆炸 的時(shí)代。


    而如今用戶擔(dān)心的已不再是信息太少,而是信息太多。如何從大量信息之中,快速有效地找出最重要的內(nèi)容,成了互聯(lián)網(wǎng)的一大核心問題。所以各種各樣的排名算法,已成為目前過濾信息的主要手段之一,尤其是搜索引擎的排名。在對(duì)信息進(jìn)行排名的同時(shí),也就意味著將信息按照重要性依次排列,并且及時(shí)進(jìn)行更新。排列的依據(jù),可以基于信息本身的特征,也可以基于用戶的投票,即讓用戶決定,什么樣的信息可以排在第一位。


    下面,我將借助博客的平臺(tái)整理和分析一些基于用戶投票的排名算法,跟大家共同分享一下:


    一、Delicious和Hacker News排名算法


    1、Delicious排名算法


    Delicious是提供了一種簡(jiǎn)單共享網(wǎng)頁的方法,它為無數(shù)互聯(lián)網(wǎng)用戶提供共享及分類他們喜歡的網(wǎng)頁書簽。


    對(duì)于最初的信息排名來說,最直覺、最簡(jiǎn)單的算法,莫過于按照單位時(shí)間內(nèi)用戶的投票數(shù)進(jìn)行排名。得票最多的項(xiàng)目,自然就排在第一位。


    舊版的Delicious,有一個(gè) 熱門書簽排行榜 ,就是這樣統(tǒng)計(jì)出來的,如下圖所示:


    它按照 過去60分鐘內(nèi)被收藏的次數(shù) 進(jìn)行排名。每過60分鐘,就統(tǒng)計(jì)一次。


    Delicious算法的優(yōu)點(diǎn)是:比較簡(jiǎn)單、容易部署、內(nèi)容更新相當(dāng)快;


    Delicious算法的缺點(diǎn)是:一方面,排名變化不夠平滑,前一個(gè)小時(shí)還排名靠前的內(nèi)容,往往第二個(gè)小時(shí)就一落千丈,另一方面,缺乏自動(dòng)淘汰舊項(xiàng)目的機(jī)制,某些熱門內(nèi)容可能會(huì)長(zhǎng)期占據(jù)排行榜前列。


    2、Hacker News排名算法


    Hacker News是一個(gè)網(wǎng)絡(luò)社區(qū),可以張貼鏈接,或者討論某個(gè)主題,如下圖所示:


    每個(gè)帖子前面有一個(gè)向上的三角形,如果你覺得這個(gè)內(nèi)容很好,就點(diǎn)擊一下,投上一票。根據(jù)得票數(shù),系統(tǒng)自動(dòng)統(tǒng)計(jì)出熱門文章排行榜。但是,并非得票最多的文章排在第一位,還要考慮時(shí)間因素,新文章應(yīng)該比舊文章更容易得到好的排名。


    Hacker News使用Paul Graham開發(fā)的Arc語言編寫。它的排名算法的實(shí)現(xiàn)的方法如下圖所示:


    將上面的代碼還原為數(shù)學(xué)公式就是:


    P表示帖子的得票數(shù),減去1是為了忽略發(fā)帖人的投票。


    T表示距離發(fā)帖的時(shí)間(單位為小時(shí)),加上2是為了防止最新的帖子導(dǎo)致分母過小(之所以選擇2,可能是因?yàn)閺脑嘉恼鲁霈F(xiàn)在其他網(wǎng)站,到轉(zhuǎn)貼至Hacker News,平均需要兩個(gè)小時(shí))。


    G表示 重力因子 (gravityth power),即將帖子排名往下拉的力量,默認(rèn)值為1.8,后文會(huì)詳細(xì)討論這個(gè)值。


    從這個(gè)公式來看,決定帖子排名有三個(gè)因素:


    第一個(gè)因素是得票數(shù)P


    在其他條件不變的情況下,得票越多,排名越高,如下圖所示:


    從上圖可以看到,有三個(gè)同時(shí)發(fā)表的帖子,得票分別為200票、60票和30票(減1后為199、59和29),分別以黃色、紫色和藍(lán)色表示。在任一個(gè)時(shí)間點(diǎn)上,都是黃色曲線在最上方,藍(lán)色曲線在最下方。


    如果你不想讓 高票帖子 與 低票帖子 的差距過大,可以在得票數(shù)上加一個(gè)小于1的指數(shù),比如(P-1)^0.8。


    第二個(gè)因素是距離發(fā)帖的時(shí)間T


    在其他條件不變的情況下,越是新發(fā)表的帖子,排名越高。或者說,一個(gè)帖子的排名,會(huì)隨著時(shí)間不斷下降。


    從前一張圖可以看到,經(jīng)過24小時(shí)之后,所有帖子的得分基本上都小于1,這意味著它們都將跌到排行榜的末尾,保證了排名前列的都將是較新的內(nèi)容。


    第三個(gè)因素是重力因子G


    它的數(shù)值大小決定了排名隨時(shí)間下降的速度。


    從上圖可以看到,三根曲線的其他參數(shù)都一樣,G的值分別為1.5、1.8和2.0。G值越大,曲線越陡峭,排名下降得越快,意味著排行榜的更新速度越快。


    毛片免费全部无码播放| 极品粉嫩嫩模大尺度无码视频 | 精品久久久久久无码专区不卡| 中文在线√天堂| 日韩精品人妻系列无码专区| 亚洲成a人片在线观看中文动漫| 无码精品人妻一区二区三区中| 中文字幕夜色资源网站| 日韩视频无码日韩视频又2021| 一本大道东京热无码一区| 超清无码无卡中文字幕| yy111111少妇无码影院| 久久婷婷综合中文字幕| 日韩国产精品无码一区二区三区 | 亚洲日韩在线中文字幕综合| 亚洲AV无码乱码精品国产| 免费A级毛片av无码| 亚洲日产无码中文字幕| 亚洲毛片网址在线观看中文字幕 | 欧美麻豆久久久久久中文| 一级毛片中出无码| 国产成A人亚洲精V品无码性色| 亚洲精品无码成人AAA片| 无码人妻丝袜在线视频| 天堂在线中文字幕| 欧美日本中文字幕| 无码专区久久综合久中文字幕| 蜜臀AV无码国产精品色午夜麻豆 | 国产精品无码DVD在线观看| 无码国产精品一区二区免费式芒果| 久久久久亚洲AV无码观看 | 无码久久精品国产亚洲Av影片| 日日麻批免费40分钟无码| 日本三级在线中文字幕在线|中文| 中文无码vs无码人妻 | 久久久久无码精品国产app| 精品欧洲av无码一区二区 | 暖暖免费中文在线日本| 日韩欧美群交P片內射中文| 熟妇人妻中文字幕无码老熟妇| 亚洲精品无码久久毛片|