<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    原創(chuàng)那點(diǎn)事

    作者:軒情浪子 瀏覽:178 發(fā)布時間:2018-03-28
    分享 評論 0

      一、搜索引擎為什么要重視原創(chuàng)


      1.1 采集泛濫化


      來自百度的一項(xiàng)調(diào)查顯示,超過80%的新聞和資訊等都在被人工轉(zhuǎn)載或機(jī)器采集,從傳統(tǒng)媒體的報紙到娛樂網(wǎng)站花邊消息、從游戲攻略到產(chǎn)品評測,甚至高校圖書館發(fā)的催還通知都有站點(diǎn)在做機(jī)器采集。可以說,優(yōu)質(zhì)原創(chuàng)內(nèi)容是被包圍在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艱難又具有挑戰(zhàn)性的事情。


      1.2 提高搜索用戶體驗(yàn)


      數(shù) 字化降低了傳播成本,工具化降低了采集成本,機(jī)器采集行為混淆內(nèi)容來源降低內(nèi)容質(zhì)量。采集過程中,出于無意或有意,導(dǎo)致采集網(wǎng)頁內(nèi)容殘缺不全,格式錯亂或 附加垃圾等問題層出不窮,這已經(jīng)嚴(yán)重影響了搜索結(jié)果的質(zhì)量和用戶體驗(yàn)。搜索引擎重視原創(chuàng)的根本原因是為了提高用戶體驗(yàn),這里講的原創(chuàng)為優(yōu)質(zhì)原創(chuàng)內(nèi)容。


      1.3 鼓勵原創(chuàng)作者和文章


      轉(zhuǎn) 載和采集,分流了優(yōu)質(zhì)原創(chuàng)站點(diǎn)的流量,不再具屬原創(chuàng)作者的名稱,會直接影響到優(yōu)質(zhì)原創(chuàng)站長和作者的收益。長期看會影響原創(chuàng)者的積極性,不利于創(chuàng)新,不利于 新的優(yōu)質(zhì)內(nèi)容產(chǎn)生。鼓勵優(yōu)質(zhì)原創(chuàng),鼓勵創(chuàng)新,給予原創(chuàng)站點(diǎn)和作者合理的流量,從而促進(jìn)互聯(lián)網(wǎng)內(nèi)容的繁榮,理應(yīng)是搜索引擎的一個重要任務(wù)。


      二、采集很狡詐,識別原創(chuàng)很艱難


      2.1 采集冒充原創(chuàng),篡改關(guān)鍵信息


      當(dāng)前,大量的網(wǎng)站批量采集原創(chuàng)內(nèi)容后,用人工或機(jī)器的方法,篡改作者、發(fā)布時間和來源等關(guān)鍵信息,冒充原創(chuàng)。此類冒充原創(chuàng)是需要搜索引擎識別出來予以適當(dāng)調(diào)整的。


      2.2 內(nèi)容生成器,制造偽原創(chuàng)


      利用自動文章生成器等工具,“獨(dú)創(chuàng)”一篇文章,然后安一個吸引眼球的title,現(xiàn)在的成本也低得很,而且一定具有獨(dú)創(chuàng)性。然而,原創(chuàng)是要具有社會共識價值的,而不是胡亂制造一篇根本不通的垃圾就能算做有價值的優(yōu)質(zhì)原創(chuàng)內(nèi)容。內(nèi)容雖然獨(dú)特,但是不具社會共識價值,此類偽原創(chuàng)是搜索引擎需要重點(diǎn)識別出來并予以打擊的。


      2.3 網(wǎng)頁差異化,結(jié)構(gòu)化信息提取困難


      不同的站點(diǎn)結(jié)構(gòu)化差異比較大,html標(biāo) 簽的含義和分布也不同,因此提取關(guān)鍵信息如標(biāo)題、作者和時間的難易程度差別也比較大。做到既提得全,又提得準(zhǔn),還要最及時,在當(dāng)前的中文互聯(lián)網(wǎng)規(guī)模下實(shí)屬 不易,這部分將需要搜索引擎與站長配合好才會更順暢的運(yùn)行,站長們?nèi)绻酶逦慕Y(jié)構(gòu)告知搜索引擎網(wǎng)頁的布局,將使搜索引擎高效地提取原創(chuàng)相關(guān)的信息。


      三、百度識別原創(chuàng)之路如何走?


      3.1 成立原創(chuàng)項(xiàng)目組,打持久戰(zhàn)


      面對挑戰(zhàn),為了提高搜索引擎用戶體驗(yàn)、為了使優(yōu)質(zhì)原創(chuàng)者原創(chuàng)網(wǎng)站得到應(yīng)有的收益、為了推動中文互聯(lián)網(wǎng)的前進(jìn),我們抽調(diào)大量人員組成原創(chuàng)項(xiàng)目組:技術(shù)、產(chǎn)品、運(yùn)營、法務(wù)等等,這不是臨時組織不是1個月2個月的項(xiàng)目,我們做好了打持久戰(zhàn)的準(zhǔn)備。


      3.2 原創(chuàng)識別“起源”算法


      互 聯(lián)網(wǎng)動輒上百億、上千億的網(wǎng)頁,從中挖掘原創(chuàng)內(nèi)容,可以說是大海撈針,千頭萬緒。我們的原創(chuàng)識別系統(tǒng),在百度大數(shù)據(jù)的云計算平臺上開展,能夠快速實(shí)現(xiàn)對全 部中文互聯(lián)網(wǎng)網(wǎng)頁的重復(fù)聚合和鏈接指向關(guān)系分析。首先,通過內(nèi)容相似程度來聚合采集和原創(chuàng),將相似網(wǎng)頁聚合在一起作為原創(chuàng)識別的候選集合;其次,對原創(chuàng)候 選集合,通過作者、發(fā)布時間、鏈接指向、用戶評論、作者和站點(diǎn)的歷史原創(chuàng)情況、轉(zhuǎn)發(fā)軌跡等上百種因素來識別判斷出原創(chuàng)網(wǎng)頁;最后,通過價值分析系統(tǒng)判斷該原創(chuàng)內(nèi)容的價值高低進(jìn)而適當(dāng)?shù)闹笇?dǎo)最終排序。


      目前,通過我們的實(shí)驗(yàn)以及真實(shí)線上數(shù)據(jù),“起源”算法已經(jīng)取得了一定的進(jìn)展,在新聞、資訊等領(lǐng)域解決了絕大部分問題。當(dāng)然,其他領(lǐng)域還有更多的原創(chuàng)問題等待“起源”去解決,我們堅(jiān)定的走著。


      3.3 原創(chuàng)星火計劃


      我 們一直致力于原創(chuàng)內(nèi)容的識別和排序算法調(diào)整,但在當(dāng)前互聯(lián)網(wǎng)環(huán)境下,快速識別原創(chuàng)解決原創(chuàng)問題確實(shí)面臨著很大的挑戰(zhàn),計算數(shù)據(jù)規(guī)模龐大,面對的采集方式層 出不窮,不同站點(diǎn)的建站方式和模版差異巨大,內(nèi)容提取復(fù)雜等等問題。這些因素都會影響原創(chuàng)算法識別,甚至導(dǎo)致判斷出錯。這時候就需要百度和站長共同努力來 維護(hù)互聯(lián)網(wǎng)的生態(tài)環(huán)境,站長推薦原創(chuàng)內(nèi)容,搜索引擎通過一定的判斷后優(yōu)待原創(chuàng)內(nèi)容,共同推進(jìn)生態(tài)的改善,鼓勵原創(chuàng),這就是“原創(chuàng)星火計劃”,旨在快速解決 當(dāng)前面臨的嚴(yán)重問題。另外,站長對原創(chuàng)內(nèi)容的推薦,將應(yīng)用于“起源”算法,進(jìn)而幫助百度發(fā)現(xiàn)算法的不足,不斷改進(jìn),用更加智能的識別算法自動識別原創(chuàng)內(nèi) 容。


      目前,原創(chuàng)星火計劃也取得了初步的效果,一期對部分重點(diǎn)原創(chuàng)新聞?wù)军c(diǎn)的原創(chuàng)內(nèi)容在百度搜索結(jié)果中給予了原創(chuàng)標(biāo)記、作者展示等等,并且在排序及流量上也取得了合理的提升。


      最后,原創(chuàng)是生態(tài)問題,需要長期的改善,我們將持續(xù)投入,與站長攜手推動互聯(lián)網(wǎng)生態(tài)的進(jìn)步;原創(chuàng)是環(huán)境問題,需要大家來共同維護(hù),站長們多做原創(chuàng),多推薦原創(chuàng),百度將持續(xù)努力改進(jìn)排序算法,鼓勵原創(chuàng)內(nèi)容,為原創(chuàng)作者、原創(chuàng)站點(diǎn)提供合理的排序和流量。


    国产成年无码AV片在线韩国| 亚洲av无码成h人动漫无遮挡 | 伊人久久精品无码av一区| 亚洲免费日韩无码系列| 色偷偷一区二区无码视频| 中文无码vs无码人妻| 超清中文乱码字幕在线观看| 国产AV无码专区亚洲A∨毛片| 日韩综合无码一区二区| 久久亚洲精品中文字幕三区| 亚洲国产91精品无码专区| 97无码免费人妻超| 精品无码久久久久久午夜| 中文字幕亚洲精品无码| 色综合久久中文综合网| 中文在线天堂网WWW| 亚洲AV无码乱码在线观看牲色| 国产亚洲人成无码网在线观看| 亚洲精品成人无码中文毛片不卡| 中文字幕在线免费看线人| 亚洲欧美在线一区中文字幕| 中文字幕欧美日韩在线不卡| 波多野结衣中文字幕久久| 无码中文av有码中文a| 中文字幕色婷婷在线视频| 中文成人无码精品久久久不卡| 人妻少妇精品无码专区动漫| 久久久久久国产精品无码下载| (愛妃視頻)国产无码中文字幕| 91精品日韩人妻无码久久不卡| 国产成人无码精品久久久久免费 | 精品无码av一区二区三区 | 久久国产精品无码网站| 成人午夜福利免费专区无码| 久久精品无码一区二区三区| 88国产精品无码一区二区三区| 国产AV无码专区亚洲AV男同| 国产福利电影一区二区三区久久老子无码午夜伦不 | 国产在线无码不卡影视影院| 国产激情无码一区二区app| heyzo专区无码综合|