<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    百度首席架構(gòu)師揭密:算法是百度工程師的利器

    作者:9527 瀏覽:81 發(fā)布時(shí)間:2017-12-28
    分享 評(píng)論 0

      “工欲善其事,必先利其器”,對(duì)于百度工程師來(lái)說(shuō),算法就是他們解決難題的利器。


      為什么這么說(shuō)?因?yàn)榘俣人阉饕嫜邪l(fā)的各個(gè)環(huán)節(jié)都離不開(kāi)算法。我們需要快速,準(zhǔn)確、實(shí)用、創(chuàng)新和不斷改進(jìn)的算法來(lái)滿足用戶的需求。


      百度面對(duì)的是海量的互聯(lián)網(wǎng)數(shù)據(jù),以及每天上億次的檢索請(qǐng)求。它要求百度能夠收錄和索引超過(guò)10億的中文網(wǎng)頁(yè),并提供快速的檢索服務(wù)。這只有高效率的算法才能完成。


      百度招聘的工程師在加入公司后,有一道入門練習(xí)題,就是編寫(xiě)一個(gè)數(shù)據(jù)掃描分析程序,要求寫(xiě)出的程序能在1分鐘之內(nèi)掃描分析完千萬(wàn)量級(jí)的數(shù)據(jù),才算及格。高水平的程序員可以利用高效的算法在10秒以內(nèi)解決問(wèn)題,甚至只要六七秒。但如果沒(méi)用對(duì)算法,花一星期的時(shí)間,也做不到1分鐘之內(nèi)。


      大家可以設(shè)想一下,百度有十億以上的網(wǎng)頁(yè),如果要在一周甚至三天內(nèi)處理一遍,平均每秒處理要多少個(gè)?每天1億次的檢索又意味著峰值時(shí)每秒要處理多少次檢索?事實(shí)上,針對(duì)一個(gè)問(wèn)題,我們可以想出很多的算法,但如果效率不高,是無(wú)法真正投入使用的。


      Web搜索引擎是一個(gè)很新的研究領(lǐng)域,因?yàn)閺乃Q生到現(xiàn)在不過(guò)10年左右的時(shí)間。學(xué)術(shù)界IR(Information Retrieval)領(lǐng)域的研究為搜索引擎提供了不少算法方面的理論基礎(chǔ)模型,但這些理論距構(gòu)建一個(gè)好的Web搜索引擎還有很大一段距離。這需要我們探索和開(kāi)發(fā)很多新的算法及系統(tǒng)。實(shí)際上,百度搜索引擎中的很多算法都極具創(chuàng)新性,而且都是基于實(shí)際應(yīng)用的需求。這是和學(xué)術(shù)界研究工作的一個(gè)較大差異。學(xué)術(shù)界的算法研究主要是為了解決某個(gè)學(xué)術(shù)方面的問(wèn)題,不是太關(guān)注實(shí)用性,以及效率。


      舉個(gè)例子來(lái)說(shuō),在傳統(tǒng)的中文分詞算法研究中,學(xué)術(shù)界最關(guān)注的是能達(dá)到多高的準(zhǔn)確率,但對(duì)算法的運(yùn)行速度上考慮的相對(duì)較少??稍诎俣?,如果使用的分詞算法速度太慢,就根本無(wú)法應(yīng)用。此外,百度面對(duì)的是Web上的大量數(shù)據(jù),大部分傳統(tǒng)的IR算法都會(huì)遇到信息爆炸的問(wèn)題,我們需要想出很多新的方法來(lái)解決這些問(wèn)題。這對(duì)我們的工程師的算法提出了很高的要求。


      Web上的數(shù)據(jù)是不斷變化的,用戶的檢索需求也是不斷變化的。百度就是要在這不斷變化的兩者之間需找一個(gè)最佳匹配。所以百度的算法需要持續(xù)的進(jìn)行改進(jìn),以迅速適應(yīng)這些變化。比如對(duì)搜索引擎來(lái)說(shuō)有一個(gè)方面的技術(shù)很重要,就是判斷一個(gè)網(wǎng)站是否在作弊的方法。由于那些針對(duì)搜索引擎作弊的人,如果能提高搜索引擎排名,將獲得巨大的經(jīng)濟(jì)利益,所以他們會(huì)不斷使用各種方法去猜測(cè)百度算法中潛在的漏洞,進(jìn)行攻擊。這是一個(gè)很復(fù)雜的問(wèn)題,而且仍在不斷發(fā)展變化中。這就要求我們能夠迅速的發(fā)現(xiàn)這類問(wèn)題,提出算法,并應(yīng)用到百度搜索引擎中。在最短時(shí)間內(nèi)消滅問(wèn)題。否則作弊行為很快就會(huì)泛濫成災(zāi)。


      在百度,算法的應(yīng)用是融入到研發(fā)部門每個(gè)人的工作中的。在這里,不是經(jīng)理告訴工程師做什么,怎么做,用什么算法,而是需要工程師自己在某個(gè)領(lǐng)域去發(fā)現(xiàn)問(wèn)題,提出算法,評(píng)估效果,并不斷改進(jìn)。這要求每個(gè)工程師在算法上的基本功很強(qiáng),并能靈活的加以應(yīng)用,以解決實(shí)際問(wèn)題?,F(xiàn)在,百度有不少的程序員,他們大部分的時(shí)間是用在發(fā)現(xiàn)問(wèn)題,分析問(wèn)題,思考解決問(wèn)題的方法上。實(shí)際編寫(xiě)代碼所花的時(shí)間并不多。


      有不少人覺(jué)得,現(xiàn)在的搜索引擎已經(jīng)足夠好了,算法上沒(méi)有太多改進(jìn)余地了。我不贊成這個(gè)觀點(diǎn)。雖然每次CNNIC互聯(lián)網(wǎng)用戶調(diào)查的數(shù)據(jù)顯示,超過(guò)90%的人對(duì)搜索引擎提供的服務(wù)表示滿意,但是第一次搜索就能找到滿意結(jié)果的用戶只有50%左右,很多用戶都是在多次更換關(guān)鍵詞之后才搜索到自己想要的結(jié)果。這說(shuō)明我們還有巨大的改進(jìn)空間。讓所有用戶能在第一時(shí)間找到他們想要的信息,是我們的最終目標(biāo)。


      可以說(shuō),搜索引擎開(kāi)發(fā)中使用的基本算法大部分都在大學(xué)課程中涵蓋了。對(duì)于一個(gè)人來(lái)說(shuō),在學(xué)校學(xué)習(xí)過(guò)這個(gè)算法,和能夠靈活運(yùn)用是兩個(gè)概念。只有通過(guò)參與較多的項(xiàng)目開(kāi)發(fā)和程序編寫(xiě),將算法和應(yīng)用相結(jié)合,才能在這方面得到較好的發(fā)展。 對(duì)于算法學(xué)習(xí),我的建議還是多思考,多做項(xiàng)目和程序。在做的過(guò)程中肯定會(huì)遇到一些問(wèn)題,這是正常的。好的程序員善于從問(wèn)題和失敗中學(xué)到東西,舉一反三,設(shè)法避免以后出現(xiàn)同樣或類似的錯(cuò)誤。另外,還要善于從別人身上學(xué)習(xí),有意識(shí)的進(jìn)行思考和總結(jié),這是比較有效的方式。


    中文精品无码中文字幕无码专区| 狠狠精品久久久无码中文字幕| 成在线人免费无码高潮喷水| 欧美精品丝袜久久久中文字幕| 18禁网站免费无遮挡无码中文| 中文字幕人妻在线视频不卡乱码 | 日本精品久久久中文字幕| 亚洲AV无码成人精品区在线观看| 最近免费中文字幕大全高清大全1| 亚洲成A∨人片天堂网无码| 无码国产69精品久久久久网站| 最近的2019免费中文字幕| 日韩精品无码中文字幕一区二区| 4hu亚洲人成人无码网www电影首页 | 国产成人无码免费看视频软件| 天堂在线资源中文在线8| 国产av无码专区亚洲国产精品| 午夜福利无码不卡在线观看| 中文字幕无码毛片免费看| 中文一国产一无码一日韩| 欧日韩国产无码专区| 国产AV无码专区亚洲A∨毛片| 亚洲AV无码乱码在线观看裸奔| 久久亚洲精品无码aⅴ大香| 最近中文字幕2019视频1| 最近2019好看的中文字幕| 天堂亚洲国产中文在线 | 亚洲欧美精品一中文字幕| 99久久无码一区人妻| 激情无码人妻又粗又大中国人| 无码AV中文一区二区三区| 亚洲av无码一区二区乱子伦as| 国产成人无码精品久久久性色| 中文字幕人妻在线视频不卡乱码| 在线中文字幕精品第5页| 最近的2019免费中文字幕| 中文字幕AV中文字无码亚 | 6080YYY午夜理论片中无码| 久久久久亚洲av无码专区导航 | 久久青青草原亚洲av无码app| 少妇人妻偷人精品无码视频新浪|