<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    百度首席架構(gòu)師揭密:算法是百度工程師的利器

    作者:軒情浪子 瀏覽:293 發(fā)布時(shí)間:2018-04-20
    分享 評(píng)論 0

      “工欲善其事,必先利其器”,對(duì)于百度工程師來說,算法就是他們解決難題的利器。


      為什么這么說?因?yàn)榘俣人阉饕嫜邪l(fā)的各個(gè)環(huán)節(jié)都離不開算法。我們需要快速,準(zhǔn)確、實(shí)用、創(chuàng)新和不斷改進(jìn)的算法來滿足用戶的需求。


      百度面對(duì)的是海量的互聯(lián)網(wǎng)數(shù)據(jù),以及每天上億次的檢索請(qǐng)求。它要求百度能夠收錄和索引超過10億的中文網(wǎng)頁(yè),并提供快速的檢索服務(wù)。這只有高效率的算法才能完成。


      百度招聘的工程師在加入公司后,有一道入門練習(xí)題,就是編寫一個(gè)數(shù)據(jù)掃描分析程序,要求寫出的程序能在1分鐘之內(nèi)掃描分析完千萬量級(jí)的數(shù)據(jù),才算及格。高水平的程序員可以利用高效的算法在10秒以內(nèi)解決問題,甚至只要六七秒。但如果沒用對(duì)算法,花一星期的時(shí)間,也做不到1分鐘之內(nèi)。


      大家可以設(shè)想一下,百度有十億以上的網(wǎng)頁(yè),如果要在一周甚至三天內(nèi)處理一遍,平均每秒處理要多少個(gè)?每天1億次的檢索又意味著峰值時(shí)每秒要處理多少次檢索?事實(shí)上,針對(duì)一個(gè)問題,我們可以想出很多的算法,但如果效率不高,是無法真正投入使用的。


      Web搜索引擎是一個(gè)很新的研究領(lǐng)域,因?yàn)閺乃Q生到現(xiàn)在不過10年左右的時(shí)間。學(xué)術(shù)界IR(Information Retrieval)領(lǐng)域的研究為搜索引擎提供了不少算法方面的理論基礎(chǔ)模型,但這些理論距構(gòu)建一個(gè)好的Web搜索引擎還有很大一段距離。這需要我們探索和開發(fā)很多新的算法及系統(tǒng)。實(shí)際上,百度搜索引擎中的很多算法都極具創(chuàng)新性,而且都是基于實(shí)際應(yīng)用的需求。這是和學(xué)術(shù)界研究工作的一個(gè)較大差異。學(xué)術(shù)界的算法研究主要是為了解決某個(gè)學(xué)術(shù)方面的問題,不是太關(guān)注實(shí)用性,以及效率。


      舉個(gè)例子來說,在傳統(tǒng)的中文分詞算法研究中,學(xué)術(shù)界最關(guān)注的是能達(dá)到多高的準(zhǔn)確率,但對(duì)算法的運(yùn)行速度上考慮的相對(duì)較少。可在百度,如果使用的分詞算法速度太慢,就根本無法應(yīng)用。此外,百度面對(duì)的是Web上的大量數(shù)據(jù),大部分傳統(tǒng)的IR算法都會(huì)遇到信息爆炸的問題,我們需要想出很多新的方法來解決這些問題。這對(duì)我們的工程師的算法提出了很高的要求。


      Web上的數(shù)據(jù)是不斷變化的,用戶的檢索需求也是不斷變化的。百度就是要在這不斷變化的兩者之間需找一個(gè)最佳匹配。所以百度的算法需要持續(xù)的進(jìn)行改進(jìn),以迅速適應(yīng)這些變化。比如對(duì)搜索引擎來說有一個(gè)方面的技術(shù)很重要,就是判斷一個(gè)網(wǎng)站是否在作弊的方法。由于那些針對(duì)搜索引擎作弊的人,如果能提高搜索引擎排名,將獲得巨大的經(jīng)濟(jì)利益,所以他們會(huì)不斷使用各種方法去猜測(cè)百度算法中潛在的漏洞,進(jìn)行攻擊。這是一個(gè)很復(fù)雜的問題,而且仍在不斷發(fā)展變化中。這就要求我們能夠迅速的發(fā)現(xiàn)這類問題,提出算法,并應(yīng)用到百度搜索引擎中。在最短時(shí)間內(nèi)消滅問題。否則作弊行為很快就會(huì)泛濫成災(zāi)。


      在百度,算法的應(yīng)用是融入到研發(fā)部門每個(gè)人的工作中的。在這里,不是經(jīng)理告訴工程師做什么,怎么做,用什么算法,而是需要工程師自己在某個(gè)領(lǐng)域去發(fā)現(xiàn)問題,提出算法,評(píng)估效果,并不斷改進(jìn)。這要求每個(gè)工程師在算法上的基本功很強(qiáng),并能靈活的加以應(yīng)用,以解決實(shí)際問題。現(xiàn)在,百度有不少的程序員,他們大部分的時(shí)間是用在發(fā)現(xiàn)問題,分析問題,思考解決問題的方法上。實(shí)際編寫代碼所花的時(shí)間并不多。


      有不少人覺得,現(xiàn)在的搜索引擎已經(jīng)足夠好了,算法上沒有太多改進(jìn)余地了。我不贊成這個(gè)觀點(diǎn)。雖然每次CNNIC互聯(lián)網(wǎng)用戶調(diào)查的數(shù)據(jù)顯示,超過90%的人對(duì)搜索引擎提供的服務(wù)表示滿意,但是第一次搜索就能找到滿意結(jié)果的用戶只有50%左右,很多用戶都是在多次更換關(guān)鍵詞之后才搜索到自己想要的結(jié)果。這說明我們還有巨大的改進(jìn)空間。讓所有用戶能在第一時(shí)間找到他們想要的信息,是我們的最終目標(biāo)。


      可以說,搜索引擎開發(fā)中使用的基本算法大部分都在大學(xué)課程中涵蓋了。對(duì)于一個(gè)人來說,在學(xué)校學(xué)習(xí)過這個(gè)算法,和能夠靈活運(yùn)用是兩個(gè)概念。只有通過參與較多的項(xiàng)目開發(fā)和程序編寫,將算法和應(yīng)用相結(jié)合,才能在這方面得到較好的發(fā)展。 對(duì)于算法學(xué)習(xí),我的建議還是多思考,多做項(xiàng)目和程序。在做的過程中肯定會(huì)遇到一些問題,這是正常的。好的程序員善于從問題和失敗中學(xué)到東西,舉一反三,設(shè)法避免以后出現(xiàn)同樣或類似的錯(cuò)誤。另外,還要善于從別人身上學(xué)習(xí),有意識(shí)的進(jìn)行思考和總結(jié),這是比較有效的方式。


    99国产精品无码| 亚洲午夜无码久久久久| 中文字幕在线看日本大片| 国产成人亚洲综合无码| 中文字幕在线免费看线人| 国产精品va无码一区二区| 亚洲av午夜国产精品无码中文字| 国产成人亚洲综合无码| 亚洲天堂2017无码中文| 久久无码中文字幕东京热| 无码人妻AⅤ一区二区三区| 天天爽亚洲中文字幕| 国产激情无码一区二区三区| 国产精品无码一区二区在线观一| 一二三四在线观看免费中文在线观看| a级毛片无码兔费真人久久| 天堂新版8中文在线8| 国产羞羞的视频在线观看 国产一级无码视频在线| 熟妇人妻中文字幕| 国产50部艳色禁片无码| 中文字幕在线免费| 国产 亚洲 中文在线 字幕| 91精品无码久久久久久五月天 | 无码人妻一区二区三区在线视频| а天堂中文最新版在线| 无码人妻丰满熟妇啪啪| 少妇人妻无码精品视频| 亚洲日产无码中文字幕| 中文无码精品一区二区三区| 亚洲欧美日韩中文久久| 久久中文字幕无码专区| 久久人妻少妇嫩草AV无码专区| 在线播放无码高潮的视频| 亚洲国产精品无码久久SM| 国产做无码视频在线观看浪潮| 亚洲精品无码成人片久久| 四虎影视无码永久免费| 在线高清无码A.| 无码人妻精品一区二区三区99仓本 | 亚洲?V无码成人精品区日韩| 少妇极品熟妇人妻无码|