<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    淺述搜索引擎的兩種分詞算法

    作者:川藏線。 瀏覽:149 發布時間:2017-11-01
    分享 評論 0

    21世紀互聯網的快速發展讓人們生活越來越便利,當日益劇增的海量信息讓我們眼花繚亂時,搜索引擎的出現可以讓我們快速找到自己想要的答案。因此多了解搜索引擎的分詞算法,可以讓網站在搜索引擎上獲得更好的展現機會。在講解中文分詞技術之前,先來了解下全文檢索技術。


    全文檢索技術


    全文檢索是指索引程序掃描文章中的每個詞并建立對應索引,記錄該詞出現的位置和次數。當通過搜索引擎查詢時,檢索程序就在記錄的索引進行查找并返回給用戶。全文檢索又分為基于字的全文索引和基于詞的全文索引。基于字的全文索引會對內容中的每個字建立索引并記錄,此方法查全率高,但查準率低,特別是對于中文,有時搜索馬克,會列出馬克思的結果。基于詞的全文索引是把一個詞語作為一個單位進行索引記錄,并能處理同義詞。搜索引擎有自己的詞庫,當用戶搜索時,搜索引擎會從詞庫中抽取關鍵詞作為索引項,這樣可以大大提高檢索的準確率。


    中文分詞技術


    一直以來大家都比較熟悉百度,百度有自己的中文分詞技術。一般采用的包括正向最大匹配,反向最大匹配,最佳匹配法,專家系統方法等。其中最大正向匹配是最常用的分詞解決方案,它采用機械式算法,通過建立詞典并進行正向最大匹配對中文進行分詞。舉個簡單的例子比如搜索“北京大學在哪里”,則返回結果很多都是包含北京大學,北大等詞語的網頁,搜索引擎就是采用正向最大匹配去判斷,把北京大學當做一個詞語來索引記錄并返回。當然,正向最大匹配也有不完整性,比如長度過長的詞語,搜索引擎有時無法準確的分詞,或者對前后都相互關聯的詞無法準確分詞。例如“結合成分子時”,會被返回結合、成分、子時,而有時我們想要的關鍵詞是“分子”。


    很多時候百度都會根據自己詞庫中詞語的權重進行拆分,權重的計算基于生活各個方面,比較復雜,搜索引擎要做的就是返回用戶最想要的結果,有時站長們做網站要站在用戶的角度去考慮問題,其實這也是站在搜索引擎的角度考慮問題,不論在確定目標關鍵詞或者是長尾關鍵詞時,都可以根據中文分詞的原理來選擇,這樣可以最大化的減少無用功。


    分詞原理不斷在變化,不斷在更新,我們應該繼續學習,只有掌握了本質才能抓住實質。


    精品久久久久久久中文字幕| 国产精品99久久久精品无码 | 18禁裸乳无遮挡啪啪无码免费| 少妇中文字幕乱码亚洲影视| 精品一区二区三区无码免费视频| 超碰97国产欧美中文| 亚洲精品无码专区2| 无码国内精品人妻少妇蜜桃视频 | 精品久久久无码中文字幕| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 精品无码国产自产在线观看水浒传| 一级电影在线播放无码| 无码少妇一区二区三区浪潮AV| 一本大道无码日韩精品影视| 日韩乱码人妻无码系列中文字幕| 最好看更新中文字幕 | 日韩电影免费在线观看中文字幕| 国产成A人亚洲精V品无码性色| 久久人妻无码中文字幕| 久久久久综合中文字幕| 日本公妇在线观看中文版| 久久国产三级无码一区二区| 人妻精品久久无码专区精东影业| 国产在线拍偷自揄拍无码| 亚洲一日韩欧美中文字幕欧美日韩在线精品一区二 | 中文字幕日本高清| 久久综合中文字幕| 亚洲av综合avav中文| 久久亚洲中文字幕精品一区| 亚洲成A∨人片天堂网无码| 久久青青草原亚洲av无码| 日韩人妻无码精品无码中文字幕 | 中文字幕亚洲欧美日韩2019| 日韩av片无码一区二区三区不卡| 精品亚洲成α人无码成α在线观看| 国产久热精品无码激情| AV无码人妻中文字幕| 无码人妻AⅤ一区二区三区水密桃| 久久久久亚洲精品无码网址| 无码乱码观看精品久久| 一本一道精品欧美中文字幕|