人妻丝袜中文无码av影音先锋专区,中文字幕日韩精品无码内射,亚洲欧美中文在线视频

觸屏版
全國服務熱線：0571-87205688

價格查詢批量查詢一鍵轉入

查詢

或者

立即發布需求

昵稱：川藏線。

接單：2206 關注TA

達標率 0%

博文分類

淺述搜索引擎的兩種分詞算法

作者：川藏線。 瀏覽：149次發布時間：2017-11-01

評論

贊0

21世紀互聯網的快速發展讓人們生活越來越便利，當日益劇增的海量信息讓我們眼花繚亂時，搜索引擎的出現可以讓我們快速找到自己想要的答案。因此多了解搜索引擎的分詞算法，可以讓網站在搜索引擎上獲得更好的展現機會。在講解中文分詞技術之前，先來了解下全文檢索技術。

全文檢索技術

全文檢索是指索引程序掃描文章中的每個詞并建立對應索引，記錄該詞出現的位置和次數。當通過搜索引擎查詢時，檢索程序就在記錄的索引進行查找并返回給用戶。全文檢索又分為基于字的全文索引和基于詞的全文索引。基于字的全文索引會對內容中的每個字建立索引并記錄，此方法查全率高，但查準率低，特別是對于中文，有時搜索馬克，會列出馬克思的結果。基于詞的全文索引是把一個詞語作為一個單位進行索引記錄，并能處理同義詞。搜索引擎有自己的詞庫，當用戶搜索時，搜索引擎會從詞庫中抽取關鍵詞作為索引項，這樣可以大大提高檢索的準確率。

中文分詞技術

一直以來大家都比較熟悉百度，百度有自己的中文分詞技術。一般采用的包括正向最大匹配，反向最大匹配，最佳匹配法，專家系統方法等。其中最大正向匹配是最常用的分詞解決方案，它采用機械式算法，通過建立詞典并進行正向最大匹配對中文進行分詞。舉個簡單的例子比如搜索“北京大學在哪里”，則返回結果很多都是包含北京大學，北大等詞語的網頁，搜索引擎就是采用正向最大匹配去判斷，把北京大學當做一個詞語來索引記錄并返回。當然，正向最大匹配也有不完整性，比如長度過長的詞語，搜索引擎有時無法準確的分詞，或者對前后都相互關聯的詞無法準確分詞。例如“結合成分子時”，會被返回結合、成分、子時，而有時我們想要的關鍵詞是“分子”。

很多時候百度都會根據自己詞庫中詞語的權重進行拆分，權重的計算基于生活各個方面，比較復雜，搜索引擎要做的就是返回用戶最想要的結果，有時站長們做網站要站在用戶的角度去考慮問題，其實這也是站在搜索引擎的角度考慮問題，不論在確定目標關鍵詞或者是長尾關鍵詞時，都可以根據中文分詞的原理來選擇，這樣可以最大化的減少無用功。

分詞原理不斷在變化，不斷在更新，我們應該繼續學習，只有掌握了本質才能抓住實質。

上一篇：網站外鏈要怎樣才能做到極致 下一篇：SEO基礎技巧也是一些細致技巧

評論(0人參與，0條評論)

發布評論

博文分類

淺述搜索引擎的兩種分詞算法

猜你喜歡

評論(0人參與，0條評論)

最新評論