<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    中文分詞技術的分類和進行分詞的原因

    作者:花開無聲 瀏覽:104 發布時間:2017-07-22
    分享 評論 0

      為什么要進行中文分詞:詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文信息處理的基礎與關鍵。

      Lucene中對中文的處理是基于自動切分的單字切分,或者二元切分。除此之外,還有最大切分(包括向前、向后、以及前后相結合)、最少切分、全切分等等。

      中文分詞技術的分類:

      我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。

      第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞,如:最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現象復雜豐富,詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文本的分詞處理。第二類基于統計的分詞方法則基于字和詞的統計信息,如把相鄰字間的信息、詞頻及相應的共現信息等應用于分詞,由于這些信息是通過調查真實語料而取得的,因而基于統計的分詞方法具有較好的實用性。


    亚洲欧洲中文日韩av乱码| 精品亚洲A∨无码一区二区三区| 乱色精品无码一区二区国产盗 | 台湾无码AV一区二区三区| 国产精品无码久久久久久| 综合久久久久久中文字幕亚洲国产国产综合一区首 | 精品人妻大屁股白浆无码| 精品无码国产自产在线观看水浒传| 最近免费中文字幕MV在线视频3| 亚洲∧v久久久无码精品| 中文字幕国产91| 亚洲中文字幕在线观看| 亚洲av无码天堂一区二区三区| 亚洲av激情无码专区在线播放| 五月天中文字幕mv在线女婷婷五月| 香蕉伊蕉伊中文视频在线| 日韩免费a级毛片无码a∨| gogo少妇无码肉肉视频| 人妻无码中文久久久久专区| 日韩精品无码免费专区午夜| 国内精品久久久久久中文字幕| 中文字幕无码第1页| 亚洲AV中文无码乱人伦| 人妻无码中文字幕免费视频蜜桃| 国产a级理论片无码老男人| 亚洲Av无码专区国产乱码DVD| 东京热人妻无码一区二区av| 亚洲伊人久久综合中文成人网 | 国产精品无码av在线播放| 亚洲av中文无码乱人伦在线r▽| 免费看成人AA片无码视频羞羞网 | 日韩精品无码视频一区二区蜜桃 | 人妻精品久久无码区| 久久水蜜桃亚洲av无码精品麻豆| 无码人妻精品一区二区三区在线| 亚洲色偷拍另类无码专区| 亚洲国产精品无码久久久秋霞2| 亚洲综合无码AV一区二区| 久久久久亚洲AV无码观看| 东京热av人妻无码专区| 中国无码人妻丰满熟妇啪啪软件|