<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    中文分詞技術的分類和進行分詞的原因

    作者:花開無聲 瀏覽:104 發布時間:2017-07-22
    分享 評論 0

      為什么要進行中文分詞:詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文信息處理的基礎與關鍵。

      Lucene中對中文的處理是基于自動切分的單字切分,或者二元切分。除此之外,還有最大切分(包括向前、向后、以及前后相結合)、最少切分、全切分等等。

      中文分詞技術的分類:

      我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。

      第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞,如:最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現象復雜豐富,詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文本的分詞處理。第二類基于統計的分詞方法則基于字和詞的統計信息,如把相鄰字間的信息、詞頻及相應的共現信息等應用于分詞,由于這些信息是通過調查真實語料而取得的,因而基于統計的分詞方法具有較好的實用性。


    亚洲午夜无码久久久久| 国产高清中文欧美| 最新高清无码专区| 色欲狠狠躁天天躁无码中文字幕| 免费无码一区二区三区| 久久久这里有精品中文字幕| 中文字幕无码高清晰| 2021国产毛片无码视频| 无码专区天天躁天天躁在线| 亚洲中文字幕无码爆乳av中文 | 在线天堂资源www在线中文| 亚洲男人在线无码视频| 丰满少妇人妻无码| 台湾无码一区二区| 亚洲日韩中文无码久久| 久久午夜无码鲁丝片秋霞| 最近中文字幕高清免费中文字幕mv| 久久99久久无码毛片一区二区| 亚洲av福利无码无一区二区| 亚洲中文字幕无码久久精品1| 亚洲欧洲中文日韩久久AV乱码| 视频一区中文字幕| 天堂√在线中文最新版| 日本中文字幕在线2020| 久久精品中文字幕无码绿巨人| 中文字幕乱码人妻一区二区三区| 人妻系列无码专区久久五月天| 免费无码黄十八禁网站在线观看 | 国内精品人妻无码久久久影院导航| 最好看的中文字幕2019免费| 色综合久久中文综合网| 天堂资源在线最新版天堂中文| 熟妇人妻中文字幕无码老熟妇| 亚洲中文字幕无码一区二区三区| 中文字幕在线观看亚洲视频| 中文字幕人妻丝袜乱一区三区| 亚洲最大激情中文字幕| 亚洲日本欧美日韩中文字幕| 91中文在线观看| 国产台湾无码AV片在线观看| 无码人妻一区二区三区兔费|