<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    關于詞庫建設的問題整理

    作者:七夏 瀏覽:277 發布時間:2017-10-18
    分享 評論 0

    一、詞庫的篩選與建立

    建立一個幾十萬的詞庫很好說,但是針對這些詞你是如何處理的呢?分類,去重,篩選,沒有用的高頻詞,停止詞,雜詞,相似度,等等,你都是如何解決的?

    道哥:

    分類通常不做,因為精度不是很讓人滿意,分出一堆碎片分類看著頭疼建立詞庫的過程中不斷維護一個白名單和黑名單,抽取出強特征用于過濾高頻詞還有詞性等通常不過濾,尤其是不需要抽取query實體的場景下,高頻詞以及詞性的過濾反倒有可能導致語義轉義掉,這對于以分析為目的的詞庫而言是得不償失。

    停止詞只過濾一個“的”就行了,千萬不要貪停止詞的多,反倒是空格需要過濾,然后不同來源的詞庫合并去重,同詞不同搜索量的再處理下。

    最后,建議挖詞庫的時候就一個個品類挖,否則挖出個幾十萬上百萬的詞庫,沒點耐心和技巧處理起來真的很麻煩,屬于前期省事后期煩心。

    Gogo闖:

    擴詞 – 過濾 – 找規律 – 評估 – 維護

    擴詞:根據指定詞根擴展一批關鍵詞

    過濾:去除與詞根不相關的詞(可以粗暴的把不包含詞根的詞拿出來),去除沒法上線的詞(比如帶空格,各種符號,如“2013年工作總結”等不合符時效的、敏感詞:東莞娛樂城…..),去重(完全匹配去重:“北京旅游,北京旅游”刪掉1個;至于如“2015北京平均工資,北京平均工資2015”不完全匹配的,個人感覺沒有去重的必要,詞綴在整個詞中出現的位置對流量有些影響的,另外這些詞去重起來也麻煩)

    找規律:把詞根前后的詞綴全拿出來,把詞綴出現頻率高的篩出來,這種詞都是有特定的搜索組合的。

    之后再把包含高頻詞綴的詞都刪掉,再把搜索量高的詞拿出來,基本都是沒有變量,適合做專題的詞:如“住房公積金提取條件”“按揭貸款申請流程”….

    評估:評估哪些詞能上,哪些不能上;能上的詞都是有內容,相關的。直接的動作是找網站中有多少內容跟這個詞相關,跑搜索結果、數據庫均可,自己發散下~

    半人工半程序處理,沒啥技術含量,純粹各種小技巧和歸納思維。

    另外一種情況是根本沒有找不到詞根去挖詞,上面的流程根本沒法用,典型如新聞咨詢類的網站,如“派代網”那種,各種各樣毫不相干的tag,我這能想到的辦法是拿一堆新聞文章,至少幾十萬的,挑幾個需要挖掘的主題,用word2vec把聚類的詞找出來。

    二、怎樣從大批詞庫中給關鍵詞快速分類詞性?利用包含字眼怎么樣?

    個人想法是統計各個詞性的包含字眼,如費用類關鍵詞一般都包含:“錢”,“價”,“多少”,“費”,“貴”,“便宜”大概這些字眼,統計好字眼利用excel的vlookup函數或者類似更好用的工具給詞庫中包含這些字眼的關鍵詞歸類為費用類。

    如果大家有更好的辦法求賜教啊~,如果跟我這個想法差不多的,希望能借鑒詞性包含的字眼這個我統計了好幾次都覺得不準確。

    道哥:

    有監督分類的難點在于分類特征選取及多分類分歧處理,gogo闖舉的正是此例。

    而王楠包括之前民工提供的工具其實都屬于無監督分類的范疇了。而事實是無監督分類哪怕用上了樸素貝葉斯分類器這種高大上的NLP牛刀,其效果幾乎是慘不忍睹,因為這種方法會產生大量的碎片分類且分類可用性不高,而若要對碎片分類再做聚類,一來效果仍然不佳,二來顯然又一次舍近求遠了。

    題主的需求顯然以精度要求為先,因此推薦有監督分類方法。分類特征選取可考慮人工給每個分類分出一定量級的結果,對合結果集合提取tfidf得分較高的詞再人工細看一遍,這種特征選取方法同樣適用于文章分類。多分類分歧比較傻瓜的方法是。。。

    Gogo闖:

    前期肯定要人工過,盡可能窮盡同一類詞所有的共性特征及在詞中的位置。

    之前用鳳巢找職位相關需求的時候,會出現各種亂七八糟的非職位詞,于是從智聯找出1w個職位詞當樣本,窮舉職位詞共有的特征。

    三、seo關鍵詞詞庫的分類篩選程序。

    國平:

    我們已經開發了一個SEO關鍵詞詞庫的分類程序,效果還不錯,打算在錄制SEO免費視頻后免費發出來。

    這個分類篩選程序用到的算法也還不錯的,只有一個缺點,就是在計算關鍵詞相關性的時候,目前只支持包含關系。比如:德國、法國都是國家,分類篩選程序在獲取到“德國”這個關鍵詞后,不可以智能地把“法國”也分類到一起。不過這個問題是有解決辦法的,但是一個單機的計算量有限,要計算很長時間才可以,所以就暫時沒有這個功能。

    稍后可以放一些效果圖來看看,大家可能不知道,僅僅是用包含關系來篩選詞庫,獲得的分類就足夠有用了。


    国产亚洲精品无码成人| 亚洲欧美中文日韩在线v日本 | 亚洲日韩精品一区二区三区无码 | 日韩一区二区三区无码影院| 日韩中文字幕免费视频| 国产精品无码一区二区在线观一| 曰韩精品无码一区二区三区| 亚洲伦另类中文字幕| 欧美乱人伦中文字幕在线| 精品无码一区二区三区爱欲| 大桥久未无码吹潮在线观看| 乱人伦中文字幕在线看| 忘忧草在线社区WWW中国中文| 99久久精品无码一区二区毛片| 无码人妻精品一区二区三区久久久 | 亚洲欧美成人久久综合中文网| 人妻无码αv中文字幕久久琪琪布| 色综合久久久久无码专区| 免费无码H肉动漫在线观看麻豆| 99高清中文字幕在线| 中文字幕丰满乱子伦无码专区| 精品无码专区亚洲| 国产精品毛片无码| 国产精品无码一区二区在线| av一区二区人妻无码| 国产精品无码a∨精品| 狠狠躁天天躁无码中文字幕图| 无码专区狠狠躁躁天天躁| 无套内射在线无码播放| 无码精品A∨在线观看中文| 亚洲Av无码专区国产乱码DVD| 亚洲AV无码久久精品狠狠爱浪潮| 精品日韩亚洲AV无码一区二区三区| 中文字幕在线播放| 国模无码人体一区二区| 亚洲精品无码永久在线观看你懂的 | 最新中文字幕AV无码不卡| 精品久久久无码人妻中文字幕 | 中文字幕日本精品一区二区三区| 最近最新中文字幕高清免费| 一二三四在线观看免费中文在线观看 |