<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    SEO如何處理采集內容(中)

    作者:聚擎 瀏覽:219 發布時間:2017-06-28
    分享 評論 0

     上回說道處理采集內容的兩個先后步驟:

      對原始內容的處理

      對處理后內容進行組織

      第一塊,對原始內容的處理,上篇主要針對html源碼信息的處理,但沒說對文本信息該如何處理。

      下面分享下本渣渣曾經使用的一些,對采集內容文本的處理方式…

      對原始采集內容文本信息的處理

      對元數據的處理,這邊忽略,因為元數據主要是添加邏輯上的映射。比如我一個企業黃頁的網站,去抓了“XXX公司的規模、商標、年營業額、法人信息”等元數據,我需將這些元數據與本站庫內對應的企業做個關聯即可。因為元數據屬于短文本,即采即上,無需做重復性方面的處理。

     
    seo內容
     

      如果采集內容是連續大段的長文本,為了保證SEO效果,對html源碼處理后,也可以進行文本的處理。

      文本信息處理,包括標題和正文兩部分(不考慮人工修改,只考慮批量處理)

      標題

      要我說SEO最重要的點、最最核心的點,就是“詞”,其他的SEO手法、技巧都是在“選對詞”的基礎上才有大效果。

      最終目的是讓標題中出現用戶可能會搜索的詞,詳情頁標題中的詞最好是有一點點搜索量的、百度搜索結果少的,而不是熱詞、誰都搶著做的詞。

      首先一個網頁標題出現的關鍵詞越熱門,被收錄的幾率越低,這是可以肯定的,所以不要58趕集這些大站點做啥詞,一個采集站也跟著做,除非本身權重高,否則基本沒戲的。

      其次,在垂直行業領域和充滿個性化搜索內容的領域,競爭小且有些流量的詞可以挖出很多的。垂直領域的這些詞不容易找,因為需要對行業的理解,僅靠SEO工具不容易發現。

      個性化搜索內容領域,如編程開發、娛樂八卦等,這類領域永遠充滿個性化的搜索詞,隨著時間的推移會源源不斷的產生新的搜索行為,只要搜索引擎不完蛋,這個領域就永遠充滿搜索流量,所以仔細觀察,好些活的挺長的流量站,內容選型大多符合這個特性,不像“招聘、二手車”之類的行業,用戶的搜索行為基本是不變的,幾個站都搶同一批詞,都飽和白熱化了,流量自然不好做。

      采集標題如何插入搜索詞

      如果采集的目標網站,他們的標題本身就不符合SEO,比如抓了一堆新聞標題,如何讓標題盡可能的集中用戶可能會搜的詞?本渣渣之前嘗試過這些方法:

      方法一:精簡原始標題

      步驟如下:

      對原始標題分詞

      去除停止詞

      獲取詞綴詞性

      去除修飾詞,如形容詞、副詞、介詞…,保留原標題主謂賓,獲取句子主干

      基于python的jieba模塊實現,要刪除的修飾詞可以預先分析大量的標題來提取,追加到字典中。github有現成的提取句子主干的輪子,好像用的nltk。

      貌似1688部分產品頁的title就是這么搞的,把用戶發布的產品名中一些無關大雅的詞綴干掉,提取主干放到title標簽中。

      方法二:插入搜索詞

      步驟如下:

      搭建xunsearch或其他的開源搜索,對采集標題創建索引

      用提前準保好的搜索詞(就是要做的那些詞)依次到搜索接口中搜索

      對搜索結果中出現的標題前方插入當前搜索詞

      比如原標題是:“斗魚美女主播直播睡覺一夜狂瀾20萬”…..,我要做的詞有“斗魚美女直播”,則標題前插入關鍵詞:“[斗魚美女直播]斗魚美女主播直播睡覺一夜狂瀾20萬”

      當然也可以:“{強行插入的搜索詞}{精簡后的原始標題}”

      方法三:插入當前標題已包含搜索詞的衍生詞、相關搜索詞

      步驟如下:

      抓取標題已包含搜索詞的百度相關搜索或下拉框,或者通過Word2vec算法分析其他抓取內容正文,獲取該搜索詞的同義詞..

      標題中插入相關搜索或下拉框的詞

      如:”[{百度相關搜索詞1}]{精簡標題}”、“[{下拉框推薦詞1}{原始標題}]”……相互組合啦……

      正文

      正文的處理主要是針對重復性,盡量降低與原始內容的相似性,本渣渣用過以下方法:

      正文開頭、結尾處插入隨機文本

      比如插入當前標題包含搜索詞的相關搜索詞:“本文包含其他主題:{相關搜索詞1}  {相關搜索詞2}  {相關搜索詞3}…”

      比如插入當前頁面的歷史referer詞,“用戶曾經通過 {referer詞1}  {referer詞2}  {referer詞3}…搜索到本頁”

      比如提前準備一些能夠通用的文本模板,隨機調用

      修改正文內容

      基于pagerank提取關鍵詞,textrank算法提取文本摘要,其實就是把正文內容精簡,提取主干信息,可能最終獲得原始內容50%左右的字數。

      為了防止字數過少,可以提前用k-means和tfidf,找出當前文章的相似文章,可以提取它們正文字數最長的段落的摘要,加到當前的文章中用作字數上的補全。

      這樣基本上文章是讀的通的,符合中文語法,且原始正文是以詞綴為粒度的刪減,所以一定程度能夠減少搜索引擎三字一判的重復性識別,對用戶和搜索引擎都相對友好,雖然肯定比不上人工編輯的質量,但比市面上粗暴的同義詞替換、段落增刪的軟件比起來好很多。比中文原封不動不改好一些。

    国模无码人体一区二区| 中文有码vs无码人妻| 午夜无码视频一区二区三区 | 最新无码A∨在线观看| 亚洲大尺度无码专区尤物| 色噜噜亚洲精品中文字幕| 欧洲无码一区二区三区在线观看| 精选观看中文字幕高清无码| 中文字幕无码久久人妻| AV无码人妻中文字幕| 西西午夜无码大胆啪啪国模| 国模吧无码一区二区三区| 亚洲AV中文无码乱人伦在线观看| 日本中文字幕在线2020| 亚洲中文字幕无码永久在线 | 国产精品午夜福利在线无码| 中文字幕无码日韩专区免费| 欧美日韩中文国产va另类| 亚洲色成人中文字幕网站| 五月婷婷无码观看| 免费a级毛片无码免费视频120软件 | 亚洲VA成无码人在线观看天堂| 最近免费中文字幕mv电影| 人妻丰满av无码中文字幕| 天堂√中文最新版在线| 99在线精品国自产拍中文字幕 | 亚洲AV永久无码天堂影院| 精品人妻大屁股白浆无码 | 无码人妻AV一二区二区三区| 中文字幕有码无码AV| 亚洲中文字幕无码日韩| 在线观看片免费人成视频无码| 中文字幕无码人妻AAA片| 暴力强奷在线播放无码| 精品无码一区二区三区在线| 一二三四在线播放免费观看中文版视频| 精品一区二区三区中文字幕| 99久久中文字幕| 亚洲伊人久久综合中文成人网| 日韩精品无码免费专区网站| 亚洲中久无码永久在线观看同|