<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    SEO如何處理采集內容

    作者:聚擎 瀏覽:51 發布時間:2017-07-01
    分享 評論 0

     有人說采集內容對搜索引擎友好性不高,不容易獲得排名,這個是肯定且必然的。

     
    seo內容采集
     

      對大多站點,上采集內容必定不如UGC、精心編輯過的內容來的效果好。但是,現在搜索引擎能獲取到的原創內容量已經不如之前多了,畢竟內容生產平臺已經轉移了,早就不集中在網站上了。另外幾個搜索引擎之間還相互抓,何況小站點呢。

      所以采集內容依舊是有效的,只不過對采集內容后加工的成本越來越高了。

      采集內容的后加工

      擔心采集內容效果差,或者容易被K,主要還是看怎么對內容后加工。打個比方:

      好比從沃爾瑪拿了一筐獼猴桃,原封不動的放到家樂福,頂多還只能是原來的售價,因為獼猴桃還是獼猴桃,商品不變。但把獼猴桃榨成汁(形態變化),加點水分瓶裝(粒度變化),再放到711里賣(平臺變化),售價可以翻幾倍(價值增益)

      為啥?

      因為形態變了,果汁是不同于水果的商品,且果汁更容易吸收

      因為平臺變了,711定價本身就比沃爾瑪家樂福要高一點

      因為粒度變了,一生二二生三三生萬物

      前三者的變化,導致價值的翻倍

      如果把“采集內容”比作“獼猴桃”,則對“采集內容”的后加工策略如下:

      形態

      組織內容方式無窮多,無論對同一個內容掰開了揉碎了分發到多處、還是多篇相關內容聚合到一處、還是其他方式,都可以讓搜索引擎更容易接受。

      平臺

      術業有專攻,從新浪抓一些垂直行業內容放到對應行業的垂直網站,肯定比放到新浪更合適。把專業化的內容放到專業的網站。

      粒度

      同樣是抓取的內容,粒度越細,在搜索引擎中的原創度越高。舉個極端的例子,星座股票起名八卦算命生辰八字風水算命qq圖片動態圖….此類型的站,哪個內容不是重復的?

      增益

      采集的目的在于補全內容上的漏洞,使同主題的內容比別人更加豐富飽滿充實,則產生了頁面內容價值上的增益。

      采集內容完整流程

      關于“采集內容處理”,從抓取到上線整個流程看,要搞定以下問題:

      采集內容從哪來?

      采集內容怎么抓?

      采集內容如何處理?

      采集內容從哪來?

      對于正經做站且做正經站的,定向采集、買專業數據更合適。

      定向采集,只抓幾個特定網站的特定范圍,與本站內容漏洞高度相關的。

      對于不正經做站的,可選擇的范圍就多很多了,沾點邊的內容都可以抓,講究量大,所以不需要限定某幾個站的抓取,有人叫泛采集

      設置幾個主題,直接抓各種大平臺的搜索結果便可。大平臺指什么?海量內容集中的地方:各類搜索引擎、各類門戶、今日頭條、微信微博、優酷土豆等等

      采集內容怎么抓?

      定向采集:

      略,平常怎么抓就怎么抓。

      泛采集:

      定向爬蟲受限于網頁模板,在此基礎上加上幾個內容分析算法來提取內容,改成通用爬蟲。

      好多瀏覽器插件,如印象筆記之類的,有好多類似“只看正文”的功能,點一下只顯示當前瀏覽網頁的正文信息,很多人已經把此類算法移植到python、php、java等編程語言上,搜索下便是。

      采集內容如何處理?

      兩個先后過程:

      對原始內容的處理

      對處理后內容進行組織

      對原始內容的處理

      百度專利說過,搜索引擎除了根據正文判斷內容相似性,也會根據html的dom節點的位置和順序來判斷,如果兩個網頁正文的html的結構相似,也可能當做重復內容來處理。

      所以,采集的內容不能直接拿來就上,要對源碼清洗一下。每個人方式各異,個人一般做如下處理:

      html清洗

      保留主要標簽:p、img

      刪除標簽中不重要的屬性

      a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip()

      b = re.sub(r'<p[^>]*?>','<p>',a)

      newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()

      刪除中文字數 < 100字的

      text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)

      text2 = re.sub('<[^>]*?>','',text)

      words_number = len(text2)

      去除垃圾信息

      如“XXX網小編:XXX”、郵箱網址等。。。

      對處理后內容進行組織

    中文字幕Av一区乱码| 久久亚洲精品无码aⅴ大香| 亚洲精品无码久久千人斩| 无码AV中文一区二区三区| 无码AV中文字幕久久专区| 亚洲精品人成无码中文毛片| 久久精品无码专区免费| 午夜不卡无码中文字幕影院| 久久精品亚洲乱码伦伦中文| 亚洲最大av无码网址| 911国产免费无码专区| 亚洲AV无码精品色午夜在线观看| 在线天堂资源www在线中文| 久久久久成人精品无码中文字幕| 无码视频在线播放一二三区| 久久精品中文无码资源站| 亚洲午夜国产精品无码| 无码国产精品一区二区免费式直播 | 中出人妻中文字幕无码| 亚洲成A人片在线观看中文| www.中文字幕| 亚洲成人中文字幕| 日韩久久久久久中文人妻 | 亚洲人成无码网站久久99热国产| 久久水蜜桃亚洲av无码精品麻豆| 亚洲AV永久无码精品成人| 乱人伦中文无码视频在线观看| 区三区激情福利综合中文字幕在线一区亚洲视频1 | www无码乱伦| 91精品久久久久久无码 | 久久久精品人妻无码专区不卡| 国产成人无码一区二区在线播放| 无码AV中文字幕久久专区| 无码精品日韩中文字幕| 久久人妻少妇嫩草AV无码专区 | 韩国免费a级作爱片无码| 精品无码人妻一区二区三区| 久久男人Av资源网站无码软件| 久久亚洲精品成人av无码网站| 日韩av无码中文字幕| 成人无码午夜在线观看|