<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    SEO如何處理采集內(nèi)容

    作者:聚擎 瀏覽:178 發(fā)布時(shí)間:2017-06-28
    分享 評(píng)論 0

    有人說(shuō)采集內(nèi)容對(duì)搜索引擎友好性不高,不容易獲得排名,這個(gè)是肯定且必然的。

     
    seo內(nèi)容采集
     

      對(duì)大多站點(diǎn),上采集內(nèi)容必定不如UGC、精心編輯過(guò)的內(nèi)容來(lái)的效果好。但是,現(xiàn)在搜索引擎能獲取到的原創(chuàng)內(nèi)容量已經(jīng)不如之前多了,畢竟內(nèi)容生產(chǎn)平臺(tái)已經(jīng)轉(zhuǎn)移了,早就不集中在網(wǎng)站上了。另外幾個(gè)搜索引擎之間還相互抓,何況小站點(diǎn)呢。

      所以采集內(nèi)容依舊是有效的,只不過(guò)對(duì)采集內(nèi)容后加工的成本越來(lái)越高了。

      采集內(nèi)容的后加工

      擔(dān)心采集內(nèi)容效果差,或者容易被K,主要還是看怎么對(duì)內(nèi)容后加工。打個(gè)比方:

      好比從沃爾瑪拿了一筐獼猴桃,原封不動(dòng)的放到家樂(lè)福,頂多還只能是原來(lái)的售價(jià),因?yàn)楂J猴桃還是獼猴桃,商品不變。但把獼猴桃榨成汁(形態(tài)變化),加點(diǎn)水分瓶裝(粒度變化),再放到711里賣(mài)(平臺(tái)變化),售價(jià)可以翻幾倍(價(jià)值增益)

      為啥?

      因?yàn)樾螒B(tài)變了,果汁是不同于水果的商品,且果汁更容易吸收

      因?yàn)槠脚_(tái)變了,711定價(jià)本身就比沃爾瑪家樂(lè)福要高一點(diǎn)

      因?yàn)榱6茸兞耍簧f(wàn)物

      前三者的變化,導(dǎo)致價(jià)值的翻倍

      如果把“采集內(nèi)容”比作“獼猴桃”,則對(duì)“采集內(nèi)容”的后加工策略如下:

      形態(tài)

      組織內(nèi)容方式無(wú)窮多,無(wú)論對(duì)同一個(gè)內(nèi)容掰開(kāi)了揉碎了分發(fā)到多處、還是多篇相關(guān)內(nèi)容聚合到一處、還是其他方式,都可以讓搜索引擎更容易接受。

      平臺(tái)

      術(shù)業(yè)有專攻,從新浪抓一些垂直行業(yè)內(nèi)容放到對(duì)應(yīng)行業(yè)的垂直網(wǎng)站,肯定比放到新浪更合適。把專業(yè)化的內(nèi)容放到專業(yè)的網(wǎng)站。

      粒度

      同樣是抓取的內(nèi)容,粒度越細(xì),在搜索引擎中的原創(chuàng)度越高。舉個(gè)極端的例子,星座股票起名八卦算命生辰八字風(fēng)水算命qq圖片動(dòng)態(tài)圖….此類(lèi)型的站,哪個(gè)內(nèi)容不是重復(fù)的?

      增益

      采集的目的在于補(bǔ)全內(nèi)容上的漏洞,使同主題的內(nèi)容比別人更加豐富飽滿充實(shí),則產(chǎn)生了頁(yè)面內(nèi)容價(jià)值上的增益。

      采集內(nèi)容完整流程

      關(guān)于“采集內(nèi)容處理”,從抓取到上線整個(gè)流程看,要搞定以下問(wèn)題:

      采集內(nèi)容從哪來(lái)?

      采集內(nèi)容怎么抓?

      采集內(nèi)容如何處理?

      采集內(nèi)容從哪來(lái)?

      對(duì)于正經(jīng)做站且做正經(jīng)站的,定向采集、買(mǎi)專業(yè)數(shù)據(jù)更合適。

      定向采集,只抓幾個(gè)特定網(wǎng)站的特定范圍,與本站內(nèi)容漏洞高度相關(guān)的。

      對(duì)于不正經(jīng)做站的,可選擇的范圍就多很多了,沾點(diǎn)邊的內(nèi)容都可以抓,講究量大,所以不需要限定某幾個(gè)站的抓取,有人叫泛采集

      設(shè)置幾個(gè)主題,直接抓各種大平臺(tái)的搜索結(jié)果便可。大平臺(tái)指什么?海量?jī)?nèi)容集中的地方:各類(lèi)搜索引擎、各類(lèi)門(mén)戶、今日頭條、微信微博、優(yōu)酷土豆等等

      采集內(nèi)容怎么抓?

      定向采集:

      略,平常怎么抓就怎么抓。

      泛采集:

      定向爬蟲(chóng)受限于網(wǎng)頁(yè)模板,在此基礎(chǔ)上加上幾個(gè)內(nèi)容分析算法來(lái)提取內(nèi)容,改成通用爬蟲(chóng)。

      好多瀏覽器插件,如印象筆記之類(lèi)的,有好多類(lèi)似“只看正文”的功能,點(diǎn)一下只顯示當(dāng)前瀏覽網(wǎng)頁(yè)的正文信息,很多人已經(jīng)把此類(lèi)算法移植到python、php、java等編程語(yǔ)言上,搜索下便是。

      采集內(nèi)容如何處理?

      兩個(gè)先后過(guò)程:

      對(duì)原始內(nèi)容的處理

      對(duì)處理后內(nèi)容進(jìn)行組織

      對(duì)原始內(nèi)容的處理

      百度專利說(shuō)過(guò),搜索引擎除了根據(jù)正文判斷內(nèi)容相似性,也會(huì)根據(jù)html的dom節(jié)點(diǎn)的位置和順序來(lái)判斷,如果兩個(gè)網(wǎng)頁(yè)正文的html的結(jié)構(gòu)相似,也可能當(dāng)做重復(fù)內(nèi)容來(lái)處理。

      所以,采集的內(nèi)容不能直接拿來(lái)就上,要對(duì)源碼清洗一下。每個(gè)人方式各異,個(gè)人一般做如下處理:

      html清洗

      保留主要標(biāo)簽:p、img

      刪除標(biāo)簽中不重要的屬性

      a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip()

      b = re.sub(r'<p[^>]*?>','<p>',a)

      newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()

      刪除中文字?jǐn)?shù) < 100字的

      text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)

      text2 = re.sub('<[^>]*?>','',text)

      words_number = len(text2)

      去除垃圾信息

      如“XXX網(wǎng)小編:XXX”、郵箱網(wǎng)址等。。。

      對(duì)處理后內(nèi)容進(jìn)行組織

    久久99久久无码毛片一区二区 | 免费一区二区无码东京热| 无码区国产区在线播放| 最近更新中文字幕第一页| 国产精品午夜福利在线无码| 亚洲av无码一区二区三区网站| 色综合久久综合中文综合网| 精品一区二区无码AV| 日韩精品无码一区二区三区不卡 | 熟妇人妻中文a∨无码| 久久久噜噜噜久久中文福利| 无码高清不卡| 国产乱子伦精品无码专区| 亚洲AV无码成人网站久久精品大| 欧美麻豆久久久久久中文| 少妇中文字幕乱码亚洲影视| 中文字幕在线亚洲精品| 国产亚洲情侣一区二区无码AV| 无码乱人伦一区二区亚洲一 | 少妇人妻无码精品视频app| 狠狠躁天天躁中文字幕无码| 在线天堂资源www在线中文| 中文字幕一区二区精品区| 天堂√中文最新版在线| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 中文字幕一区二区人妻| 国产激情无码一区二区app| 无码人妻精品一区二区三区东京热| 中文字幕一区二区免费| 91中文在线观看| 亚洲日本中文字幕区| 亚洲久本草在线中文字幕| 狠狠躁天天躁无码中文字幕| 日韩高清在线中文字带字幕 | 亚洲精品成人无码中文毛片不卡| 日韩精品无码Av一区二区| 99久久精品无码一区二区毛片| 国产高清无码二区| 亚洲av无码一区二区三区人妖| 中文字幕网伦射乱中文| 中文有码vs无码人妻|