<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    怎樣減少無效URL的爬行和索引

    作者:青檸i 瀏覽:136 發布時間:2018-05-19
    分享 評論 0

        少年老成的云晨守望同學(題外話:少年老成是好事哈.我20多歲時人家說我像40歲,我40多歲時好多人說我像30多,男人20到50歲可以做到基本一個樣子)貼了個帖子:透過京東商城看國內一線B2C網站seo通病.建議先看那個帖子再回來看本帖,不然不容易明白下面在說什么.


        簡單說,帖子指出一個嚴重而且現實的seo問題:很多網站,尤其是B2C,產品條件過濾系統(如選擇產品的品牌、價格、尺寸、性能、參數等)會產生大量無效URL,之所以稱為無效只是從seo角度看的,這些URL并不能產生SEO作用,反倒有負面作用,所以這些URL不收錄為好,原因包括:


        1.大量過濾條件頁面內容重復或極為類似(大量復制內容將使網站整體質量下降)


        2.大量過濾條件頁面沒有對應產品,頁面無內容(如選擇"100元以下42寸LED電視"之類的)


        3.絕大部分過濾條件頁面沒有排名能力(排名能力比分類頁面低得多)卻浪費一定權重


        4.這些過濾條件頁面也不是產品頁面收錄的必要通道(產品頁面應該有其它內鏈幫助爬行和收錄)


        5.爬行大量過濾條件頁面極大浪費蜘蛛爬行時間,造成有用頁面收錄機會下降(過濾條件頁面組合起來是巨量的)


        那么怎樣盡量使這些URL不被爬行和索引、收錄呢?前幾天的一篇帖子如何隱藏內容也可能成為SEO問題討論的是類似問題,這種過濾頁面就是想隱藏的內容種類之一.不過可惜,我目前想不出完美的解決方法.云晨守望提出兩個方法,我覺得都無法完美解決.


        一是將不想收錄的URL保持為動態URL,甚至故意越動態越好,以阻止被爬行和收錄.但是,搜索引擎現在都能爬行、收錄動態URL,而且技術上越來越不是問題.雖然參數多到一定程度確實不利于收錄,但4、5個參數通常還可以收錄.我們無法確認需要多少參數才能阻止收錄,所以不能當作一個可靠的方法.而且這些URL接收內鏈,又沒有什么排名能力,還是會浪費一定權重.


        第二個方法,robots禁止收錄.同樣,URL接收了內鏈也就接收了權重,robots文件禁止爬行這些URL,所以接收的權重不能傳遞出去(搜索引擎不爬行就不知道有什么導出鏈接),頁面成為權重只進不出的黑洞.


        連向這些URL的鏈接配合nofollow也不完美,和robots禁止類似,nofollow在Google的效果是這些URL沒有接收權重,權重卻也沒有被分配到其它鏈接上,所以權重同樣浪費了.百度據稱支持nofollow,但權重怎么處理未知.


        將這些URL鏈接放在Flash、JS里也沒有用,搜索引擎已經可以爬行Flash、JS里的鏈接,而且估計以后越來越擅長爬.很多SEO忽略了的一點是,JS中的鏈接不僅能被爬,也能傳遞權重,和正常連接一樣.


        也可以將過濾條件鏈接做成AJAX形式,用戶點擊后不會訪問一個新的URL,還是在原來URL上,URL后面加了#,不會被當成不同URL.和JS問題一樣,搜索引擎正在積極嘗試爬行、抓取AJAX里的內容,這個方法也不保險.


        還一個方法是在頁面head部分加noindex+follow標簽,意即本頁面不要索引,但跟蹤頁面上的鏈接.這樣可以解決復制內容問題,也解決了權重黑洞問題(權重是可以隨著導出鏈接傳到其它頁面的),不能解決的是浪費蜘蛛爬行時間問題,這些頁面還是要被蜘蛛爬行抓取的(然后才能看到頁面html里的noindex+follow標簽),對某些網站來說,過濾頁面數量巨大,爬行了這些頁面,蜘蛛就沒足夠時間爬有用頁面了.


        再一個可以考慮的方法是隱藏頁面(cloaking),也就是用程序檢測訪問者,是搜索引擎蜘蛛的話返回的頁面拿掉這些過濾條件鏈接,是用戶的話才返回正常的有過濾條件的頁面.這是一個比較理想的解決方法,唯一的問題是,可能被當作作弊.搜索引擎常跟SEO講的判斷是否作弊的最高原則是:如果沒有搜索引擎,你會不會這么做?或者說,某種方法是否只是為了搜索引擎而采用?顯然,用cloaking隱藏不想被爬行的URL是為搜索引擎做的,不是為用戶做的.雖然這種情況下的cloaking目的是美好的,沒有惡意的,但風險是存在的,膽大的可試用.


        還一個方法是使用canonical標簽,最大問題是百度是否支持未知,而且canonical標簽是對搜索引擎的建議,不是指令,也就是說這個標簽搜索引擎可能不遵守,等于沒用.另外,canonical標簽的本意是指定規范化網址,過濾條件頁面是否適用有些存疑,畢竟,這些頁面上的內容經常是不同的.


        目前比較好的方法之一是iframe+robots禁止.將過濾部分代碼放進iframe,等于調用其它文件內容,對搜索引擎來說,這部分內容不屬于當前頁面,也即隱藏了內容.但不屬于當前頁面不等于不存在,搜索引擎是可以發現iframe中的內容和鏈接的,還是可能爬行這些URL,所以加robots禁止爬行.iframe中的內容還是會有一些權重流失,但因為iframe里的鏈接不是從當前頁面分流權重,而只是從調用的那個文件分流,所以權重流失是比較少的.除了排版、瀏覽器兼容性之類的頭疼問題,iframe方法的一個潛在問題是被認為作弊的風險.現在搜索引擎一般不認為iframe是作弊,很多廣告就是放在iframe中,但隱藏一堆鏈接和隱藏廣告有些微妙的區別.回到搜索引擎判斷作弊的總原則上,很難說這不是專門為搜索引擎做的.記得Matt Cutts說過,Google以后可能改變處理iframe的方式,他們還是希望在同一個頁面上看到普通用戶能看到的所有內容.


        總之,對這個現實、嚴重的問題,我目前沒有自己覺得完美的答案.當然,不能完美解決不是就不能活了,不同網站SEO重點不同,具體問題具體分析,采用上述方法中的一種或幾種應該可以解決主要問題.


        而最最最大的問題還不是上述這些,而是有時候你想讓這些過濾頁面被爬行和收錄,這才是杯具的開始.以后再討論.


    高清无码在线视频| 国产亚洲精品a在线无码| 国产成年无码久久久久毛片| 色噜噜狠狠成人中文综合| 少妇人妻偷人精品无码视频新浪 | 中文字幕精品视频在线| 亚洲AV无码AV男人的天堂不卡| 在线a亚洲v天堂网2019无码| 中文字幕亚洲精品资源网| 亚洲AV无码乱码在线观看性色扶 | 久久精品aⅴ无码中文字字幕不卡 久久精品无码一区二区WWW | 精品日韩亚洲AV无码一区二区三区| 亚洲第一中文字幕| 国产亚洲中文日本不卡二区| yy111111少妇影院里无码| 日韩va中文字幕无码电影| 91中文字幕在线观看| 人妻系列无码专区久久五月天| 无码中文人妻视频2019| 日日日日做夜夜夜夜无码| 性无码专区一色吊丝中文字幕| 中文字幕久久精品无码| 免费无码午夜福利片| 精品无码av一区二区三区| 亚洲啪啪AV无码片| 中文字幕无码精品三级在线电影| 最近更新中文字幕在线| 中文字幕av一区| 久久无码AV中文出轨人妻| 亚洲精品99久久久久中文字幕| 熟妇人妻久久中文字幕| 久久综合中文字幕| 天堂网在线最新版www中文网| 日韩乱码人妻无码中文字幕久久| 日本阿v视频高清在线中文| 亚洲中文字幕无码久久精品1| 中文字幕无码一区二区三区本日| 亚洲精品无码专区在线播放| 亚洲综合最新无码专区| 最近免费中文字幕MV在线视频3| 亚洲AV无码一区二区一二区 |