在做網(wǎng)站結構分析之前,要理解搜索引擎蜘蛛是擬人化的算法而已。算法就是按部就班的執(zhí)行事先設計的抓取策略,所以良好的網(wǎng)站結構具備引導、分配權重、提高抓取效率等作用,只有內(nèi)部框架搭建好之后,內(nèi)容的布局才能井然有序,蜘蛛才能有序爬行。
網(wǎng)站結構
事先應該考慮到的問題:
蜘蛛是否實現(xiàn)邏輯上的全站抓取
蜘蛛是否可以區(qū)分頁面重要性
蜘蛛是否可以提取頁面的關鍵詞
一、邏輯上全站爬行
網(wǎng)站結構優(yōu)化
網(wǎng)站物理結構,即基于內(nèi)容聚合的目錄及文件位置決定的結構。目前的主流思維就是網(wǎng)站扁平化設計,即平行結構。
鏈接結構優(yōu)化
兩種蜘蛛抓取不到的頁面:網(wǎng)站本身不希望被收錄的頁面;沒有鏈接到達的頁面,即孤島頁面。對于沒有被首頁推薦的頁面,可以再內(nèi)鏈上補充。合理的內(nèi)鏈就是一個四通八達、井然有序的交通系統(tǒng),蜘蛛就是來往的車輛。社會化、描文本、設置鏈接入口等。
Domain結構優(yōu)化
主要是二級域名和二級目錄的選擇策略。沒有絕對的好與不好,就科易網(wǎng)小編來說目前公司網(wǎng)站正在有二級域名網(wǎng)站結構向二級目錄轉變,只是采取適應當前科易網(wǎng)發(fā)展的核心:塑造公司品牌。所以根據(jù)自身特點選擇合理的domain策略。
二、重要性的主導
對于搜索引擎來說,什么樣頁面會被認為“更重要”?有這么一句話:每個鏈接都是一個投票,意思是:頁面的所有鏈接都是投票。在搜索引擎看來:獲得更多內(nèi)部投票的網(wǎng)頁相對來說更加重要。
三、網(wǎng)頁的標簽:關鍵詞
搜索引擎在分析頁面的內(nèi)容是優(yōu)先從TDK入手,即title、description、keyword;之后就是H標簽、alt標簽;最后是TF-IDF ,即詞頻-文件頻率。從三個的關聯(lián)度定義頁面的“標簽”,即抓取的時頁面的定義的關鍵詞。
評論(0人參與,0條評論)
發(fā)布評論
最新評論