觸屏版
全國服務熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
此問題,有幾個網(wǎng)友在QQ上和我詢問,才覺得貌似部分人在這里是存在誤區(qū)的。那么今天展開來一起討論下爬蟲可以檢測重復率嗎?
首先,要明確一點,爬蟲本身做的工作是在互聯(lián)網(wǎng)上尋找URL地址,然后取網(wǎng)頁中的內(nèi)容。爬蟲的“抓”和“取”是兩個動作。抓是找網(wǎng)址,取是把找到的網(wǎng)址里的內(nèi)容下載下來。這個內(nèi)容寬泛來說是指整個網(wǎng)頁的源代碼。爬蟲最重要的工作就是這兩個。對于是否能夠檢測網(wǎng)頁的重復率不是爬蟲完成。
但換一個問法,搜索引擎可以檢測網(wǎng)頁的重復率嗎?這個是可以的。搜索引擎要實現(xiàn)最后的結(jié)果,中間經(jīng)過的處理環(huán)節(jié)很多。而在對數(shù)據(jù)處理的過程中,先提取你網(wǎng)頁源代碼中的文本信息,然后進行分詞,分詞之后就可以知道在你的網(wǎng)頁中某些詞在你網(wǎng)頁中出現(xiàn)了多少次。中間再把格式不一樣但內(nèi)容一樣的做去重。最后你網(wǎng)頁有價值的檢索詞就出現(xiàn)了,同時你網(wǎng)頁的重復性也就此得知了。
評論(0人參與,0條評論)
發(fā)布評論
最新評論