提問者:云客網(wǎng)官方問答 | 分類:百度優(yōu)化 | 瀏覽82次 | 懸賞分:0積分 2017-03-06 11:05:28
我要回答
女神
1、www:互聯(lián)網(wǎng),一個巨大的、復雜的體系; 2、搜集器:俗稱蜘蛛,爬蟲,工作任務就是訪問頁面,抓取頁面,并下載頁面; 3、控制器:蜘蛛下載下來的傳給控制器,功能是調(diào)度,主要來控制蜘蛛的抓取間隔,以及派最近的蜘蛛去抓取; 4、原始數(shù)據(jù)庫:存取網(wǎng)頁的數(shù)據(jù)庫,就是原始數(shù)據(jù)庫。存進去就是為了下一步的工作,以及提供百度快照。 原始數(shù)據(jù)庫主要功能是存入和讀取的速度,以及存取的空間,會通過壓縮,以及為后面提供服務。網(wǎng)頁數(shù)據(jù)庫調(diào)度程序?qū)⒅┲胱ト』貋淼木W(wǎng)頁,進行簡單的分析過后,也就是提取了URL,簡單的過濾鏡像后存入數(shù)據(jù)當中。 5、網(wǎng)頁分析模板:垃圾網(wǎng)頁、鏡像網(wǎng)頁的過濾,網(wǎng)頁的權(quán)重計算全部都集中在這一塊。 6、索引器:把有價值的網(wǎng)頁存入到索引數(shù)據(jù)庫,目的是查詢的速度更加的快。把有價值的網(wǎng)頁轉(zhuǎn)換另外一個表現(xiàn)形式,把網(wǎng)頁轉(zhuǎn)換為關鍵詞。建立索引的原因:為了便利,提高效率。一個詞在多少個網(wǎng)頁中出現(xiàn),把詞變成網(wǎng)頁這么一個對列過程叫做倒排索引。搜索結(jié)果就是在倒排數(shù)據(jù)庫簡直的獲取數(shù)據(jù),把很多的排名因素作為一個項,存儲在這個里面); 7、索引數(shù)據(jù)庫:將來用于排名的數(shù)據(jù)。關鍵詞數(shù)量,關鍵詞位置,網(wǎng)頁大小,關鍵詞特征標簽,指向這個網(wǎng)頁(內(nèi)鏈,外鏈,錨文本),用戶體驗這些數(shù)據(jù)全部都存取在這個里面,提供給檢索器。 8、檢索器:將用戶查詢的詞,進行分詞,再進行排序,通過用業(yè)內(nèi)接口把結(jié)果返回給用戶。負責切詞,分詞,查詢,根據(jù)排名因素進行數(shù)據(jù)排序; 9、用戶接口:將查詢記錄,IP,時間,點擊的URL,以及URL位置,上一次跟下一次點擊的間隔時間存入到用戶行為日志數(shù)據(jù)庫當中。 10、用戶行為日志數(shù)據(jù)庫:搜索引擎的重點,用戶使用搜索引擎的過程,和動作; 11、日志分析器:通過用戶行為日志數(shù)據(jù)庫進行不斷的分析,把這些行為記錄存儲到索引器當中, 12、詞庫:網(wǎng)頁分析模塊中日志分析器會發(fā)現(xiàn)最新的詞匯存入到詞庫當中,通過詞庫進行分詞,網(wǎng)頁分析模塊基于詞庫的。
1***覽
下圖:搜索引擎工作原理的圖片百度搜索優(yōu)化的原理:1、www:互聯(lián)網(wǎng),一個巨大的、復雜的體系;2、搜集器:俗稱蜘蛛,爬蟲,工作任務就是訪問頁面,抓取頁面,并下載頁面;3、控制器...