<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    搜索引擎索引系統(tǒng)概述(一)

    作者:月光邊境 瀏覽:2690 發(fā)布時(shí)間:2017-04-29
    分享 評(píng)論 0

    眾所周知,搜索引擎的主要工作過程包括:抓取、存儲(chǔ)、頁面分析、索引、檢索等幾個(gè)主要過程。過去幾周給大家介紹了抓取相關(guān)的簡(jiǎn)要過程。今天簡(jiǎn)要介紹一下索引系統(tǒng),以億為單位的網(wǎng)頁庫中查找特定的某些關(guān)鍵詞猶如大海里面撈針,也許一定的時(shí)間內(nèi)可以完成查找,但是用戶等不起,從用戶體驗(yàn)角度我們必須在毫秒級(jí)別給予用戶滿意的結(jié)果,否則用戶只能流失。怎樣才能達(dá)到這種要求呢?

      如果能知道用戶查找的關(guān)鍵詞(query切詞后)都出現(xiàn)在哪些頁面中,那么用戶檢索的處理過程即可以想象為包含了query中切詞后不同部分的頁面集合求交的過程,而檢索即變成了頁面名稱之間的比較、求交。這樣,在毫秒內(nèi)以億為單位的檢索成為了可能。這就是通常所說的倒排索引及求交檢索的過程。如下為建立倒排索引的基本過程:

      (1)頁面分析的過程實(shí)際上是將原始頁面的不同部分進(jìn)行識(shí)別并標(biāo)記,例如:title、keywords、content、link、anchor、評(píng)論、其他非重要區(qū)域等等;

      (2)分詞的過程實(shí)際上包括了切詞分詞同義詞轉(zhuǎn)換同義詞替換等等,以對(duì)某頁面title分詞為例,得到的將是這樣的數(shù)據(jù):term文本、termid、詞類、詞性等等;

      (3)之前的準(zhǔn)備工作完成后,接下來即是建立倒排索引,形成{termàdoc},可以粗略的理解為如下,為什么是【term->doc】,而不是直接應(yīng)用【doc->term】呢?

      上述即是索引系統(tǒng)中的倒排索引過程,是搜索引擎實(shí)現(xiàn)毫秒級(jí)檢索非常重要的一個(gè)環(huán)節(jié)。

    亚洲AV无码乱码在线观看牲色| 国产一区三区二区中文在线 | 97无码人妻福利免费公开在线视频| 国产午夜精品无码| 日韩欧美成人免费中文字幕| 人妻少妇无码视频在线| 亚洲AV中文无码乱人伦下载| 日韩中文字幕在线不卡| 中文字幕久久精品无码| 内射无码午夜多人| 国产乱人伦Av在线无码| 亚洲av永久无码制服河南实里| 中文字幕在线一区二区在线| 中文字幕av无码一区二区三区电影| av潮喷大喷水系列无码| 色窝窝无码一区二区三区色欲| 精品日韩亚洲AV无码一区二区三区| 久久亚洲AV成人无码| 欧美日韩中文字幕在线| 日本阿v网站在线观看中文| 中文字幕亚洲欧美日韩2019| 国产精品无码A∨精品影院 | 国产在线精品无码二区| 亚洲色无码专区在线观看| 在线亚洲欧美中文精品| 最近2019中文字幕免费大全5| 中文字幕人妻无码专区| 中文字幕久精品免费视频| 佐藤遥希在线播放一二区| 无码色AV一二区在线播放| 蜜臀AV无码国产精品色午夜麻豆| 97久久精品无码一区二区天美| 无码人妻少妇久久中文字幕蜜桃| 无码人妻一区二区三区免费n鬼沢| 无码人妻一区二区三区在线视频| 亚洲国产a∨无码中文777| 亚洲中文字幕无码爆乳AV| 亚洲AV永久无码精品一百度影院 | 在人线AV无码免费高潮喷水 | 无码专区中文字幕无码| 无码GOGO大胆啪啪艺术|