<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    什么是搜索引擎的正排索引?

    作者:安徒生 瀏覽:474 發(fā)布時間:2018-04-07
    分享 評論 0

    正排索引也稱為“前向索引”。它是創(chuàng)建倒排索引的基礎(chǔ),具有以下字段。

    (1)Localld字段(表中簡稱“Lid”):表示一個文檔的局部編號。

    (2)Wordld字段:表示文檔分詞后的編號,也可稱為“索引詞編號”。

    (3)NHits字段:表示某個索引詞在文檔中出現(xiàn)的次數(shù)。

    (4)HitList變長字段:表示某個索引詞在文檔中出現(xiàn)的位置,即相對于正文的偏移量。

    由于一篇文章中的某些詞可能出現(xiàn)多次,而且位置不同,而全文檢索的本質(zhì)要求是把這些位置標識出來,因此HitList中的每個命中都表示索引詞在文檔的某個位置中出現(xiàn)了一次,這個序列為單調(diào)遞增序列。基于游程編碼的方法,變升序序列為差分序列,采用前文提到的Variable Byte Coding方法編碼可以大大壓縮正排索引的HitList字段。

    事實上,文檔編號在不同的計算過程里,分別稱為局部編號和全局編號,它們在編號長度上稍有不同,為了便于理解,不區(qū)別這些區(qū)別,認為Localld和Docld完全一致,都表示一個文檔的唯一編號。在正排索引中Localld采用升序序列編號(假定編號采用自增1的方式遞增),這為下面的計算創(chuàng)造條件。進行倒排索引的轉(zhuǎn)化時,由于正排索引中Lid天然的有序性,因此在正排索引轉(zhuǎn)化為倒排索引的創(chuàng)建過程中,自然可以保證倒排索引中每個詞匯對應(yīng)的文檔編號也是有序的.
     

    本質(zhì)上說,正排索引以文檔編號為視角看待索引詞,也就是通過文檔編號去找索引詞。任給一個文檔編號,能夠知道它包含了哪些索引詞、這些索引詞分別出現(xiàn)的次數(shù),以及索引詞出現(xiàn)的位置。然而全文索引是通過關(guān)鍵詞來檢索,而不是通過文檔編號來檢索,因此正排索引不能滿足全文檢索的要求。

    雖然正排索引不能滿足全文檢索的需要,但是正排索引為創(chuàng)建倒排索引創(chuàng)造了有利條件,是計算倒排索引的不可缺少的一環(huán)。


    成在线人免费无码高潮喷水| 五月天中文字幕mv在线女婷婷五月| 色综合久久中文色婷婷| 精品无码国产污污污免费网站| 日韩中文久久| 熟妇人妻VA精品中文字幕| 97人妻无码一区二区精品免费| 成人无码区免费A片视频WWW| 丝袜熟女国偷自产中文字幕亚洲 | 最近最新中文字幕高清免费| av无码久久久久久不卡网站| 亚洲国产精品无码久久98| 最近高清中文在线字幕在线观看| 亚洲无码视频在线| www无码乱伦| 无码AV片在线观看免费| 中出人妻中文字幕无码| 久久久这里有精品中文字幕| 亚洲乱码中文字幕综合| 亚洲欧美综合中文| 亚洲日韩VA无码中文字幕| 黑人无码精品又粗又大又长 | 午夜福利无码不卡在线观看| 久久精品中文字幕第23页 | 精品高潮呻吟99av无码视频| 最近最新中文字幕| 欧美日韩不卡一区二区三区中文字| 日韩久久久久久中文人妻| 亚洲精品无码av天堂| 亚洲伊人成无码综合网| 中文国产成人精品久久亚洲精品AⅤ无码精品| 日韩国产成人无码av毛片| 精品无码一区二区三区爱欲九九| 无码精品久久久久久人妻中字| 成人午夜福利免费无码视频| 中文字幕乱偷无码AV先锋 | 亚洲AV无码专区国产乱码4SE| 特级做A爰片毛片免费看无码| 中文自拍日本综合| 亚洲日韩国产二区无码| 精品无码AV无码免费专区|