<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    淺析搜索引擎原理:文件匹配與初始子集的篩選

    作者:飛鳥海搏 瀏覽:181 發(fā)布時(shí)間:2018-04-08
    分享 評(píng)論 0

        文件匹配與初始子集的選擇時(shí)搜索引擎在排名的過(guò)程中非常重要的兩個(gè)方面,今天就這兩個(gè)方面給大家做一些基礎(chǔ)性的總結(jié).雖然這些看似和我們沒(méi)有關(guān)系,但是大家多了解一些基礎(chǔ)性的原理,對(duì)以后網(wǎng)站的建設(shè)和優(yōu)化都有一定的指導(dǎo)意義,當(dāng)然,這些只是自己的一些總結(jié),如果有不對(duì)的地方,還希望大家做指正.


        當(dāng)搜索引擎經(jīng)過(guò)預(yù)處理的前幾個(gè)階段之后,搜索引擎得到的是以詞為單位的關(guān)鍵詞集合.在這個(gè)之前,搜索引擎首先得到的是一個(gè)文件對(duì)應(yīng)多個(gè)關(guān)鍵詞,但這樣的查詢效率太低也不現(xiàn)實(shí),所以搜索引擎會(huì)把這些文件進(jìn)行反向映射,得到的是一個(gè)關(guān)鍵詞對(duì)應(yīng)多個(gè)文件.這樣在用戶搜索某個(gè)關(guān)鍵詞的時(shí)候,就在這個(gè)關(guān)鍵詞對(duì)應(yīng)的所有文件中進(jìn)行計(jì)算和匹配,并返回給用戶最佳的搜索結(jié)果.了解了這個(gè)大體的過(guò)程,下邊就開始分享今天的兩個(gè)主要方面.


        首先是文件匹配:搜索引擎的蜘蛛是無(wú)時(shí)無(wú)刻的都在爬行和抓取,另外不斷對(duì)抓取的數(shù)據(jù)進(jìn)行整理歸納以及存儲(chǔ).這些過(guò)程并不是用戶在搜索的時(shí)候進(jìn)行的,而是在搜索之前以后預(yù)處理好的,真正當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí),搜索引擎只是在自己的數(shù)據(jù)庫(kù)中進(jìn)行查找,而不是實(shí)時(shí)的對(duì)互聯(lián)網(wǎng)上所有的網(wǎng)站進(jìn)行查找.為了表達(dá)的更加清楚,我以一個(gè)簡(jiǎn)易的圖來(lái)給大家說(shuō)明:


        這個(gè)圖就是典型的倒排索引快速匹配文件表,當(dāng)用戶搜"關(guān)鍵詞1 關(guān)鍵詞16",那么搜索引擎就會(huì)在這兩個(gè)詞對(duì)應(yīng)的所有文件中進(jìn)行簡(jiǎn)單的計(jì)算和匹配,找到既包含關(guān)鍵詞1也包含關(guān)鍵詞16的所有頁(yè)面.


        其次是初始子集篩選:子集就是為了更加快速的滿足用戶的需要,搜索引擎需要從所有的相關(guān)頁(yè)面中進(jìn)行選擇,只計(jì)算權(quán)重稍高的頁(yè)面返回給用戶,這個(gè)過(guò)程就是常說(shuō)的初始子集的篩選.大家可以試想,當(dāng)我們搜索某個(gè)關(guān)鍵詞時(shí),往往包含這個(gè)關(guān)鍵詞的頁(yè)面數(shù)量是巨大的,甚至幾十萬(wàn)、上百萬(wàn).如果搜索引擎從這么大的數(shù)據(jù)中進(jìn)行匹配的話時(shí)間顯然更長(zhǎng),為了更好的滿足用戶的需求,實(shí)際中搜索引擎只會(huì)選擇哪些權(quán)重高的頁(yè)面去匹配,但是什么樣的頁(yè)面才是權(quán)重高,才符合搜索引擎的條件呢?這就包含了多方面的內(nèi)容和頁(yè)面相關(guān)元素的影響,既有外部因素,也會(huì)有內(nèi)部因素.這個(gè)問(wèn)題不是本文總結(jié)的一個(gè)重點(diǎn),以后的文章會(huì)慢慢和大家分享.


        平時(shí)我們搜索時(shí)不可能一一產(chǎn)看所有的搜索結(jié)果,一般情況下只會(huì)去查看前幾頁(yè)甚至只是前幾名,雖然搜索引擎返回的相關(guān)結(jié)果有很多,但這些結(jié)果仍然是互聯(lián)網(wǎng)上符合條件眾多網(wǎng)頁(yè)中的一小部分,所以,用戶的搜索習(xí)慣在發(fā)生變化,搜索引擎也面臨著很大的挑戰(zhàn),如何能更好的幫助用戶搜索到需要的信息,永遠(yuǎn)是搜索引擎在努力的一件事.


        到這里,通過(guò)文件匹配以及初始子集的篩選給大家分享了一些搜索引擎的基本原理,當(dāng)然,在技術(shù)上往往要涉及的東西還有很多,考慮的各方面也更周全、更復(fù)雜,這些只是在大體的原理上給大家做了總結(jié).通過(guò)了解搜索引擎的各個(gè)方面,對(duì)于我們網(wǎng)站的建設(shè)以及搜索引擎優(yōu)化都能起到一定的指導(dǎo)作用.


    精品人体无码一区二区三区| 日本无码WWW在线视频观看| 我的小后妈中文翻译| 久久亚洲AV无码西西人体| 亚洲中文字幕久久精品无码喷水 | 五月天中文字幕mv在线女婷婷五月 | 国内精品久久久久久中文字幕| 国产成人精品无码片区在线观看 | 中文字幕一区二区三区久久网站 | 无码国内精品久久综合88| 亚洲高清无码专区视频| 色综合久久无码五十路人妻| 在线看片福利无码网址| 18禁网站免费无遮挡无码中文| 国产亚洲?V无码?V男人的天堂 | 亚洲国产精品无码一线岛国| 中文字幕免费视频| 中文字幕人妻无码一夲道| 日产无码1区2区在线观看 | 精品一区二区三区无码免费视频| 精品久久久无码中文字幕天天| 久本草在线中文字幕亚洲欧美| 国产成人无码精品一区在线观看| 日韩免费人妻AV无码专区蜜桃| 亚洲综合无码精品一区二区三区| 中文字幕精品视频在线| 久久精品中文字幕有码| 最好看2019高清中文字幕| 亚洲欧美日韩、中文字幕不卡| 亚洲精品无码你懂的网站| 亚洲精品一级无码中文字幕| 亚洲无码高清在线观看| 狠狠精品干练久久久无码中文字幕| 欧洲无码一区二区三区在线观看| 人妻少妇精品无码专区二区 | 国产乱人无码伦av在线a| 日韩精品无码中文字幕一区二区 | 亚洲精品无码mv在线观看网站| 免费看无码特级毛片| 国产成人无码一区二区三区在线 | 最近免费中文字幕mv电影|