電腦、智能手機、智能電視等產品不斷普及與發展,越來越多的人開始接觸互聯網,中國網民的數量飛速增長。與此同時,互聯網上的各種信息如博客、購物信息及電子圖書等也呈現了指數型的增長。雖然互聯網上的信息資源種類多、信息全,但是信息組織相對松散,互聯網上的信息都散落在各個網頁當中,并且更新速度異常迅速。互聯網用戶想要在這海量并且組織無序的信息當中找到對自己有用或者感興趣的信息越來越困難。在這樣的背景下搜索引擎應運而生。搜索引擎提供商利用各種爬取技術從互聯網上爬取大量的網頁,并對這些網頁進行解析、整理、挖掘和組織,形成一個龐大的信息檢索系統,為互聯網用戶提供基于關鍵字的檢索服務,使用戶能夠輕易地從信息的海洋當中獲得有用的信息。所以搜索引擎己經成為互聯網用戶獲取信息的入口及上網不可以或缺的網絡應用。
目前搜索引擎所使用的技術主要包含:互聯網爬蟲、網頁頁面解析、倒排索引技術、檢索系統、自然語言處理和用戶興趣挖掘等。由于互聯網上的信息種類多、覆蓋面全、組織復雜,所以搜索引擎單純依靠用戶提交的搜索詞從這龐大的數據庫當中抽取用戶感興趣的信息顯然是一件非常具有挑戰性的任務。只有搜索引擎充分理解用戶的興趣、搜索意圖等才能返回給用戶真正需要的信息。其中搜索詞是指用戶使用搜索引擎時提交給搜索引擎的搜索關鍵字,是用戶與搜索引擎交互過程當中最為重要的信息載體,能夠直接或者間接地反應用戶的搜索意圖、興趣和需求。所以利用自然語言處理方法、機器學習、數據挖掘等技術對用戶提交的搜索詞進行分析和挖掘從而得到用戶的搜索意圖或興趣等搜索引擎最常用的挖掘方法之一。
評論(0人參與,0條評論)
發布評論
最新評論