信息“爆炸”時代,搜索引擎是如何工作的?


信息“爆炸”時代,搜索引擎是如何工作的?



隨著時代的發展 , 網絡早已融入我們的生活 , 搜索引擎讓信息的查找和獲取變得簡單而精確 , 那么 , 其是如何檢索信息的呢?
搜索引擎的工作過程大體分為四個步驟:爬行和抓取、建立索引、搜索詞處理、展示排名 , 人們日常使用搜索引擎查找資料的過程只是搜索引擎工作過程中的一個環節 。 首先 , 搜索引擎會向萬維網派出一個能夠發現新網頁并抓取網頁文件的程序 , 這個程序通常被稱為蜘蛛(Spider) 。 其在工作的時候從網站的某一個頁面開始 , 讀取網頁的內容 , 找到在網頁中的其它鏈接地址 , 然后通過這些鏈接地址尋找下一個網頁 , 這樣一直循環下去 , 直到把這個網站所有的頁面都抓取完為止 。 如果把整個互聯網當做一張大網 , 那么這個程序就像是蜘蛛一樣抓取所有的網頁內容 。 在蜘蛛程序抓取了網頁文件之后 , 通過對網頁內容的分析和處理 , 對網頁信息進行提取并組織建立索引庫 , 即建立一定的搜索原則 , 也就是說當用戶查找某一關鍵詞時 , 搜索引擎能根據關鍵詞在數據庫中進行查找和搜索 , 找到相應的位置 。
當搜索引擎對網絡數據建立了數據庫之后 , 接下來就是用戶使用階段了 , 當用戶在搜索欄輸入搜索詞 , 單擊“搜索”按鈕后 , 搜索引擎即對輸入的搜索詞進行處理 , 以提取出相應的關鍵詞 , 通過關鍵詞在數據庫中進行索引和查找 , 實際的應用中 , 搜索詞的處理是十分快速的 。
當搜索引擎根據搜索詞找到相關的網頁之后 , 接下來就遇到了一個問題 , 究竟把哪一個網頁的鏈接呈現在前面 , 哪些鏈接放在后面呢?這就涉及到搜索引擎工作的最后一步——展示排名 。 在眾多網頁中 , 搜索引擎會根據算法計算得出 , 一個網站所提供信息的有效性 , 原創性和信息的認可度等指標 , 結合網站自身權重等綜合算法給出相應的排名顯示 , 同樣的 , 會將一些質量較低的垃圾網站進行過濾 , 以提高用戶檢索的有效性 。
在信息“爆炸”的時代 , 搜索引擎帶給我們的是快速精準的信息查找方式 , 這大大節省了人們獲取知識的時間 , 提高人們的生產效率 , 相信隨著技術的發展 , 搜索引擎在未來必定發揮更大的作用 。
【信息“爆炸”時代,搜索引擎是如何工作的?】本文由北京郵電大學計算機科學與技術研究專業副教授張忠寶進行科學性把關 。

    推薦閱讀