欧美日韩国产一区二区|qovd片|小明个人发布看看|小浪货你夹真紧水又多|老头把我添高潮了A片故|99热久久精品国产一区二区|久久久春色AV

什么是倒排索引?搜索引擎倒排的概念是什么?


什么是倒排索引?搜索引擎倒排的概念是什么?

文章插圖
倒排列表用來記錄有哪些文檔包含了某個單詞 。 一般在文檔集合里會有很多文檔包含某個單詞 , 每個文檔會記錄文檔編號(DocID) , 單詞在這個文檔中出現的次數(TF)及單詞在文檔中哪些位置出現過等信息 , 這樣與一個文檔相關的信息被稱做倒排索引項(Posting) , 包含這個單詞的一系列倒排索引項形成了列表結構 , 這就是某個單詞對應的倒排列表 。 右圖是倒排列表的示意圖 , 在文檔集合中出現過的所有單詞及其對應的倒排列表組成了倒排索引 。
什么是倒排索引?搜索引擎倒排的概念是什么?

文章插圖

在實際的搜索引擎系統中 , 并不存儲倒排索引項中的實際文檔編號 , 而是代之以文檔編號差值(D-Gap) 。 文檔編號差值是倒排列表中相鄰的兩個倒排索引項文檔編號的差值 , 一般在索引構建過程中 , 可以保證倒排列表中后面出現的文檔編號大于之前出現的文檔編號 , 所以文檔編號差值總是大于0的整數 。 如圖2所示的例子中 , 原始的 3個文檔編號分別是187、196和199 , 通過編號差值計算 , 在實際存儲的時候就轉化成了:187、9、3 。
之所以要對文檔編號進行差值計算 , 主要原因是為了更好地對數據進行壓縮 , 原始文檔編號一般都是大數值 , 通過差值計算 , 就有效地將大數值轉換為了小數值 , 而這有助于增加數據的壓縮率 。
倒排索引概念倒排索引(英語:Inverted index) , 也常被稱為反向索引、置入檔案或反向檔案 , 是一種索引方法 , 被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射 。 它是文檔檢索系統中最常用的數據結構 。 通過倒排索引 , 可以根據單詞快速獲取包含這個單詞的文檔列表 。 倒排索引主要由兩個部分組成:“單詞詞典”和“倒排文件” 。

什么是倒排索引?搜索引擎倒排的概念是什么?

文章插圖
倒排索引倒排索引有兩種不同的反向索引形式:
一條記錄的水平反向索引(或者反向檔案索引)包含每個引用單詞的文檔的列表 。
一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置 。
后者的形式提供了更多的兼容性(比如短語搜索) , 但是需要更多的時間和空間來創建 。
【什么是倒排索引?搜索引擎倒排的概念是什么?】 現代搜索引擎的索引都是基于倒排索引 。 相比“簽名文件”、“后綴樹”等索引結構 , “倒排索引”是實現單詞到文檔映射關系的最佳實現方式和最有效的索引結構 。

    相關經驗推薦