日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

美本科生改進(jìn)哈希表,顛覆40年數(shù)據(jù)科學(xué)

美本科生改進(jìn)哈希表,顛覆40年數(shù)據(jù)科學(xué)

Rutgers大學(xué)本科生Andrew Krapivin發(fā)明新哈希表 , 搜索速度超乎想象 , 推翻40年猜想 , 揭示數(shù)據(jù)存儲新可能 。
2021年秋天 , Rutgers大學(xué)本科生Andrew Krapivin偶然讀到一篇論文 , 當(dāng)時他并未太在意 。 兩年后 , 他終于抽出時間細(xì)讀這篇名為“Tiny Pointers”的文章 , 純粹出于興趣 , 卻沒想到這會徹底改變他對計算機(jī)科學(xué)的看法 。 文中提到的“指針”是引導(dǎo)你找到計算機(jī)內(nèi)存中某個信息的箭頭般存在 。 Krapivin突發(fā)奇想 , 能否讓這些指針更“小巧” , 占用更少的內(nèi)存 。 可要實現(xiàn)這個目標(biāo) , 他得先找到一種更聰明的辦法來整理這些指針指向的數(shù)據(jù) 。
他把目光投向了常用的哈希表 。 這種數(shù)據(jù)存儲方式簡單實用 , 但在擺弄過程中 , Krapivin發(fā)現(xiàn)自己無意間創(chuàng)造出了一種全新哈希表 。 它的速度快得驚人 , 查找特定元素時用時更短、步驟更少 。 他的前教授Martín Farach-Colton起初并不看好這個設(shè)計 。 畢竟 , 哈希表是計算機(jī)科學(xué)里研究最透徹的結(jié)構(gòu)之一 , 這樣的突破聽起來像是天方夜譚 。 為了保險起見 , Farach-Colton請來了常合作的伙伴William Kuszmaul幫忙驗證 。 Kuszmaul卻興奮地說:“你不只是搞了個酷炫的哈希表 , 你直接推翻了一個40年的老猜想!”
Krapivin(現(xiàn)為劍橋大學(xué)研究生)、Farach-Colton(現(xiàn)任職紐約大學(xué))和Kuszmaul聯(lián)手在2025年1月發(fā)表論文 , 證明這個新哈希表確實能以超乎想象的速度找到元素 , 直接否定了長期被視為真理的猜想 。 Cornell Tech的Alex Conway評價道:“這篇論文意義重大 。 哈希表是最古老的數(shù)據(jù)結(jié)構(gòu)之一 , 至今仍是存儲數(shù)據(jù)的高效手段 , 但仍有未解之謎 。 這篇文章出人意料地解開了幾個 。 ”
【美本科生改進(jìn)哈希表,顛覆40年數(shù)據(jù)科學(xué)】哈希表之所以無處不在 , 是因為它簡單好用 。 它只支持三種操作:搜索元素、刪除元素、插入元素 。 早在1950年代 , 第一批哈希表就已出現(xiàn) , 此后科學(xué)家們從未停止研究 , 想弄清這些操作的速度極限 。 比如 , 搜索或插入能有多快?這通常取決于在哈希表中找到空位的時間 , 而空位多少又跟表的“滿度”有關(guān) 。 滿度可以用百分比表示 , 比如50%或90% , 但研究者常處理幾乎滿載的情況 , 于是用一個數(shù)字“x”來描述離100%滿還有多近 。 x是100時 , 表滿99%;x是1000時 , 滿99.9% 。 這個指標(biāo)讓評估操作耗時變得更直觀 。
過去的研究表明 , 在常見哈希表中 , 最糟情況下的插入(比如插到最后一個空位)所需時間與x成正比 。 Kuszmaul解釋:“如果表滿99% , 你可能得檢查100個位置才能找到空位 。 ”1985年 , 計算機(jī)科學(xué)家Andrew Yao在一篇論文中提出 , 對于某些特定哈希表 , 最佳搜索方式是隨機(jī)檢查位置 , 也就是“均勻探測” 。 他還斷言 , 在最糟情況下 , 找到最后一個空位的時間不可能比x更快 。 40年來 , 大多數(shù)人都信了他的猜測 。
Krapivin卻是個例外 , 因為他根本不知道這個猜想 。 “我完全沒聽說過Yao的理論 , ”他說 。 他從微型指針入手 , 摸索出一種不靠均勻探測的新哈希表 。 在這個表里 , 最糟情況下的搜索和插入時間與(log x)2成正比 , 遠(yuǎn)比x快得多 , 直接戳破了Yao的猜想 。 Farach-Colton和Kuszmaul幫他證明 , (log x)2是對Yao研究的那類熱門哈希表的最佳極限 。 Carnegie Mellon的Guy Blelloch稱:“這個結(jié)果美妙極了 , 解決了一個經(jīng)典難題 。 ”
滑鐵盧大學(xué)的Sepehr Assadi補(bǔ)充:“他們不僅推翻了猜想 , 還找到了最優(yōu)解 。 沒準(zhǔn)我們還得再等40年才能知道答案 。 ”更令人震驚的是 , 這篇論文還挑戰(zhàn)了Yao的另一個結(jié)論 。 1985年 , Yao研究了所有可能的平均查詢時間 , 證明對于某些“貪婪”哈希表(新元素必須插到第一個空位) , 平均時間不可能優(yōu)于log x 。 Krapivin團(tuán)隊好奇這個限制是否適用于非貪婪哈希表 。 他們給出了反例:一種非貪婪哈希表的平均查詢時間遠(yuǎn)超log x , 甚至跟x無關(guān) 。 Farach-Colton說:“你得到的是個常數(shù) , 跟表有多滿沒關(guān)系 。 ”這種恒定時間的發(fā)現(xiàn) , 連作者自己都沒料到 。
這些成果或許不會立刻改變現(xiàn)實應(yīng)用 , 但Conway認(rèn)為意義深遠(yuǎn):“深入理解這類數(shù)據(jù)結(jié)構(gòu)很重要 。 誰知道呢 , 也許某天這個發(fā)現(xiàn)會解鎖實用中的新突破 。 ”從Rutgers的課堂到劍橋的研究室 , Krapivin用好奇心和創(chuàng)造力 , 掀翻了40年的定論 , 也讓人看到數(shù)據(jù)科學(xué)的無限可能 。
本文譯自 Quanta Magazine , 由BALI編輯發(fā)布 。

    推薦閱讀