MIT團隊給機器人裝上透視眼,藏在紙箱里的東西也能看見

MIT團隊給機器人裝上透視眼,藏在紙箱里的東西也能看見

文章圖片

MIT團隊給機器人裝上透視眼,藏在紙箱里的東西也能看見

文章圖片

MIT團隊給機器人裝上透視眼,藏在紙箱里的東西也能看見

你知道嗎?機器人已經可以看穿紙箱和繞過遮擋物 。 它能提前知道紙箱里面裝了什么 , 或能幫助網購用戶實現隔箱驗貨 , 不用再擔心快遞盒子拆開之后難退貨;掃地機器人也能提前知道自己身后是否藏著雜物 , 從而能夠繞道作業 。

這些功能的實現基于美國麻省理工學院團隊的一系列新成果 。 他們使用毫米波信號加上最新的AI , 造出了一套叫 Wave Former 的系統 。 這套系統能穿透紙板、塑料、干墻、布料 , 看見被完全遮擋的物體 , 還能把物體的完整形狀重建出來 。
【MIT團隊給機器人裝上透視眼,藏在紙箱里的東西也能看見】

(來源:相關論文)

他們還有另一套叫 RISE 的系統 , 能利用房間里走動的人 , 反推出整個房間的布局 。

這兩項研究的主要作者之一都是 Laura Dodds , 她是 MIT 媒體實驗室的研究助理 。 兩篇論文都已被 IEEE 計算機視覺與模式識別會議接收 。


圖 | Laura Dodds(來源:GitHub)

他們用毫米波雷達 , 就是那種和 Wi-Fi 用相同頻段的無線電波來照亮遮擋物后面的物體 。 毫米波能穿透普通材料 , 打到物體上再彈回來 , 就像聲吶和雷達的原理一樣 。

但這里有一個大麻煩 , 毫米波的反射方式跟光不一樣 。 光照到粗糙表面會向四面八方散開 , 所以相機能拍到物體的各個面 。 毫米波卻像鏡子 , 只有正好朝向雷達的那一小塊表面會把信號彈回來 , 其他部分會把信號彈向別處 。

所以傳統方法只能看到物體的正面 , 側面和背面完全看不見 , 就像你站在鏡子前只能看見自己的臉 , 看不見后腦勺 。


(來源:相關論文)

Wave Former 的妙處在于 , 它先用物理學方法從毫米波信號里拼出一塊不完整的拼圖 , 然后用生成式 AI 把這個拼圖補全 。 但這又引出一個新問題 , AI 需要海量數據訓練 , 可毫米波數據少得可憐 , 根本不夠用 。

研究團隊的解決辦法非常聰明 , 他們從現有的計算機視覺數據集里找圖像 , 把那些圖像改造成毫米波反射的樣子 。 比如 , 他們故意讓圖像只保留正面部分 , 再把其他面隨機去掉 , 再往里面加模擬的噪聲 , 讓這些假數據看起來和真實的毫米波反射一模一樣 。

然后用這些數據訓練一個叫 PoInTr 的 AI 模型 , 讓它學會從殘缺的拼圖里猜出完整形狀 。

整套系統分三步走 。

第一步 , 毫米波雷達掃描物體 , 生成一堆候選表面 , 每個候選表面都是一種可能的猜測 。

第二步 , 把這些猜測喂給訓練好的 AI 模型 , 讓模型補全形狀 。

第三步 , 從這些補全后的形狀里挑一個最好的 。 他們用了一個叫熵的指標 , 熵越高意味著越亂越不可靠 , 他們選熵最低的那個 , 也就是最整齊最合理的那個形狀 。

實驗里 , 他們用了 61 種日常物品做測試 , 從罐頭、盒子到扳手、電鉆 , 全部藏在紙板箱或布料后面 。 Wave Former 的召回率達到了 72% , 比第二名高出一大截 , 而且精準度保持 85% 。

這意味著它不僅能找到大部分物體 , 而且找得準 。 他們還特意測試了極端情況 , 當雷達只能看到 18% 的物體表面時 , 其他方法已經徹底蒙圈 , Wave Former 依然能還原出大致形狀 , 誤差比對手小了 20% 。


(來源:相關論文)

第二項研究 RISE 利用房間里走動的人來重建整個房間的布局 。 原理是人走路的時候會激發多徑反射 , 信號先打到人身上 , 再彈到墻上 , 再彈回雷達 , 這些鬼影信號平時都被當成噪聲扔掉 , 但它們其實攜帶著墻壁和家具的信息 。 Dodds 告訴媒體 , 通過分析這些反射隨時間的變化 , 就能粗略理解周圍環境 。


(來源:相關論文)

他們用同樣的思路來訓練 AI , 先造出一堆模擬的多徑反射數據 , 教 AI 理解鬼影和房間布局之間的關系 。

測試時 , 他們讓真人拿著雷達在11種不同房間里走了 100 條路線 , 生成了 5 萬幀數據 。 RISE 系統把房間布局的重建誤差從 40 厘米降到了 16 厘米 , 比對手精準了 60% 。 它還能同時檢測出桌子、柜子、沙發這些家具 , 交并比達到了 58% 。

該團隊的負責人、麻省理工學院 Fadel Adib 教授說 , 他們花了十幾年研究怎么讓機器人看見遮擋物后面的東西 , 之前的方法受限于物理原理 , 精度總提不上去 。 現在他們用生成式 AI 終于跨過了這道坎 , 從填補看不見的縫隙到理解整個場景 , 這是一次質的飛躍 。

這套系統目前還依賴真人走動來激發多徑反射 , 如果房間完全沒人就失效了 。 而且毫米波對金屬和很厚的墻無能為力 。

研究團隊下一步要造出專門針對無線信號的基礎模型 , 希望能像 ChatGPT 那樣通用 , 到那時候預計隨便一個 Wi-Fi 路由器就能看見整個屋子 。

參考資料:
相關論文https://arxiv.org/pdf/2511.14019和https://arxiv.org/pdf/2511.14152
https://news.mit.edu/2026/generative-ai-improves-wireless-vision-system-sees-through-obstructions-0319
https://news.mit.edu/2025/new-imaging-technique-reconstructs-hidden-object-shapes-0701
https://laura-dodds.github.io/

運營/排版:何晨龍

    推薦閱讀