北大提出數據質量評估新標準,破解無線感知領域合成數據質量難題

北大提出數據質量評估新標準,破解無線感知領域合成數據質量難題

文章圖片

北大提出數據質量評估新標準,破解無線感知領域合成數據質量難題

文章圖片

北大提出數據質量評估新標準,破解無線感知領域合成數據質量難題

北京大學許辰人教授團隊與美國匹茲堡大學高偉教授合作 , 系統性地定義了無線感知領域合成數據的質量評估指標 , 提出了 SynCheck 框架 。 研究人員設計了具有普適性的、即插即用的數據篩選機制 , 能夠確保訓練過程中僅納入高質量的合成樣本 。

該框架突破了智能家居或工業監測等小數據場景的瓶頸化難題 。 另一方面 , 其在跨場景泛化領域 , 具有更低的部署成本 , 更高的精度和更強的環境適應性 。 該研究為無線感知的實際落地 , 提供了一種在真實數據有限場景下的解決方案 , 并有望在數據合成后的質量驗證接口、任務模型訓練、場景適配等環節產生價值 。

審稿人認為這項工作填補了現有研究的空白 , 且實驗評估全面有力 , 對實際應用具有重要指導意義 。 其對該研究評價稱:“這項研究針對合成無線數據質量評估這一獨特而重要的問題 , 創新性地提出了親和性與多樣性的評估框架 , 并通過技術扎實的半監督學習框架有效提升了合成數據在下游任務中的實用性 。 ”

(來源:該團隊)

日前 , 相關論文以《數據自證其質:面向無線合成數據的質量導向利用方法》(Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data)為題發表在預印本網站 arXiv[1
, 并獲得了移動計算領域頂會 MobiSys 2025 的最佳論文獎 。 論文作者包括北京大學博士生龔晨、梁博、美國匹茲堡大學高偉教授和北京大學許辰人教授 。

圖丨相關論文(來源:arXiv)

與 AI 領域的豐富數據相比 , 無線感知領域的高質量開源數據集相對較少 。 主要原因在于:一方面 , 研究人員采集真實數據需要實際測量需要特定的設備;另一方面 , 數據受時間、空間變化等物理因素的影響 , 因此在有限場景下的實測難以覆蓋真實世界的長尾分布 。

隨著技術的發展 , 生成模型(如 GAN、Diffusion Models)等新技術在圖像和文本領域已展現出強大的能力 。 此前 , 已有研究者嘗試將生成模型應用在無線感知領域 , 嘗試用合成數據來補充真實數據 。

然而 , 他們在直接應用生成模型時 , 面臨領域特定的挑戰:無線信號需要更強的物理可解釋性 , 必須符合電磁波傳播規律 , 例如菲涅爾區效應、多普勒頻移等 。 因此 , 目前尚未有系統性的評估框架來量化合成數據的質量 , 以及它們在感知任務中的有效性 , 更缺乏與真實信號物理一致性的理論保障 。

圖丨對無線合成數據的質量評估和質量引導的利用(來源:arXiv)

研究團隊希望通過建立可量化的無線領域數據質量標準 , 來解決將合成數據用于模型訓練的可靠性問題 。 SynCheck 框架的核心思路是 , 在訓練過程中動態優化合成數據的質量 , 而不是進行單次的篩選過濾 。

【北大提出數據質量評估新標準,破解無線感知領域合成數據質量難題】具體來說:

首先進行半監督學習 , 將真實數據作為有標簽數據 , 合成數據作為無標簽數據 , 共同放入模型中訓練 。 這樣既能兼顧真實數據的準確性 , 又能發揮合成數據的規模優勢 。

第二步是動態評估和過濾 。 在訓練過程中 , 模型會迭代地實時判斷哪些合成數據是可信的 。 研究人員篩選出這些質量高的合成數據 , 并且只用這些數據參與監督式訓練 。 同時 , 他們會及時刪除那些標簽錯誤或分布偏差較大的樣本 。

(來源:arXiv)

SynCheck 框架的主要創新點在于 , 訓練和迭代篩選優化過程是同步進行的 , 可動態地對數據進行篩選和優化質量 。 它不依賴額外的人工規則 , 而是根據任務模型的置信度來進行判斷 。 同時 , 也適用于不同的感知任務 , 并兼容各種各樣的生成模型 。

值得關注的是 , 該團隊創新性地提出了親和性(affinity)與多樣性(diversity)兩個指標 , 以將任務模型作為橋梁來衡量合成數據能增強真實數據的具體程度 。 具體來說 , 親和性關注的是合成數據在每個類別內部是否足夠接近真實數據 , 而多樣性則關注合成數據是否足夠廣泛地覆蓋真實數據的分布 。

龔晨對 DeepTech 解釋說道:“這是一種在無線感知領域不依賴于人工設計規則 , 且比較具有普適性的質量評估方法 。 我們不需要去理解這些信號的含義 , 它們直接面向需要合成數據的最終目標 , 適用于不同的感知任務 , 也不需要針對不同的生成模型做調整 , 最終提升目標任務的性能 。 ”

圖丨合成數據的質量量化(來源:arXiv)

傳統方法由于直接使用合成數據 , 容易引起數據質量方面的缺陷 。 研究人員通過實驗對比 , 發現在傳統方法模型訓練性能下降 13.4% 情況下 , 采用 SynCheck 框架仍能實現性能提升 4.3% 。 其核心差異在于 , 該框架通過動態去噪和智能化篩選 , 有選擇性地利用這些數據 , 其性能提升本質上是通過數據篩選解決了合成數據的可靠性問題 。

總體來說 , 該研究為生成式模型在無線感知領域的可靠應用開辟了新路徑 , 使其真正成為擴展數據邊界的有效工具 , 為無線大模型實現“數據自由”開啟了一個好的開端 。

許辰人團隊的重點研究方向是多模態感知賦能科學與工程智能 。 未來 , 研究團隊將聚焦在兩個關鍵方向:一方面 , 他們計劃進一步直接優化生成模型 , 把這些質量評估指標反向地指導生成模型的訓練 , 從而直接改善生成模型;另一方面 , 他們還希望深度整合物理仿真器 , 構建基于電磁傳播原理的仿真引擎 , 以減少對真實標注數據的依賴程度 。

參考資料:
1.https://arxiv.org/abs/2506.23174
2.https://github.com/MobiSys25AE/SynCheck

運營/排版:何晨龍

    推薦閱讀