清華AIR團隊揭示人類與智駕算法視覺注意力的本質差異


【清華AIR團隊揭示人類與智駕算法視覺注意力的本質差異】新京報貝殼財經訊 2月21日 , 清華大學智能產業研究院(AIR)發布一項研究顯示 , 以自動駕駛這一安全關鍵領域為載體 , 首次通過“人類眼動追蹤實驗+算法對比驗證”的雙軌設計 , 系統性拆解了人類與智駕算法視覺注意力的本質差異 。 其核心價值在于提出人類駕駛注意力的三階段量化劃分框架 , 并證實智駕算法視覺理解的核心缺陷是缺乏“語義顯著性提取能力” , 而融入人類檢查階段的語義注意力 , 能以經濟高效的方式填補專業算法的“語義鴻溝”與大模型的“接地鴻溝” , 無需依賴大規模預訓練 。
研究團隊通過招募專家與新手司機完成危險檢測、可用性識別、異常檢測三類任務 , 結合眼動數據劃分注意力階段 , 再將不同階段注意力融入AxANet、UniAD等專業算法及DriveLM等視覺語言模型(VLM) , 最終揭示人類與智駕算法注意力的核心差異并非“空間定位” , 而是“語義理解” 。 人類能通過自上而下的認知賦予場景特征語義優先級 , 而智駕算法難以自主習得這一能力 。 該發現為自動駕駛算法的性能提升提供了非規?;男侣窂?, 對資源受限的車載實時系統部署具有重要實踐意義 。
編輯 姜樊
校對 張彥君

    推薦閱讀