訊飛同傳不斷突破，引領智能翻譯新紀元

2026-02-18 攝像頭 ai 科大訊飛同聲傳譯

【訊飛同傳不斷突破，引領智能翻譯新紀元】

文章圖片

與傳統翻譯不同，訊飛同傳不僅可以利用音頻信息，還可以通過攝像頭捕捉演講人正在演講的視頻內容，并實時分析關鍵詞，增強理解能力。同時，在捕捉關鍵詞之后利用AI進行內容拓展，從而實現信息增值。

高效會議，從智能轉寫開始
在此基礎上，訊飛同傳可以更像一個專家和內行一樣的解讀和轉寫會議，提高會議效率。科大訊飛將其技術進步總結為三個能力升級:1. 感知能力:從單模態到多模態升級，結合視覺信息進行理解；2. 認知能力:不僅理解、推理，還能在多模態下理解復雜信息，提取關鍵內容，并通過AI對內容進行拓展，形成更豐富的信息；3. 實時處理:實時捕捉分析視頻流，為每個演講生成個性化引擎，并基于視頻生成的語境做深度理解。具體來說，科大訊飛的技術讓機器會聽、會看、會思考。
逼近人工的轉寫能力
訊飛同傳，機器轉寫距離人工速記的差距，主要在于實時處理和理解能力。科大訊飛模擬人眼、腦全方位配合的多感知工作方式，讓機器轉寫效果更加接近人工速記。會聽、會看并理解，指的是通過語音和圖像識別技術識別音頻和視頻內容，實時捕捉語音信息，而“理解”則指基于自然語言處理等技術，廣泛拓展語境理解，在此過程中，訊飛同傳會為每次會議生成特定的語境模型，大幅提升轉寫準確度。
科大訊飛的創新之路
利用視頻信息，訊飛同傳針對演講視頻內容，語音識別準確率提升 21.7% ，語義理解準確率提升 40.3% 。在實際操作中，獲取演講視頻內容有時無法提前準備，因此實時獲取視頻流內容很關鍵。實現這點，可以通過高清攝像頭獲取與現場分辨率和清晰度相近的視頻，或使用普通攝像頭拍攝。攝像清晰度需達標，以保證識別準確率。實際上，訊飛同傳的視頻識別準確率能達到 98%以上。

探索特定語境下的優化方案
獲取視頻信息較為直接，實時解析視頻信息則更具挑戰。由于缺乏預處理時間，即便有不斷提升的個性化和理解能力，機器識別與人工仍有20-30%的差距。因此，訊飛同傳探索如何在特定語境下優化機器表現。 “情境適應性是關鍵。
海量數據，構建AI模型優勢
憑借背后搜索引擎的支持，訊飛同傳在語境理解上具有天然優勢，海量數據積累助力AI模型，對競爭對手構成了顯著的門檻。
從單一語音識別到多模態交互，科大訊飛歷經技術迭代，逐步掌握了復雜環境下的理解推理能力。其發展歷程中，不乏創新產品，如訊飛AI鼠標AM30實現了語音轉文字、翻譯等功能；2018年，訊飛聽見2.0集成了語音合成技術，首次達成了語音到文字的即時轉換，并能根據特定語料進行實時定制，同時引入了首個英文到中文的翻譯引擎；直至2022年，科大訊飛的多模態交互技術已是集視聽于一體的成熟產品，具備了理解、推理的高級特性。訊飛同傳，作為科大訊飛多模態交互技術的集大成者，正不斷突破技術邊界，引領行業前行。

推薦閱讀

上一篇：谷歌版賈維斯即將問世，Gemini 2.0加持！AI自主操控電腦時代來臨

下一篇：網店噩夢：兩小時被水軍坑走 11 萬