訊飛同傳不斷突破,引領智能翻譯新紀元

【訊飛同傳不斷突破,引領智能翻譯新紀元】訊飛同傳不斷突破,引領智能翻譯新紀元

文章圖片


與傳統翻譯不同 , 訊飛同傳不僅可以利用音頻信息 , 還可以通過攝像頭捕捉演講人正在演講的視頻內容 , 并實時分析關鍵詞 , 增強理解能力 。 同時 , 在捕捉關鍵詞之后利用AI進行內容拓展 , 從而實現信息增值 。

高效會議 , 從智能轉寫開始
在此基礎上 , 訊飛同傳可以更像一個專家和內行一樣的解讀和轉寫會議 , 提高會議效率 。 科大訊飛將其技術進步總結為三個能力升級:1. 感知能力:從單模態到多模態升級 , 結合視覺信息進行理解;2. 認知能力:不僅理解、推理 , 還能在多模態下理解復雜信息 , 提取關鍵內容 , 并通過AI對內容進行拓展 , 形成更豐富的信息;3. 實時處理:實時捕捉分析視頻流 , 為每個演講生成個性化引擎 , 并基于視頻生成的語境做深度理解 。 具體來說 , 科大訊飛的技術讓機器會聽、會看、會思考 。
逼近人工的轉寫能力
訊飛同傳 , 機器轉寫距離人工速記的差距 , 主要在于實時處理和理解能力 。 科大訊飛模擬人眼、腦全方位配合的多感知工作方式 , 讓機器轉寫效果更加接近人工速記 。 會聽、會看并理解 , 指的是通過語音和圖像識別技術識別音頻和視頻內容 , 實時捕捉語音信息 , 而“理解”則指基于自然語言處理等技術 , 廣泛拓展語境理解 , 在此過程中 , 訊飛同傳會為每次會議生成特定的語境模型 , 大幅提升轉寫準確度 。
科大訊飛的創新之路
利用視頻信息 , 訊飛同傳針對演講視頻內容 , 語音識別準確率提升 21.7% , 語義理解準確率提升 40.3% 。 在實際操作中 , 獲取演講視頻內容有時無法提前準備 , 因此實時獲取視頻流內容很關鍵 。 實現這點 , 可以通過高清攝像頭獲取與現場分辨率和清晰度相近的視頻 , 或使用普通攝像頭拍攝 。 攝像清晰度需達標 , 以保證識別準確率 。 實際上 , 訊飛同傳的視頻識別準確率能達到 98%以上 。

探索特定語境下的優化方案
獲取視頻信息較為直接 , 實時解析視頻信息則更具挑戰 。 由于缺乏預處理時間 , 即便有不斷提升的個性化和理解能力 , 機器識別與人工仍有20-30%的差距 。 因此 , 訊飛同傳探索如何在特定語境下優化機器表現 。 “情境適應性是關鍵 。
海量數據 , 構建AI模型優勢
憑借背后搜索引擎的支持 , 訊飛同傳在語境理解上具有天然優勢 , 海量數據積累助力AI模型 , 對競爭對手構成了顯著的門檻 。
從單一語音識別到多模態交互 , 科大訊飛歷經技術迭代 , 逐步掌握了復雜環境下的理解推理能力 。 其發展歷程中 , 不乏創新產品 , 如訊飛AI鼠標AM30實現了語音轉文字、翻譯等功能;2018年 , 訊飛聽見2.0集成了語音合成技術 , 首次達成了語音到文字的即時轉換 , 并能根據特定語料進行實時定制 , 同時引入了首個英文到中文的翻譯引擎;直至2022年 , 科大訊飛的多模態交互技術已是集視聽于一體的成熟產品 , 具備了理解、推理的高級特性 。 訊飛同傳 , 作為科大訊飛多模態交互技術的集大成者 , 正不斷突破技術邊界 , 引領行業前行 。

    推薦閱讀