日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

AI 聲音鑒定


出品 | AI科技大本營(yíng)(ID:rgznai100)
人們通過(guò)聆聽和觀察說(shuō)話者的嘴唇動(dòng)作來(lái)感知言語(yǔ) 。
那么,AI 也可以嗎?

AI 聲音鑒定


事實(shí)上,研究表明視覺(jué)線索在語(yǔ)言學(xué)習(xí)中起著關(guān)鍵的作用 。相比之下,人工智能語(yǔ)言識(shí)別系統(tǒng)主要是建立在音頻上 。而且需要大量數(shù)據(jù)來(lái)訓(xùn)練,通常需要數(shù)萬(wàn)小時(shí)的記錄 。
為了研究視覺(jué)效果,尤其是嘴部動(dòng)作的鏡頭,是否可以提高語(yǔ)音識(shí)別系統(tǒng)的性能 。Meta 的研究人員開發(fā)了 Audio-Visual Hidden Unit BERT (AV-HuBERT),這是一個(gè)通過(guò)觀看學(xué)習(xí)和聽人們說(shuō)話來(lái)理解語(yǔ)言的框架 。
Meta 聲稱 AV-HuBERT 比使用相同數(shù)量轉(zhuǎn)錄量的最佳視聽語(yǔ)音識(shí)別系統(tǒng)準(zhǔn)確率高 75% 。此外,該公司表示,AV-HuBERT 使用十分之一的標(biāo)記數(shù)據(jù)優(yōu)于以前最好的視聽語(yǔ)言識(shí)別系統(tǒng),這使得它可能對(duì)音視頻數(shù)據(jù)很少的語(yǔ)言具有潛在的用途 。
Meta AI 研究科學(xué)家 Abdelrahman Mohamed 表示:“在未來(lái),像 AV-HuBERT 這樣的 AI 框架可用于提高語(yǔ)音識(shí)別技術(shù)在嘈雜的日常條件下的性能,例如,在聚會(huì)上或在熙熙攘攘的街頭中進(jìn)行的互動(dòng) 。智能手機(jī)中的助手、增強(qiáng)現(xiàn)實(shí)眼鏡和配備攝像頭的智能揚(yáng)聲器,例如 Alexa Echo Show 也可以在這項(xiàng)技術(shù)中受益 ?!?br /> 目前,Meta 已將相關(guān)代碼開源到 GitHub 。
AV-HuBERT
Meta 并不是第一個(gè)將人工智能應(yīng)用于讀唇語(yǔ)問(wèn)題的公司 。2016年,牛津大學(xué)的研究人員創(chuàng)建了一個(gè)系統(tǒng),該系統(tǒng)在某些測(cè)試中的準(zhǔn)確率幾乎是經(jīng)驗(yàn)豐富的唇讀者的兩倍,并且可以實(shí)時(shí)地處理視頻 。2017年,Alphabet 旗下的 DeepMind 在數(shù)千小時(shí)的電視節(jié)目中訓(xùn)練了一個(gè)系統(tǒng),在測(cè)試集上可以正確翻譯約 50%的單詞而沒(méi)有錯(cuò)誤,遠(yuǎn)高于人類專家的 12.4% 。
但是牛津大學(xué)和 DeepMind 的模型,與許多后續(xù)的唇讀模型一樣,在它們可以識(shí)別的詞匯范圍內(nèi)受到限制 。這些模型還需要與轉(zhuǎn)錄本配對(duì)的數(shù)據(jù)集才能進(jìn)行訓(xùn)練,而且它們無(wú)法處理視頻中任何揚(yáng)聲器的音頻 。
有點(diǎn)獨(dú)特的是, AV-HuBERT 利用了無(wú)監(jiān)督或自我監(jiān)督的學(xué)習(xí) 。通過(guò)監(jiān)督學(xué)習(xí),像 DeepMind 這樣的算法在標(biāo)記的示例數(shù)據(jù)上進(jìn)行訓(xùn)練,直到它們可以檢測(cè)到示例和特定輸出之間的潛在關(guān)系 。例如,系統(tǒng)可能會(huì)被訓(xùn)練在顯示柯基的圖片時(shí)寫出單詞「dog」 。然而,AV-HuBERT 自學(xué)對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行分類,處理數(shù)據(jù)以從其固有結(jié)構(gòu)中學(xué)習(xí) 。
AI 聲音鑒定


AV-HuBERT 也是多模態(tài)的,因?yàn)樗ㄟ^(guò)一系列的音頻和唇部動(dòng)作提示來(lái)學(xué)習(xí)感知語(yǔ)言 。通過(guò)結(jié)合說(shuō)話過(guò)程中嘴唇和牙齒的運(yùn)動(dòng)等線索以及聽覺(jué)信息,AV-HuBERT 可以捕捉這兩種數(shù)據(jù)類型之間的細(xì)微關(guān)聯(lián) 。
最初的 AV-HuBERT 模型在 30 小時(shí)的 TED Talk 視頻上進(jìn)行了訓(xùn)練,大大少于之前最先進(jìn)模型的 31,000 小時(shí)的訓(xùn)練時(shí)間 。但是,盡管在較少的數(shù)據(jù)上進(jìn)行了訓(xùn)練,AV-HuBERT 的單詞錯(cuò)誤率 (WER)(衡量語(yǔ)音識(shí)別性能的指標(biāo))在可以看到但聽不到說(shuō)話者的情況下略好于舊模型的 33.6%,前者為 32.5% 。(WER 的計(jì)算方法是將錯(cuò)誤識(shí)別的單詞數(shù)除以總單詞數(shù);32.5% 轉(zhuǎn)化為大約每 30 個(gè)單詞出現(xiàn)一個(gè)錯(cuò)誤 。)在 433 小時(shí)的 TED 演講訓(xùn)練進(jìn)一步將 AV-HuBERT 的 WER 降低到 28.6% 。
一旦 AV-HuBERT 很好地了解了數(shù)據(jù)之間的結(jié)構(gòu)和相關(guān)性,研究人員就能夠在未標(biāo)記的數(shù)據(jù)上進(jìn)一步訓(xùn)練它 。上傳到 YouTube 的 2,442 小時(shí)名人英語(yǔ)視頻,這不僅使 WER 下降到 26.9%,而且 Meta 表示,它表明只需要少量標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練特定應(yīng)用程序(例如,當(dāng)多人同時(shí)說(shuō)話時(shí))或不同語(yǔ)言的框架 。
事實(shí)上,Meta 聲稱當(dāng)背景中播放響亮的音樂(lè)或噪音時(shí),AV-HuBERT 在識(shí)別一個(gè)人的語(yǔ)音方面比純音頻模型好約 50%,當(dāng)語(yǔ)音和背景噪音同樣響亮?xí)r,AV-HuBERT 的 WER 為 3.2%,而之前的最佳多模式模型為 25.5% 。

推薦閱讀