
圖 1:基于多波束特征融合的喚醒模型[1]
以上介紹的基于波束形成的多音區(qū)喚醒[1],前端的信號(hào)處理(波束形成)和喚醒模塊還沒(méi)有做到聯(lián)合調(diào)優(yōu) 。因此本文提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語(yǔ)音增強(qiáng)模型 。該模型讀取單個(gè)通道的語(yǔ)譜特征和多通道的相位差特征,同時(shí)根據(jù)預(yù)設(shè)的若干音區(qū)方向(look direction),作者分別提取對(duì)應(yīng)的方向特征(directionalfeature) 。這些方向特征表征每個(gè)時(shí)頻點(diǎn)是否被特定音區(qū)方向的聲源信號(hào)占據(jù),從而驅(qū)動(dòng)網(wǎng)絡(luò)在輸出端增強(qiáng)距離每個(gè)音區(qū)方向最近的那個(gè)說(shuō)話人 。為了避免因?yàn)橐魠^(qū)和說(shuō)話人的空間分布導(dǎo)致目標(biāo)說(shuō)話人經(jīng)過(guò)多音區(qū)增強(qiáng)模型處理后失真,實(shí)驗(yàn)中使用一個(gè)原始麥克風(fēng)信號(hào)與多個(gè)方向增強(qiáng)輸出的信號(hào)一起通過(guò)注意力機(jī)制進(jìn)行特征融合送予喚醒模型,由于前端的增強(qiáng)是通過(guò)神經(jīng)網(wǎng)絡(luò)處理的,這樣多音區(qū)的增強(qiáng)模型與喚醒模型可以進(jìn)行聯(lián)合優(yōu)化,實(shí)現(xiàn)真正的前后端一體的多音區(qū)語(yǔ)音喚醒 。完整的模型結(jié)構(gòu)在圖 2 中描述 。

圖 2: 本文提出的基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語(yǔ)音增強(qiáng)和喚醒模型[2]
圖 3 是一個(gè)多音區(qū)增強(qiáng)的實(shí)例 。兩個(gè)說(shuō)話人分別位于圖(a)所示位置,麥克風(fēng)采集的兩人同時(shí)說(shuō)話信號(hào)譜如圖(b). 作者設(shè)定了 4 個(gè)待增強(qiáng)的方向(0 度,90 度,180 度和 270 度) 。多音區(qū)增強(qiáng)模型將會(huì)在 0 度和 90 度方向增強(qiáng)藍(lán)色說(shuō)話人,180 度和 270 度方向?qū)?huì)增強(qiáng)黑色說(shuō)話人, 增強(qiáng)后的 4 個(gè)方向語(yǔ)譜如圖(c) 。

圖 3: 多音區(qū)增強(qiáng)網(wǎng)絡(luò)輸出實(shí)例
在圖 4 中,作者對(duì)比了基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)增強(qiáng)喚醒模型與基于波束形成的多音區(qū)增強(qiáng)喚醒模型和基線的單通道喚醒模型 ??梢钥闯鎏貏e是在小于 6dB 的信干比聲學(xué)環(huán)境下,本文提出的做法顯著超越其它方法 。不同方法喚醒率測(cè)試均在控制誤喚醒為連續(xù) 12 小時(shí)干擾噪聲下 1 次的條件下進(jìn)行的 。

圖 4:多音區(qū)喚醒模型的性能對(duì)比
總結(jié)及展望本文提出的多音區(qū)語(yǔ)音增強(qiáng)和喚醒的做法,大幅降級(jí)了喚醒前端語(yǔ)音增強(qiáng)與喚醒結(jié)合使用的計(jì)算量,在未知目標(biāo)聲源方位的情形下,同時(shí)增強(qiáng)的多個(gè)方向聲源信號(hào)的特征融合可保證目標(biāo)語(yǔ)音得到增強(qiáng),給準(zhǔn)確的喚醒提供了保障 。在論文中測(cè)試的多說(shuō)話人帶噪聲的復(fù)雜聲學(xué)環(huán)境下,喚醒率達(dá)到 95% 。
【揭秘Siri語(yǔ)音喚醒原理 為啥手機(jī)siri誰(shuí)都可以喊出來(lái)】多音區(qū)的語(yǔ)音增強(qiáng)模型已經(jīng)與聲紋模型結(jié)合,形成多音區(qū)的說(shuō)話人驗(yàn)證,提升聲紋系統(tǒng)在復(fù)雜遠(yuǎn)場(chǎng)聲學(xué)環(huán)境下的魯棒性 。未來(lái)這一工作可與語(yǔ)音識(shí)別等其它語(yǔ)音任務(wù)相結(jié)合 。
推薦閱讀
- 諾基亞X60Pro多少錢(qián)?解鎖全網(wǎng)價(jià)格詳情揭秘
- 微信電話和視頻沒(méi)有聲音處理方法 微信語(yǔ)音電話沒(méi)有提示音是什么原因
- QQ語(yǔ)音麥克風(fēng)音量自動(dòng)變大或變小的解決方法 qq語(yǔ)音聲音太小怎么辦
- 賀歲版本來(lái)襲!《征途》手游新版本揭秘
- iPhonesiri的設(shè)置方法 如何喚醒siri時(shí)讓siri回答你
- 獵德村為什么那么有錢(qián) 揭秘獵德村真實(shí)分紅有多少
- 廣州為什么稱為羊城 羊城名字由來(lái)揭秘
- 凱迪拉克SRX優(yōu)缺點(diǎn)大揭秘
- 貓為什么喜歡吃魚(yú)? 揭秘貓咪為什么喜歡吃魚(yú)
- 華為Mate X2:震撼上市時(shí)間揭秘
