日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

揭秘Siri語音喚醒原理 為啥手機siri誰都可以喊出來

人工智能技術(shù)迅猛發(fā)展,人機語音交互更加自然,搭載語音喚醒、識別技術(shù)的智能設(shè)備也越來越多 。語音喚醒在學(xué)術(shù)上稱為 keyword spotting(簡稱 KWS),即在連續(xù)語流中實時檢測出說話人特定片段(比如:叮當(dāng)叮當(dāng)、Hi Siri 等),是一種小資源的關(guān)鍵詞檢索任務(wù),也可以看作是一類特殊的語音識別,應(yīng)用在智能設(shè)備上起到了保護用戶隱私、降低設(shè)備功耗的作用,經(jīng)常扮演一個激活設(shè)備、開啟系統(tǒng)的入口角色,在手機助手、車載、可穿戴設(shè)備、智能家居、機器人等運用得尤其普遍 。
喚醒效果好壞的判定指標(biāo)主要有召回率(recall,俗稱喚醒率)、虛警率(false alarm,俗稱誤喚醒)、響應(yīng)時間和功耗四個指標(biāo) 。召回率表示正確被喚醒的次數(shù)占總的應(yīng)該被喚醒次數(shù)的比例 。虛警率表示不該被喚醒卻被喚醒的概率,工業(yè)界常以 12 或者 24 小時的誤喚醒次數(shù)作為系統(tǒng)虛警率的評價指標(biāo) 。響應(yīng)時間是指用戶說出喚醒詞后,設(shè)備的反應(yīng)時間,過大的響應(yīng)時間會造成較差的用戶體驗 。功耗是指喚醒系統(tǒng)的耗電情況,多數(shù)智能設(shè)備都是電池供電,且需要保證長時續(xù)航,要求喚醒系統(tǒng)必須是低耗能的 。一個好的喚醒系統(tǒng)應(yīng)該保證較高的召回率、較低的虛警率、響應(yīng)延時短、功耗低 。
喚醒技術(shù)落地的難點是要求在低功耗下達到高性能要求 。一方面是目前很多智能設(shè)備為了控制成本,搭載的都是一些低端芯片,計算能力有限,需要喚醒模塊盡可能的減少計算計算量以減少能源消耗;一方面用戶使用場景多種多樣,設(shè)備也常沒有經(jīng)過專業(yè)聲學(xué)設(shè)計,遠(yuǎn)場、大噪聲、強干擾、高回聲、高混響等情況下仍然面臨召回率低、虛警率高的問題 。
針對此問題,騰訊 AI Lab 近期發(fā)表一篇論文,針對復(fù)雜聲學(xué)環(huán)境,特別是噪聲和干擾人聲場景,對送給喚醒模型的聲學(xué)信號進行前處理,以提升其語音信號質(zhì)量 。本論文已被 Interspeech 2020 接收 。

揭秘Siri語音喚醒原理 為啥手機siri誰都可以喊出來


很多智能設(shè)備安裝有多個麥克風(fēng),因此多通道的前端處理技術(shù)被應(yīng)用到喚醒的前端信號處理中 。當(dāng)目標(biāo)說話人與干擾聲源分布在不同方向時,多通道的語音增強技術(shù),例如波束形成(beamformer), 能夠有效的增強目標(biāo)說話人,抑制其它干擾聲源 。但是這一做法依賴較準(zhǔn)確的目標(biāo)說話人方向定位 。在實際環(huán)境中,由于有干擾聲源的存在,使得很難從帶噪數(shù)據(jù)中準(zhǔn)確估計目標(biāo)說話人的方位,特別是當(dāng)有多人在同時說話時,也無法判斷哪一個是目標(biāo)說話人 。因此本文采用“耳聽八方” (多音區(qū)) 的思路,在空間中設(shè)定若干待增強的方向(look direction),然后區(qū)別于傳統(tǒng)的波束形成做法(這個做法已發(fā)表于 ICASSP 2020 [1]),本文提出了一個基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)(multi-look)語音增強模型,可同時增強多個指定的方向聲源 。這些多個方向增強輸出的信號再通過注意力機制進行特征融合送予喚醒模型 。由于前端的增強是通過神經(jīng)網(wǎng)絡(luò)處理的,這樣多音區(qū)的增強模型與喚醒模型可以進行聯(lián)合優(yōu)化,實現(xiàn)真正的前后端一體的多音區(qū)語音喚醒 。
基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強模型是首個完全基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強模型 。相比于特定方向的語音增強,本文提出的模型可同時增強多個方向聲源 。同時這種基于神經(jīng)網(wǎng)絡(luò)的方法,在性能上顯著優(yōu)于基于傳統(tǒng)的波束形成做法 。完全基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)前端,與喚醒模型聯(lián)合訓(xùn)練,前后一體的做法進一步提升模型的魯棒性和穩(wěn)定性 。此模型適用于多麥克風(fēng)設(shè)備的語音喚醒 。
以下為方案詳細(xì)解讀 。
方案詳解傳統(tǒng)的多音區(qū)語音處理的思路,是在空間中設(shè)定若干待增強的方向(look direction),每個方向分別應(yīng)用一個波束形成,增強這個方向的聲源,最終本文將每個方向增強輸出的信號輪流送給喚醒模塊,只要有一個方向觸發(fā)喚醒,則喚醒成功 。這種基于多音區(qū)的多波束喚醒技術(shù)大大提高了噪聲下的喚醒性能,然而需要多次調(diào)用喚醒模塊,因此計算量較單路喚醒也成倍增加,功耗變大制約了應(yīng)用 。針對這一情況,作者在早前一點的工作中[1]將注意力(attention)機制引入到喚醒框架下,如圖 1 所示,多個 look-direction 增強的信號提取特征后通過 attention 層映射成單通道輸入特征,再送入單路喚醒網(wǎng)絡(luò)層,與單路喚醒相比僅僅增加了一層網(wǎng)絡(luò),既保證了喚醒性能,計算量又大大降低 。

推薦閱讀