日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

語(yǔ)音識(shí)別原理

首先,我們知道聲音實(shí)際上是一種波 。常見(jiàn)的mp3、wmv等格式都是壓縮格式,必須轉(zhuǎn)成非壓縮的純波形文件來(lái)處理,比如Windows PCM文件,也就是俗稱的wav文件 。wav文件里存儲(chǔ)的除了一個(gè)文件頭以外,就是聲音波形的一個(gè)個(gè)點(diǎn)了 。
【語(yǔ)音識(shí)別原理】在開(kāi)始語(yǔ)音識(shí)別之前,有時(shí)需要把首尾端的靜音切除,降低對(duì)后續(xù)步驟造成的干擾 。這個(gè)靜音切除的操作一般稱為VAD,需要用到信號(hào)處理的一些技術(shù) 。要對(duì)聲音進(jìn)行分析,需要對(duì)聲音分幀,也就是把聲音切開(kāi)成一小段一小段,每小段稱為一幀 。分幀操作一般不是簡(jiǎn)單的切開(kāi),而是使用移動(dòng)窗函數(shù)來(lái)實(shí)現(xiàn),這里不詳述 。幀與幀之間一般是有交疊的 。
每幀的長(zhǎng)度為25毫秒,每?jī)蓭g有25-10=15毫秒的交疊 。我們稱為以幀長(zhǎng)25ms、幀移10ms分幀 。每幀的長(zhǎng)度為25毫秒,每?jī)蓭g有25-10=15毫秒的交疊 。我們稱為以幀長(zhǎng)25ms、幀移10ms分幀 。
分幀后,語(yǔ)音就變成了很多小段 。但波形在時(shí)域上幾乎沒(méi)有描述能力,因此必須將波形作變換 。常見(jiàn)的一種變換方法是提取MFCC特征,根據(jù)人耳的生理特性,把每一幀波形變成一個(gè)多維向量,可以簡(jiǎn)單地理解為這個(gè)向量包含了這幀語(yǔ)音的內(nèi)容信息 。這個(gè)過(guò)程叫做聲學(xué)特征提取 。實(shí)際應(yīng)用中,這一步有很多細(xì)節(jié),聲學(xué)特征也不止有MFCC這一種,具體這里不講 。
至此,聲音就成了一個(gè)12行(假設(shè)聲學(xué)特征是12維)、N列的一個(gè)矩陣,稱之為觀察序列,這里N為總幀數(shù) 。觀察序列如下圖所示,圖中,每一幀都用一個(gè)12維的向量表示,色塊的顏色深淺表示向量值的大小 。
接下來(lái)就要介紹怎樣把這個(gè)矩陣變成文本了 。首先要介紹兩個(gè)概念:音素:?jiǎn)卧~的發(fā)音由音素構(gòu)成 。對(duì)英語(yǔ),一種常用的音素集是卡內(nèi)基梅隆大學(xué)的一套由39個(gè)音素構(gòu)成的音素集,參見(jiàn)The CMU Pronouncing Dictionary 。漢語(yǔ)一般直接用全部聲母和韻母作為音素集,另外漢語(yǔ)識(shí)別還分有調(diào)無(wú)調(diào),不詳述 。狀態(tài):這里理解成比音素更細(xì)致的語(yǔ)音單位就行啦 。通常把一個(gè)音素劃分成3個(gè)狀態(tài) 。
語(yǔ)音識(shí)別是怎么工作的呢?實(shí)際上一點(diǎn)都不神秘,無(wú)非是:第一步,把幀識(shí)別成狀態(tài)(難點(diǎn));第二步,把狀態(tài)組合成音素;第三步,把音素組合成單詞 。

    推薦閱讀