日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

語音識別原理與應(yīng)用 語音識別原理


語音識別原理與應(yīng)用 語音識別原理


1、首先 , 我們知道聲音實(shí)際上是一種波 。常見的mp3、wmv等格式都是壓縮格式,必須轉(zhuǎn)成非壓縮的純波形文件來處理,比如Windows PCM文件,也就是俗稱的wav文件 。wav文件里存儲的除了一個文件頭以外,就是聲音波形的一個個點(diǎn)了 。
2、在開始語音識別之前,有時需要把首尾端的靜音切除,降低對后續(xù)步驟造成的干擾 。這個靜音切除的操作一般稱為VAD,需要用到信號處理的一些技術(shù) 。
3、每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊 。我們稱為以幀長25ms、幀移10ms分幀 。每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊 。我們稱為以幀長25ms、幀移10ms分幀 。
4、分幀后,語音就變成了很多小段 。但波形在時域上幾乎沒有描述能力,因此必須將波形作變換 。常見的一種變換方法是提取MFCC特征 。
5、至此,聲音就成了一個12行(假設(shè)聲學(xué)特征是12維)、N列的一個矩陣 , 稱之為觀察序列,這里N為總幀數(shù) 。觀察序列如下圖所示,圖中 , 每一幀都用一個12維的向量表示,色塊的顏色深淺表示向量值的大小 。
6、接下來就要介紹怎樣把這個矩陣變成文本了 。首先要介紹兩個概念:音素:單詞的發(fā)音由音素構(gòu)成 。對英語,一種常用的音素集是卡內(nèi)基梅隆大學(xué)的一套由39個音素構(gòu)成的音素集,參見The CMU Pronouncing Dictionary 。
【語音識別原理與應(yīng)用 語音識別原理】7、語音識別是怎么工作的呢?實(shí)際上一點(diǎn)都不神秘,無非是:第一步,把幀識別成狀態(tài)(難點(diǎn));第二步,把狀態(tài)組合成音素;第三步,把音素組合成單詞 。

    推薦閱讀