无遮羞动漫在线观看AV无码,免费播放婬乱男女婬视频国产

首先，我們知道聲音實(shí)際上是一種波。常見(jiàn)的mp3、wmv等格式都是壓縮格式，必須轉(zhuǎn)成非壓縮的純波形文件來(lái)處理，比如Windows PCM文件，也就是俗稱的wav文件。wav文件里存儲(chǔ)的除了一個(gè)文件頭以外，就是聲音波形的一個(gè)個(gè)點(diǎn)了。
【語(yǔ)音識(shí)別原理】在開(kāi)始語(yǔ)音識(shí)別之前，有時(shí)需要把首尾端的靜音切除，降低對(duì)后續(xù)步驟造成的干擾。這個(gè)靜音切除的操作一般稱為VAD，需要用到信號(hào)處理的一些技術(shù) 。要對(duì)聲音進(jìn)行分析，需要對(duì)聲音分幀，也就是把聲音切開(kāi)成一小段一小段，每小段稱為一幀。分幀操作一般不是簡(jiǎn)單的切開(kāi)，而是使用移動(dòng)窗函數(shù)來(lái)實(shí)現(xiàn)，這里不詳述。幀與幀之間一般是有交疊的。
每幀的長(zhǎng)度為25毫秒，每?jī)蓭g有25-10=15毫秒的交疊。我們稱為以幀長(zhǎng)25ms、幀移10ms分幀。每幀的長(zhǎng)度為25毫秒，每?jī)蓭g有25-10=15毫秒的交疊。我們稱為以幀長(zhǎng)25ms、幀移10ms分幀。
分幀后，語(yǔ)音就變成了很多小段。但波形在時(shí)域上幾乎沒(méi)有描述能力，因此必須將波形作變換。常見(jiàn)的一種變換方法是提取MFCC特征，根據(jù)人耳的生理特性，把每一幀波形變成一個(gè)多維向量，可以簡(jiǎn)單地理解為這個(gè)向量包含了這幀語(yǔ)音的內(nèi)容信息。這個(gè)過(guò)程叫做聲學(xué)特征提取。實(shí)際應(yīng)用中，這一步有很多細(xì)節(jié)，聲學(xué)特征也不止有MFCC這一種，具體這里不講。
至此，聲音就成了一個(gè)12行（假設(shè)聲學(xué)特征是12維）、N列的一個(gè)矩陣，稱之為觀察序列，這里N為總幀數(shù) 。觀察序列如下圖所示，圖中，每一幀都用一個(gè)12維的向量表示，色塊的顏色深淺表示向量值的大小。
接下來(lái)就要介紹怎樣把這個(gè)矩陣變成文本了。首先要介紹兩個(gè)概念：音素：?jiǎn)卧~的發(fā)音由音素構(gòu)成。對(duì)英語(yǔ)，一種常用的音素集是卡內(nèi)基梅隆大學(xué)的一套由39個(gè)音素構(gòu)成的音素集，參見(jiàn)The CMU Pronouncing Dictionary 。漢語(yǔ)一般直接用全部聲母和韻母作為音素集，另外漢語(yǔ)識(shí)別還分有調(diào)無(wú)調(diào)，不詳述。狀態(tài)：這里理解成比音素更細(xì)致的語(yǔ)音單位就行啦。通常把一個(gè)音素劃分成3個(gè)狀態(tài) 。
語(yǔ)音識(shí)別是怎么工作的呢？實(shí)際上一點(diǎn)都不神秘，無(wú)非是：第一步，把幀識(shí)別成狀態(tài)（難點(diǎn)）；第二步，把狀態(tài)組合成音素；第三步，把音素組合成單詞。

語(yǔ)音識(shí)別原理

推薦閱讀

汽車前擋風(fēng)玻璃除霧有什么小技巧汽車前擋風(fēng)玻璃除霧的四個(gè)方法介紹

干貝燒三圓干貝燒三圓法介紹

iPhoneXs Max怎么打開(kāi)懸浮球

豬市：取決于市場(chǎng)需求、消費(fèi)力度、進(jìn)口豬肉和庫(kù)存儲(chǔ)備肉的投放

怎么珍惜時(shí)間

為什么要選擇連鎖經(jīng)營(yíng)

大花蔥的種植方法

iphonese第三代什么時(shí)候上市 iphone se發(fā)布日期曝光

奔馳GLB200氛圍燈開(kāi)關(guān)在哪里是自動(dòng)開(kāi)啟的嗎

2022杭州居住證積分有嚴(yán)重刑事犯罪記錄還能申請(qǐng)嗎？

化解身體毒素危機(jī) 給予充分援助打一場(chǎng)漂亮的排毒戰(zhàn)役

分居五年以上可申請(qǐng)自動(dòng)離婚嗎

蠔油是什么什么是蠔油

美團(tuán)跑車司機(jī) 美團(tuán)接單跑車怎么樣

泰迪流眼淚怎么回事？泰迪犬流眼淚原因及解決方法

你的笑,讓我記住了你初二作文