編輯時(shí)間	歷史版本	內(nèi)容長(zhǎng)度	圖片數(shù)	目錄數(shù)	修改原因
2023-07-19 15:36	最新歷史版本	10921	1	3	新增圖片

上一歷史版本 | 返回詞條

語(yǔ)音輸入

語(yǔ)音輸入(Voice input)是一種簡(jiǎn)便易用的輸入法，指用戶將語(yǔ)音(“說(shuō)話”)信號(hào)通過(guò)麥克風(fēng)輸入計(jì)算機(jī)，計(jì)算機(jī)將語(yǔ)音信號(hào)識(shí)別為文字的計(jì)算機(jī)輸入方式。語(yǔ)音識(shí)別技術(shù)是一個(gè)典型的多學(xué)科交叉的前沿技術(shù)，涉及聲學(xué)、生理學(xué)、心理學(xué)、信號(hào)處理、模式識(shí)別、人工智能、信息理論、語(yǔ)言學(xué)以及計(jì)算機(jī)科學(xué)等眾多學(xué)科。語(yǔ)音輸入有廣泛的應(yīng)用領(lǐng)域，如：語(yǔ)音聽(tīng)寫機(jī)、聲控系統(tǒng)等。

系統(tǒng)組成

大詞匯量語(yǔ)音識(shí)別系統(tǒng)多采用統(tǒng)計(jì)模式識(shí)別技術(shù)，典型的基于統(tǒng)計(jì)模式識(shí)別方法的語(yǔ)音識(shí)別系統(tǒng)由以下幾個(gè)基本模塊構(gòu)成：

（1）信號(hào)處理及特征提取模塊，主要任務(wù)是從輸入信號(hào)中提取特征，供聲學(xué)模型處理。目前常用語(yǔ)音聲學(xué)特征參數(shù)有Mel倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)和感知線性預(yù)測(cè)(perceptual linear predictive,PLP)等。同時(shí)，該模塊一般還采用一些信號(hào)處理技術(shù)，以盡可能降低環(huán)境噪聲、信道、說(shuō)話人等因素對(duì)特征造成的影響。

（2）統(tǒng)計(jì)聲學(xué)模型，典型系統(tǒng)多采用基于隱馬爾科夫模型(HMM)進(jìn)行建模。語(yǔ)音識(shí)別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)來(lái)對(duì)識(shí)別基元建模。一個(gè)音素就是一個(gè)三至五狀態(tài)的HMM，一個(gè)詞就是構(gòu)成詞的多個(gè)音素的HMM串行起來(lái)構(gòu)成的HMM，而連續(xù)語(yǔ)音識(shí)別的整個(gè)模型就是詞和靜音組合起來(lái)的HMM。

（3）發(fā)音詞典，包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實(shí)際提供了聲學(xué)模型建模單元與語(yǔ)言模型建模單元間的映射。

（4）語(yǔ)言模型，對(duì)語(yǔ)音識(shí)別系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種，語(yǔ)言模型性能通常用交叉熵和復(fù)雜度(perplexity)來(lái)衡量。理論上，包括正則語(yǔ)言和上下文無(wú)關(guān)文法在內(nèi)的各種語(yǔ)言模型都可以作為語(yǔ)言模型，但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計(jì)的N元文法及其變體。

（5）解碼器，語(yǔ)音識(shí)別系統(tǒng)的核心之一。其任務(wù)是對(duì)輸入的信號(hào)，根據(jù)聲學(xué)、語(yǔ)言模型及詞典，搜索能夠以最大概率輸出該信號(hào)的詞串。

系統(tǒng)原理

語(yǔ)音識(shí)別系統(tǒng)的識(shí)別基元通常采用上下文相關(guān)的音素，漢語(yǔ)語(yǔ)音識(shí)別基元也經(jīng)常選擇聲韻母或者音節(jié)。語(yǔ)音識(shí)別系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān)，大詞匯量和非特定人的連續(xù)語(yǔ)音識(shí)別系統(tǒng)通常又稱為聽(tīng)寫機(jī)。

其架構(gòu)就是建立在前述聲學(xué)模型和語(yǔ)言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)，訓(xùn)練時(shí)對(duì)每個(gè)語(yǔ)音識(shí)別基元用前向后向算法獲得HMM模型參數(shù)。識(shí)別時(shí)，將基元串接成詞，詞間加上靜音模型并引入語(yǔ)言模型作為詞間轉(zhuǎn)移概率，形成循環(huán)結(jié)構(gòu)，用Viterbi算法進(jìn)行解碼針對(duì)漢語(yǔ)易于分割的特點(diǎn)，先進(jìn)行分割再對(duì)每一段進(jìn)行解碼，可以有效地提高解碼的效率。

系統(tǒng)性能

語(yǔ)音識(shí)別系統(tǒng)的性能受許多因素的影響，包括不同的說(shuō)話人、說(shuō)話方式、環(huán)境噪聲和傳輸信道等。提高系統(tǒng)強(qiáng)健性，就是使系統(tǒng)在不同的應(yīng)用環(huán)境和條件下保持性能的穩(wěn)定性。語(yǔ)音識(shí)別系統(tǒng)自適應(yīng)的目的，就是根據(jù)不同的影響，自動(dòng)的、有針對(duì)性的對(duì)系統(tǒng)進(jìn)行調(diào)整，在使用中逐步提高語(yǔ)音識(shí)別系統(tǒng)性能。

深夜福利网-深夜福利网站大全,国产一区二区三区久久精品,99re6热在线精品视频播放,日韩中文字幕视频免费,影院一区二区小说性鲍视频

語(yǔ)音輸入

系統(tǒng)組成

系統(tǒng)原理

系統(tǒng)性能

標(biāo)簽