深夜福利网-深夜福利网站大全,国产一区二区三区久久精品,99re6热在线精品视频播放,日韩中文字幕视频免费,影院一区二区小说性鲍视频

知名百科 >> 語(yǔ)音輸入 >> 歷史版本
編輯時(shí)間歷史版本內(nèi)容長(zhǎng)度圖片數(shù)目錄數(shù)修改原因
2023-07-19 15:36 最新歷史版本 10921 1 3 新增圖片
上一歷史版本 |   返回詞條

語(yǔ)音輸入

語(yǔ)音輸入(Voice input)是一種簡(jiǎn)便易用的輸入法,指用戶將語(yǔ)音(“說(shuō)話”)信號(hào)通過(guò)麥克風(fēng)輸入計(jì)算機(jī),計(jì)算機(jī)將語(yǔ)音信號(hào)識(shí)別為文字的計(jì)算機(jī)輸入方式。語(yǔ)音識(shí)別技術(shù)是一個(gè)典型的多學(xué)科交叉的前沿技術(shù),涉及聲學(xué)、生理學(xué)、心理學(xué)、信號(hào)處理、模式識(shí)別、人工智能、信息理論、語(yǔ)言學(xué)以及計(jì)算機(jī)科學(xué)等眾多學(xué)科。語(yǔ)音輸入有廣泛的應(yīng)用領(lǐng)域,如:語(yǔ)音聽(tīng)寫機(jī)、聲控系統(tǒng)等。

目錄

系統(tǒng)組成

大詞匯量語(yǔ)音識(shí)別系統(tǒng)多采用統(tǒng)計(jì)模式識(shí)別技術(shù),典型的基于統(tǒng)計(jì)模式識(shí)別方法的語(yǔ)音識(shí)別系統(tǒng)由以下幾個(gè)基本模塊構(gòu)成:
(1)信號(hào)處理及特征提取模塊,主要任務(wù)是從輸入信號(hào)中提取特征,供聲學(xué)模型處理。目前常用語(yǔ)音聲學(xué)特征參數(shù)有Mel倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)和感知線性預(yù)測(cè)(perceptual linear predictive,PLP)等。同時(shí),該模塊一般還采用一些信號(hào)處理技術(shù),以盡可能降低環(huán)境噪聲、信道、說(shuō)話人等因素對(duì)特征造成的影響。
(2)統(tǒng)計(jì)聲學(xué)模型,典型系統(tǒng)多采用基于隱馬爾科夫模型(HMM)進(jìn)行建模。語(yǔ)音識(shí)別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)來(lái)對(duì)識(shí)別基元建模。一個(gè)音素就是一個(gè)三至五狀態(tài)的HMM,一個(gè)詞就是構(gòu)成詞的多個(gè)音素的HMM串行起來(lái)構(gòu)成的HMM,而連續(xù)語(yǔ)音識(shí)別的整個(gè)模型就是詞和靜音組合起來(lái)的HMM。
(3)發(fā)音詞典,包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實(shí)際提供了聲學(xué)模型建模單元與語(yǔ)言模型建模單元間的映射。
(4)語(yǔ)言模型,對(duì)語(yǔ)音識(shí)別系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種,語(yǔ)言模型性能通常用交叉熵和復(fù)雜度(perplexity)來(lái)衡量。理論上,包括正則語(yǔ)言和上下文無(wú)關(guān)文法在內(nèi)的各種語(yǔ)言模型都可以作為語(yǔ)言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計(jì)的N元文法及其變體。
(5)解碼器,語(yǔ)音識(shí)別系統(tǒng)的核心之一。其任務(wù)是對(duì)輸入的信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,搜索能夠以最大概率輸出該信號(hào)的詞串。

系統(tǒng)原理

語(yǔ)音識(shí)別系統(tǒng)的識(shí)別基元通常采用上下文相關(guān)的音素,漢語(yǔ)語(yǔ)音識(shí)別基元也經(jīng)常選擇聲韻母或者音節(jié)。語(yǔ)音識(shí)別系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān),大詞匯量和非特定人的連續(xù)語(yǔ)音識(shí)別系統(tǒng)通常又稱為聽(tīng)寫機(jī)。
其架構(gòu)就是建立在前述聲學(xué)模型和語(yǔ)言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu),訓(xùn)練時(shí)對(duì)每個(gè)語(yǔ)音識(shí)別基元用前向后向算法獲得HMM模型參數(shù)。識(shí)別時(shí),將基元串接成詞,詞間加上靜音模型并引入語(yǔ)言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼針對(duì)漢語(yǔ)易于分割的特點(diǎn),先進(jìn)行分割再對(duì)每一段進(jìn)行解碼,可以有效地提高解碼的效率。

系統(tǒng)性能

語(yǔ)音識(shí)別系統(tǒng)的性能受許多因素的影響,包括不同的說(shuō)話人、說(shuō)話方式、環(huán)境噪聲和傳輸信道等。提高系統(tǒng)強(qiáng)健性,就是使系統(tǒng)在不同的應(yīng)用環(huán)境和條件下保持性能的穩(wěn)定性。語(yǔ)音識(shí)別系統(tǒng)自適應(yīng)的目的,就是根據(jù)不同的影響,自動(dòng)的、有針對(duì)性的對(duì)系統(tǒng)進(jìn)行調(diào)整,在使用中逐步提高語(yǔ)音識(shí)別系統(tǒng)性能。