深夜福利网-深夜福利网站大全,国产一区二区三区久久精品,99re6热在线精品视频播放,日韩中文字幕视频免费,影院一区二区小说性鲍视频

知名百科  > 所屬分類  >  其他科技   

語音識(shí)別技術(shù)

語音識(shí)別技術(shù)又稱自動(dòng)語音識(shí)別(Automatic Speech Recognition,ASR),是以語音為研究對(duì)象,通過語音信號(hào)處理和模式識(shí)別,使機(jī)器自動(dòng)識(shí)別和理解口語或文字的技術(shù)。語音識(shí)別技術(shù)通常使用計(jì)算機(jī)程序。通過分析語音信號(hào)的特征,如頻率、音調(diào)、語速、語調(diào)等。,聲學(xué)建模、語言模型、語音和自然語言之間的對(duì)齊和解碼被進(jìn)一步處理,最終輸出可理解的文本結(jié)果。

語音技術(shù)的研究正式進(jìn)入起步階段。語音識(shí)別是一門涉及面很廣的交叉學(xué)科,與聲學(xué)、語音學(xué)、語言學(xué)、信息論、模式識(shí)別理論和神經(jīng)生物學(xué)等學(xué)科密切相關(guān)。它正逐漸成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù)。語音識(shí)別技術(shù)和語音合成技術(shù)的結(jié)合,使得人們可以在不使用鍵盤等輸入工具的情況下,通過語音命令進(jìn)行相應(yīng)的操作。

語音識(shí)別是人工智能領(lǐng)域相對(duì)成熟的技術(shù),已廣泛應(yīng)用于智能助理、語音識(shí)別交互、智能家居、金融交易等領(lǐng)域。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,基于Deep Peak2和Deep Fully等語言模型的語音識(shí)別技術(shù)已經(jīng)廣泛應(yīng)用于各種產(chǎn)品中。

目錄

發(fā)展歷史 編輯本段

20世紀(jì)50年代,貝爾實(shí)驗(yàn)室實(shí)現(xiàn)了世界上第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng),即Audry系統(tǒng),標(biāo)志著語音識(shí)別研究的開始。

20世紀(jì)60年代,隨著計(jì)算機(jī)技術(shù)的發(fā)展,開始創(chuàng)建使用DP(動(dòng)態(tài)編程)和LP(線性預(yù)測(cè))分析語音信號(hào)的聲學(xué)模型。通過這個(gè)模型,人們將語音信號(hào)轉(zhuǎn)換成數(shù)字形式供計(jì)算機(jī)處理。

1970年,前蘇聯(lián)的維利奇科和扎戈魯科將模式識(shí)別的概念引入語音識(shí)別。同年,板倉提出了線性預(yù)測(cè)編碼(LPC)技術(shù),并將其應(yīng)用于語音識(shí)別。1978年,在前蘇聯(lián)科學(xué)家Vintsyuk的工作基礎(chǔ)上,日本人Sakoe和Chiba成功地使用動(dòng)態(tài)編程算法在時(shí)間軸上對(duì)齊了兩個(gè)不同長度的語音,這就是我們現(xiàn)在經(jīng)常提到的動(dòng)態(tài)時(shí)間彎曲(DTW)。該算法將時(shí)間正則化和距離計(jì)算有機(jī)地結(jié)合起來,解決了不同時(shí)長的語音匹配問題。

在1970年至1980年期間,語音識(shí)別的研究從針對(duì)特定人的小規(guī)模獨(dú)立單詞語音識(shí)別轉(zhuǎn)向獨(dú)立于說話人的連續(xù)語音識(shí)別。

20世紀(jì)80年代,來自IBM的工程師耶利內(nèi)克和他的團(tuán)隊(duì)開發(fā)了一種聲控打字機(jī)。一個(gè)名為Tangora的實(shí)驗(yàn)性語音識(shí)別系統(tǒng)使用IBM PC AT來識(shí)別語音并將其打印在紙上。每個(gè)說話者必須單獨(dú)訓(xùn)練打字機(jī),使其能夠識(shí)別自己的聲音,并在每兩個(gè)單詞之間停頓一下。到20世紀(jì)80年代中期,Tangora識(shí)別的詞匯量達(dá)到了2萬個(gè)單詞,這證明了統(tǒng)計(jì)方法的有效性。

1989年,Rabiner提出了隱馬爾可夫模型(HMM),將語音識(shí)別的研究從模板匹配方法轉(zhuǎn)變?yōu)榛诟怕式y(tǒng)計(jì)的統(tǒng)計(jì)建模。

自2000年以來,人機(jī)語音交互成為研究的熱點(diǎn)。研究重點(diǎn)是即興口語和自然口語對(duì)話的識(shí)別和理解,以及多語種同聲語音翻譯。

2011年,蘋果推出了智能語音系統(tǒng)Siri,它可以通過語音接收用戶的需求,讓用戶跳過復(fù)雜的操作步驟,實(shí)現(xiàn)自己的需求,從而改變了人們與可計(jì)算設(shè)備的溝通方式。

2012年,谷歌首次將深度神經(jīng)網(wǎng)絡(luò)用于語音識(shí)別領(lǐng)域并取得重大突破。該技術(shù)可以大大提高語音識(shí)別的準(zhǔn)確率和速度,使語音識(shí)別可以廣泛應(yīng)用于物聯(lián)網(wǎng)、智能家居、語音助手等領(lǐng)域。

2017年,百度提出了Deep Speech2和Deep Peak2等端到端模型。同年,谷歌將機(jī)器翻譯中使用的Seq-Seq方法應(yīng)用于語音識(shí)別,并提出了自注意和多頭結(jié)構(gòu),取得了良好的識(shí)別效果。谷歌還在2018年的Interspeech大會(huì)上提出了LAS(Listen Attend and Spell)在線識(shí)別產(chǎn)品。。同年,中國科大訊飛公司提出了深度卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),阿里巴巴提出并開放了基于雙向LSTM的深度前饋順序存儲(chǔ)網(wǎng)絡(luò)(DFSMN)。這些模型和技術(shù)推動(dòng)了語音識(shí)別技術(shù)的發(fā)展。

工作原理 編輯本段

語音識(shí)別的原理是將語音轉(zhuǎn)換成用戶可以閱讀的單詞。它采用模式識(shí)別作為基本框架,分為四個(gè)部分:數(shù)據(jù)預(yù)處理、特征提取、模型訓(xùn)練和測(cè)試應(yīng)用。語音識(shí)別一般可以分為兩個(gè)模塊,訓(xùn)練模塊和識(shí)別模塊。訓(xùn)練模塊主要學(xué)習(xí)聲音,并將學(xué)習(xí)結(jié)果存儲(chǔ)到語音數(shù)據(jù)庫中。在識(shí)別過程中,在語音數(shù)據(jù)庫中搜索當(dāng)前聽到的聲音的相應(yīng)語義或含義。根據(jù)目前主流的語音識(shí)別算法,識(shí)別模塊對(duì)接收到的語音信號(hào)進(jìn)行特征參數(shù)分析(即特征提?。?,并根據(jù)既定的判斷條件和標(biāo)準(zhǔn)與語音數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行比較,最終通過比較得出語音識(shí)別結(jié)果。

主要分類 編輯本段

關(guān)鍵詞識(shí)別:關(guān)鍵詞識(shí)別是從連續(xù)無限的語音中識(shí)別給定數(shù)量的單詞。這些單詞可以包括許多其他單詞和各種其他非語音現(xiàn)象,例如咳嗽、呼吸、蹣跚、音樂、關(guān)門、背景噪聲和傳輸噪聲。關(guān)鍵詞識(shí)別包括兩個(gè)基本內(nèi)容:關(guān)鍵詞檢測(cè)和關(guān)鍵詞確認(rèn)。關(guān)鍵詞檢測(cè)是識(shí)別輸入語音是否包含預(yù)先設(shè)定的關(guān)鍵詞,關(guān)鍵詞確認(rèn)是判斷輸入語音是否為假設(shè)關(guān)鍵詞。目前,隨著語音分析和處理理論的進(jìn)一步發(fā)展,關(guān)鍵詞識(shí)別的應(yīng)用領(lǐng)域越來越廣泛,如聲控電話交換機(jī)、語音撥號(hào)系統(tǒng)、預(yù)約系統(tǒng)、醫(yī)療服務(wù)、搜索引擎等。

語音識(shí)別技術(shù)語音識(shí)別技術(shù)

基于聲學(xué)模型的識(shí)別(ACM):聲學(xué)模型是使用機(jī)器學(xué)習(xí)算法處理音頻,訓(xùn)練語音特征和語音識(shí)別模型,然后識(shí)別輸入語音。聲學(xué)模型將語音數(shù)據(jù)映射成一組概率分布,用于表示語音信號(hào)中語音特征的出現(xiàn)概率。這些概率分布用于在語音識(shí)別中計(jì)算對(duì)應(yīng)于語音信號(hào)的文本。對(duì)于給定的語音信號(hào),聲學(xué)模型可以計(jì)算它與某個(gè)文本之間的相似性或距離度量,從而確定最有可能對(duì)應(yīng)的文本,即識(shí)別的語音文本。

基于語言模型的識(shí)別:語言模型主要基于統(tǒng)計(jì)模型和深度學(xué)習(xí)算法,用于解決語音識(shí)別中潛在的歧義問題,提高語音識(shí)別的準(zhǔn)確率。這項(xiàng)技術(shù)主要分為兩個(gè)步驟:訓(xùn)練和分類。在訓(xùn)練階段,輸入大量的腳本和標(biāo)記的語言類型,使系統(tǒng)能夠?qū)W習(xí)不同語言的特征以及每種語言中出現(xiàn)的單詞組合。通過計(jì)算每種語言的詞頻和序列頻率,建立模型。語言模型使用基于N-gram的統(tǒng)計(jì)模型,其中N表示使用前n-1個(gè)單詞來預(yù)測(cè)下一個(gè)單詞的模型。在分類階段,給定一段文本,由模型進(jìn)行推斷,并計(jì)算指定文本屬于每種語言的可能性。最后選擇概率最大的語言作為答案。判斷結(jié)果可以通過計(jì)算給定文本與每個(gè)語言模型之間的相似度來獲得,通常使用余弦相似度等方法。

端到端語音識(shí)別:這種語音識(shí)別技術(shù)不需要將語音信號(hào)轉(zhuǎn)換為微小的聲學(xué)特征,而是直接將整個(gè)語音信號(hào)輸入到深度學(xué)習(xí)模型中,從而實(shí)現(xiàn)語音識(shí)別。它使用單一模型直接將音頻映射到字符或單詞,這更容易構(gòu)建和訓(xùn)練。端到端模型的所有參數(shù)都可以隨著訓(xùn)練的進(jìn)展進(jìn)行同步調(diào)整和優(yōu)化,從而避免使用不同損失函數(shù)導(dǎo)致的訓(xùn)練差異。

混合語音識(shí)別(混合語音識(shí)別):混合語音識(shí)別結(jié)合了聲學(xué)模型和語言模型,還使用了混合算法模型,如HMM和DNN。混合語音識(shí)別主要包括前端音頻處理和后端語音識(shí)別兩個(gè)階段。在前端音頻處理中,主要對(duì)輸入音頻信號(hào)進(jìn)行預(yù)處理,并對(duì)原始音頻信號(hào)進(jìn)行濾波和去噪以提高錄音質(zhì)量。在后端語音識(shí)別中,主要使用兩種或兩種以上的語音識(shí)別技術(shù)來提高識(shí)別的準(zhǔn)確性和魯棒性。

主要應(yīng)用 編輯本段

語音助手:蘋果與語音識(shí)別廠商合作后,手機(jī)實(shí)現(xiàn)了語音識(shí)別功能,這就成了我們今天熟悉的Siri。到了2015年9月,Siri已經(jīng)可以擺脫之前的手動(dòng)開啟模式,支持語音指令“hi Siri”開啟,這在一定程度上解放了她的雙手。Siri變得越來越智能,甚至一度出現(xiàn)了“所有人都在戲弄”Siri的情況。它可以為用戶提供語音控制操作方式,方便用戶使用設(shè)備或獲取信息。

語音搜索:用戶通過語音搜索所需信息。例如,基于Android系統(tǒng)作為應(yīng)用程序開發(fā)平臺(tái),使用Google語音識(shí)別技術(shù)來實(shí)現(xiàn)語音搜索和語音打開手機(jī)軟件的功能。開發(fā)人員還實(shí)現(xiàn)了常用網(wǎng)站的鏈接和手機(jī)軟件的列表顯示,使用戶更容易上網(wǎng)和娛樂。通過實(shí)機(jī)測(cè)試,實(shí)現(xiàn)了語音搜索和語音打開手機(jī)軟件的功能,性能穩(wěn)定可靠,實(shí)用性強(qiáng)。

語音翻譯:通過語音輸入要翻譯的文本,然后翻譯軟件通過語音識(shí)別技術(shù)識(shí)別用戶的語音,并將語音翻譯成目標(biāo)語言的文本。例如,2018年,谷歌將機(jī)器中使用的Seq-Seq方法應(yīng)用于語音識(shí)別,并提出了自注意和多頭模型,取得了良好的識(shí)別和翻譯效果。

語音識(shí)別密碼:在銀行、電子商務(wù)、社交媒體等領(lǐng)域,用戶可以通過語音進(jìn)行身份驗(yàn)證或支付。例如,使用基于統(tǒng)計(jì)模型的隱馬爾可夫模型(HMM)來描述語音模型,訓(xùn)練語音模型庫,使用帶有模板匹配的Viterbi算法進(jìn)行語音識(shí)別。所設(shè)計(jì)的語音密碼鎖系統(tǒng)將語音密碼和鍵盤密碼技術(shù)相結(jié)合,保證了系統(tǒng)的安全性。通過測(cè)試,該系統(tǒng)對(duì)特定人的語音識(shí)別率可達(dá)98%。

口聲控制:在智能家居領(lǐng)域,用戶可以通過語音控制家用電器、打開電視、調(diào)節(jié)空調(diào)溫度等操作。阿里巴巴的天貓精靈智能音響可以通過天貓精靈的召喚語言喚醒,然后說出相應(yīng)的控制語句來控制家用電器的動(dòng)作。

醫(yī)學(xué)領(lǐng)域:通過智能語音識(shí)別技術(shù)與醫(yī)療場景的結(jié)合應(yīng)用,輔助臨床工作,提高工作效率,實(shí)現(xiàn)醫(yī)患溝通,實(shí)現(xiàn)語音識(shí)別病歷輸入和醫(yī)囑。例如,基于“語音云”開發(fā)了醫(yī)療語音輸入助手,使醫(yī)生在使用鍵盤書寫病歷時(shí)可以一鍵啟動(dòng)語音輸入,提高了病歷輸入效率,并針對(duì)識(shí)別過程中出現(xiàn)的多字、漏字、識(shí)別錯(cuò)誤等問題建立了各科室語料庫,優(yōu)化了醫(yī)療語言模型并增加了方言識(shí)別功能,解決了醫(yī)生記錄慢、電子病歷應(yīng)用推廣難等問題。

教育領(lǐng)域:語音識(shí)別技術(shù)也廣泛應(yīng)用于口語測(cè)評(píng)、學(xué)習(xí)記錄、智能講座平臺(tái)、多媒體信息檢索等。語音技術(shù)的發(fā)展將進(jìn)一步助力外語和語言教學(xué),提高教學(xué)效率和教學(xué)效果,推動(dòng)人工智能技術(shù)的整體發(fā)展。與傳統(tǒng)的圖形編程和文本編程相比,利用語音識(shí)別開發(fā)的基于教育機(jī)器人的語音控制自動(dòng)編程系統(tǒng)更加智能、易操作、易學(xué),達(dá)到了寓教于樂的編程和學(xué)習(xí)目的。

附件列表


0

詞條內(nèi)容僅供參考,如果您需要解決具體問題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。

如果您認(rèn)為本詞條還有待完善,請(qǐng) 編輯

上一篇 問卷星    下一篇 MAC地址

同義詞

暫無同義詞