時(shí)間:2023-03-17 18:05:50
序論:在您撰寫語音識(shí)別技術(shù)時(shí),參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
摘要:本文簡(jiǎn)要介紹了語音識(shí)別技術(shù)理論基礎(chǔ)及分類方式,所采用的關(guān)鍵技術(shù)以及所面臨的困難與挑戰(zhàn),最后討論了語音識(shí)別技術(shù)的發(fā)展前景和應(yīng)用。
關(guān)鍵詞:語音識(shí)別;特征提取;模式匹配;模型訓(xùn)練
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、語音識(shí)別技術(shù)的理論基礎(chǔ)
語音識(shí)別技術(shù):是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級(jí)技術(shù)。語音識(shí)別以語音為研究對(duì)象,它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語言(如人在說話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。
不同的語音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個(gè)典型語音識(shí)別系統(tǒng)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外,還涉及到語音識(shí)別單元的選取。
(一) 語音識(shí)別單元的選取
選擇識(shí)別單元是語音識(shí)別研究的第一步。語音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。
單詞(句)單元廣泛應(yīng)用于中小詞匯語音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。
音節(jié)單元多見于漢語語音識(shí)別,主要因?yàn)闈h語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約1300個(gè)音節(jié),但若不考慮聲調(diào),約有408個(gè)無調(diào)音節(jié),數(shù)量相對(duì)較少。因此,對(duì)于中、大詞匯量漢語語音識(shí)別系統(tǒng)來說,以音節(jié)為識(shí)別單元基本是可行的。
音素單元以前多見于英語語音識(shí)別的研究中,但目前中、大詞匯量漢語語音識(shí)別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構(gòu)成,且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。
(二) 特征參數(shù)提取技術(shù)
語音信號(hào)中含有豐富的信息,但如何從中提取出對(duì)語音識(shí)別有用的信息呢?特征提取就是完成這項(xiàng)工作,它對(duì)語音信號(hào)進(jìn)行分析處理,去除對(duì)語音識(shí)別無關(guān)緊要的冗余信息,獲得影響語音識(shí)別的重要信息。對(duì)于非特定人語音識(shí)別來講,希望特征參數(shù)盡可能多的反映語義信息,盡量減少說話人的個(gè)人信息(對(duì)特定人語音識(shí)別來講,則相反)。從信息論角度講,這是信息壓縮的過程。
線性預(yù)測(cè)(LP)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測(cè)模型是純數(shù)學(xué)模型,沒有考慮人類聽覺系統(tǒng)對(duì)語音的處理特點(diǎn)。
Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜,在一定程度上模擬了人耳對(duì)語音的處理特點(diǎn),應(yīng)用了人耳聽覺感知方面的一些研究成果。實(shí)驗(yàn)證明,采用這種技術(shù),語音識(shí)別系統(tǒng)的性能有一定提高。
也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。
(三)模式匹配及模型訓(xùn)練技術(shù)
模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個(gè)模型獲得最佳匹配。
語音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。
DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在孤立詞語音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識(shí)別系統(tǒng),目前已被HMM模型和ANN替代。
HMM模型是語音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測(cè)的)。隱蔽Markor鏈的特征要靠可觀測(cè)到的信號(hào)特征揭示。這樣,語音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào)的隨機(jī)過程描述,而信號(hào)隨時(shí)間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。按照隨機(jī)函數(shù)的特點(diǎn),HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡(jiǎn)稱DHMM)和連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù),簡(jiǎn)稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點(diǎn))。一般來講,在訓(xùn)練數(shù)據(jù)足夠的,CHMM優(yōu)于DHMM和SCHMM。HMM模型的訓(xùn)練和識(shí)別都已研究出有效的算法,并不斷被完善,以增強(qiáng)HMM模型的魯棒性。
人工神經(jīng)元網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動(dòng)的原理,具有自學(xué)、聯(lián)想、對(duì)比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個(gè)有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此,現(xiàn)在已有人研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來,從而提高整個(gè)模型的魯棒性。 二、語音識(shí)別的困難與對(duì)策
目前,語音識(shí)別方面的困難主要表現(xiàn)在:
(一)語音識(shí)別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個(gè)問題是對(duì)用戶的錯(cuò)誤輸入不能正確響應(yīng),使用不方便。
(二)高噪聲環(huán)境下語音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號(hào)分析處理方法。
(三)語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識(shí)量化、建模并用于語音識(shí)別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識(shí)別中是非常重要的。
(四)我們對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的認(rèn)識(shí)還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識(shí)別,還有一個(gè)艱難的過程。
(五)語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決,識(shí)別速度、拒識(shí)問題以及關(guān)鍵詞(句)檢測(cè)技術(shù)等等技術(shù)細(xì)節(jié)要解決。
三、語音識(shí)別技術(shù)的前景和應(yīng)用
語音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)國家,大量的語音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識(shí)別撥號(hào)功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識(shí)別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識(shí)別口語對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。
語音識(shí)別是一門交叉學(xué)科,語音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語音識(shí)別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。
參考文獻(xiàn)
[1]科大訊飛語音識(shí)別技術(shù)專欄. 語音識(shí)別產(chǎn)業(yè)的新發(fā)展.企業(yè)專欄.通訊世界,2007.2:(總l12期)
[2]任天平,門茂深.語音識(shí)別技術(shù)應(yīng)用的進(jìn)展.科技廣場(chǎng).河南科技,2005.2:19-20
[3]俞鐵城.科大訊飛語音識(shí)別技術(shù)專欄.語音識(shí)別的發(fā)展現(xiàn)狀.企業(yè)專欄.通訊世界,2006.2 (總122期)
[4]陳尚勤等.近代語音識(shí)別.西安:電子科技大學(xué)出版社,1991
關(guān)鍵詞:語音識(shí)別 應(yīng)用領(lǐng)域 熱點(diǎn) 難點(diǎn)
中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-3973 (2010) 03-062-02
1應(yīng)用領(lǐng)域
如今,一些語音識(shí)別的應(yīng)用已經(jīng)應(yīng)用到實(shí)際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統(tǒng)等。語音識(shí)別的應(yīng)用領(lǐng)域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號(hào)系統(tǒng)、、家庭服務(wù)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、聽寫機(jī)、計(jì)算機(jī)控制、工業(yè)控制、語音通信系統(tǒng)等。預(yù)計(jì)在不遠(yuǎn)的將來,語音識(shí)別技術(shù)將在工業(yè)、家電、通信、、醫(yī)療、家庭服務(wù)等各個(gè)領(lǐng)域深刻改變?nèi)祟惉F(xiàn)有的日常生活方式。語音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。
2發(fā)展歷史
語音識(shí)別的研究工作開始于50年代,Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)―Audry系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在60年代末70年代初。60年代,提出了動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP),其中后者較好地解決了語音信號(hào)產(chǎn)生模型的問題,極大地促進(jìn)了語音識(shí)別的發(fā)展。70年代,動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)解決了語音特征不等長(zhǎng)匹配問題,對(duì)特定人孤立詞語音識(shí)別十分有效,在語音識(shí)別領(lǐng)域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識(shí)別研究進(jìn)一步深入,HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識(shí)別中成功應(yīng)用。1988年,FULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語音識(shí)別系統(tǒng)。人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,并以此確定了統(tǒng)計(jì)方法和模型在語音識(shí)別和語言處理中的主流地位。使得借助人工智能中的啟發(fā)式搜索和語音模型自身的特點(diǎn),高效、快捷的算法使得建立實(shí)時(shí)的連續(xù)語音識(shí)別系統(tǒng)成為可能。
90年代,人們開始進(jìn)一步研究語音識(shí)別與自然語言處理的結(jié)合,逐步發(fā)展到基于自然口語識(shí)別和理解的人機(jī)對(duì)話系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)(ANN)也開始應(yīng)用于語音識(shí)別,它和HMM模型建立的語音識(shí)別系統(tǒng)性能相當(dāng),在很多系統(tǒng)中還被結(jié)合在一起使用以提高識(shí)別率及系統(tǒng)的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進(jìn)一步深入中。
現(xiàn)在語音識(shí)別系統(tǒng)已經(jīng)開始從實(shí)驗(yàn)室走向?qū)嵱?出現(xiàn)了比較成熟的已推向市場(chǎng)的產(chǎn)品。許多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。
3研究的熱點(diǎn)與難點(diǎn)
目前語音識(shí)別領(lǐng)域的研究熱點(diǎn)包括:穩(wěn)健語音識(shí)別(識(shí)別的魯棒性)、語音輸入設(shè)備研究 、聲學(xué)HMM模型的細(xì)化、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識(shí)別、高效的識(shí)別(搜索)算法研究 、可信度評(píng)測(cè)算法研究、ANN的應(yīng)用、語言模型及深層次的自然語言理解。
目前研究的難點(diǎn)主要表現(xiàn)在:(1)語音識(shí)別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng)。(2)高噪聲環(huán)境下語音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,必須尋找新的信號(hào)分析處理方法。(3)如何把語言學(xué)、生理學(xué)、心理學(xué)方面知識(shí)量化、建模并有效用于語音識(shí)別,目前也是一個(gè)難點(diǎn)。(4)由于我們對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識(shí)還很不清楚,這必將阻礙語音識(shí)別的進(jìn)一步發(fā)展。
4語音識(shí)別系統(tǒng)
一個(gè)典型的語音識(shí)別系統(tǒng)如圖所示:
輸入的語言信號(hào)首先要進(jìn)行反混疊濾波、采樣、A/D轉(zhuǎn)換等過程進(jìn)行數(shù)字化,之后要進(jìn)行預(yù)處理,包括預(yù)加重、加窗和分幀、端點(diǎn)檢測(cè)等。我們稱之為對(duì)語音信號(hào)進(jìn)行預(yù)處理。
語音信號(hào)的特征參數(shù)主要有:短時(shí)能量En,反映語音振幅或能量隨著時(shí)間緩慢變化的規(guī)律;短時(shí)平均過零率Zn,對(duì)于離散信號(hào)來講,簡(jiǎn)單的說就是樣本改變符號(hào)的次數(shù),可以粗略分辨清音和濁音;短時(shí)自相關(guān)函數(shù);經(jīng)過FFT或LPC運(yùn)算得到的功率譜,再經(jīng)過對(duì)數(shù)運(yùn)算和傅里葉反變換以后得到的倒譜參數(shù);根據(jù)人耳聽覺特性變換的美爾(MEL);線性預(yù)測(cè)系數(shù)等。通常識(shí)別參數(shù)可選擇上面的某一種或幾種的組合。
語音識(shí)別是語音識(shí)別系統(tǒng)最核心的部分。包括語音的聲學(xué)模型(訓(xùn)練學(xué)習(xí))與模式匹配(識(shí)別算法)以及相應(yīng)的語言模型與語言處理2大部分。聲學(xué)模型用于參數(shù)匹配,通常在模型訓(xùn)練階段按照一定的準(zhǔn)則,由用語音特征參數(shù)表征的大量已知模式中通過學(xué)習(xí)算法來獲取代表該模式本質(zhì)特征的模型參數(shù)而產(chǎn)生。在識(shí)別(模式匹配)時(shí)將輸入的語音特征同聲學(xué)模型(模式)根據(jù)一定準(zhǔn)則進(jìn)行匹配與比較,使未知模式與模型庫中的某一個(gè)模型獲得最佳匹配以得到最佳的識(shí)別結(jié)果。語言模型一般指在匹配搜索時(shí)用于字詞和路徑約束的語言規(guī)則,它包括由識(shí)別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語言模型,語言處理則可以進(jìn)行語法、語義分析。
聲學(xué)模型是語音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。目前最常用也最有效的幾種聲學(xué)識(shí)別模型包括動(dòng)態(tài)時(shí)間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)模型(ANN)等。
DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它把整個(gè)單詞作為識(shí)別單元,在訓(xùn)練階段將詞匯表中每個(gè)詞的特征矢量序列作為模板存入模板庫,在識(shí)別階段將待識(shí)別語音的特征矢量序列依次與庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。DTW應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在小詞匯量、孤立詞語音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識(shí)別系統(tǒng),目前已逐漸被HMM和ANN模型替代。
HMM模型是語音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測(cè)的)。HMM很好的模擬了人得語言過程,目前應(yīng)用十分廣泛。HMM模型的模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)(狀態(tài)數(shù)目N、狀態(tài)之間的轉(zhuǎn)移方向等)、每個(gè)狀態(tài)可以觀察到的符號(hào)數(shù)M(符號(hào)集合O)、狀態(tài)轉(zhuǎn)移概率A及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù),包括觀察符號(hào)的概率分布B和初始狀態(tài)概率分布 ,因此一個(gè)HMM模型可以由{N,M,A,B, }來確定,對(duì)詞匯表中的每一個(gè)詞都要建立相應(yīng)的HMM模型。
模型參數(shù)得到后可以用Viterbi算法來確定與觀察序列對(duì)應(yīng)的最佳的狀態(tài)序列。建好模型后,在識(shí)別階段就是要計(jì)算每個(gè)模型產(chǎn)生觀察符號(hào)序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識(shí)別結(jié)果。這個(gè)過程計(jì)算量很大,有人提出了前向-后向算法,大大減少了計(jì)算量,已經(jīng)被廣泛采用,關(guān)于它們的各種改進(jìn)方法也被大量提出。
ANN在語音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),是由結(jié)點(diǎn)互連組成的計(jì)算網(wǎng)絡(luò),模擬了人類大腦神經(jīng)元活動(dòng)的基本原理,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實(shí)現(xiàn)的特點(diǎn),同時(shí)還具備自組織、自適應(yīng)的功能。這些能力是HMM模型不具備的,可用于處理一些環(huán)境信息十分復(fù)雜,背景知識(shí)不清楚,推理規(guī)則不明確的問題,允許樣品有較大的缺損、畸變,因此對(duì)于噪聲環(huán)境下非特定人的語音識(shí)別問題來說是一種很好的解決方案。目前大部分應(yīng)用神經(jīng)網(wǎng)絡(luò)的語音識(shí)別系統(tǒng)都采用了BP網(wǎng)并取得了較好的識(shí)別效果。
將ANN與HMM結(jié)合分別利用各自優(yōu)點(diǎn)進(jìn)行識(shí)別將是今后的一條研究途徑。二者結(jié)合的混合語音識(shí)別方法的研究開始于上世紀(jì)90年代,目前已有一些方法將ANN輔助HMM進(jìn)行計(jì)算和學(xué)習(xí)概率參數(shù)。
語言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。統(tǒng)計(jì)語言模型是用概率統(tǒng)計(jì)的方法來揭示語言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料庫中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5總結(jié)
盡管語音識(shí)別技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步,而語音識(shí)別系統(tǒng)也層出不窮,不斷的改變?nèi)祟惉F(xiàn)有的生活方式,但其比較成功的應(yīng)用也只是在某些特定的領(lǐng)域,談不上大規(guī)模廣泛的應(yīng)用。只有建立從聲學(xué)、語音學(xué)到語言學(xué)的知識(shí)為基礎(chǔ)、以信息論、模式識(shí)別數(shù)理統(tǒng)計(jì)和人工智能為主要實(shí)現(xiàn)手段的語音處理機(jī)制,把整個(gè)語音識(shí)別過程從系統(tǒng)工程的高度進(jìn)行分析構(gòu)建,才有可能獲得能與人類相比的高性能的、完整的計(jì)算機(jī)語音識(shí)別系統(tǒng)。
參考文獻(xiàn):
[1]易克初,田斌.付強(qiáng).語音信號(hào)處理[M].國防工業(yè)出版社,2000.
[2]胡航.語音信號(hào)處理[M].哈爾濱工業(yè)大學(xué)出版社,2000.
[3]趙力.語音信號(hào)處理[M].機(jī)械工業(yè)出版社,2003.
【關(guān)鍵詞】語音識(shí)別 語言模型 聲學(xué)模型 人工智能
使用智能手機(jī)的朋友們都會(huì)對(duì)語音助手產(chǎn)生極大的興趣,不管是微軟的Cortana,還是蘋果的Siri,都是將語音識(shí)別融入現(xiàn)代技術(shù)的典范。Z音識(shí)別是解決機(jī)器“聽懂”人類語言的一項(xiàng)技術(shù),也是人工智能重要部分。
語音識(shí)別技術(shù)(speech recognition),也被稱為自動(dòng)語音識(shí)別 (ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而前者的目標(biāo)是語音中所包含的詞匯內(nèi)容。
探究語音識(shí)別技術(shù)的框架、應(yīng)用與發(fā)展有利于全面了解語音識(shí)別。本文將從語音識(shí)別簡(jiǎn)介、主流語言識(shí)別框架以及語言識(shí)別近年來的發(fā)展三個(gè)方面探究語音識(shí)別。
1 語音識(shí)別簡(jiǎn)介
1.1 傳統(tǒng)語言識(shí)別技術(shù)發(fā)展
對(duì)語音識(shí)別技術(shù)的研究可以追述到上世紀(jì)五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),開創(chuàng)了語音識(shí)別的先河。上世紀(jì)六十年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識(shí)別。上世紀(jì)七十年代以后,大規(guī)模的語音識(shí)別在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。傳統(tǒng)語音識(shí)別技術(shù)最大突破是隱式馬爾可夫模型的應(yīng)用,這一模型極大提高了語音識(shí)別的準(zhǔn)確率[1]。
1.2 語言識(shí)別的應(yīng)用
作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識(shí)別一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識(shí)別技術(shù)的研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來。在現(xiàn)實(shí)生活中,語音識(shí)別技術(shù)的應(yīng)用相當(dāng)廣泛,它改變了人與計(jì)算機(jī)交互的方式,使計(jì)算機(jī)更加智能。和鍵盤輸入相比,語音識(shí)別更符合人的日常習(xí)慣;使用語言控制系統(tǒng),相比手動(dòng)控制,語音識(shí)別更加方便快捷,可以用在工業(yè)控制、智能家電等設(shè)備;通過智能對(duì)話查詢系統(tǒng),企業(yè)可以根據(jù)用戶的語音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)檢索服務(wù)。
2 語音識(shí)別框架
目前主流的語音識(shí)別框架可以分為以下幾個(gè)模塊:信號(hào)處理,特征提取,聲學(xué)模型,語言模型,解碼器。
2.1 信號(hào)處理
信號(hào)處理模塊是對(duì)語音文件進(jìn)行預(yù)處理。聲音是一種縱波,在識(shí)別語音時(shí),輸入為WMV,MP3等格式的文件會(huì)被轉(zhuǎn)換成非壓縮的純波文件wav格式。然后在進(jìn)行語音識(shí)別前,需要檢測(cè)該文件中的語音信號(hào),該技術(shù)被稱之為語音活性檢測(cè)[2]。使用語言活性檢測(cè)技術(shù)可以有效降低噪音,去除非語音片段,提高語音識(shí)別的準(zhǔn)確率。經(jīng)典的語音活性檢測(cè)算法由如下步驟組成:
(1)使用spectral subtraction等方法對(duì)語言序列進(jìn)行降噪。(2)將輸入信號(hào)的分成區(qū)塊并提取特征。(3)設(shè)計(jì)分類器判斷該區(qū)塊是否為語音信號(hào)。
2.2 特征提取
特征提取目的是提取出語音文件的特征,以一定的數(shù)學(xué)方式表達(dá),從而可以參與到后續(xù)模塊處理中。在這一模塊,首先要將連續(xù)的聲音分成離散的幀。每一幀的時(shí)間既要足夠長(zhǎng),使得我們能夠判斷它屬于哪個(gè)聲韻母的信息,若過短則包含信息過少;每一幀時(shí)間也要盡量短,語音信號(hào)需要足夠平穩(wěn),能夠通過短時(shí)傅里葉分析進(jìn)行特征提取,過長(zhǎng)則會(huì)使信號(hào)不夠平穩(wěn)。分幀時(shí)使用如下改進(jìn)技術(shù)可以有效提高識(shí)別準(zhǔn)確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個(gè)語音幀堆疊起來。通過分幀處理,連續(xù)的語音被分為離散的小段,但還缺乏數(shù)學(xué)上的描述能力,因此需要對(duì)波形作特征提取。常見的方法是根據(jù)人耳的生理特征,把每一幀波形變換成一個(gè)多維向量。因此,這些向量包含了這些語音的內(nèi)容信息。該過程被稱為聲學(xué)特征提取,常見的聲學(xué)特征有MFCC、CPE、LPC等。
MFCC是目前最常用、最基本的聲學(xué)特征,提取MFCC特征可以分為如下四個(gè)步驟:首先對(duì)每一幀進(jìn)行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個(gè)三角形相乘并積分,求出頻譜在每一個(gè)三角形下的能量,這樣處理可以減少數(shù)據(jù)量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結(jié)果的對(duì)數(shù),這可以放大低能量處的能量差異。最后對(duì)得到的對(duì)數(shù)進(jìn)行離散余弦變換,并保留前12~20個(gè)點(diǎn)進(jìn)一步壓縮數(shù)據(jù)。通過特征提取,聲音序列就被轉(zhuǎn)換為有特征向量組成的矩陣。
2.3 聲學(xué)模型
聲學(xué)模型是語音識(shí)別中最重要的組成部分之一,其用于語音到音節(jié)概率的計(jì)算。目前主流的方法多數(shù)采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī)。
隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內(nèi)部狀態(tài)x1,x2,x3外界不可見,外界只能看到各個(gè)時(shí)刻的輸出值y1,y2,y3。對(duì)語音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征,輸入是由特征提取模塊提取的特征。用HMM刻畫語音信號(hào)需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值Y只與當(dāng)前狀態(tài)X(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、維特比算法和前向后向算法。
早期的聲學(xué)模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對(duì)于連續(xù)取值的特征應(yīng)當(dāng)采用連續(xù)的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數(shù)過多的問題,可以使用某些聚類方法來減小模型中的參數(shù)數(shù)量,提高模型的可訓(xùn)練性。聚類可以在模型層次,狀態(tài)層次乃至混合高斯模型中每個(gè)混合的層次進(jìn)行。
2.4 語言模型
語言模型音節(jié)到字概率的計(jì)算。 語言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。相比于統(tǒng)計(jì)模型,規(guī)則模型魯棒性較差,對(duì)非本質(zhì)錯(cuò)誤過于嚴(yán)苛,泛化能力較差,研究強(qiáng)度更大。因此主流語音識(shí)別技術(shù)多采用統(tǒng)計(jì)模型。統(tǒng)計(jì)模型采用概率統(tǒng)計(jì)的方法來揭示語言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。
N-Gram基于如下假設(shè):第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率即為各個(gè)詞出現(xiàn)概率的乘積。詞與詞之間的概率可以直接從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到??紤]計(jì)算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。
2.5 解碼器
解碼器是語音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對(duì)輸入信號(hào),根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。在實(shí)踐中較多采用維特比算法[3]搜索根據(jù)聲學(xué)、語言模型得出的最優(yōu)詞串。
基于動(dòng)態(tài)規(guī)劃的維特比算法在每個(gè)時(shí)間點(diǎn)上的各個(gè)狀態(tài),計(jì)算解碼狀態(tài)序列對(duì)觀察序列的后驗(yàn)概率,保留概率最大的路徑,并在每個(gè)節(jié)點(diǎn)記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優(yōu)解的條件下,同時(shí)解決了連續(xù)語音識(shí)別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時(shí)間對(duì)準(zhǔn)、詞邊界檢測(cè)和詞的識(shí)別,從而使這一算法成為語音識(shí)別搜索的基本策略。
維特比(Viterbi)算法的時(shí)齊特性使得同一時(shí)刻的各條路徑對(duì)應(yīng)于同樣的觀察序列,因而具有可比性,Beam搜索在每一時(shí)刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當(dāng)前語音識(shí)別搜索中最有效的算法。
3 語音識(shí)別技術(shù)的發(fā)展
近幾年來,特別是2009年以來,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語料的積累,語音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。
在模型方面,傳統(tǒng)語音識(shí)別模型逐步被神經(jīng)網(wǎng)絡(luò)替代,使用神經(jīng)網(wǎng)絡(luò)可以更好地提取特征,擬合曲線。使用人工神經(jīng)網(wǎng)絡(luò)來提高語音識(shí)別性能的概念最早在80年代就提出了,但當(dāng)時(shí)高斯混合模型在大詞匯語音識(shí)別上表現(xiàn)得更好,因此人工神經(jīng)網(wǎng)絡(luò)并沒有進(jìn)行商業(yè)應(yīng)用。隨著相關(guān)技術(shù)的進(jìn)一步發(fā)展,微軟研究院利用深度神經(jīng)網(wǎng)絡(luò)建立了數(shù)千個(gè)音素的模型,比傳統(tǒng)方法減少了16%的相對(duì)誤差。其在建立起有超過660萬神經(jīng)聯(lián)系的網(wǎng)絡(luò)后,將總的語音識(shí)別錯(cuò)誤率降低了30%,實(shí)現(xiàn)了語音識(shí)別巨大的突破[4]。
同時(shí)目前多數(shù)主流語言識(shí)別解碼器采用了基于有限狀態(tài)機(jī)的解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)將語音模型、詞典、聲學(xué)共享音字集統(tǒng)一為大的解碼網(wǎng)絡(luò),大幅度提高了解碼速度。
在數(shù)據(jù)量上,由于移動(dòng)互聯(lián)網(wǎng)的急速發(fā)展,從多個(gè)渠道獲取的海量語言原料為聲學(xué)模型和語言模型的訓(xùn)練提供了豐富的資源,不斷提升語音識(shí)別的準(zhǔn)確率。
4 結(jié)語
語音是人們工作生活中最自然的交流媒介,所以語音識(shí)別技術(shù)在人機(jī)交互中成為非常重要的方式,語音識(shí)別技術(shù)具有非常廣泛的應(yīng)用領(lǐng)域和非常廣闊的市場(chǎng)前景。而隨著深度神經(jīng)網(wǎng)絡(luò)發(fā)展,硬件計(jì)算能力的提高,以及海量數(shù)據(jù)積累,語音識(shí)別系統(tǒng)的準(zhǔn)確率和實(shí)用性將得到持續(xù)提高。
參考文獻(xiàn):
[1]S基百科編者.語音識(shí)別[G/OL].維基百科,2016(20160829)[2016-08-29].
[2]維基百科編者.語音活性檢測(cè)[G/OL].維基百科,2016(20160629)[2016-06-29].
[3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].
[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.
【關(guān)鍵詞】 語音識(shí)別 通話 大數(shù)據(jù) 互聯(lián)網(wǎng)
該文主要致力于解決通話中的語音識(shí)別技術(shù),長(zhǎng)期可推廣至QQ語音聊天等即時(shí)聊天軟件中,相較于目前大多數(shù)語音識(shí)別軟件需要手動(dòng)打開更為主動(dòng),讓用戶感覺不到軟件的存在,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話結(jié)束后針對(duì)通話中涉及的電話號(hào)碼、地點(diǎn)、時(shí)間等關(guān)鍵信息進(jìn)行信息的推送,大大提高了效率,并對(duì)聽力有障礙的人士有更為重要的意義。
一、語音識(shí)別基本原理
語音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),包括特征提取、模式匹配、參考模式庫等三個(gè)基本單元,未知語音經(jīng)過話筒變換成電信號(hào)后加在識(shí)別系統(tǒng)的輸入端,首先經(jīng)過預(yù)處理,再根據(jù)人的語音特點(diǎn)建立語音模型,對(duì)輸入的語音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語音識(shí)別所需的模板,然后根據(jù)此模板的定義,通過查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。 [1]
二、通話中語音識(shí)別技術(shù)
2.1技術(shù)原理:
1、基本架構(gòu):Smartalk通話系統(tǒng)基于“云之訊”開放平臺(tái)提供的語音視頻通話服務(wù)和“科大訊飛”開放平臺(tái)提供的語音識(shí)別服務(wù),并加以對(duì)手機(jī)GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對(duì)之進(jìn)行處理和交換。Smartalk架構(gòu)分為4個(gè)部分:客戶端、語音視頻服務(wù)、語音識(shí)別服務(wù)、云數(shù)據(jù)處理分析。利用“云之訊”開放平臺(tái)提供的語音視頻通話服務(wù)和“科大訊飛”開放平臺(tái)提供的語音識(shí)別服務(wù)可將用戶在通話中涉及的地點(diǎn)、人名、電話號(hào)碼等關(guān)鍵詞提取出來并加以分析對(duì)行程和下一步操作提供幫助。
2、基本平臺(tái):本系統(tǒng)基于APIcloud開發(fā),兼容云端和第三方SDK,可跨平臺(tái)(Android、IOS、Windows等)使用,采用標(biāo)準(zhǔn)的c++語言實(shí)現(xiàn)。
2.2功能實(shí)現(xiàn):
1、基于“云之訊”開放平臺(tái)的通話系統(tǒng):云之訊融合通訊開放平臺(tái)為企業(yè)及個(gè)人開發(fā)者提供各種通訊服務(wù),包括在線語音服務(wù)、短信服務(wù)、視頻服務(wù)、會(huì)議服務(wù)等,開發(fā)者通過嵌入云通訊API在應(yīng)用中輕松實(shí)現(xiàn)各種通訊功能。
2、基于“科大訊飛”開放平臺(tái)的語音識(shí)別系統(tǒng):。訊飛開放平臺(tái)使用戶可通過互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng),使用任何設(shè)備方便的介入訊飛開放平臺(tái)提供的“聽、說、讀、寫”等全方位的人工智能服務(wù)。目前開放平臺(tái)向開發(fā)者提供語音合成、語音識(shí)別、語音喚醒、語義理解、移動(dòng)應(yīng)用分析等多項(xiàng)服務(wù)。
3、語音識(shí)別與云端大數(shù)據(jù)結(jié)合分析:。利用基于“云之訊”通話系統(tǒng)和“科大訊飛”語音識(shí)別系統(tǒng)實(shí)現(xiàn)了實(shí)時(shí)的語音識(shí)別,加以云端大數(shù)據(jù)的結(jié)合,和實(shí)時(shí)的分析用戶當(dāng)前的需求和問題,及時(shí)的跟用戶產(chǎn)生交流反饋,并根據(jù)用戶長(zhǎng)期的使用時(shí)間分析智能提前推送相關(guān)信息。
2.3未來展望:
基于大數(shù)據(jù)和互聯(lián)網(wǎng)+技術(shù)的日益發(fā)展與完善,并隨著通信傳輸速度的逐漸提高,可在實(shí)時(shí)的條件下分析與推送更多豐富的內(nèi)容,加以與即時(shí)聊天軟件的結(jié)合,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話結(jié)束后針對(duì)通話中涉及的電話號(hào)碼、地點(diǎn)、時(shí)間等關(guān)鍵信息進(jìn)行信息的推送,并對(duì)聽力有障礙的人士有更為重要的意義,未來的市場(chǎng)前景廣闊。
三、語音識(shí)別技術(shù)應(yīng)用
3.1 語音指令控制在汽車上的應(yīng)用:
語音控制人員只需要用嘴說出命令控制字,就可以實(shí)現(xiàn)對(duì)系統(tǒng)的控制。在汽車上,可用于汽車導(dǎo)航、控制車載設(shè)備。如車燈、音響、天窗、座椅、雨刮器等。
3.2語音識(shí)別技術(shù)在醫(yī)療系統(tǒng)中的應(yīng)用:
醫(yī)療語音識(shí)別技術(shù),已有廠商開發(fā)了基于云平臺(tái)的語音識(shí)別系統(tǒng),可直接內(nèi)嵌到醫(yī)院電子病歷系統(tǒng)中,讓醫(yī)生通過語音輸入病人信息,填寫醫(yī)療記錄,下達(dá)醫(yī)囑信息。
四、相關(guān)市場(chǎng)調(diào)研
1、國內(nèi)外市場(chǎng)分析:2015年全球智能語音產(chǎn)業(yè)規(guī)模達(dá)到61.2億美元,較2014年增長(zhǎng)34.2%。其中,中國智能語音產(chǎn)業(yè)規(guī)模達(dá)到40.3億元,較2014年增長(zhǎng)增長(zhǎng)41.0%,遠(yuǎn)高于全球語音產(chǎn)業(yè)增長(zhǎng)速度預(yù)計(jì)到2016年,中國語音產(chǎn)業(yè)規(guī)模預(yù)計(jì)達(dá)到59億元。[2]
2、相關(guān)應(yīng)用發(fā)展:拉斯維加斯消費(fèi)電子展(CES)上展示的MindMeld。在通話中,如果參與者點(diǎn)擊應(yīng)用的一個(gè)按鈕,那么MindMeld將利用Nuance的語音識(shí)別技術(shù),分析此前15至30秒對(duì)話。隨后,MindMeld將確定對(duì)話中的關(guān)鍵詞,以及其他多個(gè)信息來源,查找具有相關(guān)性的信息,并在屏幕上向用戶提供圖片和鏈接地址。[3]
參 考 文 獻(xiàn)
[1] 吳堅(jiān).基于web的salt語音識(shí)別技術(shù)應(yīng)用研究[D].湖北工業(yè)大學(xué), 2006
1.概況
語音識(shí)別技術(shù)成為21世紀(jì)“數(shù)字時(shí)代”的重要開發(fā)領(lǐng)域,在計(jì)算機(jī)的多媒體技術(shù)應(yīng)用和工業(yè)自動(dòng)化控制應(yīng)用等方面,成果令人屬目。語音識(shí)別技術(shù)是指用電子裝置來識(shí)別某些人的某些特征語音,語音識(shí)別的手段一般分為二大類,一類利用在計(jì)算機(jī)上開發(fā)語音識(shí)別系統(tǒng),通過編程軟件達(dá)到對(duì)語音的識(shí)別,另一類采用專門的語音識(shí)別芯片來進(jìn)行簡(jiǎn)單的語音識(shí)別。利用專門的語音識(shí)別芯片應(yīng)用在地鐵車輛上,具有結(jié)構(gòu)簡(jiǎn)單、使用方便,并且語音識(shí)別器有較高的可靠性、穩(wěn)定性的特點(diǎn),是簡(jiǎn)單語音識(shí)別在自動(dòng)控制應(yīng)用上的一種優(yōu)先方案。
目前上海地鐵
一、
二、
三、
五、
六、八號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上缺少實(shí)用性和操作性,對(duì)乘客來講缺少在實(shí)時(shí)報(bào)站時(shí)的人性化。如:地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng)。如果在每個(gè)車門的上方安裝車站站名動(dòng)態(tài)顯示地圖,實(shí)時(shí)顯示與車廂廣播同步的信息,以及在每節(jié)車廂外側(cè)顯示列車的終點(diǎn)站,良好的工業(yè)設(shè)計(jì)不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計(jì)以上地鐵列車時(shí),受科技發(fā)展的限制?,F(xiàn)在上海地鐵4號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上滿足了廣大的乘客的需求,
增加了車站站名動(dòng)態(tài)顯示地圖。
如何在現(xiàn)有的地鐵車輛上增加地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng),如圖1、2,首先考慮其實(shí)用性和性價(jià)比,同時(shí)安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計(jì)方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對(duì)于應(yīng)用在某條線路上的聲音識(shí)別系統(tǒng),不僅要修改原語音文件,而且聲音識(shí)別器不容易操縱,
對(duì)使用者來講仍然存在比較多的問題。對(duì)于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機(jī)帶來了任務(wù),每站需要手動(dòng)操作二次,同時(shí)顯示的相關(guān)內(nèi)容沒有實(shí)時(shí)性,總之乘客信息顯示系統(tǒng)比較落后。
設(shè)計(jì)一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。
2.設(shè)計(jì)
地鐵車輛乘客信息顯示系統(tǒng)的設(shè)計(jì),采用CMOS語音識(shí)別大規(guī)模集成電路,識(shí)別響應(yīng)時(shí)間小于300ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語音識(shí)別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣電路就非常少,外接64K非易失性SRAM,最多能識(shí)別40個(gè)車站站名語音(字長(zhǎng)0.9秒),或(字長(zhǎng)1.92秒)但識(shí)別僅20個(gè)車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個(gè)為宜。
針對(duì)目前上海地鐵列車在車廂內(nèi)外無LED動(dòng)態(tài)站名顯示而設(shè)計(jì),通過將列車車廂廣播的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),自動(dòng)控制LED發(fā)光二極管,在列車在車廂內(nèi)使得廣播的內(nèi)容(每個(gè)車站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運(yùn)營(yíng)線路為背景,達(dá)到列車進(jìn)站和出站時(shí)能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點(diǎn)站方向,從而方便乘客的上下車,提高了地鐵服務(wù)水平。在國外的地鐵列車上應(yīng)用已相當(dāng)普遍。
語音識(shí)別顯示器①的輸入端與車載廣播功放器相連接,實(shí)現(xiàn)廣播模擬信號(hào)發(fā)出的語音進(jìn)行車站名的自動(dòng)識(shí)別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計(jì)。整個(gè)系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識(shí)別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。
(1)輸入控制部分:
通過麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語音輸入點(diǎn)的電壓必須控制在大約20mv左右,以確保后期語音識(shí)別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號(hào)轉(zhuǎn)變成數(shù)字方波信號(hào),對(duì)語音輸入進(jìn)行開關(guān)量的控制,確保在T<0.9秒內(nèi)的正確輸入語音字長(zhǎng)。
(2)語音識(shí)別部分:
利用語音識(shí)別芯片HM2007和外接6264SRAM存儲(chǔ)器組成為主要部分,(HM2007中ROM已經(jīng)固化了語音語法技術(shù))對(duì)語音的存儲(chǔ)及語音語法算法進(jìn)行控制。HM2007的詳細(xì)內(nèi)容見產(chǎn)品說明書。
(3)噪音濾波部分:
濾波功能是自動(dòng)識(shí)別(阻擋)我們?cè)谠O(shè)計(jì)階段設(shè)計(jì)好的各個(gè)工況的語音情況,例如:司機(jī)的講話及車輛雜音等(在麥克風(fēng)的工況下),以確保輸入語音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進(jìn)行濾波電路。如圖5。
(4)執(zhí)行顯示部分:
將車廂廣播喇叭的模擬信息通過語音識(shí)別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車廂內(nèi)車門上十個(gè)LED顯示面板,如圖6。
(5)錄音功能部分:
在進(jìn)行廣播內(nèi)容更改時(shí),本項(xiàng)目最大的特點(diǎn)是:不需要任何手段的手工軟件編程的修改,而是通過遠(yuǎn)程音頻電路控制技術(shù)進(jìn)行按動(dòng)相關(guān)按鈕,選擇地址然后自動(dòng)錄入內(nèi)容,如圖6。
3.結(jié)論
語音識(shí)別器及LED顯示面板的設(shè)計(jì),能應(yīng)用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設(shè)計(jì)的方式相比較,語音識(shí)別控制簡(jiǎn)單、可靠性好、安裝方便、相對(duì)投資最小和不改動(dòng)車廂內(nèi)任何電器為特點(diǎn),僅提供110VDC電源和音頻輸入接口。
本項(xiàng)目的開發(fā)具有一定社會(huì)效益,得到國內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。
參考文獻(xiàn):
1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007
2.555集成電路實(shí)用大全上??萍计占俺霭嫔?/p>
3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎(jiǎng)”
4.①編入《中國科技發(fā)展精典文庫》第四輯
關(guān)鍵詞: 語音識(shí)別; 識(shí)別原理; 聲學(xué)建模方法; 多維模式識(shí)別系統(tǒng)
中圖分類號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學(xué)表現(xiàn),與機(jī)器進(jìn)行語音交流是人類一直以來的夢(mèng)想。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,語音識(shí)別技術(shù)也取得突破性的成就,人與機(jī)器用自然語言進(jìn)行對(duì)話的夢(mèng)想逐步接近實(shí)現(xiàn)。語音識(shí)別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會(huì)朝著智能化和自動(dòng)化發(fā)展的關(guān)鍵技術(shù),使人們對(duì)信息的處理和獲取更加便捷,從而提高人們的工作效率。
1 語音識(shí)別技術(shù)的發(fā)展
語音識(shí)別技術(shù)起始于20世紀(jì)50年代。這一時(shí)期,語音識(shí)別的研究主要集中在對(duì)元音、輔音、數(shù)字以及孤立詞的識(shí)別。
20世紀(jì)60年代,語音識(shí)別研究取得實(shí)質(zhì)性進(jìn)展。線性預(yù)測(cè)分析和動(dòng)態(tài)規(guī)劃的提出較好地解決了語音信號(hào)模型的產(chǎn)生和語音信號(hào)不等長(zhǎng)兩個(gè)問題,并通過語音信號(hào)的線性預(yù)測(cè)編碼,有效地解決了語音信號(hào)的特征提取。
20世紀(jì)70年代,語音識(shí)別技術(shù)取得突破性進(jìn)展?;趧?dòng)態(tài)規(guī)劃的動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。
20世紀(jì)80年代,語音識(shí)別任務(wù)開始從孤立詞、連接詞的識(shí)別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語音的識(shí)別,識(shí)別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語音時(shí)變性和平穩(wěn)性,開始被廣泛應(yīng)用于大詞匯量連續(xù)語音識(shí)別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學(xué)建模[2?3];在語言模型方面,以N元文法為代表的統(tǒng)計(jì)語言模型開始廣泛應(yīng)用于語音識(shí)別系統(tǒng)[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語音建模方法開始廣泛應(yīng)用于LVCSR系統(tǒng),語音識(shí)別技術(shù)取得新突破。
20世紀(jì)90年代以后,伴隨著語音識(shí)別系統(tǒng)走向?qū)嵱没?,語音識(shí)別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展[5]。同時(shí),人們更多地關(guān)注話者自適應(yīng)、聽覺模型、快速搜索識(shí)別算法以及進(jìn)一步的語言模型的研究等課題[6]。此外,語音識(shí)別技術(shù)開始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,以提高識(shí)別的準(zhǔn)確率,便于實(shí)現(xiàn)語音識(shí)別技術(shù)的產(chǎn)品化。
2 語音識(shí)別基礎(chǔ)
2.1 語音識(shí)別概念
語音識(shí)別是將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程[7]。語音識(shí)別以語音為研究對(duì)象,它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支。語音識(shí)別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號(hào)處理、模式識(shí)別、聲學(xué)、語言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域[8]。
根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對(duì)說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識(shí)別系統(tǒng);根據(jù)對(duì)說話人的依賴程度,可分為特定人和非特定人語音識(shí)別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)。
2.2 語音識(shí)別基本原理
從語音識(shí)別模型的角度講,主流的語音識(shí)別系統(tǒng)理論是建立在統(tǒng)計(jì)模式識(shí)別基礎(chǔ)之上的。語音識(shí)別的目標(biāo)是利用語音學(xué)與語言學(xué)信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉(zhuǎn)化成詞序列[W=w1,w2,…,wN]并輸出?;谧畲蠛篁?yàn)概率的語音識(shí)別模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要尋找的最可能的詞序列[W],應(yīng)該使[P(X|W)]與[P(W)]的乘積達(dá)到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學(xué)模型決定。[P(W)]是[W]獨(dú)立于語音特征矢量的先驗(yàn)概率,由語言模型決定。由于將概率取對(duì)數(shù)不影響[W]的選取,第四個(gè)等式成立。[logP(X|W)]與[logP(W)]分別表示聲學(xué)得分與語言得分,且分別通過聲學(xué)模型與語言模型計(jì)算得到。[λ]是平衡聲學(xué)模型與語言模型的權(quán)重。從語音識(shí)別系統(tǒng)構(gòu)成的角度講,一個(gè)完整的語音識(shí)別系統(tǒng)包括特征提取、聲學(xué)模型、語言模型、搜索算法等模塊。語音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng),對(duì)于不同的語音識(shí)別系統(tǒng),人們所采用的具體識(shí)別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語音信號(hào)送到特征提取模塊處理,將所得到的語音特征參數(shù)送入模型庫模塊,由聲音模式匹配模塊根據(jù)模型庫對(duì)該段語音進(jìn)行識(shí)別,最后得出識(shí)別結(jié)果[9]。
語音識(shí)別系統(tǒng)基本原理框圖如圖1所示,其中:預(yù)處理模塊濾除原始語音信號(hào)中的次要信息及背景噪音等,包括抗混疊濾波、預(yù)加重、模/數(shù)轉(zhuǎn)換、自動(dòng)增益控制等處理過程,將語音信號(hào)數(shù)字化;特征提取模塊對(duì)語音的聲學(xué)參數(shù)進(jìn)行分析后提取出語音特征參數(shù),形成特征矢量序列。語音識(shí)別系統(tǒng)常用的特征參數(shù)有短時(shí)平均幅度、短時(shí)平均能量、線性預(yù)測(cè)編碼系數(shù)、短時(shí)頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵,對(duì)識(shí)別效果極為重要。
圖1 語音識(shí)別基本原理框圖
由于語音信號(hào)本質(zhì)上屬于非平穩(wěn)信號(hào),目前對(duì)語音信號(hào)的分析是建立在短時(shí)平穩(wěn)性假設(shè)之上的。在對(duì)語音信號(hào)作短時(shí)平穩(wěn)假設(shè)后,通過對(duì)語音信號(hào)進(jìn)行加窗,實(shí)現(xiàn)短時(shí)語音片段上的特征提取。這些短時(shí)片段被稱為幀,以幀為單位的特征序列構(gòu)成語音識(shí)別系統(tǒng)的輸入。由于梅爾倒譜系數(shù)及感知線性預(yù)測(cè)系數(shù)能夠從人耳聽覺特性的角度準(zhǔn)確刻畫語音信號(hào),已經(jīng)成為目前主流的語音特征。為補(bǔ)償幀間獨(dú)立性假設(shè),人們?cè)谑褂妹窢柕棺V系數(shù)及感知線性預(yù)測(cè)系數(shù)時(shí),通常加上它們的一階、二階差分,以引入信號(hào)特征的動(dòng)態(tài)特征。
聲學(xué)模型是語音識(shí)別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類、模型參數(shù)估計(jì)等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫連續(xù)語音的協(xié)同發(fā)音現(xiàn)象。在考慮了語境的影響后,聲學(xué)模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類的方法壓縮聲學(xué)參數(shù)的數(shù)量,以簡(jiǎn)化模型的訓(xùn)練。在訓(xùn)練過程中,系統(tǒng)對(duì)若干次訓(xùn)練語音進(jìn)行預(yù)處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓(xùn)練語音的參考模式庫。
搜索是在指定的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,尋找最優(yōu)詞序列的過程。搜索的本質(zhì)是問題求解,廣泛應(yīng)用于語音識(shí)別、機(jī)器翻譯等人工智能和模式識(shí)別的各個(gè)領(lǐng)域。它通過利用已掌握的知識(shí)(聲學(xué)知識(shí)、語音學(xué)知識(shí)、詞典知識(shí)、語言模型知識(shí)等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對(duì)輸入的語音信號(hào)在一定準(zhǔn)則下的一個(gè)最優(yōu)描述。在識(shí)別階段,將輸入語音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫中的模式進(jìn)行相似性度量比較,將相似度最高的模式所屬的類別作為識(shí)別中間候選結(jié)果輸出。為了提高識(shí)別的正確率,在后處理模塊中對(duì)上述得到的候選識(shí)別結(jié)果繼續(xù)處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識(shí)別結(jié)果的可靠程度等。最終通過增加約束,得到更可靠的識(shí)別結(jié)果。
2.3 聲學(xué)建模方法
常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動(dòng)態(tài)時(shí)間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò)識(shí)別法(ANN)等。
DTW 是較早的一種模式匹配的方法。它基于動(dòng)態(tài)規(guī)劃的思想,解決孤立詞語音識(shí)別中的語音信號(hào)特征參數(shù)序列比較時(shí)長(zhǎng)度不一的模板匹配問題。在實(shí)際應(yīng)用中,DTW通過計(jì)算已預(yù)處理和分幀的語音信號(hào)與參考模板之間的相似度,再按照某種距離測(cè)度計(jì)算出模板間的相似度并選擇最佳路徑。
HMM是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)所建立的統(tǒng)計(jì)模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的,它是一種基于參數(shù)模型的統(tǒng)計(jì)識(shí)別方法。HMM可模仿人的言語過程,可視作一個(gè)雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程[10]。
ANN以數(shù)學(xué)模型模擬神經(jīng)元活動(dòng),將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對(duì)人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語音識(shí)別領(lǐng)域,并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識(shí)別算法,克服了ANN在描述語音信號(hào)時(shí)間動(dòng)態(tài)特性方面的缺點(diǎn),進(jìn)一步提高了語音識(shí)別的魯棒性和準(zhǔn)確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計(jì)音素或狀態(tài)的后驗(yàn)概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語音識(shí)別的準(zhǔn)確率。
3 語音識(shí)別的應(yīng)用
語音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識(shí)別語音中的要求、請(qǐng)求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯(cuò)的缺點(diǎn),又有利于縮短系統(tǒng)的反應(yīng)時(shí)間,使人機(jī)交流變得簡(jiǎn)便易行,比如用于聲控語音撥號(hào)系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對(duì)話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語翻譯,即通過將口語識(shí)別技術(shù)、機(jī)器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實(shí)現(xiàn)跨語言交流[11]。
語音識(shí)別技術(shù)在軍事斗爭(zhēng)領(lǐng)域里也有著極為重要的應(yīng)用價(jià)值和極其廣闊的應(yīng)用空間。一些語音識(shí)別技術(shù)就是著眼于軍事活動(dòng)而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對(duì)語音識(shí)別系統(tǒng)的識(shí)別精度、響應(yīng)時(shí)間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識(shí)別技術(shù)已在軍事指揮和控制自動(dòng)化方面得以應(yīng)用。比如,將語音識(shí)別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān),飛行員利用語音輸入來代替?zhèn)鹘y(tǒng)的手動(dòng)操作和控制各種開關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時(shí)間和精力集中于對(duì)攻擊目標(biāo)的判斷和完成其他操作上來,以便更快獲得信息來發(fā)揮戰(zhàn)術(shù)優(yōu)勢(shì)。
4 結(jié) 語
語音識(shí)別的研究工作對(duì)于信息化社會(huì)的發(fā)展,人們生活水平的提高等方面有著深遠(yuǎn)的意義。隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,語音識(shí)別技術(shù)將取得更多重大突破,語音識(shí)別系統(tǒng)的研究將會(huì)更加深入,有著更加廣闊的發(fā)展空間。
參考文獻(xiàn)
[1] 馬志欣,王宏,李鑫.語音識(shí)別技術(shù)綜述[J].昌吉學(xué)院學(xué)報(bào),2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識(shí)別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào),2009,23(1):112?123.
[6] 顧亞強(qiáng).非特定人語音識(shí)別關(guān)鍵技術(shù)研究[D].長(zhǎng)沙:國防科學(xué)技術(shù)大學(xué),2009.
[7] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局.GB/T21023?2007 中文語音識(shí)別系統(tǒng)通用技術(shù)規(guī)范[S].北京:中國標(biāo)準(zhǔn)出版社,2007.
[8] 王文慧.基于ARM的嵌入式語音識(shí)別系統(tǒng)研究[D].天津:天津大學(xué),2008.
[9] 何湘智.語音識(shí)別的研究與發(fā)展[J].計(jì)算機(jī)與現(xiàn)代化,2002(3):3?6.
【關(guān)鍵詞】語音識(shí)別技術(shù);發(fā)展趨勢(shì)
語音識(shí)別是一門交叉學(xué)科。語音識(shí)別研究經(jīng)歷了50多年的研究歷程,經(jīng)過50多年的積累研究,獲得了巨大的進(jìn)展。特別是近20年來,語音識(shí)別技術(shù)取得了顯著的進(jìn)步,并逐步的走向市場(chǎng)。在未來的日子里,語音識(shí)別技術(shù)將應(yīng)用更為廣泛。
一、語音識(shí)別技術(shù)概述
語音識(shí)別是解決機(jī)器“聽懂”人類語言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識(shí)別技術(shù)一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識(shí)別技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來。以語音識(shí)別技術(shù)開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語音通信系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)和每個(gè)方面。
廣泛意義上的語音識(shí)別按照任務(wù)的不同可以分為4個(gè)方向:說話人識(shí)別、關(guān)鍵詞檢出、語言辨識(shí)和語音識(shí)別。說話人識(shí)別技術(shù)是以話音對(duì)說話人進(jìn)行區(qū)別,從而進(jìn)行身份鑒別和認(rèn)證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場(chǎng)合,只關(guān)注那些包含特定詞的句子,例如對(duì)一些特殊人名、地名的電話監(jiān)聽等。語言辨識(shí)技術(shù)是通過分析處理一個(gè)語音片斷以判別其所屬語言種類的技術(shù),本質(zhì)上也是語音識(shí)別技術(shù)的一個(gè)方面。語音識(shí)別就是通常人們所說的以說話的內(nèi)容作為識(shí)別對(duì)象的技術(shù),它是4個(gè)方面中最重要和研究最廣泛的一個(gè)方向,也是本文討論的主要內(nèi)容。
二、語音識(shí)別的研究歷史
語音識(shí)別的研究工作始于20世紀(jì)50年代,1952年Bell實(shí)驗(yàn)室開發(fā)的Audry系統(tǒng)是第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。
1959年,Rorgie和Forge采用數(shù)字計(jì)算機(jī)識(shí)別英文元音和孤立詞,從此開始了計(jì)算機(jī)語音識(shí)別。
60年代,蘇聯(lián)的Matin等提出了語音結(jié)束點(diǎn)的端點(diǎn)檢測(cè),使語音識(shí)別水平明顯上升;Vintsyuk提出了動(dòng)態(tài)編程,這一提法在以后的識(shí)別中不可或缺。60年代末、70年代初的重要成果是提出了信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),有效地解決了語音信號(hào)的特征提取和不等長(zhǎng)語音匹配問題;同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識(shí)別研究進(jìn)一步走向深入:HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識(shí)別中成功應(yīng)用。1988年,F(xiàn)ULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語音識(shí)別系統(tǒng)。
進(jìn)入90年代后,語音識(shí)別技術(shù)進(jìn)一步成熟,并開始向市場(chǎng)提品。許多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple、AT&;T、Microsoft等公司都為語音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。同時(shí)漢語語音識(shí)別也越來越受到重視。IBM開發(fā)的ViaVoice和Microsoft開發(fā)的中文識(shí)別引擎都具有了相當(dāng)高的漢語語音識(shí)別水平。
進(jìn)入21世紀(jì),隨著消費(fèi)類電子產(chǎn)品的普及,嵌入式語音處理技術(shù)發(fā)展迅速[2]?;谡Z音識(shí)別芯片的嵌入式產(chǎn)品也越來越多,如Sensory公司的RSC系列語音識(shí)別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語音識(shí)別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語音識(shí)別系統(tǒng)。
三、語音識(shí)別技術(shù)的發(fā)展現(xiàn)狀
語音識(shí)別技術(shù)通過全球科學(xué)家的共同努力,經(jīng)歷半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號(hào)的平均識(shí)別率可以達(dá)到90%以上。正式有了如此高的識(shí)別率之后,語音識(shí)別技術(shù)慢慢地從實(shí)驗(yàn)室演示系統(tǒng)逐步走向?qū)嵱没唐?。以IBM Via Voice和Dragon Dictation為代表的兩個(gè)聽寫機(jī)系統(tǒng)的出現(xiàn),使“語音識(shí)別”逐步進(jìn)入大眾視線,引起了廣泛的社會(huì)關(guān)注。
由于校對(duì)和更正識(shí)別的錯(cuò)誤很麻煩和浪費(fèi)時(shí)間,這樣便降低語音識(shí)別的優(yōu)勢(shì)。同時(shí),由于使用的環(huán)境或講話口音習(xí)慣等因素的影響,語音識(shí)別的內(nèi)容大大降低,識(shí)別的內(nèi)容不能達(dá)到100%的正確,所以很多人認(rèn)為目前的語音識(shí)別系統(tǒng)還無法滿足實(shí)用要求。
目前,AT&T和MIT等將語音識(shí)別技術(shù)應(yīng)用在一些有限詞匯的特定任務(wù)上,如電話自動(dòng)轉(zhuǎn)接、電話查詢、數(shù)字串識(shí)別的任務(wù)中,當(dāng)講話的內(nèi)容是系統(tǒng)所存儲(chǔ)的內(nèi)容存在的,且使用環(huán)境的聲學(xué)特性與訓(xùn)練數(shù)據(jù)的聲學(xué)特性相差不太大時(shí),語音識(shí)別的正確識(shí)別率可以接近100%。但是,在實(shí)際使用中如果這些條件被破壞,則會(huì)對(duì)識(shí)別系統(tǒng)造成一定的影響。
我國的語音識(shí)別研究一直緊跟國際水平,國家也很重視。國內(nèi)中科院的自動(dòng)化所、聲學(xué)所以及清華大學(xué)等科研機(jī)構(gòu)和高校都在從事語音識(shí)別領(lǐng)域的研究和開發(fā)。國家863智能計(jì)算機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng),并取得了高水平的科研成果。我國中科院自動(dòng)化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機(jī)對(duì)話系統(tǒng),其準(zhǔn)確率和系統(tǒng)響應(yīng)率均可達(dá)90%以上。
四、語音識(shí)別技術(shù)發(fā)展趨勢(shì)
語音作為當(dāng)前通信系統(tǒng)中最自然的通信媒介,語音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù)。隨著計(jì)算機(jī)和語音處理技術(shù)的發(fā)展,語音識(shí)別系統(tǒng)的實(shí)用性將進(jìn)一步提高。應(yīng)用語音的自動(dòng)理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識(shí)別產(chǎn)品的應(yīng)用,如聲控?fù)芴?hào)電話、語音記事本等,基于特定任務(wù)和環(huán)境的聽寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。這預(yù)示著語音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。隨著語音技術(shù)的進(jìn)步和通信技術(shù)的飛速發(fā)展,語音識(shí)別技術(shù)將為網(wǎng)上會(huì)議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域帶來極大的便利,其應(yīng)用和經(jīng)濟(jì)、社會(huì)效益前景非常良好.
雖然語音識(shí)別在過去的20年里有了很大的發(fā)展,但是,仍然存在很多的不足,有待于進(jìn)一步的探索,具體可分為以下幾個(gè)方面:
1.提高可靠性。語音識(shí)別技術(shù)需要能排除各種聲學(xué)環(huán)境因素的影響。在比較嘈雜的公共環(huán)境中,人的意識(shí)會(huì)有意識(shí)的排除非需要的聲學(xué)環(huán)境因素,這對(duì)語音識(shí)別系統(tǒng)而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,并帶有明顯的言語習(xí)慣。這同樣會(huì)給語音識(shí)別系統(tǒng)很大的識(shí)別麻煩。目前,在提高語音系統(tǒng)在不同環(huán)境中的可靠性,同時(shí)要應(yīng)用現(xiàn)代技術(shù)讓語音識(shí)別系統(tǒng)更加智能化,掌握人們語言隨意性的部分規(guī)律,以達(dá)到最佳的識(shí)別效果。
2.增加詞匯量。系統(tǒng)可以識(shí)別的詞匯的數(shù)量是系統(tǒng)能夠做什么事情的一個(gè)重要度量。一個(gè)語音識(shí)別系統(tǒng)使用的聲學(xué)模型和語音模型如果太過于局限,當(dāng)用戶所講的詞匯超出系統(tǒng)已知的范圍時(shí),則語音識(shí)別系統(tǒng)不能準(zhǔn)確的識(shí)別出相應(yīng)的內(nèi)容,比如,當(dāng)突然從中文轉(zhuǎn)為英文、法文、俄文時(shí),計(jì)算機(jī)就會(huì)常常輸出混亂奇怪的結(jié)果。但是,隨著系統(tǒng)建模方法的不斷改進(jìn)、搜索算法效率的提高以及硬件資源的發(fā)展,未來的語音識(shí)別系統(tǒng)可能會(huì)做到詞匯量無限制和多種語言混合,這樣用戶在使用的時(shí)候可以不必在語種之間來回切換,這樣就能大大減少詞匯量的對(duì)語音識(shí)別系統(tǒng)的限制。
3.應(yīng)用拓展。語音識(shí)別技術(shù)可以用于把費(fèi)腦、費(fèi)力、費(fèi)時(shí)的機(jī)器操作變成一件很容易很有趣味性的事,比如,當(dāng)人們出現(xiàn)手忙、手不能及以及分身無術(shù)的場(chǎng)景時(shí),通過語音識(shí)別系統(tǒng)的模型構(gòu)造,則能夠在象駕駛室、危險(xiǎn)的工業(yè)場(chǎng)合、遠(yuǎn)距離信息獲取、家電控制等各個(gè)方面,語音識(shí)別技術(shù)可能帶動(dòng)一系列嶄新或更便捷功能的設(shè)備出現(xiàn),更加方便人的工作和生活。其應(yīng)用的范圍和前景非常廣泛。不僅能夠應(yīng)用于日常生活,更重要的會(huì)帶來生產(chǎn)方式的革命,是下一代智能化控制的基礎(chǔ)。