1、簡(jiǎn)介
與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。中國(guó)物聯(lián)網(wǎng)校企聯(lián)盟形象得把語(yǔ)音識(shí)別[1] 比做為“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”[2] 。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)?!≌Z(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。語(yǔ)音識(shí)別技術(shù)車聯(lián)網(wǎng)也得到了充分的引用,例如在翼卡車聯(lián)網(wǎng)中,只需按一鍵通客服人員口述即可設(shè)置目的地直接導(dǎo)航,安全、便捷。
2、發(fā)展史
1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。
1960年英國(guó)的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
大規(guī)模的語(yǔ)音識(shí)別[3] 研究是在進(jìn)入了70年代以后,在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。
進(jìn)入80年代以后,研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型 (HMM)的技術(shù)思路。此外,再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別問(wèn)題的技術(shù)思路。
進(jìn)入90年代以后,在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。
DARPA(Defense Advanced Research Projects Agency)是在70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)10年計(jì)劃,其旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作。
到了80年代,美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局又資助了一項(xiàng)為期10年的DARPA戰(zhàn)略計(jì)劃,其中包括噪聲下的語(yǔ)音識(shí)別和會(huì)話(口語(yǔ))識(shí)別系統(tǒng),識(shí)別任務(wù)設(shè)定為“(1000單詞)連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)管理”。
到了90年代,這一DARPA計(jì)劃仍在持續(xù)進(jìn)行中。其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。
日本也在1981年的第五代計(jì)算機(jī)計(jì)劃中提出了有關(guān)語(yǔ)音識(shí)別輸入-輸出自然語(yǔ)言的宏偉目標(biāo),雖然沒(méi)能實(shí)現(xiàn)預(yù)期目標(biāo),但是有關(guān)語(yǔ)音識(shí)別技術(shù)的研究有了大幅度的加強(qiáng)和進(jìn)展。
1987年起,日本又?jǐn)M出新的國(guó)家項(xiàng)目---高級(jí)人機(jī)口語(yǔ)接口和自動(dòng)電話翻譯系統(tǒng)。
中國(guó)發(fā)展
中國(guó)的語(yǔ)音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。直至1973年才由中國(guó)科學(xué)院聲學(xué)所開(kāi)始計(jì)算機(jī)語(yǔ)音識(shí)別。由于當(dāng)時(shí)條件的限制,中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。
進(jìn)入80年代以后,隨著計(jì)算機(jī)應(yīng)用技術(shù)在中國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。與此同時(shí),國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)了多年的沉寂之后重又成為研究的熱點(diǎn),發(fā)展迅速。就在這種形式下,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。
1986年3月中國(guó)高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專門列為研究課題。在863計(jì)劃的支持下,中國(guó)開(kāi)始了有組織的語(yǔ)音識(shí)別技術(shù)的研究,并決定了每隔兩年召開(kāi)一次語(yǔ)音識(shí)別的專題會(huì)議。從此中國(guó)的語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段。
識(shí)別模式
這一時(shí)期的語(yǔ)音識(shí)別方法基本上是采用傳統(tǒng)的模式識(shí)別策略。其中以蘇聯(lián)的Velichko和Zagoruyko、日本的迫江和千葉,以及當(dāng)時(shí)在美國(guó)的板倉(cāng)等人的研究工作最具有代表性。
· 蘇聯(lián)的研究為模式識(shí)別應(yīng)用于語(yǔ)音識(shí)別這一領(lǐng)域奠定了基礎(chǔ);
· 日本的研究則展示了如何利用動(dòng)態(tài)規(guī)劃技術(shù)在待識(shí)語(yǔ)音模式與標(biāo)準(zhǔn)語(yǔ)音模式之間進(jìn)行非線性時(shí)間匹配的方法;
·板倉(cāng)的研究提出了如何將線性預(yù)測(cè)分析技術(shù)(LPC)加以擴(kuò)展,使之用于語(yǔ)音信號(hào)的特征抽取的方法。
數(shù)據(jù)庫(kù)
在語(yǔ)音識(shí)別的研究發(fā)展過(guò)程中,相關(guān)研究人員根據(jù)不同語(yǔ)言的發(fā)音特點(diǎn),設(shè)計(jì)和制作了以漢語(yǔ)(包括不同方言)、英語(yǔ)等各類語(yǔ)言的語(yǔ)音數(shù)據(jù)庫(kù),這些語(yǔ)音數(shù)據(jù)庫(kù)可以為國(guó)內(nèi)外有關(guān)的科研單位和大學(xué)進(jìn)行漢語(yǔ)連續(xù)語(yǔ)音識(shí)別算法研究、系統(tǒng)設(shè)計(jì)、及產(chǎn)業(yè)化工作提供充分、科學(xué)的訓(xùn)練語(yǔ)音樣本。例如:MIT Media lab Speech Dataset(麻省理工學(xué)院媒體實(shí)驗(yàn)室語(yǔ)音數(shù)據(jù)集)、Pitch and Voicing Estimates for Aurora 2(Aurora2語(yǔ)音庫(kù)的基因周期和聲調(diào)估計(jì))、Congressional speech data(國(guó)會(huì)語(yǔ)音數(shù)據(jù))、Mandarin Speech Frame Data(普通話語(yǔ)音幀數(shù)據(jù))、用于測(cè)試盲源分離算法的語(yǔ)音數(shù)據(jù)等。
技術(shù)發(fā)展
目前在大詞匯語(yǔ)音識(shí)別方面處于領(lǐng)先地位的IBM語(yǔ)音研究小組,就是在70年代開(kāi)始了它的大詞匯語(yǔ)音識(shí)別研究工作的。AT&T的貝爾研究所也開(kāi)始了一系列有關(guān)非特定人語(yǔ)音識(shí)別的實(shí)驗(yàn)。這一研究歷經(jīng)10年,其成果是確立了如何制作用于非特定人語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板的方法。
這一時(shí)期所取得的重大進(jìn)展有:
?、烹[式馬爾科夫模型(HMM)技術(shù)的成熟和不斷完善成為語(yǔ)音識(shí)別的主流方法。
?、埔灾R(shí)為基礎(chǔ)的語(yǔ)音識(shí)別的研究日益受到重視。在進(jìn)行連續(xù)語(yǔ)音識(shí)別的時(shí)候,除了識(shí)別聲學(xué)信息外,更多地利用各種語(yǔ)言知識(shí),諸如構(gòu)詞、句法、語(yǔ)義、對(duì)話背景方面等的知識(shí)來(lái)幫助進(jìn)一步對(duì)語(yǔ)音作出識(shí)別和理解。同時(shí)在語(yǔ)音識(shí)別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計(jì)概率的語(yǔ)言模型。
?、侨斯ど窠?jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究的興起。在這些研究中,大部分采用基于反向傳播算法(BP算法)的多層感知網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類邊界的能力,顯然它十分有助于模式劃分。特別是在電話語(yǔ)音識(shí)別方面,由于其有著廣泛的應(yīng)用前景,成了當(dāng)前語(yǔ)音識(shí)別應(yīng)用的一個(gè)熱點(diǎn)。
另外,面向個(gè)人用途的連續(xù)語(yǔ)音聽(tīng)寫(xiě)機(jī)技術(shù)也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系統(tǒng)。這些系統(tǒng)具有說(shuō)話人自適應(yīng)能力,新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練,便可在使用中不斷提高識(shí)別率。
中國(guó)的語(yǔ)音識(shí)別技術(shù)的發(fā)展 : ⑴在北京有中科院聲學(xué)所、自動(dòng)化所、清華大學(xué)、北方交通大學(xué)等科研機(jī)構(gòu)和高等院校。另外,還有哈爾濱工業(yè)大學(xué)、中國(guó)科技大學(xué)、四川大學(xué)等也紛紛行動(dòng)起來(lái)。
⑵現(xiàn)在,國(guó)內(nèi)有不少語(yǔ)音識(shí)別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色。
· 在孤立字大詞匯量語(yǔ)音識(shí)別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國(guó)電子器件公司合作研制成功的THED-919特定人語(yǔ)音識(shí)別與理解實(shí)時(shí)系統(tǒng)。
· 在連續(xù)語(yǔ)音識(shí)別方面,91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語(yǔ)——漢語(yǔ)語(yǔ)音翻譯演示系統(tǒng)。
·在非特定人語(yǔ)音識(shí)別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號(hào)系統(tǒng)并投入實(shí)際使用。
內(nèi)容來(lái)自百科網(wǎng)