語音識別屬於感知智能,而讓機器從簡單的識別語音到理解語音,則上升到了認知智能層面,機器的自然語言理解能力如何,也成為了其是否有智慧的標誌,而自然語言理解正是目前難點。那麼,語音識別發展現狀如何呢?下面就由筆者給您細細道來。
語音識別是對語音內容進行提取的一把金鑰匙,它的研究可以追溯到半個世紀以前。在本世紀初,基於語音識別的一些產品已經開始問世,最有代表性的是在2000年左右,美軍用於伊拉克戰場的語音翻譯機。2011年apple在iphone4s上推出的siri語音助手,之後包括微軟、谷歌、亞馬遜,以及國內的百度、訊飛、思必馳等等也推出了各自基於語音交互的產品。國內外的研究機構很多,包括國外的微軟、谷歌、IBM、亞馬遜,以及國內的百度、訊飛、思必馳等等。學術界就更多了,包括老牌的劍橋、MIT、JHU,以及國內的清華大學、中國科大、上海交大等等。
語音識別發展現狀
中國
我國語音識別研究工作起步於五十年代,但近年來發展很快。研究水平也從實驗室逐步走向實用。從1987年開始執行國家863計劃後,國家863智能計算機專家組為語音識別技術研究專門立項,每兩年滾動一次。我國語音識別技術的研究水平已經基本上與國外同步,在漢語語音識別技術上還有自己的特點與優勢,並達到國際先進水平。中科院自動化所、聲學所、清華大學、北京大學、哈爾濱工業大學、上海交通大學、中國科技大學、北京郵電大學、華中科技大學等科研機構都有實驗室進行過語音識別方面的研究,其中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。
清華大學電子工程系語音技術與專用晶片設計課題組,研發的非特定人漢語數碼串連續語音識別系統的識別精度,達到94.8%(不定長數字串)和96.8%(定長數字串)。在有5%的拒識率情況下,系統識別率可以達到96.9%(不定長數字串)和98.7%(定長數字串),這是目前國際最好的識別結果之一,其性能已經接近實用水平。研發的5000詞郵包校核非特定人連續語音識別系統的識別率達到98.73%,前三選識別率達99.96%;並且可以識別普通話與四川話兩種語言,達到實用要求。
語音識別發展現狀面臨窘境
一、噪聲魯棒性
做聲環境下的魯棒語音識別一直是語音識別大規模應用的主要絆腳石,我們如何在一些噪聲場景比較大的情況下,比如說我們的馬路、咖啡廳,公共汽車,飛機場,以及會議室,大巴上等等,使得得到很高的識別精度,這是非常具有挑戰性的。
針對這個困境,我們上海交大和思必馳推出了一些解決策略,包括環境感知的深度模型以及神經網絡的快速自適應方法,它使得我們一般的深度模型可以對環境進行一個實時的感知和自適應調整,來提高實現系統性能,就像人耳一樣。另外我們也將極深卷積神經網絡用於抗噪的語音識別得到巨大的系統性能的提升。
二、多類複雜性
過去的大部分語音識別系統的設計主要是針對一些單一環境、單一場景下進行設計的,如何做多類別複雜場景下的通用的語音識別是非常困難的,比如說在Youtube或者BBC上的一些數據,可以來自各種各樣的語境和場景,有新聞廣播、新聞採訪、音樂會、訪談、電影等等,如何在多預警下做成一個通用的魯棒的語音識別性能呢,是比較有挑戰性的。
在這個方面我們去年參加了由英國BBC公司和EPSRC主辦的MGB挑戰賽,其中我們在四個單向上均列世界第一,且每個單向的成績均大幅領先第二名,包括語音識別、說話人分割聚類、標註對齊和時序漸進語音識別等。
三、低數據資源與多語言
目前大部分語音識別的研究和應用,主要是基於一些大語種,比如說英語、漢語、阿拉伯語和法語等等,我們知道世界上一共有6900多種語言,如何快速的實現一套基於任何語言的語言識別系統是非常困難的,它也具有重大的戰略意義。包括美國IARPA這幾年的Babel計劃,以及之前DARPA的GALE計劃,考慮到中國的國情我們有56個民族,所以構建一套多語言低數據資源下的語音識別系統是非常關鍵和具有實際價值的。
在這個方面我們也在公開相同的數據環境下,搭建了相關系統,下圖是我們和美國約翰霍普金斯大學的性能對比,我們在相同數據集合上取得了一個更優的一個策略。
人工智慧什麼時候會統治世界,這個問題確實不好說。人工智慧已經掌握了自然語言的本領,即便相對於人類的語言能力還很初級,但已經可以依據程序給出相應內容,這就具備了擁有智慧的條件,從某種意義上說,人類智慧就是由一項項基礎功能集成而來的。但顯然這不是我們要擔心的問題,期待並享受人工智慧帶來的便利就好了。以上就是筆者給您分析的語音識別發展現狀了。