語音識別發展趨勢

　　2016年是語音識別高速發展的一年，得益於深度學習與人工神經網絡的發展，語音識別取得了一系列突破性的進展，在產品應用上也越來越成熟。那麼語音識別發展趨勢會是怎麼樣的呢?請聽筆者給您娓娓道來~

　　這其中幾個最具有代表性的例子是，百度、IBM 和微軟等公司在語音識別準確率上取得的突破。在今年年初，百度 Deep Speech 2 的短語識別的詞錯率降到了 3.7%。到了5月，IBM Watson 團隊再次宣布在在非常流行的評測基準 Switchboard 資料庫中，他們的系統創造了 6.9% 的詞錯率新紀錄。而在今年10月，微軟人工智慧與研究部門的團隊報告出他們的語音識別系統實現了和專業速錄員相當甚至更低的詞錯率(WER)，達到了 5.9%。5.9% 的詞錯率已經等同於人速記同樣一段對話的水平，而且這是目前行業標準 Switchboard 語音識別任務中的最低記錄。這個裡程碑意味著，一台計算機在識別對話中的詞上第一次能和人類做得一樣好。

　　語音識別概述

　　語言是人類思想最重要的載體，是人們交流最有效、最方便、最自然的方式。語音識別技術就是讓機器接收，識別和理解語音信號，並將其轉換成相應數位訊號的技術[1]。語音識別是涉及很多學科的一門交叉學科，涉及到聲學、語音語言學、數理統計、信息理論、機器學習以及人工智慧等學科。語音識別系統可以把操作人員的大量重複勞動交給機器來處理，節約了人力，提高了效益。例如：專家諮詢系統、信息服務系統、自然語音識別系統、尋呼服務、故障服務、智能對話查詢系統、語音訂票系統等。在某些惡劣環境和對人身有傷害的特殊環境下，例如地下、深水、輻射或高溫等地方，就可以通過語音識別系統發布指令，讓機器完成各種工作。

　　現在幾乎所有成功應用到實際中的語音識別方法都採用機率統計的方法或資訊理論的方法。其中最主要的，大量被使用的方法有動態時間規整技術、隱馬爾可夫模型、人工神經網絡、支持向量機等方法，這些方法的出現極大地推動了語音識別從實驗室走向實際應用。

　　語音識別發展趨勢預測：
　　趨勢一：識別系統的強健性方面，有待進一步增強。

　　現在，環境噪音和雜音對語音識別的效果影響最大。在嘈雜環境中必須有特殊的抗噪技術處理才能正常的使用語音識別，否則識別率很低，效果很差。目前針對中文的語音識別方面還存在著明顯的不足，語言模型方面需要進一步完善。由於聲學模型和語言模型在語音識別技術中起到基礎性作用，所以必須在這方面有所突破，否則其它的都不可能實現。現在所使用的語言模型都是機率模型，文法模型沒能得到運用，只有這一方面取得突破，計算機才能真正理解人類語言，這是一個難度非常大的工作。另外，隨著硬體技術的不斷發展，搜索算法、特徵提取和自適應算法等這些核心算法將會得到不斷改進。我們相信，半導體和軟體技術的共同進步必將給語音識別技術打下堅實的基礎。

　　趨勢二：多語言混合識別方面和無限詞彙識別方面需改善。

　　現在使用的語音模型和聲學模型有很多的局限性，如果突然從英語轉為法語、俄語或者漢語，計算機就不會處理了，得到的東西完全不是我們想要的結果;如果人們偶爾使用了某些不太常見的專業術語，如"信息熵"等，計算機可能也會得到奇怪的結果。這不僅僅是因為模型具有局限性，同時也有硬體跟不上的原因。將來伴隨這兩方面技術的進步，聲學模型和語音模型可能會理解各語言之間自然的切換。另外，因為聲學模型的逐步改善，以及以語義學為基礎的語言模型的改進，或許將能夠幫助人們儘量少或完全不受詞彙的影響，從而可實現無限詞彙識別。

　　趨勢三：尋找特殊網絡結構

　　最近的幾年裡大家已經從一開始使用簡單的 DNN 發展到了後來相對複雜的 LSTM 和 Deep CNN 這樣的模型。但在很多情況下這些模型表現得還不夠好。所以一個研究方向是尋找一些特殊的網絡結構能夠把我們想要 model 的那些東西都放在裡面。我們之前做過一些嘗試，比如說人在跟另外一個人對話的過程中，他會一直做 prediction，這個 prediction 包括很多東西，不單是包括你下一句想要說什麼話，還包括根據你的口音來判斷你下面說的話會是怎樣等等。我們曾嘗試把這些現象建在模型里以期提升識別性能。很多的研究人員也在往這個方向走。

　　趨勢四; 快速自適應的方法

　　快速自適應的方法就是快速的不需要人工干預的自適應方法(unsupervised adaptation)。現在雖然已經有一些自適應的算法了，但是它們相對來說自適應的速度比較慢，或者需要較多的數據。有沒有辦法做到更快的自適應?就好像第一次跟一個口音很重的人說話的時候，你可能開始聽不懂，但兩三句話後你就可以聽懂了。大家也在尋找像這種非常快還能夠保證良好性能的自適應方法。快速自適應從實用的角度來講還是蠻重要的。因為自適應確實在很多情況下能夠提升識別率。

　　在語音識別內容的準確率上，各科技企業和團隊都有了相應的突破，而在接下來的一年裡，如何降低周邊環境的干擾以及如何提高對聲音的識別準確率將是語音識別所要解決的問題。以上便是筆者對語音識別發展趨勢的詳細介紹了，相信在不久的將來語音識別發展趨勢將會是一片藍海愈來愈好~

所有欄目

語音識別概述

語音識別發展趨勢預測：
　　趨勢一：識別系統的強健性方面，有待進一步增強。

趨勢二：多語言混合識別方面和無限詞彙識別方面需改善。

趨勢三：尋找特殊網絡結構

趨勢四; 快速自適應的方法

熱門推薦

相關資訊

免費報告

所有欄目

語音識別概述

語音識別發展趨勢預測： 趨勢一：識別系統的強健性方面，有待進一步增強。

趨勢二：多語言混合識別方面和無限詞彙識別方面需改善。

趨勢三：尋找特殊網絡結構

趨勢四; 快速自適應的方法

熱門推薦

相關資訊

免費報告

　　語音識別概述

　　語音識別發展趨勢預測：
　　趨勢一：識別系統的強健性方面，有待進一步增強。

　　趨勢二：多語言混合識別方面和無限詞彙識別方面需改善。

　　趨勢三：尋找特殊網絡結構

　　趨勢四; 快速自適應的方法