雖然語音識別技術的突破是廣大用戶的福音,但是對於行業內的小公司來說,並不是好消息。語音識別行業高速增長的紅利期已經過去,格局基本形成,規模小的團隊在技術上難有創新和突破。以下對語音識別行業現狀分析。
美國目前的手機語音助手使用比例已經從2013年的30%左右快速攀升至2015年的60%以上,滲透率快速提升一倍以上。谷歌的語音搜索量較2008年增加35倍以上,較2010年增加7倍以上。語音識別行業現狀分析,隨著語音識別近年來的突破性進展,相關商業應用已經展開。2014年,全球智能語音市場規模整體達到45.6億美元,與2013年的33.7億美元同比增長35.3%。2015年,全球智能語音市場規模預計將達到61.9億美元,較2014年增長35.7%。
全球智能語音產業規模持續增長
自動語音識別(ASR)技術的目的是讓機器能夠「聽懂」人類的語音,將人類語音信息轉化為可讀的文字信息,是實現人機互動的關鍵技術,也是長期以來的研究熱點。語音識別的門檻並不高,聲學在線很多文章里提到過,因此國內各大公司也逐漸加入進來。現從具體要解決的四大問題來分析語音識別行業現狀。
①增強系統的魯棒性,也就是說如果條件狀況變得與訓練時很不相同,系統的性能下降不能是突變的。
②增加系統的適應能力,系統要能穩定連續的適應條件的變化,因為說話人存在著年齡、性別、口音、語速、語音強度、發音習慣等方面的差異。所以,系統應該有能力排除掉這些差異。達到對語音的穩定識別。
③尋求更好的語言模型,系統應該在語言模型中得到儘可能多的約束,從而解決由於詞彙量增長所帶來的影響。
④進行動力學建模,語音識別系統提前假定片段和單詞是相互獨立的,但實際上詞彙和音素的線索要求對反映了發聲器官運動模型特點的整合。所以,應該進行動力學建模,從而將這些信息整合到語音識別系統中去。
未來的語音識別市場,預計將會有越來越多的公司參與,以後語音識別的性能可能更多的體現在前端技術和語義理解上。語音識別行業現狀分析,機器要與人自然交流,當然就不能重複手機這套語音對話規則,必然就要考慮到用戶說話的環境、周圍環境的噪音、用戶發音不準或者方言等等諸多因素,這就要求前端技術更加精準的模擬人體結構,仿真出機器人聽覺系統,以實現解放雙手自由對話的目的。