基于深度學習的語音識別方法
來源:用戶上傳
作者:
摘要:本文通過對人工智能語言識別技術的現狀闡述,探討了基于人工智能深度學習的語音識別方法。改進語音識別當中的語音拾取和提取特征、模擬訓練和語音識別判斷,是有效提高這項技術的措施。更是推動人工智能產業發展,方便人們生活和工作的重大進步。
[關鍵詞]深度學習語音識別現狀前景
信息技術的高速發展讓人們對人工智能的研究更加深入,也有了長足的進步。人工智能的深入研究和應用將給人們的生活和工作帶來很大的改變。對智能化的深入研究和開發,將廣泛運用到機器語言,機器學習模型的構建就顯得極為重要?;谛畔⒓夹g日新月異的變化,智能化研究中的語音識別已經成為可能,雖然基于人工神經網絡引入聲學理論的應用讓語音識別的準確率和高效率有了很大的提高,但隨著相關研究的深入和使用需求的提高,仍然存在一些缺陷。因此,對深度學習的研究和改進就顯得尤為重要。以下是筆者的一點看法。
1人工智能語音識別技術現狀
人工智能語音識別技術指的是計算機通過獲取并識別語言輸入信號,將其轉換為相應文本的技術。目前,這項技術已經被廣泛運用到人們的日常生活中。一些人們常見的電子產品,都擁有語音識別技術,提高人們工作生活效率的同時,給人們的生活方式帶來了很大改變。但是,語音識別技術不單單是要計算機能夠正確轉換語音信號輸入,同時,還要能夠獲取其中的主要信息,同時執行指令。目前,雖然語音識別技術已經被較為廣泛地運用,但是依舊只是停留在表層發展,存在很多缺陷與不便。
1.1噪聲干擾問題
當下的語音識別系統對噪聲干擾還未有有效的解決方式。講話人在周圍有噪音,或者由于語氣、語調、情緒等原因導致發聲不準確或者不清楚的情況下,語音識別系統則不能有效地識別語音信號,或者干脆不能識別語音信號。
1.2端點檢測技術有待提高
端點檢測技術在語音信號識別中占據著重要位置,刨去噪音干擾的因素,即使在特別安靜的環境中,大部分語音信號識別的錯誤都來自于端點檢測器。即,提高語音識別技術的關鍵在于提高端點檢測技術,而提高端點檢測技術的關鍵在于尋找更加穩定的語音參數。
2基于人工智能深度學習的語音識別方法分析
2.1語音識別方法中的語音拾取和提取特征
采樣和端點檢測是語音拾取的兩項重要環節。采樣即收集聲音信息的樣本,再由轉換器將所收集到的模擬音頻信號樣本轉換成數字音頻文件,是語音拾取中的初始環節。在這個環節中,聲卡用高于錄制最高頻率兩倍的頻率來收集語音信號,來確保避免因低頻而產生失真。
端點檢測又叫語音活動檢測或者語音邊界檢,是指在有噪音的環境中收集語音樣本時,識別語音與噪音,降低語音編碼速率、減少設備能耗和通信寬帶,從而提高識別率的作用。實現這一作用的設備叫語音活動檢測器。目前,在端點檢測過程中,有兩大問題亟待解決,首先是背景環境中的噪聲問題,即怎樣高效又準確地區別噪聲與需要采集的聲音信號,這就需要尋找到更加穩定的語音參數,明確語音提取特征;其次是前后沿剪切問題,即從人聲發出到語音檢測開始之間存在時延,所以語音波形的開始和結尾就會被當做靜音而減掉,因此導致還原出來的語音與語音原稿有出入。
2.2語音識別方法中的模擬訓練和語音識別判
模擬訓練和語音識別判斷主要包括兩方面內容:
?。?)訓練,就是采用固定的識別方法作為標準,通過訓練或者匯聚同類來獲得相應的語音參數,并將所獲得的語音參數作為參考模板保存起來,與眾多的參考模板一起建成參考模板庫,作為語音識別中的一項參考標準。
?。?)分別對比識別樣本與各自參考模板,將相似度最高的作為識別字。對比的具體方法主要有三種。第一種是將語音特征訓練提取結果直接保存為模板。識別過程中,輸入語音信號與訓練特征提取,獲得待識別字的向量序列,比較該序列與各存儲模板,將距離最小者判定為所需字符。第二種是不以特征向量判斷每一個待識別漢字的存儲方式,而是以態圖為主。第三,即語音動態時間匹配性問題的解決辦法。選用適當的方法將語音特點序列劃分為n段,計算每一段特征子序列平均值(即平均位置),獲得n個特征矢量作為模板。
3基于人工智能深度學習的語音識別方法的前景
3.1廣泛應用于人類的日常生活和工作
目前,人類在工作和生活中的電子產品日漸增多,并帶來了很大的便利,語音識別的運用讓更多的電子產品提高了用戶體驗滿意率,但其存在的問題同時也在降低用戶體驗滿意率?;谌斯ぶ悄苌疃葘W習的語音識別方法的研究如若能夠更加廣泛地運用到電子產品中,在未來的人機接口中,將提高深度網絡對信息處理的廣泛程度,同時也將減少噪音對語音識別的干擾問題。
3.2更加接近“人智”
基于人工智能深度學習的語音識別方法,將參考深度神經網絡算法,更加接近人腦獲取信息、分析信息、處理信息的過程和模式,也因此可以構建強大的感知與認知的綜合能力引擎。從感知方面來說,將有可能囊括并匯聚來自聽覺、視覺、閱讀等感知信息,從而擴充感知范圍。從認知方面來說,將更加準確地判斷認識語言輸入,并運用強大的推理和邏輯網絡,做出及時而有效的決策并進行有效的輸出,與人類形成一個強大的信息交互模式。
3.3推動人工智能產業鏈的發展
基于人工智能深度學習的語音識別系統將在語音識別過程中能夠更加準確地識別語音信號,同時對其進行準確的分析,并產生決策性的輸出,將極大地提高用戶體驗。其次智能語音軟件的進步也能夠推動硬件產品的改良和進步,提高產品的精確度,拓寬產品應用范圍。再次,具有語音識別系統的產品和語音識別系統將逐漸實現多樣化的語音服務模式,逐漸發展為比較成熟的產業鏈。
4結束語
基于深度學習的語音識別方法在理念和技術上都有待進步和提升,希望更多的專家和技術人員能夠繼續在人工智能語音識別方面改進技術,早日發展出成熟的產業鏈,更加方便人們的生活和工作。
參考文獻
[1]劉鵬程,袁三男,劉虹,基于深度學習的語音識別系統研究[J].新型工業化,2018,8(05).
[2]戴禮榮,張仕良,黃智穎.基于深度學習的語音識別技術現狀與展望[J].數據采集與處理,2017(03).
[3]穆寶良,基于深度學習的語音識別方法[J].信息與電腦(理論版),2018(22).
轉載注明來源:http://www.hailuomaifang.com/1/view-14925679.htm