關鍵詞:喉振傳聲器 語音盲增強 遞歸神經網絡 長短時記憶 非負矩陣分解
摘要:喉振傳聲器以其優良的抗噪聲特性已在多種強噪聲場景中得到應用,但其產生的語音尚存在著中頻成份厚重、高頻成份缺失等問題,嚴重影響了語音的清晰度和可懂度。為改善喉振傳聲器的語音質量,本文提出了一種基于長短時記憶遞歸神經網絡(Long short term memory recurrent neuralnetworks,LSTM-RNN)的喉振傳聲器語音盲增強算法。與基于低維的譜包絡特征估計算法不同,該算法首先利用LSTM-RNN對喉振傳聲器語音與空氣傳導語音的高維對數幅度譜之間的轉換關系進行建模,能有效捕捉上下文信息實現語音幅度譜的重構,然后采用非負矩陣分解(Non-negative matrixfactorization,NMF)對估計出的語音幅度譜進行處理,有效抑制了過平滑問題,進一步提高了語音質量。仿真實驗得到的LLR,LSD,PESQ性能指標表明,該算法可有效改善喉振傳聲器的語音質量。
數據采集與處理雜志要求:
{1}基金項目:如果論文是項目成果,請按“項目名稱(項目號)”的形式寫出。項目名稱與項目號兩者都要有。
{2}稿件應具有科學性、創新性和實用性,論點明確、論據可靠、數據準確、邏輯嚴謹、文字通順。
{3}文中圖表或插圖請附清晰的原圖文件(tif. 或eps.格式,不低于600 像素)。
{4}注釋是對論文中某一特定內容的解釋或補充說明,用帶圈數字注于當頁頁腳。
{5}稿件文字、標點、年代、數字等書寫方式均以國家有關規定為準。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社