(資料圖片僅供參考)
科技日報記者 張景陽 通訊員 胡紅波
記者日前從內蒙古大學計算機學院獲悉,該院劉瑞研究員所在科研團隊與日本大阪大學科學與工業研究所科研團隊合作在國際信號處理領域TOP期刊《IEEE/ACM音頻、語音和語言處理會刊》發表了“通過源濾波網絡將獨立于說話人的情感解耦以進行語音轉換”最新研究成果。
該研究依托內蒙古大學蒙古文智能信息處理技術國家地方聯合工程研究中心、蒙古文信息處理技術自治區重點實驗室,并得到2022年內蒙古大學駿馬計劃高層次人才引進項目的支持。
據介紹,情感語音轉換(VC)旨在將中性語音轉換為情感聲音,同時保留語言信息和說話者的身份。科研團隊注意到,將情感特征與其他語音信息(例如內容、說話者身份等)的解藕是實現高質量轉換效果的關鍵。由于情感語音中聲學特征的解藕更加復雜,面向中性語音的特征解藕工作一直無法很好地開展。
科研團隊針對情感語音轉換的聲學特征解藕問題開展研究,提出了一種基于“源-濾波器”模型的情感語音轉換系統。具體來說,為了解決情感語音轉換的特征解藕問題,提出一種新穎的基于“源-濾波器”模型的情感VC模型(簡稱SFEVC),以從音色和音調特征中準確過濾說話人獨立的情感線索。SFEVC模型由多通道編碼器、情感獨立編碼器、預訓練的說話人相關編碼器和相應的解碼器組成。所有編碼器模塊都采用信息瓶頸自動編碼器。
此外,為了進一步提高各種情緒的轉化質量,研究團隊還提出了基于二維VA空間的訓練策略,實驗結果表明,SFEVC模型以及VA訓練策略的表現均優于所有基線系統,并基于非平行數據在說話人無關的情感VC場景下實現了最優性能。
關鍵詞: 語音轉換

營業執照公示信息