本文由中科院-極限元“智能交互聯合實驗室”投稿
語音合成又稱文語轉換(Text-To-Speech),簡稱TTS,指通過機械的、電子的方法生成語音的技術。
隨著科技的發展,合成語音的自然度和音質均得到了明顯的改善。目前,語音合成技術在我們生活中具有廣泛的應用,如電子閱讀、車載語音導航、銀行醫院排號系統、交通播報等等,這些應用場景都離不開語音合成。
簡單來說語音合成分為文本分析、韻律分析和聲學分析三個部分。通過文本分析提取出文本特征,在此基礎上預測基頻、時長、節奏等多種韻律特征,然后通過聲學模型實現從前端參數到語音參數的映射,最后通過聲碼器合成語音。整個過程類似于“編碼、信息匹配,解碼的過程”。
語音合成常用的兩種方法:
一種是參數語音合成,另一種則是拼接合成。波形拼接語音合成的過程更容易理解,即在語料庫中抽取合適的拼接單元,拼接成為句子。參數語音合成則需要對音庫進行參數化建模,根據訓練得到的模型預測出韻律參數和聲學參數。
波形拼接語音合成需要對錄音人進行長達幾十個小時以上的錄音采集,而參數語音合成則只需要十個小時的錄音采集,即可完成一套定制化語音包的制作 。在體驗效果上,拼接拼接合成的語音更加貼近真實發音,但是通過參數合成的語音更穩定。
下圖為基于波形拼接:
下圖為基于統計參數:
如何讓機器說話更自然,有情感
從合成的發展歷史來看,表現力、音質、復雜度和自然度一直是合成技術所追求的四點。但是目前水平下的合成語音很難體現出情感特征,例如在韻律表現上不夠靈活,聲調變化上相對死板。
讓機器擁有自然、有情感、高表現力的聲音,依舊是語音合成技術的一大難點。
擺脫平鋪直敘,使合成語言更具有表現力高立足于以下條件:
1、情感豐富的大數據,如:更自然的發音、更豐富的情感、更高更強的表現力
2、新技術的應用
(1)深度神經網絡技術已經成功應用到韻律模型、聲學模型預測,并集成端到端的語音合成模型;
(2)彈性單元挑選技術,讓合成語音更逼近真人發音;
(3)立足于大量數據的文本分析技術讓合成系統更理解人類的語言;
3、強需求應用場景,如:語音導航、小說播報、個性化需求等
語音合成技術已全面支持多方言、多語種、多音色的選擇,專業MOS評分可達4.0以上,為用戶提供渾厚男聲、甜美女聲,并可根據用戶需求實現音庫定制,滿足用戶的個性化應用,例如:明星聲音定制、童聲定制、方言定制等。 從兩個角度來說,一. 音色的定制化,需要跟蹤錄大量的音庫,重新訓練一個模型;二. 個性化表示方法的定制化,可以錄一些數據,通過深度學習訓練模型,自適應的方法來實現。
(審核編輯: 林靜)
分享