公司新聞
行業新聞
AI智能語音模塊之AI智能語音合成技術

行業新聞|2022-08-21|YIPPEE

    語音合成是通過機械和電子方法產生人工語音的技術。一般來說,語音合成就是讓機器模仿人類說話。也就是說,輸入一段文字,最后輸出一段聲音。

    語音合成是一個將文本轉化為語音的過程,類似于人類的嘴巴。目前,語音合成技術主要應用于地圖導航、語音助手、教育、娛樂等軟件應用,以及智能揚聲器、家用電器、機器人等硬件設備。

    AI智能語音模塊語音合成系統通常包括兩個模塊:前端和后端。前端模塊主要分析輸入文本,提取后端模塊所需的語言信息。對于中文合成系統,前端模塊一般包括文本正則化、分詞、詞性預測、多音字消歧、節奏預測等子模塊。根據前端分析結果,后端模塊通過一定的方法生成語音波形。后端模塊一般分為兩條技術主線:基于統計參數建模的語音合成,基于單元選擇和波形拼接的語音合成。

    現階段的語音合成系統可以分為三種類型:1。參數語音合成系統。2.拼接語音合成系統。3.基于波形的統計合成系統。其中,參數語音合成系統和拼接語音合成系統是目前各大公司的主流在線合成系統,基于波形的統計合成系統的方法還處于研究階段,是目前研究的熱點。

    1參數語音合成系統的特點是,在語音分析階段,語音波形需要通過聲碼器轉換為頻譜、基頻、時長等語音或節奏參數。在建模階段建模語音參數,在語音合成階段,時域語音信號由聲碼器預測的語音參數還原。參數語音合成系統的優點是模型尺寸小,模型參數調整方便,合成語音相對穩定。

    2、拼接語音合成系統的特點是將原始錄音剪切成基本單元存儲,而不是參數化原始錄音。在合成過程中,通過一些算法或模型計算每個單元的目標成本和連接成本,最后通過Viterbi算法和PSOLA或WSOLA等信號處理方法“拼接”合成語音。因此,拼接語音合成的優點是音質好,不受語音單元參數化音質的損失。但是,在數據庫小的情況下,合成語音韻需要穩定,因為有時候選擇不到合適的語音單元。

    3WaveNet波形統計語音合成的主要單元是卷積神經網絡。該方法的特點是使用神經網絡直接預測合成語音波形的每個采樣點,而不是參數化語音信號。優點是音質比參數合成系統好,略差于拼接合成,但比拼接合成系統更穩定。缺點是合成時間慢,因為需要預測每個采樣點。