AI智能语音模块之AI智能语音合成技术-深圳市意天科技有限公司-WIFI模组厂家,供应商

AI智能語音模塊之AI智能語音合成技術

行業新聞|2022-08-21|YIPPEE

語音合成是通過機械和電子方(fang)法(fa)產生人工(gong)語音的技術。一般(ban)來說，語音合成就是讓(rang)機器模(mo)仿人類說話。也就是說，輸(shu)入(ru)一段文字，后(hou)輸(shu)出一段聲音。

  語音(yin)合成(cheng)是(shi)一(yi)個將文本轉化為語音(yin)的過程，類似于人類的嘴巴。目前，語音(yin)合成(cheng)技術主要(yao)應用(yong)于地圖導航、語音(yin)助手、教育、娛樂等(deng)軟件(jian)(jian)應用(yong)，以及智能揚(yang)聲器(qi)、家用(yong)電器(qi)、機器(qi)人等(deng)硬(ying)件(jian)(jian)設備(bei)。

AI智能語音模塊語音合成系統通常包括兩個模塊:前端和后端。前端模塊主要分析輸入文本，提取后端模塊所需的語言信息。對于中文合成系統，前端模塊一般包括文本正則化、分詞、詞性預測、多音字消歧、節奏預測等子模塊。根據前端分析結果，后端模塊通過一定的方法生成語音波形。后端模塊一般分為兩條技術主線:基于統計參數建模的語音合成，基于單元選擇和波形拼接的語音合成。

現階(jie)段(duan)的(de)(de)語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)可(ke)以分為三種類型:1。參數語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)。2.拼(pin)接(jie)語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)。3.基(ji)于波形(xing)的(de)(de)統(tong)(tong)(tong)(tong)計合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)。其(qi)中，參數語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)和(he)拼(pin)接(jie)語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)是目(mu)前各大公司的(de)(de)主流在(zai)線合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)，基(ji)于波形(xing)的(de)(de)統(tong)(tong)(tong)(tong)計合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)的(de)(de)方法還處于研(yan)究階(jie)段(duan)，是目(mu)前研(yan)究的(de)(de)熱點。

1、參數語音合成系統的特點是，在語音分析階段，語音波形需要通過聲碼器轉換為頻譜、基頻、時長等語音或節奏參數。在建模階段建模語音參數，在語音合成階段，時域語音信號由聲碼器預測的語音參數還原。參數語音合成系統的優點是模型尺寸小，模型參數調整方便，合成語音相對穩定。

2、拼接(jie)(jie)語(yu)(yu)音(yin)合(he)(he)成(cheng)系統的(de)(de)特點是(shi)將原始(shi)錄音(yin)剪切成(cheng)基(ji)本(ben)(ben)單元(yuan)存儲，而不是(shi)參數(shu)化原始(shi)錄音(yin)。在(zai)合(he)(he)成(cheng)過程中，通(tong)過一些算(suan)(suan)法或模(mo)型計算(suan)(suan)每個單元(yuan)的(de)(de)目(mu)標成(cheng)本(ben)(ben)和(he)連接(jie)(jie)成(cheng)本(ben)(ben)，后通(tong)過Viterbi算(suan)(suan)法和(he)PSOLA或WSOLA等信號處理(li)方法“拼接(jie)(jie)”合(he)(he)成(cheng)語(yu)(yu)音(yin)。因此(ci)，拼接(jie)(jie)語(yu)(yu)音(yin)合(he)(he)成(cheng)的(de)(de)優(you)點是(shi)音(yin)質(zhi)(zhi)好，不受(shou)語(yu)(yu)音(yin)單元(yuan)參數(shu)化音(yin)質(zhi)(zhi)的(de)(de)損失。但是(shi)，在(zai)數(shu)據(ju)庫小的(de)(de)情況下，合(he)(he)成(cheng)語(yu)(yu)音(yin)韻需要穩定，因為有(you)時候選擇不到合(he)(he)適的(de)(de)語(yu)(yu)音(yin)單元(yuan)。

3、WaveNet波形統計語音合成的主要單元是卷積神經網絡。該方法的特點是使用神經網絡直接預測合成語音波形的每個采樣點，而不是參數化語音信號。優點是音質比參數合成系統好，略差于拼接合成，但比拼接合成系統更穩定。缺點是合成時間慢，因為需要預測每個采樣點。

上一條：基于藍牙和語音控制的智能家居系統

下一條：AI智能語音模塊芯片在智能家居產鏈中的重要嗎？

人C交ZO ZOⅩ全过_香蕉66精品久久久_欧美国产激情二区三区_娇小12-13╳YⅩ╳毛片高清