人C交ZO ZOⅩ全过_香蕉66精品久久久_欧美国产激情二区三区_娇小12-13╳YⅩ╳毛片高清

公司新聞
行業新聞
AI智能語音模塊之AI智能語音合成技術

行業新聞|2022-08-21|YIPPEE

    語音合成是通過機械和電子方(fang)法(fa)產生人工(gong)語音的技術。一般(ban)來說,語音合成就是讓(rang)機器模(mo)仿人類說話。也就是說,輸(shu)入(ru)一段文字,后(hou)輸(shu)出一段聲音。

    語音(yin)合成(cheng)是(shi)一(yi)個將文本轉化為語音(yin)的過程,類似于人類的嘴巴。目前,語音(yin)合成(cheng)技術主要(yao)應用(yong)于地圖導航、語音(yin)助手、教育、娛樂等(deng)軟件(jian)(jian)應用(yong),以及智能揚(yang)聲器(qi)、家用(yong)電器(qi)、機器(qi)人等(deng)硬(ying)件(jian)(jian)設備(bei)。

    AI智能語音模塊語音合成系統通常包括兩個模塊:前端和后端。前端模塊主要分析輸入文本,提取后端模塊所需的語言信息。對于中文合成系統,前端模塊一般包括文本正則化、分詞、詞性預測、多音字消歧、節奏預測等子模塊。根據前端分析結果,后端模塊通過一定的方法生成語音波形。后端模塊一般分為兩條技術主線:基于統計參數建模的語音合成,基于單元選擇和波形拼接的語音合成。

    現階(jie)段(duan)的(de)(de)語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)可(ke)以分為三種類型:1。參數語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)。2.拼(pin)接(jie)語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)。3.基(ji)于波形(xing)的(de)(de)統(tong)(tong)(tong)(tong)計合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)。其(qi)中,參數語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)和(he)拼(pin)接(jie)語音(yin)(yin)(yin)合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)是目(mu)前各大公司的(de)(de)主流在(zai)線合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong),基(ji)于波形(xing)的(de)(de)統(tong)(tong)(tong)(tong)計合(he)(he)成(cheng)(cheng)系(xi)統(tong)(tong)(tong)(tong)的(de)(de)方法還處于研(yan)究階(jie)段(duan),是目(mu)前研(yan)究的(de)(de)熱點。

    1參數語音合成系統的特點是,在語音分析階段,語音波形需要通過聲碼器轉換為頻譜、基頻、時長等語音或節奏參數。在建模階段建模語音參數,在語音合成階段,時域語音信號由聲碼器預測的語音參數還原。參數語音合成系統的優點是模型尺寸小,模型參數調整方便,合成語音相對穩定。

    2、拼接(jie)(jie)語(yu)(yu)音(yin)合(he)(he)成(cheng)系統的(de)(de)特點是(shi)將原始(shi)錄音(yin)剪切成(cheng)基(ji)本(ben)(ben)單元(yuan)存儲,而不是(shi)參數(shu)化原始(shi)錄音(yin)。在(zai)合(he)(he)成(cheng)過程中,通(tong)過一些算(suan)(suan)法或模(mo)型計算(suan)(suan)每個單元(yuan)的(de)(de)目(mu)標成(cheng)本(ben)(ben)和(he)連接(jie)(jie)成(cheng)本(ben)(ben),后通(tong)過Viterbi算(suan)(suan)法和(he)PSOLA或WSOLA等信號處理(li)方法“拼接(jie)(jie)”合(he)(he)成(cheng)語(yu)(yu)音(yin)。因此(ci),拼接(jie)(jie)語(yu)(yu)音(yin)合(he)(he)成(cheng)的(de)(de)優(you)點是(shi)音(yin)質(zhi)(zhi)好,不受(shou)語(yu)(yu)音(yin)單元(yuan)參數(shu)化音(yin)質(zhi)(zhi)的(de)(de)損失。但是(shi),在(zai)數(shu)據(ju)庫小的(de)(de)情況下,合(he)(he)成(cheng)語(yu)(yu)音(yin)韻需要穩定,因為有(you)時候選擇不到合(he)(he)適的(de)(de)語(yu)(yu)音(yin)單元(yuan)。

    3WaveNet波形統計語音合成的主要單元是卷積神經網絡。該方法的特點是使用神經網絡直接預測合成語音波形的每個采樣點,而不是參數化語音信號。優點是音質比參數合成系統好,略差于拼接合成,但比拼接合成系統更穩定。缺點是合成時間慢,因為需要預測每個采樣點。