語音合成方法、語音合成裝置、存儲介質與電子設備

語音合成方法、語音合成裝置、存儲介質與電子設備

語音合成方法、語音合成裝置、存儲介質與電子設備是由張海桐 林悅 發明開發。

本公開提供了一種語音合成方法、語音合成裝置、計算機可讀存儲介質與電子設備,屬于語音合成技術領域。所述方法包括:獲取其他說話人的多語言語音數據和目標說話人的中文語音文本數據;根據所述多語言語音數據中是否包括文本標簽數據確定所述多語言語音數據和所述中文語音文本數據的訓練策略;按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到目標說話人的多語言合成模型;獲取待合成文本,通過所述多語言合成模型生成待合成文本的預測聲學特征;通過聲碼器將所述預測聲學特征轉換為所述目標說話人的混合語音數據,以進行播放。本公開可以降低混合語音生成對數據的依賴性,提高合成語音的流利度和自然度。

[0001] 本公開涉及語音合成技術領域,尤其涉及一種語音合成方法、語音合成裝置、計算機可讀存儲介質與電子設備。

背景技術

[0002] 近年來,隨著計算機技術和數字信號處理技術的不斷發展,語音合成(Text? to?Speech,TTS)技術也得到了相應的發展,并且已被應用于多種場景,例如游戲語音、智能音箱、電話查詢系統等。

[0003] 其中,混合文本的語音合成是語音合成技術中的重要組成部分。目前,對于混合文本,如中英混合文本的語音合成,主要是由掌握混合語言的錄音師錄制混合文本,從而通過深度學習等方法訓練合成混合文本的語音數據,但是這種方法只適用于單說話人的語音合成,不能適用于多說話人的應用場景;在一些方法中,混合文本的語音合成也可以通過將中文語音數據和英文語音數據同時加入至訓練模型,采用文本表征方式將文本數據作為訓練模型的建模單元進行訓練,使得中文語音數據與英文文本得到更多的交融,但是通過這種方法合成的混合語音數據往往會出現不同說話人的聲音,語音數據的流利度和自然度不夠。

[0004] 需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。

內容

[0005] 本公開提供了一種語音合成方法、語音合成裝置、計算機可讀存儲介質與電子設備,進而至少在一定程度上改善現有技術中混合語音生成流利度和自然度不高的問題。

[0006] 本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。

[0007] 根據本公開的第一方面,提供一種語音合成方法,所述方法包括:獲取其他說話人的多語言語音數據和目標說話人的中文語音文本數據;根據所述多語言語音數據中是否包括文本標簽數據確定所述多語言語音數據和所述中文語音文本數據的訓練策略;按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型;獲取待合成文本,通過所述多語言合成模型生成所述待合成文本的預測聲學特征,所述待合成文本包括至少兩種語種類型;通過聲碼器將所述預測聲學特征轉換為所述目標說話人的混合語音數據,以進行播放。

[0008] 在本公開的一種示例性實施方式中,所述根據所述多語言語音數據中是否包括文本標簽數據確定所述多語言語音數據和所述中文語音文本數據的訓練策略,包括:確定所述多語言語音數據中是否包括文本標簽數據,以在確定所述多語言語音數據中不包括文本標簽數據時,確定所述多語言語音數據和所述中文語音文本數據的訓練策略為第一訓練策略;以及在確定所述多語言語音數據中包括文本標簽數據時,確定所述多語言語音數據和所述中文語音文本數據的訓練策略為第二訓練策略;所述按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:在確定所述訓練策略為所述第一訓練策略時,按照所述第一訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述多語言合成模型;或者在確定所述訓練策略為所述第二訓練策略時,按照所述第二訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述多語言合成模型。

[0009] 在本公開的一種示例性實施方式中,所述按照所述第一訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:采用無監督訓練模型訓練所述多語言語音數據,生成所述多語言語音數據的預訓練模型;通過所述中文語音文本數據對所述預訓練模型進行監督式訓練,生成所述多語言合成模型。

[0010] 在本公開的一種示例性實施方式中,所述按照所述第二訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:采用監督訓練模型訓練所述多語言語音數據和該多語言語音數據的文本標簽數據,生成所述多語言語音數據的預訓練模型;通過所述中文語音文本數據對所述預訓練模型進行監督式訓練,生成所述多語言合成模型。

[0011] 在本公開的一種示例性實施方式中,在確定所述多語言語音數據和所述中文語音文本數據的訓練策略為第二訓練策略后,所述方法還包括:確定所述多語言語音數據的噪聲數量,以在確定所述噪聲數量小于預設閾值時,確定所述訓練策略為第三訓練策略;所述按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:按照所述第三訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述多語言合成模型。

[0012] 在本公開的一種示例性實施方式中,所述按照所述第三訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:采用監督訓練模型對所述多語言語音數據和所述中文語音文本數據的混合數據進行訓練,生成所述多語言合成模型。

[0013] 在本公開的一種示例性實施方式中,在按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據時,所述方法還包括:提取所述中文語音文本數據中的語音數據,以根據所述語音數據生成所述目標說話人的原始聲學特征;計算所述原始聲學特征與所述預測語音特征之間的誤差,以通過反向傳播算法對所述多語言合成模型進行訓練。

[0014] 在本公開的一種示例性實施方式中,在按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據時,所述方法還包括:將所述多語言語音數據的文本標簽數據轉換成多語言音素序列,以及將所述中文語音文本數據的文本數據轉換成中文音素序列;將所述多語言語音數據的語音數據轉換成多語言語音特征,以及將所述中文語音文本數據的語音數據轉換成中文語音特征;基于注意力機制,通過計算所述多語言音素序列中各音素與所述多語言語音特征中各語音分幀的相似性,得到所述多語言音素序列和所述多語言語音特征的注意力得分;以及通過計算所述中文音素序列中各音素與所述中文語音特征中各語音分幀的相似性,得到所述中文音素序列和所述中文語音特征的注意力得分。

[0015] 在本公開的一種示例性實施方式中,在通過所述多語言合成模型生成所述待合成文本的預測聲學特征前,所述方法還包括:將所述待合成文本轉換成音素序列。

[0016] 根據本公開的第二方面,提供一種語音合成裝置,所述語音合成裝置包括:獲取模塊,用于獲取其他說話人的多語言語音數據和目標說話人的中文語音文本數據;確定模塊,用于根據所述多語言語音數據中是否包括文本標簽數據確定所述多語言語音數據和所述中文語音文本數據的訓練策略;訓練模塊,用于按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型;生成模塊,用于獲取待合成文本,通過所述多語言合成模型生成所述待合成文本的預測聲學特征,所述待合成文本包括至少兩種語種類型;轉換模塊,用于通過聲碼器將所述預測聲學特征轉換為所述目標說話人的混合語音數據,以進行播放。

[0017] 在本公開的一種示例性實施方式中,所述確定模塊用于確定所述多語言語音數據中是否包括文本標簽數據,以在確定所述多語言語音數據中不包括文本標簽數據時,確定所述多語言語音數據和所述中文語音文本數據的訓練策略為第一訓練策略,以及在確定所述多語言語音數據中包括文本標簽數據時,確定所述多語言語音數據和所述中文語音文本數據的訓練策略為第二訓練策略;所述訓練模塊用于在確定所述訓練策略為所述第一訓練策略時,按照所述第一訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述多語言合成模型,或者在確定所述訓練策略為所述第二訓練策略時,按照所述第二訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述多語言合成模型。

[0018] 在本公開的一種示例性實施方式中,所述訓練模塊還用于采用無監督訓練模型訓練所述多語言語音數據,生成所述多語言語音數據的預訓練模型,通過所述中文語音文本數據對所述預訓練模型進行監督式訓練,生成所述多語言合成模型。

[0019] 在本公開的一種示例性實施方式中,所述訓練模塊還用于采用監督訓練模型訓練所述多語言語音數據和該多語言語音數據的文本標簽數據,生成所述多語言語音數據的預訓練模型,通過所述中文語音文本數據對所述預訓練模型進行監督式訓練,生成所述多語言合成模型。

[0020] 在本公開的一種示例性實施方式中,在確定所述多語言語音數據和所述中文語音文本數據的訓練策略為第二訓練策略后,所述確定模塊還用于確定所述多語言語音數據的噪聲數量,以在確定所述噪聲數量小于預設閾值時,確定所述訓練策略為第三訓練策略,所述訓練模塊還用于按照所述第三訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述多語言合成模型。

[0021] 在本公開的一種示例性實施方式中,所述訓練模塊還用于采用監督訓練模型對所述多語言語音數據和所述中文語音文本數據的混合數據進行訓練,生成所述多語言合成模型。

[0022] 在本公開的一種示例性實施方式中,在按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據時,所述訓練模塊還用于提取所述中文語音文本數據中的語音數據,以根據所述語音數據生成所述目標說話人的原始聲學特征,計算所述原始聲學特征與所述預測語音特征之間的誤差,以通過反向傳播算法對所述多語言合成模型進行訓練。

[0023] 在本公開的一種示例性實施方式中,在按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據時,所述訓練模塊還用于將所述多語言語音數據的文本標簽數據轉換成多語言音素序列,以及將所述中文語音文本數據的文本數據轉換成中文音素序列,將所述多語言語音數據的語音數據轉換成多語言語音特征,以及將所述中文語音文本數據的語音數據轉換成中文語音特征,基于注意力機制,通過計算所述多語言音素序列中各音素與所述多語言語音特征中各語音分幀的相似性,得到所述多語言音素序列和所述多語言語音特征的注意力得分,以及通過計算所述中文音素序列中各音素與所述中文語音特征中各語音分幀的相似性,得到所述中文音素序列和所述中文語音特征的注意力得分。

[0024] 在本公開的一種示例性實施方式中,在通過所述多語言合成模型生成所述待合成文本的預測聲學特征前,所述生成模塊還用于將所述待合成文本轉換成音素序列。

[0025] 根據本公開的第三方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述任意一種語音合成方法。

[0026] 根據本公開的第四方面,提供一種電子設備,包括:處理器;以及存儲器,用于存儲所述處理器的可執行指令;其中,所述處理器配置為經由執行所述可執行指令來執行上述任意一種語音合成方法。

[0027] 本公開具有以下有益效果:

[0028] 根據本示例性實施方式中的語音合成方法、語音合成裝置、計算機可讀存儲介質與電子設備,可以通過判斷其他說話人的多語言語音數據中是否包括文本標簽數據確定上述多語言語音數據和目標說話人的中文語音文本數據的訓練策略,并按照該訓練策略訓練上述多語言語音數據和中文語音文本數據,得到目標說話人的多語言合成模型,進而通過該多語言合成模型生成獲取的待合成文本的預測聲學特征,通過聲碼器將預測聲學特征轉換為目標說話人的混合語音數據,以進行播放。一方面,本示例性實施方式只需要獲取其他說話人的多語言語音數據和目標說話人的中文數據,而不需要目標說話人的多語言數據,避免了由不同說話人錄制不同語種的語音數據而產生的數據分布不匹配的問題,且其他說話人的多語言語音數據可以是各種數據來源的數據,因此降低了語音合成方法對數據的依賴性,實現了一種非常方便的合成混合語音數據的方法;另一方面,通過預先確定多語言語音數據和中文語音文本數據的訓練策略,可以按照該訓練策略訓練多語言語音數據和中文語音文本數據,而不需要根據每種模型的訓練結果確定對應的訓練模型,因此,在相當程度上提高了生成目標說話人的混合語音數據的準確率和效率,也可以提高合成混合語音數據的準確率和效率,同時也相應地提高了混合語音數據的流利度和自然度。

[0029] 應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本公開。

技術要求書

1.一種語音合成方法,其特征在于,所述方法包括:獲取其他說話人的多語言語音數據和目標說話人的中文語音文本數據;根據所述多語言語音數據中是否包括文本標簽數據確定所述多語言語音數據和所述中文語音文本數據的訓練策略;按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型;獲取待合成文本,通過所述多語言合成模型生成所述待合成文本的預測聲學特征,所述待合成文本包括至少兩種語種類型;通過聲碼器將所述預測聲學特征轉換為所述目標說話人的混合語音數據,以進行播放。

2.根據權利要求1所述的語音合成方法,其特征在于,所述根據所述多語言語音數據中是否包括文本標簽數據確定所述多語言語音數據和所述中文語音文本數據的訓練策略,包括:確定所述多語言語音數據中是否包括文本標簽數據,以在確定所述多語言語音數據中不包括文本標簽數據時,確定所述多語言語音數據和所述中文語音文本數據的訓練策略為第一訓練策略;以及在確定所述多語言語音數據中包括文本標簽數據時,確定所述多語言語音數據和所述中文語音文本數據的訓練策略為第二訓練策略;所述按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:在確定所述訓練策略為所述第一訓練策略時,按照所述第一訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述多語言合成模型;或者在確定所述訓練策略為所述第二訓練策略時,按照所述第二訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述多語言合成模型。

3.根據權利要求2所述的語音合成方法,其特征在于,所述按照所述第一訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:采用無監督訓練模型訓練所述多語言語音數據,生成所述多語言語音數據的預訓練模型;通過所述中文語音文本數據對所述預訓練模型進行監督式訓練,生成所述多語言合成模型。

4.根據權利要求2所述的語音合成方法,其特征在于,所述按照所述第二訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:采用監督訓練模型訓練所述多語言語音數據和該多語言語音數據的文本標簽數據,生成所述多語言語音數據的預訓練模型;通過所述中文語音文本數據對所述預訓練模型進行監督式訓練,生成所述多語言合成模型。

5.根據權利要求2所述的語音合成方法,其特征在于,在確定所述多語言語音數據和所述中文語音文本數據的訓練策略為第二訓練策略后,所述方法還包括:確定所述多語言語音數據的噪聲數量,以在確定所述噪聲數量小于預設閾值時,確定所述訓練策略為第三訓練策略;所述按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:按照所述第三訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述多語言合成模型。

6.根據權利要求5所述的語音合成方法,其特征在于,所述按照所述第三訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型,包括:采用監督訓練模型對所述多語言語音數據和所述中文語音文本數據的混合數據進行訓練,生成所述多語言合成模型。

7.根據權利要求1至6任一項所述的語音合成方法,其特征在于,在按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據時,所述方法還包括:提取所述中文語音文本數據中的語音數據,以根據所述語音數據生成所述目標說話人的原始聲學特征;計算所述原始聲學特征與所述預測語音特征之間的誤差,以通過反向傳播算法對所述多語言合成模型進行訓練。

8.根據權利要求1至6任一項所述的語音合成方法,其特征在于,在按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據時,所述方法還包括:將所述多語言語音數據的文本標簽數據轉換成多語言音素序列,以及將所述中文語音文本數據的文本數據轉換成中文音素序列;將所述多語言語音數據的語音數據轉換成多語言語音特征,以及將所述中文語音文本數據的語音數據轉換成中文語音特征;基于注意力機制,通過計算所述多語言音素序列中各音素與所述多語言語音特征中各語音分幀的相似性,得到所述多語言音素序列和所述多語言語音特征的注意力得分;以及通過計算所述中文音素序列中各音素與所述中文語音特征中各語音分幀的相似性,得到所述中文音素序列和所述中文語音特征的注意力得分。

9.根據權利要求1所述的語音合成方法,其特征在于,在通過所述多語言合成模型生成所述待合成文本的預測聲學特征前,所述方法還包括:將所述待合成文本轉換成音素序列。

10.一種語音合成裝置,其特征在于,所述裝置包括:獲取模塊,用于獲取其他說話人的多語言語音數據和目標說話人的中文語音文本數據;確定模塊,用于根據所述多語言語音數據中是否包括文本標簽數據確定所述多語言語音數據和所述中文語音文本數據的訓練策略;訓練模塊,用于按照所述訓練策略訓練所述多語言語音數據和所述中文語音文本數據,得到所述目標說話人的多語言合成模型;生成模塊,用于獲取待合成文本,通過所述多語言合成模型生成所述待合成文本的預測聲學特征,所述待合成文本包括至少兩種語種類型;轉換模塊,用于通過聲碼器將所述預測聲學特征轉換為所述目標說話人的混合語音數據,以進行播放。

11.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1-9任一項所述的方法。

12.一種電子設備,其特征在于,包括:處理器;以及存儲器,用于存儲所述處理器的可執行指令;其中,所述處理器配置為經由執行所述可執行指令來執行權利要求1-9任一項所述的方法。

說明書附圖

圖1

圖2

圖3

圖4

圖5

圖6

圖7

圖8

圖9