語音編碼裝置及編碼方法、語音解碼裝置及解碼方法

語音編碼裝置及編碼方法、語音解碼裝置及解碼方法

語音編碼裝置及編碼方法、語音解碼裝置及解碼方法是由辻野孝輔 菊入圭 仲信彥 發明開發。

本發明涉及語音編碼裝置及編碼方法、語音解碼裝置及解碼方法。針對頻域中表現的信號,利用協方差法或自相關法在頻率方向上進行線形預測分析,求出線形預測系數,進而對求出的線形預測系數進行濾波強度的調整,然后利用調整后的系數在頻率方向上進行濾波處理,由此使信號的時間包絡變形。從而在以SBR為代表的頻域中的頻帶擴展技術中,能夠減輕所產生的前回聲/后回聲,提高解碼信號的主觀性質量而不使比特率顯著增大。

[0002] 本發明涉及語音編碼裝置、語音解碼裝置、語音編碼方法、語音解碼方法、語音編碼程序以及語音解碼程序。

背景技術

[0003] 利用聽覺心理去除人類知覺不需要的信息而將信號的數據量壓縮為幾十分之一的語音音頻編碼技術在信號的傳送/積蓄中是極為重要的技術。作為廣泛使用的知覺音頻編碼技術的例子,可列舉以“ISO/IEC MPEG”標準化的“MPEG4 AAC”等。

[0004] 作為進一步提高語音編碼的性能利用低比特率獲得高語音質量的方法,近年來廣泛采用了利用語音的低頻成分來生成高頻成分的頻帶擴展技術。頻帶擴展技術的代表例是“MPEG4AAC”中利用的 SBR(Spectral Band Replication :頻帶復制)技術。在 SBR 中,針對通過QMF(Quadrature Mirror Filter:正交鏡像濾波器)濾波器組變換到頻域的信號,進行從低頻頻帶到高頻頻帶的頻譜系數的復寫,由此生成高頻成分,然后,通過調整復寫的系數的頻譜包絡和調性(tonality)來進行高頻成分的調整。利用了頻帶擴展技術的語音編碼方式能夠僅使用少量的輔助信息來再現信號的高頻成分,因此對于語音編碼的低比特率化是有效的。

[0005] 以 SBR 為代表的頻域中的頻帶擴展技術,通過調整相對于頻譜系數的增益、時間方向的線形預測逆濾波處理、噪聲重疊來對頻域中表現的頻譜系數進行頻譜包絡和調性的調整。通過該調整處理,在對語音信號、拍手及響板這樣的時間包絡變化大的信號進行編碼時,有時在解碼信號中會感知到被稱為前回聲(pre echo)或后回聲(post echo)的殘音狀的噪聲。這個問題是由于在調整處理的過程中高頻成分的時間包絡變形并且多數情況下成為比調整前更平坦的形狀而導致的。經由調整處理而變平坦的高頻成分的時間包絡與編碼前的原始信號中的高頻成分的時間包絡不一致,構成了產生前回聲/后回聲的原因。

[0006] 在以“MPEG Surround(環繞MPEG)”以及參數立體聲為代表的采用參數處理的多信道音頻編碼中也會產生同樣的前回聲/后回聲的問題。多信道音頻編碼中的譯碼器包括對解碼信號進行基于殘音濾波器的非相關化處理的單元,而且在非相關化處理的過程中,信號的時間包絡發生變形,產生與前回聲 / 后回聲同樣的再現信號的劣化。作為針對此課題的解決方法有TES(Temporal Envelope Shaping:時間包絡成形)技術(專利文獻1)。在TES 技術中,對 QMF 區域中表述的非相關化處理前的信號,在頻率方向進行線形預測分析,獲得線形預測系數,然后,利用所獲得的線形預測系數對非相關化處理后的信號在頻率方向進行線形預測合成濾波處理。通過該處理,TES 技術提取出非相關化處理前的信號所具有的時間包絡,并與其對應地調整非相關化處理后的信號的時間包絡。由于非相關化處理前的信號具有變形小的時間包絡,因此通過上述處理能夠將非相關化處理后的信號的時間包絡調整為變形小的形狀,并且能夠獲得改善了前回聲/后回聲的再現信號。

[0007] 現有技術文獻

[0008] 專利文獻

[0009] 專利文獻1:美國專利申請公開第2006/0239473號說明書

內容

[0010] 發明所要解決的問題

[0011] 以上所示的 TES 技術利用了非相關化處理前的信號具有變形小的時間包絡。但是,在 SBR 譯碼器中,通過對低頻成分進行信號復寫來復制出信號的高頻成分,因此無法獲得與高頻成分有關的變形小的時間包絡。作為對此問題的解決方法之一,考慮如下的方法:在 SBR 符號器中,對輸入信號的高頻成分進行分析,對分析結果獲得的線形預測系數進行量化并在比特流中進行復用而傳送。由此,在SBR譯碼器中,可獲得包含與高頻成分的時間包絡有關的變形小的信息的線形預測系數。但是,此時,伴隨有如下的問題:量化后的線形預測系數的傳送需要較多的信息量,編碼比特流整體的比特率明顯增大。因此,本發明的目的是在以 SBR 為代表的頻域內的頻帶擴展技術中,能夠減輕產生的前回聲 / 后回聲并提高解碼信號的主觀性質量,而不使比特率顯著增大。

[0012] 解決問題的手段

[0013] 本發明的語音編碼裝置是語音信號進行編碼的語音編碼裝置,該語音編碼裝置的特征在于,具備:核心編碼單元,其對所述語音信號的低頻成分進行編碼;時間包絡輔助信息計算單元,其利用所述語音信號的低頻成分的時間包絡來計算時間包絡輔助信息,該時間包絡輔助信息用于獲得所述語音信號的高頻成分的時間包絡的近似;以及比特流復用單元,其生成至少復用了由所述核心編碼單元編碼后的所述低頻成分、和由所述時間包絡輔助信息計算單元計算出的所述時間包絡輔助信息的比特流。

[0014] 在本發明的語音編碼裝置中,優選為,所述時間包絡輔助信息表示如下參數,該參數表示在規定的分析區間內所述語音信號的高頻成分中的時間包絡的變化的急劇程度。

[0015] 在本發明的語音編碼裝置中,優選為,所述語音編碼裝置還具備將所述語音信號變換到頻域的頻率變換單元,所述時間包絡輔助信息計算單元根據高頻線形預測系數來計算所述時間包絡輔助信息,該高頻線形預測系數是通過在頻率方向上對由所述頻率變換單元變換到頻域的所述語音信號的高頻側系數進行線形預測分析而取得的。

[0016] 在本發明的語音編碼裝置中,優選為,所述時間包絡輔助信息計算單元對由所述頻率變換單元變換到頻域的所述語音信號的低頻側系數在頻率方向上進行線形預測分析,取得低頻線形預測系數,根據該低頻線形預測系數和所述高頻線形預測系數來計算所述時間包絡輔助信息。

[0017] 在本發明的語音編碼裝置中,優選為,所述時間包絡輔助信息計算單元分別根據所述低頻線形預測系數以及所述高頻線形預測系數取得預測增益,并根據這兩個預測增益的大小來計算所述時間包絡輔助信息。

[0018] 在本發明的語音編碼裝置中,優選為,所述時間包絡輔助信息計算單元從所述語音信號中分離出高頻成分,從該高頻成分中取得以時域表現的時間包絡信息,并根據該時間包絡信息的時間的變化的大小來計算所述時間包絡輔助信息。

[0019] 在本發明的語音編碼裝置中,優選為,所述時間包絡輔助信息包含差分信息,該差分信息用于利用對所述語音信號的低頻成分進行頻率方向的線形預測分析而獲得的低頻線形預測系數來取得高頻線形預測系數。

[0020] 在本發明的語音編碼裝置中,優選為,該語音編碼裝置還具備將所述語音信號變換到頻域的頻率變換單元,所述時間包絡輔助信息計算單元分別對由所述頻率變換單元變換到頻域的所述語音信號的低頻成分以及高頻側系數在頻率方向上進行線形預測分析,取得低頻線形預測系數和高頻線形預測系數,并取得該低頻線形預測系數和高頻線形預測系數的差分,由此來取得所述差分信息。

[0021] 在本發明的語音編碼裝置中,優選為,所述差分信息表示LSP(線譜對)、ISP(導抗譜對)、LSF(線譜頻率)、ISF(導抗譜頻率)、PARCOR系數的任意一個區域中的線形預測系數的差分。

[0022] 本發明的語音編碼裝置是對語音信號進行編碼的語音編碼裝置,該語音編碼裝置的特征在于,具備:核心編碼單元,其對所述語音信號的低頻成分進行編碼;頻率變換單元,其將所述語音信號變換到頻域;線形預測分析單元,其在頻率方向上對由所述頻率變換單元變換到頻域的所述語音信號的高頻側系數進行線形預測分析,取得高頻線形預測系數;預測系數抽樣單元,其對由所述線形預測分析單元取得的所述高頻線形預測系數在時間方向上進行抽樣;預測系數量化單元,其對由所述預測系數抽樣單元抽樣后的所述高頻線形預測系數進行量化;以及比特流復用單元,其生成至少復用了由所述核心編碼單元編碼后的所述低頻成分、和由所述預測系數量化單元量化后的所述高頻線形預測系數的比特流。

[0023] 本發明的語音解碼裝置是對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備:比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡輔助信息;核心解碼單元,其對所述比特流分離單元分離出的所述編碼比特流進行解碼,獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;低頻時間包絡分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡信息;時間包絡調整單元,其利用所述時間包絡輔助信息調整由所述低頻時間包絡分析單元取得的所述時間包絡信息;以及時間包絡變形單元,其利用由所述時間包絡調整單元調整后的所述時間包絡信息,使由所述高頻生成單元生成的所述高頻成分的時間包絡變形。

[0024] 在本發明的語音解碼裝置中,優選為,該語音解碼裝置還具備調整所述高頻成分的高頻調整單元,所述頻率變換單元是具有實數或復數系數的 64 通道 QMF 濾波器組,所述頻率變換單元、所述高頻生成單元、所述高頻調整單元進行以“ISO/IEC14496-3”規定的“MPEG4AAC”中的SBR譯碼器(SBR:Spectral Band Replication,頻帶復制)為依據的動作。

[0025] 在本發明的語音解碼裝置中,優選為,所述低頻時間包絡分析單元對由所述頻率變換單元變換到頻域的所述低頻成分進行頻率方向的線形預測分析,取得低頻線形預測系數,所述時間包絡調整單元利用所述時間包絡輔助信息來調整所述低頻線形預測系數,所述時間包絡變形單元針對由所述高頻生成單元生成的頻域的所述高頻成分,利用由所述時間包絡調整單元調整后的線形預測系數,進行頻率方向的線形預測濾波處理,使語音信號的時間包絡變形。

[0026] 在本發明的語音解碼裝置中,優選為,所述低頻時間包絡分析單元取得由所述頻率變換單元變換到頻域的所述低頻成分的每個時隙的功率,由此來取得語音信號的時間包絡信息,所述時間包絡調整單元利用所述時間包絡輔助信息調整所述時間包絡信息,所述時間包絡變形單元通過將由所述高頻生成單元生成的頻域的高頻成分與所述調整后的時間包絡信息重疊來使高頻成分的時間包絡變形。

[0027] 在本發明的語音解碼裝置中,優選為,所述低頻時間包絡分析單元取得由所述頻率變換單元變換到頻域的所述低頻成分的每個 QMF 子帶采樣的功率,由此取得語音信號的時間包絡信息,所述時間包絡調整單元利用所述時間包絡輔助信息來調整所述時間包絡信息,所述時間包絡變形單元通過將所述高頻生成單元所生成的頻域的高頻成分與所述調整后的時間包絡信息相乘來使高頻成分的時間包絡變形。

[0028] 在本發明的語音解碼裝置中,優選為,所述時間包絡輔助信息表示用于調整線形預測系數的強度的濾波強度參數。

[0029] 在本發明的語音解碼裝置中,優選為,所述時間包絡輔助信息表示如下參數,該參數表示所述時間包絡信息的時間變化的大小。

[0030] 在本發明的語音解碼裝置中,優選為,所述時間包絡輔助信息包含相對于所述低頻線形預測系數的線形預測系數的差分信息。

[0031] 在本發明的語音解碼裝置中,優選為,所述差分信息表示LSP(線譜對)、ISP(導抗譜對)、LSF(線譜頻率)、ISF(導抗譜頻率)、PARCOR系數的任意一個區域中的線形預測系數的差分。

[0032] 在本發明的語音解碼裝置中,優選為,所述低頻時間包絡分析單元對由所述頻率變換單元變換到頻域的所述低頻成分進行頻率方向的線形預測分析,取得所述低頻線形預測系數,并且取得該頻域的所述低頻成分的每個時隙的功率,由此來取得語音信號的時間包絡信息,所述時間包絡調整單元利用所述時間包絡輔助信息來調整所述低頻線形預測系數,并且利用所述時間包絡輔助信息來調整所述時間包絡信息,所述時間包絡變形單元對由所述高頻生成單元生成的頻域的高頻成分,利用由所述時間包絡調整單元調整后的線形預測系數進行頻率方向的線形預測濾波處理,使語音信號的時間包絡變形,并且使該頻域的所述高頻成分與由所述時間包絡調整單元調整后的所述時間包絡信息重疊,由此使所述高頻成分的時間包絡變形。

[0033] 在本發明的語音解碼裝置中,優選為,所述低頻時間包絡分析單元對由所述頻率變換單元變換到頻域的所述低頻成分進行頻率方向的線形預測分析,取得所述低頻線形預測系數,并且取得該頻域的所述低頻成分的每個 QMF 子帶采樣的功率,由此取得語音信號的時間包絡信息,所述時間包絡調整單元利用所述時間包絡輔助信息來調整所述低頻線形預測系數,并且利用所述時間包絡輔助信息來調整所述時間包絡信息,所述時間包絡變形單元對由所述高頻生成單元生成的頻域的高頻成分,利用所述時間包絡調整單元調整后的線形預測系數進行頻率方向的線形預測濾波處理,使語音信號的時間包絡變形,并且通過將該頻域的所述高頻成分與由所述時間包絡調整單元調整后的所述時間包絡信息相乘來使所述高頻成分的時間包絡變形。

[0034] 在本發明的語音解碼裝置中,優選為,所述時間包絡輔助信息表示如下參數,該參數表示線形預測系數的濾波強度和所述時間包絡信息的時間變化的大小兩者。

[0035] 本發明的語音解碼裝置是對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備:比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和線形預測系數 ;線形預測系數內插 / 外插單元,其在時間方向上對所述線形預測系數進行內插或外插;以及時間包絡變形單元,其利用由所述線形預測系數內插 / 外插單元進行了內插或外插的線形預測系數,對在頻域中表現的高頻成分進行頻率方向的線形預測濾波處理,使語音信號的時間包絡變形。

[0036] 本發明的語音編碼方法是使用了語音編碼裝置的語音編碼方法,該語音編碼裝置對語音信號進行編碼,所述語音編碼方法的特征在于,具有以下步驟:核心編碼步驟,所述語音編碼裝置對所述語音信號的低頻成分進行編碼;時間包絡輔助信息計算步驟,所述語音編碼裝置利用所述語音信號的低頻成分的時間包絡來計算時間包絡輔助信息,該時間包絡輔助信息用于獲得所述語音信號的高頻成分的時間包絡的近似;以及比特流復用步驟,所述語音編碼裝置生成至少復用了在所述核心編碼步驟中進行編碼了的所述低頻成分、和在所述時間包絡輔助信息計算步驟中計算出的所述時間包絡輔助信息的比特流。

[0037] 本發明的語音編碼方法是使用了語音編碼裝置的語音編碼方法,該語音編碼裝置對語音信號進行編碼,所述該語音編碼方法的特征在于,具有以下步驟:核心編碼步驟,所述語音編碼裝置對所述語音信號的低頻成分進行編碼;頻率變換步驟,所述語音編碼裝置將所述語音信號變換到頻域;線形預測分析步驟,所述語音編碼裝置在頻率方向上對在所述頻率變換步驟中變換到頻域的所述語音信號的高頻側系數進行線形預測分析,取得高頻線形預測系數 ;預測系數抽樣步驟,所述語音編碼裝置在時間方向上對在所述線形預測分析步驟中取得的所述高頻線形預測系數進行抽樣;預測系數量化步驟,所述語音編碼裝置將在所述預測系數抽樣步驟中進行了抽樣后的所述高頻線形預測系數進行量化;以及比特流復用步驟,所述語音編碼裝置生成至少復用了在所述核心編碼步驟中編碼后的所述低頻成分、和在所述預測系數量化步驟中量化后的所述高頻線形預測系數的比特流。

[0038] 本發明的語音解碼方法是使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟:比特流分離步驟,所述語音解碼裝置將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡輔助信息;核心解碼步驟,所述語音解碼裝置對在所述比特流分離步驟中分離出的所述編碼比特流進行解碼而獲得低頻成分;頻率變換步驟,所述語音解碼裝置將在所述核心解碼步驟中獲得的所述低頻成分變換到頻域;高頻生成步驟,所述語音解碼裝置通過將在所述頻率變換步驟中變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;低頻時間包絡分析步驟,所述語音解碼裝置對在所述頻率變換步驟中變換到頻域的所述低頻成分進行分析,取得時間包絡信息;時間包絡調整步驟,所述語音解碼裝置利用所述時間包絡輔助信息來調整在所述低頻時間包絡分析步驟中取得的所述時間包絡信息;以及時間包絡變形步驟,所述語音解碼裝置利用在所述時間包絡調整步驟中調整后的所述時間包絡信息,使在所述高頻生成步驟中生成的所述高頻成分的時間包絡變形。

[0039] 本發明的語音解碼方法是使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟:比特流分離步驟,所述語音解碼裝置將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和線形預測系數;線形預測系數內插 / 外插步驟,所述語音解碼裝置在時間方向上對所述線形預測系數進行內插或外插;以及時間包絡變形步驟,所述語音解碼裝置利用在所述線形預測系數內插 / 外插步驟中進行了內插或外插的所述線形預測系數,對在頻域中表現的高頻成分進行頻率方向的線形預測濾波處理,使語音信號的時間包絡變形。

[0040] 本發明的語音編碼程序,其特征在于,為了對語音信號進行編碼,而使計算機裝置作為以下單元發揮功能:核心編碼單元,其對所述語音信號的低頻成分進行編碼;時間包絡輔助信息計算單元,其利用所述語音信號的低頻成分的時間包絡來計算時間包絡輔助信息,該時間包絡輔助信息用于獲得所述語音信號的高頻成分的時間包絡的近似;以及比特流復用單元,其生成至少復用了由所述核心編碼單元編碼后的所述低頻成分、和由所述時間包絡輔助信息計算單元計算出的所述時間包絡輔助信息的比特流。

[0041] 本發明的語音編碼程序,其特征在于,為了對語音信號進行編碼,而使計算機裝置作為以下單元發揮功能:核心編碼單元,其對所述語音信號的低頻成分進行編碼;頻率變換單元,其將所述語音信號變換到頻域;線形預測分析單元,其在頻率方向上對由所述頻率變換單元變換到頻域的所述語音信號的高頻側系數進行線形預測分析,取得高頻線形預測系數;預測系數抽樣單元,其對由所述線形預測分析單元取得的所述高頻線形預測系數在時間方向上進行抽樣;預測系數量化單元,其對由所述預測系數抽樣單元抽樣后的所述高頻線形預測系數進行量化;以及比特流復用單元,其生成至少復用了由所述核心編碼單元編碼后的所述低頻成分、和由所述預測系數量化單元量化后的所述高頻線形預測系數的比特流。

[0042] 本發明的語音解碼程序,其特征在于,為了對編碼后的語音信號進行解碼,而使計算機裝置作為以下單元發揮功能:比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡輔助信息;核心解碼單元,其對所述比特流分離單元分離出的所述編碼比特流進行解碼,獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;低頻時間包絡分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡信息;時間包絡調整單元,其利用所述時間包絡輔助信息調整由所述低頻時間包絡分析單元取得的所述時間包絡信息;以及時間包絡變形單元,其利用由所述時間包絡調整單元調整后的所述時間包絡信息,使由所述高頻生成單元生成的所述高頻成分的時間包絡變形。

[0043] 本發明的語音解碼程序,其特征在于,為了對編碼后的語音信號進行解碼,而使計算機裝置作為以下單元發揮功能:比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和線形預測系數;線形預測系數內插 / 外插單元,其在時間方向上對所述線形預測系數進行內插或外插;以及時間包絡變形單元,其利用由所述線形預測系數內插 / 外插單元進行了內插或外插的線形預測系數,對在頻域中表現的高頻成分進行頻率方向的線形預測濾波處理,使語音信號的時間包絡變形。

[0044] 在本發明的語音解碼裝置中,優選為,所述時間包絡變形單元在對由所述高頻生成單元生成的頻域的所述高頻成分進行頻率方向的線形預測濾波處理之后,將根據所述線形預測濾波處理的結果獲得的高頻成分的功率調整為與所述線形預測濾波處理前相等的值。

[0045] 在本發明的語音解碼裝置中,優選為,所述時間包絡變形單元在對由所述高頻生成單元生成的頻域的所述高頻成分進行頻率方向的線形預測濾波處理之后,將根據所述線形預測濾波處理的結果獲得的高頻成分的任意頻率范圍內的功率調整為與所述線形預測濾波處理前相等的值。

[0046] 在本發明的語音解碼裝置中,優選為,所述時間包絡輔助信息是所述調整后的所述時間包絡信息中的最小值與平均值的比率。

[0047] 在本發明的語音解碼裝置中,優選為,所述時間包絡變形單元控制所述調整后的時間包絡的增益,使得所述頻域的高頻成分的 SBR 包絡時間分段內的功率在時間包絡變形之前與之后相等,然后通過將所述頻域的高頻成分與所述增益控制后的時間包絡相乘來使高頻成分的時間包絡變形。

[0048] 在本發明的語音解碼裝置中,優選為,所述低頻時間包絡分析單元取得由所述頻率變換單元變換到頻域的所述低頻成分的每個 QMF 子帶采樣的功率,還利用在 SBR 包絡時間分段內的平均功率對每個所述 QMF 子帶采樣的功率進行歸一化,由此取得表現為乘上了各QMF子帶采樣的增益系數的時間包絡信息。

[0049] 本發明的語音解碼裝置是對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備:核心解碼單元,其對包含所述編碼后的語音信號的來自外部的比特流進行解碼而獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;低頻時間包絡分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡信息;時間包絡輔助信息生成部,其分析所述比特流而生成時間包絡輔助信息;時間包絡調整單元,其利用所述時間包絡輔助信息來調整由所述低頻時間包絡分析單元取得的所述時間包絡信息;以及時間包絡變形單元,其利用由所述時間包絡調整單元調整后的所述時間包絡信息,使由所述高頻生成單元生成的所述高頻成分的時間包絡變形。

[0050] 在本發明的語音解碼裝置中,優選為,該語音解碼裝置具備相當于所述高頻調整單元的一次高頻調整單元和二次高頻調整單元,所述一次高頻調整單元執行包含相當于所述高頻調整單元的處理的一部分的處理,所述時間包絡變形單元對所述一次高頻調整單元的輸出信號進行時間包絡的變形,所述二次高頻調整單元對所述時間包絡變形單元的輸出信號,執行相當于所述高頻調整單元的處理中的、所述一次高頻調整單元未執行的處理。所述二次高頻調整單元優選為SBR解碼過程中的正弦波的附加處理。

[0051] 本發明提供一種對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備:比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡輔助信息;核心解碼單元,其對所述比特流分離單元分離出的所述編碼比特流進行解碼,獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;高頻調整單元,其調整由所述高頻生成單元生成的所述高頻成分,生成調整后的高頻成分;低頻時間包絡分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡信息;輔助信息變換單元,其將所述時間包絡輔助信息變換為用于調整所述時間包絡信息的參數;時間包絡調整單元,其調整由所述低頻時間包絡分析單元取得的所述時間包絡信息而生成調整后的時間包絡信息,在該時間包絡信息的調整中使用所述參數;以及時間包絡變形單元,其利用所述調整后的時間包絡信息,使所述調整后的高頻成分的時間包絡變形。

[0052] 本發明提供一種對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備:核心解碼單元,其對包含所述編碼后的語音信號的來自外部的比特流進行解碼而獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;高頻調整單元,其調整由所述高頻生成單元生成的所述高頻成分,生成調整后的高頻成分;低頻時間包絡分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡信息;時間包絡輔助信息生成部,其分析所述比特流而生成用于調整所述時間包絡信息的參數;時間包絡調整單元,其調整由所述低頻時間包絡分析單元取得的所述時間包絡信息而生成調整后的時間包絡信息,在該時間包絡信息的調整中使用所述參數;以及時間包絡變形單元,其利用由所述調整后的時間包絡信息,使所述調整后的高頻成分的時間包絡變形。

[0053] 本發明提供一種使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟:比特流分離步驟,所述語音解碼裝置將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡輔助信息;核心解碼步驟,所述語音解碼裝置對在所述比特流分離步驟中分離出的所述編碼比特流進行解碼而獲得低頻成分;頻率變換步驟,所述語音解碼裝置將在所述核心解碼步驟中獲得的所述低頻成分變換到頻域;高頻生成步驟,所述語音解碼裝置通過將在所述頻率變換步驟中變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;高頻調整步驟,所述語音解碼裝置調整在所述高頻生成步驟中生成的所述高頻成分,生成調整后的高頻成分;低頻時間包絡分析步驟,所述語音解碼裝置對在所述頻率變換步驟中變換到頻域的所述低頻成分進行分析,取得時間包絡信息;輔助信息變換步驟,所述語音解碼裝置將所述時間包絡輔助信息變換為用于調整所述時間包絡信息的參數;時間包絡調整步驟,所述語音解碼裝置調整在所述低頻時間包絡分析步驟中取得的所述時間包絡信息而生成調整后的時間包絡信息,在該時間包絡信息的調整中使用所述參數;以及時間包絡變形步驟,所述語音解碼裝置利用所述調整后的時間包絡信息,使所述調整后的高頻成分的時間包絡變形。

[0054] 本發明提供一種使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟:核心解碼步驟,所述語音解碼裝置對包含所述編碼后的語音信號的來自外部的比特流進行解碼而獲得低頻成分;頻率變換步驟,所述語音解碼裝置將在所述核心解碼步驟中獲得的所述低頻成分變換到頻域;高頻生成步驟,所述語音解碼裝置通過將在所述頻率變換步驟中變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;高頻調整步驟,所述語音解碼裝置調整在所述高頻生成步驟中生成的所述高頻成分,生成調整后的高頻成分;低頻時間包絡分析步驟,所述語音解碼裝置對在所述頻率變換步驟中變換到頻域的所述低頻成分進行分析,取得時間包絡信息;時間包絡輔助信息生成步驟,所述語音解碼裝置分析所述比特流而生成用于調整所述時間包絡信息的參數;時間包絡調整步驟,所述語音解碼裝置調整在所述低頻時間包絡分析步驟中取得的所述時間包絡信息而生成調整后的時間包絡信息,在該時間包絡信息的調整中使用所述參數;以及時間包絡變形步驟,所述語音解碼裝置利用所述調整后的時間包絡信息,使所述調整后的高頻成分的時間包絡變形。

[0055] 發明效果

[0056] 根據本發明,在以 SBR 為代表的頻域內的頻帶擴展技術中,能夠減輕產生的前回聲/后回聲并提高解碼信號的主觀質量,而不用使比特率明顯增大。

技術要求書

1.一種對語音信號進行編碼的語音編碼裝置,該語音編碼裝置的特征在于,具備:核心編碼單元,其對所述語音信號的低頻成分進行編碼;時間包絡輔助信息計算單元,其利用所述語音信號的低頻成分的時間包絡來計算時間包絡輔助信息,該時間包絡輔助信息用于獲得所述語音信號的高頻成分的時間包絡的近似;以及比特流復用單元,其生成至少復用了由所述核心編碼單元編碼后的所述低頻成分、和由所述時間包絡輔助信息計算單元計算出的所述時間包絡輔助信息的比特流。

2.根據權利要求1所述的語音編碼裝置,其特征在于,所述時間包絡輔助信息表示如下參數,該參數表示在規定的分析區間內所述語音信號的高頻成分中的時間包絡的變化的急劇程度。

3.根據權利要求2所述的語音編碼裝置,其特征在于,所述語音編碼裝置還具備將所述語音信號變換到頻域的頻率變換單元,所述時間包絡輔助信息計算單元根據高頻線形預測系數來計算所述時間包絡輔助信息,該高頻線形預測系數是通過在頻率方向上對由所述頻率變換單元變換到頻域的所述語音信號的高頻側系數進行線形預測分析而取得的。

4.根據權利要求3所述的語音編碼裝置,其特征在于,所述時間包絡輔助信息計算單元對由所述頻率變換單元變換到頻域的所述語音信號的低頻側系數在頻率方向上進行線形預測分析,取得低頻線形預測系數,根據該低頻線形預測系數和所述高頻線形預測系數來計算所述時間包絡輔助信息。

5.根據權利要求4所述的語音編碼裝置,其特征在于,所述時間包絡輔助信息計算單元分別根據所述低頻線形預測系數以及所述高頻線形預測系數取得預測增益,并根據這兩個預測增益的大小來計算所述時間包絡輔助信息。

6.根據權利要求2所述的語音編碼裝置,其特征在于,所述時間包絡輔助信息計算單元從所述語音信號中分離出高頻成分,從該高頻成分中取得以時域表現的時間包絡信息,并根據該時間包絡信息的時間的變化的大小來計算所述時間包絡輔助信息。

7.根據權利要求1所述的語音編碼裝置,其特征在于,所述時間包絡輔助信息包含差分信息,該差分信息用于利用對所述語音信號的低頻成分進行頻率方向的線形預測分析而獲得的低頻線形預測系數來取得高頻線形預測系數。

8.根據權利要求7所述的語音編碼裝置,其特征在于,該語音編碼裝置還具備將所述語音信號變換到頻域的頻率變換單元,所述時間包絡輔助信息計算單元分別對由所述頻率變換單元變換到頻域的所述語音信號的低頻成分以及高頻側系數在頻率方向上進行線形預測分析,取得低頻線形預測系數和高頻線形預測系數,并取得該低頻線形預測系數和高頻線形預測系數的差分,由此來取得所述差分信息。

9.根據權利要求8所述的語音編碼裝置,其特征在于,所述差分信息表示 LSP 即線譜對、ISP 即導抗譜對、LSF 即線譜頻率、ISF 即導抗譜頻率、PARCOR系數的任意一個的區域中的線形預測系數的差分。

10.一種對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備:比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡輔助信息;核心解碼單元,其對所述比特流分離單元分離出的所述編碼比特流進行解碼,獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;低頻時間包絡分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡信息;時間包絡調整單元,其利用所述時間包絡輔助信息調整由所述低頻時間包絡分析單元取得的所述時間包絡信息;以及時間包絡變形單元,其利用由所述時間包絡調整單元調整后的所述時間包絡信息,使由所述高頻生成單元生成的所述高頻成分的時間包絡變形。

11.根據權利要求10的語音解碼裝置,其特征在于,該語音解碼裝置還具備調整所述高頻成分的高頻調整單元,所述頻率變換單元是具有實數或復數系數的64通道QMF濾波器組,所述頻率變換單元、所述高頻生成單元、所述高頻調整單元進行以“ISO/IEC14496-3”規定的“MPEG4 AAC”中的SBR譯碼器即頻帶復制譯碼器為依據的動作。

12.根據權利要求10或11所述的語音解碼裝置,其特征在于,所述低頻時間包絡分析單元對由所述頻率變換單元變換到頻域的所述低頻成分進行頻率方向的線形預測分析,取得低頻線形預測系數,所述時間包絡調整單元利用所述時間包絡輔助信息來調整所述低頻線形預測系數,所述時間包絡變形單元針對由所述高頻生成單元生成的頻域的所述高頻成分,利用由所述時間包絡調整單元調整后的線形預測系數,進行頻率方向的線形預測濾波處理,使語音信號的時間包絡變形。

13.根據權利要求10或11所述的語音解碼裝置,其特征在于,所述低頻時間包絡分析單元取得由所述頻率變換單元變換到頻域的所述低頻成分的每個時隙的功率,由此來取得語音信號的時間包絡信息,所述時間包絡調整單元利用所述時間包絡輔助信息調整所述時間包絡信息,所述時間包絡變形單元通過將由所述高頻生成單元生成的頻域的高頻成分與所述調整后的時間包絡信息重疊來使高頻成分的時間包絡變形。

14.根據權利要求10或11所述的語音解碼裝置,其特征在于,所述低頻時間包絡分析單元取得由所述頻率變換單元變換到頻域的所述低頻成分的每個QMF子帶采樣的功率,由此取得語音信號的時間包絡信息,所述時間包絡調整單元利用所述時間包絡輔助信息來調整所述時間包絡信息,所述時間包絡變形單元通過將所述高頻生成單元所生成的頻域的高頻成分與所述調整后的時間包絡信息相乘來使高頻成分的時間包絡變形。

15.根據權利要求12所述的語音解碼裝置,其特征在于,所述時間包絡輔助信息表示用于調整線形預測系數的強度的濾波強度參數。

16.根據權利要求13所述的語音解碼裝置,其特征在于,所述時間包絡輔助信息表示如下參數,該參數表示所述時間包絡信息的時間變化的大小。

17.根據權利要求12所述的語音解碼裝置,其特征在于,所述時間包絡輔助信息包含相對于所述低頻線形預測系數的線形預測系數的差分信息。

18.根據權利要求17所述的語音解碼裝置,其特征在于,所述差分信息表示 LSP 即線譜對、ISP 即導抗譜對、LSF 即線譜頻率、ISF 即導抗譜頻率、PARCOR系數的任意一個的區域中的線形預測系數的差分。

19.根據權利要求10或11所述的語音解碼裝置,其特征在于,所述低頻時間包絡分析單元對由所述頻率變換單元變換到頻域的所述低頻成分進行頻率方向的線形預測分析,取得低頻線形預測系數,并且取得該頻域的所述低頻成分的每個時隙的功率,由此來取得語音信號的時間包絡信息,所述時間包絡調整單元利用所述時間包絡輔助信息來調整所述低頻線形預測系數,并且利用所述時間包絡輔助信息來調整所述時間包絡信息,所述時間包絡變形單元對由所述高頻生成單元生成的頻域的高頻成分,利用由所述時間包絡調整單元調整后的線形預測系數進行頻率方向的線形預測濾波處理,使語音信號的時間包絡變形,并且使該頻域的所述高頻成分與由所述時間包絡調整單元調整后的所述時間包絡信息重疊,由此使所述高頻成分的時間包絡變形。20.根據權利要求10或11所述的語音解碼裝置,其特征在于,所述低頻時間包絡分析單元對由所述頻率變換單元變換到頻域的所述低頻成分進行頻率方向的線形預測分析,取得低頻線形預測系數,并且取得該頻域的所述低頻成分的每個QMF子帶采樣的功率,由此取得語音信號的時間包絡信息,所述時間包絡調整單元利用所述時間包絡輔助信息來調整所述低頻線形預測系數,并且利用所述時間包絡輔助信息來調整所述時間包絡信息,所述時間包絡變形單元對由所述高頻生成單元生成的頻域的高頻成分,利用所述時間包絡調整單元調整后的線形預測系數進行頻率方向的線形預測濾波處理,使語音信號的時間包絡變形,并且通過將該頻域的所述高頻成分與由所述時間包絡調整單元調整后的所述時間包絡信息相乘來使所述高頻成分的時間包絡變形。21.根據權利要求19所述的語音解碼裝置,其特征在于,所述時間包絡輔助信息表示如下參數,該參數表示線形預測系數的濾波強度和所述時間包絡信息的時間變化的大小兩者。22.根據權利要求12所述的語音解碼裝置,其特征在于,所述時間包絡變形單元在對由所述高頻生成單元生成的頻域的所述高頻成分進行頻率方向的線形預測濾波處理之后,將根據所述線形預測濾波處理的結果獲得的高頻成分的功率調整為與所述線形預測濾波處理前相等的值。23.根據權利要求12所述的語音解碼裝置,其特征在于,所述時間包絡變形單元在對由所述高頻生成單元生成的頻域的所述高頻成分進行頻率方向的線形預測濾波處理之后,將根據所述線形預測濾波處理的結果獲得的高頻成分的任意頻率范圍內的功率調整為與所述線形預測濾波處理前相等的值。24.根據權利要求13所述的語音解碼裝置,其特征在于,所述時間包絡輔助信息是所述調整后的所述時間包絡信息中的最小值與平均值的比率。25.根據權利要求13所述的語音解碼裝置,其特征在于,所述時間包絡變形單元控制所述調整后的時間包絡的增益,使得所述頻域的高頻成分的 SBR 包絡時間分段內的功率在時間包絡變形之前與之后相等,然后通過將所述頻域的高頻成分與增益控制后的時間包絡相乘來使高頻成分的時間包絡變形。26.根據權利要求11所述的語音解碼裝置,其特征在于,所述低頻時間包絡分析單元取得由所述頻率變換單元變換到頻域的所述低頻成分的每個 QMF 子帶采樣的功率,還利用在 SBR 包絡時間分段內的平均功率對每個所述 QMF 子帶采樣的功率進行歸一化,由此取得表現為乘上了各 QMF 子帶采樣的增益系數的時間包絡信息。27.根據權利要求11所述的語音解碼裝置,其特征在于,該語音解碼裝置具備相當于所述高頻調整單元的一次高頻調整單元和二次高頻調整單元,所述一次高頻調整單元執行包含相當于所述高頻調整單元的處理的一部分的處理,所述時間包絡變形單元對所述一次高頻調整單元的輸出信號進行時間包絡的變形,所述二次高頻調整單元對所述時間包絡變形單元的輸出信號,執行相當于所述高頻調整單元的處理中的、所述一次高頻調整單元未執行的處理。28.根據權利要求27所述的語音解碼裝置,其特征在于,所述二次高頻調整單元是SBR解碼過程中的正弦波的附加處理。29.一種使用了語音編碼裝置的語音編碼方法,該語音編碼裝置對語音信號進行編碼,所述語音編碼方法的特征在于,具有以下步驟:核心編碼步驟,所述語音編碼裝置對所述語音信號的低頻成分進行編碼;時間包絡輔助信息計算步驟,所述語音編碼裝置利用所述語音信號的低頻成分的時間包絡來計算時間包絡輔助信息,該時間包絡輔助信息用于獲得所述語音信號的高頻成分的時間包絡的近似;以及比特流復用步驟,所述語音編碼裝置生成至少復用了在所述核心編碼步驟中進行編碼了的所述低頻成分、和在所述時間包絡輔助信息計算步驟中計算出的所述時間包絡輔助信息的比特流。30.一種使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟:比特流分離步驟,所述語音解碼裝置將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡輔助信息;核心解碼步驟,所述語音解碼裝置對在所述比特流分離步驟中分離出的所述編碼比特流進行解碼而獲得低頻成分;頻率變換步驟,所述語音解碼裝置將在所述核心解碼步驟中獲得的所述低頻成分變換到頻域;高頻生成步驟,所述語音解碼裝置通過將在所述頻率變換步驟中變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;低頻時間包絡分析步驟,所述語音解碼裝置對在所述頻率變換步驟中變換到頻域的所述低頻成分進行分析,取得時間包絡信息;時間包絡調整步驟,所述語音解碼裝置利用所述時間包絡輔助信息來調整在所述低頻時間包絡分析步驟中取得的所述時間包絡信息;以及時間包絡變形步驟,所述語音解碼裝置利用在所述時間包絡調整步驟中調整后的所述時間包絡信息,使在所述高頻生成步驟中生成的所述高頻成分的時間包絡變形。31.一種對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備:核心解碼單元,其對包含所述編碼后的語音信號的來自外部的比特流進行解碼而獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復寫到高頻頻帶來生成高頻成分;低頻時間包絡分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡信息;時間包絡輔助信息生成部,其分析所述比特流而生成時間包絡輔助信息;時間包絡調整單元,其利用所述時間包絡輔助信息來調整由所述低頻時間包絡分析單元取得的所述時間包絡信息;以及時間包絡變形單元,其利用由所述時間包絡調整單元調整后的所述時間包絡信息,使由所述高頻生成單元生成的所述高頻成分的時間包絡變形。

說明書附圖

圖1

圖2

圖3

圖4

圖5

圖6

圖7

圖8

圖9

圖10

圖11

圖12

圖13

圖14

圖15

圖16

圖17

圖18

圖19

圖20

圖21

圖22

圖23

圖24

圖25

圖26

圖27

圖28

圖29

圖30

圖31

圖32

圖33

圖34

圖35

圖36

圖37

圖38

圖39

圖40

圖41

圖42

圖43

圖44

圖45

圖46

圖47

圖48

圖49

圖50