包括低延時聲源分離單元的聽力裝置制作方法

包括低延時聲源分離單元的聽力裝置制作方法

包括低延時聲源分離單元的聽力裝置制作方法是由T·巴克爾 T·維塔雷恩 N·H·彭托皮丹 發明開發。

本發明公開了包括低延時聲源分離單元的聽力裝置,其包括:輸入單元;適合保存最后A個音頻樣本的循環分析緩沖器單元;及適合保存最后L個音頻樣本的循環合成緩沖器單元;已保存記錄的聲音例子的數據庫,每一記錄的聲音例子稱為原子,對于每一原子,來自第一緩沖器的音頻樣本與來自第二緩沖器的音頻樣本重疊,源自第一緩沖器的原子構成重構字典,源自第二緩沖器的原子構成分析字典;聲源分離單元,用于分離電輸入信號以提供表示至少兩個聲源的至少兩個分離信號,所述聲源分離單元配置成,考慮數據庫的分析字典中的原子確定最后A個音頻樣本的最佳表示,及通過使用最佳表示組合數據庫的重構字典中的原子而產生L個音頻樣本的至少兩個分離信號。

[0001] 本申請涉及聽力裝置,尤其涉及多聲源環境中的聲源分離。本發明具體涉及包括用于提供表示來自多個聲源產生的聲音環境的聲音的一個或多個電輸入信號的輸入單元的聽力裝置。

[0002] 本申請還涉及多聲源環境中分離聲源的方法。

[0003] 本申請還涉及包括處理器和程序代碼的數據處理系統,程序代碼使得處理器執行本發明方法的至少部分步驟。

[0004] 本發明的實施例如可用在下述應用中:聽力裝置如助聽器、頭戴式耳機、耳麥、有源耳朵保護系統、免提電話系統、移動電話、遠程會議系統、廣播系統、卡拉OK系統、教室放大系統等。

背景技術

[0005] 音頻聲源分離包括分離音頻混合物(音頻混合物包括來自聲場中混合的多個聲源的聲音)內的不同成分聲源的任務。目前,解決該問題的大多數方法已“離線”執行,意味著整個音頻混合物在分離時存在(通常為數字式錄音的形式),而不是“實時”存在,其中隨著新的音頻數據進入系統,聲源被分離。在雞尾酒會情形下,多個競爭性講話者的存在使得聽單一聲源傳輸的信息很困難,但成功的聲源分離能夠一次向聽者呈現僅從單一講話者呈現的信息。

[0006] 為使聲源分離可用在真實通信情形中,其應實時進行或以非常低的延時進行。如果在講出的音頻和分離的音頻之間出現明顯的處理時延,聽者可能被講話者嘴巴運動和對應的音頻之間的不同步弄得煩惱不安,及較少獲益于可能的唇讀。因此,以低延時(如在進入和離開系統的音頻樣本之間低于20ms)運行的聲源分離方法是有利的。當前的(基于附加混合模型的)聲源分離方法依賴于使用相當長的分析幀(通常為>50ms級),如果直接實施,其將違反低延時要求。

[0007] 在本說明書中,僅考慮我們稱為“數據延時”的延時,因為假定在正確的實施和計算能力下實際的處理算法可及時執行。

[0008] 針對兩講話者混合問題存在多個解決方案。

[0009] 一些對實時非負矩陣因數分解(NMF)的研究已提供好的結果,但并未考慮處理足夠小以產生助聽器應用所需要的延時性能(<20ms)的窗口大小。同樣,概率潛在分量分析(PLCA)方法也主張實時性能,但作用于長度為64ms的幀時,其不滿足助聽器用戶的延時需求。

[0010] 直到目前為止,大多數基于NMF的算法已設計成“離線”運行,然而,將要進行分離/增強的整個混合信號立刻可用于處理算法。

[0011] 盡管已報導一些提供實時解決方案的嘗試,但仍需要在正常運行期間在聽力裝置中給出令人滿意的結果的解決方案。

內容

[0012] 本發明提出使用將要分離的每一聲源特有的字典及專用的幀處理方法解決實時聲源分離的問題,以提供增強的分離,即使對于短處理幀也是如此(其產生最低延時)。通過將先前的輸入幀的高速緩存保存在循環緩沖器中,可得到將基于較大的時間上下文輸出的當前幀的濾波器系數。此外,相較于單獨使用短輸入幀,可獲得更好的低延時聲源分離性能。

[0013] 本申請的目標由所附權利要求限定的及下面描述的發明實現。

[0014] 聽力裝置

[0015] 一方面,本申請的目標由一種聽力裝置實現,其包括:

[0016] -輸入單元,用于遞送表示包括至少兩個聲源的音頻信號的時變電輸入信號;

[0017] -適合保存最后A個音頻樣本的長度為A的循環分析緩沖器單元;及

[0018] -適合保存最后L個音頻樣本的長度為L的循環合成緩沖器單元,其中L小于A,L個音頻樣本計劃分開在各個聲源中;

[0019] -已保存來自至少兩個聲源的記錄的聲音例子的數據庫,數據庫中的每一條目(記錄的聲音例子)稱為原子,這些原子源自來自大小對應于合成和分析緩沖器單元的第一和第二緩沖器的音頻樣本,對于每一原子,來自第一緩沖器的音頻樣本與來自第二緩沖器的音頻樣本重疊,及其中源自第一緩沖器的原子構成重構字典,及其中源自第二緩沖器的原子構成分析字典。

[0020] 聽力裝置還包括聲源分離單元,用于分離電輸入信號以提供表示至少兩個聲源的至少兩個分離信號,聲源分離單元配置成,如果原子在數據庫的分析字典中,確定最后A個音頻樣本的最佳表示(W),及通過使用最佳表示(W)組合數據庫的合成(重構)字典中的原子而產生至少兩個分離信號。

[0021] 本發明基于方法的增強最后L個樣本與最后A個樣本的分離的能力,其中L

[0022] 在實施例中,至少兩個聲源包括至少一目標聲源。在實施例中,至少兩個聲源包括噪聲聲源。在實施例中,至少兩個聲源包括目標聲源和噪聲聲源。在實施例中,在特定時間點或時間間隔僅存在目標聲源和噪聲聲源。在實施例中,至少兩個聲源包括兩個以上不同的目標聲源。在實施例中,至少兩個聲源包括三個以上不同的目標聲源。在本說明書中,術語“目標聲源”意為用戶有意向注意的聲源。在本說明書中,術語“目標聲源”意為對其存在學習的數據庫的聲源(包括分析和重構字典以用在根據本發明的聲源分離中)。

[0023] 在實施例中,聽力裝置包括用于按時頻表示(k,m)提供分析和/或合成緩沖器的內容的時頻(TF)轉換單元。在實施例中,時頻轉換單元提供電輸入信號在多個頻帶、多個時刻的時間段(如基于時間幀接時間幀地,例如對應于分析和/或合成時間幀/緩沖器),k為頻帶指數,m為時間指數,其中(k,m)定義包括電輸入信號對應于頻率指數k和時刻m的復值或實值形式的信號分量的特定時頻窗口或單元。在實施例中,僅考慮信號的量值。在實施例中,TF轉換單元包括用于對(時變)輸入信號進行濾波并提供多個(時變)輸出信號的濾波器組,每一輸出信號包括截然不同的輸入信號頻率范圍。在實施例中,TF轉換單元包括用于將時變輸入信號轉換為頻域中的(時變)信號的傅里葉變換單元,如離散傅里葉變換(DFT)。在實施例中,聽力裝置考慮的、從最小頻率f 到最大頻率f 的頻率范圍包括從20Hz到20kHz的min max典型人聽頻范圍的一部分,例如從20Hz到12kHz的范圍的一部分。在實施例中,聽力裝置的正向和/或分析通路的信號拆分為NI個頻帶,其中NI如大于5,如大于10,如大于50,如大于100,如大于500,其中至少部分個別進行處理。在實施例中,聽力裝置適于在NP個不同頻道處理正向和/或分析通路的信號(NP≤NI)。頻道可以寬度一致或不一致(如寬度隨頻率增加)、重疊或不重疊。

[0024] 在實施例中,數據庫的原子在時域或(時-)頻域進行表示。

[0025] 在實施例中,聽力裝置包括時-頻域到時域轉換單元,用于提供分離信號的時域表示。

[0026] 在實施例中,聲源分離單元包括循環分析和合成緩沖器和/或時域到時-頻域轉換單元和/或時-頻域到時域轉換單元。

[0027] 在實施例中,聽力裝置包括特征提取單元,用于提取分析緩沖器和/或合成緩沖器的內容的特性特征。

[0028] 在實施例中,特征提取單元配置成按時頻表示提供特性特征。特性的例子可以是特定聲源在時頻域的短聲音例子(即短于100ms)(如圖3B、3C中所示)。

[0029] 在實施例中,聲源分離單元配置成使聲源分離基于非負矩陣因數分解(NMF)、隱馬爾科夫模型(HMM)或深層神經網絡(DNN)。

[0030] 在實施例中,數據庫中每一記錄的聲音例子由源自分別來自第一和第二緩沖器的音頻樣本的原子對組成,第一和第二緩沖器大小對應于合成和分析緩沖器單元。

[0031] 在實施例中,數據庫的每一對應的原子對包括其源自的聲源的標識符,如其話音由特定的一組原子對表示的人的姓名,或聲源類型,或聲源數量,如聲源#1、聲源#2等。

[0032] 在實施例中,數據庫包括針對每一聲源的分析和重構字典。分析和重構字典中的每一原子與另一字典(源自同一聲音元素或為其特性)中的對應原子相關聯。在實施例中,每一字典或字典的每一原子與特定聲源如聲源1、聲源2、聲源3相關聯。

[0033] 在實施例中,各個字典的大小通過標準數據減小技術如K平均聚類或通過在字典學習中引入稀疏限制而減小。

[0034] 在實施例中,聲源分離單元配置成使用聲源標識符產生至少兩個聲源。在實施例中,聲源分離單元配置成使用組分模型產生至少兩個聲源。在實施例中,組分模型包括優化程序,如最小化程序。在實施例中,聲源分離單元配置成使觀測向量x及其近似值 之間的發散函數(如Kullback-Liebler(KL)發散)最小化。

[0035] 在實施例中,聽力裝置包括用于控制以預定更新頻率更新分析和合成緩沖器的控制單元,及配置成在每次更新時將從輸入單元接收的最后H個音頻樣本保存在分析和合成緩沖器中并拋棄分析和合成緩沖器中保存的最舊的H個音頻樣本。在實施例中,分析和合成緩沖器的每次更新之間的音頻樣本的數量H小于16,如小于8,如小于4,如小于2。在實施例中,控制單元配置成根據預定方案更新分離信號,如有規律地,如以預定更新頻率f ,例如upd每H個音頻樣本(f =1/(H*f ),其中f 為采樣頻率)。upd s s

[0036] 在實施例中,聽力裝置包括信號處理單元,用于處理一個或多個分離的、表示至少兩個聲源的信號(或源自其的信號)。在實施例中,信號處理單元配置成向用戶呈現一個或多個分離信號,例如一個接一個,使得在特定時間僅呈現來自單一聲源s 的信息。i

[0037] 在實施例中,聽力裝置配置成以在進入和離開聲源分離系統的音頻樣本之間小于或等于20ms的延時提供聲源分離,例如通過優化合成和分析幀長度的大小。在實施例中,聽力裝置配置成動態調整合成和分析幀長度,例如根據當前的聲環境(如聲源數量、環境噪聲電平等)。

[0038] 在實施例中,聽力裝置(輸入單元)包括用于將輸入聲音轉換為電輸入信號的輸入變換器。在實施例中,聽力裝置包括定向傳聲器系統,其適于增強佩戴聽力裝置的用戶的局部環境中的多個聲源之中的目標聲源。在實施例中,聽力裝置包括多個輸入變換器和/或接收一個或多個表示音頻的直接輸入信號。在實施例中,聽力裝置配置成基于來自多個輸入變換器的電輸入信號和/或基于一個或多個直接輸入信號產生定向信號。在實施例中,聽力裝置配置成基于至少一分離信號產生定向信號。在實施例中,聽力裝置適于從另一裝置如遙控器或智能電話和/或分開的(如搭檔)傳聲器接收傳聲器信號。在實施例中,另一裝置為雙耳聽力系統的對側聽力裝置。在實施例中,聽力裝置配置成基于至少一分離信號及至少一從另一裝置接收的傳聲器信號產生定向信號。在實施例中,定向系統適于檢測(如自適應檢測)傳聲器信號的特定部分源自哪一方向。這可以例如現有技術中描述的多種不同方式實現。

[0039] 在實施例中,聽力裝置適于提供隨頻率而變的增益和/或隨電平而變的壓縮和/或一個或多個頻率范圍到一個或多個其它頻率范圍的移頻(具有或沒有頻率壓縮)以補償用戶的聽力受損。在實施例中,聽力裝置包括用于增強輸入信號并提供處理后的輸出信號的信號處理單元。

[0040] 在實施例中,聽力裝置包括用于基于處理后的電信號提供由用戶感知為聲學信號的刺激的輸出單元。在實施例中,輸出單元包括耳蝸植入物的多個電極或者骨導聽力裝置的振動器。在實施例中,輸出單元包括輸出變換器。在實施例中,輸出變換器包括用于將刺激作為聲學信號提供給用戶的接收器(揚聲器)。在實施例中,輸出變換器包括用于將刺激作為顱骨的機械振動提供給用戶的振動器(如在附著骨頭的聽力裝置或骨錨式聽力裝置中)。

[0041] 在實施例中,聽力裝置包括用于從另一裝置如通信裝置或另一聽力裝置無線接收直接電輸入信號的天線和收發器電路。在實施例中,聽力裝置包括用于從另一裝置如通信裝置或另一聽力裝置接收有線直接電輸入信號的(可能標準化的)電接口(例如連接器的形式)。在實施例中,直接電輸入信號表示或包括音頻信號和/或控制信號和/或信息信號。

[0042] 在實施例中,聽力裝置具有0.08m級的最大外尺寸(如頭戴式耳機)。在實施例中,聽力裝置具有0.04m級的最大外尺寸(如聽力儀器)。

[0043] 在實施例中,聽力裝置為便攜裝置,例如包括本機能源如電池例如可再充電電池的裝置。在實施例中,聽力裝置為低功率裝置。

[0044] 在實施例中,聽力裝置包括輸入變換器(傳聲器系統和/或直接電輸入(如無線接收器))和輸出變換器之間的正向或信號通路。在實施例中,信號處理單元位于該正向通路中。在實施例中,信號處理單元適于根據用戶的特定需要提供隨頻率而變的增益。在實施例中,聽力裝置包括具有用于分析輸入信號(如確定電平、調制、信號類型、聲反饋估計量等)的功能件的分析通路。在實施例中,分析通路和/或信號通路的部分或所有信號處理在頻域進行。在實施例中,分析通路和/或信號通路的部分或所有信號處理在時域進行。

[0045] 在實施例中,聽力裝置包括模數(AD)轉換器以按預定采樣速率如20kHz使模擬輸入數字化。在實施例中,聽力裝置包括數模(DA)轉換器以將數字信號轉換為模擬輸出信號,例如用于經輸出變換器呈現給用戶。

[0046] 在實施例中,表示聲信號的模擬電信號在模數(AD)轉換過程中轉換為數字音頻信號,其中模擬信號以預定采樣頻率或速率f 進行采樣,f 例如在從8kHz到40kHz的范圍中(適s s應應用的特定需要)以在離散的時間點t (或n)提供數字樣本x (或x[n]),每一音頻樣本通n n過預定的比特數N 表示聲信號在t 時的值,N 例如在從1到16比特的范圍中。數字樣本x具有s n s1/f 的時間長度,對于f =20kHz,如50μs。在實施例中,多個音頻樣本按時間幀進行安排。在s s實施例中,一時間幀包括64個音頻數據樣本(對于f =20kHz,對應于3.2ms)。根據實際應用s可使用其它幀長度。

[0047] 在實施例中,聽力裝置包括分類單元,用于對聽力裝置當前周圍的聲環境進行分類。在實施例中,聽力裝置包括向分類單元提供輸入及分類基于哪一輸入的多個檢測器。

[0048] 在實施例中,聽力裝置包括電平檢測器(LD),用于確定輸入信號的電平(例如基于頻帶級和/或全(寬帶)信號)。從用戶聲環境拾取的電傳聲器信號的輸入電平例如是聲環境的分類參數。在實施例中,電平檢測器適于根據多個不同的(如平均)信號電平對用戶當前的聲環境進行分類,如分類為高電平或低電平環境。

[0049] 在特定實施例中,聽力裝置包括話音檢測器(VD),用于確定輸入信號是否包括話音信號(在特定時間點)。在本說明書中,話音信號包括來自人類的語音信號。其還可包括由人類語音系統產生的其它形式的發聲(如唱歌)。在實施例中,話音檢測器單元適于將用戶當前的聲環境分類為話音或無話音環境。這具有下述優點:包括用戶環境中的人類發聲(如語音)的電傳聲器信號的時間段可被識別,因而與僅包括其它聲源(如人工產生的噪聲)的時間段分離。在實施例中,話音檢測器適于將用戶自己的話音也檢測為話音。作為備選,話音檢測器適于在檢測話音時排除用戶自己的話音。在實施例中,聽力裝置包括噪聲電平檢測器。

[0050] 在實施例中,聽力裝置包括自我話音檢測器,用于檢測特定輸入聲音(如話音)是否源自系統用戶的話音。在實施例中,聽力裝置的傳聲器系統適于能夠在用戶自己的話音及另一人的話音之間進行區分及可能與無話音聲音區分。

[0051] 在實施例中,聽力裝置包括聲學(和/或機械)反饋抑制系統,如有能力隨時跟蹤反饋通路變化的自適應反饋消除系統。

[0052] 在實施例中,聽力裝置還包括用于所涉及應用的其它適宜功能,如電平壓縮、降噪等。

[0053] 在實施例中,聽力裝置包括聽音裝置,例如助聽器,例如聽力儀器,例如適于位于用戶耳朵處、或者完全或部分位于耳道中、或者完全或部分植入在用戶頭部中的聽力儀器,例如頭戴式耳機、耳麥、耳朵保護裝置或其組合。

[0054] 在實施例中,根據本發明的聽力裝置的功能元件被包圍在單一裝置如聽力儀器中。在實施例中,根據本發明的聽力裝置的功能元件被包圍在幾個分開的裝置中(如兩個以上)。在實施例中,幾個(優選便攜的)分開的裝置適于彼此有線或無線通信。在實施例中,至少一部分與聲音分離有關的處理在分開的(輔助)裝置中進行,如便攜裝置,如遙控裝置,如移動電話例如智能電話。

[0055] 用途

[0056] 此外,本發明提供上面描述的、“具體實施方式”中詳細描述的及權利要求中限定的聽力裝置的用途。在實施例中,提供在包括一個或多個聽力儀器、頭戴式耳機、耳麥、有源耳朵保護系統等的系統中的用途,例如免提電話系統、遠程會議系統、廣播系統、卡拉OK系統、教室放大系統等。

[0057] 方法

[0058] 本申請還提供在多聲源環境中分離聲源的方法。該方法包括:

[0059] -提供表示包括至少兩個聲源的音頻信號的時變電輸入信號;

[0060] -提供適合保存最后A個音頻樣本的長度為A的循環分析緩沖器單元;及

[0061] -提供適合保存最后L個音頻樣本的長度為L的循環合成緩沖器單元,其中L小于A,L個音頻樣本計劃分開在各個聲源中;

[0062] -提供已保存來自至少兩個聲源的記錄的聲音例子的數據庫,數據庫中的每一條目(記錄的聲音例子)稱為原子,這些原子源自來自大小對應于合成和分析緩沖器單元的第一和第二緩沖器的音頻樣本,對于每一原子,來自第一緩沖器的音頻樣本與來自第二緩沖器的音頻樣本重疊,及其中源自第一緩沖器的原子構成重構字典,及其中源自第二緩沖器的原子構成分析字典;及

[0063] -如果原子在數據庫的分析字典中,通過確定最后A個音頻樣本的最佳表示(W)而分離電輸入信號以提供表示至少兩個聲源的分離信號,及通過使用最佳表示(W)組合數據庫的合成(重構)字典中的原子而產生分離信號。

[0064] 當由對應的過程適當代替時,上面描述的、“具體實施方式”中詳細描述的及權利要求中限定的聽力裝置的部分或所有結構特征可與本發明方法的實施結合,反之亦然。方法的實施具有與對應裝置一樣的優點。

[0065] 為獲得低算法延時,該方法(算法)應用于相對短的輸入數據幀(合成幀),同時濾波器權重通過檢查相對較長的先前的時間上下文(分析幀)而建立。由于兩個不同的幀大小用于收集時域數據進行處理,跨附加(組分)模型中使用的成對字典存在兩個不同的原子長度。對于每一聲源,因而產生分別用于分析和重構的分開的字典。

[0066] 輸入音頻混合信號按基于幀的方式進行分析和處理,如具有從每一時域幀得到的特征向量。分離通過用組分模型表示特征向量而進行,其中每一字典中的原子非負地求和以逼近混合信號內的聲源的頻譜特征。因此,各個字典原子具有與從混合信號形成的特征向量一樣的尺寸,其從字典內容方面進行分析或濾波。

[0067] 本發明還涉及對每一將要分離的聲源產生包括分開但成對的分析和重構字典的數據庫的方法。

[0068] 計算機可讀介質

[0069] 本發明進一步提供保存包括程序代碼的計算機程序的有形計算機可讀介質,當計算機程序在數據處理系統上運行時,使得數據處理系統執行上面描述的、“具體實施方式”中詳細描述的及權利要求中限定的方法的至少部分(如大部分或所有)步驟。

[0070] 作為例子但非限制,前述有形計算機可讀介質可包括RAM、ROM、EEPROM、CD-ROM或其他光盤存儲器、磁盤存儲器或其他磁性存儲裝置,或者可用于執行或保存指令或數據結構形式的所需程序代碼并可由計算機訪問的任何其他介質。如在此使用的,盤包括壓縮磁盤(CD)、激光盤、光盤、數字多用途盤(DVD)、軟盤及藍光盤,其中這些盤通常磁性地復制數據,同時這些盤可用激光光學地復制數據。上述盤的組合也應包括在計算機可讀介質的范圍內。除保存在有形介質上之外,計算機程序也可經傳輸介質如有線或無線鏈路或網絡如因特網進行傳輸并載入數據處理系統從而在不同于有形介質的位置處運行。這樣的活動同樣被本發明覆蓋。

[0071] 數據處理系統

[0072] 本發明進一步提供數據處理系統,包括處理器和程序代碼,程序代碼使得處理器執行上面描述的、“具體實施方式”中詳細描述的及權利要求中限定的方法的至少部分(如大部分或所有)步驟。

[0073] 聽力系統

[0074] 另一方面,本申請提供包括上面描述的、“具體實施方式”中詳細描述的及權利要求中限定的聽力裝置及包括輔助裝置的聽力系統。

[0075] 在實施例中,該系統適于在聽力裝置和輔助裝置之間建立通信鏈路以使信息(如數據例如控制和/或狀態信號,中間結果,和/或音頻信號)能在其間進行交換或從一裝置轉發給另一裝置。

[0076] 在實施例中,通信鏈路為基于近場通信的鏈路,例如基于發射器和接收器部分的天線線圈之間的感應耦合的感應鏈路。在另一實施例中,無線鏈路基于遠場電磁輻射。在實施例中,經無線鏈路的通信根據特定調制方案進行安排,例如模擬調制方案,如FM(調頻)或AM(調幅)或PM(調相),或數字調制方案,如ASK(幅移鍵控)如開-關鍵控、FSK(頻移鍵控)、PSK(相移鍵控)、或QAM(正交調幅)。優選地,用于在聽力裝置和另一裝置之間建立通信鏈路的頻率低于70GHz,例如位于從50MHz到50GHz的范圍中,例如高于300MHz,例如在高于300MHz的ISM范圍中,例如在900MHz范圍中或在2.4GHz范圍中或在5.8GHz范圍中或在60GHz范圍中(ISM=工業、科學和醫學,這樣的標準化范圍例如由國際電信聯盟ITU定義)。在實施例中,無線鏈路基于標準化或專用技術。在實施例中,無線鏈路基于藍牙技術(如藍牙低功率技術)。

[0077] 在實施例中,輔助裝置是或包括音頻網關設備,其適于接收多個音頻信號,及適于選擇所接收音頻信號(或所選信號的組合)中的適當信號以傳給聽力裝置。在實施例中,輔助裝置是或包括遙控器,用于控制聽力裝置的功能和運行。在實施例中,遙控器的功能實施在智能電話中,該智能電話可能運行使能經智能電話控制音頻處理裝置的功能的APP(聽力裝置包括到智能電話的適當無線接口,例如基于藍牙或一些其它標準化或專有方案)。

[0078] 在實施例中,輔助裝置是或包括另一聽力裝置。在實施例中,輔助裝置是或包括上面描述的、“具體實施方式”中詳細描述的及權利要求中限定的聽力裝置。在實施例中,聽力系統包括兩個聽力裝置,適于實施雙耳聽力系統如雙耳助聽器系統。

[0079] 定義

[0080] 在本說明書中,“聽力裝置”指適于改善、增強和/或保護用戶的聽覺能力的裝置如聽力儀器或有源耳朵保護裝置或其它音頻處理裝置,其通過從用戶環境接收聲信號、產生對應的音頻信號、可能修改該音頻信號、及將可能已修改的音頻信號作為可聽見的信號提供給用戶的至少一只耳朵而實現?!奥犃ρb置”還指適于以電子方式接收音頻信號、可能修改該音頻信號、及將可能已修改的音頻信號作為聽得見的信號提供給用戶的至少一只耳朵的裝置如頭戴式耳機或耳麥。聽得見的信號例如可以下述形式提供:輻射到用戶外耳內的聲信號、作為機械振動通過用戶頭部的骨結構和/或通過中耳的部分傳到用戶內耳的聲信號、及直接或間接傳到用戶耳蝸神經的電信號。

[0081] 聽力裝置可構造成以任何已知的方式進行佩戴,如作為佩戴在耳后的單元(具有將輻射的聲信號導入耳道內的管或者具有安排成靠近耳道或位于耳道中的揚聲器)、作為整個或部分安排在耳廓和/或耳道中的單元、作為連到植入在顱骨內的固定結構的單元、或作為整個或部分植入的單元等。聽力裝置可包括單一單元或幾個彼此電子通信的單元。

[0082] 更一般地,聽力裝置包括用于從用戶環境接收聲信號并提供對應的輸入音頻信號的輸入變換器和/或以電子方式(即有線或無線)接收輸入音頻信號的接收器、用于處理輸入音頻信號的信號處理電路、及用于根據處理后的音頻信號將聽得見的信號提供給用戶的輸出裝置。在一些聽力裝置中,放大器可構成信號處理電路。在一些聽力裝置中,輸出裝置可包括輸出變換器,例如用于提供空傳聲信號的揚聲器或用于提供結構或液體傳播的聲信號的振動器。在一些聽力裝置中,輸出裝置可包括一個或多個用于提供電信號的輸出電極。

[0083] 在一些聽力裝置中,振動器可適于經皮或由皮將結構傳播的聲信號傳給顱骨。在一些聽力裝置中,振動器可植入在中耳和/或內耳中。在一些聽力裝置中,振動器可適于將結構傳播的聲信號提供給中耳骨和/或耳蝸。在一些聽力裝置中,振動器可適于例如通過卵圓窗將液體傳播的聲信號提供到耳蝸液體。在一些聽力裝置中,輸出電極可植入在耳蝸中或植入在顱骨內側上,并可適于將電信號提供給耳蝸的毛細胞、一個或多個聽覺神經、聽覺皮層和/或大腦皮層的其它部分。

[0084] “聽力系統”指包括一個或兩個聽力裝置的系統?!半p耳聽力系統”指包括一個或兩個聽力裝置并適于協同地向用戶的兩只耳朵提供聽得見的信號的系統。聽力系統或雙耳聽力系統還可包括“輔助裝置”,其與聽力裝置通信并影響和/或受益于聽力裝置的功能。輔助裝置例如可以是遙控器、音頻網關設備、移動電話、廣播系統、汽車音頻系統或音樂播放器。聽力裝置、聽力系統或雙耳聽力系統例如可用于補償聽力受損人員的聽覺能力損失、增強或保護正常聽力人員的聽覺能力和/或將電子音頻信號傳給人。

技術要求書

1.一種聽力裝置,包括:-輸入單元,用于遞送表示包括至少兩個聲源的音頻信號的時變電輸入信號;-聲源分離單元,用于分離電輸入信號以提供表示所述至少兩個聲源的至少兩個分離信號;其特征在于,所述聽力裝置還包括:-適合保存最后A個音頻樣本的長度為A的循環分析緩沖器單元;及-適合保存最后L個音頻樣本的長度為L的循環合成緩沖器單元,其中L小于A,L個音頻樣本計劃分離在各個聲源中;-已保存來自至少兩個聲源的記錄的聲音例子 的數據庫,數據庫中的每一記錄的聲音例子稱為原子,其中n為聲源指數,k為原子指數,所述原子源自來自大小分別對應于合成和分析緩沖器單元的第一和第二緩沖器的音頻樣本,對于每一原子,來自第一緩沖器的音頻樣本與來自第二緩沖器的音頻樣本重疊,及其中源自第一緩沖器的原子構成重構字典,及其中源自第二緩沖器的原子構成分析字典;其中,所述聲源分離單元配置成,考慮數據庫的分析字典中的原子確定最后A個音頻樣本的最佳表示,及通過使用所述最佳表示組合數據庫的重構字典中的原子而產生L個音頻樣本的至少兩個分離信號。

2.根據權利要求1所述的聽力裝置,包括用于按時頻表示(k,m)提供分析緩沖器的內容的時頻轉換單元,其中所述電輸入信號的對應時間段在多個時刻按多個頻帶提供,k為頻帶指數,m為時間指數,其中(k,m)定義包括電輸入信號對應于頻率指數k和時刻m的復值或實值形式的信號分量的特定時頻窗口或單元。

3.根據權利要求2所述的聽力裝置,包括用于提供分離聲源的時域表示的時頻域到時域轉換單元。

4.根據權利要求1所述的聽力裝置,包括用于提取分析緩沖器和合成緩沖器的內容的特性特征的特征提取單元。

5.根據權利要求1所述的聽力裝置,其中所述聲源分離單元配置成使聲源分離基于非負矩陣因數分解NMF、隱馬爾科夫模型HMM或深層神經網絡DNN。

6.根據權利要求1所述的聽力裝置,其中所述數據庫的每一對應的原子對包括其源自的聲源的標識符,所述原子對包括一個來自分析字典的原子和一個來自重構字典的原子。

7.根據權利要求6所述的聽力裝置,其中所述聲源分離單元配置成使用聲源標識符產生至少兩個聲源。

8.根據權利要求1所述的聽力裝置,包括用于控制以預定更新頻率更新分析和合成緩沖器的控制單元,及配置成在每次更新時將從輸入單元接收的最后H個音頻樣本保存在分析和合成緩沖器中并拋棄分析和合成緩沖器中保存的最舊的H個音頻樣本。

9.根據權利要求1所述的聽力裝置,對于至少兩個聲源中的每一個,其包括分別用于分析和重構目的的分開的字典。

10.根據權利要求1所述的聽力裝置,包括助聽器、頭戴式耳機、耳麥、有源耳朵保護系統或其組合。

11.一種聽力系統,包括根據權利要求1所述的聽力裝置及包括輔助裝置,所述系統適于使能在其間交換數據。

12.根據權利要求11所述的聽力系統,其中所述輔助裝置包括根據權利要求1所述的聽力裝置。

13.根據權利要求1所述的聽力裝置的用途。

14.分離多聲源環境中的聲源的方法,所述方法包括:-提供表示包括至少兩個聲源的音頻信號的時變電輸入信號;-提供適合保存最后A個音頻樣本的長度為A的循環分析緩沖器單元;及-提供適合保存最后L個音頻樣本的長度為L的循環合成緩沖器單元,其中L小于A,L個音頻樣本計劃分離在各個聲源中;-提供已保存來自至少兩個聲源的記錄的聲音例子 的數據庫,數據庫中的每一記錄的聲音例子稱為原子,其中n為聲源指數,k為原子指數,所述原子源自來自大小對應于合成和分析緩沖器單元的第一和第二緩沖器的音頻樣本,對于每一原子,來自第一緩沖器的音頻樣本與來自第二緩沖器的音頻樣本重疊,及其中源自第一緩沖器的原子構成重構字典,及其中源自第二緩沖器的原子構成分析字典;及-分離電輸入信號以通過考慮數據庫的分析字典中的原子確定最后A個音頻樣本的最佳表示而提供表示至少兩個聲源的分離信號,及通過使用所述最佳表示組合數據庫的重構字典中的原子產生所述分離信號。

15.一種數據處理系統,包括處理器和程序代碼,所述程序代碼使得所述處理器執行根據權利要求14所述的方法的步驟。

說明書附圖

圖1A

圖1B

圖2

圖3A

圖3B

圖3C

圖4

圖5A

圖5B

圖5C

圖5D

圖6

圖7