一種數字電視語音識別人機交互系統及方法

一種數字電視語音識別人機交互系統及方法

一種數字電視語音識別人機交互系統及方法是由羅笑南 劉寧 蘇嘉偉 薛凱軍 陳健民 發明開發。

本發明公開了一種數字電視語音識別人機交互系統及方法,系統包括目標語音采集模塊、語音分析模塊、語義計算模塊以及智能控制模塊;所述目標語音采集模塊包括信號放大模塊、向前濾波模塊、信號采樣模塊,數據壓縮編碼模塊;所述語音分析模塊包括噪聲去除模塊、特征提取模塊、解碼模塊;方法包括目標語音采集、語音噪聲消除、語音識別處理、命令識別轉換、智能控制處理過程;本發明通過各模塊的協同工作,完成對數字家庭生后的數字電視混響聲學環境下的抗干擾語音智能識別和語音分析與互動的數字電視人機交互技術,提供先進的數字電視語音語言交互方式。

[0001] 本發明涉及語音處理和語義識別技術領域,以及計算機智能分析、處理并采集語音的技術,具體涉及一種數字電視語音識別人機交互系統及方法。

背景技術

[0002] 語音識別技術主要是讓機器通過識別和理解把語音信號變成相應的文本或者命令的技術。 語音識別技術通過語音的采集輸入,提取出語音的特征,再運用模型數據庫的語音信息特征進行模式匹配,得到語音所包含的信息轉換為文字或者命令。

[0003] 根據語音識別的對象不同,在語音識別人物中大體可分為孤立詞識別、關鍵詞識別和連續語音識別三類。 孤立語音識別運用在識別事先已知的詞匯,關鍵詞識別運用在連續的語音當中,但是它并不識別全部文字,而只檢測已知的若干關鍵詞的出現,連續語音識別用于識別連續的一個句子或一段話。

[0004] 在現實家庭生活的數字電視混響聲學環境下,噪聲所造成的語音識別影響比較大。 在現實家庭生活中,語音識別的限制主要在于噪聲的影響和互動語音的不規范性和任意性。 簡單地說,由于噪聲對用戶的語音采樣和輸入造成影響,在語音識別中會發生理解錯誤或者用戶語音的丟失。 用戶互動語音的不規范性和任意性在語音識別中的匹配帶來的隨機的不確定性,在匹配語音當中可能因為語音的不規范性和任意性和匹配錯誤造成語音的語語義解錯誤。

[0005] 解決在家庭生活的數字電視混響聲學環境下,在用戶互動語音不規范性和任意性的情況下,關鍵詞語音識別對這種環境下的連續語音識別有更好的應用。 在用戶的連續語音命令中,關鍵詞識別能夠匹配出已知的關鍵詞所在的位置,并根據關鍵詞的位置和組合,解釋出需要執行的命令。

[0006] 因此,本發明提出了一種數字電視語音識別人機交互系統及方法,目的在于在數字電視的環境下,提供先進的數字電視語音語言交互方式。

內容

[0007] 本發明的目的在于在現實家庭生活的數字電視混響聲學環境下,解決互動語音的不規范性和任意性問題,提供一種數字電視語音識別人際交互系統及方法。

[0008] 本發明數字電視語音識別人際交互系統是由目標語音采集模塊、語音分析模塊、語義計算模塊以及智能控制模塊所組成。

[0009] 所述目標語音采集模塊是一個或者多個用于采集語音信息的麥克風或其他錄入系統,實現語音信息的自動采集,以及模擬的語音信息向數字語音信息的轉換,包括信號放大模塊、向前濾波模塊、信號采樣模塊,數據壓縮編碼模塊;

[0010] 所述的語音分析模塊用于處理語音信息,在現實家庭生活的數字電視混響聲學環境下提取出有用的語音信息,去除噪聲雜音,然后得出語音信息數據,轉換成為文字信息,包括噪聲去除模塊、特征提取模塊、解碼模塊;

[0011] 所述的語義計算模塊,用于理解語音分析模塊得出的文字信息的含義,通過模糊信息搜索和漢語口語理解,對語音進行特征抽取,把語音信息解釋為能夠執行的命令。 首先根據命令信息庫在文字信息中搜索所有與命令相關的文字進行語義計算,再根據命令文字的位置和順序以及命令文字的上下文語句,判斷出所需要執行的命令。 語義計算模塊通過對識別出來的關鍵文字信息進行解釋,在現實家庭生活的數字電視混響聲學環境中設定語音與命令對應轉換關系,從而把關鍵文字信息轉化為命令。

[0012] 所述的智能控制模塊,用于接收語義計算模塊的命令,當命令能夠正確執行時,執行所獲得的命令并對用戶進行聲音、圖像和視頻的提示和交互,然后繼續返回目標語音采集模塊對用戶進行交互。 當命令無效時,向用戶提示命令無效,然后返回目標語音采集模塊等待用戶的交互語音信息。

[0013] 上述技術方案中,所述目標語音采集模塊還包括數據壓縮編碼模塊,壓縮編碼后能夠使傳輸速度加快,減少系統的延時。

[0014] 上述技術方案中,所述目標語音采集模塊中的信號采樣模塊使用單片機作控制兼數據處理,也就是 CPU 控制讀入采樣數據,繼而自行進行數據壓縮,在速度可以達到要求的同時成本相對較低。

[0015] 本發明中所述語音分析模塊設置有存放漢語口語信息的數據庫模塊。 在建立關鍵詞時,采用音節建模,在聲學模型和語言模型基礎上的隱馬爾可夫模型 (HMM) 拓撲結構,先進行分割,再對每一段進行解碼。

[0016] 所述語義計算模塊設置有存放執行命令和提取信息策略的數據庫模塊,所述數據庫模塊設置有人工智能自學習機制,并設置有人工控制接口。 在語義分析中設置人工選擇歧義信息,并對數據庫的信息提取策略進行人工智能學習,增強語義識別的準確性。

[0017] 上述方案中,所述的語義計算模塊融合了中文模糊信息檢索、漢語口語理解技術,利用中文模糊信息檢索找出包含命令的關鍵詞語,再利用漢語口語理解技術對關鍵詞語進行理解和解釋,從而獲得所須要實行的命令。

[0018] 所述的智能控制模塊能夠根據命令直接控制數字電視,智能控制模塊能夠根據命令對機頂盒進行操作,從而達到控制數字電視與人交互的效果。

[0019] 此外,一種數字電視語音識別人機交互方法,其步驟如下所述:

[0020] 1)起始步驟,用于啟動本語音識別人際交互系統;

[0021] 2) 采集語音信息,在現實家庭生活的數字電視混響聲學環境下,如果用戶想要通過語音與數字電視進行交互,則通過目標語音采集模塊采集用戶的語音信息。 首先利用測量放大器把語音信號放大,然后采用5階巴特沃斯低通和5階巴特沃斯高通級聯進行向前濾波,再根據奈奎斯特準則利用AD采樣芯片進行4k和8k采樣速率的信號采樣。最后進行數據壓縮編碼,使數據變成數字語音信息;

[0022] 3) 語音信息的轉換,目標語音采集模塊所采集的語音信息包含噪聲,通過語音分析模塊的處理,把用戶的語音信息提取出來,并解釋成為文字信息。 參照所有數字電視的執行命令,定義與命令相關的關鍵詞,通過語音分析模塊,在用戶的連續語音輸入中匹配識別出關鍵詞的位置,并把關鍵詞映射為文字信息;

[0023] 4) 語義理解,根據所得出的文字信息,通過語義計算模塊,得出將要被執行的命令。 根據命令信息庫在文字信息中搜索所有與命令相關的文字,再根據命令文字的位置和順序以及命令文字的上下文語句進行語義計算,判斷出所需要執行的命令;

[0024] 5) 通過在語義計算模塊所得出的命令,當命令能夠被正確執行的時候,智能控制模塊執行命令并對用戶進行聲音、圖像和視頻的交互,并返回目標語音采集模塊對用戶進行下一步交互,當命令無效時,智能控制模塊向用戶提示命令無效,然后返回目標語音采集模塊等待用戶的交互語音信息。

[0025] 本發明的有益效果如下:

[0026] 1、本發明所提出的一種數字電視語音識別人機交互系統及方法,實現數字電視語音語言的交互。 本發明在現實家庭生活的數字電視混響聲學環境下,提供用戶與先進的數字電視語音語言的交互,實現面向數字家庭的應用。

[0027] 2、本發明所提出的一種數字電視語音識別人機交互系統及方法,在建立關鍵詞時,采用音節建模,在聲學模型和語言模型基礎上的隱馬爾可夫模型 (HMM) 拓撲結構,先進行分割,再對每一段進行解碼,能夠使語音識別更加準確。

[0028] 3、本發明所提出的一種數字電視語音識別人機交互系統及方法,在語義理解中,運用交互操作和人工智能學習方法,根據命令信息庫在文字信息中搜索所有與命令相關的文字,再根據命令文字的位置和順序以及命令文字的上下文語句進行語義計算,使語義判斷更加準確和快速。

[0029] 4、本發明所提出的一種數字電視語音識別人機交互系統及方法,在現實家庭生活的數字電視混響聲學環境中設定語音與命令對應轉換關系,能夠在更好地適應語音的不規范性和任意性。

技術要求書

1.一種數字電視語音識別人機交互系統,其特征在于包括:實現語音信息的自動采集,以及模擬的語音信息向數字語音信息的轉換的目標語音采集模塊;負責處理語音信息,在現實家庭生活的數字電視混響聲學環境下提取出有用的語音信息,去除噪聲雜音,然后得出語音信息數據,轉換成為文字信息的語音分析模塊;用于理解語音分析模塊得出的文字信息的含義,把語音信息解釋為能夠被執行的命令的語義計算模塊;用于接收語義計算模塊的命令,執行命令信息的智能控制模塊。

2.根據權利要求1所述的數字電視語音識別人機交互系統,其特征在于所述目標語音采集模塊還包括信號放大模塊、向前濾波模塊、信號采樣模塊,數據壓縮編碼模塊。

3.根據權利要求2所述的數字電視語音識別人機交互系統,其特征在于所述的信號采樣模塊使用單片機作控制兼數據處理。

4.根據權利要求1所述的數字電視語音識別人機交互系統,其特征在于所述語音分析模塊還包括噪聲去除模塊、特征提取模塊、解碼模塊。

5.根據權利要求1所述的數字電視語音識別人機交互系統,其特征在于所述語音分析模塊設置有存放漢語口語信息的數據庫模塊。

6.根據權利要求1所述的數字電視語音識別人機交互系統,其特征在于所述語義計算模塊設置有存放執行命令和提取信息策略的數據庫模塊,所述數據庫模塊設置有人工智能自學習機制,并設置有人工控制接口。

7.根據權利要求1或5所述的數字電視語音識別人機交互系統,其特征在于所述的語義計算模塊融合了中文模糊信息檢索、漢語口語理解技術。

8.根據權利1要求所述的數字電視語音識別人機交互系統,其特征在于所述的智能控制模塊能夠根據命令直接控制數字電視。

9.一種數字電視語音識別人機交互的方法,其特征在于包括以下步驟:1)起始步驟,用于啟動本語音識別人際交互系統;2) 采集語音信息,在現實家庭生活的數字電視混響聲學環境下,如果用戶想要通過語音與數字電視進行交互,則通過目標語音采集模塊采集用戶的語音信息;3) 語音信息的轉換,目標語音采集模塊所采集的語音信息包含噪聲,通過語音分析模塊的處理,把用戶的語音信息提取出來,并解釋成為文字信息;4) 語義理解,根據所得出的文字信息,通過語義計算模塊,得出將要被執行的命令;5) 通過在語義計算模塊所得出的命令,當命令能夠被正確執行的時候,智能控制模塊執行命令并對用戶進行聲音、圖像和視頻的交互,并返回目標語音采集模塊對用戶進行下一步交互,當命令無效時,智能控制模塊向用戶提示命令無效,然后返回目標語音采集模塊等待用戶的交互語音信息。

說明書附圖

圖1

圖2

圖3

圖4