一種基于視覺注意特性的視-聽覺轉換導盲方法

一種基于視覺注意特性的視-聽覺轉換導盲方法

一種基于視覺注意特性的視-聽覺轉換導盲方法是由張軍 王凱煉 寧更新 馮義志 余華 季飛 王杰 發明開發。

本發明公開了一種基于視覺注意特性的視-聽覺轉換導盲方法,該方法利用人類對動靜態物體的視覺注意特性對視頻圖像進行簡化,并根據其重要性分別采用精度不同的聽覺顯示技術進行播放,可以在避免信息過載的同時,為使用者提供更多的環境信息。本發明在對視頻圖像簡化的同時,還對行進路線上非注意區域的障礙物和運動物體進行檢測,可以更好地保證使用者安全。本發明基于人類視覺的感知特性來處理視-聽覺轉換,比現有技術更符合視覺的使用習慣,使用起來更方便和自然。

[0001] 本發明涉及信號處理技術領域,具體涉及一種基于視覺注意特性的視-聽覺轉換導盲方法。

背景技術

[0002] 人類獲取的信息有80%來自視覺,視覺損傷將給人們的生活帶來極大的不便。由于視覺信息的缺失,視力障礙者無法正常感知周圍環境,自由行走受到阻礙,難以生活自理,給生存、生活、學習、就業、社交等方面帶來巨大的困難,嚴重影響了其家庭的生活質量。據統計,90%左右的視覺障礙者為低收入人群。隨著視力障礙者數量的不斷增長,對可以引導盲人自主行走、感受周圍環境信息且價格低廉的輔助工具的需求也越來越迫切。

[0003] 安全行走是盲人最迫切需要解決的問題,目前常見的導盲產品主要有白手杖(White? Cane)、導盲犬、電子行走輔助裝置(Electronic? Travel? Aids,ETA)等。白手杖上沒有安裝任何電子輔助設備,價格低廉,是最常用的一種導盲產品,但白手杖能給盲人提供的信息非常的有限,性能價值偏低,危險系數高,難以滿足視覺障礙患者的實際需要。導盲犬在發達國家中較早得到推廣和應用,但我國2006年開始才出現第一批導盲犬,且因為導盲犬的使用存在著訓練周期和適應期過長、成本高昂、飼養出行不便及其他諸多不可控因素,所以目前還難以在我國廣泛使用。與白手杖和導盲犬相比,電子行走輔助裝置具有提供信息量大、功能多、價格適中、使用方便等諸多優點,是一種更適合大規模推廣的導盲方案,因此受到越來越多研究者的關注,在實際中也有著廣泛的應用前景。

[0004] 目前電子行走輔助裝置主要可以分為智能導盲手杖、智能引導式穿戴、移動式多功能引導機器人等幾種,通常采用超聲、紅外、激光、視頻、多傳感器輸入等方式采集周圍環境的信息,并將這些信息轉換為觸覺或聽覺反饋給使用者。其中,由于視頻輸入具有信息量豐富、易于檢測平面標識等優點,而聽覺輸出具有多維、全向及并行輸出的特性,適合表示多維數據,因此成為目前導盲系統采用的主要方式之一。目前導盲系統中的視-聽覺轉換技術大致可以分為兩類,一類是基于像素映射的低層視覺處理方法,即將采集到的灰度圖像、RGB圖像或深度圖像的像素直接映射為音頻信號,這種方法實現較簡單,可以表達豐富的信息,但會使輸出音頻包含過多細節信息,導致使用者出現信息過載的現象。另一類是基于計算機視覺的高層視覺處理方法,即將檢測到的行走路徑、障礙物或其他結果通過語音或非語音音頻傳遞給使用者,這種方法可以在一定程度上減少信息過載的發生,但只能提供路徑方向和障礙物位置等信息,缺少進一步的環境描述。

[0005] 由于聽覺和視覺感知的機理不同,實際中很難采用聲音完全反映出視頻圖像中的各種細節信息,需要對視頻圖像進行簡化才能避免信息過載。人類使用視覺器官感知周圍環境時,人眼對信息的處理不是均衡的,一方面會對具有高分辨率的視網膜中央凹區感應的圖像關注度更高,另一方面會對移動的物體等更加敏感,因此在導盲系統中如果能夠模仿視覺注意機理,保留視頻輸入中使用者關注的信息,弱化不受注意的信息,可以避免聽覺輸出時的信息過載現象,并且更接近人類視覺的使用習慣。田亞男等在2014年電子學報上發表的文章“基于注意模型的視覺替代方法”中提出了一種基于注意模型的圖像簡化和音頻映射方法,但該方法只使用了靜態圖像的注意模型,在實際使用中仍存在著較大的局限。

內容

[0006] 本發明的目的是針對現有視-聽覺轉換中基于像素映射的低層視覺處理方法容易信息過載,基于計算機視覺的高層視覺處理方法不能提供更豐富的環境信息的不足,提供了一種基于視覺注意特性的視-聽覺轉換導盲方法,該方法利用人類的視覺注意特性對視頻圖像進行簡化,并根據景物的重要性分別采用精度不同的聽覺顯示技術進行播放,可以在保證使用者安全的前提下,更精細地表示視覺注意的物體,為使用者提供更豐富的環境信息。

[0007] 本發明的目的可以通過采取如下技術方案達到:

[0008] 一種基于視覺注意特性的視-聽覺轉換導盲方法,所述的視-聽覺轉換導盲方法包括下列步驟:

[0009] S1、從輸入視頻流中采集RGB彩色圖像和深度圖像,并基于RGBD圖像,對前景物體和背景物體進行劃分,其中,RGBD圖像為RGB彩色圖像和深度圖像;

[0010] S2、設置RGBD圖像中的注視區域,標注出注視區域所覆蓋的前景物體,并將其轉換為第一音頻信號;

[0011] S3、根據采集的視頻信號,將當前時間的RGBD圖像與其前后數幀的RGBD圖像作對比,檢測并標注出RGBD圖像中平均深度值最小的M個運動前景物體,然后將被標注的運動前景物體轉換為第二音頻信號,其中M為預設的常數;

[0012] S4、從RGBD圖像的非注視區域中提取前景物體,在提取的前景物體中標注出平均深度值最小的N個前景物體,然后將被標注的前景物體轉換為第三音頻信號,其中N為預設的常數;

[0013] S5、將得到的第一音頻信號、第二音頻信號、第三音頻信號按預設順序對使用者播放。

[0014] 進一步地,所述的步驟S1中,采用標記分水嶺對RGBD圖像進行前景物體和背景物體進行劃分,具體過程如下:

[0015] S1.1、基于深度圖像計算深度梯度圖像和法向量梯度圖像,基于RGB彩色圖像計算彩色梯度圖像;

[0016] S1.2、對上述深度梯度圖像、法向量梯度圖像和彩色梯度圖像的每幅圖像進行處理,提取圖像中所有極小值的深度,刪除深度小于預先指定閾值的極小值點,只保留深度大于預先指定閾值的極小值點;

[0017] S1.3、將步驟S1.2所得的三幅圖像進行與操作,得到標記圖像;

[0018] S1.4、利用標記圖像對彩色梯度圖像進行修正,使彩色梯度圖像只在標記處具有極小值,不在標記處的像素點不具有極小值;

[0019] S1.5、在修正后的彩色梯度圖像上進行分水嶺分割;

[0020] S1.6、根據深度圖像判斷步驟S1.5分割結果中物體遮擋關系,將被遮擋物體作為背景物體,未被遮擋的物體作為前景物體。

[0021] 進一步地,所述的步驟S2中注視區域所覆蓋的任一前景物體采用以下方法轉換為音頻信號:

[0022] S2.1A、將前景物體中每個像素點的坐標映射為聲場的來波方向,深度值映射為聲音強度,來波方向采用以下公式計算:

[0023]

[0024]

[0025] 其中φ和θ分別為來波方向的仰角和方向角,x和y為像素點對應的圖像坐標,x 和0y 分別為來波方向的仰角和方向角為0時對應的圖像坐標,Θ和 分別為攝像頭視場仰角和0 Ξ方向角變化范圍的大小。深度值采用下式映射為聲音強度

[0026] N =10Alog (4π(d -d)2+1)??? (3)f 10 max

[0027] 其中N 為映射后的聲音強度,d 為攝像頭所能識別最大深度值,d為像素點的深f max度值,A為預設的增益;

[0028] S2.2A、計算每個像素點所對應的來波方向的頭部傳輸函數,將預設的激勵音頻放大至像素點對應的聲音強度,用頭部傳輸函數對其進行濾波,從而得到預設時長的雙聲道音頻信號;

[0029] S2.3A、按預設的順序逐點計算上述前景物體的像素對應的雙聲道音頻信號,直至所有像素計算完畢。

[0030] 進一步地,所述的步驟S2中注視區域所覆蓋的任一前景物體采用以下方法轉換為音頻信號:

[0031] S2.1B、預設所使用的幾何圖形集合,每個幾何圖形設定其對應的激勵音頻;

[0032] S2.2B、將前景物體的輪廓用幾何圖形集合中幾何圖形的組合進行近似;

[0033] S2.3B、按預設的順序選擇組成上述前景物體的一個幾何圖形,將其中心的圖像坐標轉換為聲場的來波方向,平均深度映射為播放的重復頻率,面積大小映射為聲音的強度;

[0034] S2.4B、計算步驟S2.3B中幾何圖形中心對應的來波方向的頭部傳輸函數,將其對應的激勵音頻放大至其對應的聲音強度,并按其對應的重復頻率進行復制,最后用上述頭部傳輸函數對放大復制后的激勵音頻進行濾波,得到預設時長的雙聲道音頻信號;

[0035] S2.5B、若S2.2B中得到的所有幾何圖形均已轉換為音頻信號,則轉換結束,否則轉步驟S2.3B。

[0036] 進一步地,所述的步驟S2中注視區域所覆蓋的任一前景物體采用以下方法轉換為音頻信號:

[0037] S2.1C、提取上述前景物體的邊緣;

[0038] S2.2C、選取一個前景物體邊緣中的一個像素點作為起點;

[0039] S2.3C、將上述像素點的圖像坐標轉換為聲場的來波方向,深度值轉換為聲音強度;

[0040] S2.4C、計算上述像素點所對應的來波方向的頭部傳輸函數,將預設的激勵音頻放大至像素點對應的聲音強度,用頭部傳輸函數對其進行濾波,從而得到預設時長的雙聲道音頻信號;

[0041] S2.5C、按順時針或逆時針順序選擇上述邊緣的下一像素點,若該點為起點,則此前景物體的邊緣轉換完畢,否則轉步驟S2.3C。

[0042] 進一步地,所述的步驟S3中被標注的運動前景物體采用以下方法轉換為音頻信號:

[0043] S3.1、計算運動前景物體中心坐標的運動軌跡;

[0044] S3.2、將運動軌跡起點的坐標轉換為聲場的來波方向,深度值映射為播放的重復頻率,運動物體的面積大小映射為聲音強度;

[0045] S3.3、計算上述來波方向對應的頭部傳輸函數,將預設的激勵音頻放大至像素點對應的聲音強度,并按其對應的重復頻率進行復制,最后用上述頭部傳輸函數對放大復制后的激勵音頻進行濾波,得到預設時長的雙聲道音頻信號;

[0046] S3.4、若當前點為上述運動軌跡的終點,則轉換結束,否則選取下一軌跡點,并將其坐標轉換為聲場的來波方向,深度值映射為播放的重復頻率,運動物體的面積大小映射為聲音強度,轉步驟S3.3。

[0047] 進一步地,所述的步驟S4中任一非注視區域的前景物體采用以下方法轉換為音頻信號:

[0048] S4.1、將上述非注視區域中前景物體的中心坐標轉換為聲場的來波方向,深度值映射為播放的重復頻率,運動物體的面積大小映射為聲音強度;

[0049] S4.2、計算上述來波方向對應的頭部傳輸函數,將預設的激勵音頻放大至像素點對應的聲音強度,并按其對應的重復頻率進行復制,最后用上述頭部傳輸函數對放大復制后的激勵音頻進行濾波,得到預設時長的雙聲道音頻信號。

[0050] 非注視區域有多個前景物體,每個前景物體采用相同的步驟處理。

[0051] 進一步地,所述的幾何圖形集合包括矩形、橢圓形、梯形和三角形。

[0052] 進一步地,所述的步驟S2.2B具體如下:

[0053] 將幾何圖形集合中的圖形單獨或組合后與前景物體進行擬合,以擬合誤差最小為目標函數,采用動態規劃求解出最佳圖形組合。

[0054] 進一步地,所述的將運動軌跡起點的深度值映射為播放的重復頻率的過程如下:

[0055] 預先設置某一區間深度值對應的播放重復頻率,得到深度值與播放重復頻率的分段映射表,根據上述分段映射表查找運動軌跡點深度對應的播放重復頻率。

[0056] 本發明相對于現有技術具有如下的優點及效果:

[0057] 1、本發明利用人類對動靜態物體的視覺注意特性對視頻圖像進行簡化,并根據其重要性分別采用精度不同的聽覺顯示技術進行播放,可以在避免信息過載的同時,為使用者提供更多的環境信息。

[0058] 2、本發明在對視頻圖像簡化的同時,還對行進路線上非注意區域的障礙物和運動物體進行檢測,可以更好地保證使用者安全。

[0059] 3、本發明基于人類視覺的感知特性來處理視-聽覺轉換,比現有技術更符合視覺的使用習慣,使用起來更方便和自然。

技術要求書

1.一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的視-聽覺轉換導盲方法包括下列步驟:S1、從輸入視頻流中采集RGB彩色圖像和深度圖像,并基于RGBD圖像,對前景物體和背景物體進行劃分,其中,RGBD圖像為RGB彩色圖像和深度圖像;S2、設置RGBD圖像中的注視區域,標注出注視區域所覆蓋的前景物體,并將其轉換為第一音頻信號;S3、根據采集的視頻信號,將當前時間的RGBD圖像與其前后數幀的RGBD圖像作對比,檢測并標注出RGBD圖像中平均深度值最小的M個運動前景物體,然后將被標注的運動前景物體轉換為第二音頻信號,其中M為預設的常數;S4、從RGBD圖像的非注視區域中提取前景物體,在提取的前景物體中標注出平均深度值最小的N個前景物體,然后將被標注的前景物體轉換為第三音頻信號,其中N為預設的常數;S5、將得到的第一音頻信號、第二音頻信號、第三音頻信號按預設順序對使用者播放。

2.根據權利要求1所述的一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的步驟S1過程如下:S1.1、基于深度圖像計算深度梯度圖像和法向量梯度圖像,基于RGB彩色圖像計算彩色梯度圖像;S1.2、對上述深度梯度圖像、法向量梯度圖像和彩色梯度圖像的每幅圖像進行處理,提取圖像中所有極小值的深度,刪除深度小于預先指定閾值的極小值點,只保留深度大于預先指定閾值的極小值點;S1.3、將步驟S1.2所得的三幅圖像進行與操作,得到標記圖像;S1.4、利用標記圖像對彩色梯度圖像進行修正,使彩色梯度圖像只在標記處具有極小值,不在標記處的像素點不具有極小值;S1.5、在修正后的彩色梯度圖像上進行分水嶺分割;S1.6、根據深度圖像判斷步驟S1.5分割結果中物體遮擋關系,將被遮擋物體作為背景物體,未被遮擋的物體作為前景物體。

3.根據權利要求1所述的一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的步驟S2中注視區域所覆蓋的任一前景物體采用以下方法轉換為音頻信號:S2.1A、將前景物體中每個像素點的坐標映射為聲場的來波方向,深度值映射為聲音強度,來波方向采用以下公式計算:其中φ和θ分別為來波方向的仰角和方向角,x和y為像素點對應的圖像坐標,x 和y 分0 0別為來波方向的仰角和方向角為0時對應的圖像坐標,Θ和Ξ分別為攝像頭視場仰角和方向角變化范圍的大小,深度值采用下式映射為聲音強度N =10Alog (4π(d -d)2+1)??? (3)f 10 max其中N 為映射后的聲音強度,d 為攝像頭所能識別最大深度值,d為像素點的深度值,Af max為預設的增益;S2.2A、計算每個像素點所對應的來波方向的頭部傳輸函數,將預設的激勵音頻放大至像素點對應的聲音強度,用頭部傳輸函數對其進行濾波,從而得到預設時長的雙聲道音頻信號;S2.3A、按預設的順序逐點計算上述前景物體的像素對應的雙聲道音頻信號,直至所有像素計算完畢。

4.根據權利要求1所述的一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的步驟S2中注視區域所覆蓋的任一前景物體采用以下方法轉換為音頻信號:S2.1B、預設所使用的幾何圖形集合,每個幾何圖形設定其對應的激勵音頻;S2.2B、將前景物體的輪廓用幾何圖形集合中幾何圖形的組合進行近似;S2.3B、按預設的順序選擇組成上述前景物體的一個幾何圖形,將其中心的圖像坐標轉換為聲場的來波方向,平均深度映射為播放的重復頻率,面積大小映射為聲音的強度;S2.4B、計算步驟S2.3B中幾何圖形中心對應的來波方向的頭部傳輸函數,將其對應的激勵音頻放大至其對應的聲音強度,并按其對應的重復頻率進行復制,最后用上述頭部傳輸函數對放大復制后的激勵音頻進行濾波,得到預設時長的雙聲道音頻信號;S2.5B、若S2.2B中得到的所有幾何圖形均已轉換為音頻信號,則轉換結束,否則轉步驟S2.3B。

5.根據權利要求1所述的一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的步驟S2中注視區域所覆蓋的任一前景物體采用以下方法轉換為音頻信號:S2.1C、提取上述前景物體的邊緣;S2.2C、選取一個前景物體邊緣中的一個像素點作為起點;S2.3C、將上述像素點的圖像坐標轉換為聲場的來波方向,深度值轉換為聲音強度;S2.4C、計算上述像素點所對應的來波方向的頭部傳輸函數,將預設的激勵音頻放大至像素點對應的聲音強度,用頭部傳輸函數對其進行濾波,從而得到預設時長的雙聲道音頻信號;S2.5C、按順時針或逆時針順序選擇上述邊緣的下一像素點,若該點為起點,則此前景物體的邊緣轉換完畢,否則轉步驟S2.3C。

6.根據權利要求1所述的一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的步驟S3中被標注的運動前景物體采用以下方法轉換為音頻信號:S3.1、計算運動前景物體中心坐標的運動軌跡;S3.2、將運動軌跡起點的坐標轉換為聲場的來波方向,深度值映射為播放的重復頻率,運動物體的面積大小映射為聲音強度;S3.3、計算上述來波方向對應的頭部傳輸函數,將預設的激勵音頻放大至像素點對應的聲音強度,并按其對應的重復頻率進行復制,最后用上述頭部傳輸函數對放大復制后的激勵音頻進行濾波,得到預設時長的雙聲道音頻信號;S3.4、若當前點為上述運動軌跡的終點,則轉換結束,否則選取下一軌跡點,并將其坐標轉換為聲場的來波方向,深度值映射為播放的重復頻率,運動物體的面積大小映射為聲音強度,轉步驟S3.3。

7.根據權利要求1所述的一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的步驟S4中任一非注視區域的前景物體采用以下方法轉換為音頻信號:S4.1、將上述非注視區域中前景物體的中心坐標轉換為聲場的來波方向,深度值映射為播放的重復頻率,運動物體的面積大小映射為聲音強度;S4.2、計算上述來波方向對應的頭部傳輸函數,將預設的激勵音頻放大至像素點對應的聲音強度,并按其對應的重復頻率進行復制,最后用上述頭部傳輸函數對放大復制后的激勵音頻進行濾波,得到預設時長的雙聲道音頻信號。

8.根據權利要求4所述的一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的幾何圖形集合包括矩形、橢圓形、梯形和三角形。

9.根據權利要求4所述的一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的步驟S2.2B具體如下:將幾何圖形集合中的圖形單獨或組合后與前景物體進行擬合,以擬合誤差最小為目標函數,采用動態規劃求解出最佳圖形組合。

10.根據權利要求6或7所述的一種基于視覺注意特性的視-聽覺轉換導盲方法,其特征在于,所述的將運動軌跡起點的深度值映射為播放的重復頻率的過程如下:預先設置某一區間深度值對應的播放重復頻率,得到深度值與播放重復頻率的分段映射表,根據上述分段映射表查找運動軌跡點深度對應的播放重復頻率。

說明書附圖

圖1

圖2

圖3

圖4

圖5

圖6

圖7