説明

聴覚臨場感評価装置及び聴覚臨場感評価プログラム

【課題】聴覚臨場感を客観的に評価することが可能な聴覚臨場感評価装置を提供する。
【解決手段】聴覚臨場感評価装置40は、計測された二つの音響信号を周波数帯域ごとに分割する音響信号分割部41と、分割された二つの音響信号を用いて、二つの前記音響信号に関する相互相関関数を周波数帯域ごとに算出する相互相関関数算出部42と、相互相関関数を、二つの音響信号のラグと、周波数帯域と、をフレームの座標軸とする二次元動画像の輝度、色相及び彩度のいずれかに変換することによって動画像を生成する動画像生成部44と、動画像の複数のフレームを用いて動画像の移動ベクトルを算出することによって、音像の移動ベクトルを算出する音像移動ベクトル算出部45と、音像の移動ベクトルに基づいて、音像の移動ベクトルが大きいほど聴覚臨場感評価値が大きくなるように当該聴覚臨場感評価値を算出する聴覚臨場感評価値算出部46と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号に基づいて聴覚における臨場感を評価する聴覚臨場感評価装置及び聴覚臨場感評価プログラムに関する。
【背景技術】
【0002】
複数話者が存在する場合の音声認識の前処理、ロボットの自律運動制御等に有用な技術として、音源方向の推定に関する研究が行われてきた(非特許文献1参照)。
かかる音源方向の推定技術は、多チャンネルマイクロホンによって構成されるマイクロホンアレー信号処理を行うものであり、複数のマイクロホンを配置するため、大規模な装置が必要であった。
【0003】
一方、人間は左右の耳で聞こえる2チャネルの音響信号を用いて十分な精度の音源方向の推定を実現しており、これを模して、2チャネルの音響信号を用いて音源方向の推定を行う研究も行われている(非特許文献2参照)。
かかる2チャネルの音響信号を用いた音源方向の推定技術は、装置の小型化を図ることができるが、情報量が少ないため、推定の精度を確保するためには複雑な信号処理が必要であった(非特許文献3参照)。
【0004】
また、従来の2チャネルの音響信号を用いた音源方向の推定技術は、一つの音源の方向しか推定することができず、また、推定対象が静止音源に限られていた(特許文献1参照)。
すなわち、従来の音源方向の推定技術は、高精度であることを目指すが故に装置として大規模になりがちで実時間処理が困難である上、一つの音源の方向しか推定することができないという問題を有していた。
【0005】
一方、符号化された音に対する客観的な評価法として、PEAQ(Perceptual Evaluation of Audio Quality)が開発されており、かかる評価法は、ITU(International Telecommunications Union:国際電気通信連合)によって規格化されている(ITU-R BS. 1387)。
かかる評価法は、ヒトの聴覚末梢系を模倣しているが、聴覚中枢系の部分に関しては、簡易なニューラルネットワークで代用している。
【0006】
また、ヒトが感じる音声品質の客観的な評価法として、特許文献2に記載された評価法が存在する。かかる評価法は、基準となる音に関する劣化度合いを客観的に評価する手法である。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平5−87903号公報
【特許文献2】特開2004−172753号公報
【非特許文献】
【0008】
【非特許文献1】Arthur N. Popper、Richard R. Fay、Eds., 「Sound Source Localization」、Springer Handbook of Auditory Research、2005年、Springer、New York
【非特許文献2】永田仁史、「2チャネル信号に基づく到来音方向推定の計算モデル」、日本比較生理生化学会、2010年、第27巻、第1号、p.10-18
【非特許文献3】Nicoleta Roman、DeLiang Wang、「Binaural Tracking of Multiple Moving Sources」、IEEE Transactions on Audio、Speech, and Language Processing、2008年、Vol. 16、No. 4、p. 728-739
【発明の概要】
【発明が解決しようとする課題】
【0009】
収音再生技術の発展に伴い、22.2マルチチャネル音響システム、Wave Field Synthesis等といった高い臨場感を実現可能な音響システムが多数開発されており、音の品質の劣化度合いではなく、品質の向上度合いを客観的に評価することが求められている。
【0010】
ここで、K. Ozawa、Y. Chujo、Y. Suzuki、T. Sone、「Contents which yield high auditory-presence in sound reproduction」、Kansei Engineering International、2002年、Vol. 3、No. 4、p. 25-30、及び、K. Ozawa、Y. Chujo、「Content Presence vs. System Presence in Audio Reproduction Systems」、Proc. of the Second International Symposium on Universal Communication (ISUC2008)、2008年、p. 50-55に記載されているように、音響機器によって再生された音響信号による音像が、聴取者に対して相対的に移動している程、臨場感があると聴取者が感じることが明らかになっている。
【0011】
本願発明者は、鋭意研究の結果、音の品質の向上度合いを客観的に評価するためには、聴覚における臨場感、すなわち聴覚臨場感を定量化して客観的に評価すればよいのではないかという考えに至った。
【0012】
本発明は、前記した事情に鑑みて創案されたものであり、聴覚臨場感を客観的に評価することが可能な聴覚臨場感評価装置及び聴覚臨場感評価プログラムを提供することを課題とする。
【課題を解決するための手段】
【0013】
前記課題を解決するため、本発明の聴覚臨場感評価装置は、二つのマイクによって計測された二つの音響信号に基づいて聴覚臨場感を評価する聴覚臨場感評価装置であって、音響信号分割部と、相互相関関数算出部と、動画像生成部と、音像移動ベクトル算出部と、聴覚臨場感評価値算出部と、を備えることを特徴とする。
【0014】
かかる構成によると、音響信号分割部によって、計測された前記二つの音響信号を例えばある一定時間ごとにある区間長だけ切り出し、周波数帯域ごとに分割し、相互相関関数算出部によって、分割された前記二つの音響信号を用いて、前記二つの前記音響信号に関する相互相関関数を前記周波数帯域ごとに算出する。そして、動画像生成部によって、算出された前記相互相関関数を、前記二つの音響信号のラグと、前記周波数帯域と、をフレームの座標軸とする二次元動画像の輝度、色相及び彩度のいずれかに変換することによって動画像を生成し、音像移動ベクトル算出部によって、生成された前記動画像の複数のフレームを用いて前記動画像の移動ベクトルを算出することによって、前記音像の移動ベクトルを算出し、聴覚臨場感評価値算出部によって、算出された前記音像の移動ベクトルに基づいて、前記音像の移動ベクトルが大きいほど聴覚臨場感評価値が大きくなるように当該聴覚臨場感評価値を算出することができる。
【0015】
前記動画像生成部は、前記相互相関関数を前記輝度に変換する構成であってもよい。かかる構成によると、相互相関関数と相関する輝度成分を有するモノクロ動画像を生成し、生成されたモノクロ動画像の移動ベクトルから聴覚臨場感評価値を算出することができる。
【0016】
聴覚臨場感評価装置は、音圧レベル算出部をさらに備える構成であってもよい。
【0017】
かかる構成によると、音圧レベル算出部によって、分割された前記二つの音響信号を用いて、前記二つの音響信号の音圧レベルを前記周波数帯域ごとに算出し、動画像生成部によって、算出された前記音圧レベルを、前記輝度、前記色相及び前記彩度のうち、前記相互相関関数が変換されたもの以外のいずれかに変換することによって前記動画像を生成することができる。すなわち、聴覚臨場感評価装置は、より多くのパラメータを用いて聴覚臨場感評価値を算出するので、聴覚臨場感の算出精度が向上する。
【0018】
前記動画像生成部は、前記相互相関関数を前記輝度に変換するとともに、前記音圧レベルを前記彩度に変換する構成であってもよい。かかる構成によると、相互相関関数と相関する輝度度成分及び音圧レベルと相関する彩度成分を有するカラー動画像を生成し、生成されたカラー動画像の移動ベクトルから聴覚臨場感評価値を算出することができる。
【0019】
また、前記音圧レベル算出部は、前記音圧レベルの差である音圧レベル差を前記周波数帯域ごとに算出し、前記動画像生成部は、算出された前記音圧レベル差を、前記輝度、前記色相及び前記彩度のうち、前記相互相関関数及び前記音圧が変換されたもの以外に変換することによって前記動画像を生成する構成であってもよい。すなわち、聴覚臨場感評価装置は、より多くのパラメータを用いて聴覚臨場感評価値を算出するので、聴覚臨場感の算出精度が向上する。
【0020】
さらに、前記動画像生成部は、前記相互相関関数を前記輝度に変換し、前記音圧レベルを前記彩度に変換するとともに、前記音圧レベル差を前記色相に変換する構成であってもよい。かかる構成によると、相互相関関数と相関する輝度成分、音圧レベルと相関する彩度成分、及び音圧レベル差と相関する色相成分を有するカラー動画像を生成し、生成されたカラー動画像の移動ベクトルから聴覚臨場感評価値を算出することができる。
【0021】
前記相互相関関数算出部は、区間長の異なる複数の区間長別相互相関関数を算出し、算出された複数の区間長別相互相関関数に基づいて前記相互相関関数を算出する構成であってもよい。単一の区間長の相互相関関数のみを算出した場合には、偶々相関性が高く算出される等相互相関関数の値と実際の音像位置とが正確に一致しない場合があるが、かかる構成によると、複数の区間長を用いることで、音像位置の誤検出を防ぐことができる。
【0022】
前記音像移動ベクトル算出部は、前記動画像の三以上のフレームを用いて前記動画像の移動ベクトルを算出する構成であってもよい。かかる構成によると、移動ベクトルの算出精度が向上する。
【0023】
また、本発明は、コンピュータを前記した聴覚臨場感評価装置として機能させる聴覚臨場感評価プログラムとしても具現化可能である。
【発明の効果】
【0024】
本発明によれば、聴覚臨場感を客観的に評価することができる。
【図面の簡単な説明】
【0025】
【図1】本発明の実施形態に係る聴覚臨場感評価システムを示すブロック図である。
【図2】一対のマイクロホンによって計測された音響信号を示すグラフである。
【図3】(a)は相互相関関数を示すグラフであり、(b)は、相互相関関数の値と輝度との関係を示す図であり、(c)は、相互相関関数から生成された画素列を示す図である。
【図4】(a)は音圧レベル差を示すグラフであり、(b)は音圧レベル差による重みを示すグラフであり、(c)は画素列に対する重み付けを示す図である。
【図5】(a)は動画像を示す図であり、(b)は移動ベクトルを示す図である。
【図6】(a)〜(d)は、音像移動量の算出手法を説明するための図である。
【図7】(a)(b)は、単一音像の移動ベクトルの算出例を説明するための図である。
【図8】(a)(b)は、複数音像の移動ベクトルの算出例を説明するための図である。
【発明を実施するための形態】
【0026】
以下、本発明の実施形態について、本発明を再生音場の評価に適用した場合を例にとり、適宜図面を参照しながら説明する。同様の部分には同一符号を付し、重複する説明を省略する。本発明において、「音像」は、聴取者が音源の存在を知覚する位置を指し、ステレオスピーカ等によって具現化された仮想的な音源の位置であったり、実際の音源の位置であったりする。また、本発明において、「聴覚臨場感」は、聴取者が聴覚において感じる臨場感を指す。従来、臨場感は、AV機器の性能を語る際の重要なキーワードであるにも関わらず、曖昧な意味で用いられていたのに対し、本発明の聴覚臨場感推定装置は、聴覚臨場感評価値を定量的かつ客観的に推定することができる。
【0027】
再生側の機器としては、ステレオスピーカ、5.1チャネルシステム、ヘッドホン等があるが、聴取者は、最終的に両耳に到達した音響信号によって聴覚臨場感を知覚する。したがって、本発明の聴覚臨場感評価装置は、聴取者の両耳と同様に、2チャネルの音響信号に基づいて音像の移動量を推定することとする。
【0028】
図1に示すように、本発明の実施形態に係る聴覚臨場感評価システム1は、再生側の機器として、記憶媒体再生装置10と、スピーカ群20と、を備えている。記憶媒体再生装置10は、図示しない記憶媒体に記憶されたデータを読み取り、ステレオスピーカ、5.1チャネルシステム、ヘッドホン等からなるスピーカ群20を介して音響信号を再生する。
【0029】
本発明の実施形態に係る聴覚臨場感評価システム1は、評価側の機器として、一対のマイクロホン30L,30Rと、聴覚臨場感評価装置40と、通知装置50と、を備える。
【0030】
<マイクロホン>
一対のマイクロホン30L,30Rは、左右に配置された2チャネル構造を呈し、スピーカ群20で再生された音響信号を計測し、計測された2チャネルの音響信号を聴覚臨場感評価装置40へ出力する。本明細書では、スピーカ群20で再生された音波だけでなく、当該音波のマイクロホン30L,30Rによる計測結果も音響信号と記載する。
【0031】
<聴覚臨場感評価装置>
聴覚臨場感評価装置40は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read-Only Memory)、入出力回路等から構成されており、機能部として、音響信号分割部41と、相互相関関数算出部42と、音圧レベル算出部43と、動画像生成部44と、音像移動ベクトル算出部45と、聴覚臨場感評価値算出部46と、を備える。
【0032】
≪音響信号分割部≫
音響信号分割部41は、一対のマイクロホン30L,30Rから出力された2チャネルの音響信号をある一定時間ごとにある区間長だけ取得し、取得された2チャネルの音響信号をM個のバンドパスフィルタによって周波数帯域ごとにM個に分割し、分割された音響信号を相互相関関数算出部42及び音圧レベル算出部43へ出力する。
【0033】
本実施形態において、音響信号分割部41は、5個のオクターブバンドパスフィルタを備えており、マイクロホン30Lから出力された音響信号Lを、中心周波数が125[Hz]である周波数帯域fの第一の音響信号L、中心周波数が250[Hz]である周波数帯域fの第二の音響信号L、中心周波数が500[Hz]である周波数帯域fの第三の音響信号L、中心周波数が1000[Hz]である周波数帯域fの第四の音響信号L、中心周波数が2000[Hz]である周波数帯域fの第五の音響信号Lに分割する。
【0034】
同様に、音響信号分割部41は、マイクロホン30Rから出力された音響信号を、中心周波数が125[Hz]である周波数帯域fの第一の音響信号R、中心周波数が250[Hz]である周波数帯域fの第二の音響信号R、中心周波数が500[Hz]である周波数帯域fの第三の音響信号R、中心周波数が1000[Hz]である周波数帯域fの第四の音響信号R、中心周波数が2000[Hz]である周波数帯域fの第五の音響信号Rに分割する。
【0035】
なお、音響信号の分割数は、5個に限定されず、対象とする音像の種類に応じて適宜変更可能である。例えば、自動車騒音のように広帯域な雑音成分を含む音を対象とする場合には、可聴周波数帯域(20[Hz]〜20[kHz])を1/1オクターブバンド幅で区切ったM=10程度とすることができる。また、楽器音のように高調波構造を有する音を対象とする場合には、1/10オクターブバンド幅で区切ったM=40程度とすることができる。また、汎用的なモデルのバンドパスフィルタとして、50チャネル程度の聴覚フィルタ(聴覚末梢系の特性を考慮したバンドパスフィルタであり、代表的なものにROEXフィルタ、Gamma−toneフィルタ等がある)を採用することによって、聴覚特性を反映した分割を行うことができる。
【0036】
≪相互相関関数算出部≫
相互相関関数算出部42は、音響信号分割部41から出力された各音響信号L〜L,R〜Rを取得し、取得された各音響信号L〜L,R〜Rに基づいて、周波数帯域ごとの相互相関関数を算出し、算出された相互相関関数を動画像生成部44へ出力する。
【0037】
本実施形態において、相互相関関数算出部42は、算出周期ごと(時刻t,t,…)に、音響信号L,Rの相互相関(CC:Cross Correlation)関数を算出する。
相互相関関数算出部42は、図2(a)に示すように、時刻tを先頭として区切った区間長(時間窓幅ともいう)Tの音響信号L,Rを抽出して抽出された音響信号L,Rの相関値を算出するとともに、音響信号Rのみをラグmずつずらして区切って抽出し直して相関値を算出することを繰り返すことによって、図3(a)の下段に示すように、ラグmを変数とする相互相関関数を算出する。相互相関関数は、−1から+1までの値をとり、音響信号L,Rが一致した場合に+1となり、音響信号L,Rの波形が異なるほど値が小さくなる。本発明において、ラグmは、音響信号L,Rにおける相互相関関数を算出するための区間のずれ(時間差)である。
【0038】
前記した時刻t,t,…を先頭として区切った区間長T、p番目の算出周期、q番目の周波数帯域における時刻nの関数である音響信号Lp,q(n),Rp,q(n)に対する相互相関関数rp,q(m)は、下記式によって算出される。
【0039】
【数1】

【0040】
ここで、σp,q,σp,qは、それぞれLp,q(n),Rp,q(n)の標準偏差である。また、Nは、相互相関関数を算出する期間の長さTに対応する離散時間である。
【0041】
なお、区間長は、対象とする音像の種類に応じて適宜変更可能である。例えば、定常的な騒音を対象とする場合には、100〜200[ms]程度とし、時間的な変化が大きい楽器音を対象とする場合には、10〜20[ms]程度とすることができる。かかる区間長は、相互相関関数算出部42に予め記憶されていてもよく、聴覚臨場感評価装置40に接続されたキーボード、マウス等からなる入力装置(図示せず)をユーザが操作することによって設定される構成であってもよい。
【0042】
また、算出周期(時刻t,t,…の間隔)と、区間長とは、一致しても一致しなくてもよい。
【0043】
また、相互相関関数算出部42は、聴覚臨場感評価値算出部46によって算出された音像の移動量(移動ベクトルの大きさ)に基づいて、算出周期を変更する構成であってもよい。例えば、音像の移動量が小さい場合には、算出周期を長く設定することによって演算量を削減することができる。この場合において、二次元動画像の一般的なフレームレートである1/30[s]を算出周期として相互相関関数を算出する場合であっても、区間長を1/30[s]よりも長く設定し、音響信号Rの抽出範囲をオーバーラップさせながら相互相関関数を算出することができる。相互相関関数算出部42には、音像の移動量と、相互相関関数の算出周期と、の関係がデータベースとして予め記憶されており、相互相関関数算出部42は、聴覚臨場感評価値算出部46によって算出された音像の移動量を用いてデータベースを検索することによって、音像の移動量の対応する算出周期を読み出し、読み出された算出周期に基づいて相互相関関数を算出する。
【0044】
また、相互相関関数算出部42は、区間長の異なる複数の区間長別相互相関関数を算出し、算出された複数の区間長別相互相関関数に基づいて相互相関関数を算出する構成であってもよい。例えば、相互相関関数算出部42には、区間長T,T,Tが予め記憶されており、相互相関関数算出部42は、図2(b)に示すように、区間長Tにおける区間長別相互相関関数を算出するとともに、区間長Tよりも長い区間長T,Tにおける区間長別相互相関関数を算出し、算出された3個の区間長別相互相関関数の相加平均を算出することによって、相互相関関数を算出することができる。
【0045】
相互相関関数算出部42は、他の周波数帯域f〜fに関しても同様に相互相関関数を算出する。
【0046】
≪音圧レベル算出部≫
音圧レベル算出部43は、音響信号分割部41から出力された各音響信号L〜L,R〜Rを取得し、取得された各音響信号L〜L,R〜Rに基づいて、周波数帯域ごとの音圧レベル、及び、左右の音響信号の音圧の差である音圧レベル差を算出し、算出された音圧レベル及び音圧レベル差を動画像生成部44へ出力するとともに、算出された音圧レベルを聴覚臨場感評価値算出部46へ出力する。
【0047】
≪動画像生成部≫
動画像生成部44は、相互相関関数算出部42から出力された周波数帯域ごとの相互相関関数と、音圧レベル算出部43から出力された音圧レベル及び音圧レベル差に基づいて、動画像(より詳細には、二次元動画像)を生成し、生成された動画像を音像移動ベクトル算出部45へ出力する。
【0048】
図5(a)に示すように、動画像は、時刻tにおけるフレーム100、時刻tにおけるフレーム200、時刻tにおけるフレーム300、時刻tにおけるフレーム400、…から構成されており、動画像の一のフレームは、縦軸を周波数(周波数帯域f〜f)、横軸をラグmとする平面である。本実施形態では、一のフレームは、縦5×横8の画素から構成されており、動画像生成部44は、相互相関関数を対応する画素の輝度、音圧レベルを対応する画素の彩度、音圧レベル差を対応する画素の色相に変換することによって、動画像を生成する。
【0049】
例えば、相互相関関数のみを用いて動画像を生成する場合には、動画像生成部44は、相互相関関数が−1の場合に最低輝度となり、相互相関関数が+1の場合に最高輝度となるように各画素の画素データを生成し(図3(b)参照)、かかる画素データによって構成された一連の画像からなる動画像を生成する。ここで、動画像生成部44は、図3(a)の下段に示す周波数帯域fの相互相関関数から、図3(c)の下段に示す輝度を有する画素列110を生成し、図3(a)の上段に示す周波数帯域fの相互相関関数から、図3(c)の上段に示す輝度を有する画素列120を生成する。
【0050】
また、動画像生成部44は、図4(a)に示す周波数帯域ごとの音響信号L(又はL〜L),R(又はR〜R)の音圧レベル210,220の音圧レベル差230に基づいて、図4(b)に示すラグmごとの重みを算出し、算出された重みによって重み付けされた輝度を有する画素列110’を生成する構成であってもよい。
【0051】
相関の高い音響信号が左右の耳にある音圧レベル差で到来した場合、左右のレベル差によって、正面を0度として±90度のいずれかの方向に音像が知覚される。動画像生成部44は、かかる音圧レベル差と音像の知覚方向との関係を予め記憶しておき、音圧レベル差230を用いてかかる関係を参照することによって、何度の方向に音像があるかを推測することができる。動画像生成部44は、音像があると推定される方向に重みとして1を設定し、そこから遠ざかる方向につれて、重みとして小さい値を設定する。
【0052】
一方、相互相関関数の値が最大になるラグmが音像のある方向であるから、ラグmと音像の方向とは一対一に対応する。したがって、動画像生成部44は、重み付けによって、音圧レベル差230に基づいて音像があると推定された付近の相互相関関数の値はそのままにし、音圧レベル差230に基づいて音像がないと推定された付近の相互相関関数の値は小さくなるようにする。こうすることで、正弦波のように相互相関関数が1となるラグが数か所でてくるような場合でも、動画像生成部44は、音圧レベル差230に基づいて音像の方向を判定することができる。
【0053】
また、動画像生成部44は、相互相関関数を輝度又は色相に変換して動画像を生成する場合には、相互相関関数がマイナスの部分を0とみなして動画像を生成する構成であってもよい。これは、音像が1個の場合には、相互相関関数が最大となるラグに対応する位置が音像の位置と一致するためである。
【0054】
≪音像移動ベクトル算出部≫
音像移動ベクトル算出部45は、動画像生成部44から出力された動画像の複数のフレームを用いて動画像の移動ベクトルを算出することによって、音像の移動ベクトルを算出し、算出された音像の移動ベクトルを聴覚臨場感評価値算出部46へ出力する。動画像の移動ベクトルの算出手法としては、オプティカルフロー、パターンマッチング、特徴量追従アルゴリズム等といった、画像情報処理のための公知のアルゴリズムを適宜採用することができる。
【0055】
音像移動ベクトル算出部45は、3個以上(本実施形態では、時刻t〜tに対応する4個)のフレームを蓄積し、蓄積されたフレームの輝度、色相及び彩度に基づいて、周波数帯域ごとの移動ベクトルを算出する。詳細には、音像移動ベクトル算出部45は、図5(b)に示すように、時刻tにおける画素列111(ここでは、説明のため、1列の画素数を12個とする。)、時刻tにおける画素列211、時刻tにおける画素列311を用いて、周波数帯域fにおける移動ベクトルを算出するとともに、他の周波数帯域f〜fについても同様の処理を行う。ここで、時刻t,tの2個のフレームを用いて移動ベクトルを算出する場合には、音像移動ベクトル算出部45は、時刻tにおける画素列111の左から4個目の画素が、時刻tにおいても画素列211の左から4個目に留まっていると誤算出するおそれがある(実線の矢印)。そのため、音像移動ベクトル算出部45は、時刻tにおける画素列311をさらに用いることによって、時刻tにおける画素列111の左から1〜3個目の画素が、時刻tにおける画素列211では左から5〜7個目、時刻tにおける画素列では左から10〜12個目へと移動していると推定するため、時刻tにおける画素列111の左から4個目の画素が、時刻tにおいては画素列211の左から8個目へ移動していると算出することができる(点線の矢印)。このように、3個以上のフレームを用いて移動ベクトルを算出することによって、移動ベクトルの誤算出を防ぐことができる。
【0056】
また、音像移動ベクトル算出部45は、周波数特性が変動する音像に対して、周波数帯域ごとの音圧レベルの変化に応じて、周波数帯域を跨ぐように音像の移動ベクトルを算出してもよい。ここで、音像移動ベクトル算出部45は、音圧レベルの周波数成分の時間変化に基づいて、周波数、時間及び音圧レベルを軸とする三次元空間における音圧レベルのピーク(尾根部分)が周波数の軸上でシフトした場合に、音像の周波数特性が変動していると判定し、周波数帯域を跨ぐように音像の移動ベクトルを算出することができる。
【0057】
≪聴覚臨場感評価値算出部≫
聴覚臨場感評価値算出部46は、音像移動ベクトル算出部45から出力された音像の移動ベクトルに基づいて、聴覚臨場感評価値を算出し、通知装置50へ出力する。本実施形態において、聴覚臨場感評価値算出部46は、閾値未満の音像の移動量を切り捨てるとともに、閾値以上の複数の音像の移動量を相加平均することによって、聴覚臨場感評価値を算出することができる。かかる聴覚臨場感評価値は、音像の移動ベクトルが大きいほど、当該聴覚臨場感評価値が大きくなるような値である。
【0058】
聴覚臨場感評価値算出部46は、動画像の周波数帯域ごとの移動ベクトル、すなわち、音像の移動ベクトルに基づいて、周波数帯域ごとの音像移動量を推定し、推定された周波数帯域ごとの音像移動量の最大値を採用する、音像移動量の相加平均を算出する、又は、音像移動量の積算値を算出することによって、全体としての音像移動量を推定する。
【0059】
本実施形態では、聴覚臨場感評価値算出部46は、音像移動量の積算値を採用する。すなわち、聴覚臨場感評価値算出部46は、図6(a)に示すように、前フレームと今フレームにおける各周波数帯域f〜fの移動ベクトルV1a,V1b,V〜Vを算出する。
【0060】
続いて、聴覚臨場感評価値算出部46は、図6(b)に示すように、各周波数帯域f〜fの移動ベクトルを統合する。ここでは、周波数帯域fの移動ベクトルVと周波数帯域fの移動ベクトルVが類似しているため統合されるとともに、周波数帯域fの左の移動ベクトルV1aと周波数帯域fの左の移動ベクトルV1bと周波数帯域fの移動ベクトルVとが類似しているため統合される。
【0061】
ここで、聴覚臨場感評価値算出部46は、二つの移動ベクトルの向きが同じで、大きさがほぼ同じ(例えば、移動ベクトルの大きさの比率が一定範囲内)であれば、二つの移動ベクトルが類似していると判定する構成であってもよく、さらに、二つの移動ベクトルの音圧レベル及び音圧レベル差の少なくとも一方がほぼ同じ(比率が一定範囲内)である場合に、二つの移動ベクトルが類似していると判定する構成であってもよい。
【0062】
続いて、聴覚臨場感評価値算出部46は、図6(c)に示すように、統合後の移動ベクトルV1b(=V1a=V),V,Vの大きさの和(積分値)を算出し、算出結果を音像移動量とする。
【0063】
なお、聴覚臨場感評価値算出部46は、図6(d)に示すように、統合後の移動ベクトルV1b,V,Vを音圧によって補正し、補正後の移動ベクトルV1b’,V’,V’の大きさの和(積分値)を算出し、算出結果を音像移動量とする構成であってもよい。例えば、音圧レベルが大きいほど聴覚臨場感評価値に対する音像の移動ベクトルの寄与度が高くなるように重み付けを行うことによって、聴覚臨場感評価値の推定精度を向上させることができる。
【0064】
続いて、聴覚臨場感評価値算出部46は、今フレームと次フレームにおける音像移動量を算出し、かかる算出を所定フレーム数に達するまで繰り返し、所定フレーム数分の音像移動量の和(積算値)を算出し、算出結果を最終的な音像移動量、すなわち、聴覚臨場感評価値とする。
【0065】
また、聴覚臨場感評価値算出部46は、フレーム数の異なる複数のフレーム数別聴覚臨場感評価値を算出し、算出された複数のフレーム数別聴覚臨場感評価値に基づいて聴覚臨場感評価値を算出する構成であってもよい。
例えば、聴覚臨場感評価値算出部46は、3個のフレームにおけるフレーム数別聴覚臨場感評価値と、4個のフレームにおけるフレーム数別聴覚臨場感評価値と、を算出し、算出された2個のフレーム数別聴覚臨場感評価値の相加平均を算出することによって、聴覚臨場感評価値を算出することができる。
【0066】
また、音像が1個の場合には、聴覚臨場感評価値算出部46は、輝度(すなわち、相互相関関数)が最大となるラグmに基づいて、ある時刻における音像の方向(方位角)を推定することもできる。これは、音像が1個の場合には、相互相関関数が最大となるラグmが、音像から各マイクロホン30L,30Rまでの距離の差と関連するためである。
【0067】
また、聴覚臨場感評価値算出部46は、複数の周波数帯域の音圧レベルが同期して変動している場合には、当該複数の周波数帯域に同じ音像が存在するとみなして音像の移動ベクトルを統合することもできる。かかる構成によると、聴取者が知覚するのに似た音像の移動ベクトルを用いて聴覚臨場感評価値を算出することができる。
【0068】
<通知装置>
通知装置50は、ディスプレイ、スピーカ等からなり、聴覚臨場感評価値算出部46から出力された聴覚臨場感評価値を表示したり音声出力したりすることによって、利用者へ通知する。
【0069】
<動作例>
続いて、本発明の実施形態に係る聴覚臨場感評価装置40の動作例について説明する。まず、音響信号分割部41が、一対のマイクロホン30L,30Rから出力された2チャネルの音響信号を取得し、取得された2チャネルの音響信号を5個のバンドパスフィルタによって周波数帯域が異なる5個の音響信号L〜L,R〜Rに分割する。
【0070】
続いて、相互相関関数算出部42が、各音響信号L〜L,R〜Rに基づいて、周波数帯域ごとの相互相関関数を算出する。
【0071】
続いて、音圧レベル算出部43が、各音響信号L〜L,R〜Rに基づいて、周波数帯域ごとの音圧レベル、及び、左右の音響信号の音圧の差である音圧レベル差を算出し、算出された音圧レベル及び音圧レベル差を動画像生成部44へ出力するとともに、算出された音圧レベルを聴覚臨場感評価値算出部46へ出力する。
【0072】
続いて、動画像生成部44が、相互相関関数と、音圧レベル算出部43から出力された音圧レベル及び音圧レベル差に基づいて、相互相関関数を輝度、音圧レベルを彩度、音圧レベル差を色相とみなした各画素の画素データを生成し、かかる画素データによって構成された一連の画像からなる動画像を生成する。
【0073】
続いて、音像移動ベクトル算出部45が、動画像生成部44から出力された動画像の複数のフレームを用いて動画像の移動ベクトルを算出することによって、音像の移動ベクトルを算出する。
【0074】
続いて、聴覚臨場感評価値算出部46が、音像移動ベクトル算出部45から出力された音像の移動ベクトルに基づいて、聴覚臨場感評価値を算出し、通知装置50へ出力する。
【0075】
<音像の移動ベクトルの算出例>
続いて、本発明の実施形態に係る聴覚臨場感評価装置40の音像移動ベクトル算出部45が、移動する音像の移動ベクトルを実際に算出した例について説明する。
【0076】
ここで、マイクロホン30L,30Rとして、ダミーヘッド(高研社製のSAMRAI)を使用するとともに、スピーカ群20として、単一のスピーカを使用し、このスピーカを、ダミーヘッドを中心とした半径0.5[m]の円上で、左(−90[deg])から右(90[deg])まで、又は右から左まで移動させたときの音響信号をダミーヘッドが検出した。また、音響信号分割部41のサンプリング周波数は44100[Hz]であり、中心周波数125,250,500,1000,2000,4000[Hz]とするオクターブバンドパスフィルタを用いて音響信号分割部41を構成することにより、音響信号を6個の周波数帯域に分割した。
【0077】
相互相関関数算出部42は、相互相関関数の算出周期を1/30[s]、区間長を1/5[s]として相互相関関数を算出した。ここで、ダミーヘッドにおけるマイクロホン30L,30R間の距離は0.18[m]であり、音速は340[m/s]であるため、音響信号がマイクロホン30L,30Rに到達する時間差が最大となる(スピーカが左又は右にある)場合の時間差は、約0.7[ms]となる。そこで、ラグmとしては、0を中心とした±0.7[ms]に相当する部分にのみ着目した。
【0078】
また、音像移動ベクトル算出部45は、相互相関関数の最大値rp−1,q(m)max,rp,q(m)maxを有する画素同士を結ぶ手法を用いて動画像の移動ベクトル、すなわち、音像の移動ベクトルを算出した。
【0079】
≪単一音像の場合≫
単一のスピーカから音響信号としてホワイトノイズを出力した場合、すなわち、単一の音源を用いて一の音像を生成した場合における、計測開始時点において動画像生成部44が生成した画像(フレーム)を図7(a)に示し、現在(途中経過時点)において動画生成部44が生成した画像を図7(b)に示す。図7(b)における矢印は、開始時点から現在までの、周波数帯域ごとの音像の移動ベクトルである。図7(a)(b)を参照すると、全ての周波数帯域において音像が左から右へ移動している様子が分かる。
【0080】
≪複数音像の場合≫
左から右へ移動するスピーカからローパスノイズ(遮断周波数700[Hz])を出力した音響信号と、右から左へ移動するスピーカからハイパスノイズ(遮断周波数1000[Hz])を出力した音響信号と、を合成したものを音響信号分割部41に入力して分析を行った。この場合では、二つの音源を用いて二つの音像を生成している。この場合における、測開始時点において動画像生成部44が生成した画像(フレーム)を図8(a)に示し、現在(途中経過時点)において動画生成部44が生成した画像を図8(b)に示す。図8(b)における矢印は、開始時点から現在までの、周波数帯域ごとの音像の移動ベクトルである。図8(a)(b)を参照すると、低周波数帯域においては音像が左から右へ移動し、高周波数帯域においては音像が右から左へ移動している様子が分かる。
【0081】
本発明の実施形態に係る聴覚臨場感評価装置40は、複数の音像に対して処理を行う場合であっても、音像の方向を用いずに音像の移動量に基づいて聴覚臨場感評価値を算出するので、簡易な処理で聴覚臨場感を客観的に評価することができる。
【0082】
以上、本発明の実施形態について実施形態を参照して説明したが、本発明は前記実施形態に限定されず、本発明の要旨を逸脱しない範囲で適宜設計変更可能である。例えば、音圧レベル算出部43を備えずに、動画像生成部44が相互相関関数を輝度と変換したモノクロの動画像を生成する構成であってもよい。また、動画像生成部44が相互相関関数を輝度、音圧レベルを彩度としたカラーの動画像を生成する構成であってもよい。この場合には、動画像生成部44は、各画素の色相を所定値(例えば、色相値50%)に設定することができる。また、相互相関関数、音圧レベル及び音圧レベル差を、輝度、彩度及び色相のいずれかに変換して動画像を生成する構成であってもよい。
【0083】
また、聴覚臨場感評価装置40は、記憶媒体に記憶されていない音響信号を再生する装置、再生装置ではない実際の音源に対しても、聴覚臨場感評価値を算出することができる。また、音像移動ベクトル算出部45は、複数の周波数帯域の画素列を用いて一つの移動ベクトルを算出することによって、統合された移動ベクトルを算出する構成であってもよく、移動ベクトルごとの画像の特徴量をパターンとして予め記憶しており、パターンマッチングを用いて移動ベクトルを算出する構成であってもよい。また、本発明は、コンピュータを聴覚臨場感評価装置40として機能させる聴覚臨場感評価プログラムとしても具現化可能である。
【符号の説明】
【0084】
1 聴覚臨場感評価システム
30L,30R マイクロホン
40 聴覚臨場感評価装置
41 音響信号分割部
42 相互相関関数算出部
43 音圧レベル算出部
44 動画像生成部
45 音像移動ベクトル算出部
46 聴覚臨場感評価値算出部

【特許請求の範囲】
【請求項1】
二つのマイクロホンによって計測された二つの音響信号に基づいて聴覚臨場感を評価する聴覚臨場感評価装置であって、
計測された前記二つの音響信号を周波数帯域ごとに分割する音響信号分割部と、
分割された前記二つの音響信号を用いて、前記二つの前記音響信号に関する相互相関関数を前記周波数帯域ごとに算出する相互相関関数算出部と、
算出された前記相互相関関数を、前記二つの音響信号のラグと、前記周波数帯域と、をフレームの座標軸とする二次元動画像の輝度、色相及び彩度のいずれかに変換することによって動画像を生成する動画像生成部と、
生成された前記動画像の複数のフレームを用いて前記動画像の移動ベクトルを算出することによって、前記音像の移動ベクトルを算出する音像移動ベクトル算出部と、
算出された前記音像の移動ベクトルに基づいて、前記音像の移動ベクトルが大きいほど聴覚臨場感評価値が大きくなるように当該聴覚臨場感評価値を算出する聴覚臨場感評価値算出部と、
を備えることを特徴とする聴覚臨場感評価装置。
【請求項2】
前記動画像生成部は、前記相互相関関数を前記輝度に変換する
ことを特徴とする請求項1に記載の聴覚臨場感評価装置。
【請求項3】
分割された前記二つの音響信号を用いて、前記二つの音響信号の音圧レベルを前記周波数帯域ごとに算出する音圧レベル算出部をさらに備え、
前記動画像生成部は、算出された前記音圧レベルを、前記輝度、前記色相及び前記彩度のうち、前記相互相関関数が変換されたもの以外のいずれかに変換することによって前記動画像を生成する
ことを特徴とする請求項1に記載の聴覚臨場感評価装置。
【請求項4】
前記動画像生成部は、前記相互相関関数を前記輝度に変換するとともに、前記音圧レベルを前記彩度に変換する
ことを特徴とする請求項3に記載の聴覚臨場感評価装置。
【請求項5】
前記音圧レベル算出部は、前記音圧レベルの差である音圧レベル差を前記周波数帯域ごとに算出し、
前記動画像生成部は、算出された前記音圧レベル差を、前記輝度、前記色相及び前記彩度のうち、前記相互相関関数及び前記音圧が変換されたもの以外に変換することによって前記動画像を生成する
ことを特徴とする請求項3に記載の聴覚臨場感評価装置。
【請求項6】
前記動画像生成部は、前記相互相関関数を前記輝度に変換し、前記音圧レベルを前記彩度に変換するとともに、前記音圧レベル差を前記色相に変換する
ことを特徴とする請求項5に記載の聴覚臨場感評価装置。
【請求項7】
前記相互相関関数算出部は、区間長の異なる複数の区間長別相互相関関数を算出し、算出された複数の区間長別相互相関関数に基づいて前記相互相関関数を算出する
ことを特徴とする請求項1から請求項6のいずれか一項に記載の聴覚臨場感評価装置。
【請求項8】
前記音像移動ベクトル算出部は、前記動画像の三以上のフレームを用いて前記動画像の移動ベクトルを算出する
ことを特徴とする請求項1から請求項7のいずれか一項に記載の聴覚臨場感評価装置。
【請求項9】
二つのマイクロホンによって計測された二つの音響信号に基づいて聴覚臨場感を評価する聴覚臨場感評価プログラムであって、
コンピュータを、
計測された前記二つの音響信号を周波数帯域ごとに分割する音響信号分割部、
分割された前記二つの音響信号を用いて、前記二つの前記音響信号に関する相互相関関数を前記周波数帯域ごとに算出する相互相関関数算出部、
算出された前記相互相関関数を、前記二つの音響信号のラグと、前記周波数帯域と、をフレームの座標軸とする二次元動画像の輝度、色相及び彩度のいずれかに変換することによって動画像を生成する動画像生成部、
生成された前記動画像の複数のフレームを用いて前記動画像の移動ベクトルを算出することによって、前記音像の移動ベクトルを算出する音像移動ベクトル算出部、及び、
算出された前記音像の移動ベクトルに基づいて、前記音像の移動ベクトルが大きいほど聴覚臨場感評価値が大きくなるように当該聴覚臨場感評価値を算出する聴覚臨場感評価値算出部、
として機能させることを特徴とする聴覚臨場感評価プログラム。

【図1】
image rotate

【図2】
image rotate

【図6】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−165195(P2012−165195A)
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願番号】特願2011−24296(P2011−24296)
【出願日】平成23年2月7日(2011.2.7)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り (1)社団法人日本音響学会から平成22年9月7日に発行された刊行物「日本音響学会2010年秋季研究発表会講演論文集」において発表 (2)社団法人日本音響学会が平成22年9月14日〜16日に開催した「日本音響学会2010年秋季研究発表会」において平成22年9月14日に文書をもって発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度、独立行政法人 情報通信研究機構、委託研究「革新的な三次元映像技術による超臨場感コミュニケーション技術の研究開発 課題エ:感性情報認知・伝達技術」、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】