説明

マスキング解析装置,マスカー音選択装置,マスキング装置およびプログラム

【課題】情報マスキングを含むマスキングを適切に行なう。
【解決手段】自己相関算定手段22は、ターゲット音の第1音響信号と、前記ターゲット音および複数種のマスカー音の混合音の複数の第2音響信号との各々について、スペクトルの各ピークに対応する線スペクトル列の自己相関数列をフレーム毎に算定する。相関行列生成手段24は、相互相関係数値を要素とする帯域間相関行列を生成する。指標算定手段26は、前記第2音響信号の帯域間相関行列と前記第1音響信号の帯域間相関行列との類似の度合を示す指標値を算定する。選択手段40は算定した指標値に応じて前記複数種のマスカー音の何れかを選択し、放音装置42から放音する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、各種のマスカー音を適用したマスキングの効果を評価する技術に関する。
【背景技術】
【0002】
秘匿性の高い会話音等のターゲット音(maskee)にマスカー音(masker)を重畳することでターゲット音の漏洩を妨害するサウンドマスキング技術が従来から提案されている。白色雑音等の各種の雑音のほか、ターゲット音を加工した音声もマスカー音として利用される。例えば特許文献1や特許文献2には、ターゲット音を時間軸上で区分した各区間の時間波形を逆転するとともに各区間の順序を変更することでマスカー音を生成する技術が開示されている。
【0003】
音声の漏洩を効果的に防止し得るマスカー音の生成や選定のためにはマスキング効果の定量的な評価が重要である。マスキング効果を評価する典型的な方法としては、マスキングされた音声を受聴した被験者がターゲット音を理解できる割合(会話了解度:speech intelligibility)を測定する主観評価が挙げられるが、高精度な評価には非常に手間が掛かるという問題がある。そこで、非特許文献1や非特許文献2の技術では、マスキングの前後の音声の狭帯域包絡線の相関値(以下「狭帯域包絡相関」という)がマスキングの効果の定量的な評価指標として採用される。狭帯域包絡線は、人間の聴覚の臨界帯域に対応する各帯域(例えば1/4オクターブの帯域)での音声波形の包絡線である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−233671号公報
【特許文献2】特開2010−217883号公報
【非特許文献1】Houtgast T et al. "Predicting speech intelligibility in rooms from the Modulation Transfer Function. I. General room acoustics", Acustica, 46: 60-72, 1980
【非特許文献2】Drullman R. "Temporal envelope and fine structure cues for speech intelligibility", J. Acoust. Soc. Am 97: 585-592, 1995
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、サウンドマスキングの作用にはエネルギーマスキングと情報マスキングとがある。エネルギーマスキングは、ターゲット音とは無関係に生成されたマスカー音を比較的に高いエネルギーでターゲット音に重畳することでターゲット音の聴き取りを妨害する作用であり、情報マスキングは、前掲の特許文献1や特許文献2の技術のように、音響特性がターゲット音に類似するマスカー音(攪乱音)をターゲット音に重畳することでターゲット音の聴き取りを妨害する作用である。エネルギーマスキングに有効なマスカー音の典型例は白色雑音であり、情報マスキングに有効なマスカー音の典型例は、ターゲット音の発声者の音声波形を時間軸方向に反転した逆転音声である。
【0006】
図11は、マスカー音に対するターゲット音のエネルギー比(以下「T/M比」という)を相違させた複数の場合について狭帯域包絡相関の計算値と会話了解度の実測値との関係を示すグラフである。図11では、エネルギーマスキングに有効な白色雑音をマスカー音として利用した場合と、情報マスキングに有効な逆転音声をマスカー音として利用した場合とが個別に図示されている。
【0007】
白色雑音をマスカー音として使用した場合、図11に線Z1で示す通り、狭帯域包絡相関の変化に対して会話了解度は敏感に変化し、狭帯域包絡相関が大きいほど会話了解度が高いという傾向が顕著に観測される。しかし、逆転音声をマスカー音として使用した場合、図11に線Z2で示す通り、特に狭帯域包絡相関の0.3から0.8までの範囲内において、狭帯域包絡相関の変化に対して会話了解度が明確に変化しないという傾向が確認される。すなわち、非特許文献1や非特許文献2に開示された狭帯域包絡相関は、エネルギーマスキングの評価指標としては適切であるものの、エネルギーマスキング以外のマスキング(例えば情報マスキング)の評価指標としては必ずしも適切ではない。以上の事情を考慮して、本発明は、情報マスキングを含むマスキングの効果の適切な評価を目的とする。
【課題を解決するための手段】
【0008】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0009】
本発明のマスキング解析装置は、マスカー音によるターゲット音のマスキングを解析する装置であって、音響信号のスペクトルの各ピークに対応する線スペクトル列(例えば線スペクトル列Li[m])の自己相関数列(例えば自己相関数列Ai[m])を、前記ターゲット音を示す第1音響信号(例えば音響信号s1(t))と、前記ターゲット音および前記マスカー音の混合音を示す第2音響信号(例えば音響信号s2(t))との各々について時間軸上のフレーム毎に算定する自己相関算定手段(例えば自己相関算定部22)と、前記第1音響信号および前記第2音響信号の各々について、周波数軸上の任意の2個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列(例えば時系列τi[n])の相互相関係数値(例えば相互相関係数値ci[nx,ny])を算定し、各相互相関係数値を要素とする帯域間相関行列(例えば帯域間相関行列Ci)を生成する相関行列生成手段(例えば相関行列生成部24)とを具備する。マスカー音によるマスキングの効果が大きいほど、相関行列生成手段が生成する第1音響信号の帯域間相関行列と第2音響信号の帯域間相関行列との相違が増加するという傾向がある。したがって、マスカー音によるマスキングの効果を適切に評価することが可能である。なお、第1音響信号の帯域間相関行列と第2音響信号の帯域間相関行列とに応じた解析結果を出力(例えば利用者に報知)する出力制御手段(例えば後述の表示制御手段)を具備する構成が好適である。
【0010】
本発明の好適な態様のマスキング解析装置は、相互に交差する第1軸(例えばX軸)と第2軸(例えばY軸)とを周波数軸として前記帯域間相関行列の各相互相関係数値を表現する相関行列画像(例えば相関行列画像Gi)を、前記第1音響信号および前記第2音響信号の各々について表示装置に表示させる表示制御手段(例えば表示制御部28)を具備する。以上の態様では、第1軸と第2軸とが設定された座標系のもとで帯域間相関行列を表現する相関行列画像が表示されるから、第1音響信号の帯域間相関行列と第2音響信号の帯域間相関行列との相違(マスキングの効果)を利用者が視覚的に把握できるという利点がある。相関行列画像は、例えば、前記第1軸および前記第2軸に沿って行列状に配列する複数の単位領域を含み、前記複数の単位領域の各々は、前記帯域間相関行列の複数の相互相関係数値のうち、前記第1軸上で当該単位領域に対応する帯域と前記第2軸上で当該単位領域に対応する帯域との間における相互相関係数値に応じた態様で表示される。以上の態様では、帯域間相関行列の各相互相関係数値に対応する単位領域がその相互相関係数値に応じた態様(階調や色彩等の視覚的に区別できる性状)で表示されるから、第1音響信号と第2音響信号との間の帯域間相関行列の相違(マスキングの効果)を利用者が直観的かつ即時的に把握できるという利点がある。
【0011】
本発明の好適な態様において、前記自己相関算定手段は、前記第1音響信号の自己相関数列と、マスカー音の種類とターゲット音およびマスカー音のエネルギー比との少なくとも一方が相違する複数の第2音響信号の各々の自己相関数列とをフレーム毎に算定し、前記相関行列生成手段は、前記第1音響信号の自己相関数列の帯域間相関行列と前記複数の第2音響信号の各々の自己相関数列の帯域間相関行列とを算定し、前記表示制御手段は、前記第1音響信号の帯域間相関行列の相関行列画像と前記複数の第2音響信号の各々の帯域間相関行列の相関行列画像とを前記表示装置に表示させる。以上の態様では、種類や大きさが相違する複数のマスカー音について帯域間相関行列が算定されるから、複数のマスカー音の各々の帯域間相関行列を比較することで、適切なマスカー音を選択することが可能である。
【0012】
本発明の好適な態様のマスキング解析装置は、第1音響信号の帯域間相関行列と第2音響信号の帯域間相関行列との類似の度合を示す指標値(例えば行列間距離D)を算定する指標算定手段(例えば指標算定部26)を具備する。以上の態様では、第1音響信号の帯域間相関行列と第2音響信号の帯域間相関行列との類似の度合を示す指標値がマスキングの解析結果として算定されるから、マスキングの効果を定量的に評価することが可能である。
【0013】
本発明は、以上の各態様に係るマスキング解析装置を利用して複数種のマスカー音の何れかを選択するマスカー音選択装置としても実現される。本発明のマスカー音選択装置は、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、相異なる種類のマスカー音とターゲット音との混合音を示す複数の第2音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、第1音響信号と複数の第2音響信号の各々とについて、周波数軸上の任意の2個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と、複数の第2音響信号の各々について当該第2音響信号の帯域間相関行列と第1音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段と、指標算定手段が算定した指標値に応じて複数種のマスカー音の何れかを選択する選択手段(例えば選択部40)とを具備する。以上の構成でも、本発明のマスキング解析装置と同様の作用および効果が実現される。
【0014】
また、本発明は、複数種のマスカー音の何れかを利用してターゲット音をマスキングするマスキング装置(例えばマスキング装置200)としても実現される。本発明のマスキング装置は、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、相異なる種類のマスカー音とターゲット音との混合音を示す複数の第2音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、第1音響信号と複数の第2音響信号の各々とについて、周波数軸上の任意の2個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と、複数の第2音響信号の各々について当該第2音響信号の帯域間相関行列と第1音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段と、指標算定手段が算定した指標値に応じて複数種のマスカー音の何れかを選択して放音装置(例えば放音装置42)から放音する選択手段(例えば選択部40)とを具備する。以上の構成でも、本発明のマスキング解析装置と同様の作用および効果が実現される。
【0015】
以上の各態様に係るマスキング解析装置は、音声の合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、マスカー音によるターゲット音のマスキングを解析するために、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、ターゲット音およびマスカー音の混合音を示す第2音響信号との各々についてフレーム毎に算定する自己相関算定処理と、第1音響信号および第2音響信号の各々について、周波数軸上の任意の2個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明のマスキング解析装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0016】
【図1】本発明の第1実施形態に係るマスキング解析装置のブロック図である。
【図2】加工音声を生成する手順のフローチャートである。
【図3】自己相関算定部のブロック図である。
【図4】マスキング解析装置の動作の説明図である。
【図5】線スペクトル列を生成する動作のフローチャートである。
【図6】T/M比と行列間距離との関係を示すグラフである。
【図7】表示装置の表示例を示す模式図である。
【図8】第2実施形態におけるマスキング解析装置のブロック図である。
【図9】第2実施形態における表示装置の表示例を示す模式図である。
【図10】第3実施形態に係るマスキング装置のブロック図である。
【図11】狭帯域包絡相関の計算値と会話了解度の実測値との関係を示すグラフである。
【発明を実施するための形態】
【0017】
<第1実施形態>
図1は、本発明の第1実施形態に係るマスキング解析装置100のブロック図である。マスキング解析装置100は、マスカー音VMを使用したターゲット音VTのマスキングの効果を解析する音響処理装置であり、図1に示すように、演算処理装置12と記憶装置14と表示装置16とを含むコンピュータシステムで実現される。表示装置16は、例えば液晶表示パネルで構成され、演算処理装置12から指示された画像を表示する。
【0018】
記憶装置14は、演算処理装置12が実行するプログラムPGMと演算処理装置12が使用する各種のデータとを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用され得る。
【0019】
記憶装置14には、音響信号s1(t)および音響信号s2(t)が格納される。音響信号s1(t)は、マスキングの対象となるターゲット音VTの時間波形を示す信号である。他方、音響信号s2(t)は、音響信号s1(t)が示すターゲット音VTにマスカー音VMを重畳(加算)した音の時間波形を示す信号(すなわちマスキング後の信号)である。すなわち、音響信号s1(t)はマスキング前の音声に対応する。例えば収音機器を利用して事前に収録された音響信号s1(t)および音響信号s2(t)が記憶装置14に格納される。なお、収音機器が収音した音声信号を逐次的に(例えば所定の時間長の区間毎に)音響信号s1(t)や音響信号s2(t)として取得して略実時間的に処理することも可能である。
【0020】
第1実施形態では、周波数領域の広範囲にわたって強度が略均等な白色雑音と、特定の発声者が発声した音声を加工した音声(以下「加工音声」という)とをマスカー音VMとして想定する。白色雑音は、エネルギーマスキングの効果が顕著なマスカー音の典型例である。他方、加工音声は、マスキングの効果が顕著な音声である。第1実施形態の加工音声は、例えば図2に例示する手順で生成される。
【0021】
図2に示すように、特定の発声者の発声音を収録した音声信号が時間軸上で所定長の複数の単位区間に区分される(S1)。相前後する任意の2個の単位区間は相互に部分的に重複する。そして、各単位区間の音声波形が時間軸方向に逆転されるとともに各単位区間の音量が所定の範囲内の数値に調整され(S2)、相前後する単位区間同士が部分的に重複した状態で相互に連結(例えばクロスフェード)される(S3)。更に、連結後の音声信号を複数個に複製するとともに各音声信号に対してシフト処理を実行したうえで相互に加算する(S4)。シフト処理は、音声信号の複製毎に時間軸上の基準位置を個別に選定し、各音声信号の始点から基準位置までの区間を基準位置から終点までの区間の直後に連結(すなわち音声信号毎に相異なるシフト量で音声信号を時間軸方向にシフト)する処理である。ステップS4のシフト処理および加算により生成された音声信号を公知の話速変換処理等により所定の時間長に調整する(S5)ことで加工音声の音声信号が生成される。
【0022】
図1の演算処理装置12は、記憶装置14に格納されたプログラムPGMを実行することで、マスカー音VMによるマスキングの効果を解析して結果を出力するための複数の機能(自己相関算定部22,相関行列生成部24,指標算定部26,表示制御部28)を実現する。なお、演算処理装置12の一部の機能を専用の電子回路(DSP)が実現する構成や、演算処理装置12の各機能を複数の集積回路に分散した構成も採用され得る。
【0023】
図1の自己相関算定部22は、所定の時間長のM個のフレームの各々について音響信号s1(t)の自己相関数列A1[m](A1[1]〜A1[M])と音響信号s2(t)の自己相関数列A2[m](A2[1]〜A2[M])とを算定する(m=1〜M)。自己相関数列A1[m]は、音響信号s1(t)のうち第m番目のフレームでの調波構造(基音成分と複数の倍音成分との系列)を反映した数値列であり、自己相関数列A2[m]は、音響信号s2(t)のうち第m番目のフレームでの調波構造を反映した数値列である。なお、自己相関算定部22では、音響信号s1(t)および音響信号s2(t)の各々について同様の処理が実行される。そこで、以下の説明では、音響信号s1(t)および音響信号s2(t)の各々を添字i(i=1,2)により便宜的に音響信号si(t)と表記して、音響信号s1(t)および音響信号s2(t)の双方に共通する事項を包括的に説明する。
【0024】
図3は、自己相関算定部22の詳細なブロック図である。図3に示すように、自己相関算定部22は、区間設定部32と周波数分析部34と相関分析部36とを含んで構成される。区間設定部32は、音響信号si(t)に所定の時間窓を乗算することで、音響信号si(t)を、図4に示すように、相異なるフレームに対応するM個の区間信号qi[m](qi[1]〜qi[M])に区分する。各フレームは、例えば20ミリ秒から30ミリ秒程度の時間長に設定されて時間軸上で相互に重複する。なお、音響信号si(t)の例えば基本周波数に応じて各フレームの時間長を可変に制御することも可能である。
【0025】
図3の周波数分析部34は、M個のフレームの各々について区間信号qi[m]のスペクトルQi[m]の各ピークに対応する線スペクトル列Li[m](Li[1]〜Li[M])を算定する。線スペクトル列Li[m]は、図3に示すように、区間信号qi[m]のスペクトルQi[m]の振幅値(絶対値)がピークとなるLN個の周波数Fpの各々に配置されて強度が所定値(1)に正規化されたスペクトル線の系列である。
【0026】
図5は、周波数分析部34が音響信号si(t)の第m番目のフレーム(区間信号qi[m])について線スペクトル列Li[m]を生成する処理のフローチャートである。各音響信号si(t)のM個の区間信号qi[1]〜qi[M]の各々について図5の処理が実行される。
【0027】
周波数分析部34は、1本のスペクトル線を指示する変数xを1に初期化し(SA1)、変数xが所定値LNを下回るか否かを判定する(SA2)。図5の処理を開始した直後の段階では変数xは所定値LNを下回る。変数xが所定値LNを下回る場合、周波数分析部34は、区間信号qi[m]のスペクトル(複素スペクトル)Qi[m]を算定する(SA3)。スペクトルQi[m]の算定には、離散フーリエ変換等の公知の周波数分析が任意に採用される。
【0028】
周波数分析部34は、ステップSA3で算定したスペクトルQi[m]の振幅スペクトル|Qi[m]|において振幅値が最大となる1個のピークの周波数Fpを特定および記憶し(SA4)、ステップSA3で算定したスペクトルQi[m]のうちステップSA4で特定した周波数Fp以外の各周波数の強度をゼロに設定したスペクトルRi[m]を生成する(SA5)。そして、周波数分析部34は、スペクトルRi[m]を例えば逆フーリエ変換で時間領域の音響信号ri[m]に変換し(SA6)、変換後の音響信号ri[m]を現段階の区間信号qi[m]から減算する(SA7)。
【0029】
周波数分析部34は、変数xに1を加算したうえで処理をステップSA2に移行し(SA8)、加算後の変数xが依然として所定値LNを下回る場合には(SA2:YES)、直前のステップSA7での処理後の区間信号qi[m]についてステップSA3からステップSA8の処理を反復する。すなわち、区間信号qi[m]について特定した周波数Fpの総数が所定値LNに到達するまで、区間信号qi[m]から周波数Fpの音響成分を逐次的に除外しながらスペクトルQi[m]の振幅値のピークの周波数Fpを特定する処理が反復される。
【0030】
周波数Fpの総数が所定値LNに到達すると(SA2:NO)、周波数分析部34は、周波数軸上に離散的に設定されたK個の周波数(周波数帯域)のうちステップSA4で区間信号qi[m]について特定したLN個の周波数Fpの各々に強度1に正規化されたスペクトル線を設定した線スペクトル列Li[m]を生成する(SA9)。K個の周波数のうちLN個の周波数Fp以外の各周波数の強度はゼロに設定される。以上が線スペクトル列Li[m]の算定方法である。なお、線スペクトル列Li[m]の算定については例えばY.Hara, M. Matsumoto, and K. Miyoshi, "Method for estimating pitch independently from power spectrum envelope for speech and music signal", J. Temporal Design in Architecuture and the Environment 9(1) 121-124 (2009)に開示されている。
【0031】
図3の相関分析部36は、周波数分析部34が各音響信号si(t)のフレーム毎に生成した線スペクトル列Li[m]から自己相関数列Ai[m]を生成する。図4に示す通り、第1に、相関分析部36は、音響信号si(t)の各フレームの線スペクトル列Li[m]について自己相関数列Pi[m](Pi[1]〜Pi[M])を算定する。自己相関数列(自己相関関数)Pi[m]は、図4に示すように、周波数軸上のK個(例えば1440個)の周波数の各々に対応する自己相関値pi[k,m](pi[1,m]〜pi[K,m])の系列(K次ベクトル)である。
【0032】
第2に、相関分析部36は、自己相関数列Pi[m]から自己相関数列Ai[m]をフレーム毎に生成する。自己相関数列Ai[m]は、周波数軸上のN個(NはKを下回る自然数)の帯域の各々に対応する自己相関値ai[n,m](ai[1,m]〜ai[N,m])の系列(N次ベクトル)である。具体的には、自己相関数列Ai[m]のうち第n番目の帯域の自己相関値ai[n,m]は、自己相関数列Pi[m]のうちその帯域内の複数の周波数に対応する自己相関値pi[k,m]の代表値(例えば平均値)である。周波数分析部34が生成する線スペクトル列Li[m]は、区間信号qi[m]において振幅値がピークとなる各周波数Fpに配置されたスペクトル線で構成されるから、線スペクトル列Li[m]の自己相関数列Pi[m]は、音響信号si(t)の各フレームでの調波構造を強調したスペクトルを近似する。したがって、自己相関数列Ai[m]のN個の自己相関値ai[1,m]〜ai[N,m]の系列には、音響信号si(t)の基本周波数に相当する間隔でピークが出現する。なお、N個の帯域の各々は、例えば人間の聴覚の臨界帯域に相当する帯域幅(例えば1/4オクターブ)に設定される。
【0033】
音響信号s1(t)および音響信号s2(t)の各々についてフレーム毎(区間信号qi[m]毎)に以上の処理が実行されることで、図4に示すように、音響信号s1(t)の各フレームに対応するM個の自己相関数列A1[1]〜A1[M]を横方向に配列したN行M列の解析行列W1と、音響信号s2(t)の各フレームに対応するM個の自己相関数列A2[1]〜A2[M]を横方向に配列したN行M列の解析行列W2とが生成される。以上の説明から理解される通り、解析行列Wiの第n行に位置するM個の自己相関値ai[n,1]〜ai[n,M]の系列τi[n]は、周波数軸上の第n番目の帯域に対応する自己相関値ai[n,m]のM個のフレームにわたる時間的な推移に相当する。
【0034】
図1の相関行列生成部24は、音響信号s1(t)の解析行列W1から帯域間相関行列C1を生成するとともに音響信号s2(t)の解析行列W2から帯域間相関行列C2を生成する。各帯域間相関行列Ciは、図4に示すように、複数の相互相関係数値ci[nx,ny](nx=1〜N,ny=1〜N)を要素とするN行N列の対称行列である。第nx行の第ny列に位置する1個の相互相関係数値ci[nx,ny]は、第nx番目の帯域に対応するM個の自己相関値ai[nx,1]〜ai[nx,M]の時系列τi[nx]と第ny番目の帯域に対応するM個の自己相関値ai[ny,1]〜ai[ny,M]の時系列τi[ny]との類似(相関)の度合を示す変数(例えば時系列τi[nx]と時系列τi[ny]との相互相関係数または共分散)である。すなわち、周波数軸上の任意の2個の帯域間における自己相関値ai[n,m]の時系列τi[n](τi[nx],τi[ny])の相互相関係数値ci[nx,ny]を要素とする行列である。各相互相関係数値ci[nx,ny]は、帯域間相関行列Ciの対角成分(nx=xyとなる要素)が1となるように正規化される。
【0035】
図1の指標算定部26は、帯域間相関行列C1と帯域間相関行列C2との行列間距離Dを算定する。具体的には、指標算定部26は、以下の数式(1)の演算で行列間距離Dを算定する。
【数1】


数式(1)の演算子tr( )は、正方行列のトレース(M個の対角成分の合計)を意味する。数式(1)から理解されるように、行列間距離Dは、帯域間相関行列C1と帯域間相関行列C2とが一致する場合(tr(C1C2-1)=tr(C2C1-1)=M)に最小値1となり、帯域間相関行列C1と帯域間相関行列C2との相違が大きいほど増大する。
【0036】
図6は、マスカー音VMに対するターゲット音VTのエネルギー比(T/M比)と数式(1)で算定される行列間距離Dとの関係を示すグラフである。白色雑音をマスカー音VMとして利用した場合と前述の加工音声をマスカー音VMとして使用した場合とが図6では併記されている。図6から理解される通り、白色雑音と加工音声とでT/M比を同等に設定した場合でも、加工音声をマスカー音VMとした場合の行列間距離Dは、白色雑音をマスカー音VMとした場合の行列間距離Dを上回る。以上の傾向を考慮すると、行列間距離Dは、情報マスキングを含むマスキングの効果の定量的な指標として有効であることが理解される。すなわち、行列間距離Dが大きい(帯域間相関行列C1と帯域間相関行列C2との相違が大きい)ほどマスキングの効果が大きいと評価できる。
【0037】
図1の表示制御部28は、相関行列生成部24および指標算定部26による処理結果(マスキングの解析結果)を表示装置16に表示させる。具体的には、表示制御部28は、図7に例示するように、帯域間相関行列C1を表現する相関行列画像G1と帯域間相関行列C2を表現する相関行列画像G2とを表示装置16に表示させる。図7では、加工音声をマスカー音VMとして利用した場合が想定されている。相関行列画像Gi(G1,G2)は、相互に直交するX軸とY軸とを時間軸として帯域間相関行列Ciを表現する。具体的には、相関行列画像Giは、帯域間相関行列Ciの各要素に対応する複数(N2個)の単位領域UをX軸とY軸とに沿ってN行N列の行列状に配列した画像である。相関行列画像GiのうちX軸上の第nx行とY軸上の第ny列とに対応する1個の単位領域Uは、帯域間相関行列Ciの第nx行第ny列の相互相関係数値ci[nx,ny]に応じた表示態様(例えば階調および色彩)に設定されることでその相互相関係数値ci[nx,ny]を表現する。各相関行列画像Giには、N個の帯域から選択された任意の2個の帯域間における自己相関値ai[n,m]の時系列τi[n]の相関(周波数軸方向の変化)が反映される。
【0038】
表示装置16に表示された相関行列画像G1と相関行列画像G2とを対比することで、利用者は、マスカー音VMによるマスキングの効果を視覚的に評価することが可能である。具体的には、図6を参照して説明した通り、相関行列画像G1と相関行列画像G2とが相違するほど、マスカー音VMによるマスキングの効果が大きいと評価できる。
【0039】
また、表示制御部28は、図7に示すように、指標算定部26が算定した行列間距離D(図7の例示ではD=7)を表示装置16に表示させる。利用者は、表示装置16に表示された行列間距離Dからマスキングの効果を評価することが可能である。具体的には、行列間距離Dが大きい(帯域間相関行列C1と帯域間相関行列C2との相違が大きい)ほど、マスカー音VMによるマスキングの効果が大きいと評価できる。
【0040】
以上に説明した通り、第1実施形態では、音響信号si(t)の帯域間相関行列Ciを利用することでマスカー音VMによるマスキングの効果を適切に評価できるという利点がある。また、帯域間相関行列Ciを表現する相関行列画像Giが表示装置16に表示されるから、マスキングの効果を利用者が直観的(定性的)かつ即時的に把握できるという利点もある。また、帯域間相関行列C1と帯域間相関行列C2との行列間距離Dも表示装置16に表示されるから、マスキングの効果を利用者が客観的かつ定量的に評価することが可能である。
【0041】
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0042】
図8は、第2実施形態に係るマスキング解析装置100のブロック図である。図8に示すように、第2実施形態の記憶装置14は、ターゲット音VT(マスキング前の音声)を示す音響信号s1(t)のほか、ターゲット音VTとマスカー音VMとの混合音(マスキング後の音声)を示す2種類の音響信号s2(t)(s2(t)_A,s2(t)_B)を記憶する。音響信号s2(t)_Aのマスカー音VM_Aと音響信号s2(t)_Bのマスカー音VM_Bとは種類(生成方法)が相違する。例えば、音響信号s2(t)_Aのマスカー音VM_Aは図2の処理で生成された加工音声であり、音響信号s2(t)_Bのマスカー音VM_Bは白色雑音である。
【0043】
第2実施形態の自己相関算定部22は、音響信号s1(t)と音響信号s2(t)_Aと音響信号s2(t)_Aとの各々について、第1実施形態と同様の方法で自己相関数列Ai[m]を算定する。相関行列生成部24は、音響信号s1(t)の帯域間相関行列C1と音響信号s2(t)_Aの帯域間相関行列C2_Aと音響信号s2(t)_Bの帯域間相関行列C2_Bとを第1実施形態と同様の方法で生成する。指標算定部26は、帯域間相関行列C1と帯域間相関行列C2_Aとの間の行列間距離DAと、帯域間相関行列C1と帯域間相関行列C2_Bとの間の行列間距離DBとを算定する。行列間距離DAは、マスカー音VM_Aを利用した場合のマスキングの効果の評価指標として利用される。同様に、行列間距離DBは、マスカー音VM_Bを利用した場合のマスキングの効果の評価指標として利用される。
【0044】
図9は、第2実施形態の表示装置16による表示画像の模式図である。図9に示すように、第2実施形態の表示制御部28は、帯域間相関行列C1の相関行列画像G1と帯域間相関行列C2_Aの相関行列画像G2_Aと帯域間相関行列C2_Bの相関行列画像G2_Bとを表示装置16に表示させる。利用者は、相関行列画像G2_Aおよび相関行列画像G2_Bの各々を相関行列画像G1と対比することで、マスカー音VM_Aおよびマスカー音VM_Bの各々によるマスキングの効果を視覚的に把握することが可能である。例えば、図9の例示において、音響信号s2(t)_Aに対応する相関行列画像G2_Aは、音響信号s2(t)_Bの相関行列画像G2_Bと比較すると、音響信号s1(t)の相関行列画像G1との相違が大きい。したがって、利用者は、マスカー音VM_A(加工音声)がマスカー音VM_B(白色雑音)と比較して、情報マスキングを含むマスキングに有効であると視覚的および即時的に判断できる。
【0045】
また、表示制御部28は、図9に示すように、指標算定部26が算定した行列間距離DA(図9の例示ではDA=7)と行列間距離DB(図9の例示ではDB=2.5)とを表示装置16に表示させる。利用者は、表示装置16に表示された行列間距離DAと行列間距離DBとを対比することでマスカー音VM_Aおよびマスカー音VM_Bの各々によるマスキングの効果を評価することが可能である。例えば、図9の例示において、音響信号s2(t)_Aに対応する行列間距離DAは音響信号s2(t)_Bの行列間距離DBを上回る。したがって、利用者は、マスカー音VM_A(加工音声)がマスカー音VM_B(白色雑音)と比較してマスキングに有効であると判断できる。
【0046】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、マスカー音VMが相違する複数種の音響信号s2(t)の各々について相関行列画像G2(G2_A,G2_B)および行列間距離D(DA,DB)が表示されるから、複数種のマスカー音VMの間でマスキングに対する有効性を利用者が容易に比較できるという利点がある。
【0047】
<第3実施形態>
図10は、本発明の第3実施形態に係るマスキング装置200のブロック図である。第3実施形態のマスキング装置200は、生成方法や大きさ(音圧)が相違する複数種のマスカー音VM(VM_A,VM_B)の何れかを選択して放音する装置であり、第2実施形態のマスキング解析装置100に選択部40と放音装置42とを追加した構成である。記憶装置14は、マスカー音VM_Aの音声波形を示すマスカー音信号v(t)_Aとマスカー音VM_Bの音声波形を示すマスカー音信号v(t)_Bとを記憶する。
【0048】
第3実施形態の指標算定部26は、第2実施形態と同様に、音響信号s1(t)の帯域間相関行列C1と音響信号s2(t)_Aの帯域間相関行列C2_Aとの間の行列間距離DAと、音響信号s1(t)の帯域間相関行列C1と音響信号s2(t)_Bの帯域間相関行列C2_Bとの間の行列間距離DBとを算定する。選択部40は、指標算定部26が算定した行列間距離D(DA,DB)に応じてマスカー音VM_Aおよびマスカー音VM_Bの何れかを選択する。具体的には、選択部40は、音響信号s2(t)_Aおよび音響信号s2(t)_Bのうち行列間距離Dが大きい音響信号s2(t)に対応するマスカー音VM(すなわちマスキングに有効なマスカー音VM)を選択する。そして、選択部40は、行列間距離Dに応じて選択したマスカー音VMに対応するマスカー音信号v(t)(v(t)_A,v(t)_B)を記憶装置14から取得して放音装置42に供給する。放音装置42(例えばスピーカ装置)は、選択部40から供給されるマスカー音信号v(t)に応じてマスカー音VM(VM_A,VM_B)を音波として放射する。
【0049】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、マスキングに有効なマスカー音VMが行列間距離Dに応じて自動的に選択および放音されるから、ターゲット音VTをマスキングしようとする利用者の負担を軽減することが可能である。
【0050】
なお、第3実施形態では、表示制御部28および表示装置16を省略することも可能である。選択部40が行列間距離Dに応じたマスカー音VMを選択して例えば表示装置16の表示により利用者に報知する構成(すなわち、マスカー音VMの放音を要件としないマスカー音選択装置)も採用され得る。また、以上の説明では、2種類のマスカー音VM(VM_A,VM_B)の何れかを選択する場合を例示したが、選択候補となるマスカー音VMの種類数は任意である。
【0051】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0052】
(1)前述の各形態では、帯域間相関行列Ciを相関行列画像Giとして表示装置16に表示させたが、帯域間相関行列Ciの利用の方法は画像表示に限定されない。例えば、相関行列生成部24が生成した帯域間相関行列Ciを用紙に印刷する構成や、通信網を介して他の通信端末に送信する構成、あるいは可搬型の記録媒体に格納する構成も採用され得る。
【0053】
同様に、行列間距離Dの利用の方法は利用者に対する表示に限定されない。具体的には、第3実施形態のようにマスカー音VMの選択に行列間距離Dを適用する構成のほか、行列間距離Dを音声で出力する構成や用紙に印刷する構成、あるいは通信網を介して他の通信端末に送信する構成や、可搬型の記録媒体に格納する構成も採用され得る。
【0054】
(2)帯域間相関行列C1および帯域間相関行列C2の類否(相関や距離)を示す指標値は行列間距離Dに限定されない。帯域間相関行列C1および帯域間相関行列C2の類似の度合と指標算定部26が算定する指標値の大小との関係は指標値の算定方法に応じて定まる。例えば、数式(1)で定義される行列間距離Dを指標値として算定する構成とは逆に、帯域間相関行列C1と帯域間相関行列C2との相違が大きいほど減少するように指標値を算定することも可能である。
【0055】
(3)第2実施形態では2種類の音響信号s2(t)(s2(t)_A,s2(t)_B)を例示したが、3種類以上の音響信号s2(t)を用意した構成でも、各音響信号s2(t)について以上の各形態と同様の処理を実行することで、各音響信号s2(t)のマスカー音VMによるマスキングの効果を評価することが可能である。
【0056】
(4)第2実施形態では、音響信号s2(t)_Aと音響信号s2(t)_Bとでマスカー音VMの種類を相違させたが、音響信号s2(t)_Aと音響信号s2(t)_BとでT/M比を相違させた構成も採用される。例えば、同種のマスカー音VMを相異なるT/M比でターゲット音VTのマスキングに適用して音響信号s2(t)_Aおよび音響信号s2(t)_Bを生成した場合、前述の各形態と同様に各音響信号s2(t)について帯域間相関行列C2や行列間距離Dを算定および評価することで、マスキングの有効化という観点から最適なT/M比を特定することが可能である。すなわち、マスカー音の種類およびT/M比の少なくとも一方が相違する複数の音響信号s2(t)の各々について帯域間相関行列C2や行列間距離Dを算定する構成が好適である。
【符号の説明】
【0057】
100……マスキング解析装置、200……マスキング装置、12……演算処理装置、14……記憶装置、16……表示装置、22……自己相関算定部、24……相関行列生成部、26……指標算定部、28……表示制御部、32……区間設定部、34……周波数分析部、36……相関分析部。


【特許請求の範囲】
【請求項1】
マスカー音によるターゲット音のマスキングを解析する装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、前記ターゲット音を示す第1音響信号と、前記ターゲット音および前記マスカー音の混合音を示す第2音響信号との各々について時間軸上のフレーム毎に算定する自己相関算定手段と、
前記第1音響信号および前記第2音響信号の各々について、周波数軸上の任意の2個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と
を具備するマスキング解析装置。
【請求項2】
相互に交差する第1軸と第2軸とを周波数軸として前記帯域間相関行列の各相互相関係数値を表現する相関行列画像を、前記第1音響信号および前記第2音響信号の各々について表示装置に表示させる表示制御手段
を具備する請求項1のマスキング解析装置。
【請求項3】
前記相関行列画像は、前記第1軸および前記第2軸に沿って行列状に配列する複数の単位領域を含み、前記複数の単位領域の各々は、前記帯域間相関行列の複数の相互相関係数値のうち、前記第1軸上で当該単位領域に対応する帯域と前記第2軸上で当該単位領域に対応する帯域との間における相互相関係数値に応じた態様で表示される
請求項2のマスキング解析装置。
【請求項4】
前記自己相関算定手段は、前記第1音響信号の自己相関数列と、マスカー音の種類とターゲット音およびマスカー音のエネルギー比との少なくとも一方が相違する複数の第2音響信号の各々の自己相関数列とをフレーム毎に算定し、
前記相関行列生成手段は、前記第1音響信号の自己相関数列の帯域間相関行列と前記複数の第2音響信号の各々の自己相関数列の帯域間相関行列とを算定し、
前記表示制御手段は、前記第1音響信号の帯域間相関行列の相関行列画像と前記複数の第2音響信号の各々の帯域間相関行列の相関行列画像とを前記表示装置に表示させる
請求項2または請求項3のマスキング解析装置。
【請求項5】
前記第1音響信号の帯域間相関行列と前記第2音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段
を具備する請求項1から請求項4の何れかのマスキング解析装置。
【請求項6】
複数種のマスカー音の何れかを選択するマスカー音選択装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、相異なる種類のマスカー音と前記ターゲット音との混合音を示す複数の第2音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、
前記第1音響信号と前記複数の第2音響信号の各々とについて、周波数軸上の任意の2個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と、
前記複数の第2音響信号の各々について当該第2音響信号の帯域間相関行列と前記第1音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段と、
前記指標算定手段が算定した指標値に応じて前記複数種のマスカー音の何れかを選択する選択手段と
を具備するマスカー音選択装置。
【請求項7】
複数種のマスカー音の何れかを利用してターゲット音をマスキングするマスキング装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、相異なる種類のマスカー音と前記ターゲット音との混合音を示す複数の第2音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、
前記第1音響信号と前記複数の第2音響信号の各々とについて、周波数軸上の任意の2個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と、
前記複数の第2音響信号の各々について当該第2音響信号の帯域間相関行列と前記第1音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段と、
前記指標算定手段が算定した指標値に応じて前記複数種のマスカー音の何れかを選択して放音装置から放音する選択手段と
を具備するマスキング装置。
【請求項8】
マスカー音によるターゲット音のマスキングを解析するために、コンピュータに、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、前記ターゲット音を示す第1音響信号と、前記ターゲット音および前記マスカー音の混合音を示す第2音響信号との各々について時間軸上のフレーム毎に算定する自己相関算定処理と、
前記第1音響信号および前記第2音響信号の各々について、周波数軸上の任意の2個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成処理と
を実行させるプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図8】
image rotate

【図10】
image rotate

【図11】
image rotate

【図7】
image rotate

【図9】
image rotate


【公開番号】特開2013−3269(P2013−3269A)
【公開日】平成25年1月7日(2013.1.7)
【国際特許分類】
【出願番号】特願2011−132629(P2011−132629)
【出願日】平成23年6月14日(2011.6.14)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】