マスキング解析装置，マスカー音選択装置，マスキング装置およびプログラム

【課題】情報マスキングを適切に評価する。
【解決手段】自己相関算定部２２は、ターゲット音ＶTの音響信号ｓ1(t)と、ターゲット音ＶTおよびマスカー音ＶMの混合音の音響信号ｓ2(t)との各々について、スペクトルＱi[m]の各ピークに対応する線スペクトル列Ｌi[m]の自己相関数列Ａi[m]をフレーム毎に算定する。相互相関算定部２４は、音響信号ｓ1(t)と音響信号ｓ2(t)とにおいて相互に対応するフレーム毎に音響信号ｓ1(t)の自己相関数列Ａ1[m]と音響信号ｓ2(t)の自己相関数列Ａ2[m]との相互相関係数ρ[m]を算定する。指標算定部２６は、各フレームについて算定されたＭ個の相互相関係数ρ[1]〜ρ[M]の代表値を、マスカー音ＶMによるターゲット音ＶTのマスキングの効果指標αとして算定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、各種のマスカー音を適用したマスキングの効果を評価する技術に関する。
【背景技術】
【０００２】
秘匿性の高い会話音等のターゲット音（maskee）にマスカー音（masker）を重畳することでターゲット音の漏洩を妨害するサウンドマスキング技術が従来から提案されている。白色雑音等の各種の雑音のほか、ターゲット音を加工した音声もマスカー音として利用される。例えば特許文献１や特許文献２には、ターゲット音を時間軸上で区分した各区間の時間波形を逆転するとともに各区間の順序を変更することでマスカー音を生成する技術が開示されている。
【０００３】
音声の漏洩を効果的に防止し得るマスカー音の生成や選定のためにはマスキング効果の定量的な評価が重要である。マスキング効果を評価する典型的な方法としては、マスキングされた音声を受聴した被験者がターゲット音を理解できる割合（会話了解度：speech intelligibility）を測定する主観評価が挙げられるが、高精度な評価には非常に手間が掛かるという問題がある。そこで、非特許文献１や非特許文献２の技術では、マスキングの前後の音声の狭帯域包絡線の相関値（以下「狭帯域包絡相関」という）がマスキングの効果の定量的な評価指標として採用される。狭帯域包絡線は、人間の聴覚の臨界帯域に対応する各帯域（例えば１/４オクターブの帯域）での音声波形の包絡線である。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００８−２３３６７１号公報
【特許文献２】特開２０１０−２１７８８３号公報
【非特許文献１】Houtgast T et al. "Predicting speech intelligibility in rooms from the Modulation Transfer Function. I. General room acoustics", Acustica, 46: 60-72, 1980
【非特許文献２】Drullman R. "Temporal envelope and fine structure cues for speech intelligibility", J. Acoust. Soc. Am 97: 585-592, 1995
【発明の概要】
【発明が解決しようとする課題】
【０００５】
ところで、サウンドマスキングの作用にはエネルギーマスキングと情報マスキングとがある。エネルギーマスキングは、ターゲット音とは無関係に生成されたマスカー音を比較的に高いエネルギーでターゲット音に重畳することでターゲット音の聴き取りを妨害する作用であり、情報マスキングは、前掲の特許文献１や特許文献２の技術のように、音響特性がターゲット音に類似するマスカー音（攪乱音）をターゲット音に重畳することでターゲット音の聴き取りを妨害する作用である。エネルギーマスキングに有効なマスカー音の典型例は白色雑音であり、情報マスキングに有効なマスカー音の典型例は、ターゲット音の発声者の音声波形を時間軸の方向に反転した逆転音声である。
【０００６】
図１１は、マスカー音に対するターゲット音のエネルギー比（以下「Ｔ/Ｍ比」という）を相違させた複数の場合について狭帯域包絡相関の計算値と会話了解度の実測値との関係を示すグラフである。図１１では、エネルギーマスキングに有効な白色雑音をマスカー音として利用した場合と、情報マスキングに有効な逆転音声をマスカー音として利用した場合とが個別に図示されている。
【０００７】
白色雑音をマスカー音として使用した場合、図１１に線Ｚ1で示す通り、狭帯域包絡相関の変化に対して会話了解度は敏感に変化し、狭帯域包絡相関が大きいほど会話了解度が高いという傾向が顕著に観測される。しかし、逆転音声をマスカー音として使用した場合、図１１に線Ｚ2で示す通り、特に狭帯域包絡相関の０.３から０.８までの範囲内において、狭帯域包絡相関の変化に対して会話了解度が明確に変化しないという傾向が確認される。すなわち、非特許文献１や非特許文献２に開示された狭帯域包絡相関は、エネルギーマスキングの評価指標としては適切であるものの、情報マスキングの評価指標としては必ずしも適切ではない。以上の事情を考慮して、本発明は、情報マスキングの効果の適切な評価を目的とする。
【課題を解決するための手段】
【０００８】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【０００９】
本発明のマスキング解析装置は、マスカー音によるターゲット音のマスキングを解析する装置であって、音響信号のスペクトルの各ピークに対応する線スペクトル列（例えば線スペクトル列Ｌi[m]）の自己相関数列（例えば自己相関数列Ａi[m]）を、ターゲット音を示す第１音響信号（例えば音響信号ｓ1(t)）と、ターゲット音およびマスカー音の混合音を示す第２音響信号（例えば音響信号ｓ2(t)）との各々について時間軸上のフレーム毎に算定する自己相関算定手段（例えば自己相関算定部２２）と、第１音響信号および第２音響信号において相互に対応するフレーム毎に第１音響信号の自己相関数列と第２音響信号の自己相関数列との相互相関係数（例えば相互相関係数ρ[m]）を算定する相互相関算定手段（相互相関算定部２４）と、各フレームについて算定された複数の相互相関係数の代表値をマスキングの効果指標（例えば効果指標α）として算定する指標算定手段（例えば指標算定部２６）とを具備する。以上の構成では、第１音響信号の自己相関数列と第２音響信号の自己相関数列とで相互に対応するフレーム間の相互相関係数に応じて効果指標が算定されるから、狭帯域包絡相関を利用した場合と比較して情報マスキングの効果を適切に評価することが可能である。
【００１０】
複数の相互相関係数から効果指標として算定される代表値の種類は任意であるが、例えば、複数の相互相関係数の平均値（例えば相加平均）を効果指標として算定する構成や、複数の相互相関係数の所定のパーセンタイル値（例えば７５パーセンタイル値）を効果指標として算定する構成が好適である。また、指標算定手段が算定した効果指標を利用する方法は本発明において任意であるが、例えば、効果指標を表示装置に表示させる表示制御手段（例えば表示制御部２８）を具備する構成が好適である。
【００１１】
本発明の好適な態様において、自己相関算定手段は、第１音響信号の自己相関数列と、マスカー音の種類とターゲット音およびマスカー音のエネルギー比（Ｔ/Ｍ比）との少なくとも一方が相違する複数の第２音響信号の各々の自己相関数列とをフレーム毎に算定し、相互相関算定手段は、複数の第２音響信号の各々について第１音響信号の自己相関数列と当該第２音響信号の自己相関数列との相互相関係数をフレーム毎に算定し、指標算定手段は、複数の第２音響信号の各々について、当該第２音響信号について算定された複数の相互相関係数に応じた効果指標を算定する。以上の態様では、種類や音圧が相異なる複数のマスカー音について効果指標が算定されるから、複数のマスカー音の各々の効果指標を比較することで、情報マスキングの有効性という観点から最適なマスカー音を選択することが可能である。
【００１２】
本発明の好適な態様のマスキング解析装置は、周波数軸と時間軸とが設定された領域にて自己相関数列の時系列を示す相関遷移画像（例えば相関遷移画像６２）と、自己相関数列の各相関値を複数のフレームについて周波数毎に合計した数値の周波数軸上での分布を示す相関分布画像（例えば相関分布画像６４）との少なくとも一方を、第１音響信号と第２音響信号との各々について表示装置に表示させる表示制御手段（例えば表示制御部２８）とを具備する。以上の態様では、第１音響信号と第２音響信号との間で相関遷移画像を対比することで、利用者は、調波構造の時間遷移がマスキングの前後で変化する度合（すなわち情報マスキングの度合）を直観的に把握することが可能である。また、第１音響信号と第２音響信号との間で相関分布画像を対比することで、利用者は、複数のフレームにわたる長期的な調波構造の変化を直観的に把握することが可能である。
【００１３】
本発明は、以上の各態様に係るマスキング解析装置を利用して複数種のマスカー音の何れかを選択するマスカー音選択装置としても実現される。本発明のマスカー音選択装置は、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、相異なる種類のマスカー音とターゲット音との混合音を示す複数の第２音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、複数の第２音響信号の各々について、当該第２音響信号の自己相関数列と第１音響信号の自己相関数列との相互相関係数を相互に対応するフレーム毎に算定する相互相関算定手段と、複数の第２音響信号の各々について、当該第２音響信号の各フレームについて算定された複数の相互相関係数の代表値をマスキングの効果指標として算定する指標算定手段と、指標算定手段が算定した効果指標に応じて複数種のマスカー音の何れかを選択する選択手段（例えば選択部４０）とを具備する。以上の構成でも、本発明のマスキング解析装置と同様の作用および効果が実現される。
【００１４】
また、本発明は、複数種のマスカー音の何れかを利用してターゲット音をマスキングするマスキング装置（例えばマスキング装置２００）としても実現される。本発明のマスキング装置は、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、相異なる種類のマスカー音とターゲット音との混合音を示す複数の第２音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、複数の第２音響信号の各々について、当該第２音響信号の自己相関数列と第１音響信号の自己相関数列との相互相関係数を相互に対応するフレーム毎に算定する相互相関算定手段と、複数の第２音響信号の各々について、当該第２音響信号の各フレームについて算定された複数の相互相関係数の代表値をマスキングの効果指標として算定する指標算定手段と、指標算定手段が算定した効果指標に応じて複数種のマスカー音の何れかを選択して放音装置から放音する選択手段（例えば選択部４０）とを具備する。以上の構成でも、本発明のマスキング解析装置と同様の作用および効果が実現される。
【００１５】
以上の各態様に係るマスキング解析装置は、音声の合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、マスカー音によるターゲット音のマスキングを解析するために、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、ターゲット音およびマスカー音の混合音を示す第２音響信号との各々についてフレーム毎に算定する自己相関算定処理と、第１音響信号および第２音響信号において相互に対応するフレーム毎に第１音響信号の自己相関数列と第２音響信号の自己相関数列との相互相関係数を算定する相互相関算定処理と、各フレームについて算定された複数の相互相関係数の代表値を、マスカー音によるターゲット音のマスキングの効果指標として算定する指標算定処理とをコンピュータに実行させる。以上のプログラムによれば、本発明のマスキング解析装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【００１６】
【図１】本発明の第１実施形態に係るマスキング解析装置のブロック図である。
【図２】自己相関算定部のブロック図である。
【図３】マスキング解析装置の動作の説明図である。
【図４】線スペクトル列を生成する動作のフローチャートである。
【図５】第１実施形態の効果指標と会話了解度の実測値との関係を示すグラフである。
【図６】第２実施形態におけるマスキング解析装置のブロック図である。
【図７】第３実施形態の効果指標と会話了解度の実測値との関係を示すグラフである。
【図８】第３実施形態における表示例を示す模式図である。
【図９】第４実施形態における表示例を示す模式図である。
【図１０】第５実施形態に係るマスキング装置のブロック図である。
【図１１】狭帯域包絡相関の計算値と会話了解度の実測値との関係を示すグラフである。
【発明を実施するための形態】
【００１７】
＜第１実施形態＞
図１は、本発明の第１実施形態に係るマスキング解析装置１００のブロック図である。マスキング解析装置１００は、マスカー音ＶMを使用したターゲット音ＶTのマスキングの効果を解析する音響処理装置であり、図１に示すように、演算処理装置１２と記憶装置１４と表示装置１６とを含むコンピュータシステムで実現される。表示装置１６は、例えば液晶表示パネルで構成され、演算処理装置１２から指示された画像を表示する。
【００１８】
記憶装置１４は、演算処理装置１２が実行するプログラムＰGMと演算処理装置１２が使用する各種のデータとを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として採用され得る。
【００１９】
記憶装置１４には、音響信号ｓ1(t)および音響信号ｓ2(t)が格納される。音響信号ｓ1(t)は、マスキングの対象となるターゲット音ＶTの時間波形を示す音声信号である。他方、音響信号ｓ2(t)は、音響信号ｓ1(t)が示すターゲット音ＶTにマスカー音ＶMを重畳（加算）した音の時間波形を示す信号（すなわちマスキング後の信号）である。すなわち、音響信号ｓ1(t)はマスキング前の音声に対応する。例えば収音機器を利用して事前に収録された音響信号ｓ1(t)および音響信号ｓ2(t)が記憶装置１４に格納される。なお、収音機器が収音した音声信号を逐次的に（例えば所定の時間長の区間毎に）音響信号ｓ1(t)や音響信号ｓ2(t)として取得して略実時間的に処理することも可能である。
【００２０】
演算処理装置１２は、記憶装置１４に格納されたプログラムＰGMを実行することで、マスカー音ＶMによるマスキングの効果を示す指標値（以下では「効果指標」と表記する）αを算定および出力するための複数の機能（自己相関算定部２２，相互相関算定部２４，指標算定部２６，表示制御部２８）を実現する。効果指標αは、情報マスキングに関するマスカー音ＶMの有効性の指標として好適な変数であり、概略的にはマスキングの前後の音響信号ｓ1(t)および音響信号ｓ2(t)を対比することで算定される。なお、演算処理装置１２の一部の機能を専用の電子回路（ＤＳＰ）が実現する構成や、演算処理装置１２の各機能を複数の集積回路に分散した構成も採用され得る。
【００２１】
ところで、ターゲット音ＶTと同じ発声者の音声波形を時間軸方向に逆転させた逆転音声をマスカー音ＶMとして適用した場合に情報マスキングの効果は顕著である。逆転音声とターゲット音ＶTとは発声者が共通するから、逆転音声をマスカー音ＶMとして利用したマスキングの前後の音声では音声の長期的な調波構造（基音成分と複数の倍音成分との系列）は殆ど変化しない。以上の傾向を考慮すると、情報マスキングの作用は、調波構造の時間遷移がマスキングの前後で相違することに関係すると推察される。すなわち、調波構造の時間遷移がマスキングの前後で変化するほど情報マスキングの効果は大きい。以上の知見から、本実施形態では、音響信号ｓ1(t)の調波構造の時間遷移と音響信号ｓ2(t)の調波構造の時間遷移とを相互に対比することで効果指標αを算定する。
【００２２】
図１の自己相関算定部２２は、所定の時間長のＭ個のフレームの各々について音響信号ｓ1(t)の自己相関数列Ａ1[m]（Ａ1[1]〜Ａ1[M]）と音響信号ｓ2(t)の自己相関数列Ａ2[m]（Ａ2[1]〜Ａ2[M]）とを算定する（ｍ＝１〜Ｍ）。自己相関数列Ａ1[m]は、音響信号ｓ1(t)のうち第ｍ番目のフレームでの調波構造を反映した数値列であり、自己相関数列Ａ2[m]は、音響信号ｓ2(t)のうち第ｍ番目のフレームでの調波構造を反映した数値列である。なお、自己相関算定部２２では、音響信号ｓ1(t)および音響信号ｓ2(t)の各々について同様の処理が実行される。そこで、以下の説明では、音響信号ｓ1(t)および音響信号ｓ2(t)の各々を添字ｉ（ｉ＝１,２）により便宜的に音響信号ｓi(t)と表記して、音響信号ｓ1(t)および音響信号ｓ2(t)の双方に共通する事項を包括的に説明する。
【００２３】
図２は、自己相関算定部２２の詳細なブロック図である。図２に示すように、自己相関算定部２２は、区間設定部３２と周波数分析部３４と相関分析部３６とを含んで構成される。区間設定部３２は、音響信号ｓi(t)に所定の時間窓を乗算することで、音響信号ｓi(t)を、図３に示すように、相異なるフレームに対応するＭ個の区間信号ｑi[m]（ｑi[1]〜ｑi[M]）に区分する。各フレームは、例えば２０ミリ秒から３０ミリ秒程度の時間長に設定されて時間軸上で相互に重複する。なお、音響信号ｓi(t)の例えば基本周波数に応じて各フレームの時間長を可変に制御することも可能である。
【００２４】
図２の周波数分析部３４は、Ｍ個のフレームの各々について区間信号ｑi[m]のスペクトルＱi[m]の各ピークに対応する線スペクトル列Ｌi[m]（Ｌi[1]〜Ｌi[M]）を算定する。線スペクトル列Ｌi[m]は、図２に示すように、区間信号ｑi[m]のスペクトルＱi[m]の振幅値（絶対値）がピークとなるＬN個の周波数Ｆpの各々に配置されて強度が所定値（１）に正規化されたスペクトル線の系列である。
【００２５】
図４は、周波数分析部３４が音響信号ｓi(t)の第ｍ番目のフレーム（区間信号ｑi[m]）について線スペクトル列Ｌi[m]を生成する処理のフローチャートである。各音響信号ｓi(t)のＭ個の区間信号ｑi[1]〜ｑi[M]の各々について図４の処理が実行される。
【００２６】
周波数分析部３４は、１本のスペクトル線を指示する変数ｘを１に初期化し（ＳA1）、変数ｘが所定値ＬNを下回るか否かを判定する（ＳA2）。図４の処理を開始した直後の段階では変数ｘは所定値ＬNを下回る。変数ｘが所定値ＬNを下回る場合、周波数分析部３４は、区間信号ｑi[m]のスペクトル（複素スペクトル）Ｑi[m]を算定する（ＳA3）。スペクトルＱi[m]の算定には、離散フーリエ変換等の公知の周波数分析が任意に採用される。
【００２７】
周波数分析部３４は、ステップＳA3で算定したスペクトルＱi[m]の振幅スペクトル|Ｑi[m]|において振幅値が最大となる１個のピークの周波数Ｆpを特定および記憶し（ＳA4）、ステップＳA3で算定したスペクトルＱi[m]のうちステップＳA4で特定した周波数Ｆp以外の各周波数の強度をゼロに設定したスペクトルＲi[m]を生成する（ＳA5）。そして、周波数分析部３４は、スペクトルＲi[m]を例えば逆フーリエ変換で時間領域の音響信号ｒi[m]に変換し（ＳA6）、変換後の音響信号ｒi[m]を現段階の区間信号ｑi[m]から減算する（ＳA7）。
【００２８】
周波数分析部３４は、変数ｘに１を加算したうえで処理をステップＳA2に移行し（ＳA8）、加算後の変数ｘが依然として所定値ＬNを下回る場合には（ＳA2：YES）、直前のステップＳA7での処理後の区間信号ｑi[m]についてステップＳA3からステップＳA8の処理を反復する。すなわち、区間信号ｑi[m]について特定した周波数Ｆpの総数が所定値ＬNに到達するまで、区間信号ｑi[m]から周波数Ｆpの音響成分を逐次的に除外しながらスペクトルＱi[m]の振幅値のピークの周波数Ｆpを特定する処理が反復される。
【００２９】
周波数Ｆpの総数が所定値ＬNに到達すると（ＳA2：NO）、周波数分析部３４は、周波数軸上に離散的に設定されたＫ個の周波数（周波数帯域）のうちステップＳA4で区間信号ｑi[m]について特定したＬN個の周波数Ｆpの各々に強度１に正規化されたスペクトル線を設定した線スペクトル列Ｌi[m]を生成する（ＳA9）。Ｋ個の周波数のうちＬN個の周波数Ｆp以外の各周波数の強度はゼロに設定される。以上が線スペクトル列Ｌi[m]の算定方法である。なお、線スペクトル列Ｌi[m]の算定については例えばY.Hara, M. Matsumoto, and K. Miyoshi, "Method for estimating pitch independently from power spectrum envelope for speech and music signal", J. Temporal Design in Architecuture and the Environment 9(1) 121-124 (2009)にも開示されている。
【００３０】
図２の相関分析部３６は、図３に示すように、周波数分析部３４が各音響信号ｓi(t)のフレーム毎に生成した線スペクトル列Ｌi[m]について自己相関数列Ａi[m]（Ａi[1]〜Ａi[M]）を算定する。自己相関数列（自己相関関数）Ａi[m]は、周波数軸上のＫ個の周波数の各々に対応する自己相関係数ｐi[m,k]（ｐi[m,1]〜ｐi[m,K]）の系列（Ｋ次ベクトル）である。
【００３１】
周波数分析部３４が生成する線スペクトル列Ｌi[m]は、区間信号ｑi[m]において振幅値がピークとなる各周波数Ｆpに配置されたスペクトル線で構成されるから、線スペクトル列Ｌi[m]の自己相関数列Ａi[m]は、音響信号ｓi(t)の各フレームでの調波構造を強調したスペクトルを近似する。すなわち、自己相関数列Ａi[m]の自己相関係数ｐi[m,1]〜ｐi[m,K]の系列には、音響信号ｓi(t)の基本周波数に相当する間隔でピークが出現する。音響信号ｓ1(t)および音響信号ｓ2(t)の各々についてフレーム毎（区間信号ｑi[m]毎）に以上の処理が実行されることで、音響信号ｓ1(t)の各フレームに対応するＭ個の自己相関数列Ａ1[1]〜Ａ1[M]と、音響信号ｓ2(t)の各フレームに対応するＭ個の自己相関数列Ａ2[1]〜Ａ2[M]とが生成される。
【００３２】
図１の相互相関算定部２４は、図３に示すように、音響信号ｓ1(t)と音響信号ｓ2(t)とにおいて時間軸上で相互に対応するフレーム間で、音響信号ｓ1(t)の自己相関数列Ａ1[m]と音響信号ｓ2(t)の自己相関数列Ａ2[m]との相互相関係数ρ[m]（ρ[1]〜ρ[M]）をＭ個のフレームの各々について算定する。相互相関係数ρ[m]は、音響信号ｓ1(t)の第ｍ番目のフレームの自己相関数列Ａ1[m]と音響信号ｓ2(t)の第ｍ番目のフレームの自己相関数列Ａ2[m]との類似の度合（すなわち音響信号ｓ1(t)と音響信号ｓ2(t)との間の調波構造の時間遷移の類似度）を示すスカラー量である。相互相関算定部２４は、例えば以下の数式(1)の演算で相互相関係数ρ[m]を算定する。
【数１】

数式(1)の演算子Ｅ{ }は、周波数軸上のＫ個の周波数にわたる平均（典型的には相加平均）を意味する。また、数式(1)の記号δi[m,k]（δ1[m,k]，δ2[m,k]）は、以下の数式(2)の演算で算定される偏差を意味する。数式(2)の記号μi（μ1，μ2）は、第ｍ番目のフレームにおけるＫ個の周波数にわたる自己相関係数ｐi[m,k]（ｐi[m,1]〜ｐi[m,K]の系列）の平均である。
【数２】

【００３３】
また、数式(1)の記号Ｐi[m]（Ｐ1[m]，Ｐ2[m]）は、以下の数式(3)で定義される通り、第ｍ番目のフレームに対応するＫ個の偏差δi[m,k]（δi[m,1]〜δi[m,K]）の自乗の平均であり、数式(3)の演算でフレーム毎に個別に算定される。したがって、自己相関数列Ａ1[m]と自己相関数列Ａ2[m]との相関が低いほど数式(1)の相互相関係数ρ[m]は小さい数値となる。
【数３】

【００３４】
図１の指標算定部２６は、相互相関算定部２４が算定したＭ個の相互相関係数ρ[1]〜ρ[M]を利用してマスカー音ＶMによるマスキングの効果指標αを算定する。第１実施形態の指標算定部２６は、Ｍ個の相互相関係数ρ[1]〜ρ[M]の平均（例えば相加平均）を効果指標αとして算定する。したがって、概略的には、音響信号ｓ1(t)と音響信号ｓ2(t)との間（マスキングの前後）で調波構造の時間遷移の相関が低い（すなわち情報マスキングの効果が高い）ほど効果指標αは小さい数値になるという傾向がある。表示制御部２８は、指標算定部２６が算定した効果指標αを表示装置１６に表示させる。
【００３５】
図５は、マスカー音ＶMに対するターゲット音ＶTのエネルギー比（以下では「Ｔ/Ｍ比」と表記する）を変化させた複数の場合について、第１実施形態で算定された効果指標αと会話了解度の実測値との関係を示すグラフである。図１１と同様に、白色雑音をマスカー音ＶMとして利用した場合と逆転音声をマスカー音ＶMとして使用した場合とが図５では併記されている。各数値はＴ/Ｍ比の昇順で連結されている。
【００３６】
図５から理解されるように、エネルギーマスキングに有効な白色雑音をマスカー音ＶMとして使用した場合、図５に線Ｚ1で示す通り、効果指標αの変化に対する会話了解度の変化は緩慢である。他方、逆転音声をマスカー音ＶMとして使用した場合、図５に線Ｚ2で示す通り、効果指標αの数値範囲の全域にわたり、効果指標αの変化に対して会話了解度は敏感に変化する。すなわち、情報マスキングに有効な逆転音声については、効果指標αが大きいほど会話了解度が高いという傾向が顕著に把握される。以上の傾向から、第１実施形態の効果指標αは、非特許文献１や非特許文献２の狭帯域包絡相関と比較すると、情報マスキングの定量的な評価指標として適切であることが理解される。すなわち、第１実施形態によれば、表示装置１６に表示された効果指標αを参照することで、マスカー音ＶMを利用した情報マスキングの効果を利用者が適切に評価できるという利点がある。
【００３７】
＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同等である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【００３８】
図６は、第２実施形態に係るマスキング解析装置１００のブロック図である。図６に示すように、第２実施形態の記憶装置１４は、ターゲット音ＶT（マスキング前の音声）を示す音響信号ｓ1(t)のほか、ターゲット音ＶTとマスカー音ＶMとの混合音（マスキング後の音声）を示す２種類の音響信号ｓ2(t)（ｓ2(t)_A，ｓ2(t)_B）を記憶する。音響信号ｓ2(t)_Aのマスカー音ＶM_Aと音響信号ｓ2(t)_Bのマスカー音ＶM_Bとは種類（生成方法）が相違する。例えば、音響信号ｓ2(t)_Aのマスカー音ＶM_Aは逆転音声であり、音響信号ｓ2(t)_Bのマスカー音ＶM_Bは白色雑音である。
【００３９】
第２実施形態では、音響信号ｓ1(t)と音響信号ｓ2(t)_Aとの間の効果指標αAと、音響信号ｓ1(t)と音響信号ｓ2(t)_Bとの間の効果指標αBとが個別に算定される。具体的には、自己相関算定部２２は、音響信号ｓ1(t)と音響信号ｓ2(t)_Aと音響信号ｓ2(t)_Bとの各々について自己相関数列Ａi[m]を算定し、相互相関算定部２４は、音響信号ｓ1(t)と音響信号ｓ2(t)_Aの間の相互相関係数ρA[1]〜ρA[M]と、音響信号ｓ1(t)と音響信号ｓ2(t)_Bとの間の相互相関係数ρB[1]〜ρB[M]とを算定する。指標算定部２６は、Ｍ個の相互相関係数ρA[1]〜ρA[M]からマスカー音ＶM_Aの効果指標αAを算定し、Ｍ個の相互相関係数ρB[1]〜ρB[M]からマスカー音ＶM_Bの効果指標αBを算定する。表示制御部２８は、効果指標αAと効果指標αBとを表示装置１６に表示させる。
【００４０】
第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、マスカー音ＶM_Aの効果指標αAとマスカー音ＶM_Bの効果指標αBとが個別に算定および表示されるから、マスカー音ＶM_Aおよびマスカー音ＶM_Bのうち情報マスキングに有効なマスカー音ＶM（効果指標αが小さいマスカー音）を利用者が容易に確認できるという利点がある。
【００４１】
＜第３実施形態＞
第３実施形態の記憶装置１４は、第２実施形態と同様に、音響信号ｓ1(t)と音響信号ｓ2(t)_Aと音響信号ｓ2(t)_Bとを記憶する。相互相関算定部２４は、音響信号ｓ1(t)と音響信号ｓ2(t)_Aとの間のＭ個の相互相関係数ρA[1]〜ρA[M]と、音響信号ｓ1(t)と音響信号ｓ2(t)_Bとの間のＭ個の相互相関係数ρB[1]〜ρB[M]とを第１実施形態と同様の方法で算定する。
【００４２】
第３実施形態の指標算定部２６は、相互相関算定部２４が算定したＭ個の相互相関係数ρA[1]〜ρA[M]のσパーセンタイル値（以下の例示では変数σを７５（％）に設定した７５パーセンタイル値）をマスカー音ＶM_Aの効果指標αAとして算定する。すなわち、Ｍ個の相互相関係数ρA[1]〜ρA[M]を昇順に配列した場合にＭ個のσ％に相当する個数番目の相互相関係数ρA[m]が効果指標αAとして算定される。同様に、指標算定部２６は、Ｍ個の相互相関係数ρB[1]〜ρB[M]のσパーセンタイル値をマスカー音ＶM_Bの効果指標αBとして算定する。表示制御部２８は、指標算定部２６が算定した効果指標αAおよび効果指標αBを表示装置１６に表示させる。
【００４３】
図７は、第３実施形態で算定される効果指標α（αA，αB）と会話了解度の実測値との関係を図５と同様の方法で示すグラフである。第１実施形態の効果指標αと同様に、第３実施形態の効果指標α（σパーセンタイル値）には、情報マスキングに有効な逆転音声をマスカー音ＶMとした場合に効果指標αの変化に対して会話了解度が敏感に変化するという傾向がある。したがって、第３実施形態においても、第１実施形態と同様に、情報マスキングの効果を適切に評価できるという利点がある。
【００４４】
第３実施形態の表示制御部２８は、相互相関算定部２４が算定したＭ個の相互相関係数ρA[1]〜ρA[M]について所定の階級毎の度数を算定するとともにＭ個の相互相関係数ρB[1]〜ρB[M]についても同様に度数を算定し、図８に示すように、相互相関係数ρA[1]〜ρA[M]の度数分布５０Aと相互相関係数ρB[1]〜ρB[M]の度数分布５０Bとを表示装置１６に表示させる。
【００４５】
利用者は、表示装置１６に表示された度数分布５０Aと度数分布５０Bとを対比することで、マスカー音ＶM_Aおよびマスカー音ＶM_Bの各々による情報マスキングの効果を直観的に対比することが可能である。例えば、音響信号ｓ1(t)と音響信号ｓ2(t)とで自己相関数列Ａi[m]の相関が低い（すなわちマスカー音ＶMによる情報マスキングの効果が高い）ほど、相互相関係数ρ[m]は数値が小さい範囲に偏在するという傾向がある。図８の度数分布５０Aと度数分布５０Bとを対比すると、数値が小さい範囲に度数が偏在するという傾向は度数分布５０Aのほうが顕著である。したがって、利用者は、度数分布５０Aに対応するマスカー音ＶM_A（逆転音声）がマスカー音ＶM_B（白色雑音）と比較して情報マスキングに有効であると直観的に判断できる。
【００４６】
また、第３実施形態の表示制御部２８は、図８に示すように、相互相関係数ρA[1]〜ρA[M]の累積度数分布５２Aと相互相関係数ρB[1]〜ρB[M]の累積度数分布５２Bとを表示装置１６に表示させ、Ｍ個のσ％に相当する度数を示す直線５４を累積度数分布５２Aおよび累積度数分布５２Bに重ねて配置する。累積度数分布５２Aと直線５４との交点ＣAに対応する階級値が効果指標αA（すなわち相互相関係数ρA[m]のσパーセンタイル値）に相当し、累積度数分布５２Bと直線５４との交点ＣBに対応する階級値が効果指標αBに相当する。
【００４７】
利用者は、累積度数分布５２Aと累積度数分布５２Bとを対比することで、マスカー音ＶM_Aおよびマスカー音ＶM_Bの各々による情報マスキングの効果を直観的に把握することが可能である。例えば、交点ＣAは交点ＣBと比較して小さい階級値に対応するから、数値の小さい範囲に度数が偏在するという傾向は、相互相関係数ρB[m]よりも相互相関係数ρA[m]のほうが顕著である。したがって、利用者は、累積度数分布５２Aに対応するマスカー音ＶM_A（逆転音声）がマスカー音ＶM_B（白色雑音）と比較して情報マスキングに有効であると直観的に判断できる。
【００４８】
＜第４実施形態＞
第４実施形態の記憶装置１４は、第２実施形態や第３実施形態と同様に、音響信号ｓ1(t)と音響信号ｓ2(t)_Aと音響信号ｓ2(t)_Bとを記憶する。表示制御部２８は、図９に示すように、音響信号ｓ1(t)と音響信号ｓ2(t)_Aと音響信号ｓ2(t)_Bとの各々について相関遷移画像６２と相関分布画像６４とを表示装置１６に表示させる。
【００４９】
相関遷移画像６２は、周波数軸（縦軸）と時間軸（横軸）とが設定された領域内に自己相関数列Ａi[m]の時系列（すなわち調波構造の時間遷移）を表現した画像である。自己相関数列Ａi[m]の各自己相関係数ｐi[m,k]の数値は、相関遷移画像６２内の各点の階調や色彩で表現される。すなわち、時間軸上で第ｍ番目のフレームに相当する地点と周波数軸上で第ｋ番目の周波数に相当する地点とに対応する座標点の階調や色彩は、第ｍ番目のフレームの自己相関数列Ａi[m]を構成するＫ個の自己相関係数ｐi[m,1]〜ｐi[m,K]のうち第ｋ番目の周波数に対応する自己相関係数ｐi[m,k]の数値に応じて決定される。
【００５０】
相関分布画像６４は、Ｍ個のフレームにわたる自己相関係数ｐi[1,k]〜ｐi[M,k]の合計値（累積度数）を周波数軸上（縦軸）上で示す画像である。すなわち、相関分布画像６４は、周波数軸上のＫ個の周波数の各々に対応する直線を含んで構成され、第ｋ番目の周波数に対応する１本の直線の全長は、その周波数の自己相関係数ｐi[m,k]をＭ個のフレームについて合計した数値（ｐi[1,k]＋ｐi[2,k]＋……＋ｐi[M,k]）に応じて選定される。
【００５１】
自己相関数列Ａi[m]の時系列（調波構造の時間遷移）がマスキングの前後で変化するほど情報マスキングの効果が大きいという傾向がある。したがって、利用者は、音響信号ｓ2(t)_Aおよび音響信号ｓ2(t)_Bの各々の相関遷移画像６２を音響信号ｓ1(t)の相関遷移画像６２と対比することで、マスカー音ＶM_Aおよびマスカー音ＶM_Bの各々による情報マスキングの効果（自己相関数列Ａi[m]の時系列の異同）を視覚的に把握することが可能である。例えば、図９の例示において、音響信号ｓ2(t)_Aの相関遷移画像６２は、音響信号ｓ2(t)_Bの相関遷移画像６２と比較すると、音響信号ｓ1(t)の相関遷移画像６２との相違が大きい。すなわち、自己相関数列Ａi[m]の時系列がマスキングの前後で変化する度合は、音響信号ｓ2(t)_Bよりも音響信号ｓ2(t)_Aのほうが顕著である。したがって、利用者は、マスカー音ＶM_A（逆転音声）がマスカー音ＶM_B（白色雑音）と比較して情報マスキングに有効であると直観的に判断できる。また、音響信号ｓ2(t)_Aおよび音響信号ｓ2(t)_Bの各々の相関分布画像６４を音響信号ｓ1(t)の相関分布画像６４と対比することで、利用者は、Ｍ個のフレームにわたる長期的な調波構造の変化を、マスカー音ＶM_Aを利用した場合とマスカー音ＶM_Bを利用した場合とについて直観的に把握することが可能である。
【００５２】
＜第５実施形態＞
図１０は、本発明の第５実施形態に係るマスキング装置２００のブロック図である。第５実施形態のマスキング装置２００は、生成方法や大きさ（音圧）が相違する複数種のマスカー音ＶM（ＶM_A，ＶM_B）の何れかを選択して放音する装置であり、第２実施形態や第３実施形態のマスキング解析装置１００に選択部４０と放音装置４２とを追加した構成である。記憶装置１４は、マスカー音ＶM_Aの音声波形を示すマスカー音信号ｖ(t)_Aとマスカー音ＶM_Bの音声波形を示すマスカー音信号ｖ(t)_Bとを記憶する。
【００５３】
第５実施形態の指標算定部２６は、第２実施形態または第３実施形態と同様に、マスカー音ＶM_Aの効果指標αAとマスカー音ＶM_Bの効果指標αBとを算定する。選択部４０は、指標算定部２６が算定した効果指標α（αA，αB）に応じてマスカー音ＶM_Aおよびマスカー音ＶM_Bの何れかを選択する。具体的には、選択部４０は、効果指標αAが小さいマスカー音ＶM（すなわち情報マスキングに有効なマスカー音ＶM）を選択する。そして、選択部４０は、効果指標αに応じて選択したマスカー音ＶMに対応するマスカー音信号ｖ(t)（ｖ(t)_A，ｖ(t)_B）を記憶装置１４から取得して放音装置４２に供給する。放音装置４２（例えばスピーカ装置）は、選択部４０から供給されるマスカー音信号ｖ(t)に応じてマスカー音ＶM（ＶM_A，ＶM_B）を音波として放射する。
【００５４】
第５実施形態においても第１実施形態と同様の効果が実現される。また、第５実施形態では、情報マスキングに有効なマスカー音ＶMが効果指標αに応じて自動的に選択および放音されるから、ターゲット音ＶTをマスキングしようとする利用者の負担を軽減することが可能である。
【００５５】
なお、第５実施形態では、表示制御部２８および表示装置１６を省略することも可能である。選択部４０が効果指標αに応じたマスカー音ＶMを選択して例えば表示装置１６の表示により利用者に報知する構成（すなわち、マスカー音ＶMの放音を要件としないマスカー音選択装置）も採用され得る。また、以上の説明では、２種類のマスカー音ＶM（ＶM_A，ＶM_B）の何れかを選択する場合を例示したが、選択候補となるマスカー音ＶMの種類数は任意である。
【００５６】
＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。
【００５７】
（１）前述の各形態では、効果指標α（αA，αB）を表示装置１６に表示させたが、効果指標αの利用の方法は利用者に対する表示に限定されない。具体的には、第５実施形態のようにマスカー音ＶMの選択に効果指標αを適用する構成のほか、指標算定部２６が算定した効果指標αを音声で出力する構成や効果指標αを用紙に印刷する構成、あるいは通信網を介して他の通信端末に送信する構成も採用される。
【００５８】
（２）第２実施形態から第５実施形態では２種類の音響信号ｓ2(t)（ｓ2(t)_A，ｓ2(t)_B）を例示したが、３種類以上の音響信号ｓ2(t)を用意した構成でも、各音響信号ｓ2(t)について以上の各形態と同様の処理を実行することで、各音響信号ｓ2(t)のマスカー音ＶMによる情報マスキングの効果を評価することが可能である。
【００５９】
（３）第２実施形態から第５実施形態では、音響信号ｓ2(t)_Aと音響信号ｓ2(t)_Bとでマスカー音ＶMの種類を相違させたが、音響信号ｓ2(t)_Aと音響信号ｓ2(t)_BとでＴ/Ｍ比を相違させた構成も採用される。例えば、同種のマスカー音ＶMを相異なるＴ/Ｍ比でターゲット音ＶTのマスキングに適用して音響信号ｓ2(t)_Aおよび音響信号ｓ2(t)_Bを生成した場合、前述の各形態と同様に各音響信号ｓ(t)について効果指標αを算定および評価することで、情報マスキングの有効化という観点から最適なＴ/Ｍ比を特定することが可能である。すなわち、マスカー音の種類およびＴ/Ｍ比の少なくとも一方が相違する複数の音響信号ｓ2(t)の各々について音響信号ｓ1(t)との間で効果指標を算定する構成が好適である。
【符号の説明】
【００６０】
１００……マスキング解析装置、２００……マスキング装置、１２……演算処理装置、１４……記憶装置、１６……表示装置、２２……自己相関算定部、２４……相互相関算定部、２６……指標算定部、２８……表示制御部、３２……区間設定部、３４……周波数分析部、３６……相関分析部。

【特許請求の範囲】
【請求項１】
マスカー音によるターゲット音のマスキングを解析する装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、前記ターゲット音を示す第１音響信号と、前記ターゲット音および前記マスカー音の混合音を示す第２音響信号との各々について時間軸上のフレーム毎に算定する自己相関算定手段と、
前記第１音響信号および前記第２音響信号において相互に対応するフレーム毎に前記第１音響信号の自己相関数列と前記第２音響信号の自己相関数列との相互相関係数を算定する相互相関算定手段と、
前記各フレームについて算定された複数の相互相関係数の代表値を前記マスキングの効果指標として算定する指標算定手段と
を具備するマスキング解析装置。
【請求項２】
前記指標算定手段は、前記複数の相互相関係数の平均値を前記効果指標として算定する
請求項１のマスキング解析装置。
【請求項３】
前記指標算定手段は、前記複数の相互相関係数の所定のパーセンタイル値を前記効果指標として算定する
請求項１のマスキング解析装置。
【請求項４】
前記自己相関算定手段は、前記第１音響信号の自己相関数列と、マスカー音の種類とターゲット音およびマスカー音のエネルギー比との少なくとも一方が相違する複数の第２音響信号の各々の自己相関数列とをフレーム毎に算定し、
前記相互相関算定手段は、前記複数の第２音響信号の各々について前記第１音響信号の自己相関数列と当該第２音響信号の自己相関数列との相互相関係数をフレーム毎に算定し、
前記指標算定手段は、前記複数の第２音響信号の各々について、当該第２音響信号について算定された複数の相互相関係数に応じた前記効果指標を算定する
請求項１から請求項３の何れかのマスキング解析装置。
【請求項５】
周波数軸と時間軸とが設定された領域にて自己相関数列の時系列を示す相関遷移画像と、自己相関数列の各相関値を複数のフレームについて周波数毎に合計した数値の周波数軸上での分布を示す相関分布画像とを、前記第１音響信号と前記第２音響信号との各々について前記表示装置に表示させる表示制御手段と
を具備する請求項１から請求項４の何れかのマスキング解析装置。
【請求項６】
複数種のマスカー音の何れかを選択するマスカー音選択装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、相異なる種類のマスカー音と前記ターゲット音との混合音を示す複数の第２音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、
前記複数の第２音響信号の各々について、当該第２音響信号の自己相関数列と前記第１音響信号の自己相関数列との相互相関係数を相互に対応するフレーム毎に算定する相互相関算定手段と、
前記複数の第２音響信号の各々について、当該第２音響信号の各フレームについて算定された複数の相互相関係数の代表値を前記マスキングの効果指標として算定する指標算定手段と、
前記指標算定手段が算定した効果指標に応じて前記複数種のマスカー音の何れかを選択する選択手段と
を具備するマスカー音選択装置。
【請求項７】
複数種のマスカー音の何れかを利用してターゲット音をマスキングするマスキング装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、相異なる種類のマスカー音と前記ターゲット音との混合音を示す複数の第２音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、
前記複数の第２音響信号の各々について、当該第２音響信号の自己相関数列と前記第１音響信号の自己相関数列との相互相関係数を相互に対応するフレーム毎に算定する相互相関算定手段と、
前記複数の第２音響信号の各々について、当該第２音響信号の各フレームについて算定された複数の相互相関係数の代表値を前記マスキングの効果指標として算定する指標算定手段と、
前記指標算定手段が算定した効果指標に応じて前記複数種のマスカー音の何れかを選択して放音装置から放音する選択手段と
を具備するマスキング装置。
【請求項８】
マスカー音によるターゲット音のマスキングを解析するために、コンピュータに、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、前記ターゲット音を示す第１音響信号と、前記ターゲット音および前記マスカー音の混合音を示す第２音響信号との各々について時間軸上のフレーム毎に算定する自己相関算定処理と、
前記第１音響信号および前記第２音響信号において相互に対応するフレーム毎に前記第１音響信号の自己相関数列と前記第２音響信号の自己相関数列との相互相関係数を算定する相互相関算定処理と、
前記各フレームについて算定された複数の相互相関係数の代表値を前記マスキングの効果指標として算定する指標算定処理と
を実行させるプログラム。

【図１】