説明

音響信号処理装置及び音響信号処理方法

【課題】増幅特性をより良く調整する。
【解決手段】音響信号処理装置100は、出力する音の音量を可変でき、前記音量の変化量に基づいてユーザの聴力特性を測定する聴力測定部40と、聴力測定部40により測定された聴力特性データに応じて、入力信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、前記低音圧レベル領域側から前記中間音圧レベル内の第1の音圧レベルまで順次大きくし、前記第1の音圧レベルから前記高音圧レベル領域側まで順次小さくする出力信号特性を生成し、前記出力信号特性に応じて信号処理を行う信号処理部60とを備え、信号処理部60は、前記第1の音圧レベルを前記聴力特性データに応じて設定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザの聴力特性に応じて信号処理する音響信号処理装置及び音響信号処理方法に関する。
【背景技術】
【0002】
通常のヘッドホンやイヤホン再生では音像が頭の中に定位してしまうので、音像を頭の外に定位させる頭外定位ヘッドホンや頭外定位信号処理がすでに知られている。この技術は、例えば特許文献1に示されるように、予め定位させたい方向における頭部伝達関数を複数そろえ、定位させたい音声信号と畳み込み、さらにヘッドホンと鼓膜間の伝達関数の逆特性を畳み込むことで実現することができる。音声信号がバイノーラル音声、すなわち両耳の鼓膜位置、あるいは鼓膜位置から外耳道入り口付近までの間にマイクをセットして録音した音声信号の場合は、ヘッドホンとマイク間の伝達関数の逆特性を畳み込むことで頭外定位を実現する。
【0003】
しかしながら、頭部伝達関数やヘッドホンと鼓膜間の伝達関数、あるいはヘッドホンとマイク間の伝達関数は、個人の頭部や耳介の形によって異なり、他人の伝達関数では定位効果が低い。また、高齢になると聴力も衰えてくることから、正しい信号が伝わらず定位どころかどんな音かも聴き取れない。
【0004】
そこで、本出願人は、個人の聴力特性に応じて聴感的に聴き取りやすい再生音を得るための技術を提案している(特許文献2参照)。この従来技術では、音声信号を複数の周波数帯域に分割し、各周波数帯域の音圧レベルについて、最小音圧レベルから所定の範囲の低音圧レベル領域、最大音圧レベルから所定の範囲の高音圧レベル領域、その間の中間音圧レベル領域の3つの領域を設ける。そして、低音圧レベル領域側から中間音圧レベル領域内の中間点までは音圧レベルを順次大きくし、中間点から高音圧レベル領域側までは音圧レベルを順次小さくする増幅特性で増幅し、増幅された複数の周波数帯域の音声信号を加算するようになっている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第2924539号公報
【特許文献2】特開2009−077378号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
前記特許文献2に開示される技術によると、個人の聴力特性を考慮した音声提供が可能であるが、より個人の聴力特性に合った、聴き取りやすくて自然な定位感のある再生音を得ることが望まれている。すなわち、高齢化が進むに連れ、より個人の聴力特性を考慮した頭外定位ヘッドホンや、自然な定位感のある聴力補助器の重要性が増している。
【0007】
本発明はこのような課題を解決するためになされたものであり、その目的は、増幅特性をより良く調整することのできる音響信号処理装置及び音響信号処理方法を提供することである。
【課題を解決するための手段】
【0008】
前記課題を解決するために、本発明の実施形態に係る音響信号処理装置(100)は、出力する音の音量を可変でき、前記音量の変化量に基づいてユーザの聴力特性を測定する聴力測定部(40)と、前記聴力測定部(40)により測定された聴力特性データに応じて、入力信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、前記低音圧レベル領域側から前記中間音圧レベル内の第1の音圧レベルまで順次大きくし、前記第1の音圧レベルから前記高音圧レベル領域側まで順次小さくする出力信号特性を生成し、前記出力信号特性に応じて信号処理を行う信号処理部(60)とを備え、前記信号処理部(60)は、前記第1の音圧レベルを前記聴力特性データに応じて設定することを特徴とする。
【0009】
前記音響信号処理装置(100)において、前記聴力測定部(40)は、ユーザの最小可聴レベル(Min)を測定し、前記信号処理部(60)は、前記最小可聴レベルと予め定めた最小可聴レベル(Ref)との差を前記第1の音圧レベルにおけるゲインとしてもよい。
【0010】
前記音響信号処理装置(100)において、前記聴力測定部(40)は、ユーザの最適聴取レベル(Best)を測定し、前記信号処理部(60)は、前記最適聴取レベルに基づいて前記中間音圧レベル領域における前記高音圧レベル領域側の変化点(P2)を設定してもよい。
【0011】
前記音響信号処理装置(100)において、前記聴力測定部(40)は、ユーザの最大許容レベル(Max)を測定し、前記信号処理部(60)は、前記最大許容レベルに基づいて前記中間音圧レベル領域における前記高音圧レベル領域側の変化点(P2)を設定してもよい。
【0012】
前記音響信号処理装置(100)において、前記聴力測定部(40)は、ユーザの最小可聴レベルと最適聴取レベルとを測定し、前記信号処理部(60)は、前記最小可聴レベル、前記最適聴取レベル及び予め定めた最小可聴レベルに基づいて、前記第1の音圧レベルにおけるゲインを求めてもよい。
【0013】
前記課題を解決するために、本発明の実施形態に係る音響信号処理方法は、出力する音の音量を可変でき、前記音量の変化量に基づいてユーザの聴力特性を測定する聴力測定ステップと、前記聴力測定ステップで測定された聴力特性データに応じて、入力信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、前記低音圧レベル領域側から前記中間音圧レベル内の第1の音圧レベルまで順次大きくし、前記第1の音圧レベルから前記高音圧レベル領域側まで順次小さくする出力信号特性を生成し、前記出力信号特性に応じて信号処理を行う信号処理ステップとを備え、前記信号処理ステップでは、前記第1の音圧レベルを前記聴力特性データに応じて設定することを特徴とする。
【発明の効果】
【0014】
本発明によれば、増幅特性をより良く調整することのできる音響信号処理装置及び音響信号処理方法を提供することが可能である。
【図面の簡単な説明】
【0015】
【図1】第1実施形態における音響信号処理装置を示すブロック図である。
【図2】第1実施形態におけるイヤホンとマイクの概観図である。
【図3】第1実施形態における聴力測定部の動作を示すフローチャートである。
【図4】第1実施形態における操作部の概観図である。
【図5】第1実施形態における再生信号処理部の詳細を示すブロック図である。
【図6】第1実施形態におけるゲインカーブの特徴を示す図である。
【図7】第1実施形態における聴力測定部により測定された聴力特性データの最小可聴レベルとリファレンスである最小可聴レベルの一例を示す図である。
【図8】第1実施形態におけるゲインカーブの特徴を示す図である。
【図9】第2実施形態におけるゲインカーブの特徴を示す図である。
【図10】第2実施形態におけるゲインカーブのパラメータを示す図である。
【図11】第3実施形態における音響信号処理装置を示すブロック図である。
【図12】第3実施形態における再生信号処理部の詳細を示すブロック図である。
【図13】第3実施形態における騒音レベル分析部の動作を示すフローチャートである。
【図14】他の(または第4)実施形態におけるゲインカーブの特徴を示す図である。
【発明を実施するための形態】
【0016】
以下、本発明の音響信号処理装置及び方法の各実施形態について、添付図面を参照して説明する。各実施形態をハードウェア構成のブロック図を用いて説明するが、各実施形態の一部をソフトウェアとして構成してもよい。ソフトウェアとして構成することが可能な部分を全てソフトウェアで構成してもよく、ハードウェアとソフトウェアの使い分けは任意でよい。
【0017】
<第1実施形態>
図1は、第1実施形態における音響信号処理装置100を示すブロック図である。この音響信号処理装置100は、ユーザの聴力特性に応じて信号処理する頭外定位ヘッドホン等であって、マイク10と、イヤホン20と、インパルス応答測定部30と、聴力測定部40と、操作部50と、再生信号処理部60と、データ入出力部70と、メモリ80とを備えている。マイク10及びイヤホン20は、図2に示すように、左右2チャンネルをもち、一体化している。インパルス応答測定部30は、出力端子1からパルスを出力し、マイク10で受けた信号をスイッチ2aを介して取り込む。聴力測定部40は、測定音を出力し、ユーザの聴力特性を測定する。ユーザは、スイッチ3aを介してイヤホン20から出た測定音が聴こえるかどうかを判断して操作部50のボタンを操作する。操作部50では、聴こえてくる測定音の音量を可変したり、その時のレベルを決定することができる。これらの操作内容は聴力測定部40に通知されるようになっている。データ入出力部70は、インパルス応答測定部30や聴力測定部40で得られた結果を受けとってメモリ80に保存したり、再生信号処理部60にデータを渡したりする。再生信号処理部60には、スイッチ2b及び4aを介してマイク10から音声信号が入力され、また、スイッチ4bを介してDVDプレーヤやテレビチューナーなどから音声信号が入力される。再生信号処理部60は、聴力測定やインパルス応答測定で得られた結果をもとに信号処理し、音響信号を出力する。これにより、ユーザにとって聴きやすい自然な定位の音がスイッチ3bを介してイヤホンから再生される。
【0018】
以下、音響信号処理装置100の構成をさらに詳細に説明する。インパルス応答測定部30は、ユーザの頭部伝達関数を測定するものである。ブルーレイディスクなどのマルチチャンネル音声ディスクを試聴するためには、7個のスピーカ配置(L,R,C,SL,SR,SBL,SBR)と試聴位置間の頭部伝達関数の測定が必要である。この測定では、図示されないアンプ及びスピーカを部屋の所望の場所に設置し、出力端子1をそのアンプに接続する。ユーザは、試聴位置にてイヤホン20を両耳にしっかりと装着する。こうすることでマイク10が耳介内にセットされる。測定が開始されると、インパルス応答測定部30からインパルスが出力され、図示されないアンプ及びスピーカからインパルス音が出力される。インパルスとは、時間t=t1において振幅最大、t≠t1で振幅0の信号である。インパルス応答測定部30は、マイク10で受けた左右2チャンネルの信号をそれぞれ保存する。部屋の大きさや残響時間によって保存する信号の長さを変えてもよい。また、S/N比を良くするために同期加算してもよい。測定方法はこの方法に限ることなく、TSP法やクロススペクトル法などを採用することもできる。このようにして、各スピーカ配置にて左右の頭部伝達関数HLl、HLr、HRl,HRr,HCl,HCr,HSLl、HSLr,HSRl,HSRr,HSBLl,HSBLr,HSBRl,HSBRrを測定する。測定で得られた頭部伝達関数データはデータ入出力部70によりメモリ80に保存される。
【0019】
自然な定位感を得るには、個人差がもっとも出る高い周波数において忠実な再生が必要である。したがって、先に測定された頭部伝達関数を忠実に再現すればよいのだが、高齢になるにつれ、一般的に高い周波数の聴力が衰えてしまう。ハードウェアがいくら忠実に再現できても、その音が聴こえなければ定位感は損なわれるのである。
【0020】
そこで、聴力測定部40は、個人差の大きい高い周波数領域、ここでは1kHz〜8kHzにおいて聴力測定を行う。測定時、0dBFS(FSはフルスケールを意味する)の信号が、音圧レベル100dB(以降、音圧レベルはdBの後にSPLと表示)の音量でイヤホン20から出るよう聴力測定部40の図示されないアンプのボリュームが設定される。100dBSPLという値は一例であり、難聴度合いに応じてさらに上げてもよい。
【0021】
図3は、聴力測定部40の動作を示すフローチャートである。図4は、操作部50の概観図である。以下、これらの図を用いて聴力測定時の動作を詳細に説明する。
【0022】
まず、聴力測定部40はステップS1にて所定の周波数の純音をイヤホン20からフルスケール(0dBFS)より小さい音量(−XdBFS,ここではX=30)で出力する。例えば、まず1kHzの純音を出力する。ユーザは、イヤホン20から出力される音量が、大きくもなく小さくもなくちょうど良い音量になるまで操作部50の上下ボタン51を押して音量を可変する。聴力測定部40は操作部50から送られる信号に基づいて上下ボタン51が押し下げられたか否かを判断する。(ステップS3:Yes、ステップS4に進む)。
【0023】
ユーザは、上下ボタン51の操作によりちょうど良い音量となると操作部50のOKボタン52を押す。聴力測定部40は操作部50からOKボタン52が押されたことを示す信号を取得すると(ステップS2:YES)、信号取得時点での音圧レベルをユーザの最適聴取レベルBestとして音圧レベル(dBSPL)の値で図示されない内部メモリに一時保存する(ステップS5)。1kHzの純音を出力した際のユーザの最適聴取レベルはBest1kとする。
【0024】
続いて聴力測定部40は、ステップS1にて2kHzの純音を出力し、ステップS2〜ステップS4を経てユーザの最適聴取レベルBest2kを取得し、保存する。同様にして、4kHzにおけるユーザの最適聴取レベルBest4k、8kHzにおけるユーザの最適聴取レベルBest8kを取得する。
【0025】
続いて聴力測定部40は、ユーザの最小可聴レベルを求める。上述した最適聴取レベルBestを取得する動作と同様の動作フローにて行う。最初にステップS1にて、1kHzの純音を出力する。ユーザは、聴こえるぎりぎりのレベルの音量になるまで、操作部50の上下ボタン51を押して音量を可変する。聴力測定部40は操作部50から送られる信号に基づいて上下ボタン51が押し下げられたか否かを判断する(ステップS3:Yes、ステップS4に進む)。そしてユーザは、音が聴こえるぎりぎりのレベルになったら操作部50のOKボタン52を押す。聴力測定部40は操作部50からOKボタン52が押されたことを示す信号を取得すると(ステップS2:YES)、聴力測定部40は、このときの音圧レベルをユーザの最小可聴レベルMinを音圧レベル(dBSPL)の値で図示されない内部メモリに一時保存する。1kHzの純音を出力した際のユーザの最小可聴レベルはMin1kとする。
【0026】
同様に聴力測定部40は、ステップS1にて2kHzの純音を出力し、ステップS2〜ステップS4を経てユーザの聴こえるぎりぎりの音圧レベルである最小可聴レベルMin2kを取得し、一時保存する。このようにして、4kHz,8kHzについても、ユーザの最小可聴レベルMin4k、Min8kを求める。
【0027】
以上にて測定を終了する。聴力取得部40が取得したBest1k、Best2k、Best4k、Best8k、Min1k、Min2k,Min4k,Min8k(以降、この8つのデータをまとめて「聴力特性データ」と呼ぶ)は、データ入出力部70に送られ、メモリ80に保存される。
【0028】
図5は、再生信号処理部60の詳細を示すブロック図である。再生信号処理部60は、聴力特性データを利用してユーザの聴力特性に合わせた聴きやすい音響信号を生成する。すなわち、BDプレーヤ等の音声出力信号は、入力端子4からスイッチ4bを介して再生信号処理部60に入力される。その際、音声信号がドルビーデジタルなどのストリームの場合は、図示されないデコーダで復調処理され、7.1チャンネルの信号に分離される。WFチャンネルを除く7チャンネルの信号は畳み込み部61に入力される。一方、データ入出力部70は、メモリ80から頭部伝達関数データHLl、HLr、HRl,HRr,HCl,HCr,HSLl、HSLr,HSRl,HSRr,HSBLl,HSBLr,HSBRl,HSBRrを読み出し、畳み込み部61へ渡す。畳み込み部61は、L信号とHLl、HLr、R信号とHRl,HRr,・・・のように、各信号に対して両耳の頭部伝達関数を畳み込んで、計14チャンネルの信号を加算部62に出力する。加算部62は、左耳のチャンネル同士、右耳のチャンネル同士を加算し、2チャンネルの信号にする。復調後のWFチャンネル信号は増幅器63にて増幅され、分岐された後、加算器64aにて左右2チャンネルの信号に加算される。次に、帯域分割部65は、左右2チャンネル各々について、750Hz以下の低域と、中心周波数が1kHz、2kHz、4kHzのオクターブ帯域と、8kHz以上の高域の5帯域に分割する。そして、音圧レベル増幅部66は、ユーザの聴力特性データから得られたゲインカーブに基づいて音圧レベルを増幅する。さらに、加算部67は、5帯域の信号を加算し、再び左右2チャンネルの信号として出力する。
【0029】
音圧レベル増幅部66は、メモリ80に保存された聴力特性データをデータ入出力部70から受け取り、図6に示すゲインカーブを特徴とするダイナミックレンジ圧縮を行う。このダイナミックレンジ圧縮では、各周波数帯域の音圧レベルについて、最小音圧レベルから最小音圧レベルよりも大きい音圧レベル(第1の音圧レベル)までの所定の範囲の低音圧レベル領域R1、最大音圧レベルから最大音圧レベルよりも小さい音圧レベル(第2の音圧レベル)までの所定の範囲の高音圧レベル領域R2、その間(第1の音圧レベルから第2の音圧レベルまで)の中間音圧レベル領域R3の3つの領域を設ける。
【0030】
図6のゲインカーブは、低音圧レベル領域R1と高音圧レベル領域R2とにおいては、入力信号を増幅させない非増幅領域とすることが好ましい。低音圧レベル領域R1と高音圧レベル領域R2とを非増幅領域とすることにより、楽曲の音楽性をほとんど損ねることがない。低音圧レベル領域R1と高音圧レベル領域R2との間の中間音圧レベル領域R3においては、破線で示す非増幅の状態を実線で示す特性で増幅させた状態とする増幅領域としている。図6に示すように、増幅領域である中間音圧レベル領域R3においては、低音圧レベル領域R1側である点P1から中間音圧レベル領域R3内の中間点である変曲点Piまでは入力信号の音圧レベルが大きくなるに従って増幅度を順次大きくし、変曲点Piから高音圧レベル領域R2側である点P2までは入力信号の音圧レベルが大きくなるに従って増幅度を順次小さくする特性となっている。図6では、点P1から変曲点Piまで線形に増幅度を大きくし、変曲点Piから点P2まで線形に増幅度を小さくする例を示している。
【0031】
ここで、本実施形態では、ゲインカーブのパラメータをユーザの聴力特性データに応じて設定するようになっている。具体的には、再生信号処理部60は、聴力測定部40により測定された聴力特性データの最小可聴レベルMinとリファレンスである最小可聴レベルRefとの差を点Piにおける最大ゲインGaに設定する。また、周波数ごとに、高音圧レベル領域R2と中間音圧レベル領域R3の境界をユーザの最適聴取レベルBestに設定する。
【0032】
図7は、聴力測定部40により測定された聴力特性データの最適聴取レベルBest、最小可聴レベルMinとリファレンスである最小可聴レベルRefの一例を示す図である。ここで最小可聴レベルRefは、40歳台の健聴者の最小可聴レベルRefを例示している。
【0033】
1kHzにおけるユーザの最小可聴レベルMin1kが40dBSPLということは、健聴者が聴こえているはずの20dBSPL(最小可聴レベルRef1k)の音では+20dB上げないと音が聴こえない、ということである。したがって図8(a)に示す、−80dBFSの入力信号を+20dB増幅させた信号を出力するゲインカーブを作成する。ここで、本実施形態は100dBSPL=0dBFSのシステムであるため、20dBSPLは−80dBFSである。20dB増幅させると、出力信号は−60dBFSとなる(40dBSPL=−60dBFS)。
【0034】
すなわち、変曲点Piは入力信号が−80dBFSで、最大ゲインGa=20dBとなる点である。そして図7より1kHzにおける最適聴取レベルBest1kが70dBSPLであるので70dBSPL以上の音が入力された場合は増幅しない、つまり0dBの増幅をする。したがって中間音圧レベル領域R3の中間音圧レベル領域R3と高音圧レベル領域R2の境界である点P2は−30dBFSとなる。このようにして、1kHz帯域のゲインカーブは図8(a)のように決定される。他の帯域についても同様、2kHz帯域のゲインカーブは図8(b)のように決定され、4kHz帯域のゲインカーブは図8(c)のように決定され、8kHz帯域のゲインカーブは図8(d)のように決定される。8kHz帯域では図7に示すようにユーザの最小可聴レベルMin8kが健聴者の最小可聴レベルRef8kと同じであるため、最大ゲインGa=0dB増幅となり、ゲインカーブは直線となる。高齢者は高い周波数で補充現象を起こしやすいので、この例のように最適聴取レベルBest8kが他の帯域より低くなる場合がある。今回、中間音圧レベル領域R3における低音圧レベル領域R1側の端部である点P1(以降、単に「P1点」または「P1」という。)は16ビット量子化の最小値−90dBFSとした。高音圧レベル領域R2側の端部である点P2(以降、単に「P2点」または「P2」という。)は聴力測定で求めた最適聴取レベルBestで決定したが、「ちょうど良い音量」を決定することがユーザにとって難しいときは、たとえば1kHz、70dBSPLと同じ大きさに感じる各周波数の音圧レベルを求めてP2とすることで、より聴力特性に合った音声を届けることができる。
【0035】
以上のように、本実施形態によれば、ゲインカーブのパラメータをユーザの最小可聴レベルMinや最適聴取レベルBestに応じて設定するようにしているので、増幅特性をより良く調整することができる。このようにして生成された音響信号は、部屋にマルチチャンネルスピーカ再生した場合の信号をユーザの頭部や耳介だけでなくユーザの聴力も考慮して忠実に再現しているので、ユーザにとって聴こえやすく自然な定位で楽しむことができる。これにより、ユーザは聴き疲れしにくいので、長時間の聴取を十分に楽しむことが可能である。
【0036】
なお、本実施形態では、聴力測定を両耳聴にて行ったが、左右別々に行ってもよい。その場合は、左右で異なるゲインカーブを使ったダイナミックレンジ圧縮が行われる。
【0037】
<第2実施形態>
本実施形態では、音響信号処理装置100を集音器として使用する場合について説明する。基本構成は図1と変わらない。第1実施形態と異なる点は、(1)聴力測定の内容、(2)マイク10で集音された音を再生信号処理部60に入力し、帯域別のより細かな音圧レベルに増幅する点、(3)音像を頭外に定位させて自然な音場となるようイヤホン20の特性補正を行う点である。以下、この3点について説明する。
【0038】
聴力測定部40は、測定が開始されると、操作説明のガイド音声を約70dBSPLでイヤホン20から出力する。ユーザは、はっきりと聴こえる音量になるまで操作部50の上下ボタン51を押して音量を可変する。聴力測定部40は、この音量レベルの変化量をデータ入出力部70に送る。次に、左耳から最小可聴レベルの測定を始める。250Hz,500Hz,1kHz,2kHZ,4kHz、8kHzの純音をランダムにレベル可変してもよいし、順にレベルを下げてもよい。測定時間を短縮するため、ある集団の最小可聴レベルを正規分布にのせ、2分木法で提示してもよい。
【0039】
ユーザは、音が聴こえたら操作部50のOKボタン52を押す。聴力測定部40はOKボタン52が押された最小のレベルを最小可聴レベルデータとしてデータ入出力部70に送る。右耳も同じように聴力測定部40が最小可聴レベルを測定し、右耳の最小可聴レベルデータを取得する。最小可聴レベルの測定が終わったら、最大許容レベルを測定する。ユーザは各周波数ごとに上下ボタン52を押して大きいと感じるレベルにてOKボタン52を押す。これも左右について測定を行う。聴力測定部40はOKボタン52が押された最大のレベルを最大許容レベルデータとしてデータ入出力部70に送る。最小可聴レベルデータ及び最大許容レベルはメモリ80に保存される。ここで、ガイド音声の可変レベルをLg、最小可聴レベルをMin(i)dBFS(ただし、iは帯域ナンバー0(250Hz)〜6(8kHz))、最大許容レベルをMax(i)dBFS(ただし、iは帯域ナンバー0〜6)とする。
【0040】
音圧レベル増幅部66におけるダイナミックレンジ圧縮の入出力特性としては、図9に示すように、高音圧レベル領域R2の増幅が音圧レベルP3以下に抑えられるようなゲインカーブが使用される。この場合のパラメータは、聴力測定結果に基づいて図10のように設定される。図10中のRefmin(i)は健聴者の最小可聴レベル、Ref70phonは健聴者の70phonの等感曲線データをFSスケールに変換したもの(このシステムでは校正によって0dBFS=100dBSPL)、iは帯域ナンバーである。70phonという大きさは、健聴者にとって大きくもなく小さくもないちょうど良い大きさである。ガイド音声の音量調整は、ユーザにとってちょうど良いレベルに決定していることになる。図9に示すゲインカーブはP2以上の高音圧レベル領域R2では指数関数の特性を有する曲線となる。P2以上の入力信号では、P2からP2以上の所定の入力信号の音圧レベル(以下、入力音圧レベル)(dBSPL)までは、出力信号の音圧レベル(以下、出力音圧レベル)を圧縮することなく入力音圧レベルと同じレベルで提供するが、所定の入力音圧レベルを超えると入力音圧レベルが増大するに連れて出力音圧レベルがP3に限りなく近づくような指数関数曲線(漸近線がy=P3となるようなy=A、Aは正の数)に沿った増幅特性とする。つまり、ユーザは音圧レベルP3を最大許容レベルとしているため、それ以上の増幅はしないような特性とする。なお、より簡単な増幅特性として入力音圧レベルP2からP3までは出力音圧レベルを圧縮することなく提供し、P3以上の入力音圧レベルでは、出力音圧レベルを一定(P3)とする直線的な増幅特性を採用してもよい。
【0041】
第1実施形態では、中間点Piを健聴者の最小可聴レベルRefに設定したが、入力音がマイク集音の場合、最小可聴レベルの音を増幅すると非常にうるさくなる。そこで本実施形態では、Piの初期値は静かな会話音(50dBSPL)を対象にしており、−50dBFSに設定している。
【0042】
このような入出力特性が決定された後、あらかじめメモリ80に保存しておいたイヤホン20の周波数特性の逆特性をデータ入出力部70が読み出し、畳み込み部61が畳み込み処理を行う。この処理により、イヤホン固有の特性がキャンセルされるので、集音された音がユーザの聴力特性を考慮して補正され、忠実な音声信号が耳に届けられる。これにより、聴き取りやすく自然な定位感が感じられることになる。
【0043】
なお、本音響信号処理装置100で測定したデータを別の音響機器でも利用できるように、データ入出力部70にUSB端子等を設けてデータのコピーを可能としてもよい。このようにすれば、マイク10や測定機能のないテレビやオーディオアンプなどの音響機器でも、再生信号処理さえ備わっていれば常にユーザの聴力特性に合わせた音響信号を提供することができる。
【0044】
<第3実施形態>
ところで、従来の音響信号処理装置によると、集音器などのマイク収録音を対象とした場合はノイズが強調され、逆に聴きにくくなってしまっていた。そこで、本実施形態では、この問題を解決するために、以下の手法を採用している。
【0045】
図11は、第3実施形態における音響信号処理装置100を示すブロック図である。この音響信号処理装置100は、ユーザの聴力特性に応じて信号処理する集音器等であって、マイク10と、イヤホン20と、聴力測定部40と、操作部50と、再生信号処理部60aと、データ入出力部70と、メモリ80と、騒音レベル分析部90とを備えている。マイク10は、その場の音を集音して分岐し、一方を騒音レベル分析部90に送り、他方を再生信号処理部60aに送る。騒音レベル分析部90は、いわゆる暗騒音(聴きたい音以外の音)の騒音レベルや、聴きたい音(ここでは話し相手の会話音)の騒音レベルを分析する。分析された結果は、騒音レベルデータとしてデータ入出力部70に送られ、メモリ80に保存される。再生信号処理部60aは、メモリ80に保存されている騒音レベルデータに応じて信号処理する。その他の処理部は、第1または第2実施形態と基本的に同じである。
【0046】
以下、本実施形態における音響信号処理装置100の構成をさらに詳細に説明する。まず、マイク10及びイヤホン20の校正が必要である。すなわち、マイク10については、音圧レベル100dBSPLが0dBFSとなるようマイクアンプが調整されている。また、0dBFSの信号が再生されたときのイヤホン出力音圧レベルを測定しておく。たとえば、250Hzから8kHzまでの純音を再生し、オクターブごとに測定する。この値がわかると、ユーザの最小可聴レベルを音圧レベルで知ることができる。この作業は工場出荷時に行えばよい。
【0047】
ユーザは、音響信号処理装置100で自分の聴力を測定する。測定が開始されると、データ入出力部70は、操作方法を説明するガイドデータをメモリ80より読み出し、聴力測定部40に送る。このガイドデータは約−30dBFSのレベルであり、イヤホン20で聴くと70dBSPLで再生される。健聴者にとっては音量的に大きくもなく小さくもないごく普通のレベルであるが、難聴者は少し小さいと感じるかもしれない。ユーザは操作部50の上下ボタン51を押し、イヤホン20から出力されるガイドデータの音声レベルを可変することができる。ユーザは聴こえやすい音量になったら、操作部50のOKボタン52を押し、聴力測定部40はOKボタン52が押されると測定を始める。このときのガイドデータのレベル変量(70dBSPLからの)は聴力測定部40からデータ入出力部70に送られる。聴力測定部40は250Hzから8kHzまでオクターブごとに様々なレベルで音を提示し、ユーザは、聴こえたら操作部50のOKボタン52を押す。聴こえない場合は、OKボタン52は押されない。聴力測定部40がランダムに提示したレベルのうち、OKボタン52が押されたレベルの最小値がユーザの最小可聴レベルである。左耳の測定が終わったら右耳の測定を続けて行う。ここでは、測定時間を無駄に長くしないため、聴力測定部40は過去のデータを用いて2分木法で提示するレベルを決定している。すなわち、ある集団で最小可聴レベルを測定した結果を正規分布にのせ、中間値を第1提示、聴こえた場合はさらにレベルの小さい方の中間値を第2提示とする。一方で第1提示した値をユーザが聴きとれない場合は第1提示した値よりレベルの大きい方の中間値を第2提示とする。すると、早い人で3〜4回、母集団の端の人でも7〜8回の音の提示で一つの周波数の最小可聴レベルを決定することができる。最小可聴レベルが決定されると、聴力測定部40は測定データをデータ入出力部70に送る。
【0048】
図12は、第3実施形態における再生信号処理部60aの詳細を示すブロック図である。帯域分割部65は、マイク10によって集音された音声信号を帯域分割する。音圧レベル増幅部66は、帯域ごとにダイナミックレンジ圧縮を行う。ダイナミックレンジ圧縮は人の聴力特性の高齢化に合わせたもので、小さい音は聴こえるレベルまで増幅し、大きい音は補充現象が起きるため、増幅率は徐々に落としていく。
【0049】
第1実施形態では、最小可聴レベルは聴こえるぎりぎりの音量であるので、健聴者の最小可聴レベルに対してその差分だけ振幅を増幅すればよいと考え、健聴者の最小可聴レベルRefとユーザの最小可聴レベルMinとの差を最大ゲインGaとした。しかしながら、実際に動作させると小さかった空調ノイズや暗騒音が非常に大きくなり、一番聴きたかった話し相手の声と暗騒音などが同等の音圧レベルとなるため、会話が聴き取りにくいことがわかった。そのためなるべく暗騒音は増幅せず、相手の会話音の音圧レベル付近を最大限に増幅するために、CDや放送などの音声信号とは異なるマイク音声ならではの設定方法が必要である。
【0050】
そこで、本実施形態では、中間点PiとP1を決定するために、騒音レベル分析部90はマイク10から入力された信号を分析し、周波数帯域ごとに暗騒音の音圧レベルと会話音の音圧レベルを求める。騒音レベル分析部90は暗騒音であるか否かをピッチ抽出ができたかどうかで判断することができる。つまり、ピッチ抽出ができればその信号区間は会話音であり、ピッチ抽出ができなければその区間は暗騒音のみである。
【0051】
図13は、騒音レベル分析部90の動作を示すフローチャートである。騒音レベル分析部90は、フレーム処理を行っており、例えば1フレームはサンプリング周波数32kHzに対し、320サンプルである。この値は会話音声の振幅変動幅が10ミリ秒以下であることから決定したが、帯域毎に振幅の変動幅をみて決定しても良いし、暗騒音の特徴から決定しても良い。また本実施形態の騒音レベル分析部90では5フレーム毎の平均音圧レベルを求めてPiを決定しているが、平均を求めるためのフレーム数はこれに限ったものではなくその場の音の環境に応じて変更してよい。ここでは暗騒音と会話音の音圧レベルからPiを求めることが目的であるから、例えば朗読のような長い時間にわたって音声が続く場合は暗騒音のみの時間が少ないので、暗騒音部分が確実に確保できるように比較的大きなフレーム数にすると良い。
【0052】
騒音レベル分析部90は、まず初期化を行う(ステップS11)。Timeは平均を取った回数、Lnsum[j]、Lvsum[j]はそれぞれ、帯域番号jにおける暗騒音、会話音の音圧レベルの合計、Ln[j],Lv[j]は暗騒音、会話音の帯域番号jにおける1フレーム内の音圧レベルの合計、Lnave[j],Lvave[j]は帯域番号jの暗騒音、会話音の平均レベルである。
【0053】
続くステップS12にてTimeを1加算し(例えばTime=0からTime=1となる)、Time(=1)フレーム目のピッチ抽出を行う(ステップS13)。ピッチ抽出ができた場合は(ステップS14:YES)、その区間を会話音とみなして帯域分割を行う(ステップS15)。次に、帯域jごとにフレームの会話音の音圧レベルLv[j]を求め(ステップS16)、Time(=1)フレームまでの会話音の平均レベルLvave[j]を求める(ステップS17)。
【0054】
一方、ステップS14でピッチ抽出ができなかった場合は(ステップS14:NO)、その区間を暗騒音とみなし、この場合も帯域分割を行う(ステップS18)。同じく帯域jごとにフレームの暗騒音の音圧レベルLn[j]を求め(ステップS19)、Time(=1)フレームまでの暗騒音の平均レベルLnave[j]を求める(ステップS20)。Timeが5の倍数であると判断すると(Time%5=0)(ステップS21:YES)暗騒音レベルと会話音レベルの平均をその帯域jの点Piとする(ステップS22)。このようなPiを変曲点Piに設定すると、ちょうど会話音レベルと暗騒音レベルの間に変曲点Piがくる。そのため、音量の小さい会話音はしっかりと増幅され、暗騒音は会話音に比べ小さい増幅率もしくは増幅率1として増幅されることになる。Timeが5の倍数でない場合は(ステップS21:NO)ステップS12に戻り、ステップS12にてTimeが1増加され、次のフレームのピッチ抽出に移る(ステップS13)。このようにして5回に一回の割合で点Piを更新していく。
【0055】
次に、P1の設定について説明する。先に変曲点Piは暗騒音の平均レベルと会話音の平均レベルの中間値に設定したから暗騒音は会話音に比べれば小さい増幅率になると述べた。しかし暗騒音が瞬間的に大きな音になった場合やダイナミックレンジが広い変動騒音の場合は、フレーム単位ごとに音が大きく増幅されたり増幅されなかったりするので断続ノイズのように聴こえてしまう。そこで、本実施形態では、中間点Piから緩やかな傾斜で低音圧レベル領域R1に達するレベル(Pi−15dB〜Pi−20dB程度)をP1に設定することとしている。点P1から中間点Piへの増幅が緩やかな増幅でない場合、処理フレーム毎に騒音の音量が大きすぎたり小さすぎたりするおそれがある。これは、増幅の変化がフレーム毎に激しくなり、騒音が連続的な音でなく断続的な音になるためである。点P1を中間点Piより15dB〜20dB程度小さい値に設定することで、騒音の増幅を極力おさえる(カットする)、あるいは騒音の増幅が生じてもその増幅率が小さいものにでき、各フレームで音量の変化を少なくできる効果が得られた。なお、20dB以上小さい値、例えば中間点Piから30dB小さい値(P1=Pi−30)とした場合、騒音そのものが増幅されてしまった。
【0056】
騒音レベル分析部90は、このように帯域ごとに中間点Pi及びP1を計算し、データ入出力部70にこれらのデータを送る。データ入出力部70は、騒音レベル分析部90から受け取ったデータをメモリ80に保存する。再生信号処理部60aは、入力された音声信号を帯域分割部65で帯域分割し、データ入出力部70より受け取った帯域毎のP1,Pi,Ga,P2,P3を、音圧レベル増幅部66の各パラメータに設定し、これらのパラメータに特徴付けられたゲインカーブにしたがって音圧レベル増幅部66にて音圧が増幅された後、加算部67で各帯域が加算され、左右2チャンネルの信号に戻されてイヤホン20に出力される。
【0057】
以上のように、本実施形態によれば、ゲインカーブのパラメータを周囲の騒音レベル及び会話音レベルに応じて設定するようにしているので、増幅特性をより良く調整することができる。すなわち、なるべく暗騒音は増幅せず相手の会話音付近を最大限に増幅することができる。これにより、ユーザは聴き疲れしにくいので、長時間の聴取及び会話を十分に楽しむことが可能である。
【0058】
最大ゲインGaの他の設定方法を図14を用いて説明する。第1実施形態では、ユーザの最小可聴レベルMinと健聴者の最小可聴レベルRefとの差を最大ゲインGaとしたが、以下の方法で最大ゲインGaを設定してもよい。
【0059】
一実施例として、所定の周波数帯域におけるユーザの最小可聴レベルMinが−40dBFS、健聴者の最小可聴レベルRefが−70dBFS、ユーザの最適聴取レベルBestが70dBSPLである場合、まず高音圧レベル領域R2の境界である点P2は−30dBFSに設定される。点P1については、第1実施形態と同様の値とした。次に、変曲点Piを上述した方法である会話音レベルと暗騒音レベルの平均レベルに設定する。本実施例では平均レベルは−65dBFSとする。続いて、ユーザの最小可聴レベルMinと健聴者の最小可聴レベルRefとを結んだ線分と、ユーザの最小可聴レベルMinと点P2(最適聴取レベルBest)とを結んだ線分とからなる仮特性線を設定し、仮特性線上から求められる会話音レベルと暗騒音レベルの平均レベルでの出力信号の値との差を、最大ゲインGaとする。すなわち、本実施例においては入力信号が−65dBFSの仮特性線上での出力信号は−38dBFSとなり、その差である27dBFSが最大ゲインGaとなる。
【0060】
このように求めた各点、変曲点Pi(入力信号−65dBFS、出力信号−38dBFS)と点P2(入力信号、出力信号共に−30dBFS)と、点P1(入力信号、出力信号共に−90dBFS)とを結んだゲインカーブに基づいて出力信号の特性を調整してもよい。
【符号の説明】
【0061】
1 出力端子
2 マイク入力端子
3 イヤホン接続端子
4 オーディオ入力端子
10 マイク
20 イヤホン
30 インパルス応答測定部
40 聴力測定部
50 操作部
60 再生信号処理部
61 畳み込み部
62 加算部
63 増幅器
64 加算器
65 帯域分割部
66 音圧レベル増幅部
67 加算部
70 データ入出力部
80 メモリ
90 騒音レベル分析部

【特許請求の範囲】
【請求項1】
出力する音の音量を可変でき、前記音量の変化量に基づいてユーザの聴力特性を測定する聴力測定部と、
前記聴力測定部により測定された聴力特性データに応じて、入力信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、前記低音圧レベル領域側から前記中間音圧レベル内の第1の音圧レベルまで順次大きくし、前記第1の音圧レベルから前記高音圧レベル領域側まで順次小さくする出力信号特性を生成し、前記出力信号特性に応じて信号処理を行う信号処理部とを備え、
前記信号処理部は、前記第1の音圧レベルを前記聴力特性データに応じて設定する
ことを特徴とする音響信号処理装置。
【請求項2】
前記聴力測定部は、ユーザの最小可聴レベルを測定し、
前記信号処理部は、前記最小可聴レベルと予め定めた最小可聴レベルとの差を前記第1の音圧レベルにおけるゲインとすることを特徴とする請求項1記載の音響信号処理装置。
【請求項3】
前記聴力測定部は、ユーザの最適聴取レベルを測定し、
前記信号処理部は、前記最適聴取レベルに基づいて前記中間音圧レベル領域における前記高音圧レベル領域側の変化点を設定することを特徴とする請求項1または2記載の音響信号処理装置。
【請求項4】
前記聴力測定部は、ユーザの最大許容レベルを測定し、
前記信号処理部は、前記最大許容レベルに基づいて前記中間音圧レベル領域における前記高音圧レベル領域側の変化点を設定することを特徴とする請求項1記載の音響信号処理装置。
【請求項5】
前記聴力測定部は、ユーザの最小可聴レベルと最適聴取レベルとを測定し、
前記信号処理部は、前記最小可聴レベル、前記最適聴取レベル及び予め定めた最小可聴レベルに基づいて、前記第1の音圧レベルにおけるゲインを求めることを特徴とする請求項1記載の音響信号処理装置。
【請求項6】
出力する音の音量を可変でき、前記音量の変化量に基づいてユーザの聴力特性を測定する聴力測定ステップと、
前記聴力測定ステップで測定された聴力特性データに応じて、入力信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、前記低音圧レベル領域側から前記中間音圧レベル内の第1の音圧レベルまで順次大きくし、前記第1の音圧レベルから前記高音圧レベル領域側まで順次小さくする出力信号特性を生成し、前記出力信号特性に応じて信号処理を行う信号処理ステップとを備え、
前記信号処理ステップでは、前記第1の音圧レベルを前記聴力特性データに応じて設定する
ことを特徴とする音響信号処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2012−213113(P2012−213113A)
【公開日】平成24年11月1日(2012.11.1)
【国際特許分類】
【出願番号】特願2011−78547(P2011−78547)
【出願日】平成23年3月31日(2011.3.31)
【出願人】(308036402)株式会社JVCケンウッド (1,152)
【Fターム(参考)】