説明

音声処理装置、及び、音声処理方法

【課題】残響下でスピーカに音声信号を供給して放音する場合において、受話者に到達した際の残響による聞き取りづらさを軽減させることが可能な音声処理装置を提供する。
【解決手段】音声信号を周波数領域に変換する帯域分割部121と、帯域分割部121により周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部122と、ゲイン調整部122によりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する帯域合成部123と、帯域合成部123により時間領域に変換された音声信号をスピーカ1cに出力するD/A変換器13とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、残響下に設置されたスピーカにより放音する音声信号に対して、音声信号処理を施す音声処理装置、及び、音声処理方法に関するものである。
【背景技術】
【0002】
防災放送や館内放送などは、マイクで収音した音声を、スピーカを用いて放音している。しかし、防災放送や館内放送などを受話者が聞く際には、スピーカから受話者に直接届く音声に残響が畳み込まれるため、送話者の発話内容が聞きづらいことがある。これは、スピーカから放音された音がさまざまな反響経路を経て、さまざまな遅延を持って受話者に到達するためである。
【0003】
このような問題に対応するため、送話者がゆっくり発話するという対策が用いられている。これは、送話者の発話の直接音と残響が重なるのを少しでも軽減するためである。
【0004】
また、特許文献1には、通話相手の音声信号の時間軸を変更する話速変換部を有する話速変換装置を備えた通話装置が記載されている。
【0005】
【特許文献1】特開2006―33789号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
上述したように、送話者の話速を遅くすることにより、残響下において送話者の発話内容が聞きづらくなることを防止することができるが、更なる改善が望まれる。
【0007】
本発明は、上述した実情に鑑みて提案されたものであり、残響下でスピーカに音声信号を供給して放音する場合において、受話者に到達した際の残響による聞き取りづらさを軽減させることが可能な音声処理装置、音声処理方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決するための手段として、本発明に係る音声処理装置は、音声信号を周波数領域に変換する周波数領域変換部と、周波数領域変換部により周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、ゲイン調整部によりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する時間領域変換部と、時間領域変換部により時間領域に変換された音声信号をスピーカに出力する出力部とを備える。
【0009】
また、本発明に係る音声処理方法は、音声信号を周波数領域に変換する周波数領域変換ステップと、周波数領域変換ステップにより周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整ステップと、ゲイン調整ステップによりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する時間領域変換ステップと、時間領域変換ステップにより時間領域に変換された音声信号をスピーカに出力する出力ステップとを有する。
【発明の効果】
【0010】
本発明は、周波数領域に変換された音声信号に対して帯域毎にゲイン調整を施して、時間領域に変換した後スピーカに出力することで、残響下で音声信号が伝搬される際に、隣接する周波数帯域の音声信号成分の重なりを軽減させることができる。したがって、本発明は、残響下でスピーカに音声信号を供給して放音する場合において、受話者に到達した際の残響による聞き取りづらさを軽減させることができる。
【発明を実施するための最良の形態】
【0011】
以下、本発明を実施するための最良の形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更が可能であることは勿論である。
【0012】
本発明が適用された音声処理装置は、残響下に設置されたスピーカにより放音される音声信号に対して音声信号処理を施す装置である。なお、説明は、以下の順序で行う。
1.第1の実施形態
2.第2の実施形態
【0013】
<1.第1の実施形態>
本発明が適用された音声処理装置は、例えば図1に示すような第1の実施形態に係る拡声装置1に組み込まれて使用される。
【0014】
第1の実施形態に係る拡声装置1は、発話者の音声を検出するマイクロフォン1aと、マイクロフォン1aにより検出された音声信号に対して信号処理を施す音声処理部1bと、音声処理部1bにより信号処理された音声信号を放音するスピーカ1cとを備える。
【0015】
マイクロフォン1aは、発話者の音声を検出して、検出した音声を音声信号に変換して音声処理部1bに供給する。
【0016】
音声処理部1bは、マイクロフォン1aから供給される音声信号をデジタル変換するA/D変換器11と、デジタル変換された音声信号に対して信号処理を施す信号処理部12と、音声信号をアナログ変換してスピーカ1cに供給するD/A変換器13とを備える。
【0017】
A/D変換器11は、マイクロフォン1aから供給される音声信号をデジタル変換して、デジタル変換後の音声信号を信号処理部12に供給する。なお、A/D変換器11に供給される音声信号は、マイクロフォン1aだけでなく、例えば外部の音声処理装置からライン入力により供給される信号でもよい。
【0018】
信号処理部12は、A/D変換器11から供給される音声信号に対して具体的には、後述する信号処理を施して、信号処理を施した音声信号をD/A変換器13に供給する。
【0019】
D/A変換器13は、信号処理部12から供給される音声信号をアナログ変換して、アナログ変換後の音声信号をスピーカ1cに供給する。
【0020】
スピーカ1cは、残響下に設置され、音声処理部1bから供給された音声信号を放音する。
【0021】
以上のような構成からなる拡声装置1では、スピーカ1cが残響下に設置されているため、スピーカ1cから受話者に直接届く音声に残響が畳み込まれ、マイクロフォン1aで検出した送話者の発話内容が聞きづらい音声を放音してしまう場合がある。
【0022】
そこで、拡声装置1は、このような残響音に起因した聞きづらさを軽減させるため、音声処理部1bの信号処理部12が、図2に示すような構成を有している。
【0023】
すなわち、信号処理部12は、音声信号を周波数領域に変換する帯域分割部121と、周波数領域の音声信号に対して帯域毎にゲイン調整を施すゲイン調整部122と、ゲイン調整された音声信号を時間領域に変換する帯域合成部123とを備える。
【0024】
帯域分割部121は、A/D変換器11から供給された音声信号を、単位時間であるフレーム毎に、例えば短時間フーリエ変換などの時間周波数変換手法を用いて、周波数領域の音声信号に変換する。そして、帯域分割部121は、周波数領域に変換した音声信号を、例えば1024チャンネルの帯域に分割して、各帯域の音声信号をゲイン調整部122に供給する。
【0025】
ここで、フーリエ変換処理では、中心チャンネルで対称になるため、1024点の半分の512点だけ考えればよく、以下では、最も低域のチャンネルを第1チャンネルとし、順番に番号を振り、最も高域のチャンネルを第512チャンネルとして説明する。
【0026】
また、帯域分割部121は、上述したフーリエ変換処理の他、DFTフィルタバンクやQMFフィルタバンクなどの帯域分割の手法で帯域分割を行うようにしてもよい。
【0027】
ゲイン調整部122は、帯域分割部121から供給された音声信号に対して、帯域毎にゲイン調整を施す。すなわち、ゲイン調整部122は、各チャンネルで異なるゲインを設定することで、残響下で音声信号が伝搬される際に、隣接する周波数帯域の音声信号成分の重なりを軽減させることができる。
【0028】
具体的に、ゲイン調整部122は、隣接する周波数帯域の音声信号成分の重なりをより効果的に軽減させるため、例えば次のようにして各帯域の音声信号に対して調整するゲインを単位時間毎に変化させる。
【0029】
第1の具体例として、ゲイン調整部122は、各チャンネルのゲインをフレーム毎に変化させることで、偶数チャンネルと奇数チャンネルとを交互に再生するように、ゲイン調整を行う。まず、ゲイン調整部122は、あるフレームでは偶数チャンネルをそのまま再生しながら奇数チャンネルの振幅レベルを0に近い値にするように調整する。次のフレームで、ゲイン調整部122は、偶数チャンネルの振幅レベルを0にしながら、奇数チャンネルをそのまま再生するように調整する。その次のフレームで、ゲイン調整部122は、偶数チャンネルをそのまま再生しながら、奇数チャンネルを0に近い値にするように調整する。このようにしてゲイン調整をすることで、2フレームに一度ずつ奇数チャンネルと偶数チャンネルがそれぞれ再生されることとなる。このように、ゲイン調整部122は、奇数番目の帯域の音声信号と偶数番目の帯域の音声信号とが交互にスピーカ1cにより出力されるようにゲイン調整することで、隣接する周波数帯域の音声信号成分の重なりを効果的に軽減させることができる。このようにして、ゲイン調整部122は、簡易な処理で、残響下での聞き取りにくさ改善を実現することができる。
【0030】
第2の具体例として、ゲイン調整部122は、各チャンネルのゲインをフレーム毎に変化させることで、3以上のフレーム毎に、1つのチャンネルを再生するようにしてもよい。具体例として、1組3チャンネルのうち1つのチャンネルを交互に再生する場合は、次のようにしてゲイン調整を行う。まず、あるフレームでは、ゲイン調整部122は、1、4、・・・,508、511チャンネルを再生しながら、残りのチャンネルの音声レベルを0に近い値にするように調整する。次のフレームで、ゲイン調整部122は、2、5、・・・、509、512チャンネルを再生しながら、残りの帯域を0に近い値にするように調整する。その次の帯域で、ゲイン調整部122は、3、6、・・・、510チャンネルを再生しながら、残りの帯域を0に近い値にするように調整する。そして、ゲイン調整部122は、これらの処理を繰り返す。
【0031】
また、ゲイン調整部122は、上述した2つの例のように単純にチャンネルを選択するだけではなく、実際に処理をする音声の種類に応じて、残響が重ならないように適切なチャンネルを選択することもできる。特に、ゲイン調整部122は、人間の聴覚特性やマスキングレベルに応じて、音質に影響ないレベルのゲインを乗算することができる。例えば、ゲイン調整部122は、図3(A)に示すような音声信号に対し、マスキングレベルに基づいて、図3(B)に示すように、強いパワー成分にマスキングされるチャンネルのゲインを小さくなるように調整する。ゲイン調整部122は、周波数領域に変換された各帯域の音声信号に対して、聴覚特性に基づいて設定された補正ゲインを乗算してゲイン調整をすることで、音質を維持しつつ、人間の聴覚特性上特に聞きづらくなるような音声成分の重なりを軽減させることができる。
【0032】
以上のようにして残響下での音声成分の重なりを軽減させるようにゲイン調整された各帯域の音声信号は、ゲイン調整部122から帯域合成部123に供給される。
【0033】
帯域合成部123は、ゲイン調整部122によりゲイン調整が施された各帯域の音声信号を合成して、逆フーリエ変換処理を施して時間領域に変換する。そして、帯域合成部123は、時間領域に変換した音声信号をD/A変換器13に供給する。
【0034】
このようにして、帯域分割部121で帯域別に分割された音声信号は、逆フーリエ変換で元の時間領域の音声信号に再合成することができる。なお、手法によっては、元の信号と再合成された信号が多少異なる場合もあるが本質的な影響がないように構成することができる。
【0035】
以上のような構成からなる信号処理部12を有する拡声装置1では、帯域分割部121により、周波数領域に変換された音声信号に対して、ゲイン調整部122により帯域毎にゲイン調整を施して、帯域合成部123により時間領域に変換した後スピーカ1cに出力する。このような処理を行うことで、拡声装置1は、残響下で音声信号が伝搬される際に、隣接する周波数帯域の音声信号成分の重なりを軽減させることができる。したがって、拡声装置1は、残響下でスピーカ1cに音声信号を供給して放音する場合において、受話者に到達した際の残響による音声の不明瞭さを軽減させることができる。
【0036】
<2.第2の実施形態>
本発明が適用された音声処理装置は、例えば図4に示すような第2の実施形態に係る拡声装置2に組み込まれて使用される。
【0037】
第2の実施形態に係る拡声装置2は、発話者の音声を検出するマイクロフォン2aと、マイクロフォン2aにより検出された音声信号に対して信号処理を施す音声処理部2bと、音声処理部2bにより信号処理された音声信号を放音するスピーカ2cとを備える。さらに、拡声装置2は、スピーカ2cが音声信号を放音する環境の残響時間を測定するため、スピーカ2cが放音して残響下を伝搬した音声を検出するマイクロフォン2dを備える。
【0038】
マイクロフォン2aは、発話者の音声を検出して、検出した音声を音声信号に変換して音声処理部2bに供給する。
【0039】
音声処理部2bは、マイクロフォン2aから供給される音声信号をデジタル変換するA/D変換器21と、デジタル変換された音声信号に対して信号処理を施す信号処理部22と、音声信号をアナログ変換してスピーカ2cに供給するD/A変換器23とを備える。さらに、音声処理部2bは、マイクロフォン2dにより検出された音声信号をデジタル変換するA/D変換器24を備える。
【0040】
A/D変換器21は、マイクロフォン2aから供給される音声信号をデジタル変換して、デジタル変換後の音声信号を信号処理部22に供給する。なお、A/D変換器21に供給される音声信号は、マイクロフォン2aだけでなく、例えば外部の音声処理装置からライン入力により供給される信号でもよい。
【0041】
信号処理部22は、A/D変換器21から供給される音声信号に対して具体的には、後述する信号処理を施して、信号処理を施した音声信号をD/A変換器23に供給する。
【0042】
D/A変換器23は、信号処理部22から供給される音声信号をアナログ変換して、アナログ変換後の音声信号をスピーカ2cに供給する。
【0043】
スピーカ2cは、残響下に設置され、音声処理部2bから供給された音声信号を放音する。
【0044】
マイクロフォン2dは、スピーカ2cが放音して残響下を伝搬した音声を検出して、検出した音声信号をA/D変換器24に供給する。
【0045】
以上のような構成からなる拡声装置2では、スピーカ2cが残響下に設置されているため、スピーカ2cから受話者に直接届く音声に残響が畳み込まれ、マイクロフォン2aで検出した送話者の発話内容が聞きづらい音声を放音してしまう場合がある。
【0046】
そこで、拡声装置2は、スピーカ2cが音声信号を放音する環境の残響時間に応じて、このような残響音に起因した聞きづらさを適切に軽減させるため、音声処理部2bの信号処理部22が、図5に示すような構成を有している。
【0047】
信号処理部22は、第1の実施形態と同様に、音声信号を周波数領域に変換する帯域分割部221と、周波数領域の音声信号に対して帯域毎にゲイン調整を施すゲイン調整部222と、ゲイン調整された音声信号を時間領域に変換する帯域合成部223とを備える。さらに、第2の実施形態に係る信号処理部22は、図5に示すように、帯域分割部221の前段に、音声信号に対して話速変換処理を施す話速変換部224と、音声信号の基本周波数に基づいて音高を経時的に変更する音高変更部225とを備える。
【0048】
このような構成からなる信号処理部22では、第1の実施形態に係る信号処理部12と同様の機能を帯域分割部221とゲイン調整部222と帯域合成部223により実現するので、これら各部の動作内容について、その説明を省略する。
【0049】
話速変換部224は、話速変換を用いて時間伸張再生をすることにより、残響下での発話を聞き取りやすくするため、図6に示すように、A/D変換器21から供給される時間領域の音声信号に対して話速変換処理を施す。
【0050】
具体的に、話速変換部224は、図6に示すように、音声信号を一時的に保持する音声バッファ224aを備える。話速変換部224は、後述する制御部227からの制御信号に応じて、A/D変換器21から供給される音声信号を音声バッファ224aで一時的に保持して話速変換処理により伸張して、後段に接続された音高変更部225に出力する。以上のようにして、話速変換部224は、話速変換を用いて時間伸張再生をすることにより、残響下での発話を聞き取りやすくすることができる。
【0051】
なお、話速変換部224は、PICOLA(Pointer Interval Controlled OverLap and Add)などを用いて、話速変換処理系を構成する。これ以外にも、話速変換部224は、TDHS(Time Domain Harmonic Scaling)などの話速変換手法で話速変換処理を行うようにしてもよい。また、話速変換部224は、帯域分割部221の前段に設けられているが、帯域合成部223の後段、又は、音高変更部225の後段に設けられるようにしてもよい。
【0052】
音高変更部225は、図7に示すように、基本周波数推定部225aが設けられており、音高を経時的に変化させながら再生することで、残響下での発話を聞き取りやすくするため、次にような処理を行う。
【0053】
すなわち、基本周波数推定部225aは、例えば、自己相関法や櫛形フィルタを用いて、話速変換部224から供給される音声信号から基本周波数F0を推定して、推定結果を音高変更部225に通知する。
【0054】
音高変更部225は、話速変換部224から供給される音声信号と、この信号に対応する基本周波数F0が供給される。音高変更部225は、基本周波数F0に基づき、基本周波数F0を経時的に変更させて、音声信号の音高を変化させる。例えば、音高変更部225は、前回のフレームの出力の基本周波数F0が現在のフレームの基本周波数F0と同じ場合は、基本周波数F0を上下いずれかに数Hz変化させる。また、音高変更部225は、前回のフレームの出力の基本周波数F0と現在のフレームの基本周波数F0が異なる場合は、音声信号をそのまま出力する。このようにして、音高変更部225は、供給された音声信号の音高を経時的に変更して、後段に接続された帯域分割部221に供給する。
【0055】
なお、基本周波数の変更には、上述した変更手法以外にも、単純に再生スピードを変更する手法や、話速変換を施して伸縮した後に再生スピードを変更することで実時間性を維持する手法、周波数領域で帯域の操作をする方法などの他の手法を用いて行ってもよい。また、音高変更部225は、帯域分割部221の前段に設けられているが、帯域合成部223の後段、又は、音高変更部225の前段に設けられるようにしてもよい。
【0056】
音声(母音)は倍音構造を持っていることが知られており、例えば、母音の基本周波数が100Hzの場合、200Hz、300Hzなど基本周波数の整数倍付近に強い成分が含まれる。音高変更部225は、このような倍音構造の特性に注目して、上述した強い周波数成分を変化させることで、周波数帯域ごとの直接音と残響音の重なりを軽減させることができる。
【0057】
残響時間測定部226は、スピーカ2cから放音されマイクロフォン2dにより検出された音声信号を用いて、スピーカ2cが設置された環境の残響時間を測定する。すなわち、残響時間測定部226は、A/D変換器24によりデジタル変換されたマイクロフォン2dの音声信号を用いてスピーカ2cが設置された環境の残響時間を測定して、測定結果を制御部227に通知する。
【0058】
制御部227は、残響時間測定部226から通知される残響時間に応じて、マイクロフォン2aにより検出された発話者の音声に対して施す音声信号処理を切り換えて行う。このように切り換え処理を行うのは、音声処理を施すことで音声歪みを生じる可能性があり、例えば、残響時間が閾値より短い場合は音声処理をせず、残響時間が閾値より長い場合は音声処理をするのが望ましいからである。
【0059】
第1の具体例として、制御部227は、図8に示すようなフローチャートにしたがって、残響時間測定部226から通知される残響時間に応じて、マイクロフォン2aにより検出された発話者の音声に対して施す音声信号処理を切り換えて行う。
【0060】
ステップS1において、制御部227は、測定された残響時間が0.3秒以上であるか否かを判断して、0.3秒以上のときステップS3に進み、0.3秒未満のときステップS2に進む。
【0061】
ステップS2において、制御部227は、A/D変換器21から供給された音声信号に対して何も処理をしないで直接D/A変換器23に供給するように、各処理部を制御する。
【0062】
ステップS3において、制御部227は、測定された残響時間が1秒以上であるか否かを判断して、1秒以上のときステップS5に進み、1秒未満のときステップS4に進む。
【0063】
ステップS4において、制御部227は、A/D変換器21から供給された音声信号に対して、奇数番目の帯域の音声信号と偶数番目の帯域の音声信号とが交互にスピーカ1cにより出力されるようにゲイン調整するように、ゲイン調整部222の動作を制御する。なお、制御部227は、話速変換部224及び音高変更部225に対して、何も信号処理をせずに、供給された音声信号を直接後段に出力するように制御する。
【0064】
ステップS5において、制御部227は、測定された残響時間が2秒以上であるか否かを判断して、2秒以上のときステップS7に進み、2秒未満のときステップS6に進む。
【0065】
ステップS6において、制御部227は、A/D変換器21から供給された音声信号に対して、各チャンネルのゲインをフレーム毎に変化させることで、3フレーム毎に、1組3チャンネルのうち1つのチャンネルを交互に再生するように、ゲイン調整部222の動作を制御する。なお、制御部227は、話速変換部224及び音高変更部225に対して、何も信号処理をせずに、供給された音声信号を直接後段に出力するように制御する。
【0066】
ステップS7において、制御部227は、3フレーム毎に、1組3チャンネルのうち1つのチャンネルを交互に再生するように、ゲイン調整部222の動作を制御するとともに、話速変換処理により話速が遅くなるように、話速変換部224の動作を制御する。
【0067】
第2の具体例として、制御部227は、図9に示すようなフローチャートにしたがって、残響時間測定部226から通知される残響時間に応じて、マイクロフォン2aにより検出された発話者の音声に対して施す音声信号処理を切り換えて行う。
【0068】
ステップS11において、制御部227は、測定された残響時間が0.3秒以上であるか否かを判断して、0.3秒以上のときステップS13に進み、0.3秒未満のときステップS12に進む。
【0069】
ステップS12において、制御部227は、A/D変換器21から供給された音声信号に対して何も処理をしないで直接D/A変換器23に供給するように、各処理部を制御する。
【0070】
ステップS13において、制御部227は、測定された残響時間が1秒以上であるか否かを判断して、1秒以上のときステップS15に進み、1秒未満のときステップS14に進む。
【0071】
ステップS14において、制御部227は、A/D変換器21から供給された音声信号に対して、奇数番目の帯域の音声信号と偶数番目の帯域の音声信号とが交互にスピーカ1cにより出力されるようにゲイン調整するように、ゲイン調整部222の動作を制御する。なお、制御部227は、話速変換部224及び音高変更部225に対して、何も信号処理をせずに、供給された音声信号を直接後段に出力するように制御する。
【0072】
ステップS15において、制御部227は、測定された残響時間が2秒以上であるか否かを判断して、2秒以上のときステップS17に進み、2秒未満のときステップS16に進む。
【0073】
ステップS16において、制御部227は、A/D変換器21から供給された音声信号に対して、各チャンネルのゲインをフレーム毎に変化させることで、3フレーム毎に、1組3チャンネルのうち1つのチャンネルを交互に再生するように、ゲイン調整部222の動作を制御する。なお、制御部227は、話速変換部224及び音高変更部225に対して、何も信号処理をせずに、供給された音声信号を直接後段に出力するように制御する。
【0074】
ステップS17において、制御部227は、3フレーム毎に、1組3チャンネルのうち1つのチャンネルを交互に再生するように、ゲイン調整部222の動作を制御するとともに、音声信号の音高を経時的に変更させるように、話速変換部224の動作を制御する。
【0075】
第1、第2の具体例に従って、制御部227は、残響時間をスピーカ2cが設置された環境の評価指標として用いて、残響時間に応じて各部の動作を制御することで、音質の劣化を限定的しつつ、隣接する周波数帯域の音声信号成分の重なりを軽減させることができる。すなわち、制御部227は、単に残響時間の増加に伴って、1回ずつ再生するフレーム数が大きくなると音質の劣化が大きくなるが、単にフレーム数を増加させずに、他の音声信号処理と組み合わせることで、音質の劣化を限定的しつつ音声の不明瞭さを軽減できる。
【0076】
以上のようにして、第2の実施形態に係る拡声装置2は、残響下でスピーカ2cに音声信号を供給して放音する場合において、受話者に到達した際の残響による音声の不明瞭さを軽減することができる。
【図面の簡単な説明】
【0077】
【図1】第1の実施形態に係る拡声装置の構成を示す図である。
【図2】第1の実施形態に係る音声処理部の具体的な構成を示す図である。
【図3】ゲイン調整部に係る処理の説明に供する図である。
【図4】第2の実施形態に係る拡声装置の構成を示す図である。
【図5】第2の実施形態に係る音声処理部の具体的な構成を示す図である。
【図6】話速変換部に係る処理を説明するための図である。
【図7】音高変換部に係る処理を説明するための図である。
【図8】制御部に係る第1の具体例の切り換え処理の説明に供するフローチャートである。
【図9】制御部に係る第2の具体例の切り換え処理の説明に供するフローチャートである。
【符号の説明】
【0078】
1、2 拡声装置、1a、2a、2d マイクロフォン、1b、2b 音声処理部、1c、2c スピーカ、11、21、24 A/D変換器、12、22 信号処理部、13、23 D/A変換器、121、221 帯域分割部、122、222 ゲイン調整部、123、223 帯域合成部、224 話速変換部、224a 音声バッファ、225 音高変更部、225a 基本周波数推定部、226 残響時間測定部、227 制御部

【特許請求の範囲】
【請求項1】
音声信号を周波数領域に変換する周波数領域変換部と、
上記周波数領域変換部により周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、
上記ゲイン調整部によりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する時間領域変換部と、
上記時間領域変換部により時間領域に変換された音声信号をスピーカに出力する出力部とを備える音声処理装置。
【請求項2】
上記ゲイン調整部は、上記周波数領域に変換された各帯域の音声信号に対して調整するゲインを単位時間毎に変化させる請求項1記載の音声処理装置。
【請求項3】
上記ゲイン調整部は、上記周波数領域に変換された各帯域の音声信号に対して調整するゲインを単位時間毎に変化させることで、奇数番目の帯域の音声信号と偶数番目の帯域の音声信号とが交互に上記スピーカにより出力されるようにゲイン調整する請求項2記載の音声処理装置。
【請求項4】
上記ゲイン調整部は、上記周波数領域に変換された各帯域の音声信号に対して、聴覚特性に基づいて設定された補正ゲインを乗算することによってゲイン調整を施す請求項1記載の音声処理装置。
【請求項5】
上記スピーカから放音されマイクロフォンにより検出された音声信号を用いて、該スピーカが設置された環境の残響時間を測定する残響時間測定部と、
上記残響時間測定部により測定される残響時間が所定の時間以上のときのみ、上記ゲイン調整部がゲイン調整を施すように制御する制御部とを更に備える請求項1記載の音声処理装置。
【請求項6】
音声信号に対して話速変換処理を施す話速変換部と、
音声信号の基本周波数を推定して、推定した基本周波数を経時的に変更させた音声信号を出力する音高変更部とを更に備え、
上記制御部は、上記残響時間測定部により測定される残響時間が所定の時間より大きいとき、上記ゲイン調整部がゲイン調整を施すように制御するとともに、該残響時間に応じて、上記話速変換部と上記音高変更部との処理を選択して音声信号に音声処理を施して上記出力部から上記スピーカに出力するように制御する請求項5記載の音声処理装置。
【請求項7】
音声信号を周波数領域に変換する周波数領域変換ステップと、
上記周波数領域変換ステップにより周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整ステップと、
上記ゲイン調整ステップによりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する時間領域変換ステップと、
上記時間領域変換ステップにより時間領域に変換された音声信号をスピーカに出力する出力ステップとを有する音声処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate