説明

音声信号処理装置およびその方法、音声信号記録再生装置ならびにプログラム

【課題】映像とともに収録、または再生される複数の音声信号のサラウンド効果をより強調できる音声信号処理装置と方法、プログラム、音声信号記録再生装置を提供する。
【解決手段】サラウンド音の聴取位置から見た映像の方向を基準とした所定の4つ方向(左前方、右前方、左後方、右後方)のうち、4組の方向(左前方と左後方、右前方と左後方、左前方と右後方、右前方と右後方)において出力される音声信号同士の相関が相関検出部20によってそれぞれ検出される。レベル制御部40では、左後方音声についての2つの相関検出結果(左前方と左後方、右前方と左後方)に応じて、この左後方音声の信号レベルが制御される。また、レベル制御部50においては、右後方音声についての2つの相関検出結果(左前方と右後方、右前方と右後方)に応じて、この右後方音声の信号レベルが制御される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サラウンド音の収録、または再生に用いられるマルチチャンネル音声信号を処理する音声信号処理装置とその方法、マルチチャンネル音声信号の記録・再生を行う音声信号記録再生装置、ならびに、マルチチャンネル音声を処理するためのコンピュータプログラムに関するものである。
【背景技術】
【0002】
本出願人は、特許文献1において、音場空間の全周囲方向から入力する音声を複数のマイクロフォンで収音し、映像と共にマルチチャンネルで記録再生するビデオカメラを提案している。マルチチャンネルで記録された音声信号を複数のスピーカで再生すると、映画館のような迫力のあるサラウンド効果を実現できる。近年、マルチチャンネル音声信号が記録されているDVD(Digital Versatile Disc)等のメディアに対応した機器が急速に普及しており、サラウンド音の再生を容易に行えるようになってきたため、ユーザが容易にマルチチャンネル記録再生を行えるこのようなビデオカメラへの要求が高まっている。
【0003】
【特許文献1】特開2000−299842号公報
【特許文献2】特開2002−345097号公報
【特許文献3】特開2003−284196号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、一般に、映画館やDVDなどで再生されるサラウンド効果は、製作される映像に合わせて効果的に編集されており、ほとんどの場合、撮影現場における実際の音響ではない。したがって、このようなサラウンド効果に慣れているユーザにとって、マルチチャンネル記録された音声信号を単純に複数のスピーカで再生したのでは迫力に欠ける場合がある。
【0005】
また、一般に、サラウンド対応の複数のスピーカで音声を再生すると、サラウンド効果が最も良好に得られるリスニングポジション(聴取位置)が狭い範囲に限られてしまうことから、音像がリスナーの頭内に定位して、違和感を生じさせる場合がある。
【0006】
更に、多くの場合、映像は前方のスクリーンもしくはTVのディスプレイのみで表示されるため、ユーザの全周囲で常に音声が発せられると、ユーザに違和感を与える場合がある。
すなわち、前方のスクリーンでは見えない横方向や後方で常に音が発生していると、ユーザはそれを映像で確認できないため雑音に聞こえてしまい、スクリーン上の映像に対する集中を妨げる要因になる場合がある。例えば、ビデオカメラで再生された映像を撮影者以外の第三者が視聴する場合、撮影時の状況を知らない第三者にとってスクリーン上の映像と関係のない周囲の音は意味のない雑音に聞こえてしまい、違和感を覚えてしまうことがある。
【0007】
本発明はかかる事情に鑑みてなされたものであり、その第1の目的は、映像とともに収録、または再生されるマルチチャンネルの音声信号のサラウンド効果を映像に合わせて適切に強調することができる音声信号処理装置とその方法、その音声信号処理用プログラムを提供することにある。
また、第2の目的は、映像とともに収録、または再生されるマルチチャンネルの音声信号のサラウンド効果を映像に合わせて適切に強調して、その記録や再生を行うことができる音声信号記録再生装置を提供することにある。
【課題を解決するための手段】
【0008】
上記の目的を達成する第1の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理装置であって、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における音声信号の相関を検出する、および/または、上記複数の方向のうち、少なくとも1つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する検出手段と、上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも1つの音声信号のレベルを制御するレベル制御手段とを有する。
【0009】
また、上記の目的を達成する第2の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号の記録と再生を行う音声信号記録再生装置であって、上記第1の発明の音声信号処理装置を有する。そして、上記レベル制御手段において少なくとも1つがレベル制御された上記複数の音声信号を記録する、および/または再生する。
【0010】
上記第1および第2の発明によれば、上記検出手段において、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における音声信号の相関が検出される。あるいは、上記複数の方向のうち、少なくとも1つの方向からの音声信号のレベルが所定のレベルを超える頻度が検出される。または、上記相関の検出と上記頻度の検出が両方行われる。上記レベル制御手段では、この検出結果に応じて、検出の対象となった少なくとも1つの音声信号のレベルが制御される。
音声信号同士の相関が高いほど、これらの音声信号に同一の成分が多く含まれることから、上記相関の検出によって、上記映像の方向を基準とした幾つかの方向の音声に同一の成分が含まれる度合いが検出される。したがって、上記相関の検出結果に応じて上記信号レベルの制御を行うことにより、上記映像の方向を基準とした幾つかの方向の音声に同一成分が多く含まれる場合とそうでない場合とで、これらの音声に強弱の変化を与えることが可能になる。
また、上記頻度の検出結果に応じて上記信号レベルの制御を行うことにより、上記映像の方向を基準とした幾つかの方向からの音声が一定レベルを頻繁に超える場合とそうでない場合とで、その音声に強弱の変化を与えることが可能になる。
【0011】
なお、好適には、上記検出手段は、上記複数の方向のうち、上記映像に最も近い方向を含む少なくとも1つの第1の方向からの第1の音声信号と、上記第1の方向に比べて上記映像と離れた少なくとも1つの第2の方向からの第2の音声信号との相関を検出する。
上記複数の音声信号は、その方向と上記映像の方向との違いに応じて、リスナーに上記映像との関連性を認識される度合いが異なる。すなわち、上記映像に近い方向からの音声信号ほど上記映像との関連性を強く認識され、方向の違いが大きくなるほど、上記映像との関連性を弱く認識される。
そのため、上記検出手段では、上記映像との関連性が比較的に強く認識される上記第1の音声信号と、当該関連性が弱く認識される第2の音声信号との相関が検出される。
【0012】
この場合、上記レベル制御手段は、上記検出手段において検出される上記第1の音声信号および上記第2の音声信号の相関が高くなる場合に、少なくとも上記第2の音声信号のレベルを大きくしても良い。
これにより、上記映像との関連性の強い上記第1の音声信号と同一の成分が、上記関連性の弱い上記第2の音声信号に多く含まれる場合、上記第2の音声信号のレベルが大きくされる。
【0013】
また、上記検出手段は、上記第1の音声信号および上記第2の音声信号の信号レベルの和と差を演算し、上記和が第1のレベルより大きくなり、かつ、上記差が第2のレベルより小さくなる第1の頻度を検出しても良く、上記レベル制御手段は、上記第1の頻度が高くなる場合に、少なくとも上記第2の音声信号のレベルを大きくしても良い。
上記第1および上記第2の音声信号の相関が高くなるほど、上記和は大きくなり、上記差は小さくなる。そのため、上記第1の頻度に応じたレベル制御によれば、上記映像との関連性の強い上記第1の音声信号と同一成分が、上記関連性の弱い上記第2の音声信号に多く含まれる場合に、上記第2の音声信号のレベルが大きくされる。
【0014】
また、上記検出手段は、上記第1の音声信号および上記第2の音声信号の信号レベルの和と差を演算し、上記和が第1のレベルより大きくなり、かつ、上記差が前記第2のレベルより大きく設定される第3のレベルより大きくなる第2の頻度を検出し、上記レベル制御手段は、上記第2の頻度が高くなる場合に、少なくとも上記第2の音声信号のレベルを大きくしても良い。
上記第1および上記第2の音声信号の全体レベルが大きくなるほど、上記和と差は大きくなる。そのため、上記第2の頻度に応じたレベル制御によれば、上記第1および上記第2の音声信号の全体レベルが大きくなる場合、上記第2の音声信号のレベルが大きくされる。
【0015】
また、上記検出手段は、上記第1の音声信号および上記第2の音声信号の信号レベルの和と差を演算し、上記和が第1のレベルより小さくなり、かつ、上記差が第2のレベルより小さくなる第3の頻度を検出しても良く、上記レベル制御手段は、上記第3の頻度が高くなる場合に、少なくとも上記第2の音声信号のレベルを大きくても良い。
上記第1および上記第2の音声信号の全体レベルが小さくなるほど、上記和と差は小さくなる。そのため、上記第3の頻度に応じたレベル制御によれば、上記第1および上記第2の音声信号の全体レベルが小さい場合に、上記第2の音声信号のレベルが大きくされる。
【0016】
また、上記第1および第2の発明は、上記複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する帯域分割手段を有しても良い。この場合、上記帯域分割手段において分割された帯域ごとに、帯域内の音声信号に対して上記相関の検出および/または上記頻度の検出を行う検出手段と、当該検出手段の検出結果に応じて上記レベル制御を行うレベル制御手段とをそれぞれ有しても良い。そして、上記レベル制御手段においてレベル制御された音声信号を、帯域ごとに合成する合成手段を有しても良い。
上記の構成によれば、例えば人の声の帯域とそれ以外の帯域など、性質が異なる帯域の音声信号に対して、上記と同様な音声信号処理がそれぞれ行われるため、性質が異なる帯域の信号を一律に処理する場合に比べて、より適切にサラウンド音を強調することが可能になる。
【0017】
また、上記検出手段は、上記相関の検出対象の音声信号に所定の遅延時間差を与えてから、上記相関の検出を行っても良い。
これにより、例えば移動する物体が発する音のように、異なる方向から上記遅延時間差を伴って伝播する音の相関を検出することが可能になる。
【0018】
本発明の第3の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理方法であって、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における上記音声信号の相関を検出する、および/または、上記複数の方向のうち、少なくとも1つの方向からの上記音声信号のレベルが所定のレベルを超える頻度を検出する第1の工程と、上記第1の工程の検出結果に応じて、当該検出の対象となった少なくとも1つの音声信号のレベルを制御する第2の工程とを有する。
【0019】
上記第3の発明によれば、上記第1の工程において、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における音声信号の相関が検出される。あるいは、上記複数の方向のうち、少なくとも1つの方向からの音声信号のレベルが所定のレベルを超える頻度が検出される。または、上記相関の検出と上記頻度の検出が両方行われる。上記第2の工程では、この検出結果に応じて、検出の対象となった少なくとも1つの音声信号のレベルが制御される。
上記相関の検出結果に応じて上記信号レベルの制御を行なうことにより、上記映像との関連性の強さが異なる幾つかの方向の音声に同一成分が多く含まれる場合とそうでない場合とで、これらの音声の少なくとも1つの大きさに変化が与えられる。また、上記頻度の検出結果に応じて上記信号レベルの制御を行うことにより、映像に対して所定の方向からの音声が一定レベルを頻繁に超える場合とそうでない場合とで、その音声の大きさに変化が与えられる。
【0020】
本発明の第4の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号をコンピュータに処理させるプログラムであって、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における上記音声信号の相関を検出する、および/または、上記複数の方向のうち、少なくとも1つの方向からの上記音声信号のレベルが所定のレベルを超える頻度を検出する第1のステップと、上記第1のステップの検出結果に応じて、当該検出の対象となった少なくとも1つの音声信号のレベルを制御する第2のステップとを有する。
【0021】
上記第4の発明によれば、上記第1のステップにおいて、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における音声信号の相関が検出される。あるいは、上記複数の方向のうち、少なくとも1つの方向からの音声信号のレベルが所定のレベルを超える頻度が検出される。または、上記相関の検出と上記頻度の検出が両方行われる。上記第2のステップでは、この検出結果に応じて、検出の対象となった少なくとも1つの音声信号のレベルが制御される。
上記相関の検出結果に応じて上記信号レベルの制御を行なうことにより、上記映像との関連性の強さが異なる幾つかの方向の音声に同一成分が多く含まれる場合とそうでない場合とで、これらの音声の少なくとも1つの大きさに変化が与えられる。また、上記頻度の検出結果に応じて上記信号レベルの制御を行うことにより、映像に対して所定の方向から出力される音声が一定レベルを頻繁に超える場合とそうでない場合とで、その音声の大きさに変化が与えられる。
【発明の効果】
【0022】
本発明によれば、第1に、映像とともに収録、または再生されるマルチチャンネルの音声信号のサラウンド効果を映像に合わせて適切に強調できる。
また、第2に、映像とともに収録、または再生されるマルチチャンネルの音声信号のサラウンド効果を映像に合わせて適切に強調して、その記録や再生を行うことができる。
【発明を実施するための最良の形態】
【0023】
以下、本発明を、6つの実施形態について図面を参照して説明する。
【0024】
<第1の実施形態>
図1は、本発明の実施形態に係る音声信号記録再生装置の構成の一例を示す図である。
【0025】
この音声信号記録再生装置は、例えばビデオカメラ等の撮影装置に搭載されており、撮影を行う際に、周囲の各方向の音を取り込んで音声信号に変換し、これを撮影映像とともにDVDやハードディスク等の記憶デバイスに格納する。また、記憶デバイスに格納された音声信号を再生する処理も行う。
【0026】
図1に示す音声信号記録再生装置は、マイクロフォン1,…,4と、増幅回路5,…,8と、音声信号処理装置9および14と、エンコーダ10と、記録再生切り替え部11と、記録再生装置12と、デコーダ13とを有する。
【0027】
マイクロフォン1,…,4は、それぞれ指向性を有しており、サラウンド音として再生される複数の方向からの音声を収音して、その音声信号を出力する。
図2の(A),…,(D)は、それぞれ、マイクロフォン1,…,4の指向性パターンの一例を示す。撮影対象の映像の方向を前方とした場合に、マイクロフォン1は右前方、マイクロフォン2は左前方、マイクロフォン3は左後方、マイクロフォン4は右後方の音をそれぞれ収音する。
【0028】
増幅回路5,…,8は、それぞれ、マイクロフォン1,…,4から出力される音声信号を増幅し、音声信号FR_in,FL_in,RL_in,RR_inとして出力する。
【0029】
音声信号処理装置9は、前方の音声信号(FR_in,FL_in)と後方の音声信号(RR_in,RL_in)との相関を検出し、その検出結果に応じて、後方の音声信号(RR_in,RL_in)のレベルを制御する。詳細については、後ほど図3〜5を参照して説明する。
【0030】
エンコーダ10は、音声信号FR_in,FL_in,RR_in,RL_inに対応する音声信号処理装置9の処理結果の音声信号FR_out,FL_out,RR_out,RL_outを入力し、これに例えば特許文献1に示されるような多重化エンコード処理を施す。
【0031】
記録再生切り替え部11は、記録動作時において、エンコーダ10のエンコード結果の音声信号と図示しない映像信号とを含んだ所定フォーマットの記録ストリーム信号を記録再生装置12に出力する。また、再生動作時には、記録再生装置12から所定フォーマットの再生ストリーム信号を取り込み、そのうちの音声信号をデコーダ13へ入力する。
【0032】
記録再生装置12は、例えばDVDやハードディスク等の記憶デバイスに音声や映像等のデータを格納する。また、記憶デバイスに格納されるこれらのデータを再生して出力する。すなわち、記録動作時には、記録再生切り替え部11から入力される記録ストリーム信号を記録し、再生動作時には、記憶デバイスに格納されるデータから再生した再生ストリーム信号を記録再生切り替え部11に出力する。
【0033】
デコーダ13は、記録再生装置12から記録再生切り替え部11を介して入力される再生ストリーム信号中の音声信号に所定のデコード処理を施して、4チャンネルの音声信号FR_in,FL_in,RR_in,RL_inに分離する。
【0034】
音声信号処理装置14は、デコーダ13から入力した音声信号FR_in,FL_in,RR_in,RL_inに音声信号処理装置9と同様な処理を施して、音声信号FR_out,FL_out,RR_out,RL_outを出力する。
【0035】
上記の構成によると、記録動作を行う場合、図示しない撮像部による撮影と並行して、マイクロフォン1,…,4で各方向の音声信号が収音され、増幅回路5,…,8において増幅され、それぞれ音声信号FR_in,FL_in,RR_in,RL_inとして音声信号処理装置9に入力される。これらの音声信号は、音声信号処理装置9において、後述する処理により信号レベルを調節された後、音声信号FR_out,FL_out,RR_out,RL_outとしてエンコーダ10に出力される。そして、エンコーダ10において所定のエンコード処理を施され、図示しない映像信号とともに記録ストリーム信号として記録再生装置12に入力されて、DVD等の記憶デバイスに格納される。
また、再生動作を行う場合、記録再生装置12から再生ストリーム信号が出力され、そのうちの音声信号がデコーダ13においてデコード処理を施され、4チャンネルの音声信号FR_in,FL_in,RR_in,RL_inに分離される。分離された音声信号は、音声信号処理装置14において後述の音声信号処理を施された後、オーディオ装置等に4チャンネルの音声信号FR_out,FL_out,RR_out,RL_outとして出力され、サラウンド音として映像ととも再生される。
【0036】
なお、音声信号処理装置9および14は、図1に示すように記録動作用と再生動作用に独立に設けても良いし、何れか一方のみでも良い。また、各動作を行う際に1つの音声処理部を共用しても良い。
また、音声信号処理装置9および14の処理は、ユーザの設定によって任意に一方を省略できるようにしても良い。例えば、記録動作時に音声信号処理装置9の処理を施した音声信号については、再生動作時に音声処理装置14の処理を省略できるようにしても良い。また、再生動作時に音声処理装置14の処理を行う予定の音声信号については、記録動作時に音声信号処理装置9の処理を省略できるようにしても良い。
なお、多くのサラウンド対応機器において5.1チャンネル方式が採用されているが、上記4チャンネルの音声信号FR_in,FL_in,RR_in,RL_inから、これらの5.1チャンネル対応の音声信号が容易に生成できる。一例では、映像方向のC(センター)チャンネル音声信号は、前方方向のFR_in,FL_in信号からモノラル合成可能であり、また低域帯域のSW(Sub Woofer)チャンネル音声信号は、前記4チャンネルの音声信号からフィルター等により低域成分を抽出することにより合成可能である。したがって音声信号処理装置9および14の出力にこのような合成回路を設けることにより、5.1チャンネル化が可能である。
【0037】
次に、音声信号処理装置9および14の詳細な構成について、図3〜5を参照しながら説明する。
【0038】
図3は、本発明の第1の実施形態に係る音声信号処理装置の構成の一例を示す図である。
図3に示す音声処理部は、相関検出部20と、レベル制御部40および50とを有する。
相関検出部20は、本発明の検出手段の一実施形態である。
レベル制御部40および50は、本発明のレベル制御手段の一実施形態である。
【0039】
相関検出部20は、前方の2つの音声信号(FR_in,FL_in)と後方の2つの音声信号(RR_in,RL_in)との相関をそれぞれ検出する。すなわち、(FL_in,RL_in)、(FR_in,RL_in)、(FL_in,RR_in)、(FR_in,RR_in)の4通りの相関を検出し、この検出結果を4つの相関係数C1,C2,C3,C4として出力する。
【0040】
図4は、相関検出部20の構成の一例を示す図である。
相関検出部20は、例えば図4に示すように、選択部201,202,207と、低入力検出部203と、特異点処理部204と、相関係数算出部205と、絶対値処理部206と、フィルタ部208,…,211とを有する。
【0041】
選択部201は、前方の2つの音声信号FR_inおよびFL_inの一方を選択して、低入力検出部203および相関係数算出部205に入力する。
選択部202は、後方の2つの音声信号RR_inおよびRL_inの一方を選択して、低入力検出部203および相関係数算出部205に入力する。
【0042】
相関係数算出部205は、選択部201において選択される前方の音声信号の一方と、選択部202において選択される後方の音声信号の一方とを入力し、相関係数ρを算出する。ここで、選択部201から入力されるnサンプル目の音声信号を‘A[n]’、選択部202から入力されるnサンプル目の音声信号を‘B[n]’とした場合、相関係数算出部205は、例えば次式の関係に基づいて相関係数ρを算出する。
【0043】
【数1】

【0044】
ただし、‘N’は相関係数の算出に用いる総サンプル数を示し、‘MA’は音声信号A[n]のNサンプル全体の平均値を示し、‘MB’は音声信号B[n]のNサンプル全体の平均値を示す。
式(1)において、分母は分子がとり得る最大の値であるため、相関係数ρの値は‘−1’〜‘1’の範囲内に収まる。
【0045】
低入力検出部203は、相関係数算出部205に入力される音声信号が所定レベルより小さくなっているか否かを検出する。
【0046】
特異点処理部204は、低入力検出部203において所定レベルより小さい音声信号の入力が検出された場合に、その音声信号をゼロに置き換えて相関係数算出部205に入力する。また、このゼロへの置き換えが所定サンプル数(例えばN’)以上続いた場合、相関係数算出部205の算出結果を所定値(例えば‘0’や‘1’)に置き換える。
【0047】
絶対値処理部206は、相関係数算出部205の算出結果(もしくは特異点処理部204によって置き換えられた値)の絶対値を求める。
【0048】
選択部207は、絶対値処理部206によって絶対値化された相関係数を、フィルタ部208〜211の何れかに入力する。すなわち、音声信号FL_inおよびRL_inの相関係数をフィルタ部208、音声信号FR_inおよびRL_inの相関係数をフィルタ部209、音声信号FL_inおよびRR_inの相関係数をフィルタ部210、音声信号FR_inおよびRR_inの相関係数をフィルタ部211にそれぞれ入力する。
【0049】
フィルタ部208,…,211は、選択部207から入力される各サンプルの相関係数の算出結果にローパスフィルタ処理を施して高域成分を減衰させ、その処理結果をそれぞれ相関係数C1,…,C4として出力する。
【0050】
上記の構成を有する相関検出部20によると、選択部201および202によって4通りの組み合わせの音声信号(FL_inとRL_in、FR_inとRL_in、FL_inとRR_in、FR_inとRR_in)が選択されて、相関係数算出部205に入力される。相関係数算出部205では、この各組み合わせについての相関係数が算出される。
【0051】
相関係数算出部205において算出される相関係数は、‘−1’から‘1’までの値を有している。この相関係数は、2つの信号間の相関が低いほどゼロに近づき、2つの信号の相関が高いほど‘1’に近づく。また、相関係数が‘−1’に近づく場合、2つの信号は互いに逆相に変化しながらその波形が等しくなるため、この場合も相関が高くなる。そのため、絶対値処理部206から出力される絶対値化された相関係数は、2つの信号の相関が高いほど‘1’に近づく。
【0052】
絶対値処理部206によって絶対値化された相関係数は、選択部207によって上記4通りの組み合わせのそれぞれに対応するフィルタ部(208〜211)に入力され、ローパスフィルタ処理により高域成分を除去された後、相関係数C1,…,C4として後述のレベル制御部40または50に出力される。
【0053】
ところで、総サンプル数Nを越える期間にわたってゼロもしくはそれに近い値の入力信号が相関係数算出部205に入力され続けると、式(1)における分母や分子がゼロになる可能性があり、その場合、ある値をゼロで割ったり、あるいは、ゼロをある値で割ったりするような演算が発生し、有限語長を扱うディジタル信号処理では、演算規模が大きくなったり、また演算による誤差が大きくなり相関係数が‘−1’〜‘1’の範囲を逸脱する可能性がある。
そこで、特異点処理部204は、相関係数算出部205に入力される所定レベルより小さい音声信号をゼロに置き換える。また、このゼロへの置き換えが例えばNサンプル以上続いた場合に相関係数算出部205の算出結果を‘0’や‘1’などの定数に置き換える。こうした処理によって、演算を早めに終了することで演算規模を抑え、また‘−1’〜‘1’の範囲を逸脱するような不適切な相関係数を除去することができる。
以上が、相関検出部20の説明である。
【0054】
レベル制御部40は、相関検出部20から検出結果として出力される音声信号FL_inおよびRL_inの相関係数C1と、音声信号FR_inおよびRL_inの相関係数C2とに応じて、音声信号RL_inのレベルを制御する。
レベル制御部50は、相関検出部20から検出結果として出力される音声信号FL_inおよびRR_inの相関係数C3と、音声信号FR_inおよびRR_inの相関係数C4とに応じて、音声信号RR_inのレベルを制御する。
【0055】
図5は、レベル制御部40および50の構成の一例を示す図である。
レベル制御部40は、例えば図5に示すように、ラッチ部401および402と、選択部403と、レベル可変部404とを有する。
また、レベル制御部50は、例えば図5に示すように、ラッチ部501および502と、選択部503と、レベル可変部504とを有する。
【0056】
ラッチ部401および402は、それぞれ、相関係数C1およびC2を保持する。
選択部403は、ラッチ部401および402に保持される相関係数C1およびC2のうち、何れか大きい方を選択する。
レベル可変部404は、選択部403において選択される相関係数に応じて、左後方の音声信号RL_inのレベルを可変し、音声信号RL_outとして出力する。例えば、選択された相関係数と音声信号RL_inとを乗算することにより、この相関係数が大きいほど音声信号RL_outのレベルを大きくする。
【0057】
ラッチ部501および502は、それぞれ、相関係数C3およびC4を保持する。
選択部503は、ラッチ部501および502に保持される相関係数C3およびC4のうち、何れか大きい方を選択する。
レベル可変部504は、選択部503において選択される相関係数に応じて、右後方の音声信号RR_inのレベルを可変し、音声信号RR_outとして出力する。例えば、選択された相関係数と音声信号RR_inとを乗算することにより、この相関係数が大きいほど音声信号RR_outのレベルを大きくする。なお、前方の音声信号FR_inおよびFL_inは、そのまま音声信号FR_outおよびFL_outとして音声信号処理部から出力される。
【0058】
ここで、上述した構成を有する図3に示す音声信号処理装置の動作を説明する。
【0059】
入力される4方向の音声信号のうち、前方の2つの音声信号(FR_in,FL_in)と後方の2つの音声信号(RR_in,RL_in)との相関がそれぞれ相関検出部20において検出され、4通りの組み合わせに対応する4つの相関係数C1〜C4が得られる。
得られた4つの相関係数のうち、左後方の音声信号RL_inと前方2つの音声信号との組み合わせで得られる2つの相関係数C1およびC2は、レベル制御部40に入力される。レベル制御部40では、この2つの相関係数C1およびC2のうち、値の大きい方の係数に応じて左後方の音声信号RL_inのレベルが調節され、音声信号RL_outが生成される。
また、上記4つの相関係数のうち、右後方の音声信号RR_inと前方2つの音声信号との組み合わせで得られる2つの相関係数C3およびC4は、レベル制御部50に入力される。レベル制御部50では、この2つの相関係数C3およびC4のうち、値の大きい方の係数に応じて右後方の音声信号RR_inのレベルが調節され、音声信号RR_outが生成される。
【0060】
以上説明したように、本実施形態によれば、サラウンド音の聴取位置から見た映像の方向を前方とする4つ方向(左前方、右前方、左後方、右後方)のうち、4組の方向(左前方と左後方、右前方と左後方、左前方と右後方、右前方と右後方)において出力される音声信号同士の相関が相関検出部20によってそれぞれ検出される。レベル制御部40では、左後方音声についての2つの相関検出結果(左前方と左後方、右前方と左後方)に応じて、この左後方音声の信号レベルが制御される。また、レベル制御部50においては、右後方音声についての2つの相関検出結果(左前方と右後方、右前方と右後方)に応じて、この右後方音声の信号レベルが制御される。
通常、音声信号同士の相関が高いほど、これらの音声信号に同一の成分が多く含まれることから、相関検出部20の検出結果に基づいて、映像の方向を基準とした幾つかの方向の音声に同一の成分が含まれる度合いを把握することができる。したがって、この相関検出結果に応じて音声信号レベルの制御を行うことにより、映像の方向を基準とした幾つかの方向の音声に同一成分が多く含まれる場合とそうでない場合とで、これらの音声に強弱の変化を与えることが可能になる。すなわち、映像に対して特定の複数の方向から同一成分の音が大きく聞こえる場合とそうでない場合とで、その音声に強弱の変化を与えることができる。これにより、映像に合わせて適切にサラウンド音を強調することができる。
【0061】
例えば、本実施形態では、相関検出部20において、所定の4つの方向のうち、収録時、または再生時の映像に最も近い左前方および右前方において出力される音声信号と、これらに比べて映像と離れた左後方および右後方の音声信号との相関が検出されており、これらの相関が高くなる場合に、後方の音声信号のレベルが大きくなるようレベル制御が行われる。
一般に、サラウンド音として再生される複数チャンネルの音声信号は、収録、または再生された映像方向に近い方向で出力されるものほど、リスナーによって映像との関連性を強く認識され、映像から離れて出力されるものほど、映像との関連性を弱く認識される。
したがって、上述のように、映像との関連性が強い前方の音声信号と同一の成分が後方の音声信号に多く含まれる場合に後方の音を強めることによって、リスナーには、映像と関連性のある音が背後からも強調されて聞こえるため、サラウンド音をより迫力のあるものにすることができる。
また、逆に、映像との関連性が強い前方の音声信号と同一の成分が後方の音声信号にあまり含まれていない場合に後方の音を弱めることによって、映像と関連性のない音が小さくなり、映像への集中の妨げになり難くなるので、ユーザはより快適に映像と音を楽しむことができる。
【0062】
また、一般的なサラウンド音の再生装置においては、サラウンド効果が最も良好に得られる聴取位置が各方向の音声レベルがバランスする中央の位置に限られており、いわゆるスイートスポットが狭いという問題がある。本実施形態によれば、各方向からの音声レベルのバランスを変化させることによって、サラウンド効果を高めつつ、スイートスポットを広くすることができる。また、これにより、音像がリスナーの頭内に定位する上述した頭内定位の問題を生じ難くできるため、リスナーの違和感を軽減することができる。
【0063】
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。
【0064】
図6は、本発明の第2の実施形態に係る音声信号処理装置の構成の一例を示す図である。
図6に示す音声信号処理装置は、レベル検出部30と、レベル制御部40および50とを有する。
なお、レベル検出部30は、本発明の検出手段の一実施形態である。
また、音声信号処理装置を含む音声信号記録再生装置の全体構成については、図1と同様である。
【0065】
レベル検出部30は、前方の音声信号(FR_in,FL_in)と後方の音声信号(RR_in,RL_in)との4つの組み合わせ(FL_in,RL_in)、(FR_in,RL_in)、(FL_in,RR_in)、(FR_in,RR_in)について、それぞれ音声信号の和と差を演算し、その演算結果が次の条件の何れかに該当しているかどうかを判定する。
【0066】
条件(1):
和が所定レベル(SL1)より大きくなり、かつ、差が所定レベル(SL2)より小さくなる。
【0067】
条件(2):
和が所定レベル(SL1)より大きくなり、かつ、差が所定レベル(SL3)より大きくなる。(ただしSL3>SL2)
【0068】
条件(3):
和が所定レベル(SL1)より小さくなり、かつ、差が所定レベル(SL2)より小さくなる。
【0069】
レベル検出部30は、2つの音声信号の和と差の演算結果が条件(1)〜(3)の何れかに該当すると判定される頻度を、上記の組み合わせごとに検出する。そして、検出した頻度を、4つの組み合わせに対応する4つのレベル係数L1〜L4として出力する。
【0070】
図7は、レベル検出部30の構成の一例を示す図である。
レベル検出部30は、例えば図7に示すように、選択部301,302,312と、加算部303と、減算部307と、絶対値処理部304,308と、レベル検波部305,309と、比較部306,310と、判定部311と、アップ/ダウンカウンタ313,…,316とを有する。
【0071】
選択部301は、前方の2つの音声信号FR_inおよびFL_inの一方を選択して、加算部303および減算部307に入力する。
選択部302は、後方の2つの音声信号RR_inおよびRL_inの一方を選択して、加算部303および減算部307に入力する。
【0072】
加算部303は、選択部301および302において選択された音声信号の和を演算する。
減算部307は、選択部301および302において選択された音声信号の差を演算する。
【0073】
絶対値処理部304は、加算部303において演算された和の絶対値を求める。
絶対値処理部308は、減算部307において演算された差の絶対値を求める。
【0074】
レベル検波部305は、絶対値処理部304で求められた和の絶対値のレベルを求める。
レベル検波部309は、絶対値処理部308で求められた差の絶対値のレベルを求める。
レベル検波部305および309は、例えば、ピーク値検波や平均値検波などによって時間的に平均化されたレベルを求める。
【0075】
比較部306は、レベル検波部305で求められた和の絶対値のレベルと基準レベルSL1とを比較する。比較結果として、例えば、和の絶対値のレベルが基準レベルSL1より大きい場合に‘1’、そうでない場合に‘0’を出力する。
比較部310は、レベル検波部309で求められた差の絶対値のレベルとまず基準レベルSL2とを比較する。比較結果として、例えば、差の絶対値のレベルが基準レベルSL2より大きい場合に‘01’、そうでない場合に‘00’を出力する。さらに基準レベルSL3(ただしSL3>SL2)と比較し、比較結果として、例えば、差の絶対値のレベルが基準レベルSL3より大きい場合に‘11’、そうでない場合に‘10’を出力する。
【0076】
判定部311は、比較部306および310の比較結果が上述した条件(1)〜(3)の何れかを満たすか否か判定する。判定結果として、例えば、条件(1)〜(3)の何れかを満たす場合に‘1’、そうでない場合に‘0’を出力する。図8は、比較部306および310の出力値に応じた判定部311の出力値の一例を示す図である。
【0077】
選択部312は、判定部311の判定結果をアップ/ダウンカウンタ313〜316の何れかに入力する。すなわち、音声信号FL_inおよびRL_inの判定結果をアップ/ダウンカウンタ313、音声信号FR_inおよびRL_inの判定結果をアップ/ダウンカウンタ314、音声信号FL_inおよびRR_inの判定結果をアップ/ダウンカウンタ315、音声信号FR_inおよびRR_inの判定結果をアップ/ダウンカウンタ316にそれぞれ入力する。
【0078】
アップ/ダウンカウンタ313〜316は、選択部312を介して判定部311から‘1’の判定結果を入力した場合に計数値を‘1’ずつ増やし、‘0’の判定結果を入力した場合に計数値を‘1’ずつ減らす。
アップ/ダウンカウンタ313〜316の計数値が、それぞれ上述したレベル係数L1〜L4になる。
【0079】
上記の構成を有するレベル検出部30によると、選択部301および302によって4通りの組み合わせの音声信号(FL_in,RL_in)、(FR_in,RL_in)、(FL_in,RR_in)、(FR_in,RR_in)が選択されて、加算部303および減算部307に入力される。これにより、各組み合わせにおける音声信号同士の和と差が算出される。
【0080】
加算部303で算出された和の演算結果は、絶対値処理部304において絶対値化された後、レベル検波部305においてそのレベルが検出され、当該レベルが比較部306において基準レベルSL1と比較される。
また、減算部307で算出された差の演算結果は、絶対値処理部308において絶対値化された後、レベル検波部309においてそのレベルが検出され、当該レベルが比較部310において基準レベルSL2と比較される。
【0081】
判定部311では、比較部306および310の比較結果に基づいて、音声信号の和と差のレベルが上述した条件(1)〜(3)の何れかを満たしているか判定される。この判定結果は、選択部312を通じて、上記4つの組み合わせごとに設けられたアップ/ダウンカウンタに入力され、その計数値を増加もしくは減少させる。これにより、アップ/ダウンカウンタ313〜316の計数値は、各組み合わせにおける音声信号の和と差が条件(1)〜(3)を満たす頻度に応じた値となる。これらは、レベル係数L1〜L4として、後述するレベル制御部40または50に出力される。
以上が、レベル検出部30の説明である。
【0082】
レベル制御部40は、レベル検出部30から検出結果として出力される音声信号FL_inおよびRL_inのレベル係数L1と、音声信号FR_inおよびRL_inのレベル係数L2とに応じて、音声信号RL_inのレベルを制御する。
レベル制御部50は、レベル検出部30から検出結果として出力される音声信号FL_inおよびRR_inのレベル係数L3と、音声信号FR_inおよびRR_inのレベル係数L4とに応じて、音声信号RR_inのレベルを制御する。
【0083】
なお、レベル制御部40および50は、例えば、図5に示す同一符号のレベル制御部と同様な構成を有している。ただし、この場合、相関係数C1〜C4の代わりにレベル係数L1〜L4が入力される。
また、前方の2つの音声信号FR_inおよびFL_inは、そのまま音声信号FR_outおよびFL_outとして音声信号処理部から出力される。
【0084】
ここで、上述した構成を有する図6に示す音声信号処理部の動作を説明する。
【0085】
入力される4方向の音声信号のうち、前方の2つの音声信号(FR_in,FL_in)と後方の2つの音声信号(RR_in,RL_in)との和および差が、4通りの組み合わせ(FL_in,RL_in)、(FR_in,RL_in)、(FL_in,RR_in)、(FR_in,RR_in)についてそれぞれ演算される。そして、この組み合わせごとに、和と差の演算結果が条件(1)〜(3)の何れかを満たす頻度が検出されて、レベル係数L1〜L4が得られる。
【0086】
条件(1)〜(3)には、それぞれ次のような意味がある。
【0087】
条件(1)は、2つの音声信号の相関が比較的高い場合に成立する条件である。
すなわち、2つの音声信号の相関が高い場合、両者の和は大きくなり、差は小さくなる。したがって、和が所定レベル(SL1)より大きく、かつ、差が所定レベル(SL2)より小さくなる条件(1)の頻度が多くなるほど、2つの音声信号の相関は高くなる。
【0088】
条件(2)は、2つの音声信号の全体的なレベルが比較的大きい場合に成立する条件である。
すなわち、2つの音声信号の全体的なレベルが大きくなると、相関とは別に、両者の和と差はともに大きくなる。したがって、和が所定レベル(SL1)より大きく、かつ、差が所定レベル(SL3、ただしSL3>SL2)より大きくなる条件(2)の頻度が多くなるほど、2つの音声信号の全体的なレベルは大きくなる。
【0089】
条件(3)は、2つの音声信号の全体的なレベルが比較的小さい場合に成立する条件である。
すなわち、2つの音声信号の全体的なレベルが小さくなると、相関とは別に、両者の和と差はともに小さくなる。したがって、和が所定レベル(SL1)より小さく、かつ、差が所定レベル(SL2)より小さくなる条件(3)の頻度が多くなるほど、2つの音声信号の全体的なレベルは小さくなる。
【0090】
そのため、レベル係数L1〜L4は、1)前方と後方の音声信号の相関が比較的高い場合、2)前方と後方の全体の音声信号レベルが大きい場合、3)前方と後方の全体の音声信号レベルが小さい場合に、その値が大きくなる。
【0091】
このような性質を持つ4つのレベル係数L1〜L4は、レベル制御部40および50に入力される。
レベル制御部40では、左後方の音声信号RL_inとの前方2つの音声信号との組み合わせで得られる2つのレベル係数L1およびL2のうち、値の大きい方の係数を用いて左後方の音声信号RL_inのレベルが調節され、音声信号RL_outとして出力される。
レベル制御部50では、右後方の音声信号RR_inとの前方2つの音声信号との組み合わせで得られる2つのレベル係数L3およびL4のうち、値の大きい方の係数を用いて右後方の音声信号RR_inのレベルが調節され、音声信号RR_outとして出力される。
【0092】
以上説明したように、本実施形態によれば、映像に近い前方の音声信号と映像から離れた後方の音声信号との和および差が演算される。そして、和の絶対値のレベルが基準レベルSL1より大きくなり、かつ、差の絶対値のレベルが基準レベルSL2より小さくなる条件(1)、和の絶対値のレベルが基準レベルSL1より大きくなり、かつ、差の絶対値のレベルが基準レベルSL3(ただしSL3>SL2)より大きくなる条件(2)、または、和の絶対値のレベルが基準レベルSL1より小さくなり、かつ、差の絶対値のレベルが基準レベルSL2より小さくなる条件(3)の何れかの成立頻度が高くなる場合、後方の音声信号のレベルが大きくなるように制御される。
条件(1)の成立頻度に応じて後方の音声信号のレベルを制御すると、映像との関連性が強い前方の音声信号と同一の成分が後方の音声信号に多く含まれる場合に後方の音が強調されるため、映像に合わせて効果的にサラウンド音を強調することができる。また、このレベル制御によって、映像との関連性が強い前方の音声信号と同一の成分が後方の音声信号にあまり含まれていない場合に後方の音が弱められるため、後方の音が映像への集中の妨げにならないようにすることができる。
条件(2)の成立頻度に応じて後方の音声信号のレベルを制御すると、前方および後方で全体の音声レベルが大きくなる場合に後方の音が強調されるため、サラウンド音の迫力感を一層高揚させることができる。
条件(3)の成立頻度に応じて後方の音声信号のレベルを制御すると、前方および後方で全体の音声レベルが小さくなる場合に後方の音が強調されるため、比較的レベルが小さく、映像と関連性が強い前方の音声信号の妨げにならないような環境音については常に後方から聞こえるようにできる。これにより、全体の音声レベルが小さい場合でもサラウンド効果を保つことができる。
【0093】
また、本実施形態によれば、各方向からの音声レベルのバランスを変化させることによってスイートスポットを広くできる点や、頭内定位の問題を生じ難くすることができる点で、第1の実施形態と同様な効果を奏することができる。
【0094】
<第3の実施形態>
次に、本発明の第3の実施形態について説明する。
【0095】
図9は、本発明の第3の実施形態に係る音声信号処理装置の構成の一例を示す図である。
図9に示す音声信号処理装置は、相関検出部20と、レベル検出部30と、レベル制御部60および70とを有する。
なお、相関検出部20およびレベル検出部30は、図3および図6における同一符号と同一の構成要素である。
また、音声信号処理装置を含む音声信号記録再生装置の全体構成については、図1と同様である。
【0096】
ただし、レベル検出部30において出力されるレベル係数L1〜L4は、相関係数C1〜C4と同じ数値範囲、すなわち‘0’〜‘1’の範囲を有するものとする。
【0097】
レベル制御部60は、相関検出部20から出力される相関係数C1およびC2と、レベル検出部30から出力されるレベル係数L1およびL2とに応じて、音声信号RL_inのレベルを制御する。
レベル制御部70は、相関検出部20から出力される相関係数C3およびC4と、レベル検出部30から出力されるレベル係数L3およびL4とに応じて、音声信号RR_inのレベルを制御する。
【0098】
図10は、レベル制御部60および70の構成の一例を示す図である。
図10に示すレベル制御部60は、ラッチ部601〜604と、選択部605と、レベル可変部606とを有する。
図10に示すレベル制御部70は、ラッチ部701〜704と、選択部705と、レベル可変部706とを有する。
【0099】
ラッチ部601は相関係数C1、ラッチ部602は相関係数C2、ラッチ部603はレベル係数L1、ラッチ部604はレベル係数L2をそれぞれ保持する。
選択部605は、ラッチ部601〜604に保持される係数のうち、最大の値を持つ係数を選択してレベル可変部606に出力する。
レベル可変部606は、選択部605において選択される係数に応じて、左後方の音声信号RL_inのレベルを可変し、音声信号RL_outとして出力する。例えば、選択された相関係数もしくはレベル係数と音声信号RL_inとを乗算することにより、この相関係数もしくはレベル係数が大きいほど音声信号RL_outのレベルを大きくする。
【0100】
ラッチ部701は相関係数C3、ラッチ部702は相関係数C4、ラッチ部703はレベル係数L3、ラッチ部704はレベル係数L4をそれぞれ保持する。
選択部705は、ラッチ部701〜704に保持される係数のうち、最大の値を持つ係数を選択してレベル可変部706に出力する。
レベル可変部706は、選択部705において選択される係数に応じて、右後方の音声信号RR_inのレベルを可変し、音声信号RR_outとして出力する。例えば、選択された相関係数もしくはレベル係数と音声信号RR_inとを乗算することにより、この相関係数もしくはレベル係数が大きいほど音声信号RR_outのレベルを大きくする。
【0101】
上述した構成を有する図9に示す音声信号処理装置によると、左後方の音声信号RL_outは、2つの相関係数C1およびC2と、2つのレベル係数L1およびL2の中で、最も大きい係数に合わせてレベル制御される。また、右後方の音声信号RR_outは、2つの相関係数C3およびC4と、2つのレベル係数L3およびL4の中で、最も大きい係数に合わせてレベル制御される。
これにより、相関検出部20の検出結果に応じたレベル制御と、レベル検出部30の検出結果に応じたレベル制御とが並行して実施されるため、上述した2つの実施形態と同様な効果を奏することができる。
【0102】
また、相関検出部20では、音声信号の絶対レベルに依存しない波形自体の相関を検出可能であり、レベル検出部30による条件(1)の成立頻度に応じたレベル係数に比べて、より忠実な相関検出結果が得られる。一方、レベル検出部30では、条件(2)や(3)の成立頻度に応じたレベル制御が可能であり、相関検出部20のみでは得られないサラウンド効果をもたらすことができる。
このような点で、相関検出部20およびレベル検出部30の検出結果が補完し合うため、より映像に適応した迫力のあるサラウンド音を得ること可能になる。
【0103】
<第4の実施形態>
次に、本発明の第4の実施形態を説明する。
【0104】
図11は、本発明の第4の実施形態に係る音声信号処理装置の構成の一例を示す図である。
図11に示す音声信号処理装置は、帯域分割部100−1,110−1,120−1,130−1,100−2,110−2,120−2,130−2と、相関検出部20−1,20−2と、レベル検出部30−1,30−2と、レベル制御部60−1,70−1,60−2,70−2と、加算部140,150,160,170とを有する。
なお、帯域分割部100−1,110−1,120−1,130−1,100−2,110−2,120−2,130−2は、本発明の帯域分割手段の一実施形態である。
加算部140,150,160,170は、本発明の合成手段の一実施形態である。
また、音声信号処理装置を含む音声信号記録再生装置の全体構成については、図1と同様である。
【0105】
帯域分割部100−1は、右前方の音声信号FR_inから、所定の帯域、例えば400〜4kHz程度の範囲に存在する人間の声の帯域の信号を抽出して出力する。
また、帯域分割部100−2は、右前方の音声信号FR_inから、上述した声の帯域を除くオーディオ帯域(20Hz〜20kHz)の信号を抽出して出力する。
すなわち、帯域分割部100−1および110−1によって、右前方の音声信号FR_inの帯域が、人間の声の帯域とそれ以外の帯域とに2分割される。
【0106】
同様に、帯域分割部110−1および110−2は音声信号FL_in、帯域分割部120−1および120−2は音声信号RL_in、帯域分割部130−1および130−2は音声信号RR_inを、それぞれ上述の2つの帯域に分割する。
【0107】
相関検出部20−1、レベル検出部30−1、レベル制御部60−1および70−1は、図9における相関検出部20、レベル検出部30、レベル制御部60および70とそれぞれ同一の機能を有しており、1つの音声信号処理装置を構成している。この音声信号処理装置は、図9における音声信号FR_in,FL_in,RR_in,RL_inの代わりに、帯域分割部100−1,110−1,120−1,130−1から出力される人間の声の帯域の音声信号を入力し、後方の2つの音声信号のレベルを制御する。
【0108】
相関検出部20−2、レベル検出部30−2、レベル制御部60−2および70−2も上記と同じように、図9における相関検出部20、レベル検出部30、レベル制御部60および70とそれぞれ同一の機能を有しており、1つの音声信号処理装置を構成している。この音声信号処理装置は、図9における音声信号FR_in,FL_in,RR_in,RL_inの代わりに、帯域分割部100−2,110−2,120−2,130−2から出力される人間の声以外の帯域の音声信号を入力し、後方の2つの音声信号のレベルを制御する。
【0109】
加算部140は、帯域分割部100−1および100−2において分割された2つの帯域の音声信号を合成し、音声信号FR_outとして出力する。
加算部150は、帯域分割部110−1および110−2において分割された2つの帯域の音声信号を合成し、音声信号FL_outとして出力する。
加算部160は、レベル制御部60−1および60−2においてレベル制御された音声信号を合成し、音声信号RL_outとして出力する。
加算部170は、レベル制御部70−1および70−2においてレベル制御された音声信号を合成し、音声信号RR_outとして出力する。
【0110】
上述した構成を有する図11に示す音声信号処理装置によれば、4方向の音声信号がそれぞれ人の声の帯域の信号とそれ以外の帯域の信号とに分割され、分割された帯域ごとに、その帯域内の音声信号に対して図9に示す音声信号処理装置と同様な処理が施されて、後方の音声信号のレベルが制御される。そして、その処理結果の信号が、再び帯域ごとに合成され、4方向の音声信号として出力される。
このように、例えば人の声の帯域とそれ以外の帯域など、性質の異なる信号が存在する帯域を分離して個別に処理することにより、それぞれに適切なレベル制御を行うことが可能になる。例えば、映像との関連性が強い人の声を環境音に比べてより強調する等の制御が可能になる。これにより、映像に適合してより効果的にサラウンド音を強調することが可能になる。
【0111】
なお、図11に示す音声信号装置では帯域を2分割しているが、この分割数は任意であり、更に分割数を増やしても良い。
【0112】
<第5の実施形態>
次に、本発明の第5の実施形態を説明する。
【0113】
図12は、本発明の第5の実施形態の構成の一例を示す図である。
図12に示す音声信号処理装置は、図9に示す音声信号処理装置と同様の構成を有するとともに、レベル制御部80および90を有する。
音声信号処理装置を含む音声信号記録再生装置の全体構成については、図1と同様である。
【0114】
レベル制御部80は、左前方の音声信号FL_inのレベル制御を行うブロックであり、レベル制御部60と同様の制御を行う。すなわち、相関検出部20から出力される相関係数C1およびC2と、レベル検出部30から出力されるレベル係数L1およびL2とに応じて、音声信号FL_inのレベルを制御する。
レベル制御部80は、例えば図10に示すレベル制御部60と同様の構成を有するが、レベル可変部606を、乗算器で構成するのではなく、可変増幅器により構成するところが相違している。つまり選択部605により選択された相関係数、もしくはレベル係数が0の時には、一例で前記増幅器のゲインを0dB、1の時には、所定ゲインを有するように可変すれば、前記係数変化にともなって音声信号FL_inのレベルを制御することができる。
【0115】
レベル制御部90は、右前方の音声信号FR_inのレベル制御を行うブロックであり、レベル制御部70と同様の制御を行う。すなわち、相関検出部20から出力される相関係数C3およびC4と、レベル検出部30から出力されるレベル係数L3およびL4とに応じて、音声信号FR_inのレベルを制御する。
レベル制御部90は、例えば図10に示すレベル制御部70と同様の構成を有するが、レベル可変部706を、乗算器で構成するのではなく、可変増幅器により構成するところが相違している。つまり選択部705により選択された相関係数、もしくはレベル係数が0の時には、一例で前記増幅器のゲインを0dB、1の時には、所定ゲインを有するように可変すれば、前記係数変化にともなって音声信号FR_inのレベルを制御することができる。
【0116】
上記の構成によれば、後方の音声信号のレベル制御と同様な条件によって前方の信号レベルの制御が行われる。これにより、後方音声とともに前方音声のレベルも増大されるために、よりサラウンド音場の迫力感を更に増すことができる。
【0117】
<第6の実施形態>
次に、本発明の第6の実施形態を説明する。
【0118】
本実施形態に係る音声信号処理装置は、先に述べた各実施形態の相関検出部において、相関の検出対象となる前方と後方の音声信号に所定の遅延時間差を与えてから相関の検出を行うものである。図13は、その相関検出部の構成の一例を示す図である。
【0119】
図13に示す相関検出部は、図4に示す相関検出部と同様の構成を有するとともに、遅延部212および213を有する。
遅延部212は、選択部201から相関係数算出部205および低入力検出部203へ入力される音声信号に、所定の遅延を与える。
遅延部213は、選択部202から相関係数算出部205および低入力検出部203に入力される音声信号に、遅延部212とは異なる所定の遅延を与える。
【0120】
上記の構成によると、遅延部212および213の遅延差によって、相関検出の対象となる前方と後方の音声信号に所定の遅延差が生じる。これにより、前後方向に移動する物体の音について相関検出を行うことが可能になる。例えば、前後方向に走行する車や、上空を移動する飛行機などの移動音について、前方もしくは後方に音源があるときから相関検出を行えるようになるため、結果としてレベル制御のタイミングを前方側もしくは後方側に移動させることができ、サラウンド音の迫力感を映像に合わせて一層高揚させることができる。
【0121】
以上、本発明の幾つかの実施形態について説明したが、本発明はこれらの形態のみに限定されるものではなく、種々のバリエーションを含んでいる。
【0122】
本発明は、例えば図1に示すように記録再生装置の再生動作時や記録動作時に音声信号処理を行う装置として実現しても良いし、あるいは、音声ファイルの変換時、DVDの書き込み時などに音声信号処理を行うコンピュータプログラムとして実現しても良い。
【0123】
図14は、プログラムに基づいて処理を実行するコンピュータの一例を示し、図15は、上述の実施形態と同様な音声信号処理を実行するコンピュータプログラムのフローチャートの一例を示す図である。
【0124】
図14に示すコンピュータは、マイクロプロセッサ181と、ハードディスク等の不揮発性の記憶装置182と、RAM183と、入出力装置184とを有する。
音声信号処理プログラムとその処理対象の音声信号のデータは、入出力装置184を介してコンピュータに入力され、記憶装置182に書き込まれる。図示しないユーザインターフェース装置を介してユーザの実行指示が入力されると、記憶装置182に格納されるプログラムがRAM183にロードされ、マイクロプロセッサ181によって実行される。
【0125】
まず、記憶装置182に格納された音声信号が時間順に読み出され(ステップST1)、これに上述した実施形態において説明した相関性検出部やレベル検出部と同様の処理が施されて、相関係数やレベル係数が求められる(ステップST2)。そして、この得られた係数に基づいて音声信号のレベルが新たに算出されて(ステップST3)、記憶装置182に書き込まれる。こうした処理が反復されることにより、元の音声信号に上述した実施形態と同様な信号処理を施すことが可能である。
【0126】
また、上述した実施形態では右前方、左前方、右後方、左後方の4チャンネルの音声信号を処理する例を挙げているが、これに限らず、更にチャンネル数を増やしても同様な処理は実施可能である。特に映像方向に一致する、前方正面方向からの音声信号がある場合には、右前方及び左前方からの音声信号の代わりにこれを演算に使用することもできる。
【0127】
上述した実施形態では、前方と後方の音声信号の相関や、前方と後方の全体的音声レベルなどに応じて音声信号のレベル制御を行っているが、本発明はこうした例に限られるものではない。すなわち、上述した相関検出部やレベル検出部を用いて、更に別の条件によりレベル制御を行うことも可能である。
例えば、意図的に映像とは無関係な(前方音と相関性のない)後方音だけを強調することで、意外性を演出するようにしても良い。また、レベル検出部を用いる場合には、上述した条件(1)〜(3)の幾つかを省略しても良いし、これに別の条件を付加しても良い。
【0128】
第2の実施形態では、異なる方向の音声信号の和と差が所定のレベルを超える頻度に応じて、その信号レベルを制御する例を示しているが、本発明はこれに限定されない。例えば、上述した和と差の演算を行わずに、特定の方向において出力される音声信号のレベルがそれ自体で所定のレベルを超える頻度に応じて、その音声信号のレベルを制御するようにしても良い。
これにより、映像の方向を基準とした幾つかの所定の方向から出力される音声が一定レベルを頻繁に超える場合とそうでない場合とで、その音声に強弱の変化を与えることが可能になるため、映像に合わせた適切なサラウンド音の強調を実現することが可能になる。
また、音声信号の和と差を両方演算するのではなく、和または差の一方のみを演算して、その演算結果が所定のレベルを超える頻度に応じてレベル制御を行っても良い。
【図面の簡単な説明】
【0129】
【図1】本発明の実施形態に係る音声信号記録再生装置の構成の一例を示す図である。
【図2】マイクロフォンの指向性の一例を示す図である。
【図3】第1の実施形態に係る音声信号処理装置の構成の一例を示す図である。
【図4】図3に示す音声信号処理装置における、相関検出部の構成の一例を示す図である。
【図5】図3に示す音声信号処理装置における、レベル制御部の構成の一例を示す図である。
【図6】第2の実施形態に係る音声信号処理装置の構成の一例を示す図である。
【図7】図6に示す音声信号処理装置における、レベル検出部の構成の一例を示す図である。
【図8】比較部の出力値に応じた判定部の出力値の一例を示す図である。
【図9】第3の実施形態に係る音声信号処理装置の構成の一例を示す図である。
【図10】図9に示す音声信号処理装置における、レベル制御部の構成の一例を示す図である。
【図11】第4の実施形態に係る音声信号処理装置の構成の一例を示す図である。
【図12】第5の実施形態に係る音声信号処理装置の構成の一例を示す図である。
【図13】第6の実施形態に係る音声信号処理装置における、相関検出部の構成の一例を示す図である。
【図14】本発明の実施形態に係るプログラムを実行するコンピュータの構成の一例を示す図である。
【図15】本発明の実施形態に係るプログラムのフローチャートの一例を示す図である。
【符号の説明】
【0130】
1〜4…マイクロフォン、5〜8…増幅回路、9,14…音声信号処理装置、10…エンコーダ、11…記録再生切り替え部、12…記録再生装置、13…デコーダ、20,20−1,20−2…相関検出部、30,30−1,30−2…レベル検出部、40,50,60,60−1,60−2,70,70−1,70−2,80,90…レベル制御部、201,202,207,301,302,312,403,503,605,705…選択部、203…低入力検出部、204…特異点処理部、205…相関係数算出部、206…絶対値処理部、208〜211…フィルタ部、212,213…遅延部、303,140,150,160,170…加算部、307…減算部、304,308…絶対値処理部、305,309…レベル検波部、306,310…比較部、311…判定部、313〜316…アップ/ダウンカウンタ、401,402,501,502,601〜604,701〜704…ラッチ部、404,504,606,706…レベル可変部、100−1,110−1,120−1,130−1,100−2,110−2,120−2,130−2…帯域分割部、181…マイクロプロセッサ、182…記憶装置、183…RAM、184…入出力装置

【特許請求の範囲】
【請求項1】
映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理装置であって、
上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における音声信号の相関を検出する、および/または、上記複数の方向のうち、少なくとも1つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する検出手段と、
上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも1つの音声信号のレベルを制御するレベル制御手段と、
を有する音声信号処理装置。
【請求項2】
上記検出手段は、上記複数の方向のうち、上記映像に最も近い方向を含む少なくとも1つの第1の方向における第1の音声信号と、上記第1の方向に比べて上記映像と離れた少なくとも1つの第2の方向からの第2の音声信号との相関を検出する、
請求項1に記載の音声信号処理装置。
【請求項3】
上記レベル制御手段は、上記検出手段において検出される上記第1の音声信号および上記第2の音声信号の相関が高くなる場合に、少なくとも上記第2の音声信号のレベルを大きくする、
請求項2に記載の音声信号処理装置。
【請求項4】
上記検出手段は、上記第1の音声信号および上記第2の音声信号の信号レベルの和と差を演算し、上記和が第1のレベルより大きくなり、かつ、上記差が第2のレベルより小さくなる第1の頻度を検出し、
上記レベル制御手段は、上記第1の頻度が高くなる場合に、少なくとも上記第2の音声信号のレベルを大きくする、
請求項2に記載の音声信号処理装置。
【請求項5】
上記検出手段は、上記第1の音声信号および上記第2の音声信号の信号レベルの和と差を演算し、上記和が第1のレベルより大きくなり、かつ、上記差が前記第2のレベルより大きく設定される第3のレベルより大きくなる第2の頻度を検出し、
上記レベル制御手段は、上記第2の頻度が高くなる場合に、少なくとも上記第2の音声信号のレベルを大きくする、
請求項2に記載の音声信号処理装置。
【請求項6】
上記検出手段は、上記第1の音声信号および上記第2の音声信号の信号レベルの和と差を演算し、上記和が第1のレベルより小さくなり、かつ、上記差が第2のレベルより小さくなる第3の頻度を検出し、
上記レベル制御手段は、上記第3の頻度が高くなる場合に、少なくとも上記第2の音声信号のレベルを大きくする、
請求項2に記載の音声信号処理装置。
【請求項7】
上記複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する帯域分割手段を有し、
上記帯域分割手段において分割された帯域ごとに、帯域内の音声信号に対して上記相関の検出および/または上記頻度の検出を行う検出手段と、当該検出手段の検出結果に応じて上記レベル制御を行うレベル制御手段とをそれぞれ有し、
上記レベル制御手段においてレベル制御された音声信号を、帯域ごとに合成する合成手段を有する、
請求項1に記載の音声信号処理装置。
【請求項8】
上記検出手段は、上記相関の検出対象の音声信号に所定の遅延時間差を与えてから、上記相関の検出を行う、
請求項1に記載の音声信号処理装置。
【請求項9】
映像とともに収録、または再生されるサラウンド音の複数の音声信号の記録と再生を行う音声信号記録再生装置であって、
上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における上記音声信号の相関を検出する、および/または、上記複数の方向のうち、少なくとも1つの方向からの上記音声信号のレベルが所定のレベルを超える頻度を検出する検出手段と、
上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも1つの音声信号のレベルを制御するレベル制御手段と、を有し、
上記レベル制御手段において少なくとも1つがレベル制御された上記複数の音声信号を記録する、および/または再生する、
音声信号記録再生装置。
【請求項10】
上記複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する帯域分割手段を有し、
上記帯域分割手段において分割された帯域ごとに、帯域内の音声信号に対して上記相関の検出および/または上記頻度の検出を行う検出手段と、当該検出手段の検出結果に応じて上記レベル制御を行うレベル制御手段とをそれぞれ有し、、
上記レベル制御手段においてレベル制御された音声信号を、帯域ごとに合成する合成手段を有する、
請求項9に記載の音声信号記録再生装置。
【請求項11】
映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理方法であって、
上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における上記音声信号の相関を検出する、および/または、上記複数の方向のうち、少なくとも1つの方向からの上記音声信号のレベルが所定のレベルを超える頻度を検出する第1の工程と、
上記第1の工程の検出結果に応じて、当該検出の対象となった少なくとも1つの音声信号のレベルを制御する第2の工程と、
を有する音声信号処理方法。
【請求項12】
映像とともに収録、または再生されるサラウンド音の複数の音声信号をコンピュータに処理させるプログラムであって、
上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも1組の方向における上記音声信号の相関を検出する、および/または、上記複数の方向のうち、少なくとも1つの方向からの上記音声信号のレベルが所定のレベルを超える頻度を検出する第1のステップと、
上記第1の工程の検出結果に応じて、当該検出の対象となった少なくとも1つの音声信号のレベルを制御する第2のステップと、
を有するプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2006−25034(P2006−25034A)
【公開日】平成18年1月26日(2006.1.26)
【国際特許分類】
【出願番号】特願2004−199522(P2004−199522)
【出願日】平成16年7月6日(2004.7.6)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】