説明

信号処理装置

【課題】できるだけ簡略な処理でオーディオ信号の内容を正確に検出することを可能にした信号処理装置を提供する。
【解決手段】オーディオ信号の音階周波数成分のエネルギーと全帯域成分のエネルギーとを比較することにより、オーディオ信号が楽音か否かを判定する楽音判定部、楽音判定部により楽音と判定されなかったとき、オーディオ信号の調波性の有無を判定することにより、オーディオ信号が調波音であるかその他音であるかを判定する調波性判定部、調波音であると判定されたとき、このオーディオ信号のピッチ周波数が音階周波数に一致しているか否か、および、ピッチ周波数の揺らぎの有無に基づいてオーディオ信号が話声であるか楽音であるかを判定する話声/楽音判定部、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、入力されたオーディオ信号の内容を判別する信号処理装置に関する。
【背景技術】
【0002】
近年、マルチチャンネルオーディオ装置が普及している。マルチチャンネルオーディオ装置は、5.1チャンネルなど、ステレオ2チャンネルよりも多いチャンネル(マルチチャンネル)のオーディオ信号を再生し、これらの信号を部屋の各所に設置された複数のスピーカから出力することによって、立体的な広がりのあるオーディオを再生する装置である(特許文献1)。
【0003】
従来のマルチチャンネルオーディオ信号では、各チャンネルにどのような内容のオーディオ信号を割り振るか(チャンネル割当)は、ほぼ統一されていた。すなわち、センタチャンネルにセリフ等の話声、フロント左右チャンネルにBGM等の楽音、サラウンド左右チャンネルに環境音や効果音などのその他音が割り当てられていた。
【0004】
マルチチャンネルオーディオ装置は、再生したオーディオ信号に反射音や残響音を付加することにより、ホールなどの仮想的な空間の響きを作り出す音場制御を行う機能を有している。ただし、セリフ等の話声に反射音や残響音等の効果を強く付加すると、明瞭度が低下して出演者が何を話しているか聴き取りくくなってしまうため、話声が再生されるチャンネルの音場制御量を他のチャンネルよりも小さくするように設定されている。
【0005】
上記従来のコンテンツの場合、センタチャンネルにセリフ等の話声が割り振られるのが一般であるため、従来のマルチチャンネルオーディオ装置では、センタチャンネルの音場制御量を小とし、他のチャンネルの音場制御量を大または中とするよう予め設定されていた。
【0006】
しかし、地上波デジタル放送の開始等により、家庭で再生可能なマルチチャンネルオーディオのコンテンツも多様化しており、従来の映画のようなチャンネル割当でないものが増えている。すなわち、センタチャンネルでないフロントチャンネルやサラウンドチャンネルに話声が割り当てられたコンテンツも増えている。
【0007】
このようなマルチチャンネルオーディオコンテンツを従来の音場制御量の設定で再生すると、セリフ等の話声に強い反射音や残響効果が掛かってしまい、明瞭度が低下してしまう。また、センタチャンネルでBGM等の楽音が再生されている場合には、BGMに音場効果が掛からず雰囲気を盛り上げることができないなどの問題が生じる。
【0008】
そこで、どのチャンネルでどのような内容の音響が再生されているかを検出して、各チャンネルの音場制御量を調整することが考えられる。特に、どのチャンネルで話声が再生されているかを検出し、話声が再生されているチャンネルの音場制御量を小さくすることが考えられる。オーディオ信号から話声を検出する手法としては、従来より特許文献2、3のような方法が提案されていた。
【0009】
特許文献2には、有声音の時間波形の自己相関関数を用いて話声を検出することが記載されている。また、特許文献3には、音響信号における調波構造成分の占める占有度を瞬時周波数分析を用いて求め、これに基づいて音声区間を検出することが記載されている。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開平8−275300号公報
【0011】
【特許文献2】特公平4−55320号公報
【0012】
【特許文献3】特許第3892379号公報
【発明の概要】
【発明が解決しようとする課題】
【0013】
しかし、特許文献2の方式では、時間波形の自己相関関数に基づき話声を検出するのみなので、正弦波などの周期性はあるが調波構造を持たない信号を話声と誤検出してしまう問題点があった。また、特許文献3の方式では、毎フレーム、全周波数帯域について瞬時周波数分析を行う必要があり演算量が膨大である。
また、上記いずれの方式でも、話声、単音の楽音、合奏の楽音、その他音のそれぞれを判別することができなかった。
【0014】
この発明は、できるだけ簡略な処理でオーディオ信号の内容を正確に検出することを可能にした信号処理装置を提供することを目的とする。
【課題を解決するための手段】
【0015】
請求項1の発明は、オーディオ信号の調波性の有無を判定することにより、前記オーディオ信号が調波音であるかその他音であるかを判定する調波性判定部と、前記調波性判定部により、前記オーディオ信号が調波音であると判定されたとき、このオーディオ信号のピッチ周波数が音階周波数に一致しているか否か、および、前記ピッチ周波数の揺らぎの有無に基づいて、前記オーディオ信号が話声であるか楽音であるかを判定する話声/楽音判定部と、を備えたことを特徴とする。
請求項2の発明は、前記発明において、前記調波性判定部による判定の前に、前記オーディオ信号の音階周波数成分のエネルギーと全帯域成分のエネルギーとを比較することにより、前記オーディオ信号が楽音か否かを判定する楽音判定部を設け、この楽音判定部により、前記オーディオ信号が楽音でないと判定されたとき、前記調波性判定部の処理を行うことを特徴とする。
請求項3の発明は、前記発明において、前記前記調波性判定部は、短時間フーリエ変換による周波数スペクトルの自己相関関数に基づき調波性の有無を判定することを特徴とする。
請求項4の発明は、請求項3の発明において、前記話声/楽音判定部は、前記自己相関関数に基づいて求められた概算のピッチ周波数付近のみで瞬時周波数分析を行うことにより、正確なピッチ周波数を求める手段を含むことを特徴とする。
【発明の効果】
【0016】
この発明によれば、比較的簡略な処理でオーディオ信号の内容(話声/楽音等)を判別することが可能になる。
【図面の簡単な説明】
【0017】
【図1】この発明の実施形態である信号処理部を含むオーディオ装置のブロック図
【図2】マルチチャンネルオーディオ信号のチャンネル割当の例を示す図
【図3】同信号処理部のブロック図
【図4】同信号処理部の内容判別部の処理を示すフローチャート
【図5】内容判別部の楽音判定処理を説明する図
【図6】内容判別部の調波性判定処理を示すフローチャート
【図7】各種オーディオ信号の周波数スペクトルおよび自己相関関数を示す図
【図8】内容判別部の話声/楽音判定処理を示すフローチャート
【図9】STFTの周波数binと瞬時周波数との相関を説明する図
【発明を実施するための形態】
【0018】
《オーディオ装置の構成》
図1はこの発明の実施形態である信号処理部を含むオーディオ装置のブロック図である。オーディオ装置は、コンテンツ再生装置2、オーディオアンプ1、複数のスピーカ3を有してている。オーディオアンプ1は、信号処理部4、増幅回路5を有している。
【0019】
コンテンツ再生装置2は、たとえば映画等のDVDを再生するDVDプレイヤ、衛星、地上波のテレビ放送を受信するテレビ放送チューナ等で構成される。コンテンツ再生装置2は、マルチチャンネル(たとえば5.1チャンネル)のオーディオ信号をオーディオアンプ1に入力する。オーディオアンプ1の信号処理部4は、コンテンツ再生装置2から入力されたマルチチャンネルのオーディオ信号に対してイコライジング、音場制御等の処理を行ったのち、増幅回路5に入力する。増幅回路5は入力されたマルチチャンネルのオーディオ信号をそれぞれ個別に増幅して各チャンネルに対応するスピーカ3に出力する。
【0020】
複数のスピーカ3はリスニングルームの各所に設置されており、各チャンネルの音響が各スピーカ3から放音されることにより、リスニングルームに広がりのある音場が形成される。
【0021】
《コンテンツのチャンネル割当例》
ここで、図2を参照して、コンテンツ再生装置2からオーディオアンプ1に入力されるマルチチャンネルオーディオ信号のチャンネル割当について説明する。
【0022】
図2(A)は、一般的な映画コンテンツのマルチチャンネルオーディオ信号のチャンネル割当を示す図である。この実施形態では5.1チャンネルのオーディオ信号を例にあげて説明する。5.1チャンネルのオーディオ信号は、センタチャンネルC、フロント左チャンネルFL、フロント右チャンネルFR、サラウンド(リア)左チャンネルSL、サラウンド(リア)右チャンネルSR、および、サブウーファチャンネルSWからなっている。このうち、サブウーファチャンネルSWは他のチャンネルの重低音信号を集めて構成されるため、コンテンツ再生装置2から入力されるチャンネル数は5チャンネルである。したがって以下では、センタチャンネルC、フロント左チャンネルFL、フロント右チャンネルFR、サラウンド左チャンネルSLおよびサラウンド右チャンネルSRの5チャンネルのチャンネル割当について説明する。
【0023】
一般的なコンテンツの場合、センタチャンネルCにセリフ等の話声、フロント左右チャンネルFL,FRにBGM等の楽音、サラウンド左右チャンネルSL,SRにその他音(効果音や環境音など)が割り当てられる。
【0024】
一般的に、話声に対しては喋っている内容が不明瞭になるのを防止するため、音場効果を付与する量(音場制御量)を小さくする。また、BGM等の楽音に対しては、響きが豊かになるように音場制御量を大きくする。また、環境音や効果音等のその他音に対しては音場制御量を中くらいに設定する。したがってセンタチャンネルCの音場制御量は「小」、フロント左右チャンネルFL,FRの音場制御量は「大」、サラウンド左右チャンネルSL,SRの音場制御量は「中」に設定される。
【0025】
一方、同図(B)は、一般的な映画コンテンツ以外のコンテンツ、たとえば、デジタルテレビ放送のマルチチャンネルオーディオ信号のチャンネル割当の例を示す図である。この例では、センタチャンネルCは無音であり、フロント左チャンネルFLにセリフ等の話声とBGM、フロント右チャンネルFRにBGM等の楽音、サラウンド左右チャンネルSL,SRにその他音が割り当てられている。
【0026】
このような場合、センタチャンネルCの音場制御量は任意(入力信号がないため音場効果は実質0になる)、フロント左右チャンネルFL,FRの音場制御量は「小」、サラウンド左右チャンネルSL,SRの音場制御量は「中」に設定される。
【0027】
すなわち、フロント左チャンネルFLには、話声と楽音が合成して出力されているが、この場合には話声が優先し、音場制御量は「小」に設定される。また、フロント右チャンネルFRは楽音のみであるが、左右チャンネルの音場制御のバランスが崩れるとリスナーに不安定な印象を与える可能性があるため、フロント左チャンネルFLと同様に音場制御量を「小」にしている。なお、この場合フロント右チャンネルFRの音場制御量を楽音に合わせて「大」に設定してもよく、それらの中間をとって「中」に設定してもよい。
【0028】
《信号処理部の構成》
図3は、上記信号処理部4の構成例を示す図である。信号処理部4は、イコライジング、音場効果付与等種々の処理を行う機能部であるが、図3ではそのうち音場効果を付与する構成部のみを示している。入力部10は、センタチャンネル用入力部10C,フロント左チャンネル用入力部、フロント右チャンネル用入力部、サラウンド左チャンネル用入力部、サラウンド右チャンネル用入力部の5つの入力部からなっており、それぞれ各チャンネル(C、FL、FR、SL、SR)のオーディオ信号が入力される。
以下、上記入力部10と同じように、5チャンネル分並列に設けられている構成部については、個別チャンネル毎の説明は省略する。
【0029】
入力部10から入力されたオーディオ信号は、内容判別部14および遅延部11に入力される。内容判別部14は、5チャンネル分並列に設けられており、各チャンネルのオーディオ信号の内容を判別する。内容とは、オーディオ信号が、話声/楽音/その他音のいずれであるかを示す情報である。
【0030】
内容判別部14は、調波構造の有無や、変調スペクトル、倍音構造、周波数変化率などを測定することで、話声/音楽/その他音を判別する。内容判別部14の判別処理の詳細は後述する。
【0031】
遅延部11は、内容判別部14がオーディオ信号の内容を判別するために必要な時間分、オーディオ信号を遅延させる。これにより、内容判別部14の判別結果に基づく音場制御の制御遅れを解消している。
【0032】
内容判別部14の判別結果は、係数制御部15に入力される。係数制御部15は、各チャンネルのオーディオ信号の内容に応じて各チャンネルのオーディオ信号に対する音場制御量を決定する。音場制御量は図2に示したようなルールで決定される。内容判別部14は、各チャンネルのオーディオ信号に対する音場制御量を決定し、その音場制御量に対応する入力レベルにオーディオ信号を制御する係数を出力する。係数は係数乗算部16に入力される。
【0033】
係数乗算部16は、遅延部11で遅延されたオーディオ信号に係数制御部15から入力された係数を乗算して加算部17に入力する。係数乗算部16は5チャンネル分並列に設けられている。加算部17は、それぞれ係数が乗算された5チャンネルのオーディオ信号を加算合成する。加算合成されたオーディオ信号は、レベル制御部18でレベルが制御されたのち、音場効果生成部19により、初期反射音、残響音を含む音場効果が付与される。
【0034】
音場効果生成部19に入力されるオーディオ信号のレベルが大きいほど、音場効果生成部19によって生成される音場効果音(反射音、残響音)は大きくなる。したがって、係数制御部15が生成する係数により、各チャンネルのオーディオ信号に付与される音場効果の程度が制御される。
【0035】
音場効果生成部19は、音場データ20に基づき、ホールや室内などにおける音の響きを再現する。すなわち、ホールや室内で生じる初期反射音や残響音を生成する。この処理は、空間伝搬や反射に伴う周波数特性の変化を模擬するためのフィルタ処理や遅延と係数乗算による初期反射音の生成処理および後部残響音の生成処理などを含んでいる。
【0036】
音場効果生成部19で生成された音場効果音は、係数乗算部21および加算部12を介してドライのオーディオ信号に加算される。係数乗算部21、加算部12も5チャンネル分並列に設けられている。一般的にセリフ等の話声が出力されるチャンネルには音場効果音を加算しないほうが話声の明瞭度が高くなるため、係数乗算部21により、話声のチャンネルへの音場効果音の加算ゲインを0にする。
【0037】
係数乗算部21に入力される係数も係数制御部15が設定すればよい。話声が出力されるチャンネルの係数を“0”とし、他のチャンネルの係数を“1”とすればよいが、各チャンネルごとに係数の値を“0”と“1”の中間値に変化させてもよい。
【0038】
このような制御により、各チャンネルにおいて、セリフ以外を再生している期間は広く豊かな音場効果を付与しつつ、セリフが再生された場合にはセリフに対する音場効果の量を抑えることで響きすぎを抑え、豊かな音場効果と明瞭なセリフを両立することができる。
【0039】
《内容判別部14の処理の説明》
図4〜図9を参照して内容判別部14の内容判別処理について説明する。この処理は、1フレーム(40ms)毎に実行される。調波性判定処理(S4)では自フレームのほか、前後3フレームのデータを併せて用いるため、判別処理は3フレーム分遅延する。遅延部11がこの判別処理の遅れ時間だけオーディオ信号を遅延させる。
【0040】
図4は、内容判別処理の全体処理を示すフローチャートである。まず、楽音判定処理を行う(S1)。楽音判定処理とは、オーディオ信号の周波数成分のうち、音階周波数の成分が占める比率を測定する処理である。この楽音判定の詳細は図5を参照して後述する。楽音判定処理により楽音であると判定された場合(S2でYES)には、内容判別結果として「楽音」を出力して(S3)、処理を終える。
【0041】
楽音判定処理により楽音と判定されなかった場合(S2でNO)には、調波性判定処理を行う(S4)。調波性判定処理とは、オーディオ信号が調波性を有するか、すなわち、基音およびその整数倍の倍音成分からなるスペクトル構造を有しているかを判定する処理である。調波性判定処理の詳細は図6を参照して後述する。調波性判定処理により調波性なしと判定された場合(S5でNO)には、内容判別結果として「その他音」を出力する(S6)。一方、調波性判定処理によた調波性ありと判定された場合(S5でYES)、そのオーディオ信号は話声または楽音であると考えられるため、話声/楽音判定処理(S7)を行う。
すなわち、話声や楽音は、調波性を有するが、環境音や効果音などの音響は調波性を持たないためである。
【0042】
話声/楽音判定処理では、正確な基音周波数(ピッチ)を算出し、このピッチが音階周波数に一致しているか、または、ピッチに大きな揺らぎがないかに基づき、このオーディオ信号が楽音であるか話声であるかを判定する。この話声/楽音判定処理の詳細は図7を参照して後述する。判定結果が話声であった場合には、内容判別結果として「話声」を出力する(S9)。判定結果が楽音であった場合には、内容判別結果として「楽音」を出力する(S10)。
【0043】
図5(A)は、楽音判定処理を示すフローチャートである。この処理では、オーディオ信号の全周波数帯域のエネルギーに占める音階周波数成分のエネルギーを測定することにより、このオーディオ信号が楽音(特に合奏の楽音)であるか否かを判定する。
【0044】
まず、オーディオ信号の中の音階周波数成分のエネルギーおよび全周波数帯域のエネルギーを測定する(S20)。オーディオ信号のエネルギーを測定する機能部のブロック図を図5(B)に示す。音階周波数成分のエネルギー測定は、特定オクターブの12音のエネルギーを加算したものである。特定オクターブとしては、メロディが演奏されるオクターブ、たとえばC3〜B3のオクターブを用いればよい。このため、C〜Bの12半音階のBPFフィルタを設ける。各フィルタを通過した周波数成分をそれぞれ積分して、各周波数成分のエネルギーを求め、これらを加算する。この加算されたものが音階周波数成分のエネルギーである。一方、オーディオ信号を直接積分して全周波数帯域のエネルギーを求める。
【0045】
S20で求められた音階周波数成分のエネルギーと全周波数帯域成分のエネルギーとを比較し(S21)、その比率が所定の比率以上であった場合、すなわち、音階周波数成分のエネルギーの占める比率が所定値以上であった場合には(S22でYES)、判定結果として「楽音」を出力する(S23)。一方、音階周波数成分のエネルギーの占める比率が所定値に満たなかった場合には(S22でNO)、判定結果を出力しないで終了する。
【0046】
このように、複数のBPFフィルタ処理およひ積分処理のみでオーディオ信号が楽音であるか否かが判定可能であるため、この処理でオーディオ信号が楽音と判定されれば、図4のS4以下の処理を省略することができ、処理負荷を大幅に軽減することができる。また、この楽音判定処理では、明確な調波性が現れない複数楽器による合奏の楽音であっても、音階周波数に多くの成分が現れるため、容易に検出可能である。
【0047】

図6は、調波判定処理を示すフローチャートである。この処理では、オーディオ信号を短時間フーリエ変換(STFT)し、その周波数スペクトルの自己相関を求めることによって、調波性の有無およびピーク周波数(概略のピッチ周波数)を求める。
【0048】
ここで、STFTは、現フレームのデータとその前後2フレームを併せた5フレーム分のデータを用いて行う。また、現フレームにおけるSTFT結果に前フレームのSTFT結果、次フレームのSTFT結果を加えた平均値を現フレームの周波数スペクトルP(T)として用いる。したがって、現フレームの周波数スペクトルが求められるのは、現フレームから3フレーム後である。
【0049】
このように複数フレームの周波数スペクトルを平均することにより、継続的に存在する周波数成分が強調される。すなわち、背景音等のノイズ成分は継続的に存在しないため、スペクトル上で強調されないが、話声や楽音等の継続的に存在する成分は、スペクトル上でその調波成分が強調される。これにより、オーディオ信号中に背景音に埋もれたレベルの小さい話声や楽音が存在しても、これを検出してピーク周波数の測定が可能になる。
【0050】
図6において、まず、上述の手法で短時間フーリエ変換を行い、現フレーム(時刻:T)の周波数スペクトルP(T)を求める(S31)。図7(A)にFFT結果の例を示す。この例は話声のみの信号スペクトルである。
【0051】
次にこの周波数スペクトルの自己相関を検出する(S32)。図7(B)、(C)、(D)に自己相関関数の例を示す。図7(B)は、図7(A)に示した話声のみの周波数スペクトルの自己相関関数であり、自己相関が明確に現れている。図7(C)は話声および話声以外の成分をふくむオーディオ信号の周波数スペクトルの自己相関関数の例を示す図である。話声が占める周波数帯域は狭いため、周波数差が小さい範囲では自己相関が現れているが、周波数差が大きい範囲では自己相関が乱れている。図7(D)はその他音の周波数スペクトルの自己相関関数の例を示す図である。このように、その他音は調波性がないため、周波数スペクトルの自己相関が全くない。
【0052】
自己相関関数の最初のピークを検出し、そのピークの周波数差をピーク周波数Faとする(S33)。図7(D)に例示したようにピーク周波数Faが検出できなかった場合は(S34でNO)、「調波性なし」の判定結果を出力して(S39)、この処理を終了する。
【0053】
ピーク周波数Faが検出された場合には、このピーク周波数Faと直前のフレーム(T−3)のピッチ周波数F(T−3)とを比較する(S35)。その差が所定値以下(ほぼ一致)であった場合には(S36でYES)、ピーク周波数Faをオーディオ信号の今回のフレーム(F−2)におけるピッチ周波数F(T−2)とする(S37)。そして、判定結果「調波性あり」、ピッチ周波数「F(T−2)」を出力して(S38)、調波性判定処理を終了する。
【0054】
一方、FaとF(T−3)との差が所定値より大きかった場合には(S36でNO)、「調波性なし」の判定結果を出力して(S39)、処理動作を終了する。
【0055】
話声、楽音の調波性は瞬間的に現れて消滅するものではなく複数フレーム継続するものであるため、今回のピーク周波数を前フレームのピッチ周波数と比較してほぼ一致したときのみ調波性ありと判定して誤検出を防止している。
【0056】
図8は話声/楽音判定処理を示すフローチャートである。この処理では、今回の判別対象フレームの正確なピッチ周波数を算出し、このピッチ周波数が音階周波数に一致しているか、または、ピッチ周波数に大きな揺らぎがないかに基づき、このオーディオ信号が楽音であるか話声であるかを判定している。
【0057】
まず、図6の処理で得たSTFT周波数スペクトルおよびその周波数分解能で得られたSTFT分解能の精度のピッチ周波数F(T−2)を用いて、瞬時周波数を分析し、これに基づいて得られた正確なピッチ周波数をFe(T−2)とする(S50)。すなわち、全周波数帯域について瞬時周波数分析をするのではなく、STFTで得られた概算のピッチ周波数F(T−2)付近のみで瞬時周波数分析を行う。これにより、瞬時周波数分析における処理量を大幅に少なくすることができる。
【0058】
瞬時周波数は、STFTの各周波数binの信号成分波形の位相φの時間微分φ′として求められる。通常、瞬時周波数φ′は、各周波数binの周波数とほぼ一致し、図9(A)のような一次関数的な相関を示すが、STFTを行ったフレームの信号波形に強いパワーを持った周波数成分Feがあると、そのSTFTにおけるその周波数成分Fe近傍の周波数binの瞬時周波数φ′がほぼ一定値になることが知られている。そして、この場合、STFTで求めた概算のピッチ周波数Fと、上述の相関曲線のほぼ水平になっている部分との交点の縦軸値が正確なピッチ周波数Feであると推定することができる。このようにして、0.2Hz精度の正確なピッチ周波数Fe(T−2)を求めることが可能になる。
【0059】
この正確なピッチ周波数Fe(T−2)が音階周波数とを比較する(S51)。この処理では、楽音の存在しえるオクターブ範囲の全12半音階の周波数をFe(T−2)と比較する。これらがほぼ一致した場合には(S52でYES)、オーディオ信号は楽音であるとして、楽音の判定結果を出力し(S56)、処理を終了する。一方、Fe(T−2)と音階周波数とが一致しない場合には、前フレームで求めた正確なピッチ周波数Fe(T−3)と今回の正確なピッチ周波数Fe(T−2)とを比較する(S53)。前回の正確なピッチ周波数Fe(T−3)と今回の正確なピッチ周波数Fe(T−2)とがほぼ一致する場合には(S54でYES)、ピッチ周波数の揺らぎが殆どないため楽音の判定結果を出力する(S56)。一方、前回の正確なピッチ周波数Fe(T−3)と今回の正確なピッチ周波数Fe(T−2)とが一致しない場合には(S54でNO)、ピッチに揺らぎがあるため話声の判定結果を出力する(S55)。
【0060】
すなわち、楽音は、安定した周波数の音響であるが、話声は周波数の抑揚があり、比較的大きいピッチ変動(揺らぎ)があるからである。なお、前フレームの正確なピッチFeがない(前フレームでこの処理が行われなかった)場合には、S54では不一致と判定される。なお、人声に限らず、動物の鳴き声であってもこの話声/楽音判定処理で話声と判定することが可能である。
【0061】
また、楽音判定処理(図4のS1または図5の処理)で楽音と判定されず、この話声/楽音判定処理で楽音と判定されるオーディオ信号とは、たとえばフルート1本など単音の演奏であるため音階音の占めるエネルギーが小さい楽音や、民族楽器等の西洋12音音階に一致しないピッチの楽器等である。
【0062】
なお、この実施形態では、全てのチャンネルに内容判別部14を設け、全てのチャンネルの内容を判別しているが、必ずしも全てのチャンネルの内容を判別する必要はなく、一部のチャンネル(たとえばセンタチャンネル)のみ内容を判別してもよい。また、話声/楽音/その他音の全ての内容を判別する必要はなく、一部の内容(たとえば話声)のみを判別してもよい。
【0063】
《尚書き》
上記実施形態では、オーディオ信号に初期反射音や残響音を付加する音場効果について説明したが、本発明における信号処理は音場効果に限定されない。
【0064】
また、上記実施形態では、5.1チャンネルのマルチオーディオ信号を例に挙げて説明したが、マルチチャンネルオーディオ信号のチャンネル数は5.1チャンネルに限定されない。
【符号の説明】
【0065】
1 オーディオアンプ
4 信号処理部
14 内容判別部
15 係数制御部
16 係数乗算部
19 音場効果生成部

【特許請求の範囲】
【請求項1】
オーディオ信号の調波性の有無を判定することにより、前記オーディオ信号が調波音であるかその他音であるかを判定する調波性判定部と、
前記調波性判定部により、前記オーディオ信号が調波音であると判定されたとき、このオーディオ信号のピッチ周波数が音階周波数に一致しているか否か、および、前記ピッチ周波数の揺らぎの有無に基づいて、前記オーディオ信号が話声であるか楽音であるかを判定する話声/楽音判定部と、
を備えた信号処理装置。
【請求項2】
前記調波性判定部による判定の前に、前記オーディオ信号の音階周波数成分のエネルギーと全帯域成分のエネルギーとを比較することにより、前記オーディオ信号が楽音か否かを判定する楽音判定部を設け、
この楽音判定部により、前記オーディオ信号が楽音でないと判定されたとき、前記調波性判定部の処理を行う請求項1に記載の信号処理装置。
【請求項3】
前記前記調波性判定部は、短時間フーリエ変換による周波数スペクトルの自己相関関数に基づき調波性の有無を判定する請求項1または請求項2に記載の信号処理装置。
【請求項4】
前記話声/楽音判定部は、前記自己相関関数に基づいて求められた概算のピッチ周波数付近のみで瞬時周波数分析を行うことにより、正確なピッチ周波数を求める手段を含む請求項3に記載の信号処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate