説明

音声処理装置および音声処理方法、記録媒体、並びにプログラム

【課題】音声出力を高音質化する。
【解決手段】帯域分割フィルタ113−1,113−2による周波数位相特性の位相差を0度、または180度に設定する。このように設定された帯域分割フィルタ113−1,113−2、増幅部114−1,114−2、およびスピーカ115−1,115−2に、補正フィルタ112を付加しない状態でインパルス信号を入力した時の音声出力をマイクロフォンにより収音し、この結果をインパルスレスポンスとしたときの逆フィルタを補正フィルタ112とする。これにより、補正フィルタ112が、帯域分割フィルタ113−1,113−2の前段において、分割される両方の帯域の音声信号を同時に補正することができるので、出力部101より出力される音声の周波数振幅特性が、全体としてフラットなものとなり、音声出力が高音質化される。本技術は、オーディオプレイヤに適用することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本技術は、音声処理装置および音声処理方法、記録媒体、並びにプログラムに関し、特に、音声出力を高音質化できるようにした音声処理装置および音声処理方法、記録媒体、並びにプログラムに関する。
【背景技術】
【0002】
複数の帯域毎に音声を出力するマルチwayスピーカなどの音響装置を設計するにあたり、音響装置全体の音響特性を予め測定し、逆フィルタやイコライジングにより出力される音声を高音質化する技術が普及している。
【0003】
複数のスピーカの周波数振幅特性および周波数位相特性が、それぞれに乱れている状態で広帯域化されて再生されることで、音質が劣化することが知られている。そこで、各スピーカ毎に周波数振幅特性および周波数位相特性を補正することで高音質化を図ることが可能であると考えられる。しかしながら、限られた計算リソースを利用してDSP(Digital Signal Processor)を構成し、高音質化を図る場合、各スピーカの音声出力をそれぞれ補正することは計算リソースの限界が高音質化の限界となる。
【0004】
このため、音声信号を帯域分割前に全帯域に渡って補正フィルタにより補正した上で、帯域を分割して出力する技術が提案されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−184040号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、帯域を分割する前の全帯域を含む音声信号に対して補正を掛ける場合、帯域分割フィルタにより分割される各帯域のクロスオーバ付近の帯域について音質に違和感が生じてしまういったことが知られている。このような違和感に対応するため、クロスオーバ付近の帯域について周波数振幅特性を改善するため、クロスオーバ付近の帯域については、ゲインが上がるようなフィルタを構成するような技術が提案されているが、十分な効果が得られていない。
【0007】
そもそも、広帯域再生を目的とした2wayまたは3wayのスピーカシステムや、2.1chや5.1chの再生システムが設計される場合、各スピーカユニットの再生能力から帯域分割フィルタが構成され、各スピーカユニットの伝搬遅延が補正されるように構成され、さらに、高域、中域、低域などのレベルバランスが補正される。
【0008】
ところが、その後、スピーカユニットの特性を加味した逆フィルタによる信号処理により補正することは考えられていない。
【0009】
このため、複数のスピーカユニットを使用したスピーカシステムが構成され、ある程度良好な特性を得られていたとしても、クロスオーバ近傍の帯域を信号処理で調整を施すと違和感が発生することがあった。
【0010】
本技術は、このような状況に鑑みてなされたものであり、特に、周波数振幅特性を補正するのではなく、帯域分割フィルタの周波数位相特性を調整することにより音声出力を高音質化させるものである。
【課題を解決するための手段】
【0011】
本技術の一側面の音声処理装置は、音声を帯域毎に出力する複数のスピーカと、複数の帯域を含む音声信号を、前記複数のスピーカの特性に応じて補正する補正フィルタと、前記補正フィルタにより補正された音声信号を、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する複数の帯域分割フィルタとを含み、前記補正フィルタは、前記複数の帯域分割フィルタを介して、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタである。
【0012】
前記複数の帯域分割フィルタには、前記補正フィルタにより補正された音声信号のうち、所定の周波数帯域についてのみ、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割させるようにすることができる。
【0013】
前記音声信号を増幅する増幅部をさらに含ませるようにすることができ、前記増幅部は、前記帯域分割フィルタにより分割される前の前記音声信号を増幅する1の増幅部とする、または、前記帯域分割フィルタにより分割された帯域毎の前記音声信号をそれぞれ増幅する複数の増幅部とすることができる。
【0014】
前記音声信号に他の音声処理装置の音響特性を付加する付加フィルタをさらに含ませるようにすることができ、前記他の音声処理装置の音響特性は、ネットワークにより接続されたライブラリよりダウンロードされるようにすることができる。
【0015】
前記付加フィルタは、前記帯域分割フィルタにより分割される前の前記音声信号に前記他の音声処理装置の音響特性を付加する1の付加フィルタとしてもよいし、または、前記帯域分割フィルタにより分割された帯域毎に前記他の音声処理装置の音響特性を付加する複数の付加フィルタとするようにするもとよい。
【0016】
入力される前記音声信号は、マルチチャンネルの音声信号であって、頭部伝達関数により音像定位された音声信号が合成されたものであり、請求項1乃至5のいずれかの音声処理装置からなるイヤホンとすることができる。
【0017】
本技術の一側面の音声処理方法は、音声を帯域毎に出力する複数のスピーカを含む音声処理装置の音声処理方法であって、複数の帯域を含む音声信号を、前記複数のスピーカの特性に応じて補正する補正フィルタ処理し、前記補正フィルタ処理により補正された音声信号を、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する複数の帯域分割フィルタ処理し、前記補正フィルタは、前記複数の帯域分割フィルタを介して、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタである。
【0018】
本技術の一側面のプログラムは、音声を帯域毎に出力する複数のスピーカを含む音声処理装置を制御するコンピュータを、複数の帯域を含む音声信号を、前記複数のスピーカの特性に応じて補正する補正フィルタと、前記補正フィルタにより補正された音声信号を、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する複数の帯域分割フィルタとして機能させ、前記補正フィルタは、前記複数の帯域分割フィルタを介して、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタである。
【0019】
本技術の一側面の記録媒体は、請求項8に記載のプログラムが記録されている。
【0020】
本技術の一側面においては、複数のスピーカにより音声が帯域毎に出力され、複数の帯域を含む音声信号が、前記複数のスピーカの特性に応じて補正され、補正された音声信号が、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割され、複数の帯域を含む音声信号は、前記複数の帯域に分割されて、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタにより補正される。
【0021】
本技術の音声処理装置は、独立した装置であっても良いし、音声処理を行うブロックであっても良い。
【発明の効果】
【0022】
本技術によれば、音声出力を高音質化することが可能となる。
【図面の簡単な説明】
【0023】
【図1】従来の音声処理装置を適用した出力部の構成例を示す図である。
【図2】図1の出力部の帯域分割フィルタによる各帯域毎の周波数振幅特性を説明する図である。
【図3】図1の出力部の帯域分割フィルタによる各帯域毎の周波数位相特性を説明する図である。
【図4】図1の出力部の補正前および補正後の周波数振幅特性を説明する図である。
【図5】本技術の音声処理装置を適用した出力部の第1の実施の形態の構成例を示す図である。
【図6】図5の出力部のインパルスレスポンスと逆フィルタからなる補正フィルタを説明する図である。
【図7】図5の出力部の帯域分割フィルタによる各帯域毎の周波数振幅特性を説明する図である。
【図8】図5の出力部の帯域分割フィルタによる各帯域毎の周波数位相特性を説明する図である。
【図9】図5の出力部の理想的な周波数振幅特性を説明する図である。
【図10】図5の出力部による出力処理を説明するフローチャートである。
【図11】図5の出力部の帯域分割フィルタによる各帯域毎の周波数位相特性のその他の例を説明する図である。
【図12】本技術の音声処理装置を適用した出力部の第1の変形例の構成例を示す図である。
【図13】図12の出力部による出力処理を説明するフローチャートである。
【図14】本技術の音声処理装置を適用した出力部の第2の変形例の構成例を示す図である。
【図15】図14の出力部による出力処理を説明するフローチャートである。
【図16】本技術の音声処理装置を適用した出力部の第3の変形例の構成例を示す図である。
【図17】図16の出力部による出力処理を説明するフローチャートである。
【図18】本技術の音声処理装置を適用した出力部の第4の変形例の構成例を示す図である。
【図19】図18の出力部によるバーチャル再生処理を説明するフローチャートである。
【図20】汎用のパーソナルコンピュータの構成例を説明する図である。
【発明を実施するための最良の形態】
【0024】
以下、発明を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行なう。
1.第1の実施の形態
2.第1の変形例
3.第2の変形例
4.第3の変形例
5.第4の変形例
【0025】
<1.第1の実施の形態>
[従来の音声処理装置を適用した出力部の構成例]
本技術の音声処理装置を適用した出力部を説明するにあたり、従来の音声処理装置を適用した出力部の構成を説明する。図1は、従来の音声処理装置を適用した出力部の構成例を説明する図である。図1の出力部は、入力される音声信号に基づいて、高音質化して音声を出力する。
【0026】
出力部1は、入力された、アナログ信号からなる音声信号に基づいて、高音質化して音声を出力する。出力部1は、ADC(Analog Digital Converter)11、補正フィルタ12、帯域分割フィルタ13−1,13−2、増幅部14−1,14−2、およびスピーカ15−1,15−2より構成されている。
【0027】
ADC11は、アナログ信号からなる音声信号をデジタル音声信号に変換して補正フィルタ12に供給する。補正フィルタ12は、このフィルタがない状態で、すなわち、補正なしの状態でインパルスが入力されたとき、スピーカ15−1,15−2より出力される音声信号をマイクロフォンにより収音して測定されるインパルスレスポンスに基づいて求められる逆フィルタである。これにより、スピーカ15−1,15−2より出力される音声が補正される。
【0028】
帯域分割フィルタ13−1,13−2は、例えば、IIR(Infinite impulse response)フィルタなどからなるデジタルフィルタであり、補正フィルタ12により補正された音声信号を、それぞれ帯域毎に分割して、それぞれ増幅部14−1,14−2に出力する。帯域分割フィルタ13−1,13−2は、図1においては、帯域分割フィルタ13−1が高周波数帯域の音声信号を抽出し、帯域分割フィルタ113−2が低周波数帯域の音声信号を抽出する。増幅部14−1,14−2は、それぞれ所定の帯域の音声信号を増幅してスピーカ15−1,15−2より音声として出力させる。スピーカ15−1,15−2は、それぞれ出力する音声の周波数帯域が異なるものであり、図1の例においては、スピーカ15−1は、高周波数帯域の音声信号を出力し、スピーカ15−2は、低周波数帯域の音声信号を出力する。尚、図1においては、増幅部14−1,14−2は、デジタル音声信号を増幅するデジタル信号増幅処理をして、アナログ信号に変換してスピーカ15−1,15−2に出力する例が示されているが、デジタル音声信号をアナログ変換した後、アナログ信号増幅処理をするようにしてもよい。
【0029】
帯域分割フィルタ13−1,13−2のそれぞれの周波数振幅特性は、例えば、図2における波形L1,L2で示される。すなわち、波形L1で示される波形は、周波数が100Hz付近から−40dBで立ち上がり、周波数が1000Hzほどから0dBで一定の状態となる。また、波形L2で示される波形は、周波数が200Hz付近でピークとなる凸型波形である。また、波形L1,L2のクロスオーバ帯域は、周波数が400乃至500Hz付近となる。尚、図2においては、横軸が周波数帯域を示し、縦軸が振幅を示している。
【0030】
また、帯域分割フィルタ13−1,13−2のそれぞれの周波数位相特性は、図3で示される。すなわち、波形L11で示される波形は、周波数が10Hz付近においては、位相が160度であり、周波数が高くなるにつれて徐々に位相が遅れ初めて、周波数が200Hz付近で−160度にまで遅れた後、位相が反転し160度進んだ状態となり以降は徐々に位相が0度に近づくように変化する。一方、波形L12で示される波形は、周波数が10Hzにおいては、位相が160度であり、周波数が進むにつれて徐々に位相が遅れ初めて、周波数が400Hz付近で0度にまで遅れた後、以降は徐々に位相が180度に近づくように変化する。尚、図3においては、横軸が周波数帯域を示し、縦軸が位相角度を示している。
【0031】
この補正フィルタ12がない状態における、出力部1の振幅特性は、図4の上段で示されるように周波数帯域に対して、凹凸のある振幅波形となっていた。これに対して、補正フィルタ12により図4の下段で示されるように、各周波数帯域における振幅がフラットにされる。しかしながら、クロスオーバ付近である400Hz近傍には凹部があり、このクロスオーバ付近だけがフラットな振幅特性とならない。従来においては、この凹部への対策としてフィルタ処理や、イコライジング処理がなされていた。尚、図4の下段における凹部は、2way、または3wayのスピーカシステムにおいて生じるものであり、スピーカが1であるシステムにおいては、後述する図9で示されるような各帯域においてフラットとなり、理想的な振幅波形となることが知られている。尚、図4,図9においては、横軸が周波数帯域を示しており、縦軸が、各周波数帯域における振幅を示している。
【0032】
[本技術の音声処理装置を適用した出力部の第1の実施の形態の構成例]
次に、図5を参照して、本技術の音声処理装置を適用した出力部の第1の実施の形態の構成例を説明する。図5の出力部は、入力される音声信号に基づいて、全帯域において理想的な振幅となるように高音質化して音声を出力する。
【0033】
出力部101は、入力された、アナログ信号からなる音声信号に基づいて、高音質化して音声を出力する。出力部101は、ADC(Analog Digital Converter)111、補正フィルタ112、帯域分割フィルタ113−1,113−2、増幅部114−1,114−2、およびスピーカ115−1,115−2より構成されている。
【0034】
ADC111は、基本的にADC11と同様のものであり、アナログ信号からなる音声信号をデジタル音声信号に変換して補正フィルタ112に供給する。補正フィルタ112は、基本的に補正フィルタ12と同様のものであり、このフィルタがない状態で、すなわち、補正なしの状態でインパルスが入力されたとき、後述する帯域分割フィルタ113−1,113−2、増幅部114−1,114−2、およびスピーカ115−1,115−2を介して出力される音声信号をマイクロフォンにより収音して測定されるインパルスレスポンスに基づいて求められる逆フィルタである。これにより、スピーカ115−1,115−2より出力される音声が補正される。
【0035】
より詳細には、補正フィルタ112は、例えば、出力部101に、例えば、インパルス信号が入力された場合、補正フィルタ112がないとき(補正なしのとき)、帯域分割フィルタ113−1,113−2、増幅部114−1,114−2、およびスピーカ115−1,115−2を介して出力される音声をマイクロフォンで収音されたときの波形、すなわち、インパルスレスポンスに応じて設定される逆フィルタである。例えば、図6の上部で示されるようなインパルスレスポンスである場合、スピーカ115−1,115−2により構成されるスピーカシステムの逆フィルタは、図6の中段で示されるものとなる。すなわち、補正フィルタ112は、図6の中段で示されるような逆フィルタである。このような補正フィルタ112が設けられた状態で、インパルス信号が入力されると、インパルスレスポンスが図6の下段で示されるような整形された波形となる。尚、図6においては、いずれも横軸が経過時間(ms)であり、縦軸が正規化された振幅である。
【0036】
帯域分割フィルタ113−1,113−2は、例えば、IIR(Infinite impulse response)フィルタなどからなるデジタルフィルタであり、帯域毎の周波数位相特性の位相差が略0度(または180度)である。帯域分割フィルタ113−1,113−2は、補正フィルタ112により補正された音声信号を、それぞれ帯域毎に分割して、それぞれ増幅部114−1,114−2に出力する。尚、帯域分割フィルタ113−1,113−2は、図5においては、帯域分割フィルタ113−1が高周波数帯域の音声信号を抽出し、帯域分割フィルタ113−2が低周波数帯域の音声信号を抽出する。
【0037】
増幅部114−1,114−2は、基本的に、増幅部14−1,14−2と同様のものであるが、それぞれ所定の帯域の音声信号を増幅してスピーカ115−1,115−2より音声として出力させる。スピーカ115−1,115−2は、基本的には、スピーカ15−1,15−2と同様のものであり、それぞれ出力する音声の周波数帯域が異なるものであり、図5の例においては、スピーカ115−1は、高周波数帯域の音声信号を出力し、スピーカ115−2は、低周波数帯域の音声信号を出力する。尚、図5においても、増幅部114−1,114−2は、デジタル音声信号を増幅するデジタル信号増幅処理をして、アナログ信号に変換してスピーカ115−1,115−2に出力する例が示されているが、デジタル音声信号をアナログ変換した後、アナログ信号増幅処理をするようにしてもよい。
【0038】
帯域分割フィルタ113−1,113−2のそれぞれの周波数振幅特性は、例えば、図7における波形L101,L102で示され、図2を参照して説明した帯域分割フィルタ13−1,13−2と略同一である。すなわち、波形L101で示される波形は、周波数が100Hzから−40dBで立ち上がり、周波数が1000Hzほどから0dBで一定の状態となる。また、波形L102で示される波形は、200Hz付近でピークとなる凸型の曲線である。また、波形L101,L102のクロスオーバ帯域は、300乃至400Hz付近となる。尚、図7においては、横軸が周波数帯域を示し、縦軸が振幅を示している。
【0039】
また、帯域分割フィルタ113−1,113−2のそれぞの周波数位相特性は、図8で示され、図3を参照して説明した帯域分割フィルタ13−1,13−2と異なる。すなわち、波形L111,L112で示されるそれぞれの位相波形は、完全に一致、すなわち、双方の位相差が0であり、周波数が10Hz付近においては、位相が150度であり、周波数が高くなると徐々に位相が遅れ初めて、周波数が200Hz付近で−160度にまで遅れた後、位相が反転し160度進んだ状態となり以降は徐々に位相が−180度に近づくように変化する。尚、図8においては、横軸が周波数帯域を示し、縦軸が位相角度を示している。
【0040】
この結果、スピーカ115−1,115−2より出力される音声信号の周波数帯域毎の振幅は、図9で示されるように、20Hz付近から−40dBで立ち上がり、200Hz付近で0dBに収束する波形となる。
【0041】
[図5の出力部による出力処理]
次に、図10のフローチャートを参照して、図5の出力部101による出力処理について説明する。
【0042】
ステップS1において、ADC111は、入力されたアナログ音声信号を取得する。
【0043】
ステップS2において、ADC111は、取得したアナログ音声信号をデジタル音声信号にアナログ/デジタル変換し、デジタル音声信号を補正フィルタ112に供給する。
【0044】
ステップS3において、補正フィルタ112は、供給されてきたデジタル音声信号に、補正フィルタ処理を施し、帯域分割フィルタ113−1,113−2にそれぞれ供給する。
【0045】
ステップS4において、帯域分割フィルタ113−1,113−2は、それぞれ高周波数帯域、および低周波数帯域の音声信号を抽出して増幅部114−1,114−2に供給する。この際、帯域分割フィルタ113−1,113−2は、例えば、図8の周波数位相特性に従って、分割された音声信号の位相が一致するように、音声信号を周波数帯域毎に抽出する。
【0046】
ステップS5において、増幅部114−1,114−2は、それぞれ帯域分割フィルタ113−1,113−2より供給されてくる高周波数帯域の音声信号、および低周波数帯域の音声信号とを増幅し、アナログ信号に変換してスピーカ115−1,115−2に出力する。
【0047】
ステップS6において、スピーカ115−1,115−2は、それぞれ高周波数帯域の音声と、低周波数帯域の音声とを出力する。
【0048】
すなわち、帯域分割フィルタ113−1,113−2は、帯域毎に抽出される音声信号の位相差が、図8の周波数位相特性で示されるように、略0度とされている。従って、補正フィルタ112は、抽出される帯域毎に音声信号の位相差が相互に略0度となる帯域分割フィルタ113−1,113−2を介して、増幅部114−1,114−2、およびスピーカ115−1,115−2から出力される音声信号をマイクロフォンにより収音して測定されるインパルスレスポンスに基づいて求められる逆フィルタである。このため、高周波数帯域のスピーカ115−1より出力される音声信号、および、低周波数帯域のスピーカ115−2より出力される音声信号は、帯域分割される前の段階で補正フィルタ112により同時に補正されることになるので、理想的な周波数振幅特性を得ることが可能となる。
【0049】
結果として、スピーカ115−1,15−2を含めた出力部101の全体としての周波数振幅特性、および周波数位相特性が改善されることになるので、広帯域で、かつ、トーンバランスに優れる高音質化された音声を出力することが可能となる。
【0050】
尚、以上においては、図8で示されるように、帯域分割フィルタ113−1,113−2の全周波数帯域の音声信号の位相差が略0となる例について説明してきたが、必要となる一部の周波数帯域の音声信号の位相差が略0となれば足りる。すなわち、200Hz付近のみの周波数帯域をフラットにしたい場合、図11の上段で示されるように、帯域分割された第1の周波数帯域の位相を示す波形L121、および第2の周波数帯域の位相を示す波形L122で示されるように、200Hz付近で位相差が略0度となるようにすればよい。また、100Hz以上の帯域のみの周波数帯域をフラットにしたい場合、図11の下段で示されるように、第1の周波数帯域の位相を示す波形L131、および第2の周波数帯域の位相を示す波形L132で示されるように、100Hz以上の範囲で位相差が略0度となるようにすればよい。
【0051】
また、帯域分割フィルタにおける周波数位相特性の位相差は略0度乃至略90度程度の範囲であれば、対応する周波数帯域については、周波数振幅特性を略フラットにすることができることが経験的にわかっている。さらに、帯域分割フィルタにおける周波数位相特性の位相差は、略180度とするようにしても、対応する周波数帯域については、略周波数振幅特性をフラットにすることができる場合があることが知られている。この場合、帯域分割フィルタにおける周波数位相特性の位相差は略90度乃至略180度程度の範囲であれば、対応する周波数帯域についても、略周波数振幅特性をフラットにすることができることがわかっている。したがって、帯域分割フィルタにおける周波数位相特性の位相差は略0度とするか、または、略180度とすることで、周波数振幅特性を略フラットにするようにしてもよい。
【0052】
<2.第1の変形例>
[帯域分割フィルタの前段に増幅部を設けるようにした出力部の構成例]
また、以上においては、帯域分割フィルタ113−1,113−2の後段に増幅部114−1,114−2をそれぞれ設ける例について説明してきたが、帯域分割フィルタ113−1,113−2の前段に設けるようにしても良い。
【0053】
図12は、帯域分割フィルタの前段に増幅部を設けるようにした出力部101の構成例を示している。尚、図12において、図5の構成と同一の機能を備えた構成については、同一の名称、および同一の符号を付しており、その説明は適宜省略するものとする。すなわち、図12の出力部101において、図5の出力部101と異なる点は、帯域分割フィルタ113−1,113−2、および増幅部114−1,114−2に代えて、増幅部121、および帯域分割フィルタ122−1,122−2を設けた点である。尚、基本的な機能は同一であるため、その説明は省略するが、図12の出力部101においては、増幅部121は、帯域分割フィルタ122−1,122−2の前段に設けられているので、例えば、増幅部121が、アナログデジタル変換部を備えたアナログ増幅部である場合、帯域分割フィルタ122−1,122−2は、いずれもアナログフィルタとして構成する必要がある。
【0054】
[図12の出力部による出力処理]
次に、図13のフローチャートを参照して、図12の出力部101による出力処理を説明する。尚、図13のフローチャートにおけるステップS11乃至S13,S16の処理は、図10のフローチャートを参照して、説明したステップS1乃至S3,S6の処理と同様であるので、その説明は省略する。すなわち、図13においては、ステップS11乃至S13において、音声信号が取得されて、アナログデジタル変換がなされ、補正フィルタが掛けられる。
【0055】
そして、ステップS14において、増幅部121が、全ての帯域を含む音声信号を増幅し、それぞれの帯域分割フィルタ122−1,122−2に供給する。
【0056】
ステップS15において、帯域分割フィルタ122−1,122−2は、増幅部121より供給されてくる音声信号を、それぞれの帯域に分割して抽出し、抽出したそれぞれの帯域信号からなる音声信号をそれぞれのスピーカ115−1,115−2に供給する。これにより、ステップS16において、スピーカ115−1,115−2が、音声として出力する。
【0057】
以上の処理により、図1の出力部101と同様の作用効果を奏することが可能となり、結果として、音声出力を高音質化することが可能となる。
【0058】
<3.第2の変形例>
[帯域分割された音声信号にスピーカシミュレートフィルタを掛ける出力部の構成例]
以上においては、周波数振幅特性がフラットになるようにして、原音を忠実に再生することが高音質化させることであるものとして説明してきたが、音質には好みがあり、例えば、フラットであることを好まない場合も現実に存在する。このような場合、補正フィルタ112に、ターゲットとなる周波数特性を付加するといったことで対応するようにしてもよい。また、様々なスピーカの特性を帯域分割フィルタにより帯域毎に分割されている音声信号に掛けるフィルタを設けるようにしてもよい。
【0059】
図14は、様々なスピーカの特性を帯域分割フィルタにより帯域毎に分割されている音声信号に掛けるフィルタを設けるようにした出力部101の構成例を示している。尚、図14の出力部101において、図5の出力部101と同一の機能を備えた構成については、同一の名称、および同一の符号を付しており、その説明は適宜省略するものとする。すなわち、図14の出力部101において、図5の出力部101と異なるのは、帯域分割フィルタ113−1,113−2および増幅部114−1,114−2の間に、スピーカシミュレートフィルタ131−1,131−2をそれぞれ設けた点である。スピーカシミュレートフィルタ131−1,131−2は、それぞれ様々なスピーカ特性を付加するフィルタであり、この処理により、スピーカ115−1,115−2は、あたかも様々なスピーカの音響特性を備えているかのような音質の音声を出力することが可能となる。
【0060】
[図14の出力部による出力処理]
次に、図15のフローチャートを参照して、図14の出力部101による出力処理を説明する。尚、図15のフローチャートにおけるステップS31乃至S34,S36,S37の処理は、図10のフローチャートを参照して、説明したステップS1乃至S6の処理と同様であるので、その説明は省略する。すなわち、図13においては、ステップS31乃至S34において、音声信号が取得されて、アナログデジタル変換がなされ、補正フィルタが掛けられ、音声信号が帯域毎に分割される。
【0061】
そして、ステップS35において、スピーカシミュレートフィルタ131−1,131−2は、フィルタにより特定されるスピーカ特性を、それぞれの周波数帯域の音声信号に付加して、増幅部114−1,114−2に供給する。
【0062】
そして、ステップS36,S37において、増幅されて、スピーカ115−1,115−2より出力される。
【0063】
以上の処理により、図1の出力部101と同様の作用効果を奏することが可能となると共に、様々なスピーカ特性を付加することが可能となる。このため、例えば、名機と呼ばれるスピーカの特性をスピーカシミュレートフィルタ131−1,131−2に適用することで、あたかも名機と呼ばれるスピーカにより出力される音声出力を再現すること可能となる。結果として、音声出力を高音質化することが可能となる。
【0064】
<4.第3の変形例>
[全帯域を含む音声信号にスピーカシミュレートフィルタを掛ける出力部の構成例]
以上においては、帯域分割フィルタの後段にスピーカ特性を付加するスピーカシミュレートフィルタを設ける例について説明してきたが、帯域分割フィルタの前段に設け、全帯域の音声信号に対してフィルタ処理を掛けるようにしてもよい。
【0065】
図16は、スピーカシミュレートフィルタを帯域分割フィルタの前段に設けるようにした出力部101である。図16の出力部101において、図5の出力部101と同一の機能を備えた構成については、同一の名称、および同一の符号を付しており、その説明は適宜省略するものとする。すなわち、図16の出力部101において、図5の出力部101と異なる点は、ADC111および補正フィルタ112の間に、スピーカシミュレートフィルタ151を付加したことである。さらに、スピーカシミュレートフィルタ151により付加されるスピーカ特性は、フィルタ制御部152により設定される。フィルタ制御部152は、ネットワーク161を介して通信可能なスピーカシミュレートフィルタライブラリ162に蓄積された、様々なスピーカの音響特性をダウンロードし、スピーカシミュレートフィルタ151に設定する。このため、スピーカシミュレートフィルタ151により付加される音響特性を様々のものに切り替えて付加することが可能となる。
【0066】
[図16の出力部による出力処理]
次に、図17のフローチャートを参照して、図16の出力部101による出力処理を説明する。尚、図17のフローチャートにおけるステップS54,S55,S57乃至S60の処理は、図10のフローチャートを参照して、説明したステップS1乃至S6の処理と同様であるので、その説明は省略する。
【0067】
ステップS51において、フィルタ制御部152は、ネットワーク161を介してスピーカシミュレートフィルタライブラリ162に蓄積された、ダウンロードして使用可能なスピーカシミュレートフィルタの一覧を図示せぬディスプレイなどからなる表示部に表示し、いずれかを選択するように促す画像を併せて表示する。
【0068】
ステップS52において、フィルタ制御部152は、ユーザにより図示せぬ操作部が操作されて、いずれかのスピーカシミュレートフィルタが選択されたか否かを判定し、選択されるまで、同様の処理を繰り返す。ステップS52において、例えば、いずれかのスピーカシミュレートフィルタが選択されたとみなされた場合、処理は、ステップS53に進む。
【0069】
ステップS53において、フィルタ制御部152は、ネットワーク161を介してスピーカシミュレートフィルタライブラリ162に蓄積されたスピーカシミュレートフィルタのデータのうち、選択されたスピーカシミュレートフィルタのデータをダウンロードする。そして、フィルタ制御部152は、ダウンロードしたスピーカシミュレートフィルタのデータをスピーカシミュレートフィルタ151にセットする。
【0070】
そして、ステップS54,S55の処理により、音声信号が取得されて、アナログデジタル変換されると、ステップS56において、スピーカシミュレートフィルタ151は、フィルタ制御部152によりセットされたスピーカシミュレートフィルタ151にセットされたフィルタ処理を施すことにより音声信号に音響特性を付加する。
【0071】
ステップS57乃至S60の処理により、音声信号は、補正フィルタが掛けられ、帯域分割されて、帯域毎に増幅されて、スピーカ115−1,115−2より音声として出力される。
【0072】
以上の処理により、図1の出力部101と同様の作用効果を奏することが可能となると共に、様々なスピーカ特性を切り替えて付加することが可能となるので、例えば、名機と呼ばれるスピーカの特性を切り替えてスピーカシミュレートフィルタ151に適用することで、名機と呼ばれるスピーカを切り替えているかのような音声出力を再現すること可能となる。結果として、音声出力を高音質化することが可能となる。
【0073】
<4.第4の変形例>
[出力部をイヤホンに適用した構成例]
以上においては、出力部101をスピーカとして構成する例について説明してきたが、近年においては、イヤホンもバランスアマチュアスピーカを利用したものが存在することから、上述した出力部101の構成をイヤホンに適用するようにしてもよい。さらに、イヤホンによるバーチャル再生などにより、音像定位の効果をさらに高めるようにしてもよい。
【0074】
図18は、出力部101をイヤホン171に適用し、頭部伝達関数(HRTF(Head-Related Transfer Function))を用いたバーチャル再生を実現する例を説明するための構成例を示している。
【0075】
イヤホン171は、図18の左部および右部で示されるように、左右の耳で使用されるそれぞれの部位が出力部101−1,101−2により構成されている。イヤホン171により再現される音声出力は、図18の左部で示されるように、イヤホン171を装着しているユーザHからみて、左前方、正面前方、右前方の順にスピーカLv,Cv,Rvが仮想的に音声を出力している状態を作り出す。さらに、スピーカLv,Cv,Rvは、ユーザHに対して、ユーザH以外の図示せぬ頭外定位(音像定位)が仮想的に存在しているかのような音声を出力することで、いわゆるバーチャル再生を実現する。
【0076】
より詳細には、図18の右部で示されるように、イヤホン171は、出力部101−,101−2により構成される。図18の右図においては、イヤホン171の出力部101−1は、左チャンネルLの音声を出力し、出力部101−2が、右チャンネルRの音声を出力する。また、スピーカLv,Cv,Rvを音源とするそれぞれの音声信号Lv,Cv,Rvのうち、ユーザHの左耳に左チャンネルLとして到達する音声信号は、それぞれの頭部伝達関数が図18の左部で示されるそれぞれの経路LL,CL,RLに対応して、図18の右部で示される頭部伝達関数LL,CL,RLで表現されるとき、それぞれ音声信号Lv×LL,Cv×CL,Rv×RLとなる。同様に、スピーカLv,Cv,Rvを音源とするそれぞれの音声信号Lv,Cv,Rvのうち、ユーザHの右耳に右チャンネルRとして到達する音声信号は、それぞれの頭部伝達関数が図18の左部で示されるそれぞれの経路LR,CR,RRに対応して、図18の右部で示される頭部伝達関数LR,CR,RRで表現されるとき、それぞれ音声信号Lv×LR,Cv×CR,Rv×RRとなる。
【0077】
尚、図18の右部で示される頭部伝達関数処理部HRTF201,202は、音声信号Lvに対して、頭部伝達関数LL,LRで定義される演算処理を行い、それぞれ出力部101−1,101−2に供給する。また、頭部伝達関数処理部HRTF203,204は、音声信号Cvに対して頭部伝達関数CL,CRで定義される演算処理を行い、それぞれ出力部101−1,101−2に供給する。さらに、頭部伝達関数処理部HRTF205,206は、音声信号Rvに対して、頭部伝達関数RL,RRで定義される演算処理を行い、それぞれ出力部101−1,101−2に供給する。
【0078】
加算器211−1は、音声信号Lv×LL,Cv×CL,Rv×RLを加算することで合成し、左チャンネルLの音声信号を出力する出力部101−1に供給する。同様に、加算器211−2は、音声信号Lv×LR,Cv×CR,Rv×RRを加算することで合成し、右チャンネルRの音声信号を出力する出力部101−2に供給する。
【0079】
出力部101−1,101−2は、それぞれスピーカLv,Cv,Rvを音源とする音声信号を、各帯域分割を含む出力処理により高音質化して音声として左右の耳に出力する。この結果、ユーザHは、仮想的に構成されるスピーカLv,Cv,Rvの音声出力に基づいて、頭外定位となる音場定位を認識しつつ、高音質化された音声を視聴することが可能となり、バーチャル再生が実現される。
【0080】
[バーチャル再生処理]
次に、図19のフローチャートを参照して、図18のイヤホン171によるバーチャル再生処理について説明する。
【0081】
ステップS81において、頭部伝達関数処理部HRTF201乃至206は、音声信号Lv,Cv,Rvに対して、頭部伝達関数LL,LR,CL,CR,RL,RRで定義される演算処理を行い、それぞれ加算器211−1,211−2に出力する。
【0082】
ステップS82において、加算器211−1は、供給されてきた音声信号Lv×LL,Cv×CL,Rv×RLを加算し、出力部101−1に出力する。また、加算器211−2は、供給されてきた音声信号Lv×LR,Cv×CR,Rv×RRを加算し、出力部101−2に出力する。
【0083】
ステップS83において、出力部101−1,101−2は、それぞれ供給されてきた音声信号に基づいて出力処理を実行して、音声信号を高音質化して音声として出力する。尚、出力処理については、図10のフローチャートを参照して説明した処理と同様であるので、その説明は省略するものとする。
【0084】
以上の処理により、周波数位相特性による位相差が略0度または略180度とされることで、全体としての周波数振幅特性、および周波数位相特性が改善されることになり、広帯域で、かつ、トーンバランスに優れる高音質化された音声によるバーチャル再生を実現することが可能となる。
【0085】
また、音楽のデジタル化がCD(Compact Disk)でなされる場合、サンプリングレートは44.1kHzであり、近年のDVD(Digital Versatile Disk)やBlu-ray Diskのコンテンツの場合、サンプリングレートは48kHzであることが多い。しかしながら、さらにハイサンプリングレートの96kHzや192kHzのコンテンツも存在している。サンプリングレートが上がると、低域の補正効果を得るためにはFIRのフィルタ長が長くなる。単純に48kHzから96kHzになった場合は、大よそ同等の効果を得るためには2倍のフィルタ長が必要である。そして、192kHz以上の広帯域を再生する際には、さらに多くのスピーカユニットを使用し、3way以上のスピーカシステムが登場する可能性もある。このような状況を踏まえると、サンプリングレートが上がり、スピーカユニットが増え、これを従来のように、帯域分割フィルタを掛けた後、分割された帯域毎にフィルタ補正を行うと、膨大な演算量が必要となる。このため、上述したように、それぞれの周波数位相特性の位相差が略0度、または略180度となるように帯域分割フィルタを構成し、補正フィルタを帯域分割フィルタの前段に1段のみ設けるようにすることで、演算リソースを低減することが可能となる。
【0086】
さらに、今後、スピーカ搭載のモバイル機器(MP3(MPEG Audio Layer-3)プレイヤ、携帯電話機、ノートPC(Personal Computer)、タブレット型PC等)においても、異なるスピーカユニットを組み合わせることで、広帯域な再生環境が実現されることも考えうるため、その際にも高音質化した音声を出力させることが可能となる。
【0087】
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0088】
図20は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0089】
コンピュータにおいて、CPU(Central Processing Unit)1001,ROM(Read Only Memory)1002,RAM(Random Access Memory)1003は、バス1004により相互に接続されている。
【0090】
バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、入力部1006、出力部1007、記憶部1008、通信部1009、及びドライブ1010が接続されている。
【0091】
入力部1006は、キーボード、マウス、マイクロフォンなどよりなる。出力部1007は、ディスプレイ、スピーカなどよりなる。記憶部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインタフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア1011を駆動する。
【0092】
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
【0093】
コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0094】
コンピュータでは、プログラムは、リムーバブルメディア1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
【0095】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0096】
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
【0097】
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0098】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0099】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0100】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0101】
尚、本技術は以下のような構成を取ることができる。
(1) 音声を帯域毎に出力する複数のスピーカと、
複数の帯域を含む音声信号を、前記複数のスピーカの特性に応じて補正する補正フィルタと、
前記補正フィルタにより補正された音声信号を、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する複数の帯域分割フィルタとを含み、
前記補正フィルタは、前記複数の帯域分割フィルタを介して、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタである
音声処理装置。
(2) 前記複数の帯域分割フィルタは、前記補正フィルタにより補正された音声信号のうち、所定の周波数帯域についてのみ、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する
(2)に記載の音声処理装置。
(3) 前記音声信号を増幅する増幅部をさらに含み、
前記増幅部は、
前記帯域分割フィルタにより分割される前の前記音声信号を増幅する1の増幅部である、または、
前記帯域分割フィルタにより分割された帯域毎の前記音声信号をそれぞれ増幅する複数の増幅部である
(1)または(2)に記載の音声処理装置。
(4) 前記音声信号に他の音声処理装置の音響特性を付加する付加フィルタをさらに含み、
前記他の音声処理装置の音響特性は、ネットワークにより接続されたライブラリよりダウンロードされる
(1)乃至(3)のいずれかに記載の音声処理装置。
(5) 前記付加フィルタは、
前記帯域分割フィルタにより分割される前の前記音声信号に前記他の音声処理装置の音響特性を付加する1の付加フィルタである、または、
前記帯域分割フィルタにより分割された帯域毎に前記他の音声処理装置の音響特性を付加する複数の付加フィルタである
(4)に記載の音声処理装置。
(6) 入力される前記音声信号は、マルチチャンネルの音声信号であって、頭部伝達関数により音像定位された音声信号が合成されたものであり、
(1)乃至(5)のいずれかの音声処理装置からなるイヤホン。
(7) 音声を帯域毎に出力する複数のスピーカを含む音声処理装置の音声処理方法であって、
複数の帯域を含む音声信号を、前記複数のスピーカの特性に応じて補正する補正フィルタ処理し、
前記補正フィルタ処理により補正された音声信号を、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する複数の帯域分割フィルタ処理し、
前記補正フィルタは、前記複数の帯域分割フィルタを介して、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタである
音声処理方法。
(8) 音声を帯域毎に出力する複数のスピーカを含む音声処理装置を制御するコンピュータを、
複数の帯域を含む音声信号を、前記複数のスピーカの特性に応じて補正する補正フィルタと、
前記補正フィルタにより補正された音声信号を、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する複数の帯域分割フィルタとして機能させ、
前記補正フィルタは、前記複数の帯域分割フィルタを介して、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタである
プログラム。
(9) (8)に記載のプログラムが記録されている記録媒体。
【符号の説明】
【0102】
101 出力部, 111 ADC, 112 補正フィルタ, 113−1,113−2 帯域分割フィルタ, 114−1,114−2 増幅部, 115−1,115−2 スピーカ, 121 増幅部, 122−1,122−2 帯域分割フィルタ, 131−1,131−2,151 スピーカシミュレートフィルタ, 161 ネットワーク, 162 スピーカシミュレートフィルタライブラリ, 201乃至206 頭部伝達関数TRTF

【特許請求の範囲】
【請求項1】
音声を帯域毎に出力する複数のスピーカと、
複数の帯域を含む音声信号を、前記複数のスピーカの特性に応じて補正する補正フィルタと、
前記補正フィルタにより補正された音声信号を、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する複数の帯域分割フィルタとを含み、
前記補正フィルタは、前記複数の帯域分割フィルタを介して、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタである
音声処理装置。
【請求項2】
前記複数の帯域分割フィルタは、前記補正フィルタにより補正された音声信号のうち、所定の周波数帯域についてのみ、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する
請求項1に記載の音声処理装置。
【請求項3】
前記音声信号を増幅する増幅部をさらに含み、
前記増幅部は、
前記帯域分割フィルタにより分割される前の前記音声信号を増幅する1の増幅部である、または、
前記帯域分割フィルタにより分割された帯域毎の前記音声信号をそれぞれ増幅する複数の増幅部である
請求項1に記載の音声処理装置。
【請求項4】
前記音声信号に他の音声処理装置の音響特性を付加する付加フィルタをさらに含み、
前記他の音声処理装置の音響特性は、ネットワークにより接続されたライブラリよりダウンロードされる
請求項1に記載の音声処理装置。
【請求項5】
前記付加フィルタは、
前記帯域分割フィルタにより分割される前の前記音声信号に前記他の音声処理装置の音響特性を付加する1の付加フィルタである、または、
前記帯域分割フィルタにより分割された帯域毎に前記他の音声処理装置の音響特性を付加する複数の付加フィルタである
請求項4に記載の音声処理装置。
【請求項6】
入力される前記音声信号は、マルチチャンネルの音声信号であって、頭部伝達関数により音像定位された音声信号が合成されたものであり、
請求項1の音声処理装置からなるイヤホン。
【請求項7】
音声を帯域毎に出力する複数のスピーカを含む音声処理装置の音声処理方法であって、
複数の帯域を含む音声信号を、前記複数のスピーカの特性に応じて補正する補正フィルタ処理し、
前記補正フィルタ処理により補正された音声信号を、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する複数の帯域分割フィルタ処理し、
前記補正フィルタは、前記複数の帯域分割フィルタを介して、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタである
音声処理方法。
【請求項8】
音声を帯域毎に出力する複数のスピーカを含む音声処理装置を制御するコンピュータを、
複数の帯域を含む音声信号を、前記複数のスピーカの特性に応じて補正する補正フィルタと、
前記補正フィルタにより補正された音声信号を、それぞれの位相特性の位相差が略0度、または略180度となるように、前記スピーカの帯域に分割する複数の帯域分割フィルタとして機能させ、
前記補正フィルタは、前記複数の帯域分割フィルタを介して、前記複数のスピーカより帯域毎に出力される音声に基づいたインパルスレスポンスにより設定される逆フィルタである
プログラム。
【請求項9】
請求項8に記載のプログラムが記録されている記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate