説明

録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラム

【課題】録音時のマイクロホン間隔が狭くても、音源方向を含む臨場感が豊かな音を再現することを目的とする。
【解決手段】音を電気信号に変換するマイクロホンアレイ部110と、アナログの電気信号をデジタル信号に変換するA−D変換器130と、マイクロホンアレイの各デジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数変換部141と、周波数帯域毎に各デジタル信号間の位相差を求めて、音到来方向を特定する雑音・主音判別部143と、音到来方向が特定された周波数帯域毎にデジタル信号間の位相を各音出力手段の位置に対応させて補正する補正情報を取得する記憶装置160と、補正情報に基づいて、音到来方向が特定された周波数帯域毎に各デジタル信号間の位相を補正する主音振幅・位相補正処理部148とを備える、ことを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、小型録音装置で録音した音を臨場感を保ったまま再生する音像定位機能を備えた録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラムに関する。
【背景技術】
【0002】
複数のマイクロホン素子を搭載した小型録音装置(例えば、携帯電話等)において、複数のマイクロホン間の位相差や振幅差を利用して、特定方向の音源のみを抽出する音源分離技術がある。この音源分離技術を用いて、注目した特定方向の音源の音のみを聴取することができる。例えば、特許文献1には、正面方向の音だけを抽出し、抽出した音を多数のスピーカで再生する方法が開示されている。
【0003】
また、音を分離した後でも個々の音源の空間的性質を保持する技術として、SIMO−ICA(Single-Input Multiple-Output-model-based Independent Component Analysis)等がある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2002−064897号公報
【非特許文献】
【0005】
【非特許文献1】青木真理子、岡本学、青木茂明、松井弘行、桜井哲真、金田豊、“Sound source segregation based on estimating incident angle of each frequency component of input signals acquired by multiple microphones”(多マイク受音信号の各周波数成分の入射角度推定に基づいた音源分離)Acoustical Science and Technology Vol. 22, No. 2,pp.149-157,2001.
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載の技術では、正面方向の音のみを抽出するので、他の方向から到来する音は、方向性が無く、各音源毎の音像定位感(音が発生する位置を再現する音響効果)が異なり、録音時の音場(音波が存在する空間)を再現することができない。
【0007】
また、SIMO−ICA等の技術では、録音時のマイクロホンの間隔が、再生時のスピーカの間隔より非常に狭くても(例えば、小型録音機で録音して、ヘッドホン等で再生する場合)、録音時のマイクロホンの間隔に対応して音を再生するので、録音時の音源方向を知覚し難く、臨場感が乏しくなる問題がある。
【0008】
本発明は、上述したような問題点に鑑みてなされたもので、録音時のマイクロホンの間隔が再生時のスピーカの間隔より非常に狭くても、音源方向を含んだ臨場感が豊かな音を再現することを目的とする。
【課題を解決するための手段】
【0009】
本発明の第1の観点に係る録音装置は、
音をアナログの電気信号に変換する複数のマイクロホンを有するマイクロホンアレイと、
前記マイクロホンアレイに含まれる各マイクロホンによって変換されたアナログの電気信号をデジタル信号に変換するA−D変換手段と、
所定の時間毎に、前記A−D変換手段によって変換された各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解手段と、
前記時間周波数分解手段によって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段とを備える、ことを特徴とする。
【0010】
好ましくは、前記時間周波数分解手段によって分解された周波数帯域毎にその強度を示す信号が所定のレベル未満であることに応答して、雑音成分と判別し、所定のレベル以上であることに応答して、音源から到来した主音成分と判別する成分判別手段を備え、
前記補正手段は、前記成分判別手段によって、主音成分と判別された周波数帯域の信号に対してのみ位相と振幅とを補正する、ことを特徴とする。
【0011】
好ましくは、前記補正手段によって主音成分の位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の前記音出力手段の数に対応したデジタル信号を生成する音出力チャンネル信号生成手段と、
前記音出力チャンネル信号生成手段によって生成された複数のデジタル信号を記憶する記憶手段とを備える、ことを特徴とする。
【0012】
好ましくは、前記取得手段が取得する補正情報は、前記音出力装置の各音出力手段の距離に基づいて計算され、前記音到来方向特定手段によって音の到来する方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号の位相を補正するステアリングベクトル又は、音を聴取する聴取位置を中心とした円周上に位置する各方向の音源から到来する音を測定し、測定された音の特性と各前記音出力手段の特性とに基づいて求められたたステアリングベクトルであり、
前記記憶手段は、前記取得手段が取得した補正情報をさらに記憶し、
前記補正手段は、前記音到来方向特定手段によって周波数帯域毎に特定された音の到来する方向と、前記記憶手段に記憶された補正情報とに基づいて、各前記主音成分の位相と振幅とを補正する、ことを特徴とする。
【0013】
好ましくは、前記成分判別手段は、
周波数帯域毎に同一の前記マイクロホンによって過去に取得された信号の強度と現在の信号の強度とを基にして、雑音のレベルを示す雑音レベルを算出する雑音レベル算出手段と、
前記時間周波数分解手段によって分解された周波数帯域毎にその強度を示す信号が前記雑音レベル算出手段によって算出された雑音レベル以上か未満かを判別するレベル判別手段と、
前記レベル判別手段により所定のレベル未満と判別されたことに応答して、該周波数帯域を雑音成分とし、所定のレベル以上と判別されたことに応答して、周波数帯域毎に各前記マイクロホンのデジタル信号間に相互に関連があるかを判別する相関関係判別手段と、
前記相関関係判別手段により相互に関連がないと判別されたことに応答して、該周波数帯域を雑音成分とし、相互に関連があると判別されたことに応答して、該周波数帯域を空間上の音源から到来した主音成分と判別する雑音主音判別手段とを備える、ことを特徴とする。
【0014】
本発明の第2の観点に係る再生装置は、
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音取得手段によって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段と、
前記補正手段によって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成手段と、
前記出力チャンネル信号生成手段によって生成された周波数帯域毎に分解された各デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換手段と、
前記周波数時間変換手段によって変換された時間帯域毎に分割された各デジタル信号をアナログの電気信号に変換するD−A変換手段とを備え、
前記音出力手段は、前記D−A変換手段によって変換された電気信号を音に変換する、ことを特徴とする。
【0015】
本発明の第3の観点に係る録音方法は、
複数の音取得手段によって取得された音をアナログの電気信号に変換する音変換ステップと、
前記音変換ステップによって変換されたアナログの電気信号をデジタル信号に変換するA−D変換ステップと、
所定の時間毎に、前記A−D変換ステップによって変換された各マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解ステップと、
前記時間周波数分解ステップによって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定ステップと、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正ステップとを含む、ことを特徴とする。
【0016】
本発明の第4の観点に係る再生方法は、
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得ステップと、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音取得ステップによって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正ステップと、
前記補正ステップによって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成ステップと、
前記出力チャンネル信号生成ステップによって生成された周波数帯域毎に分解された各前記デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換ステップと、
前記周波数時間変換ステップによって変換された時間帯域毎に分割された各前記デジタル信号をアナログの電気信号に変換するD−A変換ステップと、
前記D−A変換ステップによって変換された電気信号を音に変換する複数の各前記音出力手段に音を出力させる音出力ステップとを含む、ことを特徴とする。
【0017】
本発明の第5の観点に係るコンピュータプログラムは、
複数のマイクロホンを備えたコンピュータを、
音をアナログの電気信号に変換する複数のマイクロホンを有するマイクロホンアレイと、
前記マイクロホンアレイに含まれる各マイクロホンによって変換されたアナログの電気信号をデジタル信号に変換するA−D変換手段と、
所定の時間毎に、前記A−D変換手段によって変換された各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解手段と、
前記時間周波数分解手段によって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段として機能させる、ことを特徴とする。
【0018】
本発明の第6の観点に係るコンピュータプログラムは、
複数のスピーカを備えたコンピュータを、
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音取得手段によって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段と、
前記補正手段によって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成手段と、
前記出力チャンネル信号生成手段によって生成された周波数帯域毎に分解された各前記デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換手段と、
前記周波数時間変換手段によって変換された時間帯域毎に分割された各前記デジタル信号をアナログの電気信号に変換するD−A変換手段と、
前記音出力手段は、前記D−A変換手段によって変換された電気信号を音に変換するように機能させる、ことを特徴とする。
【発明の効果】
【0019】
再生機器のスピーカの位置に合わせて、複数のマイクロホン素子の間隔が狭い小型録音装置によって収録された音の位相と振幅とを補正することにより、音源方向を含んだ臨場感が豊かな音を再現することができる。
【図面の簡単な説明】
【0020】
【図1】録音再生装置のハードウェア構成を示す図である。(実施形態1)
【図2A】録音再生装置の録音部の構成を示す図である。(実施形態1)
【図2B】録音再生装置の再生部の構成を示す図である。(実施形態1)
【図3】各フレームの周波数帯域毎に主音と雑音とを判別したイメージを示す図である。(実施形態1)
【図4】雑音レベル推定処理を示すフローチャートである。(実施形態1)
【図5】雑音・主音判別処理を示すフローチャートである。(実施形態1)
【図6】時間・周波数毎の方向推定処理を示すフローチャートである。(実施形態1)
【図7】位相・振幅の補正処理を示すフローチャートである。(実施形態1)
【図8】ヘッドホンによって再生音を聞く場合のイメージ図である。(実施形態1)
【図9】スピーカによって再生音を聞く場合のイメージ図である。(実施形態1)
【図10】位相・振幅補正処理の別例を示すフローチャートである。(実施形態1)
【図11】雑音・主音判別処理の別例を示すフローチャートである。(実施形態1)
【図12】時間・周波数毎の方向推定処理の別例を示すフローチャートである。(実施形態1)
【図13】時間・周波数毎の方向推定処理のさらに別例を示すフローチャートである。(実施形態1)
【図14A】録音再生装置の録音部の構成を示す図である。(実施形態2)
【図14B】録音再生装置の再生部の構成を示す図である。(実施形態2)
【図15】各フレームの周波数帯域毎に主音と雑音とを判別したイメージの別例を示す図である。(実施形態2)
【図16】雑音・複数主音判別処理を示すフローチャートである。(実施形態2)
【図17】位相・振幅の補正処理の別例を示すフローチャートである。(実施形態2)
【図18】雑音・複数主音判別処理の別例を示すフローチャートである。(実施形態2)
【図19】再振り分け処理を示すフローチャートである。(実施形態2)
【図20】再振り分け処理の別例を示すフローチャートである。(実施形態2)
【図21】再振り分け処理の別例を示すフローチャートである。(実施形態2)
【図22】サーバで音を補正をする音情報処理システムの構成を示す図である。(実施形態3)
【図23】ハードウェアの構成を示す図である。
【発明を実施するための形態】
【0021】
以下、本発明の実施形態に係る録音再生装置を、携帯電話に搭載されたものを例に、図面を参照しながら説明する。
【0022】
(実施形態1)
実施形態1に係る録音再生装置100は、マイクロホンアレイによって収録した音を再現する際に、再生装置に対応させて音の位相を補正して、臨場感を保持したまま再現する。
実施形態1の録音再生装置100は、物理的には、図1に示すように、マイクロホンアレイ部110と、LPF120、180と、A−D変換器130と、制御装置140と、一時記憶装置150と、記憶装置160と、D−A変換器170と、再生装置190とを備える。
【0023】
マイクロホンアレイ部110は、複数のマイクロホンを配列して構成された音取得装置である。各マイクロホンは、音圧の変化をアナログの電気信号に変換して、LPF120に出力する。
LPF(Low Pass Filter)120は、マイクロホン毎に配置され、対応するマイクロホンからのアナログの電気信号の中から、A−D変換器130のサンプリングレートの0.5倍以上の周波数成分を除去して、帯域制限されたアナログの電気信号をA−D変換器130に出力する。
A−D変換器(Analog to Digital Converter)130は、帯域制限された各アナログの電気信号を対応するデジタル信号に変換して、制御装置140に出力する。
【0024】
制御装置140は、CPU(Central Processing Unit)等によって構成され、音源方向を推定し、雑音と主音(空間上の特定の位置から到達した所定のレベル以上の音)とを判別し、主音の位相と振幅とを補正するためのプログラムを実行し、処理された信号を所定のタイミング毎にD−A変換器170に出力する。
一時記憶装置150は、制御装置140によってプログラムが実行される際に、処理中のデータ等を一時的に記憶する。
記憶装置160は、制御装置140によって実行されるプログラムやデータ等を記憶する。
なお、制御装置140と、一時記憶装置150と、記憶装置160とによって、音が発生する位置を再現する音響効果である音像定位機能を実現する処理内容の中心部分については、後述する。
【0025】
D−A変換器(Digital to Analog Converter)170は、制御装置140によって処理されたデジタル信号をアナログの電気信号に変換してLPF180に出力する。
LPF180は、アナログに変換された電気信号を帯域制限して、サンプリングレートの0.5倍以上の周波数成分を取り除き、再生装置190に出力する。
再生装置190は、電気信号を音圧に変換する。本実施形態では、再生装置190としてヘッドホンの場合と、複数のスピーカとの場合について説明する。
【0026】
次に、図1に示す物理的構成を有する録音再生装置100の機能的構成について説明する。
本実施形態の録音再生装置100の録音部は、図2Aに示すように、機能的に、マイクロホンアレイ部110と、LPF120と、A−D変換器130と、時間周波数変換部141と、雑音レベル推定部142と、雑音・主音判別部143と、主音振幅・位相補正処理部148と、補正主音・雑音録音処理部144と、周波数時間変換部149と、聴取者頭部伝達関数保存部163と、マイク配置情報保存部164と、データベース161とを備える。
【0027】
マイクロホンアレイ部110は、上述したように、複数のマイクロホンによって音を取得して電気信号に変換する。LPF120は、上述したように、各マイクロホンによって電気信号に変換された信号を帯域制限する。
A−D変換器130は、LPF120によって帯域制限された電気信号をデジタル信号に変換する。その際に、A−D変換器130は、デジタル信号を所定のサンプル数毎に纏めて(フレームシフト、以下shiftと表す)時間周波数変換部141に出力する。A−D変換器130から出力されるデジタル信号は、マイクロホンの識別番号をi、サンプリングタイミングをtとすると、xi(t)と表される。
【0028】
時間周波数変換部141は、デジタル信号にハミング窓(hamming window function)を掛け合わせて、有限区間以外のデータを0にしてから、バタフライ演算によるFFT(Fast Fourier Transform)によって、時間領域の信号から周波数領域の信号に変換して、周波数帯域毎にその強度を示す信号に分解したデータを作成して、雑音レベル推定部142に出力する。ハミング窓等の窓関数を掛け合わせて、目的外信号の影響を取り除くことによって、高精度の周波数領域の信号を得ることができる。
ここで、フーリエ変換するサンプリング時間(t)のグループをフレームと言い、フーリエ変換するフレームサイズをL、時間領域の信号から周波数領域の信号へ変換した回数をフレームインデックスτと言い、ハミング窓関数をw(n)とすると、周波数領域に変換した後の信号xi(f,τ)は、下記の数1で表せる。
【数1】

【0029】
雑音レベル推定部142は、周波数領域に変換された信号の周波数帯域毎に該周波数帯域の雑音レベルを推定する。通常、雑音レベルは周波数帯域毎に異なる値を取るため、雑音レベル推定部142によって周波数帯域毎に雑音レベルを推定することにより、実際の雑音レベルに近い推定値を算出できる。
また、取得された音の信号が時間領域の信号から周波数領域の信号に変換される度に雑音レベルを推定することにより、実際の雑音レベルの変化に追従することができる。なお、雑音レベル推定部142の処理の詳細については、後述する。
【0030】
雑音・主音判別部143は、雑音レベル推定部142によって推定された雑音レベル等に基づいて、周波数帯域毎に雑音成分か主音成分かを判別し、主音成分と判別された周波数帯域の周波数領域のデータを主音振幅・位相補正処理部148に出力し、雑音成分と判別された周波数帯域の周波数領域のデータを補正主音・雑音録音処理部144に出力する。ここで、雑音成分とは、音量が周囲の雑音レベルと同程度以下の音や、様々な方向から到来する音が混ざった拡散性雑音のことを言う。主音とは、空間上の特定の位置からマイクロホンアレイ部110に到達した音の中で、ある程度(例えば雑音レベル)以上にレベルが大きい音のことを言い、主音源とは、空間上の特定の位置で主音を発生した音の発生源のことを言う。
【0031】
聴取者頭部伝達関数保存部163は、ヘッドホンによって音を再生する際に基準となる利用者毎又は利用者のタイプ別の聴取者頭部伝達関数を保存する。
なお、頭部伝達関数とは、頭の中心に相当する自由空間上の1点と、耳道内の1点との間の伝達関数のことであり、音が聴取者の頭部、胸部、耳介などでの反射・回折の影響を含むため、身体形状の方向依存性、個人性が強く反映される。そのため、再生時に音源を定位させるために、頭部伝達関数に基づいて音の再生処理をする。
【0032】
マイク配置情報保存部164は、録音するマイクロホンアレイ部110のマイクの配置情報を保存する。例えば、携帯電話は、上下2つの筐体を開閉、回転して形状を変化することができ、これに伴いマイクロホンの配置が異なるため、主音振幅・位相補正処理部148で使用する録音時のマイクロホンの配置情報を保存する。
【0033】
主音振幅・位相補正処理部148は、主音成分と判別された周波数帯域毎の周波数領域のデータの位相と振幅とを補正して、補正主音・雑音録音処理部144に出力する。
まず、主音振幅・位相補正処理部148は、雑音・主音判別部143によって出力された主音成分と判別された周波数帯域毎の周波数領域のデータの音源方向を推定する。次に、主音振幅・位相補正処理部148は、聴取者頭部伝達関数保存部163から読み出した聴取者頭部伝達関数と、マイク配置情報保存部164から読み出した録音時のマイクの配置情報とに基づいて、音源方向に対する各マイクロホンの振幅比と位相差とを表すステアリングベクトルを求める。そして、主音振幅・位相補正処理部148は、該ステアリングベクトルに基づいて主音成分の位相と振幅とを補正する。なお、主音振幅・位相補正処理部148が、主音成分と判別された周波数帯域毎の周波数領域のデータの位相と振幅とを補正する処理の詳細については、後述する。
【0034】
補正主音・雑音録音処理部144は、主音成分と判別され補正された周波数帯域毎の周波数領域のデータと、雑音と判別された周波数帯域毎の周波数領域のデータとを重畳し、再生するチャンネル分(例えば、ヘッドホンの左右のスピーカの2チャンネル分)の周波数領域のデータを作成して、周波数時間変換部149に出力する。
【0035】
図3は各フレームの周波数帯域毎に主音と雑音とを判別したイメージを示す図であり、補正主音・雑音録音処理部144によって、主音として修正された周波数帯域毎の周波数領域のデータと雑音の周波数帯域毎の周波数領域のデータとが重畳され1フレーム分の周波数領域のデータとなる。
なぜなら、非特許文献1に記載されているように、一般的に主音が音声の場合に、非常に短い時間であれば各フレームの周波数帯域毎に複数の音源が混ざることがなく、各フレームの周波数帯域毎に1つの音源しか存在しないと仮定しても問題が生じないからである。また、一般に雑音レベルは主音レベルよりも小さいため、主音が存在する各フレームの周波数帯域を雑音が存在する各フレームの周波数帯域として誤判定する確率は低いからである。さらに、図3の左から6番目のフレームにおいて、音声1と音声2とが同じフレームに存在し、音声2の周波数領域も音声1の周波数領域に割り当てられているが、音声再生処理では問題は生じない。
【0036】
図2Aに戻り、周波数時間変換部149は、補正主音・雑音録音処理部144によって纏められた1フレーム分の周波数領域のデータをフレーム毎に逆FFT処理をして時間領域のデジタル信号に戻し、データベース161に出力する。
【0037】
データベース161は、再生装置190のチャンネル分(ヘッドホンの左右のスピーカ分)の時間領域のデータを保存する。
【0038】
上記録音部によってデータベース161に保存された録音データを再生するために、制御装置140と、一時記憶装置150と、記憶装置160とによって実現された、再生部の構成について説明する。
図2Bは再生時の構成を示す図であり、再生部の再生機能は、データベース161と、再生機器情報保存部162と、再生方法認識部147と、再生処理部146と、D−A変換器170と、LPF180と、再生装置190とを備える。
【0039】
再生機器情報保存部162は、再生装置190のスピーカ間の距離やスピーカの周波数特性等の再生装置190に関する情報を保存する。例えば、携帯電話にヘッドホンを接続して音を再生するためには、再生機器情報保存部162には、ヘッドホンの左右のスピーカ間の距離と、スピーカの周波数特性とが保存されている。
【0040】
再生方法認識部147は、再生指示を受けた際に、再生方法を指定する指示若しくは、再生方法を指定するセンサの情報(図示せず)に基づいて、再生装置190に対応した情報を再生機器情報保存部162から取得して、再生処理部146に出力する。
例えば、録音再生装置100が携帯電話の場合、ヘッドホン端子にヘッドホンのプラグが刺さっているか否かを検出するセンサを備え、刺さっている場合には、再生装置190をヘッドホンと判別して、刺さっていない場合、再生装置190を携帯電話に搭載されたスピーカと判別する。また、携帯電話の利用者が音声を再生する際に、再生方法認識部147へ再生方法を選択する指示を受け付ける構成にしてもよい。
【0041】
再生処理部146は、データベース161から音の時間領域のデジタル信号を読み出し、再生方法認識部147を介して取得した再生装置190の情報に基づいて振幅等を変更して、所定のタイミングでD−A変換器170に出力する。
【0042】
(動作)
次に、この録音再生装置100の動作を説明する。
まず、この録音再生装置100を録音装置として機能させる場合について説明する。
マイクロホンアレイ部110によって集音されて、アナログの電気信号に変換された音信号は、LPF120によって帯域制限され、A−D変換器130によってデジタル信号xi(t)に変換され、時間周波数変換部141(制御装置140)に供給される。
【0043】
変換されたデジタル信号は、時間周波数変換部141によって、ハミング窓関数を掛け合わされ、バタフライ演算によって時間領域の信号から周波数領域の信号に変換される。
前述の通り、周波数領域に変換された信号xi(f,τ)は、数1で表される。
なお前述したように、フーリエ変換するサンプリング時間(t)のグループをフレームと言い、フーリエ変換するフレームサイズをL、時間領域の信号から周波数領域の信号へ変換した回数をフレームインデックスτとする。ハミング窓関数をw(n)とする。
数1で示すように、時間周波数変換部141によって周波数領域に変換された信号xi(f,τ)は、雑音レベル推定部142に出力され、雑音レベルが推定される。
【0044】
図4のフローチャートに示すように、雑音レベル推定部142によって、各フレームの周波数帯域毎に、周波数領域の信号に含まれる雑音のレベルが推定される。
まず、1つのフレームの全周波数に渡って、存在する純音(一つの正弦波の音)の周波数とその強度とを示すパワースペクトル(信号が周波数毎に含んでいるエネルギーをグラフにしたもの)を算出する(ステップS101)。
このパワースペクトルの算出は、周波数帯域毎に複数チャンネルの音声信号
X(f,τ)=[x1(f,τ),...,xi(f,τ),...,xM(f,τ)] (Mはマイクロホン数、iは添え字)に、
y(f,τ)=||X(f,τ)||2
で表される演算をすることにより求める。
【0045】
次に、周波数帯域毎に同じフレームのパワースペクトルからホワイトノイズ等の成分等を除去し平滑化する(ステップS102)。
この平滑化処理は、ステップS101で求められたパワースペクトラムに、数2で表される演算をすることにより求める。なお、w(i)はハミング窓関数を示し、ハミング窓により平滑化する範囲を2Lw+1とする。
【数2】

【0046】
周波数帯域毎に求められたパワースペクトルを同じ周波数帯域の過去のフレームで求められたパワースペクトラムに基づいて、時間的な変化に対してスペクトルを平滑化する(ステップS103)。この処理により、ある周波数帯域毎のパワースペクトラムが一部のフレーム及び一部の周波数で突発的に異常な値になったとしても、その影響を緩和することができる。
この時間方向スペクトル平滑化処理は、ステップS102で求められた周波数帯域毎のパワースペクトラムに、
S(f,τ)=αsS(f,τ−1)+(1−α)Sf(f,τ)
で表される演算をすることにより求める。なお、αsは予め定める更新係数とする。Sfは、時間的に古いフレームにおいて算出されたパワースペクトルを示す。
【0047】
ステップS103において周波数帯域毎に求められた平滑後のパワースペクトルを所定のフレーム分保存しておき、同じ周波数帯域のフレームを平滑化した後のパワースペクトルの中から最も小さい値(最小統計値)を算出する(ステップS104)。なお、比較対象とする過去のフレーム数は録音再生時状況に合わせて予め定めておく。
最小統計値Smin(f,τ)=min[S(f,τ),S(f,τ-1),…,S(f,τ−N)]
【0048】
周波数帯域毎に求められた最小統計量に対する周波数帯域毎のレベルの比率を算出して、音レベルと雑音レベルの比率を算出する(ステップS105)。
この平滑化雑音レベル比推定処理は、数3で表すことができる。
【数3】

【0049】
周波数帯域毎に算出された音レベルと雑音レベルとの比率が所定の閾値より大きい場合には音と判別し、所定の閾値よりも小さい場合には雑音と判別する(ステップS106)。雑音成分が多いと判別された周波数帯域をP(f,τ)=0とし、音成分が多いと判別された周波数帯域をP(f,τ)=1とする。
【0050】
ステップS106によって設定された音存在確率値P(f,τ)を基に時間方向に隣接する2つのフレーム間で平滑化して、音存在確率の値を更新する(ステップS107)。
この音存在確率更新処理は、数4で表すことができる。なお、αpは予め定める係数とする。
【数4】

【0051】
ステップS107によって更新された音存在確率値を基に、次のフレームの処理で雑音レベルを計算するための雑音係数を更新する(ステップS108)。
この雑音係数は、数5で表すことができる。なお、αは予め定める係数とする。
【数5】

【0052】
ステップS108によって更新された雑音係数αdを用いて、雑音レベルσdを更新し、周波数帯域毎に更新した雑音レベルσdを該フレームの雑音レベルとして出力する(ステップS109)。
この雑音レベルσdを更新する処理は、数6で表すことができる。
【数6】

【0053】
上述したステップS101からステップS109の処理によって、周波数帯域毎の雑音レベルσdを推定することができる。雑音レベル推定部142によって推定された雑音レベルσd の値は、雑音・主音判別部143に出力され、周波数帯域毎に雑音か主音かを判別する処理に使用される。
【0054】
次に、図5のフローチャートに示すように、雑音・主音判別部143によって、各フレームの周波数帯域毎に、周波数成分が主音か雑音かを判別する。
該フレームの周波数帯域毎にその周波数成分に含まれる音の到来方向を推定し、推定された周波数帯域毎に音の到来方向を示す音源方向θ(f,τ)を求める(ステップS210)。
M個あるマイクロホンの中から対となるマイクペアを複数定め、マイクロホン同士の間隔をdiとし、その間隔が狭いマイクペアの方から順に処理をして、音源方向θ(f,τ)を推定する。この処理の詳細については、後述する。
【0055】
ステップS210で推定された周波数帯域毎の音源方向θ(f,τ)の最もらしさを示す尤度L(f,τ)を数7によって算出する(ステップS220)。なおここで、iは添え字、対象となる周波数帯域の周波数値をfとし、音速をcとする。δiは、i番目のマイクペアの間において、同時刻のフレームτの周波数f成分同士の位相差を示す。
【数7】

【0056】
ステップS220によって算出された尤度L(f,τ)が所定の閾値を超えているか否かを判別する(ステップS230)。方向性の無い拡散性の雑音が大きく含まれると、その雑音は各マイクペア毎の位相差が無相関となり、L(f,τ)が小さい値になることから、この判別処理によって、拡散性雑音か否かを判別することができる。
音源方向の尤度L(f,τ)が閾値を超えていないと判別された場合(ステップS230;NO)、該周波数領域の信号を雑音と判定し、出力する(ステップS250)。
【0057】
音源方向の尤度L(f,τ)が閾値を超えていると判別された場合(ステップS230;YES)、推定された雑音レベルσdを基にSNR(Signal to Noise ratio)を求めて主音か雑音かを判別する雑音判定処理をする(ステップS240)。
この雑音推定処理は、数8によってSNRを求める。
【数8】

【0058】
求められたSNRが所定の閾値よりも大きい場合には(ステップS240;NO、該周波数成分は主音と判別されて主音振幅・位相補正処理部148に出力され(ステップS260)、閾値よりも小さい場合には(ステップS240;YES)、該周波数成分は雑音と判別されて補正主音・雑音録音処理部144に出力される(ステップS250)。
主音振幅・位相補正処理部148による主音の補正処理と、補正主音・雑音録音処理部144の処理とは、後述する。
【0059】
図5に示したフローチャート(ステップS210からS250の処理)によって、主音か雑音かを判別する処理について説明したが、後回しにした、主音の到来方向θ(f,τ)を推定する処理(ステップS210)について、図6のフローチャートを用いて説明する。
まず、処理中のマイクペアのインデックス(添え字)をi=1とし、マイクペアの位相差をδ^(0)=0とする(ステップS2101)。
【0060】
i番目のマイクペアの位相差δ(i)を数9によって算出する(ステップS2102)。
なお、xi_1はi番目のマイクペアを構成する一つのマイクロホンの信号、xi_2は他方のマイクロホンの信号を示す。
【数9】

【0061】
算出されたマイクペアの位相差δ(i)内に含まれているエイリアシングを解決するために、数10を満たすn(i)を求める(ステップS2103)。
【数10】

【0062】
ステップS2103によって求められたn(i)を使用して、ステップS2102によって求められたi番目のマイクペアの位相差δ(i)を数11の計算により補正する(ステップS2104)。
【数11】

【0063】
ステップS2104によって補正された位相角を使用して、音源方向の推定値θを数12によって更新する(ステップS2105)。なお、i番目のマイクペアのマイク間隔をd(i)とし、処理中の周波数成分の周波数値をfとし、音速をcとする。
【数12】

【0064】
予定された全てのマイクペアで音源方向を推定する検討がされたかを判別する(ステップS2106)。未検討のマイクペアがある場合には(ステップS2106;NO)、変数i=i+1として、検討していないマイクペアの位相差計算(ステップS2102)をする。未検討の周波数帯域がない場合には(ステップS2106;YES)、全ての周波数帯域で音源方向を推定したかを判断する(ステップS2107)。全ての周波数帯域で音源方向を推定していない場合には(ステップS2107;NO)、変数i=1、位相差δ^(0)=0として次に処理をする周波数帯域の変数を初期化して(ステップS2101)、処理を繰り返す。全ての周波数帯域で音源方向を推定した場合には(ステップS2107;YES)、時間・周波数毎の方向性推定処理(ステップS210)を終了する。
上記処理により、各周波数帯域の主音の到来方向を推定することができる。
【0065】
次に、図5に示した雑音・主音判別処理のフローチャートの処理をした雑音・主音判別部143によって、主音振幅・位相補正処理部148に出力された主音と判別された周波数成分の位相と振幅とを補正する処理について説明する。
図7のフローチャートに示すように、主音振幅・位相補正処理部148において、主音と判別された周波数帯域の位相と振幅とを補正する。
なお、前述したように以下の説明では、周波数領域に変換された1つの周波数帯域には1つの主音しか存在しない場合を前提に説明するが、1つの周波数帯域に複数の主音が存在し、且つ音源分離により複数の主音を分離することができる場合には、主音毎に音源方向θ(f,τ)を算出する以外は同様の処理をして、補正された主音同士を重畳すればよい。
【0066】
まず、主音振幅・位相補正処理部148は、聴取者頭部伝達関数保存部163から聴取者頭部伝達関数を読み出し、マイク配置情報保存部164から録音時のマイクの配置情報を読み出す。
時間・周波数毎の方向推定処理(ステップS210)によって、主音と推定された周波数帯域毎の音源方向θ(f,τ)の情報を読み出す(ステップS401)。
【0067】
再生装置190に応じた主音毎のステアリングベクトルを取得するか又は、再生装置190の音出力手段に応じてステアリングベクトルを算出する(ステップS402)。
例えば、ステアリングベクトルを取得する場合、主音振幅・位相補正処理部148は、再生方法認識部147を介して、再生機器情報保存部162から再生装置190の音出力手段毎に対応したステアリングベクトルを取得する。さらに、聴取者の嗜好に合わせて周波数帯域毎の強度、周波数特性を補正した補正ステアリングベクトルを取得してもよい。
例えば、ステアリングベクトルを算出する場合、主音振幅・位相補正処理部148は、再生方法認識部147を介して、再生機器情報保存部162から再生装置190のスピーカ間隔等の算出条件を取得し、所定の式に基づいて、ステアリングベクトルを算出する。
【0068】
例として、図8に示すような携帯電話200に搭載されたマイクロホンアレイ部110によって集音され、携帯電話200によって録音された音をヘッドホン301によって再生する場合のステアリングベクトル取得方法について説明する。
人間の頭部302の両耳間隔をdとすると、数13によって、ステアリングベクトルが算出される(ステップS402)。
【数13】

【0069】
このステアリングベクトルを周波数帯域毎の周波数領域のデータのスカラ値(量のみの値)に掛け合わせて、ステアリングベクトルを付与する(ステップS403)。掛け合わせて得られる多チャンネルの周波数帯域毎の周波数領域のデータを時間領域の信号に変換し、D−A変換器でアナログ信号にして、ヘッドホン301から音を出力すると、方向θから音が到来するような音響効果を得ることができる。
【0070】
別の例として、インパルス応答を測定してステアリングベクトルを生成する場合について説明する。図9に示すように、携帯電話200に搭載したマイクロホンアレイ部110によって録音された音を室内に配置したスピーカ402、403、404、405によって再生し、室内のある一定範囲(リスニングポイント401)で利用者が音を聞く際に、ステアリングベクトルを取得する場合を想定する。
事前に、リスニングポイント401上の利用者の両耳位置にマイクを仕込み音源方向θから到来する単一音源に対するインパルス応答を収録して、この収録値に近似した値に調整されたFIR (Finite Impulse Response)フィルタを求める。この各スピーカ毎のFIRフィルタの値をフーリエ変換して周波数帯域毎のベクトルにしたものを音源方向θのステアリングベクトルとする。
主音と判別された周波数帯域の周波数領域のデータは、推定された音源方向θと、各スピーカ毎のFIRフィルタとが掛け合わされて、位相と振幅とが補正される。補正された信号は、時間領域のデジタル信号に変換され、D−A変換器170によってアナログ信号変換され、LPF180によって帯域制限され、各スピーカ402、403、404、405から音として出力される。
なお、このステアリングベクトルは固定的なものではなく、聴取者の嗜好に合わせて特定の周波数成分を強調したり、周波数帯域毎に係数を変化させても構わない。この嗜好の情報は、再生機器情報保存部162に保存しておいてもよい。
【0071】
主音振幅・位相補正処理部148は、算出された主音毎のステアリングベクトルを該主音の信号に掛け合わせて、出力するチャンネル数分(例えば、スピーカ402乃至405の4チャンネル分)の信号に変換する。この処理により、主音にステアリングベクトルを付与することができる(ステップS403)。
なお、図7のフローチャートは、1つのフレームの周波数帯域に1つの音源しか無いことを前提として説明した。
1つの周波数帯域に複数の音源が存在する場合には、雑音・主音判別処理によって、主音毎に音源方向が推定され音源分離信号を受け取り、主音毎にステップS401からS403の処理を行い、ステップS403によって、多チャンネルの信号に変換された後に、主音毎に同じチャンネルの同じ周波数の信号を加算すればよい。
【0072】
主音振幅・位相補正処理部148は、補正された主音を補正主音・雑音録音処理部144に出力する。なお、補正主音・雑音録音処理部144において主音に雑音を加えない場合には、ステアリングベクトルが付与された各チャンネル信号に、位相をランダムにずらした雑音成分を加算してもよい。
上述したように、図7のフローチャートに示した処理により、主音の位相と振幅とを補正することができる。また、この処理により主音の周波数成分のデータを出力するチャンネル分に生成することができる。
【0073】
次に、補正主音雑・音録音処理部144は、主音振幅・位相補正処理部148によって出力された補正後の主音と雑音・主音判別部143によって出力された雑音とを重畳して、周波数時間変換部149に出力する。
なお、補正後の主音のチャンネル数が増減した場合、雑音・主音判別部143によって出力される雑音チャンネル数を増減してから主音のチャンネルと重畳するか、主音振幅・位相補正処理部148から位相をランダムにずらした雑音成分が加算された主音の供給を受けて、雑音を重畳しなくてもよい。
【0074】
周波数時間変換部149は、加算後の各チャンネル信号(周波数領域のデータ)を逆FFT処理及び重畳加算処理をして時間領域に戻して、データベース161に出力する。
【0075】
この録音再生装置100を再生機として機能させる場合について説明する。
再生の指示を受けると、再生処理部146は、再生方法認識部147を介して再生機器情報保存部162に保存されている再生装置190の情報を取得する。再生機器処理部146は、再生するチャンネル分の音のデジタル信号を読み出し、再生する機器に対応させて振幅等を補正して、所定のタイミングでD−A変換器170に出力する。
各チャンネルの信号は、D−A変換器170によってアナログの電気信号に変換され、再生装置190の各出力器によって音に変換され、出力される。
【0076】
以上説明したように、録音再生装置100によれば、複数のマイクロホンの間隔が狭い小型録音装置によって収録された音であっても、再生装置190のスピーカの位置に合わせて音の位相と振幅とを補正することができ、正確な音源方向を含んだ臨場感が豊かな音を再現することができる。
また、主音と判別された信号に限って、位相と振幅とを補正することによって、目的となる音を明瞭に再現することができる。
さらに、録音する際に、再生装置190の音出力手段に合わせて主音の位相と振幅とを修正した音データを生成するため、再生時に複雑な処理をしなくても、臨場感ある音を再現することができる。
【0077】
次に、本実施形態の主音の位相・振幅補正処理と、主音方向を推定する処理との代替処理について説明する。
【0078】
(主音の位相・振幅補正方法の別例)
上述した、図7のフローチャートに示した主音の位相と振幅とを補正する処理では、既存のステアリングベクトルのデータ又は、詳細な式を使用した。ここでは、図10のフローチャートに示すような簡略化した式による演算によって位相と振幅とを補正する方法について説明する。なお、この簡略した式による演算によって位相と振幅とを補正する方法は、同一平面上に2つのマイクロホンが配設された録音装置によって録音され、図8によって示されるようにヘッドホンによって音を再生することを想定している。
【0079】
図5に示した雑音・主音判別処理によって、主音の音源方向が推定された信号が得られたとする。
例えば、図6のフローチャートに示した位相差計算処理(ステップS2102)等によって、各フレームの周波数帯域毎に主音の位相差σを算出する(ステップS411)。
数14によって、各フレームの周波数帯域毎の主音の位相を変換する(ステップS412)。なお、ここでは、マイク間隔をd1とし、ヘッドホンの両耳間隔をd2とする。
【数14】

【0080】
次に、各フレームの周波数帯域毎に主音のステアリングベクトルa(f,τ)を数15によって算出する。算出された主音のステアリングベクトルを主音と判別された周波数帯域毎に周波数領域のデータと掛け合わせて、ステアリングベクトルを付与し、多チャンネル信号を生成する(ステップS413)。
生成された各チャンネルの信号は、補正主音・雑音録音処理部144に出力される。
なお、この各チャンネルの信号に位相をランダムにずらした雑音成分を加算してもよい。
【数15】

【0081】
上述したように、図10のフローチャートに示された主音の位相と振幅とを補正する方法によって、ステアリングベクトルを使用しなくても簡易に主音の位相と振幅とを補正することができる。
【0082】
なお、図10のフローチャートは、1つのフレームの周波数帯域に1つの音源しか無いことを前提として説明した。
1つの周波数帯域に複数の音源が存在する場合には、雑音・主音判別処理によって、主音毎に音源方向が推定され音源分離信号を受け取り、主音毎にステップS411からS413の処理を行い、ステップS413によって、多チャンネルの信号に変換された後に、主音毎に同じチャンネルの同じ周波数の信号を加算すればよい。
【0083】
(雑音・主音判別処理の別例)
雑音・主音判別処理2については、図5のフローチャートに1つの方法を示したが、ここでは別の方法について説明する。
図11のフローチャートに示すように、雑音・主音判別部143によって、各フレームの周波数帯域毎に、周波数領域の信号が主音か雑音かを判別する。なお、所定のフレーム数L分の周波数領域のデータが得られる度に、この雑音・主音判別処理をする。
時間・周波数帯域毎の方向推定処理(ステップS210)から雑音判定処理(ステップS240)までは、図5のフローチャートと同様の処理をする。
【0084】
音源方向を所定の間隔で小区間に分割した範囲を階級とする。各フレームの周波数領域のデータの周波数帯域毎に主音と判定された周波数帯域の音源方向θ(f,τ)が各階級に存在する場合、その階級の既存値に、尤度L(f,τ)の値又は、該当する周波数成分のレベル又は、該周波数成分の対数レベルを加算して、ヒストグラムを作成・更新する(ステップS270)。
例えば、階級の幅が20度のヒストグラムにおいて、ある周波数帯域が主音と推定され、その音源方向が30度であったとする。この主音は、20度から40度までの階級に含まれるので、この階級の既存値である度数に、尤度L(f,τ)の値又は、該当する周波数成分のレベル又は、該周波数成分の対数レベルを加算する。
【0085】
予定した全フレームの周波数領域のデータについて、ステップS210からステップS270までの処理をしたかを判定する(ステップS280)。未処理の周波数帯域がある場合には(S280;NO)、未処理の周波数帯域に対して方向推定処理(ステップS210)をする。
【0086】
未処理の周波数帯域がない場合には(ステップS210;YES)、作成・更新されたヒストグラムの値が大きいものから順番に、所定の数又は所定の値になるまで取り出して、ピーク検出をする。ピークとして検出された階級(角度の幅)を度数(ピーク値)によって重み付けし、重み付けされた階級を平均し、該主音の方向を算出する(ステップS290)。
例えば、尤度L(f,τ)の値の場合、ピーク検出する値は、度数が所定の値以下になるまで、又は最大の値との差が所定の値以下になるまでピーク検出をする。周波数成分のパワー値又はその対数パワー値の場合、最大値と比較したレベルが所定の差になるまで又は、最大値と比較したレベルが所定の比率以下になるまでピーク検出をする。
なお、ピーク検出を所定の範囲にすることにより、背景雑音に相当するような小さい音源を誤って取り出すことを防ぐことができる。
【0087】
ヒストグラムの作成・更新処理(ステップS270)に用いたフレームの周波数帯域のうち尤度判定(ステップS230)及び雑音判定(ステップS240)において、主音と判別される毎に、その周波数帯域の音源方向が、主音の音源方向の何れに最も近いかを判別する。そして、最も近い主音の方向を該周波数帯域の音源方向として更新する。フレームの全周波数帯域毎に該データが主音か雑音かを振り分け、主音と判別された際にはその音源方向を再振り分けする(ステップS300)。
上述した処理により、各フレームの周波数帯域毎に、周波数領域の信号が主音か雑音かを判別することができる。
【0088】
(時間・周波数毎の方向推定処理の別例1)
図5及び図11のステップS210の処理に対応し、図6のフローチャートによって主音方向を推定する方法を示したが、ここでは別の方法について説明する。
図12のフローチャートに示す時間・周波数毎の方向推定処理2によって、周波数帯域毎に主音方向の推定処理をする。
まず、最大値のレベルを示す変数max_powerと、最大値の方位角を示す変数max_power_thetaとを0に設定し、方位角を示す変数θを最小値(例えば、−90度)に設定する(ステップS2111)。
なお、ここで、方位角θは、所定の分解能(例えば、1度刻み等)で、−90度から+90度もしくは−180度から+180度まで表せるとする。また、入力される複数チャンネルの信号をxとする。
【0089】
次に、下記数16によって定義されるステアリングベクトルa(θ)と入力されたチャンネル信号xとの内積O(θ)をO(θ)=α(θ)*X(f)によって求める(ステップS2112)。
なおここでは、ステアリングベクトルa(θ)をa(θ)の1番目の要素で割ったものを新たにa(θ)としても良い。a(θ)の1番目の要素を1にして、これを基準に他の要素を表現する。また、riは、マイクロホンアレイ部110の中心位置から予め定める距離(例えば1m等)と方角(方位角θ度)とによって表される位置に存在する仮想音源とi番目のマイクロホンとの間の距離とを示す。
【数16】

【0090】
次に、内積O(θ)の絶対値|O(θ)|とmax_powerとの大小を判別する(ステップS2113)。
内積の絶対値が大きい場合には(ステップS2113;YES)、max_powerを|O(θ)|に設定し、max_power_thetaをθに設定して最大値を更新する(ステップS2114)。
【0091】
内積の絶対値が小さい場合(ステップS2113;NO)又は、最大値が更新されると(ステップS2114)、方位角θに所定の角度の幅を示す角度幅を加算し、加算後の方位角θが方位角の最大値(例えば+90度、+180度)よりも大きいかを判別する(ステップS2115)。
最大値よりも大きい場合には(ステップS2115;YES)、変数max_power_thetaを該周波数成分の音源方向と推定し、処理を終了する。
最大値よりも小さい場合には(ステップS2115;NO)、内積計算(ステップS2112)の処理に戻る。
上述した処理により、主音の方向を推定することができる。
【0092】
(時間・周波数毎の方向推定処理の別例2)
図5及び図11のステップS210の処理に対応し、図6及び図12のフローチャートによって主音方向を推定する処理の例を示したが、ここではさらに別の方法について図13に示すフローチャートを用いて説明する。
マイクロホンアレイ部110を構成する複数のマイクロホンの中から対となる複数のマイクペアiを選択し、初期値1を設定する。ヒストグラムC(θ)の度数を示す全てのθを0に初期化する(ステップ2121)。
なおここで、方位角θの幅(ヒストグラムの階級)は所定の角度幅とし、処理をする複数のフレームの中で最も時間が古いフレームをτとする。
【0093】
次に、全周波数のクロススペクトルCi(f,τ)を数17によって求める(ステップS2122)。
【数17】

【0094】
求められたクロススペクトルCi(f,τ)を数20によって、逆フーリエ変換して時間領域のクロススペクトルCi(t,τ)を数18によって算出する。なおCi(t,τ)を算出する際に、処理対象である全ての周波数fの和をとる。
さらに、t=dc-1sinθによって、変数をtからθに変換した、クロススペクトルci(θ,τ)を算出する(ステップS2123)。
【数18】

【0095】
ヒストグラムC(θ)の度数に、算出されたCi(θ,τ)の値を加算する(ステップS2124)。
【0096】
全てのマイクペアの処理をしたかを判断する(ステップS2125)。処理をするマイクペアを示す添え字iの値が全てのマイクペアの数(M(M-1)/2)以下の場合には(ステップS2125;NO)、添え字iに1を加算して(i=i+1)、次のi+1で示されるマイクペアについて、クロススペクトル計算(ステップS2122)の処理に戻り、同様の処理を繰り返す。
添え字iの値が全てのマイクペアの数(M(M-1)/2)よりも大きい場合には(ステップS2125;YES)、フレームτが処理をする全てのフレーム数より大きいかを判別する(ステップS2126)。
処理をする全てのフレーム数以下の場合には(ステップS2126;NO)、添え字iを1に初期化し、処理をするフレームを示すτに1を加算して(τ+1)、次フレームについて、変数初期化(ステップS2121)以降の処理をする。
処理をする全てのフレーム数よりも大きい場合には(ステップS2126;YES)、ヒストグラムCi(θ,τ)の度数が所定の閾値よりも大きい方位角θを音源方向推定値θとして出力し、処理を終了する。
なお、本処理で求めたヒストグラムC(θ)を図11のヒストグラムの作成・更新(ステップS270)によって更新されるヒストグラムの代わりに使用してもよい。
上述した処理により、主音の方向を推定することができる。
【0097】
(実施形態2)
実施形態1では、録音時に位相と振幅とを補正したが、実施形態2では、再生時に位相と振幅とを補正する機能を備えた録音再生装置100について説明する。
また、実施形態1では、1つの周波数帯域には、1つの音源しか含まれないことを前提として雑音と主音とを判別して主音を補正する処理について説明したが、実施形態2では、1つの周波数帯域に複数の主音が含まれる場合でも、雑音と主音とを判別して主音を補正する処理について説明する。
【0098】
図14Aは録音時の構成を示す図であり、録音再生装置100の録音部は、マイクロホンアレイ部110と、LPF120と、A−D変換器130と、時間周波数変換部141と、雑音レベル推定部142と、雑音・主音判別部143と、主音録音処理部1441と、雑音録音処理部1442と、録音時マイク配置記憶処理部1482と、データベース161と、カメラ201とを備える。
【0099】
雑音・主音判別部143は、実施形態1と同様に、周波数領域の信号に含まれる雑音成分と主音成分とを判別し、主音と判別された周波数帯域の周波数領域のデータを主音録音処理部1441に出力し、雑音成分と判別された周波数帯域の周波数領域のデータを雑音録音処理部1442に出力する。
さらに、実施形態2の雑音・主音判別部143は、実施形態1と異なり、図15に示すように1つの周波数帯域に複数の音源が含まれている場合も判別し、音源毎に周波数帯域の周波数領域のデータを主音録音処理部1441に出力する。
【0100】
図14Aに戻り、主音録音処理部1441は、主音と判別された周波数帯域の周波数領域のデータに主音であることを示す情報(ラベル)を付加し、データベース161に出力する。本実施形態では、主音のデータに対して、再生時に位相と振幅とを補正する。
【0101】
雑音録音処理部1442は、雑音と判別された周波数帯域の周波数領域のデータに雑音であることを示す情報(ラベル)を付加し、データベース161に出力する。なお、雑音成分の到来方向を明確化しても利点が少ないため、録音時と再生時との何れの場合も、雑音成分のデータに対して位相と振幅とは補正しない。
【0102】
録音時マイク配置記憶処理部1482は、録音するマイクロホンアレイ部110のマイクの配置情報を得て、再生時に音源方向を推定する処理に使うために、データベース161に出力する。例えば、携帯電話は、上下2つの筐体を開閉、回転して形状を変化することができ、これに伴いマイクロホンの配置が異なるため、録音時のマイクロホンの配置を録音するデータと共に記憶して、再生時の処理に使用する必要がある。
【0103】
データベース161は、主音録音処理部1441によって主音のラベル情報が付加された周波数帯域の周波数領域のデータと、雑音録音処理部1442によって雑音のラベル情報が付加された周波数帯域の周波数領域のデータと、録音時マイク配置記憶処理部1482のマイクロホンの配置情報とを録音データとして保存する。また、データベース161は、カメラ201から供給された録画データを保存してもよい。
カメラ201は、画像を撮影してデジタルの映像信号を録画データとしてデータベース161に出力する。
【0104】
上記録音部によってデータベース161に保存された録音データと録画データとを再生するために、制御装置140と、一時記憶装置150と、記憶装置160とによって構成される音像定位機能を実現する再生部について説明する。
図14Bは再生時の構成を示す図であり、再生部は、データベース161と、再生機器情報保存部162と、聴取者頭部伝達関数保存部163と、再生方法認識部147と、位相・振幅補正部1481と、周波数時間変換部149と、D−A変換器170と、LPF180と、再生装置190と、表示装置202とを備える。
【0105】
再生機器情報保存部162は、スピーカ間の距離やスピーカの周波数特性等の再生装置190に関する情報を保存する。例えば、携帯電話にヘッドホンを接続して音を再生する場合には、再生機器情報保存部162にヘッドホン301の左右のスピーカ間の距離とスピーカの周波数特性とが保存されている。
【0106】
聴取者頭部伝達関数保存部163は、ヘッドホン301によって音を再生する際に、基準となる利用者別又は利用者のタイプ別の聴取者頭部伝達関数を保存する。なお、頭部伝達関数とは、頭の中心に相当する自由空間上の1点と、耳道内の1点との間の伝達関数のことであり、音が聴取者の頭部、胸部、耳介などでの反射・回折の影響を含むため、身体形状の方向依存性、個人性が強く反映される。そのため、再生時に音源を定位させるために、頭部伝達関数に基づいて音の再生処理をする。
【0107】
再生方法認識部147は、再生指示を受けた際に、再生方法を指定する指示若しくは、再生方法を指定するセンサの情報(図示せず)に基づいて、再生装置190に対応した情報を再生機器情報保存部162や聴取者頭部伝達関数保存部163から取得して、位相・振幅補正部1481に出力する。
例えば、録音再生装置100が携帯電話の場合に、ヘッドホン端子にヘッドホン301のプラグが刺さっているか否かを検出するセンサを備え、刺さっている場合には、再生装置190をヘッドホン301と判別して、スピーカ間の距離は聴取者の両耳間距離に設定したり、聴取者頭部伝達関数を取得する。刺さっていない場合、位相・振幅補正部1481は、再生装置190を携帯電話に搭載されたスピーカと判別して、携帯電話に搭載されたスピーカ間の距離を設定して処理をしてもよい。また、携帯電話の利用者が音を再生する際に、再生方法を選択する指示を与える構成にしてもよい。
【0108】
位相・振幅補正部1481は、再生する周波数領域のデータ内の主音成分の位相と振幅とを補正して、周波数時間変換部149に出力する。
まず、位相・振幅補正部1481は、データベース161からフレーム毎に主音のインデックスが付された周波数帯域の周波数領域のデータを読み出し、主音毎(主音のインデックスをiとする)に該主音の音源方向を推定する。次に、位相・振幅補正部1481は、再生方法認識部147から供給される再生装置190のスピーカ配置位置と周波数特性との情報を基に、音源方向に対する各マイクロホンの振幅比と位相差とを表すステアリングベクトルを求める。そして、位相・振幅補正部1481は、該ステアリングベクトルに基づいて主音iの位相と振幅とを補正する。なお、位相・振幅補正部1481が、主音と判別された周波数帯域の周波数領域のデータの位相と振幅とを補正する処理の詳細については、後述する。
【0109】
周波数時間変換部149は、位相・振幅補正部1481によって位相と振幅とを補正された各主音の周波数領域のデータと、データベース161から読み出した雑音の周波数領域のデータとを重畳加算して、加算された周波数領域のデータをフレーム毎に逆FFT処理をして時間領域のデジタル信号に戻し、所定のタイミング毎にD−A変換器170に出力する。
【0110】
表示装置202は、再生装置190によって再生される音のタイミングと同期をして、データベース161から録画データを読み出し、再生画像を表示する。例えば、表示装置202は、携帯電話のディスプレイや携帯電話に接続されたテレビ等の外部表示装置等である。
【0111】
(動作)
次に、この録音再生装置100の動作を説明する。
まず、この録音再生装置100を録音部として機能させる場合について説明する。
マイクロホンアレイ部110によって集音されてから雑音レベル推定部142によって各フレームの周波数帯域毎に、周波数領域のデータに含まれる雑音のレベルが推定されるまでの処理(図4のフローチャート)は、実施形態1と同様である。
【0112】
(雑音・主音判別処理3)
次に、図16の雑音・主音判別処理3のフローチャートに示すように、雑音・主音判別部143によって、各フレームの周波数帯域毎に、周波数領域の信号成分が主音成分か雑音成分かを判別する。
処理対象のフレームを所定の分割数Lで分割する。
分割したフレーム群毎(フレーム郡のインデックスをk)に、フレームkに含まれる多チャンネル信号をxk(f,τ)とする場合の共分散行列Rk(f)を数19によって算出する。
さらに、全てのフレーム郡の共分散行列を足し合わせた行列R(f)=ΣRk(f)を算出して、共分散行列R(f)を更新する(ステップS241)。
【数19】

【0113】
ステップS241で求めた共分散行列R(f)に対して、R(f)=U(f)ΩU(f)^*を満たす直交行列U(f)を算出する。
なお、Ωは対角行列とし、L(f)=U(f)1/√Ωとする。(ここで、1/√Ωは1をΩの各要素の平方根で割ったものを各要素とする行列のことを言う。)
任意の各フレーム群の共分散行列Rk(f)に対して、L(f)^*Rk(f)L(f)=T(f)ΔT(f)^{*}を満たす関数T(f)を算出して、同時多角化する(ステップS242)。なおここでは、Δは対角行列とする。
【0114】
雑音抑圧フィルタW(f)を、W(f)=L(f)T(f)によって算出し、生成する(ステップS243)。
なお、W(f)の各行要素をwi(f)とすると、wi(f)はi番目の音源を多チャンネル信号から抽出するための雑音抑圧フィルタを示す。
【0115】
周波数f1によって得られた分離ベクトルのi番目の要素と周波数f2によって得られた分離ベクトルのi番目の要素とは、必ずしも同じ音源に属するとは限らない。一方、同じ音源に属する周波数成分はパワースペクトルの相関が大きく、パワースペクトルの相関によって、同じ音源に属している成分であるかを判別することができる。
そこで、雑音抑圧フィルタW(f)をフレーム毎の多チャンネル信号と掛け合わせて、分離信号を要素とするベクトルS(f,τ)を算出する。
また、W(f)を逆行列にした各列要素が各音源のステアリングベクトルに相当するベクトルとなることから、分離ベクトルの各要素毎にW(f)を逆行列にした各列要素を掛け合わせて、多チャンネルの分離信号を算出する。
このようなフィルタリング処理により、マイク数と同じ数の多チャンネルの分離信号を得ることができる(ステップS244)。
【0116】
この様に、図16のフローチャートに示した周波数領域の信号を主音か雑音か判別する処理において、各音源毎に他の音源とのパワースペクトルのレベル比率が所定の閾値よりも小さい場合には、雑音成分と判別する。また、パワースペクトルのレベル比率が所定の閾値よりも大きい場合であっても、主音以外の音源のパワースペクトルとの相関が大きい場合についても、雑音と判別する。それ以外の場合に、主音と判別する。
雑音と判別された周波数帯域の周波数領域のデータは、雑音録音処理部1442に出力され、主音と判別された周波数帯域の周波数領域のデータは、主音録音処理部1441に出力される。但し、同じ周波数帯域に複数の主音があると判別された場合には、主音の周波数帯域の周波数領域のデータが、主音録音処理部1441に出力される。
【0117】
主音録音処理部144、雑音録音処理部145では、周波数帯域の周波数領域のデータに主音若しくは、雑音を示す情報(ラベル)を付加し、データベース161に出力する。
データベース161によって、主音の時間領域データと雑音の時間領域データとが録音データとして保存され、録音処理は終了する。
なお、カメラ201から供給された録画データに、録音データと同期する情報を付加して、データベース161に保存してもよい。
【0118】
次に、この録音再生装置100を再生装置として機能させる場合について説明する。
制御装置140が再生の指示を受けると、再生方法認識部147は、再生機器情報保存部162から再生装置190のスピーカ間の距離やスピーカの周波数特性等の再生装置190に関する情報又は、聴取者頭部伝達関数保存部163から聴取者頭部伝達関数を取得して、位相・振幅補正部1481に出力する。
【0119】
次に、位相・振幅補正部1481は、図17のフローチャートに示すように主音の位相と振幅とを補正する。
図17のフローチャートは、図7のフローチャートの方向推定情報取得処理(ステップS401)の代わりに方向推定処理(ステップS404)とする点が異なるが、その他は主音毎に同様の処理をする。これは、実施形態1では、前段階の処理で主音の方向が推定されているので情報を取得するのみでよいが、図17ではこの段階で主音の方向を推定する必要があるからである。
まず、主音と判別された周波数帯域に1つの主音しかない場合には、該周波数帯域の音源方向θ(f,τ)を前述した図6、図12及び図13の何れかのフローチャートに示した処理により求める。主音と判別された周波数帯域に複数の主音がある場合には、主音毎に該周波数帯域の音源方向θ(f,τ)を前述した図6、図12及び図13の何れかのフローチャートに示した処理により求める。
次の、補正ステアリングベクトルを取得・算出する処理(ステップS402)以降は、図7のフローチャートに示した処理と同様の処理をする。
但し、本実施形態の位相・振幅補正部1481は、実施形態1の主音振幅・位相補正処理部148と異なり、再生装置190のスピーカ間の距離やスピーカの周波数特性や聴取者頭部伝達関数等の情報に基づいて、再生装置190に対応した主音の位相と振幅とを補正する。
位相・振幅補正部1481は、主音のみ位相と振幅とが補正され、再生装置190のスピーカの数に対応したチャンネル数の周波数領域のデータを周波数時間変換部149に出力する。
なお、1つの周波数帯域に複数の主音がある場合には、補正された主音毎の周波数領域データを加算して、1つの周波数帯域の周波数領域データにする。
【0120】
次に、周波数時間変換部149は、加算後の各チャンネル信号(周波数領域のデータ)を逆FFT処理及び重畳加算処理をして時間領域のデジタル信号に戻して、D−A変換器170に出力する。各チャンネルのデジタル信号は、D−A変換器170によって、アナログ信号に変換され、LPF180によって帯域制限され、再生装置190によって音に変換されて出力される。
また、表示装置202は、再生された音と同期したタイミングでデータベース161から画像情報を読み出し、画像を再生する。
【0121】
以上説明したように、録音再生装置100によれば、複数のマイクロホンの間隔が狭い小型録音装置によって収録された音であっても、再生装置190のスピーカの位置に合わせて音の位相と振幅とを補正することができ、音源方向を含んだ臨場感が豊かな音を再現することができる。
また、1つの周波数帯域に複数の主音が含まれる場合であっても、主音毎に位相と振幅とを補正することによって、目的となる音を明瞭に再現することができる。
さらに、音を再生する際に、位相と振幅とを補正するため、多様な再生装置に対応して臨場感がある音を再現することができる。
【0122】
実施形態2においても実施形態1の図10と同様に、主音の位相と振幅とを補正する処理は、ステアリングベクトルを使用せず簡略した方法によって実現してもよい。
なお、雑音・主音判別部143によって、主音毎に音源分離がなされているので、主音毎に処理をする。
【0123】
次に、本実施形態の雑音・主音判別処理の代替処理を4つ説明する。
(雑音・主音判別処理の別例4)
図16のフローチャートに示した雑音主音判別処理以外の判別方法について説明する。
図18のフローチャートに示すように、図16のフローチャートに示したステップS241からS243までの処理をして、雑音抑圧フィルタ(分離フィルタ)W(f)を作成して、これを初期フィルタとする(ステップS245)。
【0124】
変化相関関数φ(x)を数20とし、数21の演算を所定の回数繰り返して、分離フィルタ(ICA(Independent Component Analysis)フィルタ)W(f)を更新する(ステップS246)。なお、ηは更新係数を示す。
【数20】

【数21】

なお、ηは更新係数を示す。
【0125】
図16に示されたフローチャートのフィルタリング処理(ステップS244)と同様に、更新された分離フィルタW(f)をフレーム毎の多チャンネル信号と掛け合わせて、分離信号を要素とするベクトルS(f,τ)を算出する。
また、分離ベクトルの各要素毎にW(f)を逆行列にした各列要素を掛け合わせて、多チャンネルの分離信号を算出して、マイク数と同じ数の多チャンネルの分離信号を得るフィルタリング処理をする(ステップS247)。
この様に、図18のフローチャートに示した手段によっても、雑音と主音とを判別することができる。
【0126】
(再振り分け処理1)
さらに、別の雑音・主音判別処理について説明する。
図19のフローチャートに示す処理は、図11の雑音・主音判別処理2のフローチャートに示した再振り分け処理(ステップS300)と置き換えて使用する。この再振り分け処理1に置き換えることにより、音の到来方向が異なる主音毎に周波数領域のデータを分離した出力信号を得ることができる。
【0127】
まず、ヒストグラムのピーク検出により推定された音源方向θ、及び周波数帯域毎に数22によって、ステアリングベクトルa(θ,f)を計算する(ステップS301)。
なお、異なるフレーム間における(時間的に異なる)、同じ周波数の音源方向が、θを基準として所定の範囲内のある音源方向を選択し、平均値を算出して、ステアリングベクトルa(θ,f)を求めてもよい。この方法により、周波数が同じでも異なる方向から到来する音を音源方向から取り除くと共に、音源の移動に対応することができる。
【数22】

【0128】
ヒストグラムのピークとして検出され、各音源毎の方向のステアリングベクトルa(θ,f)を列の要素として含む行列Aの擬似逆行列A+を算出する(ステップS302)。
【0129】
次に、行列A+と入力信号X(f,τ)とを掛け合わせて、音源毎にS(f,τ)=A+X(f,τ)によって示される分離信号S(f,τ)を求める(ステップS303)。
なお、分離信号S(f,τ)の要素は、ヒストグラムの各ピークとして検出され、主音毎に推定された音源方向を示す信号である。
【0130】
分離信号S(f,τ)の各要素Si(f,τ)毎に、逆フィルタリングSθ,i(f,τ)=Si(f,τ)a(θ,f)によって、多チャンネル信号So,i(f,τ)を算出する(ステップS304)。
上記処理により、主音毎に方向が推定された多チャンネル信号が出力される。
【0131】
(再振り分け処理2)
さらに、別の雑音・主音判別処理について説明する。
図20のフローチャートに示す処理は、図11の雑音・主音判別処理2のフローチャートに示した再振り分け処理(ステップS300)と置き換えて使用する。このこの再振り分け処理2に置き換えることにより、音の到来方向が異なる主音毎に周波数領域のデータを分離した信号を得ることができる。
【0132】
同じ時刻に、複数の入力チャンネル信号を周波数領域に変換して得られた各フレームにおいて、ある周波数の音源方向θを求める。音源方向θが求められたある周波数のヒストグラムの階級が、音源方向θのピーク値を示す階級よりも他の音源方向のピーク値を示す階級に近い場合には、ノイズn(f,τ)とする。
ヒストグラムのピーク値を検出し、推定した音源方向θ毎に数23によって、雑音共分散行列Rθ(f)を算出する(ステップS311)。
【数23】

【0133】
図19のフローチャートに示したステアリングベクトルa(θ,f)を計算する処理(ステップS301)と同様の処理をして、ヒストグラムのピーク検出により推定された音源方向θを計算する(ステップS312)。
【0134】
ステップS311によって求められた雑音共分散行列Rθ(f)と、ステップS312によって求められたステアリングベクトルa(θ,f)とから数24によって、雑音抑圧フィルタw(f)を算出し、生成する(ステップS313)。
【数24】

【0135】
音源方向θ毎に雑音抑圧フィルタw(f)を使って、フィルタリング(Sθ(f,τ)=w(f)x(f,τ))することによって、各フレームの周波数帯域毎の分離信号Sθ(f,τ)を求め、多チャンネル信号を算出する(ステップS314)。
上記フィルタリング処理により、主音毎に方向が推定された多チャンネル信号が出力される。
【0136】
(再振り分け処理3)
さらに、別の雑音・主音判別処理について説明する。
図21のフローチャートに示す処理は、図11の雑音・主音判別処理2のフローチャートに示した再振り分け処理(ステップS300)と置き換えて使用する。このこの再振り分け処理2に置き換えることにより、音の到来方向が異なる主音毎に周波数領域のデータを分離した信号を得ることができる。
【0137】
図20のフローチャートに示した雑音共分散行列Rθ(f)を計算する処理(ステップS312)と同様の処理をして、雑音共分散行列をする(ステップS321)。
【0138】
複数の音入力チャンネル信号の同一フレームの周波数の中で、音源方向がθと推定されたヒストグラムのピークと他のピークとを比較して、音源方向がθと推定されたピークに近い周波数を分離信号S(f,τ)とする。
ヒストグラムのピーク値を検出し、推定した音源方向θ毎に数25によって、目的音共分散行列Rs,θ(f)を算出する(ステップS322)。
【数25】

【0139】
ここで、行列Aの固有値のうち最もパワーが大きい固有値を求める演算をeig(A)とし、eig(A)に対応する行列Aの固有ベクトルをeig_vector(A)とする。目的音共分散行列Rs,θ(f)と雑音共分散行列Rθ(f)とからW(f)=eig_vector(Rθ(f)-1Rs,θ(f))*によって、雑音抑圧フィルタw(f)を算出し、生成する(ステップS323)。
【0140】
図20のフローチャートに示したフィルタリング(ステップS314)と同様に、
音源方向θ毎に雑音抑圧フィルタw(f)を使って、Sθ(f,τ)=w(f)x(f,τ)の演算により、各フレームの周波数帯域毎の分離信号Sθ(f,τ)を求め、多チャンネル信号を算出する(ステップS324)。
上記フィルタリング処理により、主音毎に方向が推定された多チャンネル信号が出力される。
【0141】
(実施形態3)
実施形態1及び2では、録音再生装置100の録音・再生機能を切り替えることにより音の位相と振幅とを補正する処理を示した。実施形態3では、録音再生装置100によって録音した音の位相と振幅とを他の装置で補正する処理について説明する。
【0142】
図22に示すように、音情報処理システム500は、録音用のマイクロホンアレイを備えた携帯電話200と、サーバ501と、音を再生する機能を備えたパソコン502とを備え、これらがネットワークによって接続されている。
【0143】
携帯電話200は、実施形態2によって説明された録音機能を備え、記憶装置160に記憶された録音信号をネットワークを介して、サーバ501へ送信する。また、携帯電話200は、マイクロホン間隔等の録音時の条件若しくは、携帯電話の機種毎の識別番号等を併せて、サーバ501へ送信する。
【0144】
サーバ501は、予め再生装置190として機能するパソコン502のスピーカ配置、聴取者の頭部伝達関数、聴取者情報(嗜好する周波数特性の情報)等のステアリングベクトルを生成するために必要な情報を記憶している。サーバ501は、携帯電話200によって送信された録音信号及び、録音時の条件又は機種毎の識別番号を受信し、記憶している各パソコン502に対応した主音の位相と振幅とを補正して、補正された音信号を音を再生するパソコン502へ送信する。
【0145】
パソコン502は、ネットワークを介して、サーバ501から送信された補正後の音信号を受信して、音を再生する。
【0146】
上述したように、ネットワークに繋がれたサーバで、主音の位相と振幅とを補正することにより、録音装置と再生装置と共に補正に伴う重い処理をする必要がないので、マイクロホンの間隔が狭い低機能の録音装置によって録音された音でも、音源方向を含んだ臨場感豊かな音を再現することができる。
また、携帯電話によるテレビ電話等でも、臨場感ある音を伝えることができる。
【0147】
上述した発明は、一つの例であり、下記のような変更形態が考えられる。
録音再生装置100がカメラ201を備える録音装置でテレビ電話機能を実現する際に、画角の中心方向のみを主音の方向として処理してもよい。これにより、システムの負担を軽減することができる。
また、録音再生装置100は、音源の位相と振幅とを補正する際に、聴取者の好みにあわせて音を再生するための設定手段を備えてもよい。
また、録音再生装置100が、録音した音の情報を記憶するのではなく、記憶媒体に記憶させたり、記憶媒体から録音した音の情報を読み出して再生してもよい。
【0148】
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更及び修正が可能である。
【0149】
図23に示すように、音像定位機能を備えた録音再生装置100又は音情報処理システム500の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する音像定位機能を備えた録音再生装置100又は音情報処理システム500を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで音像定位機能を備えた録音再生装置100又は音情報処理システム500を構成してもよい。
【0150】
また、音像定位機能を備えた録音再生装置100又は音情報処理システム500を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
【0151】
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
【符号の説明】
【0152】
100・・・録音再生装置、110・・・マイクロホンアレイ部、120、180・・・LPF、130・・・A−D変換器、140・・・制御装置、141・・・時間周波数変換部、142・・・雑音レベル推定部、143・・・雑音・主音判別部、144・・・補正主音・雑音録音処理部、146・・・再生処理部、147・・・再生方法認識部、148・・・主音振幅・位相補正処理部、149・・・周波数時間変換部、150・・・一時記憶装置、160・・・記憶装置、161・・・データベース、162・・・再生機器情報保存部、163・・・聴取者頭部伝達関数保存部、164・・・マイク配置情報保存部、170・・・D−A変換器、190・・・再生装置、200・・・携帯電話、201・・・カメラ、202・・・表示装置、300・・・ヘッドホン、302・・・人間の頭部、401・・・リスニングポイント、402、403、404、405・・・スピーカ、500・・・音情報処理システム、501・・・サーバ、502・・・パソコン、1441・・・主音録音処理部、1442・・・雑音録音処理部、1482・・・録音時マイク配列記憶処理部、1481・・・位相・振幅補正部

【特許請求の範囲】
【請求項1】
音をアナログの電気信号に変換する複数のマイクロホンを有するマイクロホンアレイと、
前記マイクロホンアレイに含まれる各マイクロホンによって変換されたアナログの電気信号をデジタル信号に変換するA−D変換手段と、
所定の時間毎に、前記A−D変換手段によって変換された各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解手段と、
前記時間周波数分解手段によって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段とを備える、
ことを特徴とする録音装置。
【請求項2】
前記時間周波数分解手段によって分解された周波数帯域毎にその強度を示す信号が所定のレベル未満であることに応答して、雑音成分と判別し、所定のレベル以上であることに応答して、音源から到来した主音成分と判別する成分判別手段を備え、
前記補正手段は、前記成分判別手段によって、主音成分と判別された周波数帯域の信号に対してのみ位相と振幅とを補正する、
ことを特徴とする請求項1に記載の録音装置。
【請求項3】
前記補正手段によって主音成分の位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の前記音出力手段の数に対応したデジタル信号を生成する音出力チャンネル信号生成手段と、
前記音出力チャンネル信号生成手段によって生成された複数のデジタル信号を記憶する記憶手段とを備える、
ことを特徴とする請求項2に記載の録音装置。
【請求項4】
前記取得手段が取得する補正情報は、前記音出力装置の各音出力手段の距離に基づいて計算され、前記音到来方向特定手段によって音の到来する方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号の位相を補正するステアリングベクトル又は、音を聴取する聴取位置を中心とした円周上に位置する各方向の音源から到来する音を測定し、測定された音の特性と各前記音出力手段の特性とに基づいて求められたたステアリングベクトルであり、
前記記憶手段は、前記取得手段が取得した補正情報をさらに記憶し、
前記補正手段は、前記音到来方向特定手段によって周波数帯域毎に特定された音の到来する方向と、前記記憶手段に記憶された補正情報とに基づいて、各前記主音成分の位相と振幅とを補正する、
ことを特徴とする請求項3に記載の録音装置。
【請求項5】
前記成分判別手段は、
周波数帯域毎に同一の前記マイクロホンによって過去に取得された信号の強度と現在の信号の強度とを基にして、雑音のレベルを示す雑音レベルを算出する雑音レベル算出手段と、
前記時間周波数分解手段によって分解された周波数帯域毎にその強度を示す信号が前記雑音レベル算出手段によって算出された雑音レベル以上か未満かを判別するレベル判別手段と、
前記レベル判別手段により所定のレベル未満と判別されたことに応答して、該周波数帯域を雑音成分とし、所定のレベル以上と判別されたことに応答して、周波数帯域毎に各前記マイクロホンのデジタル信号間に相互に関連があるかを判別する相関関係判別手段と、
前記相関関係判別手段により相互に関連がないと判別されたことに応答して、該周波数帯域を雑音成分とし、相互に関連があると判別されたことに応答して、該周波数帯域を空間上の音源から到来した主音成分と判別する雑音主音判別手段とを備える、
ことを特徴とする請求項2乃至4の何れか1項に記載の録音装置。
【請求項6】
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音取得手段によって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段と、
前記補正手段によって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成手段と、
前記出力チャンネル信号生成手段によって生成された周波数帯域毎に分解された各デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換手段と、
前記周波数時間変換手段によって変換された時間帯域毎に分割された各デジタル信号をアナログの電気信号に変換するD−A変換手段とを備え、
前記音出力手段は、前記D−A変換手段によって変換された電気信号を音に変換する、ことを特徴とする再生装置。
【請求項7】
複数の音取得手段によって取得された音をアナログの電気信号に変換する音変換ステップと、
前記音変換ステップによって変換されたアナログの電気信号をデジタル信号に変換するA−D変換ステップと、
所定の時間毎に、前記A−D変換ステップによって変換された各マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解ステップと、
前記時間周波数分解ステップによって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定ステップと、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正ステップとを含む、
ことを特徴とする録音方法。
【請求項8】
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得ステップと、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音取得ステップによって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正ステップと、
前記補正ステップによって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成ステップと、
前記出力チャンネル信号生成ステップによって生成された周波数帯域毎に分解された各前記デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換ステップと、
前記周波数時間変換ステップによって変換された時間帯域毎に分割された各前記デジタル信号をアナログの電気信号に変換するD−A変換ステップと、
前記D−A変換ステップによって変換された電気信号を音に変換する複数の各前記音出力手段に音を出力させる音出力ステップとを含む、
ことを特徴とする再生方法。
【請求項9】
複数のマイクロホンを備えたコンピュータを、
音をアナログの電気信号に変換する複数のマイクロホンを有するマイクロホンアレイと、
前記マイクロホンアレイに含まれる各マイクロホンによって変換されたアナログの電気信号をデジタル信号に変換するA−D変換手段と、
所定の時間毎に、前記A−D変換手段によって変換された各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解手段と、
前記時間周波数分解手段によって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段として機能させる、
ことを特徴とするコンピュータプログラム。
【請求項10】
複数のスピーカを備えたコンピュータを、
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音取得手段によって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段と、
前記補正手段によって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成手段と、
前記出力チャンネル信号生成手段によって生成された周波数帯域毎に分解された各前記デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換手段と、
前記周波数時間変換手段によって変換された時間帯域毎に分割された各前記デジタル信号をアナログの電気信号に変換するD−A変換手段と、
前記音出力手段は、前記D−A変換手段によって変換された電気信号を音に変換するように機能させる、
ことを特徴とするコンピュータプログラム。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14A】
image rotate

【図14B】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate


【公開番号】特開2010−193323(P2010−193323A)
【公開日】平成22年9月2日(2010.9.2)
【国際特許分類】
【出願番号】特願2009−37248(P2009−37248)
【出願日】平成21年2月19日(2009.2.19)
【出願人】(504149100)株式会社カシオ日立モバイルコミュニケーションズ (893)
【Fターム(参考)】