信号処理装置および方法、プログラム、並びにデータ記録媒体
【課題】事前分析を必要とせずに、オーディオ信号の再生レベルを簡単かつ効率的に強調できるようにする。
【解決手段】分析部は、供給された入力信号の特性を分析し、分析特徴量を生成する。記録部には、予め学習により生成された、分析特徴量からマッピング制御情報を得るためのマッピング制御モデルが記録されている。マッピング制御情報決定部は、分析特徴量とマッピング制御モデルとを用いた演算によりマッピング制御情報を決定する。マッピング処理部は、マッピング制御情報により特性が定まるマッピング関数を用いて、供給された入力信号を振幅変換する。これにより、事前の分析を必要とせずに入力信号の再生レベルを簡単かつ効率的に強調することができる。本発明は、携帯型の再生装置に適用することができる。
【解決手段】分析部は、供給された入力信号の特性を分析し、分析特徴量を生成する。記録部には、予め学習により生成された、分析特徴量からマッピング制御情報を得るためのマッピング制御モデルが記録されている。マッピング制御情報決定部は、分析特徴量とマッピング制御モデルとを用いた演算によりマッピング制御情報を決定する。マッピング処理部は、マッピング制御情報により特性が定まるマッピング関数を用いて、供給された入力信号を振幅変換する。これにより、事前の分析を必要とせずに入力信号の再生レベルを簡単かつ効率的に強調することができる。本発明は、携帯型の再生装置に適用することができる。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は信号処理装置および方法、プログラム、並びにデータ記録媒体に関し、特に、事前の分析による付加情報を必要とせずに、オーディオ信号の再生レベルをより簡単かつ効果的に強調できるようにした信号処理装置および方法、プログラム、並びにデータ記録媒体に関する。
【背景技術】
【0002】
例えば、音声の音量のダイナミックレンジが大きい映画コンテンツや音楽コンテンツを、小型スピーカを内蔵したポータブル機器で再生する場合、全体的に音声の音量が小さくなるだけでなく、特に音量の小さなセリフなどは、聞こえにくくなる。
【0003】
そこで、これらのコンテンツの音声をより聞こえ易くするための技術として、ノーマライズや自動ゲイン制御技術があるが、充分に長いデータの先読みを行わないと、音量制御が聴感上不安定になってしまう。
【0004】
また、音量のダイナミックレンジのコンプレッション処理により、音声の音量の小さい部分をブーストし、音量の大きな部分をコンプレッションする技術もある。しかしながら、コンプレッション処理では、音量のブーストとコンプレッションの特性を汎用的なものとすると、音声の高い強調効果を得ることは困難であり、高い効果を得るためには、コンテンツ毎にその特性を変える必要がある。
【0005】
例えば、ダイアログノーマライズで指定された音圧レベルを基準として、それよりも小さい音圧レベルの信号をブーストし、大きな音圧レベルの信号をコンプレッションする技術がある。ところが、この技術では、充分な効果を得るために、オーディオ信号の符号化時にダイアログノーマライズのための音圧レベルと、ブーストおよびコンプレッションの特性の指定が必要となる。
【0006】
さらに、音声の音量のダイナミックレンジをコンプレッションする場合に、オーディオ信号の絶対値の平均値により定まる係数をオーディオ信号に乗算することで、オーディオ信号の小さい音をより聞こえ易くする技術も提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平05−275950号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、近年、映画や音楽、自己録コンテンツなど、様々な種類のコンテンツが小型スピーカを内蔵したポータブル機器で再生されるようになってきている。しかしながら、そのようなコンテンツには、上述した符号化時などの事前分析による、効果的な音量制御のための付加情報を有していないものも多い。そのため、コンテンツのオーディオ信号に、事前の分析で得られた付加情報が付加されていない場合であっても、効果的に音量制御を行なう技術が必要となる。
【0009】
そこで、上述した特許文献1に記載の技術を用いれば、オーディオ信号に対する事前の分析を必要とせずに、コンプレッション処理により、急激な音の大きさの変化を抑えつつ、オーディオ信号の小さい音をより聞こえ易くすることができるようになる。しかしながら、この技術ではオーディオ信号の再生レベルを充分に強調することはできなかった。
【0010】
例えば、特許文献1に記載の技術では、オーディオ信号を定数倍することで振幅を減衰させるだけであるので、振幅変換の特性の自由度が低く、効果的にオーディオ信号の再生レベルを強調できるとはいえなかった。また、この技術は、オーディオ信号の振幅変換により、音量のダイナミックレンジを狭くする場合にしか用いることができず、音量のダイナミックレンジを変えずに振幅変換を行なったり、音量のダイナミックレンジをより広くしたりすることはできなかった。
【0011】
本技術は、このような状況に鑑みてなされたものであり、事前の分析による付加情報を必要とせずに、オーディオ信号の再生レベルをより簡単かつ効果的に強調できるようにするものである。
【課題を解決するための手段】
【0012】
本技術の一側面の信号処理装置は、入力信号の特性を分析し、分析特徴量を生成する分析部と、前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定するマッピング制御情報決定部と、前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部とを備える。
【0013】
前記マッピング制御情報を得るための情報を、前記信号処理装置ごとに学習されたものとすることができる。
【0014】
前記マッピング制御情報を得るための情報を、前記分析特徴量から前記マッピング制御情報を求める関数を得るための情報、または前記分析特徴量から前記マッピング制御情報を得るためのテーブルとすることができる。
【0015】
前記関数が、前記分析特徴量と無相関な項を有するようにすることができる。
【0016】
前記分析部には、学習用の学習音源信号の特性を分析して前記分析特徴量を生成させ、前記学習音源信号の前記分析特徴量と、ユーザにより前記学習音源信号に付与された前記マッピング制御情報とを用いた学習により、前記マッピング制御情報を得るための情報を生成する学習部をさらに設けることができる。
【0017】
前記分析特徴量を、前記入力信号の二乗平均、前記入力信号の二乗平均を対数化したもの、前記入力信号の二乗平均平方根、前記入力信号の二乗平均平方根を対数化したもの、または前記入力信号の零交差率とすることができる。
【0018】
前記分析部には、複数のチャンネルごとに前記入力信号に対する振幅変換が行なわれて、各チャンネルの前記出力信号が生成される場合、前記複数のチャンネルの前記入力信号に基づいて、全チャンネルで共通する1つの前記分析特徴量を生成させることができる。
【0019】
信号処理装置には、前記入力信号を複数の周波数帯域の信号に分割する帯域分割部をさらに設け、前記分析部には、前記信号の二乗平均、前記信号の二乗平均を対数化したもの、前記信号の二乗平均平方根、または前記信号の二乗平均平方根を対数化したものを重み付き加算することで前記分析特徴量を生成させることができる。
【0020】
本技術の一側面の信号処理方法またはプログラムは、入力信号の特性を分析し、分析特徴量を生成し、前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定し、前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するステップを含む。
【0021】
本技術の一側面のデータ記録媒体には、入力信号の特性を分析して分析特徴量を生成し、前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定し、前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換することで得られた出力信号が記録される。
【0022】
本技術の一側面においては、入力信号の特性が分析されて、分析特徴量が生成され、前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報が決定され、前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号が振幅変換され、出力信号が生成される。
【発明の効果】
【0023】
本技術の一側面によれば、事前の分析による付加情報を必要とせずに、オーディオ信号の再生レベルをより簡単かつ効果的に強調することができる。
【図面の簡単な説明】
【0024】
【図1】オーディオ信号処理装置の一実施の形態の構成例を示す図である。
【図2】学習装置の構成例を示す図である。
【図3】学習処理を説明するフローチャートである。
【図4】マッピング関数の一例を示す図である。
【図5】マッピング制御モデルによる回帰曲線の一例を示す図である。
【図6】変換処理を説明するフローチャートである。
【図7】オーディオ信号処理装置の他の構成例を示す図である。
【図8】オーディオ信号処理装置の他の構成例を示す図である。
【図9】変換処理を説明するフローチャートである。
【図10】オーディオ信号処理装置の他の構成例を示す図である。
【図11】変換処理を説明するフローチャートである。
【図12】コンピュータの構成例を示す図である。
【発明を実施するための形態】
【0025】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0026】
〈第1の実施の形態〉
[オーディオ信号処理装置の構成例]
図1は、本発明を適用したオーディオ信号処理装置の一実施の形態の構成例を示す図である。
【0027】
このオーディオ信号処理装置11は、例えばビデオ信号とオーディオ信号からなるコンテンツを再生する携帯型の再生装置に設けられ、入力されたオーディオ信号に対して、再生レベルが強調されるように振幅変換を行い、振幅変換されたオーディオ信号を出力する。なお、以下では、特にオーディオ信号処理装置11に入力されるオーディオ信号を入力信号と称し、入力信号を振幅変換して得られたオーディオ信号を出力信号と称することとする。
【0028】
オーディオ信号処理装置11は、分析部21、マッピング制御情報決定部22、記録部23、マッピング処理部24、出力部25、およびドライブ26から構成される。
【0029】
分析部21は、供給された入力信号の特性を分析して、その分析結果を示す分析特徴量をマッピング制御情報決定部22に供給する。
【0030】
マッピング制御情報決定部22は、分析部21から供給された分析特徴量と、記録部23に記録されているマッピング制御モデルとに基づいて、入力信号に対するマッピング処理に用いられるマッピング制御情報を決定し、マッピング処理部24に供給する。
【0031】
なお、マッピング処理は、マッピング処理部24により行われる処理であり、マッピング処理では、マッピング制御情報により定まる線形または非線形のマッピング関数が用いられて、入力信号に対する線形または非線形の振幅変換が行なわれる。また、マッピング制御モデルとは、分析特徴量からマッピング制御情報を得るための情報である。
【0032】
記録部23は、外部の装置から供給されたマッピング制御モデルを記録しており、必要に応じてマッピング制御モデルをマッピング制御情報決定部22に供給する。
【0033】
マッピング処理部24は、マッピング制御情報決定部22から供給されたマッピング制御情報を用いて、供給された入力信号に対するマッピング処理を行い、入力信号の再生レベルを強調する。マッピング処理部24は、マッピング処理により得られた出力信号を出力部25に供給する。
【0034】
出力部25は、マッピング処理部24から供給された出力信号を、後段の音声出力部等に出力したり、ドライブ26に供給したりする。ドライブ26は、出力部25から供給された出力信号を、ドライブ26に着脱自在な記録媒体であるリムーバブルメディア27に記録する。
【0035】
[学習装置の構成例]
一般的にコンテンツによって入力信号の録音レベルに差があるので、オーディオ信号処理装置において、マッピング関数の特性を動的に変化させながら、マッピング処理により入力信号の再生レベルを適切なレベルに調整することが効果的である。
【0036】
ところが、オーディオ信号処理装置によって再生可能な音声のレベルが異なったり、ユーザによって音声の聞こえ方が異なったりすることがある。そのため、マッピング処理に同一のマッピング制御モデルを用いると、再生に用いるオーディオ信号処理装置やユーザによっては、マッピング処理で得られた出力信号を再生しても、音声の音量が聴感上大きくなり過ぎたり、小さくなり過ぎたりする場合があった。
【0037】
そこで、オーディオ信号処理装置11では、オーディオ信号処理装置11ごと、例えば個々のオーディオ信号処理装置11自体や機種ごとに、複数の音源を用いて学習することで得られたマッピング制御モデルが利用される。
【0038】
例えば、オーディオ信号処理装置11で用いられるマッピング制御モデルを学習により求める学習装置は、図2に示すように構成される。
【0039】
学習装置51は、入力部61、マッピング制御情報付与部62、マッピング処理部63、スピーカ64、分析部65、マッピング制御モデル学習部66、および記録部67から構成される。学習装置51では、マッピング制御モデルの学習に用いられる学習音源信号が、マッピング制御情報付与部62、分析部65、およびマッピング処理部63に供給される。
【0040】
入力部61は、例えばユーザにより操作されるボタン等からなり、ユーザの操作に応じた信号をマッピング制御情報付与部62に供給する。マッピング制御情報付与部62は、入力部61からの信号に応じて、供給された学習音源信号の各サンプルにマッピング制御情報を付与し、マッピング処理部63またはマッピング制御モデル学習部66に供給する。
【0041】
マッピング処理部63は、マッピング制御情報付与部62からのマッピング制御情報を用いて、供給された学習音源信号に対してマッピング処理を行い、その結果得られた学習出力信号をスピーカ64に供給する。スピーカ64は、マッピング処理部63から供給された学習出力信号に基づいて、音声を再生する。
【0042】
分析部65は、供給された学習音源信号の特性を分析して、その分析結果を示す分析特徴量をマッピング制御モデル学習部66に供給する。マッピング制御モデル学習部66は、分析部65からの分析特徴量と、マッピング制御情報付与部62からのマッピング制御情報とを用いた統計学習によりマッピング制御モデルを求め、記録部67に供給する。
【0043】
記録部67は、マッピング制御モデル学習部66から供給されたマッピング制御モデルを記録する。このようにして記録部67に記録されたマッピング制御モデルは、オーディオ信号処理装置11の記録部23に供給されて記録される。
【0044】
[学習処理の説明]
次に、図3のフローチャートを参照して学習装置51による学習処理について説明する。
【0045】
この学習処理では、1または複数の学習音源信号が学習装置51に供給される。また、この場合において、分析部65、マッピング処理部63、スピーカ64等は、学習により求められるマッピング制御モデルが供給されるオーディオ信号処理装置11の分析部21、マッピング処理部24等の対応する各ブロックと同様のものとされる。すなわち、ブロックの特性や処理のアルゴリズムが同じものとされる。
【0046】
ステップS11において、入力部61は、ユーザからのマッピング制御情報の入力または調整を受け付ける。
【0047】
例えば、学習音源信号が入力されると、マッピング処理部63は供給された学習音源信号をそのままスピーカ64に供給し、学習音源信号に基づく音声を出力させる。すると、ユーザは出力された音声を聞きながら、学習音源信号の所定のサンプルを処理対象サンプルとして入力部61を操作し、処理対象サンプルに対するマッピング制御情報の付与を指示する。
【0048】
なお、マッピング制御情報付与の指示は、例えばユーザがマッピング制御情報を直接入力したり、いくつかのマッピング制御情報から所望のものを指定したりすることで行なわれる。また、ユーザが一度指定されたマッピング制御情報の調整を指示することで、マッピング制御情報の付与を指示するようにしてもよい。
【0049】
このようにしてユーザが入力部61を操作すると、マッピング制御情報付与部62は、ユーザの操作に応じて処理対象サンプルに対してマッピング制御情報を付与する。そして、マッピング制御情報付与部62は、処理対象サンプルに対して付与したマッピング制御情報を、マッピング処理部63に供給する。
【0050】
ステップS12において、マッピング処理部63は、マッピング制御情報付与部62から供給されたマッピング制御情報を用いて、供給された学習音源信号の処理対象サンプルに対してマッピング処理を行い、その結果得られた学習出力信号をスピーカ64に供給する。
【0051】
例えば、マッピング処理部63は、学習音源信号の処理対象サンプルのサンプル値xを、次式(1)に示す非線形のマッピング関数f(x)に代入して振幅変換を行なう。つまり、サンプル値xをマッピング関数f(x)に代入して得られた値が、学習出力信号の処理対象サンプルのサンプル値とされる。
【0052】
【数1】
【0053】
なお、式(1)において学習音源信号のサンプル値xは、−1から1までの値となるように正規化されているものとする。また、式(1)において、αはマッピング制御情報を示している。
【0054】
このようなマッピング関数f(x)は、図4に示すようにマッピング制御情報αが小さいほど、急峻に変化する関数となる。なお、図4において、横軸は学習音源信号のサンプル値xを示しており、縦軸はマッピング関数f(x)の値を示している。また、曲線f11乃至曲線f13は、それぞれマッピング制御情報αが「3」、「5」、および「50」であるときのマッピング関数f(x)を表している。
【0055】
図4から分かるように、マッピング制御情報αが小さいほど、全体的にサンプル値xの変化に対するf(x)の変化量が大きいマッピング関数f(x)が用いられて、学習音源信号の振幅変換が行なわれる。このようにマッピング制御情報αを変化させると、学習音源信号に対する増幅量が変化する。
【0056】
図3のフローチャートの説明に戻り、ステップS13において、スピーカ64は、マッピング処理部63から供給された学習出力信号を再生する。
【0057】
なお、より詳細には、処理対象サンプルを含む所定の区間に対してマッピング処理が行われて得られた学習出力信号が再生される。ここで、再生対象となる区間は、例えば既にマッピング制御情報が指定されているサンプルからなる区間などとされる。この場合、処理対象となる区間の各サンプルが、それらのサンプルに対して定められたマッピング制御情報が用いられてマッピング処理され、その結果得られた学習出力信号が再生される。
【0058】
このようにして学習出力信号が再生されると、ユーザはスピーカ64から出力された音声を聞きながら、マッピング処理の効果を評価する。すなわち、学習出力信号の音声の音量が適切であるかが評価される。そして、ユーザは入力部61を操作して、その評価の結果から、マッピング制御情報の調整を指示するか、または指定したマッピング制御情報が最適なものであるとして、指定したマッピング制御情報の確定を指示する。
【0059】
ステップS14において、マッピング制御情報付与部62は、入力部61から供給されるユーザの操作に応じた信号に基づいて、最適なマッピング制御情報が得られたか否かを判定する。例えば、ユーザによりマッピング制御情報の確定が指示された場合、最適なマッピング制御情報が得られたと判定される。
【0060】
ステップS14において、まだ最適なマッピング制御情報が得られていないと判定された場合、すなわちマッピング制御情報の調整が指示された場合、処理はステップS11に戻り、上述した処理が繰り返される。
【0061】
この場合、処理対象のサンプルに対して、新たなマッピング制御情報が付与されて、そのマッピング制御情報の評価が行なわれる。このように、学習出力信号の音声を実際に聞きながら、マッピング処理の効果を評価することで、聴感上、最適なマッピング制御情報を付与することができる。
【0062】
これに対して、ステップS14において、最適なマッピング制御情報が得られたと判定された場合、処理はステップS15に進む。ステップS15において、マッピング制御情報付与部62は、処理対象のサンプルに対して付与されたマッピング制御情報を、マッピング制御モデル学習部66に供給する。
【0063】
ステップS16において、分析部65は、供給された学習音源信号の特性を分析し、その結果得られた分析特徴量をマッピング制御モデル学習部66に供給する。
【0064】
例えば学習音源信号のn番目のサンプルが処理対象のサンプルであるとすると、分析部65は、次式(2)の演算を行なって、学習音源信号のn番目のサンプルについての二乗平均平方根RMS(n)を、n番目のサンプルの分析特徴量として算出する。
【0065】
【数2】
【0066】
なお、式(2)において、x(m)は、学習音源信号のm番目のサンプルのサンプル値(学習音源信号の値)を示している。また、式(2)においては、学習音源信号の値、つまり学習音源信号の各サンプルのサンプル値は、−1≦x(m)≦1となるように正規化されているものとする。
【0067】
したがって二乗平均平方根RMS(n)は、n番目のサンプルを中心とするN個の連続するサンプルからなる区間について、その区間に含まれるサンプルのサンプル値の二乗平均値の平方根の対数をとり、これにより得られた値に定数「20」を乗算することで得られる。
【0068】
このようにして得られた二乗平均平方根RMS(n)の値は、処理対象となっている学習音源信号のn番目のサンプルを中心とする特定区間の各サンプルのサンプル値の絶対値が小さいほど、小さくなる。つまり、学習音源信号の処理対象のサンプルを含む特定区間全体の音声の音量が小さいほど、二乗平均平方根RMS(n)は小さくなる。
【0069】
なお、分析特徴量の例として、二乗平均平方根RMS(n)について説明したが、分析特徴量は、RMS(n)のt乗値(但し、t≧2)や、学習音源信号の零交差率、学習音源信号の周波数エンベロープの傾きなどとしてもよいし、それらを組み合わせたものとしてもよい。
【0070】
以上のようにして、分析部65からマッピング制御モデル学習部66に分析特徴量が供給されると、マッピング制御モデル学習部66は、処理対象のサンプルについて求められた分析特徴量と、そのサンプルのマッピング制御情報とを対応付けて、一時的に記録する。
【0071】
ステップS17において、学習装置51は、充分な数のマッピング制御情報が得られたか否かを判定する。例えば、一時的に記録している分析特徴量とマッピング制御情報のセットが、マッピング制御モデルを学習するのに充分な数だけ得られた場合、充分な数のマッピング制御情報が得られたと判定される。
【0072】
ステップS17において、充分な数のマッピング制御情報が得られていないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返される。すなわち、学習音源信号の現時点で処理対象となっているサンプルの次のサンプルが、新たな処理対象サンプルとされてマッピング制御情報が付与されたり、新たな学習音源信号のサンプルに対してマッピング制御情報が付与されたりする。また、異なるユーザにより、学習音源信号のサンプルにマッピング制御情報が付与されるようにしてもよい。
【0073】
ステップS17において、充分な数のマッピング制御情報が得られたと判定された場合、ステップS18において、マッピング制御モデル学習部66は、一時的に記録している分析特徴量とマッピング制御情報のセットを用いて、マッピング制御モデルを学習する。
【0074】
例えば、マッピング制御モデル学習部66は、次式(3)の計算を行なうことにより、分析特徴量からマッピング制御情報αが得られるとして、式(3)に示す関数をマッピング制御モデルとし、これを学習により求める。
【0075】
【数3】
【0076】
なお、式(3)において、Fは分析特徴量を示しており、a,b,cは定数である。特に、定数cは、分析特徴量Fと無相関なオフセット項である。
【0077】
この場合、マッピング制御モデル学習部66は、式(3)におけるFおよびF2に対応する二乗平均平方根RMS(n)および二乗平均平方根RMS(n)の二乗値を説明変数とし、マッピング制御情報αを被説明変数として、最小二乗法により線形回帰モデルの学習を行い、定数a,b,cを求める。
【0078】
これにより、例えば図5に示す結果が得られる。なお、図5において縦軸はマッピング制御情報αを示しており、横軸は分析特徴量としての二乗平均平方根RMS(n)を示している。図5では、曲線C11は、各分析特徴量の値に対して定まるマッピング制御情報αの値、つまり上述した式(3)に示される関数のグラフを示している。
【0079】
この例では、学習音源信号や入力信号などのオーディオ信号の音声の音量が小さく、分析特徴量が小さいほど、マッピング制御情報αの値も小さくなる。
【0080】
以上のような学習により定数a,b,cが定まり、分析特徴量からマッピング制御情報を得るための関数aF2+bF+cが求まると、マッピング制御モデル学習部66は、求めた関数aF2+bF+cをマッピング制御モデルとして記録部67に供給し、記録させる。
【0081】
学習により得られたマッピング制御モデルが記録部67に記録されると、学習処理は終了する。記録部67に記録されたマッピング制御モデルは、その後、オーディオ信号処理装置11の記録部23に記録され、マッピング処理に利用される。
【0082】
以上のようにして、学習装置51は、オーディオ信号処理装置11ごとに、複数の学習音源信号や、複数のユーザにより指定されたマッピング制御情報を用いて、学習によりマッピング制御モデルを求める。
【0083】
したがって、得られたマッピング制御モデルを用いれば、再生対象の入力信号や、再生された音声を聞くユーザによらず、オーディオ信号処理装置11に対して統計的に最適なマッピング制御情報を得ることができるようになる。特に、1人のユーザにより付与されたマッピング制御情報のみを用いて学習を行なうようにすれば、そのユーザに対して最適なマッピング制御情報が得られるマッピング制御モデルを生成することができる。
【0084】
なお、以上においては、学習音源信号に対して、1サンプルごとにマッピング制御情報の入力や調整を行なう場合を例として説明したが、学習音源信号の連続する2以上のサンプルごとに、マッピング制御情報の入力や調整が行なわれるようにしてもよい。
【0085】
また、ここではマッピング制御モデルとしてRMS(n)に関する2次式を用いたが、3次以上の関数を用いてもよい。
【0086】
また、マッピング制御モデルの説明変数として、二乗平均平方根RMS(n)とその二乗値を用いると説明したが、説明変数として他の分析特徴量を任意に追加したり、組み合わせたりするようにしてもよい。例えば、他の分析特徴量としては、二乗平均平方根RMS(n)のt乗値(但し、t≧3)や、学習音源信号の零交差率、学習音源信号の周波数エンベロープの傾きなどが考えられる。
【0087】
[変換処理の説明]
オーディオ信号処理装置11の記録部23に、学習装置51から供給されたマッピング制御モデルが記録されると、このマッピング制御モデルを用いて入力信号をより適切な音量の出力信号に変換することができるようになる。
【0088】
オーディオ信号処理装置11は、入力信号が供給されると変換処理を行って、出力信号を生成し、出力する。以下、図6のフローチャートを参照して、オーディオ信号処理装置11による変換処理について説明する。
【0089】
ステップS41において、分析部21は、供給された入力信号の特性を分析し、分析特徴量を生成する。なお分析特徴量として、学習で用いた分析特徴量と同一のものが使用される。
【0090】
具体的には、例えば分析部21は、上述した式(2)の演算を行なって、入力信号のn番目のサンプルについての二乗平均平方根RMS(n)を、n番目のサンプルの分析特徴量として算出する。
【0091】
なお、この場合、式(2)におけるx(m)は、入力信号のm番目のサンプルのサンプル値とされることになる。また、入力信号の二乗平均平方根RMS(n)の算出時においても、入力信号の各サンプルのサンプル値は、−1≦x(m)≦1となるように正規化されているものとする。
【0092】
さらに、入力信号の分析特徴量も、入力信号の二乗平均値、入力信号の二乗平均値を対数化したもの、入力信号の二乗平均値の平方根、RMS(n)のt乗値(但し、t≧2)や、入力信号の零交差率、入力信号の周波数エンベロープの傾きなどとしてもよいし、これらの特徴量や他の特徴量を任意に組み合わせたものとしてもよい。
【0093】
分析特徴量が得られると、分析部21は、得られた分析特徴量をマッピング制御情報決定部22に供給する。
【0094】
ステップS42において、マッピング制御情報決定部22は、分析部21から供給された分析特徴量と、記録部23に記録されているマッピング制御モデルとに基づいて、マッピング制御情報を決定し、マッピング処理部24に供給する。
【0095】
例えば、マッピング制御情報決定部22は、マッピング制御モデルとして記録されている上述した関数と、分析特徴量とに基づいて式(3)の計算を行い、マッピング制御情報αを求める。
【0096】
なお、記録部23にマッピング制御モデルが記録される例について説明したが、記録部23に記録される情報は、分析特徴量からマッピング制御情報が得られる情報であれば、どのようなものであってもよい。
【0097】
例えば、各分析特徴量の値と、マッピング制御情報とが対応付けられたテーブルが、記録部23に記録されるようにしてもよい。そのような場合、マッピング制御情報決定部22は、記録部23のテーブルを参照し、テーブル上において、供給された分析特徴量に対応付けられているマッピング制御情報を、マッピング処理部24に供給する。
【0098】
ステップS43において、マッピング処理部24は、マッピング制御情報決定部22から供給されたマッピング制御情報を用いて、供給された入力信号に対するマッピング処理を行い、出力信号を生成する。ここで、マッピング関数f(x)として、学習で使用したものと同一の関数が使用される。
【0099】
具体的には、マッピング処理部24は、入力信号のn番目のサンプルのサンプル値xを、上述した式(1)に示す非線形のマッピング関数f(x)に代入して、入力信号の振幅変換を行なう。つまり、サンプル値xをマッピング関数f(x)に代入して得られた値が、出力信号のn番目のサンプルのサンプル値とされる。なお、この場合においても入力信号のサンプル値xは、−1から1までの値となるように正規化されているものとする。また、式(1)の演算では、マッピング制御情報の値が、式(1)におけるαの値とされる。
【0100】
分析特徴量として二乗平均平方根RMS(n)が求められる場合、入力信号の音声の音量が小さいほど、分析特徴量は小さくなるので、これによりマッピング制御情報αの値も小さくなる。また、図4に示したように、マッピング制御情報αが小さいほど、マッピング関数f(x)の傾きは大きくなる。
【0101】
したがって、入力信号の音声の音量が全体的に小さいほど、サンプル値x=0を含むサンプル値xの大部分の区間において、より急峻に変化する特性のマッピング関数f(x)が用いられて、入力信号の振幅変換が行なわれる。
【0102】
その結果、入力信号の音声が全体として音量の小さい区間では、音量の小さい音声はより音量が大きい音声に変換されるように入力信号が振幅変換され、入力信号の再生レベルが強調される。これにより、音量のダイナミックレンジの大きな映画等のコンテンツを、小型スピーカを内蔵する携帯型の機器で再生する場合においても、従来は聞こえにくかった小さい音も、入力信号に対するマッピング処理により聞こえ易くすることができる。
【0103】
また、入力信号の音声が全体として音量の大きな区間においても、その中のサンプル値xが小さな信号に対しては、適度に急峻な特性のマッピング関数f(x)が用いられ、入力信号の振幅変換が行なわれる。
【0104】
その結果、入力信号の音声が全体として音量の大きな区間においても、その中の音量の小さな音声は音量の大きい音声に変換されるように入力信号が振幅変換され、入力信号の再生レベルが強調される。これにより、従来から比較的大きく再生されていた音も、さらに大きく聞こえるようになる。
【0105】
しかも、オーディオ信号処理装置11では、入力信号に対して事前に分析を行なって、入力信号に振幅変換のための付加情報を付加したり、入力信号を長区間、先読みし、読み込んだ入力信号に対する解析を行なってから振幅変換したりする必要はない。
【0106】
また、マッピング制御情報αにより非線形なマッピング関数f(x)を変化させることで、より自由度の高い振幅変換を実現することができる。つまり、入力信号の特定区間全体の特性に応じて、最も効果的な特性の非線形関数をマッピング関数とすることで、処理対象のサンプルが含まれる区間の特性だけでなく、そのサンプルのサンプル値の大きさも考慮した振幅変換を行なうことができる。
【0107】
例えば、上述した特許文献1に記載の技術では、オーディオ信号の値によらず、オーディオ信号の絶対値の平均値により定まる定数が、オーディオ信号に乗算される。つまり、オーディオ信号のサンプルは、そのサンプルの振幅の大小に関わらず、常に定数倍されることになる。
【0108】
そのため、比較的音量が小さい音声に合わせて、その音声の音量がより大きくなるように、オーディオ信号に乗算される定数の算出方法を定めると、大きい音量の音声については、オーディオ信号に定数を乗算しても、適切な音量とならない場合もある。
【0109】
これに対して、オーディオ信号処理装置11では、マッピング関数を非線形関数とすれば、サンプルの振幅(サンプル値)が大きい場合には振幅を大きく変化させず、サンプルの振幅が小さい場合には振幅を大きく増加させるなど、自由度の高い振幅変換が可能となる。これにより、音量の小さい音声は、より音量の大きい音声に変換するとともに、もともと音量の大きい音声は、あまり音量が変化しないようにするなど、効果的にオーディオ信号の再生レベルを強調することができる。
【0110】
また、マッピング関数の特性を決定付けるマッピング制御情報αを、オーディオ信号処理装置11ごとに学習して得られたマッピング制御モデルを用いて定めるので、各オーディオ信号処理装置11やユーザに最適な振幅変換を行なうことができる。
【0111】
さらに、マッピング関数f(x)を適切に設定することで、振幅変換により、音声の音量のダイナミックレンジをより広げるようにしたり、そのままとしたり、あるいはダイナミックレンジをより狭くしたりすることができる。
【0112】
このように、オーディオ信号処理装置11では、簡単かつ効果的にオーディオ信号の再生レベルを強調することができる。
【0113】
なお、マッピング処理で用いられるマッピング関数f(x)は、非線形関数に限らず、−1≦x≦1であるサンプル値xに対して、−1≦f(x)≦1となる関数であれば、線形関数や指数関数など、どのような関数であってもよい。例えば、マッピング処理の効果の評価が高いものや聴感上適したものをマッピング関数として用いればよい。
【0114】
さらに、マッピング処理では、入力信号の1サンプルごとにマッピング制御情報を算出するのではなく、入力信号の連続する2以上のサンプルごとにマッピング制御情報を算出し、マッピング処理を行うようにしてもよい。
【0115】
図6のフローチャートの説明に戻り、マッピング処理部24は、マッピング処理により出力信号を生成すると、得られた出力信号を出力部25に供給する。
【0116】
ステップS44において、出力部25は、マッピング処理部24から供給された出力信号を後段に出力し、変換処理は終了する。また、出力部25は、必要に応じて出力信号をドライブ26に供給し、ドライブ26は、供給された出力信号をリムーバブルメディア27に記録する。
【0117】
以上のように、オーディオ信号処理装置11は、入力信号の特性を分析し、その分析結果に応じて変化するマッピング関数を用いて、入力信号に対するマッピング処理を行い、出力信号を生成する。
【0118】
入力信号の分析で得られる分析特徴量としての二乗平均平方根RMS(n)は、入力信号の所定区間の平均的なサンプル値の大きさ、つまり所定区間における各サンプルの振幅の分布を示している。例えば、二乗平均平方根RMS(n)が小さい場合、入力信号には振幅の小さいサンプルが多く含まれ、逆に二乗平均平方根RMS(n)が大きい場合、入力信号には振幅の大きいサンプルが多く含まれる。
【0119】
オーディオ信号処理装置11では、二乗平均平方根RMS(n)を用いて、より効果的な特性のマッピング関数を生成し、マッピング処理を行うことで、入力信号を簡単に理想的な振幅の分布を有する出力信号に変換することができる。
【0120】
しかも、オーディオ信号処理装置11で用いられる、分析特徴量からマッピング制御情報を得るためのマッピング制御モデルは、オーディオ信号処理装置11やユーザごとに、事前の統計解析に基づいて生成されたものである。そのため、各オーディオ信号処理装置11やユーザに対して、最適な再生レベル制御を実現することができる。
【0121】
〈変形例1〉
[オーディオ信号処理装置の構成例]
なお、以上においては、学習装置51によりマッピング制御モデルの学習が行なわれる場合について説明したが、オーディオ信号処理装置内部に、マッピング制御モデルの学習を行なう機能が備えられるようにしてもよい。
【0122】
そのような場合、オーディオ信号処理装置は、例えば図7に示すように構成される。なお、図7において、図1および図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0123】
オーディオ信号処理装置91は、分析部21、マッピング制御情報決定部22、記録部23、マッピング処理部24、出力部25、ドライブ26、スピーカ64、入力部61、マッピング制御情報付与部62、およびマッピング制御モデル学習部66から構成される。
【0124】
このオーディオ信号処理装置91では、再生対象の入力信号または学習に用いる学習音源信号としてのオーディオ信号が、マッピング処理部24、分析部21、およびマッピング制御情報付与部62に供給される。また、分析部21は、供給されたオーディオ信号の特性を分析し、その結果得られた分析特徴量を、マッピング制御情報決定部22またはマッピング制御モデル学習部66に供給する。
【0125】
次に、オーディオ信号処理装置91の動作について説明する。
【0126】
まず、マッピング制御モデルの学習を行なう場合、オーディオ信号処理装置91は、図3を参照して説明した学習処理を行う。
【0127】
すなわち、マッピング制御情報付与部62は、供給された学習音源信号のサンプルに対してマッピング制御情報を付与し、マッピング制御情報をマッピング処理部24に供給する。すると、マッピング処理部24は、マッピング制御情報付与部62からのマッピング制御情報を用いて、供給された学習音源信号にマッピング処理を施し、これにより得られた学習出力信号を、出力部25を介してスピーカ64に供給し、再生させる。
【0128】
スピーカ64から出力された音声を聞いたユーザは、入力部61を操作して、付与したマッピング制御情報の調整を行なったり、付与したマッピング制御情報を確定させたりする。ユーザにより最適なマッピング制御情報が選択されると、マッピング制御情報付与部62は、付与されたマッピング制御情報をマッピング制御モデル学習部66に供給する。
【0129】
また、分析部21は、供給された学習音源信号の分析を行なって、得られた分析特徴量をマッピング制御モデル学習部66に供給する。そして、マッピング制御モデル学習部66は、分析部21からの分析特徴量と、マッピング制御情報付与部62からのマッピング制御情報とを用いた学習によりマッピング制御モデルを生成し、記録部23に記録させる。
【0130】
このようにしてマッピング制御モデルが得られると、入力信号に対する変換処理が可能となる。続いて、オーディオ信号処理装置91による変換処理について説明する。オーディオ信号処理装置91は、図6を参照して説明した変換処理を行う。
【0131】
すなわち、分析部21は、供給された入力信号の特性を分析し、得られた分析特徴量をマッピング制御情報決定部22に供給する。マッピング制御情報決定部22は、記録部23に記録されているマッピング制御モデルと、分析部21からの分析特徴量とから、マッピング制御情報を求め、マッピング処理部24に供給する。
【0132】
マッピング処理部24は、マッピング制御情報決定部22からのマッピング制御情報を用いて、供給された入力信号に対するマッピング処理を行い、得られた出力信号を出力部25に供給する。出力部25に供給された出力信号は、スピーカ64に供給されて再生されたり、ドライブ26に供給されてリムーバブルメディア27に記録されたりする。
【0133】
〈第2の実施の形態〉
[オーディオ信号処理装置の構成例]
なお、入力信号のチャンネル数が2以上である場合、チャンネルごとに独立して入力信号に対するマッピング処理(振幅変換)を行なうと、入力信号の各チャンネルの音量のバランスが変化してしまうことがある。そのため、複数チャンネルのオーディオ信号が入力信号として入力される場合には、全てのチャンネルにおいて、同一の特性のマッピング関数を用いてマッピング処理を行うことが好ましい。
【0134】
例えば、入力信号として、左右の2チャンネルのオーディオ信号(ステレオ信号)が入力され、各チャンネルに対して、同一の特性のマッピング関数を用いたマッピング処理が行われる場合、オーディオ信号処理装置は図8に示すように構成される。なお、図8において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0135】
図8のオーディオ信号処理装置121は、分析部131、マッピング制御情報決定部22、記録部23、マッピング処理部24、マッピング処理部132、出力部25、およびドライブ26から構成される。
【0136】
オーディオ信号処理装置121では、左チャンネルの入力信号が分析部131およびマッピング処理部24に供給され、右チャンネルの入力信号が分析部131およびマッピング処理部132に供給される。
【0137】
分析部131は、供給された左右のチャンネルの入力信号の特性を分析し、1つの分析特徴量を生成してマッピング制御情報決定部22に供給する。また、マッピング制御情報決定部22は、分析部131からの分析特徴量から左右のチャンネルで共通のマッピング制御情報を求めて、マッピング処理部24およびマッピング処理部132に供給する。
【0138】
マッピング処理部132は、供給された入力信号に対して、マッピング制御情報決定部22からのマッピング制御情報を用いたマッピング処理を行い、その結果得られた出力信号を出力部25に供給する。
【0139】
[変換処理の説明]
次に、図9のフローチャートを参照して、オーディオ信号処理装置121により行われる変換処理について説明する。
【0140】
ステップS71において、分析部131は、供給された左右のチャンネルの入力信号の特性を分析する。例えば、分析部131は上述した式(2)の演算を行なって、左チャンネルの二乗平均平方根RMS(n)と、右チャンネルの二乗平均平方根RMS(n)とを算出する。
【0141】
ステップS72において、分析部131は、入力信号の特性の分析結果に基づいて、分析特徴量を生成し、マッピング制御情報決定部22に供給する。例えば、分析部131は、左チャンネルの二乗平均平方根RMS(n)と、右チャンネルの二乗平均平方根RMS(n)との平均値を求め、得られた平均値を分析特徴量とする。
【0142】
なお、左チャンネルの二乗平均平方根RMS(n)と、右チャンネルの二乗平均平方根RMS(n)とのうちの大きいほうの値や小さいほうの値が、そのまま分析特徴量とされるようにしてもよい。
【0143】
ステップS72の処理が行われて分析特徴量が生成されると、その後、ステップS73乃至ステップS75の処理が行われて変換処理は終了するが、これらの処理は図6のステップS42乃至ステップS44の処理と同様であるため、その説明は省略する。
【0144】
但し、ステップS74では、マッピング処理部24およびマッピング処理部132において、同一のマッピング制御情報が用いられて、同じ特性のマッピング関数により、それぞれ左チャンネルの出力信号と右チャンネルの出力信号とが生成される。
【0145】
そして、ステップS75では、これらの左右のチャンネルの出力信号が後段に出力されたり、ドライブ26を介してリムーバブルメディア27に記録されたりする。
【0146】
このようにして、オーディオ信号処理装置121は、左右のチャンネルの入力信号の特性を分析して、左右のチャンネルで共通のマッピング制御情報を生成し、得られたマッピング制御情報を用いて、各チャンネルで同一のマッピング処理を行う。このように、左右のチャンネルで共通のマッピング制御情報を用いて、各チャンネルの入力信号に対して同一のマッピング処理を行うことで、チャンネル間の音量のバランスを変えることなく、オーディオ信号の再生レベルを強調することができる。
【0147】
なお、以上においては、左右の2つのチャンネルの入力信号が入力される場合について説明したが、入力信号が3以上のチャンネルから構成されている場合も、全チャンネルで共通のマッピング制御情報が生成される。
【0148】
〈第3の実施の形態〉
[オーディオ信号処理装置の構成例]
また、入力信号としてのオーディオ信号により再生される音声や楽曲は、周波数帯域ごとに特性が異なる。そのため、周波数帯域ごとにその帯域に適した分析を行なえば、得られた分析特徴量から、より適切なマッピング制御情報を得ることができるようになる。
【0149】
入力信号の周波数帯域ごとに特性の分析を行なって分析特徴量を生成する場合、オーディオ信号処理装置は、例えば図10に示すように構成される。なお、図10において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0150】
図10のオーディオ信号処理装置161は、帯域分割フィルタ171、分析部21、マッピング制御情報決定部22、記録部23、マッピング処理部24、出力部25、およびドライブ26から構成される。また、オーディオ信号処理装置161に供給された入力信号は、帯域分割フィルタ171およびマッピング処理部24に供給される。
【0151】
帯域分割フィルタ171は、供給された入力信号に対する帯域分割を行なって、入力信号を高域成分と低域成分に分割し、高域成分である高域信号と低域成分である低域信号とを分析部21に供給する。分析部21は、帯域分割フィルタ171からの高域信号および低域信号から分析特徴量を生成し、マッピング制御情報決定部22に供給する。
【0152】
[変換処理の説明]
次に、図11のフローチャートを参照して、オーディオ信号処理装置161により行われる変換処理について説明する。
【0153】
ステップS101において、帯域分割フィルタ171は、供給された入力信号に対してフィルタ処理等を行うことで入力信号を帯域分割し、その結果得られた高域信号と低域信号を分析部21に供給する。
【0154】
例えば、入力信号は、300Hz前後の周波数で帯域制限され、300Hz以下の周波数成分からなる低域信号と、300Hzより大きい周波数成分からなる高域信号とに分割される。
【0155】
なお、入力信号の周波数帯域を300Hzで2分割する例について説明したが、その他、200Hzや400Hz、1kHz、3.4kHzなど、どのような周波数で入力信号が帯域分割されるようにしてもよい。また、入力信号が3以上の周波数帯域に分割されてもよい。
【0156】
さらに、フーリエ変換等により入力信号を周波数領域の信号に変換してから、その信号を各周波数帯域の成分に分割し、分割後の各周波数帯域の成分をフーリエ逆変換等により、各周波数帯域の時間信号にすることで、各周波数帯域の信号を得るようにしてもよい。
【0157】
ステップS102において、分析部21は、帯域分割フィルタ171から供給された高域信号および低域信号の特性を分析する。
【0158】
例えば、分析部21は次式(4)の演算を行なって、低域信号のn番目のサンプルについての二乗平均平方根RMS_l(n)を算出する。
【0159】
【数4】
【0160】
なお、式(4)において、x_l(m)は、低域信号のm番目のサンプルのサンプル値を示している。また、式(4)においては、低域信号の値、つまり低域信号の各サンプルのサンプル値は、−1≦x_l(m)≦1となるように正規化されているものとする。式(4)による演算は、n番目のサンプルを中心とするM個の連続するサンプルからなる区間についての二乗平均平方根を求める演算である。
【0161】
また、分析部21は次式(5)の演算を行なって、高域信号のn番目のサンプルについての二乗平均平方根RMS_h(n)を算出する。
【0162】
【数5】
【0163】
なお、式(5)において、x_h(m)は、高域信号のm番目のサンプルのサンプル値を示している。また、式(5)においては、高域信号の値、つまり高域信号の各サンプルのサンプル値は、−1≦x_h(m)≦1となるように正規化されているものとする。式(5)による演算は、n番目のサンプルを中心とするN個の連続するサンプルからなる区間についての二乗平均平方根を求める演算である。
【0164】
このように、分析部21では、低域信号と高域信号に対して、それぞれ異なる分析が行なわれる。
【0165】
なお、低域信号や高域信号に対する特性の分析として、低域信号や高域信号の二乗平均値、低域信号や高域信号の二乗平均値を対数化したもの、低域信号や高域信号の二乗平均値の平方根、低域信号や高域信号の二乗平均値の平方根を対数化したもののt乗値(但し、t≧2)などを求めるようにしてもよい。また、それらの信号の零交差率や周波数エンベロープの傾きなどを求めるようにしてもよい。
【0166】
ステップS103において、分析部21は、高域信号および低域信号の特性の分析結果に基づいて、分析特徴量を生成し、マッピング制御情報決定部22に供給する。
【0167】
例えば、分析部21は次式(6)を計算して、二乗平均平方根RMS_l(n)と二乗平均平方根RMS_h(n)の重み付き加算値を分析特徴量として算出する。
【0168】
【数6】
【0169】
なお、式(6)において、pおよびqは重みを示しており、例えばp=q=0.5などとされる。また、ここでは各帯域の分析結果に対する重みp,qは等しい値とされているが、特定の帯域の分析結果に、より大きな重みが付けられるようにしてもよい。
【0170】
このようにして得られたRMS’(n)が、入力信号のn番目のサンプルの分析特徴量とされる。分析特徴量が生成されると、その後、ステップS104乃至ステップS106の処理が行われて変換処理は終了するが、これらの処理は図6のステップS42乃至ステップS44の処理と同様であるので、その説明は省略する。
【0171】
以上のように、オーディオ信号処理装置161は、入力信号の周波数帯域ごとに、その特性を分析し、各周波数帯域の信号の分析結果から分析特徴量を生成する。そして、オーディオ信号処理装置161は、分析特徴量から得られるマッピング制御情報を用いて入力信号に対するマッピング処理を行い、出力信号を生成する。
【0172】
入力信号の周波数帯域ごとに、それらの周波数帯域に適した分析を行なうことで、得られた分析特徴量から、より適切なマッピング制御情報を得ることができるようになる。これにより、オーディオ信号の再生レベルをより効果的に強調することができる。
【0173】
なお、入力信号と、高域信号や低域信号などの各周波数帯域の信号とに対して、それぞれ異なる分析を行い、それらの分析結果から分析特徴量を生成するようにしてもよい。分析特徴量は、マッピング処理の効果の評価が高くなるものや、マッピング制御に適したものを用いればよい。
【0174】
ところで、入力信号の音声の音量を、ユーザが望む理想的な音量に変換するためのマッピング制御情報を得るには、ユーザ自身がマッピング制御情報の入力,調整を行なうことが最も妥当な方法である。
【0175】
したがって、例えば、統計学習により得られたマッピング制御モデルを用いずに、分析特徴量を用いた計算により求められるマッピング制御情報、および本技術により得られたマッピング制御情報のそれぞれと、複数のユーザが入力したマッピング制御情報との誤差を統計的に評価すれば、本技術の効果を確認することができる。
【0176】
本出願人による評価の結果、マッピング制御モデルを用いずに、分析特徴量からマッピング制御情報を求める方法(以下、比較手法と称する)よりも、第1の実施の形態で説明した手法の方が、より理想的なマッピング制御情報が得られることが確認された。さらに、第1の実施の形態で説明した手法よりも、第3の実施の形態で説明した手法の方が、さらに理想的なマッピング制御情報が得られることが確認された。
【0177】
また、比較手法、第1の実施の形態で説明した手法、および第3の実施の形態で説明した手法による出力信号の主観評価においても、比較手法よりも第1の実施の形態で説明した手法がより評価が高く、第1の実施の形態で説明した手法よりも第3の実施の形態で説明した手法がさらに評価が高いことが確認された。このように、本技術によれば、よりユーザに好ましい音量制御を実現することが可能となる。
【0178】
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0179】
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0180】
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
【0181】
バス304には、さらに、入出力インターフェース305が接続されている。入出力インターフェース305には、キーボード、マウス、マイクロホンなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307、ハードディスクや不揮発性のメモリなどよりなる記録部308、ネットワークインターフェースなどよりなる通信部309、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア311を駆動するドライブ310が接続されている。
【0182】
以上のように構成されるコンピュータでは、CPU301が、例えば、記録部308に記録されているプログラムを、入出力インターフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
【0183】
コンピュータ(CPU301)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア311に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【0184】
そして、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インターフェース305を介して、記録部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記録部308にインストールすることができる。その他、プログラムは、ROM302や記録部308に、あらかじめインストールしておくことができる。
【0185】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0186】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0187】
さらに、本技術は、以下の構成とすることも可能である。
【0188】
[1]
入力信号の特性を分析し、分析特徴量を生成する分析部と、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定するマッピング制御情報決定部と、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部と
を備える信号処理装置。
[2]
前記マッピング制御情報を得るための情報は、前記信号処理装置ごとに学習されたものである
[1]に記載の信号処理装置。
[3]
前記マッピング制御情報を得るための情報は、前記分析特徴量から前記マッピング制御情報を求める関数を得るための情報、または前記分析特徴量から前記マッピング制御情報を得るためのテーブルである
[1]または[2]に記載の信号処理装置。
[4]
前記関数は、前記分析特徴量と無相関な項を有する
[3]に記載の信号処理装置。
[5]
前記分析部は、学習用の学習音源信号の特性を分析して前記分析特徴量を生成し、
前記学習音源信号の前記分析特徴量と、ユーザにより前記学習音源信号に付与された前記マッピング制御情報とを用いた学習により、前記マッピング制御情報を得るための情報を生成する学習部をさらに備える
[1]乃至[4]の何れかに記載の信号処理装置。
[6]
前記分析特徴量は、前記入力信号の二乗平均、前記入力信号の二乗平均を対数化したもの、前記入力信号の二乗平均平方根、前記入力信号の二乗平均平方根を対数化したもの、または前記入力信号の零交差率である
[1]乃至[5]の何れかに記載の信号処理装置。
[7]
前記分析部は、複数のチャンネルごとに前記入力信号に対する振幅変換が行なわれて、各チャンネルの前記出力信号が生成される場合、前記複数のチャンネルの前記入力信号に基づいて、全チャンネルで共通する1つの前記分析特徴量を生成する
[1]乃至[5]の何れかに記載の信号処理装置。
[8]
前記入力信号を複数の周波数帯域の信号に分割する帯域分割部をさらに備え、
前記分析部は、前記信号の二乗平均、前記信号の二乗平均を対数化したもの、前記信号の二乗平均平方根、または前記信号の二乗平均平方根を対数化したものを重み付き加算することで前記分析特徴量を生成する
[1]乃至[5]の何れかに記載の信号処理装置。
【符号の説明】
【0189】
11 オーディオ信号処理装置, 21 分析部, 22 マッピング制御情報決定部, 24 マッピング処理部, 61 入力部, 62 マッピング制御情報付与部, 63 マッピング処理部, 65 分析部, 66 マッピング制御モデル学習部, 131 分析部, 132 マッピング処理部, 171 帯域分割フィルタ
【技術分野】
【0001】
本技術は信号処理装置および方法、プログラム、並びにデータ記録媒体に関し、特に、事前の分析による付加情報を必要とせずに、オーディオ信号の再生レベルをより簡単かつ効果的に強調できるようにした信号処理装置および方法、プログラム、並びにデータ記録媒体に関する。
【背景技術】
【0002】
例えば、音声の音量のダイナミックレンジが大きい映画コンテンツや音楽コンテンツを、小型スピーカを内蔵したポータブル機器で再生する場合、全体的に音声の音量が小さくなるだけでなく、特に音量の小さなセリフなどは、聞こえにくくなる。
【0003】
そこで、これらのコンテンツの音声をより聞こえ易くするための技術として、ノーマライズや自動ゲイン制御技術があるが、充分に長いデータの先読みを行わないと、音量制御が聴感上不安定になってしまう。
【0004】
また、音量のダイナミックレンジのコンプレッション処理により、音声の音量の小さい部分をブーストし、音量の大きな部分をコンプレッションする技術もある。しかしながら、コンプレッション処理では、音量のブーストとコンプレッションの特性を汎用的なものとすると、音声の高い強調効果を得ることは困難であり、高い効果を得るためには、コンテンツ毎にその特性を変える必要がある。
【0005】
例えば、ダイアログノーマライズで指定された音圧レベルを基準として、それよりも小さい音圧レベルの信号をブーストし、大きな音圧レベルの信号をコンプレッションする技術がある。ところが、この技術では、充分な効果を得るために、オーディオ信号の符号化時にダイアログノーマライズのための音圧レベルと、ブーストおよびコンプレッションの特性の指定が必要となる。
【0006】
さらに、音声の音量のダイナミックレンジをコンプレッションする場合に、オーディオ信号の絶対値の平均値により定まる係数をオーディオ信号に乗算することで、オーディオ信号の小さい音をより聞こえ易くする技術も提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平05−275950号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、近年、映画や音楽、自己録コンテンツなど、様々な種類のコンテンツが小型スピーカを内蔵したポータブル機器で再生されるようになってきている。しかしながら、そのようなコンテンツには、上述した符号化時などの事前分析による、効果的な音量制御のための付加情報を有していないものも多い。そのため、コンテンツのオーディオ信号に、事前の分析で得られた付加情報が付加されていない場合であっても、効果的に音量制御を行なう技術が必要となる。
【0009】
そこで、上述した特許文献1に記載の技術を用いれば、オーディオ信号に対する事前の分析を必要とせずに、コンプレッション処理により、急激な音の大きさの変化を抑えつつ、オーディオ信号の小さい音をより聞こえ易くすることができるようになる。しかしながら、この技術ではオーディオ信号の再生レベルを充分に強調することはできなかった。
【0010】
例えば、特許文献1に記載の技術では、オーディオ信号を定数倍することで振幅を減衰させるだけであるので、振幅変換の特性の自由度が低く、効果的にオーディオ信号の再生レベルを強調できるとはいえなかった。また、この技術は、オーディオ信号の振幅変換により、音量のダイナミックレンジを狭くする場合にしか用いることができず、音量のダイナミックレンジを変えずに振幅変換を行なったり、音量のダイナミックレンジをより広くしたりすることはできなかった。
【0011】
本技術は、このような状況に鑑みてなされたものであり、事前の分析による付加情報を必要とせずに、オーディオ信号の再生レベルをより簡単かつ効果的に強調できるようにするものである。
【課題を解決するための手段】
【0012】
本技術の一側面の信号処理装置は、入力信号の特性を分析し、分析特徴量を生成する分析部と、前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定するマッピング制御情報決定部と、前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部とを備える。
【0013】
前記マッピング制御情報を得るための情報を、前記信号処理装置ごとに学習されたものとすることができる。
【0014】
前記マッピング制御情報を得るための情報を、前記分析特徴量から前記マッピング制御情報を求める関数を得るための情報、または前記分析特徴量から前記マッピング制御情報を得るためのテーブルとすることができる。
【0015】
前記関数が、前記分析特徴量と無相関な項を有するようにすることができる。
【0016】
前記分析部には、学習用の学習音源信号の特性を分析して前記分析特徴量を生成させ、前記学習音源信号の前記分析特徴量と、ユーザにより前記学習音源信号に付与された前記マッピング制御情報とを用いた学習により、前記マッピング制御情報を得るための情報を生成する学習部をさらに設けることができる。
【0017】
前記分析特徴量を、前記入力信号の二乗平均、前記入力信号の二乗平均を対数化したもの、前記入力信号の二乗平均平方根、前記入力信号の二乗平均平方根を対数化したもの、または前記入力信号の零交差率とすることができる。
【0018】
前記分析部には、複数のチャンネルごとに前記入力信号に対する振幅変換が行なわれて、各チャンネルの前記出力信号が生成される場合、前記複数のチャンネルの前記入力信号に基づいて、全チャンネルで共通する1つの前記分析特徴量を生成させることができる。
【0019】
信号処理装置には、前記入力信号を複数の周波数帯域の信号に分割する帯域分割部をさらに設け、前記分析部には、前記信号の二乗平均、前記信号の二乗平均を対数化したもの、前記信号の二乗平均平方根、または前記信号の二乗平均平方根を対数化したものを重み付き加算することで前記分析特徴量を生成させることができる。
【0020】
本技術の一側面の信号処理方法またはプログラムは、入力信号の特性を分析し、分析特徴量を生成し、前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定し、前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するステップを含む。
【0021】
本技術の一側面のデータ記録媒体には、入力信号の特性を分析して分析特徴量を生成し、前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定し、前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換することで得られた出力信号が記録される。
【0022】
本技術の一側面においては、入力信号の特性が分析されて、分析特徴量が生成され、前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報が決定され、前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号が振幅変換され、出力信号が生成される。
【発明の効果】
【0023】
本技術の一側面によれば、事前の分析による付加情報を必要とせずに、オーディオ信号の再生レベルをより簡単かつ効果的に強調することができる。
【図面の簡単な説明】
【0024】
【図1】オーディオ信号処理装置の一実施の形態の構成例を示す図である。
【図2】学習装置の構成例を示す図である。
【図3】学習処理を説明するフローチャートである。
【図4】マッピング関数の一例を示す図である。
【図5】マッピング制御モデルによる回帰曲線の一例を示す図である。
【図6】変換処理を説明するフローチャートである。
【図7】オーディオ信号処理装置の他の構成例を示す図である。
【図8】オーディオ信号処理装置の他の構成例を示す図である。
【図9】変換処理を説明するフローチャートである。
【図10】オーディオ信号処理装置の他の構成例を示す図である。
【図11】変換処理を説明するフローチャートである。
【図12】コンピュータの構成例を示す図である。
【発明を実施するための形態】
【0025】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0026】
〈第1の実施の形態〉
[オーディオ信号処理装置の構成例]
図1は、本発明を適用したオーディオ信号処理装置の一実施の形態の構成例を示す図である。
【0027】
このオーディオ信号処理装置11は、例えばビデオ信号とオーディオ信号からなるコンテンツを再生する携帯型の再生装置に設けられ、入力されたオーディオ信号に対して、再生レベルが強調されるように振幅変換を行い、振幅変換されたオーディオ信号を出力する。なお、以下では、特にオーディオ信号処理装置11に入力されるオーディオ信号を入力信号と称し、入力信号を振幅変換して得られたオーディオ信号を出力信号と称することとする。
【0028】
オーディオ信号処理装置11は、分析部21、マッピング制御情報決定部22、記録部23、マッピング処理部24、出力部25、およびドライブ26から構成される。
【0029】
分析部21は、供給された入力信号の特性を分析して、その分析結果を示す分析特徴量をマッピング制御情報決定部22に供給する。
【0030】
マッピング制御情報決定部22は、分析部21から供給された分析特徴量と、記録部23に記録されているマッピング制御モデルとに基づいて、入力信号に対するマッピング処理に用いられるマッピング制御情報を決定し、マッピング処理部24に供給する。
【0031】
なお、マッピング処理は、マッピング処理部24により行われる処理であり、マッピング処理では、マッピング制御情報により定まる線形または非線形のマッピング関数が用いられて、入力信号に対する線形または非線形の振幅変換が行なわれる。また、マッピング制御モデルとは、分析特徴量からマッピング制御情報を得るための情報である。
【0032】
記録部23は、外部の装置から供給されたマッピング制御モデルを記録しており、必要に応じてマッピング制御モデルをマッピング制御情報決定部22に供給する。
【0033】
マッピング処理部24は、マッピング制御情報決定部22から供給されたマッピング制御情報を用いて、供給された入力信号に対するマッピング処理を行い、入力信号の再生レベルを強調する。マッピング処理部24は、マッピング処理により得られた出力信号を出力部25に供給する。
【0034】
出力部25は、マッピング処理部24から供給された出力信号を、後段の音声出力部等に出力したり、ドライブ26に供給したりする。ドライブ26は、出力部25から供給された出力信号を、ドライブ26に着脱自在な記録媒体であるリムーバブルメディア27に記録する。
【0035】
[学習装置の構成例]
一般的にコンテンツによって入力信号の録音レベルに差があるので、オーディオ信号処理装置において、マッピング関数の特性を動的に変化させながら、マッピング処理により入力信号の再生レベルを適切なレベルに調整することが効果的である。
【0036】
ところが、オーディオ信号処理装置によって再生可能な音声のレベルが異なったり、ユーザによって音声の聞こえ方が異なったりすることがある。そのため、マッピング処理に同一のマッピング制御モデルを用いると、再生に用いるオーディオ信号処理装置やユーザによっては、マッピング処理で得られた出力信号を再生しても、音声の音量が聴感上大きくなり過ぎたり、小さくなり過ぎたりする場合があった。
【0037】
そこで、オーディオ信号処理装置11では、オーディオ信号処理装置11ごと、例えば個々のオーディオ信号処理装置11自体や機種ごとに、複数の音源を用いて学習することで得られたマッピング制御モデルが利用される。
【0038】
例えば、オーディオ信号処理装置11で用いられるマッピング制御モデルを学習により求める学習装置は、図2に示すように構成される。
【0039】
学習装置51は、入力部61、マッピング制御情報付与部62、マッピング処理部63、スピーカ64、分析部65、マッピング制御モデル学習部66、および記録部67から構成される。学習装置51では、マッピング制御モデルの学習に用いられる学習音源信号が、マッピング制御情報付与部62、分析部65、およびマッピング処理部63に供給される。
【0040】
入力部61は、例えばユーザにより操作されるボタン等からなり、ユーザの操作に応じた信号をマッピング制御情報付与部62に供給する。マッピング制御情報付与部62は、入力部61からの信号に応じて、供給された学習音源信号の各サンプルにマッピング制御情報を付与し、マッピング処理部63またはマッピング制御モデル学習部66に供給する。
【0041】
マッピング処理部63は、マッピング制御情報付与部62からのマッピング制御情報を用いて、供給された学習音源信号に対してマッピング処理を行い、その結果得られた学習出力信号をスピーカ64に供給する。スピーカ64は、マッピング処理部63から供給された学習出力信号に基づいて、音声を再生する。
【0042】
分析部65は、供給された学習音源信号の特性を分析して、その分析結果を示す分析特徴量をマッピング制御モデル学習部66に供給する。マッピング制御モデル学習部66は、分析部65からの分析特徴量と、マッピング制御情報付与部62からのマッピング制御情報とを用いた統計学習によりマッピング制御モデルを求め、記録部67に供給する。
【0043】
記録部67は、マッピング制御モデル学習部66から供給されたマッピング制御モデルを記録する。このようにして記録部67に記録されたマッピング制御モデルは、オーディオ信号処理装置11の記録部23に供給されて記録される。
【0044】
[学習処理の説明]
次に、図3のフローチャートを参照して学習装置51による学習処理について説明する。
【0045】
この学習処理では、1または複数の学習音源信号が学習装置51に供給される。また、この場合において、分析部65、マッピング処理部63、スピーカ64等は、学習により求められるマッピング制御モデルが供給されるオーディオ信号処理装置11の分析部21、マッピング処理部24等の対応する各ブロックと同様のものとされる。すなわち、ブロックの特性や処理のアルゴリズムが同じものとされる。
【0046】
ステップS11において、入力部61は、ユーザからのマッピング制御情報の入力または調整を受け付ける。
【0047】
例えば、学習音源信号が入力されると、マッピング処理部63は供給された学習音源信号をそのままスピーカ64に供給し、学習音源信号に基づく音声を出力させる。すると、ユーザは出力された音声を聞きながら、学習音源信号の所定のサンプルを処理対象サンプルとして入力部61を操作し、処理対象サンプルに対するマッピング制御情報の付与を指示する。
【0048】
なお、マッピング制御情報付与の指示は、例えばユーザがマッピング制御情報を直接入力したり、いくつかのマッピング制御情報から所望のものを指定したりすることで行なわれる。また、ユーザが一度指定されたマッピング制御情報の調整を指示することで、マッピング制御情報の付与を指示するようにしてもよい。
【0049】
このようにしてユーザが入力部61を操作すると、マッピング制御情報付与部62は、ユーザの操作に応じて処理対象サンプルに対してマッピング制御情報を付与する。そして、マッピング制御情報付与部62は、処理対象サンプルに対して付与したマッピング制御情報を、マッピング処理部63に供給する。
【0050】
ステップS12において、マッピング処理部63は、マッピング制御情報付与部62から供給されたマッピング制御情報を用いて、供給された学習音源信号の処理対象サンプルに対してマッピング処理を行い、その結果得られた学習出力信号をスピーカ64に供給する。
【0051】
例えば、マッピング処理部63は、学習音源信号の処理対象サンプルのサンプル値xを、次式(1)に示す非線形のマッピング関数f(x)に代入して振幅変換を行なう。つまり、サンプル値xをマッピング関数f(x)に代入して得られた値が、学習出力信号の処理対象サンプルのサンプル値とされる。
【0052】
【数1】
【0053】
なお、式(1)において学習音源信号のサンプル値xは、−1から1までの値となるように正規化されているものとする。また、式(1)において、αはマッピング制御情報を示している。
【0054】
このようなマッピング関数f(x)は、図4に示すようにマッピング制御情報αが小さいほど、急峻に変化する関数となる。なお、図4において、横軸は学習音源信号のサンプル値xを示しており、縦軸はマッピング関数f(x)の値を示している。また、曲線f11乃至曲線f13は、それぞれマッピング制御情報αが「3」、「5」、および「50」であるときのマッピング関数f(x)を表している。
【0055】
図4から分かるように、マッピング制御情報αが小さいほど、全体的にサンプル値xの変化に対するf(x)の変化量が大きいマッピング関数f(x)が用いられて、学習音源信号の振幅変換が行なわれる。このようにマッピング制御情報αを変化させると、学習音源信号に対する増幅量が変化する。
【0056】
図3のフローチャートの説明に戻り、ステップS13において、スピーカ64は、マッピング処理部63から供給された学習出力信号を再生する。
【0057】
なお、より詳細には、処理対象サンプルを含む所定の区間に対してマッピング処理が行われて得られた学習出力信号が再生される。ここで、再生対象となる区間は、例えば既にマッピング制御情報が指定されているサンプルからなる区間などとされる。この場合、処理対象となる区間の各サンプルが、それらのサンプルに対して定められたマッピング制御情報が用いられてマッピング処理され、その結果得られた学習出力信号が再生される。
【0058】
このようにして学習出力信号が再生されると、ユーザはスピーカ64から出力された音声を聞きながら、マッピング処理の効果を評価する。すなわち、学習出力信号の音声の音量が適切であるかが評価される。そして、ユーザは入力部61を操作して、その評価の結果から、マッピング制御情報の調整を指示するか、または指定したマッピング制御情報が最適なものであるとして、指定したマッピング制御情報の確定を指示する。
【0059】
ステップS14において、マッピング制御情報付与部62は、入力部61から供給されるユーザの操作に応じた信号に基づいて、最適なマッピング制御情報が得られたか否かを判定する。例えば、ユーザによりマッピング制御情報の確定が指示された場合、最適なマッピング制御情報が得られたと判定される。
【0060】
ステップS14において、まだ最適なマッピング制御情報が得られていないと判定された場合、すなわちマッピング制御情報の調整が指示された場合、処理はステップS11に戻り、上述した処理が繰り返される。
【0061】
この場合、処理対象のサンプルに対して、新たなマッピング制御情報が付与されて、そのマッピング制御情報の評価が行なわれる。このように、学習出力信号の音声を実際に聞きながら、マッピング処理の効果を評価することで、聴感上、最適なマッピング制御情報を付与することができる。
【0062】
これに対して、ステップS14において、最適なマッピング制御情報が得られたと判定された場合、処理はステップS15に進む。ステップS15において、マッピング制御情報付与部62は、処理対象のサンプルに対して付与されたマッピング制御情報を、マッピング制御モデル学習部66に供給する。
【0063】
ステップS16において、分析部65は、供給された学習音源信号の特性を分析し、その結果得られた分析特徴量をマッピング制御モデル学習部66に供給する。
【0064】
例えば学習音源信号のn番目のサンプルが処理対象のサンプルであるとすると、分析部65は、次式(2)の演算を行なって、学習音源信号のn番目のサンプルについての二乗平均平方根RMS(n)を、n番目のサンプルの分析特徴量として算出する。
【0065】
【数2】
【0066】
なお、式(2)において、x(m)は、学習音源信号のm番目のサンプルのサンプル値(学習音源信号の値)を示している。また、式(2)においては、学習音源信号の値、つまり学習音源信号の各サンプルのサンプル値は、−1≦x(m)≦1となるように正規化されているものとする。
【0067】
したがって二乗平均平方根RMS(n)は、n番目のサンプルを中心とするN個の連続するサンプルからなる区間について、その区間に含まれるサンプルのサンプル値の二乗平均値の平方根の対数をとり、これにより得られた値に定数「20」を乗算することで得られる。
【0068】
このようにして得られた二乗平均平方根RMS(n)の値は、処理対象となっている学習音源信号のn番目のサンプルを中心とする特定区間の各サンプルのサンプル値の絶対値が小さいほど、小さくなる。つまり、学習音源信号の処理対象のサンプルを含む特定区間全体の音声の音量が小さいほど、二乗平均平方根RMS(n)は小さくなる。
【0069】
なお、分析特徴量の例として、二乗平均平方根RMS(n)について説明したが、分析特徴量は、RMS(n)のt乗値(但し、t≧2)や、学習音源信号の零交差率、学習音源信号の周波数エンベロープの傾きなどとしてもよいし、それらを組み合わせたものとしてもよい。
【0070】
以上のようにして、分析部65からマッピング制御モデル学習部66に分析特徴量が供給されると、マッピング制御モデル学習部66は、処理対象のサンプルについて求められた分析特徴量と、そのサンプルのマッピング制御情報とを対応付けて、一時的に記録する。
【0071】
ステップS17において、学習装置51は、充分な数のマッピング制御情報が得られたか否かを判定する。例えば、一時的に記録している分析特徴量とマッピング制御情報のセットが、マッピング制御モデルを学習するのに充分な数だけ得られた場合、充分な数のマッピング制御情報が得られたと判定される。
【0072】
ステップS17において、充分な数のマッピング制御情報が得られていないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返される。すなわち、学習音源信号の現時点で処理対象となっているサンプルの次のサンプルが、新たな処理対象サンプルとされてマッピング制御情報が付与されたり、新たな学習音源信号のサンプルに対してマッピング制御情報が付与されたりする。また、異なるユーザにより、学習音源信号のサンプルにマッピング制御情報が付与されるようにしてもよい。
【0073】
ステップS17において、充分な数のマッピング制御情報が得られたと判定された場合、ステップS18において、マッピング制御モデル学習部66は、一時的に記録している分析特徴量とマッピング制御情報のセットを用いて、マッピング制御モデルを学習する。
【0074】
例えば、マッピング制御モデル学習部66は、次式(3)の計算を行なうことにより、分析特徴量からマッピング制御情報αが得られるとして、式(3)に示す関数をマッピング制御モデルとし、これを学習により求める。
【0075】
【数3】
【0076】
なお、式(3)において、Fは分析特徴量を示しており、a,b,cは定数である。特に、定数cは、分析特徴量Fと無相関なオフセット項である。
【0077】
この場合、マッピング制御モデル学習部66は、式(3)におけるFおよびF2に対応する二乗平均平方根RMS(n)および二乗平均平方根RMS(n)の二乗値を説明変数とし、マッピング制御情報αを被説明変数として、最小二乗法により線形回帰モデルの学習を行い、定数a,b,cを求める。
【0078】
これにより、例えば図5に示す結果が得られる。なお、図5において縦軸はマッピング制御情報αを示しており、横軸は分析特徴量としての二乗平均平方根RMS(n)を示している。図5では、曲線C11は、各分析特徴量の値に対して定まるマッピング制御情報αの値、つまり上述した式(3)に示される関数のグラフを示している。
【0079】
この例では、学習音源信号や入力信号などのオーディオ信号の音声の音量が小さく、分析特徴量が小さいほど、マッピング制御情報αの値も小さくなる。
【0080】
以上のような学習により定数a,b,cが定まり、分析特徴量からマッピング制御情報を得るための関数aF2+bF+cが求まると、マッピング制御モデル学習部66は、求めた関数aF2+bF+cをマッピング制御モデルとして記録部67に供給し、記録させる。
【0081】
学習により得られたマッピング制御モデルが記録部67に記録されると、学習処理は終了する。記録部67に記録されたマッピング制御モデルは、その後、オーディオ信号処理装置11の記録部23に記録され、マッピング処理に利用される。
【0082】
以上のようにして、学習装置51は、オーディオ信号処理装置11ごとに、複数の学習音源信号や、複数のユーザにより指定されたマッピング制御情報を用いて、学習によりマッピング制御モデルを求める。
【0083】
したがって、得られたマッピング制御モデルを用いれば、再生対象の入力信号や、再生された音声を聞くユーザによらず、オーディオ信号処理装置11に対して統計的に最適なマッピング制御情報を得ることができるようになる。特に、1人のユーザにより付与されたマッピング制御情報のみを用いて学習を行なうようにすれば、そのユーザに対して最適なマッピング制御情報が得られるマッピング制御モデルを生成することができる。
【0084】
なお、以上においては、学習音源信号に対して、1サンプルごとにマッピング制御情報の入力や調整を行なう場合を例として説明したが、学習音源信号の連続する2以上のサンプルごとに、マッピング制御情報の入力や調整が行なわれるようにしてもよい。
【0085】
また、ここではマッピング制御モデルとしてRMS(n)に関する2次式を用いたが、3次以上の関数を用いてもよい。
【0086】
また、マッピング制御モデルの説明変数として、二乗平均平方根RMS(n)とその二乗値を用いると説明したが、説明変数として他の分析特徴量を任意に追加したり、組み合わせたりするようにしてもよい。例えば、他の分析特徴量としては、二乗平均平方根RMS(n)のt乗値(但し、t≧3)や、学習音源信号の零交差率、学習音源信号の周波数エンベロープの傾きなどが考えられる。
【0087】
[変換処理の説明]
オーディオ信号処理装置11の記録部23に、学習装置51から供給されたマッピング制御モデルが記録されると、このマッピング制御モデルを用いて入力信号をより適切な音量の出力信号に変換することができるようになる。
【0088】
オーディオ信号処理装置11は、入力信号が供給されると変換処理を行って、出力信号を生成し、出力する。以下、図6のフローチャートを参照して、オーディオ信号処理装置11による変換処理について説明する。
【0089】
ステップS41において、分析部21は、供給された入力信号の特性を分析し、分析特徴量を生成する。なお分析特徴量として、学習で用いた分析特徴量と同一のものが使用される。
【0090】
具体的には、例えば分析部21は、上述した式(2)の演算を行なって、入力信号のn番目のサンプルについての二乗平均平方根RMS(n)を、n番目のサンプルの分析特徴量として算出する。
【0091】
なお、この場合、式(2)におけるx(m)は、入力信号のm番目のサンプルのサンプル値とされることになる。また、入力信号の二乗平均平方根RMS(n)の算出時においても、入力信号の各サンプルのサンプル値は、−1≦x(m)≦1となるように正規化されているものとする。
【0092】
さらに、入力信号の分析特徴量も、入力信号の二乗平均値、入力信号の二乗平均値を対数化したもの、入力信号の二乗平均値の平方根、RMS(n)のt乗値(但し、t≧2)や、入力信号の零交差率、入力信号の周波数エンベロープの傾きなどとしてもよいし、これらの特徴量や他の特徴量を任意に組み合わせたものとしてもよい。
【0093】
分析特徴量が得られると、分析部21は、得られた分析特徴量をマッピング制御情報決定部22に供給する。
【0094】
ステップS42において、マッピング制御情報決定部22は、分析部21から供給された分析特徴量と、記録部23に記録されているマッピング制御モデルとに基づいて、マッピング制御情報を決定し、マッピング処理部24に供給する。
【0095】
例えば、マッピング制御情報決定部22は、マッピング制御モデルとして記録されている上述した関数と、分析特徴量とに基づいて式(3)の計算を行い、マッピング制御情報αを求める。
【0096】
なお、記録部23にマッピング制御モデルが記録される例について説明したが、記録部23に記録される情報は、分析特徴量からマッピング制御情報が得られる情報であれば、どのようなものであってもよい。
【0097】
例えば、各分析特徴量の値と、マッピング制御情報とが対応付けられたテーブルが、記録部23に記録されるようにしてもよい。そのような場合、マッピング制御情報決定部22は、記録部23のテーブルを参照し、テーブル上において、供給された分析特徴量に対応付けられているマッピング制御情報を、マッピング処理部24に供給する。
【0098】
ステップS43において、マッピング処理部24は、マッピング制御情報決定部22から供給されたマッピング制御情報を用いて、供給された入力信号に対するマッピング処理を行い、出力信号を生成する。ここで、マッピング関数f(x)として、学習で使用したものと同一の関数が使用される。
【0099】
具体的には、マッピング処理部24は、入力信号のn番目のサンプルのサンプル値xを、上述した式(1)に示す非線形のマッピング関数f(x)に代入して、入力信号の振幅変換を行なう。つまり、サンプル値xをマッピング関数f(x)に代入して得られた値が、出力信号のn番目のサンプルのサンプル値とされる。なお、この場合においても入力信号のサンプル値xは、−1から1までの値となるように正規化されているものとする。また、式(1)の演算では、マッピング制御情報の値が、式(1)におけるαの値とされる。
【0100】
分析特徴量として二乗平均平方根RMS(n)が求められる場合、入力信号の音声の音量が小さいほど、分析特徴量は小さくなるので、これによりマッピング制御情報αの値も小さくなる。また、図4に示したように、マッピング制御情報αが小さいほど、マッピング関数f(x)の傾きは大きくなる。
【0101】
したがって、入力信号の音声の音量が全体的に小さいほど、サンプル値x=0を含むサンプル値xの大部分の区間において、より急峻に変化する特性のマッピング関数f(x)が用いられて、入力信号の振幅変換が行なわれる。
【0102】
その結果、入力信号の音声が全体として音量の小さい区間では、音量の小さい音声はより音量が大きい音声に変換されるように入力信号が振幅変換され、入力信号の再生レベルが強調される。これにより、音量のダイナミックレンジの大きな映画等のコンテンツを、小型スピーカを内蔵する携帯型の機器で再生する場合においても、従来は聞こえにくかった小さい音も、入力信号に対するマッピング処理により聞こえ易くすることができる。
【0103】
また、入力信号の音声が全体として音量の大きな区間においても、その中のサンプル値xが小さな信号に対しては、適度に急峻な特性のマッピング関数f(x)が用いられ、入力信号の振幅変換が行なわれる。
【0104】
その結果、入力信号の音声が全体として音量の大きな区間においても、その中の音量の小さな音声は音量の大きい音声に変換されるように入力信号が振幅変換され、入力信号の再生レベルが強調される。これにより、従来から比較的大きく再生されていた音も、さらに大きく聞こえるようになる。
【0105】
しかも、オーディオ信号処理装置11では、入力信号に対して事前に分析を行なって、入力信号に振幅変換のための付加情報を付加したり、入力信号を長区間、先読みし、読み込んだ入力信号に対する解析を行なってから振幅変換したりする必要はない。
【0106】
また、マッピング制御情報αにより非線形なマッピング関数f(x)を変化させることで、より自由度の高い振幅変換を実現することができる。つまり、入力信号の特定区間全体の特性に応じて、最も効果的な特性の非線形関数をマッピング関数とすることで、処理対象のサンプルが含まれる区間の特性だけでなく、そのサンプルのサンプル値の大きさも考慮した振幅変換を行なうことができる。
【0107】
例えば、上述した特許文献1に記載の技術では、オーディオ信号の値によらず、オーディオ信号の絶対値の平均値により定まる定数が、オーディオ信号に乗算される。つまり、オーディオ信号のサンプルは、そのサンプルの振幅の大小に関わらず、常に定数倍されることになる。
【0108】
そのため、比較的音量が小さい音声に合わせて、その音声の音量がより大きくなるように、オーディオ信号に乗算される定数の算出方法を定めると、大きい音量の音声については、オーディオ信号に定数を乗算しても、適切な音量とならない場合もある。
【0109】
これに対して、オーディオ信号処理装置11では、マッピング関数を非線形関数とすれば、サンプルの振幅(サンプル値)が大きい場合には振幅を大きく変化させず、サンプルの振幅が小さい場合には振幅を大きく増加させるなど、自由度の高い振幅変換が可能となる。これにより、音量の小さい音声は、より音量の大きい音声に変換するとともに、もともと音量の大きい音声は、あまり音量が変化しないようにするなど、効果的にオーディオ信号の再生レベルを強調することができる。
【0110】
また、マッピング関数の特性を決定付けるマッピング制御情報αを、オーディオ信号処理装置11ごとに学習して得られたマッピング制御モデルを用いて定めるので、各オーディオ信号処理装置11やユーザに最適な振幅変換を行なうことができる。
【0111】
さらに、マッピング関数f(x)を適切に設定することで、振幅変換により、音声の音量のダイナミックレンジをより広げるようにしたり、そのままとしたり、あるいはダイナミックレンジをより狭くしたりすることができる。
【0112】
このように、オーディオ信号処理装置11では、簡単かつ効果的にオーディオ信号の再生レベルを強調することができる。
【0113】
なお、マッピング処理で用いられるマッピング関数f(x)は、非線形関数に限らず、−1≦x≦1であるサンプル値xに対して、−1≦f(x)≦1となる関数であれば、線形関数や指数関数など、どのような関数であってもよい。例えば、マッピング処理の効果の評価が高いものや聴感上適したものをマッピング関数として用いればよい。
【0114】
さらに、マッピング処理では、入力信号の1サンプルごとにマッピング制御情報を算出するのではなく、入力信号の連続する2以上のサンプルごとにマッピング制御情報を算出し、マッピング処理を行うようにしてもよい。
【0115】
図6のフローチャートの説明に戻り、マッピング処理部24は、マッピング処理により出力信号を生成すると、得られた出力信号を出力部25に供給する。
【0116】
ステップS44において、出力部25は、マッピング処理部24から供給された出力信号を後段に出力し、変換処理は終了する。また、出力部25は、必要に応じて出力信号をドライブ26に供給し、ドライブ26は、供給された出力信号をリムーバブルメディア27に記録する。
【0117】
以上のように、オーディオ信号処理装置11は、入力信号の特性を分析し、その分析結果に応じて変化するマッピング関数を用いて、入力信号に対するマッピング処理を行い、出力信号を生成する。
【0118】
入力信号の分析で得られる分析特徴量としての二乗平均平方根RMS(n)は、入力信号の所定区間の平均的なサンプル値の大きさ、つまり所定区間における各サンプルの振幅の分布を示している。例えば、二乗平均平方根RMS(n)が小さい場合、入力信号には振幅の小さいサンプルが多く含まれ、逆に二乗平均平方根RMS(n)が大きい場合、入力信号には振幅の大きいサンプルが多く含まれる。
【0119】
オーディオ信号処理装置11では、二乗平均平方根RMS(n)を用いて、より効果的な特性のマッピング関数を生成し、マッピング処理を行うことで、入力信号を簡単に理想的な振幅の分布を有する出力信号に変換することができる。
【0120】
しかも、オーディオ信号処理装置11で用いられる、分析特徴量からマッピング制御情報を得るためのマッピング制御モデルは、オーディオ信号処理装置11やユーザごとに、事前の統計解析に基づいて生成されたものである。そのため、各オーディオ信号処理装置11やユーザに対して、最適な再生レベル制御を実現することができる。
【0121】
〈変形例1〉
[オーディオ信号処理装置の構成例]
なお、以上においては、学習装置51によりマッピング制御モデルの学習が行なわれる場合について説明したが、オーディオ信号処理装置内部に、マッピング制御モデルの学習を行なう機能が備えられるようにしてもよい。
【0122】
そのような場合、オーディオ信号処理装置は、例えば図7に示すように構成される。なお、図7において、図1および図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0123】
オーディオ信号処理装置91は、分析部21、マッピング制御情報決定部22、記録部23、マッピング処理部24、出力部25、ドライブ26、スピーカ64、入力部61、マッピング制御情報付与部62、およびマッピング制御モデル学習部66から構成される。
【0124】
このオーディオ信号処理装置91では、再生対象の入力信号または学習に用いる学習音源信号としてのオーディオ信号が、マッピング処理部24、分析部21、およびマッピング制御情報付与部62に供給される。また、分析部21は、供給されたオーディオ信号の特性を分析し、その結果得られた分析特徴量を、マッピング制御情報決定部22またはマッピング制御モデル学習部66に供給する。
【0125】
次に、オーディオ信号処理装置91の動作について説明する。
【0126】
まず、マッピング制御モデルの学習を行なう場合、オーディオ信号処理装置91は、図3を参照して説明した学習処理を行う。
【0127】
すなわち、マッピング制御情報付与部62は、供給された学習音源信号のサンプルに対してマッピング制御情報を付与し、マッピング制御情報をマッピング処理部24に供給する。すると、マッピング処理部24は、マッピング制御情報付与部62からのマッピング制御情報を用いて、供給された学習音源信号にマッピング処理を施し、これにより得られた学習出力信号を、出力部25を介してスピーカ64に供給し、再生させる。
【0128】
スピーカ64から出力された音声を聞いたユーザは、入力部61を操作して、付与したマッピング制御情報の調整を行なったり、付与したマッピング制御情報を確定させたりする。ユーザにより最適なマッピング制御情報が選択されると、マッピング制御情報付与部62は、付与されたマッピング制御情報をマッピング制御モデル学習部66に供給する。
【0129】
また、分析部21は、供給された学習音源信号の分析を行なって、得られた分析特徴量をマッピング制御モデル学習部66に供給する。そして、マッピング制御モデル学習部66は、分析部21からの分析特徴量と、マッピング制御情報付与部62からのマッピング制御情報とを用いた学習によりマッピング制御モデルを生成し、記録部23に記録させる。
【0130】
このようにしてマッピング制御モデルが得られると、入力信号に対する変換処理が可能となる。続いて、オーディオ信号処理装置91による変換処理について説明する。オーディオ信号処理装置91は、図6を参照して説明した変換処理を行う。
【0131】
すなわち、分析部21は、供給された入力信号の特性を分析し、得られた分析特徴量をマッピング制御情報決定部22に供給する。マッピング制御情報決定部22は、記録部23に記録されているマッピング制御モデルと、分析部21からの分析特徴量とから、マッピング制御情報を求め、マッピング処理部24に供給する。
【0132】
マッピング処理部24は、マッピング制御情報決定部22からのマッピング制御情報を用いて、供給された入力信号に対するマッピング処理を行い、得られた出力信号を出力部25に供給する。出力部25に供給された出力信号は、スピーカ64に供給されて再生されたり、ドライブ26に供給されてリムーバブルメディア27に記録されたりする。
【0133】
〈第2の実施の形態〉
[オーディオ信号処理装置の構成例]
なお、入力信号のチャンネル数が2以上である場合、チャンネルごとに独立して入力信号に対するマッピング処理(振幅変換)を行なうと、入力信号の各チャンネルの音量のバランスが変化してしまうことがある。そのため、複数チャンネルのオーディオ信号が入力信号として入力される場合には、全てのチャンネルにおいて、同一の特性のマッピング関数を用いてマッピング処理を行うことが好ましい。
【0134】
例えば、入力信号として、左右の2チャンネルのオーディオ信号(ステレオ信号)が入力され、各チャンネルに対して、同一の特性のマッピング関数を用いたマッピング処理が行われる場合、オーディオ信号処理装置は図8に示すように構成される。なお、図8において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0135】
図8のオーディオ信号処理装置121は、分析部131、マッピング制御情報決定部22、記録部23、マッピング処理部24、マッピング処理部132、出力部25、およびドライブ26から構成される。
【0136】
オーディオ信号処理装置121では、左チャンネルの入力信号が分析部131およびマッピング処理部24に供給され、右チャンネルの入力信号が分析部131およびマッピング処理部132に供給される。
【0137】
分析部131は、供給された左右のチャンネルの入力信号の特性を分析し、1つの分析特徴量を生成してマッピング制御情報決定部22に供給する。また、マッピング制御情報決定部22は、分析部131からの分析特徴量から左右のチャンネルで共通のマッピング制御情報を求めて、マッピング処理部24およびマッピング処理部132に供給する。
【0138】
マッピング処理部132は、供給された入力信号に対して、マッピング制御情報決定部22からのマッピング制御情報を用いたマッピング処理を行い、その結果得られた出力信号を出力部25に供給する。
【0139】
[変換処理の説明]
次に、図9のフローチャートを参照して、オーディオ信号処理装置121により行われる変換処理について説明する。
【0140】
ステップS71において、分析部131は、供給された左右のチャンネルの入力信号の特性を分析する。例えば、分析部131は上述した式(2)の演算を行なって、左チャンネルの二乗平均平方根RMS(n)と、右チャンネルの二乗平均平方根RMS(n)とを算出する。
【0141】
ステップS72において、分析部131は、入力信号の特性の分析結果に基づいて、分析特徴量を生成し、マッピング制御情報決定部22に供給する。例えば、分析部131は、左チャンネルの二乗平均平方根RMS(n)と、右チャンネルの二乗平均平方根RMS(n)との平均値を求め、得られた平均値を分析特徴量とする。
【0142】
なお、左チャンネルの二乗平均平方根RMS(n)と、右チャンネルの二乗平均平方根RMS(n)とのうちの大きいほうの値や小さいほうの値が、そのまま分析特徴量とされるようにしてもよい。
【0143】
ステップS72の処理が行われて分析特徴量が生成されると、その後、ステップS73乃至ステップS75の処理が行われて変換処理は終了するが、これらの処理は図6のステップS42乃至ステップS44の処理と同様であるため、その説明は省略する。
【0144】
但し、ステップS74では、マッピング処理部24およびマッピング処理部132において、同一のマッピング制御情報が用いられて、同じ特性のマッピング関数により、それぞれ左チャンネルの出力信号と右チャンネルの出力信号とが生成される。
【0145】
そして、ステップS75では、これらの左右のチャンネルの出力信号が後段に出力されたり、ドライブ26を介してリムーバブルメディア27に記録されたりする。
【0146】
このようにして、オーディオ信号処理装置121は、左右のチャンネルの入力信号の特性を分析して、左右のチャンネルで共通のマッピング制御情報を生成し、得られたマッピング制御情報を用いて、各チャンネルで同一のマッピング処理を行う。このように、左右のチャンネルで共通のマッピング制御情報を用いて、各チャンネルの入力信号に対して同一のマッピング処理を行うことで、チャンネル間の音量のバランスを変えることなく、オーディオ信号の再生レベルを強調することができる。
【0147】
なお、以上においては、左右の2つのチャンネルの入力信号が入力される場合について説明したが、入力信号が3以上のチャンネルから構成されている場合も、全チャンネルで共通のマッピング制御情報が生成される。
【0148】
〈第3の実施の形態〉
[オーディオ信号処理装置の構成例]
また、入力信号としてのオーディオ信号により再生される音声や楽曲は、周波数帯域ごとに特性が異なる。そのため、周波数帯域ごとにその帯域に適した分析を行なえば、得られた分析特徴量から、より適切なマッピング制御情報を得ることができるようになる。
【0149】
入力信号の周波数帯域ごとに特性の分析を行なって分析特徴量を生成する場合、オーディオ信号処理装置は、例えば図10に示すように構成される。なお、図10において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0150】
図10のオーディオ信号処理装置161は、帯域分割フィルタ171、分析部21、マッピング制御情報決定部22、記録部23、マッピング処理部24、出力部25、およびドライブ26から構成される。また、オーディオ信号処理装置161に供給された入力信号は、帯域分割フィルタ171およびマッピング処理部24に供給される。
【0151】
帯域分割フィルタ171は、供給された入力信号に対する帯域分割を行なって、入力信号を高域成分と低域成分に分割し、高域成分である高域信号と低域成分である低域信号とを分析部21に供給する。分析部21は、帯域分割フィルタ171からの高域信号および低域信号から分析特徴量を生成し、マッピング制御情報決定部22に供給する。
【0152】
[変換処理の説明]
次に、図11のフローチャートを参照して、オーディオ信号処理装置161により行われる変換処理について説明する。
【0153】
ステップS101において、帯域分割フィルタ171は、供給された入力信号に対してフィルタ処理等を行うことで入力信号を帯域分割し、その結果得られた高域信号と低域信号を分析部21に供給する。
【0154】
例えば、入力信号は、300Hz前後の周波数で帯域制限され、300Hz以下の周波数成分からなる低域信号と、300Hzより大きい周波数成分からなる高域信号とに分割される。
【0155】
なお、入力信号の周波数帯域を300Hzで2分割する例について説明したが、その他、200Hzや400Hz、1kHz、3.4kHzなど、どのような周波数で入力信号が帯域分割されるようにしてもよい。また、入力信号が3以上の周波数帯域に分割されてもよい。
【0156】
さらに、フーリエ変換等により入力信号を周波数領域の信号に変換してから、その信号を各周波数帯域の成分に分割し、分割後の各周波数帯域の成分をフーリエ逆変換等により、各周波数帯域の時間信号にすることで、各周波数帯域の信号を得るようにしてもよい。
【0157】
ステップS102において、分析部21は、帯域分割フィルタ171から供給された高域信号および低域信号の特性を分析する。
【0158】
例えば、分析部21は次式(4)の演算を行なって、低域信号のn番目のサンプルについての二乗平均平方根RMS_l(n)を算出する。
【0159】
【数4】
【0160】
なお、式(4)において、x_l(m)は、低域信号のm番目のサンプルのサンプル値を示している。また、式(4)においては、低域信号の値、つまり低域信号の各サンプルのサンプル値は、−1≦x_l(m)≦1となるように正規化されているものとする。式(4)による演算は、n番目のサンプルを中心とするM個の連続するサンプルからなる区間についての二乗平均平方根を求める演算である。
【0161】
また、分析部21は次式(5)の演算を行なって、高域信号のn番目のサンプルについての二乗平均平方根RMS_h(n)を算出する。
【0162】
【数5】
【0163】
なお、式(5)において、x_h(m)は、高域信号のm番目のサンプルのサンプル値を示している。また、式(5)においては、高域信号の値、つまり高域信号の各サンプルのサンプル値は、−1≦x_h(m)≦1となるように正規化されているものとする。式(5)による演算は、n番目のサンプルを中心とするN個の連続するサンプルからなる区間についての二乗平均平方根を求める演算である。
【0164】
このように、分析部21では、低域信号と高域信号に対して、それぞれ異なる分析が行なわれる。
【0165】
なお、低域信号や高域信号に対する特性の分析として、低域信号や高域信号の二乗平均値、低域信号や高域信号の二乗平均値を対数化したもの、低域信号や高域信号の二乗平均値の平方根、低域信号や高域信号の二乗平均値の平方根を対数化したもののt乗値(但し、t≧2)などを求めるようにしてもよい。また、それらの信号の零交差率や周波数エンベロープの傾きなどを求めるようにしてもよい。
【0166】
ステップS103において、分析部21は、高域信号および低域信号の特性の分析結果に基づいて、分析特徴量を生成し、マッピング制御情報決定部22に供給する。
【0167】
例えば、分析部21は次式(6)を計算して、二乗平均平方根RMS_l(n)と二乗平均平方根RMS_h(n)の重み付き加算値を分析特徴量として算出する。
【0168】
【数6】
【0169】
なお、式(6)において、pおよびqは重みを示しており、例えばp=q=0.5などとされる。また、ここでは各帯域の分析結果に対する重みp,qは等しい値とされているが、特定の帯域の分析結果に、より大きな重みが付けられるようにしてもよい。
【0170】
このようにして得られたRMS’(n)が、入力信号のn番目のサンプルの分析特徴量とされる。分析特徴量が生成されると、その後、ステップS104乃至ステップS106の処理が行われて変換処理は終了するが、これらの処理は図6のステップS42乃至ステップS44の処理と同様であるので、その説明は省略する。
【0171】
以上のように、オーディオ信号処理装置161は、入力信号の周波数帯域ごとに、その特性を分析し、各周波数帯域の信号の分析結果から分析特徴量を生成する。そして、オーディオ信号処理装置161は、分析特徴量から得られるマッピング制御情報を用いて入力信号に対するマッピング処理を行い、出力信号を生成する。
【0172】
入力信号の周波数帯域ごとに、それらの周波数帯域に適した分析を行なうことで、得られた分析特徴量から、より適切なマッピング制御情報を得ることができるようになる。これにより、オーディオ信号の再生レベルをより効果的に強調することができる。
【0173】
なお、入力信号と、高域信号や低域信号などの各周波数帯域の信号とに対して、それぞれ異なる分析を行い、それらの分析結果から分析特徴量を生成するようにしてもよい。分析特徴量は、マッピング処理の効果の評価が高くなるものや、マッピング制御に適したものを用いればよい。
【0174】
ところで、入力信号の音声の音量を、ユーザが望む理想的な音量に変換するためのマッピング制御情報を得るには、ユーザ自身がマッピング制御情報の入力,調整を行なうことが最も妥当な方法である。
【0175】
したがって、例えば、統計学習により得られたマッピング制御モデルを用いずに、分析特徴量を用いた計算により求められるマッピング制御情報、および本技術により得られたマッピング制御情報のそれぞれと、複数のユーザが入力したマッピング制御情報との誤差を統計的に評価すれば、本技術の効果を確認することができる。
【0176】
本出願人による評価の結果、マッピング制御モデルを用いずに、分析特徴量からマッピング制御情報を求める方法(以下、比較手法と称する)よりも、第1の実施の形態で説明した手法の方が、より理想的なマッピング制御情報が得られることが確認された。さらに、第1の実施の形態で説明した手法よりも、第3の実施の形態で説明した手法の方が、さらに理想的なマッピング制御情報が得られることが確認された。
【0177】
また、比較手法、第1の実施の形態で説明した手法、および第3の実施の形態で説明した手法による出力信号の主観評価においても、比較手法よりも第1の実施の形態で説明した手法がより評価が高く、第1の実施の形態で説明した手法よりも第3の実施の形態で説明した手法がさらに評価が高いことが確認された。このように、本技術によれば、よりユーザに好ましい音量制御を実現することが可能となる。
【0178】
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0179】
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0180】
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
【0181】
バス304には、さらに、入出力インターフェース305が接続されている。入出力インターフェース305には、キーボード、マウス、マイクロホンなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307、ハードディスクや不揮発性のメモリなどよりなる記録部308、ネットワークインターフェースなどよりなる通信部309、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア311を駆動するドライブ310が接続されている。
【0182】
以上のように構成されるコンピュータでは、CPU301が、例えば、記録部308に記録されているプログラムを、入出力インターフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
【0183】
コンピュータ(CPU301)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア311に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【0184】
そして、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インターフェース305を介して、記録部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記録部308にインストールすることができる。その他、プログラムは、ROM302や記録部308に、あらかじめインストールしておくことができる。
【0185】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0186】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0187】
さらに、本技術は、以下の構成とすることも可能である。
【0188】
[1]
入力信号の特性を分析し、分析特徴量を生成する分析部と、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定するマッピング制御情報決定部と、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部と
を備える信号処理装置。
[2]
前記マッピング制御情報を得るための情報は、前記信号処理装置ごとに学習されたものである
[1]に記載の信号処理装置。
[3]
前記マッピング制御情報を得るための情報は、前記分析特徴量から前記マッピング制御情報を求める関数を得るための情報、または前記分析特徴量から前記マッピング制御情報を得るためのテーブルである
[1]または[2]に記載の信号処理装置。
[4]
前記関数は、前記分析特徴量と無相関な項を有する
[3]に記載の信号処理装置。
[5]
前記分析部は、学習用の学習音源信号の特性を分析して前記分析特徴量を生成し、
前記学習音源信号の前記分析特徴量と、ユーザにより前記学習音源信号に付与された前記マッピング制御情報とを用いた学習により、前記マッピング制御情報を得るための情報を生成する学習部をさらに備える
[1]乃至[4]の何れかに記載の信号処理装置。
[6]
前記分析特徴量は、前記入力信号の二乗平均、前記入力信号の二乗平均を対数化したもの、前記入力信号の二乗平均平方根、前記入力信号の二乗平均平方根を対数化したもの、または前記入力信号の零交差率である
[1]乃至[5]の何れかに記載の信号処理装置。
[7]
前記分析部は、複数のチャンネルごとに前記入力信号に対する振幅変換が行なわれて、各チャンネルの前記出力信号が生成される場合、前記複数のチャンネルの前記入力信号に基づいて、全チャンネルで共通する1つの前記分析特徴量を生成する
[1]乃至[5]の何れかに記載の信号処理装置。
[8]
前記入力信号を複数の周波数帯域の信号に分割する帯域分割部をさらに備え、
前記分析部は、前記信号の二乗平均、前記信号の二乗平均を対数化したもの、前記信号の二乗平均平方根、または前記信号の二乗平均平方根を対数化したものを重み付き加算することで前記分析特徴量を生成する
[1]乃至[5]の何れかに記載の信号処理装置。
【符号の説明】
【0189】
11 オーディオ信号処理装置, 21 分析部, 22 マッピング制御情報決定部, 24 マッピング処理部, 61 入力部, 62 マッピング制御情報付与部, 63 マッピング処理部, 65 分析部, 66 マッピング制御モデル学習部, 131 分析部, 132 マッピング処理部, 171 帯域分割フィルタ
【特許請求の範囲】
【請求項1】
入力信号の特性を分析し、分析特徴量を生成する分析部と、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定するマッピング制御情報決定部と、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部と
を備える信号処理装置。
【請求項2】
前記マッピング制御情報を得るための情報は、前記信号処理装置ごとに学習されたものである
請求項1に記載の信号処理装置。
【請求項3】
前記マッピング制御情報を得るための情報は、前記分析特徴量から前記マッピング制御情報を求める関数を得るための情報、または前記分析特徴量から前記マッピング制御情報を得るためのテーブルである
請求項2に記載の信号処理装置。
【請求項4】
前記関数は、前記分析特徴量と無相関な項を有する
請求項3に記載の信号処理装置。
【請求項5】
前記分析部は、学習用の学習音源信号の特性を分析して前記分析特徴量を生成し、
前記学習音源信号の前記分析特徴量と、ユーザにより前記学習音源信号に付与された前記マッピング制御情報とを用いた学習により、前記マッピング制御情報を得るための情報を生成する学習部をさらに備える
請求項4に記載の信号処理装置。
【請求項6】
前記分析特徴量は、前記入力信号の二乗平均、前記入力信号の二乗平均を対数化したもの、前記入力信号の二乗平均平方根、前記入力信号の二乗平均平方根を対数化したもの、または前記入力信号の零交差率である
請求項5に記載の信号処理装置。
【請求項7】
前記分析部は、複数のチャンネルごとに前記入力信号に対する振幅変換が行なわれて、各チャンネルの前記出力信号が生成される場合、前記複数のチャンネルの前記入力信号に基づいて、全チャンネルで共通する1つの前記分析特徴量を生成する
請求項5に記載の信号処理装置。
【請求項8】
前記入力信号を複数の周波数帯域の信号に分割する帯域分割部をさらに備え、
前記分析部は、前記信号の二乗平均、前記信号の二乗平均を対数化したもの、前記信号の二乗平均平方根、または前記信号の二乗平均平方根を対数化したものを重み付き加算することで前記分析特徴量を生成する
請求項5に記載の信号処理装置。
【請求項9】
入力信号の特性を分析し、分析特徴量を生成する分析部と、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定するマッピング制御情報決定部と、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部と
を備える信号処理装置の信号処理方法であって、
前記分析部が前記分析特徴量を生成し、
前記マッピング制御情報決定部が前記マッピング制御情報を決定し、
前記マッピング処理部が前記出力信号を生成する
ステップを含む信号処理方法。
【請求項10】
入力信号の特性を分析し、分析特徴量を生成し、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定し、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
【請求項11】
入力信号の特性を分析して分析特徴量を生成し、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定し、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換する
ことで得られた出力信号が記録されたデータ記録媒体。
【請求項1】
入力信号の特性を分析し、分析特徴量を生成する分析部と、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定するマッピング制御情報決定部と、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部と
を備える信号処理装置。
【請求項2】
前記マッピング制御情報を得るための情報は、前記信号処理装置ごとに学習されたものである
請求項1に記載の信号処理装置。
【請求項3】
前記マッピング制御情報を得るための情報は、前記分析特徴量から前記マッピング制御情報を求める関数を得るための情報、または前記分析特徴量から前記マッピング制御情報を得るためのテーブルである
請求項2に記載の信号処理装置。
【請求項4】
前記関数は、前記分析特徴量と無相関な項を有する
請求項3に記載の信号処理装置。
【請求項5】
前記分析部は、学習用の学習音源信号の特性を分析して前記分析特徴量を生成し、
前記学習音源信号の前記分析特徴量と、ユーザにより前記学習音源信号に付与された前記マッピング制御情報とを用いた学習により、前記マッピング制御情報を得るための情報を生成する学習部をさらに備える
請求項4に記載の信号処理装置。
【請求項6】
前記分析特徴量は、前記入力信号の二乗平均、前記入力信号の二乗平均を対数化したもの、前記入力信号の二乗平均平方根、前記入力信号の二乗平均平方根を対数化したもの、または前記入力信号の零交差率である
請求項5に記載の信号処理装置。
【請求項7】
前記分析部は、複数のチャンネルごとに前記入力信号に対する振幅変換が行なわれて、各チャンネルの前記出力信号が生成される場合、前記複数のチャンネルの前記入力信号に基づいて、全チャンネルで共通する1つの前記分析特徴量を生成する
請求項5に記載の信号処理装置。
【請求項8】
前記入力信号を複数の周波数帯域の信号に分割する帯域分割部をさらに備え、
前記分析部は、前記信号の二乗平均、前記信号の二乗平均を対数化したもの、前記信号の二乗平均平方根、または前記信号の二乗平均平方根を対数化したものを重み付き加算することで前記分析特徴量を生成する
請求項5に記載の信号処理装置。
【請求項9】
入力信号の特性を分析し、分析特徴量を生成する分析部と、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定するマッピング制御情報決定部と、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部と
を備える信号処理装置の信号処理方法であって、
前記分析部が前記分析特徴量を生成し、
前記マッピング制御情報決定部が前記マッピング制御情報を決定し、
前記マッピング処理部が前記出力信号を生成する
ステップを含む信号処理方法。
【請求項10】
入力信号の特性を分析し、分析特徴量を生成し、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定し、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
【請求項11】
入力信号の特性を分析して分析特徴量を生成し、
前記分析特徴量と、学習により生成された、前記分析特徴量からマッピング制御情報を得るための情報とに基づいて、前記マッピング制御情報を決定し、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換する
ことで得られた出力信号が記録されたデータ記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2012−235310(P2012−235310A)
【公開日】平成24年11月29日(2012.11.29)
【国際特許分類】
【出願番号】特願2011−102394(P2011−102394)
【出願日】平成23年4月28日(2011.4.28)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成24年11月29日(2012.11.29)
【国際特許分類】
【出願日】平成23年4月28日(2011.4.28)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]