説明

音声信号処理装置、および音声信号処理方法、並びにプログラム

【課題】環境音に応じた最適なマッピング制御により音声信号のレベルを様々な環境下で最適に自動制御する。
【解決手段】入力信号の特性を分析し入力音特徴量を生成し、環境音の特性を解析し環境音特徴量を生成し、生成した入力音特徴量と環境音特徴量を適用して、入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成する。さらに、マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて入力信号を振幅変換し、出力信号を生成する。マッピング制御情報は、例えば入力信号と環境音を考慮して生成したモデルを参照して生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声信号処理装置、および音声信号処理方法、並びにプログラムに関する。具体的には、例えば、音声信号の再生レベルをユーザに対して最適に自動制御する手法に関する。
【背景技術】
【0002】
例えば、音声の音量のダイナミックレンジが大きい映画コンテンツや音楽コンテンツを、小型スピーカを内蔵したポータブル機器で再生する場合、全体的に音声の音量が小さくなるだけでなく、特に音量の小さなセリフなどは、聞こえにくくなる。
具体的には、例えば図1に示すように、
(A)小型のマイクと小型のスピーカを備えたPC
(B)小型のマイクと小型のスピーカを備えた携帯端末
このような小型の機器では、スピーカの大きさに制限があり、十分な音量出力を得られずに音量の小さなセリフなどが聞こえにくくなるという問題がある。
【0003】
これらのコンテンツの音声をより聞こえ易くするための技術として、ノーマライズや自動ゲイン制御等、音量を調整する技術があるが、このような音量制御は充分に長いデータの先読みを行わないと、聴感上不安定な制御になってしまう。
【0004】
また、音量のダイナミックレンジのコンプレッション処理により、音声の音量の小さい部分をブーストし、音量の大きな部分をコンプレッションする技術もある。しかしながら、コンプレッション処理では、音量のブーストとコンプレッションの特性を汎用的なものとすると、音声の高い強調効果を得ることは困難であり、高い効果を得るためには、コンテンツ毎にその特性を変える必要がある。
【0005】
例えば、ドルビーAC3(Audio Code number 3)におけるダイナミックレンジコンプレッションは、ダイアログノーマライズで指定された音圧レベルを基準として、それよりも小さい音圧レベルの信号をブーストし、大きな音圧レベルの信号をコンプレッションする技術である。ところが、この技術では、充分な効果を得るために、音声信号の符号化時にダイアログノーマライズのための音圧レベルと、ブーストおよびコンプレッションの特性の指定が必要となる。
【0006】
さらに、音声の音量のダイナミックレンジをコンプレッションする場合に、音声信号の絶対値の平均値により定まる係数を音声信号に乗算することで、音声信号の小さい音をより聞こえ易くする技術も提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平05−275950号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
昨今、ユーザは様々な静かな環境やうるさい環境など様々な環境下に小型スピーカを内蔵した様々なポータブル機器を携帯し、映画や音楽、自己録コンテンツなど、様々な種類のコンテンツを聞くようになった。しかしながら周りの環境音の大きさによって、同じ再生音量でも大きすぎたり小さすぎたりしてしまう。よって、それらのポータブル機器において、様々なコンテンツの音量を環境音の大きさに応じて最適に自動制御する技術が必要となる。
【0009】
本開示は、例えば上記の実情を鑑みてなされたものであり、音声信号の再生レベルを環境音の大きさに応じて最適に自動制御する音声信号処理装置、および音声信号処理方法、並びにプログラムを提供することを目的としたものである。
【課題を解決するための手段】
【0010】
本開示の第1の側面は、
入力信号の特性を分析し、入力音特徴量を生成する入力分析部と、
環境音の特性を解析し、環境音特徴量を生成する環境分析部と、
前記入力音特徴量と前記環境音特徴量を適用して、前記入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成するマッピング制御情報生成部と、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部と、
を有する音声信号処理装置にある。
【0011】
さらに、本開示の音声信号処理装置の一実施態様において、前記マッピング制御情報生成部は、前記入力音特徴量を適用して予備的なマッピング制御情報を生成するマッピング制御情報決定部と、前記予備的なマッピング制御情報に対して、前記環境音特徴量を適用した調整処理により、前記マッピング処理部に出力する前記マッピング制御情報を生成するマッピング制御情報調整部を有する。
【0012】
さらに、本開示の音声信号処理装置の一実施態様において、前記入力分析部は、前記入力音特徴量として予め規定した複数の連続サンプルを利用して算出した二乗平均平方根を算出し、前記環境分析部は、前記環境音特徴量として環境音信号の複数の連続サンプルを利用して算出した二乗平均平方根を算出し、前記マッピング制御情報生成部は、前記入力音特徴量である入力信号の二乗平均平方根と、前記環境音特徴量である環境音信号の二乗平均平方根とを利用して前記マッピング制御情報を生成する。
【0013】
さらに、本開示の音声信号処理装置の一実施態様において、前記入力音特徴量、および前記環境音特徴量は、特徴量算出対象信号の二乗平均、または二乗平均を対数化したもの、または二乗平均平方根、または二乗平均平方根を対数化したもの、または信号の零交差率、または周波数エンベロープの傾き、またはそれらの重み付け加算した結果である。
【0014】
さらに、本開示の音声信号処理装置の一実施態様において、前記環境分析部は、マイクを介して取得された収音信号から帯域分割処理によって分割された環境音の占有率の高い帯域信号の特徴解析を実行して前記環境音特徴量を算出する。
【0015】
さらに、本開示の音声信号処理装置の一実施態様において、前記音声信号処理装置は、前記マッピング処理部においてマッピング処理の施された信号の帯域制限処理を実行する帯域制限部を有し、前記帯域制限部における帯域制限後の信号を、スピーカを介して出力する。
【0016】
さらに、本開示の音声信号処理装置の一実施態様において、前記マッピング制御情報生成部は、入力信号と環境音信号を含む学習用信号を適用した統計解析処理によって生成したマッピング制御モデルを適用して前記マッピング制御情報を生成する。
【0017】
さらに、本開示の音声信号処理装置の一実施態様において、前記マッピング制御モデルは、各種の入力信号と環境音信号に対してマッピング制御情報を対応付けたデータである。
【0018】
さらに、本開示の音声信号処理装置の一実施態様において、前記入力信号は、複数チャンネルの複数の入力信号によって構成され、前記マッピング処理部は、各入力信号に対する個別のマッピング処理を実行する構成である。
【0019】
さらに、本開示の音声信号処理装置の一実施態様において、前記音声信号処理装置は、さらに、前記マッピング処理部の生成したマッピング処理信号に対して、前記環境分析部の生成する環境音特徴量に応じたゲイン調整を実行するゲイン調整部を有する。
【0020】
さらに、本開示の第2の側面は、
音声信号処理装置において実行する音声信号処理方法であり、
入力信号の特性を分析し、入力音特徴量を生成する入力分析ステップと、
環境音の特性を解析し、環境音特徴量を生成する環境分析ステップと、
前記入力音特徴量と前記環境音特徴量を適用して、前記入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成するマッピング制御情報生成ステップと、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理ステップと、
を実行する音声信号処理方法にある。
【0021】
さらに、本開示の第3の側面は、
音声信号処理装置において音声信号処理を実行させるプログラムであり、
入力信号の特性を分析し、入力音特徴量を生成する入力分析ステップと、
環境音の特性を解析し、環境音特徴量を生成する環境分析ステップと、
前記入力音特徴量と前記環境音特徴量を適用して、前記入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成するマッピング制御情報生成ステップと、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理ステップと、
を実行させるプログラムにある。
【0022】
なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な汎用システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。
【0023】
本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【発明の効果】
【0024】
本開示の一実施例構成によれば、環境音が大きいときや小さいときに最適なマッピング制御が可能となり、音量が物足りないあるいは歪が気になるといったユーザの不満を減少させ、音声信号の再生レベルを様々な環境下でもユーザに対して最適に自動制御することが可能となる。
【0025】
具体的には、例えば、入力信号の特性を分析し入力音特徴量を生成し、環境音の特性を解析し環境音特徴量を生成し、生成した入力音特徴量と環境音特徴量を適用して、入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成する。さらに、マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて入力信号を振幅変換し、出力信号を生成する。マッピング制御情報は、例えば入力信号と環境音を考慮して生成したモデルを参照して生成する。
これらの構成により、環境音に応じた最適なマッピング制御により音声信号のレベルを様々な環境下で最適に自動制御することが可能となる。
【図面の簡単な説明】
【0026】
【図1】小型スピーカを備えた装置例について説明する図である。
【図2】本開示の第1の実施形態における音声信号処理方法の実施例を示すブロック図である。
【図3】本開示の第1〜8の実施形態における収音信号の帯域分割時の周波数帯域内訳の例を示す図である。
【図4】本開示の第1の実施形態におけるマッピング制御情報調整量関数グラフの例である。
【図5】本開示の第1の実施形態におけるマッピング関数グラフの例である。
【図6】本開示の第2の実施形態における音声信号処理方法の実施例を示すブロック図である。
【図7】本開示の第3の実施形態における音声信号処理方法の実施例を示すブロック図である。
【図8】本開示の第3の実施形態におけるマッピング制御モデル学習方法の実施例を示すブロック図である。
【図9】本開示の第3の実施形態におけるマッピング制御情報付与方法の実施例を示すフローチャートである。
【図10】本開示の第3の実施形態におけるマッピング制御モデルによる回帰曲線のグラフの例である。
【図11】本開示の第4の実施形態における音声信号処理方法の実施例を示すブロック図である。
【図12】本開示の第4の実施形態におけるマッピング制御モデル学習方法の実施例を示すブロック図である。
【図13】本開示の第4の実施形態におけるマッピング制御情報付与方法の実施例を示すフローチャートである。
【図14】本開示の第5の実施形態における音声信号処理方法の実施例を示すブロック図である。
【図15】本開示の第6の実施形態における音声信号処理方法の実施例を示すブロック図である。
【図16】本開示の第7の実施形態における音声信号処理方法の実施例を示すブロック図である。
【図17】本開示の第8の実施形態における音声信号処理方法の実施例を示すブロック図である。
【発明を実施するための形態】
【0027】
以下、図面を参照しながら本開示の音声信号処理装置、および音声信号処理方法、並びにプログラムの詳細について説明する。
なお、本開示の音声信号処理装置は、例えば先に図1を参照して説明したような小型スピーカを備えた装置等のスピーカからの出力音の制御を行うものであり、周囲の様々な雑音等の環境音が発生する環境であっても、出力音をより聞きやすくする音声信号処理を行うものである。具体的には、例えば、環境音に応じて音声信号の再生レベルを最適に自動制御する処理などを行う。
【0028】
本開示に従った音声信号処理装置の複数の実施例について、以下の項目に従って、順次、説明する。
1.第1の実施形態について
2.第2の実施形態について
3.第3の実施形態について
4.第4の実施形態について
5.第5の実施形態について
6.第6の実施形態について
7.第7の実施形態について
【0029】
[1.第1の実施形態について]
本開示の第1の実施形態による音声信号処理装置のブロック図を図2に示す。
図2に示す音声信号処理装置100は、例えば先に図1を参照して説明した(A)PCや(B)携帯端末などの情報処理装置の内部装置として構成可能であり、あるいは、様々な音声出力装置に接続し、音声出力装置から出力される音声信号の処理を行う独立した装置としても構成可能である。
【0030】
図2に示す音声信号処理装置100は、以下の構成を有する。
入力部101、
入力分析・マッピング制御情報決定部102、
マイク111、
帯域分割部112、
環境分析部113、
マッピング制御情報調整部114、
マッピング処理部121、
帯域制限部122、
スピーカ123、
これらの構成を有する。
【0031】
入力部101は、再生対象となる音声信号の入力部である。例えば図1に示すような(A)PCや(B)携帯端末などの情報処理装置においては、情報処理装置内の再生信号生成部の生成した音声信号の入力部となる。あるいは外部の音声再生装置の音声出力部に接続された入力部などに相当する。
図2に示す音声信号処理装置は、図1に示すPCや携帯端末と同様、マイク111とスピーカ123を備えている。
【0032】
入力部101から入力された再生対象入力信号は、入力信号分析・マッピング制御情報決定部102に入力される。
入力信号分析・マッピング制御情報決定部102は、入力音声信号の特性の分析を行う。
具体的には、入力信号分析・マッピング制御情報決定部102は、以下に示す(式1)に従って、入力部101からの入力信号のn番目のサンプルを中心としたNサンプルによる二乗平均平方根RMS(n)を算出して出力する。
【0033】
【数1】

・・・(式1)
【0034】
上記(式1)において、
xは、入力部101から入力された再生対象入力信号であり、例えば音声レベルを−1.0〜1.0の値に正規化したデータである。
入力信号分析・マッピング制御情報決定部102は、処理対象信号をn番目のサンプル信号として、n番目のサンプルを中心として予め規定したN個の連続するサンプルを利用して上記(式1)に従って、n番目のサンプルに対応する特徴量としての二乗平均平方根RMS(n)を算出する。
【0035】
入力信号分析・マッピング制御情報決定部102は、上記(式1)に従って算出した二乗平均平方根RMS(n)をn番目の入力サンプル信号に対するマッピング制御情報α0として、マッピング制御情報調整部114に供給する。
【0036】
なお、上述した処理例では、入力信号分析・マッピング制御情報決定部102の算出するマッピング制御情報は、二乗平均平方根RMS(n)を利用した処理例としている。しかし、マッピング制御情報としては、この二乗平均平方根RMS(n)の他、RMS(n)のt乗値(t>=2)や、零交差率、周波数エンベロープの傾きなど、様々な分析特徴量の利用が可能である。これらの様々な入力信号に関する特徴量を任意に追加・組み合わせたデータ、例えば重み付け加算結果に基づいてマッピング制御情報α0を生成して、マッピング制御情報調整部114に供給する構成としてもよい。
【0037】
マッピング制御情報調整部114は、入力信号分析・マッピング制御情報決定部102から入力したマッピング制御情報α0に対して、環境音の大きさに応じたマッピング制御情報の調整を行う。
【0038】
なお、環境音は、マイク111による収音信号に含まれる音である。
マイク111から収音された信号(収音信号)には、周囲の純粋な環境音と、音声信号処理装置100のスピーカ123から出力される出力信号が含まれる。
すなわち、図3に示すように、周りの音(環境音)とともにスピーカからの出力信号も含まれる。
なお、以下の説明において、環境音とは、マイク111の収音信号から、音声信号処理装置100のスピーカ123からの出力信号を除いたすべての音を含むものとする。すなわち、環境音には、周囲の様々な音、ノイズを含み、例えばユーザが自ら発する声や、装置自身から発生するノイズなども含まれる。
【0039】
図3は、マイク111から収音された信号(収音信号)の解析データの例であり、横軸に周波数、縦軸にパワースペクトルを示した図である。
例えば、一例として、図3に示すように、周波数=150Hz以下の帯域は環境音、150Hz以上の帯域にはスピーカ123からの出力信号の占める割合が大きくなるという特性が得られる。なお、図3に示す周波数=150Hzを境界として環境音と、スピーカ出力信号が分離されるのは、スピーカ123からの出力信号をスピーカ123前段の帯域制限部122によって帯域制限していることに起因する。すなわち、スピーカ123からの出力信号は、マイク111に収音される以前の段階で帯域制限されるためである。この帯域制限処理の詳細については後述する。
【0040】
マイク111による収音信号は、帯域分割部112において環境音のみが含まれる周波数帯域である150Hz以下の低域信号と、環境音に加えスピーカ123からの出力信号も含まれる高域信号に分割される。
【0041】
なお、この処理例では、図3を参照して説明した特性に応じて150Hzで二分割しているが、環境音のみが含まれる帯域とそれ以外の帯域とに分割できれば良く、聴感や分析に適した周波数で分割すると良い。
また予め、入力部101から入力する信号の帯域が判明している場合、その入力信号に応じた分割処理を行ってもよい。具体的には、例えば入力部101からの入力信号が、低域及び高域がカットされている信号である場合には、低域、中域、高域の3分割して、各分割領域単位で環境音のみの領域と、環境音とスピーカからの出力信号の混在領域とを区分してもよい。
【0042】
帯域分割部112において分割された収音信号は環境分析部113に入力される。
環境分析部113は、環境音の特徴量を算出する。すなわち、本処理例では、帯域分割部112において分割された収音信号のうち、ほとんどが環境音から構成されると推定される低域信号の特徴量を算出する。
具体的には、上記の(式1)と同様に分割された収音信号のうち環境音の占有率の高い低域信号のk番目のサンプルを中心としたKサンプルによる二乗平均平方根RMS(k)を分析特徴量として、マッピング制御情報調整部114に供給する。
【0043】
なお、環境分析部113における環境音の特徴量は、二乗平均平方根RMS(k)のほかにもRMS(n)のt乗値(t>=2)や、零交差率、周波数エンベロープの傾きなど、様々な分析特徴量を任意に追加・組み合わせたデータ、例えば重み付け加算結果を利用してもよい。
【0044】
また環境音のみが含まれる帯域信号が高域のみ、あるいは低域及び高域両方の場合には、高域信号のみの分析特徴量あるいは低域信号及び高域信号から求めた分析特徴量を適用する。環境音の混在率に応じて、低域の分析特徴量と高域の分析特徴量の重み付け和などを算出して、これを最終的な環境音の分析特徴量としても良い。
【0045】
なお、本実施例では、スピーカ123の再生帯域を除いた帯域分割信号から分析特徴量を求めているが、低域のみ、あるいは高域のみ、あるいは中域を除いた低域及び高域両方の帯域分割信号の分析特徴量から、関数またはテーブルまたは事前の統計解析に基づく統計モデルを用いて、分析対象外の中域信号あるいは全周波数帯域の信号の分析特徴量を求めることもできる。
【0046】
例えば二分割で高域が抜けている場合に、低域信号を複数のサブバンドに分け、各サブバンド信号の二乗平均平方根の平均と傾きを説明変数とし、抜けた高域を同様にサブバンドに分けたときの各サブバンド信号の二乗平均平方根を被説明変数として回帰推定を行い、その結果を最終的な分析特徴量としても良い。
【0047】
さらにここでは、マイク111はモノラルマイクの想定で説明したが、マイク111を2つ以上のマイクとして構成しても良い。その場合にはマイクごとに帯域分割を行いそれぞれの信号を環境分析部113に供給する。
また前述の分析特徴量に加えて、各マイクからの信号の差分や相関、推定音源方向なども分析特徴量としても良い。
【0048】
環境分析部113の算出した環境音の特徴量である環境音特徴量は、マッピング制御情報調整部114に入力される。
【0049】
マッピング制御情報調整部114は、
入力信号分析・マッピング制御情報決定部102から、n番目の入力サンプル信号に対する特徴量であるマッピング制御情報α0を入力し、
環境分析部113の算出した環境音の特徴量を入力する。
これらは、例えば、いずれも、先に説明した(式1)に従って算出した二乗平均平方根RMSの値である。
【0050】
マッピング制御情報調整部114は、環境分析部113から得られた環境音特徴量に基づいて、n番目の入力サンプル信号に対する特徴量であるマッピング制御情報α0の調整を行い、マッピング処理部121に供給する。
【0051】
マッピング制御情報調整部114は、例えば、以下に示す(式2)のような非線形関数を用いてマッピング制御情報調整量yを求める。xは環境音特徴量RMS(k)である。
【0052】
【数2】

・・・・(式2)
なおp,q,rは、予め規定したパラメータである。
【0053】
図4に、上記(式2)に対応するグラフを示す。
図4のグラフは横軸(x)、縦軸(y)を以下の設定としたグラフである。
x:環境音特徴量RMS(k)
y:マッピング制御情報調整量
これらの対応関係を示すグラフである。
【0054】
横軸(x)は環境音のパワー(db)に相当する。右方向に進むに従って環境音のパワーが大になることを意味している。
環境音が大きくなるほど、マッピング制御情報調整量yは小となり、
環境音が小さくなるほど、マッピング制御情報調整量yは大となる。
【0055】
なお、この実施例では、マッピング制御情報調整量yの算出処理に、上記の(式2)に示す非線形関数を用いたが、環境音特徴量とマッピング制御情報調整量の関係を表す線形または非線形関数またはテーブルまたは線形回帰モデルあるいは非線形回帰モデルを使用しても良い。
【0056】
マッピング制御情報調整部114は、(式2)によって算出したマッピング制御情報調整量yを用いて、さらに、以下に示す(式3)のような関数を用いて、入力分析・マッピング制御情報決定部102から入力する入力サンプル信号に対する特徴量であるマッピング制御情報α0を調整する。
【0057】
【数3】

・・・・(式3)
【0058】
上記(式3)において、α0は、入力分析・マッピング制御情報決定部102から入力する入力サンプル信号に対する特徴量であるマッピング制御情報RMS(n)であり、
αは調整後のマッピング制御情報、
である。
【0059】
先に図4を参照して説明したように、
環境音が大きくなるほど、マッピング制御情報調整量yは小となり、
環境音が小さくなるほど、マッピング制御情報調整量yは大となる。
従って、調整後のマッピング制御情報αの値は、以下のように調整される。
環境音が大きくなるほど、調整後のマッピング制御情報αの値は小となり、
環境音が小さくなるほど、調整後のマッピング制御情報αの値は大となる。
【0060】
なお、この実施例では、調整後のマッピング制御情報αの算出処理として、入力サンプル信号に対する特徴量であるマッピング制御情報α0に(式2)によって算出したマッピング制御情報調整量yを加算する例としたが、これらの値を乗算し、例えば、
α=α0×y
上記式によって、調整後のマッピング制御情報αの算出を行ってもよい。その他、線形または非線形関数またはテーブルまたは線形回帰モデルあるいは非線形回帰モデルを用いる構成としてもよい。
【0061】
上述したように、マッピング制御情報調整部114は、
環境音特徴量x(=RMS(k))を適用して、(式2)に示す非線形関数(図4)を用いてマッピング制御情報調整量yを求め、
さらに、マッピング制御情報調整量yを用いて、入力分析・マッピング制御情報決定部102から入力する入力サンプル信号に対する特徴量であるマッピング制御情報α0の調整値、すなわち、調整マッピング制御情報αを算出する。
【0062】
マッピング制御情報調整部114の算出した調整マッピング制御情報αは、マッピング処理部121に入力される。
マッピング処理部121は、以下に示す(式4)のような非線形関数をマッピング関数として用い、入力部101から入力する再生対象入力信号の振幅を変換し、帯域制限部122に出力する。
【0063】
【数4】

・・・・(式4)
【0064】
なお、上記(式4)において、
xは、例えば、パワーを−1.0〜1.0の範囲で正規化した入力サンプル信号、
αはマッピング制御情報調整部114から供給された調整後のマッピング制御情報、
である。
【0065】
図5に(式4)のグラフを示す。
横軸がx、すなわち−1.0〜1.0の正規化信号x、
縦軸がf(x)、すなわち、上記(式4)に従って算出される出力f(x)であり、マッピング関数f(x)、
である。
【0066】
図5には、マッピング制御情報調整部114から供給される調整後マッピング制御情報αの値を、
α=50、
α=5、
α=3、
これらの3種類について例示している。
調整後マッピング制御情報αが小さいほど、増幅量が大きく設定される。
【0067】
先に(式3)を参照して説明したように、調整後のマッピング制御情報αの値は、以下のように調整される。
環境音が大きくなるほど、調整後のマッピング制御情報αの値は小となり、
環境音が小さくなるほど、調整後のマッピング制御情報αの値は大となる。
従って、環境音が大きくなるほど、増幅量が大きく設定され、環境音が小さくくなるほど、増幅量が小さく設定される。
【0068】
このように、本開示の音声信号処理装置100は、環境音に応じて、調整後マッピング制御情報αを変化させることにより入力信号に対する増幅量を変化させる処理を実行する。
なお、増幅量の変化処理による入力信号に対する影響は、例えばn番目の入力サンプル信号に対する特徴量であるマッピング制御情報α0(=RMS(n))の大きさによって変化する。即ち、n番目の入力サンプル信号に対して、RMS(n)が小さい場合は、急峻な特性のマッピング関数が適用された振幅変換が行なわれ、RMS(n)が大きい場合は、緩やかな特性のマッピング関数が適用された振幅変換を行われることになる。
【0069】
また、環境音の大小に応じてもこの増幅量が変化する。すなわち、図4、図5、及び前述の(式3)、(式4)から理解されるように、環境音の特徴量RMS(k)(図4のx)が大、すなわち環境音が大きくなるにつれて、調整後のマッピング制御情報αの値が小さくなり、図5に示すように調整量としての増幅量が増え、環境音の大きさに応じたマッピング制御情報の調整処理が実行される。
【0070】
なお、この実施例ではマッピング関数に非線形関数を用いたが、線形関数や指数関数を用いても良く、−1.0≦x≦1.0の入力に対し、−1.0≦f(x)≦1.0となる条件を満たすものであれば、どんな関数でも適用することが可能である。処理の効果や聴感上適したものをマッピング関数として用いると良い。
【0071】
また、ここでは、入力信号の1サンプル毎にマッピング制御情報αを導出し、マッピング制御部での振幅変換を制御しているが、例えば連続する2つ以上のサンプル毎に制御情報αを導出し、マッピング制御部での振幅変換を制御するようにしても良い。
【0072】
このように、マッピング処理部121は、上記した(式4)、すなわち図5に示すような非線形関数をマッピング関数として用い、入力部101から入力する再生対象入力信号の振幅を変換し、帯域制限部122に出力する。
【0073】
最後に帯域制限部122は、マッピング処理部121から出力される振幅変換の施された入力信号に対して帯域制限フィルタを適用して帯域制限した出力信号を生成する。例えば、低域カット処理が行われる。具体的には、例えば、出力部である小型のスピーカ123で再生した場合に帯域制限前と比較しても聴感上の差が小さい程度に低域をカットする処理が実行される。
【0074】
なお、帯域制限部122は、マッピング処理部121から出力される振幅変換の施された入力信号に対して帯域制限を行う代わりに再生対象入力信号に対して帯域制限しても良い。さらに、スピーカ123の性能によって再生可能な帯域が制限される場合、つまりスピーカ再生時に自然と帯域制限される場合には、改めて帯域制限処理をしなくても良い。また、ここでは帯域制限部でカットされる周波数を低域のみとしたが、高域のみあるいは低域及び高域両方をカットしても良い。
聴感及び前述の環境分析部113での分析に適した周波数帯域に帯域制限すると良い。
【0075】
以上のように、マイク111において取得される収音信号を帯域分割し、環境音の分析結果から適切なマッピング制御情報調整量を求めることで、環境音の大きさに応じた最適なマッピング制御情報を求めることができ、ユーザに環境に応じた最適な再生レベル制御を実現することができる。
【0076】
[2.第2の実施形態について]
本発明の第2の実施形態による音声信号処理装置のブロック図を図6に示す。
図6に示す音声信号処理装置200は、
入力部201、
入力分析・マッピング制御情報決定部202、
マイク211、
帯域分割部212、
環境分析部213、
マッピング処理部221、
帯域制限部222、
スピーカ223、
を有する。
【0077】
図2を参照して説明した第1実施形態の音声信号処理装置100との差異は、図2に示すマッピング制御情報調整部114を省略した点である。
図6に示す第2実施形態の音声信号処理装置200では、入力分析・マッピング制御情報決定部202が、マッピング処理部221に出力する最終的なマッピング制御情報αを生成する。
【0078】
その他の構成の処理は、第1の実施形態と同様である。すなわち、マイク211の取得する収音信号を帯域分割し、環境分析部において分析し、環境音特徴量RMS(k)を求める。
【0079】
入力信号分析・マッピング制御情報決定部202は、第1実施形態と同様、入力部201から入力する再生対象入力信号の特性を分析し入力音特徴量RMS(n)を求める。そして、入力音特徴量RMS(n)と環境音特徴量RMS(k)から以下に示す(式5)の関数を用いてマッピング制御情報αを求め、マッピング処理部221に供給する。
【0080】
【数5】

・・・・(式5)
a,bは予め規定したパラメータである。
【0081】
本実施例では、入力信号分析・マッピング制御情報決定部202のみにおいて、入力音特徴量RMS(n)と環境音特徴量RMS(k)から上記の(式5)の関数を用いてマッピング制御情報αを求め、マッピング処理部221に供給する。
【0082】
なお、この第2実施形態においても入力信号と環境音の分析特徴量としてRMS(n)、RMS(k)を示したが、第1の実施形態において説明したと同様の、この他の分析特徴量を用いても良い。
【0083】
マッピング処理部221は、前述の第1実施形態と同様、先に説明した(式4)のような非線形関数をマッピング関数として用いる。(式4)において、xは−1.0,〜1.0の範囲の正規化された入力サンプル信号、αはマッピング制御情報である。
【0084】
以下、本発明の第1の実施形態と同様にマッピング処理を行い、帯域制限部222において帯域制限を行い、スピーカ223を介して出力信号を出力する。
【0085】
以上のように収音信号を帯域分割し、環境音を分析し、その分析特徴量に基づいてマッピング制御情報を求めることで、環境音の大きさに応じた最適なマッピング制御情報を求めることができ、ユーザに環境に応じた最適な再生レベル制御を実現することができる。
【0086】
[3.第3の実施形態について]
本開示の第3の実施形態による音声信号処理装置300のブロック図を図7に示す。
図7に示す音声信号処理装置300は以下の構成を有する。
入力部301、
入力分析部302、
マッピング制御情報決定部303、
マッピング制御モデル304(記憶部)、
マイク311、
帯域分割部312、
環境分析部313、
マッピング制御情報調整部321、
マッピング処理部322、
帯域制限部323、
スピーカ324、
これらの構成を有する。
【0087】
図7において、入力部301から入力された再生対象入力信号は、入力分析部302に供給され、その特性を分析される。
【0088】
入力分析部302は、先に第1実施形態において説明した(式1)に従って、入力部301からの入力信号のn番目のサンプルを中心としたNサンプルによる二乗平均平方根RMS(n)を、n番目の再生対象入力信号に対する入力音特徴量として算出してマッピング制御情報決定部303に供給する。
なお、分析特徴量は、RMS(n)に限らず、前述の他の分析特徴量を使用または任意に追加・組み合わせても良い。
【0089】
次に、マッピング制御情報決定部303において、予め実行される学習処理によって生成したマッピング制御モデル304を用いて、入力した分析特徴量に対応するマッピング制御情報を求め、マッピング制御情報調整部321に供給する。
【0090】
マッピング制御モデル304は、学習処理、すなわち学習データを適用した統計解析に基づいて予め生成する。
図8を参照してマッピング制御モデル304の生成方法について説明する。
図8はマッピング制御モデル304を生成する学習処理、すなわち統計解析処理を実行する学習装置350の構成を示す図である。
【0091】
図8に示す学習装置350は、入力部351、マッピング制御情報付与部352、マッピング処理部353、帯域制限部354、スピーカ355、入力分析部356、マッピング制御モデル学習部357、および記録部358から構成される。学習装置350では、マッピング制御モデルの学習に用いられる学習音源信号が、マッピング制御情報付与部352、入力分析部356、およびマッピング処理部353に供給される。
【0092】
入力部351は、例えばユーザにより操作されるボタン等からなり、ユーザの操作に応じた信号をマッピング制御情報付与部352に供給する。マッピング制御情報付与部352は、入力部351からの信号に応じて、供給された学習音源信号の各サンプルにマッピング制御情報を付与し、マッピング処理部353またはマッピング制御モデル学習部357に供給する。
【0093】
マッピング処理部353は、マッピング制御情報付与部352からのマッピング制御情報を用いて、供給された学習音源信号に対してマッピング処理を行い、その結果得られた学習出力信号を帯域制限部354に供給する。帯域制限部354は例えば低域カット等の帯域制限処理を行い、処理信号をスピーカ355に供給する。スピーカ355は、マッピング処理部353の生成した学習出力信号に基づいて、音声を再生する。
【0094】
入力分析部356は、供給された学習音源信号の特性を分析して、その分析結果を示す分析特徴量をマッピング制御モデル学習部357に供給する。マッピング制御モデル学習部357は、入力分析部356からの分析特徴量と、マッピング制御情報付与部352からのマッピング制御情報とを用いた統計学習によりマッピング制御モデルを求め、記録部358に供給する。
【0095】
記録部358は、マッピング制御モデル学習部357から供給されたマッピング制御モデルを記録する。このようにして記録部358に記録されたマッピング制御モデルは、図7に示す音声信号処理装置300の記憶部にマッピング制御モデル304として記録される。
【0096】
なお、図8に示す学習装置350は、図7に示す音声信号処理装置300の内部に構成することも可能であり、外部装置として構成することも可能である。図8に示す学習装置350を図7に示す音声信号処理装置300の内部に構成する場合、図8に示す学習装置の構成要素中、図7に示す音声信号処理装置300の構成要素と共通する構成要素については、音声信号処理装置300の構成要素を学習装置の構成要素として適用可能である。
【0097】
次に、図9に示すフローチャートを参照して、図8に示す学習装置350による学習処理について説明する。
この学習処理では、1または複数の学習音源信号が学習装置350に供給される。また、この場合において、入力分析部356、マッピング処理部353、スピーカ355等は、学習により求められるマッピング制御モデルが供給される音声信号処理装置300の入力分析部321、マッピング処理部322等の対応する各ブロックと同様のものとされる。すなわち、ブロックの特性や処理のアルゴリズムが同じものとされる。
【0098】
ステップS11において、入力部351は、ユーザからのマッピング制御情報の入力または調整を受け付ける。
例えば、学習音源信号が入力されると、マッピング処理部353は供給された学習音源信号をスピーカ355に供給し、学習音源信号に基づく音声を出力させる。すると、ユーザは出力された音声を聞きながら、学習音源信号の所定のサンプルを処理対象サンプルとして入力部351を操作し、処理対象サンプルに対するマッピング制御情報の付与を指示する。
【0099】
なお、マッピング制御情報付与の指示は、例えばユーザがマッピング制御情報を直接入力したり、いくつかのマッピング制御情報から所望のものを指定したりすることで行なわれる。また、ユーザが一度指定されたマッピング制御情報の調整を指示することで、マッピング制御情報の付与を指示するようにしてもよい。
【0100】
このようにしてユーザが入力部351を操作すると、マッピング制御情報付与部352は、ユーザの操作に応じて処理対象サンプルに対してマッピング制御情報を付与する。そして、マッピング制御情報付与部352は、処理対象サンプルに対して付与したマッピング制御情報を、マッピング処理部353に供給する。
ステップS12において、マッピング処理部353は、マッピング制御情報付与部352から供給されたマッピング制御情報を用いて、供給された学習音源信号の処理対象サンプルに対してマッピング処理を行い、その結果得られた学習出力信号をスピーカ355に供給する。
【0101】
例えば、マッピング処理部353は、学習音源信号の処理対象サンプルのサンプル値xを、前述した(式4)に示す非線形のマッピング関数f(x)に代入して振幅変換を行なう。つまり、サンプル値xをマッピング関数f(x)に代入して得られた値が、学習出力信号の処理対象サンプルのサンプル値とされる。
【0102】
なお、(式4)において学習音源信号のサンプル値xは、−1から1までの値となるように正規化されているものとする。また、(式4)において、αはマッピング制御情報を示している。
【0103】
このようなマッピング関数f(x)は、図5に示すようにマッピング制御情報αが小さいほど、急峻に変化する関数となる。なお、図5において、横軸は学習音源信号のサンプル値xを示しており、縦軸はマッピング関数f(x)の値を示している。マッピング制御情報αが「3」、「5」、および「50」であるときのマッピング関数f(x)を表している。
【0104】
図5から分かるように、マッピング制御情報αが小さいほど、全体的にサンプル値xの変化に対するf(x)の変化量が大きいマッピング関数f(x)が用いられて、学習音源信号の振幅変換が行なわれる。このようにマッピング制御情報αを変化させると、学習音源信号に対する増幅量が変化する。
【0105】
図9のフローチャートの説明に戻り、ステップS13において、スピーカ355は、マッピング処理部353から供給された学習出力信号を再生する。
なお、より詳細には、処理対象サンプルを含む所定の区間に対してマッピング処理が行われて得られた学習出力信号が再生される。ここで、再生対象となる区間は、例えば既にマッピング制御情報が指定されているサンプルからなる区間などとされる。この場合、処理対象となる区間の各サンプルが、それらのサンプルに対して定められたマッピング制御情報が用いられてマッピング処理され、その結果得られた学習出力信号が再生される。
【0106】
このようにして学習出力信号が再生されると、ユーザはスピーカ355から出力された音声を聞きながら、マッピング処理の効果を評価する。すなわち、学習出力信号の音声の音量が適切であるかが評価される。そして、ユーザは入力部351を操作して、その評価の結果から、マッピング制御情報の調整を指示するか、または指定したマッピング制御情報が最適なものであるとして、指定したマッピング制御情報の確定を指示する。
【0107】
ステップS14において、マッピング制御情報付与部352は、入力部351から供給されるユーザの操作に応じた信号に基づいて、最適なマッピング制御情報が得られたか否かを判定する。例えば、ユーザによりマッピング制御情報の確定が指示された場合、最適なマッピング制御情報が得られたと判定される。
【0108】
ステップS14において、まだ最適なマッピング制御情報が得られていないと判定された場合、すなわちマッピング制御情報の調整が指示された場合、処理はステップS11に戻り、上述した処理が繰り返される。
【0109】
この場合、処理対象のサンプルに対して、新たなマッピング制御情報が付与されて、そのマッピング制御情報の評価が行なわれる。このように、学習出力信号の音声を実際に聞きながら、マッピング処理の効果を評価することで、聴感上、最適なマッピング制御情報を付与することができる。
【0110】
これに対して、ステップS14において、最適なマッピング制御情報が得られたと判定された場合、処理はステップS15に進む。ステップS15において、マッピング制御情報付与部352は、処理対象のサンプルに対して付与されたマッピング制御情報を、マッピング制御モデル学習部357に供給する。
【0111】
ステップS16において、入力分析部356は、供給された学習音源信号の特性を分析し、その結果得られた分析特徴量をマッピング制御モデル学習部357に供給する。
例えば学習音源信号のn番目のサンプルが処理対象のサンプルであるとすると、入力分析部356は、前述の(式1)の演算を行なって、学習音源信号のn番目のサンプルについての二乗平均平方根RMS(n)を、n番目のサンプルの分析特徴量として算出する。
【0112】
なお、本例において、(式1)において、x(m)は、学習音源信号のm番目のサンプルのサンプル値(学習音源信号の値)を示している。また、(式1)においては、学習音源信号の値、つまり学習音源信号の各サンプルのサンプル値は、−1≦x(m)≦1となるように正規化されているものとする。
【0113】
したがって二乗平均平方根RMS(n)は、n番目のサンプルを中心とするN個の連続するサンプルからなる区間について、その区間に含まれるサンプルのサンプル値の二乗平均値の平方根の対数をとり、これにより得られた値に定数「20」を乗算することで得られる。
【0114】
このようにして得られた二乗平均平方根RMS(n)の値は、処理対象となっている学習音源信号のn番目のサンプルを中心とする特定区間の各サンプルのサンプル値の絶対値が小さいほど、小さくなる。つまり、学習音源信号の処理対象のサンプルを含む特定区間全体の音声の音量が小さいほど、二乗平均平方根RMS(n)は小さくなる。
【0115】
なお、分析特徴量の例として、二乗平均平方根RMS(n)について説明したが、分析特徴量は、RMS(n)のt乗値(但し、t≧2)や、学習音源信号の零交差率、学習音源信号の周波数エンベロープの傾きなどとしてもよいし、それらを組み合わせたもの、例えば重み付け加算結果を用いてもよい。
【0116】
以上のようにして、入力分析部356からマッピング制御モデル学習部357に分析特徴量が供給されると、マッピング制御モデル学習部357は、処理対象のサンプルについて求められた分析特徴量と、そのサンプルのマッピング制御情報とを対応付けて、一時的に記録する。
【0117】
ステップS17において、学習装置51は、充分な数のマッピング制御情報が得られたか否かを判定する。例えば、一時的に記録している分析特徴量とマッピング制御情報のセットが、マッピング制御モデルを学習するのに充分な数だけ得られた場合、充分な数のマッピング制御情報が得られたと判定される。
【0118】
ステップS17において、充分な数のマッピング制御情報が得られていないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返される。すなわち、学習音源信号の現時点で処理対象となっているサンプルの次のサンプルが、新たな処理対象サンプルとされてマッピング制御情報が付与されたり、新たな学習音源信号のサンプルに対してマッピング制御情報が付与されたりする。また、異なるユーザにより、学習音源信号のサンプルにマッピング制御情報が付与されるようにしてもよい。
【0119】
ステップS17において、充分な数のマッピング制御情報が得られたと判定された場合、ステップS18において、マッピング制御モデル学習部357は、一時的に記録している分析特徴量とマッピング制御情報のセットを用いて、マッピング制御モデルを学習する。
【0120】
例えば、マッピング制御モデル学習部357は、以下に示す(式6)の計算を行なうことにより、分析特徴量からマッピング制御情報αが得られるとして、(式6)に示す関数をマッピング制御モデルとし、これを学習により求める。
【0121】
【数6】

・・・(式6)
【0122】
なお、(式6)において、xは分析特徴量を示しており、a,b,cは定数である。特に、定数cは、分析特徴量xと無相関なオフセット項である。
【0123】
この場合、マッピング制御モデル学習部66は、(式6)におけるxおよびxに対応する二乗平均平方根RMS(n)および二乗平均平方根RMS(n)の二乗値を説明変数とし、マッピング制御情報αを被説明変数として、最小二乗法により線形回帰モデルの学習を行い、モデルパラメータa,b,cを求める。
【0124】
これにより、例えば図10に示す結果が得られる。なお、図10において縦軸はマッピング制御情報αを示しており、横軸は分析特徴量としての二乗平均平方根RMS(n)を示している。図10では、曲線は、各分析特徴量の値に対して定まるマッピング制御情報αの値、つまり上述した(式6)に示される関数のグラフを示している。
【0125】
この例では、学習音源信号や入力信号などの音声信号の音声の音量が小さく、分析特徴量が小さいほど、マッピング制御情報αの値も小さくなる。
以上のような学習により、分析特徴量からマッピング制御情報を得るための関数、
ax+bx+c
における、
定数a,b,c
が定まると、マッピング制御モデル学習部357は、これらの定数をマッピング制御モデルのモデルパラメータとして記録部358に供給し、記録させる。
【0126】
学習により得られたマッピング制御モデルが記録部358に記録されると、学習処理は終了する。記録部358に記録されたマッピング制御モデルは、その後、図7に示す音声信号処理装置300の記録部にマッピング制御モデル304として記録され、マッピング処理に利用される。
【0127】
以上のようにして、図8に示す学習装置350は、図7に示す音声信号処理装置300ごとに複数の学習音源信号や、複数のユーザにより指定されたマッピング制御情報を用いて、学習によりマッピング制御モデルを求める。
【0128】
したがって、得られたマッピング制御モデルを用いれば、再生対象の入力信号や、再生された音声を聞くユーザによらず、音声信号処理装置300に対して統計的に最適なマッピング制御情報を得ることができるようになる。特に、1人のユーザにより付与されたマッピング制御情報のみを用いて学習を行なうようにすれば、そのユーザに対して最適なマッピング制御情報が得られるマッピング制御モデルを生成することができる。
【0129】
なお、以上においては、学習音源信号に対して、1サンプルごとにマッピング制御情報の入力や調整を行なう場合を例として説明したが、学習音源信号の連続する2以上のサンプルごとに、マッピング制御情報の入力や調整が行なわれるようにしてもよい。
【0130】
また、ここではマッピング制御モデルとしてRMS(n)に関する2次式を用いたが、3次以上の関数を用いても良い。
また、マッピング制御モデルの説明変数として、二乗平均平方根RMS(n)とその二乗値を用いると説明したが、説明変数として他の分析特徴量を任意に追加したり、組み合わせたりするようにしてもよい。例えば、他の分析特徴量としては、二乗平均平方根RMS(n)のt乗値(但し、t≧3)や、学習音源信号の零交差率、学習音源信号の周波数エンベロープの傾きなどが考えられる。
【0131】
このように、図7に示すマッピング制御情報決定部303は、図8〜図9を参照して説明した学習処理によって得られたマッピング制御モデル304、例えば図10に示す分析特徴量としての二乗平均平方根RMS(n)と、マッピング制御情報αとの対応関係データを用いて、入力分析部302から入力する分析特徴量に対する最適なマッピング制御情報αを算出してマッピング制御情報調整部321に出力する。
【0132】
次に、マッピング制御情報調整部321は、マッピング制御情報決定部303から得られたマッピング制御情報αに対して、環境音の大きさに応じたマッピング制御情報の調整を行う。この処理は、第1実施形態と同様の処理である。
【0133】
以下、前述の第1の実施形態と同様、マッピング処理部322においてマッピング処理を行い、帯域制限部323において帯域制限を行い、スピーカ324を介して出力信号を出力する。
【0134】
以上のように、この第3実施形態の音声信号処理装置300は、事前の統計解析に基づいたマッピング制御モデルを用いるに加えて環境音の分析結果に基づいたマッピング制御情報の調整を行うことにより、環境音の大きさに応じた最適なマッピング制御情報を求めることができ、ユーザに環境音に応じた最適な再生レベル制御を実現することができる。
【0135】
[4.第4の実施形態について]
本発明の第4の実施形態による音声信号処理装置400のブロック図を図11に示す。
図11に示す音声信号処理装置400は、以下の構成を有する。
入力部401、
入力分析部402、
マッピング制御情報決定部403、
マッピング制御モデル404(記憶部)、
マイク411、
帯域分割部412、
環境分析部413、
マッピング処理部421、
帯域制限部422、
スピーカ423、
これらの構成を有する。
【0136】
図7を参照して説明した構成との差異は、図7に示すマッピング制御情報調整部321を省略した点である。
さらに、マッピング制御モデル404(記憶部)が、図7に示すデータとは異なり、環境音を考慮して生成されたデータである点が異なる。
【0137】
本実施形態では、マッピング制御情報決定部403マッピング処理部221において適用するマッピング制御情報を生成する構成となっている。
図11に示す音声信号処理装置400おいて、入力部401から入力された入力信号は、入力分析部402に供給され、その特性を分析される。
次に本発明の第1の実施形態と同様、マイク411を介して入力する収音信号は帯域分割部412において帯域分割され、環境分析部413で分析される。
入力分析部402からの入力音特徴量と環境分析部413からの環境音特徴量がマッピング制御情報決定部403に供給される。
これらの処理は、第1実施形態〜第3実施形態で説明した処理と同様の処理である。
【0138】
次に、マッピング制御情報決定部403において、環境音を考慮した学習書によって生成されたマッピング制御モデル404を用いて、分析特徴量からマッピング制御情報を求め、マッピング処理部421に供給する。
【0139】
マッピング制御モデル404は、例えば、図12に示す学習装置500において生成される。
図12に示す学習装置500は、入力部501、マッピング制御情報付与部502、マッピング処理部503、帯域制限部504、スピーカ505、入力分析部506、マッピング制御モデル学習部507、記録部508、マイク511、帯域分割部512、環境分析部513、環境音スピーカ531から構成される。なお、環境音スピーカ531は、外部装置のスピーカとしてもよい。
学習装置500では、マッピング制御モデルの学習に用いられる学習音源信号が、マッピング制御情報付与部502、入力分析部506、およびマッピング処理部503に供給される。
また、学習環境音信号が環境音スピーカ531を介してマイク511に入力される。
【0140】
入力部501は、例えばユーザにより操作されるボタン等からなり、ユーザの操作に応じた信号をマッピング制御情報付与部502に供給する。マッピング制御情報付与部502は、入力部501からの信号に応じて、供給された学習音源信号の各サンプルにマッピング制御情報を付与し、マッピング処理部503またはマッピング制御モデル学習部507に供給する。
【0141】
マッピング処理部503は、マッピング制御情報付与部502からのマッピング制御情報を用いて、供給された学習音源信号に対してマッピング処理を行い、その結果得られた学習出力信号を帯域制限部504に供給する。帯域制限部504は例えば低域カット等の帯域制限処理を行い、処理信号をスピーカ505に供給する。スピーカ505は、マッピング処理部503の生成した学習出力信号に基づいて、音声を再生する。
【0142】
入力分析部506は、供給された学習音源信号の特性を分析して、その分析結果を示す分析特徴量をマッピング制御モデル学習部507に供給する。また、マイク511を介して入力される環境音とスピーカ505の出力信号を含む収音信号は帯域分割部512において環境音によって構成される低域信号と高域信号に分離され、環境分析部513が環境音の特徴量、例えばRMS(k)を生成する。これらマイク511〜環境分析部513の処理は、第1実施形態他のマイク〜環境分析部の実行する処理と同様である。
【0143】
マッピング制御モデル学習部357は、入力分析部356からの再生対象学習音信号対応の分析特徴量と、環境分析部513からの学習環境音対応の環境音特徴量と、マッピング制御情報付与部502からのマッピング制御情報とを用いた統計学習によりマッピング制御モデルを求め、記録部508に供給する。
【0144】
記録部508は、マッピング制御モデル学習部507から供給されたマッピング制御モデルを記録する。このようにして記録部508に記録されたマッピング制御モデルは、図12に示す音声信号処理装置400の記憶部にマッピング制御モデル404として記録される。
【0145】
なお、図12に示す学習装置500は、図11に示す音声信号処理装置400の内部に構成することも可能であり、外部装置として構成することも可能である。図12に示す学習装置500を図11に示す音声信号処理装置400の内部に構成する場合、図12に示す学習装置の構成要素中、図11に示す音声信号処理装置400の構成要素と共通する構成要素については、音声信号処理装置400の構成要素を学習装置の構成要素として適用可能である。
【0146】
次に、図13に示すフローチャートを参照して、図12に示す学習装置500による学習処理について説明する。
図13に示すフローチャートのステップS01に示すように、まず学習処理開始時に、例えば視聴室内で、図12に示す環境音スピーカ531から環境音を再生し、その環境下でマッピング制御情報の入力または調整を受け付ける。
【0147】
ステップS11〜ステップS17の処理は、先に図9のフローチャートを参照して説明した図9に示すステップS11〜ステップS17の処理と同様の処理である。
これらの処理によって、ステップS01において再現した1つの環境音の下での学習音源信号の特性の分析処理による入力音特徴量を得る。また、再現している環境下での収音信号を帯域分割し、その分割信号の特性を分析して環境音特徴量を得る。
これを十分な数のマッピング制御情報が得られるまで同じ環境下で繰り返す。
【0148】
そして、ステップS21において、十分な数のマッピング制御情報が得られたのちに、次の環境音を再現し、その環境下で同様に十分な数のマッピング制御情報を集める。これを十分な数の環境音で行う。
例えば予め、m種類の異なる学習環境音SRS1〜SRSmを準備し、これらのm種類の異なる学習環境音SRS1〜SRSmの環境下で十分な数のマッピング制御情報を集める。これら十分な数の環境音を再現したのちに、ステップS22においてマッピング制御モデルを学習する。
【0149】
なお、先に図8を参照して説明した第3の実施形態における学習装置350では入力分析部356から入力する再生対象音に対応する学習音源の入力音特徴量のみを説明変数としていたが、この図12に示す学習装置500は、再生対象音に対応する学習音源の入力音特徴量と、学習環境音に対応して解析される環境分析部513からの環境音特徴量の両方を説明変数としてマッピング制御モデルを求める。
【0150】
本実施形態において算出するマッピング制御モデルは、先に図10を参照して説明した再生対象信号の分析特徴量としての二乗平均平方根RMS(n)と、マッピング制御情報αとの対応関係データであり、この対応関係データをさらに、各環境音(前述の学習環境音SRS1〜SRSm)毎に設定した複数のデータによって構成される。
あるいは、
再生対象信号の分析特徴量としての二乗平均平方根RMS(n)と、
環境音の分析特徴量としての二乗平均平方根RMS(k)と、
マッピング制御情報α、
これらをxyz軸に設定した3次元データとして設定してもよい。
本実施例では、再生対象信号の分析特徴量と、環境音の分析特徴量から、最適なマッピング制御情報αを求めることを可能としたマッピング制御モデルが生成される。
【0151】
なお、図12に示す学習装置では環境音を出力するスピーカをモノラルスピーカでとして設定した例を説明したが、2チャンネル以上のスピーカで環境音を再現しても良い。あるいは実際の環境下でマッピング制御情報の入力または調整を行っても良い。
【0152】
このように、図11に示すマッピング制御情報決定部403は、図12〜図13を参照して説明した学習処理によって得られたマッピング制御モデル404を用いて、入力分析部402から入力する分析特徴量と、環境ブンな席部513から入力する環境音特徴量に対応する最適なマッピング制御情報αを算出してマッピング処理部421に出力する。
【0153】
次に、マッピング処理部421は、前述の第2の実施形態と同様のマッピング処理を行い、マッピング処理結果を帯域制限部422に出力する。帯域制限部422は、前述の第1実施形態と同様の帯域制限を行い、スピーカ423を介して出力信号を出力する。
【0154】
以上のように、図11に示す本実施形態の音声信号処理装置400は、事前の学習処理、すなわち学習データを適用した統計解析に基づいたマッピング制御モデルを適用した構成である。本実施形態におけるマッピング制御モデルは、再生対象信号である入力信号の分析結果と環境音の分析結果の両方を説明変数として用いたものであり、環境音の大きさに応じた最適なマッピング制御情報を求めることができ、ユーザに環境に応じた最適な再生レベル制御を実現することができる。
【0155】
[5.第5の実施形態について]
次に、本開示の音声信号処理装置の第5の実施形態について図14を参照して説明する。
図14に示す音声信号処理装置600は、再生対象とする入力信号が左チャンネルと右チャンネルの複数の信号によって構成される。
このように、音声信号のチャンネル数が2以上の場合、チャンネル毎に独立した振幅変換を行うと音量バランスが変化してしまうため、全てのチャンネルにおいて同一の振幅変換を行うのが望ましい。
【0156】
図14に示す音声信号処理装置600は、
左チャンネル入力信号の入力部601、
右チャンネル入力信号の入力部602、
左右チャンネル入力信号の分析処理を行う入力分析部603を有する。
さらに、入力分析部603から入力音特徴量に基づいて、マッピング制御モデル605を適用してマッピング制御情報を決定するマッピング盛儀情報決定部604、
マッピング制御モデル605を格納した記憶部を有する。なお、このマッピング制御モデルは、前述の第4実施形態において利用された図11に示すマッピング制御モデル404と同様のデータである。
【0157】
さらに、図14に示す音声信号処理装置600は、以下の構成を有する。
環境音を取得するマイク611、
マイク611からの収音信号を入力して帯域分割を行う帯域分割部612、
帯域分割部612の生成する環境音の含まれる低域信号の特徴量を取得する環境分析部613、
これらの構成を有する。これらの構成は、先に説明した第1実施形態と同様の構成である。
【0158】
さらに、図14に示す音声信号処理装置600は、以下の構成を有する。
左チャンネル入力信号のマッピング処理を行うマッピング処理部621、
左チャンネル入力信号のマッピング処理結果に対する帯域制限処理を行う帯域制限部622、
左チャンネル入力信号の帯域制限結果を出力するスピーカ623、
右チャンネル入力信号のマッピング処理を行うマッピング処理部631、
右チャンネル入力信号のマッピング処理結果に対する帯域制限処理を行う帯域制限部632、
右チャンネル入力信号の帯域制限結果を出力するスピーカ633、
これらの構成を有する。
【0159】
入力部601,602から入力された左右チャンネルの再生対象入力信号に対し、入力分析部603においてその特性を分析し、左右チャンネルで共通の入力音特徴量を求める。またマイク611から入力された信号に対して帯域分割部612において帯域分割を行い、環境分析部613においてその特性を分析し環境音特徴量を求める。
【0160】
入力分析部603の生成した入力音特徴量と、環境分析部613の生成した環境音特徴量がマッピング制御情報決定部604に供給される。
マッピング制御情報決定部604は、先に図11を参照して説明した第4の実施形態と同様のマッピング制御モデル605を適用してマッピング制御情報を求める。
このマッピング制御情報は、左右チャンネルで同一のマッピング制御情報である。
【0161】
このマッピング制御情報が、
左チャンネル入力信号のマッピング処理を行うマッピング処理部621と、
右チャンネル入力信号のマッピング処理を行うマッピング処理部631、
これらの2つのマッピング処理部に出力され、チャンネル毎にマッピング処理を行う。
その後、マッピング処理された各チャンネルの信号に対して、帯域制限部622,632において帯域制限を行いスピーカ623,633を介して出力信号を出力する。
なお、図14に示す構成は、入力信号を2チャンネルとした例であるが、3つ以上の入力信号の場合には、各チャンネル単位の入力部、マッピング処理部、帯域制限部、スピーカを設ければよい。
【0162】
以上のように、入力信号が複数の場合には、共通のマッピング制御情報を生成し、この共通のマッピング制御情報を適用して全てのチャンネルで同一の振幅変換を行う。このような処理により、チャンネル間の音量バランスを変えることなく、音声信号の再生レベルを強調することが可能な音声信号処理方法及び装置が実現できる。
【0163】
[6.第6の実施形態について]
次に、図15を参照して、本開示の第6の実施形態に従った音声信号処理装置700の構成と処理について説明する。
図15に示す音声信号処理装置700は、入力部701を介して入力する再生対象入力信号を帯域分割フィルタ702に入力し、入力信号を高域信号と低域信号に分離して、処理を行う構成を有する。その他の構成は、先に図11を参照して説明した第4の実施形態と同様である。
【0164】
音声や音楽は周波数帯域によってその特性が異なる。よって、周波数帯域毎に適した分析を行うことで、より処理や聴感上に適した分析特徴量を得ることができる。
【0165】
図15に示す音声信号処理装置700において、入力部701から入力された再生対象入力信号は帯域分割フィルタ702によって300Hz前後で帯域制限された低域信号と高域信号に分割され、入力分析部703に供給される。そして入力分析部703において、低域信号及び高域信号に対してそれぞれ異なる分析を行い、それらの結果から共通の分析特徴量を求める。
【0166】
入力分析部703は、例えば以下に示す(式7)〜(式9)に従って、低域信号及び高域信号に対してそれぞれ異なる分析を行い、それらの結果から共通の分析特徴量を求める。
(式7)は、低域信号のn番目のサンプルに対応する特徴量としての二乗平均平方根RMS_l(n)の算出式である。
(式8)は、高域信号のn番目のサンプルに対応する特徴量としての二乗平均平方根RMS_h(n)の算出式である。
それぞれ、各帯域分割信号のn番目のサンプルを中心としたN及びMサンプルによる二乗平均平方根RMS_l(n)、RMS_h(n)を算出する。
【0167】
【数7】

・・・(式7)
【0168】
【数8】

・・・(式8)
【0169】
上記(式7)、(式8)において、x_l、x_hは再生対象入力信号xから帯域分割フィルタによって得られた低域信号及び高域信号であり、例えばパワーレベルを−1.0〜1.0で正規化した信号とする。
【0170】
入力分析部703は、
上記(式7)に従って算出した低域信号の特徴量RMS_l(n)、
上記(式8)に従って算出した高域信号の特徴量RMS_h(n)、
これらの各値を、以下に示す(式9)に従って、予め規定した重みa,bを用いて重み付け加算を行い、低域信号及び高域信号共通の分析特徴量RMS'(n)を求める。なお、重みa,bは、例えば=a=b=0.5とする。
【0171】
【数9】

・・・(式9)
【0172】
上記の(式9)に従って求められたRMS'(n)を再生対象入力信号の分析特徴量とする。
ここで得られたRMS'(n)をn番目の再生対象入力信号に対する入力音特徴量として、マッピング制御情報決定部704に供給する。
【0173】
なお、上記(式9)において、重みa,bを均等にしているが、特定の帯域の信号に大きな重みをかける設定としてもよい。また、上記の処理例では、入力信号の周波数帯域を300Hzで二分割した処理例としているが、帯域制限部722での帯域制限内であれば200Hzや400Hz、1kHz、3.4kHzなど別の周波数で分割した信号、あるいは三分割以上の帯域信号に分割した信号から分析特徴量を求めても良い。さらにまた、入力信号と帯域分割信号に対してそれぞれ別の分析を行い、それらの結果を組わせて分析特徴量としても良い。処理の効果やマッピング制御に適したものを分析特徴量として用いると良い。またここでは、帯域分割にフィルタを用いているが、周波数軸上で各帯域の信号を生成しても良い。
【0174】
入力分析部703は、この様にして得られた分析特徴量をマッピング制御情報決定部704に供給する。
【0175】
以下、先に図11を参照して説明した第4の実施形態と同様のマッピング制御モデル705を適用してマッピング制御情報を求める。このマッピング制御情報が、マッピング処理部721に出力され、マッピング処理が実行される。その後、マッピング処理された信号に対して、帯域制限部722において帯域制限を行い<スピーカ723を介して出力信号を出力する。
【0176】
本実施例では、入力信号の各帯域に応じた特徴量を個別に取得して、各特徴量の重み付け加算結果を入力信号に対する特徴量として算出する構成とした。このように、周波数帯域毎に適した分析を行うことで、より処理や聴感上に適した分析特徴量を得ることができる。
【0177】
[7.第7の実施形態について]
次に、本開示の第7の実施形態に係る音声信号処理装置800の構成と処理について図16を参照して説明する。図16に示す音声信号処理装置800は、入力信号の特性に応じてマッピング処理した後に、環境音の大きさに応じて線形にゲイン調整を行う構成を持つ。
【0178】
本開示の第7の実施形態による音声信号処理装置800のブロック図を図16に示す。
図16に示す音声信号処理装置800は以下の構成を有する。
入力部801、
入力分析マッピング制御情報決定部802、
マイク811、
帯域分割部812、
環境分析部813、
ゲイン調整量決定部814、
マッピング処理部821、
ゲイン調整部822、
帯域制限部823、
スピーカ824、
これらの構成を有する。
【0179】
図6を参照して説明した第2実施形態との差異は、ゲイン調整量決定部814とゲイン調整部822を追加した点である。その他の構成と処理は、第2実施形態と同様である。
【0180】
入力部801を介して入力された再生対象入力信号は、入力分析・マッピング制御情報決定部802においてマッピング制御情報が算出される。
マッピング処理ら部821は、マッピング制御情報に基づいてマッピング処理を行いゲイン調整部822に供給する。
【0181】
マイク811〜帯域分割部812〜環境分析部813の処理は前述の第1実施形態と同様の処理である。環境分析部813において環境音の分析特徴量を求め、ゲイン調整量決定部814に供給する。
【0182】
ゲイン調整量決定部814は、環境分析部813から得られた環境音の分析特徴量から、テーブルまたは関数または事前の統計解析に基づく統計モデルを用いてゲイン調整量を決定する。
【0183】
ゲイン調整量決定部814は、例えば、以下の処理によってゲイン調整量を求める。
環境分析部813から得られた環境音の分析特徴量である環境音特徴量、すなわち、環境音のみが含まれる低域信号のk番目のサンプルを中心としたKサンプルによる二乗平均平方根RMS(k)をxとし、以下に示す(式10)の線形関数を用いてゲイン調整量yを求める。
【0184】
【数10】

・・・(式10)
【0185】
なお、ここでは環境音特徴量として二乗平均平方根RMS(k)を用いたが、前述した各実施例と同様、他の特徴量やその組合せを用いても良い。
また、ゲイン調整量yの算出に(式10)に示す線形関数を用いたが、環境音特徴量とゲイン調整量の関係を表す非線形関数またはテーブルまたは線形回帰モデルあるいは非線形回帰モデルを使用しても良い。
【0186】
ゲイン調整量決定部814は、このように環境音の特徴量に応じたゲイン調整量yを算出してゲイン調整部822に出力する。
ゲイン調整部822は、ゲイン調整量決定部814から入力するゲイン調整量に基づいて、マッピング処理部821から入力するマッピング処理信号に対して線形にゲイン調整を行う。
【0187】
最後に帯域制限部823は、ゲイン調整されたマッピング処理信号に対して帯域制限フィルタを適用して帯域制限した出力信号を生成し、スピーカ824を介して出力する。
本実施形態の構成では、環境音の大きさに応じてゲイン調整された出力信号を得ることができる。
【0188】
[8.第8の実施形態について]
次に、本開示の第8の実施形態について、図17を参照して説明する。
図17に示す音声信号処理装置900は、先に図11を参照して説明した第4の実施形態による音声信号処理装置400に、図16を参照して説明した第7の実施形態と同様のゲイン調整量決定部914と、ゲイン調整部922を追加した構成を持つ。
【0189】
図17に示す音声信号処理装置900は、以下の構成を有する。
入力部901、
入力分析部902、
マッピング制御情報決定部903、
マッピング制御モデル904(記憶部)、
マイク911、
帯域分割部912、
環境分析部913、
ゲイン調整量決定部914、
マッピング処理部921、
ゲイン調整部922、
帯域制限部923、
スピーカ924、
これらの構成を有する。
【0190】
入力部901から入力された再生対象入力信号に対し、入力分析部902においてその特性を分析し、入力音特徴量を求める。またマイク911から入力された信号に対して帯域分割部912において帯域分割を行い、環境分析部913においてその特性を分析し環境音特徴量を求める。
【0191】
入力分析部902の生成した入力音特徴量と、環境分析部913の生成した環境音特徴量がマッピング制御情報決定部903に供給される。
マッピング制御情報決定部903は、先に図11を参照して説明した第4の実施形態と同様のマッピング制御モデル904を適用してマッピング制御情報を求める。
このマッピング制御情報が、マッピング処理部921に出力され、マッピング処理が実行される。
【0192】
ゲイン調整量決定部914は、先に図16を参照して説明した第7の実施形態]と同様、環境音の特徴量に応じたゲイン調整量yを算出してゲイン調整部922に出力する。
ゲイン調整部922は、ゲイン調整量決定部914から入力するゲイン調整量に基づいて、マッピング処理部921から入力するマッピング処理信号に対して線形にゲイン調整を行う。
【0193】
最後に帯域制限部923は、ゲイン調整されたマッピング処理信号に対して帯域制限フィルタを適用して帯域制限した出力信号を生成し、スピーカ924を介して出力する。
本実施形態の構成では、環境音の大きさに応じてゲイン調整された出力信号を得ることができる。
【0194】
[9.本開示の構成のまとめ]
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
【0195】
なお、本明細書において開示した技術は、以下のような構成をとることができる。
(1) 入力信号の特性を分析し、入力音特徴量を生成する入力分析部と、
環境音の特性を解析し、環境音特徴量を生成する環境分析部と、
前記入力音特徴量と前記環境音特徴量を適用して、前記入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成するマッピング制御情報生成部と、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部と、
を有する音声信号処理装置。
【0196】
(2)前記マッピング制御情報生成部は、前記入力音特徴量を適用して予備的なマッピング制御情報を生成するマッピング制御情報決定部と、前記予備的なマッピング制御情報に対して、前記環境音特徴量を適用した調整処理により、前記マッピング処理部に出力する前記マッピング制御情報を生成するマッピング制御情報調整部を有する前記(1)に記載の音声信号処理装置。
(3)前記入力分析部は、前記入力音特徴量として予め規定した複数の連続サンプルを利用して算出した二乗平均平方根を算出し、前記環境分析部は、前記環境音特徴量として環境音信号の複数の連続サンプルを利用して算出した二乗平均平方根を算出し、前記マッピング制御情報生成部は、前記入力音特徴量である入力信号の二乗平均平方根と、前記環境音特徴量である環境音信号の二乗平均平方根とを利用して前記マッピング制御情報を生成する前記(1)または(2)に記載の音声信号処理装置。
【0197】
(4)前記入力音特徴量、および前記環境音特徴量は、特徴量算出対象信号の二乗平均、または二乗平均を対数化したもの、または二乗平均平方根、または二乗平均平方根を対数化したもの、または信号の零交差率、または周波数エンベロープの傾き、またはそれらの重み付け加算した結果である前記(1)〜(3)いずれかに記載の音声信号処理装置。
(5)前記環境分析部は、マイクを介して取得された収音信号から帯域分割処理によって分割された環境音の占有率の高い帯域信号の特徴解析を実行して前記環境音特徴量を算出する前記(1)〜(4)いずれかに記載の音声信号処理装置。
(6)前記音声信号処理装置は、前記マッピング処理部においてマッピング処理の施された信号の帯域制限処理を実行する帯域制限部を有し、前記帯域制限部における帯域制限後の信号を、スピーカを介して出力する前記(1)〜(5)いずれかに記載の音声信号処理装置。
【0198】
(7)前記マッピング制御情報生成部は、入力信号と環境音信号を含む学習用信号を適用した統計解析処理によって生成したマッピング制御モデルを適用して前記マッピング制御情報を生成する前記(1)〜(6)いずれかに記載の音声信号処理装置。
(8)前記マッピング制御モデルは、各種の入力信号と環境音信号に対してマッピング制御情報を対応付けたデータである前記(7)に記載の音声信号処理装置。
(9)前記入力信号は、複数チャンネルの複数の入力信号によって構成され、前記マッピング処理部は、各入力信号に対する個別のマッピング処理を実行する構成である前記(1)〜(8)いずれかに記載の音声信号処理装置。
(10)前記音声信号処理装置は、さらに、前記マッピング処理部の生成したマッピング処理信号に対して、前記環境分析部の生成する環境音特徴量に応じたゲイン調整を実行するゲイン調整部を有する前記(1)〜(9)いずれかに記載の音声信号処理装置。
【0199】
さらに、上記した装置等において実行する処理の方法や、処理を実行させるプログラムも本開示の構成に含まれる。
【0200】
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
【0201】
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【産業上の利用可能性】
【0202】
以上、説明したように、本開示の一実施例構成によれば、環境音が大きいときや小さいときに最適なマッピング制御が可能となり、音量が物足りないあるいは歪が気になるといったユーザの不満を減少させ、音声信号の再生レベルを様々な環境下でもユーザに対して最適に自動制御することが可能となる。
【0203】
具体的には、例えば、入力信号の特性を分析し入力音特徴量を生成し、環境音の特性を解析し環境音特徴量を生成し、生成した入力音特徴量と環境音特徴量を適用して、入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成する。さらに、マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて入力信号を振幅変換し、出力信号を生成する。マッピング制御情報は、例えば入力信号と環境音を考慮して生成したモデルを参照して生成する。
これらの構成により、環境音に応じた最適なマッピング制御により音声信号のレベルを様々な環境下で最適に自動制御することが可能となる。
【符号の説明】
【0204】
100 音声信号処理装置
101 入力部
102 入力分析・マッピング制御情報決定部
111 マイク
112 帯域分割部
113 環境分析部
114 マッピング制御情報調整部
121 マッピング処理部
122 帯域制限部
123 スピーカ
200 音声信号処理装置
201 入力部
202 入力分析・マッピング制御情報決定部
211 マイク
212 帯域分割部
213 環境分析部
221 マッピング処理部
222 帯域制限部
223 スピーカ
300 音声信号処理装置
301 入力部
302 入力分析部
303 マッピング制御情報決定部
311 マイク
312 帯域分割部
313 環境分析部
321 マッピング制御情報調整部
322 マッピング処理部
323 帯域制限部
324 スピーカ
350 学習装置
351 入力部
352 マッピング制御情報付与部
353 マッピング処理部
354 帯域制限部
355 スピーカ
356 入力分析部
357 マッピング制御モデル学習部
358 記録部
400 音声信号処理装置
401 入力部
402 入力分析部
403 マッピング制御情報決定部
404 マッピング制御モデル
411 マイク
412 帯域分割部
413 環境分析部
421 マッピング処理部
422 帯域制限部
423 スピーカ
500 学習装置
501 入力部
502 マッピング制御情報付与部
503 マッピング処理部
504 帯域制限部
505 スピーカ
506 入力分析部
507 マッピング制御モデル学習部
508 記録部
511 マイク
512 帯域分割部
513 環境分析部
531 環境音スピーカ
600 音声信号処理装置
601 入力部
602 入力部
603 入力分析部
604 マッピング制御情報決定部
605 マッピング制御モデル
611 マイク
612 帯域分割部
613 環境分析部
621,631 マッピング処理部
622,632 帯域制限部
623,633 スピーカ
700 音声信号処理装置
701 入力部
702 帯域分割フィルタ
703 入力分析部
704 マッピング制御情報決定部
711 マイク
712 帯域分割部
713 環境分析部
721 マッピング処理部
722 帯域制限部
723 スピーカ
800 音声信号処理装置
801 入力部
802 入力分析・マッピング制御情報決定部
811 マイク
812 帯域分割部
813 環境分析部
814 ゲイン調整量決定部
821 マッピング処理部
822 ゲイン調整部
823 帯域制限部
824 スピーカ
900 音声信号処理装置
901 入力部
902 入力分析部
903 マッピング制御情報決定部
911 マイク
912 帯域分割部
913 環境分析部
914 ゲイン調整量決定部
921 マッピング処理部
922 ゲイン調整部
923 帯域制限部
924 スピーカ

【特許請求の範囲】
【請求項1】
入力信号の特性を分析し、入力音特徴量を生成する入力分析部と、
環境音の特性を解析し、環境音特徴量を生成する環境分析部と、
前記入力音特徴量と前記環境音特徴量を適用して、前記入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成するマッピング制御情報生成部と、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理部と、
を有する音声信号処理装置。
【請求項2】
前記マッピング制御情報生成部は、
前記入力音特徴量を適用して予備的なマッピング制御情報を生成するマッピング制御情報決定部と、
前記予備的なマッピング制御情報に対して、前記環境音特徴量を適用した調整処理により、前記マッピング処理部に出力する前記マッピング制御情報を生成するマッピング制御情報調整部を有する請求項1に記載の音声信号処理装置。
【請求項3】
前記入力分析部は、
前記入力音特徴量として予め規定した複数の連続サンプルを利用して算出した二乗平均平方根を算出し、
前記環境分析部は、
前記環境音特徴量として環境音信号の複数の連続サンプルを利用して算出した二乗平均平方根を算出し、
前記マッピング制御情報生成部は、
前記入力音特徴量である入力信号の二乗平均平方根と、前記環境音特徴量である環境音信号の二乗平均平方根とを利用して前記マッピング制御情報を生成する請求項1に記載の音声信号処理装置。
【請求項4】
前記入力音特徴量、および前記環境音特徴量は、特徴量算出対象信号の二乗平均、または二乗平均を対数化したもの、または二乗平均平方根、または二乗平均平方根を対数化したもの、または信号の零交差率、または周波数エンベロープの傾き、またはそれらの重み付け加算した結果である請求項1に記載の音声信号処理装置。
【請求項5】
前記環境分析部は、
マイクを介して取得された収音信号から帯域分割処理によって分割された環境音の占有率の高い帯域信号の特徴解析を実行して前記環境音特徴量を算出する請求項1に記載の音声信号処理装置。
【請求項6】
前記音声信号処理装置は、
前記マッピング処理部においてマッピング処理の施された信号の帯域制限処理を実行する帯域制限部を有し、
前記帯域制限部における帯域制限後の信号を、スピーカを介して出力する請求項1に記載の音声信号処理装置。
【請求項7】
前記マッピング制御情報生成部は、
入力信号と環境音信号を含む学習用信号を適用した統計解析処理によって生成したマッピング制御モデルを適用して前記マッピング制御情報を生成する請求項1に記載の音声信号処理装置。
【請求項8】
前記マッピング制御モデルは、各種の入力信号と環境音信号に対してマッピング制御情報を対応付けたデータである請求項7に記載の音声信号処理装置。
【請求項9】
前記入力信号は、複数チャンネルの複数の入力信号によって構成され、
前記マッピング処理部は、
各入力信号に対する個別のマッピング処理を実行する構成である請求項1に記載の音声信号処理装置。
【請求項10】
前記音声信号処理装置は、さらに、
前記マッピング処理部の生成したマッピング処理信号に対して、前記環境分析部の生成する環境音特徴量に応じたゲイン調整を実行するゲイン調整部を有する請求項1に記載の音声信号処理装置。
【請求項11】
音声信号処理装置において実行する音声信号処理方法であり、
入力信号の特性を分析し、入力音特徴量を生成する入力分析ステップと、
環境音の特性を解析し、環境音特徴量を生成する環境分析ステップと、
前記入力音特徴量と前記環境音特徴量を適用して、前記入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成するマッピング制御情報生成ステップと、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理ステップと、
を実行する音声信号処理方法。
【請求項12】
音声信号処理装置において音声信号処理を実行させるプログラムであり、
入力信号の特性を分析し、入力音特徴量を生成する入力分析ステップと、
環境音の特性を解析し、環境音特徴量を生成する環境分析ステップと、
前記入力音特徴量と前記環境音特徴量を適用して、前記入力信号に対する振幅変換処理の制御情報としてのマッピング制御情報を生成するマッピング制御情報生成ステップと、
前記マッピング制御情報により定まる線形または非線形なマッピング関数に基づいて前記入力信号を振幅変換し、出力信号を生成するマッピング処理ステップと、
を実行させるプログラム。

【図2】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図1】
image rotate

【図3】
image rotate


【公開番号】特開2013−102411(P2013−102411A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2012−20463(P2012−20463)
【出願日】平成24年2月2日(2012.2.2)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】