説明

音声処理装置およびそのプログラム

【課題】声の個人性の維持と音質の維持とのバランスをとりながら音声の基本周期を変換し、高品質な変換後の音声を出力することのできる音声処理装置を提供する。
【解決手段】音声処理装置は、スペクトル包絡保存型の基本周期変換方式で、入力される音声の基本周期を第1の倍率で変換して出力するスペクトル包絡保存型基本周期変換部と、サンプリングレート変換型の基本周期変換方式で、入力される音声の基本周期を第2の倍率で変換して出力するサンプリングレート変換型基本周期変換部とを具備する。そして、(a)スペクトル包絡保存型基本周期変換部からの出力をサンプリングレート変換型基本周期変換部への入力に接続し、または、(b)サンプリングレート変換型基本周期変換部からの出力をスペクトル包絡保存型基本周期変換部への入力に接続する構成とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を処理する音声処理装置およびプログラムに関する。本発明は、特に、音声の基本周期を変換する音声処理装置およびプログラムに関する。
【背景技術】
【0002】
音声の声の高さ(基本周波数)を変換する技術が研究されてきている。基本周波数の逆数が基本周期であり、基本周波数を変換するということと基本周期を変換するということは同じ意味を持つ。声の高さを変換する技術の応用分野は、例えば、テレビ、ラジオ、ハードディスクレコーダーなどである。声の高さを変えたり、イントネーションを強調したりすることにより、音声を聞き取りやすくすることができる。ここで、イントネーションは、基本周期の時間変化のパターンであるので、基本周期を変換することによりイントネーションを制御することもできる。また、テキストを音声に変換する音声合成技術において、アクセント・イントネーションを制御したり感情表現を制御したりする研究も行われている。
【0003】
基本周期(基本周波数)変換を行う方法の一つとして、スペクトル包絡保存型の基本周期変換の技術が研究されている。具体的には、LPC(線形予測)分析・合成による方式や、PSOLA法(Pitch Synchronous OverLap Add)である。また、特許文献1、特許文献2、非特許文献1に、スペクトル包絡保存型の基本周期変換について記載されている。
【0004】
また、基本周期変換を行うための、より簡便で実用的な方式として、サンプリングレート変換型の基本周期変換の技術が研究されている。特許文献3、特許文献4に、サンプリングレート変換型の基本周期変換について記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第2612867号公報
【特許文献2】特許第3083829号公報
【特許文献3】特許第1780856号公報
【特許文献4】特許第3073942号公報
【非特許文献】
【0006】
【非特許文献1】河原英紀,“聴覚の情景分析と高品質音声分析変換合成法STRAIGHT”,日本音響学会研究発表会講演論文集 1997(2),pp.189-192,1997年
【発明の概要】
【発明が解決しようとする課題】
【0007】
音声の生成の原理に基づけば、声の高さを変換するためには、スペクトル包絡保存型の基本周期変換方式を用いることが望ましい。スペクトル包絡が保存されることで個人性が保たれ、あたかも本人が声の高さを変えて発声したかのような変換音声を生成することができる。しかし、スペクトル包絡保存型の基本周期変換方式全般の特徴として、声の高さを大きく上下(シフト)させた場合、音質が劣化し、歪んだ音になったり、こもった音になったりすることが多い。音質を劣化させずに大きなシフトを行うためには、より複雑な処理が必要となる。
【0008】
一方、サンプリングレート変換(波形の線形伸縮)型の基本周期変換方式は、処理が単純であり、音質の劣化も少ない。但し、音声の基本周期(基本周波数)だけでなく、全ての周波数成分が同じ割合で一様に上下(シフト)するため、変換の量が大きくなると、音声の個人性を保つことができない。従って、サンプリングレート変換型の基本周期変換方式は、音楽に適用されることはあるものの、個人性を重視する声に適用することは考えられなかった。
【0009】
本発明は、上記の事情を考慮して為されたものであり、各方式の特性に基づいて、声の個人性の維持と、音質の維持とのバランスをとり、いずれか一方が著しく劣化することを防ぐことのできる音声処理装置およびそのプログラムを提供する。
【課題を解決するための手段】
【0010】
[1]上記の課題を解決するため、本発明の一態様による音声処理装置は、スペクトル包絡保存型の基本周期変換方式で、入力される音声の基本周期を第1の倍率で変換して出力するスペクトル包絡保存型基本周期変換部と、サンプリングレート変換型の基本周期変換方式で、入力される音声の基本周期を第2の倍率で変換して出力するサンプリングレート変換型基本周期変換部と、を具備し、(a)外部からの入力音声を前記スペクトル包絡保存型基本周期変換部への入力に接続し、前記スペクトル包絡保存型基本周期変換部からの出力を前記サンプリングレート変換型基本周期変換部への入力に接続し、前記サンプリングレート変換型基本周期変換部からの出力音声を外部への出力とし、または、(b)外部からの入力音声を前記サンプリングレート変換型基本周期変換部への入力に接続し、前記サンプリングレート変換型基本周期変換部からの出力を前記スペクトル包絡保存型基本周期変換部への入力に接続し、前記スペクトル包絡保存型基本周期変換部からの出力音声を外部への出力とすることを特徴とする。
【0011】
この構成によれば、スペクトル包絡保存型の基本周期変換とサンプリングレート変換型の基本周期変換とを縦続的に用いて所望の倍率の変換を行うことができる。これらの各々の方式によって基本周期変換時の出力音声の特性が異なるため、トータルで所望の倍率を得るために、各方式における出力特性を考慮しながら、各方式における倍率(第1の倍率および第2の倍率)を配分することが可能となる。
【0012】
[2]また、本発明の一態様による音声処理装置は、前記スペクトル包絡保存型基本周期変換部による周期変換および前記サンプリングレート変換型基本周期変換部による周期変換を合成したときの所望倍率に基づいて、前記第1の倍率および前記第2の倍率を算出し、前記第1の倍率の情報を前記スペクトル包絡保存型基本周期変換部に渡し、前記第2の倍率の情報を前記サンプリングレート変換型基本周期変換部に渡す変換倍率算出部を更に具備することを特徴とする。
【0013】
この構成によれば、スペクトル包絡保存型基本周期変換部による周期変換およびサンプリングレート変換型基本周期変換部による周期変換を合成した変換の所望倍率に応じて、各変換の倍率を算出することができる。
所望倍率が所定の範囲内(一例として、倍率1を中心として、上下に各所定パーセンテージの範囲内。さらに、例えば、上下に各40パーセントの範囲内、つまり、所望倍率0.6以上且つ1.4以下)の場合にはサンプリングレート変換型基本周期変換部による周期変換の倍率を1として、それに合わせてスペクトル包絡保存型基本周期変換部による周期変換の倍率を定めることができる(一例として、所望倍率αに対して、スペクトル包絡保存型基本周期変換部による周期変換の倍率もαとする)。これにより、声の個人性を維持できる
所望倍率が、上記所定範囲の外(つまり、基本周期を40%以上変えることを所望する)の場合には、サンプリングレート変換型基本周期変換部による周期変換の倍率を1以外の値として、これによってスペクトル包絡保存型基本周期変換部による周期変換の倍率を上位所定範囲内の値(例えば、その範囲の境界である0.6または1.4)として、これにより音質の劣化を防止することができる。
【0014】
また、上記[2]において、((前記第1の倍率に前記第2の倍率を乗じた値)から1を減じた値)を(前記所望倍率から1を減じた値)で除した値が、0.94以上且つ1未満となるように、前記変換倍率算出部が前記第1の倍率および前記第2の倍率を算出するようにしても良い。
【0015】
[3]また、本発明の一態様による音声処理装置は、スペクトル包絡保存型の基本周期変換方式で前記外部からの入力音声を周期変換した結果の音声のスペクトル包絡を算出する第1のスペクトル算出部と、前記外部からの入力音声のスペクトル包絡を算出する第2のスペクトル算出部と、前記第1のスペクトル算出部によって算出されたスペクトル包絡と、前記第2のスペクトル算出部によって算出されたスペクトル包絡とに基づいて、スペクトル包絡保存型の基本周期変換方式によるスペクトル歪み量を算出するスペクトル歪み量算出部とを更に具備し、前記変換倍率算出部は、算出された前記スペクトル歪み量にも基づいて前記第1の倍率および前記第2の倍率を算出することを特徴とする。
【0016】
この構成により、スペクトル包絡保存型の基本周期変換方式で所定の倍率の周期変換を行った場合のスペクトル歪み量を実際に算出し、そのスペクトル歪み量に基づいてスペクトル包絡保存型基本周期変換部による周期変換の倍率およびサンプリングレート変換型基本周期変換部による周期変換の倍率を算出することができる。
【0017】
[4]また、本発明の一態様は、スペクトル包絡保存型の基本周期変換方式で、入力される音声の基本周期を第1の倍率で変換して出力するスペクトル包絡保存型基本周期変換部と、サンプリングレート変換型の基本周期変換方式で、入力される音声の基本周期を第2の倍率で変換して出力するサンプリングレート変換型基本周期変換部とを具備し、(a)外部からの入力音声を前記スペクトル包絡保存型基本周期変換部への入力に接続し、前記スペクトル包絡保存型基本周期変換部からの出力を前記サンプリングレート変換型基本周期変換部への入力に接続し、前記サンプリングレート変換型基本周期変換部からの出力音声を外部への出力とし、または、(b)外部からの入力音声を前記サンプリングレート変換型基本周期変換部への入力に接続し、前記サンプリングレート変換型基本周期変換部からの出力を前記スペクトル包絡保存型基本周期変換部への入力に接続し、前記スペクトル包絡保存型基本周期変換部からの出力音声を外部への出力とする、音声処理装置としてコンピューターを機能させるプログラムである。
【発明の効果】
【0018】
本発明は、比較的簡便な処理で、基本周期変換の際の音質を向上させることができるものである。本発明により、基本周期を変換した場合に生じる音質の劣化を小さくし、より聞きやすい音声を出力することができる。また、本発明により、所望の変換倍率に応じて、個人性の維持を優先する変換方式と、個人性の維持を無理に行わずに音質の劣化を防止する変換方式とを、自動的に切り替えることができる。
【図面の簡単な説明】
【0019】
【図1】本発明の第1の実施形態による音声処理装置の機能構成を示すブロック図である。
【図2】周期変換前の原音声と、サンプリングレート変換型基本周期変換を行った後の音声と、スペクトル包絡保存型基本周期変換を行った後の音声の、それぞれの、波形および周波数スペクトルを示す概略図である。
【図3】本発明の第2の実施形態による音声処理装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【0020】
[第1の実施形態]
次に、図面を参照しながら、本発明の一実施形態について説明する。
図1は、本実施形態による音声処理装置の機能構成を示すブロック図である。図示するように、音声処理装置1は、有声度算出部100と、サンプリングレート変換型基本周期変換部110と、接続部120と、基本周期変換部200とを含んで構成される。またさらに、基本周期変換部200は、基本周期抽出部210と、基本周期区間分割部220と、変換倍率算出部260と、変換倍率設定部270と、スペクトル包絡保存型基本周期変換部240と、サンプリングレート変換型基本周期変換部250とを含んで構成される。
【0021】
有声度算出部100は、入力音声の有声度を算出する。そして、有声度算出部100によって算出された有声度に応じて、入力音声が無変換で接続部120に渡される(有声度が小の場合)か、入力音声がサンプリングレート変換型基本周期変換部110に渡される(有声度が中の場合)か、入力音声が基本周期変換部200に渡される(有声度が大の場合)かの切り替えが行われる。
【0022】
サンプリングレート変換型基本周期変換部110は、基本周期を特定しない方式で波形の伸縮を行う。
接続部120は、無変換で渡される音声と、サンプリングレート変換型基本周期変換部110から渡される音声と、基本周期変換部200から渡される音声とを、再度接続し、出力音声として出力する。
【0023】
基本周期変換部200は、入力される音声に関して、基本周期の変更を行う。基本周期変換部200に含まれる各部の機能は、次に述べるとおりである。
基本周期抽出部210は、入力される音声の基本周期を求める。
基本周期区間分割部220は、基本周期の長さに合わせて、入力音声波形を基本周期ごとに区分化する。
【0024】
スペクトル包絡保存型基本周期変換部240は、変換倍率算出部260から渡されるβの値を用いて、スペクトル包絡保存型の基本周期変換方式で、入力される音声の基本周期をβ倍に(第1の倍率で)変換して出力する。
サンプリングレート変換型基本周期変換部250は、変換倍率算出部260から渡されるθの値を用いて、サンプリングレート変換型の基本周期変換方式で、入力される音声の基本周期をθ倍に(第2の倍率で)変換して出力する。サンプリングレート変換型基本周期変換部250は、サンプリングレート変換型の基本周期得変換を、入力音声の波形の線形伸縮により行う。
【0025】
変換倍率設定部270は、ユーザーインタフェースを介したユーザーからの指示等により、あるいは予め記憶された設定値等により、基本周期に関する所望の変換倍率αの値を設定し、変換倍率算出部260に渡す。
変換倍率算出部260は、スペクトル包絡保存型基本周期変換部240による周期変換およびサンプリングレート変換型基本周期変換部250による周期変換を合わせた所望倍率αに基づいて、それぞれの変換における倍率(後述するβおよびθ)を算出し、算出された倍率の情報を、スペクトル包絡保存型基本周期変換部240とサンプリングレート変換型基本周期変換部250に渡す。
【0026】
次に、音声処理装置1の動作を詳細に説明する。音声処理装置1に入力される入力音声は、予め音声区間だけを選別したものであり、雑音区間や無音区間などが取り除かれているものである。入力音声の区間は、数秒以上の長い区間であってもよいし、数十ミリ秒の短い区間であってもよい。
また、α(α>0)は入力音声に対して与えられる所望の基本周期変換倍率である。
【0027】
有声度算出部100は、自己相関分析等により、入力音声の有声度Rを算出する。そして、有声度算出部100が算出した有声度Rの値に応じて、入力音声を処理する手段の切り替えを行う。入力音声は、声帯が振動して発せられる有声音(母音や一部の子音)と声帯が振動しないで発せられる無声音(多くの子音)に大別される。また、発声の形態や個人の違いによりその中間的な特徴を示す区間を持つ場合もある。
【0028】
具体的には、有声度算出部100は、波形の周期性を調べることによって有声度Rを算出する。波形の周期性が強いほど、有声度Rも大きい。有声度算出部100は、有声度算出のために、下の式(1)で表される自己相関関数R(τ)を用いる。
【0029】
【数1】

【0030】
ここで、kは、時間軸における離散的なインデックスであり、0≦k≦K−1である。また、下の式(2)の通りである。
【0031】
【数2】

【0032】
式(2)において、x(k)は音声波形であり、w(k)はハミング窓を表す関数である。
【0033】
有声度算出部100は、式(1)で表した自己相関関数を用いて、有声度Rを下の式(3)で計算する。
【0034】
【数3】

【0035】
なお、式(3)において、R(τ)maxは、τ>0におけるR(τ)の最大値である。
【0036】
有声度算出部100は、算出した有声度Rが所定値よりも大きければ有声音区間と判断し、有声度Rが所定値よりも小さければ無声音区間と判断する。例えば、本実施形態では、R>0.4のときには入力音声が有声音区間にあると判断し、入力音声を基本周期変換部200側へ出力する。また、R<0.2のときには入力音声が無声音区間にあると判断し、入力音声を接続部120に出力する。また、0.2≦R≦0.4のときには、有声音と無声音の中間的な性質をもった区間であると判断し、入力音声をサンプリングレート変換型基本周期変換部110へ出力する。
なお、ここでは、0.2および0.4をそれぞれ基準値として有声度Rの大/中/小を判別しているが、異なる基準値を用いても良い。
【0037】
R<0.2のとき(有声度Rが所定値より小さいとき)には、入力音声が無変換で接続部120に渡される。これは、無声音には周期性がないため、入力音声を無変換で出力するためである。
【0038】
0.2≦R≦0.4のとき(有声度Rが中間的な値のとき)には、周期性が明確ではない。従って、サンプリングレート変換型基本周期変換部110は、基本周期を特定しない方式(例えば20ミリ秒の一定のフレーム長単位)で、倍率α、またはαより緩和した倍率(例えばα1/2)を用いて、波形の伸縮を行う。つまり、サンプリングレート変換型基本周期変換部110は、α>1の場合には波形を時間方向に伸ばし、α<1の場合には波形を時間方向に縮める。但し、入力される波形の時間長と出力される波形の時間長が等しくなるよう、α>1の場合にはフレーム長単位で適宜波形を間引き、α<1の場合にはフレーム長単位で適宜波形を繰り返す。
【0039】
次に、R>0.4の場合(有声度Rが所定値より大きいとき)に入力音声を処理する基本周期変換部200の動作を説明する。
基本周期抽出部210は、入力音声の基本周期を求める。基本周期を抽出方法は、既存技術を用いて行うことができる。基本周期抽出部210は、例えば、自己相関法やケプストラム法などを用いて入力音声の基本周期を求める。
【0040】
基本周期区間分割部220は、基本周期の長さに合わせて、入力音声波形を基本周期ごとに区分化する。基本周期は発声する声帯の振動周期に相当するが、声帯の振動周期は数十ミリ秒の短い時間の間にも少しずつ変化するのが一般的であるので、区分化される各基本周期区間の長さは、隣り合う区間でも異なることが多い。基本周期区間を分割する方法としては、既存技術を用いる。例えば、文献(都木、清山、宮坂:「ピッチ同期音声処理のためのピッチ区間自動区分化の一手法」,信学技報,SP93−6,電子通信学会,1993年)などに記載された方法を利用することができる。同文献に記載されている方法は、まず有声音区間について複数の異なる窓幅で自己相関分析を行い、各窓幅で得られたピッチ周期の候補を統計的に処理して基本周期の予備抽出を行い、これを元に当該有声音区間全体にわたって一定の時間間隔で基本周期を抽出し、その逆数を計算して求めた周波数より高いカットオフ周波数で波形を低域ろ波し、得られた正弦波状の波形のピークから順次1基本周期区間ごとの基本周期を決定し、それに従って基本周期区間への分割を行う。
【0041】
変換倍率設定部270は、利用者等からの指示に基づいて所望の倍率αの値を設定し、変換倍率算出部260にその値を渡す。
【0042】
変換倍率算出部260は、与えられたαの値に応じて、スペクトル包絡保存型基本周期変換部240に与える変換倍率βとサンプリングレート変換型基本周期変換部250に与える変換倍率θを算出する。
【0043】
[場合1−1]変換倍率算出部260は、一例として、0.6≦α≦1.4ならば、β=αとし、θ=1とする。このとき、0.6≦β≦1.4であるため、スペクトル包絡保存型基本周期変換を行っても、入力音声の個人性は維持される。つまり、入力音声の話者の声の特徴が維持され、基本周期変換後においてもその話者が話しているかのような出力音声を得ることができる。なお、この場合、α=β・θの関係が保たれている。
【0044】
[場合1−2]また、変換倍率算出部260は、一例として、α<0.6ならば、β=0.6とし、θ=α/0.6とする。なお、この場合も、α=β・θの関係が保たれている。この場合には、β=0.6として(つまり、βが0.6より著しく小さくなることを避けて)いるため、音質の劣化を防ぐことができる。但し、θ≠1であり個人性の維持を犠牲にしている。これは、α<0.6の場合には無理に個人性を維持する必要はないという考え方に基づく。
【0045】
[場合1−3]また、変換倍率算出部260は、一例として、α>1.4ならば、β=1.4とし、θ=α/1.4とする。なお、この場合も、α=β・θの関係が保たれている。この場合には、β=1.4として(つまり、βが1.4より著しく大きくなることを避けて)いるため、音質の劣化を防ぐことができる。但し、θ≠1であり個人性の維持を犠牲にしている。これは、α>1.4の場合には無理に個人性を維持する必要はないという考え方に基づく。
【0046】
参考文献(T.Takagi,H.Kuwabara,“Contributions of pitch, formant frequency and bandwidth to the perception of voice-personality”,Proc. ICASSP 86,17.8,pp.889-892,1986年)によれば、スペクトル包絡保存型の方式による基本周期(基本周波数)のシフトに対しては、±40%程度まで個人性が保たれることがわかる。よって、トータルな所望変換倍率αが0.6以上且つ1.4以下の場合には、スペクトル包絡保存型基本周期変換部240による変換倍率βをαと同等として、サンプリングレート変換型基本周期変換部250による変換倍率θを1とすることには意味がある。これにより、個人性が保たれる。一方で、所望変換倍率αが0.6より小さい場合、または、αが1.4より大きい場合には、上記参考文献の内容はスペクトル包絡保存型の方式を用いても個人性を維持することが難しいとも解釈でき、βを、それぞれ、0.6または1.4として、音の歪みを防止しながら、θ=α/βとなるようにしてサンプリングレート変換型の方式も有効とし、無理に個人性の維持をしないことを許すこととしている。このようにαの値に応じてβおよびθの算出のしかたを変えることにより、場合に応じて個人性の維持と歪みの防止とを適宜切り替える形で、基本周期を変換することができるようになっている。
【0047】
また、上記の場合1−1から場合1−3までの算出方法とは別の方法として、次のようにβとθを算出しても良い。
【0048】
[場合2−1]変換倍率算出部260は、一例として、0.65≦α≦1.35ならば、β=αとし、θ=1とする。なお、この場合も、α=β・θの関係が保たれている。0.65≦α≦1.35の場合には、βおよびθの値は、前述の「場合1−1」におけるそれらと同様である。
【0049】
[場合2−2]また、変換倍率算出部260は、一例として、α<0.65ならば、β=0.65とし、θ=α/0.65とする。なお、この場合も、α=β・θの関係が保たれている。
このように、α<0.65の場合には、前述の「場合1−1」や「場合1−2」よりも、βがより大きな値となり、θがより小さな値となる。つまり、「場合1−1」や「場合1−2」よりも、サンプリングレート変換型基本周期変換方式のほうをより強く作用させる結果となる。
【0050】
[場合2−3]また、変換倍率算出部260は、一例として、α>1.35ならば、β=1.35とし、θ=α/1.35とする。
このように、α>1.35の場合には、前述の「場合1−1」や「場合1−3」よりも、βがより小さな値となり、θがより大きな値となる。つまり、「場合1−1」や「場合1−3」よりも、サンプリングレート変換型基本周期変換方式のほうをより強く作用させる結果となる。
【0051】
これらの、場合2−1から場合2−3までの算出方法によると、場合1−1から場合1−3までの算出方法と比べて、サンプリングレート変換型基本周期変換方式をより強く作用させているが、スペクトル包絡における全ての極周波数を±5%程度まで変化させても個人性が保たれるので、このようにβおよびθを算出しても良いと言える。その根拠として、参考文献(T.Takagi,H.Kuwabara,“Contributions of pitch, formant frequency and bandwidth to the perception of voice-personality”,Proc. ICASSP 86,17.8,pp.889-892,1986年)に、スペクトル包絡の形を特徴付けている全ての極周波数のシフトが±5%程度の範囲内であれば個人性が保たれることが示されている。なお、ここで、極周波数とは、スペクトル包絡におけるピークを示す周波数である。スペクトル包絡は、鋭いピークやなだらかなピークなどを有するが、ここでは、それら全てのピークに対応する周波数が、「すべての極周波数」である。
【0052】
倍率αの値に応じた場合分けを一般化すると、α<αSの場合と、αS≦α≦αL
の場合と、αL<αの場合に分けることができる。上述したのは、αS=0.6且つαL=1.4の場合と、αS=0.65且つαL=1.35の場合であるが、αSおよびαLとして、適宜異なる値を用いても良い。
【0053】
また、さらに、サンプリングレート変換型基本周期変換方式においては、基本周期だけでなくすべての周波数成分が基本周期と同じ割合で変化する。従って、同じパーセンテージで基本周期を変換する場合でも、サンプリングレート変換型基本周期変換方式のほうが、スペクトル包絡保存型基本周期変換方式に比べ、声の高さの変化量が人の耳はより大きく感じられる場合がある。そこで、βとθの積が、αよりも数パーセント(例えば、3%。但し他の値でも良い。)程度1に近くなるよう、βとθの値をそれぞれ若干ずつ1に近づけ、音質の劣化や個人性の変化を抑えながら所望の効果を得るようにしても良い。
つまり上記の、場合1−1から場合1−3までと、場合2−1から場合2−3までのそれぞれにおいて、β<1の場合には、それぞれの場合において示した値よりも、βを若干大きくする。また、θ<1の場合には、それぞれの場合において示した値よりも、θを若干大きくする。逆に、β>1の場合には、それぞれの場合において示した値よりも、βを若干小さくする。また、θ>1の場合には、それぞれの場合において示した値よりも、θを若干小さくする。
つまり、このとき、変換倍率算出部260は、α<1の場合には、α<(β・θ)<(α+αdiff)<1となるように、βおよびθの値を設定する。また、変換倍率算出部260は、α>1の場合には、1<(α−αdiff)<(β・θ)<αとなるように、βおよびθの値を設定する。なおここで、αdiffは、適宜決定される正数であり、例えば、αdiffを0.01以上且つ0.05以下の数とする。
【0054】
あるいは、同様の趣旨で、0.94≦{(β・θ−1)/(α−1)}<1となるようにβおよびθの値を設定する。
【0055】
スペクトル包絡保存型基本周期変換部240は、変換倍率算出部260によって算出されたβの値に従い、基本周期区間分割部220によって区分化された基本周期区間ごとの波形に対し、β倍の基本周期の変換を行う。
【0056】
また、サンプリングレート変換型基本周期変換部250は、変換倍率算出部260によって算出されたθの値に従い、スペクトル包絡保存型基本周期変換部240から出力される基本周期区間ごとの波形に対し、θ倍の基本周期の変換を行う。
【0057】
スペクトル包絡保存型基本周期変換部240およびサンプリングレート変換型基本周期変換部250による周期変換自体は、既存技術を利用して行うことができる。なお、本実施形態ではスペクトル包絡保存型基本周期変換部240による周期変換の後にサンプリングレート変換型基本周期変換部250による周期変換を行っているが、この順序を逆にしても良く、いずれの場合も同等の結果が得られる。
【0058】
つまり、外部からの入力音声をスペクトル包絡保存型基本周期変換部240への入力に接続し、スペクトル包絡保存型基本周期変換部240からの出力をサンプリングレート変換型基本周期変換部250への入力に接続し、サンプリングレート変換型基本周期変換部250からの出力音声を、接続部120経由で、外部への出力としても良い。また、逆に、外部からの入力音声をサンプリングレート変換型基本周期変換部250への入力に接続し、サンプリングレート変換型基本周期変換部250からの出力をスペクトル包絡保存型基本周期変換部240への入力に接続し、スペクトル包絡保存型基本周期変換部240からの出力音声を、接続部120経由で、外部への出力としても良い。
【0059】
そして、基本周期変換部200は、基本周期変換済みの音声を接続部120に出力する。
【0060】
接続部120は、有声度Rが小さく(R<0.2)無変換だった波形と、Rが中間的な値(0.2≦R≦0.4)でサンプリングレート変換型基本周期変換部110で変換された波形と、Rが大きく(R>0.4)基本周波数変換部200で基本周期が変換された波形を、順次接続して、最終的な出力音声として出力する。
【0061】
図2は、同じ倍率で、サンプリングレート変換型基本周期変換(サンプリングレート変換型基本周期変換250による変換)およびスペクトル包絡保存型基本周期変換(スペクトル包絡保存型基本周期変換240による変換)を行ったときの、波形および周波数スペクトルを示すものである。
【0062】
図2(a)は、周期変換前の原音声に関するものである。符号a1は、現音声の波形を表す。ここで、横方向が時間軸であり、縦方向が振幅である。また、符号a2は、現音声のパワースペクトル(細線)およびスペクトル包絡(太線)を表す。ここで、横軸は周波数であり、縦軸はパワー(単位はデシベル)である。
【0063】
図2(b)は、サンプリングレート変換型基本周期変換を行った後の音声に関するものである。符号b1は、サンプリングレート変換型基本周期変換の後の波形を表す。また、符号b2は、サンプリングレート変換型基本周期変換の後のパワースペクトル(細線)およびスペクトル包絡(太線)を表す。b1の波形は、上のa1の波形を時間方向に一様に縮めた形状をしており、a1の波形とは基本周期(類似した形の波形が繰り返す時間の長さ)が異なる。b2のスペクトル包絡は、a2のスペクトル包絡とは形状が異なっている。具体的には、b2のスペクトル包絡とa2のスペクトル包絡の間では、極周波数の数が異なり、また極周波数の位置も大きく異なっている。サンプリングレート変換型の基本周期変換方式では、時間軸上の波形は一様に伸縮され、周波数軸上でも全体が一様に伸縮する(時間軸上の波形が縮めば、周波数軸上では伸びる)ことが特徴である。
【0064】
図2(c)は、スペクトル包絡保存型基本周期変換(LPC分析・合成)を行った後の音声に関するものである。符号c1は、スペクトル包絡保存型基本周期変換の後の波形を表す。また、符号c2は、スペクトル包絡保存型基本周期変換の後のパワースペクトル(細線)およびスペクトル包絡(太線)を表す。本方式では、c1の時間軸上の波形は、a1の波形と比べて、その基本周期が変化しているが、時間方向に一様に縮めた形状にはなっていない。一方で、周波数軸上では、c2のスペクトル包絡が、a2のスペクトル包絡ほぼ同様の形を保っていることが特徴である。具体的には、c2のスペクトル包絡とa2のスペクトル包絡の間では、極周波数の位置が近い。
【0065】
[第2の実施形態]
次に、第2の実施形態について説明する。なお、本実施形態の技術事項において、前述の実施形態と共通する部分については同一の符号を付すとともに、その詳細な説明を省略する。以下では、本実施形態に特有な部分を中心に説明する。
【0066】
図3は、本実施形態による音声処理装置の機能構成を示すブロック図である。図示するように、音声処理装置2は、有声度算出部100と、サンプリングレート変換型基本周期変換部110と、接続部120と、基本周期変換部400とを含んで構成される。またさらに、基本周期変換部400は、基本周期抽出部210と、基本周期区間分割部220と、スペクトル包絡保存型基本周期変換部430と、スペクトル算出部440(第1のスペクトル算出部)およびスペクトル算出部450(第2のスペクトル算出部)と、スペクトル歪み量算出部460と、変換倍率算出部470と、スペクトル包絡保存型基本周期変換部240と、サンプリングレート変換型基本周期変換部250とを含んで構成される。
【0067】
スペクトル包絡保存型基本周期変換部430は、外部からの入力音声を周期変換する。
スペクトル算出部440は、スペクトル包絡保存型基本周期変換部430によって周期変換された結果の音声のスペクトルを算出する。
スペクトル算出部450は、外部からの入力音声のスペクトルを算出する。
スペクトル歪み量算出部460は、スペクトル算出部440によって算出されたスペクトルと、スペクトル算出部450によって算出されたスペクトルとに基づいて、スペクトル歪み量Wを算出する。
【0068】
変換倍率算出部470は、変換の所望倍率αと、スペクトル歪み量算出部460によって算出されたスペクトル歪み量Wとに基づいて、スペクトル包絡保存型基本周期変換部240による周期変換の倍率βと、サンプリングレート変換型基本周期変換部250による周期変換の倍率θを、それぞれ算出する。
【0069】
次に、音声処理装置2の動作を説明する。音声処理装置2への入力音声は、前実施形態における入力音声と同様に、予め音声区間だけを選別したものであり、雑音区間や無音区間などが取り除かれているものである。入力音声の区間は、数秒以上の長い区間であってもよいし、数十ミリ秒の短い区間であってもよい。
【0070】
有声度算出部100は、前実施形態におけるそれと同様に、有声度Rを算出し、Rが所定値(例えば、0.4)よりも大きければ有声音区間と判断し、Rが所定値(例えば、0.2)よりも小さければ無声音区間と判断する。また、有声度算出部100は、0.2≦R≦0.4ならば、中間的な性質をもった区間と判断する。この判断に基づき、無声音区間の波形は、無変換で、接続部120へ出力される。また、中間的な性質を持った区間の波形は、サンプリングレート変換型基本周期変換部110へ出力される。また、有声音区間の波形は、基本周期変換部400に渡される。
【0071】
次に、基本周期変換部400の動作について説明する。
基本周期抽出部210は、前実施形態におけるそれと同様に、入力音声の基本周期を求める。基本周期区間分割部220は、前実施形態におけるそれと同様に、基本周期の長さに合わせて、入力音声波形を基本周期ごとに区分化する。
【0072】
スペクトル包絡保存型基本周期変換部430は、基本周期区間分割部220によって区分化された基本周期区間ごとの波形に対し、α倍の基本周期の変換を行い、変換結果をスペクトル算出部440へ出力する。
スペクトル算出部440は、FFT(高速フーリエ変換)等によって、スペクトル包絡保存型基本周期変換部430から渡された波形を周波数領域に変換し、パワースペクトルやスペクトル包絡を算出し、スペクトル歪み量算出部460へ出力する。
【0073】
一方、スペクトル算出部450は、基本周期区間分割部220によって区分化された基本周期区間ごとの波形を周波数領域に変換し、変換前の信号のパワースペクトルやスペクトル包絡を算出し、スペクトル歪み量算出部460へ出力する。
【0074】
スペクトル歪み量算出部460は、スペクトル算出部440から得られるスペクトルと、スペクトル算出部450から得られるスペクトルを比較し、その差分から算出されるスペクトル歪み量W(スペクトル距離尺度)を算出する。例えば、スペクトル算出部440から得られるスペクトル包絡をH(k)、スペクトル算出部450から得られるスペクトル包絡をH(k)、としたとき、スペクトル包絡保存型基本周期変換部430によるスペクトル歪み量W(単位は、デシベル)は、下の式(4)で計算される。なお、kは、対象の周波数域における所定幅で離散的な周波数に付与されたインデックスであり、0≦k≦K−1である。
【0075】
【数4】

【0076】
なお、スペクトル歪み量の計算には、スペクトル包絡を用いた式(4)によるものの代わりに、WLR(Weighted Likelihood Ratios)距離尺度や、MFCC(Mel-Frequency Cepstrum Coefficients)距離尺度などを用いるようにしてもよい。
【0077】
変換倍率算出部470は、スペクトル歪み量算出部460によって算出されたスペクトル歪み量Wの値に応じて、スペクトル包絡保存型基本周期変換部240に与える変換倍率βとサンプリングレート変換型基本周期変換部250に与える変換倍率θを算出する。その計算方法の一例は、次の通りである。
【0078】
変換倍率算出部470は、W≦6[dB]ならば、次の式(5)の通りとする。
【0079】
【数5】

【0080】
また、6[dB]<W≦18[dB]ならば、次の式(6)の通りとする。
【0081】
【数6】

【0082】
また、W>18[dB]ならば、次の式(7)の通りとする。
【0083】
【数7】

【0084】
式(5)、式(6)、式(7)のいずれの場合も、(β・θ)=αである。
【0085】
なお、式(5)、式(6)、式(7)を一般化して、変換倍率算出部470が次のようにβおよびθを算出するようにしても良い。即ち、W≦s[dB]ならば、次の式(8)の通りとする。
【0086】
【数8】

【0087】
また、s[dB]<W≦t[dB]ならば、次の式(9)の通りとする。
【0088】
【数9】

【0089】
また、W>t[dB]ならば、次の式(10)の通りとする。
【0090】
【数10】

【0091】
また、変換倍率算出部470が次のようにβおよびθを決定するようにしてもよい。つまり、α<1の場合にはα<(β・θ)<1となるように(αよりもβ・θを数パーセント大きく)して、1<αの場合には1<(β・θ)<αとなるように(αよりもβ・θを数パーセント小さく)する。
【0092】
例えば、α<1の場合には、(β・θ)=α(1+c)となるように、βおよびθの値を決定する。具体的には、式(5)〜(7)または式(8)〜(10)のそれぞれにおけるαを、α(1+c)で置き換える。そして、1<αの場合には、(β・θ)=α/(1+c)となるように、βおよびθの値を決定する。具体的には、式(5)〜(7)または式(8)〜(10)のそれぞれにおけるαを、α/(1+c)で置き換える。ここで、cは、適宜設定される正数であり、例えばcを0.01以上0.06以下の数とする。つまり、式(5)〜(7)または式(8)〜(10)で算出したβおよびθの値を、それぞれ若干ずつ1に近づけることと同等の結果となる。
【0093】
あるいは、同様の趣旨で、0.94≦{(β・θ−1)/(α−1)}<1となるようにβおよびθの値を設定する。
【0094】
サンプリングレート変換型基本周期変換方式においては、基本周期だけでなくすべての周波数成分が基本周期と同じ割合で変化するので、同じパーセンテージで基本周期を変換する場合でも、サンプリングレート変換型基本周期変換方式のほうが、スペクトル包絡保存型基本周期変換方式に比べ、声の高さの変化量が人の耳はより大きく感じられると考えられる。従って、(β・θ)=αとする場合に比べて、βおよびθをそれぞれ1に近い値とする場合のほうが、音質の劣化を抑えながら、所望のα倍の周期変換と同等の効果を得られる。
【0095】
スペクトル包絡保存型基本周期変換部240およびサンプリングレート変換型基本周期変換部250は、基本周期区間分割部220から渡される基本周期区間ごとの波形に対し、それぞれ、β倍およびθ倍の基本周期の変換を行う。なお、これら2方式の処理順序を逆にしても良い。即ち、サンプリングレート変換型基本周期変換部250がθ倍のサンプリングレート変換型基本周期変換を行ってから、その出力に対して、スペクトル包絡保存型基本周期変換部240がβ倍のスペクトル包絡保存型基本周期変換を行うようにしても良い。この点は、第1の実施形態と同様である。
【0096】
接続部120は、前実施形態と同様に、入力される波形を順次接続して、最終的な出力音声として出力する。
【0097】
本実施形態のこのような構成および動作により、所定の倍率でスペクトル包絡保存型基本周期変換を行った場合のスペクトル歪み量を実測し、所望倍率αおよび算出されたスペクトル歪み量に基づいて、βおよびθの値を算出することができる。
【0098】
なお、上述した実施形態における音声処理装置の機能をコンピューターで実現するようにしても良い。つまり、上述した実施形態における音声処理装置としてコンピューターを機能させるプログラムを実現する。その場合、このプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0099】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0100】
本発明は、放送受信機や、音響再生装置や、音声合成装置等の、音声信号を扱う装置に適用することにより、産業上の利用を期待できるものである。
【符号の説明】
【0101】
1,2 音声処理装置
100 有声度算出部
110 サンプリングレート変換型基本周期変換部
120 接続部
200 基本周期変換部
210 基本周期抽出部
220 基本周期区間分割部
240 スペクトル包絡保存型基本周期変換部
250 サンプリングレート変換型基本周期変換部
260 変換倍率算出部
270 変換倍率設定部
400 基本周期変換部
430 スペクトル包絡保存型基本周期変換部
440 スペクトル算出部(第1のスペクトル算出部)
450 スペクトル算出部(第2のスペクトル算出部)
460 スペクトル歪み量算出部
470 変換倍率算出部

【特許請求の範囲】
【請求項1】
スペクトル包絡保存型の基本周期変換方式で、入力される音声の基本周期を第1の倍率で変換して出力するスペクトル包絡保存型基本周期変換部と、
サンプリングレート変換型の基本周期変換方式で、入力される音声の基本周期を第2の倍率で変換して出力するサンプリングレート変換型基本周期変換部と、
を具備し、
(a)外部からの入力音声を前記スペクトル包絡保存型基本周期変換部への入力に接続し、前記スペクトル包絡保存型基本周期変換部からの出力を前記サンプリングレート変換型基本周期変換部への入力に接続し、前記サンプリングレート変換型基本周期変換部からの出力音声を外部への出力とし、
または、
(b)外部からの入力音声を前記サンプリングレート変換型基本周期変換部への入力に接続し、前記サンプリングレート変換型基本周期変換部からの出力を前記スペクトル包絡保存型基本周期変換部への入力に接続し、前記スペクトル包絡保存型基本周期変換部からの出力音声を外部への出力とする、
ことを特徴とする音声処理装置。
【請求項2】
前記スペクトル包絡保存型基本周期変換部による周期変換および前記サンプリングレート変換型基本周期変換部による周期変換を合成したときの所望倍率に基づいて、前記第1の倍率および前記第2の倍率を算出し、前記第1の倍率の情報を前記スペクトル包絡保存型基本周期変換部に渡し、前記第2の倍率の情報を前記サンプリングレート変換型基本周期変換部に渡す変換倍率算出部、
を更に具備することを特徴とする請求項1に記載の音声処理装置。
【請求項3】
スペクトル包絡保存型の基本周期変換方式で前記外部からの入力音声を周期変換した結果の音声のスペクトルを算出する第1のスペクトル算出部と、
前記外部からの入力音声のスペクトルを算出する第2のスペクトル算出部と、
前記第1のスペクトル算出部によって算出されたスペクトルと、前記第2のスペクトル算出部によって算出されたスペクトルとに基づいて、スペクトル包絡保存型の基本周期変換方式によるスペクトル歪み量を算出するスペクトル歪み量算出部と、
を更に具備し、
前記変換倍率算出部は、算出された前記スペクトル歪み量にも基づいて前記第1の倍率および前記第2の倍率を算出する、
ことを特徴とする請求項2に記載の音声処理装置。
【請求項4】
スペクトル包絡保存型の基本周期変換方式で、入力される音声の基本周期を第1の倍率で変換して出力するスペクトル包絡保存型基本周期変換部と、
サンプリングレート変換型の基本周期変換方式で、入力される音声の基本周期を第2の倍率で変換して出力するサンプリングレート変換型基本周期変換部と、
を具備し、
(a)外部からの入力音声を前記スペクトル包絡保存型基本周期変換部への入力に接続し、前記スペクトル包絡保存型基本周期変換部からの出力を前記サンプリングレート変換型基本周期変換部への入力に接続し、前記サンプリングレート変換型基本周期変換部からの出力音声を外部への出力とし、
または、
(b)外部からの入力音声を前記サンプリングレート変換型基本周期変換部への入力に接続し、前記サンプリングレート変換型基本周期変換部からの出力を前記スペクトル包絡保存型基本周期変換部への入力に接続し、前記スペクトル包絡保存型基本周期変換部からの出力音声を外部への出力とする、
ことを特徴とする音声処理装置としてコンピューターを機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−33140(P2013−33140A)
【公開日】平成25年2月14日(2013.2.14)
【国際特許分類】
【出願番号】特願2011−169300(P2011−169300)
【出願日】平成23年8月2日(2011.8.2)
【出願人】(000004352)日本放送協会 (2,206)
【出願人】(591053926)財団法人エヌエイチケイエンジニアリングサービス (169)