仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
【課題】音声区間非音声区間の仮判定の精度を上げることによって、最終的な音声区間非音声区間の判定の精度を上げることを目的とする。
【解決手段】入力された音声信号からフレーム毎に音声パラメータを計算する。上記音声パラメータを予め定められたフレーム数分だけ遅延バッファに蓄積する。上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかを仮に決定する。上記決定された、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけVADフラグバッファに蓄積する。VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測し、予め定めた規則に基づいて過去に遡って修正する。上記修正された仮VADフラグを出力する。
【解決手段】入力された音声信号からフレーム毎に音声パラメータを計算する。上記音声パラメータを予め定められたフレーム数分だけ遅延バッファに蓄積する。上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかを仮に決定する。上記決定された、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけVADフラグバッファに蓄積する。VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測し、予め定めた規則に基づいて過去に遡って修正する。上記修正された仮VADフラグを出力する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、無音信号を含む複数の信号が含まれた混合信号から、音声信号や音響信号(以下、音声信号とする。)などの目標信号が含まれている区間を決定するための装置、方法、プログラム及びその記録媒体に関する。
【背景技術】
【0002】
音声信号を、フレームと呼ばれる例えば10ms〜20msの一定時間毎の信号に区切り、音声符号化の手法を用いて音声パケットに変換し、パケット通信網を介して通信するサービス(以下、音声パケット通信とする。)が普及しつつある。
特許文献1に、音声パケット通信を用いて、多地点で音声会議を行う装置と方法が記載されている。特許文献1に記載されている音声パケット送信部10の構成例を図12に示す。音声パケット送信部10には、フレームと呼ばれる一定時間毎に区切られた音声信号が入力音声として入力され、音声波形符号化部11において音声符号化の手法を用いて入力音声を音声符号に変換するとともに、音声区間決定部12において、入力音声を分析し、当該フレームが音声区間に属するか非音声区間に属するかの情報(以下、VADフラグとする。)を決定し、パケット構成部13において、音声符号とVADフラグを1つの音声パケットに組み込んで送出している。
【0003】
特許文献1において、VADフラグを音声符号とともに送信しているのは、受信側すなわち多地点ミキシングサーバにおいて、VADフラグを参照して、各地点で発話中であるか、そうでないかを判断し、時々刻々、どの地点が主たる発言者であるのかの自動判定に基づくミキシング処理を行うためである。このとき、送信側において音声/非音声判定を誤り、間違ったVADフラグを送信すると、多地点接続サーバにおける主たる発言者の自動判定にも誤りが生じ、多地点接続サーバで生成されるミキシング音声の品質が劣化するという問題がある。
音声区間決定部12の構成例を図13に示す。音声区間決定部12は、パラメータ計算部20、仮判定部21、統計量計算部22、閾値決定部24、比較部25を有する。また、図14に、音声区間決定部12の処理の流れを例示する。
【0004】
まず、パラメータ計算部20は、入力音声からパワーやピッチ相関等の音声パラメータを計算して、仮判定部21、統計量計算部22、比較部25に出力する(ステップS81)。
仮判定部21は、予め定められた固定閾値(無音閾値A1、有声音閾値B1、無声音閾値C1)と計算された音声パラメータとを用いて、入力音声フレームが音声区間であるか非音声区間であるかの仮判定を行う(ステップS82)。
【0005】
図3は、仮判定部21における処理のフローチャート例である。まず、パワーを無音閾値A1と比較し、パワーが無音閾値A1未満であれば非音声区間と判定する(ステップS21)。パワーが無音閾値A1未満でない場合は、ピッチ相関の値を有声音閾値B1と比較し、ピッチ相関が有声音閾値B1より大であれば音声区間と判定する(ステップS22)。ピッチ相関が有声音閾値B1より大でない場合は、ピッチ相関の値を無声音閾値C1と比較し、ピッチ相関が無声音閾値C1未満であれば非音声区間と判定する(ステップS23)。ピッチ相関が無声音閾値C1未満でない場合は、不明と判定する(ステップS23)。仮判定では不明区間があってもよい。
統計量計算部22は、仮判定部21で判定された音声/非音声区間の判定に基づいて、音声区間と非音声区間それぞれの平均パワーを計算する。
閾値決定部24は、音声区間と非音声区間それぞれの平均パワーから、音声/非音声判定のための動的閾値を決定する(例えば、特許文献1参照。)(ステップS83)。
比較部25は、音声パラメータと、上記音声/非音声判定のための動的閾値を比較して、最終的にそのフレームが音声区間であるか非音声区間であるかの判定を行い、その結果(VADフラグ)を出力する。最終的な判断では、区間不明は認められず、必ず音声区間か非音声区間のいずれかに判定する(ステップS84)。
【0006】
まとめると、上記記載された装置・方法は、まず、固定閾値で明らかに音声区間、非音声区間とわかるフレームについては判定を行い、その判定結果を用いて、音声区間の信号レベル、非音声区間の信号レベルを推定し(判定の難しいフレームは不明のままにする)、推定された音声区間、非音声区間のそれぞれの信号レベルから動的な閾値を決めて、最終的にすべてのフレームを、音声区間、非音声区間いずれかに振り分けるという2段階の処理をしている。
【特許文献1】特開2005−229259号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
背景技術に記載された2段階の処理を行う装置・方法は、固定閾値のみで最終的な音声区間、非音声区間を決めてしまうのに比べれば精度が高いといえるが、上記装置・方法で最終的に推定される音声区間、非音声区間の信号レベルはあくまでも近似でしかない。
なぜなら、仮判定部21は、予め定められた固定閾値のみから、音声区間、非音声区間の仮判定を行っており、その判定精度が必ずしも高くはない。このため、仮判定部21における音声区間、非音声区間の仮判定の精度が低い場合には、各区間の信号レベルを正確に測定することはできないし、各区間の信号レベルを正確に測定できなければ最終的な音声区間、非音声区間の判定精度を上げることができないからである。
本発明は、仮判定の精度を上げることを目的とする。また、仮判定の精度を上げることによって、最終的な音声区間、非音声区間の判定の精度を上げることを目的とする。
【課題を解決するための手段】
【0008】
本発明は、入力された音声信号からフレーム毎に音声パラメータを計算する。上記音声パラメータを、予め定められたフレーム数分だけ遅延バッファに蓄積する。上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかを仮に決定する。上記決定された、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけVADフラグバッファに蓄積する。VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正する。上記修正された仮VADフラグを出力する。
望ましくは、さらに、上記修正された仮VADフラグによって、音声区間に属すると決定されたフレーム及び/又は非音声区間に属すると決定されたフレームから、音声区間に属するか非音声区間に属するかを決定するための動的閾値を所定の時間間隔ごとに計算する。上記計算された動的閾値と、あるフレームについての上記音声パラメータとを比較することによって、その音声パラメータに係るフレームが音声区間に属するか非音声区間に属するかを最終的に決定する。
【発明の効果】
【0009】
リアルタイム通信における利用では、最終的な音声区間、非音声区間の判定は、フレーム音声が入力されたら即座に実時間で(フレームの時間長以内の時間で)決定されなければならない。しかしながら、仮判定は音声区間、非音声区間のそれぞれの信号レベルを推定するためだけのものであるから、厳密なリアルタイム性は要求されない。本発明は、この仮判定に厳密なリアルタイム性が要求されないことに着目している。
具体的には、上記遅延バッファから読み出した音声パラメータの経時的変化を観測して、過去に遡って仮VADフラグを適切なものに修正することによって、仮判定の精度を向上している。また、その結果として、最終的な判定精度の向上が可能となった。
【発明を実施するための最良の形態】
【0010】
図1と図2を参照して、本発明による音声区間決定装置120の説明をする。図1は、音声区間決定装置120の機能構成を例示する図である。図2は、音声区間決定装置120の処理の流れを例示する図である。
音声区間決定装置120は、パラメータ計算部20、仮判定部21、統計量計算部22、閾値決定部24、比較部25、遅延バッファ26、VADフラグバッファ27、VADフラグバッファ修正処理指示部28を有する。なお、本明細書、特許請求の範囲では、パラメータ計算部20、仮判定部21、遅延バッファ26、VADフラグバッファ27、VADフラグバッファ修正処理指示部28を、仮音声区間決定装置30とする。また、本明細書、特許請求の範囲では、統計量計算部22と閾値決定部24を合わせて、動的閾値決定部29と呼ぶことにする。音声区間決定装置120は、遅延バッファ26、VADフラグバッファ27、VADフラグバッファ修正処理指示部28を有する点で、背景技術による音声区間決定部12とは異なる。
【0011】
パラメータ計算部20は、入力された音声信号から、パワーやピッチ相関等の音声パラメータをフレームごとに計算する(ステップS1)。本明細書、特許請求の範囲においては、音声信号とは、音声信号と音響信号を含む概念とする。計算された音声パラメータは、仮判定部21、比較部25、遅延バッファ26にそれぞれ出力される。以下では、パラメータ計算部20が、音声パラメータとしてパワーとピッチ相関の両方を計算する例を挙げて音声区間決定装置120を説明する。なお、パラメータ計算部20は、仮判定部21、比較部25、統計量計算部22が用いる音声パラメータを少なくとも計算すればよい。すなわち、仮判定部21、比較部25、統計量計算部22がパワーとピッチ相関の一方のみを用いる場合には、パラメータ計算部20は、その一方の音声パラメータを計算すればよい。このように、本発明のパラメータ計算部20は、計算する音声パラメータの種類は問わない。
【0012】
遅延バッファ26には、パラメータ計算部20で計算された音声パラメータが、予め定められたフレーム数分だけ蓄積される。予め定められたフレーム数を超えて新しい音声パラメータが蓄積されると、フレーム番号の最も古い音声パラメータは遅延バッファ26から削除される。後述するように、遅延バッファ26は、統計量計算部22又はVADフラグバッファ修正処理指示部28からの読み出し命令を受けて、遅延バッファに保存された音声パラメータを統計量計算部22又はVADフラグバッファ修正処理指示部28に出力する。
仮判定部21は、パラメータ計算部20で計算された音声パラメータを用いて、その音声パラメータに係るフレームが、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかを仮に決定する(ステップS2)。本明細書、特許請求の範囲においては、フレームが、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかどうかについての情報を、仮VADフラグとする。この仮VADフラグは、VADフラグバッファ27に格納される。仮判定部21の処理は、背景技術で説明した仮判定部21の処理と同様でよい。すなわち、図3に示されたフローチャートの処理を実行すればよい。
【0013】
具体的には、仮判定部21は、パラメータ計算部20で計算されたパワーを、予め定めた無音閾値A1と比較し、パワーが無音閾値A1未満であれば非音声区間と判定する(ステップS21)。パワーが無音閾値A1未満でない揚合は、ピッチ相関の値を予め定めた有声音閾値B1と比較し、パラメータ計算部20で計算されたピッチ相関が有声音閾値B1より大であれば音声区間と判定する(ステップS22)。ピッチ相関が有声音閾値B1より大でない場合は、ピッチ相関の値を無声音閾値C1と比較し、ピッチ相関が無声音閾値C1未満であれば非音声区間と判定する(ステップS23)。ピッチ相関が無声音閾値C1未満でない場合は、不明と判定する(ステップS23)。このようにして、仮判定部21は、音声区間に属するか非音声区間に属するかを仮に決定する。
なお、本明細書、特許請求の範囲においては、原則として、「未満」とは、「以下」の概念を包括するものとする。すなわち、AはB未満(A<B)であると言った場合には、AがB未満(A<B)であっても、AがB以下(A≦B)であってもよいものとする。同様に「より上」とは、「以上」の概念を包括するものとする。
【0014】
仮判定部21の仮判定では、音声区間、非音声区間が不明である不明区間があってもよいが、図13に記載した背景技術による音声区間決定部12とは違って、本発明による音声区間決定装置120では、後述のように仮判定結果である仮VADフラグを修正する機会があるので、不明区間ができないように上記閾値A1,B1,C1を決めてしまってもよい。例えば、有声音閾値B1=無声音閾値C1とする。また、ステップS22において、ピッチ相関が有声音閾値B1より大でない場合には、非音声区間と判断し、ステップS23の処理自体を行わなくてもよい。不明区間を生じさせないようにする場合には、音声区間に属するか非音声区間に属するかについての仮の情報が仮VADフラグとなる。
なお、仮判定部21の処理は、上記したものに限られない。実時間で音声区間、非音声区間(必要であれば、さらに不明区間)を判定することができる手法であればどのような方法でもよい。
【0015】
例えば、図4に示すように、判定の条件(ステップS24、ステップS25)を追加してもよい。つまり、音声区間を判定するための、パワーの閾値とピッチ相関の閾値との組合せが2以上ある場合には、図4に示すように、各組合せごとに、フレームのパワーとピッチ相関がそれぞれ、その組合せに係るパワーの閾値とピッチ相関の閾値よりも大きいかどうかを判定しても良い。図4は、音声区間であると判断することができるパワーの閾値とピッチ相関の閾値の組合せが、(パワーの閾値D1,ピッチ相関の閾値B1)と(パワーの閾値E1,ピッチ相関の閾値F1)の2つある場合の処理の例である。何れかの組合せにおいて、フレームのパワーとピッチ相関の方が、その組合せに係るパワーの閾値とピッチ相関の閾値よりも大きいとそれぞれ判定された場合には、そのフレームは音声区間と判定される(ステップS24、ステップS25)。図4において、ステップS21とステップS23は、図3のステップS21とステップS23と同様であるため説明を省略する。
【0016】
VADフラグバッファ27は、仮判定部21によって決定された仮VADフラグを予め定められたフレーム数分蓄積する。また、VADフラグバッファ27は、VADフラグバッファ修正処理指示部28からの指示に従って、蓄積された仮VADフラグの中で、仮判定が誤っていると判断されるフレームの仮VADフラグを修正する。VADフラグバッファに蓄積された仮VADフラグバッファは、予め定められたフレーム数に対応する時間経過後に、修正された仮VADフラグを統計量計算部22に送るとともに、送ったフレームの仮VADフラグを削除する。
遅延バッファ26とVADフラグバッファ27の蓄積フレーム数は以下のように設定することができる。例えば、フレームの時間長が20msである場合には、遅延バッファ26とVADフラグバッファ27の蓄積フレーム数を1〜100程度(さらに、好ましくは、50程度)にするとよい。また、例えば、フレームの時間長が10msである場合には、遅延バッファ26とVADフラグバッファ27の蓄積フレーム数を1〜200程度(さらに好ましくは、100程度)にするとよい。また、別の観点から言及すると、(フレームの時間長)×(蓄積フレーム数)=0.02秒〜0.2秒程度になるように、フレームの時間長と蓄積フレーム数とを設定するとよい。なお、遅延バッファ26とVADフラグバッファ27のそれぞれの蓄積フレーム数は同一にするのがよい。
【0017】
VADフラグバッファ修正処理指示部28は、現フレームの音声パラメータおよび遅延バッファ26に蓄積された音声パラメータと、予め定めた規則とに基づいて、VADフラグバッファ27に蓄積された仮VADフラグの中で判定の誤りのあるものを推定し、VADフラグバッファ27に対して、当該仮VADフラグを修正するように指示を与える。すなわち、パラメータ計算部20が出力した現フレームの音声パラメータと、遅延バッファから読み出した音声パラメータの経時的状態を観測して、VADフラグバッファ27に蓄積された仮VADフラグを適切なものに修正する。以下では、VADフラグバッファ修正処理指示部28が、仮VADフラグを修正するといった場合には、VADフラグバッファ修正処理指示部28が、仮VADフラグを修正する指示をVADフラグバッファ27に出し、その指示を受けてVADフラグバッファ27が、蓄積された仮VADフラグを修正することを意味する。
なお、VADフラグバッファ修正処理指示部28は、現フレームの音声パラメータを用いずに、遅延バッファから読み出した音声パラメータの経時的状態のみを観測して、仮VADフラグを適切なものに修正してもよい。
【0018】
VADフラグバッファ修正処理指示部28が行う処理は、フレーム番号が後の(フレーム番号が大きい、即ち時刻が後の)音声パラメータを観測して、フレーム番号が前の(フレーム番号が小さい、即ち時刻が前の)仮VADフラグの正誤を推定し、判定が誤りと判断されれば当該仮VADフラグを修正する処理であり、いったん決定された事項を過去に遡って訂正することに相当する。例えば、1,1,3,5,6という数値の時系列があるとする。単純に考えれば、6の次は6よりも大きい7か8がくるように推測されるが、実際に観測を続けると、6の次は5,3,1となり、6の時刻が最大値であったことがわかる、という事例は多い。音声区間、非音声区間の判定も同様であって、後続する音声パラメータのない仮判定の時点では正確に判定できなくても、後続の音声パラメータが得られた時点で判断がつくことが多い。
【0019】
例えば、パワーの小さいフレームが続いており、あるフレーム(時刻)において、以前よりも少しパワーが大きくなったとする。その時点では、そのパワーが少し大きくなったフレームが、音声区聞の始まりであるのか、単に一瞬のノイズが入っただけなのか判断がつかない。しかし、後続するフレームのパワーを引き続き観測して、急激にパワーの大きいフレームが続いていれば、最初に少しパワーが大きくなったフレームが音声区間の開始点であったと判断できる。また、後続のピッチ相関を観測して、ピッチ相関の値が大きくなったフレームが続けば、最初にパワーが少し大きくなったフレームが子音であった、すなわち音声区間の開始点であったという判断もできる。
逆に、パワーが少し大きくなったフレームの後に、またパワーの小さいフレームが続いた場合は、パワーが少し大きくなったフレームは音声区間ではなく、非音声区間であり、一瞬ノイズが入っただけと判断することが妥当である。
このように、VADフラグバッファ修正処理指示部28は、音声パラメータの状態から音声区区間、非音声区間を判断する基準を複数保持しており、それらの判断基準に照らし合わせて、VADフラグバッファ27内の仮VADフラグを修正する処理を行う。以下、VADフラグバッファ修正処理指示部28の具体例について述べる。
【0020】
≪修正例1≫
VADフラグバッファ修正処理指示部28の一例であるVADフラグバッファ修正処理指示部28aは、図5に記載された処理を行う。VADフラグバッファ修正処理指示部28aは、仮判定部21において非音声区間に判定されてしまった過去のフレームでも、現在のフレームkのピッチ相関値Ckが予め定めた閾値A2よりも大きければ、当該フレームの1フレーム前からM1フレーム前までを音声区間に修正する。これにより、音声区間の開始点付近では、パラメータ計算部20で得られたピッチ相関値が小さくなることがあり、実際には音声区間であるものの、非音声区間に誤ったフレームの判定を修正することができる。VADフラグバッファ修正処理指示部28aは、図1のVADフラグバッファ修正処理指示部28aに破線で示すように、比較部281a、制御部282a、指示部283aを有する。
図5に示すように、比較部281aは、kを現在のフレーム番号とし、Ckを現在のフレームにおけるピッチ相関として、予め定めた閾値A2とピッチ相関値Ckとを比較する(ステップS31a)。閾値A2は、0.7〜0.9程度にするとよい。予め定めた閾値A2がピッチ相関値Ck未満でない場合には、仮VADフラグの修正処理を行わずにステップS3は終了する。
【0021】
予め定めた閾値A2がピッチ相関値Ck未満である場合には、そのピッチ相関値に係るフレームの仮VADフラグを音声区間に属するという情報に修正する指示を出す(ステップS32a〜ステップS34a)。まず、VADフラグバッファ修正処理指示部28aの制御部282aが、i=1とする(ステップS32a)。指示部283aは、k−iのフレームの仮VADフラグを、音声区間に属するという情報に修正する指示をVADフラグバッファ27に出す(ステップS33a)。制御部282aは、iをインクリメントし、i=i+1とする(ステップS34a)。制御部282aは、iと予め定められた定数M1を比較し、iが予め定められた定数M1未満である場合にはステップS33aの処理を行い、そうでない場合にはステップS3の処理を終了する(ステップS35a)。M2は1以上であればよいが、1フレームの時間長が20msである場合には、5≦M2≦10程度にすると望ましい。
【0022】
上記処理においては、ステップS33aにおいて、既に音声区間に属するという情報である仮VADフラグについても、音声区間に属するという情報で上書き修正を行っている。一方、図5に破線で示すように、ステップS32aとステップS33aの間にステップS36aを設けて、制御部282aが、k−iのフレームの仮VADフラグが音声区間に属するという情報でないかを判断し、音声区間に属するという情報でない場合には、ステップS33aの処理を行い、音声区間に属するという情報である場合には、ステップS34aの処理を行っても良い(ステップS36a)。
上記処理においては、VADフラグバッファ修正処理指示部28aは、kを現在のフレームとして仮VADフラグの修正の処理を行っている。しかし、遅延バッファ26とVADフラグバッファ27の両方のバッファに格納されているフレームであれば、そのフレームの番号をkとして、処理を行うことができる。
【0023】
このように、VADフラグバッファ修正処理指示部28aは、あるフレームのピッチ相関値が予め定められた値よりも大きい場合には、そのフレームよりも時間的に前の予め定められた数のフレームに係る仮VADフラグを、音声区間に属するという情報に修正する。
上記VADフラグバッファ修正処理指示部28aは、あるフレームの音声パラメータと予め定められた値とを比較して、その比較結果によって、そのフレームよりも時間的に前の予め定められた数のフレームに係る仮VADフラグを修正する一例である。
ここで、本明細書、特許請求の範囲において、あるフレーム(以下、フレームAとする。)よりも時間的に後ろのフレーム(以下、フレームBとする。)とは、フレームAよりも時間的に未来のフレームを意味する。すなわち、フレームAの時刻をa、フレームBの時刻をbとすると、a<bとなる。逆に、あるフレーム(以下、フレームCとする。)よりも時間的に前のフレーム(以下、フレームDとする。)とは、フレームCよりも時間的に過去のフレームを意味する。すなわち、フレームCの時刻をc、フレームDの時刻をdとすると、d<cとなる。
【0024】
≪修正例2≫
VADフラグバッファ修正処理指示部28の一例であるVADフラグバッファ修正処理指示部28bは、図6に記載された処理を行う。VADフラグバッファ修正処理指示部28bは、仮判定部21において非音声区間に判定されてしまった過去のフレームでも、現在のフレームkのパワーPkよりも、k−iのフレームのパワーPk−iのほうが著しく大きい場合には、k−iのフレームの仮VADフラグを音声区間に属するという情報に変更するものである。これにより、音声区間の終了点付近で誤って非音声区間と仮判定されてしまった仮VADフラグを修正することができる。VADフラグバッファ修正処理指示部28bは、図1のVADフラグバッファ修正処理指示部28bに破線で示すように、比較部281b、制御部282b、指示部283bを有する。
【0025】
図6に示すように、制御部282bは、i=1とする(ステップS31b)。比較部281bは、フレームkのパワーPkに予め定められた定数a1をかけた値が、フレームk−iのパワーPk―iとを比較する(ステップS32b)。パワーPkに予め定められた定数a1をかけた値が、フレームk−iのパワーPk―i未満である場合には、指示部283bは、フレームk−iの仮VADフラグを音声区間に属するという情報に修正する(ステップS33b)。その後、制御部282bは、iをインクリメントし、i=i+1とする(ステップS34b)。ステップS32bにおいて、パワーPkに予め定められた定数a1をかけた値が、フレームk−iのパワーPk―i未満でない場合には、ステップS33bの処理を跳ばして、ステップS34bの処理を行う。制御部282bは、iと予め定められた定数M2とを比較し、iが予め定められた定数M2未満である場合にはステップS32bの処理を行い、そうでない場合にはステップS3の処理を終了する(ステップS35b)。ここで、a1は、4≦a1≦25程度にするとよい。M2は1以上であればよいが、1フレームの時間長が20msである場合には、5≦M2≦10程度にすると望ましい。
【0026】
上記処理においては、ステップS33bにおいて、既に音声区間に属するという情報である仮VADフラグについても、音声区間に属するという情報で上書き修正を行っている。一方、図6に破線で示すように、ステップS32bとステップS33bの間にステップS36bを設けて、制御部282bが、k−iのフレームの仮VADフラグが音声区間に属するという情報でないかを判断し、音声区間に属するという情報でない場合には、ステップS33bの処理を行い、音声区間に属するという情報である場合には、ステップS34bの処理を行っても良い(ステップS36b)。
上記処理においては、VADフラグバッファ修正処理指示部28bは、kを現在のフレームとして仮VADフラグの修正の処理を行っている。しかし、遅延バッファ26とVADフラグバッファ27の両方のバッファに格納されているフレームであれば、そのフレームの番号をkとして、処理を行ってもよい。
【0027】
このように、VADフラグバッファ修正処理指示部28bは、あるフレームのパワーに予め定めた定数をかけた値が、そのフレームよりも時間的に前のフレームのパワー未満である場合には、その時間的に前のフレームに係るVADフラグを、音声区間に属するという情報に修正する。
VADフラグバッファ修正処理指示部28aは、あるフレームの音声パラメータと、そのフレームよりも時間的に前のフレームの音声パラメータとを比較して、その比較結果によって、その時間的に前のフレームに係る仮VADフラグを修正する一例である。
【0028】
≪修正例3≫
VADフラグバッファ修正処理指示部28の一例であるVADフラグバッファ修正処理指示部28cは、図7に記載された処理を行う。VADフラグバッファ修正処理指示部28cは、仮判定部21において音声区間として判定されてしまった過去のフレームでも、その前後のフレームにおけるパワーが、その音声区間に判定されてしまったフレームのパワーよりも著しく小さい場合に、当該フレームを非音声区間に修正するものである。これにより、例えば、プツンといった短時間のノイズが原因で誤って音声区間として判定されてしまったフレームの仮VADフラグを修正することができる。VADフラグバッファ修正処理指示部28cは、図1のVADフラグバッファ修正処理指示部28cに破線で示すように、比較部281c、制御部282c、指示部283cを有する。
【0029】
図7に示すように、比較部281cは、現在のフレームをkとして、フレームk−3のパワーPk−3に予め定められた定数a2をかけた値と、フレームk−2のパワーPk−2を比較する(ステップS31c)。パワーPk−3に予め定められた定数a2をかけた値がパワーPk−2未満である場合には、フレームk−1のパワーPk−1に予め定められた定数a3をかけた値と、フレームk−2のパワーPk−2を比較する(ステップS32c)。パワーPk−1に予め定められた定数a3をかけた値がパワーPk−2未満である場合には、フレームkのパワーPkに予め定められた定数a4をかけた値と、フレームk−2のパワーPk−2を比較する(ステップS33c)。フレームkのパワーPkに予め定められた定数a4をかけた値がPk−2未満である場合には、指示部283cは、フレームk−2の仮VADフラグを、非音声区間に属するという情報に修正する。ステップS31c〜ステップS33cの何れかのステップにおいて、(i,j)={(3,2),(1,3),(0,4)}として、パワーPk−iに予め定められた定数ajをかけた値がパワーPk−2未満でないと判断された場合には、ステップS3の処理は終了する。ここで、ai(i=2,3,4)は、4≦ai≦25程度にするとよい。aiの各値は、同一でもよいし、異なっていてもよい。
【0030】
上記処理においては、ステップS34cの処理において、既に非音声区間に属するという情報である仮VADフラグについても、非音声区間に属するという情報で上書き修正を行っている。一方、図7に破線で示すように、ステップS33cとステップS34cの間にステップS35cを設けて、制御部282cが、フレームk−iの仮VADフラグが非音声区間に属するという情報でないかを判断し、非音声区間に属するという情報でない場合には、ステップS34cの処理を行い、非音声区間に属するという情報である場合には、ステップS34cの処理を行わずにステップS3の処理を終了しても良い(ステップS35c)。
上記処理においては、VADフラグバッファ修正処理指示部28cは、kを現在のフレームとして仮VADフラグの修正の処理を行っている。しかし、遅延バッファ26とVADフラグバッファ27の両方のバッファに格納されているフレームであれば、そのフレームの番号をkとして、処理を行ってもよい。
【0031】
上記処理では、あるフレーム(k−2)のひとつ前のフレーム(k−3)と、そのあるフレーム(k−2)よりも1つ後ろのフレーム(k−1)と、2つ後ろのフレーム(k)に係る各音声パラメータを観測して、仮VADフラグバッファの修正を行っている。しかし、あるフレームよりも時間的に前の予め定められたα個のフレームと、そのあるフレームよりも時間的に後ろの予め定められたβ個のフレームに係る各音声パラメータを観測して、上記と同様にして仮VADフラグバッファの修正を行っても良い。すなわち、上記α個とβ個の各フレームのパワーにそのフレーム毎に予め定められた定数をかけた値と、そのあるフレームのパワーとをそれぞれ比較し、そのあるフレームのパワーの方がすべて大きいと判断された場合には、そのあるフレームの仮VADフラグを非音声区間に属するという情報に修正する。
このように、VADフラグバッファ修正処理指示部28cは、そのフレームよりも時間的に前の予め定められた数の各フレームのパワーに予め定めた各定数をかけた値の何れよりも大きく、かつ、そのフレームよりも時間的に後の予め定められた数の各フレームのパワーに予め定められた各定数をかけた値の何れよりも大きい場合に、上記あるフレームに係る仮VADフラグを、非音声区間に属するという情報に修正する手段である。
【0032】
上記VADフラグバッファ修正処理指示部28cは、あるフレームの音声パラメータと、そのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータとを比較して、その比較結果によって、上記あるフレームに係る仮VADフラグを修正する一例である。
また、VADフラグバッファ修正処理指示部28cは、連続するγ個のフレームの各パワーの平均値を求め、その平均値が、それらの連続するγ個のフレームよりも時間的に前の予め定められたα個の各フレームにフレーム毎に予め定められた定数をかけた値のいずれよりも大きく、かつ、それら連続するγ個のフレームよりも時間的に後ろの予め定められたβ個の各フレームにフレーム毎に予め定められた定数をかけた値のいずれよりも大きい場合に、それらの連続するγ個のフレームの仮VADフラグを、非音声区間に属するという情報に修正してもよい。ここで、1フレームの長さが20msである場合には、γを2〜3程度にするとよい。
【0033】
すなわち、VADフラグバッファ修正処理指示部28cは、あるフレームのパワーと、そのフレームと時間的に前後する少なくとも1つのフレームのパワーとの平均値が、それらのフレームよりも時間的に前の予め定められた数の各フレームのパワーに予め定めた各定数をかけた値の何れよりも大きく、かつ、それらのフレームよりも時間的に後の予め定められた数の各フレームのパワーに予め定められた各定数をかけた値の何れよりも大きい場合に、上記あるフレームと上記そのフレームと時間的に前後する少なくとも1つのフレームとに係るVADフラグをそれぞれ非音声区間に属するという情報に修正してもよい。
上記説明したように、仮判定部21から出力された仮VADフラグは、VADフラグバッファ27に予め定めたフレーム数分だけ蓄積され、必要であればVADフラグバッファ修正処理指示部28による修正を受けた後に、修正された仮VADフラグとして、統計量計算部22に出力される。
このVADフラグバッファ修正処理指示部28cは、あるフレームの音声パラメータと、そのフレームと時間的に前後する少なくとも1つのフレームの音声パラメータとの平均値を、それらのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそれらのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータと比較して、その比較結果によって、上記あるフレームと上記そのフレームと時間的に前後する少なくとも1つのフレームとに係る仮VADフラグを修正する一例である。
【0034】
動的閾値決定部29(統計量計算部22と閾値決定部24)は、VADフラグバッファ27から出力された修正された仮VADフラグによって、音声区間に属すると決定されたフレーム及び/又は非音声区間に属すると決定されたフレームから、音声区間に属するか非音声区間に属するかを決定するための動的閾値を所定の時間間隔ごとに計算する(ステップS4)。以下に説明する例では、音声区間に属するフレームの統計量と非音声区間に属するフレームの統計量の両方を用いているが、一方のみを用いて音声区間、非音声区間の決定をしてもよい。
動的閾値決定部29の統計量計算部22と閾値決定部24の処理は、背景技術に記載したものと同様でよい。すなわち、統計量計算部22は、仮判定部21で判定された音声/非音声区間の判定に基づいて、音声区間と非音声区間それぞれの平均パワーを計算する。閾値決定部24は、音声区間と非音声区間それぞれの平均パワーから、例えば特許文献1に記載されたのと同様の方法で音声/非音声判定のための動的閾値を決定してもよい。決定された動的閾値は、比較部25に出力される。ここで「平均パワー」とは、音声区間に属するフレームのパワーの平均値及び非音声区間に属するフレームのパワーの平均値である。
【0035】
動的閾値決定部29の統計量計算部22は、平均パワー以外の統計量を計算してもよい。例えば、ピッチ相関値を計算してもよい。また、一定の観測時間における、音声区間に属するフレームのパワーの最小値、非音声区間に属するフレームのパワーの最大値を求めてもよい。一定の観測時間とは、例えば、2秒前後であり、1フレームの長さが20msである場合には、約100フレームが一定の観測時間となる。また、音声区間に属するフレームのパワーの標準偏差及び/又は分散や、非音声区間に属するフレームのパワーの標準偏差及び/又は分散を統計量として求めてもよい。平均パワー以外の統計量を用いる場合も、閾値決定部24は、上記計算された統計量から、音声区間、非音声区間を判定するための動的閾値を決定して、その決定された動的閾値を比較部25に出力する。
動的閾値決定部29による動的閾値の更新頻度は、求める音声区間の判定精度、ハードウェアの性能や規模に依存する。すなわち、音声区間の判定精度を最も高くする場合には、動的閾値は毎フレームごとに更新するとよい。しかし、本発明が実装されるハードウェアの性能が低く、又は、その規模が小さい場合には、動的閾値の更新頻度を下げてもよい。具体的には、約0.1秒〜0.5秒毎に動的閾値は更新される。
【0036】
比較部25は、上記動的閾値決定手段によって計算された動的閾値と、現フレームについての上記音声パラメータとを比較することによって、そのフレームが音声区間に属するか非音声区間に属するかを実時間で最終的に決定する(ステップS5)。最終的な判断では、区間不明は認められず、必ず音声区間か非音声区間のいずれかに決定される。フレームが音声区間に属するか非音声区間に属するかの決定についての情報は、VADフラグとして、比較部25及び音声区間決定装置120から出力される。
なお、比較部25は、現フレーム以外のフレームについて、つまり、任意の時刻におけるフレームについて音声区間、非音声区間の判断をしてもよい。また、実時間性が求められていない場合には、実時間で音声区間、非音声区間の判断をしなくてもよい。さらに、比較部25が出力したVADフラグを基にして、他の音声区間、非音声区間決定装置(音声区間決定装置120を含む。)を用いてより精度の良い音声区間、非音声区間の決定をしてもよい。
【0037】
以下に、動的閾値決定部29と比較部25の一例として、動的閾値決定部29a(統計量計算部22aと閾値決定部24a)と比較部25a、動的閾値決定部29b(統計量計算部22bと閾値決定部24b)と比較部25bについてそれぞれ説明をする。まず、図8を参照して、動的閾値決定部29a(統計量計算部22aと閾値決定部24a)と比較部25aについて説明をする。図8は、比較部25aの処理の流れを例示する図である。
動的閾値決定部29aの統計量計算部22aは、VADフラグバッファ27が出力した修正された仮VADフラグと、遅延バッファ26が出力した音声パラメータとを用いて、音声区間に属するフレームのパワーの平均値(以下、平均値Aとする。)と、非音声区間に属するフレームのパワーの平均値(以下、平均値Bとする。)とをそれぞれ計算して、閾値決定部24aに出力する。
動的閾値決定部29aの閾値決定部24aは、上記平均値Aを予め定められた正の定数aで割った値(以下、動的閾値Aとする。)と、上記平均値Bに予め定められた正の定数bをかけた値(以下、動的閾値Bとする。)とを計算して、比較部25aに出力する。すなわち、閾値決定部24aは、音声区間のパワーの平均値A×(1/a)を計算して動的閾値Aとし、非音声区間のパワーの平均値B×bを計算して動的閾値Bとする。正の定数aとbは、異なる値で予め実験をし、音声区間、非音声区間の精度が最も高くなるように定める。経験上、正の定数aとbはそれぞれ2〜10程度の値であるとよい。
【0038】
比較部25aは、あるフレームのパワーが動的閾値A未満であるかどうかを判断する(ステップS51a)。そのフレームのパワーが動的閾値A未満であれば、そのフレームは非音声区間であると判定する。そうでない場合には、そのフレームのパワーが動的閾値B未満であるかどうかを判断する(ステップS52a)。そのフレームのパワーが動的閾値B未満であれば、そのフレームは非音声区間であると判定する。そうでない場合には、そのフレームは音声区間に属すると判定する。すなわち、比較部25aは、フレームのパワーが、上記動的閾値Aが未満でなく、かつ、上記動的閾値Bが未満でない場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると判断する。
上記説明した動的閾値決定部29aは、音声パラメータとしてパワーを用いているが、音声パラメータとして、ピッチ相関を用いて、上記と同様の処理を行っても良い。すなわち、統計量計算部22aが、修正された仮VADフラグによって音声区間に属すると決定されたフレームのピッチ相関の平均値(以下、平均値A’とする。)と、修正された仮VADフラグによって非音声区間に属すると決定されたフレームのピッチ相関の平均値(以下、平均値B’とする。)とを計算する。閾値決定部24aが、上記平均値A’を予め定められた正の定数a’で割った値(以下、動的閾値A’とする。)と、上記平均値B’に予め定められた正の定数b’をかけた値(以下、動的閾値B’とする。)とを計算する。図9に示すように、比較部25aが、フレームのピッチ相関が、上記動的閾値A’が未満でなく(ステップS51c)、かつ、上記動的閾値B’が未満でない場合に(ステップS52c)、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると最終的に決定してもよい。この場合の定数a’と定数b’は、音声パラメータとしてパワーを用いる場合とは、異なる定数であってよい。
ここで、本明細書、特許請求の範囲において、AをBで割るとは、Aに、1をBで割った値(1/B)をかけることを含むことにする。
【0039】
また、上記説明した音声パラメータとして、パワーとピッチ相関の両方を用いる方法を組み合わせてもよい。すなわち、動的閾値決定部29aが、上記説明したのと同様の方法で、上記動的閾値A、A’、B、B’をそれぞれ計算し、比較部25aが、ステップS51a、ステップS52a、ステップS51c、ステップS52cの各判断処理と同様の判断処理を少なくとも1つを行い、すべての判断処理でNoである場合に、音声区間と判定し、何れかの判断処理でYesである場合に非音声区間と判定してもよい。さらに、図10に示すように、フレームのパワーが動的閾値A未満及び/又はフレームのピッチ相関が動的閾値A’未満であるかどうか(ステップS51d)と、ステップS51dの判断処理でNoと判断された場合には、フレームのパワーが動的閾値B未満及び/又はフレームのピッチ相関が動的閾値B’であるかどうか(ステップS52d)を判断し、両ステップにおいてNoと判断された場合、そのフレームは音声区間に属すると判断し、何れかのステップにおいてYesと判断された場合には、そのフレームは非音声区間に属すると判断してもよい。
【0040】
次に、図11を参照して、動的閾値決定部29b(統計量計算部22bと閾値決定部24b)と比較部25bについて説明をする。図11は、比較部25bの処理の流れを例示する図である。
動的閾値決定部29bの統計量計算部22bは、VADフラグバッファ27が出力した修正された仮VADフラグと、遅延バッファ26が出力した音声パラメータとを用いて、音声区間に属するフレームのパワーの平均値(以下、平均値Aとする。)及び標準偏差(以下、標準偏差Cとする。)と、非音声区間に属するフレームのパワーの平均値(以下、平均値Bとする。)及び標準偏差(以下、標準偏差Dとする。)とをそれぞれ計算して、閾値決定部24bに出力する。
動的閾値決定部29bの閾値決定部24bは、上記標準偏差Cに予め定められた正の定数cをかけた値を上記平均値Aから引いた値(以下、動的閾値Cとする。)と、上記標準偏差Dに予め定められた正の定数dをかけた値を上記平均値Bに加えた値(以下、動的閾値Dとする。)とを計算して、比較部25bに出力する。すなわち、閾値決定部24bは、音声区間のパワーの平均値A−(c×標準偏差C)を計算して動的閾値Cとし、非音声区間のパワーの平均値B+(d×標準偏差D)を計算して動的閾値Dとする。正の定数cとdは、異なる値で予め実験をしてみて、音声区間、非音声区間の精度が最も高くなるように定める。経験上、正の定数cとdはそれぞれ2〜5程度の値であるとよい。
【0041】
比較部25bは、あるフレームのパワーが動的閾値C未満であるかどうかを判断する(ステップS51b)。そのフレームのパワーが動的閾値C未満であれば、そのフレームは非音声区間であると判定する。そうでない場合には、そのフレームのパワーが動的閾値D未満であるかどうかを判断する(ステップS52b)。そのフレームのパワーが動的閾値D未満であれば、そのフレームは非音声区間であると判定する。そうでない場合には、そのフレームは音声区間に属すると判定する。すなわち、比較部25bは、フレームのパワーが、上記動的閾値Cが未満であり、かつ、上記動的閾値Dが未満である場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると判断する。
【0042】
[変形例等]
図2に破線で示すように、ステップS4とステップS5の処理を行わずに、ステップS3の処理で、音声区間、非音声区間の判定の処理を終えてもよい。すなわち、VADフラグバッファ27から出力された修正された仮VADフラグを、フレームが、音声区間に属するか非音声区間に属するかの最終的な情報として用いてもよい。
VADフラグバッファ修正処理指示部28の例である≪修正例1≫〜≪修正例3≫は適宜組み合わせることができる。すなわち、VADフラグバッファ修正処理指示部28は、図5〜図7に記載した各処理を重ねて行ってもよい。すなわち、予め定めた規則として、≪修正例1≫〜≪修正例3≫で説明した条件を少なくともひとつ有しており、何れかの条件に当てはまったときに、その条件に対応した≪修正例1≫〜≪修正例3≫で説明した仮VADフラグの修正を行ってもよい。
また、≪修正例1≫〜≪修正例3≫では、音声パラメータとしてパワーを用いているが、パワーに限らず、例えばピッチ相関等の任意の音声パラメータを用いてよい。
【0043】
上記仮音声区間決定装置、音声区間決定装置の処理機能をコンピュータによって実現することができる。この場合、仮音声区間決定装置、音声区間決定装置の処理の内容はプログラムによって記述される。そして、このプログラムを、コンピュータで実行することにより、仮音声区間決定装置、音声区間決定装置の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0044】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0045】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、仮音声区間決定装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【産業上の利用可能性】
【0046】
パケット通信網上で音声通信を行う利用形態が普及してきており、本発明を適用することによって、安価で品質の高い多地点音声通信会議が実現できる。また、音声認識の前段で本発明による音声区間決定装置、方法、プログラム及びその記録媒体の何れかが利用される場合には、その音声認識システムにおける音声認識の誤りを減らすことができる。
【図面の簡単な説明】
【0047】
【図1】本発明による音声区間決定装置120の機能構成を例示する図。
【図2】本発明による音声区間決定装置120の処理の流れを例示する図。
【図3】本発明による仮判定部21の処理の流れを例示する図。
【図4】本発明による仮判定部21の処理の流れを例示する図。
【図5】本発明によるVADフラグバッファ修正処理指示部28aの処理の流れを例示する図。
【図6】本発明によるVADフラグバッファ修正処理指示部28bの処理の流れを例示する図。
【図7】本発明によるVADフラグバッファ修正処理指示部28cの処理の流れを例示する図。
【図8】本発明による比較部25aの処理の流れを例示する図
【図9】本発明による比較部25aの処理の流れを例示する図。
【図10】本発明による比較部25aの処理の流れを例示する図。
【図11】本発明による比較部25bの処理の流れを例示する図。
【図12】従来技術による音声パケット送信部10の機能構成を例示する図。
【図13】従来技術による音声区間決定部12の機能構成を例示する図。
【図14】従来技術による音声区間決定部12の処理の流れを例示する図。
【技術分野】
【0001】
この発明は、無音信号を含む複数の信号が含まれた混合信号から、音声信号や音響信号(以下、音声信号とする。)などの目標信号が含まれている区間を決定するための装置、方法、プログラム及びその記録媒体に関する。
【背景技術】
【0002】
音声信号を、フレームと呼ばれる例えば10ms〜20msの一定時間毎の信号に区切り、音声符号化の手法を用いて音声パケットに変換し、パケット通信網を介して通信するサービス(以下、音声パケット通信とする。)が普及しつつある。
特許文献1に、音声パケット通信を用いて、多地点で音声会議を行う装置と方法が記載されている。特許文献1に記載されている音声パケット送信部10の構成例を図12に示す。音声パケット送信部10には、フレームと呼ばれる一定時間毎に区切られた音声信号が入力音声として入力され、音声波形符号化部11において音声符号化の手法を用いて入力音声を音声符号に変換するとともに、音声区間決定部12において、入力音声を分析し、当該フレームが音声区間に属するか非音声区間に属するかの情報(以下、VADフラグとする。)を決定し、パケット構成部13において、音声符号とVADフラグを1つの音声パケットに組み込んで送出している。
【0003】
特許文献1において、VADフラグを音声符号とともに送信しているのは、受信側すなわち多地点ミキシングサーバにおいて、VADフラグを参照して、各地点で発話中であるか、そうでないかを判断し、時々刻々、どの地点が主たる発言者であるのかの自動判定に基づくミキシング処理を行うためである。このとき、送信側において音声/非音声判定を誤り、間違ったVADフラグを送信すると、多地点接続サーバにおける主たる発言者の自動判定にも誤りが生じ、多地点接続サーバで生成されるミキシング音声の品質が劣化するという問題がある。
音声区間決定部12の構成例を図13に示す。音声区間決定部12は、パラメータ計算部20、仮判定部21、統計量計算部22、閾値決定部24、比較部25を有する。また、図14に、音声区間決定部12の処理の流れを例示する。
【0004】
まず、パラメータ計算部20は、入力音声からパワーやピッチ相関等の音声パラメータを計算して、仮判定部21、統計量計算部22、比較部25に出力する(ステップS81)。
仮判定部21は、予め定められた固定閾値(無音閾値A1、有声音閾値B1、無声音閾値C1)と計算された音声パラメータとを用いて、入力音声フレームが音声区間であるか非音声区間であるかの仮判定を行う(ステップS82)。
【0005】
図3は、仮判定部21における処理のフローチャート例である。まず、パワーを無音閾値A1と比較し、パワーが無音閾値A1未満であれば非音声区間と判定する(ステップS21)。パワーが無音閾値A1未満でない場合は、ピッチ相関の値を有声音閾値B1と比較し、ピッチ相関が有声音閾値B1より大であれば音声区間と判定する(ステップS22)。ピッチ相関が有声音閾値B1より大でない場合は、ピッチ相関の値を無声音閾値C1と比較し、ピッチ相関が無声音閾値C1未満であれば非音声区間と判定する(ステップS23)。ピッチ相関が無声音閾値C1未満でない場合は、不明と判定する(ステップS23)。仮判定では不明区間があってもよい。
統計量計算部22は、仮判定部21で判定された音声/非音声区間の判定に基づいて、音声区間と非音声区間それぞれの平均パワーを計算する。
閾値決定部24は、音声区間と非音声区間それぞれの平均パワーから、音声/非音声判定のための動的閾値を決定する(例えば、特許文献1参照。)(ステップS83)。
比較部25は、音声パラメータと、上記音声/非音声判定のための動的閾値を比較して、最終的にそのフレームが音声区間であるか非音声区間であるかの判定を行い、その結果(VADフラグ)を出力する。最終的な判断では、区間不明は認められず、必ず音声区間か非音声区間のいずれかに判定する(ステップS84)。
【0006】
まとめると、上記記載された装置・方法は、まず、固定閾値で明らかに音声区間、非音声区間とわかるフレームについては判定を行い、その判定結果を用いて、音声区間の信号レベル、非音声区間の信号レベルを推定し(判定の難しいフレームは不明のままにする)、推定された音声区間、非音声区間のそれぞれの信号レベルから動的な閾値を決めて、最終的にすべてのフレームを、音声区間、非音声区間いずれかに振り分けるという2段階の処理をしている。
【特許文献1】特開2005−229259号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
背景技術に記載された2段階の処理を行う装置・方法は、固定閾値のみで最終的な音声区間、非音声区間を決めてしまうのに比べれば精度が高いといえるが、上記装置・方法で最終的に推定される音声区間、非音声区間の信号レベルはあくまでも近似でしかない。
なぜなら、仮判定部21は、予め定められた固定閾値のみから、音声区間、非音声区間の仮判定を行っており、その判定精度が必ずしも高くはない。このため、仮判定部21における音声区間、非音声区間の仮判定の精度が低い場合には、各区間の信号レベルを正確に測定することはできないし、各区間の信号レベルを正確に測定できなければ最終的な音声区間、非音声区間の判定精度を上げることができないからである。
本発明は、仮判定の精度を上げることを目的とする。また、仮判定の精度を上げることによって、最終的な音声区間、非音声区間の判定の精度を上げることを目的とする。
【課題を解決するための手段】
【0008】
本発明は、入力された音声信号からフレーム毎に音声パラメータを計算する。上記音声パラメータを、予め定められたフレーム数分だけ遅延バッファに蓄積する。上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかを仮に決定する。上記決定された、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけVADフラグバッファに蓄積する。VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正する。上記修正された仮VADフラグを出力する。
望ましくは、さらに、上記修正された仮VADフラグによって、音声区間に属すると決定されたフレーム及び/又は非音声区間に属すると決定されたフレームから、音声区間に属するか非音声区間に属するかを決定するための動的閾値を所定の時間間隔ごとに計算する。上記計算された動的閾値と、あるフレームについての上記音声パラメータとを比較することによって、その音声パラメータに係るフレームが音声区間に属するか非音声区間に属するかを最終的に決定する。
【発明の効果】
【0009】
リアルタイム通信における利用では、最終的な音声区間、非音声区間の判定は、フレーム音声が入力されたら即座に実時間で(フレームの時間長以内の時間で)決定されなければならない。しかしながら、仮判定は音声区間、非音声区間のそれぞれの信号レベルを推定するためだけのものであるから、厳密なリアルタイム性は要求されない。本発明は、この仮判定に厳密なリアルタイム性が要求されないことに着目している。
具体的には、上記遅延バッファから読み出した音声パラメータの経時的変化を観測して、過去に遡って仮VADフラグを適切なものに修正することによって、仮判定の精度を向上している。また、その結果として、最終的な判定精度の向上が可能となった。
【発明を実施するための最良の形態】
【0010】
図1と図2を参照して、本発明による音声区間決定装置120の説明をする。図1は、音声区間決定装置120の機能構成を例示する図である。図2は、音声区間決定装置120の処理の流れを例示する図である。
音声区間決定装置120は、パラメータ計算部20、仮判定部21、統計量計算部22、閾値決定部24、比較部25、遅延バッファ26、VADフラグバッファ27、VADフラグバッファ修正処理指示部28を有する。なお、本明細書、特許請求の範囲では、パラメータ計算部20、仮判定部21、遅延バッファ26、VADフラグバッファ27、VADフラグバッファ修正処理指示部28を、仮音声区間決定装置30とする。また、本明細書、特許請求の範囲では、統計量計算部22と閾値決定部24を合わせて、動的閾値決定部29と呼ぶことにする。音声区間決定装置120は、遅延バッファ26、VADフラグバッファ27、VADフラグバッファ修正処理指示部28を有する点で、背景技術による音声区間決定部12とは異なる。
【0011】
パラメータ計算部20は、入力された音声信号から、パワーやピッチ相関等の音声パラメータをフレームごとに計算する(ステップS1)。本明細書、特許請求の範囲においては、音声信号とは、音声信号と音響信号を含む概念とする。計算された音声パラメータは、仮判定部21、比較部25、遅延バッファ26にそれぞれ出力される。以下では、パラメータ計算部20が、音声パラメータとしてパワーとピッチ相関の両方を計算する例を挙げて音声区間決定装置120を説明する。なお、パラメータ計算部20は、仮判定部21、比較部25、統計量計算部22が用いる音声パラメータを少なくとも計算すればよい。すなわち、仮判定部21、比較部25、統計量計算部22がパワーとピッチ相関の一方のみを用いる場合には、パラメータ計算部20は、その一方の音声パラメータを計算すればよい。このように、本発明のパラメータ計算部20は、計算する音声パラメータの種類は問わない。
【0012】
遅延バッファ26には、パラメータ計算部20で計算された音声パラメータが、予め定められたフレーム数分だけ蓄積される。予め定められたフレーム数を超えて新しい音声パラメータが蓄積されると、フレーム番号の最も古い音声パラメータは遅延バッファ26から削除される。後述するように、遅延バッファ26は、統計量計算部22又はVADフラグバッファ修正処理指示部28からの読み出し命令を受けて、遅延バッファに保存された音声パラメータを統計量計算部22又はVADフラグバッファ修正処理指示部28に出力する。
仮判定部21は、パラメータ計算部20で計算された音声パラメータを用いて、その音声パラメータに係るフレームが、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかを仮に決定する(ステップS2)。本明細書、特許請求の範囲においては、フレームが、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかどうかについての情報を、仮VADフラグとする。この仮VADフラグは、VADフラグバッファ27に格納される。仮判定部21の処理は、背景技術で説明した仮判定部21の処理と同様でよい。すなわち、図3に示されたフローチャートの処理を実行すればよい。
【0013】
具体的には、仮判定部21は、パラメータ計算部20で計算されたパワーを、予め定めた無音閾値A1と比較し、パワーが無音閾値A1未満であれば非音声区間と判定する(ステップS21)。パワーが無音閾値A1未満でない揚合は、ピッチ相関の値を予め定めた有声音閾値B1と比較し、パラメータ計算部20で計算されたピッチ相関が有声音閾値B1より大であれば音声区間と判定する(ステップS22)。ピッチ相関が有声音閾値B1より大でない場合は、ピッチ相関の値を無声音閾値C1と比較し、ピッチ相関が無声音閾値C1未満であれば非音声区間と判定する(ステップS23)。ピッチ相関が無声音閾値C1未満でない場合は、不明と判定する(ステップS23)。このようにして、仮判定部21は、音声区間に属するか非音声区間に属するかを仮に決定する。
なお、本明細書、特許請求の範囲においては、原則として、「未満」とは、「以下」の概念を包括するものとする。すなわち、AはB未満(A<B)であると言った場合には、AがB未満(A<B)であっても、AがB以下(A≦B)であってもよいものとする。同様に「より上」とは、「以上」の概念を包括するものとする。
【0014】
仮判定部21の仮判定では、音声区間、非音声区間が不明である不明区間があってもよいが、図13に記載した背景技術による音声区間決定部12とは違って、本発明による音声区間決定装置120では、後述のように仮判定結果である仮VADフラグを修正する機会があるので、不明区間ができないように上記閾値A1,B1,C1を決めてしまってもよい。例えば、有声音閾値B1=無声音閾値C1とする。また、ステップS22において、ピッチ相関が有声音閾値B1より大でない場合には、非音声区間と判断し、ステップS23の処理自体を行わなくてもよい。不明区間を生じさせないようにする場合には、音声区間に属するか非音声区間に属するかについての仮の情報が仮VADフラグとなる。
なお、仮判定部21の処理は、上記したものに限られない。実時間で音声区間、非音声区間(必要であれば、さらに不明区間)を判定することができる手法であればどのような方法でもよい。
【0015】
例えば、図4に示すように、判定の条件(ステップS24、ステップS25)を追加してもよい。つまり、音声区間を判定するための、パワーの閾値とピッチ相関の閾値との組合せが2以上ある場合には、図4に示すように、各組合せごとに、フレームのパワーとピッチ相関がそれぞれ、その組合せに係るパワーの閾値とピッチ相関の閾値よりも大きいかどうかを判定しても良い。図4は、音声区間であると判断することができるパワーの閾値とピッチ相関の閾値の組合せが、(パワーの閾値D1,ピッチ相関の閾値B1)と(パワーの閾値E1,ピッチ相関の閾値F1)の2つある場合の処理の例である。何れかの組合せにおいて、フレームのパワーとピッチ相関の方が、その組合せに係るパワーの閾値とピッチ相関の閾値よりも大きいとそれぞれ判定された場合には、そのフレームは音声区間と判定される(ステップS24、ステップS25)。図4において、ステップS21とステップS23は、図3のステップS21とステップS23と同様であるため説明を省略する。
【0016】
VADフラグバッファ27は、仮判定部21によって決定された仮VADフラグを予め定められたフレーム数分蓄積する。また、VADフラグバッファ27は、VADフラグバッファ修正処理指示部28からの指示に従って、蓄積された仮VADフラグの中で、仮判定が誤っていると判断されるフレームの仮VADフラグを修正する。VADフラグバッファに蓄積された仮VADフラグバッファは、予め定められたフレーム数に対応する時間経過後に、修正された仮VADフラグを統計量計算部22に送るとともに、送ったフレームの仮VADフラグを削除する。
遅延バッファ26とVADフラグバッファ27の蓄積フレーム数は以下のように設定することができる。例えば、フレームの時間長が20msである場合には、遅延バッファ26とVADフラグバッファ27の蓄積フレーム数を1〜100程度(さらに、好ましくは、50程度)にするとよい。また、例えば、フレームの時間長が10msである場合には、遅延バッファ26とVADフラグバッファ27の蓄積フレーム数を1〜200程度(さらに好ましくは、100程度)にするとよい。また、別の観点から言及すると、(フレームの時間長)×(蓄積フレーム数)=0.02秒〜0.2秒程度になるように、フレームの時間長と蓄積フレーム数とを設定するとよい。なお、遅延バッファ26とVADフラグバッファ27のそれぞれの蓄積フレーム数は同一にするのがよい。
【0017】
VADフラグバッファ修正処理指示部28は、現フレームの音声パラメータおよび遅延バッファ26に蓄積された音声パラメータと、予め定めた規則とに基づいて、VADフラグバッファ27に蓄積された仮VADフラグの中で判定の誤りのあるものを推定し、VADフラグバッファ27に対して、当該仮VADフラグを修正するように指示を与える。すなわち、パラメータ計算部20が出力した現フレームの音声パラメータと、遅延バッファから読み出した音声パラメータの経時的状態を観測して、VADフラグバッファ27に蓄積された仮VADフラグを適切なものに修正する。以下では、VADフラグバッファ修正処理指示部28が、仮VADフラグを修正するといった場合には、VADフラグバッファ修正処理指示部28が、仮VADフラグを修正する指示をVADフラグバッファ27に出し、その指示を受けてVADフラグバッファ27が、蓄積された仮VADフラグを修正することを意味する。
なお、VADフラグバッファ修正処理指示部28は、現フレームの音声パラメータを用いずに、遅延バッファから読み出した音声パラメータの経時的状態のみを観測して、仮VADフラグを適切なものに修正してもよい。
【0018】
VADフラグバッファ修正処理指示部28が行う処理は、フレーム番号が後の(フレーム番号が大きい、即ち時刻が後の)音声パラメータを観測して、フレーム番号が前の(フレーム番号が小さい、即ち時刻が前の)仮VADフラグの正誤を推定し、判定が誤りと判断されれば当該仮VADフラグを修正する処理であり、いったん決定された事項を過去に遡って訂正することに相当する。例えば、1,1,3,5,6という数値の時系列があるとする。単純に考えれば、6の次は6よりも大きい7か8がくるように推測されるが、実際に観測を続けると、6の次は5,3,1となり、6の時刻が最大値であったことがわかる、という事例は多い。音声区間、非音声区間の判定も同様であって、後続する音声パラメータのない仮判定の時点では正確に判定できなくても、後続の音声パラメータが得られた時点で判断がつくことが多い。
【0019】
例えば、パワーの小さいフレームが続いており、あるフレーム(時刻)において、以前よりも少しパワーが大きくなったとする。その時点では、そのパワーが少し大きくなったフレームが、音声区聞の始まりであるのか、単に一瞬のノイズが入っただけなのか判断がつかない。しかし、後続するフレームのパワーを引き続き観測して、急激にパワーの大きいフレームが続いていれば、最初に少しパワーが大きくなったフレームが音声区間の開始点であったと判断できる。また、後続のピッチ相関を観測して、ピッチ相関の値が大きくなったフレームが続けば、最初にパワーが少し大きくなったフレームが子音であった、すなわち音声区間の開始点であったという判断もできる。
逆に、パワーが少し大きくなったフレームの後に、またパワーの小さいフレームが続いた場合は、パワーが少し大きくなったフレームは音声区間ではなく、非音声区間であり、一瞬ノイズが入っただけと判断することが妥当である。
このように、VADフラグバッファ修正処理指示部28は、音声パラメータの状態から音声区区間、非音声区間を判断する基準を複数保持しており、それらの判断基準に照らし合わせて、VADフラグバッファ27内の仮VADフラグを修正する処理を行う。以下、VADフラグバッファ修正処理指示部28の具体例について述べる。
【0020】
≪修正例1≫
VADフラグバッファ修正処理指示部28の一例であるVADフラグバッファ修正処理指示部28aは、図5に記載された処理を行う。VADフラグバッファ修正処理指示部28aは、仮判定部21において非音声区間に判定されてしまった過去のフレームでも、現在のフレームkのピッチ相関値Ckが予め定めた閾値A2よりも大きければ、当該フレームの1フレーム前からM1フレーム前までを音声区間に修正する。これにより、音声区間の開始点付近では、パラメータ計算部20で得られたピッチ相関値が小さくなることがあり、実際には音声区間であるものの、非音声区間に誤ったフレームの判定を修正することができる。VADフラグバッファ修正処理指示部28aは、図1のVADフラグバッファ修正処理指示部28aに破線で示すように、比較部281a、制御部282a、指示部283aを有する。
図5に示すように、比較部281aは、kを現在のフレーム番号とし、Ckを現在のフレームにおけるピッチ相関として、予め定めた閾値A2とピッチ相関値Ckとを比較する(ステップS31a)。閾値A2は、0.7〜0.9程度にするとよい。予め定めた閾値A2がピッチ相関値Ck未満でない場合には、仮VADフラグの修正処理を行わずにステップS3は終了する。
【0021】
予め定めた閾値A2がピッチ相関値Ck未満である場合には、そのピッチ相関値に係るフレームの仮VADフラグを音声区間に属するという情報に修正する指示を出す(ステップS32a〜ステップS34a)。まず、VADフラグバッファ修正処理指示部28aの制御部282aが、i=1とする(ステップS32a)。指示部283aは、k−iのフレームの仮VADフラグを、音声区間に属するという情報に修正する指示をVADフラグバッファ27に出す(ステップS33a)。制御部282aは、iをインクリメントし、i=i+1とする(ステップS34a)。制御部282aは、iと予め定められた定数M1を比較し、iが予め定められた定数M1未満である場合にはステップS33aの処理を行い、そうでない場合にはステップS3の処理を終了する(ステップS35a)。M2は1以上であればよいが、1フレームの時間長が20msである場合には、5≦M2≦10程度にすると望ましい。
【0022】
上記処理においては、ステップS33aにおいて、既に音声区間に属するという情報である仮VADフラグについても、音声区間に属するという情報で上書き修正を行っている。一方、図5に破線で示すように、ステップS32aとステップS33aの間にステップS36aを設けて、制御部282aが、k−iのフレームの仮VADフラグが音声区間に属するという情報でないかを判断し、音声区間に属するという情報でない場合には、ステップS33aの処理を行い、音声区間に属するという情報である場合には、ステップS34aの処理を行っても良い(ステップS36a)。
上記処理においては、VADフラグバッファ修正処理指示部28aは、kを現在のフレームとして仮VADフラグの修正の処理を行っている。しかし、遅延バッファ26とVADフラグバッファ27の両方のバッファに格納されているフレームであれば、そのフレームの番号をkとして、処理を行うことができる。
【0023】
このように、VADフラグバッファ修正処理指示部28aは、あるフレームのピッチ相関値が予め定められた値よりも大きい場合には、そのフレームよりも時間的に前の予め定められた数のフレームに係る仮VADフラグを、音声区間に属するという情報に修正する。
上記VADフラグバッファ修正処理指示部28aは、あるフレームの音声パラメータと予め定められた値とを比較して、その比較結果によって、そのフレームよりも時間的に前の予め定められた数のフレームに係る仮VADフラグを修正する一例である。
ここで、本明細書、特許請求の範囲において、あるフレーム(以下、フレームAとする。)よりも時間的に後ろのフレーム(以下、フレームBとする。)とは、フレームAよりも時間的に未来のフレームを意味する。すなわち、フレームAの時刻をa、フレームBの時刻をbとすると、a<bとなる。逆に、あるフレーム(以下、フレームCとする。)よりも時間的に前のフレーム(以下、フレームDとする。)とは、フレームCよりも時間的に過去のフレームを意味する。すなわち、フレームCの時刻をc、フレームDの時刻をdとすると、d<cとなる。
【0024】
≪修正例2≫
VADフラグバッファ修正処理指示部28の一例であるVADフラグバッファ修正処理指示部28bは、図6に記載された処理を行う。VADフラグバッファ修正処理指示部28bは、仮判定部21において非音声区間に判定されてしまった過去のフレームでも、現在のフレームkのパワーPkよりも、k−iのフレームのパワーPk−iのほうが著しく大きい場合には、k−iのフレームの仮VADフラグを音声区間に属するという情報に変更するものである。これにより、音声区間の終了点付近で誤って非音声区間と仮判定されてしまった仮VADフラグを修正することができる。VADフラグバッファ修正処理指示部28bは、図1のVADフラグバッファ修正処理指示部28bに破線で示すように、比較部281b、制御部282b、指示部283bを有する。
【0025】
図6に示すように、制御部282bは、i=1とする(ステップS31b)。比較部281bは、フレームkのパワーPkに予め定められた定数a1をかけた値が、フレームk−iのパワーPk―iとを比較する(ステップS32b)。パワーPkに予め定められた定数a1をかけた値が、フレームk−iのパワーPk―i未満である場合には、指示部283bは、フレームk−iの仮VADフラグを音声区間に属するという情報に修正する(ステップS33b)。その後、制御部282bは、iをインクリメントし、i=i+1とする(ステップS34b)。ステップS32bにおいて、パワーPkに予め定められた定数a1をかけた値が、フレームk−iのパワーPk―i未満でない場合には、ステップS33bの処理を跳ばして、ステップS34bの処理を行う。制御部282bは、iと予め定められた定数M2とを比較し、iが予め定められた定数M2未満である場合にはステップS32bの処理を行い、そうでない場合にはステップS3の処理を終了する(ステップS35b)。ここで、a1は、4≦a1≦25程度にするとよい。M2は1以上であればよいが、1フレームの時間長が20msである場合には、5≦M2≦10程度にすると望ましい。
【0026】
上記処理においては、ステップS33bにおいて、既に音声区間に属するという情報である仮VADフラグについても、音声区間に属するという情報で上書き修正を行っている。一方、図6に破線で示すように、ステップS32bとステップS33bの間にステップS36bを設けて、制御部282bが、k−iのフレームの仮VADフラグが音声区間に属するという情報でないかを判断し、音声区間に属するという情報でない場合には、ステップS33bの処理を行い、音声区間に属するという情報である場合には、ステップS34bの処理を行っても良い(ステップS36b)。
上記処理においては、VADフラグバッファ修正処理指示部28bは、kを現在のフレームとして仮VADフラグの修正の処理を行っている。しかし、遅延バッファ26とVADフラグバッファ27の両方のバッファに格納されているフレームであれば、そのフレームの番号をkとして、処理を行ってもよい。
【0027】
このように、VADフラグバッファ修正処理指示部28bは、あるフレームのパワーに予め定めた定数をかけた値が、そのフレームよりも時間的に前のフレームのパワー未満である場合には、その時間的に前のフレームに係るVADフラグを、音声区間に属するという情報に修正する。
VADフラグバッファ修正処理指示部28aは、あるフレームの音声パラメータと、そのフレームよりも時間的に前のフレームの音声パラメータとを比較して、その比較結果によって、その時間的に前のフレームに係る仮VADフラグを修正する一例である。
【0028】
≪修正例3≫
VADフラグバッファ修正処理指示部28の一例であるVADフラグバッファ修正処理指示部28cは、図7に記載された処理を行う。VADフラグバッファ修正処理指示部28cは、仮判定部21において音声区間として判定されてしまった過去のフレームでも、その前後のフレームにおけるパワーが、その音声区間に判定されてしまったフレームのパワーよりも著しく小さい場合に、当該フレームを非音声区間に修正するものである。これにより、例えば、プツンといった短時間のノイズが原因で誤って音声区間として判定されてしまったフレームの仮VADフラグを修正することができる。VADフラグバッファ修正処理指示部28cは、図1のVADフラグバッファ修正処理指示部28cに破線で示すように、比較部281c、制御部282c、指示部283cを有する。
【0029】
図7に示すように、比較部281cは、現在のフレームをkとして、フレームk−3のパワーPk−3に予め定められた定数a2をかけた値と、フレームk−2のパワーPk−2を比較する(ステップS31c)。パワーPk−3に予め定められた定数a2をかけた値がパワーPk−2未満である場合には、フレームk−1のパワーPk−1に予め定められた定数a3をかけた値と、フレームk−2のパワーPk−2を比較する(ステップS32c)。パワーPk−1に予め定められた定数a3をかけた値がパワーPk−2未満である場合には、フレームkのパワーPkに予め定められた定数a4をかけた値と、フレームk−2のパワーPk−2を比較する(ステップS33c)。フレームkのパワーPkに予め定められた定数a4をかけた値がPk−2未満である場合には、指示部283cは、フレームk−2の仮VADフラグを、非音声区間に属するという情報に修正する。ステップS31c〜ステップS33cの何れかのステップにおいて、(i,j)={(3,2),(1,3),(0,4)}として、パワーPk−iに予め定められた定数ajをかけた値がパワーPk−2未満でないと判断された場合には、ステップS3の処理は終了する。ここで、ai(i=2,3,4)は、4≦ai≦25程度にするとよい。aiの各値は、同一でもよいし、異なっていてもよい。
【0030】
上記処理においては、ステップS34cの処理において、既に非音声区間に属するという情報である仮VADフラグについても、非音声区間に属するという情報で上書き修正を行っている。一方、図7に破線で示すように、ステップS33cとステップS34cの間にステップS35cを設けて、制御部282cが、フレームk−iの仮VADフラグが非音声区間に属するという情報でないかを判断し、非音声区間に属するという情報でない場合には、ステップS34cの処理を行い、非音声区間に属するという情報である場合には、ステップS34cの処理を行わずにステップS3の処理を終了しても良い(ステップS35c)。
上記処理においては、VADフラグバッファ修正処理指示部28cは、kを現在のフレームとして仮VADフラグの修正の処理を行っている。しかし、遅延バッファ26とVADフラグバッファ27の両方のバッファに格納されているフレームであれば、そのフレームの番号をkとして、処理を行ってもよい。
【0031】
上記処理では、あるフレーム(k−2)のひとつ前のフレーム(k−3)と、そのあるフレーム(k−2)よりも1つ後ろのフレーム(k−1)と、2つ後ろのフレーム(k)に係る各音声パラメータを観測して、仮VADフラグバッファの修正を行っている。しかし、あるフレームよりも時間的に前の予め定められたα個のフレームと、そのあるフレームよりも時間的に後ろの予め定められたβ個のフレームに係る各音声パラメータを観測して、上記と同様にして仮VADフラグバッファの修正を行っても良い。すなわち、上記α個とβ個の各フレームのパワーにそのフレーム毎に予め定められた定数をかけた値と、そのあるフレームのパワーとをそれぞれ比較し、そのあるフレームのパワーの方がすべて大きいと判断された場合には、そのあるフレームの仮VADフラグを非音声区間に属するという情報に修正する。
このように、VADフラグバッファ修正処理指示部28cは、そのフレームよりも時間的に前の予め定められた数の各フレームのパワーに予め定めた各定数をかけた値の何れよりも大きく、かつ、そのフレームよりも時間的に後の予め定められた数の各フレームのパワーに予め定められた各定数をかけた値の何れよりも大きい場合に、上記あるフレームに係る仮VADフラグを、非音声区間に属するという情報に修正する手段である。
【0032】
上記VADフラグバッファ修正処理指示部28cは、あるフレームの音声パラメータと、そのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータとを比較して、その比較結果によって、上記あるフレームに係る仮VADフラグを修正する一例である。
また、VADフラグバッファ修正処理指示部28cは、連続するγ個のフレームの各パワーの平均値を求め、その平均値が、それらの連続するγ個のフレームよりも時間的に前の予め定められたα個の各フレームにフレーム毎に予め定められた定数をかけた値のいずれよりも大きく、かつ、それら連続するγ個のフレームよりも時間的に後ろの予め定められたβ個の各フレームにフレーム毎に予め定められた定数をかけた値のいずれよりも大きい場合に、それらの連続するγ個のフレームの仮VADフラグを、非音声区間に属するという情報に修正してもよい。ここで、1フレームの長さが20msである場合には、γを2〜3程度にするとよい。
【0033】
すなわち、VADフラグバッファ修正処理指示部28cは、あるフレームのパワーと、そのフレームと時間的に前後する少なくとも1つのフレームのパワーとの平均値が、それらのフレームよりも時間的に前の予め定められた数の各フレームのパワーに予め定めた各定数をかけた値の何れよりも大きく、かつ、それらのフレームよりも時間的に後の予め定められた数の各フレームのパワーに予め定められた各定数をかけた値の何れよりも大きい場合に、上記あるフレームと上記そのフレームと時間的に前後する少なくとも1つのフレームとに係るVADフラグをそれぞれ非音声区間に属するという情報に修正してもよい。
上記説明したように、仮判定部21から出力された仮VADフラグは、VADフラグバッファ27に予め定めたフレーム数分だけ蓄積され、必要であればVADフラグバッファ修正処理指示部28による修正を受けた後に、修正された仮VADフラグとして、統計量計算部22に出力される。
このVADフラグバッファ修正処理指示部28cは、あるフレームの音声パラメータと、そのフレームと時間的に前後する少なくとも1つのフレームの音声パラメータとの平均値を、それらのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそれらのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータと比較して、その比較結果によって、上記あるフレームと上記そのフレームと時間的に前後する少なくとも1つのフレームとに係る仮VADフラグを修正する一例である。
【0034】
動的閾値決定部29(統計量計算部22と閾値決定部24)は、VADフラグバッファ27から出力された修正された仮VADフラグによって、音声区間に属すると決定されたフレーム及び/又は非音声区間に属すると決定されたフレームから、音声区間に属するか非音声区間に属するかを決定するための動的閾値を所定の時間間隔ごとに計算する(ステップS4)。以下に説明する例では、音声区間に属するフレームの統計量と非音声区間に属するフレームの統計量の両方を用いているが、一方のみを用いて音声区間、非音声区間の決定をしてもよい。
動的閾値決定部29の統計量計算部22と閾値決定部24の処理は、背景技術に記載したものと同様でよい。すなわち、統計量計算部22は、仮判定部21で判定された音声/非音声区間の判定に基づいて、音声区間と非音声区間それぞれの平均パワーを計算する。閾値決定部24は、音声区間と非音声区間それぞれの平均パワーから、例えば特許文献1に記載されたのと同様の方法で音声/非音声判定のための動的閾値を決定してもよい。決定された動的閾値は、比較部25に出力される。ここで「平均パワー」とは、音声区間に属するフレームのパワーの平均値及び非音声区間に属するフレームのパワーの平均値である。
【0035】
動的閾値決定部29の統計量計算部22は、平均パワー以外の統計量を計算してもよい。例えば、ピッチ相関値を計算してもよい。また、一定の観測時間における、音声区間に属するフレームのパワーの最小値、非音声区間に属するフレームのパワーの最大値を求めてもよい。一定の観測時間とは、例えば、2秒前後であり、1フレームの長さが20msである場合には、約100フレームが一定の観測時間となる。また、音声区間に属するフレームのパワーの標準偏差及び/又は分散や、非音声区間に属するフレームのパワーの標準偏差及び/又は分散を統計量として求めてもよい。平均パワー以外の統計量を用いる場合も、閾値決定部24は、上記計算された統計量から、音声区間、非音声区間を判定するための動的閾値を決定して、その決定された動的閾値を比較部25に出力する。
動的閾値決定部29による動的閾値の更新頻度は、求める音声区間の判定精度、ハードウェアの性能や規模に依存する。すなわち、音声区間の判定精度を最も高くする場合には、動的閾値は毎フレームごとに更新するとよい。しかし、本発明が実装されるハードウェアの性能が低く、又は、その規模が小さい場合には、動的閾値の更新頻度を下げてもよい。具体的には、約0.1秒〜0.5秒毎に動的閾値は更新される。
【0036】
比較部25は、上記動的閾値決定手段によって計算された動的閾値と、現フレームについての上記音声パラメータとを比較することによって、そのフレームが音声区間に属するか非音声区間に属するかを実時間で最終的に決定する(ステップS5)。最終的な判断では、区間不明は認められず、必ず音声区間か非音声区間のいずれかに決定される。フレームが音声区間に属するか非音声区間に属するかの決定についての情報は、VADフラグとして、比較部25及び音声区間決定装置120から出力される。
なお、比較部25は、現フレーム以外のフレームについて、つまり、任意の時刻におけるフレームについて音声区間、非音声区間の判断をしてもよい。また、実時間性が求められていない場合には、実時間で音声区間、非音声区間の判断をしなくてもよい。さらに、比較部25が出力したVADフラグを基にして、他の音声区間、非音声区間決定装置(音声区間決定装置120を含む。)を用いてより精度の良い音声区間、非音声区間の決定をしてもよい。
【0037】
以下に、動的閾値決定部29と比較部25の一例として、動的閾値決定部29a(統計量計算部22aと閾値決定部24a)と比較部25a、動的閾値決定部29b(統計量計算部22bと閾値決定部24b)と比較部25bについてそれぞれ説明をする。まず、図8を参照して、動的閾値決定部29a(統計量計算部22aと閾値決定部24a)と比較部25aについて説明をする。図8は、比較部25aの処理の流れを例示する図である。
動的閾値決定部29aの統計量計算部22aは、VADフラグバッファ27が出力した修正された仮VADフラグと、遅延バッファ26が出力した音声パラメータとを用いて、音声区間に属するフレームのパワーの平均値(以下、平均値Aとする。)と、非音声区間に属するフレームのパワーの平均値(以下、平均値Bとする。)とをそれぞれ計算して、閾値決定部24aに出力する。
動的閾値決定部29aの閾値決定部24aは、上記平均値Aを予め定められた正の定数aで割った値(以下、動的閾値Aとする。)と、上記平均値Bに予め定められた正の定数bをかけた値(以下、動的閾値Bとする。)とを計算して、比較部25aに出力する。すなわち、閾値決定部24aは、音声区間のパワーの平均値A×(1/a)を計算して動的閾値Aとし、非音声区間のパワーの平均値B×bを計算して動的閾値Bとする。正の定数aとbは、異なる値で予め実験をし、音声区間、非音声区間の精度が最も高くなるように定める。経験上、正の定数aとbはそれぞれ2〜10程度の値であるとよい。
【0038】
比較部25aは、あるフレームのパワーが動的閾値A未満であるかどうかを判断する(ステップS51a)。そのフレームのパワーが動的閾値A未満であれば、そのフレームは非音声区間であると判定する。そうでない場合には、そのフレームのパワーが動的閾値B未満であるかどうかを判断する(ステップS52a)。そのフレームのパワーが動的閾値B未満であれば、そのフレームは非音声区間であると判定する。そうでない場合には、そのフレームは音声区間に属すると判定する。すなわち、比較部25aは、フレームのパワーが、上記動的閾値Aが未満でなく、かつ、上記動的閾値Bが未満でない場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると判断する。
上記説明した動的閾値決定部29aは、音声パラメータとしてパワーを用いているが、音声パラメータとして、ピッチ相関を用いて、上記と同様の処理を行っても良い。すなわち、統計量計算部22aが、修正された仮VADフラグによって音声区間に属すると決定されたフレームのピッチ相関の平均値(以下、平均値A’とする。)と、修正された仮VADフラグによって非音声区間に属すると決定されたフレームのピッチ相関の平均値(以下、平均値B’とする。)とを計算する。閾値決定部24aが、上記平均値A’を予め定められた正の定数a’で割った値(以下、動的閾値A’とする。)と、上記平均値B’に予め定められた正の定数b’をかけた値(以下、動的閾値B’とする。)とを計算する。図9に示すように、比較部25aが、フレームのピッチ相関が、上記動的閾値A’が未満でなく(ステップS51c)、かつ、上記動的閾値B’が未満でない場合に(ステップS52c)、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると最終的に決定してもよい。この場合の定数a’と定数b’は、音声パラメータとしてパワーを用いる場合とは、異なる定数であってよい。
ここで、本明細書、特許請求の範囲において、AをBで割るとは、Aに、1をBで割った値(1/B)をかけることを含むことにする。
【0039】
また、上記説明した音声パラメータとして、パワーとピッチ相関の両方を用いる方法を組み合わせてもよい。すなわち、動的閾値決定部29aが、上記説明したのと同様の方法で、上記動的閾値A、A’、B、B’をそれぞれ計算し、比較部25aが、ステップS51a、ステップS52a、ステップS51c、ステップS52cの各判断処理と同様の判断処理を少なくとも1つを行い、すべての判断処理でNoである場合に、音声区間と判定し、何れかの判断処理でYesである場合に非音声区間と判定してもよい。さらに、図10に示すように、フレームのパワーが動的閾値A未満及び/又はフレームのピッチ相関が動的閾値A’未満であるかどうか(ステップS51d)と、ステップS51dの判断処理でNoと判断された場合には、フレームのパワーが動的閾値B未満及び/又はフレームのピッチ相関が動的閾値B’であるかどうか(ステップS52d)を判断し、両ステップにおいてNoと判断された場合、そのフレームは音声区間に属すると判断し、何れかのステップにおいてYesと判断された場合には、そのフレームは非音声区間に属すると判断してもよい。
【0040】
次に、図11を参照して、動的閾値決定部29b(統計量計算部22bと閾値決定部24b)と比較部25bについて説明をする。図11は、比較部25bの処理の流れを例示する図である。
動的閾値決定部29bの統計量計算部22bは、VADフラグバッファ27が出力した修正された仮VADフラグと、遅延バッファ26が出力した音声パラメータとを用いて、音声区間に属するフレームのパワーの平均値(以下、平均値Aとする。)及び標準偏差(以下、標準偏差Cとする。)と、非音声区間に属するフレームのパワーの平均値(以下、平均値Bとする。)及び標準偏差(以下、標準偏差Dとする。)とをそれぞれ計算して、閾値決定部24bに出力する。
動的閾値決定部29bの閾値決定部24bは、上記標準偏差Cに予め定められた正の定数cをかけた値を上記平均値Aから引いた値(以下、動的閾値Cとする。)と、上記標準偏差Dに予め定められた正の定数dをかけた値を上記平均値Bに加えた値(以下、動的閾値Dとする。)とを計算して、比較部25bに出力する。すなわち、閾値決定部24bは、音声区間のパワーの平均値A−(c×標準偏差C)を計算して動的閾値Cとし、非音声区間のパワーの平均値B+(d×標準偏差D)を計算して動的閾値Dとする。正の定数cとdは、異なる値で予め実験をしてみて、音声区間、非音声区間の精度が最も高くなるように定める。経験上、正の定数cとdはそれぞれ2〜5程度の値であるとよい。
【0041】
比較部25bは、あるフレームのパワーが動的閾値C未満であるかどうかを判断する(ステップS51b)。そのフレームのパワーが動的閾値C未満であれば、そのフレームは非音声区間であると判定する。そうでない場合には、そのフレームのパワーが動的閾値D未満であるかどうかを判断する(ステップS52b)。そのフレームのパワーが動的閾値D未満であれば、そのフレームは非音声区間であると判定する。そうでない場合には、そのフレームは音声区間に属すると判定する。すなわち、比較部25bは、フレームのパワーが、上記動的閾値Cが未満であり、かつ、上記動的閾値Dが未満である場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると判断する。
【0042】
[変形例等]
図2に破線で示すように、ステップS4とステップS5の処理を行わずに、ステップS3の処理で、音声区間、非音声区間の判定の処理を終えてもよい。すなわち、VADフラグバッファ27から出力された修正された仮VADフラグを、フレームが、音声区間に属するか非音声区間に属するかの最終的な情報として用いてもよい。
VADフラグバッファ修正処理指示部28の例である≪修正例1≫〜≪修正例3≫は適宜組み合わせることができる。すなわち、VADフラグバッファ修正処理指示部28は、図5〜図7に記載した各処理を重ねて行ってもよい。すなわち、予め定めた規則として、≪修正例1≫〜≪修正例3≫で説明した条件を少なくともひとつ有しており、何れかの条件に当てはまったときに、その条件に対応した≪修正例1≫〜≪修正例3≫で説明した仮VADフラグの修正を行ってもよい。
また、≪修正例1≫〜≪修正例3≫では、音声パラメータとしてパワーを用いているが、パワーに限らず、例えばピッチ相関等の任意の音声パラメータを用いてよい。
【0043】
上記仮音声区間決定装置、音声区間決定装置の処理機能をコンピュータによって実現することができる。この場合、仮音声区間決定装置、音声区間決定装置の処理の内容はプログラムによって記述される。そして、このプログラムを、コンピュータで実行することにより、仮音声区間決定装置、音声区間決定装置の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0044】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0045】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、仮音声区間決定装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【産業上の利用可能性】
【0046】
パケット通信網上で音声通信を行う利用形態が普及してきており、本発明を適用することによって、安価で品質の高い多地点音声通信会議が実現できる。また、音声認識の前段で本発明による音声区間決定装置、方法、プログラム及びその記録媒体の何れかが利用される場合には、その音声認識システムにおける音声認識の誤りを減らすことができる。
【図面の簡単な説明】
【0047】
【図1】本発明による音声区間決定装置120の機能構成を例示する図。
【図2】本発明による音声区間決定装置120の処理の流れを例示する図。
【図3】本発明による仮判定部21の処理の流れを例示する図。
【図4】本発明による仮判定部21の処理の流れを例示する図。
【図5】本発明によるVADフラグバッファ修正処理指示部28aの処理の流れを例示する図。
【図6】本発明によるVADフラグバッファ修正処理指示部28bの処理の流れを例示する図。
【図7】本発明によるVADフラグバッファ修正処理指示部28cの処理の流れを例示する図。
【図8】本発明による比較部25aの処理の流れを例示する図
【図9】本発明による比較部25aの処理の流れを例示する図。
【図10】本発明による比較部25aの処理の流れを例示する図。
【図11】本発明による比較部25bの処理の流れを例示する図。
【図12】従来技術による音声パケット送信部10の機能構成を例示する図。
【図13】従来技術による音声区間決定部12の機能構成を例示する図。
【図14】従来技術による音声区間決定部12の処理の流れを例示する図。
【特許請求の範囲】
【請求項1】
入力された音声信号からフレーム毎に音声パラメータを計算するパラメータ計算手段と、
上記音声パラメータを、予め定められたフレーム数分だけ蓄積する遅延バッファと、
上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかを仮に決定する仮判定手段と、
上記仮判定手段によって決定された、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけ蓄積した後に、修正された仮VADフラグとして出力するVADフラグバッファと、
VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正するVADフラグバッファ修正処理指示手段と、
を有する仮音声区間決定装置。
【請求項2】
請求項1に記載された仮音声区間決定装置において、
上記仮判定手段は、上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかを仮に決定する手段であり、
上記VADフラグバッファは、上記仮判定手段によって決定された、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけ蓄積した後に、修正された仮VADフラグとして出力する手段であり、
上記VADフラグバッファ修正処理指示手段は、VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正し、さらに、すべてのフレームに係る仮VADフラグを音声区間に属するか、非音声区間に属するかに必ず決定する手段である、
ことを特徴とする仮音声区間決定装置。
【請求項3】
請求項1又は請求項2に記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと予め定められた値とを比較して、その比較結果によって、そのフレームよりも時間的に前の予め定められた数のフレームに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。
【請求項4】
請求項1から請求項3の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと、そのフレームよりも時間的に前のフレームの音声パラメータとを比較して、その比較結果によって、その時間的に前のフレームに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。
【請求項5】
請求項1から請求項4の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと、そのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータとを比較して、その比較結果によって、上記あるフレームに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。
【請求項6】
請求項1から請求項5の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと、そのフレームと時間的に前後する少なくとも1つのフレームの音声パラメータとの平均値を、それらのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそれらのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータとを比較して、その比較結果によって、上記あるフレームと上記そのフレームと時間的に前後する少なくとも1つのフレームとに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。
【請求項7】
請求項1から請求項6の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、音声パラメータに定数を乗じたものを比較することを特徴とする仮音声区間決定装置。
【請求項8】
請求項1から請求項7の何れかに記載の仮音声区間決定装置において、
音声パラメータとして、パワーとピッチ相関値の少なくともひとつが用いられることを特徴とする仮音声区間決定装置。
【請求項9】
請求項1から請求項8の何れかに記載の仮音声区間決定装置から出力された修正された仮VADフラグを、音声区間に属するか、非音声区間に属するかの最終的な情報とする音声区間決定装置。
【請求項10】
請求項1から請求項8の何れかに記載された仮音声区間決定装置を有し、
さらに、
上記仮音声区間決定装置から出力された修正された仮VADフラグによって、音声区間に属すると決定されたフレーム及び/又は非音声区間に属すると決定されたフレームの音声パラメータから、音声区間に属するか非音声区間に属するかを決定するための動的閾値を所定の時間間隔ごとに計算する動的閾値決定手段と、
上記動的閾値決定手段によって計算された動的閾値と、あるフレームについての上記音声パラメータとを比較することによって、そのフレームが音声区間に属するか非音声区間に属するかを最終的に決定する比較手段と、
を有する音声区間決定装置。
【請求項11】
請求項10に記載された音声区間決定装置において、
上記動的閾値決定手段は、
上記仮音声区間決定装置から出力された修正された仮VADフラグによって音声区間に属すると決定されたフレームの音声パラメータの平均値(以下、平均値Aとする。)と、上記音声区間決定装置から出力された修正された仮VADフラグによって非音声区間に属すると決定されたフレームの音声パラメータの平均値(以下、平均値Bとする。)とを計算する統計量計算手段と、
上記平均値Aを予め定められた正の定数aで割った値(以下、動的閾値Aとする。)と、上記平均値Bに予め定められた正の定数bをかけた値(以下、動的閾値Bとする。)とを計算する閾値決定手段と、
を有し、
上記比較手段は、フレームのパワーが、上記動的閾値Aが未満であり、かつ、上記動的閾値Bが未満である場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると最終的に決定する手段である、
ことを特徴とする音声区間決定装置。
【請求項12】
請求項10に記載された音声区間決定装置において、
上記動的閾値決定手段は、
上記仮音声区間決定装置から出力された修正された仮VADフラグによって音声区間に属すると決定されたフレームのパワーの平均値(以下、平均値Aとする。)及び標準偏差(以下、標準偏差Cとする。)と、上記音声区間決定装置から出力された修正された仮VADフラグによって非音声区間に属すると決定されたフレームのパワーの平均値(以下、平均値Bとする。)及び標準偏差(以下、標準偏差Dとする。)とを計算する統計量計算手段と、
上記標準偏差Cに予め定められた正の定数cをかけた値を上記平均値Aから引いた値(以下、動的閾値Cとする。)と、上記標準偏差Dに予め定められた正の定数dをかけた値を上記平均値Bに加えた値(以下、動的閾値Dとする。)とを計算する閾値決定手段と、
を有し、
上記比較手段は、フレームのパワーが、上記動的閾値Cが未満であり、かつ、上記動的閾値Dが未満である場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると最終的に決定する手段である、
ことを特徴とする音声区間決定装置。
【請求項13】
入力された音声信号からフレーム毎に音声パラメータを計算して、予め定められたフレーム数分の音声パラメータを蓄積する遅延バッファに蓄積する蓄積ステップと、
上記計算された音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を決定して、VADフラグバッファに蓄積する仮判定ステップと、
VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正するVADフラグバッファ修正処理指示ステップと、
を有する音声区間決定方法。
【請求項14】
請求項1から請求項8の何れかに記載した仮音声区間決定装置としてコンピュータを機能させるための仮音声区間決定プログラム。
【請求項15】
請求項14に記載された仮音声区間決定プログラムを記録した仮音声区間決定プログラム記録媒体。
【請求項1】
入力された音声信号からフレーム毎に音声パラメータを計算するパラメータ計算手段と、
上記音声パラメータを、予め定められたフレーム数分だけ蓄積する遅延バッファと、
上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかを仮に決定する仮判定手段と、
上記仮判定手段によって決定された、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけ蓄積した後に、修正された仮VADフラグとして出力するVADフラグバッファと、
VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正するVADフラグバッファ修正処理指示手段と、
を有する仮音声区間決定装置。
【請求項2】
請求項1に記載された仮音声区間決定装置において、
上記仮判定手段は、上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかを仮に決定する手段であり、
上記VADフラグバッファは、上記仮判定手段によって決定された、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけ蓄積した後に、修正された仮VADフラグとして出力する手段であり、
上記VADフラグバッファ修正処理指示手段は、VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正し、さらに、すべてのフレームに係る仮VADフラグを音声区間に属するか、非音声区間に属するかに必ず決定する手段である、
ことを特徴とする仮音声区間決定装置。
【請求項3】
請求項1又は請求項2に記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと予め定められた値とを比較して、その比較結果によって、そのフレームよりも時間的に前の予め定められた数のフレームに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。
【請求項4】
請求項1から請求項3の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと、そのフレームよりも時間的に前のフレームの音声パラメータとを比較して、その比較結果によって、その時間的に前のフレームに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。
【請求項5】
請求項1から請求項4の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと、そのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータとを比較して、その比較結果によって、上記あるフレームに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。
【請求項6】
請求項1から請求項5の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと、そのフレームと時間的に前後する少なくとも1つのフレームの音声パラメータとの平均値を、それらのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそれらのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータとを比較して、その比較結果によって、上記あるフレームと上記そのフレームと時間的に前後する少なくとも1つのフレームとに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。
【請求項7】
請求項1から請求項6の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、音声パラメータに定数を乗じたものを比較することを特徴とする仮音声区間決定装置。
【請求項8】
請求項1から請求項7の何れかに記載の仮音声区間決定装置において、
音声パラメータとして、パワーとピッチ相関値の少なくともひとつが用いられることを特徴とする仮音声区間決定装置。
【請求項9】
請求項1から請求項8の何れかに記載の仮音声区間決定装置から出力された修正された仮VADフラグを、音声区間に属するか、非音声区間に属するかの最終的な情報とする音声区間決定装置。
【請求項10】
請求項1から請求項8の何れかに記載された仮音声区間決定装置を有し、
さらに、
上記仮音声区間決定装置から出力された修正された仮VADフラグによって、音声区間に属すると決定されたフレーム及び/又は非音声区間に属すると決定されたフレームの音声パラメータから、音声区間に属するか非音声区間に属するかを決定するための動的閾値を所定の時間間隔ごとに計算する動的閾値決定手段と、
上記動的閾値決定手段によって計算された動的閾値と、あるフレームについての上記音声パラメータとを比較することによって、そのフレームが音声区間に属するか非音声区間に属するかを最終的に決定する比較手段と、
を有する音声区間決定装置。
【請求項11】
請求項10に記載された音声区間決定装置において、
上記動的閾値決定手段は、
上記仮音声区間決定装置から出力された修正された仮VADフラグによって音声区間に属すると決定されたフレームの音声パラメータの平均値(以下、平均値Aとする。)と、上記音声区間決定装置から出力された修正された仮VADフラグによって非音声区間に属すると決定されたフレームの音声パラメータの平均値(以下、平均値Bとする。)とを計算する統計量計算手段と、
上記平均値Aを予め定められた正の定数aで割った値(以下、動的閾値Aとする。)と、上記平均値Bに予め定められた正の定数bをかけた値(以下、動的閾値Bとする。)とを計算する閾値決定手段と、
を有し、
上記比較手段は、フレームのパワーが、上記動的閾値Aが未満であり、かつ、上記動的閾値Bが未満である場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると最終的に決定する手段である、
ことを特徴とする音声区間決定装置。
【請求項12】
請求項10に記載された音声区間決定装置において、
上記動的閾値決定手段は、
上記仮音声区間決定装置から出力された修正された仮VADフラグによって音声区間に属すると決定されたフレームのパワーの平均値(以下、平均値Aとする。)及び標準偏差(以下、標準偏差Cとする。)と、上記音声区間決定装置から出力された修正された仮VADフラグによって非音声区間に属すると決定されたフレームのパワーの平均値(以下、平均値Bとする。)及び標準偏差(以下、標準偏差Dとする。)とを計算する統計量計算手段と、
上記標準偏差Cに予め定められた正の定数cをかけた値を上記平均値Aから引いた値(以下、動的閾値Cとする。)と、上記標準偏差Dに予め定められた正の定数dをかけた値を上記平均値Bに加えた値(以下、動的閾値Dとする。)とを計算する閾値決定手段と、
を有し、
上記比較手段は、フレームのパワーが、上記動的閾値Cが未満であり、かつ、上記動的閾値Dが未満である場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると最終的に決定する手段である、
ことを特徴とする音声区間決定装置。
【請求項13】
入力された音声信号からフレーム毎に音声パラメータを計算して、予め定められたフレーム数分の音声パラメータを蓄積する遅延バッファに蓄積する蓄積ステップと、
上記計算された音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を決定して、VADフラグバッファに蓄積する仮判定ステップと、
VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正するVADフラグバッファ修正処理指示ステップと、
を有する音声区間決定方法。
【請求項14】
請求項1から請求項8の何れかに記載した仮音声区間決定装置としてコンピュータを機能させるための仮音声区間決定プログラム。
【請求項15】
請求項14に記載された仮音声区間決定プログラムを記録した仮音声区間決定プログラム記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2008−151840(P2008−151840A)
【公開日】平成20年7月3日(2008.7.3)
【国際特許分類】
【出願番号】特願2006−336858(P2006−336858)
【出願日】平成18年12月14日(2006.12.14)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成20年7月3日(2008.7.3)
【国際特許分類】
【出願日】平成18年12月14日(2006.12.14)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]