説明

音声区間判定装置、音声区間判定方法、及びプログラム

【課題】入力信号の音声区間と非音声区間との判定精度を向上する。
【解決手段】音声区間判定装置100は、入力信号をフレーム単位に分割するフレーム分割部101と、上記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部102と、上記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部103と、上記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部104と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部105と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力信号に含まれる音声区間を判定する音声区間判定装置、音声区間判定方法、及びプログラムに関する。
【背景技術】
【0002】
入力信号に音声が含まれているか否かを判定する音声区間判定技術の分野においては、主に信号のパワーを利用して音声区間の判定が行われていた。ところが、信号のレベル自体が変動する場合には、信号のパワーに基づいて音声区間を正しく判定することは困難である。
【0003】
そこで、入力信号のスペクトルエントロピーを利用する方法が提案されている(特許文献1、非特許文献1、及び非特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−251134号公報
【非特許文献】
【0005】
【非特許文献1】J.Shen,J.Hung,and L.Lee,”Robust entropy−based endpoint detection for speech recognition in noisy environments”,ICSLP−98,1998.
【非特許文献2】P.Renevey,and A.Drygajlo,”Entropy based voice activity detection in very noisy conditions”,Eurospeech 2001,2001.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、雑音成分のパワースペクトルが経時的に変化する非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することが出来ないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することのできる音声区間判定装置、音声区間判定方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある観点によれば、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレーム毎に上記入力信号の強度を増加させるパワー操作部と、上記パワー操作部により強度が増加された入力信号を用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有することを特徴とする、音声区間判定装置が提供される。
【0008】
また、上記課題を解決するために、本発明の別の観点によれば、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、上記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、上記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有することを特徴とする、音声区間判定装置が提供される。
【0009】
また、上記パワースペクトル操作部は、上記パワースペクトルの強度を周波数によらず均一に増加させてもよい。
【0010】
また、上記判定部により音声区間でないと判定された区間の上記パワースペクトルの平均パワーを算出することにより雑音の平均パワーを算出する雑音パワー算出部、をさらに有し、上記パワースペクトル操作部は、上記雑音パワー算出部により算出される雑音の平均パワーに応じて上記パワースペクトルの強度を増加させてもよい。
【0011】
また、上記判定部は、スペクトルエントロピーの値と所定の閾値との大小関係に基づいて、上記入力信号が音声区間であると判定した後、所定長のハングオーバーカウントを開始し、当該ハングオーバーカウントが0となるまでは入力信号を音声区間であると判定してもよい。
【0012】
また、上記課題を解決するために、本発明の別の観点によれば、入力信号をフレーム単位に分割し、分割されたフレームについて分析長毎のパワースペクトルを算出し、算出された上記パワースペクトルの強度を増加させ、強度が増加された上記パワースペクトルを用いてスペクトルエントロピーを算出し、算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定することを特徴とする、音声区間判定方法が提供される。
【0013】
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、上記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、上記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有することを特徴とする、音声区間判定装置として機能させるためのプログラムが提供される。
【発明の効果】
【0014】
以上説明したように本発明によれば、非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することのできる音声区間判定装置、音声区間判定方法、及びプログラムを提供することができる。
【図面の簡単な説明】
【0015】
【図1】本発明の一実施形態に係る音声区間判定方法の概要を説明するための説明図である。
【図2】同実施形態に係る音声区間判定方法の概要を説明するための説明図である。
【図3】同実施形態に係る音声区間判定装置の機能構成を示すブロック図である。
【図4】音声区間判定方法の流れの一例を示すフローチャートである。
【図5】入力信号とスペクトル操作後の信号の波形の一例を示す説明図である。
【図6】非音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。
【図7】音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。
【図8】スペクトル操作前後のスペクトルエントロピーの値を示すグラフである。
【発明を実施するための形態】
【0016】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0017】
<1.概要>
入力信号に音声が含まれているか否かを判定する音声区間判定技術の分野では、信号のパワーに基づいて判定する技術がある。ところが、信号のレベルが変動する場合には、信号のパワーに基づいて音声区間を正しく判定することは困難である。
【0018】
そこで、入力信号のスペクトルエントロピーに基づいて音声区間を判定する技術が提案されてきている。スペクトルエントロピーとは、入力信号の各周波数におけるパワースペクトルを確率分布とみなして算出されたエントロピーである。このスペクトルエントロピーは、入力信号の白色性を示した特徴量である。パワースペクトルの確率分布が均一である白色信号では、スペクトルエントロピーは高い値となり、パワースペクトルの確率分布が不均一な(ばらつきの大きい)有色信号ではスペクトルエントロピーは低い値となる。音声信号のパワースペクトルの確率分布は不均一であり、スペクトルエントロピーは低い値となる。この性質を利用して音声区間を判定することができる。
【0019】
このスペクトルエントロピーを利用した音声区間の判定は、信号のパワーを用いる場合と比較して、信号レベルの変動に強いという利点がある。スペクトルエントロピーは、正規化された値であるため、信号レベルが変化したとしてもパワースペクトルの形状が変わらなければ変動しない。このため、スペクトルエントロピーを利用すると、信号のレベルが変動しても、音声区間判定のための閾値を再設定する必要がなく、信号レベルによらず安定して音声区間を判定することができる。
【0020】
白色雑音と音声信号とのスペクトルエントロピーの値は、差が大きい。このため、入力信号に白色雑音が含まれる場合であっても、スペクトルエントロピーに基づいて精度よく音声区間を判定することができる。ところが、有色雑音と音声信号とはどちらもスペクトルエントロピーが低い値となる。このため、入力信号に有色雑音が含まれている場合には、音声区間と非音声区間との間でスペクトルエントロピーの値の差が小さくなり、判定精度が落ちてしまう。そこで、有色雑音が含まれる入力信号についても精度よく音声区間を判定する方法が求められている。
【0021】
パワースペクトルが経時的に変化しない定常な有色雑音が含まれる入力信号については、例えば雑音のパワースペクトルを推測して有色雑音の影響を除くことによって、音声区間判定の精度を向上させることができる。例えば非特許文献2には、雑音のパワースペクトルを予め推測し、入力信号のパワースペクトルを推定した雑音のパワースペクトルで除算することによって雑音成分のパワースペクトルを均一化する方法が記載されている。ここで推測した雑音のパワースペクトルが実際の雑音のパワースペクトルと一致した場合には上記の除算によりパワースペクトルの値が全て1となる。かかる処理によって、定常な有色雑音が含まれる区間のスペクトルエントロピーの値は高くなり、音声区間のスペクトルエントロピーの値と、定常な有色雑音が含まれる区間のスペクトルエントロピーの値との間の差異が大きくなるため、音声区間判定の精度が向上される。
【0022】
また、パワースペクトルが経時的に変化する非定常な有色雑音が含まれる入力信号については、予め学習させた識別器を用いることにより音声区間判定の精度を向上させることができる。例えば上記特許文献1には、対象のフレームと対象のフレームの前後数フレームについてのスペクトルエントロピー及びパワースペクトルの情報を利用した特徴ベクトルを用いて音声区間を判定する方法が提案されている。かかる処理によって、非定常な有色雑音が含まれる入力信号について、音声区間判定の精度を高めることができる。ところが、かかる方法は、対象のフレームの前後のフレームの特徴を利用するため、リアルタイムで処理することはできなかった。また、識別器を予め学習させておく必要があり、学習データを保持するためのメモリも必要である。
【0023】
そこで、本件発明者は、少ない演算量で定常雑音が含まれる入力信号及び非定常雑音が含まれる信号のいずれについても音声区間判定の精度を向上させることができ、さらにリアルタイム処理を行うことのできる方法を提案する。
【0024】
ここで本実施形態に係る音声区間判定の概要について図1及び図2を参照しながら説明する。図1及び図2は、本発明の一実施形態に係る音声区間判定方法の概要を説明するための説明図である。上述の通り、雑音のうち白色雑音については、元々スペクトルエントロピーの値が高く、音声信号のスペクトルエントロピーとの間の差が大きい。このため、入力信号のスペクトルエントロピーの大小に基づいて精度良く音声区間を判定することができる。一方、音声信号と似たスペクトルエントロピーを有する有色雑音については、スペクトルエントロピーに基づいて音声信号と区別することが困難である。このため、本実施形態においては、パワースペクトルを操作することによって、有色雑音のスペクトルエントロピーの値を増大させる。パワースペクトルを操作することによって、有色雑音のスペクトルエントロピーの値が判定に用いられる閾値より大きい値となり、このとき同じ操作を施された音声信号のスペクトルエントロピーの値が閾値以下となれば、音声区間判定の精度を向上させることができる。
【0025】
ここで、説明のためにスペクトルエントロピーHの値が同じになる音声信号および有色雑音について考えてみよう。なお、ここで説明に用いられる値は、説明を簡略化するために用いられる一例である。例えば、表1に示されるパワースペクトルの有色雑音と音声信号とを考える。ここで、k=1〜8とし、sがk番目のパワースペクトルを示すものとする。スペクトルエントロピーHは、各周波数ビンのパワーの存在確率pの関数である数式(1)で表される。ここでMは処理対象とする周波数帯域の下限値であり、Nは処理対象とする周波数帯域の上限値である。ここでは音声のスペクトルが集中している周波数帯域についてスペクトルエントロピーを算出することが好ましい。例えば、下限値を250Hz,上限値を4000Hzとすることができる。なお、ここでは各周波数ビンのパワーの存在確率pが有色雑音と音声信号とで同じとなる場合について考える。
【0026】
【表1】

【0027】
[数1]

・・・数式(1)
【0028】
なお、存在確率pは、以下の数式(2)で表される。
【0029】
[数2]

・・・数式(2)
【0030】
表1に示される有色雑音及び音声信号のスペクトルエントロピーの値を数式(1)及び数式(2)を用いて算出すると、いずれもH=2.708695となる。
【0031】
本実施形態においては、この各周波数ビンにおけるパワースペクトルの値を増加することにより、存在確率を変化させてスペクトルエントロピーの値を操作する。つまり、音声区間判定装置は、以下の数式(3)で表される処理をk=1〜8について行う。
【0032】
[数3]
s’=s+α ・・・数式(3)
【0033】
ここで、パワースペクトルの増分αを30とした場合の、かかる操作を行った後のパワースペクトル及び存在確率は、以下の表2に示される通りとなる。
【0034】
【表2】

【0035】
このときの有色雑音のスペクトルエントロピーは、H=2.998151となり、音声信号のスペクトルエントロピーは、H=2.973895となる。このように、パワースペクトルを増加させることによって、各周波数ビンの存在確率が変化し、存在確率のばらつきが少なくなる。同じ増加量を加えた場合の存在確率の変化の度合いは、元々のパワースペクトルの大きさによって異なる。すなわち、パワースペクトルを増加させることにより、有色雑音及び音声信号のいずれについてもスペクトルエントロピーは増大するが、元々の周波数ビンのパワーが大きい音声信号については、その影響が有色雑音の場合と比較して小さい。このため、有色雑音と音声信号との間で、スペクトルエントロピーの値に差異が生じる。
【0036】
つまり、有色雑音と音声信号との間でスペクトルエントロピーに差がない場合であっても、パワースペクトルの大きさに差異がある場合には、パワースペクトルを操作することによりスペクトルエントロピーの値に差異が生じる。本実施形態においては、このようにパワースペクトルを操作することによって、スペクトルエントロピーの値を操作し、有色雑音と音声信号とを判定する。以下、このような動作を可能にするための本実施形態に係る音声区間判定装置の構成について説明する。
【0037】
<2.構成>
まず、本実施形態に係る音声区間判定装置100の機能構成について図3を参照しながら説明する。図3は、本発明の一実施形態に係る音声区間判定装置の機能構成を示すブロック図である。
【0038】
音声区間判定装置100は、入力信号から音声区間と非音声区間とを判定する機能を有する情報処理装置の一例である。音声区間判定装置100は、例えば携帯電話、PC(Personal Computer)、ゲーム機器、家電機器、音楽再生装置、映像処理装置などの情報処理装置であってよい。
【0039】
音声区間判定装置100は、フレーム分割部101と、パワースペクトル算出部102と、パワースペクトル操作部103と、スペクトルエントロピー算出部104と、判定部105と、雑音パワー算出部106と、を主に有する。
【0040】
フレーム分割部101は、予め設定した時間間隔を1フレームとして、入力信号をフレーム毎に分割する。ここで用いられる時間間隔は、例えば1フレーム80msecとすることができる。
【0041】
パワースペクトル算出部102は、フレーム分割部101によりフレームに分割された入力信号について分析長毎にパワースペクトルを算出する。ここで、パワースペクトル算出部102は、例えば高速フーリエ変換を利用してパワースペクトルを算出することができる。また、パワースペクトル算出部102は、高速フーリエ変換を行うときに、例えばハミング窓などの各種窓関数を用いてもよい。
【0042】
パワースペクトル操作部103は、入力信号のパワーを操作するパワー操作部の一例であり、パワースペクトル算出部102により算出された各周波数のパワースペクトルの強度を増加させる。ここで、パワースペクトル操作部103は、各周波数のパワースペクトルそれぞれを同じ値増加させることによってパワースペクトルの強度を周波数によらず均一に増加させる。より具体的には、パワースペクトル操作部103は、雑音パワー算出部106により算出される雑音の平均パワーに応じて各周波数のパワースペクトルの強度を増加させてもよい。上述の通り、パワースペクトルの強度を増加させることにより、元々のパワースペクトルの大きさが異なりスペクトルエントロピーの値が類似する区間が音声区間であるか非音声区間であるかを区別することができるようになる。このとき、増加量は、雑音区間と音声区間とのスペクトルエントロピーの値に差異が生じる大きさであることが望ましい。例えばパワースペクトル操作部103は、パワースペクトルの増加量をS/N比及び雑音に基づいて決定することができる。例えば、パワースペクトルの増加量は、雑音の平均パワーよりも15dB大きい値とすることができる。また、パワースペクトルの増加量は、雑音のエントロピーに基づいて決定されてもよい。
【0043】
スペクトルエントロピー算出部104は、パワースペクトル操作部103により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出する。ここでスペクトルエントロピー算出部104は、上述の数式(1)及び数式(2)を用いてスペクトルエントロピーの値を算出することができる。このとき、スペクトルエントロピーを算出するために用いる周波数帯域は、音声のスペクトルが含まれる周波数帯域であることが望ましく、例えば250Hz〜4000Hzであってよい。
【0044】
判定部105は、スペクトルエントロピー算出部104により算出されたスペクトルエントロピーの値に基づいて、入力信号が音声区間であるか否かを判定する。判定部105は、例えば予め設定された閾値θと算出されたスペクトルエントロピーの値との大小関係に基づいて入力信号が音声区間であるか否かを判定してもよい。例えば判定部105は、スペクトルエントロピーの値が閾値θより小さいときに入力信号が音声区間であると判定し、スペクトルエントロピーの値が閾値θ以上であるときに入力信号が非音声区間であると判定することができる。
【0045】
なお、判定部105の用いる閾値θは、理論的に求められるスペクトルエントロピーの最大値に基づいて決定されてよい。例えば、閾値θは、理論的に求められるスペクトルエントロピーの最大値より0.2%小さい値とすることができる。スペクトルエントロピーの最大値は、Mを処理対象とする周波数帯域の下限値、Nを処理対象とする周波数帯域の上限値とすると、以下の数式(4)により算出される。
【0046】
[数4]

・・・数式(4)
【0047】
また、判定部105は、スペクトルエントロピーが閾値θに対して一定量以上低い場合に、後の数フレームは全て音声区間と判定するハングオーバー処理を実行してもよい。具体的には、判定部015は、スペクトルエントロピー算出部104により算出されたスペクトルエントロピーの値と、所定の閾値θとの大小関係に基づいて入力信号が音声区間であると判定した後に、所定長のハングオーバーカウントを開始し、ハングオーバーカウントが0となるまでは入力信号が音声区間であると判定することができる。通常、発話の終端はパワーが低くなるため検出精度が悪化する。しかし、ハングオーバーを設定することによって、検出精度を改善することができる。例えばハングオーバーを発生させる条件は、スペクトルエントロピーが閾値θに対して1%以上低いこととすることができる。またハングオーバーの続く時間長は、例えば500msec程度とすることができる。
【0048】
雑音パワー算出部106は、雑音の特性を示す値を算出する算出部の一例であり、判定部105により非音声区間であると判定された区間の前記パワースペクトルの平均パワーを算出することにより、雑音の平均パワーを算出することができる。雑音パワー算出部106は、判定部105により入力信号が音声でないと判定されたときに限って、パワースペクトル算出部102において算出されたパワースペクトルからパワーを算出する。そして、雑音パワー算出部106は、ここ算出されたパワーから長期平均を計算し、雑音の平均パワーを逐次更新する。このとき、雑音パワー算出部106は、判定部105による判定が間違っていた場合の影響を軽減するために、例えば最低でも100ミリ秒連続で非音声区間であると判定されたときのみ雑音の平均パワーを更新するようにしてもよい。
【0049】
以上、本実施形態に係る音声区間判定装置100の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU(Central Processing Unit)などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したROM(Read Only Memory)やRAM(Random Access Memory)などの記憶媒体から制御プログラムを読出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
【0050】
なお、上述のような本実施形態に係る音声区間判定装置100の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
【0051】
<3.動作>
次に、図4を参照しながら、本実施形態に係る音声区間判定方法の動作の一例について説明する。図4は、音声区間判定方法の流れの一例を示すフローチャートである。
【0052】
まず、判定部105は、算出されたスペクトルエントロピーの値と所定の閾値θの値との大小関係を比較する。具体的には、スペクトルエントロピーの値が閾値θより小さいか否かを判断する(S201)。そして、スペクトルエントロピーの値が所定の閾値θより小さいと判断された場合には、判定部105は、入力信号が音声区間であると判定することができる(S202)。入力信号が音声区間であると判定されたとき、判定部105は、さらにスペクトルエントロピーの値と閾値θとの差が一定以上であるか否かを判断する(S203)。そして、ステップS203の判断によりスペクトルエントロピーの値と閾値θとの差が一定以上である場合には、ハングオーバーカウントを発生させる(S204)。一方、ステップS203の判断においてスペクトルエントロピーの値と閾値θとの差が一定以上でないと判断された場合には、ステップS204の処理は省略される。
【0053】
また一方、ステップS201の判断において、スペクトルエントロピーの値が閾値θ以上であると判断された場合には、次に、判定部105は、ハングオーバーカウントが0でないか否かを判断する(S205)。ステップS205の判断において、ハングオーバーカウントが0でないと判断された場合には、判定部105は入力信号が音声区間であると判定することができる(S206)。そして、判定部105は、ハングオーバーカウントを消費する(S207)。一方、ステップS205の判断においてハングオーバーカウントが0であると判断された場合には、判定部105は、入力信号が非音声区間であると判定することができる(S206)。
【0054】
<4.効果の例>
上記において、本実施形態に係る音声区間判定装置100の構成及び動作について説明してきた。ここで既知の入力信号を上記の音声区間判定装置100に入力した場合の作用効果について図5〜図8を参照しながら一例を挙げて説明する。
【0055】
図5は、入力信号とスペクトル操作後の信号の波形の一例を示す説明図である。図6は、非音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。図7は、音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。図8は、スペクトル操作前後のスペクトルエントロピーの値を示すグラフである。
【0056】
まず図5を参照すると、実験的に用いられる既知の音声信号S1が示される。ここで、この音声信号S1にSN比5dBでノイズをのせた信号S2が音声区間判定装置100への入力信号として用いられる。この入力信号S2が音声区間判定装置100に入力されると、フレーム分割部101によりフレーム単位に分割され、パワースペクトル算出部により分析長毎のパワースペクトルが算出される。
【0057】
そして、パワースペクトル操作部103によって、算出された各周波数のパワースペクトルの強度が雑音の平均パワーに応じて増加させられる。例えばパワースペクトル操作部103は、入力信号に白色雑音をのせてもよい。ここでパワースペクトル操作部103によるスペクトル操作後の信号波形が図5の符号S3に示される。
【0058】
パワースペクトル操作部103により入力信号が操作されると、入力信号の全体のパワーが増加される。このとき、全体のパワーが大きくなればなるほど、全パワーに対する各周波数間のパワーの比率の差が相対的に小さくなる。このため、各周波数の存在確率の差が小さくなり、従ってスペクトルエントロピーの値が大きくなる。
【0059】
例えば、図6に非音声区間における各周波数の存在確率のスペクトル操作前後の変化が示される。スペクトル操作によって、各周波数の存在確率の分布が均一になっていることがわかる。図7には音声区間における各周波数の存在確率のスペクトル操作前後の変化が示される。図6と比較すると、非音声区間と比較して音声区間は各周波数の存在確率の変化の度合いが小さいことがわかる。従って、スペクトル操作により、音声区間と非音声区間との間で各周波数の存在確率の分布に差異が生じ、スペクトルエントロピーの値にも差異が生じる。
【0060】
判定部105は、このスペクトル操作により生じたスペクトルエントロピーの差異に基づいて、入力信号が音声区間であるか非音声区間であるかを判定することができるようになる。
【0061】
図8にスペクトル操作を行わない場合の入力信号2から算出されたスペクトルエントロピーE1と、スペクトル操作後の入力信号S3から算出されたスペクトルエントロピーE2とが示される。E1においては、スペクトルエントロピーの値がランダムに変化し、音声区間と非音声区間との間でスペクトルエントロピーの値に差異がみられない。これに対し、E2は、音声区間と非音声区間との間でスペクトルエントロピーの値に差異が生じており、判定部105は、このスペクトルエントロピーE2に基づいて、音声区間I1、音声区間I2、音声区間I3を精度良く判定することができる。
【0062】
以上、本実施形態に係る音声区間判定装置100によれば、パワースペクトルを増加させることにより、全パワーに対する各周波数のパワーの比率が変化し、存在確率が変化する。かかる処理により、パワースペクトルが不均一な雑音(有色雑音)であっても確率分布を均一にすることができる。また、有色雑音よりもパワーの大きな音声区間については、非音声区間と比較してスペクトル操作の影響が小さい。このため、確率分布は均一にはならない。このため、音声区間と非音声区間との間でスペクトルエントロピーの差異が小さい場合であっても、スペクトル操作により音声区間と非音声区間とのスペクトルエントロピーの値に差異が生じる。
【0063】
従って、音声区間判定装置100は、このスペクトルエントロピーの値に基づいて、精度良く音声区間を判定することができる。また、このとき、音声区間判定装置100において新たに追加した演算処理は加算処理だけである。このとき周波数によらず均一な値を加えるだけであるため、演算量に大きな影響を与えることなく音声区間判定の精度を向上することができる。また、この音声区間判定装置100は、定常雑音が含まれた入力信号及び非定常雑音が含まれた入力信号のいずれにも効果的であり、音声区間判定の精度を向上することができる。
【0064】
また、音声区間判定装置100は、判定対象フレームの後のフレームの情報を用いないため、リアルタイムで音声区間判定処理を精度良く行うことができる。また、音声区間判定装置100は、事前に学習させておいた識別器を用いる必要がないため、学習のためのメモリや演算を確保する必要もない。
【0065】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0066】
例えば、上記実施形態では、音声区間判定装置100の音声区間を判定するための構成を中心に説明したが、本発明はかかる例に限定されない。例えば、音声区間判定装置100は、携帯電話や電話会議システムの一部として用いられてもよい。
【0067】
また、上記実施形態では、ハンドオーバー処理を行う場合の処理について説明したが、ハンドオーバー処理は必ずしも行われなくてもよい。また、ハンドオーバー処理以外に判定精度を向上させるための手法が組合せて用いられてもよいことは言うまでもない。
【0068】
また、上記実施形態では、パワースペクトル操作部103は、雑音パワーに応じてパワースペクトルを操作することとしたが、本発明は係る例に限定されない。例えば、パワースペクトル操作部103は、ある一定の値を用いてパワースペクトルを増加させてもよい。
【0069】
また、上記実施形態では、周波数領域でパワー操作を行うパワースペクトル操作について説明したが、本発明はかかる例に限定されない。例えば、時間領域で入力信号のパワーを増加させてよい。この場合、パワー操作部は、フレーム分割部101から供給される分割されたフレームにホワイトノイズを加算することによってパワー操作を行ってよい。このとき、ホワイトノイズの加算量は、ある一定量であってもよいし、雑音に基づいて算出された量であってもよい。
【0070】
上記実施形態において説明された音声区間判定機能は、例えばテレビ会議システムや携帯電話の一機能として実装されてよい。音声区間判定機能を有するテレビ会議システム及び携帯電話等は、音声区間と判定された入力信号を抽出することにより、クリアな音声を出力することができるようになる。
【0071】
尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
【符号の説明】
【0072】
100 音声区間判定装置
101 フレーム分割部
102 パワースペクトル算出部
103 パワースペクトル操作部
104 スペクトルエントロピー算出部
105 判定部
106 雑音パワー算出部


【特許請求の範囲】
【請求項1】
入力信号をフレーム単位に分割するフレーム分割部と、
前記フレーム分割部により分割されたフレーム毎に前記入力信号の強度を増加させるパワー操作部と、
前記パワー操作部により強度が増加された入力信号を用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
を備えることを特徴とする、音声区間判定装置。
【請求項2】
入力信号をフレーム単位に分割するフレーム分割部と、
前記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、
前記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、
前記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
を備えることを特徴とする、音声区間判定装置。
【請求項3】
前記パワースペクトル操作部は、前記パワースペクトルの強度を周波数によらず一定の増加量を加算することにより増加させることを特徴とする、請求項2に記載の音声区間判定装置。
【請求項4】
前記判定部により音声区間でないと判定された区間の前記パワースペクトルの平均パワーを算出することにより雑音の平均パワーを算出する雑音パワー算出部、
をさらに備え、
前記パワースペクトル操作部は、前記雑音パワー算出部により算出される雑音の平均パワーに応じて前記パワースペクトルの強度を増加させることを特徴とする、請求項2または3のいずれかに記載の音声区間判定装置。
【請求項5】
前記判定部は、スペクトルエントロピーの値と所定の閾値との大小関係に基づいて、前記入力信号が音声区間であると判定した後、所定長のハングオーバーカウントを開始し、当該ハングオーバーカウントが0となるまでは入力信号を音声区間であると判定する、請求項2に記載の音声区間判定装置。
【請求項6】
入力信号をフレーム単位に分割し、
分割されたフレームについて分析長毎のパワースペクトルを算出し、
算出された前記パワースペクトルの強度を増加させ、
強度が増加された前記パワースペクトルを用いてスペクトルエントロピーを算出し、
算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定することを特徴とする、音声区間判定方法。
【請求項7】
コンピュータを、
入力信号をフレーム単位に分割するフレーム分割部と、
前記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、
前記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、
前記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
を備えることを特徴とする、音声区間判定装置として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−215600(P2012−215600A)
【公開日】平成24年11月8日(2012.11.8)
【国際特許分類】
【出願番号】特願2011−78895(P2011−78895)
【出願日】平成23年3月31日(2011.3.31)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】