音処理装置およびプログラム
【課題】音声/非音声を高精度に判定する。
【解決手段】変調スペクトル特定部32は、複数の単位区間TUの各々について入力音VINの変調スペクトルMSを特定する。指標算定部34は、変調スペクトルMSのうち変調周波数が10Hz以下の強度L1に応じた指標値D1を算定する。記憶装置24は、母音の音声から生成された音響モデルMを記憶する。指標算定部54は、入力音VINと音響モデルMとの類否を示す指標値D2を単位区間TU毎に算定する。判定部42は、各単位区間TUの入力音VINが音声か非音声かを当該単位区間TUの指標値D1と指標値D2とに基づいて判定する。
【解決手段】変調スペクトル特定部32は、複数の単位区間TUの各々について入力音VINの変調スペクトルMSを特定する。指標算定部34は、変調スペクトルMSのうち変調周波数が10Hz以下の強度L1に応じた指標値D1を算定する。記憶装置24は、母音の音声から生成された音響モデルMを記憶する。指標算定部54は、入力音VINと音響モデルMとの類否を示す指標値D2を単位区間TU毎に算定する。判定部42は、各単位区間TUの入力音VINが音声か非音声かを当該単位区間TUの指標値D1と指標値D2とに基づいて判定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人間の発声音(以下「音声」という)と音声以外の音響(以下「非音声」という)とを区別する技術に関する。
【背景技術】
【0002】
収音機器による収録音などの音響(以下「入力音」という)を音声の区間と非音声の区間とに区別する技術が従来から提案されている。例えば特許文献1には、入力音のうち所定の周波数帯域に属する成分の強度に基づいて音声の有無を判定する技術が開示されている。
【特許文献1】特開2000−132177号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、雑音の特性(周波数)は多様であり、音声の有無の判定に利用される周波数帯域内に雑音が発生する場合もある。したがって、特許文献1の技術のもとで充分に高い精度で音声の有無を判定することは困難である。以上の事情に鑑みて、本発明は、音声/非音声を高精度に判定することをひとつの目的とする。
【課題を解決するための手段】
【0004】
以上の課題を解決するために、本発明の第1の態様に係る音処理装置は、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段(例えば図10の指標算定部34)と、母音の音声から生成された音響モデルを記憶する記憶手段と、前記入力音と前記音響モデルとの類否を示す第2指標値を前記単位区間毎に算定する第2指標算定手段(例えば図10の指標算定部54)と、前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第1指標値と前記第2指標値とに基づいて判定する判定手段とを具備する。以上の態様においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度と母音の音響モデルに対する入力音の類否とに基づいて各単位区間内の入力音が音声か非音声かを判定するから、入力音の周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。
【0005】
本発明の好適な態様に係る音処理装置は、第1指標値と第2指標値との加重和を第3指標値として算定する第3指標算定手段(例えば図10の指標算定部62)を具備し、判定手段は、各単位区間の入力音が音声か非音声かを当該単位区間の第3指標値に基づいて判定する。以上の態様においては、第1指標値と第2指標値との加重和を適宜に選定することで、第1指標値および第2指標値の何れを音声/非音声の判定に優先させるかを設定することが可能である。
【0006】
第3指標算定手段を具備する構成において、第3指標算定手段が第3指標値の算定に適用する加重値を入力音のSN比に応じて可変に設定する加重値設定手段をさらに設置してもよい。例えば、第1指標値が第2指標値と比較して入力音の雑音の影響を受け易いという傾向を前提とすると、加重値設定手段は、入力音のSN比が低いほど第2指標値の加重値を第1指標値の加重値に対して相対的に増加させる(すなわち第2指標値を優先させる)。以上の態様によれば、入力音の雑音に拘わらず入力音の音声/非音声を高精度に判定することが可能となる。
【0007】
本発明の第2の態様に係る音処理装置は、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段(例えば図2の指標算定部34)と、各単位区間の入力音が音声か非音声かを第1指標値に基づいて判定する判定手段とを具備する。以上の態様においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に基づいて各単位区間内の入力音が音声か非音声かを判定するから、入力音の周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。
【0008】
変調スペクトルのうち第1指標値の算定に使用される範囲は、入力音が音声および非音声の一方である場合に当該範囲内の変調スペクトルの強度が高くなり、入力音が音声および非音声の他方である場合に当該範囲外の変調スペクトルの強度が高くなるように実験的または統計的に設定される。いま、入力音が音声である場合に変調スペクトルのうち変調周波数が所定の境界値(例えば10Hz)を下回る範囲内の強度が高くなり、入力音が非音声である場合に変調スペクトルのうち変調周波数が境界値を上回る範囲内の強度が高くなるという傾向に着目する。変調スペクトルのうち変調周波数が境界値を下回る成分の強度が高いほど増加するように第1指標値が定義される場合、判定手段は、例えば、第1指標値が閾値を上回る場合に入力音を音声と判定し、第1指標値が閾値を下回る場合に入力音を非音声と判定する。また、変調スペクトルのうち変調周波数が境界値を下回る成分の強度が高いほど減少するように第1指標値が定義される場合、判定手段は、例えば、第1指標値が閾値を下回る場合に入力音を音声と判定し、第1指標値が閾値を上回る場合に入力音を非音声と判定する。また、変調スペクトルのうち変調周波数が境界値を上回る成分の強度が高いほど増加するように第1指標値が定義される場合、判定手段は、例えば、第1指標値が閾値を上回る場合に入力音を非音声と判定し、第1指標値が閾値を下回る場合に入力音を音声と判定する。また、変調スペクトルのうち変調周波数が境界値を上回る成分の強度が高いほど減少するように第1指標値が定義される場合、判定手段は、第1指標値が閾値を上回る場合に入力音を音声と判定し、第1指標値が閾値を下回る場合に入力音を非音声と判定する。以上に例示した総ての態様が、第1の態様または第2の態様における「入力音が音声か非音声かを第1指標値に基づいて判定する」という処理の概念に含まれる。
【0009】
第1の態様または第2の態様に係る音処理装置において、例えば、第1指標算定手段は、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度と当該所定の範囲を包含する範囲(すなわち所定の範囲を含んで当該範囲よりも広い範囲)に属する成分の強度との相対比に基づいて第1指標値を算定する。以上の態様においては、変調スペクトルのうち所定の範囲内の成分の強度に加えて、当該範囲を包含する範囲(例えば変調周波数の全範囲)の成分の強度も第1指標値の算定に適用される。したがって、例えば変調スペクトルの広範囲にわたる強度が入力音の雑音の影響を受ける場合であっても、所定の範囲内の強度のみに基づいて第1指標値が算定される構成と比較して音声/非音声を高精度に判別することが可能である。
【0010】
第1の態様または第2の態様に係る音処理装置は、例えば、変調スペクトルの強度の最大値を特定する強度特定手段を具備し、判定手段は、第1指標値と強度の最大値とに基づいて入力音が音声か非音声かを判定する。例えば、非音声の変調スペクトルの強度の最大値が音声の変調スペクトルの強度の最大値と比較して低いという傾向を前提とすると、判定手段は、変調スペクトルの強度の最大値が高いほど当該単位区間の入力音を音声と判定する可能性が高くなる(強度の最大値が低いほど入力音を非音声と判定する可能性が高くなる)ように音声/非音声を判定する。さらに具体的には、判定手段は、第1指標値からは音声と判定できる場合であっても、変調スペクトルの強度の最大値が閾値を下回る場合には入力音を非音声と判定する。以上の態様においては、第1指標値に加えて変調スペクトルの強度の最大値も音声/非音声の判定に利用されるから、非音声の変調スペクトルのうち強度が高い変調周波数の範囲と音声の変調スペクトルのうち強度が高い変調周波数の範囲とが近似する場合であっても、音声と非音声とを高精度に区別することが可能である。
【0011】
第1の態様または第2の態様に係る音処理装置において、例えば、変調スペクトル特定手段は、入力音の対数スペクトルまたはケプストラムにおける特定の成分の時間軌跡を特定する成分抽出手段と、単位区間を区分した複数の分割区間の各々について時間軌跡をフーリエ変換する周波数分析手段と、単位区間の複数の分割区間の各々についてのフーリエ変換の結果を平均することで当該単位区間の変調スペクトルを特定する平均手段とを具備する。以上の態様においては、単位区間を区分した複数の分割区間の各々について対数スペクトルまたはケプストラムの時間軌跡のフーリエ変換が実行されるから、単位区間の全体にわたる時間軌跡に対してフーリエ変換を一括的に実行する場合と比較して、フーリエ変換の点数が削減される。したがって、変調スペクトル特定手段による処理の負荷や処理に必要な記憶容量が削減されるという利点がある。
【0012】
本発明の第3の態様に係る音処理装置は、母音の音声から生成された音響モデルを記憶する記憶手段と、入力音と音響モデルとの類否を示す第2指標値を単位区間毎に算定する第2指標算定手段(例えば図9の指標算定部54)と、各単位区間の入力音が音声か非音声かを当該単位区間の第2指標値に基づいて判定する判定手段とを具備する。以上の態様においては、母音の音声の音響モデルと入力音との類否に基づいて各単位区間内の入力音が音声か非音声かが判定されるから、入力音の周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。
【0013】
第1の態様および第3の態様において、音声と音響モデルとの類似度が非音声と音響モデルとの類似度と比較して高いという傾向を前提とすると、判定手段は、第2指標値が閾値に対して類似側にある場合には入力音を音声と判定し、第2指標値が閾値に対して非類似側にある場合には入力音を非音声と判定する。例えば、入力音と音響モデルとが類似するほど増加するように第2指標値が定義された態様において、判定手段は、第2指標値が閾値を上回る場合に入力音を音声と判定する。また、入力音と音響モデルとが類似するほど減少するように第2指標値が定義された態様において、判定手段は、第2指標値が閾値を下回る場合に入力音を音声と判定する。
【0014】
第1の態様および第3の態様に係る音処理装置の具体例において、記憶手段は、複数種の母音の音声から生成されたひとつの音響モデルを記憶する。以上の態様においては、複数種の母音の音声から統合的に生成されたひとつの音響モデルが使用されるから、母音の種類毎に別個の音響モデルが用意される構成と比較して、記憶手段に必要な容量が削減されるという利点がある。
【0015】
第1ないし第3の態様の各々の具体例に係る音処理装置は、単位区間を区分した複数の区間のうち有声音の区間の割合に応じた有声指標値を算定する有声指標算定手段(例えば図10の指標算定部74)を具備し、判定手段は、有声指標値に基づいて入力音が音声か非音声かを判定する。例えば、音声のうち有声音の時間的な割合が非音声と比較して高いという傾向を前提とすると、判定手段は、有声音の割合が高いほど当該単位区間の入力音を音声と判定する可能性が高くなる(有声音の割合が低いほど非音声と判定する可能性が高くなる)ように音声/非音声を判定する。さらに具体的には、判定手段は、指標算定手段の算定した指標値(第1指標値ないし第3指標値の少なくともひとつ)からは音声と判定できる場合であっても、有声音の区間の割合が多い場合には入力音を非音声と判定する。以上の態様においては、変調スペクトルや音響モデルから算定された指標値に加えて有声指標値も音声/非音声の判定に利用されるから、第1の態様または第3の態様において非音声の変調スペクトルのうち強度が高い変調周波数の範囲と音声の変調スペクトルのうち強度が高い変調周波数の範囲とが近似する場合や、第2の態様または第3の態様において非音声と音声とで母音の音響モデルに対する類否が近似する場合であっても、音声と非音声とを高精度に区別することが可能である。
【0016】
第1ないし第3の態様の各々の具体例に係る音処理装置は、入力音のSN比に応じて閾値を可変に設定する閾値設定手段を具備し、判定手段は、入力音から算定された指標値(第1指標値,第2指標値,第3指標値,有声指標値,変調スペクトルの強度の最大値の何れか)と閾値との大小に応じて入力音が音声か非音声かを判定する。以上の態様においては、指標値と対比される閾値が入力音のSN比に応じて閾値が可変に制御されるから、SN比の高低に拘わらず音声/非音声の精度を高い水準に維持することが可能である。
【0017】
第1ないし第3の態様の各々の具体例に係る音処理装置は、相連続する3個以上の単位区間について判定手段が非音声と判定した場合に、3個以上の単位区間のなかの途中の単位区間の入力音のみを消音する音処理手段を具備する。以上の態様においては、非音声と判定された単位区間が消音されるから、入力音のうちの音声のみを受聴者が明確に知覚することが可能となる。また、非音声と判定された3個以上の単位区間のうち途中の単位区間(すなわち、3個以上の単位区間のうち最初の単位区間と最後の単位区間とを除いた少なくともひとつの単位区間)のみが消音されるから、音声の最初(3個以上のうちの最後の単位区間)と最後(3個以上のうちの最初の単位区間)とが音処理手段処理よって消音される可能性は低減される。
【0018】
以上の総ての態様に係る音処理装置は、入力音の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。第1の態様に係るプログラムは、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、母音の音声から生成された音響モデルと入力音との類否を示す第2指標値を単位区間毎に算定する第2指標算定処理と、各単位区間の入力音が音声か非音声かを当該単位区間の第1指標値と第2指標値とに基づいて判定する判定処理とをコンピュータに実行させる。第2の態様に係るプログラムは、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、各単位区間の入力音が音声か非音声かを第1指標値に基づいて判定する判定処理とをコンピュータに実行させる。第3の態様に係るプログラムは、母音の音声から生成された音響モデルと入力音との類否を示す第2指標値を単位区間毎に算定する第2指標算定処理と、各単位区間の入力音が音声か非音声かを当該単位区間の第2指標値に基づいて判定する判定処理とをコンピュータに実行させる。本発明のプログラムによれば、以上の各態様に係る音処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【発明を実施するための最良の形態】
【0019】
<A:第1実施形態>
図1は、本発明の第1実施形態に係る遠隔会議システムのブロック図である。遠隔会議システム100は、地理的に離間した空間R1と空間R2とで複数の利用者U(会議の参加者)が相互に音声を授受するシステムである。各空間R(R1,R2)には、収音機器12と音処理装置14と音処理装置16と放音機器18とが設置される。
【0020】
収音機器12は、空間R内に存在する入力音VINの波形を表す音響信号SINを生成する装置(マイクロホン)である。空間R1および空間R2の各々の音処理装置14は、音響信号SINから出力信号SOUTを生成して空間R1および空間R2の他方の音処理装置16に送信する。音処理装置16は、出力信号SOUTを増幅して放音機器18に出力する。放音機器18は、音処理装置16から供給される増幅後の出力信号SOUTに応じた音波を放射する装置(スピーカ)である。以上の構成により、空間R1内の各利用者Uの発声音が空間R2内の放音機器18から出力され、空間R2内の各利用者Uの発声音が空間R1内の放音機器18から出力される。
【0021】
図2は、空間R1および空間R2の各々に設置される音処理装置14の構成を示すブロック図である。図2に示すように、音処理装置14は、制御装置22と記憶装置24とを具備する。制御装置22は、プログラムを実行することで図2の各要素として機能する演算処理装置である。なお、図2の各要素はDSPなどの電子回路によっても実現される。記憶装置24は、制御装置22が実行するプログラムや制御装置22が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置24として任意に利用される。
【0022】
制御装置22は、収音機器12から供給される音響信号SIN(入力音VIN)を時間軸に沿って区分した複数の区間(以下「単位区間」という)の各々について当該入力音VINが音声および非音声の何れに該当するかを判定する機能と、音声/非音声の判定の結果に応じた処理を音響信号SINに対して実行することで出力信号SOUTを生成する機能とを実現する。音声は、人間が発声した発話音である。非音声は、音声以外の音響(例えば空間Rの扉の開閉音や空調設備の動作音や携帯電話機の着信音などの環境音(雑音))である。
【0023】
図2の変調スペクトル特定部32は、音響信号SIN(入力音VIN)の変調スペクトルMSを特定する。変調スペクトルMSは、音響信号SINの対数スペクトル(周波数スペクトル)のうち特定の周波数帯域に属する成分の時間的な変動(以下「時間軌跡」という)についてフーリエ変換を実行した結果である。
【0024】
図3は、変調スペクトル特定部32の機能的な構成を示すブロック図であり、図4は、変調スペクトル特定部32による処理を説明するための概念図である。図3に示すように、変調スペクトル特定部32は、周波数分析部322と成分抽出部324と周波数分析部326とで構成される。周波数分析部322は、フーリエ変換(例えばFFT(Fast Fourier Transform))を含む周波数分析を音響信号SINに対して実行することで、図4の部分(A)に示すように、音響信号SINを時間軸に沿って区分した複数のフレームの各々について対数スペクトルS0を算定する。したがって、対数スペクトルS0を時間軸に沿ってフレーム毎に配列したスペクトログラムSPが生成される。なお、相前後する各フレームは部分的に重複してもよいし相互に重複しないように設定されてもよい。
【0025】
図3の成分抽出部324は、図4の部分(A)および部分(B)に示すように、スペクトログラムSPのうち特定の周波数帯域ωに属する成分の強度(エネルギ)の時間軌跡STを抽出する。さらに詳述すると、成分抽出部324は、各フレームの対数スペクトルS0のうち周波数帯域ωに属する成分の強度を算定し、対数スペクトルS0の強度を複数のフレームついて時系列に配列することで時間軌跡STを生成する。周波数帯域ωは、入力音VINが音声である場合の時間軌跡STの周波数特性(変調スペクトルMS)と入力音VINが非音声である場合の時間軌跡STの周波数特性とが顕著に相違するように実験的または統計的に事前に選定される。例えば、周波数帯域ωは、10Hz(さらに好適には50Hz)から800Hzまでの範囲に選定される。なお、各対数スペクトルS0におけるひとつの周波数の成分の強度の時系列を時間軌跡STとして成分抽出部324が抽出する構成も採用される。
【0026】
図3の周波数分析部326は、図4の部分(B)および部分(C)に示すように、時間軌跡STに対してフーリエ変換(例えばFFT)を実行することで、時間軌跡STを時間軸に沿って区分した複数の単位区間TUの各々について変調スペクトルMSを算定する。単位区間TUは、複数のフレームで構成される所定の時間長(例えば1秒程度)の期間である。なお、本形態においては各単位区間TUが重複しない構成を便宜的に例示するが、相前後する各単位区間TUが部分的に重複する構成も採用される。
【0027】
図5は音声(人間の発話音)の代表的な変調スペクトルMSを示し、図6は非音声(収音機器12の先端部を覆う網状の部分を引掻いたときのガリガリ音)の変調スペクトルMSを示す。図5と図6との対比から理解されるように、変調スペクトルMSのうち強度が高い変調周波数の範囲は音声と非音声とで相違するという傾向がある。
【0028】
人間の通常の発話音(すなわち音声)の変調スペクトルMSにおいては、発話中に音節が切替わる周波数に相当する4Hz程度の変調周波数にて強度が極大となる場合が多い。したがって、音声の変調スペクトルMS(図5)においては変調周波数が10Hz以下の低域の範囲で強度が高くなるのに対し、多くの非音声の変調スペクトルMS(図6)においては変調周波数が10Hzを上回る範囲で強度が高くなるという相違がある。以上の相違を考慮して、本形態においては、変調スペクトル特定部32が特定した変調スペクトルMSのうち変調周波数が所定の範囲(以下「判定対象範囲」という)Aに属する成分の強度に応じて入力音VINが音声か非音声かを判定する。本形態においては10Hz以下の範囲(さらに好適には2Hzから8Hzの範囲)を判定対象範囲Aに設定する。
【0029】
図2の指標算定部34は、変調スペクトル特定部32が各単位区間TUについて特定した変調スペクトルMSについて、判定対象範囲Aに属する成分の強度(エネルギ)に応じた指標値D1を算定する。さらに詳述すると、指標算定部34は、第1に、変調スペクトルMSのうち変調周波数が判定対象範囲Aに属する成分の強度(例えば判定対象範囲A内の各変調周波数における強度の加算値や平均値)L1と、変調周波数の全範囲にわたる変調スペクトルMSの強度(総ての変調周波数における強度の加算値や平均値)L2とを算定する。第2に、指標算定部34は、強度L1と強度L2との相対比(L1/L2)を含む以下の演算式(A)に基づいて指標値D1を算定する。
D1=1−(L1/L2) ……(A)
演算式(A)の内容から理解されるように、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1が高いほど(すなわち入力音VINが音声である可能性が高いほど)指標値D1は小さい数値となる。したがって、指標値D1は、入力音VINが音声であるか非音声であるかの指標となる。また、判定対象範囲Aには発話時に音節が切替わる周波数が含まれるから、指標値D1は、音声に特有なリズム(発話のリズム)が入力音VINに含まれるか否かの指標としても把握される。
【0030】
ただし、変調スペクトルMSにおける判定対象範囲A内の成分の強度が他の範囲と比較して相対的に高い非音声も存在する。図7に示す非音声(電話機のプッシュトーン)の変調スペクトルMSにおいては判定対象範囲Aに含まれる5Hzから8Hz程度の変調周波数にて強度のピークが発生する。しかし、図7のような特性の非音声においては、変調スペクトルMSの強度の最大値Pが音声と比較して低いという傾向がある。以上の傾向を考慮して、本形態においては、指標値D1と変調スペクトルMSの強度の最大値Pとに基づいて入力音VINが音声か非音声かを判定する。図2の強度特定部36は、変調スペクトルMSの強度の最大値Pを単位区間TU毎に特定する。
【0031】
判定部42は、指標算定部34が算定した指標値D1と強度特定部36が特定した最大値Pとに基づいて各単位区間TUの入力音VINが音声か非音声かを判定し、判定の結果(音声/非音声の区別)を示す識別データdを単位区間TU毎に生成する。図8は、判定部42の具体的な動作を示すフローチャートである。図8の処理は、指標値D1と最大値Pとがひとつの単位区間TUについて特定されるたびに実行される。
【0032】
判定部42は、指標値D1が閾値THd1を上回るか否かを判定する(ステップSA1)。閾値THd1は、音声の指標値D1が閾値THd1を下回るとともに非音声の指標値D1が閾値THd1を上回るように実験的または統計的に選定される。ステップSA1の結果が肯定である場合(例えば入力音VINが図6の特性の非音声である場合)、判定部42は、今回の処理の対象である単位区間TUの入力音VINを非音声と判定する(ステップSA2)。すなわち、判定部42は、非音声を示す識別データdを生成する。
【0033】
一方、ステップSA1の結果が否定である場合、判定部42は、変調スペクトルMSの強度の最大値Pが閾値THpを下回るか否かを判定する(ステップSA3)。ステップSA3の結果が肯定である場合、判定部42は、処理をステップSA2に移行して非音声を示す識別データdを生成する。すなわち、指標値D1のみを考慮すれば入力音VINを音声と判定できる場合であっても、最大値Pが閾値THpを下回る場合(例えば入力音VINが図7の特性の非音声である場合)には入力音VINは非音声と判定される。
【0034】
ステップSA3の結果が否定である場合(例えば入力音VINが図5の特性の音声である場合)、判定部42は、今回の処理の対象である単位区間TUの入力音VINを音声と判定する(ステップSA4)。すなわち、判定部42は、音声を示す識別データdを生成する。以上のように、変調スペクトルMSにおける判定対象範囲A内の強度L1および強度の最大値Pの双方が高い単位区間TUの入力音VINのみが音声と判定される。
【0035】
図2の音処理部44は、各単位区間TUの識別データdに応じた処理を当該単位区間TUの音響信号SINに対して実行することで出力信号SOUTを生成する。例えば、音処理部44は、識別データdが音声を示す単位区間TUについては音響信号SINを出力信号SOUTとして出力する一方、識別データdが非音声を示す単位区間TUついては音量をゼロに設定した出力信号SOUTを出力する(すなわち音響信号SINを出力しない)。したがって、空間R1および空間R2の各々においては、他方の空間R内の入力音VINのうちの非音声が除去され、利用者が本来的に受聴する必要のある音声のみが音処理装置16を介して放音機器18から放射される。
【0036】
以上に説明したように、本形態においては、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1(発話のリズムの有無)に基づいて音声/非音声が判定されるから、入力音VINの周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。また、判定対象範囲A内の成分の強度L1に加えて変調スペクトルMSの強度の最大値Pも判定に使用されるから、判定対象範囲A内の成分の強度L1が他の範囲と比較して高い非音声についても非音声と判定することが可能である。
【0037】
なお、非音声の音量が大きい場合には、変調周波数の全帯域にわたって変調スペクトルMSは高い強度となる。したがって、変調スペクトルMSの判定対象範囲A内の強度L1のみに基づいて入力音VINの音声/非音声を識別する構成においては、音量の大きい非音声が音声と誤判定される可能性が高まる。本形態においては、判定対象範囲A内の強度L1と変調周波数の全範囲にわたる強度L2との相対比に基づいて音声/非音声が判定されるから、非音声の音量が大きい場合であっても音声/非音声を正確に判定できるという利点がある。
【0038】
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
【0039】
図9は、音処理装置14のブロック図である。本形態の記憶装置24にはひとつの音響モデルMが記憶される。音響モデルMは、多数の話者による複数種の母音の発声音の平均的な音響特性をモデル化した統計モデルである。本形態の音響モデルMは、音声の特徴量(例えばMFCC(Mel-Frequency Cepstrum Coefficient))の分布を確率分布の加重和としてモデル化する。例えば、音声の特徴量を複数の正規分布の加重和としてモデル化するガウス混合モデル(GMM(Gaussian Mixture Model))が音響モデルMとして好適である。
【0040】
音響モデルMは、例えば制御装置22が以下の処理を実行することで作成される。第1に、制御装置22は、多数の話者が様々な文章を発話したときの音声を採取して各々を音韻毎に区分し、複数種の母音(a,i,u,e,o)に相当する部分の波形のみを抽出する。第2に、制御装置22は、母音に相当する各部分の波形を時間軸に沿って区分した複数のフレームの各々について音響的な特徴量(特徴ベクトル)を抽出する。各フレームの時間長は例えば20ミリ秒であり、相前後する各フレームの時間差は10ミリ秒程度である。第3に、制御装置22は、多数の音声から抽出された特徴量を複数種の母音について統合的に処理することで音響モデルMを生成する。音響モデルMの生成には、例えばEM(Expectation-Maximization)アルゴリズムなど公知の技術が任意に採用される。なお、母音の特徴量は直前の音韻(子音)に影響されるから、以上の手順で生成された音響モデルMは純粋に母音の特性のみをモデル化した統計モデルではない。すなわち、音響モデルMは、複数の母音を中心として作成された統計モデル(あるいは音声の有声音の統計モデル)と言える。
【0041】
図9に示すように、音処理装置14は、図2の変調スペクトル特定部32と指標算定部34と強度特定部36とに代えて特徴抽出部52と指標算定部54とを具備する。特徴抽出部52は、音響モデルMの生成に利用された特徴量と同種の特徴量(例えばMFCC)Xを音響信号SINの各フレームについて抽出する。特徴抽出部52による特徴量Xの抽出には公知の技術が任意に採用される。
【0042】
指標算定部54は、音響信号SINが表す入力音VINと音響モデルMとの類否に応じた指標値D2を音響信号SINの各単位区間TUについて算定する。さらに詳述すると、指標値D2は、各フレームの音響信号SINについて抽出された特徴量Xが音響モデルMから発生する尤度(確率)p(X|M)を単位区間TU内の総て(n個)のフレームについて平均化した数値である。すなわち、指標値D2は以下の演算式(B)で算定される。
【数1】
演算式(B)から理解されるように、音響モデルMと単位区間TU内の入力音VINとで特徴量が類似するほど指標値D2は小さくなる。非音声と比較すると音声は母音の割合が多い(したがって音響モデルMとの音色の類似の程度が高い)という傾向がある。したがって、入力音VINが音声である場合に算定される指標値D2は、入力音VINが非音声である場合に算定される指標値D2と比較して小さい数値となる。すなわち、指標値D2は、入力音VINが音声であるか非音声であるかの指標となる。したがって、音響モデルMは、音声(人間の発話音)の統計モデルとしても把握される。
【0043】
図9の判定部42は、指標算定部54が算定した指標値D2に基づいて各単位区間TUの入力音VINが音声か非音声かを判定し、判定の結果を示す識別データdを単位区間TU毎に生成する。指標値D2は、入力音VINと音響モデルMとの音色の類似性を示す数値となる。すなわち、第1実施形態においては入力音VINのリズム(判定対象範囲A内の強度L1)が音声らしいか否かを判定するのに対し、本形態においては入力音VINの音色が音声らしいか否かを判定する。
【0044】
さらに詳述すると、判定部42は、各単位区間TUの指標値D2が所定の閾値THd2を上回るか否かを判定する。閾値THd2は、音声の指標値D2が閾値THd2を下回るとともに非音声の指標値D2が閾値THd2を上回るように実験的または統計的に選定される。判定の結果が肯定である場合(D2>THd2)、判定部42は、当該単位区間TUの入力音VINを非音声と判定して識別データdを生成する。一方、判定の結果が否定である場合(D2<THd2)、判定部42は、当該単位区間TUの入力音VINを音声と判定して識別データdを生成する。識別データdに応じた音処理部44の動作は第1実施形態と同様である。
【0045】
以上に説明したように、本形態においては、母音の音声をモデル化した音響モデルMとの類否に応じて音声/非音声が判定されるから、入力音VINの周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。また、複数種の母音を統合的にモデル化したひとつの音響モデルMが記憶装置24に格納されるから、複数種の母音の各々について個別の音響モデルが用意される構成と比較して、記憶装置24に必要な容量が低減されるという利点がある。
【0046】
<C:第3実施形態>
図10は、本発明の第3実施形態に係る音処理装置14のブロック図である。第1実施形態と同様に、図10の変調スペクトル特定部32および指標算定部34は入力音VINの単位区間TU毎に指標値D1を算定し、強度特定部36は変調スペクトルMSの強度の最大値Pを特定する。また、特徴抽出部52および指標算定部54は、第2実施形態と同様に、入力音VINの単位区間TU毎に指標値D2を算定する。
【0047】
指標算定部62は、指標算定部34が算定した指標値D1と指標算定部54が算定した指標値D2との加重和を指標値D3として算定する。指標値D3は、例えば以下の演算式(C)で算定される。
D3=D1+α・D2 ……(C)
演算式(C)から理解されるように、入力音VINが音声である可能性が高いほど(すなわち、変調スペクトルMSのうち判定対象範囲A内の強度L1が高いほど、または、音響モデルMと単位区間TU内の入力音VINとで特徴量が類似するほど)、指標値D3は小さい数値となる。加重値αは、図10の加重値設定部66が設定した正数(α>0)である。指標算定部62が算定した指標値D3は、判定部42における音声/非音声の判定に利用される。
【0048】
図10のSN比特定部64は、音信号SIN(入力音VIN)のSN比Rを単位区間TU毎に算定する。加重値設定部66は、各単位区間TUの指標値D3の算定に指標算定部62が適用する加重値αを、当該単位区間TUについてSN比特定部64が算定したSN比Rに基づいて可変に設定する。
【0049】
ここで、変調スペクトルMSから算定される指標値D1は、音響モデルMから算定される指標値D2と比較すると入力音VINの雑音に影響され易いという傾向がある。そこで、加重値設定部66は、SN比Rが低い(雑音が多い)ほど加重値αが増加するように加重値αを可変に制御する。以上の構成によれば、SN比Rが低いほど指標値D3における指標値D2の影響が相対的に増加する(雑音の影響を受け易い指標値D1の影響が低減される)から、入力音VINに雑音が重畳された場合であっても音声/非音声を高精度に判定することが可能である。
【0050】
図10の有声無声判別部72は、複数のフレームの各々について入力音VINが有声音か無声音かを判定する。有声無声判別部72による判定には公知の技術が任意に採用される。例えば、有声無声判別部72は、入力音VINの各フレームについてピッチ(基本周波数)の検出を実行し、有意なピッチが検出されたフレームを有声音と判定する一方、明確なピッチが検出されなかったフレームを無声音と判定する。
【0051】
指標算定部74は、音響信号SINの各単位区間TUについて有声指標値DVを算定する。有声指標値DVは、単位区間TU内のn個のフレームのうち有声無声判別部72が有声音と判定したフレームの個数NVの割合(DV=NV/n)である。音声(人間の発話音)は非音声と比較して有声音の割合が高いという傾向がある。したがって、入力音VINが音声である場合に算定される有声指標値DVは、入力音VINが非音声である場合に算定される有声指標値DVと比較して大きい数値となる。
【0052】
図10の判定部42は、指標算定部62が算定した指標値D3と強度特定部36が特定した最大値Pと指標算定部74が算定した有声指標値DVとに基づいて各単位区間TUの入力音VINが音声か非音声かを判定し、判定の結果を示す識別データdを単位区間TU毎に生成する。図11は、判定部42の具体的な動作を示すフローチャートである。図11の処理は、指標値D3と最大値Pと有声指標値DVとがひとつの単位区間TUについて特定されるたびに実行される。
【0053】
判定部42は、指標値D3が閾値THd3を上回るか否かを判定する(ステップSB1)。閾値THd3は、音声の指標値D3が閾値THd3を下回るとともに非音声の指標値D3が閾値THd3を上回るように実験的または統計的に選定される。ステップSB1の結果が肯定である場合、判定部42は、今回の単位区間TUの入力音VINを非音声と判定して識別データdを生成する(ステップSB2)。
【0054】
一方、ステップSB1の結果が否定である場合、判定部42は、図8のステップSA3と同様に、最大値Pが閾値THpを下回るか否かを判定する(ステップSB3)。ステップSB3の結果が肯定である場合、判定部42は、非音声を示す識別データdをステップSB2にて生成する。ステップSB3の結果が否定である場合、判定部42は、有声指標値DVが閾値THdvを下回るか否かを判定する(ステップSB4)。
【0055】
ステップSB4の結果が肯定である場合(すなわち単位区間TUにおいて有声音のフレームの割合が少ない場合)、判定部42は、非音声を示す識別データdをステップSB2にて生成する。一方、ステップSB4の結果が否定である場合、判定部42は、今回の単位区間TUの入力音VINを音声と判定して識別データdを生成する。識別データdに応じた音処理部44の動作は第1実施形態と同様である。
【0056】
以上に説明したように、本形態においては、入力音VINのリズム(指標値D1)および音色(指標値D2)の双方の観点から音声/非音声が判定されるから、第1実施形態や第2実施形態と比較して入力音VINを高精度に音声と非音声とに区別することが可能である。また、指標値D1および指標値D2に加えて有声指標値DVも音声/非音声の判定に適用されるから、例えばリズムや音色が音声に類似する入力音VINであっても、有声指標値DVが低い場合には非音声と判定することができる。
【0057】
<D:変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
【0058】
(1)変形例1
変調スペクトル特定部32は図12の構成に変更される。図12の変調スペクトル特定部32は、図3と同様の周波数分析部322と成分抽出部324と周波数分析部326とに加えて平均部328を具備する。成分抽出部324が生成した時間軌跡STは、単位区間TUをさらに分割したm個の区間(以下「分割区間」という)に区分される(mは2以上の自然数)。周波数分析部326は、各分割区間の時間軌跡STに対してフーリエ変換を実行することで分割区間毎に変調スペクトルを算定する。平均部328は、単位区間TUを構成する各分割区間について算定されたm個の変調スペクトルを平均することで当該単位区間TUの変調スペクトルMSを算定する。図12の構成によれば、周波数分析部326が実行するフーリエ変換の点数が第1実施形態と比較して削減されるから、周波数分析部326によるフーリエ変換の負荷(計算量)やフーリエ変換に必要な記憶装置24の容量が削減されるという利点がある。
【0059】
(2)変形例2
音声/非音声の判定に使用される閾値TH(THd1,THd2,THd3,THp,THdv)が可変に制御される構成も好適である。例えば図13に示すように、第3実施形態の音処理装置14に閾値設定部68が追加される。閾値設定部68は、SN比特定部64が算定したSN比Rに応じて閾値THを可変に制御する。
【0060】
入力音VINが実際には音声であっても、SN比Rが低い場合には、判定部42が入力音VINを非音声と誤判定する可能性が高まる。そこで、閾値設定部68は、SN比特定部64の算定したSN比Rが低いほど、入力音VINが音声と判定され易くなる方向に各閾値THを制御する。例えば、SN比Rが低いほど閾値THd3を増加させるとともに閾値THpや閾値THdvを減少させる。以上の構成によれば、実際には音声を含む入力音VINが非音声と誤判定される可能性を低減することができる。なおSN比R以外の数値(例えば入力音VINの音量)に応じて閾値THを可変に制御する構成も採用される。また、図13においては第3実施形態の変形を例示したが、第1実施形態や第2実施形態の音処理装置14についても同様に、SN比特定部64と閾値設定部68とを追加した構成が採用される。
【0061】
(3)変形例3
以上の各形態において、単位区間TUに含まれる音声の割合が少ない場合(例えば単位区間TUのなかの短い区間のみに音声が含まれる場合)には、当該単位区間TUは非音声と判定される可能性がある。したがって、非音声と判定された総ての単位区間TUについて一律に入力音VINを消音する構成においては、音声の開始や終了の部分(特に無声子音の部分)を僅かに含む単位区間TUが非音声と判定されて消音される場合がある。そこで、複数の単位区間TUについての判定部42による判定を考慮して各単位区間TU内の入力音VINの消音を実行する構成が好適である。
【0062】
例えば、ひとつの単位区間TUが非音声と判定された段階では音処理部44は当該単位区間TUの消音を実行せず、図14に示すように、相連続するk個(kは3以上の自然数)の単位区間TUについて入力音VINが非音声と判定された場合に、音処理部44は、k個の単位区間TUのうち最初(第1番目)と最後(第k番目)の単位区間TUを除外した各単位区間TU(すなわちk個の集合のなかの途中の単位区間TU)の入力音VINを消音する。第1番目と第k番目の単位区間TUについては入力音VINは消音されない。例えば、非音声と判定された3個(k=3)の単位区間TUのうち第2番目の単位区間TUの入力音VINのみが消音される。以上の構成によれば、始点の直後のみに音声を含む単位区間TU(例えば図14のk個の単位区間TUのうち第1番目の単位区間TU)や終点の直前に音声を含む単位区間TU(例えば図14の第k番目の単位区間TU)について消音が実行されないから、音声の欠落が防止されるという利点がある。
【0063】
(4)変形例4
各指標値D(D1,D2,D3)の定義は適宜に変更される。したがって、各指標値D(D1,D2,D3)の大小と音声/非音声との関係は任意である。例えば、第1実施形態においては指標値D1が小さいほど入力音VINが音声と判定される可能性が高くなるように指標値D1を定義したが、例えば強度L2に対する強度L1の相対比を指標値D1(D1=L1/L2)と定義すれば、指標値D1が大きいほど音声と判定される可能性が高くなる。また、ひとつの加重値αを使用して指標値D3を定義したが、指標値D1と指標値D2とで独立に設定した加重値(β,γ)を適用して指標値D3(D3=β・D1+γ・D2)を算定する構成も好適である。また、指標値D3の算定に使用される加重値(α,β,γ)は固定値であってもよい。
【0064】
(5)変形例5
第1実施形態および第3実施形態においては対数スペクトルS0において周波数帯域ωに属する成分の時間軌跡STに対してフーリエ変換を実行することで変調スペクトルMSを特定したが、音響信号SIN(入力音VIN)のケプストラムの時間軌跡に対してフーリエ変換を実行することで変調スペクトルMSを特定する構成も採用される。さらに詳述すると、変調スペクトル特定部32の周波数分析部322は、音響信号SINの各フレームについてケプストラムを算定し、成分抽出部324は、各フレームのケプストラムのうちケフレンシが特定の範囲内にある成分の時間軌跡STを抽出し、周波数分析部326は、ケプストラムの時間軌跡STに対して単位区間TU毎(または変形例1のように分割期間毎)にフーリエ変換を実行することで各単位区間TUの変調スペクトルMSを算定する。
【0065】
(6)変形例6
音声/非音声の判定に使用される変数は適宜に変更される。例えば、第1実施形態や第3実施形態においては最大値Pに応じた判定(図8のステップSA3や図11のステップSB3)を省略してもよいし、第3実施形態においては有声指標値DVに応じた判定(図11のステップSB4)を省略してもよい。また、第1実施形態や第2実施形態に有声無声判定部72および指標算定部74を追加した構成も好適である。
【0066】
(7)変形例7
以上の各形態においては、入力音VINを収音した空間R内の音処理装置14にて識別データdおよび出力信号SOUTを生成したが、識別データdを生成する位置や出力信号SOUTを生成する位置は適宜に変更される。例えば、収音機器12が生成した音響信号SINと判定部42の生成した識別データdとを音処理装置14が出力する構成においては、音響信号SINと識別データdとから出力信号SOUTを生成する音処理部44が受信側の音処理装置16に配置される。また、収音機器12が生成した音響信号SINを音処理装置14が送信する構成においては、受信側の音処理装置16に図2と同様の要素が設置される。もっとも、遠隔会議システム100は本発明の用途の例示に過ぎない。したがって、出力信号SOUTや音響信号SINの送受信は本発明において必須ではない。
【0067】
(8)変形例8
以上の各形態においては、非音声と判定された単位区間TUの音響信号SINを音処理部44が出力しない(出力信号SOUTの音量をゼロに設定する)構成を例示したが、音処理部44による処理の内容は適宜に変更される。例えば、非音声と判定された単位区間TUについて音響信号SINの音量を低下させた信号を音処理部44が出力信号SOUTとして出力する構成や、音声と判定された単位区間TUと非音声と判定された単位区間TUとで別個の音響的な効果を音響信号SINに付与した信号を音処理部44が出力信号SOUTとして出力する構成も好適である。また、出力信号SOUTの出力先(音処理装置16)において音声認識や話者認識(話者識別または話者認証)が実行される構成において、音処理部44は、例えば、音声と判定された単位区間TUについては、音声認識や話者認識に使用される特徴量を音響信号SINから抽出して出力信号SOUTとして出力する一方、非音声と判定された単位区間TUについては特徴量の抽出を停止する。
【図面の簡単な説明】
【0068】
【図1】本発明の第1実施形態に係る遠隔会議システムのブロック図である。
【図2】図1の音処理装置のブロック図である。
【図3】図2の変調スペクトル特定部のブロック図である。
【図4】図2の変調スペクトル特定部による処理の手順を示す概念図である。
【図5】音声の変調スペクトルである。
【図6】非音声の変調スペクトルである。
【図7】非音声の変調スペクトルである。
【図8】図2の判定部の動作を示すフローチャートである。
【図9】本発明の第2実施形態に係る音処理装置のブロック図である。
【図10】本発明の第3実施形態に係る音処理装置のブロック図である。
【図11】図10の判定部の動作を示すフローチャートである。
【図12】変形例に係る変調スペクトル特定部のブロック図である。
【図13】変形例に係る音処理装置のブロック図である。
【図14】変形例に係る音処理部の動作を示す概念図である。
【符号の説明】
【0069】
100……遠隔会議システム、12……収音機器、14……音処理装置、16……音処理装置、18……放音機器、22……制御装置、24……記憶装置、32……変調スペクトル特定部、322……周波数分析部、324……成分抽出部、326……周波数分析部、328……平均部、34,54,62,74……指標算定部、36……強度特定部、42……判定部、44……音処理部、52……特徴抽出部、64……SN比特定部、66……加重値設定部、68……閾値設定部、72……有声無声判別部、VIN……入力音、SIN……音響信号、SOUT……出力信号、d……識別データ、MS……変調スペクトル、M……音響モデル、D1,D2,D3……指標値、P……変調スペクトルの強度の最大値、R……SN比、TU……単位区間。
【技術分野】
【0001】
本発明は、人間の発声音(以下「音声」という)と音声以外の音響(以下「非音声」という)とを区別する技術に関する。
【背景技術】
【0002】
収音機器による収録音などの音響(以下「入力音」という)を音声の区間と非音声の区間とに区別する技術が従来から提案されている。例えば特許文献1には、入力音のうち所定の周波数帯域に属する成分の強度に基づいて音声の有無を判定する技術が開示されている。
【特許文献1】特開2000−132177号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、雑音の特性(周波数)は多様であり、音声の有無の判定に利用される周波数帯域内に雑音が発生する場合もある。したがって、特許文献1の技術のもとで充分に高い精度で音声の有無を判定することは困難である。以上の事情に鑑みて、本発明は、音声/非音声を高精度に判定することをひとつの目的とする。
【課題を解決するための手段】
【0004】
以上の課題を解決するために、本発明の第1の態様に係る音処理装置は、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段(例えば図10の指標算定部34)と、母音の音声から生成された音響モデルを記憶する記憶手段と、前記入力音と前記音響モデルとの類否を示す第2指標値を前記単位区間毎に算定する第2指標算定手段(例えば図10の指標算定部54)と、前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第1指標値と前記第2指標値とに基づいて判定する判定手段とを具備する。以上の態様においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度と母音の音響モデルに対する入力音の類否とに基づいて各単位区間内の入力音が音声か非音声かを判定するから、入力音の周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。
【0005】
本発明の好適な態様に係る音処理装置は、第1指標値と第2指標値との加重和を第3指標値として算定する第3指標算定手段(例えば図10の指標算定部62)を具備し、判定手段は、各単位区間の入力音が音声か非音声かを当該単位区間の第3指標値に基づいて判定する。以上の態様においては、第1指標値と第2指標値との加重和を適宜に選定することで、第1指標値および第2指標値の何れを音声/非音声の判定に優先させるかを設定することが可能である。
【0006】
第3指標算定手段を具備する構成において、第3指標算定手段が第3指標値の算定に適用する加重値を入力音のSN比に応じて可変に設定する加重値設定手段をさらに設置してもよい。例えば、第1指標値が第2指標値と比較して入力音の雑音の影響を受け易いという傾向を前提とすると、加重値設定手段は、入力音のSN比が低いほど第2指標値の加重値を第1指標値の加重値に対して相対的に増加させる(すなわち第2指標値を優先させる)。以上の態様によれば、入力音の雑音に拘わらず入力音の音声/非音声を高精度に判定することが可能となる。
【0007】
本発明の第2の態様に係る音処理装置は、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段(例えば図2の指標算定部34)と、各単位区間の入力音が音声か非音声かを第1指標値に基づいて判定する判定手段とを具備する。以上の態様においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に基づいて各単位区間内の入力音が音声か非音声かを判定するから、入力音の周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。
【0008】
変調スペクトルのうち第1指標値の算定に使用される範囲は、入力音が音声および非音声の一方である場合に当該範囲内の変調スペクトルの強度が高くなり、入力音が音声および非音声の他方である場合に当該範囲外の変調スペクトルの強度が高くなるように実験的または統計的に設定される。いま、入力音が音声である場合に変調スペクトルのうち変調周波数が所定の境界値(例えば10Hz)を下回る範囲内の強度が高くなり、入力音が非音声である場合に変調スペクトルのうち変調周波数が境界値を上回る範囲内の強度が高くなるという傾向に着目する。変調スペクトルのうち変調周波数が境界値を下回る成分の強度が高いほど増加するように第1指標値が定義される場合、判定手段は、例えば、第1指標値が閾値を上回る場合に入力音を音声と判定し、第1指標値が閾値を下回る場合に入力音を非音声と判定する。また、変調スペクトルのうち変調周波数が境界値を下回る成分の強度が高いほど減少するように第1指標値が定義される場合、判定手段は、例えば、第1指標値が閾値を下回る場合に入力音を音声と判定し、第1指標値が閾値を上回る場合に入力音を非音声と判定する。また、変調スペクトルのうち変調周波数が境界値を上回る成分の強度が高いほど増加するように第1指標値が定義される場合、判定手段は、例えば、第1指標値が閾値を上回る場合に入力音を非音声と判定し、第1指標値が閾値を下回る場合に入力音を音声と判定する。また、変調スペクトルのうち変調周波数が境界値を上回る成分の強度が高いほど減少するように第1指標値が定義される場合、判定手段は、第1指標値が閾値を上回る場合に入力音を音声と判定し、第1指標値が閾値を下回る場合に入力音を非音声と判定する。以上に例示した総ての態様が、第1の態様または第2の態様における「入力音が音声か非音声かを第1指標値に基づいて判定する」という処理の概念に含まれる。
【0009】
第1の態様または第2の態様に係る音処理装置において、例えば、第1指標算定手段は、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度と当該所定の範囲を包含する範囲(すなわち所定の範囲を含んで当該範囲よりも広い範囲)に属する成分の強度との相対比に基づいて第1指標値を算定する。以上の態様においては、変調スペクトルのうち所定の範囲内の成分の強度に加えて、当該範囲を包含する範囲(例えば変調周波数の全範囲)の成分の強度も第1指標値の算定に適用される。したがって、例えば変調スペクトルの広範囲にわたる強度が入力音の雑音の影響を受ける場合であっても、所定の範囲内の強度のみに基づいて第1指標値が算定される構成と比較して音声/非音声を高精度に判別することが可能である。
【0010】
第1の態様または第2の態様に係る音処理装置は、例えば、変調スペクトルの強度の最大値を特定する強度特定手段を具備し、判定手段は、第1指標値と強度の最大値とに基づいて入力音が音声か非音声かを判定する。例えば、非音声の変調スペクトルの強度の最大値が音声の変調スペクトルの強度の最大値と比較して低いという傾向を前提とすると、判定手段は、変調スペクトルの強度の最大値が高いほど当該単位区間の入力音を音声と判定する可能性が高くなる(強度の最大値が低いほど入力音を非音声と判定する可能性が高くなる)ように音声/非音声を判定する。さらに具体的には、判定手段は、第1指標値からは音声と判定できる場合であっても、変調スペクトルの強度の最大値が閾値を下回る場合には入力音を非音声と判定する。以上の態様においては、第1指標値に加えて変調スペクトルの強度の最大値も音声/非音声の判定に利用されるから、非音声の変調スペクトルのうち強度が高い変調周波数の範囲と音声の変調スペクトルのうち強度が高い変調周波数の範囲とが近似する場合であっても、音声と非音声とを高精度に区別することが可能である。
【0011】
第1の態様または第2の態様に係る音処理装置において、例えば、変調スペクトル特定手段は、入力音の対数スペクトルまたはケプストラムにおける特定の成分の時間軌跡を特定する成分抽出手段と、単位区間を区分した複数の分割区間の各々について時間軌跡をフーリエ変換する周波数分析手段と、単位区間の複数の分割区間の各々についてのフーリエ変換の結果を平均することで当該単位区間の変調スペクトルを特定する平均手段とを具備する。以上の態様においては、単位区間を区分した複数の分割区間の各々について対数スペクトルまたはケプストラムの時間軌跡のフーリエ変換が実行されるから、単位区間の全体にわたる時間軌跡に対してフーリエ変換を一括的に実行する場合と比較して、フーリエ変換の点数が削減される。したがって、変調スペクトル特定手段による処理の負荷や処理に必要な記憶容量が削減されるという利点がある。
【0012】
本発明の第3の態様に係る音処理装置は、母音の音声から生成された音響モデルを記憶する記憶手段と、入力音と音響モデルとの類否を示す第2指標値を単位区間毎に算定する第2指標算定手段(例えば図9の指標算定部54)と、各単位区間の入力音が音声か非音声かを当該単位区間の第2指標値に基づいて判定する判定手段とを具備する。以上の態様においては、母音の音声の音響モデルと入力音との類否に基づいて各単位区間内の入力音が音声か非音声かが判定されるから、入力音の周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。
【0013】
第1の態様および第3の態様において、音声と音響モデルとの類似度が非音声と音響モデルとの類似度と比較して高いという傾向を前提とすると、判定手段は、第2指標値が閾値に対して類似側にある場合には入力音を音声と判定し、第2指標値が閾値に対して非類似側にある場合には入力音を非音声と判定する。例えば、入力音と音響モデルとが類似するほど増加するように第2指標値が定義された態様において、判定手段は、第2指標値が閾値を上回る場合に入力音を音声と判定する。また、入力音と音響モデルとが類似するほど減少するように第2指標値が定義された態様において、判定手段は、第2指標値が閾値を下回る場合に入力音を音声と判定する。
【0014】
第1の態様および第3の態様に係る音処理装置の具体例において、記憶手段は、複数種の母音の音声から生成されたひとつの音響モデルを記憶する。以上の態様においては、複数種の母音の音声から統合的に生成されたひとつの音響モデルが使用されるから、母音の種類毎に別個の音響モデルが用意される構成と比較して、記憶手段に必要な容量が削減されるという利点がある。
【0015】
第1ないし第3の態様の各々の具体例に係る音処理装置は、単位区間を区分した複数の区間のうち有声音の区間の割合に応じた有声指標値を算定する有声指標算定手段(例えば図10の指標算定部74)を具備し、判定手段は、有声指標値に基づいて入力音が音声か非音声かを判定する。例えば、音声のうち有声音の時間的な割合が非音声と比較して高いという傾向を前提とすると、判定手段は、有声音の割合が高いほど当該単位区間の入力音を音声と判定する可能性が高くなる(有声音の割合が低いほど非音声と判定する可能性が高くなる)ように音声/非音声を判定する。さらに具体的には、判定手段は、指標算定手段の算定した指標値(第1指標値ないし第3指標値の少なくともひとつ)からは音声と判定できる場合であっても、有声音の区間の割合が多い場合には入力音を非音声と判定する。以上の態様においては、変調スペクトルや音響モデルから算定された指標値に加えて有声指標値も音声/非音声の判定に利用されるから、第1の態様または第3の態様において非音声の変調スペクトルのうち強度が高い変調周波数の範囲と音声の変調スペクトルのうち強度が高い変調周波数の範囲とが近似する場合や、第2の態様または第3の態様において非音声と音声とで母音の音響モデルに対する類否が近似する場合であっても、音声と非音声とを高精度に区別することが可能である。
【0016】
第1ないし第3の態様の各々の具体例に係る音処理装置は、入力音のSN比に応じて閾値を可変に設定する閾値設定手段を具備し、判定手段は、入力音から算定された指標値(第1指標値,第2指標値,第3指標値,有声指標値,変調スペクトルの強度の最大値の何れか)と閾値との大小に応じて入力音が音声か非音声かを判定する。以上の態様においては、指標値と対比される閾値が入力音のSN比に応じて閾値が可変に制御されるから、SN比の高低に拘わらず音声/非音声の精度を高い水準に維持することが可能である。
【0017】
第1ないし第3の態様の各々の具体例に係る音処理装置は、相連続する3個以上の単位区間について判定手段が非音声と判定した場合に、3個以上の単位区間のなかの途中の単位区間の入力音のみを消音する音処理手段を具備する。以上の態様においては、非音声と判定された単位区間が消音されるから、入力音のうちの音声のみを受聴者が明確に知覚することが可能となる。また、非音声と判定された3個以上の単位区間のうち途中の単位区間(すなわち、3個以上の単位区間のうち最初の単位区間と最後の単位区間とを除いた少なくともひとつの単位区間)のみが消音されるから、音声の最初(3個以上のうちの最後の単位区間)と最後(3個以上のうちの最初の単位区間)とが音処理手段処理よって消音される可能性は低減される。
【0018】
以上の総ての態様に係る音処理装置は、入力音の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。第1の態様に係るプログラムは、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、母音の音声から生成された音響モデルと入力音との類否を示す第2指標値を単位区間毎に算定する第2指標算定処理と、各単位区間の入力音が音声か非音声かを当該単位区間の第1指標値と第2指標値とに基づいて判定する判定処理とをコンピュータに実行させる。第2の態様に係るプログラムは、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、各単位区間の入力音が音声か非音声かを第1指標値に基づいて判定する判定処理とをコンピュータに実行させる。第3の態様に係るプログラムは、母音の音声から生成された音響モデルと入力音との類否を示す第2指標値を単位区間毎に算定する第2指標算定処理と、各単位区間の入力音が音声か非音声かを当該単位区間の第2指標値に基づいて判定する判定処理とをコンピュータに実行させる。本発明のプログラムによれば、以上の各態様に係る音処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【発明を実施するための最良の形態】
【0019】
<A:第1実施形態>
図1は、本発明の第1実施形態に係る遠隔会議システムのブロック図である。遠隔会議システム100は、地理的に離間した空間R1と空間R2とで複数の利用者U(会議の参加者)が相互に音声を授受するシステムである。各空間R(R1,R2)には、収音機器12と音処理装置14と音処理装置16と放音機器18とが設置される。
【0020】
収音機器12は、空間R内に存在する入力音VINの波形を表す音響信号SINを生成する装置(マイクロホン)である。空間R1および空間R2の各々の音処理装置14は、音響信号SINから出力信号SOUTを生成して空間R1および空間R2の他方の音処理装置16に送信する。音処理装置16は、出力信号SOUTを増幅して放音機器18に出力する。放音機器18は、音処理装置16から供給される増幅後の出力信号SOUTに応じた音波を放射する装置(スピーカ)である。以上の構成により、空間R1内の各利用者Uの発声音が空間R2内の放音機器18から出力され、空間R2内の各利用者Uの発声音が空間R1内の放音機器18から出力される。
【0021】
図2は、空間R1および空間R2の各々に設置される音処理装置14の構成を示すブロック図である。図2に示すように、音処理装置14は、制御装置22と記憶装置24とを具備する。制御装置22は、プログラムを実行することで図2の各要素として機能する演算処理装置である。なお、図2の各要素はDSPなどの電子回路によっても実現される。記憶装置24は、制御装置22が実行するプログラムや制御装置22が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置24として任意に利用される。
【0022】
制御装置22は、収音機器12から供給される音響信号SIN(入力音VIN)を時間軸に沿って区分した複数の区間(以下「単位区間」という)の各々について当該入力音VINが音声および非音声の何れに該当するかを判定する機能と、音声/非音声の判定の結果に応じた処理を音響信号SINに対して実行することで出力信号SOUTを生成する機能とを実現する。音声は、人間が発声した発話音である。非音声は、音声以外の音響(例えば空間Rの扉の開閉音や空調設備の動作音や携帯電話機の着信音などの環境音(雑音))である。
【0023】
図2の変調スペクトル特定部32は、音響信号SIN(入力音VIN)の変調スペクトルMSを特定する。変調スペクトルMSは、音響信号SINの対数スペクトル(周波数スペクトル)のうち特定の周波数帯域に属する成分の時間的な変動(以下「時間軌跡」という)についてフーリエ変換を実行した結果である。
【0024】
図3は、変調スペクトル特定部32の機能的な構成を示すブロック図であり、図4は、変調スペクトル特定部32による処理を説明するための概念図である。図3に示すように、変調スペクトル特定部32は、周波数分析部322と成分抽出部324と周波数分析部326とで構成される。周波数分析部322は、フーリエ変換(例えばFFT(Fast Fourier Transform))を含む周波数分析を音響信号SINに対して実行することで、図4の部分(A)に示すように、音響信号SINを時間軸に沿って区分した複数のフレームの各々について対数スペクトルS0を算定する。したがって、対数スペクトルS0を時間軸に沿ってフレーム毎に配列したスペクトログラムSPが生成される。なお、相前後する各フレームは部分的に重複してもよいし相互に重複しないように設定されてもよい。
【0025】
図3の成分抽出部324は、図4の部分(A)および部分(B)に示すように、スペクトログラムSPのうち特定の周波数帯域ωに属する成分の強度(エネルギ)の時間軌跡STを抽出する。さらに詳述すると、成分抽出部324は、各フレームの対数スペクトルS0のうち周波数帯域ωに属する成分の強度を算定し、対数スペクトルS0の強度を複数のフレームついて時系列に配列することで時間軌跡STを生成する。周波数帯域ωは、入力音VINが音声である場合の時間軌跡STの周波数特性(変調スペクトルMS)と入力音VINが非音声である場合の時間軌跡STの周波数特性とが顕著に相違するように実験的または統計的に事前に選定される。例えば、周波数帯域ωは、10Hz(さらに好適には50Hz)から800Hzまでの範囲に選定される。なお、各対数スペクトルS0におけるひとつの周波数の成分の強度の時系列を時間軌跡STとして成分抽出部324が抽出する構成も採用される。
【0026】
図3の周波数分析部326は、図4の部分(B)および部分(C)に示すように、時間軌跡STに対してフーリエ変換(例えばFFT)を実行することで、時間軌跡STを時間軸に沿って区分した複数の単位区間TUの各々について変調スペクトルMSを算定する。単位区間TUは、複数のフレームで構成される所定の時間長(例えば1秒程度)の期間である。なお、本形態においては各単位区間TUが重複しない構成を便宜的に例示するが、相前後する各単位区間TUが部分的に重複する構成も採用される。
【0027】
図5は音声(人間の発話音)の代表的な変調スペクトルMSを示し、図6は非音声(収音機器12の先端部を覆う網状の部分を引掻いたときのガリガリ音)の変調スペクトルMSを示す。図5と図6との対比から理解されるように、変調スペクトルMSのうち強度が高い変調周波数の範囲は音声と非音声とで相違するという傾向がある。
【0028】
人間の通常の発話音(すなわち音声)の変調スペクトルMSにおいては、発話中に音節が切替わる周波数に相当する4Hz程度の変調周波数にて強度が極大となる場合が多い。したがって、音声の変調スペクトルMS(図5)においては変調周波数が10Hz以下の低域の範囲で強度が高くなるのに対し、多くの非音声の変調スペクトルMS(図6)においては変調周波数が10Hzを上回る範囲で強度が高くなるという相違がある。以上の相違を考慮して、本形態においては、変調スペクトル特定部32が特定した変調スペクトルMSのうち変調周波数が所定の範囲(以下「判定対象範囲」という)Aに属する成分の強度に応じて入力音VINが音声か非音声かを判定する。本形態においては10Hz以下の範囲(さらに好適には2Hzから8Hzの範囲)を判定対象範囲Aに設定する。
【0029】
図2の指標算定部34は、変調スペクトル特定部32が各単位区間TUについて特定した変調スペクトルMSについて、判定対象範囲Aに属する成分の強度(エネルギ)に応じた指標値D1を算定する。さらに詳述すると、指標算定部34は、第1に、変調スペクトルMSのうち変調周波数が判定対象範囲Aに属する成分の強度(例えば判定対象範囲A内の各変調周波数における強度の加算値や平均値)L1と、変調周波数の全範囲にわたる変調スペクトルMSの強度(総ての変調周波数における強度の加算値や平均値)L2とを算定する。第2に、指標算定部34は、強度L1と強度L2との相対比(L1/L2)を含む以下の演算式(A)に基づいて指標値D1を算定する。
D1=1−(L1/L2) ……(A)
演算式(A)の内容から理解されるように、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1が高いほど(すなわち入力音VINが音声である可能性が高いほど)指標値D1は小さい数値となる。したがって、指標値D1は、入力音VINが音声であるか非音声であるかの指標となる。また、判定対象範囲Aには発話時に音節が切替わる周波数が含まれるから、指標値D1は、音声に特有なリズム(発話のリズム)が入力音VINに含まれるか否かの指標としても把握される。
【0030】
ただし、変調スペクトルMSにおける判定対象範囲A内の成分の強度が他の範囲と比較して相対的に高い非音声も存在する。図7に示す非音声(電話機のプッシュトーン)の変調スペクトルMSにおいては判定対象範囲Aに含まれる5Hzから8Hz程度の変調周波数にて強度のピークが発生する。しかし、図7のような特性の非音声においては、変調スペクトルMSの強度の最大値Pが音声と比較して低いという傾向がある。以上の傾向を考慮して、本形態においては、指標値D1と変調スペクトルMSの強度の最大値Pとに基づいて入力音VINが音声か非音声かを判定する。図2の強度特定部36は、変調スペクトルMSの強度の最大値Pを単位区間TU毎に特定する。
【0031】
判定部42は、指標算定部34が算定した指標値D1と強度特定部36が特定した最大値Pとに基づいて各単位区間TUの入力音VINが音声か非音声かを判定し、判定の結果(音声/非音声の区別)を示す識別データdを単位区間TU毎に生成する。図8は、判定部42の具体的な動作を示すフローチャートである。図8の処理は、指標値D1と最大値Pとがひとつの単位区間TUについて特定されるたびに実行される。
【0032】
判定部42は、指標値D1が閾値THd1を上回るか否かを判定する(ステップSA1)。閾値THd1は、音声の指標値D1が閾値THd1を下回るとともに非音声の指標値D1が閾値THd1を上回るように実験的または統計的に選定される。ステップSA1の結果が肯定である場合(例えば入力音VINが図6の特性の非音声である場合)、判定部42は、今回の処理の対象である単位区間TUの入力音VINを非音声と判定する(ステップSA2)。すなわち、判定部42は、非音声を示す識別データdを生成する。
【0033】
一方、ステップSA1の結果が否定である場合、判定部42は、変調スペクトルMSの強度の最大値Pが閾値THpを下回るか否かを判定する(ステップSA3)。ステップSA3の結果が肯定である場合、判定部42は、処理をステップSA2に移行して非音声を示す識別データdを生成する。すなわち、指標値D1のみを考慮すれば入力音VINを音声と判定できる場合であっても、最大値Pが閾値THpを下回る場合(例えば入力音VINが図7の特性の非音声である場合)には入力音VINは非音声と判定される。
【0034】
ステップSA3の結果が否定である場合(例えば入力音VINが図5の特性の音声である場合)、判定部42は、今回の処理の対象である単位区間TUの入力音VINを音声と判定する(ステップSA4)。すなわち、判定部42は、音声を示す識別データdを生成する。以上のように、変調スペクトルMSにおける判定対象範囲A内の強度L1および強度の最大値Pの双方が高い単位区間TUの入力音VINのみが音声と判定される。
【0035】
図2の音処理部44は、各単位区間TUの識別データdに応じた処理を当該単位区間TUの音響信号SINに対して実行することで出力信号SOUTを生成する。例えば、音処理部44は、識別データdが音声を示す単位区間TUについては音響信号SINを出力信号SOUTとして出力する一方、識別データdが非音声を示す単位区間TUついては音量をゼロに設定した出力信号SOUTを出力する(すなわち音響信号SINを出力しない)。したがって、空間R1および空間R2の各々においては、他方の空間R内の入力音VINのうちの非音声が除去され、利用者が本来的に受聴する必要のある音声のみが音処理装置16を介して放音機器18から放射される。
【0036】
以上に説明したように、本形態においては、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1(発話のリズムの有無)に基づいて音声/非音声が判定されるから、入力音VINの周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。また、判定対象範囲A内の成分の強度L1に加えて変調スペクトルMSの強度の最大値Pも判定に使用されるから、判定対象範囲A内の成分の強度L1が他の範囲と比較して高い非音声についても非音声と判定することが可能である。
【0037】
なお、非音声の音量が大きい場合には、変調周波数の全帯域にわたって変調スペクトルMSは高い強度となる。したがって、変調スペクトルMSの判定対象範囲A内の強度L1のみに基づいて入力音VINの音声/非音声を識別する構成においては、音量の大きい非音声が音声と誤判定される可能性が高まる。本形態においては、判定対象範囲A内の強度L1と変調周波数の全範囲にわたる強度L2との相対比に基づいて音声/非音声が判定されるから、非音声の音量が大きい場合であっても音声/非音声を正確に判定できるという利点がある。
【0038】
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
【0039】
図9は、音処理装置14のブロック図である。本形態の記憶装置24にはひとつの音響モデルMが記憶される。音響モデルMは、多数の話者による複数種の母音の発声音の平均的な音響特性をモデル化した統計モデルである。本形態の音響モデルMは、音声の特徴量(例えばMFCC(Mel-Frequency Cepstrum Coefficient))の分布を確率分布の加重和としてモデル化する。例えば、音声の特徴量を複数の正規分布の加重和としてモデル化するガウス混合モデル(GMM(Gaussian Mixture Model))が音響モデルMとして好適である。
【0040】
音響モデルMは、例えば制御装置22が以下の処理を実行することで作成される。第1に、制御装置22は、多数の話者が様々な文章を発話したときの音声を採取して各々を音韻毎に区分し、複数種の母音(a,i,u,e,o)に相当する部分の波形のみを抽出する。第2に、制御装置22は、母音に相当する各部分の波形を時間軸に沿って区分した複数のフレームの各々について音響的な特徴量(特徴ベクトル)を抽出する。各フレームの時間長は例えば20ミリ秒であり、相前後する各フレームの時間差は10ミリ秒程度である。第3に、制御装置22は、多数の音声から抽出された特徴量を複数種の母音について統合的に処理することで音響モデルMを生成する。音響モデルMの生成には、例えばEM(Expectation-Maximization)アルゴリズムなど公知の技術が任意に採用される。なお、母音の特徴量は直前の音韻(子音)に影響されるから、以上の手順で生成された音響モデルMは純粋に母音の特性のみをモデル化した統計モデルではない。すなわち、音響モデルMは、複数の母音を中心として作成された統計モデル(あるいは音声の有声音の統計モデル)と言える。
【0041】
図9に示すように、音処理装置14は、図2の変調スペクトル特定部32と指標算定部34と強度特定部36とに代えて特徴抽出部52と指標算定部54とを具備する。特徴抽出部52は、音響モデルMの生成に利用された特徴量と同種の特徴量(例えばMFCC)Xを音響信号SINの各フレームについて抽出する。特徴抽出部52による特徴量Xの抽出には公知の技術が任意に採用される。
【0042】
指標算定部54は、音響信号SINが表す入力音VINと音響モデルMとの類否に応じた指標値D2を音響信号SINの各単位区間TUについて算定する。さらに詳述すると、指標値D2は、各フレームの音響信号SINについて抽出された特徴量Xが音響モデルMから発生する尤度(確率)p(X|M)を単位区間TU内の総て(n個)のフレームについて平均化した数値である。すなわち、指標値D2は以下の演算式(B)で算定される。
【数1】
演算式(B)から理解されるように、音響モデルMと単位区間TU内の入力音VINとで特徴量が類似するほど指標値D2は小さくなる。非音声と比較すると音声は母音の割合が多い(したがって音響モデルMとの音色の類似の程度が高い)という傾向がある。したがって、入力音VINが音声である場合に算定される指標値D2は、入力音VINが非音声である場合に算定される指標値D2と比較して小さい数値となる。すなわち、指標値D2は、入力音VINが音声であるか非音声であるかの指標となる。したがって、音響モデルMは、音声(人間の発話音)の統計モデルとしても把握される。
【0043】
図9の判定部42は、指標算定部54が算定した指標値D2に基づいて各単位区間TUの入力音VINが音声か非音声かを判定し、判定の結果を示す識別データdを単位区間TU毎に生成する。指標値D2は、入力音VINと音響モデルMとの音色の類似性を示す数値となる。すなわち、第1実施形態においては入力音VINのリズム(判定対象範囲A内の強度L1)が音声らしいか否かを判定するのに対し、本形態においては入力音VINの音色が音声らしいか否かを判定する。
【0044】
さらに詳述すると、判定部42は、各単位区間TUの指標値D2が所定の閾値THd2を上回るか否かを判定する。閾値THd2は、音声の指標値D2が閾値THd2を下回るとともに非音声の指標値D2が閾値THd2を上回るように実験的または統計的に選定される。判定の結果が肯定である場合(D2>THd2)、判定部42は、当該単位区間TUの入力音VINを非音声と判定して識別データdを生成する。一方、判定の結果が否定である場合(D2<THd2)、判定部42は、当該単位区間TUの入力音VINを音声と判定して識別データdを生成する。識別データdに応じた音処理部44の動作は第1実施形態と同様である。
【0045】
以上に説明したように、本形態においては、母音の音声をモデル化した音響モデルMとの類否に応じて音声/非音声が判定されるから、入力音VINの周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。また、複数種の母音を統合的にモデル化したひとつの音響モデルMが記憶装置24に格納されるから、複数種の母音の各々について個別の音響モデルが用意される構成と比較して、記憶装置24に必要な容量が低減されるという利点がある。
【0046】
<C:第3実施形態>
図10は、本発明の第3実施形態に係る音処理装置14のブロック図である。第1実施形態と同様に、図10の変調スペクトル特定部32および指標算定部34は入力音VINの単位区間TU毎に指標値D1を算定し、強度特定部36は変調スペクトルMSの強度の最大値Pを特定する。また、特徴抽出部52および指標算定部54は、第2実施形態と同様に、入力音VINの単位区間TU毎に指標値D2を算定する。
【0047】
指標算定部62は、指標算定部34が算定した指標値D1と指標算定部54が算定した指標値D2との加重和を指標値D3として算定する。指標値D3は、例えば以下の演算式(C)で算定される。
D3=D1+α・D2 ……(C)
演算式(C)から理解されるように、入力音VINが音声である可能性が高いほど(すなわち、変調スペクトルMSのうち判定対象範囲A内の強度L1が高いほど、または、音響モデルMと単位区間TU内の入力音VINとで特徴量が類似するほど)、指標値D3は小さい数値となる。加重値αは、図10の加重値設定部66が設定した正数(α>0)である。指標算定部62が算定した指標値D3は、判定部42における音声/非音声の判定に利用される。
【0048】
図10のSN比特定部64は、音信号SIN(入力音VIN)のSN比Rを単位区間TU毎に算定する。加重値設定部66は、各単位区間TUの指標値D3の算定に指標算定部62が適用する加重値αを、当該単位区間TUについてSN比特定部64が算定したSN比Rに基づいて可変に設定する。
【0049】
ここで、変調スペクトルMSから算定される指標値D1は、音響モデルMから算定される指標値D2と比較すると入力音VINの雑音に影響され易いという傾向がある。そこで、加重値設定部66は、SN比Rが低い(雑音が多い)ほど加重値αが増加するように加重値αを可変に制御する。以上の構成によれば、SN比Rが低いほど指標値D3における指標値D2の影響が相対的に増加する(雑音の影響を受け易い指標値D1の影響が低減される)から、入力音VINに雑音が重畳された場合であっても音声/非音声を高精度に判定することが可能である。
【0050】
図10の有声無声判別部72は、複数のフレームの各々について入力音VINが有声音か無声音かを判定する。有声無声判別部72による判定には公知の技術が任意に採用される。例えば、有声無声判別部72は、入力音VINの各フレームについてピッチ(基本周波数)の検出を実行し、有意なピッチが検出されたフレームを有声音と判定する一方、明確なピッチが検出されなかったフレームを無声音と判定する。
【0051】
指標算定部74は、音響信号SINの各単位区間TUについて有声指標値DVを算定する。有声指標値DVは、単位区間TU内のn個のフレームのうち有声無声判別部72が有声音と判定したフレームの個数NVの割合(DV=NV/n)である。音声(人間の発話音)は非音声と比較して有声音の割合が高いという傾向がある。したがって、入力音VINが音声である場合に算定される有声指標値DVは、入力音VINが非音声である場合に算定される有声指標値DVと比較して大きい数値となる。
【0052】
図10の判定部42は、指標算定部62が算定した指標値D3と強度特定部36が特定した最大値Pと指標算定部74が算定した有声指標値DVとに基づいて各単位区間TUの入力音VINが音声か非音声かを判定し、判定の結果を示す識別データdを単位区間TU毎に生成する。図11は、判定部42の具体的な動作を示すフローチャートである。図11の処理は、指標値D3と最大値Pと有声指標値DVとがひとつの単位区間TUについて特定されるたびに実行される。
【0053】
判定部42は、指標値D3が閾値THd3を上回るか否かを判定する(ステップSB1)。閾値THd3は、音声の指標値D3が閾値THd3を下回るとともに非音声の指標値D3が閾値THd3を上回るように実験的または統計的に選定される。ステップSB1の結果が肯定である場合、判定部42は、今回の単位区間TUの入力音VINを非音声と判定して識別データdを生成する(ステップSB2)。
【0054】
一方、ステップSB1の結果が否定である場合、判定部42は、図8のステップSA3と同様に、最大値Pが閾値THpを下回るか否かを判定する(ステップSB3)。ステップSB3の結果が肯定である場合、判定部42は、非音声を示す識別データdをステップSB2にて生成する。ステップSB3の結果が否定である場合、判定部42は、有声指標値DVが閾値THdvを下回るか否かを判定する(ステップSB4)。
【0055】
ステップSB4の結果が肯定である場合(すなわち単位区間TUにおいて有声音のフレームの割合が少ない場合)、判定部42は、非音声を示す識別データdをステップSB2にて生成する。一方、ステップSB4の結果が否定である場合、判定部42は、今回の単位区間TUの入力音VINを音声と判定して識別データdを生成する。識別データdに応じた音処理部44の動作は第1実施形態と同様である。
【0056】
以上に説明したように、本形態においては、入力音VINのリズム(指標値D1)および音色(指標値D2)の双方の観点から音声/非音声が判定されるから、第1実施形態や第2実施形態と比較して入力音VINを高精度に音声と非音声とに区別することが可能である。また、指標値D1および指標値D2に加えて有声指標値DVも音声/非音声の判定に適用されるから、例えばリズムや音色が音声に類似する入力音VINであっても、有声指標値DVが低い場合には非音声と判定することができる。
【0057】
<D:変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
【0058】
(1)変形例1
変調スペクトル特定部32は図12の構成に変更される。図12の変調スペクトル特定部32は、図3と同様の周波数分析部322と成分抽出部324と周波数分析部326とに加えて平均部328を具備する。成分抽出部324が生成した時間軌跡STは、単位区間TUをさらに分割したm個の区間(以下「分割区間」という)に区分される(mは2以上の自然数)。周波数分析部326は、各分割区間の時間軌跡STに対してフーリエ変換を実行することで分割区間毎に変調スペクトルを算定する。平均部328は、単位区間TUを構成する各分割区間について算定されたm個の変調スペクトルを平均することで当該単位区間TUの変調スペクトルMSを算定する。図12の構成によれば、周波数分析部326が実行するフーリエ変換の点数が第1実施形態と比較して削減されるから、周波数分析部326によるフーリエ変換の負荷(計算量)やフーリエ変換に必要な記憶装置24の容量が削減されるという利点がある。
【0059】
(2)変形例2
音声/非音声の判定に使用される閾値TH(THd1,THd2,THd3,THp,THdv)が可変に制御される構成も好適である。例えば図13に示すように、第3実施形態の音処理装置14に閾値設定部68が追加される。閾値設定部68は、SN比特定部64が算定したSN比Rに応じて閾値THを可変に制御する。
【0060】
入力音VINが実際には音声であっても、SN比Rが低い場合には、判定部42が入力音VINを非音声と誤判定する可能性が高まる。そこで、閾値設定部68は、SN比特定部64の算定したSN比Rが低いほど、入力音VINが音声と判定され易くなる方向に各閾値THを制御する。例えば、SN比Rが低いほど閾値THd3を増加させるとともに閾値THpや閾値THdvを減少させる。以上の構成によれば、実際には音声を含む入力音VINが非音声と誤判定される可能性を低減することができる。なおSN比R以外の数値(例えば入力音VINの音量)に応じて閾値THを可変に制御する構成も採用される。また、図13においては第3実施形態の変形を例示したが、第1実施形態や第2実施形態の音処理装置14についても同様に、SN比特定部64と閾値設定部68とを追加した構成が採用される。
【0061】
(3)変形例3
以上の各形態において、単位区間TUに含まれる音声の割合が少ない場合(例えば単位区間TUのなかの短い区間のみに音声が含まれる場合)には、当該単位区間TUは非音声と判定される可能性がある。したがって、非音声と判定された総ての単位区間TUについて一律に入力音VINを消音する構成においては、音声の開始や終了の部分(特に無声子音の部分)を僅かに含む単位区間TUが非音声と判定されて消音される場合がある。そこで、複数の単位区間TUについての判定部42による判定を考慮して各単位区間TU内の入力音VINの消音を実行する構成が好適である。
【0062】
例えば、ひとつの単位区間TUが非音声と判定された段階では音処理部44は当該単位区間TUの消音を実行せず、図14に示すように、相連続するk個(kは3以上の自然数)の単位区間TUについて入力音VINが非音声と判定された場合に、音処理部44は、k個の単位区間TUのうち最初(第1番目)と最後(第k番目)の単位区間TUを除外した各単位区間TU(すなわちk個の集合のなかの途中の単位区間TU)の入力音VINを消音する。第1番目と第k番目の単位区間TUについては入力音VINは消音されない。例えば、非音声と判定された3個(k=3)の単位区間TUのうち第2番目の単位区間TUの入力音VINのみが消音される。以上の構成によれば、始点の直後のみに音声を含む単位区間TU(例えば図14のk個の単位区間TUのうち第1番目の単位区間TU)や終点の直前に音声を含む単位区間TU(例えば図14の第k番目の単位区間TU)について消音が実行されないから、音声の欠落が防止されるという利点がある。
【0063】
(4)変形例4
各指標値D(D1,D2,D3)の定義は適宜に変更される。したがって、各指標値D(D1,D2,D3)の大小と音声/非音声との関係は任意である。例えば、第1実施形態においては指標値D1が小さいほど入力音VINが音声と判定される可能性が高くなるように指標値D1を定義したが、例えば強度L2に対する強度L1の相対比を指標値D1(D1=L1/L2)と定義すれば、指標値D1が大きいほど音声と判定される可能性が高くなる。また、ひとつの加重値αを使用して指標値D3を定義したが、指標値D1と指標値D2とで独立に設定した加重値(β,γ)を適用して指標値D3(D3=β・D1+γ・D2)を算定する構成も好適である。また、指標値D3の算定に使用される加重値(α,β,γ)は固定値であってもよい。
【0064】
(5)変形例5
第1実施形態および第3実施形態においては対数スペクトルS0において周波数帯域ωに属する成分の時間軌跡STに対してフーリエ変換を実行することで変調スペクトルMSを特定したが、音響信号SIN(入力音VIN)のケプストラムの時間軌跡に対してフーリエ変換を実行することで変調スペクトルMSを特定する構成も採用される。さらに詳述すると、変調スペクトル特定部32の周波数分析部322は、音響信号SINの各フレームについてケプストラムを算定し、成分抽出部324は、各フレームのケプストラムのうちケフレンシが特定の範囲内にある成分の時間軌跡STを抽出し、周波数分析部326は、ケプストラムの時間軌跡STに対して単位区間TU毎(または変形例1のように分割期間毎)にフーリエ変換を実行することで各単位区間TUの変調スペクトルMSを算定する。
【0065】
(6)変形例6
音声/非音声の判定に使用される変数は適宜に変更される。例えば、第1実施形態や第3実施形態においては最大値Pに応じた判定(図8のステップSA3や図11のステップSB3)を省略してもよいし、第3実施形態においては有声指標値DVに応じた判定(図11のステップSB4)を省略してもよい。また、第1実施形態や第2実施形態に有声無声判定部72および指標算定部74を追加した構成も好適である。
【0066】
(7)変形例7
以上の各形態においては、入力音VINを収音した空間R内の音処理装置14にて識別データdおよび出力信号SOUTを生成したが、識別データdを生成する位置や出力信号SOUTを生成する位置は適宜に変更される。例えば、収音機器12が生成した音響信号SINと判定部42の生成した識別データdとを音処理装置14が出力する構成においては、音響信号SINと識別データdとから出力信号SOUTを生成する音処理部44が受信側の音処理装置16に配置される。また、収音機器12が生成した音響信号SINを音処理装置14が送信する構成においては、受信側の音処理装置16に図2と同様の要素が設置される。もっとも、遠隔会議システム100は本発明の用途の例示に過ぎない。したがって、出力信号SOUTや音響信号SINの送受信は本発明において必須ではない。
【0067】
(8)変形例8
以上の各形態においては、非音声と判定された単位区間TUの音響信号SINを音処理部44が出力しない(出力信号SOUTの音量をゼロに設定する)構成を例示したが、音処理部44による処理の内容は適宜に変更される。例えば、非音声と判定された単位区間TUについて音響信号SINの音量を低下させた信号を音処理部44が出力信号SOUTとして出力する構成や、音声と判定された単位区間TUと非音声と判定された単位区間TUとで別個の音響的な効果を音響信号SINに付与した信号を音処理部44が出力信号SOUTとして出力する構成も好適である。また、出力信号SOUTの出力先(音処理装置16)において音声認識や話者認識(話者識別または話者認証)が実行される構成において、音処理部44は、例えば、音声と判定された単位区間TUについては、音声認識や話者認識に使用される特徴量を音響信号SINから抽出して出力信号SOUTとして出力する一方、非音声と判定された単位区間TUについては特徴量の抽出を停止する。
【図面の簡単な説明】
【0068】
【図1】本発明の第1実施形態に係る遠隔会議システムのブロック図である。
【図2】図1の音処理装置のブロック図である。
【図3】図2の変調スペクトル特定部のブロック図である。
【図4】図2の変調スペクトル特定部による処理の手順を示す概念図である。
【図5】音声の変調スペクトルである。
【図6】非音声の変調スペクトルである。
【図7】非音声の変調スペクトルである。
【図8】図2の判定部の動作を示すフローチャートである。
【図9】本発明の第2実施形態に係る音処理装置のブロック図である。
【図10】本発明の第3実施形態に係る音処理装置のブロック図である。
【図11】図10の判定部の動作を示すフローチャートである。
【図12】変形例に係る変調スペクトル特定部のブロック図である。
【図13】変形例に係る音処理装置のブロック図である。
【図14】変形例に係る音処理部の動作を示す概念図である。
【符号の説明】
【0069】
100……遠隔会議システム、12……収音機器、14……音処理装置、16……音処理装置、18……放音機器、22……制御装置、24……記憶装置、32……変調スペクトル特定部、322……周波数分析部、324……成分抽出部、326……周波数分析部、328……平均部、34,54,62,74……指標算定部、36……強度特定部、42……判定部、44……音処理部、52……特徴抽出部、64……SN比特定部、66……加重値設定部、68……閾値設定部、72……有声無声判別部、VIN……入力音、SIN……音響信号、SOUT……出力信号、d……識別データ、MS……変調スペクトル、M……音響モデル、D1,D2,D3……指標値、P……変調スペクトルの強度の最大値、R……SN比、TU……単位区間。
【特許請求の範囲】
【請求項1】
複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段と、
母音の音声から生成された音響モデルを記憶する記憶手段と、
前記入力音と前記音響モデルとの類否を示す第2指標値を前記単位区間毎に算定する第2指標算定手段と、
前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第1指標値と前記第2指標値とに基づいて判定する判定手段と
を具備する音処理装置。
【請求項2】
前記記憶手段は、複数種の母音の音声から生成されたひとつの前記音響モデルを記憶する
請求項1の音処理装置。
【請求項3】
前記第1指標値と前記第2指標値との加重和を第3指標値として算定する第3指標算定手段を具備し、
前記判定手段は、前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第3指標値に基づいて判定する
請求項1または請求項2の音処理装置。
【請求項4】
前記第3指標算定手段が第3指標値の算定に適用する加重値を前記入力音のSN比に応じて可変に設定する加重値設定手段
を具備する請求項3の音処理装置。
【請求項5】
前記単位区間を区分した複数の区間のうち有声音の区間の割合に応じた有声指標値を算定する有声指標算定手段を具備し、
前記判定手段は、前記第1指標値と前記第2指標値と前記有声指標値とに基づいて前記入力音が音声か非音声かを判定する
請求項1から請求項4の何れかの音処理装置。
【請求項6】
相連続する3個以上の単位区間について前記判定手段が非音声と判定した場合に、前記3個以上の単位区間のなかの途中の単位区間の入力音のみを消音する音処理手段
を具備する請求項1から請求項5の何れかの音処理装置。
【請求項7】
複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、
母音の音声から生成された音響モデルと前記入力音との類否を示す第2指標値を前記単位区間毎に算定する第2指標算定処理と、
前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第1指標値と前記第2指標値とに基づいて判定する判定処理と
をコンピュータに実行させるプログラム。
【請求項1】
複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段と、
母音の音声から生成された音響モデルを記憶する記憶手段と、
前記入力音と前記音響モデルとの類否を示す第2指標値を前記単位区間毎に算定する第2指標算定手段と、
前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第1指標値と前記第2指標値とに基づいて判定する判定手段と
を具備する音処理装置。
【請求項2】
前記記憶手段は、複数種の母音の音声から生成されたひとつの前記音響モデルを記憶する
請求項1の音処理装置。
【請求項3】
前記第1指標値と前記第2指標値との加重和を第3指標値として算定する第3指標算定手段を具備し、
前記判定手段は、前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第3指標値に基づいて判定する
請求項1または請求項2の音処理装置。
【請求項4】
前記第3指標算定手段が第3指標値の算定に適用する加重値を前記入力音のSN比に応じて可変に設定する加重値設定手段
を具備する請求項3の音処理装置。
【請求項5】
前記単位区間を区分した複数の区間のうち有声音の区間の割合に応じた有声指標値を算定する有声指標算定手段を具備し、
前記判定手段は、前記第1指標値と前記第2指標値と前記有声指標値とに基づいて前記入力音が音声か非音声かを判定する
請求項1から請求項4の何れかの音処理装置。
【請求項6】
相連続する3個以上の単位区間について前記判定手段が非音声と判定した場合に、前記3個以上の単位区間のなかの途中の単位区間の入力音のみを消音する音処理手段
を具備する請求項1から請求項5の何れかの音処理装置。
【請求項7】
複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、
母音の音声から生成された音響モデルと前記入力音との類否を示す第2指標値を前記単位区間毎に算定する第2指標算定処理と、
前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第1指標値と前記第2指標値とに基づいて判定する判定処理と
をコンピュータに実行させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2009−175474(P2009−175474A)
【公開日】平成21年8月6日(2009.8.6)
【国際特許分類】
【出願番号】特願2008−14422(P2008−14422)
【出願日】平成20年1月25日(2008.1.25)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成21年8月6日(2009.8.6)
【国際特許分類】
【出願日】平成20年1月25日(2008.1.25)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]