音処理装置およびプログラム

【課題】音声／非音声を高精度に判定する。
【解決手段】変調スペクトル特定部３２は、複数の単位区間ＴUの各々について入力音ＶINの変調スペクトルＭSを特定する。指標算定部３４は、変調スペクトルＭSのうち変調周波数が１０Ｈz以下の強度Ｌ1に応じた指標値Ｄ1を算定する。記憶装置２４は、母音の音声から生成された音響モデルＭを記憶する。指標算定部５４は、入力音ＶINと音響モデルＭとの類否を示す指標値Ｄ2を単位区間ＴU毎に算定する。判定部４２は、各単位区間ＴUの入力音ＶINが音声か非音声かを当該単位区間ＴUの指標値Ｄ1と指標値Ｄ2とに基づいて判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、人間の発声音（以下「音声」という）と音声以外の音響（以下「非音声」という）とを区別する技術に関する。
【背景技術】
【０００２】
収音機器による収録音などの音響（以下「入力音」という）を音声の区間と非音声の区間とに区別する技術が従来から提案されている。例えば特許文献１には、入力音のうち所定の周波数帯域に属する成分の強度に基づいて音声の有無を判定する技術が開示されている。
【特許文献１】特開２０００−１３２１７７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかし、雑音の特性（周波数）は多様であり、音声の有無の判定に利用される周波数帯域内に雑音が発生する場合もある。したがって、特許文献１の技術のもとで充分に高い精度で音声の有無を判定することは困難である。以上の事情に鑑みて、本発明は、音声／非音声を高精度に判定することをひとつの目的とする。
【課題を解決するための手段】
【０００４】
以上の課題を解決するために、本発明の第１の態様に係る音処理装置は、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第１指標値を算定する第１指標算定手段（例えば図１０の指標算定部３４）と、母音の音声から生成された音響モデルを記憶する記憶手段と、前記入力音と前記音響モデルとの類否を示す第２指標値を前記単位区間毎に算定する第２指標算定手段（例えば図１０の指標算定部５４）と、前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第１指標値と前記第２指標値とに基づいて判定する判定手段とを具備する。以上の態様においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度と母音の音響モデルに対する入力音の類否とに基づいて各単位区間内の入力音が音声か非音声かを判定するから、入力音の周波数スペクトルを利用する特許文献１の技術と比較して高精度に音声／非音声を識別することが可能である。
【０００５】
本発明の好適な態様に係る音処理装置は、第１指標値と第２指標値との加重和を第３指標値として算定する第３指標算定手段（例えば図１０の指標算定部６２）を具備し、判定手段は、各単位区間の入力音が音声か非音声かを当該単位区間の第３指標値に基づいて判定する。以上の態様においては、第１指標値と第２指標値との加重和を適宜に選定することで、第１指標値および第２指標値の何れを音声／非音声の判定に優先させるかを設定することが可能である。
【０００６】
第３指標算定手段を具備する構成において、第３指標算定手段が第３指標値の算定に適用する加重値を入力音のＳＮ比に応じて可変に設定する加重値設定手段をさらに設置してもよい。例えば、第１指標値が第２指標値と比較して入力音の雑音の影響を受け易いという傾向を前提とすると、加重値設定手段は、入力音のＳＮ比が低いほど第２指標値の加重値を第１指標値の加重値に対して相対的に増加させる（すなわち第２指標値を優先させる）。以上の態様によれば、入力音の雑音に拘わらず入力音の音声／非音声を高精度に判定することが可能となる。
【０００７】
本発明の第２の態様に係る音処理装置は、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第１指標値を算定する第１指標算定手段（例えば図２の指標算定部３４）と、各単位区間の入力音が音声か非音声かを第１指標値に基づいて判定する判定手段とを具備する。以上の態様においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に基づいて各単位区間内の入力音が音声か非音声かを判定するから、入力音の周波数スペクトルを利用する特許文献１の技術と比較して高精度に音声／非音声を識別することが可能である。
【０００８】
変調スペクトルのうち第１指標値の算定に使用される範囲は、入力音が音声および非音声の一方である場合に当該範囲内の変調スペクトルの強度が高くなり、入力音が音声および非音声の他方である場合に当該範囲外の変調スペクトルの強度が高くなるように実験的または統計的に設定される。いま、入力音が音声である場合に変調スペクトルのうち変調周波数が所定の境界値（例えば１０Ｈz）を下回る範囲内の強度が高くなり、入力音が非音声である場合に変調スペクトルのうち変調周波数が境界値を上回る範囲内の強度が高くなるという傾向に着目する。変調スペクトルのうち変調周波数が境界値を下回る成分の強度が高いほど増加するように第１指標値が定義される場合、判定手段は、例えば、第１指標値が閾値を上回る場合に入力音を音声と判定し、第１指標値が閾値を下回る場合に入力音を非音声と判定する。また、変調スペクトルのうち変調周波数が境界値を下回る成分の強度が高いほど減少するように第１指標値が定義される場合、判定手段は、例えば、第１指標値が閾値を下回る場合に入力音を音声と判定し、第１指標値が閾値を上回る場合に入力音を非音声と判定する。また、変調スペクトルのうち変調周波数が境界値を上回る成分の強度が高いほど増加するように第１指標値が定義される場合、判定手段は、例えば、第１指標値が閾値を上回る場合に入力音を非音声と判定し、第１指標値が閾値を下回る場合に入力音を音声と判定する。また、変調スペクトルのうち変調周波数が境界値を上回る成分の強度が高いほど減少するように第１指標値が定義される場合、判定手段は、第１指標値が閾値を上回る場合に入力音を音声と判定し、第１指標値が閾値を下回る場合に入力音を非音声と判定する。以上に例示した総ての態様が、第１の態様または第２の態様における「入力音が音声か非音声かを第１指標値に基づいて判定する」という処理の概念に含まれる。
【０００９】
第１の態様または第２の態様に係る音処理装置において、例えば、第１指標算定手段は、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度と当該所定の範囲を包含する範囲（すなわち所定の範囲を含んで当該範囲よりも広い範囲）に属する成分の強度との相対比に基づいて第１指標値を算定する。以上の態様においては、変調スペクトルのうち所定の範囲内の成分の強度に加えて、当該範囲を包含する範囲（例えば変調周波数の全範囲）の成分の強度も第１指標値の算定に適用される。したがって、例えば変調スペクトルの広範囲にわたる強度が入力音の雑音の影響を受ける場合であっても、所定の範囲内の強度のみに基づいて第１指標値が算定される構成と比較して音声／非音声を高精度に判別することが可能である。
【００１０】
第１の態様または第２の態様に係る音処理装置は、例えば、変調スペクトルの強度の最大値を特定する強度特定手段を具備し、判定手段は、第１指標値と強度の最大値とに基づいて入力音が音声か非音声かを判定する。例えば、非音声の変調スペクトルの強度の最大値が音声の変調スペクトルの強度の最大値と比較して低いという傾向を前提とすると、判定手段は、変調スペクトルの強度の最大値が高いほど当該単位区間の入力音を音声と判定する可能性が高くなる（強度の最大値が低いほど入力音を非音声と判定する可能性が高くなる）ように音声／非音声を判定する。さらに具体的には、判定手段は、第１指標値からは音声と判定できる場合であっても、変調スペクトルの強度の最大値が閾値を下回る場合には入力音を非音声と判定する。以上の態様においては、第１指標値に加えて変調スペクトルの強度の最大値も音声／非音声の判定に利用されるから、非音声の変調スペクトルのうち強度が高い変調周波数の範囲と音声の変調スペクトルのうち強度が高い変調周波数の範囲とが近似する場合であっても、音声と非音声とを高精度に区別することが可能である。
【００１１】
第１の態様または第２の態様に係る音処理装置において、例えば、変調スペクトル特定手段は、入力音の対数スペクトルまたはケプストラムにおける特定の成分の時間軌跡を特定する成分抽出手段と、単位区間を区分した複数の分割区間の各々について時間軌跡をフーリエ変換する周波数分析手段と、単位区間の複数の分割区間の各々についてのフーリエ変換の結果を平均することで当該単位区間の変調スペクトルを特定する平均手段とを具備する。以上の態様においては、単位区間を区分した複数の分割区間の各々について対数スペクトルまたはケプストラムの時間軌跡のフーリエ変換が実行されるから、単位区間の全体にわたる時間軌跡に対してフーリエ変換を一括的に実行する場合と比較して、フーリエ変換の点数が削減される。したがって、変調スペクトル特定手段による処理の負荷や処理に必要な記憶容量が削減されるという利点がある。
【００１２】
本発明の第３の態様に係る音処理装置は、母音の音声から生成された音響モデルを記憶する記憶手段と、入力音と音響モデルとの類否を示す第２指標値を単位区間毎に算定する第２指標算定手段（例えば図９の指標算定部５４）と、各単位区間の入力音が音声か非音声かを当該単位区間の第２指標値に基づいて判定する判定手段とを具備する。以上の態様においては、母音の音声の音響モデルと入力音との類否に基づいて各単位区間内の入力音が音声か非音声かが判定されるから、入力音の周波数スペクトルを利用する特許文献１の技術と比較して高精度に音声／非音声を識別することが可能である。
【００１３】
第１の態様および第３の態様において、音声と音響モデルとの類似度が非音声と音響モデルとの類似度と比較して高いという傾向を前提とすると、判定手段は、第２指標値が閾値に対して類似側にある場合には入力音を音声と判定し、第２指標値が閾値に対して非類似側にある場合には入力音を非音声と判定する。例えば、入力音と音響モデルとが類似するほど増加するように第２指標値が定義された態様において、判定手段は、第２指標値が閾値を上回る場合に入力音を音声と判定する。また、入力音と音響モデルとが類似するほど減少するように第２指標値が定義された態様において、判定手段は、第２指標値が閾値を下回る場合に入力音を音声と判定する。
【００１４】
第１の態様および第３の態様に係る音処理装置の具体例において、記憶手段は、複数種の母音の音声から生成されたひとつの音響モデルを記憶する。以上の態様においては、複数種の母音の音声から統合的に生成されたひとつの音響モデルが使用されるから、母音の種類毎に別個の音響モデルが用意される構成と比較して、記憶手段に必要な容量が削減されるという利点がある。
【００１５】
第１ないし第３の態様の各々の具体例に係る音処理装置は、単位区間を区分した複数の区間のうち有声音の区間の割合に応じた有声指標値を算定する有声指標算定手段（例えば図１０の指標算定部７４）を具備し、判定手段は、有声指標値に基づいて入力音が音声か非音声かを判定する。例えば、音声のうち有声音の時間的な割合が非音声と比較して高いという傾向を前提とすると、判定手段は、有声音の割合が高いほど当該単位区間の入力音を音声と判定する可能性が高くなる（有声音の割合が低いほど非音声と判定する可能性が高くなる）ように音声／非音声を判定する。さらに具体的には、判定手段は、指標算定手段の算定した指標値（第１指標値ないし第３指標値の少なくともひとつ）からは音声と判定できる場合であっても、有声音の区間の割合が多い場合には入力音を非音声と判定する。以上の態様においては、変調スペクトルや音響モデルから算定された指標値に加えて有声指標値も音声／非音声の判定に利用されるから、第１の態様または第３の態様において非音声の変調スペクトルのうち強度が高い変調周波数の範囲と音声の変調スペクトルのうち強度が高い変調周波数の範囲とが近似する場合や、第２の態様または第３の態様において非音声と音声とで母音の音響モデルに対する類否が近似する場合であっても、音声と非音声とを高精度に区別することが可能である。
【００１６】
第１ないし第３の態様の各々の具体例に係る音処理装置は、入力音のＳＮ比に応じて閾値を可変に設定する閾値設定手段を具備し、判定手段は、入力音から算定された指標値（第１指標値，第２指標値，第３指標値，有声指標値，変調スペクトルの強度の最大値の何れか）と閾値との大小に応じて入力音が音声か非音声かを判定する。以上の態様においては、指標値と対比される閾値が入力音のＳＮ比に応じて閾値が可変に制御されるから、ＳＮ比の高低に拘わらず音声／非音声の精度を高い水準に維持することが可能である。
【００１７】
第１ないし第３の態様の各々の具体例に係る音処理装置は、相連続する３個以上の単位区間について判定手段が非音声と判定した場合に、３個以上の単位区間のなかの途中の単位区間の入力音のみを消音する音処理手段を具備する。以上の態様においては、非音声と判定された単位区間が消音されるから、入力音のうちの音声のみを受聴者が明確に知覚することが可能となる。また、非音声と判定された３個以上の単位区間のうち途中の単位区間（すなわち、３個以上の単位区間のうち最初の単位区間と最後の単位区間とを除いた少なくともひとつの単位区間）のみが消音されるから、音声の最初（３個以上のうちの最後の単位区間）と最後（３個以上のうちの最初の単位区間）とが音処理手段処理よって消音される可能性は低減される。
【００１８】
以上の総ての態様に係る音処理装置は、入力音の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。第１の態様に係るプログラムは、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第１指標値を算定する第１指標算定処理と、母音の音声から生成された音響モデルと入力音との類否を示す第２指標値を単位区間毎に算定する第２指標算定処理と、各単位区間の入力音が音声か非音声かを当該単位区間の第１指標値と第２指標値とに基づいて判定する判定処理とをコンピュータに実行させる。第２の態様に係るプログラムは、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第１指標値を算定する第１指標算定処理と、各単位区間の入力音が音声か非音声かを第１指標値に基づいて判定する判定処理とをコンピュータに実行させる。第３の態様に係るプログラムは、母音の音声から生成された音響モデルと入力音との類否を示す第２指標値を単位区間毎に算定する第２指標算定処理と、各単位区間の入力音が音声か非音声かを当該単位区間の第２指標値に基づいて判定する判定処理とをコンピュータに実行させる。本発明のプログラムによれば、以上の各態様に係る音処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【発明を実施するための最良の形態】
【００１９】
＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る遠隔会議システムのブロック図である。遠隔会議システム１００は、地理的に離間した空間Ｒ1と空間Ｒ2とで複数の利用者Ｕ（会議の参加者）が相互に音声を授受するシステムである。各空間Ｒ（Ｒ1，Ｒ2）には、収音機器１２と音処理装置１４と音処理装置１６と放音機器１８とが設置される。
【００２０】
収音機器１２は、空間Ｒ内に存在する入力音ＶINの波形を表す音響信号ＳINを生成する装置（マイクロホン）である。空間Ｒ1および空間Ｒ2の各々の音処理装置１４は、音響信号ＳINから出力信号ＳOUTを生成して空間Ｒ1および空間Ｒ2の他方の音処理装置１６に送信する。音処理装置１６は、出力信号ＳOUTを増幅して放音機器１８に出力する。放音機器１８は、音処理装置１６から供給される増幅後の出力信号ＳOUTに応じた音波を放射する装置（スピーカ）である。以上の構成により、空間Ｒ1内の各利用者Ｕの発声音が空間Ｒ2内の放音機器１８から出力され、空間Ｒ2内の各利用者Ｕの発声音が空間Ｒ1内の放音機器１８から出力される。
【００２１】
図２は、空間Ｒ1および空間Ｒ2の各々に設置される音処理装置１４の構成を示すブロック図である。図２に示すように、音処理装置１４は、制御装置２２と記憶装置２４とを具備する。制御装置２２は、プログラムを実行することで図２の各要素として機能する演算処理装置である。なお、図２の各要素はＤＳＰなどの電子回路によっても実現される。記憶装置２４は、制御装置２２が実行するプログラムや制御装置２２が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置２４として任意に利用される。
【００２２】
制御装置２２は、収音機器１２から供給される音響信号ＳIN（入力音ＶIN）を時間軸に沿って区分した複数の区間（以下「単位区間」という）の各々について当該入力音ＶINが音声および非音声の何れに該当するかを判定する機能と、音声／非音声の判定の結果に応じた処理を音響信号ＳINに対して実行することで出力信号ＳOUTを生成する機能とを実現する。音声は、人間が発声した発話音である。非音声は、音声以外の音響（例えば空間Ｒの扉の開閉音や空調設備の動作音や携帯電話機の着信音などの環境音（雑音））である。
【００２３】
図２の変調スペクトル特定部３２は、音響信号ＳIN（入力音ＶIN）の変調スペクトルＭSを特定する。変調スペクトルＭSは、音響信号ＳINの対数スペクトル（周波数スペクトル）のうち特定の周波数帯域に属する成分の時間的な変動（以下「時間軌跡」という）についてフーリエ変換を実行した結果である。
【００２４】
図３は、変調スペクトル特定部３２の機能的な構成を示すブロック図であり、図４は、変調スペクトル特定部３２による処理を説明するための概念図である。図３に示すように、変調スペクトル特定部３２は、周波数分析部３２２と成分抽出部３２４と周波数分析部３２６とで構成される。周波数分析部３２２は、フーリエ変換（例えばＦＦＴ（Fast Fourier Transform））を含む周波数分析を音響信号ＳINに対して実行することで、図４の部分(A)に示すように、音響信号ＳINを時間軸に沿って区分した複数のフレームの各々について対数スペクトルＳ0を算定する。したがって、対数スペクトルＳ0を時間軸に沿ってフレーム毎に配列したスペクトログラムＳPが生成される。なお、相前後する各フレームは部分的に重複してもよいし相互に重複しないように設定されてもよい。
【００２５】
図３の成分抽出部３２４は、図４の部分(A)および部分(B)に示すように、スペクトログラムＳPのうち特定の周波数帯域ωに属する成分の強度（エネルギ）の時間軌跡ＳTを抽出する。さらに詳述すると、成分抽出部３２４は、各フレームの対数スペクトルＳ0のうち周波数帯域ωに属する成分の強度を算定し、対数スペクトルＳ0の強度を複数のフレームついて時系列に配列することで時間軌跡ＳTを生成する。周波数帯域ωは、入力音ＶINが音声である場合の時間軌跡ＳTの周波数特性（変調スペクトルＭS）と入力音ＶINが非音声である場合の時間軌跡ＳTの周波数特性とが顕著に相違するように実験的または統計的に事前に選定される。例えば、周波数帯域ωは、１０Ｈz（さらに好適には５０Ｈz）から８００Ｈzまでの範囲に選定される。なお、各対数スペクトルＳ0におけるひとつの周波数の成分の強度の時系列を時間軌跡ＳTとして成分抽出部３２４が抽出する構成も採用される。
【００２６】
図３の周波数分析部３２６は、図４の部分(B)および部分(C)に示すように、時間軌跡ＳTに対してフーリエ変換（例えばＦＦＴ）を実行することで、時間軌跡ＳTを時間軸に沿って区分した複数の単位区間ＴUの各々について変調スペクトルＭSを算定する。単位区間ＴUは、複数のフレームで構成される所定の時間長（例えば１秒程度）の期間である。なお、本形態においては各単位区間ＴUが重複しない構成を便宜的に例示するが、相前後する各単位区間ＴUが部分的に重複する構成も採用される。
【００２７】
図５は音声（人間の発話音）の代表的な変調スペクトルＭSを示し、図６は非音声（収音機器１２の先端部を覆う網状の部分を引掻いたときのガリガリ音）の変調スペクトルＭSを示す。図５と図６との対比から理解されるように、変調スペクトルＭSのうち強度が高い変調周波数の範囲は音声と非音声とで相違するという傾向がある。
【００２８】
人間の通常の発話音（すなわち音声）の変調スペクトルＭSにおいては、発話中に音節が切替わる周波数に相当する４Ｈz程度の変調周波数にて強度が極大となる場合が多い。したがって、音声の変調スペクトルＭS（図５）においては変調周波数が１０Ｈz以下の低域の範囲で強度が高くなるのに対し、多くの非音声の変調スペクトルＭS（図６）においては変調周波数が１０Ｈzを上回る範囲で強度が高くなるという相違がある。以上の相違を考慮して、本形態においては、変調スペクトル特定部３２が特定した変調スペクトルＭSのうち変調周波数が所定の範囲（以下「判定対象範囲」という）Ａに属する成分の強度に応じて入力音ＶINが音声か非音声かを判定する。本形態においては１０Ｈz以下の範囲（さらに好適には２Ｈzから８Ｈzの範囲）を判定対象範囲Ａに設定する。
【００２９】
図２の指標算定部３４は、変調スペクトル特定部３２が各単位区間ＴUについて特定した変調スペクトルＭSについて、判定対象範囲Ａに属する成分の強度（エネルギ）に応じた指標値Ｄ1を算定する。さらに詳述すると、指標算定部３４は、第１に、変調スペクトルＭSのうち変調周波数が判定対象範囲Ａに属する成分の強度（例えば判定対象範囲Ａ内の各変調周波数における強度の加算値や平均値）Ｌ1と、変調周波数の全範囲にわたる変調スペクトルＭSの強度（総ての変調周波数における強度の加算値や平均値）Ｌ2とを算定する。第２に、指標算定部３４は、強度Ｌ1と強度Ｌ2との相対比（Ｌ1／Ｌ2）を含む以下の演算式(A)に基づいて指標値Ｄ1を算定する。
Ｄ1＝１−（Ｌ1／Ｌ2） ……(A)
演算式(A)の内容から理解されるように、変調スペクトルＭSのうち判定対象範囲Ａ内の成分の強度Ｌ1が高いほど（すなわち入力音ＶINが音声である可能性が高いほど）指標値Ｄ1は小さい数値となる。したがって、指標値Ｄ1は、入力音ＶINが音声であるか非音声であるかの指標となる。また、判定対象範囲Ａには発話時に音節が切替わる周波数が含まれるから、指標値Ｄ1は、音声に特有なリズム（発話のリズム）が入力音ＶINに含まれるか否かの指標としても把握される。
【００３０】
ただし、変調スペクトルＭSにおける判定対象範囲Ａ内の成分の強度が他の範囲と比較して相対的に高い非音声も存在する。図７に示す非音声（電話機のプッシュトーン）の変調スペクトルＭSにおいては判定対象範囲Ａに含まれる５Ｈzから８Ｈz程度の変調周波数にて強度のピークが発生する。しかし、図７のような特性の非音声においては、変調スペクトルＭSの強度の最大値Ｐが音声と比較して低いという傾向がある。以上の傾向を考慮して、本形態においては、指標値Ｄ1と変調スペクトルＭSの強度の最大値Ｐとに基づいて入力音ＶINが音声か非音声かを判定する。図２の強度特定部３６は、変調スペクトルＭSの強度の最大値Ｐを単位区間ＴU毎に特定する。
【００３１】
判定部４２は、指標算定部３４が算定した指標値Ｄ1と強度特定部３６が特定した最大値Ｐとに基づいて各単位区間ＴUの入力音ＶINが音声か非音声かを判定し、判定の結果（音声／非音声の区別）を示す識別データｄを単位区間ＴU毎に生成する。図８は、判定部４２の具体的な動作を示すフローチャートである。図８の処理は、指標値Ｄ1と最大値Ｐとがひとつの単位区間ＴUについて特定されるたびに実行される。
【００３２】
判定部４２は、指標値Ｄ1が閾値ＴＨd1を上回るか否かを判定する（ステップＳA1）。閾値ＴＨd1は、音声の指標値Ｄ1が閾値ＴＨd1を下回るとともに非音声の指標値Ｄ1が閾値ＴＨd1を上回るように実験的または統計的に選定される。ステップＳA1の結果が肯定である場合（例えば入力音ＶINが図６の特性の非音声である場合）、判定部４２は、今回の処理の対象である単位区間ＴUの入力音ＶINを非音声と判定する（ステップＳA2）。すなわち、判定部４２は、非音声を示す識別データｄを生成する。
【００３３】
一方、ステップＳA1の結果が否定である場合、判定部４２は、変調スペクトルＭSの強度の最大値Ｐが閾値ＴＨpを下回るか否かを判定する（ステップＳA3）。ステップＳA3の結果が肯定である場合、判定部４２は、処理をステップＳA2に移行して非音声を示す識別データｄを生成する。すなわち、指標値Ｄ1のみを考慮すれば入力音ＶINを音声と判定できる場合であっても、最大値Ｐが閾値ＴＨpを下回る場合（例えば入力音ＶINが図７の特性の非音声である場合）には入力音ＶINは非音声と判定される。
【００３４】
ステップＳA3の結果が否定である場合（例えば入力音ＶINが図５の特性の音声である場合）、判定部４２は、今回の処理の対象である単位区間ＴUの入力音ＶINを音声と判定する（ステップＳA4）。すなわち、判定部４２は、音声を示す識別データｄを生成する。以上のように、変調スペクトルＭSにおける判定対象範囲Ａ内の強度Ｌ1および強度の最大値Ｐの双方が高い単位区間ＴUの入力音ＶINのみが音声と判定される。
【００３５】
図２の音処理部４４は、各単位区間ＴUの識別データｄに応じた処理を当該単位区間ＴUの音響信号ＳINに対して実行することで出力信号ＳOUTを生成する。例えば、音処理部４４は、識別データｄが音声を示す単位区間ＴUについては音響信号ＳINを出力信号ＳOUTとして出力する一方、識別データｄが非音声を示す単位区間ＴUついては音量をゼロに設定した出力信号ＳOUTを出力する（すなわち音響信号ＳINを出力しない）。したがって、空間Ｒ1および空間Ｒ2の各々においては、他方の空間Ｒ内の入力音ＶINのうちの非音声が除去され、利用者が本来的に受聴する必要のある音声のみが音処理装置１６を介して放音機器１８から放射される。
【００３６】
以上に説明したように、本形態においては、変調スペクトルＭSのうち判定対象範囲Ａ内の成分の強度Ｌ1（発話のリズムの有無）に基づいて音声／非音声が判定されるから、入力音ＶINの周波数スペクトルを利用する特許文献１の技術と比較して高精度に音声／非音声を識別することが可能である。また、判定対象範囲Ａ内の成分の強度Ｌ1に加えて変調スペクトルＭSの強度の最大値Ｐも判定に使用されるから、判定対象範囲Ａ内の成分の強度Ｌ1が他の範囲と比較して高い非音声についても非音声と判定することが可能である。
【００３７】
なお、非音声の音量が大きい場合には、変調周波数の全帯域にわたって変調スペクトルＭSは高い強度となる。したがって、変調スペクトルＭSの判定対象範囲Ａ内の強度Ｌ1のみに基づいて入力音ＶINの音声／非音声を識別する構成においては、音量の大きい非音声が音声と誤判定される可能性が高まる。本形態においては、判定対象範囲Ａ内の強度Ｌ1と変調周波数の全範囲にわたる強度Ｌ2との相対比に基づいて音声／非音声が判定されるから、非音声の音量が大きい場合であっても音声／非音声を正確に判定できるという利点がある。
【００３８】
＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。以下の各形態において作用や機能が第１実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
【００３９】
図９は、音処理装置１４のブロック図である。本形態の記憶装置２４にはひとつの音響モデルＭが記憶される。音響モデルＭは、多数の話者による複数種の母音の発声音の平均的な音響特性をモデル化した統計モデルである。本形態の音響モデルＭは、音声の特徴量（例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficient））の分布を確率分布の加重和としてモデル化する。例えば、音声の特徴量を複数の正規分布の加重和としてモデル化するガウス混合モデル（ＧＭＭ（Gaussian Mixture Model））が音響モデルＭとして好適である。
【００４０】
音響モデルＭは、例えば制御装置２２が以下の処理を実行することで作成される。第１に、制御装置２２は、多数の話者が様々な文章を発話したときの音声を採取して各々を音韻毎に区分し、複数種の母音（ａ,ｉ,ｕ,ｅ,ｏ）に相当する部分の波形のみを抽出する。第２に、制御装置２２は、母音に相当する各部分の波形を時間軸に沿って区分した複数のフレームの各々について音響的な特徴量（特徴ベクトル）を抽出する。各フレームの時間長は例えば２０ミリ秒であり、相前後する各フレームの時間差は１０ミリ秒程度である。第３に、制御装置２２は、多数の音声から抽出された特徴量を複数種の母音について統合的に処理することで音響モデルＭを生成する。音響モデルＭの生成には、例えばＥＭ（Expectation-Maximization）アルゴリズムなど公知の技術が任意に採用される。なお、母音の特徴量は直前の音韻（子音）に影響されるから、以上の手順で生成された音響モデルＭは純粋に母音の特性のみをモデル化した統計モデルではない。すなわち、音響モデルＭは、複数の母音を中心として作成された統計モデル（あるいは音声の有声音の統計モデル）と言える。
【００４１】
図９に示すように、音処理装置１４は、図２の変調スペクトル特定部３２と指標算定部３４と強度特定部３６とに代えて特徴抽出部５２と指標算定部５４とを具備する。特徴抽出部５２は、音響モデルＭの生成に利用された特徴量と同種の特徴量（例えばＭＦＣＣ）Ｘを音響信号ＳINの各フレームについて抽出する。特徴抽出部５２による特徴量Ｘの抽出には公知の技術が任意に採用される。
【００４２】
指標算定部５４は、音響信号ＳINが表す入力音ＶINと音響モデルＭとの類否に応じた指標値Ｄ2を音響信号ＳINの各単位区間ＴUについて算定する。さらに詳述すると、指標値Ｄ2は、各フレームの音響信号ＳINについて抽出された特徴量Ｘが音響モデルＭから発生する尤度（確率）ｐ(X|M)を単位区間ＴU内の総て（ｎ個）のフレームについて平均化した数値である。すなわち、指標値Ｄ2は以下の演算式(B)で算定される。
【数１】

演算式(B)から理解されるように、音響モデルＭと単位区間ＴU内の入力音ＶINとで特徴量が類似するほど指標値Ｄ2は小さくなる。非音声と比較すると音声は母音の割合が多い（したがって音響モデルＭとの音色の類似の程度が高い）という傾向がある。したがって、入力音ＶINが音声である場合に算定される指標値Ｄ2は、入力音ＶINが非音声である場合に算定される指標値Ｄ2と比較して小さい数値となる。すなわち、指標値Ｄ2は、入力音ＶINが音声であるか非音声であるかの指標となる。したがって、音響モデルＭは、音声（人間の発話音）の統計モデルとしても把握される。
【００４３】
図９の判定部４２は、指標算定部５４が算定した指標値Ｄ2に基づいて各単位区間ＴUの入力音ＶINが音声か非音声かを判定し、判定の結果を示す識別データｄを単位区間ＴU毎に生成する。指標値Ｄ2は、入力音ＶINと音響モデルＭとの音色の類似性を示す数値となる。すなわち、第１実施形態においては入力音ＶINのリズム（判定対象範囲Ａ内の強度Ｌ1）が音声らしいか否かを判定するのに対し、本形態においては入力音ＶINの音色が音声らしいか否かを判定する。
【００４４】
さらに詳述すると、判定部４２は、各単位区間ＴUの指標値Ｄ2が所定の閾値ＴＨd2を上回るか否かを判定する。閾値ＴＨd2は、音声の指標値Ｄ2が閾値ＴＨd2を下回るとともに非音声の指標値Ｄ2が閾値ＴＨd2を上回るように実験的または統計的に選定される。判定の結果が肯定である場合（Ｄ2＞ＴＨd2）、判定部４２は、当該単位区間ＴUの入力音ＶINを非音声と判定して識別データｄを生成する。一方、判定の結果が否定である場合（Ｄ2＜ＴＨd2）、判定部４２は、当該単位区間ＴUの入力音ＶINを音声と判定して識別データｄを生成する。識別データｄに応じた音処理部４４の動作は第１実施形態と同様である。
【００４５】
以上に説明したように、本形態においては、母音の音声をモデル化した音響モデルＭとの類否に応じて音声／非音声が判定されるから、入力音ＶINの周波数スペクトルを利用する特許文献１の技術と比較して高精度に音声／非音声を識別することが可能である。また、複数種の母音を統合的にモデル化したひとつの音響モデルＭが記憶装置２４に格納されるから、複数種の母音の各々について個別の音響モデルが用意される構成と比較して、記憶装置２４に必要な容量が低減されるという利点がある。
【００４６】
＜Ｃ：第３実施形態＞
図１０は、本発明の第３実施形態に係る音処理装置１４のブロック図である。第１実施形態と同様に、図１０の変調スペクトル特定部３２および指標算定部３４は入力音ＶINの単位区間ＴU毎に指標値Ｄ1を算定し、強度特定部３６は変調スペクトルＭSの強度の最大値Ｐを特定する。また、特徴抽出部５２および指標算定部５４は、第２実施形態と同様に、入力音ＶINの単位区間ＴU毎に指標値Ｄ2を算定する。
【００４７】
指標算定部６２は、指標算定部３４が算定した指標値Ｄ1と指標算定部５４が算定した指標値Ｄ2との加重和を指標値Ｄ3として算定する。指標値Ｄ3は、例えば以下の演算式(C)で算定される。
Ｄ3＝Ｄ1＋α・Ｄ2 ……(C)
演算式(C)から理解されるように、入力音ＶINが音声である可能性が高いほど（すなわち、変調スペクトルＭSのうち判定対象範囲Ａ内の強度Ｌ1が高いほど、または、音響モデルＭと単位区間ＴU内の入力音ＶINとで特徴量が類似するほど）、指標値Ｄ3は小さい数値となる。加重値αは、図１０の加重値設定部６６が設定した正数（α＞０）である。指標算定部６２が算定した指標値Ｄ3は、判定部４２における音声／非音声の判定に利用される。
【００４８】
図１０のＳＮ比特定部６４は、音信号ＳIN（入力音ＶIN）のＳＮ比Ｒを単位区間ＴU毎に算定する。加重値設定部６６は、各単位区間ＴUの指標値Ｄ3の算定に指標算定部６２が適用する加重値αを、当該単位区間ＴUについてＳＮ比特定部６４が算定したＳＮ比Ｒに基づいて可変に設定する。
【００４９】
ここで、変調スペクトルＭSから算定される指標値Ｄ1は、音響モデルＭから算定される指標値Ｄ2と比較すると入力音ＶINの雑音に影響され易いという傾向がある。そこで、加重値設定部６６は、ＳＮ比Ｒが低い（雑音が多い）ほど加重値αが増加するように加重値αを可変に制御する。以上の構成によれば、ＳＮ比Ｒが低いほど指標値Ｄ3における指標値Ｄ2の影響が相対的に増加する（雑音の影響を受け易い指標値Ｄ1の影響が低減される）から、入力音ＶINに雑音が重畳された場合であっても音声／非音声を高精度に判定することが可能である。
【００５０】
図１０の有声無声判別部７２は、複数のフレームの各々について入力音ＶINが有声音か無声音かを判定する。有声無声判別部７２による判定には公知の技術が任意に採用される。例えば、有声無声判別部７２は、入力音ＶINの各フレームについてピッチ（基本周波数）の検出を実行し、有意なピッチが検出されたフレームを有声音と判定する一方、明確なピッチが検出されなかったフレームを無声音と判定する。
【００５１】
指標算定部７４は、音響信号ＳINの各単位区間ＴUについて有声指標値ＤVを算定する。有声指標値ＤVは、単位区間ＴU内のｎ個のフレームのうち有声無声判別部７２が有声音と判定したフレームの個数ＮVの割合（ＤV＝ＮV／ｎ）である。音声（人間の発話音）は非音声と比較して有声音の割合が高いという傾向がある。したがって、入力音ＶINが音声である場合に算定される有声指標値ＤVは、入力音ＶINが非音声である場合に算定される有声指標値ＤVと比較して大きい数値となる。
【００５２】
図１０の判定部４２は、指標算定部６２が算定した指標値Ｄ3と強度特定部３６が特定した最大値Ｐと指標算定部７４が算定した有声指標値ＤVとに基づいて各単位区間ＴUの入力音ＶINが音声か非音声かを判定し、判定の結果を示す識別データｄを単位区間ＴU毎に生成する。図１１は、判定部４２の具体的な動作を示すフローチャートである。図１１の処理は、指標値Ｄ3と最大値Ｐと有声指標値ＤVとがひとつの単位区間ＴUについて特定されるたびに実行される。
【００５３】
判定部４２は、指標値Ｄ3が閾値ＴＨd3を上回るか否かを判定する（ステップＳB1）。閾値ＴＨd3は、音声の指標値Ｄ3が閾値ＴＨd3を下回るとともに非音声の指標値Ｄ3が閾値ＴＨd3を上回るように実験的または統計的に選定される。ステップＳB1の結果が肯定である場合、判定部４２は、今回の単位区間ＴUの入力音ＶINを非音声と判定して識別データｄを生成する（ステップＳB2）。
【００５４】
一方、ステップＳB1の結果が否定である場合、判定部４２は、図８のステップＳA3と同様に、最大値Ｐが閾値ＴＨpを下回るか否かを判定する（ステップＳB3）。ステップＳB3の結果が肯定である場合、判定部４２は、非音声を示す識別データｄをステップＳB2にて生成する。ステップＳB3の結果が否定である場合、判定部４２は、有声指標値ＤVが閾値ＴＨdvを下回るか否かを判定する（ステップＳB4）。
【００５５】
ステップＳB4の結果が肯定である場合（すなわち単位区間ＴUにおいて有声音のフレームの割合が少ない場合）、判定部４２は、非音声を示す識別データｄをステップＳB2にて生成する。一方、ステップＳB4の結果が否定である場合、判定部４２は、今回の単位区間ＴUの入力音ＶINを音声と判定して識別データｄを生成する。識別データｄに応じた音処理部４４の動作は第１実施形態と同様である。
【００５６】
以上に説明したように、本形態においては、入力音ＶINのリズム（指標値Ｄ1）および音色（指標値Ｄ2）の双方の観点から音声／非音声が判定されるから、第１実施形態や第２実施形態と比較して入力音ＶINを高精度に音声と非音声とに区別することが可能である。また、指標値Ｄ1および指標値Ｄ2に加えて有声指標値ＤVも音声／非音声の判定に適用されるから、例えばリズムや音色が音声に類似する入力音ＶINであっても、有声指標値ＤVが低い場合には非音声と判定することができる。
【００５７】
＜Ｄ：変形例＞
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。
【００５８】
（１）変形例１
変調スペクトル特定部３２は図１２の構成に変更される。図１２の変調スペクトル特定部３２は、図３と同様の周波数分析部３２２と成分抽出部３２４と周波数分析部３２６とに加えて平均部３２８を具備する。成分抽出部３２４が生成した時間軌跡ＳTは、単位区間ＴUをさらに分割したｍ個の区間（以下「分割区間」という）に区分される（ｍは２以上の自然数）。周波数分析部３２６は、各分割区間の時間軌跡ＳTに対してフーリエ変換を実行することで分割区間毎に変調スペクトルを算定する。平均部３２８は、単位区間ＴUを構成する各分割区間について算定されたｍ個の変調スペクトルを平均することで当該単位区間ＴUの変調スペクトルＭSを算定する。図１２の構成によれば、周波数分析部３２６が実行するフーリエ変換の点数が第１実施形態と比較して削減されるから、周波数分析部３２６によるフーリエ変換の負荷（計算量）やフーリエ変換に必要な記憶装置２４の容量が削減されるという利点がある。
【００５９】
（２）変形例２
音声／非音声の判定に使用される閾値ＴＨ（ＴＨd1，ＴＨd2，ＴＨd3，ＴＨp，ＴＨdv）が可変に制御される構成も好適である。例えば図１３に示すように、第３実施形態の音処理装置１４に閾値設定部６８が追加される。閾値設定部６８は、ＳＮ比特定部６４が算定したＳＮ比Ｒに応じて閾値ＴＨを可変に制御する。
【００６０】
入力音ＶINが実際には音声であっても、ＳＮ比Ｒが低い場合には、判定部４２が入力音ＶINを非音声と誤判定する可能性が高まる。そこで、閾値設定部６８は、ＳＮ比特定部６４の算定したＳＮ比Ｒが低いほど、入力音ＶINが音声と判定され易くなる方向に各閾値ＴＨを制御する。例えば、ＳＮ比Ｒが低いほど閾値ＴＨd3を増加させるとともに閾値ＴＨpや閾値ＴＨdvを減少させる。以上の構成によれば、実際には音声を含む入力音ＶINが非音声と誤判定される可能性を低減することができる。なおＳＮ比Ｒ以外の数値（例えば入力音ＶINの音量）に応じて閾値ＴＨを可変に制御する構成も採用される。また、図１３においては第３実施形態の変形を例示したが、第１実施形態や第２実施形態の音処理装置１４についても同様に、ＳＮ比特定部６４と閾値設定部６８とを追加した構成が採用される。
【００６１】
（３）変形例３
以上の各形態において、単位区間ＴUに含まれる音声の割合が少ない場合（例えば単位区間ＴUのなかの短い区間のみに音声が含まれる場合）には、当該単位区間ＴUは非音声と判定される可能性がある。したがって、非音声と判定された総ての単位区間ＴUについて一律に入力音ＶINを消音する構成においては、音声の開始や終了の部分（特に無声子音の部分）を僅かに含む単位区間ＴUが非音声と判定されて消音される場合がある。そこで、複数の単位区間ＴUについての判定部４２による判定を考慮して各単位区間ＴU内の入力音ＶINの消音を実行する構成が好適である。
【００６２】
例えば、ひとつの単位区間ＴUが非音声と判定された段階では音処理部４４は当該単位区間ＴUの消音を実行せず、図１４に示すように、相連続するｋ個（ｋは３以上の自然数）の単位区間ＴUについて入力音ＶINが非音声と判定された場合に、音処理部４４は、ｋ個の単位区間ＴUのうち最初（第１番目）と最後（第ｋ番目）の単位区間ＴUを除外した各単位区間ＴU（すなわちｋ個の集合のなかの途中の単位区間ＴU）の入力音ＶINを消音する。第１番目と第ｋ番目の単位区間ＴUについては入力音ＶINは消音されない。例えば、非音声と判定された３個（ｋ＝３）の単位区間ＴUのうち第２番目の単位区間ＴUの入力音ＶINのみが消音される。以上の構成によれば、始点の直後のみに音声を含む単位区間ＴU（例えば図１４のｋ個の単位区間ＴUのうち第１番目の単位区間ＴU）や終点の直前に音声を含む単位区間ＴU（例えば図１４の第ｋ番目の単位区間ＴU）について消音が実行されないから、音声の欠落が防止されるという利点がある。
【００６３】
（４）変形例４
各指標値Ｄ（Ｄ1，Ｄ2，Ｄ3）の定義は適宜に変更される。したがって、各指標値Ｄ（Ｄ1，Ｄ2，Ｄ3）の大小と音声／非音声との関係は任意である。例えば、第１実施形態においては指標値Ｄ1が小さいほど入力音ＶINが音声と判定される可能性が高くなるように指標値Ｄ1を定義したが、例えば強度Ｌ2に対する強度Ｌ1の相対比を指標値Ｄ1（Ｄ1＝Ｌ1／Ｌ2）と定義すれば、指標値Ｄ1が大きいほど音声と判定される可能性が高くなる。また、ひとつの加重値αを使用して指標値Ｄ3を定義したが、指標値Ｄ1と指標値Ｄ2とで独立に設定した加重値（β，γ）を適用して指標値Ｄ3（Ｄ3＝β・Ｄ1＋γ・Ｄ2）を算定する構成も好適である。また、指標値Ｄ3の算定に使用される加重値（α，β，γ）は固定値であってもよい。
【００６４】
（５）変形例５
第１実施形態および第３実施形態においては対数スペクトルＳ0において周波数帯域ωに属する成分の時間軌跡ＳTに対してフーリエ変換を実行することで変調スペクトルＭSを特定したが、音響信号ＳIN（入力音ＶIN）のケプストラムの時間軌跡に対してフーリエ変換を実行することで変調スペクトルＭSを特定する構成も採用される。さらに詳述すると、変調スペクトル特定部３２の周波数分析部３２２は、音響信号ＳINの各フレームについてケプストラムを算定し、成分抽出部３２４は、各フレームのケプストラムのうちケフレンシが特定の範囲内にある成分の時間軌跡ＳTを抽出し、周波数分析部３２６は、ケプストラムの時間軌跡ＳTに対して単位区間ＴU毎（または変形例１のように分割期間毎）にフーリエ変換を実行することで各単位区間ＴUの変調スペクトルＭSを算定する。
【００６５】
（６）変形例６
音声／非音声の判定に使用される変数は適宜に変更される。例えば、第１実施形態や第３実施形態においては最大値Ｐに応じた判定（図８のステップＳA3や図１１のステップＳB3）を省略してもよいし、第３実施形態においては有声指標値ＤVに応じた判定（図１１のステップＳB4）を省略してもよい。また、第１実施形態や第２実施形態に有声無声判定部７２および指標算定部７４を追加した構成も好適である。
【００６６】
（７）変形例７
以上の各形態においては、入力音ＶINを収音した空間Ｒ内の音処理装置１４にて識別データｄおよび出力信号ＳOUTを生成したが、識別データｄを生成する位置や出力信号ＳOUTを生成する位置は適宜に変更される。例えば、収音機器１２が生成した音響信号ＳINと判定部４２の生成した識別データｄとを音処理装置１４が出力する構成においては、音響信号ＳINと識別データｄとから出力信号ＳOUTを生成する音処理部４４が受信側の音処理装置１６に配置される。また、収音機器１２が生成した音響信号ＳINを音処理装置１４が送信する構成においては、受信側の音処理装置１６に図２と同様の要素が設置される。もっとも、遠隔会議システム１００は本発明の用途の例示に過ぎない。したがって、出力信号ＳOUTや音響信号ＳINの送受信は本発明において必須ではない。
【００６７】
（８）変形例８
以上の各形態においては、非音声と判定された単位区間ＴUの音響信号ＳINを音処理部４４が出力しない（出力信号ＳOUTの音量をゼロに設定する）構成を例示したが、音処理部４４による処理の内容は適宜に変更される。例えば、非音声と判定された単位区間ＴUについて音響信号ＳINの音量を低下させた信号を音処理部４４が出力信号ＳOUTとして出力する構成や、音声と判定された単位区間ＴUと非音声と判定された単位区間ＴUとで別個の音響的な効果を音響信号ＳINに付与した信号を音処理部４４が出力信号ＳOUTとして出力する構成も好適である。また、出力信号ＳOUTの出力先（音処理装置１６）において音声認識や話者認識（話者識別または話者認証）が実行される構成において、音処理部４４は、例えば、音声と判定された単位区間ＴUについては、音声認識や話者認識に使用される特徴量を音響信号ＳINから抽出して出力信号ＳOUTとして出力する一方、非音声と判定された単位区間ＴUについては特徴量の抽出を停止する。
【図面の簡単な説明】
【００６８】
【図１】本発明の第１実施形態に係る遠隔会議システムのブロック図である。
【図２】図１の音処理装置のブロック図である。
【図３】図２の変調スペクトル特定部のブロック図である。
【図４】図２の変調スペクトル特定部による処理の手順を示す概念図である。
【図５】音声の変調スペクトルである。
【図６】非音声の変調スペクトルである。
【図７】非音声の変調スペクトルである。
【図８】図２の判定部の動作を示すフローチャートである。
【図９】本発明の第２実施形態に係る音処理装置のブロック図である。
【図１０】本発明の第３実施形態に係る音処理装置のブロック図である。
【図１１】図１０の判定部の動作を示すフローチャートである。
【図１２】変形例に係る変調スペクトル特定部のブロック図である。
【図１３】変形例に係る音処理装置のブロック図である。
【図１４】変形例に係る音処理部の動作を示す概念図である。
【符号の説明】
【００６９】
１００……遠隔会議システム、１２……収音機器、１４……音処理装置、１６……音処理装置、１８……放音機器、２２……制御装置、２４……記憶装置、３２……変調スペクトル特定部、３２２……周波数分析部、３２４……成分抽出部、３２６……周波数分析部、３２８……平均部、３４，５４，６２，７４……指標算定部、３６……強度特定部、４２……判定部、４４……音処理部、５２……特徴抽出部、６４……ＳＮ比特定部、６６……加重値設定部、６８……閾値設定部、７２……有声無声判別部、ＶIN……入力音、ＳIN……音響信号、ＳOUT……出力信号、ｄ……識別データ、ＭS……変調スペクトル、Ｍ……音響モデル、Ｄ1，Ｄ2，Ｄ3……指標値、Ｐ……変調スペクトルの強度の最大値、Ｒ……ＳＮ比、ＴU……単位区間。

【特許請求の範囲】
【請求項１】
複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第１指標値を算定する第１指標算定手段と、
母音の音声から生成された音響モデルを記憶する記憶手段と、
前記入力音と前記音響モデルとの類否を示す第２指標値を前記単位区間毎に算定する第２指標算定手段と、
前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第１指標値と前記第２指標値とに基づいて判定する判定手段と
を具備する音処理装置。
【請求項２】
前記記憶手段は、複数種の母音の音声から生成されたひとつの前記音響モデルを記憶する
請求項１の音処理装置。
【請求項３】
前記第１指標値と前記第２指標値との加重和を第３指標値として算定する第３指標算定手段を具備し、
前記判定手段は、前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第３指標値に基づいて判定する
請求項１または請求項２の音処理装置。
【請求項４】
前記第３指標算定手段が第３指標値の算定に適用する加重値を前記入力音のＳＮ比に応じて可変に設定する加重値設定手段
を具備する請求項３の音処理装置。
【請求項５】
前記単位区間を区分した複数の区間のうち有声音の区間の割合に応じた有声指標値を算定する有声指標算定手段を具備し、
前記判定手段は、前記第１指標値と前記第２指標値と前記有声指標値とに基づいて前記入力音が音声か非音声かを判定する
請求項１から請求項４の何れかの音処理装置。
【請求項６】
相連続する３個以上の単位区間について前記判定手段が非音声と判定した場合に、前記３個以上の単位区間のなかの途中の単位区間の入力音のみを消音する音処理手段
を具備する請求項１から請求項５の何れかの音処理装置。
【請求項７】
複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第１指標値を算定する第１指標算定処理と、
母音の音声から生成された音響モデルと前記入力音との類否を示す第２指標値を前記単位区間毎に算定する第２指標算定処理と、
前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第１指標値と前記第２指標値とに基づいて判定する判定処理と
をコンピュータに実行させるプログラム。

【図１】