音声処理装置およびプログラム

【課題】発声者の位置が変化した場合における音声認識の精度の低下を抑制する。
【解決手段】位置特定部１４は、音声信号Ｓから各発声者の方向ｊを特定する。話者識別部１６は、音声信号Ｓが表わす各音声の発声者を区別する。適応モデル生成部２４は、位置特定部１４が適応用の音声信号Ｓ1から特定した方向ｊと話者識別部１６が音声信号Ｓ1から区別した発声者との組合せに対応した音響モデルＭを音声信号Ｓ1に応じて生成する。音声認識部２６は、位置特定部１４が認識用の音声信号Ｓ1から特定した方向ｊと話者識別部１６が音声信号Ｓ2から区別した発声者との組合せに対応した音響モデルＭに基づいて、音声信号Ｓ2が表わす音声に対応した文字を特定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声を認識する技術に関する。
【背景技術】
【０００２】
隠れマルコフモデルなどの音響モデルを利用して音声を認識（さらには音声に対応した文字を出力）する音声認識の技術が従来から提案されている。例えば特許文献１には、音声信号から抽出された複数の特徴量の各々に対応する複数の音響モデル候補を事前に作成し、複数の音響モデル候補のうち音響的に音声信号に近似する音響モデルを選択して音声認識に利用する技術が開示されている。
【特許文献１】特開２００３−２０２８９１号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
ところで、発声者が特定の空間内で発声した音声は、当該空間の音響的な特性（例えば壁面における反射特性や吸音特性）が付加されたうえで収音機器に収音される。発声音に付加される音響的な特性は空間内の発声者の位置に応じて変化する。したがって、複数の音響モデル候補の各々に発声者の位置が反映されない特許文献１の技術においては、発声者の位置が変化した場合に音声認識の精度が低下するという問題がある。以上の事情を背景として、本発明は、発声者の位置が変化した場合における音声認識の精度の低下を抑制するという課題の解決をひとつの目的としている。
【課題を解決するための手段】
【０００４】
以上の課題を解決するために、本発明に係る音声処理装置は、適応用の音声信号（例えば図１や図２の音声信号Ｓ1）が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを適応用の音声信号から生成して記憶装置に格納する適応モデル生成手段と、複数の音響モデルのうち認識用の音声信号（例えば図１や図２の音声信号Ｓ2）が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した特定（音声を認識）する音声認識手段とを具備する。以上の構成によれば、発声者と当該発声者との組合せに応じて適応化された音響モデルに基づいて音声認識が実行されるから、発声者や発声者の位置に拘わらず共通の音響モデルが固定的に使用される構成や、音声認識に使用される音響モデルが発声者の位置とは無関係に選定される構成と比較して、音声認識の精度を高めることが可能である。
【０００５】
本発明の好適な態様に係る音声処理装置は、複数の収音機器が生成した適応用の音声信号から各発声者の位置を特定する位置特定手段と、適応用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、適応モデル生成手段は、話者識別手段が区別した各発声者と位置特定手段が当該発声者について特定した位置との各組合せに対応した音響モデルを適応用の音声信号から生成する。また、別の態様に係る音声処理装置は、複数の収音機器が生成した認識用の音声信号から各発声者の位置を特定する位置特定手段と、認識用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、音声認識手段は、話者識別手段が区別した各発声者と位置特定手段が当該発声者について特定した位置との組合せに対応した音響モデルに基づいて文字を特定する。以上の各態様によれば、音声信号から発声者と発声者の位置とが特定されるから、例えば利用者が発生者と位置とを指定する構成と比較して利用者の作業の負担が軽減されるという利点がある。
【０００６】
本発明の好適な態様において、適応モデル生成手段は、一の発声者と一の発声者の位置との組合せに対応した音響モデルを、当該位置に対応した他の発声者の音響モデルから生成する補助生成手段を含む（例えば第２実施形態の方向優先モード）。別の態様において、適応モデル生成手段は、一の発声者と一の発声者の位置との組合せに対応した音響モデルを、当該一の発声者に対応した他の位置の音響モデルから生成する補助生成手段を含む（例えば第２実施形態の話者優先モード）。以上の各態様によれば、適応モデル生成手段が生成（更新）していない音響モデルとして例えば標準的な音響モデルが代用される構成と比較すると、音声認識手段による音声認識の精度を高めることが可能である。
【０００７】
本発明の好適な態様に係る音声処理装置は、適応用の音声信号が表わす音声に対応した文字（例えば図１や図２の文字列ＴIN）を利用者が入力する入力手段を具備し、適応モデル生成手段は、入力手段が入力した文字と適応用の音声信号とに基づいて音響モデルを生成する。以上の態様によれば、適応モデル生成手段が適応用の音声信号のみに基づいて音響モデルを生成する構成と比較して高精度に音響モデルを生成することが可能である。なお、適応用の音声信号に対応した文字を利用者に認知させる方法としては、例えば、適応用の音声信号が表わす音声を入力手段による入力前に放音手段から放音する方法や、適応モデル生成手段による処理前に、適応用の音声信号が表わす音声に対応した文字を音声認識手段が所定の音響モデルに基づいて認識して出力装置から出力する方法が採用され得る。
【０００８】
本発明に係る音声処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、コンピュータに、適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを適応用の音声信号から生成して記憶装置に格納する適応モデル生成処理と、複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した文字を特定する音声認識処理とを実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【０００９】
本発明は、音声を処理する方法としても特定される。具体的な態様に係る音声処理方法は、適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを適応用の音声信号から生成して記憶装置に格納する適応モデル生成過程と、複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した文字を特定する音声認識過程とを含む。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。
【発明を実施するための最良の形態】
【００１０】
＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置１００の構成を示すブロック図である。同図に示すように、音声処理装置１００は、制御装置１０と記憶装置３０とを具備するコンピュータシステムである。制御装置１０には入力装置４２と出力装置４４と放音装置４６とが接続される。入力装置４２は、利用者が文字を入力するための機器（例えばキーボード）である。出力装置４４は、制御装置１０による制御のもとに各種の画像を表示する表示機器である。なお、制御装置１０が指示した画像を印刷する印刷機器も出力装置４４として採用される。放音装置４６は、制御装置１０から供給される信号に応じた音声を放音する機器（例えばスピーカやヘッドホン）である。
【００１１】
記憶装置３０は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置３０として任意に採用される。図１に示すように、記憶装置３０には音声信号Ｓが格納される。音声信号Ｓは、音声入力装置６０（マイクロホンアレイ）内に相互に離間して配列された複数の収音機器６２の各々に到達した音声の波形を表わす複数の系統の信号である。本形態の音声信号Ｓが表わす音声は、会議室などの空間内にて複数の参加者が随時に発声する会議において音声入力装置６０が収録した音声である。
【００１２】
また、記憶装置３０には、各々が別個の発声者に対応するＮ個の音響モデル群Ｇ（Ｇ1〜ＧN）が格納される（Ｎは２以上の整数）。第ｉ番目（ｉ＝１〜Ｎ）の音響モデル群Ｇiは、音声の特性を音素毎にモデル化するＫ個の音響モデルＭ（Ｍ[1,i]〜Ｍ[K,i]）で構成される。音響モデルＭには、隠れマルコフモデルが好適に採用される。Ｎ個の音響モデル群Ｇ1〜ＧNの各音響モデルＭは、初期的には共通の内容に設定される。さらに詳述すると、初期的な音響モデルＭは、収音機器６２に近接して発声したときの音声を充分に多数の発声者について採取した結果から生成された平均的なモデル（すなわち発声者や発声時の環境に殆ど依存しない標準的なモデル）である。
【００１３】
制御装置１０は、記憶装置３０に格納されたプログラムを実行することで適応処理と認識処理とを実行する。適応処理は、音声信号Ｓの特性を音響モデルＭに反映させる処理であり、認識処理は、音声信号Ｓが表わす音声に対応した文字を適応処理後の音響モデルＭに基づいて特定する処理である。図１に示すように、制御装置１０は、複数の要素（区間特定部１２，位置特定部１４，話者識別部１６，選択部２２，適応モデル生成部２４，音声認識部２６）として機能する。制御装置１０が実現する各要素の機能（すなわち制御装置１０の動作）を適応処理時と認識処理時とに区分して以下に詳述する。なお、制御装置１０の各要素は、音声の処理に専用されるＤＳＰなどの電子回路によっても実現される。また、制御装置１０は、複数の集積回路に分散して実装されてもよい。
【００１４】
＜適応処理時＞
区間特定部１２は、記憶装置３０に格納された音声信号Ｓのうちの所定の区間を適応用の音声信号Ｓ1として特定する。音声信号Ｓ1は、記憶装置３０に格納された各音響モデルＭの更新のために利用される。本形態の区間特定部１２は、音声信号Ｓのうち始点から所定の時間（例えば５分）が経過するまでの区間を音声信号Ｓ1として抽出する。
【００１５】
位置特定部１４は、音声信号Ｓ1から各発声者の位置（方向）を順次に特定する。本形態の位置特定部１４は、音声信号Ｓ1の収録時における音声入力装置６０からみた各発声者の方向ｊを、所定のＫ個の方向のなかから順次に選択する。例えば、位置特定部１４は、音声信号Ｓ1を時間軸に沿って発声者毎（発話毎）に区分した各発声区間（すなわち、ひとりの発声者による発声が連続する区間）について、音声信号Ｓ1の各系統間の音量差や位相差と各収音機器６２の位置との関係に基づいて発声者の方向ｊを特定する。なお、音声信号Ｓから発声者（発音源）の位置を特定する処理には公知の技術（例えば特開２００７−８９０５８号公報に開示された技術）が任意に採用される。
【００１６】
話者識別部１６は、音声信号Ｓ1が表わす各音声の発声者を区別する。さらに詳述すると、話者識別部１６は、各発声区間の複数のフレームの各々について音響的な特徴量（例えばＭＦＣＣ（Mel Frequency Cepstral Coefficients））を抽出し、ひとつの発声区間から抽出された複数の特徴量を同じ集合（クラスタ）に分類する。そして、話者識別部１６は、ひとつの集合内の各特徴量を代表する中心ベクトルと当該集合（発声者）に固有に付与された識別子ｉとを発声者毎に対応させたテーブル（以下「話者情報」という）３２を生成して記憶装置３０に格納する。話者識別部１６は、各発声者の発声区間について以上の処理を実行するたびに当該発声者の識別子ｉを順次に出力する。
【００１７】
選択部２２は、記憶装置３０に格納された複数（Ｎ×Ｋ個）の音響モデルＭの何れかを適応処理の対象として選択する。本形態の選択部２２は、話者識別部１６が特定した発声者の識別子ｉと位置特定部１４が当該発声者について特定した方向ｊとの組合せに対応する音響モデルＭ[j,i]を記憶装置３０から選択する。
【００１８】
一方、利用者は、適応用の音声信号Ｓ1が表わす音声に対応した文字列ＴINを適応処理に先立って入力装置４２から入力する。本形態の制御装置１０は、適応処理の実行前（文字列ＴINの入力前）に音声信号Ｓ1を放音装置４６に供給する。利用者は、放音装置４６から出力される音声を聴取することで文字列ＴINを認知して入力装置４２に入力する。
【００１９】
適応モデル生成部２４は、記憶装置３０に格納された複数の音響モデルＭのうち選択部２２が選択した音響モデルＭ[j,i]を、区間特定部１２から供給される音声信号Ｓ1と入力装置４２から入力される文字列ＴINとに基づいて適応化（話者適応・環境適応）する。さらに詳述すると、音響モデルＭ[j,i]のうち文字列ＴINの各文字に対応した音素のモデルが、音声信号Ｓ1における当該文字に対応した区間の特性に応じた内容に変更される。記憶装置３０に格納された音響モデルＭ[j,i]は、適応モデル生成部２４が作成（変更）した音響モデルＭ[j,i]に更新される。以上の処理が各発声区間について反復される。すなわち、音声信号Ｓ1が表わす音声の発声者（識別子ｉ）と当該発声者の方向ｊとの各組合せにとって最適な音響モデルＭが順次に音声信号Ｓ1の各発声区間から生成されて記憶装置３０に格納（適応処理前の音響モデルＭが更新）される。もっとも、適応用の音声信号Ｓ1には発声者（識別子ｉ）と方向ｊとの全部の組合せに対応した音声が含まれるわけではないから、適応処理の完了後に記憶装置３０に格納されている音響モデルＭのなかには、適応処理で更新されずに初期的な内容のままである音響モデルＭもある。以上が適応処理時の各要素の動作である。
【００２０】
＜認識処理時＞
認識処理時には、音声信号Ｓの全区間が始点から終点にかけて順次に認識用の音声信号Ｓ2として記憶装置３０から出力される。音声信号Ｓ2は音声認識部２６による音声認識の対象となる。前述の適応処理の対象となるのは、実際の音声認識の対象となる音声信号Ｓ2の部分である。位置特定部１４は、適応処理時と同様の手順で、認識用の音声信号Ｓ2から各発声者の位置（方向ｊ）を順次に特定する。
【００２１】
話者識別部１６は、音声信号Ｓ2が表わす各音声の発声者を区別して当該発声者の識別子ｉを特定する。さらに詳述すると、話者識別部１６は、適応処理時と同様に、音声信号Ｓ2を区分した各発声区間の複数のフレームの各々について音響的な特徴量（例えばＭＦＣＣ）を抽出し、ひとつの発声区間から抽出された複数の特徴量を代表する中心ベクトルを特定する。そして、発声区間について特定した中心ベクトルに最も近似する中心ベクトルを記憶装置３０の話者情報３２から検索し、当該中心ベクトルに対応した識別子ｉを特定する。
【００２２】
選択部２２は、記憶装置３０に格納された複数の音響モデルＭの何れかを音声認識のために選択する。さらに詳述すると、選択部２２は、話者識別部１６が特定した発声者の識別子ｉと位置特定部１４が当該発声者について特定した方向ｊとの組合せに対応する音響モデルＭ[j,i]を記憶装置３０から選択する。
【００２３】
音声認識部２６は、記憶装置３０に格納された複数の音響モデルＭのうち選択部２２が選択した音響モデルＭ[j,i]に基づいて、音声信号Ｓ2が表わす音声に対応した文字列ＴOUTを特定する。音響モデルＭ[j,i]を利用した文字列ＴOUTの特定には公知の技術が任意に採用される。文字列ＴOUTは出力装置４４から出力（表示や印刷）される。以上が認識処理時の各要素の動作である。
【００２４】
以上に説明したように、音声信号Ｓ2の音声に対応した文字列ＴOUTの特定には、当該音声の発声者（識別子ｉ）と当該発声者の方向ｊとに応じて適応処理で最適化された音響モデルＭ[j,i]が利用される。したがって、発声者や発声者の位置に拘わらず共通の音響モデルＭが固定的に使用される構成や、音声認識に利用される音響モデルが発声者の位置とは無関係に（例えば音声信号の特性のみに応じて）選択される特許文献１の構成と比較して、音声認識の精度を高めることが可能である。
【００２５】
なお、音声信号Ｓ1には発声者と方向ｊとの全部の組合せに対応した音声が含まれるわけではないから、適応処理にて更新されなかった音響モデル（以下「未更新の音響モデル」という）Ｍ[j,i]が認識処理にて文字列ＴOUTの特定に利用される場合がある。未更新の音響モデルＭは発声者や発声時の環境（方向ｊ）に依存しない標準的なモデルであるから、適応処理による更新後の音響モデルＭ[j,i]を利用する場合と比較して文字列ＴOUTの認識の精度は低い。しかし、他の発声者が別の環境で発声した音声の特性を反映した音響モデルＭ[j,i]が利用される場合と比較すれば、認識の精度を所定の水準に維持することは可能である。
【００２６】
また、入力装置４２から入力された文字列ＴINが適応処理における音響モデルＭの更新に利用されるから、音声信号Ｓ1のみに基づいて適応処理が実行される構成と比較して高精度に音響モデルＭを適応化することが可能である。なお、以上の構成においては利用者が音声信号Ｓ1の音声を聴取したうえで文字列ＴINを入力する必要があるが、長時間にわたる音声信号Ｓ2の全区間の音声を聴取して文字列を書き起こす作業と比較すれば、利用者の労力は遥かに低減される。
【００２７】
＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。なお、本形態において作用や機能が第１実施形態と共通する要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
【００２８】
図２は、音声処理装置１００の構成を示すブロック図である。同図に示すように、本形態の音声処理装置１００は、第１実施形態の適応モデル生成部２４に補助生成部２８を追加した構成である。補助生成部２８は、音声信号Ｓ1に応じた適応処理の実行後に、未更新の音響モデルＭを他の音響モデルＭに基づいて更新する。補助生成部２８は、方向優先モードおよび話者優先モードの何れかの動作モードで動作する。補助生成部２８の動作モードは入力装置４２に対する入力に応じて選択される。
【００２９】
方向優先モードが選択された場合、補助生成部２８は、Ｎ個の音響モデル群Ｇ1〜ＧNのうち方向ｊに対応するＮ個の音響モデルＭ[j,1]〜Ｍ[j,N]を平均化することで音響モデルＭnew[j]を生成する。すなわち、補助生成部２８による処理の内容は以下の式(1)で表現される。
【数１】

【００３０】
発声者の総数Ｎが充分に大きい場合、音響モデルＭnew[j]は、標準的な音声の発声者が方向ｊにて発声した音声のモデル（すなわち方向ｊに依存するが発声者には非依存なモデル）に相当する。補助生成部２８は、Ｎ個の音響モデル群Ｇ1〜ＧNのうち方向ｊに対応する未更新の音響モデルＭを音響モデルＭnew[j]に更新する。以上の処理がＫ個の方向について順次に実行されることで音響モデル群Ｇ1〜ＧNの全部の音響モデルＭが更新される。
【００３１】
一方、話者優先モードが選択された場合、補助生成部２８は、識別子ｉに対応する音響モデル群Ｇi内のＫ個の音響モデルＭ[1,i]〜Ｍ[K,i]を平均化することで音響モデルＭnew[i]を生成する。すなわち、補助生成部２８による処理の内容は以下の式(2)で表現される。
【数２】

【００３２】
音響モデルＭnew[i]は、識別子ｉの発声者が収音機器６２に近接して発声したときに収録された音声のモデル（すなわち発声者に依存するが方向ｊには非依存なモデル）に相当する。補助生成部２８は、音響モデル群Ｇiのうち未更新の音響モデルＭを音響モデルＭnew[i]に更新する。以上の処理がＮ個の音響モデル群Ｇ1〜ＧNについて順次に実行されることで音響モデル群Ｇ1〜ＧNの全部の音響モデルＭが更新される。
【００３３】
本形態においては、未更新の音響モデルＭが、方向優先モードでは方向ｊを反映した音響モデルＭnew[j]に更新され、話者優先モードでは発声者（識別子ｉ）を反映した音響モデルＭnew[i]に更新される。したがって、未更新の音響モデルＭが初期的な内容のまま認識処理に使用される第１実施形態と比較して音声認識の精度を高めることが可能である。換言すると、未更新の音響モデルＭに起因した音声認識の精度の低下が緩和されるから、音声信号Ｓ1の時間長が短い場合（未更新の音響モデルＭが多くなる可能性が高い場合）であっても音声認識の精度を確保することが可能となる。
【００３４】
なお、以上に例示した方向優先モードでは方向ｊに対応するＮ個の音響モデルＭ[j,1]〜Ｍ[j,N]を平均化することで音響モデルＭnew[j]を生成したが、音響モデルＮnew[j]を生成する方法や音響モデルＮnew[j]の生成に利用される音響モデルＭは適宜に変更される。例えば、未更新の音響モデルＭ[j,i]を置換する音響モデルＭnew[j]を、方向ｊに対応するＮ個の音響モデルＭ[j,1]〜Ｍ[j,N]のうち音響モデルＭ[j,i]を除外した(Ｎ−１)個の音響モデルＭに基づいて生成する構成が採用される。また、方向ｊに対応するＮ個の音響モデルＭ[j,1]〜Ｍ[j,N]のうち適応処理にて更新済の音響モデルＭのみに基づいて音響モデルＭnew[j]を生成する構成も好適である。すなわち、更新後の音響モデルＭnew[j]の生成に、方向ｊに対応した他の発声者の音響モデルＭが利用される構成であればよい。
【００３５】
また、話者優先モードにおいて音響モデルＮnew[i]を生成する方法や音響モデルＮnew[i]の生成に利用される音響モデルＭは適宜に変更される。例えば、未更新の音響モデルＭ[j,i]を置換する音響モデルＭnew[i]を、音響モデル群ＧiのＫ個の音響モデルＭ[1,i]〜Ｍ[K,i]のうち音響モデルＭ[j,i]を除外した(Ｋ−１)個の音響モデルＭに基づいて生成する構成や、音響モデルＭ[1,i]〜Ｍ[K,i]のうち適応処理にて更新済の音響モデルＭのみに基づいて音響モデルＭnew[i]を生成する構成も採用される。すなわち、更新後の音響モデルＭnew[i]の生成に、識別子ｉの発声者に対応した他の方向の音響モデルＭが利用される構成であればよい。
【００３６】
＜Ｃ：変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。
【００３７】
（１）変形例１
第１実施形態の認識処理では未更新の音響モデルＭを初期的な内容のまま使用したが、他の音響モデルＭを代替的に選択する構成も採用される。例えば、発声者の方向を優先して音響モデルＭを選択する方向優先モードと、発声者を優先して音響モデルＭを選択する話者優先モードとが、入力装置４２に対する入力に応じて選択的に指定される構成が好適である。位置特定部１４が特定した方向ｊと話者識別部１６が特定した識別子ｉとの組合せに対応した音響モデルＭ[j,i]が未更新である場合、方向優先モードにおいては、選択部２２は、方向ｊに対応する複数の音響モデルＭのうち識別子ｉの発声者の音声に特徴量が最も近似する発声者の音響モデルＭを選択する。各発声者の音声の類否は、例えば話者情報３２に含まれる中心ベクトル間の距離に応じて決定される（距離が小さいほど類似する）。一方、話者優先モードが選択された場合、選択部２２は、音響モデル群Ｇiのうち方向ｊに最も近似する方向に対応した音響モデルＭを選択する。以上の構成によれば、第２実施形態と同様に、未更新の音響モデルＭを初期的な内容のまま認識処理に使用する第１実施形態と比較して音声認識の精度を高めることが可能である。
【００３８】
（２）変形例２
以上の各形態においては、音声信号Ｓ1が表わす音声を適応処理の実行前に放音する構成を例示したが、利用者に文字列ＴINを認知させるための方法は適宜に変更される。例えば、適応処理前の初期的な音響モデルＭを利用して音声認識部２６が音声信号Ｓ1の音声認識を実行し、当該文字列を出力装置４４から出力する構成が採用される。未更新の音響モデルＭを利用した音声認識の精度は低いから、出力装置４４から出力される文字列は不正確である場合がある。したがって、利用者は、出力装置４４が出力する文字列を訂正したうえで入力装置４２から文字列ＴINとして入力する。以上の構成によれば、利用者が音声を聴取することで文字列ＴINの全部を認知する必要がある構成と比較して利用者の作業の負担が軽減されるという利点がある。もっとも、利用者による文字列ＴINの入力は本発明において必須ではない。例えば、音声信号Ｓ1のみに基づいて適応処理を実行する構成も採用される。
【００３９】
（３）変形例３
以上の各形態においては音声信号Ｓの先頭から所定の時間長の区間を適応用の音声信号Ｓ1として抽出したが、区間特定部１２が音声信号Ｓ1を特定する方法は任意である。例えば、音声信号Ｓの全区間のうち発声者数が多い区間を区間特定部１２が音声信号Ｓ1として特定してもよい。以上の態様によれば、音声信号Ｓ1の区間内の発声者数が少ない場合と比較して多数の音響モデルＭが適応処理で更新されるから、音声認識部２６による音声認識の精度を高めることが可能である。なお、音声信号Ｓ1が音声信号Ｓ（Ｓ2）の部分である必要は必ずしもない。すなわち、音声信号Ｓ1と音声信号Ｓ2とが別個のファイルとして記憶装置３０に格納された構成も採用される。
【００４０】
（４）変形例４
以上の各形態においては音声入力装置６０に対する発声者の方向ｊを特定したが、位置特定部１４が発声者の位置を特定する構成も好適である。また、適応用の音声信号Ｓ1から方向ｊを特定する位置特定部１４と認識用の音声信号Ｓ2から方向ｊを特定する位置特定部１４とが別個に設置された構成や、音声信号Ｓ1から識別子ｉを特定する話者識別部１６と音声信号Ｓ2から識別子ｉを特定する話者識別部１６とが別個に設置された構成も採用される。ただし、位置特定部１４や話者識別部１６が適応処理時と認識処理時とで共用される以上の各形態によれば、制御装置１０の構成や機能（制御装置１０が実行するプログラムの内容）が簡素化されるという利点がある。
【００４１】
また、適応処理時に音声信号Ｓ1の各発声区間について利用者が方向ｊおよび識別子ｉを入力装置４２から入力する構成や、認識処理時に音声信号Ｓ2の各発声区間について利用者が方向ｊおよび識別子ｉを入力装置４２から入力する構成も採用される。したがって、位置特定部１４や話者識別部１６は本発明にとって必須の要件ではない。もっとも、制御装置１０（位置特定部１４や話者識別部１６）が音声信号Ｓから方向ｊや識別子ｉを特定する以上の各形態によれば、利用者による作業の負担が軽減されるという利点がある。
【００４２】
（５）変形例５
識別子ｉと方向ｊとに対応した複数（Ｎ×Ｋ個）の音響モデルＭが適応処理前に記憶装置３０に格納された構成は本発明において必須ではない。例えば、事前に記憶装置３０に格納された音響モデルＭが適応モデル生成部２４の生成した音響モデルＭ[j,i]に更新される以上の各形態のほか、適応モデル生成部２４の生成した音響モデルＭ[j,i]が記憶装置３０に新規に格納される構成も採用される。すなわち、識別子ｉと方向ｊとの組合せに対応した音響モデルＭを適応モデル生成部２４が生成する構成であれば足り、当該音響モデルＭが既存の音響モデルＭの更新に使用されるか記憶装置３０に新規に格納されるかは本発明において不問である。
【図面の簡単な説明】
【００４３】
【図１】本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。
【図２】本発明の第２実施形態に係る音声処理装置の構成を示すブロック図である。
【符号の説明】
【００４４】
１００……音声処理装置、１０……制御装置、１２……区間特定部、１４……位置特定部、１６……話者識別部、２２……選択部、２４……適応モデル生成部、２６……音声認識部、３０……記憶装置、４２……入力装置、４４……出力装置、４６……放音装置、Ｓ……音声信号、Ｓ1……適応用の音声信号、Ｓ2……認識用の音声信号、Ｍ（Ｍ[j,i]）……音響モデル、Ｇ（Ｇ1〜ＧN）……音響モデル群。

【特許請求の範囲】
【請求項１】
適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを前記適応用の音声信号から生成して記憶装置に格納する適応モデル生成手段と、
前記複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識手段と
を具備する音声処理装置。
【請求項２】
複数の収音機器が生成した前記適応用の音声信号から各発声者の位置を特定する位置特定手段と、
前記適応用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、
前記適応モデル生成手段は、前記話者識別手段が区別した各発声者と前記位置特定手段が当該発声者について特定した位置との各組合せに対応した音響モデルを前記適応用の音声信号から生成する
請求項１の音声処理装置。
【請求項３】
複数の収音機器が生成した前記認識用の音声信号から各発声者の位置を特定する位置特定手段と、
前記認識用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、
前記音声認識手段は、前記話者識別手段が区別した各発声者と前記位置特定手段が当該発声者について特定した位置との組合せに対応した音響モデルに基づいて文字を特定する
請求項１の音声処理装置。
【請求項４】
前記適応モデル生成手段は、一の発声者と前記一の発声者の位置との組合せに対応した音響モデルを、当該位置に対応した他の発声者の音響モデルから生成する補助生成手段を含む
請求項１から請求項３の何れかの音声処理装置。
【請求項５】
前記適応モデル生成手段は、一の発声者と前記一の発声者の位置との組合せに対応した音響モデルを、当該一の発声者に対応した他の位置の音響モデルから生成する補助生成手段を含む
請求項１から請求項３の何れかの音声処理装置。
【請求項６】
前記適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力手段を具備し、
前記適応モデル生成手段は、前記入力手段が入力した文字と前記適応用の音声信号とに基づいて音響モデルを生成する
請求項１から請求項５の何れかの音声処理装置。
【請求項７】
コンピュータに、
適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを前記適応用の音声信号から生成して記憶装置に格納する適応モデル生成処理と、
前記複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識処理と
を実行させるプログラム。

【図１】