説明

音声処理装置およびプログラム

【課題】発声者の位置が変化した場合における音声認識の精度の低下を抑制する。
【解決手段】位置特定部14は、音声信号Sから各発声者の方向jを特定する。話者識別部16は、音声信号Sが表わす各音声の発声者を区別する。適応モデル生成部24は、位置特定部14が適応用の音声信号S1から特定した方向jと話者識別部16が音声信号S1から区別した発声者との組合せに対応した音響モデルMを音声信号S1に応じて生成する。音声認識部26は、位置特定部14が認識用の音声信号S1から特定した方向jと話者識別部16が音声信号S2から区別した発声者との組合せに対応した音響モデルMに基づいて、音声信号S2が表わす音声に対応した文字を特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を認識する技術に関する。
【背景技術】
【0002】
隠れマルコフモデルなどの音響モデルを利用して音声を認識(さらには音声に対応した文字を出力)する音声認識の技術が従来から提案されている。例えば特許文献1には、音声信号から抽出された複数の特徴量の各々に対応する複数の音響モデル候補を事前に作成し、複数の音響モデル候補のうち音響的に音声信号に近似する音響モデルを選択して音声認識に利用する技術が開示されている。
【特許文献1】特開2003−202891号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、発声者が特定の空間内で発声した音声は、当該空間の音響的な特性(例えば壁面における反射特性や吸音特性)が付加されたうえで収音機器に収音される。発声音に付加される音響的な特性は空間内の発声者の位置に応じて変化する。したがって、複数の音響モデル候補の各々に発声者の位置が反映されない特許文献1の技術においては、発声者の位置が変化した場合に音声認識の精度が低下するという問題がある。以上の事情を背景として、本発明は、発声者の位置が変化した場合における音声認識の精度の低下を抑制するという課題の解決をひとつの目的としている。
【課題を解決するための手段】
【0004】
以上の課題を解決するために、本発明に係る音声処理装置は、適応用の音声信号(例えば図1や図2の音声信号S1)が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを適応用の音声信号から生成して記憶装置に格納する適応モデル生成手段と、複数の音響モデルのうち認識用の音声信号(例えば図1や図2の音声信号S2)が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した特定(音声を認識)する音声認識手段とを具備する。以上の構成によれば、発声者と当該発声者との組合せに応じて適応化された音響モデルに基づいて音声認識が実行されるから、発声者や発声者の位置に拘わらず共通の音響モデルが固定的に使用される構成や、音声認識に使用される音響モデルが発声者の位置とは無関係に選定される構成と比較して、音声認識の精度を高めることが可能である。
【0005】
本発明の好適な態様に係る音声処理装置は、複数の収音機器が生成した適応用の音声信号から各発声者の位置を特定する位置特定手段と、適応用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、適応モデル生成手段は、話者識別手段が区別した各発声者と位置特定手段が当該発声者について特定した位置との各組合せに対応した音響モデルを適応用の音声信号から生成する。また、別の態様に係る音声処理装置は、複数の収音機器が生成した認識用の音声信号から各発声者の位置を特定する位置特定手段と、認識用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、音声認識手段は、話者識別手段が区別した各発声者と位置特定手段が当該発声者について特定した位置との組合せに対応した音響モデルに基づいて文字を特定する。以上の各態様によれば、音声信号から発声者と発声者の位置とが特定されるから、例えば利用者が発生者と位置とを指定する構成と比較して利用者の作業の負担が軽減されるという利点がある。
【0006】
本発明の好適な態様において、適応モデル生成手段は、一の発声者と一の発声者の位置との組合せに対応した音響モデルを、当該位置に対応した他の発声者の音響モデルから生成する補助生成手段を含む(例えば第2実施形態の方向優先モード)。別の態様において、適応モデル生成手段は、一の発声者と一の発声者の位置との組合せに対応した音響モデルを、当該一の発声者に対応した他の位置の音響モデルから生成する補助生成手段を含む(例えば第2実施形態の話者優先モード)。以上の各態様によれば、適応モデル生成手段が生成(更新)していない音響モデルとして例えば標準的な音響モデルが代用される構成と比較すると、音声認識手段による音声認識の精度を高めることが可能である。
【0007】
本発明の好適な態様に係る音声処理装置は、適応用の音声信号が表わす音声に対応した文字(例えば図1や図2の文字列TIN)を利用者が入力する入力手段を具備し、適応モデル生成手段は、入力手段が入力した文字と適応用の音声信号とに基づいて音響モデルを生成する。以上の態様によれば、適応モデル生成手段が適応用の音声信号のみに基づいて音響モデルを生成する構成と比較して高精度に音響モデルを生成することが可能である。なお、適応用の音声信号に対応した文字を利用者に認知させる方法としては、例えば、適応用の音声信号が表わす音声を入力手段による入力前に放音手段から放音する方法や、適応モデル生成手段による処理前に、適応用の音声信号が表わす音声に対応した文字を音声認識手段が所定の音響モデルに基づいて認識して出力装置から出力する方法が採用され得る。
【0008】
本発明に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、コンピュータに、適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを適応用の音声信号から生成して記憶装置に格納する適応モデル生成処理と、複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した文字を特定する音声認識処理とを実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【0009】
本発明は、音声を処理する方法としても特定される。具体的な態様に係る音声処理方法は、適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを適応用の音声信号から生成して記憶装置に格納する適応モデル生成過程と、複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した文字を特定する音声認識過程とを含む。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。
【発明を実施するための最良の形態】
【0010】
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置30とを具備するコンピュータシステムである。制御装置10には入力装置42と出力装置44と放音装置46とが接続される。入力装置42は、利用者が文字を入力するための機器(例えばキーボード)である。出力装置44は、制御装置10による制御のもとに各種の画像を表示する表示機器である。なお、制御装置10が指示した画像を印刷する印刷機器も出力装置44として採用される。放音装置46は、制御装置10から供給される信号に応じた音声を放音する機器(例えばスピーカやヘッドホン)である。
【0011】
記憶装置30は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置30として任意に採用される。図1に示すように、記憶装置30には音声信号Sが格納される。音声信号Sは、音声入力装置60(マイクロホンアレイ)内に相互に離間して配列された複数の収音機器62の各々に到達した音声の波形を表わす複数の系統の信号である。本形態の音声信号Sが表わす音声は、会議室などの空間内にて複数の参加者が随時に発声する会議において音声入力装置60が収録した音声である。
【0012】
また、記憶装置30には、各々が別個の発声者に対応するN個の音響モデル群G(G1〜GN)が格納される(Nは2以上の整数)。第i番目(i=1〜N)の音響モデル群Giは、音声の特性を音素毎にモデル化するK個の音響モデルM(M[1,i]〜M[K,i])で構成される。音響モデルMには、隠れマルコフモデルが好適に採用される。N個の音響モデル群G1〜GNの各音響モデルMは、初期的には共通の内容に設定される。さらに詳述すると、初期的な音響モデルMは、収音機器62に近接して発声したときの音声を充分に多数の発声者について採取した結果から生成された平均的なモデル(すなわち発声者や発声時の環境に殆ど依存しない標準的なモデル)である。
【0013】
制御装置10は、記憶装置30に格納されたプログラムを実行することで適応処理と認識処理とを実行する。適応処理は、音声信号Sの特性を音響モデルMに反映させる処理であり、認識処理は、音声信号Sが表わす音声に対応した文字を適応処理後の音響モデルMに基づいて特定する処理である。図1に示すように、制御装置10は、複数の要素(区間特定部12,位置特定部14,話者識別部16,選択部22,適応モデル生成部24,音声認識部26)として機能する。制御装置10が実現する各要素の機能(すなわち制御装置10の動作)を適応処理時と認識処理時とに区分して以下に詳述する。なお、制御装置10の各要素は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路に分散して実装されてもよい。
【0014】
<適応処理時>
区間特定部12は、記憶装置30に格納された音声信号Sのうちの所定の区間を適応用の音声信号S1として特定する。音声信号S1は、記憶装置30に格納された各音響モデルMの更新のために利用される。本形態の区間特定部12は、音声信号Sのうち始点から所定の時間(例えば5分)が経過するまでの区間を音声信号S1として抽出する。
【0015】
位置特定部14は、音声信号S1から各発声者の位置(方向)を順次に特定する。本形態の位置特定部14は、音声信号S1の収録時における音声入力装置60からみた各発声者の方向jを、所定のK個の方向のなかから順次に選択する。例えば、位置特定部14は、音声信号S1を時間軸に沿って発声者毎(発話毎)に区分した各発声区間(すなわち、ひとりの発声者による発声が連続する区間)について、音声信号S1の各系統間の音量差や位相差と各収音機器62の位置との関係に基づいて発声者の方向jを特定する。なお、音声信号Sから発声者(発音源)の位置を特定する処理には公知の技術(例えば特開2007−89058号公報に開示された技術)が任意に採用される。
【0016】
話者識別部16は、音声信号S1が表わす各音声の発声者を区別する。さらに詳述すると、話者識別部16は、各発声区間の複数のフレームの各々について音響的な特徴量(例えばMFCC(Mel Frequency Cepstral Coefficients))を抽出し、ひとつの発声区間から抽出された複数の特徴量を同じ集合(クラスタ)に分類する。そして、話者識別部16は、ひとつの集合内の各特徴量を代表する中心ベクトルと当該集合(発声者)に固有に付与された識別子iとを発声者毎に対応させたテーブル(以下「話者情報」という)32を生成して記憶装置30に格納する。話者識別部16は、各発声者の発声区間について以上の処理を実行するたびに当該発声者の識別子iを順次に出力する。
【0017】
選択部22は、記憶装置30に格納された複数(N×K個)の音響モデルMの何れかを適応処理の対象として選択する。本形態の選択部22は、話者識別部16が特定した発声者の識別子iと位置特定部14が当該発声者について特定した方向jとの組合せに対応する音響モデルM[j,i]を記憶装置30から選択する。
【0018】
一方、利用者は、適応用の音声信号S1が表わす音声に対応した文字列TINを適応処理に先立って入力装置42から入力する。本形態の制御装置10は、適応処理の実行前(文字列TINの入力前)に音声信号S1を放音装置46に供給する。利用者は、放音装置46から出力される音声を聴取することで文字列TINを認知して入力装置42に入力する。
【0019】
適応モデル生成部24は、記憶装置30に格納された複数の音響モデルMのうち選択部22が選択した音響モデルM[j,i]を、区間特定部12から供給される音声信号S1と入力装置42から入力される文字列TINとに基づいて適応化(話者適応・環境適応)する。さらに詳述すると、音響モデルM[j,i]のうち文字列TINの各文字に対応した音素のモデルが、音声信号S1における当該文字に対応した区間の特性に応じた内容に変更される。記憶装置30に格納された音響モデルM[j,i]は、適応モデル生成部24が作成(変更)した音響モデルM[j,i]に更新される。以上の処理が各発声区間について反復される。すなわち、音声信号S1が表わす音声の発声者(識別子i)と当該発声者の方向jとの各組合せにとって最適な音響モデルMが順次に音声信号S1の各発声区間から生成されて記憶装置30に格納(適応処理前の音響モデルMが更新)される。もっとも、適応用の音声信号S1には発声者(識別子i)と方向jとの全部の組合せに対応した音声が含まれるわけではないから、適応処理の完了後に記憶装置30に格納されている音響モデルMのなかには、適応処理で更新されずに初期的な内容のままである音響モデルMもある。以上が適応処理時の各要素の動作である。
【0020】
<認識処理時>
認識処理時には、音声信号Sの全区間が始点から終点にかけて順次に認識用の音声信号S2として記憶装置30から出力される。音声信号S2は音声認識部26による音声認識の対象となる。前述の適応処理の対象となるのは、実際の音声認識の対象となる音声信号S2の部分である。位置特定部14は、適応処理時と同様の手順で、認識用の音声信号S2から各発声者の位置(方向j)を順次に特定する。
【0021】
話者識別部16は、音声信号S2が表わす各音声の発声者を区別して当該発声者の識別子iを特定する。さらに詳述すると、話者識別部16は、適応処理時と同様に、音声信号S2を区分した各発声区間の複数のフレームの各々について音響的な特徴量(例えばMFCC)を抽出し、ひとつの発声区間から抽出された複数の特徴量を代表する中心ベクトルを特定する。そして、発声区間について特定した中心ベクトルに最も近似する中心ベクトルを記憶装置30の話者情報32から検索し、当該中心ベクトルに対応した識別子iを特定する。
【0022】
選択部22は、記憶装置30に格納された複数の音響モデルMの何れかを音声認識のために選択する。さらに詳述すると、選択部22は、話者識別部16が特定した発声者の識別子iと位置特定部14が当該発声者について特定した方向jとの組合せに対応する音響モデルM[j,i]を記憶装置30から選択する。
【0023】
音声認識部26は、記憶装置30に格納された複数の音響モデルMのうち選択部22が選択した音響モデルM[j,i]に基づいて、音声信号S2が表わす音声に対応した文字列TOUTを特定する。音響モデルM[j,i]を利用した文字列TOUTの特定には公知の技術が任意に採用される。文字列TOUTは出力装置44から出力(表示や印刷)される。以上が認識処理時の各要素の動作である。
【0024】
以上に説明したように、音声信号S2の音声に対応した文字列TOUTの特定には、当該音声の発声者(識別子i)と当該発声者の方向jとに応じて適応処理で最適化された音響モデルM[j,i]が利用される。したがって、発声者や発声者の位置に拘わらず共通の音響モデルMが固定的に使用される構成や、音声認識に利用される音響モデルが発声者の位置とは無関係に(例えば音声信号の特性のみに応じて)選択される特許文献1の構成と比較して、音声認識の精度を高めることが可能である。
【0025】
なお、音声信号S1には発声者と方向jとの全部の組合せに対応した音声が含まれるわけではないから、適応処理にて更新されなかった音響モデル(以下「未更新の音響モデル」という)M[j,i]が認識処理にて文字列TOUTの特定に利用される場合がある。未更新の音響モデルMは発声者や発声時の環境(方向j)に依存しない標準的なモデルであるから、適応処理による更新後の音響モデルM[j,i]を利用する場合と比較して文字列TOUTの認識の精度は低い。しかし、他の発声者が別の環境で発声した音声の特性を反映した音響モデルM[j,i]が利用される場合と比較すれば、認識の精度を所定の水準に維持することは可能である。
【0026】
また、入力装置42から入力された文字列TINが適応処理における音響モデルMの更新に利用されるから、音声信号S1のみに基づいて適応処理が実行される構成と比較して高精度に音響モデルMを適応化することが可能である。なお、以上の構成においては利用者が音声信号S1の音声を聴取したうえで文字列TINを入力する必要があるが、長時間にわたる音声信号S2の全区間の音声を聴取して文字列を書き起こす作業と比較すれば、利用者の労力は遥かに低減される。
【0027】
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、本形態において作用や機能が第1実施形態と共通する要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
【0028】
図2は、音声処理装置100の構成を示すブロック図である。同図に示すように、本形態の音声処理装置100は、第1実施形態の適応モデル生成部24に補助生成部28を追加した構成である。補助生成部28は、音声信号S1に応じた適応処理の実行後に、未更新の音響モデルMを他の音響モデルMに基づいて更新する。補助生成部28は、方向優先モードおよび話者優先モードの何れかの動作モードで動作する。補助生成部28の動作モードは入力装置42に対する入力に応じて選択される。
【0029】
方向優先モードが選択された場合、補助生成部28は、N個の音響モデル群G1〜GNのうち方向jに対応するN個の音響モデルM[j,1]〜M[j,N]を平均化することで音響モデルMnew[j]を生成する。すなわち、補助生成部28による処理の内容は以下の式(1)で表現される。
【数1】

【0030】
発声者の総数Nが充分に大きい場合、音響モデルMnew[j]は、標準的な音声の発声者が方向jにて発声した音声のモデル(すなわち方向jに依存するが発声者には非依存なモデル)に相当する。補助生成部28は、N個の音響モデル群G1〜GNのうち方向jに対応する未更新の音響モデルMを音響モデルMnew[j]に更新する。以上の処理がK個の方向について順次に実行されることで音響モデル群G1〜GNの全部の音響モデルMが更新される。
【0031】
一方、話者優先モードが選択された場合、補助生成部28は、識別子iに対応する音響モデル群Gi内のK個の音響モデルM[1,i]〜M[K,i]を平均化することで音響モデルMnew[i]を生成する。すなわち、補助生成部28による処理の内容は以下の式(2)で表現される。
【数2】

【0032】
音響モデルMnew[i]は、識別子iの発声者が収音機器62に近接して発声したときに収録された音声のモデル(すなわち発声者に依存するが方向jには非依存なモデル)に相当する。補助生成部28は、音響モデル群Giのうち未更新の音響モデルMを音響モデルMnew[i]に更新する。以上の処理がN個の音響モデル群G1〜GNについて順次に実行されることで音響モデル群G1〜GNの全部の音響モデルMが更新される。
【0033】
本形態においては、未更新の音響モデルMが、方向優先モードでは方向jを反映した音響モデルMnew[j]に更新され、話者優先モードでは発声者(識別子i)を反映した音響モデルMnew[i]に更新される。したがって、未更新の音響モデルMが初期的な内容のまま認識処理に使用される第1実施形態と比較して音声認識の精度を高めることが可能である。換言すると、未更新の音響モデルMに起因した音声認識の精度の低下が緩和されるから、音声信号S1の時間長が短い場合(未更新の音響モデルMが多くなる可能性が高い場合)であっても音声認識の精度を確保することが可能となる。
【0034】
なお、以上に例示した方向優先モードでは方向jに対応するN個の音響モデルM[j,1]〜M[j,N]を平均化することで音響モデルMnew[j]を生成したが、音響モデルNnew[j]を生成する方法や音響モデルNnew[j]の生成に利用される音響モデルMは適宜に変更される。例えば、未更新の音響モデルM[j,i]を置換する音響モデルMnew[j]を、方向jに対応するN個の音響モデルM[j,1]〜M[j,N]のうち音響モデルM[j,i]を除外した(N−1)個の音響モデルMに基づいて生成する構成が採用される。また、方向jに対応するN個の音響モデルM[j,1]〜M[j,N]のうち適応処理にて更新済の音響モデルMのみに基づいて音響モデルMnew[j]を生成する構成も好適である。すなわち、更新後の音響モデルMnew[j]の生成に、方向jに対応した他の発声者の音響モデルMが利用される構成であればよい。
【0035】
また、話者優先モードにおいて音響モデルNnew[i]を生成する方法や音響モデルNnew[i]の生成に利用される音響モデルMは適宜に変更される。例えば、未更新の音響モデルM[j,i]を置換する音響モデルMnew[i]を、音響モデル群GiのK個の音響モデルM[1,i]〜M[K,i]のうち音響モデルM[j,i]を除外した(K−1)個の音響モデルMに基づいて生成する構成や、音響モデルM[1,i]〜M[K,i]のうち適応処理にて更新済の音響モデルMのみに基づいて音響モデルMnew[i]を生成する構成も採用される。すなわち、更新後の音響モデルMnew[i]の生成に、識別子iの発声者に対応した他の方向の音響モデルMが利用される構成であればよい。
【0036】
<C:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
【0037】
(1)変形例1
第1実施形態の認識処理では未更新の音響モデルMを初期的な内容のまま使用したが、他の音響モデルMを代替的に選択する構成も採用される。例えば、発声者の方向を優先して音響モデルMを選択する方向優先モードと、発声者を優先して音響モデルMを選択する話者優先モードとが、入力装置42に対する入力に応じて選択的に指定される構成が好適である。位置特定部14が特定した方向jと話者識別部16が特定した識別子iとの組合せに対応した音響モデルM[j,i]が未更新である場合、方向優先モードにおいては、選択部22は、方向jに対応する複数の音響モデルMのうち識別子iの発声者の音声に特徴量が最も近似する発声者の音響モデルMを選択する。各発声者の音声の類否は、例えば話者情報32に含まれる中心ベクトル間の距離に応じて決定される(距離が小さいほど類似する)。一方、話者優先モードが選択された場合、選択部22は、音響モデル群Giのうち方向jに最も近似する方向に対応した音響モデルMを選択する。以上の構成によれば、第2実施形態と同様に、未更新の音響モデルMを初期的な内容のまま認識処理に使用する第1実施形態と比較して音声認識の精度を高めることが可能である。
【0038】
(2)変形例2
以上の各形態においては、音声信号S1が表わす音声を適応処理の実行前に放音する構成を例示したが、利用者に文字列TINを認知させるための方法は適宜に変更される。例えば、適応処理前の初期的な音響モデルMを利用して音声認識部26が音声信号S1の音声認識を実行し、当該文字列を出力装置44から出力する構成が採用される。未更新の音響モデルMを利用した音声認識の精度は低いから、出力装置44から出力される文字列は不正確である場合がある。したがって、利用者は、出力装置44が出力する文字列を訂正したうえで入力装置42から文字列TINとして入力する。以上の構成によれば、利用者が音声を聴取することで文字列TINの全部を認知する必要がある構成と比較して利用者の作業の負担が軽減されるという利点がある。もっとも、利用者による文字列TINの入力は本発明において必須ではない。例えば、音声信号S1のみに基づいて適応処理を実行する構成も採用される。
【0039】
(3)変形例3
以上の各形態においては音声信号Sの先頭から所定の時間長の区間を適応用の音声信号S1として抽出したが、区間特定部12が音声信号S1を特定する方法は任意である。例えば、音声信号Sの全区間のうち発声者数が多い区間を区間特定部12が音声信号S1として特定してもよい。以上の態様によれば、音声信号S1の区間内の発声者数が少ない場合と比較して多数の音響モデルMが適応処理で更新されるから、音声認識部26による音声認識の精度を高めることが可能である。なお、音声信号S1が音声信号S(S2)の部分である必要は必ずしもない。すなわち、音声信号S1と音声信号S2とが別個のファイルとして記憶装置30に格納された構成も採用される。
【0040】
(4)変形例4
以上の各形態においては音声入力装置60に対する発声者の方向jを特定したが、位置特定部14が発声者の位置を特定する構成も好適である。また、適応用の音声信号S1から方向jを特定する位置特定部14と認識用の音声信号S2から方向jを特定する位置特定部14とが別個に設置された構成や、音声信号S1から識別子iを特定する話者識別部16と音声信号S2から識別子iを特定する話者識別部16とが別個に設置された構成も採用される。ただし、位置特定部14や話者識別部16が適応処理時と認識処理時とで共用される以上の各形態によれば、制御装置10の構成や機能(制御装置10が実行するプログラムの内容)が簡素化されるという利点がある。
【0041】
また、適応処理時に音声信号S1の各発声区間について利用者が方向jおよび識別子iを入力装置42から入力する構成や、認識処理時に音声信号S2の各発声区間について利用者が方向jおよび識別子iを入力装置42から入力する構成も採用される。したがって、位置特定部14や話者識別部16は本発明にとって必須の要件ではない。もっとも、制御装置10(位置特定部14や話者識別部16)が音声信号Sから方向jや識別子iを特定する以上の各形態によれば、利用者による作業の負担が軽減されるという利点がある。
【0042】
(5)変形例5
識別子iと方向jとに対応した複数(N×K個)の音響モデルMが適応処理前に記憶装置30に格納された構成は本発明において必須ではない。例えば、事前に記憶装置30に格納された音響モデルMが適応モデル生成部24の生成した音響モデルM[j,i]に更新される以上の各形態のほか、適応モデル生成部24の生成した音響モデルM[j,i]が記憶装置30に新規に格納される構成も採用される。すなわち、識別子iと方向jとの組合せに対応した音響モデルMを適応モデル生成部24が生成する構成であれば足り、当該音響モデルMが既存の音響モデルMの更新に使用されるか記憶装置30に新規に格納されるかは本発明において不問である。
【図面の簡単な説明】
【0043】
【図1】本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。
【図2】本発明の第2実施形態に係る音声処理装置の構成を示すブロック図である。
【符号の説明】
【0044】
100……音声処理装置、10……制御装置、12……区間特定部、14……位置特定部、16……話者識別部、22……選択部、24……適応モデル生成部、26……音声認識部、30……記憶装置、42……入力装置、44……出力装置、46……放音装置、S……音声信号、S1……適応用の音声信号、S2……認識用の音声信号、M(M[j,i])……音響モデル、G(G1〜GN)……音響モデル群。

【特許請求の範囲】
【請求項1】
適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを前記適応用の音声信号から生成して記憶装置に格納する適応モデル生成手段と、
前記複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識手段と
を具備する音声処理装置。
【請求項2】
複数の収音機器が生成した前記適応用の音声信号から各発声者の位置を特定する位置特定手段と、
前記適応用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、
前記適応モデル生成手段は、前記話者識別手段が区別した各発声者と前記位置特定手段が当該発声者について特定した位置との各組合せに対応した音響モデルを前記適応用の音声信号から生成する
請求項1の音声処理装置。
【請求項3】
複数の収音機器が生成した前記認識用の音声信号から各発声者の位置を特定する位置特定手段と、
前記認識用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、
前記音声認識手段は、前記話者識別手段が区別した各発声者と前記位置特定手段が当該発声者について特定した位置との組合せに対応した音響モデルに基づいて文字を特定する
請求項1の音声処理装置。
【請求項4】
前記適応モデル生成手段は、一の発声者と前記一の発声者の位置との組合せに対応した音響モデルを、当該位置に対応した他の発声者の音響モデルから生成する補助生成手段を含む
請求項1から請求項3の何れかの音声処理装置。
【請求項5】
前記適応モデル生成手段は、一の発声者と前記一の発声者の位置との組合せに対応した音響モデルを、当該一の発声者に対応した他の位置の音響モデルから生成する補助生成手段を含む
請求項1から請求項3の何れかの音声処理装置。
【請求項6】
前記適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力手段を具備し、
前記適応モデル生成手段は、前記入力手段が入力した文字と前記適応用の音声信号とに基づいて音響モデルを生成する
請求項1から請求項5の何れかの音声処理装置。
【請求項7】
コンピュータに、
適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを前記適応用の音声信号から生成して記憶装置に格納する適応モデル生成処理と、
前記複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識処理と
を実行させるプログラム。


【図1】
image rotate

【図2】
image rotate


【公開番号】特開2009−20352(P2009−20352A)
【公開日】平成21年1月29日(2009.1.29)
【国際特許分類】
【出願番号】特願2007−183480(P2007−183480)
【出願日】平成19年7月12日(2007.7.12)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】