音声認識装置、音声認識方法および音声認識プログラム

【課題】話者が運動した場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる音声認識装置を提供する。
【解決手段】話者の発話する音声を入力するマイクロフォン１と、マイクロフォン１で入力した音声から、その発話に対応する文字符号列を抽出する音声認識部２と、話者の動きを検出する話者運動情報取得部４と、話者運動情報取得部４で検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から音声認識部２で抽出した文字符号列が、話者の発話する内容に適合していない可能性が高いと判断する音声認識修正スコア計算部５および要修正判定部６と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は音声認識装置、音声認識方法および音声認識プログラムに関する。より詳しくは、音声認識した結果が話者の発話する内容に適合していない可能性を判定する音声認識装置、音声認識方法、音声認識プログラムに関わる。
【背景技術】
【０００２】
近年、人間の会話などの音声データをテキストデータに変換する音声認識技術が実用化されている。音声認識技術が使用される現実的な場面を想定すると、話者はなんらかの動作を行うことが多い。話者の動作として、講師が歩き回りながら講演を行う場合や、話者が会話の中に出てきた物の位置や大きさを表現するために身振りで示す場合などが挙げられる。一般的な音声認識技術においては、話者がある程度動いても認識を正しく行うことが出来るが、話者の動作が大き過ぎると話者の発話の質が下がるために音声認識しにくくなってしまうという問題点があった。話者の動作の大きさと音声認識成功率の関係性のグラフの一例を図１６に示す。図１６によれば、話者の動作が線ａを超えて大きくなってしまうと、大幅に音声の誤認識率が増加する（音声認識成功率が下がる）。
【０００３】
特許文献１には、話者の運動の情報を音声認識に応用することが記載されている。特許文献１の技術は、話者の位置データに基づいて、マイクロホンを備える音声情報入力部の指向特性、入力特性、マイクロホンの方向を制御する。
【０００４】
話者の動き以外に、話者の状況または環境に適応して音声認識処理を行う技術がある。特許文献２は、音声認識結果の信頼度が高い場合のみ、認識結果を出力することが記載されている。特許文献２の技術は、格納している音響データを用いて発音評定処理を行い、発音評定結果が所定の関係にあると判断した場合のみ、音声認識結果を出力する。
【０００５】
また、特許文献３の技術は、様々な緊張下における発音に基づいて作成された辞書を用意し、話者状態又は／及び自動車の走行状態を検知して話者の心的状態を推定し、心的状態推定値（例えば、余裕度推定値）に応じて選択した辞書を用いて音声認識を行う。
【０００６】
特許文献４に記載の技術では、音響情報パラメータのみ、筋電信号パラメータのみ、画像情報パラメータのみを用いてそれぞれ音声認識を行い、それぞれのパラメータから得られた認識結果を統合することによって、最終的に音声認識を行う。
【０００７】
その他、認識誤りの可能性を表示する技術がある。特許文献５の技術は、誤り（正解）箇所検出部は音声認識部から受信した認識結果に基づき誤り（正解）箇所を検出し、修正者等に誤り（正解）箇所を呈示する。また、特許文献６には、騒音レベルの変動の大きさを測定して、騒者レベルの変動が大の時に発声者に警告を発することが記載されている。
【特許文献１】特開２０００−１４８１８４号公報
【特許文献２】特開２００７−１２７７３８号公報
【特許文献３】特開２００２−１４９１９１号公報
【特許文献４】特開２００３−２５５９９３号公報
【特許文献５】特開２００２−１６２９９２号公報
【特許文献６】特開昭６３−７７０９７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００８】
特許文献１の技術などに見られる、話者とマイクロフォンの距離や話者の向きを測定する方法では、話者の位置の情報は、正確に検出するのが困難である。さらに、パラメータ調節だけで音声認識を完全に正確にするのは困難であり、特に話者の運動が大きい場合にはパラメータ調節で音声認識を正確にするのが不可能であるという問題があった。
【０００９】
その他の関連する技術では、音声認識を悪化させる明らかな要因である話者の運動の情報を用いることが出来ないという問題点があった。関連する技術の問題点は、話者が運動して音質が落ちた場合に、音声認識精度を改善しきれない点である。
【００１０】
本発明は上記のような事情に鑑みてなされたもので、その目的は、話者が運動した場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる音声認識装置を提供することである。
【課題を解決するための手段】
【００１１】
本発明の第１の観点に係る音声認識装置は、
話者の発話する音声を入力する音声入力手段と、
前記音声入力手段で入力した音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
を備えることを特徴とする。
【００１２】
本発明の第２の観点に係る音声認識方法は、
話者の発話する音声を入力する音声入力ステップと、
前記音声入力ステップで入力した音声から、その発話に対応する文字符号列を抽出する音声認識ステップと、
前記話者の動きを検出する話者運動検出ステップと、
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出ステップと、
を備えることを特徴とする。
【００１３】
本発明の第３の観点に係る音声認識プログラムは、
コンピュータを、
音声入力手段で入力した話者の発話する音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
して機能させることを特徴とする。
【発明の効果】
【００１４】
本発明の音声認識装置、音声認識方法および音声認識プログラムによれば、話者が発話中に動きを伴う場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる。
【発明を実施するための最良の形態】
【００１５】
（実施の形態１）
本発明の実施の形態について図面を参照して詳細に説明する。図１を参照すると、本発明の実施の形態１に係る音声認識装置１００は、マイクロフォン１と、音声認識部２と、音声認識結果保持部３と、話者運動情報取得部４と、音声認識修正スコア計算部５と、音声認識要修正判定部６と、音声認識結果修正候補抽出部７と、を備えている。
【００１６】
マイクロフォン１は、話者の発話などの音声情報を入力として受け取り、音声認識部２に送る。音声認識部２は、マイクロフォン１から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換し、テキスト化された発話を音声認識結果として音声認識結果保持部３へ送る。音声認識結果保持部３は、音声認識部２から送られてきた音声認識結果を保持する。
【００１７】
話者運動情報取得部４は、話者の様子を撮影するカメラや話者の動きを計測する加速度計などから構成される。話者運動情報取得部４は、話者の画像や加速度などの情報を話者の運動の手がかり情報として取得して音声認識修正スコア計算部５に送る。例えば、画像から話者の位置とその変位および速度を計測する。話者の位置としては、話者全体の重心の位置のほかに、話者の身体の一部、例えば頭、腕などを検出してもよい。また、ミリ波レーダ、超音波センサなどで、話者の速度または加速度を計測してもよい。
【００１８】
音声認識修正スコア計算部５は、話者運動情報取得部４から送られてきた話者の運動の手がかり情報から話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアを計算する。話者運動スコアは、話者の運動の大きさや運動の早さなどを元に計算するものであり、計算法は装置により異なる。音声認識修正スコア計算部５は、話者運動スコアを音声認識要修正判定部６へ送る。
【００１９】
音声認識要修正判定部６は、音声認識修正スコア計算部５から送られた話者運動スコアと事前に設定されたしきい値とを比較する。話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し、音声認識結果保持部３に保持されている音声認識結果に判定結果を書き込む。話者運動スコアがしきい値より大きい場合に、音声認識結果保持部３に保持されている音声認識結果に話者の動きがあったことを示すデータを記録するだけでもよい。
【００２０】
音声認識要修正判定部６が判定に用いるしきい値を事前に調整して設定するので、マイクロフォン１が話者の運動の影響を受けやすい設置型のスタンドマイクの場合にはしきい値を低く、話者の運動の影響を受けにくい接触型のヘッドセットマイクの場合にはしきい値を高くするなどの調整が可能である。
【００２１】
音声認識結果修正候補抽出部７は、音声認識結果保持部３から音声認識結果を読み出し、音声認識要修正判定部６により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を、音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する。
【００２２】
図２および図３のフローチャートを参照して本実施の形態の動作について詳細に説明する。図２は、実施の形態１の音声認識装置１００における音声認識処理の動作の一例を示す流れ図である。
【００２３】
マイクロフォン１は、話者の発話などの音声を入力して電気信号に変換し、音声情報として音声認識部２に送る（図２のステップＡ１）。音声認識部２は、マイクロフォン１から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換し（図２のステップＡ２）、テキスト化された発話を音声認識結果として音声認識結果保持部３へ格納する（図２のステップＡ３）。そして、ステップＡ１に戻って、音声入力から繰り返す。
【００２４】
図３は、実施の形態１の音声認識装置１００における修正必要度判定Ａの動作の一例を示す流れ図である。話者運動情報取得部４は、話者の様子を撮影するカメラや話者の動きを計測する加速度計などから構成され、話者の画像や加速度などの情報を話者の運動の手がかり情報として取得して音声認識修正スコア計算部５に送る（図３のステップＢ１）。
【００２５】
音声認識修正スコア計算部５は、話者運動情報取得部４から送られてきた話者の運動の手がかり情報から話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部６へ送る（図３のステップＢ２）。
【００２６】
音声認識要修正判定部６は、音声認識修正スコア計算部５から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば話者運動がなく修正不要と判定する（図３のステップＢ３）。そして、音声認識結果保持部３に保持されている音声認識結果に判定結果を書き込む（図３のステップＢ４）。話者運動スコアがしきい値より大きい場合に、音声認識結果保持部３に保持されている音声認識結果に話者の動きがあったことを示すデータを記録するだけでもよい。
【００２７】
音声認識結果修正候補抽出部７は、音声認識結果保持部３から音声認識結果を読み出し、音声認識要修正判定部６により書き込まれた判定結果が要修正判定であれば（ステップＢ５；ＹＥＳ）、（あるいは、話者の動きがあったことを示すデータが記録されている場合に）「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する（ステップＢ６）。
【００２８】
音声認識結果修正候補として抽出した場合、および修正不要の場合（ステップＢ５；ＮＯ）、ステップＢ１に戻って、話者運動情報取得から繰り返す。
【００２９】
なお、本実施の形態の音声認識装置１００において、図２のステップＡ１〜Ａ３と図３のステップＢ１〜Ｂ３には依存関係はなく、平行して進めることが可能である。
【００３０】
本実施の形態では、話者運動情報取得部４は、話者の位置や向きなどの間接的な情報ではなく、画像・加速度計などの情報から話者の運動の直接の手がかりとなる情報を取得する。音声認識修正スコア計算部５は、その情報を用いて話者の運動の速度や大きさなどの運動状況を計算し、その運動状況から音声認識誤りが発生している可能性の高さを示す話者運動スコアを計算する。音声認識要修正判定部６は、話者運動スコアが事前に設定したしきい値以下であれば音声認識結果の修正が必要である可能性が高いと判定する。そして音声認識結果修正候補抽出部７は、音声認識結果保持部３から音声認識結果を読み出し、音声認識要修正判定部６が書き込んだ判定の情報で音声認識結果の修正が必要と判定された音声認識結果を音声認識結果修正候補として抽出する。
【００３１】
これらの作用により、本実施の形態の音声認識装置１００は、正確に検出するのが困難である話者の位置の情報以外の、加速度などの情報を用いることを可能とすることで、簡易に話者の動作を検出して、話者の動作が検出された場合には音声認識がしにくい状況であると判定することができる。
【００３２】
さらに、パラメータ調節で音声認識を正確にするのが不可能である話者の運動が大きい場合であっても、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識データの修正作業者に音声認識結果修正候補を提示することができる。
【００３３】
（実施の形態２）
図４は、本発明の実施の形態２に係る音声認識装置１００の構成の例を示すブロック図である。実施の形態２の音声認識装置１００は、実施の形態１に比較して、音声認識結果修正候補抽出部７に代えて、またはそれに加えて、話者警告出力部８を備える。
【００３４】
マイクロフォン１、音声認識部２、音声認識結果保持部３、話者運動情報取得部４、および音声認識修正スコア計算部５は、実施の形態１と同様である。
【００３５】
音声認識要修正判定部６は、音声認識修正スコア計算部５から送られた話者運動スコアと事前に設定されたしきい値とを比較する。話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し、判定の情報を話者警告出力部８に送る。あるいは、話者運動スコアがしきい値より大きい場合に、音声認識結果保持部３に保持されている音声認識結果に話者の動きがあったことを示すデータを話者警告出力部８に送る。
【００３６】
話者警告出力部８は、音響、音声、光または振動などの信号を発生する装置を備え、話者に対して異なる状態を認識するよう、信号を送ることができる。話者警告出力部８は、音声認識要修正判定部６から送られた判定の情報で音声認識結果の修正が必要と判定された場合、前記の装置から音響、光、文字または振動などによる信号を発生し、話者に発話時の運動を控えるよう警告する。
【００３７】
図５は、実施の形態２の音声認識装置１００における話者警告処理の動作の一例を示す流れ図である。実施の形態２においても、音声認識処理については図２の実施の形態１と同様に行われる。図５において、ステップＢ１の話者運動情報取得から、ステップＢ３の音声認識結果の修正の要否の判定までの動作は、図３の修正必要度判定Ａと同様である。
【００３８】
実施の形態２では、話者の動きから音声認識結果が修正を要する可能性が高いと判定された場合に（話者の動きの大きさがしきい値より大きい場合に）（ステップＢ５；ＹＥＳ）、話者に発話時の動きを控えるよう警告を出力する（図５のステップＣ１）。
【００３９】
本実施の形態では、話者運動情報取得部４は、話者の位置や向きなどの間接的な情報ではなく、画像・加速度計などの情報から話者の運動の直接の手がかりとなる情報を取得する。音声認識修正スコア計算部５は、その情報を用いて話者の運動の速度や大きさなどの運動状況を計算し、その運動状況から音声認識誤りが発生している可能性の高さを示す話者運動スコアを計算する。音声認識要修正判定部６は、話者運動スコアが事前に設定したしきい値以下であれば音声認識結果の修正が必要である可能性が高いと判定する。そして話者警告出力部８は、音声認識要修正判定部６から送られた判定の情報で音声認識結果の修正が必要と判定された場合、話者に発話時の運動を控えるよう警告を出力する。
【００４０】
これらの作用により、本実施の形態の音声認識装置１００は、パラメータ調節で音声認識を正確にするのが不可能なほど話者の運動が大きい場合であっても、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識作業中に話者に動きを減らすよう即時に警告を発することができる。
【００４１】
（実施の形態３）
図６は、本発明の実施の形態３に係る音声認識装置１００の構成の例を示すブロック図である。実施の形態３の音声認識装置１００は、実施の形態１の構成に加えて、マイクロフォン運動情報取得部９を加えた構成となっている。
【００４２】
マイクロフォン運動情報取得部９は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して、音声認識修正スコア計算部５に送る。
【００４３】
音声認識修正スコア計算部５は、本実施の形態においては、話者運動情報取得部４から送られてきた話者の運動の手がかり情報に加え、マイクロフォン運動情報取得部９から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者とマイクロフォンの相対的な運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部６へ送る。
【００４４】
マイクロフォン１と、音声認識部２と、音声認識結果保持部３と、話者運動情報取得部４と、音声認識要修正判定部６と、音声認識結果修正候補抽出部７と、は図１に示す実施の形態１の同名の手段と同じものである。
【００４５】
図７は、実施の形態３の音声認識装置１００における修正必要度判定Ｃの動作の一例を示す流れ図である。本実施の形態３に係る音声認識装置１００の動作は、図３のフローチャートに加えマイクロフォン運動情報取得ステップ（図７のステップＢ７）が加わったものとなっている。実施の形態３においても、音声認識処理については図２の実施の形態１と同様に行われる。
【００４６】
マイクロフォン運動情報取得部９は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから成り、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部５に送る（図７のステップＢ７）。
【００４７】
本実施の形態３では、音声認識修正スコア計算部５は、話者運動情報取得部４から送られてきた話者の運動の手がかり情報に加え、マイクロフォン運動情報取得部９から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者とマイクロフォンの相対的な運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部６へ送る（図７のステップＢ２’）。
【００４８】
図７において、ステップＢ１の話者運動情報取得、ステップＢ３の音声認識結果の修正の要否の判定からステップＢ６の音声認識結果修正候補抽出までの動作は、図３の修正必要度判定Ａと同様である。
【００４９】
本実施の形態３は、本発明の実施の形態１の構成に加えて、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得するマイクロフォン運動情報取得部９を備える。そして、音声認識修正スコア計算部５は、話者運動情報取得部４から送られてきた話者の運動の手がかり情報に加えて、マイクロフォン運動情報取得部９から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者とマイクロフォンの相対的な運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行う。
【００５０】
これらの作用により、本実施の形態３の音声認識装置１００は、話者とマイクロフォンの相対運動を考慮して、音声認識結果中から音声認識結果の修正が必要である可能性が高い部分を音声認識要修正箇所の候補として検出し、音声認識終了後に音声認識データ修正作業を行うユーザに音声認識要修正箇所の候補を提示することが可能となる。本実施の形態３は、話者の全体の運動が小さくても、手持ちマイクを使用するときのように、話者とマイクロフォンの位置関係に変動が生じる可能性がある場合の音声認識において有効である。
【００５１】
また、本実施の形態は、マイクロフォン運動情報取得部９を図４に示す実施の形態２の構成に加えることにより、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識作業中に話者に動きを減らすよう即時に警告を発するように構成することも可能である。
【００５２】
（実施の形態４）
図８は、本発明の実施の形態４に係る音声認識装置１００の構成の例を示すブロック図である。実施の形態４の音声認識装置１００は、実施の形態１の話者運動情報取得部４の代わりに、マイクロフォン運動情報取得部９を加えた構成となっている。
【００５３】
マイクロフォン運動情報取得部９は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して、音声認識修正スコア計算部５に送る。
【００５４】
音声認識修正スコア計算部５は、本実施の形態４においては、話者運動情報取得部４から送られてきていた話者の運動の手がかり情報の代わりに、マイクロフォン運動情報取得部９から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部６へ送る。
【００５５】
マイクロフォン１と、音声認識部２と、音声認識結果保持部３と、音声認識要修正判定部６と、音声認識結果修正候補抽出部７と、は図１に示す本発明の実施の形態１の同名の手段と同じものである。
【００５６】
図９は、実施の形態４の音声認識装置１００における修正必要度判定Ｄの動作の一例を示す流れ図である。本実施の形態４に係る音声認識装置１００の動作は、図３の流れ図に示す話者運動情報取得ステップ（図３のステップＢ１）が、マイクロフォン運動情報取得ステップ（図９のステップＢ７）に置き換わったものとなっている。
【００５７】
マイクロフォン運動情報取得部９は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部５に送る（図９のステップＢ７）。
【００５８】
また、本実施の形態４においては、音声認識修正スコア計算部５は、話者運動情報取得部４から送られてきていた話者の運動の手がかり情報の代わりに、マイクロフォン運動情報取得部９から送られるマイクロフォンの運動の手がかり情報を用いて、話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部６へ送る（図９のステップＢ２”）。
【００５９】
本実施の形態４は、実施の形態１の話者運動情報取得部４の代わりに、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得するマイクロフォン運動情報取得部９を備える。そして、音声認識修正スコア計算部５は、本実施の形態４においては、話者運動情報取得部４から送られてきていた話者の運動の手がかり情報の代わりに、マイクロフォン運動情報取得部９から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行う。
【００６０】
これらの作用により、本実施の形態４の音声認識装置１００は、話者とマイクロフォンが同調して運動しているような状況では、話者に加速度センサなどの追加の測定機械を話者運動情報取得手段として持たせる代わりに、マイクロフォンに測定機器をマイクロフォン運動情報取得手段として付属させることで、話者の負担を軽減しながら、実施の形態１と同様の効果を得ることが可能となる。本実施の形態４は、話者とマイクロフォンが同調して運動する、ヘッドセットマイクやピンマイクを使用した環境における音声認識において有効である。
【００６１】
また、本実施の形態４は、図４に示す実施の形態２の話者警告出力部８を加えることにより、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識作業中に話者に動きを減らすよう即時に警告を発するように構成することも可能である。
【００６２】
（実施の形態５）
次に、本発明の実施の形態５について図面を参照して詳細に説明する。
【００６３】
図１０は、本発明の実施の形態５に係る音声認識装置１００の構成の例を示すブロック図である。実施の形態５の音声認識装置１００は、実施の形態１の構成にしきい値調整部１０を加えた構成となっている。しきい値調整部１０は、マイクロフォン１が別のものに付け替えられるなどの音声認識環境の変更に応じて、音声認識要修正判定部６が用いるしきい値の調整を行う。
【００６４】
図１０において、マイクロフォン１と、音声認識部２と、音声認識結果保持部３と、話者運動情報取得部４と、音声認識修正スコア計算部５と、音声認識要修正判定部６と、音声認識結果修正候補抽出部７と、は図１に示す実施の形態１の同名の手段と同じものである。
【００６５】
しきい値調整部１０において、音声認識環境の変更を検知するには、例えば、音声認識処理を始めるとき、または、マイクを交換したときに、使用するマイクの種類を入力する。あるいは、カメラで撮影した話者の画像から、手持ちマイク、ヘッドセットまたはスタンドマイクなどを認識して、音声認識環境の変化を検知してもよい。
【００６６】
図１１は、実施の形態５の音声認識装置１００における修正必要度判定Ｅの動作の一例を示す流れ図である。本実施の形態５に係る音声認識装置１００の動作は、図３のフローチャートにしきい値調整ステップ（図１１のステップＤ１〜Ｄ３）が加わったものとなっている。
【００６７】
しきい値調整部１０は、設定しているしきい値が現在の音声認識環境に応じたものかどうかを判定する（ステップＤ１）。例えば、マイクロフォン１が別のものに付け替えられるなどの音声認識環境の変更されたことを検知した場合、または、マイクの変更が入力された場合などは、しきい値を変更する必要があると判断する。
【００６８】
しきい値を変更する必要があると判断した場合（ステップＤ２；ＹＥＳ）、その音声認識環境（例えば、使用するマイク）に適合するよう、音声認識要修正判定部６が用いるしきい値を調整する（ステップＤ３）。音声認識環境に変更がないと判断した場合は（ステップＤ２；ＮＯ）、しきい値を変更しない。ステップＢ３からステップＢ６の動作は、図３の実施の形態１と同様である。
【００６９】
本実施の形態５は、本発明の実施の形態１の構成に加え、マイクロフォン１が別のものに付け替えられるなどの音声認識環境の変更に応じ、音声認識要修正判定部６が用いるしきい値の調整を行うしきい値調整部１０を備えている。
【００７０】
しきい値調整部１０の作用により、マイクロフォンが別のものに付け替えられるなどの音声認識環境の変更に応じて音声認識結果が誤りか否かの判定の基準を調整しながら、話者の動作が検出された場合には音声認識がしにくい状況であると判定することができる。
【００７１】
図１８は、マイクの種類と音声誤認識率の違いの例を模式的に示す図である。図１８（ａ）は、マイクロフォン１としてスタンドマイクを用いる場合、図１８（ｂ）は、ヘッドセットマイクを用いる場合の、話者の運動の大きさと音声認識率の相関関係をそれぞれ示す。図１８を見ると、スタンドマイクを用いているときのマイクの有効範囲（線ｂ）よりも、ヘッドセットマイクを用いているときのマイクの有効範囲（線ｃ）の方が大きい。
【００７２】
例えば、話者の運動の大きさを話者運動スコアとして用いる場合は、スタンドマイクを用いているときのしきい値を図１８（ａ）の線ｂの付近にし、ヘッドセットマイクを用いているときのしきい値を図１８（ｂ）の線ｃの付近にする。しきい値調整部１０がこのようにしきい値を調整することで、音声認識環境の変更に応じて音声認識結果が誤りか否かの判定の基準を調整しながら、話者の動作が検出された場合には音声認識がしにくい状況であると判定することができる。
【００７３】
また、図４、６、８にそれぞれ示す実施の形態２、３、４の構成に、しきい値調整部１０を加えることにより、それぞれの実施の形態において、音声認識装置１００が音声認識環境の変化に自動的に対応できるようにすることも可能である。
【００７４】
次に、具体例を用いて本発明の動作を説明する。
【００７５】
（具体例１）
具体例１は、実施の形態１の例である。図１２は、具体例１の使用状況を示す。具体例１では、図１のマイクロフォン１は卓上マイク１１であり、図１の話者運動情報取得部４は卓上マイク１１とその話者の動画を撮影するカメラ２１であるとする。また、図１の音声認識修正スコア計算部５は、カメラ２１の撮影した動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとする。
【００７６】
本具体例において、まず卓上マイク１１は、話者の発話などの音声情報を入力として受け取り、音声認識部２に送る（図２のステップＡ１）。次に、音声認識部２は、卓上マイク１１から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換する（図２のステップＡ２）。そして、テキスト化された発話を音声認識結果として音声認識結果保持部３へ送る（図２のステップＡ３）。
【００７７】
話者運動情報取得部４は、カメラ２１の撮影した動画を話者の運動の手がかり情報として取得して音声認識修正スコア計算部５に送る（図３のステップＢ１）。
【００７８】
音声認識修正スコア計算部５は、話者運動情報取得部４から送られてきた動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとして、話者運動スコアを音声認識要修正判定部６へ送る（図３のステップＢ２）。
【００７９】
音声認識要修正判定部６は、音声認識修正スコア計算部５から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し、音声認識結果保持部３に保持されている音声認識結果に判定結果を書き込む（図３のステップＢ３）。
【００８０】
本具体例のように、マイクロフォン１として卓上マイクやスタンドマイクなどの設置型のマイクを使用する場合は、話者の運動による話者の位置変化が話者とマイクロフォンの相対位置関係の変化となるため、ヘッドセットマイクやピンマイクなどの接触型のマイクを使用する場合と比べて、マイクロフォン１から入力される音声の質が話者の運動により劣化しやすい。したがって、マイクロフォン１として設置型のマイクを使用する場合は、接触型の（話者と共に移動する）マイクを使用する場合に比べてしきい値を低く設定する必要がある。
【００８１】
音声認識結果修正候補抽出部７は、音声認識結果保持部３から音声認識結果を読み出し、音声認識要修正判定部６により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する（図３のステップＢ６）。
【００８２】
本具体例が有効に働く例として、卓上マイクの前に発言者が歩み出て発言を行う形式の会議での発言者の音声認識などが挙げられる。
【００８３】
（具体例２）
具体例２は実施の形態２の例である。図１２の使用状況を例に説明する。本具体例においては図４のマイクロフォン１は卓上マイク１１であり、図４の話者運動情報取得部４は卓上マイクとその話者の動画を撮影するカメラ２１であるとする。また、図４の音声認識修正スコア計算部５は、カメラ２１の撮影した動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとする。話者警告出力部８は、警告としてビープ音を話者に聞こえるように発するとする。
【００８４】
音声認識および話者運動情報の取得は、具体例１と同様である。音声認識修正スコア計算部５は、話者運動情報取得部４から送られてきた動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとし（図５のステップＢ２）、話者運動スコアを音声認識要修正判定部６へ送る。
【００８５】
音声認識要修正判定部６は、音声認識修正スコア計算部５から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し（図５のステップＢ３）、判定の情報を話者警告出力部８に送る。
【００８６】
話者警告出力部８は、音声認識要修正判定部６から送られた判定の情報で音声認識要修正と判定された場合（図５のステップＢ５；ＹＥＳ）、即時に話者に対して、発話時の運動を控えるよう警告としてビープ音を出力する（図５のステップＣ１）。
【００８７】
（具体例３）
具体例３は実施の形態３の例である。図１３は、本具体例の使用状況を示す。本具体例において、図６のマイクロフォン１は手持ちマイク１２、図６の話者運動情報取得部４は話者が頭部に身につける加速度センサ２２、図６のマイクロフォン運動情報取得部９は手持ちマイクに付属する加速度センサ２３であるとする。また、図６の音声認識修正スコア計算部５は、手持ちマイク１２に付属する加速度センサ２３が計測した加速度と話者が身につけた加速度センサ２２が計測した加速度から、話者頭部のマイクに対する相対速度を求め、それを話者運動スコアとして扱う。
【００８８】
本具体例において、まず手持ちマイク１２は、話者の発話などの音声情報を入力として受け取り、音声認識部２に送る（図２のステップＡ１）。次に、音声認識部２は、手持ちマイク１２から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換する（図２のステップＡ２）。そして、テキスト化された発話を音声認識結果として音声認識結果保持部３へ送る（図２のステップＡ３）。
【００８９】
話者運動情報取得部４は、話者頭部の加速度を話者の運動の手がかり情報として取得して音声認識修正スコア計算部５に送る（図７のステップＢ１）。マイクロフォン運動情報取得部９は、手持ちマイクの加速度をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部５に送る（図７のステップＢ７）。
【００９０】
音声認識修正スコア計算部５は、話者運動情報取得部４から送られてきた話者頭部の加速度情報とマイクロフォン運動情報取得部９から送られてきた手持ちマイク１２の加速度情報から話者頭部の手持ちマイク１２に対する相対速度を求めて話者運動スコアとする。そして、話者運動スコアを音声認識要修正判定部６へ送る（図７のステップＢ２’）。
【００９１】
本具体例のようにマイクロフォン１として手持ちマイクを使用する場合は、音質の劣化の重要な要素である話者とマイクロフォン１の相対位置関係の変化を話者運動スコアに反映するために、話者とマイクロフォン１双方の運動を計測する必要がある。
【００９２】
音声認識要修正判定部６は、音声認識修正スコア計算部５から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し（図７のステップＢ３）、音声認識結果保持部３に保持されている音声認識結果に判定結果を書き込む（図７のステップＢ４）。
【００９３】
音声認識結果修正候補抽出部７は、音声認識結果保持部３から音声認識結果を読み出し、音声認識要修正判定部６により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する（図７のステップＢ６）。
【００９４】
本具体例が有効に働く例として、手持ちマイクを持つ講師が歩き回りながら講演を行う状況での講師の音声認識などが挙げられる。
【００９５】
（具体例４）
具体例４は実施の形態４の例である。図１４は、具体例４の使用状況を示す。本具体例４において、図８のマイクロフォン１はヘッドセットマイク１３、図８のマイクロフォン運動情報取得部９はヘッドセットマイク１３に付属する加速度センサ２３であるとする。また、図８の音声認識修正スコア計算部５は、加速度センサ２３が計測したヘッドセットマイク１３の加速度からヘッドセットマイク１３の運動速度を求め、それを話者運動スコアとして扱う。
【００９６】
本具体例において、まずヘッドセットマイク１３は、話者の発話などの音声情報を入力として受け取り、音声認識部２に送る（図２のステップＡ１）。次に、音声認識部２は、ヘッドセットマイク１３から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換する（図２のステップＡ２）。そして、テキスト化された発話を音声認識結果として音声認識結果保持部３へ送る（図２のステップＡ３）。
【００９７】
マイクロフォン運動情報取得部９は、ヘッドセットマイク１３の加速度をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部５に送る（図９のステップＢ２”）。音声認識修正スコア計算部５は、マイクロフォン運動情報取得部９から送られてきたヘッドセットマイク１３の加速度情報からヘッドセットマイク１３の運動速度を求めて話者運動スコアとして、話者運動スコアを音声認識要修正判定部６へ送る（図９のステップＢ３）。
【００９８】
本具体例のようにマイクロフォン１としてヘッドセットマイクやピンマイクなどの話者に取り付けるタイプのマイクを使用する場合は、マイクロフォン１の運動を話者の頭部の運動と同一視できる。そこで、マイクロフォン１の運動のみを計測して、それを話者の運動の情報として話者運動スコアの計算に用いることができる。このことにより、話者運動を測定するために、話者に追加の測定機器をつける必要がなくなるという点で話者の負担を低減することができる。
【００９９】
音声認識要修正判定部６は、音声認識修正スコア計算部５から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し（図９のステップＢ３）、音声認識結果保持部３に保持されている音声認識結果に判定結果を書き込む（図９のステップＢ４）。
【０１００】
本具体例のように、マイクロフォン１としてヘッドセットマイクやピンマイクなどの話者に取り付けるタイプのマイクを使用する場合は、手持ちマイクやスタンドマイク、卓上マイクなどの設置型のマイクを使用する場合と比べて話者とマイクの間の距離が変化し難く、話者の運動が大きくてもマイクロフォン１から入力される音声の質が劣化しにくい。したがって、本具体例のように、マイクロフォン１として話者に取り付けるタイプのマイクを使用する場合は、設置型のマイクを使用する場合と比べてしきい値を高く設定する必要がある。
【０１０１】
音声認識結果修正候補抽出部７は、音声認識結果保持部３から音声認識結果を読み出し、音声認識要修正判定部６により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する（図９のステップＢ６）。
【０１０２】
本具体例が有効に働く例として、舞台上でマイクを身に付けて演劇を行う役者の音声認識などが挙げられる。
【０１０３】
（具体例５）
具体例５は実施の形態５の例である。図１５は、具体例５の使用状況を示す。本具体例５において、図１０のマイクロフォン１は卓上マイク１１とヘッドセットマイク１３のどちらかであり、音声認識中であっても交換可能であるとする。また、図１０の話者運動情報取得部４は、話者が頭部に身につける加速度センサ２２であるとする。また、図１０の音声認識修正スコア計算部５は、加速度センサ２２が計測した重力加速度以外の加速度から話者の運動の大きさを求め、それを話者運動スコアとして扱う。
【０１０４】
本具体例のしきい値調整部１０は、マイクロフォン１として卓上マイク１１が使用されている際は図１８の線ｂの位置の値を、マイクロフォン１としてヘッドセットマイク１３が使用されている際は図１８の線ｃの位置の値を、音声認識要修正判定部６がしきい値としてそれぞれ用いるようしきい値の調整を行う。
【０１０５】
本具体例において、音声認識の動作は、具体例１または具体例４と同様である。話者運動情報取得部４は、話者の頭部の加速度を話者の運動の手がかり情報として取得して音声認識修正スコア計算部５に送る（図１１のステップＢ１）。
【０１０６】
音声認識修正スコア計算部５は、話者運動情報取得部４から送られてきた話者の頭部の加速度情報から話者の運動の大きさを求めて話者運動スコアとして、話者運動スコアを音声認識要修正判定部６へ送る（図１１のステップＢ２）。
【０１０７】
しきい値調整部１０は、マイクロフォン１として使用されるマイクが交換された際に（ステップＤ２；ＹＥＳ）、マイクロフォン１として卓上マイク１１が使用されるようになった場合は、図１８の点線ｂの位置の値を、マイクロフォン１としてヘッドセットマイク１３が使用されるようになった場合は、図１８の点線ｃの位置の値を、音声認識要修正判定部６がしきい値としてそれぞれ用いるよう、しきい値の調整を行う（図１１のステップＤ３）。
【０１０８】
音声認識要修正判定部６は、音声認識修正スコア計算部５から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定する（図１１のステップＢ３）。そして、音声認識結果保持部３に保持されている音声認識結果に判定結果を書き込む（図１１のステップＢ４）。
【０１０９】
音声認識結果修正候補抽出部７は、音声認識結果保持部３から音声認識結果を読み出し、音声認識要修正判定部６により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する（図１１のステップＢ６）。
【０１１０】
本発明の話者運動情報取得部４は、上記の５つの具体例で用いた加速度センサ２２、２３と動画内の話者移動検出の他に、例えば下記のものを使うことが考えられる。
・モーションキャプチャ用の特定の色の目印を話者およびマイクロフォンに付けて画像中から位置認識する。
・超音波によって、話者の位置を測定する。
・床にはめ込んだ感圧センサによって、話者の立ち位置を検知する。
【０１１１】
音声認識修正スコア計算部５が、話者運動スコアを計算するのに用いるパラメータの例として上記の５つの具体例でも用いた話者の運動の大きさと話者の運動の速さが上げられる。
【０１１２】
話者が大きく動くと、話者がマイクの有効範囲から外れてしまい音質が劣化してしまうことが想定されるため、話者の運動の大きさと音声認識の誤認識率の関係性は図１６のようになると考えられる。図１６に示すように、話者の運動が大きくなればなるほど音声認識の誤認識率が高まっているので、話者の運動の大きさを用いて音声認識が誤認識かどうかの判定を行う話者運動スコアの計算を行うのは妥当であると考えられる。
【０１１３】
話者の運動が速くなると、話者とマイクの相対距離が大きく変化して音質が劣化してしまうことや、話者にかかる物理的負担により音質が劣化してしまうことが想定されるため、話者の運動の速度と音声認識の誤認識率の関係性は図１７のようになると考えられる。図を参照すると、話者の運動が速くなればなるほど音声認識の誤認識率が高まっているので、話者の運動の速度を用いて音声認識が誤認識かどうかの判定を行う話者運動スコアの計算を行うのは妥当であると考えられる。
【０１１４】
また、音声認識修正スコア計算部５は、上記の５つの具体例で用いた話者の速度、話者とマイクロフォンの相対速度、話者の運動の大きさの他に、例えば下記のものを用いることが考えられる。
・話者とマイクロフォンの相対位置
・話者の位置と向き
・話者の運動の継続時間
【０１１５】
上記の５つの具体例では、具体例３の手持ちマイク１２の場合のみ話者とマイクロフォン１の双方の運動を計測したが、具体例４のようなヘッドセットマイク１３やピンマイクなどの接触型マイクや、具体例１のような卓上マイク１１やスタンドマイクなどの設置型マイクを使用する場合でも、話者とマイクロフォン双方の運動を測定し、話者運動スコアの計測に用いてもよい。
【０１１６】
図１９は、図１または図４に示す音声認識装置１００のハードウェア構成の一例を示すブロック図である。音声認識装置１００は、図１９に示すように、制御部３１、主記憶部３２、外部記憶部３３、音声入力部３４、表示部３５及び入力部３６を備える。主記憶部３２、外部記憶部３３、音声入力部３４、表示部３５及び入力部３６はいずれも内部バス３０を介して制御部３１に接続されている。
【０１１７】
制御部３１はＣＰＵ（Central Processing Unit）等から構成され、外部記憶部３３に記憶されている音声認識用プログラム５００に従って、前述の音声認識装置１００の処理を実行する。
【０１１８】
主記憶部３２はＲＡＭ（Random-Access Memory）等から構成され、外部記憶部３３に記憶されている音声認識用プログラム５００をロードし、制御部３１の作業領域として用いられる。
【０１１９】
外部記憶部３３は、フラッシュメモリ、ハードディスク、ＤＶＤ−ＲＡＭ（Digital Versatile Disc Random-Access Memory）、ＤＶＤ−ＲＷ（Digital Versatile Disc ReWritable）等の不揮発性メモリから構成され、前記の処理を制御部３１に行わせるための音声認識用プログラム５００を予め記憶し、また、制御部３１の指示に従って、このプログラムが記憶するデータを制御部３１に供給し、制御部３１から供給されたデータを記憶する。図１または図４の音声認識結果保持部３は、外部記憶部３３に構成される。音声認識処理、修正必要度判定処理および話者警告処理を行っているときは、それらのデータの一部は主記憶部３２に記憶されて制御部３１の作業に用いる。
【０１２０】
音声入力部３４は、マイクロフォン１に接続し、アンプおよびＡ−Ｄ変換器を備える。音声入力部３４は、マイクロフォン１の音声信号をＡ−Ｄ変換し、数値演算しやすいデータにして制御部３１に供給する。
【０１２１】
表示部３５は、例えば、音信号源とアンプを備える。ブザー、スピーカなどの音響出力装置を接続して、音響または音声によって話者への警告信号を出力する。表示部３５はまた、ランプ、ＬＥＤ、または、ＣＲＴ（Cathode Ray Tube）もしくはＬＣＤ（Liquid Crystal Display）などの画像表示部を駆動する回路を備え、それらを用いて、話者への警告信号を出力してもよい。
【０１２２】
入力部３６は、加速度センサ、超音波センサ、ミリ波レーダまたはカメラなどを接続して、それらの信号を入力する。制御部３１は、入力部３６に接続するそれらのセンサなどの信号を用いて、話者の変位、速度、または加速度である動きを検出する。
【０１２３】
図１または図４の音声認識部２と、音声認識結果保持部３と、話者運動情報取得部４と、音声認識修正スコア計算部５と、音声認識要修正判定部６と、音声認識結果修正候補抽出部７、話者警告出力部８、マイクロフォン運動情報取得部９またはしきい値調整部１０の処理は、音声認識用プログラム５００が、制御部３１、主記憶部３２、外部記憶部３３、音声入力部３４、表示部３５および入力部３６などを資源として用いて処理することによって実行する。
【０１２４】
本発明の音声認識装置１００はこのような構成を採用し、話者の動作情報を位置や向きなどからではなく直接測定し、その情報を用いて話者の運動が音声認識の精度に影響してしまう状態を検出することで、話者が運動した場合に音声認識誤りが発生している可能性の高い箇所を抽出することができるようになる。
【０１２５】
さらに、音声認識要修正判定手段が判定に用いるしきい値を事前に調整できることで、マイクロフォンが話者の運動の影響を受けやすい設置型のスタンドマイクであった場合にはしきい値を低く、話者の運動の影響を受けにくい接触型のヘッドセットマイクであった場合にはしきい値を高くするなどの調整が可能となる。
【０１２６】
その他、本発明の好適な変形として、以下の構成が含まれる。
【０１２７】
本発明の第１の観点に係る音声認識装置について、
好ましくは、前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定手段を備える。
【０１２８】
好ましくは、前記要修正判定手段は、
前記話者運動検出手段が検出した話者の一部および／または重心の変位および／または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算手段を備え、
前記誤り可能性スコア計算手段で計算したスコアが所定のしきい値以上の場合に、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断することを特徴とする。
【０１２９】
前記誤り可能性スコア計算手段は、前記話者運動検出手段が検出した話者の一部および／または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算してもよい。
【０１３０】
また、前記音声認識手段で抽出した文字符号列を保持する音声認識結果保持手段を備え、
前記要修正判定手段は、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応して前記音声認識結果保持手段にその判定結果を書き込み、
前記音声認識結果保持手段から音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出手段を備えることができる。
【０１３１】
なお、前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告手段を備えてもよい。
【０１３２】
前記音声入力手段は、前記話者とともに移動するマイクロフォンを備え、
前記話者運動検出手段は、前記マイクロフォンの変位および／または速度および／または加速度を検出し、
前記話者信号送出手段は、前記マイクロフォンの変位および／または速度および／または加速度を用いて話者の動きを算出してもよい。
【０１３３】
前記話者運動検出手段で検出した話者の動きを比較する前記所定の大きさを、前記音声入力手段で入力した音声、および／または、前記音声入力手段とその周囲との相対的動き、および／または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応手段を備えてもよい。
【０１３４】
本発明の第２の観点に係る音声認識方法について、
好ましくは、前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定ステップを備える。
【０１３５】
好ましくは、前記要修正判定ステップは、
前記話者運動検出ステップで検出した話者の一部および／または重心の変位および／または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算ステップを備え、
前記誤り可能性スコア計算ステップで計算したスコアが所定のしきい値以上の場合に、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断することを特徴とする。
【０１３６】
前記誤り可能性スコア計算ステップは、前記話者運動検出ステップで検出した話者の一部および／または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算してもよい。
【０１３７】
また、前記音声認識ステップで抽出した文字符号列を保持する音声認識結果保持ステップと、
前記要修正判定ステップで、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応してその判定結果を書き込む判定結果記録ステップと、
前記要修正判定ステップで音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出ステップと、を備えることができる。
【０１３８】
なお、前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告ステップを備えてもよい。
【０１３９】
前記話者運動検出ステップは、前記話者とともに移動するマイクロフォンの変位および／または速度および／または加速度を検出し、
前記話者信号送出ステップは、前記マイクロフォンの変位および／または速度および／または加速度を用いて話者の動きを算出してもよい。
【０１４０】
前記話者運動検出ステップで検出した話者の動きを比較する前記所定の大きさを、前記音声入力ステップで入力した音声、および／または、前記話者とその周囲との相対的動き、および／または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応ステップを備えてもよい。
【０１４１】
本発明の音声認識装置１００によれば、話者が発話中に動きを伴う場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる。
【０１４２】
その理由は、本発明が、話者の位置や向きなどの間接的な情報ではなく、画像・加速度計などの情報から話者の運動の直接の手がかりとなる情報を取得するための話者運動情報取得手段と、その情報を用いて話者の運動の速度や大きさなどの運動状況を計算し、その運動状況から音声認識誤りが発生している可能性の高さを示す話者運動スコアを計算する話者運動スコア計算手段と、話者運動スコアが事前に設定したしきい値以下であれば音声認識結果の修正が必要である可能性が高いと判定する音声認識要修正判定手段を有するためである。
【図面の簡単な説明】
【０１４３】
【図１】本発明の実施の形態１に係る音声認識装置の構成の例を示すブロック図である。
【図２】実施の形態１の音声認識装置における音声認識処理の動作の一例を示す流れ図である。
【図３】実施の形態１の音声認識装置における修正必要度判定Ａの動作の一例を示す流れ図である。
【図４】本発明の実施の形態２に係る音声認識装置の構成の例を示すブロック図である。
【図５】実施の形態２の音声認識装置における話者警告処理の動作の一例を示す流れ図である。
【図６】本発明の実施の形態３に係る音声認識装置の構成の例を示すブロック図である。
【図７】実施の形態３の音声認識装置における修正必要度判定Ｃの動作の一例を示す流れ図である。
【図８】本発明の実施の形態４に係る音声認識装置の構成の例を示すブロック図である。
【図９】実施の形態４の音声認識装置における修正必要度判定Ｄの動作の一例を示す流れ図である。
【図１０】本発明の実施の形態５に係る音声認識装置の構成の例を示すブロック図である。
【図１１】実施の形態５の音声認識装置における修正必要度判定Ｅの動作の一例を示す流れ図である。
【図１２】具体例１または具体例２の使用状況を示す図である。
【図１３】具体例３の使用状況を示す図である。
【図１４】具体例４の使用状況を示す図である。
【図１５】具体例５の使用状況を示す図である。
【図１６】話者の運動の大きさと音声認識の誤認識率の概念的な関係を示すグラフである。
【図１７】話者の運動速度と音声認識の誤認識率の概念的な関係を示すグラフである。
【図１８】マイクの種類と音声誤認識率の違いの例を示す図である。
【図１９】音声認識装置のハードウェア構成の一例を示すブロック図である。
【符号の説明】
【０１４４】
１マイクロフォン
２音声認識部
３音声認識結果保持部
４話者運動情報取得部
５音声認識修正スコア計算部
６音声認識要修正判定部
７音声認識結果修正候補抽出部
８話者警告出力部
９マイクロフォン運動情報取得部
１０しきい値調整部
３１制御部
３２主記憶部
３３外部記憶部
３４音声入力部
３５表示部
３６入力部
１００音声認識装置
５００音声認識用プログラム

【特許請求の範囲】
【請求項１】
話者の発話する音声を入力する音声入力手段と、
前記音声入力手段で入力した音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
を備えることを特徴とする音声認識装置。
【請求項２】
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定手段を備えることを特徴とする請求項１に記載の音声認識装置。
【請求項３】
前記要修正判定手段は、
前記話者運動検出手段が検出した話者の一部および／または重心の、変位および／または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算手段を備え、
前記誤り可能性スコア計算手段で計算したスコアが所定のしきい値以上の場合に、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する
ことを特徴とする請求項２に記載の音声認識装置。
【請求項４】
前記誤り可能性スコア計算手段は、前記話者運動検出手段が検出した話者の一部および／または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算することを特徴とする請求項３に記載の音声認識装置。
【請求項５】
前記音声認識手段で抽出した文字符号列を保持する音声認識結果保持手段を備え、
前記要修正判定手段は、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応して前記音声認識結果保持手段にその判定結果を書き込み、
前記音声認識結果保持手段から音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出手段を備える、
ことを特徴とする請求項２ないし４のいずれか１項に記載の音声認識装置。
【請求項６】
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告手段を備えることを特徴とする請求項１ないし５のいずれか１項に記載の音声認識装置。
【請求項７】
前記音声入力手段は、前記話者とともに移動するマイクロフォンを備え、
前記話者運動検出手段は、前記マイクロフォンの変位および／または速度および／または加速度を検出し、
前記話者信号送出手段は、前記マイクロフォンの変位および／または速度および／または加速度を用いて話者の動きを算出する、
ことを特徴とする請求項１ないし６のいずれか１項に記載の音声認識装置。
【請求項８】
前記話者運動検出手段で検出した話者の動きを比較する前記所定の大きさを、前記音声入力手段で入力した音声、および／または、前記音声入力手段とその周囲との相対的動き、および／または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応手段を備えることを特徴とする請求項１ないし７のいずれか１項に記載の音声認識装置。
【請求項９】
話者の発話する音声を入力する音声入力ステップと、
前記音声入力ステップで入力した音声から、その発話に対応する文字符号列を抽出する音声認識ステップと、
前記話者の動きを検出する話者運動検出ステップと、
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出ステップと、
を備えることを特徴とする音声認識方法。
【請求項１０】
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定ステップ、を備えることを特徴とする請求項９に記載の音声認識方法。
【請求項１１】
前記要修正判定ステップは、
前記話者運動検出ステップで検出した話者の一部および／または重心の変位および／または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算ステップを備え、
前記誤り可能性スコア計算ステップで計算したスコアが所定のしきい値以上の場合に、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する
ことを特徴とする請求項１０に記載の音声認識方法。
【請求項１２】
前記誤り可能性スコア計算ステップは、前記話者運動検出ステップで検出した話者の一部および／または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算することを特徴とする請求項１１に記載の音声認識方法。
【請求項１３】
前記音声認識ステップで抽出した文字符号列を保持する音声認識結果保持ステップと、
前記要修正判定ステップで、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応してその判定結果を書き込む判定結果記録ステップと、
前記要修正判定ステップで音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出ステップと、
を備えることを特徴とする請求項１０ないし１２のいずれか１項に記載の音声認識方法。
【請求項１４】
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告ステップを備えることを特徴とする請求項９ないし１３のいずれか１項に記載の音声認識方法。
【請求項１５】
前記話者運動検出ステップは、前記話者とともに移動するマイクロフォンの変位および／または速度および／または加速度を検出し、
前記話者信号送出ステップは、前記マイクロフォンの変位および／または速度および／または加速度を用いて話者の動きを算出する、
ことを特徴とする請求項９ないし１４のいずれか１項に記載の音声認識方法。
【請求項１６】
前記話者運動検出ステップで検出した話者の動きを比較する前記所定の大きさを、前記音声入力ステップで入力した音声、および／または、前記話者とその周囲との相対的動き、および／または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応ステップを備えることを特徴とする請求項９ないし１５のいずれか１項に記載の音声認識方法。
【請求項１７】
コンピュータを、
音声入力手段で入力した話者の発話する音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
して機能させることを特徴とする音声認識プログラム。

【図１】