音声認識装置、音声認識方法および音声認識プログラム
【課題】話者が運動した場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる音声認識装置を提供する。
【解決手段】話者の発話する音声を入力するマイクロフォン1と、マイクロフォン1で入力した音声から、その発話に対応する文字符号列を抽出する音声認識部2と、話者の動きを検出する話者運動情報取得部4と、話者運動情報取得部4で検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から音声認識部2で抽出した文字符号列が、話者の発話する内容に適合していない可能性が高いと判断する音声認識修正スコア計算部5および要修正判定部6と、を備える。
【解決手段】話者の発話する音声を入力するマイクロフォン1と、マイクロフォン1で入力した音声から、その発話に対応する文字符号列を抽出する音声認識部2と、話者の動きを検出する話者運動情報取得部4と、話者運動情報取得部4で検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から音声認識部2で抽出した文字符号列が、話者の発話する内容に適合していない可能性が高いと判断する音声認識修正スコア計算部5および要修正判定部6と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声認識装置、音声認識方法および音声認識プログラムに関する。より詳しくは、音声認識した結果が話者の発話する内容に適合していない可能性を判定する音声認識装置、音声認識方法、音声認識プログラムに関わる。
【背景技術】
【0002】
近年、人間の会話などの音声データをテキストデータに変換する音声認識技術が実用化されている。音声認識技術が使用される現実的な場面を想定すると、話者はなんらかの動作を行うことが多い。話者の動作として、講師が歩き回りながら講演を行う場合や、話者が会話の中に出てきた物の位置や大きさを表現するために身振りで示す場合などが挙げられる。一般的な音声認識技術においては、話者がある程度動いても認識を正しく行うことが出来るが、話者の動作が大き過ぎると話者の発話の質が下がるために音声認識しにくくなってしまうという問題点があった。話者の動作の大きさと音声認識成功率の関係性のグラフの一例を図16に示す。図16によれば、話者の動作が線aを超えて大きくなってしまうと、大幅に音声の誤認識率が増加する(音声認識成功率が下がる)。
【0003】
特許文献1には、話者の運動の情報を音声認識に応用することが記載されている。特許文献1の技術は、話者の位置データに基づいて、マイクロホンを備える音声情報入力部の指向特性、入力特性、マイクロホンの方向を制御する。
【0004】
話者の動き以外に、話者の状況または環境に適応して音声認識処理を行う技術がある。特許文献2は、音声認識結果の信頼度が高い場合のみ、認識結果を出力することが記載されている。特許文献2の技術は、格納している音響データを用いて発音評定処理を行い、発音評定結果が所定の関係にあると判断した場合のみ、音声認識結果を出力する。
【0005】
また、特許文献3の技術は、様々な緊張下における発音に基づいて作成された辞書を用意し、話者状態又は/及び自動車の走行状態を検知して話者の心的状態を推定し、心的状態推定値(例えば、余裕度推定値)に応じて選択した辞書を用いて音声認識を行う。
【0006】
特許文献4に記載の技術では、音響情報パラメータのみ、筋電信号パラメータのみ、画像情報パラメータのみを用いてそれぞれ音声認識を行い、それぞれのパラメータから得られた認識結果を統合することによって、最終的に音声認識を行う。
【0007】
その他、認識誤りの可能性を表示する技術がある。特許文献5の技術は、誤り(正解)箇所検出部は音声認識部から受信した認識結果に基づき誤り(正解)箇所を検出し、修正者等に誤り(正解)箇所を呈示する。また、特許文献6には、騒音レベルの変動の大きさを測定して、騒者レベルの変動が大の時に発声者に警告を発することが記載されている。
【特許文献1】特開2000−148184号公報
【特許文献2】特開2007−127738号公報
【特許文献3】特開2002−149191号公報
【特許文献4】特開2003−255993号公報
【特許文献5】特開2002−162992号公報
【特許文献6】特開昭63−77097号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
特許文献1の技術などに見られる、話者とマイクロフォンの距離や話者の向きを測定する方法では、話者の位置の情報は、正確に検出するのが困難である。さらに、パラメータ調節だけで音声認識を完全に正確にするのは困難であり、特に話者の運動が大きい場合にはパラメータ調節で音声認識を正確にするのが不可能であるという問題があった。
【0009】
その他の関連する技術では、音声認識を悪化させる明らかな要因である話者の運動の情報を用いることが出来ないという問題点があった。関連する技術の問題点は、話者が運動して音質が落ちた場合に、音声認識精度を改善しきれない点である。
【0010】
本発明は上記のような事情に鑑みてなされたもので、その目的は、話者が運動した場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる音声認識装置を提供することである。
【課題を解決するための手段】
【0011】
本発明の第1の観点に係る音声認識装置は、
話者の発話する音声を入力する音声入力手段と、
前記音声入力手段で入力した音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
を備えることを特徴とする。
【0012】
本発明の第2の観点に係る音声認識方法は、
話者の発話する音声を入力する音声入力ステップと、
前記音声入力ステップで入力した音声から、その発話に対応する文字符号列を抽出する音声認識ステップと、
前記話者の動きを検出する話者運動検出ステップと、
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出ステップと、
を備えることを特徴とする。
【0013】
本発明の第3の観点に係る音声認識プログラムは、
コンピュータを、
音声入力手段で入力した話者の発話する音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
して機能させることを特徴とする。
【発明の効果】
【0014】
本発明の音声認識装置、音声認識方法および音声認識プログラムによれば、話者が発話中に動きを伴う場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる。
【発明を実施するための最良の形態】
【0015】
(実施の形態1)
本発明の実施の形態について図面を参照して詳細に説明する。図1を参照すると、本発明の実施の形態1に係る音声認識装置100は、マイクロフォン1と、音声認識部2と、音声認識結果保持部3と、話者運動情報取得部4と、音声認識修正スコア計算部5と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7と、を備えている。
【0016】
マイクロフォン1は、話者の発話などの音声情報を入力として受け取り、音声認識部2に送る。音声認識部2は、マイクロフォン1から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換し、テキスト化された発話を音声認識結果として音声認識結果保持部3へ送る。音声認識結果保持部3は、音声認識部2から送られてきた音声認識結果を保持する。
【0017】
話者運動情報取得部4は、話者の様子を撮影するカメラや話者の動きを計測する加速度計などから構成される。話者運動情報取得部4は、話者の画像や加速度などの情報を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る。例えば、画像から話者の位置とその変位および速度を計測する。話者の位置としては、話者全体の重心の位置のほかに、話者の身体の一部、例えば頭、腕などを検出してもよい。また、ミリ波レーダ、超音波センサなどで、話者の速度または加速度を計測してもよい。
【0018】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の運動の手がかり情報から話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアを計算する。話者運動スコアは、話者の運動の大きさや運動の早さなどを元に計算するものであり、計算法は装置により異なる。音声認識修正スコア計算部5は、話者運動スコアを音声認識要修正判定部6へ送る。
【0019】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較する。話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む。話者運動スコアがしきい値より大きい場合に、音声認識結果保持部3に保持されている音声認識結果に話者の動きがあったことを示すデータを記録するだけでもよい。
【0020】
音声認識要修正判定部6が判定に用いるしきい値を事前に調整して設定するので、マイクロフォン1が話者の運動の影響を受けやすい設置型のスタンドマイクの場合にはしきい値を低く、話者の運動の影響を受けにくい接触型のヘッドセットマイクの場合にはしきい値を高くするなどの調整が可能である。
【0021】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を、音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する。
【0022】
図2および図3のフローチャートを参照して本実施の形態の動作について詳細に説明する。図2は、実施の形態1の音声認識装置100における音声認識処理の動作の一例を示す流れ図である。
【0023】
マイクロフォン1は、話者の発話などの音声を入力して電気信号に変換し、音声情報として音声認識部2に送る(図2のステップA1)。音声認識部2は、マイクロフォン1から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換し(図2のステップA2)、テキスト化された発話を音声認識結果として音声認識結果保持部3へ格納する(図2のステップA3)。そして、ステップA1に戻って、音声入力から繰り返す。
【0024】
図3は、実施の形態1の音声認識装置100における修正必要度判定Aの動作の一例を示す流れ図である。話者運動情報取得部4は、話者の様子を撮影するカメラや話者の動きを計測する加速度計などから構成され、話者の画像や加速度などの情報を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図3のステップB1)。
【0025】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の運動の手がかり情報から話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る(図3のステップB2)。
【0026】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば話者運動がなく修正不要と判定する(図3のステップB3)。そして、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図3のステップB4)。話者運動スコアがしきい値より大きい場合に、音声認識結果保持部3に保持されている音声認識結果に話者の動きがあったことを示すデータを記録するだけでもよい。
【0027】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が要修正判定であれば(ステップB5;YES)、(あるいは、話者の動きがあったことを示すデータが記録されている場合に)「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(ステップB6)。
【0028】
音声認識結果修正候補として抽出した場合、および修正不要の場合(ステップB5;NO)、ステップB1に戻って、話者運動情報取得から繰り返す。
【0029】
なお、本実施の形態の音声認識装置100において、図2のステップA1〜A3と図3のステップB1〜B3には依存関係はなく、平行して進めることが可能である。
【0030】
本実施の形態では、話者運動情報取得部4は、話者の位置や向きなどの間接的な情報ではなく、画像・加速度計などの情報から話者の運動の直接の手がかりとなる情報を取得する。音声認識修正スコア計算部5は、その情報を用いて話者の運動の速度や大きさなどの運動状況を計算し、その運動状況から音声認識誤りが発生している可能性の高さを示す話者運動スコアを計算する。音声認識要修正判定部6は、話者運動スコアが事前に設定したしきい値以下であれば音声認識結果の修正が必要である可能性が高いと判定する。そして音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6が書き込んだ判定の情報で音声認識結果の修正が必要と判定された音声認識結果を音声認識結果修正候補として抽出する。
【0031】
これらの作用により、本実施の形態の音声認識装置100は、正確に検出するのが困難である話者の位置の情報以外の、加速度などの情報を用いることを可能とすることで、簡易に話者の動作を検出して、話者の動作が検出された場合には音声認識がしにくい状況であると判定することができる。
【0032】
さらに、パラメータ調節で音声認識を正確にするのが不可能である話者の運動が大きい場合であっても、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識データの修正作業者に音声認識結果修正候補を提示することができる。
【0033】
(実施の形態2)
図4は、本発明の実施の形態2に係る音声認識装置100の構成の例を示すブロック図である。実施の形態2の音声認識装置100は、実施の形態1に比較して、音声認識結果修正候補抽出部7に代えて、またはそれに加えて、話者警告出力部8を備える。
【0034】
マイクロフォン1、音声認識部2、音声認識結果保持部3、話者運動情報取得部4、および音声認識修正スコア計算部5は、実施の形態1と同様である。
【0035】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較する。話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し、判定の情報を話者警告出力部8に送る。あるいは、話者運動スコアがしきい値より大きい場合に、音声認識結果保持部3に保持されている音声認識結果に話者の動きがあったことを示すデータを話者警告出力部8に送る。
【0036】
話者警告出力部8は、音響、音声、光または振動などの信号を発生する装置を備え、話者に対して異なる状態を認識するよう、信号を送ることができる。話者警告出力部8は、音声認識要修正判定部6から送られた判定の情報で音声認識結果の修正が必要と判定された場合、前記の装置から音響、光、文字または振動などによる信号を発生し、話者に発話時の運動を控えるよう警告する。
【0037】
図5は、実施の形態2の音声認識装置100における話者警告処理の動作の一例を示す流れ図である。実施の形態2においても、音声認識処理については図2の実施の形態1と同様に行われる。図5において、ステップB1の話者運動情報取得から、ステップB3の音声認識結果の修正の要否の判定までの動作は、図3の修正必要度判定Aと同様である。
【0038】
実施の形態2では、話者の動きから音声認識結果が修正を要する可能性が高いと判定された場合に(話者の動きの大きさがしきい値より大きい場合に)(ステップB5;YES)、話者に発話時の動きを控えるよう警告を出力する(図5のステップC1)。
【0039】
本実施の形態では、話者運動情報取得部4は、話者の位置や向きなどの間接的な情報ではなく、画像・加速度計などの情報から話者の運動の直接の手がかりとなる情報を取得する。音声認識修正スコア計算部5は、その情報を用いて話者の運動の速度や大きさなどの運動状況を計算し、その運動状況から音声認識誤りが発生している可能性の高さを示す話者運動スコアを計算する。音声認識要修正判定部6は、話者運動スコアが事前に設定したしきい値以下であれば音声認識結果の修正が必要である可能性が高いと判定する。そして話者警告出力部8は、音声認識要修正判定部6から送られた判定の情報で音声認識結果の修正が必要と判定された場合、話者に発話時の運動を控えるよう警告を出力する。
【0040】
これらの作用により、本実施の形態の音声認識装置100は、パラメータ調節で音声認識を正確にするのが不可能なほど話者の運動が大きい場合であっても、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識作業中に話者に動きを減らすよう即時に警告を発することができる。
【0041】
(実施の形態3)
図6は、本発明の実施の形態3に係る音声認識装置100の構成の例を示すブロック図である。実施の形態3の音声認識装置100は、実施の形態1の構成に加えて、マイクロフォン運動情報取得部9を加えた構成となっている。
【0042】
マイクロフォン運動情報取得部9は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して、音声認識修正スコア計算部5に送る。
【0043】
音声認識修正スコア計算部5は、本実施の形態においては、話者運動情報取得部4から送られてきた話者の運動の手がかり情報に加え、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者とマイクロフォンの相対的な運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る。
【0044】
マイクロフォン1と、音声認識部2と、音声認識結果保持部3と、話者運動情報取得部4と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7と、は図1に示す実施の形態1の同名の手段と同じものである。
【0045】
図7は、実施の形態3の音声認識装置100における修正必要度判定Cの動作の一例を示す流れ図である。本実施の形態3に係る音声認識装置100の動作は、図3のフローチャートに加えマイクロフォン運動情報取得ステップ(図7のステップB7)が加わったものとなっている。実施の形態3においても、音声認識処理については図2の実施の形態1と同様に行われる。
【0046】
マイクロフォン運動情報取得部9は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから成り、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図7のステップB7)。
【0047】
本実施の形態3では、音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の運動の手がかり情報に加え、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者とマイクロフォンの相対的な運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る(図7のステップB2’)。
【0048】
図7において、ステップB1の話者運動情報取得、ステップB3の音声認識結果の修正の要否の判定からステップB6の音声認識結果修正候補抽出までの動作は、図3の修正必要度判定Aと同様である。
【0049】
本実施の形態3は、本発明の実施の形態1の構成に加えて、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得するマイクロフォン運動情報取得部9を備える。そして、音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の運動の手がかり情報に加えて、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者とマイクロフォンの相対的な運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行う。
【0050】
これらの作用により、本実施の形態3の音声認識装置100は、話者とマイクロフォンの相対運動を考慮して、音声認識結果中から音声認識結果の修正が必要である可能性が高い部分を音声認識要修正箇所の候補として検出し、音声認識終了後に音声認識データ修正作業を行うユーザに音声認識要修正箇所の候補を提示することが可能となる。本実施の形態3は、話者の全体の運動が小さくても、手持ちマイクを使用するときのように、話者とマイクロフォンの位置関係に変動が生じる可能性がある場合の音声認識において有効である。
【0051】
また、本実施の形態は、マイクロフォン運動情報取得部9を図4に示す実施の形態2の構成に加えることにより、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識作業中に話者に動きを減らすよう即時に警告を発するように構成することも可能である。
【0052】
(実施の形態4)
図8は、本発明の実施の形態4に係る音声認識装置100の構成の例を示すブロック図である。実施の形態4の音声認識装置100は、実施の形態1の話者運動情報取得部4の代わりに、マイクロフォン運動情報取得部9を加えた構成となっている。
【0053】
マイクロフォン運動情報取得部9は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して、音声認識修正スコア計算部5に送る。
【0054】
音声認識修正スコア計算部5は、本実施の形態4においては、話者運動情報取得部4から送られてきていた話者の運動の手がかり情報の代わりに、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る。
【0055】
マイクロフォン1と、音声認識部2と、音声認識結果保持部3と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7と、は図1に示す本発明の実施の形態1の同名の手段と同じものである。
【0056】
図9は、実施の形態4の音声認識装置100における修正必要度判定Dの動作の一例を示す流れ図である。本実施の形態4に係る音声認識装置100の動作は、図3の流れ図に示す話者運動情報取得ステップ(図3のステップB1)が、マイクロフォン運動情報取得ステップ(図9のステップB7)に置き換わったものとなっている。
【0057】
マイクロフォン運動情報取得部9は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図9のステップB7)。
【0058】
また、本実施の形態4においては、音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきていた話者の運動の手がかり情報の代わりに、マイクロフォン運動情報取得部9から送られるマイクロフォンの運動の手がかり情報を用いて、話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る(図9のステップB2”)。
【0059】
本実施の形態4は、実施の形態1の話者運動情報取得部4の代わりに、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得するマイクロフォン運動情報取得部9を備える。そして、音声認識修正スコア計算部5は、本実施の形態4においては、話者運動情報取得部4から送られてきていた話者の運動の手がかり情報の代わりに、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行う。
【0060】
これらの作用により、本実施の形態4の音声認識装置100は、話者とマイクロフォンが同調して運動しているような状況では、話者に加速度センサなどの追加の測定機械を話者運動情報取得手段として持たせる代わりに、マイクロフォンに測定機器をマイクロフォン運動情報取得手段として付属させることで、話者の負担を軽減しながら、実施の形態1と同様の効果を得ることが可能となる。本実施の形態4は、話者とマイクロフォンが同調して運動する、ヘッドセットマイクやピンマイクを使用した環境における音声認識において有効である。
【0061】
また、本実施の形態4は、図4に示す実施の形態2の話者警告出力部8を加えることにより、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識作業中に話者に動きを減らすよう即時に警告を発するように構成することも可能である。
【0062】
(実施の形態5)
次に、本発明の実施の形態5について図面を参照して詳細に説明する。
【0063】
図10は、本発明の実施の形態5に係る音声認識装置100の構成の例を示すブロック図である。実施の形態5の音声認識装置100は、実施の形態1の構成にしきい値調整部10を加えた構成となっている。しきい値調整部10は、マイクロフォン1が別のものに付け替えられるなどの音声認識環境の変更に応じて、音声認識要修正判定部6が用いるしきい値の調整を行う。
【0064】
図10において、マイクロフォン1と、音声認識部2と、音声認識結果保持部3と、話者運動情報取得部4と、音声認識修正スコア計算部5と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7と、は図1に示す実施の形態1の同名の手段と同じものである。
【0065】
しきい値調整部10において、音声認識環境の変更を検知するには、例えば、音声認識処理を始めるとき、または、マイクを交換したときに、使用するマイクの種類を入力する。あるいは、カメラで撮影した話者の画像から、手持ちマイク、ヘッドセットまたはスタンドマイクなどを認識して、音声認識環境の変化を検知してもよい。
【0066】
図11は、実施の形態5の音声認識装置100における修正必要度判定Eの動作の一例を示す流れ図である。本実施の形態5に係る音声認識装置100の動作は、図3のフローチャートにしきい値調整ステップ(図11のステップD1〜D3)が加わったものとなっている。
【0067】
しきい値調整部10は、設定しているしきい値が現在の音声認識環境に応じたものかどうかを判定する(ステップD1)。例えば、マイクロフォン1が別のものに付け替えられるなどの音声認識環境の変更されたことを検知した場合、または、マイクの変更が入力された場合などは、しきい値を変更する必要があると判断する。
【0068】
しきい値を変更する必要があると判断した場合(ステップD2;YES)、その音声認識環境(例えば、使用するマイク)に適合するよう、音声認識要修正判定部6が用いるしきい値を調整する(ステップD3)。音声認識環境に変更がないと判断した場合は(ステップD2;NO)、しきい値を変更しない。ステップB3からステップB6の動作は、図3の実施の形態1と同様である。
【0069】
本実施の形態5は、本発明の実施の形態1の構成に加え、マイクロフォン1が別のものに付け替えられるなどの音声認識環境の変更に応じ、音声認識要修正判定部6が用いるしきい値の調整を行うしきい値調整部10を備えている。
【0070】
しきい値調整部10の作用により、マイクロフォンが別のものに付け替えられるなどの音声認識環境の変更に応じて音声認識結果が誤りか否かの判定の基準を調整しながら、話者の動作が検出された場合には音声認識がしにくい状況であると判定することができる。
【0071】
図18は、マイクの種類と音声誤認識率の違いの例を模式的に示す図である。図18(a)は、マイクロフォン1としてスタンドマイクを用いる場合、図18(b)は、ヘッドセットマイクを用いる場合の、話者の運動の大きさと音声認識率の相関関係をそれぞれ示す。図18を見ると、スタンドマイクを用いているときのマイクの有効範囲(線b)よりも、ヘッドセットマイクを用いているときのマイクの有効範囲(線c)の方が大きい。
【0072】
例えば、話者の運動の大きさを話者運動スコアとして用いる場合は、スタンドマイクを用いているときのしきい値を図18(a)の線bの付近にし、ヘッドセットマイクを用いているときのしきい値を図18(b)の線cの付近にする。しきい値調整部10がこのようにしきい値を調整することで、音声認識環境の変更に応じて音声認識結果が誤りか否かの判定の基準を調整しながら、話者の動作が検出された場合には音声認識がしにくい状況であると判定することができる。
【0073】
また、図4、6、8にそれぞれ示す実施の形態2、3、4の構成に、しきい値調整部10を加えることにより、それぞれの実施の形態において、音声認識装置100が音声認識環境の変化に自動的に対応できるようにすることも可能である。
【0074】
次に、具体例を用いて本発明の動作を説明する。
【0075】
(具体例1)
具体例1は、実施の形態1の例である。図12は、具体例1の使用状況を示す。具体例1では、図1のマイクロフォン1は卓上マイク11であり、図1の話者運動情報取得部4は卓上マイク11とその話者の動画を撮影するカメラ21であるとする。また、図1の音声認識修正スコア計算部5は、カメラ21の撮影した動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとする。
【0076】
本具体例において、まず卓上マイク11は、話者の発話などの音声情報を入力として受け取り、音声認識部2に送る(図2のステップA1)。次に、音声認識部2は、卓上マイク11から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換する(図2のステップA2)。そして、テキスト化された発話を音声認識結果として音声認識結果保持部3へ送る(図2のステップA3)。
【0077】
話者運動情報取得部4は、カメラ21の撮影した動画を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図3のステップB1)。
【0078】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとして、話者運動スコアを音声認識要修正判定部6へ送る(図3のステップB2)。
【0079】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図3のステップB3)。
【0080】
本具体例のように、マイクロフォン1として卓上マイクやスタンドマイクなどの設置型のマイクを使用する場合は、話者の運動による話者の位置変化が話者とマイクロフォンの相対位置関係の変化となるため、ヘッドセットマイクやピンマイクなどの接触型のマイクを使用する場合と比べて、マイクロフォン1から入力される音声の質が話者の運動により劣化しやすい。したがって、マイクロフォン1として設置型のマイクを使用する場合は、接触型の(話者と共に移動する)マイクを使用する場合に比べてしきい値を低く設定する必要がある。
【0081】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(図3のステップB6)。
【0082】
本具体例が有効に働く例として、卓上マイクの前に発言者が歩み出て発言を行う形式の会議での発言者の音声認識などが挙げられる。
【0083】
(具体例2)
具体例2は実施の形態2の例である。図12の使用状況を例に説明する。本具体例においては図4のマイクロフォン1は卓上マイク11であり、図4の話者運動情報取得部4は卓上マイクとその話者の動画を撮影するカメラ21であるとする。また、図4の音声認識修正スコア計算部5は、カメラ21の撮影した動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとする。話者警告出力部8は、警告としてビープ音を話者に聞こえるように発するとする。
【0084】
音声認識および話者運動情報の取得は、具体例1と同様である。音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとし(図5のステップB2)、話者運動スコアを音声認識要修正判定部6へ送る。
【0085】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し(図5のステップB3)、判定の情報を話者警告出力部8に送る。
【0086】
話者警告出力部8は、音声認識要修正判定部6から送られた判定の情報で音声認識要修正と判定された場合(図5のステップB5;YES)、即時に話者に対して、発話時の運動を控えるよう警告としてビープ音を出力する(図5のステップC1)。
【0087】
(具体例3)
具体例3は実施の形態3の例である。図13は、本具体例の使用状況を示す。本具体例において、図6のマイクロフォン1は手持ちマイク12、図6の話者運動情報取得部4は話者が頭部に身につける加速度センサ22、図6のマイクロフォン運動情報取得部9は手持ちマイクに付属する加速度センサ23であるとする。また、図6の音声認識修正スコア計算部5は、手持ちマイク12に付属する加速度センサ23が計測した加速度と話者が身につけた加速度センサ22が計測した加速度から、話者頭部のマイクに対する相対速度を求め、それを話者運動スコアとして扱う。
【0088】
本具体例において、まず手持ちマイク12は、話者の発話などの音声情報を入力として受け取り、音声認識部2に送る(図2のステップA1)。次に、音声認識部2は、手持ちマイク12から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換する(図2のステップA2)。そして、テキスト化された発話を音声認識結果として音声認識結果保持部3へ送る(図2のステップA3)。
【0089】
話者運動情報取得部4は、話者頭部の加速度を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図7のステップB1)。マイクロフォン運動情報取得部9は、手持ちマイクの加速度をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図7のステップB7)。
【0090】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者頭部の加速度情報とマイクロフォン運動情報取得部9から送られてきた手持ちマイク12の加速度情報から話者頭部の手持ちマイク12に対する相対速度を求めて話者運動スコアとする。そして、話者運動スコアを音声認識要修正判定部6へ送る(図7のステップB2’)。
【0091】
本具体例のようにマイクロフォン1として手持ちマイクを使用する場合は、音質の劣化の重要な要素である話者とマイクロフォン1の相対位置関係の変化を話者運動スコアに反映するために、話者とマイクロフォン1双方の運動を計測する必要がある。
【0092】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し(図7のステップB3)、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図7のステップB4)。
【0093】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(図7のステップB6)。
【0094】
本具体例が有効に働く例として、手持ちマイクを持つ講師が歩き回りながら講演を行う状況での講師の音声認識などが挙げられる。
【0095】
(具体例4)
具体例4は実施の形態4の例である。図14は、具体例4の使用状況を示す。本具体例4において、図8のマイクロフォン1はヘッドセットマイク13、図8のマイクロフォン運動情報取得部9はヘッドセットマイク13に付属する加速度センサ23であるとする。また、図8の音声認識修正スコア計算部5は、加速度センサ23が計測したヘッドセットマイク13の加速度からヘッドセットマイク13の運動速度を求め、それを話者運動スコアとして扱う。
【0096】
本具体例において、まずヘッドセットマイク13は、話者の発話などの音声情報を入力として受け取り、音声認識部2に送る(図2のステップA1)。次に、音声認識部2は、ヘッドセットマイク13から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換する(図2のステップA2)。そして、テキスト化された発話を音声認識結果として音声認識結果保持部3へ送る(図2のステップA3)。
【0097】
マイクロフォン運動情報取得部9は、ヘッドセットマイク13の加速度をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図9のステップB2”)。音声認識修正スコア計算部5は、マイクロフォン運動情報取得部9から送られてきたヘッドセットマイク13の加速度情報からヘッドセットマイク13の運動速度を求めて話者運動スコアとして、話者運動スコアを音声認識要修正判定部6へ送る(図9のステップB3)。
【0098】
本具体例のようにマイクロフォン1としてヘッドセットマイクやピンマイクなどの話者に取り付けるタイプのマイクを使用する場合は、マイクロフォン1の運動を話者の頭部の運動と同一視できる。そこで、マイクロフォン1の運動のみを計測して、それを話者の運動の情報として話者運動スコアの計算に用いることができる。このことにより、話者運動を測定するために、話者に追加の測定機器をつける必要がなくなるという点で話者の負担を低減することができる。
【0099】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し(図9のステップB3)、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図9のステップB4)。
【0100】
本具体例のように、マイクロフォン1としてヘッドセットマイクやピンマイクなどの話者に取り付けるタイプのマイクを使用する場合は、手持ちマイクやスタンドマイク、卓上マイクなどの設置型のマイクを使用する場合と比べて話者とマイクの間の距離が変化し難く、話者の運動が大きくてもマイクロフォン1から入力される音声の質が劣化しにくい。したがって、本具体例のように、マイクロフォン1として話者に取り付けるタイプのマイクを使用する場合は、設置型のマイクを使用する場合と比べてしきい値を高く設定する必要がある。
【0101】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(図9のステップB6)。
【0102】
本具体例が有効に働く例として、舞台上でマイクを身に付けて演劇を行う役者の音声認識などが挙げられる。
【0103】
(具体例5)
具体例5は実施の形態5の例である。図15は、具体例5の使用状況を示す。本具体例5において、図10のマイクロフォン1は卓上マイク11とヘッドセットマイク13のどちらかであり、音声認識中であっても交換可能であるとする。また、図10の話者運動情報取得部4は、話者が頭部に身につける加速度センサ22であるとする。また、図10の音声認識修正スコア計算部5は、加速度センサ22が計測した重力加速度以外の加速度から話者の運動の大きさを求め、それを話者運動スコアとして扱う。
【0104】
本具体例のしきい値調整部10は、マイクロフォン1として卓上マイク11が使用されている際は図18の線bの位置の値を、マイクロフォン1としてヘッドセットマイク13が使用されている際は図18の線cの位置の値を、音声認識要修正判定部6がしきい値としてそれぞれ用いるようしきい値の調整を行う。
【0105】
本具体例において、音声認識の動作は、具体例1または具体例4と同様である。話者運動情報取得部4は、話者の頭部の加速度を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図11のステップB1)。
【0106】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の頭部の加速度情報から話者の運動の大きさを求めて話者運動スコアとして、話者運動スコアを音声認識要修正判定部6へ送る(図11のステップB2)。
【0107】
しきい値調整部10は、マイクロフォン1として使用されるマイクが交換された際に(ステップD2;YES)、マイクロフォン1として卓上マイク11が使用されるようになった場合は、図18の点線bの位置の値を、マイクロフォン1としてヘッドセットマイク13が使用されるようになった場合は、図18の点線cの位置の値を、音声認識要修正判定部6がしきい値としてそれぞれ用いるよう、しきい値の調整を行う(図11のステップD3)。
【0108】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定する(図11のステップB3)。そして、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図11のステップB4)。
【0109】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(図11のステップB6)。
【0110】
本発明の話者運動情報取得部4は、上記の5つの具体例で用いた加速度センサ22、23と動画内の話者移動検出の他に、例えば下記のものを使うことが考えられる。
・モーションキャプチャ用の特定の色の目印を話者およびマイクロフォンに付けて画像中から位置認識する。
・超音波によって、話者の位置を測定する。
・床にはめ込んだ感圧センサによって、話者の立ち位置を検知する。
【0111】
音声認識修正スコア計算部5が、話者運動スコアを計算するのに用いるパラメータの例として上記の5つの具体例でも用いた話者の運動の大きさと話者の運動の速さが上げられる。
【0112】
話者が大きく動くと、話者がマイクの有効範囲から外れてしまい音質が劣化してしまうことが想定されるため、話者の運動の大きさと音声認識の誤認識率の関係性は図16のようになると考えられる。図16に示すように、話者の運動が大きくなればなるほど音声認識の誤認識率が高まっているので、話者の運動の大きさを用いて音声認識が誤認識かどうかの判定を行う話者運動スコアの計算を行うのは妥当であると考えられる。
【0113】
話者の運動が速くなると、話者とマイクの相対距離が大きく変化して音質が劣化してしまうことや、話者にかかる物理的負担により音質が劣化してしまうことが想定されるため、話者の運動の速度と音声認識の誤認識率の関係性は図17のようになると考えられる。図を参照すると、話者の運動が速くなればなるほど音声認識の誤認識率が高まっているので、話者の運動の速度を用いて音声認識が誤認識かどうかの判定を行う話者運動スコアの計算を行うのは妥当であると考えられる。
【0114】
また、音声認識修正スコア計算部5は、上記の5つの具体例で用いた話者の速度、話者とマイクロフォンの相対速度、話者の運動の大きさの他に、例えば下記のものを用いることが考えられる。
・話者とマイクロフォンの相対位置
・話者の位置と向き
・話者の運動の継続時間
【0115】
上記の5つの具体例では、具体例3の手持ちマイク12の場合のみ話者とマイクロフォン1の双方の運動を計測したが、具体例4のようなヘッドセットマイク13やピンマイクなどの接触型マイクや、具体例1のような卓上マイク11やスタンドマイクなどの設置型マイクを使用する場合でも、話者とマイクロフォン双方の運動を測定し、話者運動スコアの計測に用いてもよい。
【0116】
図19は、図1または図4に示す音声認識装置100のハードウェア構成の一例を示すブロック図である。音声認識装置100は、図19に示すように、制御部31、主記憶部32、外部記憶部33、音声入力部34、表示部35及び入力部36を備える。主記憶部32、外部記憶部33、音声入力部34、表示部35及び入力部36はいずれも内部バス30を介して制御部31に接続されている。
【0117】
制御部31はCPU(Central Processing Unit)等から構成され、外部記憶部33に記憶されている音声認識用プログラム500に従って、前述の音声認識装置100の処理を実行する。
【0118】
主記憶部32はRAM(Random-Access Memory)等から構成され、外部記憶部33に記憶されている音声認識用プログラム500をロードし、制御部31の作業領域として用いられる。
【0119】
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、前記の処理を制御部31に行わせるための音声認識用プログラム500を予め記憶し、また、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。図1または図4の音声認識結果保持部3は、外部記憶部33に構成される。音声認識処理、修正必要度判定処理および話者警告処理を行っているときは、それらのデータの一部は主記憶部32に記憶されて制御部31の作業に用いる。
【0120】
音声入力部34は、マイクロフォン1に接続し、アンプおよびA−D変換器を備える。音声入力部34は、マイクロフォン1の音声信号をA−D変換し、数値演算しやすいデータにして制御部31に供給する。
【0121】
表示部35は、例えば、音信号源とアンプを備える。ブザー、スピーカなどの音響出力装置を接続して、音響または音声によって話者への警告信号を出力する。表示部35はまた、ランプ、LED、または、CRT(Cathode Ray Tube)もしくはLCD(Liquid Crystal Display)などの画像表示部を駆動する回路を備え、それらを用いて、話者への警告信号を出力してもよい。
【0122】
入力部36は、加速度センサ、超音波センサ、ミリ波レーダまたはカメラなどを接続して、それらの信号を入力する。制御部31は、入力部36に接続するそれらのセンサなどの信号を用いて、話者の変位、速度、または加速度である動きを検出する。
【0123】
図1または図4の音声認識部2と、音声認識結果保持部3と、話者運動情報取得部4と、音声認識修正スコア計算部5と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7、話者警告出力部8、マイクロフォン運動情報取得部9またはしきい値調整部10の処理は、音声認識用プログラム500が、制御部31、主記憶部32、外部記憶部33、音声入力部34、表示部35および入力部36などを資源として用いて処理することによって実行する。
【0124】
本発明の音声認識装置100はこのような構成を採用し、話者の動作情報を位置や向きなどからではなく直接測定し、その情報を用いて話者の運動が音声認識の精度に影響してしまう状態を検出することで、話者が運動した場合に音声認識誤りが発生している可能性の高い箇所を抽出することができるようになる。
【0125】
さらに、音声認識要修正判定手段が判定に用いるしきい値を事前に調整できることで、マイクロフォンが話者の運動の影響を受けやすい設置型のスタンドマイクであった場合にはしきい値を低く、話者の運動の影響を受けにくい接触型のヘッドセットマイクであった場合にはしきい値を高くするなどの調整が可能となる。
【0126】
その他、本発明の好適な変形として、以下の構成が含まれる。
【0127】
本発明の第1の観点に係る音声認識装置について、
好ましくは、前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定手段を備える。
【0128】
好ましくは、前記要修正判定手段は、
前記話者運動検出手段が検出した話者の一部および/または重心の変位および/または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算手段を備え、
前記誤り可能性スコア計算手段で計算したスコアが所定のしきい値以上の場合に、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断することを特徴とする。
【0129】
前記誤り可能性スコア計算手段は、前記話者運動検出手段が検出した話者の一部および/または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算してもよい。
【0130】
また、前記音声認識手段で抽出した文字符号列を保持する音声認識結果保持手段を備え、
前記要修正判定手段は、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応して前記音声認識結果保持手段にその判定結果を書き込み、
前記音声認識結果保持手段から音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出手段を備えることができる。
【0131】
なお、前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告手段を備えてもよい。
【0132】
前記音声入力手段は、前記話者とともに移動するマイクロフォンを備え、
前記話者運動検出手段は、前記マイクロフォンの変位および/または速度および/または加速度を検出し、
前記話者信号送出手段は、前記マイクロフォンの変位および/または速度および/または加速度を用いて話者の動きを算出してもよい。
【0133】
前記話者運動検出手段で検出した話者の動きを比較する前記所定の大きさを、前記音声入力手段で入力した音声、および/または、前記音声入力手段とその周囲との相対的動き、および/または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応手段を備えてもよい。
【0134】
本発明の第2の観点に係る音声認識方法について、
好ましくは、前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定ステップを備える。
【0135】
好ましくは、前記要修正判定ステップは、
前記話者運動検出ステップで検出した話者の一部および/または重心の変位および/または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算ステップを備え、
前記誤り可能性スコア計算ステップで計算したスコアが所定のしきい値以上の場合に、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断することを特徴とする。
【0136】
前記誤り可能性スコア計算ステップは、前記話者運動検出ステップで検出した話者の一部および/または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算してもよい。
【0137】
また、前記音声認識ステップで抽出した文字符号列を保持する音声認識結果保持ステップと、
前記要修正判定ステップで、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応してその判定結果を書き込む判定結果記録ステップと、
前記要修正判定ステップで音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出ステップと、を備えることができる。
【0138】
なお、前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告ステップを備えてもよい。
【0139】
前記話者運動検出ステップは、前記話者とともに移動するマイクロフォンの変位および/または速度および/または加速度を検出し、
前記話者信号送出ステップは、前記マイクロフォンの変位および/または速度および/または加速度を用いて話者の動きを算出してもよい。
【0140】
前記話者運動検出ステップで検出した話者の動きを比較する前記所定の大きさを、前記音声入力ステップで入力した音声、および/または、前記話者とその周囲との相対的動き、および/または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応ステップを備えてもよい。
【0141】
本発明の音声認識装置100によれば、話者が発話中に動きを伴う場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる。
【0142】
その理由は、本発明が、話者の位置や向きなどの間接的な情報ではなく、画像・加速度計などの情報から話者の運動の直接の手がかりとなる情報を取得するための話者運動情報取得手段と、その情報を用いて話者の運動の速度や大きさなどの運動状況を計算し、その運動状況から音声認識誤りが発生している可能性の高さを示す話者運動スコアを計算する話者運動スコア計算手段と、話者運動スコアが事前に設定したしきい値以下であれば音声認識結果の修正が必要である可能性が高いと判定する音声認識要修正判定手段を有するためである。
【図面の簡単な説明】
【0143】
【図1】本発明の実施の形態1に係る音声認識装置の構成の例を示すブロック図である。
【図2】実施の形態1の音声認識装置における音声認識処理の動作の一例を示す流れ図である。
【図3】実施の形態1の音声認識装置における修正必要度判定Aの動作の一例を示す流れ図である。
【図4】本発明の実施の形態2に係る音声認識装置の構成の例を示すブロック図である。
【図5】実施の形態2の音声認識装置における話者警告処理の動作の一例を示す流れ図である。
【図6】本発明の実施の形態3に係る音声認識装置の構成の例を示すブロック図である。
【図7】実施の形態3の音声認識装置における修正必要度判定Cの動作の一例を示す流れ図である。
【図8】本発明の実施の形態4に係る音声認識装置の構成の例を示すブロック図である。
【図9】実施の形態4の音声認識装置における修正必要度判定Dの動作の一例を示す流れ図である。
【図10】本発明の実施の形態5に係る音声認識装置の構成の例を示すブロック図である。
【図11】実施の形態5の音声認識装置における修正必要度判定Eの動作の一例を示す流れ図である。
【図12】具体例1または具体例2の使用状況を示す図である。
【図13】具体例3の使用状況を示す図である。
【図14】具体例4の使用状況を示す図である。
【図15】具体例5の使用状況を示す図である。
【図16】話者の運動の大きさと音声認識の誤認識率の概念的な関係を示すグラフである。
【図17】話者の運動速度と音声認識の誤認識率の概念的な関係を示すグラフである。
【図18】マイクの種類と音声誤認識率の違いの例を示す図である。
【図19】音声認識装置のハードウェア構成の一例を示すブロック図である。
【符号の説明】
【0144】
1 マイクロフォン
2 音声認識部
3 音声認識結果保持部
4 話者運動情報取得部
5 音声認識修正スコア計算部
6 音声認識要修正判定部
7 音声認識結果修正候補抽出部
8 話者警告出力部
9 マイクロフォン運動情報取得部
10 しきい値調整部
31 制御部
32 主記憶部
33 外部記憶部
34 音声入力部
35 表示部
36 入力部
100 音声認識装置
500 音声認識用プログラム
【技術分野】
【0001】
本発明は音声認識装置、音声認識方法および音声認識プログラムに関する。より詳しくは、音声認識した結果が話者の発話する内容に適合していない可能性を判定する音声認識装置、音声認識方法、音声認識プログラムに関わる。
【背景技術】
【0002】
近年、人間の会話などの音声データをテキストデータに変換する音声認識技術が実用化されている。音声認識技術が使用される現実的な場面を想定すると、話者はなんらかの動作を行うことが多い。話者の動作として、講師が歩き回りながら講演を行う場合や、話者が会話の中に出てきた物の位置や大きさを表現するために身振りで示す場合などが挙げられる。一般的な音声認識技術においては、話者がある程度動いても認識を正しく行うことが出来るが、話者の動作が大き過ぎると話者の発話の質が下がるために音声認識しにくくなってしまうという問題点があった。話者の動作の大きさと音声認識成功率の関係性のグラフの一例を図16に示す。図16によれば、話者の動作が線aを超えて大きくなってしまうと、大幅に音声の誤認識率が増加する(音声認識成功率が下がる)。
【0003】
特許文献1には、話者の運動の情報を音声認識に応用することが記載されている。特許文献1の技術は、話者の位置データに基づいて、マイクロホンを備える音声情報入力部の指向特性、入力特性、マイクロホンの方向を制御する。
【0004】
話者の動き以外に、話者の状況または環境に適応して音声認識処理を行う技術がある。特許文献2は、音声認識結果の信頼度が高い場合のみ、認識結果を出力することが記載されている。特許文献2の技術は、格納している音響データを用いて発音評定処理を行い、発音評定結果が所定の関係にあると判断した場合のみ、音声認識結果を出力する。
【0005】
また、特許文献3の技術は、様々な緊張下における発音に基づいて作成された辞書を用意し、話者状態又は/及び自動車の走行状態を検知して話者の心的状態を推定し、心的状態推定値(例えば、余裕度推定値)に応じて選択した辞書を用いて音声認識を行う。
【0006】
特許文献4に記載の技術では、音響情報パラメータのみ、筋電信号パラメータのみ、画像情報パラメータのみを用いてそれぞれ音声認識を行い、それぞれのパラメータから得られた認識結果を統合することによって、最終的に音声認識を行う。
【0007】
その他、認識誤りの可能性を表示する技術がある。特許文献5の技術は、誤り(正解)箇所検出部は音声認識部から受信した認識結果に基づき誤り(正解)箇所を検出し、修正者等に誤り(正解)箇所を呈示する。また、特許文献6には、騒音レベルの変動の大きさを測定して、騒者レベルの変動が大の時に発声者に警告を発することが記載されている。
【特許文献1】特開2000−148184号公報
【特許文献2】特開2007−127738号公報
【特許文献3】特開2002−149191号公報
【特許文献4】特開2003−255993号公報
【特許文献5】特開2002−162992号公報
【特許文献6】特開昭63−77097号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
特許文献1の技術などに見られる、話者とマイクロフォンの距離や話者の向きを測定する方法では、話者の位置の情報は、正確に検出するのが困難である。さらに、パラメータ調節だけで音声認識を完全に正確にするのは困難であり、特に話者の運動が大きい場合にはパラメータ調節で音声認識を正確にするのが不可能であるという問題があった。
【0009】
その他の関連する技術では、音声認識を悪化させる明らかな要因である話者の運動の情報を用いることが出来ないという問題点があった。関連する技術の問題点は、話者が運動して音質が落ちた場合に、音声認識精度を改善しきれない点である。
【0010】
本発明は上記のような事情に鑑みてなされたもので、その目的は、話者が運動した場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる音声認識装置を提供することである。
【課題を解決するための手段】
【0011】
本発明の第1の観点に係る音声認識装置は、
話者の発話する音声を入力する音声入力手段と、
前記音声入力手段で入力した音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
を備えることを特徴とする。
【0012】
本発明の第2の観点に係る音声認識方法は、
話者の発話する音声を入力する音声入力ステップと、
前記音声入力ステップで入力した音声から、その発話に対応する文字符号列を抽出する音声認識ステップと、
前記話者の動きを検出する話者運動検出ステップと、
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出ステップと、
を備えることを特徴とする。
【0013】
本発明の第3の観点に係る音声認識プログラムは、
コンピュータを、
音声入力手段で入力した話者の発話する音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
して機能させることを特徴とする。
【発明の効果】
【0014】
本発明の音声認識装置、音声認識方法および音声認識プログラムによれば、話者が発話中に動きを伴う場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる。
【発明を実施するための最良の形態】
【0015】
(実施の形態1)
本発明の実施の形態について図面を参照して詳細に説明する。図1を参照すると、本発明の実施の形態1に係る音声認識装置100は、マイクロフォン1と、音声認識部2と、音声認識結果保持部3と、話者運動情報取得部4と、音声認識修正スコア計算部5と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7と、を備えている。
【0016】
マイクロフォン1は、話者の発話などの音声情報を入力として受け取り、音声認識部2に送る。音声認識部2は、マイクロフォン1から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換し、テキスト化された発話を音声認識結果として音声認識結果保持部3へ送る。音声認識結果保持部3は、音声認識部2から送られてきた音声認識結果を保持する。
【0017】
話者運動情報取得部4は、話者の様子を撮影するカメラや話者の動きを計測する加速度計などから構成される。話者運動情報取得部4は、話者の画像や加速度などの情報を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る。例えば、画像から話者の位置とその変位および速度を計測する。話者の位置としては、話者全体の重心の位置のほかに、話者の身体の一部、例えば頭、腕などを検出してもよい。また、ミリ波レーダ、超音波センサなどで、話者の速度または加速度を計測してもよい。
【0018】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の運動の手がかり情報から話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアを計算する。話者運動スコアは、話者の運動の大きさや運動の早さなどを元に計算するものであり、計算法は装置により異なる。音声認識修正スコア計算部5は、話者運動スコアを音声認識要修正判定部6へ送る。
【0019】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較する。話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む。話者運動スコアがしきい値より大きい場合に、音声認識結果保持部3に保持されている音声認識結果に話者の動きがあったことを示すデータを記録するだけでもよい。
【0020】
音声認識要修正判定部6が判定に用いるしきい値を事前に調整して設定するので、マイクロフォン1が話者の運動の影響を受けやすい設置型のスタンドマイクの場合にはしきい値を低く、話者の運動の影響を受けにくい接触型のヘッドセットマイクの場合にはしきい値を高くするなどの調整が可能である。
【0021】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を、音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する。
【0022】
図2および図3のフローチャートを参照して本実施の形態の動作について詳細に説明する。図2は、実施の形態1の音声認識装置100における音声認識処理の動作の一例を示す流れ図である。
【0023】
マイクロフォン1は、話者の発話などの音声を入力して電気信号に変換し、音声情報として音声認識部2に送る(図2のステップA1)。音声認識部2は、マイクロフォン1から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換し(図2のステップA2)、テキスト化された発話を音声認識結果として音声認識結果保持部3へ格納する(図2のステップA3)。そして、ステップA1に戻って、音声入力から繰り返す。
【0024】
図3は、実施の形態1の音声認識装置100における修正必要度判定Aの動作の一例を示す流れ図である。話者運動情報取得部4は、話者の様子を撮影するカメラや話者の動きを計測する加速度計などから構成され、話者の画像や加速度などの情報を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図3のステップB1)。
【0025】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の運動の手がかり情報から話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る(図3のステップB2)。
【0026】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば話者運動がなく修正不要と判定する(図3のステップB3)。そして、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図3のステップB4)。話者運動スコアがしきい値より大きい場合に、音声認識結果保持部3に保持されている音声認識結果に話者の動きがあったことを示すデータを記録するだけでもよい。
【0027】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が要修正判定であれば(ステップB5;YES)、(あるいは、話者の動きがあったことを示すデータが記録されている場合に)「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(ステップB6)。
【0028】
音声認識結果修正候補として抽出した場合、および修正不要の場合(ステップB5;NO)、ステップB1に戻って、話者運動情報取得から繰り返す。
【0029】
なお、本実施の形態の音声認識装置100において、図2のステップA1〜A3と図3のステップB1〜B3には依存関係はなく、平行して進めることが可能である。
【0030】
本実施の形態では、話者運動情報取得部4は、話者の位置や向きなどの間接的な情報ではなく、画像・加速度計などの情報から話者の運動の直接の手がかりとなる情報を取得する。音声認識修正スコア計算部5は、その情報を用いて話者の運動の速度や大きさなどの運動状況を計算し、その運動状況から音声認識誤りが発生している可能性の高さを示す話者運動スコアを計算する。音声認識要修正判定部6は、話者運動スコアが事前に設定したしきい値以下であれば音声認識結果の修正が必要である可能性が高いと判定する。そして音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6が書き込んだ判定の情報で音声認識結果の修正が必要と判定された音声認識結果を音声認識結果修正候補として抽出する。
【0031】
これらの作用により、本実施の形態の音声認識装置100は、正確に検出するのが困難である話者の位置の情報以外の、加速度などの情報を用いることを可能とすることで、簡易に話者の動作を検出して、話者の動作が検出された場合には音声認識がしにくい状況であると判定することができる。
【0032】
さらに、パラメータ調節で音声認識を正確にするのが不可能である話者の運動が大きい場合であっても、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識データの修正作業者に音声認識結果修正候補を提示することができる。
【0033】
(実施の形態2)
図4は、本発明の実施の形態2に係る音声認識装置100の構成の例を示すブロック図である。実施の形態2の音声認識装置100は、実施の形態1に比較して、音声認識結果修正候補抽出部7に代えて、またはそれに加えて、話者警告出力部8を備える。
【0034】
マイクロフォン1、音声認識部2、音声認識結果保持部3、話者運動情報取得部4、および音声認識修正スコア計算部5は、実施の形態1と同様である。
【0035】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較する。話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し、判定の情報を話者警告出力部8に送る。あるいは、話者運動スコアがしきい値より大きい場合に、音声認識結果保持部3に保持されている音声認識結果に話者の動きがあったことを示すデータを話者警告出力部8に送る。
【0036】
話者警告出力部8は、音響、音声、光または振動などの信号を発生する装置を備え、話者に対して異なる状態を認識するよう、信号を送ることができる。話者警告出力部8は、音声認識要修正判定部6から送られた判定の情報で音声認識結果の修正が必要と判定された場合、前記の装置から音響、光、文字または振動などによる信号を発生し、話者に発話時の運動を控えるよう警告する。
【0037】
図5は、実施の形態2の音声認識装置100における話者警告処理の動作の一例を示す流れ図である。実施の形態2においても、音声認識処理については図2の実施の形態1と同様に行われる。図5において、ステップB1の話者運動情報取得から、ステップB3の音声認識結果の修正の要否の判定までの動作は、図3の修正必要度判定Aと同様である。
【0038】
実施の形態2では、話者の動きから音声認識結果が修正を要する可能性が高いと判定された場合に(話者の動きの大きさがしきい値より大きい場合に)(ステップB5;YES)、話者に発話時の動きを控えるよう警告を出力する(図5のステップC1)。
【0039】
本実施の形態では、話者運動情報取得部4は、話者の位置や向きなどの間接的な情報ではなく、画像・加速度計などの情報から話者の運動の直接の手がかりとなる情報を取得する。音声認識修正スコア計算部5は、その情報を用いて話者の運動の速度や大きさなどの運動状況を計算し、その運動状況から音声認識誤りが発生している可能性の高さを示す話者運動スコアを計算する。音声認識要修正判定部6は、話者運動スコアが事前に設定したしきい値以下であれば音声認識結果の修正が必要である可能性が高いと判定する。そして話者警告出力部8は、音声認識要修正判定部6から送られた判定の情報で音声認識結果の修正が必要と判定された場合、話者に発話時の運動を控えるよう警告を出力する。
【0040】
これらの作用により、本実施の形態の音声認識装置100は、パラメータ調節で音声認識を正確にするのが不可能なほど話者の運動が大きい場合であっても、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識作業中に話者に動きを減らすよう即時に警告を発することができる。
【0041】
(実施の形態3)
図6は、本発明の実施の形態3に係る音声認識装置100の構成の例を示すブロック図である。実施の形態3の音声認識装置100は、実施の形態1の構成に加えて、マイクロフォン運動情報取得部9を加えた構成となっている。
【0042】
マイクロフォン運動情報取得部9は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して、音声認識修正スコア計算部5に送る。
【0043】
音声認識修正スコア計算部5は、本実施の形態においては、話者運動情報取得部4から送られてきた話者の運動の手がかり情報に加え、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者とマイクロフォンの相対的な運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る。
【0044】
マイクロフォン1と、音声認識部2と、音声認識結果保持部3と、話者運動情報取得部4と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7と、は図1に示す実施の形態1の同名の手段と同じものである。
【0045】
図7は、実施の形態3の音声認識装置100における修正必要度判定Cの動作の一例を示す流れ図である。本実施の形態3に係る音声認識装置100の動作は、図3のフローチャートに加えマイクロフォン運動情報取得ステップ(図7のステップB7)が加わったものとなっている。実施の形態3においても、音声認識処理については図2の実施の形態1と同様に行われる。
【0046】
マイクロフォン運動情報取得部9は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから成り、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図7のステップB7)。
【0047】
本実施の形態3では、音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の運動の手がかり情報に加え、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者とマイクロフォンの相対的な運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る(図7のステップB2’)。
【0048】
図7において、ステップB1の話者運動情報取得、ステップB3の音声認識結果の修正の要否の判定からステップB6の音声認識結果修正候補抽出までの動作は、図3の修正必要度判定Aと同様である。
【0049】
本実施の形態3は、本発明の実施の形態1の構成に加えて、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得するマイクロフォン運動情報取得部9を備える。そして、音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の運動の手がかり情報に加えて、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者とマイクロフォンの相対的な運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行う。
【0050】
これらの作用により、本実施の形態3の音声認識装置100は、話者とマイクロフォンの相対運動を考慮して、音声認識結果中から音声認識結果の修正が必要である可能性が高い部分を音声認識要修正箇所の候補として検出し、音声認識終了後に音声認識データ修正作業を行うユーザに音声認識要修正箇所の候補を提示することが可能となる。本実施の形態3は、話者の全体の運動が小さくても、手持ちマイクを使用するときのように、話者とマイクロフォンの位置関係に変動が生じる可能性がある場合の音声認識において有効である。
【0051】
また、本実施の形態は、マイクロフォン運動情報取得部9を図4に示す実施の形態2の構成に加えることにより、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識作業中に話者に動きを減らすよう即時に警告を発するように構成することも可能である。
【0052】
(実施の形態4)
図8は、本発明の実施の形態4に係る音声認識装置100の構成の例を示すブロック図である。実施の形態4の音声認識装置100は、実施の形態1の話者運動情報取得部4の代わりに、マイクロフォン運動情報取得部9を加えた構成となっている。
【0053】
マイクロフォン運動情報取得部9は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して、音声認識修正スコア計算部5に送る。
【0054】
音声認識修正スコア計算部5は、本実施の形態4においては、話者運動情報取得部4から送られてきていた話者の運動の手がかり情報の代わりに、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る。
【0055】
マイクロフォン1と、音声認識部2と、音声認識結果保持部3と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7と、は図1に示す本発明の実施の形態1の同名の手段と同じものである。
【0056】
図9は、実施の形態4の音声認識装置100における修正必要度判定Dの動作の一例を示す流れ図である。本実施の形態4に係る音声認識装置100の動作は、図3の流れ図に示す話者運動情報取得ステップ(図3のステップB1)が、マイクロフォン運動情報取得ステップ(図9のステップB7)に置き換わったものとなっている。
【0057】
マイクロフォン運動情報取得部9は、マイクロフォンの様子を撮影するカメラやマイクロフォンの動きを計測する加速度計などから構成され、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図9のステップB7)。
【0058】
また、本実施の形態4においては、音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきていた話者の運動の手がかり情報の代わりに、マイクロフォン運動情報取得部9から送られるマイクロフォンの運動の手がかり情報を用いて、話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行い、話者運動スコアを音声認識要修正判定部6へ送る(図9のステップB2”)。
【0059】
本実施の形態4は、実施の形態1の話者運動情報取得部4の代わりに、マイクロフォンの画像や加速度などの情報をマイクロフォンの運動の手がかり情報として取得するマイクロフォン運動情報取得部9を備える。そして、音声認識修正スコア計算部5は、本実施の形態4においては、話者運動情報取得部4から送られてきていた話者の運動の手がかり情報の代わりに、マイクロフォン運動情報取得部9から送られてきたマイクロフォンの運動の手がかり情報を用いて、話者の運動を検出し、運動が音声認識に影響を与える度合いを示す話者運動スコアの計算を行う。
【0060】
これらの作用により、本実施の形態4の音声認識装置100は、話者とマイクロフォンが同調して運動しているような状況では、話者に加速度センサなどの追加の測定機械を話者運動情報取得手段として持たせる代わりに、マイクロフォンに測定機器をマイクロフォン運動情報取得手段として付属させることで、話者の負担を軽減しながら、実施の形態1と同様の効果を得ることが可能となる。本実施の形態4は、話者とマイクロフォンが同調して運動する、ヘッドセットマイクやピンマイクを使用した環境における音声認識において有効である。
【0061】
また、本実施の形態4は、図4に示す実施の形態2の話者警告出力部8を加えることにより、音声認識結果の修正が必要である可能性が高いと判定した場合には、音声認識作業中に話者に動きを減らすよう即時に警告を発するように構成することも可能である。
【0062】
(実施の形態5)
次に、本発明の実施の形態5について図面を参照して詳細に説明する。
【0063】
図10は、本発明の実施の形態5に係る音声認識装置100の構成の例を示すブロック図である。実施の形態5の音声認識装置100は、実施の形態1の構成にしきい値調整部10を加えた構成となっている。しきい値調整部10は、マイクロフォン1が別のものに付け替えられるなどの音声認識環境の変更に応じて、音声認識要修正判定部6が用いるしきい値の調整を行う。
【0064】
図10において、マイクロフォン1と、音声認識部2と、音声認識結果保持部3と、話者運動情報取得部4と、音声認識修正スコア計算部5と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7と、は図1に示す実施の形態1の同名の手段と同じものである。
【0065】
しきい値調整部10において、音声認識環境の変更を検知するには、例えば、音声認識処理を始めるとき、または、マイクを交換したときに、使用するマイクの種類を入力する。あるいは、カメラで撮影した話者の画像から、手持ちマイク、ヘッドセットまたはスタンドマイクなどを認識して、音声認識環境の変化を検知してもよい。
【0066】
図11は、実施の形態5の音声認識装置100における修正必要度判定Eの動作の一例を示す流れ図である。本実施の形態5に係る音声認識装置100の動作は、図3のフローチャートにしきい値調整ステップ(図11のステップD1〜D3)が加わったものとなっている。
【0067】
しきい値調整部10は、設定しているしきい値が現在の音声認識環境に応じたものかどうかを判定する(ステップD1)。例えば、マイクロフォン1が別のものに付け替えられるなどの音声認識環境の変更されたことを検知した場合、または、マイクの変更が入力された場合などは、しきい値を変更する必要があると判断する。
【0068】
しきい値を変更する必要があると判断した場合(ステップD2;YES)、その音声認識環境(例えば、使用するマイク)に適合するよう、音声認識要修正判定部6が用いるしきい値を調整する(ステップD3)。音声認識環境に変更がないと判断した場合は(ステップD2;NO)、しきい値を変更しない。ステップB3からステップB6の動作は、図3の実施の形態1と同様である。
【0069】
本実施の形態5は、本発明の実施の形態1の構成に加え、マイクロフォン1が別のものに付け替えられるなどの音声認識環境の変更に応じ、音声認識要修正判定部6が用いるしきい値の調整を行うしきい値調整部10を備えている。
【0070】
しきい値調整部10の作用により、マイクロフォンが別のものに付け替えられるなどの音声認識環境の変更に応じて音声認識結果が誤りか否かの判定の基準を調整しながら、話者の動作が検出された場合には音声認識がしにくい状況であると判定することができる。
【0071】
図18は、マイクの種類と音声誤認識率の違いの例を模式的に示す図である。図18(a)は、マイクロフォン1としてスタンドマイクを用いる場合、図18(b)は、ヘッドセットマイクを用いる場合の、話者の運動の大きさと音声認識率の相関関係をそれぞれ示す。図18を見ると、スタンドマイクを用いているときのマイクの有効範囲(線b)よりも、ヘッドセットマイクを用いているときのマイクの有効範囲(線c)の方が大きい。
【0072】
例えば、話者の運動の大きさを話者運動スコアとして用いる場合は、スタンドマイクを用いているときのしきい値を図18(a)の線bの付近にし、ヘッドセットマイクを用いているときのしきい値を図18(b)の線cの付近にする。しきい値調整部10がこのようにしきい値を調整することで、音声認識環境の変更に応じて音声認識結果が誤りか否かの判定の基準を調整しながら、話者の動作が検出された場合には音声認識がしにくい状況であると判定することができる。
【0073】
また、図4、6、8にそれぞれ示す実施の形態2、3、4の構成に、しきい値調整部10を加えることにより、それぞれの実施の形態において、音声認識装置100が音声認識環境の変化に自動的に対応できるようにすることも可能である。
【0074】
次に、具体例を用いて本発明の動作を説明する。
【0075】
(具体例1)
具体例1は、実施の形態1の例である。図12は、具体例1の使用状況を示す。具体例1では、図1のマイクロフォン1は卓上マイク11であり、図1の話者運動情報取得部4は卓上マイク11とその話者の動画を撮影するカメラ21であるとする。また、図1の音声認識修正スコア計算部5は、カメラ21の撮影した動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとする。
【0076】
本具体例において、まず卓上マイク11は、話者の発話などの音声情報を入力として受け取り、音声認識部2に送る(図2のステップA1)。次に、音声認識部2は、卓上マイク11から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換する(図2のステップA2)。そして、テキスト化された発話を音声認識結果として音声認識結果保持部3へ送る(図2のステップA3)。
【0077】
話者運動情報取得部4は、カメラ21の撮影した動画を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図3のステップB1)。
【0078】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとして、話者運動スコアを音声認識要修正判定部6へ送る(図3のステップB2)。
【0079】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図3のステップB3)。
【0080】
本具体例のように、マイクロフォン1として卓上マイクやスタンドマイクなどの設置型のマイクを使用する場合は、話者の運動による話者の位置変化が話者とマイクロフォンの相対位置関係の変化となるため、ヘッドセットマイクやピンマイクなどの接触型のマイクを使用する場合と比べて、マイクロフォン1から入力される音声の質が話者の運動により劣化しやすい。したがって、マイクロフォン1として設置型のマイクを使用する場合は、接触型の(話者と共に移動する)マイクを使用する場合に比べてしきい値を低く設定する必要がある。
【0081】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(図3のステップB6)。
【0082】
本具体例が有効に働く例として、卓上マイクの前に発言者が歩み出て発言を行う形式の会議での発言者の音声認識などが挙げられる。
【0083】
(具体例2)
具体例2は実施の形態2の例である。図12の使用状況を例に説明する。本具体例においては図4のマイクロフォン1は卓上マイク11であり、図4の話者運動情報取得部4は卓上マイクとその話者の動画を撮影するカメラ21であるとする。また、図4の音声認識修正スコア計算部5は、カメラ21の撮影した動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとする。話者警告出力部8は、警告としてビープ音を話者に聞こえるように発するとする。
【0084】
音声認識および話者運動情報の取得は、具体例1と同様である。音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた動画の中での話者の相対的な位置変化を計測することにより話者の移動距離を求め、話者が運動を開始してから終了するまでの移動距離を話者運動スコアとし(図5のステップB2)、話者運動スコアを音声認識要修正判定部6へ送る。
【0085】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し(図5のステップB3)、判定の情報を話者警告出力部8に送る。
【0086】
話者警告出力部8は、音声認識要修正判定部6から送られた判定の情報で音声認識要修正と判定された場合(図5のステップB5;YES)、即時に話者に対して、発話時の運動を控えるよう警告としてビープ音を出力する(図5のステップC1)。
【0087】
(具体例3)
具体例3は実施の形態3の例である。図13は、本具体例の使用状況を示す。本具体例において、図6のマイクロフォン1は手持ちマイク12、図6の話者運動情報取得部4は話者が頭部に身につける加速度センサ22、図6のマイクロフォン運動情報取得部9は手持ちマイクに付属する加速度センサ23であるとする。また、図6の音声認識修正スコア計算部5は、手持ちマイク12に付属する加速度センサ23が計測した加速度と話者が身につけた加速度センサ22が計測した加速度から、話者頭部のマイクに対する相対速度を求め、それを話者運動スコアとして扱う。
【0088】
本具体例において、まず手持ちマイク12は、話者の発話などの音声情報を入力として受け取り、音声認識部2に送る(図2のステップA1)。次に、音声認識部2は、手持ちマイク12から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換する(図2のステップA2)。そして、テキスト化された発話を音声認識結果として音声認識結果保持部3へ送る(図2のステップA3)。
【0089】
話者運動情報取得部4は、話者頭部の加速度を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図7のステップB1)。マイクロフォン運動情報取得部9は、手持ちマイクの加速度をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図7のステップB7)。
【0090】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者頭部の加速度情報とマイクロフォン運動情報取得部9から送られてきた手持ちマイク12の加速度情報から話者頭部の手持ちマイク12に対する相対速度を求めて話者運動スコアとする。そして、話者運動スコアを音声認識要修正判定部6へ送る(図7のステップB2’)。
【0091】
本具体例のようにマイクロフォン1として手持ちマイクを使用する場合は、音質の劣化の重要な要素である話者とマイクロフォン1の相対位置関係の変化を話者運動スコアに反映するために、話者とマイクロフォン1双方の運動を計測する必要がある。
【0092】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し(図7のステップB3)、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図7のステップB4)。
【0093】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(図7のステップB6)。
【0094】
本具体例が有効に働く例として、手持ちマイクを持つ講師が歩き回りながら講演を行う状況での講師の音声認識などが挙げられる。
【0095】
(具体例4)
具体例4は実施の形態4の例である。図14は、具体例4の使用状況を示す。本具体例4において、図8のマイクロフォン1はヘッドセットマイク13、図8のマイクロフォン運動情報取得部9はヘッドセットマイク13に付属する加速度センサ23であるとする。また、図8の音声認識修正スコア計算部5は、加速度センサ23が計測したヘッドセットマイク13の加速度からヘッドセットマイク13の運動速度を求め、それを話者運動スコアとして扱う。
【0096】
本具体例において、まずヘッドセットマイク13は、話者の発話などの音声情報を入力として受け取り、音声認識部2に送る(図2のステップA1)。次に、音声認識部2は、ヘッドセットマイク13から送られてきた音声情報に音声認識処理を行い話者の発話情報をテキストに変換する(図2のステップA2)。そして、テキスト化された発話を音声認識結果として音声認識結果保持部3へ送る(図2のステップA3)。
【0097】
マイクロフォン運動情報取得部9は、ヘッドセットマイク13の加速度をマイクロフォンの運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図9のステップB2”)。音声認識修正スコア計算部5は、マイクロフォン運動情報取得部9から送られてきたヘッドセットマイク13の加速度情報からヘッドセットマイク13の運動速度を求めて話者運動スコアとして、話者運動スコアを音声認識要修正判定部6へ送る(図9のステップB3)。
【0098】
本具体例のようにマイクロフォン1としてヘッドセットマイクやピンマイクなどの話者に取り付けるタイプのマイクを使用する場合は、マイクロフォン1の運動を話者の頭部の運動と同一視できる。そこで、マイクロフォン1の運動のみを計測して、それを話者の運動の情報として話者運動スコアの計算に用いることができる。このことにより、話者運動を測定するために、話者に追加の測定機器をつける必要がなくなるという点で話者の負担を低減することができる。
【0099】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定し(図9のステップB3)、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図9のステップB4)。
【0100】
本具体例のように、マイクロフォン1としてヘッドセットマイクやピンマイクなどの話者に取り付けるタイプのマイクを使用する場合は、手持ちマイクやスタンドマイク、卓上マイクなどの設置型のマイクを使用する場合と比べて話者とマイクの間の距離が変化し難く、話者の運動が大きくてもマイクロフォン1から入力される音声の質が劣化しにくい。したがって、本具体例のように、マイクロフォン1として話者に取り付けるタイプのマイクを使用する場合は、設置型のマイクを使用する場合と比べてしきい値を高く設定する必要がある。
【0101】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(図9のステップB6)。
【0102】
本具体例が有効に働く例として、舞台上でマイクを身に付けて演劇を行う役者の音声認識などが挙げられる。
【0103】
(具体例5)
具体例5は実施の形態5の例である。図15は、具体例5の使用状況を示す。本具体例5において、図10のマイクロフォン1は卓上マイク11とヘッドセットマイク13のどちらかであり、音声認識中であっても交換可能であるとする。また、図10の話者運動情報取得部4は、話者が頭部に身につける加速度センサ22であるとする。また、図10の音声認識修正スコア計算部5は、加速度センサ22が計測した重力加速度以外の加速度から話者の運動の大きさを求め、それを話者運動スコアとして扱う。
【0104】
本具体例のしきい値調整部10は、マイクロフォン1として卓上マイク11が使用されている際は図18の線bの位置の値を、マイクロフォン1としてヘッドセットマイク13が使用されている際は図18の線cの位置の値を、音声認識要修正判定部6がしきい値としてそれぞれ用いるようしきい値の調整を行う。
【0105】
本具体例において、音声認識の動作は、具体例1または具体例4と同様である。話者運動情報取得部4は、話者の頭部の加速度を話者の運動の手がかり情報として取得して音声認識修正スコア計算部5に送る(図11のステップB1)。
【0106】
音声認識修正スコア計算部5は、話者運動情報取得部4から送られてきた話者の頭部の加速度情報から話者の運動の大きさを求めて話者運動スコアとして、話者運動スコアを音声認識要修正判定部6へ送る(図11のステップB2)。
【0107】
しきい値調整部10は、マイクロフォン1として使用されるマイクが交換された際に(ステップD2;YES)、マイクロフォン1として卓上マイク11が使用されるようになった場合は、図18の点線bの位置の値を、マイクロフォン1としてヘッドセットマイク13が使用されるようになった場合は、図18の点線cの位置の値を、音声認識要修正判定部6がしきい値としてそれぞれ用いるよう、しきい値の調整を行う(図11のステップD3)。
【0108】
音声認識要修正判定部6は、音声認識修正スコア計算部5から送られた話者運動スコアと事前に設定されたしきい値とを比較し、話者運動スコアがしきい値より大きければ、音声認識結果の修正が必要と判定し、さもなくば音声認識結果の修正は不要と判定する(図11のステップB3)。そして、音声認識結果保持部3に保持されている音声認識結果に判定結果を書き込む(図11のステップB4)。
【0109】
音声認識結果修正候補抽出部7は、音声認識結果保持部3から音声認識結果を読み出し、音声認識要修正判定部6により書き込まれた判定結果が「音声認識結果の修正が必要」である音声認識結果を音声認識結果修正候補として抽出し、音声認識終了後に音声認識データ修正作業を行うユーザへ提示する(図11のステップB6)。
【0110】
本発明の話者運動情報取得部4は、上記の5つの具体例で用いた加速度センサ22、23と動画内の話者移動検出の他に、例えば下記のものを使うことが考えられる。
・モーションキャプチャ用の特定の色の目印を話者およびマイクロフォンに付けて画像中から位置認識する。
・超音波によって、話者の位置を測定する。
・床にはめ込んだ感圧センサによって、話者の立ち位置を検知する。
【0111】
音声認識修正スコア計算部5が、話者運動スコアを計算するのに用いるパラメータの例として上記の5つの具体例でも用いた話者の運動の大きさと話者の運動の速さが上げられる。
【0112】
話者が大きく動くと、話者がマイクの有効範囲から外れてしまい音質が劣化してしまうことが想定されるため、話者の運動の大きさと音声認識の誤認識率の関係性は図16のようになると考えられる。図16に示すように、話者の運動が大きくなればなるほど音声認識の誤認識率が高まっているので、話者の運動の大きさを用いて音声認識が誤認識かどうかの判定を行う話者運動スコアの計算を行うのは妥当であると考えられる。
【0113】
話者の運動が速くなると、話者とマイクの相対距離が大きく変化して音質が劣化してしまうことや、話者にかかる物理的負担により音質が劣化してしまうことが想定されるため、話者の運動の速度と音声認識の誤認識率の関係性は図17のようになると考えられる。図を参照すると、話者の運動が速くなればなるほど音声認識の誤認識率が高まっているので、話者の運動の速度を用いて音声認識が誤認識かどうかの判定を行う話者運動スコアの計算を行うのは妥当であると考えられる。
【0114】
また、音声認識修正スコア計算部5は、上記の5つの具体例で用いた話者の速度、話者とマイクロフォンの相対速度、話者の運動の大きさの他に、例えば下記のものを用いることが考えられる。
・話者とマイクロフォンの相対位置
・話者の位置と向き
・話者の運動の継続時間
【0115】
上記の5つの具体例では、具体例3の手持ちマイク12の場合のみ話者とマイクロフォン1の双方の運動を計測したが、具体例4のようなヘッドセットマイク13やピンマイクなどの接触型マイクや、具体例1のような卓上マイク11やスタンドマイクなどの設置型マイクを使用する場合でも、話者とマイクロフォン双方の運動を測定し、話者運動スコアの計測に用いてもよい。
【0116】
図19は、図1または図4に示す音声認識装置100のハードウェア構成の一例を示すブロック図である。音声認識装置100は、図19に示すように、制御部31、主記憶部32、外部記憶部33、音声入力部34、表示部35及び入力部36を備える。主記憶部32、外部記憶部33、音声入力部34、表示部35及び入力部36はいずれも内部バス30を介して制御部31に接続されている。
【0117】
制御部31はCPU(Central Processing Unit)等から構成され、外部記憶部33に記憶されている音声認識用プログラム500に従って、前述の音声認識装置100の処理を実行する。
【0118】
主記憶部32はRAM(Random-Access Memory)等から構成され、外部記憶部33に記憶されている音声認識用プログラム500をロードし、制御部31の作業領域として用いられる。
【0119】
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、前記の処理を制御部31に行わせるための音声認識用プログラム500を予め記憶し、また、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。図1または図4の音声認識結果保持部3は、外部記憶部33に構成される。音声認識処理、修正必要度判定処理および話者警告処理を行っているときは、それらのデータの一部は主記憶部32に記憶されて制御部31の作業に用いる。
【0120】
音声入力部34は、マイクロフォン1に接続し、アンプおよびA−D変換器を備える。音声入力部34は、マイクロフォン1の音声信号をA−D変換し、数値演算しやすいデータにして制御部31に供給する。
【0121】
表示部35は、例えば、音信号源とアンプを備える。ブザー、スピーカなどの音響出力装置を接続して、音響または音声によって話者への警告信号を出力する。表示部35はまた、ランプ、LED、または、CRT(Cathode Ray Tube)もしくはLCD(Liquid Crystal Display)などの画像表示部を駆動する回路を備え、それらを用いて、話者への警告信号を出力してもよい。
【0122】
入力部36は、加速度センサ、超音波センサ、ミリ波レーダまたはカメラなどを接続して、それらの信号を入力する。制御部31は、入力部36に接続するそれらのセンサなどの信号を用いて、話者の変位、速度、または加速度である動きを検出する。
【0123】
図1または図4の音声認識部2と、音声認識結果保持部3と、話者運動情報取得部4と、音声認識修正スコア計算部5と、音声認識要修正判定部6と、音声認識結果修正候補抽出部7、話者警告出力部8、マイクロフォン運動情報取得部9またはしきい値調整部10の処理は、音声認識用プログラム500が、制御部31、主記憶部32、外部記憶部33、音声入力部34、表示部35および入力部36などを資源として用いて処理することによって実行する。
【0124】
本発明の音声認識装置100はこのような構成を採用し、話者の動作情報を位置や向きなどからではなく直接測定し、その情報を用いて話者の運動が音声認識の精度に影響してしまう状態を検出することで、話者が運動した場合に音声認識誤りが発生している可能性の高い箇所を抽出することができるようになる。
【0125】
さらに、音声認識要修正判定手段が判定に用いるしきい値を事前に調整できることで、マイクロフォンが話者の運動の影響を受けやすい設置型のスタンドマイクであった場合にはしきい値を低く、話者の運動の影響を受けにくい接触型のヘッドセットマイクであった場合にはしきい値を高くするなどの調整が可能となる。
【0126】
その他、本発明の好適な変形として、以下の構成が含まれる。
【0127】
本発明の第1の観点に係る音声認識装置について、
好ましくは、前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定手段を備える。
【0128】
好ましくは、前記要修正判定手段は、
前記話者運動検出手段が検出した話者の一部および/または重心の変位および/または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算手段を備え、
前記誤り可能性スコア計算手段で計算したスコアが所定のしきい値以上の場合に、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断することを特徴とする。
【0129】
前記誤り可能性スコア計算手段は、前記話者運動検出手段が検出した話者の一部および/または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算してもよい。
【0130】
また、前記音声認識手段で抽出した文字符号列を保持する音声認識結果保持手段を備え、
前記要修正判定手段は、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応して前記音声認識結果保持手段にその判定結果を書き込み、
前記音声認識結果保持手段から音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出手段を備えることができる。
【0131】
なお、前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告手段を備えてもよい。
【0132】
前記音声入力手段は、前記話者とともに移動するマイクロフォンを備え、
前記話者運動検出手段は、前記マイクロフォンの変位および/または速度および/または加速度を検出し、
前記話者信号送出手段は、前記マイクロフォンの変位および/または速度および/または加速度を用いて話者の動きを算出してもよい。
【0133】
前記話者運動検出手段で検出した話者の動きを比較する前記所定の大きさを、前記音声入力手段で入力した音声、および/または、前記音声入力手段とその周囲との相対的動き、および/または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応手段を備えてもよい。
【0134】
本発明の第2の観点に係る音声認識方法について、
好ましくは、前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定ステップを備える。
【0135】
好ましくは、前記要修正判定ステップは、
前記話者運動検出ステップで検出した話者の一部および/または重心の変位および/または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算ステップを備え、
前記誤り可能性スコア計算ステップで計算したスコアが所定のしきい値以上の場合に、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断することを特徴とする。
【0136】
前記誤り可能性スコア計算ステップは、前記話者運動検出ステップで検出した話者の一部および/または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算してもよい。
【0137】
また、前記音声認識ステップで抽出した文字符号列を保持する音声認識結果保持ステップと、
前記要修正判定ステップで、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応してその判定結果を書き込む判定結果記録ステップと、
前記要修正判定ステップで音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出ステップと、を備えることができる。
【0138】
なお、前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告ステップを備えてもよい。
【0139】
前記話者運動検出ステップは、前記話者とともに移動するマイクロフォンの変位および/または速度および/または加速度を検出し、
前記話者信号送出ステップは、前記マイクロフォンの変位および/または速度および/または加速度を用いて話者の動きを算出してもよい。
【0140】
前記話者運動検出ステップで検出した話者の動きを比較する前記所定の大きさを、前記音声入力ステップで入力した音声、および/または、前記話者とその周囲との相対的動き、および/または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応ステップを備えてもよい。
【0141】
本発明の音声認識装置100によれば、話者が発話中に動きを伴う場合に、音声認識誤りが発生している可能性の高い箇所を抽出することができる。
【0142】
その理由は、本発明が、話者の位置や向きなどの間接的な情報ではなく、画像・加速度計などの情報から話者の運動の直接の手がかりとなる情報を取得するための話者運動情報取得手段と、その情報を用いて話者の運動の速度や大きさなどの運動状況を計算し、その運動状況から音声認識誤りが発生している可能性の高さを示す話者運動スコアを計算する話者運動スコア計算手段と、話者運動スコアが事前に設定したしきい値以下であれば音声認識結果の修正が必要である可能性が高いと判定する音声認識要修正判定手段を有するためである。
【図面の簡単な説明】
【0143】
【図1】本発明の実施の形態1に係る音声認識装置の構成の例を示すブロック図である。
【図2】実施の形態1の音声認識装置における音声認識処理の動作の一例を示す流れ図である。
【図3】実施の形態1の音声認識装置における修正必要度判定Aの動作の一例を示す流れ図である。
【図4】本発明の実施の形態2に係る音声認識装置の構成の例を示すブロック図である。
【図5】実施の形態2の音声認識装置における話者警告処理の動作の一例を示す流れ図である。
【図6】本発明の実施の形態3に係る音声認識装置の構成の例を示すブロック図である。
【図7】実施の形態3の音声認識装置における修正必要度判定Cの動作の一例を示す流れ図である。
【図8】本発明の実施の形態4に係る音声認識装置の構成の例を示すブロック図である。
【図9】実施の形態4の音声認識装置における修正必要度判定Dの動作の一例を示す流れ図である。
【図10】本発明の実施の形態5に係る音声認識装置の構成の例を示すブロック図である。
【図11】実施の形態5の音声認識装置における修正必要度判定Eの動作の一例を示す流れ図である。
【図12】具体例1または具体例2の使用状況を示す図である。
【図13】具体例3の使用状況を示す図である。
【図14】具体例4の使用状況を示す図である。
【図15】具体例5の使用状況を示す図である。
【図16】話者の運動の大きさと音声認識の誤認識率の概念的な関係を示すグラフである。
【図17】話者の運動速度と音声認識の誤認識率の概念的な関係を示すグラフである。
【図18】マイクの種類と音声誤認識率の違いの例を示す図である。
【図19】音声認識装置のハードウェア構成の一例を示すブロック図である。
【符号の説明】
【0144】
1 マイクロフォン
2 音声認識部
3 音声認識結果保持部
4 話者運動情報取得部
5 音声認識修正スコア計算部
6 音声認識要修正判定部
7 音声認識結果修正候補抽出部
8 話者警告出力部
9 マイクロフォン運動情報取得部
10 しきい値調整部
31 制御部
32 主記憶部
33 外部記憶部
34 音声入力部
35 表示部
36 入力部
100 音声認識装置
500 音声認識用プログラム
【特許請求の範囲】
【請求項1】
話者の発話する音声を入力する音声入力手段と、
前記音声入力手段で入力した音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
を備えることを特徴とする音声認識装置。
【請求項2】
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定手段を備えることを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記要修正判定手段は、
前記話者運動検出手段が検出した話者の一部および/または重心の、変位および/または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算手段を備え、
前記誤り可能性スコア計算手段で計算したスコアが所定のしきい値以上の場合に、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する
ことを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記誤り可能性スコア計算手段は、前記話者運動検出手段が検出した話者の一部および/または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算することを特徴とする請求項3に記載の音声認識装置。
【請求項5】
前記音声認識手段で抽出した文字符号列を保持する音声認識結果保持手段を備え、
前記要修正判定手段は、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応して前記音声認識結果保持手段にその判定結果を書き込み、
前記音声認識結果保持手段から音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出手段を備える、
ことを特徴とする請求項2ないし4のいずれか1項に記載の音声認識装置。
【請求項6】
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告手段を備えることを特徴とする請求項1ないし5のいずれか1項に記載の音声認識装置。
【請求項7】
前記音声入力手段は、前記話者とともに移動するマイクロフォンを備え、
前記話者運動検出手段は、前記マイクロフォンの変位および/または速度および/または加速度を検出し、
前記話者信号送出手段は、前記マイクロフォンの変位および/または速度および/または加速度を用いて話者の動きを算出する、
ことを特徴とする請求項1ないし6のいずれか1項に記載の音声認識装置。
【請求項8】
前記話者運動検出手段で検出した話者の動きを比較する前記所定の大きさを、前記音声入力手段で入力した音声、および/または、前記音声入力手段とその周囲との相対的動き、および/または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応手段を備えることを特徴とする請求項1ないし7のいずれか1項に記載の音声認識装置。
【請求項9】
話者の発話する音声を入力する音声入力ステップと、
前記音声入力ステップで入力した音声から、その発話に対応する文字符号列を抽出する音声認識ステップと、
前記話者の動きを検出する話者運動検出ステップと、
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出ステップと、
を備えることを特徴とする音声認識方法。
【請求項10】
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定ステップ、を備えることを特徴とする請求項9に記載の音声認識方法。
【請求項11】
前記要修正判定ステップは、
前記話者運動検出ステップで検出した話者の一部および/または重心の変位および/または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算ステップを備え、
前記誤り可能性スコア計算ステップで計算したスコアが所定のしきい値以上の場合に、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する
ことを特徴とする請求項10に記載の音声認識方法。
【請求項12】
前記誤り可能性スコア計算ステップは、前記話者運動検出ステップで検出した話者の一部および/または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算することを特徴とする請求項11に記載の音声認識方法。
【請求項13】
前記音声認識ステップで抽出した文字符号列を保持する音声認識結果保持ステップと、
前記要修正判定ステップで、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応してその判定結果を書き込む判定結果記録ステップと、
前記要修正判定ステップで音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出ステップと、
を備えることを特徴とする請求項10ないし12のいずれか1項に記載の音声認識方法。
【請求項14】
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告ステップを備えることを特徴とする請求項9ないし13のいずれか1項に記載の音声認識方法。
【請求項15】
前記話者運動検出ステップは、前記話者とともに移動するマイクロフォンの変位および/または速度および/または加速度を検出し、
前記話者信号送出ステップは、前記マイクロフォンの変位および/または速度および/または加速度を用いて話者の動きを算出する、
ことを特徴とする請求項9ないし14のいずれか1項に記載の音声認識方法。
【請求項16】
前記話者運動検出ステップで検出した話者の動きを比較する前記所定の大きさを、前記音声入力ステップで入力した音声、および/または、前記話者とその周囲との相対的動き、および/または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応ステップを備えることを特徴とする請求項9ないし15のいずれか1項に記載の音声認識方法。
【請求項17】
コンピュータを、
音声入力手段で入力した話者の発話する音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
して機能させることを特徴とする音声認識プログラム。
【請求項1】
話者の発話する音声を入力する音声入力手段と、
前記音声入力手段で入力した音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
を備えることを特徴とする音声認識装置。
【請求項2】
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定手段を備えることを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記要修正判定手段は、
前記話者運動検出手段が検出した話者の一部および/または重心の、変位および/または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算手段を備え、
前記誤り可能性スコア計算手段で計算したスコアが所定のしきい値以上の場合に、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する
ことを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記誤り可能性スコア計算手段は、前記話者運動検出手段が検出した話者の一部および/または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算することを特徴とする請求項3に記載の音声認識装置。
【請求項5】
前記音声認識手段で抽出した文字符号列を保持する音声認識結果保持手段を備え、
前記要修正判定手段は、前記音声認識手段で抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応して前記音声認識結果保持手段にその判定結果を書き込み、
前記音声認識結果保持手段から音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出手段を備える、
ことを特徴とする請求項2ないし4のいずれか1項に記載の音声認識装置。
【請求項6】
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告手段を備えることを特徴とする請求項1ないし5のいずれか1項に記載の音声認識装置。
【請求項7】
前記音声入力手段は、前記話者とともに移動するマイクロフォンを備え、
前記話者運動検出手段は、前記マイクロフォンの変位および/または速度および/または加速度を検出し、
前記話者信号送出手段は、前記マイクロフォンの変位および/または速度および/または加速度を用いて話者の動きを算出する、
ことを特徴とする請求項1ないし6のいずれか1項に記載の音声認識装置。
【請求項8】
前記話者運動検出手段で検出した話者の動きを比較する前記所定の大きさを、前記音声入力手段で入力した音声、および/または、前記音声入力手段とその周囲との相対的動き、および/または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応手段を備えることを特徴とする請求項1ないし7のいずれか1項に記載の音声認識装置。
【請求項9】
話者の発話する音声を入力する音声入力ステップと、
前記音声入力ステップで入力した音声から、その発話に対応する文字符号列を抽出する音声認識ステップと、
前記話者の動きを検出する話者運動検出ステップと、
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出ステップと、
を備えることを特徴とする音声認識方法。
【請求項10】
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、その話者の動きが発生したときの発話から前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する要修正判定ステップ、を備えることを特徴とする請求項9に記載の音声認識方法。
【請求項11】
前記要修正判定ステップは、
前記話者運動検出ステップで検出した話者の一部および/または重心の変位および/または速度から、音声認識誤りが発生している可能性の高さを示すスコアを計算する誤り可能性スコア計算ステップを備え、
前記誤り可能性スコア計算ステップで計算したスコアが所定のしきい値以上の場合に、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断する
ことを特徴とする請求項10に記載の音声認識方法。
【請求項12】
前記誤り可能性スコア計算ステップは、前記話者運動検出ステップで検出した話者の一部および/または重心の加速度を用いて、音声認識誤りが発生している可能性の高さを示すスコアを計算することを特徴とする請求項11に記載の音声認識方法。
【請求項13】
前記音声認識ステップで抽出した文字符号列を保持する音声認識結果保持ステップと、
前記要修正判定ステップで、前記音声認識ステップで抽出した文字符号列が、前記話者の発話する内容に適合していない可能性が高いと判断した場合に、その文字符号列に対応してその判定結果を書き込む判定結果記録ステップと、
前記要修正判定ステップで音声認識結果の修正が必要と判定された文字符号列を、音声認識結果修正候補として抽出する修正候補抽出ステップと、
を備えることを特徴とする請求項10ないし12のいずれか1項に記載の音声認識方法。
【請求項14】
前記話者運動検出ステップで検出した話者の動きが所定の大きさを超えた場合に、前記話者に動きが大きすぎることを表す信号を伝える警告ステップを備えることを特徴とする請求項9ないし13のいずれか1項に記載の音声認識方法。
【請求項15】
前記話者運動検出ステップは、前記話者とともに移動するマイクロフォンの変位および/または速度および/または加速度を検出し、
前記話者信号送出ステップは、前記マイクロフォンの変位および/または速度および/または加速度を用いて話者の動きを算出する、
ことを特徴とする請求項9ないし14のいずれか1項に記載の音声認識方法。
【請求項16】
前記話者運動検出ステップで検出した話者の動きを比較する前記所定の大きさを、前記音声入力ステップで入力した音声、および/または、前記話者とその周囲との相対的動き、および/または、前記音声入力手段として用いる機器の交換などの音声認識環境の変更に基づいて変更する、基準適応ステップを備えることを特徴とする請求項9ないし15のいずれか1項に記載の音声認識方法。
【請求項17】
コンピュータを、
音声入力手段で入力した話者の発話する音声から、その発話に対応する文字符号列を抽出する音声認識手段と、
前記話者の動きを検出する話者運動検出手段と、
前記話者運動検出手段で検出した話者の動きが所定の大きさを超えた場合に、前記文字符号列に対応させて話者運動検出信号を送出する話者信号送出手段と、
して機能させることを特徴とする音声認識プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【公開番号】特開2009−162931(P2009−162931A)
【公開日】平成21年7月23日(2009.7.23)
【国際特許分類】
【出願番号】特願2007−341058(P2007−341058)
【出願日】平成19年12月28日(2007.12.28)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】
【公開日】平成21年7月23日(2009.7.23)
【国際特許分類】
【出願日】平成19年12月28日(2007.12.28)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】
[ Back to top ]