音声認識システム、音声認識方法および音声認識プログラム

【課題】音声認識誤りの原因を推測するのに役立つ例文を、ユーザに提示することのできる音声認識システムを提供すること。
【解決手段】音声認識手段２１は、入力音声を音響モデル３１と言語モデル３２とを使って、音声認識する。単語選択手段２２は、音声認識手段２１の音声認識結果から、１つもしくは複数の単語を選択する。文生成手段２３は、選択された１つもしくは複数の単語と言語モデル３２とを使って文を生成し、この生成した文をユーザに提示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は音声認識システム、音声認識方法および音声認識プログラムに関する。
【背景技術】
【０００２】
音声認識システムでは、音響モデルや言語モデルから予測される認識候補と、未知の入力音声との間の音響的類似度および言語的類似度を算出し、最も確からしい認識候補を認識結果として出力する。音声認識システムの認識率は年々向上しており、更なる認識率の向上を図るための研究開発が行われている。しかし、１００％正しい結果を出力できる状況に至っていないのが現状である。このため、正しく音声認識ができなかった場合にユーザをサポートする技術が重要になってくる。そのような技術の一例が特許文献１に記載されている。
【０００３】
特許文献１に記載された音声認識システムは、入力音声の認識結果とは別に、予め記憶してある多数の例文のうち、音声認識結果に類似する例文をユーザに提示する。例えば、ユーザが「一番近い駅はどこですか」と発声した際に、「一番近い敵はどこですか」という認識結果が得られた場合、この認識結果を出力すると共に、類似した例文として、「一番の敵は自分です」、「一番近い銀行はどこですか」、「ここから一番近い地下鉄の駅はどこですか」などを表示する。ユーザは、認識結果が誤っていた場合、実際に発声した文と近い文を選択することで、所望の認識結果を得ることができる。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開2007-47976号公報（特に0026〜0031段落）
【発明の概要】
【発明が解決しようとする課題】
【０００５】
特許文献１に記載された技術は、音声認識の認識率を例文検索の結果で補完しようとするものであり、それなりに一定の効果は得られる。しかし、提示される例文は、音声認識結果と類似した文に過ぎず、正しく音声認識がされる文とは限らない。例えば、前記の音声認識結果では、「駅」と発声した箇所が「敵」と誤認識されているのに対して、例文中には「駅」という単語が出現しているが、これは当該音声認識システムが「駅」を音声認識できることを意味するものではない。したがって、ユーザは、「駅」が「敵」と誤認識される原因が、そもそも「駅」が音声認識できないシステムになっているためか、それ以外の何らかの原因、例えばユーザの操作の誤り、周囲の雑音、ユーザの声の特性などによるものなのかを判断することができない。このため、ユーザが次に言い直すときに、どのように言い直したらよいかがわからない。
【０００６】
一般に、音声認識が失敗したときにユーザが次に言い直す場合、ユーザは前の発声の音声認識誤りの原因を自分なりに分析して、それを改善して言い直そうとする。このとき音声認識誤りの原因が皆目検討がつかなければ、次の発声で改善しようにも改善することができず、音声認識率は一向に改善されない。
【０００７】
本発明の目的は、音声認識誤りの原因を推測するのに役立つ例文をユーザに提示することのできる音声認識システムを提供することにある。
【課題を解決するための手段】
【０００８】
本発明の音声認識システムは、入力音声を音響モデルと言語モデルを使って音声認識する音声認識手段と、音声認識した結果の単語列から１つもしくは複数の単語を選択する単語選択手段と、その選択された１つもしくは複数の単語と音声認識手段で使用した言語モデルを使って文を生成する文生成手段とを有する。
【発明の効果】
【０００９】
本発明によれば、音声認識誤りの原因を推測するのに役立つ例文をユーザに提示することができる。
【図面の簡単な説明】
【００１０】
【図１】本発明の第１の実施の形態の構成を示すブロック図。
【図２】本発明の第２の実施の形態の構成を示すブロック図。
【図３】本発明の第１及び第２の実施の形態の動作を示す流れ図。
【図４】本発明の第１及び第２の実施例を説明するための図。
【図５】本発明の第１及び第２の実施例を説明するための図。
【図６】本発明の第１及び第２の実施例を説明するための図。
【発明を実施するための形態】
【００１１】
次に、本発明を実施するための形態について図面を参照して詳細に説明する。
【００１２】
［第１の実施の形態］
図１を参照すると、本発明の第１の実施の形態は、マイク等の入力装置１１と、プログラム制御により動作するデータ処理装置２と、情報を記憶するデータ記憶装置３と、ディスプレイ装置等の出力装置４とを含む。
【００１３】
データ記憶装置３は、音響モデル３１と言語モデル３２を備える。
【００１４】
音響モデル３１は、入力音声の音響特徴量から音響的確からしさを計算するための情報を備える。
【００１５】
言語モデル３２は、単語列から言語的な確からしさを計算するための情報を備える。
【００１６】
データ処理装置２は、音声認識手段２１と単語選択手段２２と文生成手段２３とを備える。
【００１７】
音声認識手段２１は、入力装置１１から入力された音声を音響モデル３１と言語モデル３２を使用して単語列に変換して出力装置４に出力する。
【００１８】
単語選択手段２２は、音声認識手段２１の音声認識の結果である単語列から１つもしくは複数の単語を選択する。
【００１９】
文生成手段２３は、単語選択手段２２で選択された１つもしくは複数の単語と、言語モデル３２とを使用して文を生成して出力装置４に出力する。
【００２０】
次に、図１及び図３を参照して本発明の第１の実施の形態の動作について詳細に説明する。
【００２１】
入力装置１１から入力された音声を、音響モデル３１と言語モデル３２を使用して音声認識手段２１で音声認識する（図３ステップＡ１）。音声認識の結果の単語列は、音声認識手段２１により出力装置４に出力され、ユーザに提示される。
【００２２】
音声認識結果の単語列から単語選択手段２２で１つもしくは複数の単語を選択する（図３ステップＡ２）。
【００２３】
選択された単語から言語モデル３２に合うような文を文生成手段２３で生成する（図３ステップＡ３）。生成された文は、文生成手段２３により出力装置４に出力され、ユーザに提示される。
【００２４】
次に、本実施の形態の効果について説明する。
【００２５】
本実施の形態では、音声認識誤りの原因を推測するのに役立つ例文をユーザに提示することができる。その理由は、文生成手段２３で生成した例文は、音声認識で使用する言語モデルを使って作成した文であり、当該音声認識システムで音声認識しやすい文になっているため、その例文を実際に発声してみて、正しく音声認識されるかどうかを確かめれば、音声認識誤りの原因をある程度絞り込めるからである。
【００２６】
具体的には、例文が正しく音声認識されたならば、前回の音声認識の誤りの原因は、ユーザの操作の誤り、周囲の雑音、ユーザの声の特性などである可能性は低く、発声した内容がそもそも音声認識できない内容だった可能性が高いと考えられる。したがって、次に言い直すときには、別の表現に言い換えて発声するなどの対処により、認識率の向上が期待できる。
【００２７】
他方、例文も正しく音声認識されていなければ、ユーザの操作の誤り、周囲の雑音、ユーザの声の特性などが原因で、正しく音声認識できない状態であることが考えられる。このような場合は、次に言い直すときには、周囲の雑音などの影響を受けないようにするなどの対処により、認識率の向上が期待できる。
【００２８】
また本実施の形態では、音声認識結果の単語列から選んだ単語と言語モデル３２とを使用して文を生成するために、音声認識システムで使用するデータ以外のデータ（例えば特許文献１における例文のようなデータ）を使用せずに、ユーザの発声した文に近い例文を提示することが可能である。特許文献１において、記憶する全ての例文について、その例文が当該音声認識システムで音声認識可能な文か否かを確認しておけば、本発明と同様に、音声認識し易い例文をユーザに提示することができる。しかし、全ての例文が音声認識可能な文かどうかを確認すること自体が困難である上、多くの例文を記憶するための容量の大きな記憶装置が必要になる。このため、携帯端末のような記憶装置の容量に制限のあるハードウェアでは、多くの例文を記憶する方法は実現が困難である。
【００２９】
［第２の実施の形態］
図２を参照すると、本発明の第２の実施の形態に係る音声認識システムは、第１の実施の形態に係る音声認識システムと比較して、ユーザが単語を指定するためのキーボード等の単語指定装置１２を備えている点、単語選択手段２２は単語指定装置１２を通じてユーザから選択された単語を選択する点で相違する。
【００３０】
第２の実施の形態に係る音声認識システムの動作は、第１の実施の形態に係る音声認識システムと基本的に同じであり、図３に示す手順で行われる。ただし、第２の実施の形態では、ステップＡ２において、単語選択手段２２は、音声認識結果の単語列から１つもしくは複数の単語をランダムに選択するのではなく、単語指定装置１２によってユーザに入力された１つもしくは複数の単語を選択する点で異なる。
【００３１】
次に、本発明の第２の実施の形態の効果について説明する。
【００３２】
第２の実施の形態では、システムが選んだ単語を使って文を生成するのではなく、ユーザが選んだ単語を使って文を生成するために、ユーザが発声した文に、より近い文を生成することが可能である。
【実施例１】
【００３３】
次に、本発明の第１の実施例を、図面を参照して説明する。かかる実施例は本発明を実施するための第１の実施の形態に対応するものである。
【００３４】
本実施例は、入力装置１１としてマイクを、データ処理装置２としてパーソナル・コンピュータを、データ記憶装置３として磁気ディスク装置を、出力装置４としてディスプレイ装置を備えている。
【００３５】
パーソナル・コンピュータは、音声認識手段２１、単語選択手段２２、文生成手段２３として機能するＣＰＵを有している。すなわち、ＣＰＵは、図示しない記録媒体に記録された音声認識プログラムをロードして実行することにより、ＣＰＵ上に音声認識手段２１、単語選択手段２２および文生成手段２３を実現する。
【００３６】
今、マイクから「一番近いトイレはどこにありますか」という音声が入力されたとする。
【００３７】
音声認識手段２１は、音響モデル３１と言語モデル３２を使用して「ゴミ入れはどこかしら」という音声認識結果を出力したとする。
【００３８】
ただし、音声認識結果は「ゴミ入れ／は／どこ／かしら」のように内部では単語の切れ目付きの情報が出力されることにする。
【００３９】
単語選択手段２２は、この４単語の単語連鎖から「どこ」の１単語をランダムに選択したとする。
【００４０】
文生成手段２３は、「どこ」という単語と、音声認識手段２１で使用した図４のような３−ｇｒａｍの情報とそれぞれのデータの頻度とを持つ言語モデルを使って、例えば次のように文を生成する。
【００４１】
「どこ」を３−ｇｒａｍの２番目の単語として持つすべてのデータの頻度の合計を分母として、それぞれのデータの頻度を分子とすることで、「どこ」を３−ｇｒａｍの２番目に持つデータのそれぞれの確率を求める。
【００４２】
この確率値に基づいて、「どこ」を３−ｇｒａｍの２番目に持つすべてのデータから１つを選ぶ。確率値に基づいてとは、より確率値の高いものを優先的に選択することを意味する。ここでは「は／どこ／です」が選ばれたとする。
【００４３】
次に、「は」と「どこ」を３−ｇｒａｍのそれぞれ２番目と３番目の単語として持つすべてのデータの頻度の合計を分母として、それぞれのデータの頻度を分子とすることで、「は」と「どこ」を３−ｇｒａｍのそれぞれ２番目と３番目に持つデータのそれぞれの確率を求める。
【００４４】
この確率値に基づいて、「は」と「どこ」を３−ｇｒａｍのそれぞれ２番目と３番目の単語に持つデータの中から１つを選ぶ。ここでは、「コンビニ／は／どこ」が選ばれたとする。
【００４５】
以上の操作を、３−ｇｒａｍの１番目に文頭を表わす「（文頭）」が出現するまで繰り返す。
【００４６】
また「どこ」の後方も同様な手順で求め、３−ｇｒａｍの３番目に文末を表わす「（文末）」が出現するまで繰り返す。これにより、例えば「コンビニはどこですか」という文を生成し、ディスプレイ装置に出力する。
【００４７】
このように、ユーザの発声を音声認識した結果の一部と、音声認識手段２１で使用している言語モデル３２から文を生成することによって、音声認識手段２１で使用するデータ以外を使用せずに、ユーザが発声した文に近い文かつ音声認識しやすい例文を提示することができる。
【００４８】
また上記の説明では単語選択手段２２で、音声認識手段２１からの音声認識結果の単語列からランダムに１つ選択した。このような方法に代えて、それぞれの単語に音声認識手段２１で求められた確からしさの程度を示す値を付与しておき、単語選択手段２２はその確からしさの程度がより高い単語を１つもしくは複数選択することで、文を生成するようにしてもよい。
【００４９】
また上記の説明では言語モデル３２をＮ＝３のＮ−ｇｒａｍ言語モデルで説明したが、Ｎの値はいくつでもよく、また複数のＮの値（例えばＮ＝２とＮ＝３とＮ＝４）を持つＮ−ｇｒａｍ言語モデルでもよい。
【００５０】
また上記の説明では単語選択手段２２で、音声認識手段２１からの音声認識結果の単語列からランダムに１つ選択したが、単語選択手段２２は音声認識手段２１で使用したＮ−ｇｒａｍ言語モデル３２でより長いＮ−ｇｒａｍ連鎖と一致している単語列を１つもしくは複数選択することで、文を生成するようにしてもよい。
【００５１】
また上記の説明では言語モデル３２としてＮ−ｇｒａｍ言語モデルを用いた。しかし、音声認識で使用する言語モデルはＮ−ｇｒａｍ言語モデルに限定されず、例えば図５のようなＣＦＧ言語モデル（Context-Free Grammar:文脈自由文法）を用いてもよい。この場合、例文の生成は例えば次のように実現できる。
【００５２】
単語選択手段２２は、音声認識結果中の「ゴミ入れ／は／どこ／かしら」の４単語の単語連鎖から「どこ」の１単語をランダムに選択したとする。
【００５３】
「どこ」を右辺に持つすべてのＣＦＧルールの頻度の合計を分母として、それぞれのデータの頻度を分子とすることで、「どこ」を右辺に持つＣＦＧルールのデータのそれぞれの確率を求める。
【００５４】
この確率値に基づいて、「どこ」を右辺に持つすべてのＣＦＧルールから１つを選ぶ。例えば『名詞→どこ』が選ばれたとする。
【００５５】
このＣＦＧルールのように、右辺が１項しかないときは、次に左辺を求める。
【００５６】
このＣＦＧルールの左辺である「名詞」を右辺に持つすべてのＣＦＧルールから同様に確率値を使って１つ選ぶ。例えば『述語→名詞＋判定詞』が選ばれたとする。
【００５７】
次に、このＣＦＧルールのように右辺が２つあるときは、逆側の右辺（この場合は「判定詞」）を先に求め、その次に左辺（この場合は「述語」）を求める。
【００５８】
この場合は「判定詞」を左辺に持つすべてのＣＦＧルールから同様に確率値を使って１つ選び、例えば『判定詞→です』が選ばれたとする。
【００５９】
ここで終端記号を含むルールが選ばれたので、この部分は終了とする。
【００６０】
次に『述語→名詞＋判定詞』のルールの左辺の「述語」から同様に『述語→述語＋終助詞』のルールが選ばれ、右辺第２項の「終助詞」から『終助詞→か』のルールが選ばれ、左辺の「述語」から、『述語→補語＋述語』が選ばれたとする。
【００６１】
同様に『述語→補語＋述語』のルールの右辺第１項の「補語」から『補語→名詞＋副助詞』が選ばれ、更にこの右辺第１項の「名詞」から『名詞→コンビニ』が選ばれ、右辺第２項の「副助詞」から『副助詞→は』が選ばれたとする。
【００６２】
次に『述語→補語＋述語』の左辺の「述語」から『文→述語』が選ばれたとすると、左辺に「文」を持つルールが選ばれたときに全体が終了する。
【００６３】
これを図６のように左辺を親ノード、右辺を子ノードとして木構造に並べなおすことで「コンビニはどこですか」という文を生成する。
【００６４】
また、Ｎ−ｇｒａｍ言語モデルやＣＦＧ言語モデル以外の言語モデルでも同様に実現することが可能である。
【実施例２】
【００６５】
次に、本発明の第２の実施例を、図面を参照して説明する。かかる実施例は本発明を実施するための第２の実施の形態に対応するものである。
【００６６】
本実施例は、第１の実施例の単語選択手段２２ではシステムが単語を選択したが、単語指定装置１２でユーザが単語を指定できる点で異なる。
【００６７】
第１の実施例と同様に音声認識手段２１は「ゴミ入れ／は／どこ／かしら」という単語列をディスプレイ装置に出力したとする。ユーザは入力装置としてマウスを使って「は」と「どこ」の２単語を選択したとすると、第１の実施例と同様に「は」を含む文を生成しはじめるが、「は」の後方に「どこ」が出現する前に「（文末）」が出現してしまったらもう１度「は」の後方の単語列を作成しなおし、「は」の後方に「どこ」が出現してさらに「（文末）」が出現するまで繰り返すことによって、「は」と「どこ」を含む文を生成する。
【００６８】
これにより、ユーザが選んだ単語を使って文を生成するために、システムが選択した単語を使って文を生成するよりも、ユーザが発声した文に、より近い文を生成することが可能である。
【符号の説明】
【００６９】
１１…入力装置
１２…単語指定装置
２…データ処理装置
３…データ記憶装置
４…出力装置
２１…音声認識手段
２２…単語選択手段
２３…文生成手段
３１…音響モデル
３２…言語モデル

【特許請求の範囲】
【請求項１】
入力音声を音響モデルと言語モデルを使って音声認識する音声認識手段と、
前記音声認識手段の音声認識結果から１つもしくは複数の単語を選択する単語選択手段と、
前記単語選択手段で選択された１つもしくは複数の単語と前記言語モデルを使って文を生成する文生成手段と、
を備えたことを特徴とする音声認識システム。
【請求項２】
前記単語選択手段は、前記文生成手段で文を生成をするためにユーザが残したい単語を指定する単語指定装置によって指定された単語を選択する、
ことを特徴とする請求項１に記載の音声認識システム。
【請求項３】
前記単語選択手段は、前記音声認識手段の音声認識結果の単語の中からもっとも確からしい単語を１つもしくは複数選択する、
ことを特徴とする請求項１に記載の音声認識システム。
【請求項４】
前記言語モデルがＮ−ｇｒａｍ言語モデルであって、前記単語選択手段は、前記音声認識手段の音声認識結果の単語列の中から、前記言語モデルのデータの中からより長いＮ−ｇｒａｍ連鎖と一致している単語列を１つもしくは複数選択する、
ことを特徴とする請求項１に記載の音声認識システム。
【請求項５】
前記音声認識手段の音声認識結果と前記文生成手段の生成文とをユーザに提示する出力装置を備えることを特徴とする請求項１乃至４の何れか１項に記載の音声認識システム。
【請求項６】
ａ）音声認識手段が、入力音声を音響モデルと言語モデルを使って音声認識するステップと、
ｂ）単語選択手段が、音声認識結果から１つもしくは複数の単語を選択するステップと、
ｃ）文生成手段が、前記選択された１つもしくは複数の単語と前記言語モデルを使って文を生成するステップと、
を含むことを特徴とする音声認識方法。
【請求項７】
前記ステップｂにおいて、前記単語選択手段は、単語指定装置を通じてユーザから指定された１つもしくは複数の単語を選択する、
ことを特徴とする請求項６に記載の音声認識方法。
【請求項８】
前記ステップｂにおいて、前記単語選択手段は、音声認識結果の単語の中からもっとも確からしい単語を１つもしくは複数選択する、
ことを特徴とする請求項６に記載の音声認識方法。
【請求項９】
前記言語モデルがＮ−ｇｒａｍ言語モデルであって、
前記ステップｂにおいて、前記単語選択手段は、音声認識結果の単語列の中から前記言語モデルのデータの中から、より長いＮ−ｇｒａｍ連鎖と一致している単語列を１つもしくは複数選択する、
ことを特徴とする請求項６に記載の音声認識方法。
【請求項１０】
ｄ）前記音声認識手段の音声認識結果と前記文生成手段の生成文とを出力装置に出力するステップを、
さらに含むことを特徴とする請求項６乃至９の何れか１項に記載の音声認識方法。
【請求項１１】
コンピュータを、
入力音声を音響モデルと言語モデルを使って音声認識する音声認識手段と、
前記音声認識手段の音声認識結果から１つもしくは複数の単語を選択する単語選択手段と、
前記単語選択手段で選択された１つもしくは複数の単語と前記言語モデルを使って文を生成する文生成手段と、
して機能させるための音声認識プログラム。
【請求項１２】
前記単語選択手段は、前記文生成手段で文を生成をするためにユーザが残したい単語を指定する単語指定装置によって指定された単語を選択する、
ことを特徴とする請求項１１に記載の音声認識プログラム。
【請求項１３】
前記単語選択手段は、前記音声認識手段の音声認識結果の単語の中からもっとも確からしい単語を１つもしくは複数選択する、
ことを特徴とする請求項１１に記載の音声認識プログラム。
【請求項１４】
前記言語モデルがＮ−ｇｒａｍ言語モデルであって、前記単語選択手段は、前記音声認識手段の音声認識結果の単語列の中から、前記言語モデルのデータの中からより長いＮ−ｇｒａｍ連鎖と一致している単語列を１つもしくは複数選択する、
ことを特徴とする請求項１１に記載の音声認識プログラム。
【請求項１５】
前記音声認識手段は音声認識結果を、前記文生成手段は生成文を、それぞれ出力装置から出力することを特徴とする請求項１１乃至１４の何れか１項に記載の音声認識プログラム。

【図１】