説明

音声認識システム、音声認識方法および音声認識プログラム

【課題】音声認識誤りの原因を推測するのに役立つ例文を、ユーザに提示することのできる音声認識システムを提供すること。
【解決手段】音声認識手段21は、入力音声を音響モデル31と言語モデル32とを使って、音声認識する。単語選択手段22は、音声認識手段21の音声認識結果から、1つもしくは複数の単語を選択する。文生成手段23は、選択された1つもしくは複数の単語と言語モデル32とを使って文を生成し、この生成した文をユーザに提示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声認識システム、音声認識方法および音声認識プログラムに関する。
【背景技術】
【0002】
音声認識システムでは、音響モデルや言語モデルから予測される認識候補と、未知の入力音声との間の音響的類似度および言語的類似度を算出し、最も確からしい認識候補を認識結果として出力する。音声認識システムの認識率は年々向上しており、更なる認識率の向上を図るための研究開発が行われている。しかし、100%正しい結果を出力できる状況に至っていないのが現状である。このため、正しく音声認識ができなかった場合にユーザをサポートする技術が重要になってくる。そのような技術の一例が特許文献1に記載されている。
【0003】
特許文献1に記載された音声認識システムは、入力音声の認識結果とは別に、予め記憶してある多数の例文のうち、音声認識結果に類似する例文をユーザに提示する。例えば、ユーザが「一番近い駅はどこですか」と発声した際に、「一番近い敵はどこですか」という認識結果が得られた場合、この認識結果を出力すると共に、類似した例文として、「一番の敵は自分です」、「一番近い銀行はどこですか」、「ここから一番近い地下鉄の駅はどこですか」などを表示する。ユーザは、認識結果が誤っていた場合、実際に発声した文と近い文を選択することで、所望の認識結果を得ることができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007-47976号公報(特に0026〜0031段落)
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載された技術は、音声認識の認識率を例文検索の結果で補完しようとするものであり、それなりに一定の効果は得られる。しかし、提示される例文は、音声認識結果と類似した文に過ぎず、正しく音声認識がされる文とは限らない。例えば、前記の音声認識結果では、「駅」と発声した箇所が「敵」と誤認識されているのに対して、例文中には「駅」という単語が出現しているが、これは当該音声認識システムが「駅」を音声認識できることを意味するものではない。したがって、ユーザは、「駅」が「敵」と誤認識される原因が、そもそも「駅」が音声認識できないシステムになっているためか、それ以外の何らかの原因、例えばユーザの操作の誤り、周囲の雑音、ユーザの声の特性などによるものなのかを判断することができない。このため、ユーザが次に言い直すときに、どのように言い直したらよいかがわからない。
【0006】
一般に、音声認識が失敗したときにユーザが次に言い直す場合、ユーザは前の発声の音声認識誤りの原因を自分なりに分析して、それを改善して言い直そうとする。このとき音声認識誤りの原因が皆目検討がつかなければ、次の発声で改善しようにも改善することができず、音声認識率は一向に改善されない。
【0007】
本発明の目的は、音声認識誤りの原因を推測するのに役立つ例文をユーザに提示することのできる音声認識システムを提供することにある。
【課題を解決するための手段】
【0008】
本発明の音声認識システムは、入力音声を音響モデルと言語モデルを使って音声認識する音声認識手段と、音声認識した結果の単語列から1つもしくは複数の単語を選択する単語選択手段と、その選択された1つもしくは複数の単語と音声認識手段で使用した言語モデルを使って文を生成する文生成手段とを有する。
【発明の効果】
【0009】
本発明によれば、音声認識誤りの原因を推測するのに役立つ例文をユーザに提示することができる。
【図面の簡単な説明】
【0010】
【図1】本発明の第1の実施の形態の構成を示すブロック図。
【図2】本発明の第2の実施の形態の構成を示すブロック図。
【図3】本発明の第1及び第2の実施の形態の動作を示す流れ図。
【図4】本発明の第1及び第2の実施例を説明するための図。
【図5】本発明の第1及び第2の実施例を説明するための図。
【図6】本発明の第1及び第2の実施例を説明するための図。
【発明を実施するための形態】
【0011】
次に、本発明を実施するための形態について図面を参照して詳細に説明する。
【0012】
[第1の実施の形態]
図1を参照すると、本発明の第1の実施の形態は、マイク等の入力装置11と、プログラム制御により動作するデータ処理装置2と、情報を記憶するデータ記憶装置3と、ディスプレイ装置等の出力装置4とを含む。
【0013】
データ記憶装置3は、音響モデル31と言語モデル32を備える。
【0014】
音響モデル31は、入力音声の音響特徴量から音響的確からしさを計算するための情報を備える。
【0015】
言語モデル32は、単語列から言語的な確からしさを計算するための情報を備える。
【0016】
データ処理装置2は、音声認識手段21と単語選択手段22と文生成手段23とを備える。
【0017】
音声認識手段21は、入力装置11から入力された音声を音響モデル31と言語モデル32を使用して単語列に変換して出力装置4に出力する。
【0018】
単語選択手段22は、音声認識手段21の音声認識の結果である単語列から1つもしくは複数の単語を選択する。
【0019】
文生成手段23は、単語選択手段22で選択された1つもしくは複数の単語と、言語モデル32とを使用して文を生成して出力装置4に出力する。
【0020】
次に、図1及び図3を参照して本発明の第1の実施の形態の動作について詳細に説明する。
【0021】
入力装置11から入力された音声を、音響モデル31と言語モデル32を使用して音声認識手段21で音声認識する(図3ステップA1)。音声認識の結果の単語列は、音声認識手段21により出力装置4に出力され、ユーザに提示される。
【0022】
音声認識結果の単語列から単語選択手段22で1つもしくは複数の単語を選択する(図3ステップA2)。
【0023】
選択された単語から言語モデル32に合うような文を文生成手段23で生成する(図3ステップA3)。生成された文は、文生成手段23により出力装置4に出力され、ユーザに提示される。
【0024】
次に、本実施の形態の効果について説明する。
【0025】
本実施の形態では、音声認識誤りの原因を推測するのに役立つ例文をユーザに提示することができる。その理由は、文生成手段23で生成した例文は、音声認識で使用する言語モデルを使って作成した文であり、当該音声認識システムで音声認識しやすい文になっているため、その例文を実際に発声してみて、正しく音声認識されるかどうかを確かめれば、音声認識誤りの原因をある程度絞り込めるからである。
【0026】
具体的には、例文が正しく音声認識されたならば、前回の音声認識の誤りの原因は、ユーザの操作の誤り、周囲の雑音、ユーザの声の特性などである可能性は低く、発声した内容がそもそも音声認識できない内容だった可能性が高いと考えられる。したがって、次に言い直すときには、別の表現に言い換えて発声するなどの対処により、認識率の向上が期待できる。
【0027】
他方、例文も正しく音声認識されていなければ、ユーザの操作の誤り、周囲の雑音、ユーザの声の特性などが原因で、正しく音声認識できない状態であることが考えられる。このような場合は、次に言い直すときには、周囲の雑音などの影響を受けないようにするなどの対処により、認識率の向上が期待できる。
【0028】
また本実施の形態では、音声認識結果の単語列から選んだ単語と言語モデル32とを使用して文を生成するために、音声認識システムで使用するデータ以外のデータ(例えば特許文献1における例文のようなデータ)を使用せずに、ユーザの発声した文に近い例文を提示することが可能である。特許文献1において、記憶する全ての例文について、その例文が当該音声認識システムで音声認識可能な文か否かを確認しておけば、本発明と同様に、音声認識し易い例文をユーザに提示することができる。しかし、全ての例文が音声認識可能な文かどうかを確認すること自体が困難である上、多くの例文を記憶するための容量の大きな記憶装置が必要になる。このため、携帯端末のような記憶装置の容量に制限のあるハードウェアでは、多くの例文を記憶する方法は実現が困難である。
【0029】
[第2の実施の形態]
図2を参照すると、本発明の第2の実施の形態に係る音声認識システムは、第1の実施の形態に係る音声認識システムと比較して、ユーザが単語を指定するためのキーボード等の単語指定装置12を備えている点、単語選択手段22は単語指定装置12を通じてユーザから選択された単語を選択する点で相違する。
【0030】
第2の実施の形態に係る音声認識システムの動作は、第1の実施の形態に係る音声認識システムと基本的に同じであり、図3に示す手順で行われる。ただし、第2の実施の形態では、ステップA2において、単語選択手段22は、音声認識結果の単語列から1つもしくは複数の単語をランダムに選択するのではなく、単語指定装置12によってユーザに入力された1つもしくは複数の単語を選択する点で異なる。
【0031】
次に、本発明の第2の実施の形態の効果について説明する。
【0032】
第2の実施の形態では、システムが選んだ単語を使って文を生成するのではなく、ユーザが選んだ単語を使って文を生成するために、ユーザが発声した文に、より近い文を生成することが可能である。
【実施例1】
【0033】
次に、本発明の第1の実施例を、図面を参照して説明する。かかる実施例は本発明を実施するための第1の実施の形態に対応するものである。
【0034】
本実施例は、入力装置11としてマイクを、データ処理装置2としてパーソナル・コンピュータを、データ記憶装置3として磁気ディスク装置を、出力装置4としてディスプレイ装置を備えている。
【0035】
パーソナル・コンピュータは、音声認識手段21、単語選択手段22、文生成手段23として機能するCPUを有している。すなわち、CPUは、図示しない記録媒体に記録された音声認識プログラムをロードして実行することにより、CPU上に音声認識手段21、単語選択手段22および文生成手段23を実現する。
【0036】
今、マイクから「一番近いトイレはどこにありますか」という音声が入力されたとする。
【0037】
音声認識手段21は、音響モデル31と言語モデル32を使用して「ゴミ入れはどこかしら」という音声認識結果を出力したとする。
【0038】
ただし、音声認識結果は「ゴミ入れ/は/どこ/かしら」のように内部では単語の切れ目付きの情報が出力されることにする。
【0039】
単語選択手段22は、この4単語の単語連鎖から「どこ」の1単語をランダムに選択したとする。
【0040】
文生成手段23は、「どこ」という単語と、音声認識手段21で使用した図4のような3−gramの情報とそれぞれのデータの頻度とを持つ言語モデルを使って、例えば次のように文を生成する。
【0041】
「どこ」を3−gramの2番目の単語として持つすべてのデータの頻度の合計を分母として、それぞれのデータの頻度を分子とすることで、「どこ」を3−gramの2番目に持つデータのそれぞれの確率を求める。
【0042】
この確率値に基づいて、「どこ」を3−gramの2番目に持つすべてのデータから1つを選ぶ。確率値に基づいてとは、より確率値の高いものを優先的に選択することを意味する。ここでは「は/どこ/です」が選ばれたとする。
【0043】
次に、「は」と「どこ」を3−gramのそれぞれ2番目と3番目の単語として持つすべてのデータの頻度の合計を分母として、それぞれのデータの頻度を分子とすることで、「は」と「どこ」を3−gramのそれぞれ2番目と3番目に持つデータのそれぞれの確率を求める。
【0044】
この確率値に基づいて、「は」と「どこ」を3−gramのそれぞれ2番目と3番目の単語に持つデータの中から1つを選ぶ。ここでは、「コンビニ/は/どこ」が選ばれたとする。
【0045】
以上の操作を、3−gramの1番目に文頭を表わす「(文頭)」が出現するまで繰り返す。
【0046】
また「どこ」の後方も同様な手順で求め、3−gramの3番目に文末を表わす「(文末)」が出現するまで繰り返す。これにより、例えば「コンビニはどこですか」という文を生成し、ディスプレイ装置に出力する。
【0047】
このように、ユーザの発声を音声認識した結果の一部と、音声認識手段21で使用している言語モデル32から文を生成することによって、音声認識手段21で使用するデータ以外を使用せずに、ユーザが発声した文に近い文かつ音声認識しやすい例文を提示することができる。
【0048】
また上記の説明では単語選択手段22で、音声認識手段21からの音声認識結果の単語列からランダムに1つ選択した。このような方法に代えて、それぞれの単語に音声認識手段21で求められた確からしさの程度を示す値を付与しておき、単語選択手段22はその確からしさの程度がより高い単語を1つもしくは複数選択することで、文を生成するようにしてもよい。
【0049】
また上記の説明では言語モデル32をN=3のN−gram言語モデルで説明したが、Nの値はいくつでもよく、また複数のNの値(例えばN=2とN=3とN=4)を持つN−gram言語モデルでもよい。
【0050】
また上記の説明では単語選択手段22で、音声認識手段21からの音声認識結果の単語列からランダムに1つ選択したが、単語選択手段22は音声認識手段21で使用したN−gram言語モデル32でより長いN−gram連鎖と一致している単語列を1つもしくは複数選択することで、文を生成するようにしてもよい。
【0051】
また上記の説明では言語モデル32としてN−gram言語モデルを用いた。しかし、音声認識で使用する言語モデルはN−gram言語モデルに限定されず、例えば図5のようなCFG言語モデル(Context-Free Grammar:文脈自由文法)を用いてもよい。この場合、例文の生成は例えば次のように実現できる。
【0052】
単語選択手段22は、音声認識結果中の「ゴミ入れ/は/どこ/かしら」の4単語の単語連鎖から「どこ」の1単語をランダムに選択したとする。
【0053】
「どこ」を右辺に持つすべてのCFGルールの頻度の合計を分母として、それぞれのデータの頻度を分子とすることで、「どこ」を右辺に持つCFGルールのデータのそれぞれの確率を求める。
【0054】
この確率値に基づいて、「どこ」を右辺に持つすべてのCFGルールから1つを選ぶ。例えば『名詞→どこ』が選ばれたとする。
【0055】
このCFGルールのように、右辺が1項しかないときは、次に左辺を求める。
【0056】
このCFGルールの左辺である「名詞」を右辺に持つすべてのCFGルールから同様に確率値を使って1つ選ぶ。例えば『述語→名詞+判定詞』が選ばれたとする。
【0057】
次に、このCFGルールのように右辺が2つあるときは、逆側の右辺(この場合は「判定詞」)を先に求め、その次に左辺(この場合は「述語」)を求める。
【0058】
この場合は「判定詞」を左辺に持つすべてのCFGルールから同様に確率値を使って1つ選び、例えば『判定詞→です』が選ばれたとする。
【0059】
ここで終端記号を含むルールが選ばれたので、この部分は終了とする。
【0060】
次に『述語→名詞+判定詞』のルールの左辺の「述語」から同様に『述語→述語+終助詞』のルールが選ばれ、右辺第2項の「終助詞」から『終助詞→か』のルールが選ばれ、左辺の「述語」から、『述語→補語+述語』が選ばれたとする。
【0061】
同様に『述語→補語+述語』のルールの右辺第1項の「補語」から『補語→名詞+副助詞』が選ばれ、更にこの右辺第1項の「名詞」から『名詞→コンビニ』が選ばれ、右辺第2項の「副助詞」から『副助詞→は』が選ばれたとする。
【0062】
次に『述語→補語+述語』の左辺の「述語」から『文→述語』が選ばれたとすると、左辺に「文」を持つルールが選ばれたときに全体が終了する。
【0063】
これを図6のように左辺を親ノード、右辺を子ノードとして木構造に並べなおすことで「コンビニはどこですか」という文を生成する。
【0064】
また、N−gram言語モデルやCFG言語モデル以外の言語モデルでも同様に実現することが可能である。
【実施例2】
【0065】
次に、本発明の第2の実施例を、図面を参照して説明する。かかる実施例は本発明を実施するための第2の実施の形態に対応するものである。
【0066】
本実施例は、第1の実施例の単語選択手段22ではシステムが単語を選択したが、単語指定装置12でユーザが単語を指定できる点で異なる。
【0067】
第1の実施例と同様に音声認識手段21は「ゴミ入れ/は/どこ/かしら」という単語列をディスプレイ装置に出力したとする。ユーザは入力装置としてマウスを使って「は」と「どこ」の2単語を選択したとすると、第1の実施例と同様に「は」を含む文を生成しはじめるが、「は」の後方に「どこ」が出現する前に「(文末)」が出現してしまったらもう1度「は」の後方の単語列を作成しなおし、「は」の後方に「どこ」が出現してさらに「(文末)」が出現するまで繰り返すことによって、「は」と「どこ」を含む文を生成する。
【0068】
これにより、ユーザが選んだ単語を使って文を生成するために、システムが選択した単語を使って文を生成するよりも、ユーザが発声した文に、より近い文を生成することが可能である。
【符号の説明】
【0069】
11…入力装置
12…単語指定装置
2…データ処理装置
3…データ記憶装置
4…出力装置
21…音声認識手段
22…単語選択手段
23…文生成手段
31…音響モデル
32…言語モデル

【特許請求の範囲】
【請求項1】
入力音声を音響モデルと言語モデルを使って音声認識する音声認識手段と、
前記音声認識手段の音声認識結果から1つもしくは複数の単語を選択する単語選択手段と、
前記単語選択手段で選択された1つもしくは複数の単語と前記言語モデルを使って文を生成する文生成手段と、
を備えたことを特徴とする音声認識システム。
【請求項2】
前記単語選択手段は、前記文生成手段で文を生成をするためにユーザが残したい単語を指定する単語指定装置によって指定された単語を選択する、
ことを特徴とする請求項1に記載の音声認識システム。
【請求項3】
前記単語選択手段は、前記音声認識手段の音声認識結果の単語の中からもっとも確からしい単語を1つもしくは複数選択する、
ことを特徴とする請求項1に記載の音声認識システム。
【請求項4】
前記言語モデルがN−gram言語モデルであって、前記単語選択手段は、前記音声認識手段の音声認識結果の単語列の中から、前記言語モデルのデータの中からより長いN−gram連鎖と一致している単語列を1つもしくは複数選択する、
ことを特徴とする請求項1に記載の音声認識システム。
【請求項5】
前記音声認識手段の音声認識結果と前記文生成手段の生成文とをユーザに提示する出力装置を備えることを特徴とする請求項1乃至4の何れか1項に記載の音声認識システム。
【請求項6】
a)音声認識手段が、入力音声を音響モデルと言語モデルを使って音声認識するステップと、
b)単語選択手段が、音声認識結果から1つもしくは複数の単語を選択するステップと、
c)文生成手段が、前記選択された1つもしくは複数の単語と前記言語モデルを使って文を生成するステップと、
を含むことを特徴とする音声認識方法。
【請求項7】
前記ステップbにおいて、前記単語選択手段は、単語指定装置を通じてユーザから指定された1つもしくは複数の単語を選択する、
ことを特徴とする請求項6に記載の音声認識方法。
【請求項8】
前記ステップbにおいて、前記単語選択手段は、音声認識結果の単語の中からもっとも確からしい単語を1つもしくは複数選択する、
ことを特徴とする請求項6に記載の音声認識方法。
【請求項9】
前記言語モデルがN−gram言語モデルであって、
前記ステップbにおいて、前記単語選択手段は、音声認識結果の単語列の中から前記言語モデルのデータの中から、より長いN−gram連鎖と一致している単語列を1つもしくは複数選択する、
ことを特徴とする請求項6に記載の音声認識方法。
【請求項10】
d)前記音声認識手段の音声認識結果と前記文生成手段の生成文とを出力装置に出力するステップを、
さらに含むことを特徴とする請求項6乃至9の何れか1項に記載の音声認識方法。
【請求項11】
コンピュータを、
入力音声を音響モデルと言語モデルを使って音声認識する音声認識手段と、
前記音声認識手段の音声認識結果から1つもしくは複数の単語を選択する単語選択手段と、
前記単語選択手段で選択された1つもしくは複数の単語と前記言語モデルを使って文を生成する文生成手段と、
して機能させるための音声認識プログラム。
【請求項12】
前記単語選択手段は、前記文生成手段で文を生成をするためにユーザが残したい単語を指定する単語指定装置によって指定された単語を選択する、
ことを特徴とする請求項11に記載の音声認識プログラム。
【請求項13】
前記単語選択手段は、前記音声認識手段の音声認識結果の単語の中からもっとも確からしい単語を1つもしくは複数選択する、
ことを特徴とする請求項11に記載の音声認識プログラム。
【請求項14】
前記言語モデルがN−gram言語モデルであって、前記単語選択手段は、前記音声認識手段の音声認識結果の単語列の中から、前記言語モデルのデータの中からより長いN−gram連鎖と一致している単語列を1つもしくは複数選択する、
ことを特徴とする請求項11に記載の音声認識プログラム。
【請求項15】
前記音声認識手段は音声認識結果を、前記文生成手段は生成文を、それぞれ出力装置から出力することを特徴とする請求項11乃至14の何れか1項に記載の音声認識プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−191321(P2010−191321A)
【公開日】平成22年9月2日(2010.9.2)
【国際特許分類】
【出願番号】特願2009−37430(P2009−37430)
【出願日】平成21年2月20日(2009.2.20)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】