音声検索装置および音声検索方法

【課題】音声認識精度の向上を図ると共に、利用者が理解しやすい認識結果を提示する音声検索装置および音声検索方法を得る。
【解決手段】音響標準パタンデータベース２および認識用単語辞書３を参照して、音声認識部４が入力音声について音声認識を行う。データベース検索部９は検索用データベース８を参照して認識結果に対応する検索結果を取得し、認識結果との類似度を示す検索スコアと共に検索結果データ格納部１０に格納する。認識結果補正部１１は、検索結果に含まれる単語をノードにしたネットワークに認識結果を通して照合し、類似する単語に置き換える補正を行うと共に、補正した認識結果に基づいて検索スコアを補正して検索結果の順位付けを行う。候補提示部１２は、検索スコア順の検索結果と、各検索結果に対応する補正した認識結果とを利用者に提示する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、音声認識の結果に基づき検索されたあいまい性を含む検索結果を提示する音声検索装置および音声検索方法に関するものである。
【背景技術】
【０００２】
音声による入力は、キーボードまたはタッチパネルによる入力と比べて初心者でも素早い入力が可能であり、他のタスクで目または手が塞がっている場合でも入力実行が可能であるという利点がある。近年では、大語彙連続音声認識とデータベース検索とを組み合わせて、音声による全文検索および名称検索が検討されている。このとき、音声認識には認識可能な語彙の制限があること、および音声認識結果には認識誤りが含まれることを考慮する必要がある。
【０００３】
このための具体的な方策として、例えば特許文献１では、音声認識用辞書に未登録の未知語を考慮した音声認識を行うために、単語より短く、かつ少ない種類数で表されるサブワード（音節）と単語とを併用した言語モデルによって音声認識を行う検索装置が開示されている。この検索装置は、先ずユーザ発話中で単語として認識された部分のみを用いて検索対象文書を初期検索して検索結果を取得し、次にユーザ発話中で単語として認識されなかった部分である未知語を補間するために、検索結果中のキーワードからサブワードの連鎖（音節列）に一致または類似するキーワードを決定する。そして、未知語が補間されたキーワードを用いて再度検索対象文書を検索することにより、検索精度の向上を図っていた。
【０００４】
【特許文献１】特開２００３−２７１６２９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
従来の音声検索装置および音声検索方法は以上のように構成されているので、語彙制限および誤認識による音声認識のあいまい性を考慮して、音声による文書検索の精度を向上させることが可能となっている。特許文献１に開示の検索装置の場合、限定された単語と音節を用いて音声認識を行い、認識された単語を使って文書を検索し、検索結果に含まれる音節列と検索結果中のキーワードとのマッチングを行う。ユーザ発話が文書であれば、キーワードを用いた検索対象文書の検索により、ある程度の精度の文書検索結果を取得できる可能性が高い。
しかしながら、ユーザ発話が大規模施設名等の施設名の場合には、検索結果中にキーワードが含まれなかったり、類似したキーワードと誤認識したりすることにより音声認識が失敗することがあり、所望の施設名を検索できないという課題があった。
【０００６】
この発明は、上記のような課題を解決するためになされたもので、音声認識によるあいまい性を考慮した検索を行い、その検索結果の情報を利用して音声認識結果の正当性を検証して補正することにより、認識精度の向上を図ると共に、利用者への認識結果提示において、利用者が理解しやすい認識結果を提示することを目的とする。
【課題を解決するための手段】
【０００７】
この発明に係る音声検索装置は、入力された音声に応じた単語列を認識結果として出力する音声認識部と、認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索部と、検索結果に基づいて認識結果を補正する認識結果補正部と、検索結果および認識結果補正部で補正した認識結果のうちの少なくとも一方を提示する候補提示部とを備えるようにしたものである。
【発明の効果】
【０００８】
この発明によれば、入力された音声に応じた単語列を認識結果とし、認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果とし、検索結果に基づいて認識結果を補正して、検索結果および補正した認識結果のうちの少なくとも一方を提示するようにしたので、音声認識精度の向上を図ると共に、利用者が理解しやすい認識結果を提示することができる。
【発明を実施するための最良の形態】
【０００９】
実施の形態１．
図１は、この発明の実施の形態１に係る音声検索装置の構成を示すブロック図である。図１に示す音声検索装置１は、音声認識に用いる音声の最小単位毎の音響特徴量を格納する音響標準パタンデータベース２、単語定義辞書および単語接続辞書からなる認識用単語辞書３、入力音声に対して音声分析処理、照合処理および探索処理からなる音声認識を行う音声認識部４、認識結果を用いて検索用データベース８を参照し検索結果を取得するデータベース検索部９、検索結果をリストにして格納する検索結果データ格納部１０、検索結果データ格納部１０の検索結果を用いて認識結果の補正を行う認識結果補正部１１、検索結果および補正した認識結果を提示する候補提示部１２を備える。
【００１０】
この音声検索装置１は、特に大規模施設名検索のように短い単語列でありながら、省略された表現が一般的に許される検索対象を入力音声に用いて検索を行う検索装置に関するものであり、データベース検索部９において単語より小さい単位である音素等のサブワードの集合を検索キーに用いて検索用データベース８を検索する。音声認識装置１は従来の音声検索装置と異なり、サブワード単位の区切りを利用するデータベース検索部９、認識結果補正部１１および候補提示部１２を備え、データベース検索部９において、単語より小さいサブワードの集合を検索キーとして検索用データベース８を検索し、認識結果補正部１１において、求まった検索結果と音声認識の認識結果との照合を行い、照合された補正認識結果候補をもとに検索結果の順位付けを補正して、候補提示部１２において利用者に提示する。
【００１１】
図１に示す音響標準パタンデータベース２は、音素等の音声認識の最小単位毎に、スペクトルと時間的な特徴とからなる音響パタンを格納する。図２は、この発明の実施の形態１に係る音声検索装置で用いられる隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）の構造を示す説明図であり、隠れマルコフモデルのトポロジーの例を示す。音響標準パタンとして、例えば図２に示すように、音素を単位とする３状態が時系列に並んだ隠れマルコフモデルを用いる。各状態２１はそれぞれ自己回帰アーク２２を有し、かつ後戻りアークを有さない。各状態に対応する音響特徴量は、共分散を保持する８混合ガウス分布により表される。音響標準パタンのパラメータは、予め多数の話者の学習用音声データから推定しておく。
【００１２】
認識用単語辞書３は、認識対象である入力音声を音響標準パタンの組み合わせで記述するために用いられる辞書である。具体的には、音響標準パタンに認識対象の言語的な出力対象と制約を記述した単語定義辞書と、単語間のつながりを記述した単語接続辞書からなる。
大規模施設名の検索を対象とした場合、音声検索装置１が全ての単語を認識用単語辞書３に登録して処理することは、メモリおよび処理速度の観点から現実的ではない。そのため、音声検索装置１は、典型的な単語とその他の形態素をサブワードのまま表現した認識用単語辞書３を使用するものとする。図３は、この発明の実施の形態１に係る音声検索装置の認識用単語辞書の１例を示す説明図である。図３に示すサブワードおよび単語定義辞書の例において、単語またはサブワードと音響標準パタンの連鎖とが対になっている。
また、図４は、この発明の実施の形態１に係る音声検索装置の認識用単語辞書の１例を示す説明図である。図４に示す単語接続辞書の例において、３つの単語またはサブワードの連鎖（トライグラム）の組み合わせと連鎖する確率とが対になっている。
【００１３】
図１に示す音声認識部４は、音声分析処理を行う音声分析部５、照合処理を行う照合部６、探索処理を行う探索部７を有し、入力された音声を音響標準パタンデータベース２および認識用単語辞書３と照合し、照合の度合いを表すスコアが高い単語の組み合わせを認識結果として出力する。
【００１４】
音声分析部５は、入力音声を音声認識に好適な音響特徴量へ変換する。音響特徴量の算出方法として、例えば音声分析部５は入力音声を標本化周期１６ｋＨｚ・１６ビットでＡ／Ｄ変換し、時間フレーム１０ｍｓ間隔で２５６点フーリエ変換を行ってパワースペクトルを求め、振幅軸および周波数軸をそれぞれ対数化した後で逆フーリエ変換を行う。このように算出した１２次元のメルケプストラムと、その時間方向の１次回帰係数１２次元の合計２４次元を音響特徴量として用いる。
【００１５】
照合部６は、音声分析部５で算出した音響特徴量と音響標準パタンデータベース２に格納されている音響標準パタンとを照合し、照合度合いを表すスコアを算出する。
探索部７は、認識用単語辞書３の単語またはサブワードと音響標準パタンとの対応付け、ならびに単語またはサブワードの組み合わせを参照し、入力音声の単語の接続関係に基づき音声全体に対する累積スコアが高くなる認識候補を探索し、認識結果の単語列を出力する。なお、探索部７は、スコアが高い上位の複数候補を認識結果として出力してもよく、またはスコアと共に認識結果を出力してもよい。
【００１６】
なお、音声認識部４による音声認識の詳細な方法については、「音声認識の基礎（上）（下）、ＬａｗｒｅｎｃｅＲａｂｉｎｅｒ、Ｂｉｉｎｇ−ＨｗａｎｇＪｕａｎｇ共著、古井貞煕監訳、ＮＴＴアドバンステクノロジ株式会社」に説明されている。
【００１７】
検索用データベース８は、施設名称等の検索対象の単語列を格納する。図５は、この発明の実施の形態１に係る音声検索装置の検索用データベースの１例を示す説明図である。検索用データベース８は、図５の例に示すように、少なくとも施設名称と単語に分割された読み情報とを有する。
検索用データベース８は、通常、予め作成された検索用の索引を備え、検索を効率化する。なお、データベースからの情報検索方法および索引作成方法については、「情報検索アルゴリズム、北研二、津田和彦、獅子堀正幹共著、共立出版株式会社」に説明されている。本実施の形態では、検索用データベース８には予めサブワードに区切られた索引が作成してあり、データベース検索部９が任意のサブワードに対して検索可能な構成となっている。
【００１８】
データベース検索部９は、検索用データベース８を参照し、音声認識部４が出力した認識結果に対応した検索結果を取得する。音声認識のあいまい性を考慮する方法として、データベース検索部９は認識結果の全てのサブワードを検索キーとして検索用データベース８を検索し、候補となる施設名称を取得する。さらにデータベース検索部９は検索に用いた全てのサブワードと候補となる施設名称に含まれるサブワードとを比較し、一致するサブワード数をもとに検索結果をスコアリングする。
【００１９】
図６は、この発明の実施の形態１に係る音声検索装置の検索結果の１例を示す説明図である。データベース検索部９は、図６に示すような施設名称、読み情報および検索スコアを含む検索結果を検索結果データ格納部１０および認識結果補正部１１へ出力する。なお、検索結果に含まれるＩＤは、施設名称を識別する目的で付与されており、音声認識装置１の一連の処理を通して不変とする。
検索結果データ格納部１０は、データベース検索部９が出力した検索結果をリストにして格納する。
【００２０】
認識結果補正部１１は検索結果データ格納部１０を参照して検索結果のリストと音声認識部４で取得した認識結果とを照合し、認識結果に含まれる単語の補正を行い、補正認識結果を候補提示部１２へ出力する。認識結果補正部１１はさらに、補正認識結果に基づいて検索結果データ格納部１０に格納されている検索結果の検索スコアを補正することにより、検索結果リストの順位付け補正を行う。
【００２１】
候補提示部１２は、検索結果データ格納部１０に格納された検索結果の所定の順位のデータを利用者に提示すると共に、認識結果を補正した補正認識結果も同時に提示する。提示の方法として、例えば候補提示部１２はモニタ画面等を備え、画面上に検索結果および補正認識結果を表示する。
【００２２】
次に、音声検索装置１の動作を説明する。図７は、この発明の実施の形態１に係る音声検索装置の動作を示すフローチャートである。ここでは、施設名称の検索を例にとり、音声認識結果とデータベース検索結果に基づく認識精度向上、および利用者への認識結果提示内容の生成方法について説明する。説明を単純にするために、利用者は「マルキョードームツアイテン」と発声し、施設名を検索することを意図しているものとする。
また、図１に示す検索用データベース８には予めサブワードに区切られた索引が作成されており、データベース検索部９による任意のサブワード検索が可能であるものとする。
【００２３】
図７に示すステップＳＴ１において、先ず音声認識部４は入力された音声を認識して、データベース検索部９への入力となる認識結果を出力する。ここでは、「マルキョードームツアイテン」という入力音声に対して、音声認識部４により「マルキュードーブツアイテル」という認識結果が取得され出力される。
【００２４】
ステップＳＴ２において、データベース検索部９は、検索用データベース８を参照して検索結果を出力し、検索結果データ格納部１０に格納させる。
データベース検索部９は、認識結果として取得された「マルキュードーブツアイテル」をサブワード「マ」、「ル」、「キュー」、「ドー」、「ブ」、「ツ」、「ア」、「イ」、「テ」、「ル」に分解する。次に、データベース検索部９は各サブワードを検索キーに用いて、図５に示す検索対象データが蓄積された検索用データベース８を検索する。具体的な検索手法としては、例えば文書検索方式として利用されるベクトル空間モデルを使った検索手法において、検索に用いられる単語の代わりに、サブワードを用いて検索を行う手法が考えられる。
データベース検索部９により「マルキュードーブツアイテル」をキーとして図５に示す検索用データベース８を検索した結果、図６に示す施設名称の検索結果が取得され、検索スコアが付与されることとする。データベース検索部９は、これらの検索結果のうち、上位Ｎ（ここではＮ＝４とする）件のＩＤ＝８，１，９，１０の施設名称を検索結果として出力する。
【００２５】
ステップＳＴ３において、認識結果補正部１１は先ず上位Ｎ件の検索結果からネットワーク表現を作成する。図８は、この発明の実施の形態１に係る音声検索装置の認識結果補正部が作成するネットワーク構造図の１例を示す説明図である。このネットワーク表現とは、検索結果ＩＤ＝８，１，９，１０の施設名称毎に含まれる単語（読み情報の「｜」で区切られた単位）の言い換え表現を受理するネットワークである。このネットワークの特徴は、各単語３１に対して、予め間違いやすいサブワードへの可能性を展開した構造であるあいまいネットワーク３２，３３を生成すること、および任意のサブワードを通過させるフィラー要素３４を生成することにある。
ここでは、全ての単語を任意の順番で接続可能なネットワークとしたが、言語制約を考慮して適当に変形してもよい。また、各単語を接続するアークにスコアを付与してもよい。
【００２６】
ステップＳＴ４において、認識結果補正部１１は、音声認識部４の認識結果「マルキュードーブツアイテル」をネットワーク表現に通して照合し、補正認識結果候補を作成する。
図９は、この発明の実施の形態１に係る音声検索装置の認識結果補正部が作成する補正認識結果候補の１例を示す説明図である。図９に示す補正認識結果候補４１は、各候補を「｜」によって単語単位に分割したデータとして作成される。また、ネットワーク表現を構成する各単語と一致せず、フィラー要素を通過した部分は、「（」および「）」で囲まれた疑似単語とする。
例えば、図９に示す補正認識結果候補４１のうちの「マルキュードー｜（ブツア）｜ショテン」は、認識結果「マルキュードーブツアイテル」に含まれる「マルキュードー」がネットワーク表現を構成する単語「マルキュードー」のあいまいネットワークを通過し、認識結果「ブツア」がフィラー要素を３回通過し、認識結果「イテル」が単語「ショテン」のあいまいネットワークを通過して作成されている。
【００２７】
各補正認識結果候補には補正スコアが付与され、認識結果「マルキュードーブツアイテル」と各補正認識結果候補との類似性を表している。補正スコアは、認識結果補正部１１が認識結果と補正認識結果候補とのサブワードの類似性をもとに一致度が高いほど評価が高くなるスコアリングを行い、さらに、補正認識結果候補に含まれるフィラー要素を通過したサブワードの割合が大きい場合に、より評価を下げるスコアリングを行ったものである。
【００２８】
続いて、認識結果補正部１１は補正認識結果候補と検索結果データ格納部１０に格納された検索結果とを比較し、検索結果のリストに含まれる検索スコアの補正を行う。
例えば、認識結果補正部１１は、検索結果の単語数と比較した補正認識結果候補の単語の不足数および過剰数、ならびに補正認識結果候補の補正スコアをもとに、下記式に従い検索スコアを補正する。
補正検索スコア＝検索スコア×｛１−（不足数／検索結果単語数）×α
−（過剰数／検索結果単語数）×β
−（１−補正スコア）×γ｝
【００２９】
例えば（α，β，γ）＝（０．０５，０，２０，０．０３）とすれば、単語の不足をなるべく許容すると共に、過剰な発声を許容しにくくし、かつ、もとの認識結果からの隔たりもある程度考慮した補正が可能となる。
【００３０】
実際に検索結果の検索スコアを補正し、補正検索スコアに従って補正認識結果候補から補正認識結果を選択すると以下のようになる。ここでは、補正スコアの上位Ｍ個（例えばＭ＝５）について補正検索スコアをそれぞれ算出し、Ｍ個のうち、補正検索スコアが最大となった補正認識結果候補を選択する。検索結果ＩＤ＝１の「マルキョードー｜ショテン｜ムツアイ｜テン」に対しては、補正認識結果候補４１のうち、「マルキョードー｜ムツアイ｜テン」が補正検索スコア０．８２８で最適な補正認識結果として選択される。また、ＩＤ＝８の「マルキュードー」に対しては、「マルキュードー｜（ブツアイテル）」が補正検索スコア０．６６８で選択される。さらに、ＩＤ＝９の「マルキュードー｜ショテン」に対しては、「マルキュードー｜（ブツア）｜ショテン」が補正検索スコア０．７３１で選択される。また、ＩＤ＝１０の「マルキュードー｜チリョーイン」に対しては、「マルキュードー｜（ブツアイテル）」が補正検索スコア０．７０８で選択される。
【００３１】
このようにして、認識結果補正部１１が検索結果データ格納部１０に格納された検索スコアを補正し、補正検索スコアに従って上位Ｎの検索結果をＩＤ＝１，９，１０，８の順番に再スコアリングする。
【００３２】
ステップＳＴ５において、候補提示部１２が不図示の画面上に検索結果を表示する。このとき、候補提示部１２は検索結果を補正検索スコア順に提示すると共に、各検索結果に対して選択された補正認識結果も提示する。
【００３３】
図１０は、この発明の実施の形態１に係る音声検索装置の候補提示部の提示例を示す説明図である。図１０に示す表示画面５１において、検索結果データ格納部１０に格納された検索結果のリスト５３が、補正検索スコアに基づいた順番で提示される。また、選択中の検索結果に対応した補正認識結果も提示される。
検索結果のリスト５３の先頭には、補正検索スコアが最も高い「○教堂書店六会店」が表示されている。認識結果表示枠５２には、選択中の「○教堂書店六会店」に対応する補正認識結果「マルキョードームツアイテン」が表示されている。
なお、利用者が発話していない「ショテン」については、認識結果に含まれず、利用者の理解しやすい認識結果５２が提示される。
【００３４】
利用者が候補提示部１２の提示する表示画面５１の検索結果のリスト５３の選択を移動して、「○久堂書店」を選択状態にした場合、ステップＳＴ６において候補提示部１２は表示画面５１を表示画面５４に遷移する。表示画面５４において、検索結果のリスト５６の「○久堂書店」が選択状態となり、認識結果表示枠５５も選択項目にマッチするように表示変更され、「マルキュードー（ブツア）ショテン」となる。「（」および「）」で囲まれた部分は、検索結果に該当する部分が存在せず、システムとして不明な認識結果が含まれていることを示している。
【００３５】
このように、実施の形態１によれば、音声認識装置１は、入力された音声に応じた施設名称を認識結果として出力する音声認識部４と、認識結果をサブワード単位に分割したキーを用いて、単語より小さい単位のサブワードに区切られた索引を含む施設名称を格納した検索用データベース８を検索して、類似性の高い施設名を検索結果として出力するデータベース検索部９と、検索結果に含まれる単語を構成要素としたネットワーク表現を用いて認識結果を照合して、認識結果を補正した補正認識結果を出力する認識結果補正部１１と、検索結果およびそれに対応した補正認識結果を提示する候補提示部１２とを備えるように構成した。そのため、音声認識部４の音声認識のあいまい性を考慮した検索を行い、その検索結果を利用して音声認識結果の正当性を検証して補正することができ、入力音声認識精度の向上を図ると共に、利用者が理解しやすい認識結果を提示することが可能となる。
【００３６】
また、実施の形態１によれば、音声認識装置１は認識結果補正部１１が認識結果との類似性に基づいて順位付けを行った検索結果のうちの上位Ｎ件について、補正認識結果をもとに順位付けを補正し、候補提示部１２が補正した順位に応じて検索結果を提示する。そのため、より利用者が希望する認識結果を得られる可能性が高くなると共に、補正認識結果も検索結果に即した内容になり、利用者の発声を音声検索装置がどう認識したかを利用者に分かりやすく提示することが可能となる。
【００３７】
さらに、候補提示部１２が提示する補正認識結果は、検索結果に基づき補正されたものとなるので、最初の発声が検索対象である施設名称を特定するのに十分な発声内容でなかった場合でも、認識結果を流用して、さらにキーワードを追加発声することで絞込検索を実装するインタフェースが容易に構築できる。
【００３８】
なお、上記実施の形態１では、候補提示部１２が検索結果と補正された認識結果を同時に提示するように構成したが、どちらか一方のみ提示するように構成してもよい。
【００３９】
また、上記実施の形態１では、単語の区切りを検索用データベース８の読み情報に予め登録しておく構成としてが、認識結果取得時にデータベース検索部９が必要に応じて単語を自動分割するように構成してもよい。
また、検索用データベース８の読み情報の単語の区切りに複数の候補がある場合には、複数の候補を併記しておき、データベース検索部９が認識結果と照合するように構成してもよい。
【００４０】
また、上記実施の形態１では、認識結果補正部１１が上位Ｎ件の検索結果を全て含むネットワーク表現を作成するように構成したが、検索結果１件毎にネットワーク表現を作成して、補正認識結果候補および補正スコアを求めるように構成してもよい。
【００４１】
また、上記実施の形態１では、認識結果補正部１１がネットワーク表現の構成要素を単語単位で作成する構成としたが、構成要素を形態素単位で作成する構成としてもよい。
【００４２】
実施の形態２．
図１１は、この発明の実施の形態２に係る音声検索装置の構成を示すブロック図である。本実施の形態２に係る音声検索装置１ａは、上記実施の形態１の認識結果補正部１１を、処理が単純なために軽量で、かつサブワード列の連続性に着目した認識結果の補正を行う認識結果補正部６１に置き換えた構成である。認識結果補正部６１以外の構成は上記実施の形態１の音声検索装置１と同一の構成であるため、詳細な説明は省略する。
認識結果補正部６１は、サブワード単位に分割された検索結果と認識結果とを、サブワード単位で照合して、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む単語に置き換える補正を行う。
【００４３】
次に、音声検索装置１ａの動作を説明する。図１２は、この発明の実施の形態２に係る音声検索装置の動作を示すフローチャートである。上記実施の形態１同様に、利用者は「マルキョードームツアイテン」と発声し、施設名を検索することを意図しているものとする。
【００４４】
図１２に示すステップＳＴ１１およびステップＳＴ１２は図７に示すステップＳＴ１およびステップＳＴ２と同様の処理であり、音声検索装置１ａの検索結果データ格納部１０には図６に示す検索結果が格納される。
続くステップＳＴ１３において、認識結果補正部６１は、検索結果データ格納部１０の検索結果を１つずつ取り出して、サブワードに連番を振る。ここでは、認識結果補正部６１が検索結果としてＩＤ＝１の「マルキョードーショテンムツアイテン」を取得し、認識結果とのマッチングを行う場合を考える。
図１３は、この発明の実施の形態２に係る音声検索装置の認識結果補正部による補正処理を説明する説明図である。認識結果補正部６１は、検索結果データ格納部１０から取り出した検索結果を音素、音節等のサブワード単位、「マ」、「ル」、「キョー」、「ドー」、「ショ」、「テ」、「ン」、「ム」、「ツ」、「ア」、「イ」、「テ」、「ン」に分割し、先頭から順番に連番を振り、番号付き検索結果７１とする。
【００４５】
ステップＳＴ１４において、認識結果補正部６１は、認識結果「マルキュードーブツアイテル」の各サブワードに対して、番号付き検索結果７１と同一のサブワードに同一の番号を割り当てて、番号割当て認識結果７２とする。番号割当て認識結果７２のサブワード「マ」は、番号付き検索結果７１の「マ＝１」と同一のサブワードであるため、認識結果補正部６１によって「１」が割り当てられる。また、番号割当て認識結果７２のサブワード「キュー」は、相当するサブワードが番号付き検索結果７１には存在しないので、番号は割り当てられない。さらに、番号割当て認識結果７２のサブワード「テ」は、番号付き検索結果７１の「テ＝６」および「テ＝１２」の２箇所のサブワードと同一であるため、認識結果補正部６１によって「６」および「１２」の２つの番号が割り当てられる。
【００４６】
ステップＳＴ１５において、認識結果補正部６１は、番号割当て認識結果７２において連続する番号列を連続数が長い順に取り出す。認識結果補正部６１が番号割当て認識結果７２から連続性を考慮した番号列を選択すると、「１，２」、「４」、「９，１０，１１，１２」、「６」、「２」がそれぞれ選択される。認識結果補正部６１はこれら番号列の中から連続数が最も長い「９，１０，１１，１２」を先ず取得する。このとき、「６」は「１２」と同じ位置のサブワードであるため、以降の取得候補から除外される。次に、認識結果補正部６１は「９」〜「１２」を含まない番号列として２番目に長い「１，２」を取得する。このとき、番号列「４」および「２」が残っているが、「２」は既に取得されているので、認識結果候補６１は「４」を取得する。
このようにステップＳＴ１５では、番号割当て認識結果７２から、二重四角枠で示す番号列「９，１０，１１，１２」、「１，２」、「４」が取得される。
【００４７】
ステップＳＴ１６において、認識結果補正部６１は連続番号のサブワード列と番号付け検索結果７１の単語との対応付けを長い番号列の順に評価し、補正認識結果７３を作成する。
１番目に、認識結果補正部６１は最長の番号列「９，１０，１１，１２」が割り当てられたサブワード列に対して、同一番号が付けられた番号付け検索結果７１の単語「ムツアイ｜テン」を対応付けて比較する。そして、認識結果補正部６１が、番号割当て認識結果７２の「ブツアイ」の「ブ」を「ム」に、「テル」の「ル」を「ン」に補正する。
２番目に、認識結果補正部６１は番号列「１，２」が割り当てられたサブワード列に対して、同一番号が付けられた番号付け検索結果７１の単語「マルキョードー」を対応付けて比較する。さらに、認識結果補正部６１は、単語「マルキョードー」の部分サブワードに一致する番号割当て認識結果７２の「ドー＝４」も、単語「マルキョードー」に対応付けられるものと判断する。その結果、認識結果補正部６１は、番号割当て認識結果７２の「マルキュードー」の「キュー」を「キョー」に補正する。このように、認識結果補正部６１は、番号割当て認識結果７２の連続番号のサブワード列を含む単語を、同一番号が付けられた番号付け検索結果７１の単語に置き換える補正を行う。
なお、番号付け検索結果７１に含まれる単語「ショテン」は、番号割当て認識結果７２に同一番号のサブワードが存在しない。
【００４８】
ステップＳＴ１７において、認識結果補正部６１は、番号割当て認識結果７２のうち、番号付け検索結果７１に存在しないサブワード列は単語としての特定が困難なために、認識結果のサブワードのまま補正認識結果７３に残す。なお、図１３に示す例では、認識結果における全てのサブワードが検索結果の単語として特定されたので、認識結果補正部６１はステップＳＴ２０５では処理を行わず、次の処理へ進む。
【００４９】
検索結果データ格納部１０に格納された全ての検索結果に対して、認識結果補正部６１による認識結果の補正が行われると、続くステップＳＴ１８およびステップＳＴ１９において候補提示部１２が検索結果および補正認識結果を提示する。ステップＳＴ１８およびステップＳＴ１９は、図７に示すステップＳＴ５およびステップＳＴ６と同様の処理であるため、説明は省略する。
【００５０】
以上のように、実施の形態２によれば、音声認識装置１ａは認識結果補正部６１が検索結果と認識結果をサブワード単位に分割して照合し、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む単語に置き変えた補正認識結果を出力し、候補提示部１２が検索結果およびそれに対応した補正認識結果を提示するように構成した。そのため、上記実施の形態１と同様に、検索結果と共に利用者が理解しやすい補正認識結果を提示することが可能となる。
【００５１】
なお、上記実施の形態２の音声検索装置１ａにおいて、認識結果補正部６１が、音声認識の際に間違いやすいサブワードのペアと間違いやすさの情報とを予め所持する構成であってもよい。間違いやすいサブワードのペアとは、例えば「キョー」と「キュー」であり、このペアの間違いやすさの情報、即ち間違える可能性は０．２とする。
認識結果補正部６１は、認識結果に番号を割り当てるステップＳＴ１４（図７）において、間違いやすいサブワードが存在する場合に間違いやすさの情報に基づき重み付きで番号を付与し、サブワード列の連続性を重み付きで判断する。例えば、図１３に示す番号割当て認識結果７２の「キュー」に対して、認識結果補正部６１が「キョー＝３」と同一の番号「３」を割当て、重み「０．２」を付与する。
【００５２】
また、上記実施の形態２の認識結果補正部６１の補正方式は、処理が単純であると共に、サブワード列の連続性を重視したアルゴリズムであるため、上記実施の形態１の認識結果補正部１１が作成した補正認識結果候補の各補正認識結果に対する後処理として適用することも可能である。即ち、認識結果補正部は、上記実施の形態１で説明したように、認識結果をネットワーク表現に通して照合し、認識結果に含まれる単語を検索結果の類似する単語に置き換えて補正認識結果を作成し、検索結果の順位付けを修正した後、上記実施の形態２で説明したように、検索結果と補正認識結果とをサブワード単位で照合して、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む形単語に置き換える補正を行う構成である。
この構成の場合には、音声認識装置は単語連鎖をより考慮した補正認識結果を作成することが可能となる。
【００５３】
また、上記実施の形態１および実施の形態２では、日本語を対象にした音声検索装置を例に用いて説明したが、対象とする言語を限定するものではなく、他の言語においても単語より小さい単位である音素あるいは音素列等を単位に用いて音声検索装置を構成することが可能である。
【図面の簡単な説明】
【００５４】
【図１】この発明の実施の形態１に係る音声検索装置の構成を示すブロック図である。
【図２】この発明の実施の形態１に係る音声検索装置で用いられる隠れマルコフモデルの構造を示す説明図である。
【図３】この発明の実施の形態１に係る音声検索装置の認識用単語辞書の１例を示す説明図である。
【図４】この発明の実施の形態１に係る音声検索装置の認識用単語辞書の１例を示す説明図である。
【図５】この発明の実施の形態１に係る音声検索装置の検索用データベースの１例を示す説明図である。
【図６】この発明の実施の形態１に係る音声検索装置の検索結果の１例を示す説明図である。
【図７】この発明の実施の形態１に係る音声検索装置の動作を示すフローチャートである。
【図８】この発明の実施の形態１に係る音声検索装置の認識結果補正部が作成するネットワーク構造図の１例を示す説明図である。
【図９】この発明の実施の形態１に係る音声検索装置の認識結果補正部が作成する補正認識結果候補の１例を示す説明図である。
【図１０】この発明の実施の形態１に係る音声検索装置の候補提示部の提示例を示す説明図である。
【図１１】この発明の実施の形態２に係る音声検索装置の構成を示すブロック図である。
【図１２】この発明の実施の形態２に係る音声検索装置の動作を示すフローチャートである。
【図１３】この発明の実施の形態２に係る音声検索装置の認識結果補正部による補正処理を説明する説明図である。
【符号の説明】
【００５５】
１，１ａ音声検索装置、２音響標準パタンデータベース、３認識用単語辞書、４音声認識部、５音声分析部、６照合部、７探索部、８検索用データベース、９データベース検索部、１０検索結果データ格納部、１１認識結果補正部、１２候補提示部、２１状態、２２自己回帰アーク、３１単語、３２，３３あいまいネットワーク、３４フィラー要素、４１補正認識結果候補、５１表示画面、５２認識結果表示枠、５３検索結果のリスト、６１認識結果補正部、７１番号付き検索結果、７２番号割当て認識結果、７３補正認識結果。

【特許請求の範囲】
【請求項１】
入力された音声に応じた単語列を認識結果として出力する音声認識部と、
前記認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、前記サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索部と、
前記検索結果に基づいて前記認識結果を補正する認識結果補正部と、
前記検索結果および前記認識結果補正部で補正した前記認識結果のうちの少なくとも一方を提示する候補提示部とを備えた音声検索装置。
【請求項２】
認識結果補正部は、サブワード単位に分割された検索結果と認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記検索結果の類似する単語に置き換える補正を行うことを特徴とする請求項１記載の音声検索装置。
【請求項３】
検索部は、複数の検索結果を出力し、
認識結果補正部は、認識結果と各検索結果とのサブワード一致数に応じた検索スコアを算出して前記複数の検索結果に順位を付与し、前記複数の検索結果のうちの上位所定数の検索結果について、サブワード単位に分割された前記上位所定数の検索結果と前記認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記上位所定数の検索結果の類似する単語に置き換える補正を行うと共に、補正した前記認識結果を用いて前記各検索結果の検索スコアを算出し直し、前記複数の検索結果の順位を修正し、
候補提示部は、前記複数の検索結果を前記認識結果補正部で付与された順位に従って提示することを特徴とする請求項１または２記載の音声検索装置。
【請求項４】
認識結果補正部は、サブワード単位に分割された検索結果と認識結果とをサブワード単位で照合して、前記認識結果のうちの前記検索結果と一致するサブワード列を含む単語を、前記検索結果の前記サブワード列を含む単語に置き換える補正を行うことを特徴とする請求項１記載の音声検索装置。
【請求項５】
検索部は、複数の検索結果を出力し、
認識結果補正部は、認識結果と各検索結果とのサブワード一致数に応じた検索スコアを算出して前記複数の検索結果に順位を付与し、前記複数の検索結果のうちの上位所定数の検索結果について、サブワード単位に分割された前記上位所定数の検索結果と前記認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記上位所定数の検索結果の類似する単語に置き換える補正を行うと共に、補正した前記認識結果を用いて前記各検索結果の検索スコアを算出し直して前記複数の検索結果の順位を修正し、さらに、前記各検索結果と補正した前記認識結果とをサブワード単位で照合して、前記認識結果のうちの前記検索結果と一致するサブワード列を含む単語を、前記各検索結果の前記サブワード列を含む単語に置き換える補正を行うことを特徴とする請求項１記載の音声検索装置。
【請求項６】
入力された音声に応じた単語列を認識結果として出力する音声認識ステップと、
前記認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、前記サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索ステップと、
前記検索結果に基づいて前記認識結果を補正する認識結果補正ステップと、
前記検索結果および前記認識結果補正ステップで補正した前記認識結果のうちの少なくとも一方を提示する候補提示ステップとを備えた音声検索方法。

【図１】