音声検索装置および音声検索方法
【課題】音声認識精度の向上を図ると共に、利用者が理解しやすい認識結果を提示する音声検索装置および音声検索方法を得る。
【解決手段】音響標準パタンデータベース2および認識用単語辞書3を参照して、音声認識部4が入力音声について音声認識を行う。データベース検索部9は検索用データベース8を参照して認識結果に対応する検索結果を取得し、認識結果との類似度を示す検索スコアと共に検索結果データ格納部10に格納する。認識結果補正部11は、検索結果に含まれる単語をノードにしたネットワークに認識結果を通して照合し、類似する単語に置き換える補正を行うと共に、補正した認識結果に基づいて検索スコアを補正して検索結果の順位付けを行う。候補提示部12は、検索スコア順の検索結果と、各検索結果に対応する補正した認識結果とを利用者に提示する。
【解決手段】音響標準パタンデータベース2および認識用単語辞書3を参照して、音声認識部4が入力音声について音声認識を行う。データベース検索部9は検索用データベース8を参照して認識結果に対応する検索結果を取得し、認識結果との類似度を示す検索スコアと共に検索結果データ格納部10に格納する。認識結果補正部11は、検索結果に含まれる単語をノードにしたネットワークに認識結果を通して照合し、類似する単語に置き換える補正を行うと共に、補正した認識結果に基づいて検索スコアを補正して検索結果の順位付けを行う。候補提示部12は、検索スコア順の検索結果と、各検索結果に対応する補正した認識結果とを利用者に提示する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識の結果に基づき検索されたあいまい性を含む検索結果を提示する音声検索装置および音声検索方法に関するものである。
【背景技術】
【0002】
音声による入力は、キーボードまたはタッチパネルによる入力と比べて初心者でも素早い入力が可能であり、他のタスクで目または手が塞がっている場合でも入力実行が可能であるという利点がある。近年では、大語彙連続音声認識とデータベース検索とを組み合わせて、音声による全文検索および名称検索が検討されている。このとき、音声認識には認識可能な語彙の制限があること、および音声認識結果には認識誤りが含まれることを考慮する必要がある。
【0003】
このための具体的な方策として、例えば特許文献1では、音声認識用辞書に未登録の未知語を考慮した音声認識を行うために、単語より短く、かつ少ない種類数で表されるサブワード(音節)と単語とを併用した言語モデルによって音声認識を行う検索装置が開示されている。この検索装置は、先ずユーザ発話中で単語として認識された部分のみを用いて検索対象文書を初期検索して検索結果を取得し、次にユーザ発話中で単語として認識されなかった部分である未知語を補間するために、検索結果中のキーワードからサブワードの連鎖(音節列)に一致または類似するキーワードを決定する。そして、未知語が補間されたキーワードを用いて再度検索対象文書を検索することにより、検索精度の向上を図っていた。
【0004】
【特許文献1】特開2003−271629号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
従来の音声検索装置および音声検索方法は以上のように構成されているので、語彙制限および誤認識による音声認識のあいまい性を考慮して、音声による文書検索の精度を向上させることが可能となっている。特許文献1に開示の検索装置の場合、限定された単語と音節を用いて音声認識を行い、認識された単語を使って文書を検索し、検索結果に含まれる音節列と検索結果中のキーワードとのマッチングを行う。ユーザ発話が文書であれば、キーワードを用いた検索対象文書の検索により、ある程度の精度の文書検索結果を取得できる可能性が高い。
しかしながら、ユーザ発話が大規模施設名等の施設名の場合には、検索結果中にキーワードが含まれなかったり、類似したキーワードと誤認識したりすることにより音声認識が失敗することがあり、所望の施設名を検索できないという課題があった。
【0006】
この発明は、上記のような課題を解決するためになされたもので、音声認識によるあいまい性を考慮した検索を行い、その検索結果の情報を利用して音声認識結果の正当性を検証して補正することにより、認識精度の向上を図ると共に、利用者への認識結果提示において、利用者が理解しやすい認識結果を提示することを目的とする。
【課題を解決するための手段】
【0007】
この発明に係る音声検索装置は、入力された音声に応じた単語列を認識結果として出力する音声認識部と、認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索部と、検索結果に基づいて認識結果を補正する認識結果補正部と、検索結果および認識結果補正部で補正した認識結果のうちの少なくとも一方を提示する候補提示部とを備えるようにしたものである。
【発明の効果】
【0008】
この発明によれば、入力された音声に応じた単語列を認識結果とし、認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果とし、検索結果に基づいて認識結果を補正して、検索結果および補正した認識結果のうちの少なくとも一方を提示するようにしたので、音声認識精度の向上を図ると共に、利用者が理解しやすい認識結果を提示することができる。
【発明を実施するための最良の形態】
【0009】
実施の形態1.
図1は、この発明の実施の形態1に係る音声検索装置の構成を示すブロック図である。図1に示す音声検索装置1は、音声認識に用いる音声の最小単位毎の音響特徴量を格納する音響標準パタンデータベース2、単語定義辞書および単語接続辞書からなる認識用単語辞書3、入力音声に対して音声分析処理、照合処理および探索処理からなる音声認識を行う音声認識部4、認識結果を用いて検索用データベース8を参照し検索結果を取得するデータベース検索部9、検索結果をリストにして格納する検索結果データ格納部10、検索結果データ格納部10の検索結果を用いて認識結果の補正を行う認識結果補正部11、検索結果および補正した認識結果を提示する候補提示部12を備える。
【0010】
この音声検索装置1は、特に大規模施設名検索のように短い単語列でありながら、省略された表現が一般的に許される検索対象を入力音声に用いて検索を行う検索装置に関するものであり、データベース検索部9において単語より小さい単位である音素等のサブワードの集合を検索キーに用いて検索用データベース8を検索する。音声認識装置1は従来の音声検索装置と異なり、サブワード単位の区切りを利用するデータベース検索部9、認識結果補正部11および候補提示部12を備え、データベース検索部9において、単語より小さいサブワードの集合を検索キーとして検索用データベース8を検索し、認識結果補正部11において、求まった検索結果と音声認識の認識結果との照合を行い、照合された補正認識結果候補をもとに検索結果の順位付けを補正して、候補提示部12において利用者に提示する。
【0011】
図1に示す音響標準パタンデータベース2は、音素等の音声認識の最小単位毎に、スペクトルと時間的な特徴とからなる音響パタンを格納する。図2は、この発明の実施の形態1に係る音声検索装置で用いられる隠れマルコフモデル(Hidden Markov Model;HMM)の構造を示す説明図であり、隠れマルコフモデルのトポロジーの例を示す。音響標準パタンとして、例えば図2に示すように、音素を単位とする3状態が時系列に並んだ隠れマルコフモデルを用いる。各状態21はそれぞれ自己回帰アーク22を有し、かつ後戻りアークを有さない。各状態に対応する音響特徴量は、共分散を保持する8混合ガウス分布により表される。音響標準パタンのパラメータは、予め多数の話者の学習用音声データから推定しておく。
【0012】
認識用単語辞書3は、認識対象である入力音声を音響標準パタンの組み合わせで記述するために用いられる辞書である。具体的には、音響標準パタンに認識対象の言語的な出力対象と制約を記述した単語定義辞書と、単語間のつながりを記述した単語接続辞書からなる。
大規模施設名の検索を対象とした場合、音声検索装置1が全ての単語を認識用単語辞書3に登録して処理することは、メモリおよび処理速度の観点から現実的ではない。そのため、音声検索装置1は、典型的な単語とその他の形態素をサブワードのまま表現した認識用単語辞書3を使用するものとする。図3は、この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。図3に示すサブワードおよび単語定義辞書の例において、単語またはサブワードと音響標準パタンの連鎖とが対になっている。
また、図4は、この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。図4に示す単語接続辞書の例において、3つの単語またはサブワードの連鎖(トライグラム)の組み合わせと連鎖する確率とが対になっている。
【0013】
図1に示す音声認識部4は、音声分析処理を行う音声分析部5、照合処理を行う照合部6、探索処理を行う探索部7を有し、入力された音声を音響標準パタンデータベース2および認識用単語辞書3と照合し、照合の度合いを表すスコアが高い単語の組み合わせを認識結果として出力する。
【0014】
音声分析部5は、入力音声を音声認識に好適な音響特徴量へ変換する。音響特徴量の算出方法として、例えば音声分析部5は入力音声を標本化周期16kHz・16ビットでA/D変換し、時間フレーム10ms間隔で256点フーリエ変換を行ってパワースペクトルを求め、振幅軸および周波数軸をそれぞれ対数化した後で逆フーリエ変換を行う。このように算出した12次元のメルケプストラムと、その時間方向の1次回帰係数12次元の合計24次元を音響特徴量として用いる。
【0015】
照合部6は、音声分析部5で算出した音響特徴量と音響標準パタンデータベース2に格納されている音響標準パタンとを照合し、照合度合いを表すスコアを算出する。
探索部7は、認識用単語辞書3の単語またはサブワードと音響標準パタンとの対応付け、ならびに単語またはサブワードの組み合わせを参照し、入力音声の単語の接続関係に基づき音声全体に対する累積スコアが高くなる認識候補を探索し、認識結果の単語列を出力する。なお、探索部7は、スコアが高い上位の複数候補を認識結果として出力してもよく、またはスコアと共に認識結果を出力してもよい。
【0016】
なお、音声認識部4による音声認識の詳細な方法については、「音声認識の基礎(上)(下)、Lawrence Rabiner、 Biing−Hwang Juang共著、古井貞煕監訳、NTTアドバンステクノロジ株式会社」に説明されている。
【0017】
検索用データベース8は、施設名称等の検索対象の単語列を格納する。図5は、この発明の実施の形態1に係る音声検索装置の検索用データベースの1例を示す説明図である。検索用データベース8は、図5の例に示すように、少なくとも施設名称と単語に分割された読み情報とを有する。
検索用データベース8は、通常、予め作成された検索用の索引を備え、検索を効率化する。なお、データベースからの情報検索方法および索引作成方法については、「情報検索アルゴリズム、北研二、津田和彦、獅子堀正幹共著、共立出版株式会社」に説明されている。本実施の形態では、検索用データベース8には予めサブワードに区切られた索引が作成してあり、データベース検索部9が任意のサブワードに対して検索可能な構成となっている。
【0018】
データベース検索部9は、検索用データベース8を参照し、音声認識部4が出力した認識結果に対応した検索結果を取得する。音声認識のあいまい性を考慮する方法として、データベース検索部9は認識結果の全てのサブワードを検索キーとして検索用データベース8を検索し、候補となる施設名称を取得する。さらにデータベース検索部9は検索に用いた全てのサブワードと候補となる施設名称に含まれるサブワードとを比較し、一致するサブワード数をもとに検索結果をスコアリングする。
【0019】
図6は、この発明の実施の形態1に係る音声検索装置の検索結果の1例を示す説明図である。データベース検索部9は、図6に示すような施設名称、読み情報および検索スコアを含む検索結果を検索結果データ格納部10および認識結果補正部11へ出力する。なお、検索結果に含まれるIDは、施設名称を識別する目的で付与されており、音声認識装置1の一連の処理を通して不変とする。
検索結果データ格納部10は、データベース検索部9が出力した検索結果をリストにして格納する。
【0020】
認識結果補正部11は検索結果データ格納部10を参照して検索結果のリストと音声認識部4で取得した認識結果とを照合し、認識結果に含まれる単語の補正を行い、補正認識結果を候補提示部12へ出力する。認識結果補正部11はさらに、補正認識結果に基づいて検索結果データ格納部10に格納されている検索結果の検索スコアを補正することにより、検索結果リストの順位付け補正を行う。
【0021】
候補提示部12は、検索結果データ格納部10に格納された検索結果の所定の順位のデータを利用者に提示すると共に、認識結果を補正した補正認識結果も同時に提示する。提示の方法として、例えば候補提示部12はモニタ画面等を備え、画面上に検索結果および補正認識結果を表示する。
【0022】
次に、音声検索装置1の動作を説明する。図7は、この発明の実施の形態1に係る音声検索装置の動作を示すフローチャートである。ここでは、施設名称の検索を例にとり、音声認識結果とデータベース検索結果に基づく認識精度向上、および利用者への認識結果提示内容の生成方法について説明する。説明を単純にするために、利用者は「マルキョードームツアイテン」と発声し、施設名を検索することを意図しているものとする。
また、図1に示す検索用データベース8には予めサブワードに区切られた索引が作成されており、データベース検索部9による任意のサブワード検索が可能であるものとする。
【0023】
図7に示すステップST1において、先ず音声認識部4は入力された音声を認識して、データベース検索部9への入力となる認識結果を出力する。ここでは、「マルキョードームツアイテン」という入力音声に対して、音声認識部4により「マルキュードーブツアイテル」という認識結果が取得され出力される。
【0024】
ステップST2において、データベース検索部9は、検索用データベース8を参照して検索結果を出力し、検索結果データ格納部10に格納させる。
データベース検索部9は、認識結果として取得された「マルキュードーブツアイテル」をサブワード「マ」、「ル」、「キュー」、「ドー」、「ブ」、「ツ」、「ア」、「イ」、「テ」、「ル」に分解する。次に、データベース検索部9は各サブワードを検索キーに用いて、図5に示す検索対象データが蓄積された検索用データベース8を検索する。具体的な検索手法としては、例えば文書検索方式として利用されるベクトル空間モデルを使った検索手法において、検索に用いられる単語の代わりに、サブワードを用いて検索を行う手法が考えられる。
データベース検索部9により「マルキュードーブツアイテル」をキーとして図5に示す検索用データベース8を検索した結果、図6に示す施設名称の検索結果が取得され、検索スコアが付与されることとする。データベース検索部9は、これらの検索結果のうち、上位N(ここではN=4とする)件のID=8,1,9,10の施設名称を検索結果として出力する。
【0025】
ステップST3において、認識結果補正部11は先ず上位N件の検索結果からネットワーク表現を作成する。図8は、この発明の実施の形態1に係る音声検索装置の認識結果補正部が作成するネットワーク構造図の1例を示す説明図である。このネットワーク表現とは、検索結果ID=8,1,9,10の施設名称毎に含まれる単語(読み情報の「|」で区切られた単位)の言い換え表現を受理するネットワークである。このネットワークの特徴は、各単語31に対して、予め間違いやすいサブワードへの可能性を展開した構造であるあいまいネットワーク32,33を生成すること、および任意のサブワードを通過させるフィラー要素34を生成することにある。
ここでは、全ての単語を任意の順番で接続可能なネットワークとしたが、言語制約を考慮して適当に変形してもよい。また、各単語を接続するアークにスコアを付与してもよい。
【0026】
ステップST4において、認識結果補正部11は、音声認識部4の認識結果「マルキュードーブツアイテル」をネットワーク表現に通して照合し、補正認識結果候補を作成する。
図9は、この発明の実施の形態1に係る音声検索装置の認識結果補正部が作成する補正認識結果候補の1例を示す説明図である。図9に示す補正認識結果候補41は、各候補を「|」によって単語単位に分割したデータとして作成される。また、ネットワーク表現を構成する各単語と一致せず、フィラー要素を通過した部分は、「(」および「)」で囲まれた疑似単語とする。
例えば、図9に示す補正認識結果候補41のうちの「マルキュードー|(ブツア)|ショテン」は、認識結果「マルキュードーブツアイテル」に含まれる「マルキュードー」がネットワーク表現を構成する単語「マルキュードー」のあいまいネットワークを通過し、認識結果「ブツア」がフィラー要素を3回通過し、認識結果「イテル」が単語「ショテン」のあいまいネットワークを通過して作成されている。
【0027】
各補正認識結果候補には補正スコアが付与され、認識結果「マルキュードーブツアイテル」と各補正認識結果候補との類似性を表している。補正スコアは、認識結果補正部11が認識結果と補正認識結果候補とのサブワードの類似性をもとに一致度が高いほど評価が高くなるスコアリングを行い、さらに、補正認識結果候補に含まれるフィラー要素を通過したサブワードの割合が大きい場合に、より評価を下げるスコアリングを行ったものである。
【0028】
続いて、認識結果補正部11は補正認識結果候補と検索結果データ格納部10に格納された検索結果とを比較し、検索結果のリストに含まれる検索スコアの補正を行う。
例えば、認識結果補正部11は、検索結果の単語数と比較した補正認識結果候補の単語の不足数および過剰数、ならびに補正認識結果候補の補正スコアをもとに、下記式に従い検索スコアを補正する。
補正検索スコア=検索スコア×{1−(不足数/検索結果単語数)×α
−(過剰数/検索結果単語数)×β
−(1−補正スコア)×γ}
【0029】
例えば(α,β,γ)=(0.05,0,20,0.03)とすれば、単語の不足をなるべく許容すると共に、過剰な発声を許容しにくくし、かつ、もとの認識結果からの隔たりもある程度考慮した補正が可能となる。
【0030】
実際に検索結果の検索スコアを補正し、補正検索スコアに従って補正認識結果候補から補正認識結果を選択すると以下のようになる。ここでは、補正スコアの上位M個(例えばM=5)について補正検索スコアをそれぞれ算出し、M個のうち、補正検索スコアが最大となった補正認識結果候補を選択する。検索結果ID=1の「マルキョードー|ショテン|ムツアイ|テン」に対しては、補正認識結果候補41のうち、「マルキョードー|ムツアイ|テン」が補正検索スコア0.828で最適な補正認識結果として選択される。また、ID=8の「マルキュードー」に対しては、「マルキュードー|(ブツアイテル)」が補正検索スコア0.668で選択される。さらに、ID=9の「マルキュードー|ショテン」に対しては、「マルキュードー|(ブツア)|ショテン」が補正検索スコア0.731で選択される。また、ID=10の「マルキュードー|チリョーイン」に対しては、「マルキュードー|(ブツアイテル)」が補正検索スコア0.708で選択される。
【0031】
このようにして、認識結果補正部11が検索結果データ格納部10に格納された検索スコアを補正し、補正検索スコアに従って上位Nの検索結果をID=1,9,10,8の順番に再スコアリングする。
【0032】
ステップST5において、候補提示部12が不図示の画面上に検索結果を表示する。このとき、候補提示部12は検索結果を補正検索スコア順に提示すると共に、各検索結果に対して選択された補正認識結果も提示する。
【0033】
図10は、この発明の実施の形態1に係る音声検索装置の候補提示部の提示例を示す説明図である。図10に示す表示画面51において、検索結果データ格納部10に格納された検索結果のリスト53が、補正検索スコアに基づいた順番で提示される。また、選択中の検索結果に対応した補正認識結果も提示される。
検索結果のリスト53の先頭には、補正検索スコアが最も高い「○教堂書店六会店」が表示されている。認識結果表示枠52には、選択中の「○教堂書店六会店」に対応する補正認識結果「マルキョードームツアイテン」が表示されている。
なお、利用者が発話していない「ショテン」については、認識結果に含まれず、利用者の理解しやすい認識結果52が提示される。
【0034】
利用者が候補提示部12の提示する表示画面51の検索結果のリスト53の選択を移動して、「○久堂書店」を選択状態にした場合、ステップST6において候補提示部12は表示画面51を表示画面54に遷移する。表示画面54において、検索結果のリスト56の「○久堂書店」が選択状態となり、認識結果表示枠55も選択項目にマッチするように表示変更され、「マルキュードー(ブツア)ショテン」となる。「(」および「)」で囲まれた部分は、検索結果に該当する部分が存在せず、システムとして不明な認識結果が含まれていることを示している。
【0035】
このように、実施の形態1によれば、音声認識装置1は、入力された音声に応じた施設名称を認識結果として出力する音声認識部4と、認識結果をサブワード単位に分割したキーを用いて、単語より小さい単位のサブワードに区切られた索引を含む施設名称を格納した検索用データベース8を検索して、類似性の高い施設名を検索結果として出力するデータベース検索部9と、検索結果に含まれる単語を構成要素としたネットワーク表現を用いて認識結果を照合して、認識結果を補正した補正認識結果を出力する認識結果補正部11と、検索結果およびそれに対応した補正認識結果を提示する候補提示部12とを備えるように構成した。そのため、音声認識部4の音声認識のあいまい性を考慮した検索を行い、その検索結果を利用して音声認識結果の正当性を検証して補正することができ、入力音声認識精度の向上を図ると共に、利用者が理解しやすい認識結果を提示することが可能となる。
【0036】
また、実施の形態1によれば、音声認識装置1は認識結果補正部11が認識結果との類似性に基づいて順位付けを行った検索結果のうちの上位N件について、補正認識結果をもとに順位付けを補正し、候補提示部12が補正した順位に応じて検索結果を提示する。そのため、より利用者が希望する認識結果を得られる可能性が高くなると共に、補正認識結果も検索結果に即した内容になり、利用者の発声を音声検索装置がどう認識したかを利用者に分かりやすく提示することが可能となる。
【0037】
さらに、候補提示部12が提示する補正認識結果は、検索結果に基づき補正されたものとなるので、最初の発声が検索対象である施設名称を特定するのに十分な発声内容でなかった場合でも、認識結果を流用して、さらにキーワードを追加発声することで絞込検索を実装するインタフェースが容易に構築できる。
【0038】
なお、上記実施の形態1では、候補提示部12が検索結果と補正された認識結果を同時に提示するように構成したが、どちらか一方のみ提示するように構成してもよい。
【0039】
また、上記実施の形態1では、単語の区切りを検索用データベース8の読み情報に予め登録しておく構成としてが、認識結果取得時にデータベース検索部9が必要に応じて単語を自動分割するように構成してもよい。
また、検索用データベース8の読み情報の単語の区切りに複数の候補がある場合には、複数の候補を併記しておき、データベース検索部9が認識結果と照合するように構成してもよい。
【0040】
また、上記実施の形態1では、認識結果補正部11が上位N件の検索結果を全て含むネットワーク表現を作成するように構成したが、検索結果1件毎にネットワーク表現を作成して、補正認識結果候補および補正スコアを求めるように構成してもよい。
【0041】
また、上記実施の形態1では、認識結果補正部11がネットワーク表現の構成要素を単語単位で作成する構成としたが、構成要素を形態素単位で作成する構成としてもよい。
【0042】
実施の形態2.
図11は、この発明の実施の形態2に係る音声検索装置の構成を示すブロック図である。本実施の形態2に係る音声検索装置1aは、上記実施の形態1の認識結果補正部11を、処理が単純なために軽量で、かつサブワード列の連続性に着目した認識結果の補正を行う認識結果補正部61に置き換えた構成である。認識結果補正部61以外の構成は上記実施の形態1の音声検索装置1と同一の構成であるため、詳細な説明は省略する。
認識結果補正部61は、サブワード単位に分割された検索結果と認識結果とを、サブワード単位で照合して、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む単語に置き換える補正を行う。
【0043】
次に、音声検索装置1aの動作を説明する。図12は、この発明の実施の形態2に係る音声検索装置の動作を示すフローチャートである。上記実施の形態1同様に、利用者は「マルキョードームツアイテン」と発声し、施設名を検索することを意図しているものとする。
【0044】
図12に示すステップST11およびステップST12は図7に示すステップST1およびステップST2と同様の処理であり、音声検索装置1aの検索結果データ格納部10には図6に示す検索結果が格納される。
続くステップST13において、認識結果補正部61は、検索結果データ格納部10の検索結果を1つずつ取り出して、サブワードに連番を振る。ここでは、認識結果補正部61が検索結果としてID=1の「マルキョードーショテンムツアイテン」を取得し、認識結果とのマッチングを行う場合を考える。
図13は、この発明の実施の形態2に係る音声検索装置の認識結果補正部による補正処理を説明する説明図である。認識結果補正部61は、検索結果データ格納部10から取り出した検索結果を音素、音節等のサブワード単位、「マ」、「ル」、「キョー」、「ドー」、「ショ」、「テ」、「ン」、「ム」、「ツ」、「ア」、「イ」、「テ」、「ン」に分割し、先頭から順番に連番を振り、番号付き検索結果71とする。
【0045】
ステップST14において、認識結果補正部61は、認識結果「マルキュードーブツアイテル」の各サブワードに対して、番号付き検索結果71と同一のサブワードに同一の番号を割り当てて、番号割当て認識結果72とする。番号割当て認識結果72のサブワード「マ」は、番号付き検索結果71の「マ=1」と同一のサブワードであるため、認識結果補正部61によって「1」が割り当てられる。また、番号割当て認識結果72のサブワード「キュー」は、相当するサブワードが番号付き検索結果71には存在しないので、番号は割り当てられない。さらに、番号割当て認識結果72のサブワード「テ」は、番号付き検索結果71の「テ=6」および「テ=12」の2箇所のサブワードと同一であるため、認識結果補正部61によって「6」および「12」の2つの番号が割り当てられる。
【0046】
ステップST15において、認識結果補正部61は、番号割当て認識結果72において連続する番号列を連続数が長い順に取り出す。認識結果補正部61が番号割当て認識結果72から連続性を考慮した番号列を選択すると、「1,2」、「4」、「9,10,11,12」、「6」、「2」がそれぞれ選択される。認識結果補正部61はこれら番号列の中から連続数が最も長い「9,10,11,12」を先ず取得する。このとき、「6」は「12」と同じ位置のサブワードであるため、以降の取得候補から除外される。次に、認識結果補正部61は「9」〜「12」を含まない番号列として2番目に長い「1,2」を取得する。このとき、番号列「4」および「2」が残っているが、「2」は既に取得されているので、認識結果候補61は「4」を取得する。
このようにステップST15では、番号割当て認識結果72から、二重四角枠で示す番号列「9,10,11,12」、「1,2」、「4」が取得される。
【0047】
ステップST16において、認識結果補正部61は連続番号のサブワード列と番号付け検索結果71の単語との対応付けを長い番号列の順に評価し、補正認識結果73を作成する。
1番目に、認識結果補正部61は最長の番号列「9,10,11,12」が割り当てられたサブワード列に対して、同一番号が付けられた番号付け検索結果71の単語「ムツアイ|テン」を対応付けて比較する。そして、認識結果補正部61が、番号割当て認識結果72の「ブツアイ」の「ブ」を「ム」に、「テル」の「ル」を「ン」に補正する。
2番目に、認識結果補正部61は番号列「1,2」が割り当てられたサブワード列に対して、同一番号が付けられた番号付け検索結果71の単語「マルキョードー」を対応付けて比較する。さらに、認識結果補正部61は、単語「マルキョードー」の部分サブワードに一致する番号割当て認識結果72の「ドー=4」も、単語「マルキョードー」に対応付けられるものと判断する。その結果、認識結果補正部61は、番号割当て認識結果72の「マルキュードー」の「キュー」を「キョー」に補正する。このように、認識結果補正部61は、番号割当て認識結果72の連続番号のサブワード列を含む単語を、同一番号が付けられた番号付け検索結果71の単語に置き換える補正を行う。
なお、番号付け検索結果71に含まれる単語「ショテン」は、番号割当て認識結果72に同一番号のサブワードが存在しない。
【0048】
ステップST17において、認識結果補正部61は、番号割当て認識結果72のうち、番号付け検索結果71に存在しないサブワード列は単語としての特定が困難なために、認識結果のサブワードのまま補正認識結果73に残す。なお、図13に示す例では、認識結果における全てのサブワードが検索結果の単語として特定されたので、認識結果補正部61はステップST205では処理を行わず、次の処理へ進む。
【0049】
検索結果データ格納部10に格納された全ての検索結果に対して、認識結果補正部61による認識結果の補正が行われると、続くステップST18およびステップST19において候補提示部12が検索結果および補正認識結果を提示する。ステップST18およびステップST19は、図7に示すステップST5およびステップST6と同様の処理であるため、説明は省略する。
【0050】
以上のように、実施の形態2によれば、音声認識装置1aは認識結果補正部61が検索結果と認識結果をサブワード単位に分割して照合し、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む単語に置き変えた補正認識結果を出力し、候補提示部12が検索結果およびそれに対応した補正認識結果を提示するように構成した。そのため、上記実施の形態1と同様に、検索結果と共に利用者が理解しやすい補正認識結果を提示することが可能となる。
【0051】
なお、上記実施の形態2の音声検索装置1aにおいて、認識結果補正部61が、音声認識の際に間違いやすいサブワードのペアと間違いやすさの情報とを予め所持する構成であってもよい。間違いやすいサブワードのペアとは、例えば「キョー」と「キュー」であり、このペアの間違いやすさの情報、即ち間違える可能性は0.2とする。
認識結果補正部61は、認識結果に番号を割り当てるステップST14(図7)において、間違いやすいサブワードが存在する場合に間違いやすさの情報に基づき重み付きで番号を付与し、サブワード列の連続性を重み付きで判断する。例えば、図13に示す番号割当て認識結果72の「キュー」に対して、認識結果補正部61が「キョー=3」と同一の番号「3」を割当て、重み「0.2」を付与する。
【0052】
また、上記実施の形態2の認識結果補正部61の補正方式は、処理が単純であると共に、サブワード列の連続性を重視したアルゴリズムであるため、上記実施の形態1の認識結果補正部11が作成した補正認識結果候補の各補正認識結果に対する後処理として適用することも可能である。即ち、認識結果補正部は、上記実施の形態1で説明したように、認識結果をネットワーク表現に通して照合し、認識結果に含まれる単語を検索結果の類似する単語に置き換えて補正認識結果を作成し、検索結果の順位付けを修正した後、上記実施の形態2で説明したように、検索結果と補正認識結果とをサブワード単位で照合して、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む形単語に置き換える補正を行う構成である。
この構成の場合には、音声認識装置は単語連鎖をより考慮した補正認識結果を作成することが可能となる。
【0053】
また、上記実施の形態1および実施の形態2では、日本語を対象にした音声検索装置を例に用いて説明したが、対象とする言語を限定するものではなく、他の言語においても単語より小さい単位である音素あるいは音素列等を単位に用いて音声検索装置を構成することが可能である。
【図面の簡単な説明】
【0054】
【図1】この発明の実施の形態1に係る音声検索装置の構成を示すブロック図である。
【図2】この発明の実施の形態1に係る音声検索装置で用いられる隠れマルコフモデルの構造を示す説明図である。
【図3】この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。
【図4】この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。
【図5】この発明の実施の形態1に係る音声検索装置の検索用データベースの1例を示す説明図である。
【図6】この発明の実施の形態1に係る音声検索装置の検索結果の1例を示す説明図である。
【図7】この発明の実施の形態1に係る音声検索装置の動作を示すフローチャートである。
【図8】この発明の実施の形態1に係る音声検索装置の認識結果補正部が作成するネットワーク構造図の1例を示す説明図である。
【図9】この発明の実施の形態1に係る音声検索装置の認識結果補正部が作成する補正認識結果候補の1例を示す説明図である。
【図10】この発明の実施の形態1に係る音声検索装置の候補提示部の提示例を示す説明図である。
【図11】この発明の実施の形態2に係る音声検索装置の構成を示すブロック図である。
【図12】この発明の実施の形態2に係る音声検索装置の動作を示すフローチャートである。
【図13】この発明の実施の形態2に係る音声検索装置の認識結果補正部による補正処理を説明する説明図である。
【符号の説明】
【0055】
1,1a 音声検索装置、2 音響標準パタンデータベース、3 認識用単語辞書、4 音声認識部、5 音声分析部、6 照合部、7 探索部、8 検索用データベース、9 データベース検索部、10 検索結果データ格納部、11 認識結果補正部、12 候補提示部、21 状態、22 自己回帰アーク、31 単語、32,33 あいまいネットワーク、34 フィラー要素、41 補正認識結果候補、51 表示画面、52 認識結果表示枠、53 検索結果のリスト、61 認識結果補正部、71 番号付き検索結果、72 番号割当て認識結果、73 補正認識結果。
【技術分野】
【0001】
この発明は、音声認識の結果に基づき検索されたあいまい性を含む検索結果を提示する音声検索装置および音声検索方法に関するものである。
【背景技術】
【0002】
音声による入力は、キーボードまたはタッチパネルによる入力と比べて初心者でも素早い入力が可能であり、他のタスクで目または手が塞がっている場合でも入力実行が可能であるという利点がある。近年では、大語彙連続音声認識とデータベース検索とを組み合わせて、音声による全文検索および名称検索が検討されている。このとき、音声認識には認識可能な語彙の制限があること、および音声認識結果には認識誤りが含まれることを考慮する必要がある。
【0003】
このための具体的な方策として、例えば特許文献1では、音声認識用辞書に未登録の未知語を考慮した音声認識を行うために、単語より短く、かつ少ない種類数で表されるサブワード(音節)と単語とを併用した言語モデルによって音声認識を行う検索装置が開示されている。この検索装置は、先ずユーザ発話中で単語として認識された部分のみを用いて検索対象文書を初期検索して検索結果を取得し、次にユーザ発話中で単語として認識されなかった部分である未知語を補間するために、検索結果中のキーワードからサブワードの連鎖(音節列)に一致または類似するキーワードを決定する。そして、未知語が補間されたキーワードを用いて再度検索対象文書を検索することにより、検索精度の向上を図っていた。
【0004】
【特許文献1】特開2003−271629号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
従来の音声検索装置および音声検索方法は以上のように構成されているので、語彙制限および誤認識による音声認識のあいまい性を考慮して、音声による文書検索の精度を向上させることが可能となっている。特許文献1に開示の検索装置の場合、限定された単語と音節を用いて音声認識を行い、認識された単語を使って文書を検索し、検索結果に含まれる音節列と検索結果中のキーワードとのマッチングを行う。ユーザ発話が文書であれば、キーワードを用いた検索対象文書の検索により、ある程度の精度の文書検索結果を取得できる可能性が高い。
しかしながら、ユーザ発話が大規模施設名等の施設名の場合には、検索結果中にキーワードが含まれなかったり、類似したキーワードと誤認識したりすることにより音声認識が失敗することがあり、所望の施設名を検索できないという課題があった。
【0006】
この発明は、上記のような課題を解決するためになされたもので、音声認識によるあいまい性を考慮した検索を行い、その検索結果の情報を利用して音声認識結果の正当性を検証して補正することにより、認識精度の向上を図ると共に、利用者への認識結果提示において、利用者が理解しやすい認識結果を提示することを目的とする。
【課題を解決するための手段】
【0007】
この発明に係る音声検索装置は、入力された音声に応じた単語列を認識結果として出力する音声認識部と、認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索部と、検索結果に基づいて認識結果を補正する認識結果補正部と、検索結果および認識結果補正部で補正した認識結果のうちの少なくとも一方を提示する候補提示部とを備えるようにしたものである。
【発明の効果】
【0008】
この発明によれば、入力された音声に応じた単語列を認識結果とし、認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果とし、検索結果に基づいて認識結果を補正して、検索結果および補正した認識結果のうちの少なくとも一方を提示するようにしたので、音声認識精度の向上を図ると共に、利用者が理解しやすい認識結果を提示することができる。
【発明を実施するための最良の形態】
【0009】
実施の形態1.
図1は、この発明の実施の形態1に係る音声検索装置の構成を示すブロック図である。図1に示す音声検索装置1は、音声認識に用いる音声の最小単位毎の音響特徴量を格納する音響標準パタンデータベース2、単語定義辞書および単語接続辞書からなる認識用単語辞書3、入力音声に対して音声分析処理、照合処理および探索処理からなる音声認識を行う音声認識部4、認識結果を用いて検索用データベース8を参照し検索結果を取得するデータベース検索部9、検索結果をリストにして格納する検索結果データ格納部10、検索結果データ格納部10の検索結果を用いて認識結果の補正を行う認識結果補正部11、検索結果および補正した認識結果を提示する候補提示部12を備える。
【0010】
この音声検索装置1は、特に大規模施設名検索のように短い単語列でありながら、省略された表現が一般的に許される検索対象を入力音声に用いて検索を行う検索装置に関するものであり、データベース検索部9において単語より小さい単位である音素等のサブワードの集合を検索キーに用いて検索用データベース8を検索する。音声認識装置1は従来の音声検索装置と異なり、サブワード単位の区切りを利用するデータベース検索部9、認識結果補正部11および候補提示部12を備え、データベース検索部9において、単語より小さいサブワードの集合を検索キーとして検索用データベース8を検索し、認識結果補正部11において、求まった検索結果と音声認識の認識結果との照合を行い、照合された補正認識結果候補をもとに検索結果の順位付けを補正して、候補提示部12において利用者に提示する。
【0011】
図1に示す音響標準パタンデータベース2は、音素等の音声認識の最小単位毎に、スペクトルと時間的な特徴とからなる音響パタンを格納する。図2は、この発明の実施の形態1に係る音声検索装置で用いられる隠れマルコフモデル(Hidden Markov Model;HMM)の構造を示す説明図であり、隠れマルコフモデルのトポロジーの例を示す。音響標準パタンとして、例えば図2に示すように、音素を単位とする3状態が時系列に並んだ隠れマルコフモデルを用いる。各状態21はそれぞれ自己回帰アーク22を有し、かつ後戻りアークを有さない。各状態に対応する音響特徴量は、共分散を保持する8混合ガウス分布により表される。音響標準パタンのパラメータは、予め多数の話者の学習用音声データから推定しておく。
【0012】
認識用単語辞書3は、認識対象である入力音声を音響標準パタンの組み合わせで記述するために用いられる辞書である。具体的には、音響標準パタンに認識対象の言語的な出力対象と制約を記述した単語定義辞書と、単語間のつながりを記述した単語接続辞書からなる。
大規模施設名の検索を対象とした場合、音声検索装置1が全ての単語を認識用単語辞書3に登録して処理することは、メモリおよび処理速度の観点から現実的ではない。そのため、音声検索装置1は、典型的な単語とその他の形態素をサブワードのまま表現した認識用単語辞書3を使用するものとする。図3は、この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。図3に示すサブワードおよび単語定義辞書の例において、単語またはサブワードと音響標準パタンの連鎖とが対になっている。
また、図4は、この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。図4に示す単語接続辞書の例において、3つの単語またはサブワードの連鎖(トライグラム)の組み合わせと連鎖する確率とが対になっている。
【0013】
図1に示す音声認識部4は、音声分析処理を行う音声分析部5、照合処理を行う照合部6、探索処理を行う探索部7を有し、入力された音声を音響標準パタンデータベース2および認識用単語辞書3と照合し、照合の度合いを表すスコアが高い単語の組み合わせを認識結果として出力する。
【0014】
音声分析部5は、入力音声を音声認識に好適な音響特徴量へ変換する。音響特徴量の算出方法として、例えば音声分析部5は入力音声を標本化周期16kHz・16ビットでA/D変換し、時間フレーム10ms間隔で256点フーリエ変換を行ってパワースペクトルを求め、振幅軸および周波数軸をそれぞれ対数化した後で逆フーリエ変換を行う。このように算出した12次元のメルケプストラムと、その時間方向の1次回帰係数12次元の合計24次元を音響特徴量として用いる。
【0015】
照合部6は、音声分析部5で算出した音響特徴量と音響標準パタンデータベース2に格納されている音響標準パタンとを照合し、照合度合いを表すスコアを算出する。
探索部7は、認識用単語辞書3の単語またはサブワードと音響標準パタンとの対応付け、ならびに単語またはサブワードの組み合わせを参照し、入力音声の単語の接続関係に基づき音声全体に対する累積スコアが高くなる認識候補を探索し、認識結果の単語列を出力する。なお、探索部7は、スコアが高い上位の複数候補を認識結果として出力してもよく、またはスコアと共に認識結果を出力してもよい。
【0016】
なお、音声認識部4による音声認識の詳細な方法については、「音声認識の基礎(上)(下)、Lawrence Rabiner、 Biing−Hwang Juang共著、古井貞煕監訳、NTTアドバンステクノロジ株式会社」に説明されている。
【0017】
検索用データベース8は、施設名称等の検索対象の単語列を格納する。図5は、この発明の実施の形態1に係る音声検索装置の検索用データベースの1例を示す説明図である。検索用データベース8は、図5の例に示すように、少なくとも施設名称と単語に分割された読み情報とを有する。
検索用データベース8は、通常、予め作成された検索用の索引を備え、検索を効率化する。なお、データベースからの情報検索方法および索引作成方法については、「情報検索アルゴリズム、北研二、津田和彦、獅子堀正幹共著、共立出版株式会社」に説明されている。本実施の形態では、検索用データベース8には予めサブワードに区切られた索引が作成してあり、データベース検索部9が任意のサブワードに対して検索可能な構成となっている。
【0018】
データベース検索部9は、検索用データベース8を参照し、音声認識部4が出力した認識結果に対応した検索結果を取得する。音声認識のあいまい性を考慮する方法として、データベース検索部9は認識結果の全てのサブワードを検索キーとして検索用データベース8を検索し、候補となる施設名称を取得する。さらにデータベース検索部9は検索に用いた全てのサブワードと候補となる施設名称に含まれるサブワードとを比較し、一致するサブワード数をもとに検索結果をスコアリングする。
【0019】
図6は、この発明の実施の形態1に係る音声検索装置の検索結果の1例を示す説明図である。データベース検索部9は、図6に示すような施設名称、読み情報および検索スコアを含む検索結果を検索結果データ格納部10および認識結果補正部11へ出力する。なお、検索結果に含まれるIDは、施設名称を識別する目的で付与されており、音声認識装置1の一連の処理を通して不変とする。
検索結果データ格納部10は、データベース検索部9が出力した検索結果をリストにして格納する。
【0020】
認識結果補正部11は検索結果データ格納部10を参照して検索結果のリストと音声認識部4で取得した認識結果とを照合し、認識結果に含まれる単語の補正を行い、補正認識結果を候補提示部12へ出力する。認識結果補正部11はさらに、補正認識結果に基づいて検索結果データ格納部10に格納されている検索結果の検索スコアを補正することにより、検索結果リストの順位付け補正を行う。
【0021】
候補提示部12は、検索結果データ格納部10に格納された検索結果の所定の順位のデータを利用者に提示すると共に、認識結果を補正した補正認識結果も同時に提示する。提示の方法として、例えば候補提示部12はモニタ画面等を備え、画面上に検索結果および補正認識結果を表示する。
【0022】
次に、音声検索装置1の動作を説明する。図7は、この発明の実施の形態1に係る音声検索装置の動作を示すフローチャートである。ここでは、施設名称の検索を例にとり、音声認識結果とデータベース検索結果に基づく認識精度向上、および利用者への認識結果提示内容の生成方法について説明する。説明を単純にするために、利用者は「マルキョードームツアイテン」と発声し、施設名を検索することを意図しているものとする。
また、図1に示す検索用データベース8には予めサブワードに区切られた索引が作成されており、データベース検索部9による任意のサブワード検索が可能であるものとする。
【0023】
図7に示すステップST1において、先ず音声認識部4は入力された音声を認識して、データベース検索部9への入力となる認識結果を出力する。ここでは、「マルキョードームツアイテン」という入力音声に対して、音声認識部4により「マルキュードーブツアイテル」という認識結果が取得され出力される。
【0024】
ステップST2において、データベース検索部9は、検索用データベース8を参照して検索結果を出力し、検索結果データ格納部10に格納させる。
データベース検索部9は、認識結果として取得された「マルキュードーブツアイテル」をサブワード「マ」、「ル」、「キュー」、「ドー」、「ブ」、「ツ」、「ア」、「イ」、「テ」、「ル」に分解する。次に、データベース検索部9は各サブワードを検索キーに用いて、図5に示す検索対象データが蓄積された検索用データベース8を検索する。具体的な検索手法としては、例えば文書検索方式として利用されるベクトル空間モデルを使った検索手法において、検索に用いられる単語の代わりに、サブワードを用いて検索を行う手法が考えられる。
データベース検索部9により「マルキュードーブツアイテル」をキーとして図5に示す検索用データベース8を検索した結果、図6に示す施設名称の検索結果が取得され、検索スコアが付与されることとする。データベース検索部9は、これらの検索結果のうち、上位N(ここではN=4とする)件のID=8,1,9,10の施設名称を検索結果として出力する。
【0025】
ステップST3において、認識結果補正部11は先ず上位N件の検索結果からネットワーク表現を作成する。図8は、この発明の実施の形態1に係る音声検索装置の認識結果補正部が作成するネットワーク構造図の1例を示す説明図である。このネットワーク表現とは、検索結果ID=8,1,9,10の施設名称毎に含まれる単語(読み情報の「|」で区切られた単位)の言い換え表現を受理するネットワークである。このネットワークの特徴は、各単語31に対して、予め間違いやすいサブワードへの可能性を展開した構造であるあいまいネットワーク32,33を生成すること、および任意のサブワードを通過させるフィラー要素34を生成することにある。
ここでは、全ての単語を任意の順番で接続可能なネットワークとしたが、言語制約を考慮して適当に変形してもよい。また、各単語を接続するアークにスコアを付与してもよい。
【0026】
ステップST4において、認識結果補正部11は、音声認識部4の認識結果「マルキュードーブツアイテル」をネットワーク表現に通して照合し、補正認識結果候補を作成する。
図9は、この発明の実施の形態1に係る音声検索装置の認識結果補正部が作成する補正認識結果候補の1例を示す説明図である。図9に示す補正認識結果候補41は、各候補を「|」によって単語単位に分割したデータとして作成される。また、ネットワーク表現を構成する各単語と一致せず、フィラー要素を通過した部分は、「(」および「)」で囲まれた疑似単語とする。
例えば、図9に示す補正認識結果候補41のうちの「マルキュードー|(ブツア)|ショテン」は、認識結果「マルキュードーブツアイテル」に含まれる「マルキュードー」がネットワーク表現を構成する単語「マルキュードー」のあいまいネットワークを通過し、認識結果「ブツア」がフィラー要素を3回通過し、認識結果「イテル」が単語「ショテン」のあいまいネットワークを通過して作成されている。
【0027】
各補正認識結果候補には補正スコアが付与され、認識結果「マルキュードーブツアイテル」と各補正認識結果候補との類似性を表している。補正スコアは、認識結果補正部11が認識結果と補正認識結果候補とのサブワードの類似性をもとに一致度が高いほど評価が高くなるスコアリングを行い、さらに、補正認識結果候補に含まれるフィラー要素を通過したサブワードの割合が大きい場合に、より評価を下げるスコアリングを行ったものである。
【0028】
続いて、認識結果補正部11は補正認識結果候補と検索結果データ格納部10に格納された検索結果とを比較し、検索結果のリストに含まれる検索スコアの補正を行う。
例えば、認識結果補正部11は、検索結果の単語数と比較した補正認識結果候補の単語の不足数および過剰数、ならびに補正認識結果候補の補正スコアをもとに、下記式に従い検索スコアを補正する。
補正検索スコア=検索スコア×{1−(不足数/検索結果単語数)×α
−(過剰数/検索結果単語数)×β
−(1−補正スコア)×γ}
【0029】
例えば(α,β,γ)=(0.05,0,20,0.03)とすれば、単語の不足をなるべく許容すると共に、過剰な発声を許容しにくくし、かつ、もとの認識結果からの隔たりもある程度考慮した補正が可能となる。
【0030】
実際に検索結果の検索スコアを補正し、補正検索スコアに従って補正認識結果候補から補正認識結果を選択すると以下のようになる。ここでは、補正スコアの上位M個(例えばM=5)について補正検索スコアをそれぞれ算出し、M個のうち、補正検索スコアが最大となった補正認識結果候補を選択する。検索結果ID=1の「マルキョードー|ショテン|ムツアイ|テン」に対しては、補正認識結果候補41のうち、「マルキョードー|ムツアイ|テン」が補正検索スコア0.828で最適な補正認識結果として選択される。また、ID=8の「マルキュードー」に対しては、「マルキュードー|(ブツアイテル)」が補正検索スコア0.668で選択される。さらに、ID=9の「マルキュードー|ショテン」に対しては、「マルキュードー|(ブツア)|ショテン」が補正検索スコア0.731で選択される。また、ID=10の「マルキュードー|チリョーイン」に対しては、「マルキュードー|(ブツアイテル)」が補正検索スコア0.708で選択される。
【0031】
このようにして、認識結果補正部11が検索結果データ格納部10に格納された検索スコアを補正し、補正検索スコアに従って上位Nの検索結果をID=1,9,10,8の順番に再スコアリングする。
【0032】
ステップST5において、候補提示部12が不図示の画面上に検索結果を表示する。このとき、候補提示部12は検索結果を補正検索スコア順に提示すると共に、各検索結果に対して選択された補正認識結果も提示する。
【0033】
図10は、この発明の実施の形態1に係る音声検索装置の候補提示部の提示例を示す説明図である。図10に示す表示画面51において、検索結果データ格納部10に格納された検索結果のリスト53が、補正検索スコアに基づいた順番で提示される。また、選択中の検索結果に対応した補正認識結果も提示される。
検索結果のリスト53の先頭には、補正検索スコアが最も高い「○教堂書店六会店」が表示されている。認識結果表示枠52には、選択中の「○教堂書店六会店」に対応する補正認識結果「マルキョードームツアイテン」が表示されている。
なお、利用者が発話していない「ショテン」については、認識結果に含まれず、利用者の理解しやすい認識結果52が提示される。
【0034】
利用者が候補提示部12の提示する表示画面51の検索結果のリスト53の選択を移動して、「○久堂書店」を選択状態にした場合、ステップST6において候補提示部12は表示画面51を表示画面54に遷移する。表示画面54において、検索結果のリスト56の「○久堂書店」が選択状態となり、認識結果表示枠55も選択項目にマッチするように表示変更され、「マルキュードー(ブツア)ショテン」となる。「(」および「)」で囲まれた部分は、検索結果に該当する部分が存在せず、システムとして不明な認識結果が含まれていることを示している。
【0035】
このように、実施の形態1によれば、音声認識装置1は、入力された音声に応じた施設名称を認識結果として出力する音声認識部4と、認識結果をサブワード単位に分割したキーを用いて、単語より小さい単位のサブワードに区切られた索引を含む施設名称を格納した検索用データベース8を検索して、類似性の高い施設名を検索結果として出力するデータベース検索部9と、検索結果に含まれる単語を構成要素としたネットワーク表現を用いて認識結果を照合して、認識結果を補正した補正認識結果を出力する認識結果補正部11と、検索結果およびそれに対応した補正認識結果を提示する候補提示部12とを備えるように構成した。そのため、音声認識部4の音声認識のあいまい性を考慮した検索を行い、その検索結果を利用して音声認識結果の正当性を検証して補正することができ、入力音声認識精度の向上を図ると共に、利用者が理解しやすい認識結果を提示することが可能となる。
【0036】
また、実施の形態1によれば、音声認識装置1は認識結果補正部11が認識結果との類似性に基づいて順位付けを行った検索結果のうちの上位N件について、補正認識結果をもとに順位付けを補正し、候補提示部12が補正した順位に応じて検索結果を提示する。そのため、より利用者が希望する認識結果を得られる可能性が高くなると共に、補正認識結果も検索結果に即した内容になり、利用者の発声を音声検索装置がどう認識したかを利用者に分かりやすく提示することが可能となる。
【0037】
さらに、候補提示部12が提示する補正認識結果は、検索結果に基づき補正されたものとなるので、最初の発声が検索対象である施設名称を特定するのに十分な発声内容でなかった場合でも、認識結果を流用して、さらにキーワードを追加発声することで絞込検索を実装するインタフェースが容易に構築できる。
【0038】
なお、上記実施の形態1では、候補提示部12が検索結果と補正された認識結果を同時に提示するように構成したが、どちらか一方のみ提示するように構成してもよい。
【0039】
また、上記実施の形態1では、単語の区切りを検索用データベース8の読み情報に予め登録しておく構成としてが、認識結果取得時にデータベース検索部9が必要に応じて単語を自動分割するように構成してもよい。
また、検索用データベース8の読み情報の単語の区切りに複数の候補がある場合には、複数の候補を併記しておき、データベース検索部9が認識結果と照合するように構成してもよい。
【0040】
また、上記実施の形態1では、認識結果補正部11が上位N件の検索結果を全て含むネットワーク表現を作成するように構成したが、検索結果1件毎にネットワーク表現を作成して、補正認識結果候補および補正スコアを求めるように構成してもよい。
【0041】
また、上記実施の形態1では、認識結果補正部11がネットワーク表現の構成要素を単語単位で作成する構成としたが、構成要素を形態素単位で作成する構成としてもよい。
【0042】
実施の形態2.
図11は、この発明の実施の形態2に係る音声検索装置の構成を示すブロック図である。本実施の形態2に係る音声検索装置1aは、上記実施の形態1の認識結果補正部11を、処理が単純なために軽量で、かつサブワード列の連続性に着目した認識結果の補正を行う認識結果補正部61に置き換えた構成である。認識結果補正部61以外の構成は上記実施の形態1の音声検索装置1と同一の構成であるため、詳細な説明は省略する。
認識結果補正部61は、サブワード単位に分割された検索結果と認識結果とを、サブワード単位で照合して、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む単語に置き換える補正を行う。
【0043】
次に、音声検索装置1aの動作を説明する。図12は、この発明の実施の形態2に係る音声検索装置の動作を示すフローチャートである。上記実施の形態1同様に、利用者は「マルキョードームツアイテン」と発声し、施設名を検索することを意図しているものとする。
【0044】
図12に示すステップST11およびステップST12は図7に示すステップST1およびステップST2と同様の処理であり、音声検索装置1aの検索結果データ格納部10には図6に示す検索結果が格納される。
続くステップST13において、認識結果補正部61は、検索結果データ格納部10の検索結果を1つずつ取り出して、サブワードに連番を振る。ここでは、認識結果補正部61が検索結果としてID=1の「マルキョードーショテンムツアイテン」を取得し、認識結果とのマッチングを行う場合を考える。
図13は、この発明の実施の形態2に係る音声検索装置の認識結果補正部による補正処理を説明する説明図である。認識結果補正部61は、検索結果データ格納部10から取り出した検索結果を音素、音節等のサブワード単位、「マ」、「ル」、「キョー」、「ドー」、「ショ」、「テ」、「ン」、「ム」、「ツ」、「ア」、「イ」、「テ」、「ン」に分割し、先頭から順番に連番を振り、番号付き検索結果71とする。
【0045】
ステップST14において、認識結果補正部61は、認識結果「マルキュードーブツアイテル」の各サブワードに対して、番号付き検索結果71と同一のサブワードに同一の番号を割り当てて、番号割当て認識結果72とする。番号割当て認識結果72のサブワード「マ」は、番号付き検索結果71の「マ=1」と同一のサブワードであるため、認識結果補正部61によって「1」が割り当てられる。また、番号割当て認識結果72のサブワード「キュー」は、相当するサブワードが番号付き検索結果71には存在しないので、番号は割り当てられない。さらに、番号割当て認識結果72のサブワード「テ」は、番号付き検索結果71の「テ=6」および「テ=12」の2箇所のサブワードと同一であるため、認識結果補正部61によって「6」および「12」の2つの番号が割り当てられる。
【0046】
ステップST15において、認識結果補正部61は、番号割当て認識結果72において連続する番号列を連続数が長い順に取り出す。認識結果補正部61が番号割当て認識結果72から連続性を考慮した番号列を選択すると、「1,2」、「4」、「9,10,11,12」、「6」、「2」がそれぞれ選択される。認識結果補正部61はこれら番号列の中から連続数が最も長い「9,10,11,12」を先ず取得する。このとき、「6」は「12」と同じ位置のサブワードであるため、以降の取得候補から除外される。次に、認識結果補正部61は「9」〜「12」を含まない番号列として2番目に長い「1,2」を取得する。このとき、番号列「4」および「2」が残っているが、「2」は既に取得されているので、認識結果候補61は「4」を取得する。
このようにステップST15では、番号割当て認識結果72から、二重四角枠で示す番号列「9,10,11,12」、「1,2」、「4」が取得される。
【0047】
ステップST16において、認識結果補正部61は連続番号のサブワード列と番号付け検索結果71の単語との対応付けを長い番号列の順に評価し、補正認識結果73を作成する。
1番目に、認識結果補正部61は最長の番号列「9,10,11,12」が割り当てられたサブワード列に対して、同一番号が付けられた番号付け検索結果71の単語「ムツアイ|テン」を対応付けて比較する。そして、認識結果補正部61が、番号割当て認識結果72の「ブツアイ」の「ブ」を「ム」に、「テル」の「ル」を「ン」に補正する。
2番目に、認識結果補正部61は番号列「1,2」が割り当てられたサブワード列に対して、同一番号が付けられた番号付け検索結果71の単語「マルキョードー」を対応付けて比較する。さらに、認識結果補正部61は、単語「マルキョードー」の部分サブワードに一致する番号割当て認識結果72の「ドー=4」も、単語「マルキョードー」に対応付けられるものと判断する。その結果、認識結果補正部61は、番号割当て認識結果72の「マルキュードー」の「キュー」を「キョー」に補正する。このように、認識結果補正部61は、番号割当て認識結果72の連続番号のサブワード列を含む単語を、同一番号が付けられた番号付け検索結果71の単語に置き換える補正を行う。
なお、番号付け検索結果71に含まれる単語「ショテン」は、番号割当て認識結果72に同一番号のサブワードが存在しない。
【0048】
ステップST17において、認識結果補正部61は、番号割当て認識結果72のうち、番号付け検索結果71に存在しないサブワード列は単語としての特定が困難なために、認識結果のサブワードのまま補正認識結果73に残す。なお、図13に示す例では、認識結果における全てのサブワードが検索結果の単語として特定されたので、認識結果補正部61はステップST205では処理を行わず、次の処理へ進む。
【0049】
検索結果データ格納部10に格納された全ての検索結果に対して、認識結果補正部61による認識結果の補正が行われると、続くステップST18およびステップST19において候補提示部12が検索結果および補正認識結果を提示する。ステップST18およびステップST19は、図7に示すステップST5およびステップST6と同様の処理であるため、説明は省略する。
【0050】
以上のように、実施の形態2によれば、音声認識装置1aは認識結果補正部61が検索結果と認識結果をサブワード単位に分割して照合し、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む単語に置き変えた補正認識結果を出力し、候補提示部12が検索結果およびそれに対応した補正認識結果を提示するように構成した。そのため、上記実施の形態1と同様に、検索結果と共に利用者が理解しやすい補正認識結果を提示することが可能となる。
【0051】
なお、上記実施の形態2の音声検索装置1aにおいて、認識結果補正部61が、音声認識の際に間違いやすいサブワードのペアと間違いやすさの情報とを予め所持する構成であってもよい。間違いやすいサブワードのペアとは、例えば「キョー」と「キュー」であり、このペアの間違いやすさの情報、即ち間違える可能性は0.2とする。
認識結果補正部61は、認識結果に番号を割り当てるステップST14(図7)において、間違いやすいサブワードが存在する場合に間違いやすさの情報に基づき重み付きで番号を付与し、サブワード列の連続性を重み付きで判断する。例えば、図13に示す番号割当て認識結果72の「キュー」に対して、認識結果補正部61が「キョー=3」と同一の番号「3」を割当て、重み「0.2」を付与する。
【0052】
また、上記実施の形態2の認識結果補正部61の補正方式は、処理が単純であると共に、サブワード列の連続性を重視したアルゴリズムであるため、上記実施の形態1の認識結果補正部11が作成した補正認識結果候補の各補正認識結果に対する後処理として適用することも可能である。即ち、認識結果補正部は、上記実施の形態1で説明したように、認識結果をネットワーク表現に通して照合し、認識結果に含まれる単語を検索結果の類似する単語に置き換えて補正認識結果を作成し、検索結果の順位付けを修正した後、上記実施の形態2で説明したように、検索結果と補正認識結果とをサブワード単位で照合して、認識結果のうちの検索結果と一致するサブワード列を含む単語を、検索結果のサブワード列を含む形単語に置き換える補正を行う構成である。
この構成の場合には、音声認識装置は単語連鎖をより考慮した補正認識結果を作成することが可能となる。
【0053】
また、上記実施の形態1および実施の形態2では、日本語を対象にした音声検索装置を例に用いて説明したが、対象とする言語を限定するものではなく、他の言語においても単語より小さい単位である音素あるいは音素列等を単位に用いて音声検索装置を構成することが可能である。
【図面の簡単な説明】
【0054】
【図1】この発明の実施の形態1に係る音声検索装置の構成を示すブロック図である。
【図2】この発明の実施の形態1に係る音声検索装置で用いられる隠れマルコフモデルの構造を示す説明図である。
【図3】この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。
【図4】この発明の実施の形態1に係る音声検索装置の認識用単語辞書の1例を示す説明図である。
【図5】この発明の実施の形態1に係る音声検索装置の検索用データベースの1例を示す説明図である。
【図6】この発明の実施の形態1に係る音声検索装置の検索結果の1例を示す説明図である。
【図7】この発明の実施の形態1に係る音声検索装置の動作を示すフローチャートである。
【図8】この発明の実施の形態1に係る音声検索装置の認識結果補正部が作成するネットワーク構造図の1例を示す説明図である。
【図9】この発明の実施の形態1に係る音声検索装置の認識結果補正部が作成する補正認識結果候補の1例を示す説明図である。
【図10】この発明の実施の形態1に係る音声検索装置の候補提示部の提示例を示す説明図である。
【図11】この発明の実施の形態2に係る音声検索装置の構成を示すブロック図である。
【図12】この発明の実施の形態2に係る音声検索装置の動作を示すフローチャートである。
【図13】この発明の実施の形態2に係る音声検索装置の認識結果補正部による補正処理を説明する説明図である。
【符号の説明】
【0055】
1,1a 音声検索装置、2 音響標準パタンデータベース、3 認識用単語辞書、4 音声認識部、5 音声分析部、6 照合部、7 探索部、8 検索用データベース、9 データベース検索部、10 検索結果データ格納部、11 認識結果補正部、12 候補提示部、21 状態、22 自己回帰アーク、31 単語、32,33 あいまいネットワーク、34 フィラー要素、41 補正認識結果候補、51 表示画面、52 認識結果表示枠、53 検索結果のリスト、61 認識結果補正部、71 番号付き検索結果、72 番号割当て認識結果、73 補正認識結果。
【特許請求の範囲】
【請求項1】
入力された音声に応じた単語列を認識結果として出力する音声認識部と、
前記認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、前記サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索部と、
前記検索結果に基づいて前記認識結果を補正する認識結果補正部と、
前記検索結果および前記認識結果補正部で補正した前記認識結果のうちの少なくとも一方を提示する候補提示部とを備えた音声検索装置。
【請求項2】
認識結果補正部は、サブワード単位に分割された検索結果と認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記検索結果の類似する単語に置き換える補正を行うことを特徴とする請求項1記載の音声検索装置。
【請求項3】
検索部は、複数の検索結果を出力し、
認識結果補正部は、認識結果と各検索結果とのサブワード一致数に応じた検索スコアを算出して前記複数の検索結果に順位を付与し、前記複数の検索結果のうちの上位所定数の検索結果について、サブワード単位に分割された前記上位所定数の検索結果と前記認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記上位所定数の検索結果の類似する単語に置き換える補正を行うと共に、補正した前記認識結果を用いて前記各検索結果の検索スコアを算出し直し、前記複数の検索結果の順位を修正し、
候補提示部は、前記複数の検索結果を前記認識結果補正部で付与された順位に従って提示することを特徴とする請求項1または2記載の音声検索装置。
【請求項4】
認識結果補正部は、サブワード単位に分割された検索結果と認識結果とをサブワード単位で照合して、前記認識結果のうちの前記検索結果と一致するサブワード列を含む単語を、前記検索結果の前記サブワード列を含む単語に置き換える補正を行うことを特徴とする請求項1記載の音声検索装置。
【請求項5】
検索部は、複数の検索結果を出力し、
認識結果補正部は、認識結果と各検索結果とのサブワード一致数に応じた検索スコアを算出して前記複数の検索結果に順位を付与し、前記複数の検索結果のうちの上位所定数の検索結果について、サブワード単位に分割された前記上位所定数の検索結果と前記認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記上位所定数の検索結果の類似する単語に置き換える補正を行うと共に、補正した前記認識結果を用いて前記各検索結果の検索スコアを算出し直して前記複数の検索結果の順位を修正し、さらに、前記各検索結果と補正した前記認識結果とをサブワード単位で照合して、前記認識結果のうちの前記検索結果と一致するサブワード列を含む単語を、前記各検索結果の前記サブワード列を含む単語に置き換える補正を行うことを特徴とする請求項1記載の音声検索装置。
【請求項6】
入力された音声に応じた単語列を認識結果として出力する音声認識ステップと、
前記認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、前記サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索ステップと、
前記検索結果に基づいて前記認識結果を補正する認識結果補正ステップと、
前記検索結果および前記認識結果補正ステップで補正した前記認識結果のうちの少なくとも一方を提示する候補提示ステップとを備えた音声検索方法。
【請求項1】
入力された音声に応じた単語列を認識結果として出力する音声認識部と、
前記認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、前記サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索部と、
前記検索結果に基づいて前記認識結果を補正する認識結果補正部と、
前記検索結果および前記認識結果補正部で補正した前記認識結果のうちの少なくとも一方を提示する候補提示部とを備えた音声検索装置。
【請求項2】
認識結果補正部は、サブワード単位に分割された検索結果と認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記検索結果の類似する単語に置き換える補正を行うことを特徴とする請求項1記載の音声検索装置。
【請求項3】
検索部は、複数の検索結果を出力し、
認識結果補正部は、認識結果と各検索結果とのサブワード一致数に応じた検索スコアを算出して前記複数の検索結果に順位を付与し、前記複数の検索結果のうちの上位所定数の検索結果について、サブワード単位に分割された前記上位所定数の検索結果と前記認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記上位所定数の検索結果の類似する単語に置き換える補正を行うと共に、補正した前記認識結果を用いて前記各検索結果の検索スコアを算出し直し、前記複数の検索結果の順位を修正し、
候補提示部は、前記複数の検索結果を前記認識結果補正部で付与された順位に従って提示することを特徴とする請求項1または2記載の音声検索装置。
【請求項4】
認識結果補正部は、サブワード単位に分割された検索結果と認識結果とをサブワード単位で照合して、前記認識結果のうちの前記検索結果と一致するサブワード列を含む単語を、前記検索結果の前記サブワード列を含む単語に置き換える補正を行うことを特徴とする請求項1記載の音声検索装置。
【請求項5】
検索部は、複数の検索結果を出力し、
認識結果補正部は、認識結果と各検索結果とのサブワード一致数に応じた検索スコアを算出して前記複数の検索結果に順位を付与し、前記複数の検索結果のうちの上位所定数の検索結果について、サブワード単位に分割された前記上位所定数の検索結果と前記認識結果とを単語単位で照合して、前記認識結果に含まれる単語を前記上位所定数の検索結果の類似する単語に置き換える補正を行うと共に、補正した前記認識結果を用いて前記各検索結果の検索スコアを算出し直して前記複数の検索結果の順位を修正し、さらに、前記各検索結果と補正した前記認識結果とをサブワード単位で照合して、前記認識結果のうちの前記検索結果と一致するサブワード列を含む単語を、前記各検索結果の前記サブワード列を含む単語に置き換える補正を行うことを特徴とする請求項1記載の音声検索装置。
【請求項6】
入力された音声に応じた単語列を認識結果として出力する音声認識ステップと、
前記認識結果を単語より小さい単位のサブワードに分割して検索キーに用い、前記サブワード単位に区切られた索引を含む検索対象文書を検索して検索結果を出力する検索ステップと、
前記検索結果に基づいて前記認識結果を補正する認識結果補正ステップと、
前記検索結果および前記認識結果補正ステップで補正した前記認識結果のうちの少なくとも一方を提示する候補提示ステップとを備えた音声検索方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2009−271117(P2009−271117A)
【公開日】平成21年11月19日(2009.11.19)
【国際特許分類】
【出願番号】特願2008−118815(P2008−118815)
【出願日】平成20年4月30日(2008.4.30)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】
【公開日】平成21年11月19日(2009.11.19)
【国際特許分類】
【出願日】平成20年4月30日(2008.4.30)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】
[ Back to top ]