音声対話装置
【課題】従来、大語彙検索用音声対話インタフェースは、検索精度の向上ためジャンルにより検索対象を絞るが、検索失敗時に対象外ジャンルの発声か、装置の誤認識かが不明、複数回操作で絞込む場合、絞込み用のジャンル名等検索対象分類数が多いと選択が困難であり、また言い方が多い場合に対応が困難であった。
【解決手段】入力音声を音声認識手段で音声認識し、音声認識結果によりジャンル推定辞書参照し、ジャンル推定手段で対応ジャンルを推定し、検索手段が音声認識結果と属性条件に基づき、検索データベースから検索候補を取得し、検索の候補とジャンル推定結果をユーザが選択可能な動作とともに提示手段が示し、上記検索手段は、検索の候補が目的外のときユーザが選択したジャンル属性に応じて検索対象の属性条件を変更して検索データベースから候補を再度検索する。
【解決手段】入力音声を音声認識手段で音声認識し、音声認識結果によりジャンル推定辞書参照し、ジャンル推定手段で対応ジャンルを推定し、検索手段が音声認識結果と属性条件に基づき、検索データベースから検索候補を取得し、検索の候補とジャンル推定結果をユーザが選択可能な動作とともに提示手段が示し、上記検索手段は、検索の候補が目的外のときユーザが選択したジャンル属性に応じて検索対象の属性条件を変更して検索データベースから候補を再度検索する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は音声を用いた検索における、検索対象外発話のリジェクトと、候補絞込みの技術に関するものである。
【背景技術】
【0002】
近年、カーナビゲーションシステムでは目的地入力のために施設名など大規模なデータベースを音声で検索するアプリケーションが実用化されている。しかし、検索対象施設が増加すると検索精度が低下する。このため、検索対象の施設数を限ってしまうか、先に施設のジャンル名を入力させて、施設をジャンル属性で絞ってから施設名称から検索するように段階的に行う方策がとられる。
【0003】
検索対象を限ってしまう場合、検索可能な施設については一度の入力で高精度かつダイレクトに検索できるため利便性が高い。しかし、検索対象の範囲がユーザに分かりにくい問題が生じる。特に、音声検索では誤認識の問題があり、応答から検索対象の範囲外であることが判別しにくい。また、仮に検索対象の範囲外であることが判明した場合であっても検索対象範囲外施設の検索達成に向けてどのような操作が可能であるか分からない。このような場合、ユーザは戸惑い、操作を中断したり、同じ発話を繰返し入力したり、検索達成に向けた対話が停滞してしまうことがあった。
【0004】
一方、ジャンル名を入力して段階的に検索を行う場合、全体としては多数の対象が検索可能である利点がある。しかし、目的達成までに要するやりとりの回数が増えて時間がかかることと、ジャンル名を適切に入力する必要があることが生じる。
【0005】
また、目的達成までの所要時間が増加すると、途中で操作を失敗することによる成功率の低下を考慮する必要がある。例えば、初回にジャンル名ではなく、検索対象の名称を発声するといった誤りが生じやすい。
さらに、ジャンル名の入力は、検索対象のデータベースのジャンル分類がユーザにとって自明でない場合、データベースが想定したジャンル語彙をユーザが発声しない場合や、異なるジャンルを選択してしまう問題がある。例えば「横浜市立横浜小学校」という施設について「公共施設」「教育施設」「市立小学校」「学校」「小学校」等のジャンルが考えられるが、検索するためには実際のデータベース上の分類に合わせる必要がある。ジャンルを提示して選択操作によってジャンルを入力する場合、想定したジャンル語彙以外が入力されることはなくなるが、ジャンル数が多い場合に著しく利便性が低下する問題がある。
【0006】
このような問題に対して、特開2001-109492号公報(特許文献1)では、まず全ての施設を対象とした認識を行い、誤認識した際の訂正操作においてユーザがジャンル名を入力し、ジャンルを限った辞書により再検索を行う方法を開示している。この場合、初回の発話に対する認識精度は低いものの認識成功した場合、ユーザは1発話のみで目的を達成できる。しかし、ジャンルを入力する必要があるという問題は解決されない。また、あらかじめ想定したジャンル名によってのみ絞り込むため、ジャンル名がわからない場合やジャンル名だけでは十分に絞れない場合に、例えば名称の一部などから絞り込むようなことができない。
【0007】
【特許文献1】特開2001-109492号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
従来、大語彙を対象とする検索のための音声対話インタフェースでは、一度で精度良く検索するための入力には検索対象を絞る必要がある。このような場合、検索失敗時にユーザは検索対象外のジャンルを発声したのか、装置の誤認識か戸惑う問題があった。
また、複数回の操作によって絞込みを行う場合、絞込みのためにジャンル名のような検索対象の分類を入力する必要があった。この方法は、ジャンル数が多くなると選択が困難であった。また、言い方の多様性が多い場合に対応が困難といった問題があった。
この発明は、このような従来の問題を解決するものであり、音声による大規模な検索において、より柔軟性の高い絞込み方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
この発明に係る音声対話装置は、
入力音声を音響辞書と言語辞書を参照して、音声認識する音声認識手段と
ジャンル推定辞書参照し、入力音声の認識結果に対応するジャンルを推定するジャンル推定手段と、
音声認識手段の音声認識結果と属性条件に基づき検索データベースを検索し、検索データベースから検索候補を取得する検索手段と、
取得した検索の候補と、ジャンル推定結果をユーザへ提示し、ユーザが選択可能な動作を示す提示手段を備え
検索手段は、提示手段により提示された検索の候補が目的外のときユーザが提示され、選択したジャンル属性に応じて検索対象の属性条件を変更して検索データベースから候補を再度検索する構成にされる。
【発明の効果】
【0010】
この発明の音声対話装置によれば、入力音声の音声認識結果による音声検索結果と同時にジャンル推定手段により推定された絞り込み候補ジャンルを提示する。通常、データベースの検索対象の数と比べてジャンル数は非常に少なく、ジャンル推定の精度は、検索の精度よりも高く絞り込みのための手がかりとして有用であり、推定されたジャンルが提示され、ユーザはこの提示されたジャンルを決定あるいは選択すれば、対象ジャンルで絞り込みを行え、ユーザ自身がジャンル名を発声したり、あるいは入力発話を考慮せずジャンルを提示する場合と比較して確実で素早くジャンルによる絞込みを行え操作性を改善できる。
【発明を実施するための最良の形態】
【0011】
実施の形態1.
図1は、この発明の実施の形態1に係る音声対話装置の構成を示すブロック図である。図1に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、ジャンル推定手段106、ジャンル推定辞書107、提示手段108、対話制御手段109からなる。以下、各機能ブロックの動作およびデータ内容を説明する。
【0012】
音声認識手段101は、対話制御手段109より指定された音響辞書102、言語辞書103を参照し、入力音声を認識して認識結果を出力する。認識結果は、認識の基本単位である単語で構成された単語列および単語単位で音響的、言語的な確からしさを表すスコアである。また、複数候補からなる認識結果へ拡張したものとして、上位N個の単語列、単語グラフなどの構造とすることができる。
【0013】
音響辞書102は、音素など音声認識の基本単位について音声特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した標準パタンである。典型的には隠れマルコフモデル(HMM)でモデル化される。音響辞書102は、例えば男性話者用、女性話者用など複数保持しても良く、認識中のスコアや対話制御手段109の指示に応じて切り替える。
【0014】
言語辞書103は、対象タスクの認識対象となる発話を音声認識の基本単位の組合せからなる単語と、単語のつながりを構文的あるいは統計的にモデル化したものからなる。単語は、例えば「音声」という単語を”o N s e e”という音響辞書102に含まれる基本単位で表す。また、単語の接続を典型的には単語N-gram言語モデルや文脈自由文法により記述する。
言語辞書103は、「はい」「いいえ」のみ受理する文脈自由文法型の言語辞書と、施設名の構成要素からなる単語N-gram言語モデルのように複数備えておき、切り替えて使用することもできる。
【0015】
ここで、音声認識の手順を簡単に示す。まず入力音声を適当な時間間隔で音声を良く表す特徴ベクトルへ変換する。次に、音響辞書102および言語辞書103を参照して、認識語彙のうち入力音声と照合の度合いが最も高い単語または単語系列を得る。例えば、音声を良く表す特徴ベクトルとして、10ms間隔で256点フーリエ変換および対数化と逆フーリエ変換により算出される12次元のメルケプストラムとその時間方向の1次回帰係数を用いる。音響辞書102は音素を単位として、入力音響特徴ベクトルを各状態が8混合ガウス分布、時系列を自己回帰アークあり、後戻りアーク無しの3状態の隠れマルコフモデルとしてモデル化する。また、言語辞書103は、形態素など日本語の構成単位(以下、単語と呼ぶ)について直前のN-1単語に対する条件付き単語出現確率の積でモデル化した、N-gram言語モデルを用いる。音響辞書102・言語辞書103は、事前に学習データによりパラメータを推定しておく。
【0016】
照合は、上記音響辞書102が認識辞書に示される組合せが入力音響特徴ベクトルを生成する尤度と、言語辞書103に基づく単語および単語間の接続確率を考慮し、ビタビアルゴリズムによって算出する。照合結果の認識結果には音響辞書102・言語辞書103との照合度合いを表す音声認識スコアが付与される。
照合時に複数の仮説を残しておくことで、最終的に複数の認識結果の候補を取得できる。複数候補を求める手法の詳細については、非特許文献2のp.663にある説明の通りである。複数の結果は複数の認識結果のリスト(Nベスト)、あるいは単語をエッジとしたグラフ表現で表されることが多い。
【0017】
図2は、入力音声「神奈川県の関内ホール」に対する1位認識結果、2位認識結果、単語グラフによる認識結果の例である。単語グラフに付与された値は、競合候補の有無に基づいて確信度を付与したものである。単語グラフは、8単語により8通りの認識結果を含んでおり8位認識結果まで列挙するよりも効率的な表現形式である。
なお、具体的な音声認識のアルゴリズムについては、文献1:Lawrence Rabiner、 Biing-Hwang Juang共著、古井貞煕監訳、「音声認識の基礎(上)(下)」、NTTアドバンステクノロジ株式会社、1995-11・および文献2:XUEDONG HUANG、ALEX ACERO、HSIAO-WUEN HON : SPOKEN LANGUAGE PROCESSING A Guide to Theory,Algorithm,and System Development-: Prentice Hall(2001)に詳しく説明されている。
【0018】
検索手段104は、検索データベース105を参照し、音声認識結果と、属性情報を入力として、検索結果エントリと検索の妥当性を表す検索スコアを取得する。音声認識結果に対する検索は、テキスト検索技術の拡張であり、誤認識を含む音声認識結果を想定した検索方法として、例えば特許文献(特開2004-5600号公報)に示すベクトル空間モデルに基づく検索方法が開示されている。検索結果は検索スコアが対応付けられ、ソートされる。属性情報による検索は、リレーショナルデータベース(以後RDBとする)検索であり、検索条件に合致するものが抽出される。これらは別々に検索を行っても良いが、最終的な検索結果は音声認識結果に基づく名称検索と、RDB属性検索に対するAND検索条件となる。
【0019】
検索データベース105は、上記で述べた通り、音声認識結果に対するテキスト検索照合用データと、属性情報からなる。施設名検索の場合、テキスト検索対象が施設名であり、属性とはジャンル名、地理情報等である。
【0020】
ジャンル推定手段106は、ジャンル推定辞書107を参照し、音声認識結果を入力として、候補ジャンルに対する妥当性を示すジャンル推定スコアを出力する。ジャンル推定辞書107は、認識結果として受理する単語および単語列と個々の対応先のジャンルとの関連付けの強さを表す指標からなるマトリクスで表される。
【0021】
図3はその例であり、各行に示される単語または単語列が列に対応するジャンルと対応付ける重みを表している。この例では各行の和が100になるよう正規化している。単語または単語列は、後述するtf・idf指標やidf指標等を基準として、ジャンル識別効果のあるものを選択すればよい。
【0022】
単語とジャンルの対応付けを示すマトリクスの指標は人手でヒューリスティックにチューニングしても良いが、学習用のデータベースに基づき算出することも可能である。例えば、対象とするデータベースあるいは類似したデータベースにおいて、ジャンルgで出現する単語または単語列wの頻度N(g,w)に基づきP(g|w)を推定することができる。また、情報検索で多用されるtf・idf指標を使うことも可能である。tf・idf指標はtf(g,w)項とidf(w)項の積で表される。tf(g,w)項はN(g,w)と対応し、ジャンルgで単語wが出現する頻度を表す。idf(w)項はlog(単語または単語列wを含むジャンルの数/総ジャンル数)で算出する。これは、少数のジャンルで出現しジャンルを特徴付けする単語に大きな重み付けを与える。これらの指標の性質およびバリエーションについては、文献3:徳永健伸(著)、辻井潤一(編)、「情報検索と言語処理、言語と計算−5」、東京大学出版会に詳述されている。
【0023】
なお、推定ジャンルは検索対象と一致する必要は無いため、検索対象外ジャンルについても、同様にジャンル推定でき、ユーザへ対象外ジャンルであることを通知可能である。
【0024】
認識結果全体に対するジャンル推定スコアは、認識結果を構成する各単語・単語列について、ジャンルとの対応付け指標の最大値あるいは和とする。このとき、音声認識結果の単語または単語列に対して音声認識時に得られた音声認識スコアおよび単語グラフに付与された確信度で重み付けすることで、認識結果の信頼性を考慮することが可能である。
【0025】
提示手段108は、対話制御手段109より指令を受けて、音声・画像等による発話プロンプトや応答メッセージを生成し、ユーザへ提示する。
【0026】
対話制御手段109は、音声対話装置の入出力情報および対話履歴情報を管理し、ユーザの目的達成に向けて対話を進行させるために各モジュールを制御する。具体的には、音声認識手段101、検索手段104、ジャンル推定手段106の入出力と制御進行状況を管理し、音声認識手段101が参照する言語辞書103の切り替え、例えば文脈自由文法型の言語辞書と、施設名の構成要素からなる単語N-gram言語モデルとの切り替え、および検索手段104が参照する検索データベース105を切り替える。例えば、音声認識結果の検索であるベクトル空間モデルに基づく検索のためのデータベースと、属性情報による検索のためのリレーショナルデータベースの切り替え行う。また、ボタン操作・タッチパネル操作などの非音声入力を処理するとともに、提示手段108を介してユーザへ提示する情報を出力する。
【0027】
次に、図4のフローチャートを参照し、実施の形態1に係る音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期状態にする(S101)。
次に、提示手段108がユーザの入力プロンプトを提示し、音声認識手段101はそれに対するユーザの入力音声を受理し、音響辞書102・言語辞書103を参照して、音声認識結果を出力する(S102)。
次に、ジャンル推定手段106は、ジャンル推定辞書107を参照し、入力の認識結果に対応するジャンルとその妥当性を表すジャンル推定スコアを出力する(S103)。
【0028】
次に、検索手段104は、検索データベース105を参照し、検索データベース105から音声認識結果に対する検索結果のエントリと検索の妥当性を示す検索スコアを出力する(S104)。
次に、提示手段108は、S104で取得した検索データベースエントリと、S103で取得したジャンル推定結果をユーザへ提示し、検索結果・ジャンル推定結果に対してユーザが選択可能な動作を示す(S105)。
【0029】
次に、ユーザは提示された動作「検索成功(情報提示)」「提示ジャンルで絞込み」「戻る(再発声)」から動作を選択する(S106)。図5は、ユーザの発声「三ツ沢ゼミナール」に対して検索結果「三ツ沢旅館」を提示した例である。このとき、システムは、ユーザに3つの選択肢を提示している。一点目は検索成功(ここを表示)、二点目は提示ジャンルで絞り込む場合(検索対象外のジャンル『教育施設』)、三点目は音声の再入力する場合(戻る)である。
ユーザが「検索成功(情報提示)」を選択した場合、ユーザへ情報を提示して音声対話を終了する(S107)。
ユーザが「提示ジャンルで絞込み」を選択した場合、対話制御手段109は検索手段104へジャンルを切り替える指示を送り(S108)、S104に戻り再検索を行う。
ユーザが「戻る(再発声)」を選択した場合、入力された検索内容をクリアしてS102へ戻り再発声を待ち受ける。
【0030】
なお、絞込みジャンルを階層的に構成しておき、ユーザが複数回のアクションで絞込みを行えるようにしても良い。例えば、図5でユーザがジャンル『教育施設』を選択した場合、図6のような既存のジャンルの階層知識を参照して、詳細ジャンルを選択させるようにしても良い。
【0031】
図7はジャンル選択後のユーザへの提示画面の例である。この例では「三ツ沢ゼミナール」に最も近い音声検索結果として「三ツ沢進学ゼミナール」が提示される。
【0032】
以上、説明した音声対話装置によると、音声検索結果と同時に推定された絞り込み候補ジャンルを提示する。通常、データベースの検索対象の数と比べてジャンル数は非常に少ない。このため、ジャンル推定の精度は、検索の精度よりも高く絞り込みのための手がかりとして有用である。推定したジャンルは1つ提示するか、ジャンル推定のスコアに応じて並べられる。ユーザはジャンルを決定あるいは選択すれば、対象ジャンルで絞り込みを行えるため、ユーザ自身がジャンル名を発声したり、あるいは入力発話を考慮せずジャンルを提示する場合と比較して確実で素早くジャンルによる絞込みを行え操作性を改善できる。
【0033】
なお、検索結果1位の候補のジャンルと推定した推定結果1位のジャンルが同一である場合は、ジャンル選択による絞込み効果が少ない可能性がある。この場合は、一方の提示順位を変更して、検索結果1位とジャンル推定結果1位のジャンルが異なるようにしても良い。
また、得られたジャンル推定スコアと検索スコアのしきい値を与え、提示する候補数を制限することも可能である。例えば、検索スコアが低く、ジャンル推定スコアが高い場合に限り、この実施の形態に基づくジャンル推定結果を提示しても良い。
【0034】
実施の形態2.
図8は、この発明の実施の形態2に係る音声対話装置の構成を示すブロック図である。図8に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、ジャンル推定手段106、ジャンル推定辞書107、提示手段108、対話制御手段109、ジャンル別操作知識110からなり、この実施の形態は上述の実施の形態1に対してジャンル別操作知識110を新たに設けたものである。以下、各機能ブロックについて説明する。ただし、既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
【0035】
ジャンル別操作知識110は、ジャンル推定手段106が推定したジャンルに応じて可能な検索方法を記載した表である。具体的には、データベースの内容・構成名称入力により、名称入力で検索可能な対象の場合と、そうでない場合がある。また、名称で検索可能であっても、精度の問題から検索対象外としている場合がありうる。さらに、名称で検索できない対象についても、地図等で提示は可能な場合と、そうでない場合がある。ジャンル別操作知識は、これらの区別に応じたジャンル別の検索方法が記載される。
【0036】
図9は、推定可能なジャンルに関するジャンル別操作知識110の例である。図中に示される「ゴルフ場」「学習塾」「信号」「公衆電話」の4ジャンルは、名称検索の可否、代替検索方法の有無に関して、それぞれ異なるジャンル別操作となっている。代替検索方法とは、名称入力以外の方法による検索の可否であり、具体例としては、最寄り駅近くの該当ジャンル対象を地図上により提示し、ユーザに選択させること等である。
【0037】
図9の例において、ジャンル「ゴルフ場」は、名称検索対象である。また、「ゴルフ場」は地図上に表示される施設でもあるため、代替検索手段として最寄り駅や最寄りのインターチェンジから地図上で検索することも可能である。ジャンル「学習塾」は、名称検索対象であるが、対象とするタスクではあまり検索されないため、精度の問題から検索対象外としているジャンルである。このため、初期状態において「学習塾」は検索対象となっておらず、検索対象をジャンル「学習塾」に絞ることで検索が可能である。ジャンル「信号機」は、名称から検索できないが地図上に表示できるため、最寄りの交差点名などで地図を表示して具体的に特定できる。ジャンル「公衆電話」は、名称で探すこともそれ以外の方法で探すこともできない検索対象である。このように、ジャンル別操作知識110を用いれば、名称検索対象よりはるかに広範囲のジャンルを推定し、対応を定めることができる。
【0038】
次に、図10のフローチャートを参照し、実施の形態2に係る音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期化する(S201)。
次に、提示手段108がユーザの入力プロンプトを提示し、音声認識手段101はそれに対するユーザの入力音声を受理し、音響辞書102・言語辞書103を参照して、音声認識結果を出力する(S202)。
次に、ジャンル推定手段106は、ジャンル推定辞書107を参照し、入力音声の認識結果に対応するジャンルとそのスコアを取得する(S203)。
次に、検索手段104は、検索データベース105を参照し、検索データベース105から音声認識結果に対する検索結果のエントリと検索の妥当性を示す検索スコアを出力する(S204)。
次に、提示手段108は、S204で取得した検索データベースエントリと、S203で取得したジャンル推定結果をユーザへ提示し、検索結果・ジャンル推定結果に対してユーザが可能な動作を示す(S205)。
ユーザへジャンルを提示した場合、ジャンル別操作知識110を参照して、それぞれのジャンルについてユーザが可能な操作を提示する(S206)。また、推定したジャンルが検索対象外である場合は、検索できないジャンルであることをユーザへ通知し対話を終了する。
【0039】
次に、ユーザは「検索成功(情報提示)」「提示ジャンルで絞込み」「代替検索方法への切り替え」「戻る(再発声)」から動作を選択する(S207)。
ユーザが「検索成功(情報提示)」を選択した場合、ユーザへ情報を提示して音声対話を終了する(S208)。
ユーザが「提示ジャンルで絞込み」を選択した場合、対話制御手段109は検索手段104へジャンルを切り替える指示を送り(S209)、S204に戻り再探索を行う。
ユーザが「戻る(再発声)」を選択した場合、入力された検索内容をクリアしてS202へ戻り再発声を待ち受ける。
ユーザが検索対象の名称以外からの「代替検索手段」を選択した場合、選択したジャンルおよび検索手段に応じた対話フローへ遷移する(S210)。このとき、選択したジャンル情報が利用可能であることはいうまでもない。
【0040】
なお、上記説明において「学習塾」は名称検索対象から除外している想定としていた。しかし、検索精度が低下するものの、追加施設に応じてひとたび施設を検索した場合は、検索結果の対象施設のみ、あるいは対象ジャンル全体を検索対象へ追加しても良い。また、このとき、ユーザの確認をとるようにしても良い。
【0041】
以上、説明したこの実施の形態の音声対話装置によると、音声検索結果と同時に推定された絞り込み候補ジャンルを提示する。このため、ユーザはジャンルの入力方法およびジャンルに応じた検索方法を戸惑うことなく、選択が可能となり操作性を改善できる。このとき、名称検索以外の代替検索処理備え、ユーザの目的達成失敗を最小化する。
また、このとき、従来の検索ジャンルに限らず、ジャンルに応じた対話を行うことができるため、操作性を改善できる。
【0042】
実施の形態3.
図11は、実施の形態3に係る音声対話装置の構成を示すブロック図である。図11に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、ジャンル推定手段106、ジャンル推定辞書107、提示手段108、対話制御手段109、ジャンル別操作知識110、対話停滞判定手段111からなる。この実施の形態は上述の実施の形態2に対して対話停滞判定手段111を新たに設けたものである。以下、各機能ブロックについて説明する。ただし、既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
【0043】
対話停滞判定手段111は、非音声操作、音声入力および検索手段により取得される検索式と検索結果と、その履歴に基づいて、音声検索対話が停滞状態であることを判定する。ここでは、音声検索対話が停滞状態であるとは、ユーザが発話を繰返し行っているにも関わらず、目的達成へ対話が進行していない状態と定義する。
【0044】
具体的には、同一条件での検索繰返しや、ユーザが訂正操作を行い繰返し発話する状態が続いた状態、無操作状態に陥っている状態等である。また、停滞状態が長く続く程、あるいはユーザの発話や操作の回数が多い程、停滞の度合いが大きいと考えられる。
対話停滞を検知する特徴量には、(1)無操作時間(P)、(2)直前発話との類似度(S)、(3)繰返し発話の回数(R)、(4)同一の検索条件による検索の回数(Q)、(5)同一の検索結果の提示回数(C)、(6)「訂正」操作の回数(X)等がある。
【0045】
以下、各特徴量について説明する。
(1)無操作時間(P)は、装置が応答提示後、ユーザが操作(音声入力を含む)を行っていない時間である。
(2)直前発話との類似度(S)は、直前発話との繰返し判定の指標であり、具体的には2発話の音響特徴量ベクトル時系列からDPマッチングにより算出する。
(3)繰返し発話の回数(R)は、上記類似度Sがしきい値以下となる発話が続く回数である。繰返し発話に対する検索結果は、基本的に同じ検索結果の提示となることが想定されるため、対話の停滞状態を表す指標となる。
(4)同一の検索条件による検索の回数(Q)は、入力された検索条件が過去一定時間に生じた回数である。
(5)同一の検索結果提示回数(C)は、過去一定時間に同一となる検索結果を提示した回数である。
(6)訂正操作の回数(X)は、入力発話を音声操作または非音声操作により訂正した回数である。
【0046】
対話停滞を検知する指標を算出する関数は、これら特徴量に対する関数として定義できる。例えば上記の1つ以上の特徴量を重み付け加算して、対話停滞を検知する関数を定義する。この値が一定のしきい値を超えたとき、対話が停滞状態であると判定する。
【0047】
次に、図12のフローチャートを参照し、実施の形態3にかかる音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期化する(S301)。
次に、提示手段108がユーザの入力プロンプトを提示し、音声認識手段101はそれに対するユーザの入力音声を受理し、音響辞書102、言語辞書103を参照して、音声認識結果を出力する(S302)。
次に、ジャンル推定手段106は、ジャンル推定辞書107を参照し、入力音声の認識結果に対応するジャンルとそのスコアを取得する(S303)。
次に、検索手段104は、検索データベース105を参照し、データベースエントリとその検索スコアを出力する(S304)。
【0048】
次に、対話停滞判定手段111は、入力音声、検索式、検索結果に基づいて、対話が停滞状態であるかどうか、判定する(S305)。
対話停滞状態ではない場合は、通常状態であり、推定ジャンル、検索結果の少なくとも一方をユーザへ提示し(S306)、ジャンル提示した場合は、ジャンル選択後に可能な操作を示す(S307)。
一方、対話停滞状態と判定された場合、対話停滞から脱するためにシステムは対話停滞時のための処理へ移行する(S308)。具体的には、システムの応答を通常状態とは変えて、推測したジャンルについてジャンル別操作知識に記載された名称入力以外の検索方法を行うようにユーザをガイドする。
【0049】
次に、ユーザは「検索成功(情報提示)」「提示ジャンルで絞込み」「代替検索方法への切り替え」「戻る(再発声)」から動作を選択する(S309)。
ユーザが「検索成功(情報提示)」を選択した場合、ユーザへ情報を提示して音声対話を終了する(S310)。
ユーザが「提示ジャンルで絞込み」を選択した場合、対話制御手段109は検索手段104へジャンルを切り替える指示を送り(S311)、S304に戻り再探索を行う。
ユーザが「戻る(再発声)」を選択した場合、入力された検索内容をクリアしてS301へ戻り再発声を待ち受ける。
ユーザが検索対象の名称以外からの「代替検索手段」を選択した場合、選択したジャンルおよび検索手段104に応じた対話フローへ遷移する(S312)。
【0050】
図13は、対話停滞時の動作の1例である。この例では、ユーザが名称検索で検索できないジャンル「学習塾」に属する「三ツ沢ゼミナール」を2度発声している(ユーザ1、ユーザ3)。訂正操作および繰返し発話から、システムの対話停滞判定手段111は対話が停滞状態にあることを判定し次発話(システム4)において、検索結果ではなく、ジャンル推定に基づく誘導を行う。ジャンル別操作知識110より、ジャンル「学習塾」が距離順に検索して提示することが可能である場合、ジャンル名と最寄り駅に対する距離順検索によりユーザへ誘導することが可能である。
【0051】
以上、説明した音声対話装置によると、対話停滞判定手段を備え、対話が停滞したと判定した場合は、対話停滞時のガイダンス情報を提示する。このため、ユーザは対話停滞時の方策へスムーズに移行することができ、検索目的の達成率を改善できる。
【0052】
実施の形態4.
図14は、実施の形態4に係る音声対話装置の構成を示すブロック図である。図14に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、提示手段108、対話制御手段109、検索対象スタック管理手段112からなる。この実施の形態は上述の実施の形態1に対してジャンル推定手段106、ジャンル推定辞書107省き、代わりに検索対象スタックを具備した検索対象スタック管理手段112を新たに設けたものである。以下、各機能ブロックについて説明する。ただし、既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
【0053】
検索対象スタック管理手段112は、具備した検索対象スタックにより音声検索のための音声認識結果と、変更したデータベース検索の属性を管理する。ユーザの検索項目追加または削除に応じて検索対象スタックの内容が増減する。以下、図15、図16、図17に示す例を用いて検索対象スタックの動作を説明する。
【0054】
図15に示す検索対象スタックは、既に(1)属性「ジャンル = 図書館」、(2)発話「神奈川県」に対する認識結果の2つの入力が格納されている。(1)は、段階的な音声入力やメニュー選択等により検索対象のジャンルを「図書館」に限っていることを示す。(2)は、既に行われた発話「神奈川県」による音声データ・音声認識結果および必要な中間データを格納されていることを示す。このとき、名称検索の対象は発話「神奈川県」であり、かつジャンルが「図書館」である検索結果をユーザへ提示する。適切に認識された場合、「神奈川県立xxx図書館」など多数の施設が提示されることが想定される。
【0055】
図16は、さらにユーザが「白幡町」と追加発話した場合である。検索対象スタックへは、発話「白幡町」に対する認識結果が追加される。このとき、名称検索の対象は(1)「神奈川県」と(3)「白幡町」の認識結果を合成したものとし、直感的には「神奈川県 白幡町」という発話の認識結果となる。この結果、検索対象スタックに含まれる(1)〜(3)によって発話「神奈川県」「白幡町」、ジャンル「図書館」の条件に基づく検索結果をユーザへ提示する。適切に認識された場合、「神奈川県立xx白幡xx図書館」に合致するような、より限られた施設が提示されることが想定される。
【0056】
図17は、続けてユーザが訂正操作を行った場合である。訂正操作は、ボタンなどによる非音声入力、あるいは「戻る」など検索対象としない特別なキーワードの発声と対応付けることができる。このとき、検索スタックにある最も新しい入力である(3)発話「白幡町」に対する認識結果を無効化する。無効化とは、具体的にはスタックから削除する、あるいは訂正対象となったことを表すフラグを付与しておく。この結果、有効な検索対象スタックの内容は、発話「神奈川県」の認識結果と、ジャンル属性「図書館」となる。これは、図15と同一の検索結果を返すことになる。すなわち、訂正操作の結果、1つ前の検索結果へ戻ることになる。
【0057】
次に、図18のフローチャートを参照し、実施の形態4に係る音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期化する(S401)。
ユーザは、音声絞込みを行うか、属性絞込みを行うか選択する(S402)。
音声絞込みを選択した場合、音声認識手段101は、ユーザの入力音声を受理し、音響辞書102、言語辞書103を参照して、音声認識結果を出力する(S403)。
さらに、対話制御手段109は、音声認識結果を検索対象スタックへ追加し、S406へ遷移する(S404)。
一方、属性絞込みを選択した場合、属性検索条件を選択し、検索対象スタックへ追加する(S405)。
【0058】
次に、検索手段104は、検索対象スタック管理手段112から検索対象とする名称および属性情報を取得し、検索データベース105から検索する(S406)。
次に、対話制御手段109は、検索手段104から検索結果を取得し、提示手段108により検索条件および検索結果をユーザへ提示する(S407)。
提示した検索結果に対してユーザは、終了、絞込み、訂正から選択した操作を行う(S408)。
所望の検索結果が得られた場合、検索を終了する(S409)。
さらに絞込みを行う場合、ステップS402へ戻り再び絞り込み属性を選択する。
訂正操作の場合、検索対象スタックへ追加された最新の内容を削除するとともに、ステップS406へ遷移して訂正後の検索結果を提示する(S410)。
【0059】
なお、上記説明では、音声絞込みと、属性絞込みの両方を並列的に実施する形態としていたが、一方に限定することは容易である。
特に、属性絞込みをボタン等から選択した場合、音声認識よりは確実な入力であるため訂正操作による削除を望まない場合が考えられる。このときは、属性絞込み項目に関しては削除前に確認を行うようにする、あるいは訂正対象を音声検索の対象に限定しても良い。
【0060】
また、属性絞込みでは、それより前の検索条件と矛盾して、検索結果が無くなる入力が入る可能性がある。例えば、最初にジャンルを「図書館」と設定したにもかかわらず、後でジャンルを「美術館」とした場合である。このため、該当する入力を受け付けないようにする、両者のOR条件とする(上記例では、属性ジャンルの検索条件を「図書館 OR 美術館」とする)、あるいは後の入力を優先し以前の検索条件を削除する等(この場合、ジャンル属性は「美術館」のみ)の対策を行っても良い。
【0061】
さらに、音声絞込みに関して、訂正を行わず続けて絞り込み発話を入力するのは、ユーザが途中提示した検索結果を妥当と考えた場合と考えられる。このため、絞込み発話を追加した検索により、絞込み前とは全く異なる検索結果を出力することは不適切である。そこで、検索対象スタックに以前からあった検索条件と、追加された検索条件で認識結果の信頼度スコアに重み付けすることが考えられる。具体的には、過去の発話程、高い音声認識スコアとなるように、音声認識スコアへ重み付けを行う。
【0062】
また、図17の説明および図18のフローチャート内ステップS410の動作において、訂正操作に対してスタック内で最も新しい入力を無効化すると説明した。このとき、訂正操作前の提示結果は、ユーザが望まない検索結果である可能性が高い。そこで、無効化した入力はスタックに残しておくとともに、検索の際には、認識スコアに対して負の重み付け、すなわち、対応する検索候補が出現しにくくするような重み付けを行っても良い。
【0063】
また、検索対象スタックの内容は、音声検索のための音声認識結果と、変更したデータベース検索の属性としていたが、音声認識結果の代わりに音声データや音声データを分析した音響特徴量ベクトル時系列を保持しておくことも可能である。この場合、検索が生じた時点で再度、音声認識手段へ渡して認識を行う必要が生じるものの、属性絞込み等、対話履歴を考慮した音響辞書102・言語辞書103を適用できるため、音声認識をより高精度化できる。
【0064】
以上、説明した音声対話装置によると、検索対象スタックを備えて複数回の発話および検索操作に基づく検索が行える。このため、検索対象が多いとき、スムーズな絞込みを実現でき、検索時間の低減と達成率の改善が図れる。
【0065】
実施の形態5.
図19は、実施の形態5に係る音声対話装置の構成を示すブロック図である。図19に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、ジャンル推定手段106、ジャンル推定辞書107、提示手段108、対話制御手段109、検索対象スタックを備えた検索対象スタック管理手段112からなる。この実施の形態は上述の実施の形態4に対しジャンル推定手段106とジャンル推定辞書107を追加したものである。機能ブロックは、全て既に説明済みであり、同一の番号を付し説明を省略する。
【0066】
次に、図20のフローチャートを参照し、実施の形態5にかかる音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期化する(S501)。
ユーザは、音声絞込みを行うか、属性絞込みを行うか選択する(S502)。
音声絞込みを選択した場合、音声認識手段101は、ユーザの入力音声を受理し、音響辞書102・言語辞書103を参照して、音声認識結果を出力する(S503)。
さらに、対話制御手段109は、音声認識結果を検索対象スタックへ追加する(S504)。
さらに、ジャンル推定手段106は、音声認識結果からジャンルを推定し、ステップS507へ遷移する(S505)。
一方、属性絞込みを選択した場合、属性検索条件を選択し、検索対象スタックへ追加する(S506)。
【0067】
次に、検索手段104は、検索対象スタック管理手段112から検索対象とする名称および属性情報を取得し、検索データベース105を検索する(S507)。
次に、対話制御手段109は、検索手段104から検索結果を取得し、提示手段108により検索条件および検索結果をユーザへ提示する(S508)。
提示した検索結果に対してユーザは、終了、絞込み、訂正から選択した操作を行う(S509)。
所望の検索結果が得られた場合、検索を終了する(S510)。
さらに絞込みを行う場合、ステップS502へ戻り再び絞り込み属性を選択する。
訂正操作の場合、検索対象スタックへ追加された最新の内容を削除する(S511)。
さらに、ステップS505で格納した推定ジャンルがある場合、次回提示する属性検索条件のジャンルとし(S512)、ステップS502へ戻る。
【0068】
以上、説明した音声対話装置によると、検索対象スタックを備えて複数回の発話および検索操作に基づく検索が行える。さらに、音声検索結果に対して訂正操作を行った場合、次回提示する属性絞込みの候補として、訂正対象の発話から推定したジャンル推定結果を提示する。
このため、検索失敗した場合に、妥当性の高いジャンル選択候補を提示できるためスムーズな絞込みを実現でき、検索時間の低減と達成率の改善が図れる。
なお、参考までに上述の実施の形態1〜実施の形態5までの全ての機能を兼ね備えた実施の形態のブロック図を図21に示す。
【産業上の利用可能性】
【0069】
この発明は、入力音声の音声認識結果によりジャンルを推定し、推定されたジャンルで絞り込みを行うので、カーナビゲーション装置や携帯電話機等に適用されることで、操作性の改善や検索精度のより高い製品を提供できる。
【図面の簡単な説明】
【0070】
【図1】この発明の音声対話装置の実施の形態1によるブロック図である。
【図2】認識結果に対する単語グラフを示す図である。
【図3】ジャンル推定辞書内容例の説明図である。
【図4】この発明の実施の形態1の動作説明用フローチャートである。
【図5】実施の形態1の検索対話による情報提示例の説明図である。
【図6】ジャンル絞込みのためのジャンル木構造例の説明図である。
【図7】実施の形態1の検索対話におけるジャンル提示後の情報提示例の説明図である。
【図8】この発明の実施の形態2のブロック図である。
【図9】ジャンル別操作知識の例を示す説明図である
【図10】この発明の実施の形態2の動作説明用フローチャートである。
【図11】この発明の実施の形態3のブロック図である。
【図12】この発明の実施の形態3の動作説明用フローチャートである。
【図13】対話停滞状態脱出のための典型的対話例の説明図である。
【図14】この発明の実施の形態4のブロック図である。
【図15】検索対象スタックに収納される内容例の説明図である。
【図16】検索対象スタックに収納される追加発話の内容例の説明図である。
【図17】検索対象スタックに収納される訂正操作の内容例の説明図である。
【図18】この発明の実施の形態4の動作説明用フローチャートである。
【図19】この発明の実施の形態5のブロック図である。
【図20】この発明の実施の形態5の動作説明用フローチャートである。
【図21】この発明の実施の形態1から実施の形態5の機能を兼ね備えた実施の形態を示すブロック図である。
【符号の説明】
【0071】
101;音声認識手段、102;音響辞書、103;言語辞書、104;検索手段、105;検索データベース、106;ジャンル推定手段、107;ジャンル推定辞書、108;提示手段、109;対話制御手段、110;ジャンル別操作知識、111;対話停滞判定手段、112;検索対象スタック管理手段。
【技術分野】
【0001】
この発明は音声を用いた検索における、検索対象外発話のリジェクトと、候補絞込みの技術に関するものである。
【背景技術】
【0002】
近年、カーナビゲーションシステムでは目的地入力のために施設名など大規模なデータベースを音声で検索するアプリケーションが実用化されている。しかし、検索対象施設が増加すると検索精度が低下する。このため、検索対象の施設数を限ってしまうか、先に施設のジャンル名を入力させて、施設をジャンル属性で絞ってから施設名称から検索するように段階的に行う方策がとられる。
【0003】
検索対象を限ってしまう場合、検索可能な施設については一度の入力で高精度かつダイレクトに検索できるため利便性が高い。しかし、検索対象の範囲がユーザに分かりにくい問題が生じる。特に、音声検索では誤認識の問題があり、応答から検索対象の範囲外であることが判別しにくい。また、仮に検索対象の範囲外であることが判明した場合であっても検索対象範囲外施設の検索達成に向けてどのような操作が可能であるか分からない。このような場合、ユーザは戸惑い、操作を中断したり、同じ発話を繰返し入力したり、検索達成に向けた対話が停滞してしまうことがあった。
【0004】
一方、ジャンル名を入力して段階的に検索を行う場合、全体としては多数の対象が検索可能である利点がある。しかし、目的達成までに要するやりとりの回数が増えて時間がかかることと、ジャンル名を適切に入力する必要があることが生じる。
【0005】
また、目的達成までの所要時間が増加すると、途中で操作を失敗することによる成功率の低下を考慮する必要がある。例えば、初回にジャンル名ではなく、検索対象の名称を発声するといった誤りが生じやすい。
さらに、ジャンル名の入力は、検索対象のデータベースのジャンル分類がユーザにとって自明でない場合、データベースが想定したジャンル語彙をユーザが発声しない場合や、異なるジャンルを選択してしまう問題がある。例えば「横浜市立横浜小学校」という施設について「公共施設」「教育施設」「市立小学校」「学校」「小学校」等のジャンルが考えられるが、検索するためには実際のデータベース上の分類に合わせる必要がある。ジャンルを提示して選択操作によってジャンルを入力する場合、想定したジャンル語彙以外が入力されることはなくなるが、ジャンル数が多い場合に著しく利便性が低下する問題がある。
【0006】
このような問題に対して、特開2001-109492号公報(特許文献1)では、まず全ての施設を対象とした認識を行い、誤認識した際の訂正操作においてユーザがジャンル名を入力し、ジャンルを限った辞書により再検索を行う方法を開示している。この場合、初回の発話に対する認識精度は低いものの認識成功した場合、ユーザは1発話のみで目的を達成できる。しかし、ジャンルを入力する必要があるという問題は解決されない。また、あらかじめ想定したジャンル名によってのみ絞り込むため、ジャンル名がわからない場合やジャンル名だけでは十分に絞れない場合に、例えば名称の一部などから絞り込むようなことができない。
【0007】
【特許文献1】特開2001-109492号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
従来、大語彙を対象とする検索のための音声対話インタフェースでは、一度で精度良く検索するための入力には検索対象を絞る必要がある。このような場合、検索失敗時にユーザは検索対象外のジャンルを発声したのか、装置の誤認識か戸惑う問題があった。
また、複数回の操作によって絞込みを行う場合、絞込みのためにジャンル名のような検索対象の分類を入力する必要があった。この方法は、ジャンル数が多くなると選択が困難であった。また、言い方の多様性が多い場合に対応が困難といった問題があった。
この発明は、このような従来の問題を解決するものであり、音声による大規模な検索において、より柔軟性の高い絞込み方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
この発明に係る音声対話装置は、
入力音声を音響辞書と言語辞書を参照して、音声認識する音声認識手段と
ジャンル推定辞書参照し、入力音声の認識結果に対応するジャンルを推定するジャンル推定手段と、
音声認識手段の音声認識結果と属性条件に基づき検索データベースを検索し、検索データベースから検索候補を取得する検索手段と、
取得した検索の候補と、ジャンル推定結果をユーザへ提示し、ユーザが選択可能な動作を示す提示手段を備え
検索手段は、提示手段により提示された検索の候補が目的外のときユーザが提示され、選択したジャンル属性に応じて検索対象の属性条件を変更して検索データベースから候補を再度検索する構成にされる。
【発明の効果】
【0010】
この発明の音声対話装置によれば、入力音声の音声認識結果による音声検索結果と同時にジャンル推定手段により推定された絞り込み候補ジャンルを提示する。通常、データベースの検索対象の数と比べてジャンル数は非常に少なく、ジャンル推定の精度は、検索の精度よりも高く絞り込みのための手がかりとして有用であり、推定されたジャンルが提示され、ユーザはこの提示されたジャンルを決定あるいは選択すれば、対象ジャンルで絞り込みを行え、ユーザ自身がジャンル名を発声したり、あるいは入力発話を考慮せずジャンルを提示する場合と比較して確実で素早くジャンルによる絞込みを行え操作性を改善できる。
【発明を実施するための最良の形態】
【0011】
実施の形態1.
図1は、この発明の実施の形態1に係る音声対話装置の構成を示すブロック図である。図1に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、ジャンル推定手段106、ジャンル推定辞書107、提示手段108、対話制御手段109からなる。以下、各機能ブロックの動作およびデータ内容を説明する。
【0012】
音声認識手段101は、対話制御手段109より指定された音響辞書102、言語辞書103を参照し、入力音声を認識して認識結果を出力する。認識結果は、認識の基本単位である単語で構成された単語列および単語単位で音響的、言語的な確からしさを表すスコアである。また、複数候補からなる認識結果へ拡張したものとして、上位N個の単語列、単語グラフなどの構造とすることができる。
【0013】
音響辞書102は、音素など音声認識の基本単位について音声特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した標準パタンである。典型的には隠れマルコフモデル(HMM)でモデル化される。音響辞書102は、例えば男性話者用、女性話者用など複数保持しても良く、認識中のスコアや対話制御手段109の指示に応じて切り替える。
【0014】
言語辞書103は、対象タスクの認識対象となる発話を音声認識の基本単位の組合せからなる単語と、単語のつながりを構文的あるいは統計的にモデル化したものからなる。単語は、例えば「音声」という単語を”o N s e e”という音響辞書102に含まれる基本単位で表す。また、単語の接続を典型的には単語N-gram言語モデルや文脈自由文法により記述する。
言語辞書103は、「はい」「いいえ」のみ受理する文脈自由文法型の言語辞書と、施設名の構成要素からなる単語N-gram言語モデルのように複数備えておき、切り替えて使用することもできる。
【0015】
ここで、音声認識の手順を簡単に示す。まず入力音声を適当な時間間隔で音声を良く表す特徴ベクトルへ変換する。次に、音響辞書102および言語辞書103を参照して、認識語彙のうち入力音声と照合の度合いが最も高い単語または単語系列を得る。例えば、音声を良く表す特徴ベクトルとして、10ms間隔で256点フーリエ変換および対数化と逆フーリエ変換により算出される12次元のメルケプストラムとその時間方向の1次回帰係数を用いる。音響辞書102は音素を単位として、入力音響特徴ベクトルを各状態が8混合ガウス分布、時系列を自己回帰アークあり、後戻りアーク無しの3状態の隠れマルコフモデルとしてモデル化する。また、言語辞書103は、形態素など日本語の構成単位(以下、単語と呼ぶ)について直前のN-1単語に対する条件付き単語出現確率の積でモデル化した、N-gram言語モデルを用いる。音響辞書102・言語辞書103は、事前に学習データによりパラメータを推定しておく。
【0016】
照合は、上記音響辞書102が認識辞書に示される組合せが入力音響特徴ベクトルを生成する尤度と、言語辞書103に基づく単語および単語間の接続確率を考慮し、ビタビアルゴリズムによって算出する。照合結果の認識結果には音響辞書102・言語辞書103との照合度合いを表す音声認識スコアが付与される。
照合時に複数の仮説を残しておくことで、最終的に複数の認識結果の候補を取得できる。複数候補を求める手法の詳細については、非特許文献2のp.663にある説明の通りである。複数の結果は複数の認識結果のリスト(Nベスト)、あるいは単語をエッジとしたグラフ表現で表されることが多い。
【0017】
図2は、入力音声「神奈川県の関内ホール」に対する1位認識結果、2位認識結果、単語グラフによる認識結果の例である。単語グラフに付与された値は、競合候補の有無に基づいて確信度を付与したものである。単語グラフは、8単語により8通りの認識結果を含んでおり8位認識結果まで列挙するよりも効率的な表現形式である。
なお、具体的な音声認識のアルゴリズムについては、文献1:Lawrence Rabiner、 Biing-Hwang Juang共著、古井貞煕監訳、「音声認識の基礎(上)(下)」、NTTアドバンステクノロジ株式会社、1995-11・および文献2:XUEDONG HUANG、ALEX ACERO、HSIAO-WUEN HON : SPOKEN LANGUAGE PROCESSING A Guide to Theory,Algorithm,and System Development-: Prentice Hall(2001)に詳しく説明されている。
【0018】
検索手段104は、検索データベース105を参照し、音声認識結果と、属性情報を入力として、検索結果エントリと検索の妥当性を表す検索スコアを取得する。音声認識結果に対する検索は、テキスト検索技術の拡張であり、誤認識を含む音声認識結果を想定した検索方法として、例えば特許文献(特開2004-5600号公報)に示すベクトル空間モデルに基づく検索方法が開示されている。検索結果は検索スコアが対応付けられ、ソートされる。属性情報による検索は、リレーショナルデータベース(以後RDBとする)検索であり、検索条件に合致するものが抽出される。これらは別々に検索を行っても良いが、最終的な検索結果は音声認識結果に基づく名称検索と、RDB属性検索に対するAND検索条件となる。
【0019】
検索データベース105は、上記で述べた通り、音声認識結果に対するテキスト検索照合用データと、属性情報からなる。施設名検索の場合、テキスト検索対象が施設名であり、属性とはジャンル名、地理情報等である。
【0020】
ジャンル推定手段106は、ジャンル推定辞書107を参照し、音声認識結果を入力として、候補ジャンルに対する妥当性を示すジャンル推定スコアを出力する。ジャンル推定辞書107は、認識結果として受理する単語および単語列と個々の対応先のジャンルとの関連付けの強さを表す指標からなるマトリクスで表される。
【0021】
図3はその例であり、各行に示される単語または単語列が列に対応するジャンルと対応付ける重みを表している。この例では各行の和が100になるよう正規化している。単語または単語列は、後述するtf・idf指標やidf指標等を基準として、ジャンル識別効果のあるものを選択すればよい。
【0022】
単語とジャンルの対応付けを示すマトリクスの指標は人手でヒューリスティックにチューニングしても良いが、学習用のデータベースに基づき算出することも可能である。例えば、対象とするデータベースあるいは類似したデータベースにおいて、ジャンルgで出現する単語または単語列wの頻度N(g,w)に基づきP(g|w)を推定することができる。また、情報検索で多用されるtf・idf指標を使うことも可能である。tf・idf指標はtf(g,w)項とidf(w)項の積で表される。tf(g,w)項はN(g,w)と対応し、ジャンルgで単語wが出現する頻度を表す。idf(w)項はlog(単語または単語列wを含むジャンルの数/総ジャンル数)で算出する。これは、少数のジャンルで出現しジャンルを特徴付けする単語に大きな重み付けを与える。これらの指標の性質およびバリエーションについては、文献3:徳永健伸(著)、辻井潤一(編)、「情報検索と言語処理、言語と計算−5」、東京大学出版会に詳述されている。
【0023】
なお、推定ジャンルは検索対象と一致する必要は無いため、検索対象外ジャンルについても、同様にジャンル推定でき、ユーザへ対象外ジャンルであることを通知可能である。
【0024】
認識結果全体に対するジャンル推定スコアは、認識結果を構成する各単語・単語列について、ジャンルとの対応付け指標の最大値あるいは和とする。このとき、音声認識結果の単語または単語列に対して音声認識時に得られた音声認識スコアおよび単語グラフに付与された確信度で重み付けすることで、認識結果の信頼性を考慮することが可能である。
【0025】
提示手段108は、対話制御手段109より指令を受けて、音声・画像等による発話プロンプトや応答メッセージを生成し、ユーザへ提示する。
【0026】
対話制御手段109は、音声対話装置の入出力情報および対話履歴情報を管理し、ユーザの目的達成に向けて対話を進行させるために各モジュールを制御する。具体的には、音声認識手段101、検索手段104、ジャンル推定手段106の入出力と制御進行状況を管理し、音声認識手段101が参照する言語辞書103の切り替え、例えば文脈自由文法型の言語辞書と、施設名の構成要素からなる単語N-gram言語モデルとの切り替え、および検索手段104が参照する検索データベース105を切り替える。例えば、音声認識結果の検索であるベクトル空間モデルに基づく検索のためのデータベースと、属性情報による検索のためのリレーショナルデータベースの切り替え行う。また、ボタン操作・タッチパネル操作などの非音声入力を処理するとともに、提示手段108を介してユーザへ提示する情報を出力する。
【0027】
次に、図4のフローチャートを参照し、実施の形態1に係る音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期状態にする(S101)。
次に、提示手段108がユーザの入力プロンプトを提示し、音声認識手段101はそれに対するユーザの入力音声を受理し、音響辞書102・言語辞書103を参照して、音声認識結果を出力する(S102)。
次に、ジャンル推定手段106は、ジャンル推定辞書107を参照し、入力の認識結果に対応するジャンルとその妥当性を表すジャンル推定スコアを出力する(S103)。
【0028】
次に、検索手段104は、検索データベース105を参照し、検索データベース105から音声認識結果に対する検索結果のエントリと検索の妥当性を示す検索スコアを出力する(S104)。
次に、提示手段108は、S104で取得した検索データベースエントリと、S103で取得したジャンル推定結果をユーザへ提示し、検索結果・ジャンル推定結果に対してユーザが選択可能な動作を示す(S105)。
【0029】
次に、ユーザは提示された動作「検索成功(情報提示)」「提示ジャンルで絞込み」「戻る(再発声)」から動作を選択する(S106)。図5は、ユーザの発声「三ツ沢ゼミナール」に対して検索結果「三ツ沢旅館」を提示した例である。このとき、システムは、ユーザに3つの選択肢を提示している。一点目は検索成功(ここを表示)、二点目は提示ジャンルで絞り込む場合(検索対象外のジャンル『教育施設』)、三点目は音声の再入力する場合(戻る)である。
ユーザが「検索成功(情報提示)」を選択した場合、ユーザへ情報を提示して音声対話を終了する(S107)。
ユーザが「提示ジャンルで絞込み」を選択した場合、対話制御手段109は検索手段104へジャンルを切り替える指示を送り(S108)、S104に戻り再検索を行う。
ユーザが「戻る(再発声)」を選択した場合、入力された検索内容をクリアしてS102へ戻り再発声を待ち受ける。
【0030】
なお、絞込みジャンルを階層的に構成しておき、ユーザが複数回のアクションで絞込みを行えるようにしても良い。例えば、図5でユーザがジャンル『教育施設』を選択した場合、図6のような既存のジャンルの階層知識を参照して、詳細ジャンルを選択させるようにしても良い。
【0031】
図7はジャンル選択後のユーザへの提示画面の例である。この例では「三ツ沢ゼミナール」に最も近い音声検索結果として「三ツ沢進学ゼミナール」が提示される。
【0032】
以上、説明した音声対話装置によると、音声検索結果と同時に推定された絞り込み候補ジャンルを提示する。通常、データベースの検索対象の数と比べてジャンル数は非常に少ない。このため、ジャンル推定の精度は、検索の精度よりも高く絞り込みのための手がかりとして有用である。推定したジャンルは1つ提示するか、ジャンル推定のスコアに応じて並べられる。ユーザはジャンルを決定あるいは選択すれば、対象ジャンルで絞り込みを行えるため、ユーザ自身がジャンル名を発声したり、あるいは入力発話を考慮せずジャンルを提示する場合と比較して確実で素早くジャンルによる絞込みを行え操作性を改善できる。
【0033】
なお、検索結果1位の候補のジャンルと推定した推定結果1位のジャンルが同一である場合は、ジャンル選択による絞込み効果が少ない可能性がある。この場合は、一方の提示順位を変更して、検索結果1位とジャンル推定結果1位のジャンルが異なるようにしても良い。
また、得られたジャンル推定スコアと検索スコアのしきい値を与え、提示する候補数を制限することも可能である。例えば、検索スコアが低く、ジャンル推定スコアが高い場合に限り、この実施の形態に基づくジャンル推定結果を提示しても良い。
【0034】
実施の形態2.
図8は、この発明の実施の形態2に係る音声対話装置の構成を示すブロック図である。図8に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、ジャンル推定手段106、ジャンル推定辞書107、提示手段108、対話制御手段109、ジャンル別操作知識110からなり、この実施の形態は上述の実施の形態1に対してジャンル別操作知識110を新たに設けたものである。以下、各機能ブロックについて説明する。ただし、既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
【0035】
ジャンル別操作知識110は、ジャンル推定手段106が推定したジャンルに応じて可能な検索方法を記載した表である。具体的には、データベースの内容・構成名称入力により、名称入力で検索可能な対象の場合と、そうでない場合がある。また、名称で検索可能であっても、精度の問題から検索対象外としている場合がありうる。さらに、名称で検索できない対象についても、地図等で提示は可能な場合と、そうでない場合がある。ジャンル別操作知識は、これらの区別に応じたジャンル別の検索方法が記載される。
【0036】
図9は、推定可能なジャンルに関するジャンル別操作知識110の例である。図中に示される「ゴルフ場」「学習塾」「信号」「公衆電話」の4ジャンルは、名称検索の可否、代替検索方法の有無に関して、それぞれ異なるジャンル別操作となっている。代替検索方法とは、名称入力以外の方法による検索の可否であり、具体例としては、最寄り駅近くの該当ジャンル対象を地図上により提示し、ユーザに選択させること等である。
【0037】
図9の例において、ジャンル「ゴルフ場」は、名称検索対象である。また、「ゴルフ場」は地図上に表示される施設でもあるため、代替検索手段として最寄り駅や最寄りのインターチェンジから地図上で検索することも可能である。ジャンル「学習塾」は、名称検索対象であるが、対象とするタスクではあまり検索されないため、精度の問題から検索対象外としているジャンルである。このため、初期状態において「学習塾」は検索対象となっておらず、検索対象をジャンル「学習塾」に絞ることで検索が可能である。ジャンル「信号機」は、名称から検索できないが地図上に表示できるため、最寄りの交差点名などで地図を表示して具体的に特定できる。ジャンル「公衆電話」は、名称で探すこともそれ以外の方法で探すこともできない検索対象である。このように、ジャンル別操作知識110を用いれば、名称検索対象よりはるかに広範囲のジャンルを推定し、対応を定めることができる。
【0038】
次に、図10のフローチャートを参照し、実施の形態2に係る音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期化する(S201)。
次に、提示手段108がユーザの入力プロンプトを提示し、音声認識手段101はそれに対するユーザの入力音声を受理し、音響辞書102・言語辞書103を参照して、音声認識結果を出力する(S202)。
次に、ジャンル推定手段106は、ジャンル推定辞書107を参照し、入力音声の認識結果に対応するジャンルとそのスコアを取得する(S203)。
次に、検索手段104は、検索データベース105を参照し、検索データベース105から音声認識結果に対する検索結果のエントリと検索の妥当性を示す検索スコアを出力する(S204)。
次に、提示手段108は、S204で取得した検索データベースエントリと、S203で取得したジャンル推定結果をユーザへ提示し、検索結果・ジャンル推定結果に対してユーザが可能な動作を示す(S205)。
ユーザへジャンルを提示した場合、ジャンル別操作知識110を参照して、それぞれのジャンルについてユーザが可能な操作を提示する(S206)。また、推定したジャンルが検索対象外である場合は、検索できないジャンルであることをユーザへ通知し対話を終了する。
【0039】
次に、ユーザは「検索成功(情報提示)」「提示ジャンルで絞込み」「代替検索方法への切り替え」「戻る(再発声)」から動作を選択する(S207)。
ユーザが「検索成功(情報提示)」を選択した場合、ユーザへ情報を提示して音声対話を終了する(S208)。
ユーザが「提示ジャンルで絞込み」を選択した場合、対話制御手段109は検索手段104へジャンルを切り替える指示を送り(S209)、S204に戻り再探索を行う。
ユーザが「戻る(再発声)」を選択した場合、入力された検索内容をクリアしてS202へ戻り再発声を待ち受ける。
ユーザが検索対象の名称以外からの「代替検索手段」を選択した場合、選択したジャンルおよび検索手段に応じた対話フローへ遷移する(S210)。このとき、選択したジャンル情報が利用可能であることはいうまでもない。
【0040】
なお、上記説明において「学習塾」は名称検索対象から除外している想定としていた。しかし、検索精度が低下するものの、追加施設に応じてひとたび施設を検索した場合は、検索結果の対象施設のみ、あるいは対象ジャンル全体を検索対象へ追加しても良い。また、このとき、ユーザの確認をとるようにしても良い。
【0041】
以上、説明したこの実施の形態の音声対話装置によると、音声検索結果と同時に推定された絞り込み候補ジャンルを提示する。このため、ユーザはジャンルの入力方法およびジャンルに応じた検索方法を戸惑うことなく、選択が可能となり操作性を改善できる。このとき、名称検索以外の代替検索処理備え、ユーザの目的達成失敗を最小化する。
また、このとき、従来の検索ジャンルに限らず、ジャンルに応じた対話を行うことができるため、操作性を改善できる。
【0042】
実施の形態3.
図11は、実施の形態3に係る音声対話装置の構成を示すブロック図である。図11に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、ジャンル推定手段106、ジャンル推定辞書107、提示手段108、対話制御手段109、ジャンル別操作知識110、対話停滞判定手段111からなる。この実施の形態は上述の実施の形態2に対して対話停滞判定手段111を新たに設けたものである。以下、各機能ブロックについて説明する。ただし、既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
【0043】
対話停滞判定手段111は、非音声操作、音声入力および検索手段により取得される検索式と検索結果と、その履歴に基づいて、音声検索対話が停滞状態であることを判定する。ここでは、音声検索対話が停滞状態であるとは、ユーザが発話を繰返し行っているにも関わらず、目的達成へ対話が進行していない状態と定義する。
【0044】
具体的には、同一条件での検索繰返しや、ユーザが訂正操作を行い繰返し発話する状態が続いた状態、無操作状態に陥っている状態等である。また、停滞状態が長く続く程、あるいはユーザの発話や操作の回数が多い程、停滞の度合いが大きいと考えられる。
対話停滞を検知する特徴量には、(1)無操作時間(P)、(2)直前発話との類似度(S)、(3)繰返し発話の回数(R)、(4)同一の検索条件による検索の回数(Q)、(5)同一の検索結果の提示回数(C)、(6)「訂正」操作の回数(X)等がある。
【0045】
以下、各特徴量について説明する。
(1)無操作時間(P)は、装置が応答提示後、ユーザが操作(音声入力を含む)を行っていない時間である。
(2)直前発話との類似度(S)は、直前発話との繰返し判定の指標であり、具体的には2発話の音響特徴量ベクトル時系列からDPマッチングにより算出する。
(3)繰返し発話の回数(R)は、上記類似度Sがしきい値以下となる発話が続く回数である。繰返し発話に対する検索結果は、基本的に同じ検索結果の提示となることが想定されるため、対話の停滞状態を表す指標となる。
(4)同一の検索条件による検索の回数(Q)は、入力された検索条件が過去一定時間に生じた回数である。
(5)同一の検索結果提示回数(C)は、過去一定時間に同一となる検索結果を提示した回数である。
(6)訂正操作の回数(X)は、入力発話を音声操作または非音声操作により訂正した回数である。
【0046】
対話停滞を検知する指標を算出する関数は、これら特徴量に対する関数として定義できる。例えば上記の1つ以上の特徴量を重み付け加算して、対話停滞を検知する関数を定義する。この値が一定のしきい値を超えたとき、対話が停滞状態であると判定する。
【0047】
次に、図12のフローチャートを参照し、実施の形態3にかかる音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期化する(S301)。
次に、提示手段108がユーザの入力プロンプトを提示し、音声認識手段101はそれに対するユーザの入力音声を受理し、音響辞書102、言語辞書103を参照して、音声認識結果を出力する(S302)。
次に、ジャンル推定手段106は、ジャンル推定辞書107を参照し、入力音声の認識結果に対応するジャンルとそのスコアを取得する(S303)。
次に、検索手段104は、検索データベース105を参照し、データベースエントリとその検索スコアを出力する(S304)。
【0048】
次に、対話停滞判定手段111は、入力音声、検索式、検索結果に基づいて、対話が停滞状態であるかどうか、判定する(S305)。
対話停滞状態ではない場合は、通常状態であり、推定ジャンル、検索結果の少なくとも一方をユーザへ提示し(S306)、ジャンル提示した場合は、ジャンル選択後に可能な操作を示す(S307)。
一方、対話停滞状態と判定された場合、対話停滞から脱するためにシステムは対話停滞時のための処理へ移行する(S308)。具体的には、システムの応答を通常状態とは変えて、推測したジャンルについてジャンル別操作知識に記載された名称入力以外の検索方法を行うようにユーザをガイドする。
【0049】
次に、ユーザは「検索成功(情報提示)」「提示ジャンルで絞込み」「代替検索方法への切り替え」「戻る(再発声)」から動作を選択する(S309)。
ユーザが「検索成功(情報提示)」を選択した場合、ユーザへ情報を提示して音声対話を終了する(S310)。
ユーザが「提示ジャンルで絞込み」を選択した場合、対話制御手段109は検索手段104へジャンルを切り替える指示を送り(S311)、S304に戻り再探索を行う。
ユーザが「戻る(再発声)」を選択した場合、入力された検索内容をクリアしてS301へ戻り再発声を待ち受ける。
ユーザが検索対象の名称以外からの「代替検索手段」を選択した場合、選択したジャンルおよび検索手段104に応じた対話フローへ遷移する(S312)。
【0050】
図13は、対話停滞時の動作の1例である。この例では、ユーザが名称検索で検索できないジャンル「学習塾」に属する「三ツ沢ゼミナール」を2度発声している(ユーザ1、ユーザ3)。訂正操作および繰返し発話から、システムの対話停滞判定手段111は対話が停滞状態にあることを判定し次発話(システム4)において、検索結果ではなく、ジャンル推定に基づく誘導を行う。ジャンル別操作知識110より、ジャンル「学習塾」が距離順に検索して提示することが可能である場合、ジャンル名と最寄り駅に対する距離順検索によりユーザへ誘導することが可能である。
【0051】
以上、説明した音声対話装置によると、対話停滞判定手段を備え、対話が停滞したと判定した場合は、対話停滞時のガイダンス情報を提示する。このため、ユーザは対話停滞時の方策へスムーズに移行することができ、検索目的の達成率を改善できる。
【0052】
実施の形態4.
図14は、実施の形態4に係る音声対話装置の構成を示すブロック図である。図14に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、提示手段108、対話制御手段109、検索対象スタック管理手段112からなる。この実施の形態は上述の実施の形態1に対してジャンル推定手段106、ジャンル推定辞書107省き、代わりに検索対象スタックを具備した検索対象スタック管理手段112を新たに設けたものである。以下、各機能ブロックについて説明する。ただし、既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
【0053】
検索対象スタック管理手段112は、具備した検索対象スタックにより音声検索のための音声認識結果と、変更したデータベース検索の属性を管理する。ユーザの検索項目追加または削除に応じて検索対象スタックの内容が増減する。以下、図15、図16、図17に示す例を用いて検索対象スタックの動作を説明する。
【0054】
図15に示す検索対象スタックは、既に(1)属性「ジャンル = 図書館」、(2)発話「神奈川県」に対する認識結果の2つの入力が格納されている。(1)は、段階的な音声入力やメニュー選択等により検索対象のジャンルを「図書館」に限っていることを示す。(2)は、既に行われた発話「神奈川県」による音声データ・音声認識結果および必要な中間データを格納されていることを示す。このとき、名称検索の対象は発話「神奈川県」であり、かつジャンルが「図書館」である検索結果をユーザへ提示する。適切に認識された場合、「神奈川県立xxx図書館」など多数の施設が提示されることが想定される。
【0055】
図16は、さらにユーザが「白幡町」と追加発話した場合である。検索対象スタックへは、発話「白幡町」に対する認識結果が追加される。このとき、名称検索の対象は(1)「神奈川県」と(3)「白幡町」の認識結果を合成したものとし、直感的には「神奈川県 白幡町」という発話の認識結果となる。この結果、検索対象スタックに含まれる(1)〜(3)によって発話「神奈川県」「白幡町」、ジャンル「図書館」の条件に基づく検索結果をユーザへ提示する。適切に認識された場合、「神奈川県立xx白幡xx図書館」に合致するような、より限られた施設が提示されることが想定される。
【0056】
図17は、続けてユーザが訂正操作を行った場合である。訂正操作は、ボタンなどによる非音声入力、あるいは「戻る」など検索対象としない特別なキーワードの発声と対応付けることができる。このとき、検索スタックにある最も新しい入力である(3)発話「白幡町」に対する認識結果を無効化する。無効化とは、具体的にはスタックから削除する、あるいは訂正対象となったことを表すフラグを付与しておく。この結果、有効な検索対象スタックの内容は、発話「神奈川県」の認識結果と、ジャンル属性「図書館」となる。これは、図15と同一の検索結果を返すことになる。すなわち、訂正操作の結果、1つ前の検索結果へ戻ることになる。
【0057】
次に、図18のフローチャートを参照し、実施の形態4に係る音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期化する(S401)。
ユーザは、音声絞込みを行うか、属性絞込みを行うか選択する(S402)。
音声絞込みを選択した場合、音声認識手段101は、ユーザの入力音声を受理し、音響辞書102、言語辞書103を参照して、音声認識結果を出力する(S403)。
さらに、対話制御手段109は、音声認識結果を検索対象スタックへ追加し、S406へ遷移する(S404)。
一方、属性絞込みを選択した場合、属性検索条件を選択し、検索対象スタックへ追加する(S405)。
【0058】
次に、検索手段104は、検索対象スタック管理手段112から検索対象とする名称および属性情報を取得し、検索データベース105から検索する(S406)。
次に、対話制御手段109は、検索手段104から検索結果を取得し、提示手段108により検索条件および検索結果をユーザへ提示する(S407)。
提示した検索結果に対してユーザは、終了、絞込み、訂正から選択した操作を行う(S408)。
所望の検索結果が得られた場合、検索を終了する(S409)。
さらに絞込みを行う場合、ステップS402へ戻り再び絞り込み属性を選択する。
訂正操作の場合、検索対象スタックへ追加された最新の内容を削除するとともに、ステップS406へ遷移して訂正後の検索結果を提示する(S410)。
【0059】
なお、上記説明では、音声絞込みと、属性絞込みの両方を並列的に実施する形態としていたが、一方に限定することは容易である。
特に、属性絞込みをボタン等から選択した場合、音声認識よりは確実な入力であるため訂正操作による削除を望まない場合が考えられる。このときは、属性絞込み項目に関しては削除前に確認を行うようにする、あるいは訂正対象を音声検索の対象に限定しても良い。
【0060】
また、属性絞込みでは、それより前の検索条件と矛盾して、検索結果が無くなる入力が入る可能性がある。例えば、最初にジャンルを「図書館」と設定したにもかかわらず、後でジャンルを「美術館」とした場合である。このため、該当する入力を受け付けないようにする、両者のOR条件とする(上記例では、属性ジャンルの検索条件を「図書館 OR 美術館」とする)、あるいは後の入力を優先し以前の検索条件を削除する等(この場合、ジャンル属性は「美術館」のみ)の対策を行っても良い。
【0061】
さらに、音声絞込みに関して、訂正を行わず続けて絞り込み発話を入力するのは、ユーザが途中提示した検索結果を妥当と考えた場合と考えられる。このため、絞込み発話を追加した検索により、絞込み前とは全く異なる検索結果を出力することは不適切である。そこで、検索対象スタックに以前からあった検索条件と、追加された検索条件で認識結果の信頼度スコアに重み付けすることが考えられる。具体的には、過去の発話程、高い音声認識スコアとなるように、音声認識スコアへ重み付けを行う。
【0062】
また、図17の説明および図18のフローチャート内ステップS410の動作において、訂正操作に対してスタック内で最も新しい入力を無効化すると説明した。このとき、訂正操作前の提示結果は、ユーザが望まない検索結果である可能性が高い。そこで、無効化した入力はスタックに残しておくとともに、検索の際には、認識スコアに対して負の重み付け、すなわち、対応する検索候補が出現しにくくするような重み付けを行っても良い。
【0063】
また、検索対象スタックの内容は、音声検索のための音声認識結果と、変更したデータベース検索の属性としていたが、音声認識結果の代わりに音声データや音声データを分析した音響特徴量ベクトル時系列を保持しておくことも可能である。この場合、検索が生じた時点で再度、音声認識手段へ渡して認識を行う必要が生じるものの、属性絞込み等、対話履歴を考慮した音響辞書102・言語辞書103を適用できるため、音声認識をより高精度化できる。
【0064】
以上、説明した音声対話装置によると、検索対象スタックを備えて複数回の発話および検索操作に基づく検索が行える。このため、検索対象が多いとき、スムーズな絞込みを実現でき、検索時間の低減と達成率の改善が図れる。
【0065】
実施の形態5.
図19は、実施の形態5に係る音声対話装置の構成を示すブロック図である。図19に示す音声対話装置は、音声認識手段101、音響辞書102、言語辞書103、検索手段104、検索データベース105、ジャンル推定手段106、ジャンル推定辞書107、提示手段108、対話制御手段109、検索対象スタックを備えた検索対象スタック管理手段112からなる。この実施の形態は上述の実施の形態4に対しジャンル推定手段106とジャンル推定辞書107を追加したものである。機能ブロックは、全て既に説明済みであり、同一の番号を付し説明を省略する。
【0066】
次に、図20のフローチャートを参照し、実施の形態5にかかる音声対話装置の動作を説明する。
まず、対話制御手段109は、検索条件を初期化する(S501)。
ユーザは、音声絞込みを行うか、属性絞込みを行うか選択する(S502)。
音声絞込みを選択した場合、音声認識手段101は、ユーザの入力音声を受理し、音響辞書102・言語辞書103を参照して、音声認識結果を出力する(S503)。
さらに、対話制御手段109は、音声認識結果を検索対象スタックへ追加する(S504)。
さらに、ジャンル推定手段106は、音声認識結果からジャンルを推定し、ステップS507へ遷移する(S505)。
一方、属性絞込みを選択した場合、属性検索条件を選択し、検索対象スタックへ追加する(S506)。
【0067】
次に、検索手段104は、検索対象スタック管理手段112から検索対象とする名称および属性情報を取得し、検索データベース105を検索する(S507)。
次に、対話制御手段109は、検索手段104から検索結果を取得し、提示手段108により検索条件および検索結果をユーザへ提示する(S508)。
提示した検索結果に対してユーザは、終了、絞込み、訂正から選択した操作を行う(S509)。
所望の検索結果が得られた場合、検索を終了する(S510)。
さらに絞込みを行う場合、ステップS502へ戻り再び絞り込み属性を選択する。
訂正操作の場合、検索対象スタックへ追加された最新の内容を削除する(S511)。
さらに、ステップS505で格納した推定ジャンルがある場合、次回提示する属性検索条件のジャンルとし(S512)、ステップS502へ戻る。
【0068】
以上、説明した音声対話装置によると、検索対象スタックを備えて複数回の発話および検索操作に基づく検索が行える。さらに、音声検索結果に対して訂正操作を行った場合、次回提示する属性絞込みの候補として、訂正対象の発話から推定したジャンル推定結果を提示する。
このため、検索失敗した場合に、妥当性の高いジャンル選択候補を提示できるためスムーズな絞込みを実現でき、検索時間の低減と達成率の改善が図れる。
なお、参考までに上述の実施の形態1〜実施の形態5までの全ての機能を兼ね備えた実施の形態のブロック図を図21に示す。
【産業上の利用可能性】
【0069】
この発明は、入力音声の音声認識結果によりジャンルを推定し、推定されたジャンルで絞り込みを行うので、カーナビゲーション装置や携帯電話機等に適用されることで、操作性の改善や検索精度のより高い製品を提供できる。
【図面の簡単な説明】
【0070】
【図1】この発明の音声対話装置の実施の形態1によるブロック図である。
【図2】認識結果に対する単語グラフを示す図である。
【図3】ジャンル推定辞書内容例の説明図である。
【図4】この発明の実施の形態1の動作説明用フローチャートである。
【図5】実施の形態1の検索対話による情報提示例の説明図である。
【図6】ジャンル絞込みのためのジャンル木構造例の説明図である。
【図7】実施の形態1の検索対話におけるジャンル提示後の情報提示例の説明図である。
【図8】この発明の実施の形態2のブロック図である。
【図9】ジャンル別操作知識の例を示す説明図である
【図10】この発明の実施の形態2の動作説明用フローチャートである。
【図11】この発明の実施の形態3のブロック図である。
【図12】この発明の実施の形態3の動作説明用フローチャートである。
【図13】対話停滞状態脱出のための典型的対話例の説明図である。
【図14】この発明の実施の形態4のブロック図である。
【図15】検索対象スタックに収納される内容例の説明図である。
【図16】検索対象スタックに収納される追加発話の内容例の説明図である。
【図17】検索対象スタックに収納される訂正操作の内容例の説明図である。
【図18】この発明の実施の形態4の動作説明用フローチャートである。
【図19】この発明の実施の形態5のブロック図である。
【図20】この発明の実施の形態5の動作説明用フローチャートである。
【図21】この発明の実施の形態1から実施の形態5の機能を兼ね備えた実施の形態を示すブロック図である。
【符号の説明】
【0071】
101;音声認識手段、102;音響辞書、103;言語辞書、104;検索手段、105;検索データベース、106;ジャンル推定手段、107;ジャンル推定辞書、108;提示手段、109;対話制御手段、110;ジャンル別操作知識、111;対話停滞判定手段、112;検索対象スタック管理手段。
【特許請求の範囲】
【請求項1】
入力音声を音響辞書と言語辞書を参照して、音声認識する音声認識手段と
ジャンル推定辞書参照し、入力音声の認識結果に対応するジャンルを推定するジャンル推定手段と、
音声認識手段の音声認識結果と属性条件に基づき検索データベースを検索し、検索データベースから検索候補を取得する検索手段と、
取得した検索の候補と、ジャンル推定結果をユーザへ提示し、ユーザが選択可能な動作を示す提示手段を備え
検索手段は、提示手段により提示された検索の候補が目的外のときユーザが提示され、選択したジャンル属性に応じて検索対象の属性条件を変更して検索データベースから候補を再度検索する構成にされたことを特徴とする音声対話装置。
【請求項2】
ジャンル別のガイダンス内容または代替検索方法を記載したジャンル別操作知識をさらに備え、
検索手段が、検索データベースから候補を再度検索するとき、
ジャンル別操作知識は、ジャンル属性に応じたガイダンス内容の提示または代替検索方法へユーザを誘導可能に構成されたことを特徴とする請求項1記載の音声対話装置。
【請求項3】
音声対話が目的達成に向けて進行していない対話停滞状態を判定する対話停滞判定手段をさらに備え、
対話停滞判定手段は、対話が停滞していると判断したとき、ユーザをジャンル別操作知識の代替検索方法へ移行するように誘導可能に構成されたことを特徴とする請求項2記載の音声対話装置。
【請求項4】
入力音声を音響辞書と言語辞書を参照して、音声認識する音声認識手段と
音声認識手段の音声認識結果と属性条件に基づき検索データベースを検索し、検索データベースから検索候補を取得する検索手段と、
音声認識結果と最新の属性情報を格納する検索対象スタックを管理する検索対象スタック管理手段と、
取得した検索の候補をユーザへ提示し、ユーザが選択可能な動作を示す提示手段を備え
検索手段は、検索対象スタック管理手段から検索対象スタック内の情報を得て、検索データベースから候補を検索する構成にされたことを特徴とする音声対話装置。
【請求項5】
ジャンル推定辞書参照し、入力音声の認識結果に対応するジャンルを推定するジャンル推定手段をさらに備え、
検索手段は、検索対象スタック管理手段からの検索対象スタック内情報による検索が可能であるとともに、ユーザにより選択されたたジャンル属性に応じて検索対象の属性条件を変更して候補を再度検索する構成にされたことを特徴とする請求項4記載の音声対話装置。
【請求項6】
ジャンル推定手段は、認識結果に含まれる単語または単語列と、ジャンルとの対応の度合いを示すマトリクスに基づいて推定ジャンルを決定する構成にされたことを特徴とする請求項2記載の音声対話装置。
【請求項7】
ジャンル推定手段は、認識結果を構成する単語とジャンルの対応を表すTf・Idf指標に基づいて推定ジャンルを決定する構成にされたことを特徴とする請求項2記載の音声対話装置。
【請求項8】
検索手段が抽出した1位候補のスコアが所定のしきい値よりも低い、または抽出した候補数が所定のしきい値よりも少ない場合に限り、提示手段はジャンル推定手段が推定したジャンル候補を提示する構成にされたことを特徴とする請求項1・請求項2・請求項3・請求項5の何れか1項に記載の音声対話装置。
【請求項9】
提示手段は、ジャンル推定手段が推定したジャンル推定のスコアが所定のしきい値より高い場合に限り、ジャンル推定手段の推定したジャンル候補を提示する構成にされたことを特徴とする請求項1・請求項2・請求項3・請求項5の何れか1項に記載の音声対話装置。
【請求項10】
対話停滞判定手段は、連続した訂正回数が所定の回数を超えた場合にジャンル候補を提示する構成にされたことを特徴とする請求項3記載の音声対話装置。
【請求項11】
対話停滞判定手段は、対話停滞の判定に、無操作時間、直前発話との類似度、繰返し発話の回数、同一の検索条件による検索回数、同一の検索結果の提示回数、「訂正」操作から選択した1つ以上の特徴量からなる関数を用いる構成にされたことを特徴とする請求項3記載の音声対話装置。
【請求項12】
検索対象スタック管理手段は、検索対象スタックにユーザからの複数回の入力による検索対象の絞込み項目を格納し、
検索手段は検索対象スタックに格納され、有効となっている検索項目の入力順序に応じて検索結果のスコアの重み付けを変える構成にされたことを特徴とする請求項4または請求項5記載の音声対話装置。
【請求項13】
検索手段は、検索対象スタック管理手段からの検索対象スタックの内容により検索処理をする際、訂正操作の対象となった入力に対して検索結果のスコアの重み付けを変える構成にされたことを特徴とする請求項4または請求項5記載の音声対話装置。
【請求項14】
検索対象スタック管理手段は、絞り込み操作中の訂正操作によりスタックに格納された検索条件を削除する際、スタックに格納された最も新しい検索条件から順に削除していくことを特徴とする請求項4または請求項5記載の音声対話装置。
【請求項1】
入力音声を音響辞書と言語辞書を参照して、音声認識する音声認識手段と
ジャンル推定辞書参照し、入力音声の認識結果に対応するジャンルを推定するジャンル推定手段と、
音声認識手段の音声認識結果と属性条件に基づき検索データベースを検索し、検索データベースから検索候補を取得する検索手段と、
取得した検索の候補と、ジャンル推定結果をユーザへ提示し、ユーザが選択可能な動作を示す提示手段を備え
検索手段は、提示手段により提示された検索の候補が目的外のときユーザが提示され、選択したジャンル属性に応じて検索対象の属性条件を変更して検索データベースから候補を再度検索する構成にされたことを特徴とする音声対話装置。
【請求項2】
ジャンル別のガイダンス内容または代替検索方法を記載したジャンル別操作知識をさらに備え、
検索手段が、検索データベースから候補を再度検索するとき、
ジャンル別操作知識は、ジャンル属性に応じたガイダンス内容の提示または代替検索方法へユーザを誘導可能に構成されたことを特徴とする請求項1記載の音声対話装置。
【請求項3】
音声対話が目的達成に向けて進行していない対話停滞状態を判定する対話停滞判定手段をさらに備え、
対話停滞判定手段は、対話が停滞していると判断したとき、ユーザをジャンル別操作知識の代替検索方法へ移行するように誘導可能に構成されたことを特徴とする請求項2記載の音声対話装置。
【請求項4】
入力音声を音響辞書と言語辞書を参照して、音声認識する音声認識手段と
音声認識手段の音声認識結果と属性条件に基づき検索データベースを検索し、検索データベースから検索候補を取得する検索手段と、
音声認識結果と最新の属性情報を格納する検索対象スタックを管理する検索対象スタック管理手段と、
取得した検索の候補をユーザへ提示し、ユーザが選択可能な動作を示す提示手段を備え
検索手段は、検索対象スタック管理手段から検索対象スタック内の情報を得て、検索データベースから候補を検索する構成にされたことを特徴とする音声対話装置。
【請求項5】
ジャンル推定辞書参照し、入力音声の認識結果に対応するジャンルを推定するジャンル推定手段をさらに備え、
検索手段は、検索対象スタック管理手段からの検索対象スタック内情報による検索が可能であるとともに、ユーザにより選択されたたジャンル属性に応じて検索対象の属性条件を変更して候補を再度検索する構成にされたことを特徴とする請求項4記載の音声対話装置。
【請求項6】
ジャンル推定手段は、認識結果に含まれる単語または単語列と、ジャンルとの対応の度合いを示すマトリクスに基づいて推定ジャンルを決定する構成にされたことを特徴とする請求項2記載の音声対話装置。
【請求項7】
ジャンル推定手段は、認識結果を構成する単語とジャンルの対応を表すTf・Idf指標に基づいて推定ジャンルを決定する構成にされたことを特徴とする請求項2記載の音声対話装置。
【請求項8】
検索手段が抽出した1位候補のスコアが所定のしきい値よりも低い、または抽出した候補数が所定のしきい値よりも少ない場合に限り、提示手段はジャンル推定手段が推定したジャンル候補を提示する構成にされたことを特徴とする請求項1・請求項2・請求項3・請求項5の何れか1項に記載の音声対話装置。
【請求項9】
提示手段は、ジャンル推定手段が推定したジャンル推定のスコアが所定のしきい値より高い場合に限り、ジャンル推定手段の推定したジャンル候補を提示する構成にされたことを特徴とする請求項1・請求項2・請求項3・請求項5の何れか1項に記載の音声対話装置。
【請求項10】
対話停滞判定手段は、連続した訂正回数が所定の回数を超えた場合にジャンル候補を提示する構成にされたことを特徴とする請求項3記載の音声対話装置。
【請求項11】
対話停滞判定手段は、対話停滞の判定に、無操作時間、直前発話との類似度、繰返し発話の回数、同一の検索条件による検索回数、同一の検索結果の提示回数、「訂正」操作から選択した1つ以上の特徴量からなる関数を用いる構成にされたことを特徴とする請求項3記載の音声対話装置。
【請求項12】
検索対象スタック管理手段は、検索対象スタックにユーザからの複数回の入力による検索対象の絞込み項目を格納し、
検索手段は検索対象スタックに格納され、有効となっている検索項目の入力順序に応じて検索結果のスコアの重み付けを変える構成にされたことを特徴とする請求項4または請求項5記載の音声対話装置。
【請求項13】
検索手段は、検索対象スタック管理手段からの検索対象スタックの内容により検索処理をする際、訂正操作の対象となった入力に対して検索結果のスコアの重み付けを変える構成にされたことを特徴とする請求項4または請求項5記載の音声対話装置。
【請求項14】
検索対象スタック管理手段は、絞り込み操作中の訂正操作によりスタックに格納された検索条件を削除する際、スタックに格納された最も新しい検索条件から順に削除していくことを特徴とする請求項4または請求項5記載の音声対話装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【公開番号】特開2008−97082(P2008−97082A)
【公開日】平成20年4月24日(2008.4.24)
【国際特許分類】
【出願番号】特願2006−274855(P2006−274855)
【出願日】平成18年10月6日(2006.10.6)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】
【公開日】平成20年4月24日(2008.4.24)
【国際特許分類】
【出願日】平成18年10月6日(2006.10.6)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】
[ Back to top ]