説明

音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法

【課題】コンピュータによって実現される方法は、音声ベースのユーザインタフェースを介するユーザの対話を円滑にする。
【解決手段】本方法は、1つ又は複数の単語から成るフレーズの形式においてユーザからの発話入力を取得する。さらに本方法は、フレーズがクエリであるか又はコマンドであるかを、複数の異なるドメインを使用して判断する。フレーズがクエリである場合、本方法は複数のデータベースから関連性のあるアイテムを検索し、提示する。フレーズがコマンドである場合、本方法は動作を実行する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的には自動音声認識システムに関し、より詳細には、そのようなシステムのためのユーザ対話インタフェースに関する。
【背景技術】
【0002】
自動音声認識(ASR:Automatic Speech Recognition)を利用するアプリケーションは、ユーザと対話するために、音声ベースのユーザインタフェースを必要とする。一般的に、ユーザは、発話ユーザ入力を使用する2タイプのタスクを実行することができる。第1のタイプは、クエリを用いた情報検索(IR:Information Retrieval)に関連する。このタスクにおいて、ユーザは、アイテム、例えば、文書、画像、記録を、データベースに格納された多くのアイテムの集合、例えば、インターネットのウェブから検索することを望む。もう一方のタスクのタイプは、音声対応のコマンド及び制御である。ここでは、ユーザは、何らかの操作を実行することを望む。両タスクは、ユーザが言ったかもしれないことの可能性の「絞込み」を含む。
【0003】
IRの場合、これは多くの場合で、図1に示すようなやりとりを通じて遂行される。図1において、縦軸は時間を示す。図1において、ユーザ101のステップは、左側に示されており、システム102のステップは、右側にある。システムは、或るルート状態R120を有している。ユーザ101は、例えばアイテムを検索するために、発話入力110を提供する。発話入力110は、いくつかの他の状態セットY及びZ123に関連するのではなく、状態セットX124に関連するものとして解釈される(122)。これに応じて、システムは、次の状態X125に入り、おそらくユーザを促す。
【0004】
ユーザは、追加入力110を提供する。例えば、声ベースの目的地エントリーシステムにおいて、ユーザは、最初に国を選択することを要求される場合ある。その後、分岐したステップにおいて、目的地の通り名を言うことを許可される前に、都市を選択することを要求される場合がある。対話が完了し、関連するアイテム127が検索されるまで、プロセス124は反復し、状態128−129を変更する(126)システムを継続する。
【0005】
通常、すべてのシステム状態は、限られた状態固有の文法、語彙、及び/又は言語モデルを有し、128及び129のような状態は、有限状態機械(FSM:finite−state machine)における2つ以上のアプリケーション状態の横断を含むマルチステッププロセスを介してのみ到達可能である。
【0006】
図2に示すように、コマンド型アプローチは、多くの場合に「キャリア」フレーズを含み、そこでは、いくつかの修飾語及び/又は変数として同一フレーズ130の中にコマンド言語が存在する。システムは、フレーズ130の中にある修飾語句及び変数として付与されたキャリアフレーズの意味を解釈し(122)、状態セットX124に入る。キャリアフレーズが或る状態例Xと関連がある場合、本システムは、すぐに該状態に入るか、又は該状態に入る前にユーザからの確認を要求する(132)。ユーザパート133上の確認又は取り消し137は、言語的な対話様式又は物理的な対話様式を使用して実現することができる(139)。プロセス124は、前述同様に反復することができる。
【0007】
他方のアプローチも一般的である。例えば、コマンドなしで変数を発話することができるか、又は、コマンドは変数のみを利用可能なダイアログ状態を開始し得る。検索タスクは、例えば、「アーティストVanilla Iceを見つけろ」というフレーズの中のキャリアワードを使用して達成される。しかし、それぞれの場合に、状態毎の語彙、フレーズの文法、及び/又は言語モデルが確定される。
【0008】
一般的に、2つの異なるインタフェースは、互いに互換性がない。すなわち、IRインタフェースはコマンドを処理できず、制御インタフェースはクエリを処理できない。
【発明の概要】
【課題を解決するための手段】
【0009】
音声インタフェースは、1つ又は複数の単語から成るフレーズの形式において発話入力を取得する。該フレーズがクエリであるか、又はコマンドであるかが判断される。該フレーズがクエリである場合、該フレーズによって特定される関連性のあるアイテムをデータベースから検索し、そうではなく、該フレーズがコマンドの場合、動作を実行する。
【図面の簡単な説明】
【0010】
【図1】従来技術の情報検索ための音声ベースのインタフェースのブロック図である。
【図2】従来技術のコマンド及び制御のための音声ベースのインタフェースのブロック図である。
【図3】本発明の実施の形態1による発話によるユーザインタフェースのブロック図である。
【図4】本発明の実施の形態1によるドメインの概略図である。
【図5】図4のドメインを構築するためのプロセスの概略図である。
【図6】本発明の実施の形態1によるドメイン構造例の概略図である。
【発明を実施するための形態】
【0011】
実施の形態1.
本発明の実施の形態1は、音声ベースのインタフェースを介してユーザと対話するための方法を提供する。任意の発話入力は、情報検索に、又はコマンド及び制御に関連し得る。ここで、後者は、メニュー間又は機能階層間の選択を含み得る。
【0012】
限られた語彙及び文法を有する従来の発話によるユーザインタフェースと対照的に、本発明のインタフェースは、基本的に無制限な語彙及び文法を有する。これは、任意の順番で任意の単語を発話することができることを意味する。これは、発話によるインタフェースの操作の柔軟性と効率性とを非常に高める。
【0013】
インタフェース構造及び操作
図3は、本発明の実施の形態1による音声ベースのユーザインタフェースを示す。縦軸は、時間を表している。ユーザ101の動作は、左側に示されており、システム102の動作は、右側に示されている。
【0014】
ユーザは、1つ又は複数の単語から成るフレーズの形式において、非構造的又は半構造的な発話入力133を提供することによって対話を開始する。従来のインタフェースとは異なり、該入力は、クエリ又はコマンドであり得る。
【0015】
変数及び修飾語句が、コマンド言語に加えてコマンドフレーズの中に含まれている場合がある。すなわち、本インタフェースによって、ユーザは、何でも言うことができる。
【0016】
従来のインタフェースにおけるように、有限状態機械(FSM)124に入るのではなく、本システムは、参照によりその全体が本明細書に援用される、米国特許第6,877,001号明細書に説明されているような、音声ベースのIRシステムを使用する発話入力に対するマルチドメイン検索及び関連度解析のシーケンス135を実行する。
【0017】
発話入力は、同時係属中の関連する米国特許出願第12/036,681号明細書に説明及び示されているように、任意の下層のインデックス及びデータベースと同様に、パーティクルを使用することができる。検索及び関連度評価は、様々なドメインの中で起き、ドメインによっては、従来のコマンド及び制御インタフェースと同様にコマンドに関係するものもあり、文書の集合若しくは音楽の集合、又はナビゲーションシステムの関心地点(POI:points of interest)のような、検索可能なコンテンツに関係するものもある。
【0018】
アプリケーションの異なる機能領域の中の状態、例えば、オーディオ/ビジュアル及びナビゲーションに、別個にインデックス付けし、1つ又は複数の異なるコマンドドメインを形成することができる。
【0019】
コマンド及びクエリドメイン
コマンドドメインの場合、IRエンジンによって検索される「アイテム」は、所与のFSM状態に対するポインタであり、該アイテムは、この状態及び該アイテムの状態から到達可能な他の状態によって予期される任意の入力に関する情報を含む場合がある。コマンドアイテムのIRインデックスの中に含まれていない入力が要求される場合、従来の有限状態文法(FSG:finite state grammar)に反する、変数及び/又は修飾語句の代用語を含む音声入力を再認識することにより、又は、追加的な明確化用入力をユーザに促すことにより、入力を抽出することができる。
【0020】
コンテンツドメインの場合、検索される「アイテム」は、アーティスト、アルバム、又は音楽集合の中の楽曲、又は近くのレストランPOIのような、検索可能なコンテンツの個別のノードに対するポインタである。
【0021】
本システムは、発話入力がクエリであるか又はコマンドであるか判断する(136)。最も一致するドメインがコンテンツドメインである場合、結果リスト137がユーザに提示され、ユーザは、有効にするコンテンツを選択する(140)。入力フレーズがコマンドの場合、最も一致するコマンド若しくは複数のコマンドが確認のためにユーザに提示され得るか、又は、明らかに最も一致するコマンドがある場合には、すぐに実行され得る(138)。必要であれば、コマンド又はクエリを精密化するか又は完全にするために、追加的なフレーズを入力することができる。
【0022】
結果の提示
関連性のあるコマンド又は関連性のあるアイテムは、多数の異なる方法でユーザに提示され得る。異なるドメインからの関連性のある一致は、ドメイン毎に分離することができ、ドメインは、毎回同じ順序で表示されるか、又は所与のクエリに対する関連度の降順で表示される。代替的には、全ドメインからの一致が、結合された結果リストの中に混合されてもよい。
【0023】
関連性のあるドメインの判断
いかなる音声入力フレーズも、ドメインのそれぞれの中で一致する可能性が高い。入力フレーズに対する最も関連性のあるドメインを判断するために、無作為の取り出しによって最も取得される可能性の低い一致はどれかを判断する。その尤度は、従来のように計算され得る。
【0024】
図4は、全ドメイン内のアイテムIのセット406を示す。該セット内のアイテムIの数はTである。サブセットI、I等は、ドメイン1、2等からのアイテムを表し、T、T等は、これらサブセットのそれぞれの中にあるアイテムの数を表す。これらサブセットは交わることができる。サブセット407及び408を参照されたい。
【0025】
ユーザの入力フレーズUは、N個のアイテムを検索する。N個のアイテムの中でN個のアイテムは、サブセットIからのもの、N個は、サブセットIからのものであり、以下同様である。これらの検索の関連度を判断するために、確率Prand(N,N)を求める。ここで、セットIからN個のアイテムを無作為に取り出す場合、アイテムのうちのN個がサブセットDからのものである。
【0026】
同様に、確率Prand(N,N)を求める。ここで、セットIからN個の文書を無作為に取り出す場合、N個がサブセットIに属する。概して、確率Prand(N,N)は、i番目のドメインから取得されるアイテムの数が、セットIからのN個の文書の無作為な取り出しによっても同様に取得された可能性がある確率である。そのとき、入力フレーズUに対するドメインは、最小確率Prand(N,N)を有する。すなわち、次式が成立する。
【0027】
Domain(U)=argminrand(N,N)
【0028】
上記方法は、無作為に取得された可能性が最も低いのは、いずれのドメインであるかを判断し、対応するドメインが入力フレーズに対して最も関連性のあるドメインであるとして選択される。さらに、確率に関する追加の閾値が、入力フレーズを完全に拒否するために適用され得る。
【0029】
無作為にN個の文書を取り出すことの実際の確率を考慮に入れるか、又は、定型句の範囲内でのPrand(N,N)に対する上限又は下限を使用する、上記方法の他の実施の形態も可能である。
【0030】
文書ベースのドメインの構造
関連の米国出願で説明されているように、ドメイン内のアイテムは、各アイテムにインデックス付けすることによって構築される。例えば、アイテムは、オペレータのマニュアル510のようなテキスト文書である(図5)。該文書は、明示的又は黙示的に設定されていることがあり、機械可読形式もしくは人間可読形式で提供されている場合がある。インデックス付けする過程は、文書を分割してより小さなセクションとし(520)、所与のセクションをユーザが検索することにより、発話される可能性が高い用語又はフレーズを識別する。
【0031】
チャプタのタイトル及びサブチャプタのような、文書の構造を使用して用語を識別することができるいくつかの手段がある。単語及びフレーズの発生に関する統計値を全体として及びセクション毎に集計することができる。セクション毎に、文書全体のそれぞれに関する用語に対し、重みを割り当てることができる。これは、IRの目的のためのより関連性のある用語の識別を可能にする。
【0032】
例えば「the」のような非常に短い又は一般的な単語、重要でない用語から成る、手動生成又はマシン生成の「ストップリスト」を組み込むことができる。しかし、ストップリスト上の用語が、特定のセクションにおいて高頻度で発生し、他のセクションではそうではないことが判明した場合、その用語は、ストップリストから関連性のある用語リストに移される。
【0033】
チャプタのタイトル又はサブチャプタのタイトルに現れる、関連性のある用語又は特徴的な用語は、類義語辞書で調べらことができ、見つかった場合、そのような類義語も、所与のセクションの関連性のある用語リスト又は特徴的な用語リストに追加される。
【0034】
図6は、ユーザ入力133、サーチドメイン610のセット及びコマンドドメイン602のセット、並びにアイテムの様々なサブセットを備え、それらのうちのいくつかが交わることができる階層的構造におけるドメイン構造を示す。
【0035】
本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することである。

【特許請求の範囲】
【請求項1】
音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法であって、
1つ又は複数の単語から成るフレーズの構造におけるユーザからの発話入力を取得するステップと、
前記フレーズがクエリであるか又はコマンドであるかを、複数の異なるドメインを使用して判断するステップと、
前記フレーズがクエリである場合、複数のデータベースから関連性のあるアイテムを検索し、提示するステップと、
前記フレーズがコマンドである場合、動作を実行するステップと、
を備えた音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
【請求項2】
前記フレーズが前記コマンドである場合、該フレーズは、変数と修飾語句とを含む、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
【請求項3】
前記フレーズは、パーティクルの形式であり、アイテムに対するインデックスは、パーティクルの形式である、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
【請求項4】
関連性のあるアイテムは、ドメイン毎に分離される、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
【請求項5】
関連性のあるアイテムは、関連度順に提示される、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
【請求項6】
関連性のあるアイテムは、結合された結果リスト内で混合される、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
【請求項7】
すべての可能性のあるアイテムがアイテムのセットを形成し、
前記方法は、
前記セット内のアイテムをアイテムのサブセットにグループ分けするステップであって、アイテムの各前記サブセットは、前記複数のドメインのうちの1つを形成する、グループ分けするステップと、
前記クエリに応答して、前記複数のドメインうちの1つ又は複数から前記アイテムを検索するステップと、
検索されたアイテムが、アイテムのセット全体からの無作為の取り出しによって取得される可能性が最も低い場合、前記クエリに最も関連性があるものとして特定のドメインを選択するステップと、
をさらに備えた請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公表番号】特表2011−505026(P2011−505026A)
【公表日】平成23年2月17日(2011.2.17)
【国際特許分類】
【出願番号】特願2010−521152(P2010−521152)
【出願日】平成21年2月25日(2009.2.25)
【国際出願番号】PCT/JP2009/053998
【国際公開番号】WO2009/107848
【国際公開日】平成21年9月3日(2009.9.3)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】