説明

ダイアログシステムの駆動方法

本発明は、音声信号を処理する音声インタフェースを有するダイアログシステムを駆動する方法を記載する。本方法は、予想される音声入力信号の特性を推定し、当該特性に従って音声インタフェース制御パラメータを生成する。音声インタフェースの動作は、この音声インタフェース制御パラメータに基づき最適化される。さらに本発明は、音声インタフェースと、ダイアログ制御ユニットと、予想される音声入力信号の特性を推定する予測モジュールと、前記特性に基づき音声入力制御パラメータを生成することにより、前記音声インタフェースの動作を最適化する音声最適化装置とを有することを特徴とするダイアログシステムを記載する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般にダイアログシステムの駆動方法に関し、より詳細には発話ベースダイアログシステム及び対応するダイアログシステムに関する。
【背景技術】
【0002】
マンマシーンインタフェースの分野における最近の進歩は、装置と装置のユーザとの間の対話(ダイアログ)を介し動作する技術的装置の広範な利用を導いた。一部のダイアログシステムは、ユーザ側での手動によるやりとり及び視覚情報の表示に基づくものである。例えば、ほとんどすべての携帯電話機は、それのディスプレイ上に選択肢を表示することに基づき操作ダイアログと、特定の選択肢を選択するのに適切なボタンのユーザによる押下とにより操作される。このようなダイアログシステムは、ユーザが自由にディスプレイ上の視覚情報を見て、ダイアログシステムと手動によりやりとりできる環境においてのみ実現可能である。しかしながら、ユーザが車の運転など他の作業に集中する必要がある環境では、ユーザが自らの選択肢を決定するのに画面を見ることは実際的ではない。さらに、ユーザが自らの選択肢を手動により入力することは不可能であるか、あるいは、これを行うのと、ユーザが危険な状況に置かれる可能性もある。
【0003】
しかしながら、少なくとも部分的に発話に基づくダイアログシステムは、ユーザが当該システムとの発話を入力することを可能にする。ユーザは、コマンドを発話し、ダイアログシステムから視覚及び/又は音声によるフィードバックを受け取る。そのような一例として、ユーザがビデオレコーダなどの装置を起動させるためのコマンドを発話する家電管理システムがあげられる。他の例としては、ユーザが装置に質問をしたり、コマンドを指示し、当該装置が応答を与えたり、質問を返し、これによりユーザと装置が対話に入る車のナビゲーション装置や他の装置の動作であってもよい。他のダイアログ又は会話システムは、地域のレストランに関する情報及びそこへの行き方を提供する電話ダイアログや、フライト状況に関する情報を提供し、ユーザが電話機を介しフライトを予約することを可能にする電話ダイアログなどの電話ダイアログとして利用及び実現されている。上記ダイアログシステムの共通の特徴は、発話を含む音声入力を記録及び処理し、入力音声閾値、ファイナルサイレンスウィンドウ(final silence window)などの各種パラメータにより構成することが可能な音声インタフェースである。
【0004】
このようなダイアログシステムの1つの問題点は、ユーザにより与えられる音声入力が、ほとんど常にある量の背景ノイズを伴うということである。従って、発話ベースダイアログシステムの音声インタフェースの1つの制御パラメータは、音声がサイレンスとみなされるべきノイズレベルを指定する。音声がサイレンス閾値より大きい、すなわち、サイレンス閾値より大きな信号エネルギーを有する場合のみ、当該音声は音声としてみなされる。残念ながら、背景ノイズは可変的なものであるかもしれない。背景ノイズは、例えば、車の運転手がアクセルを踏み、これにより大きなモーター音が発生したり、あるいは、運転手が窓を開け、これにより車の外部からのノイズが背景ノイズに影響を与えたりなどの環境状態の変化により増大する。背景ノイズのレベルの変化は、エアコンを作動させるためなどの発話されるユーザコマンドに応答して、ダイアログシステムによりとられるアクションにより生じるかもしれない。以降における背景ノイズの上昇は、音声入力信号に対し信号対ノイズ比を低下させる効果を有する。それはまた、背景ノイズがサイレンス閾値を超過する状況をもたらし、結果として不正確に解釈されるかもしれない。他方、サイレンス閾値が高すぎる場合、発話されたユーザ入力は、サイレンス閾値を超えることができず、結果として無視されるかもしれない。
【0005】
現在のダイアログシステムの他の問題点は、可能な限り多くの可能性をカバーするため、他の閾値制御パラメータもまたしばしば設定され、一般には固定値に設定されるということである。例えば、ファイナルサイレンスウィンドウ(ユーザの直近の発話とユーザが発話したと結論付けるシステム判断との間の経過時間)は固定された長さを有するが、ユーザが実際に発話を終了した後に経過した時間の長さは、ユーザが発話した内容に大きく依存する。例えば、ダイアログシステムにより与えられる直接的な質問に対するシンプルな「イエス/ノー」の回答は、長いファイナルサイレンスウィンドウを必要としない。他方、あるルートに沿って訪れる目的地などの自由形式の質問に対する応答は、ユーザの発話内容に応じて任意の長さを有し得る。従って、ファイナルサイレンスウィンドウは、このような応答をカバーするだけの十分な長さを有する必要がある。なぜなら、短い値はユーザの応答が終了前にカットされる可能性があるからである。スペルを言う入力もまた、比較的長いファイナルサイレンスウィンドウを必要とする。なぜなら、単語のスペルを言う文字の間のポーズは、フレーズ又はセンテンスの単語の間のポーズより通常長くなるためである。しかしながら、長いファイナルサイレンスウィンドウは、ダイアログシステムの応答時間を長くし、特に短いイエス/ノー応答を期待する連続する質問の場合には不快にさせる可能性がある。ユーザは少なくとも毎回ファイナルサイレンスウィンドウの時間と同程度の時間だけ待機する必要があるため、当該対話はユーザにとっておそらく不自然なものとなるであろう。
【発明の開示】
【発明が解決しようとする課題】
【0006】
従って、本発明の課題は、容易な利用を提供しながら、ダイアログシステムのパフォーマンスを最適化し、困難な状況下での良好な音声認識を保証する容易かつ安価な方法を提供することである。
【課題を解決するための手段】
【0007】
このため、本発明は、予想される音声入力信号の特性を推定し、当該特性に従って音声インタフェース制御パラメータを生成し、音声インタフェースの動作を自動的に最適化するようパラメータを適用することにより、音声信号を処理する音声インタフェースを有するダイアログシステムを駆動する方法を提供する。ここで、予想される音声入力信号は、ダイアログシステムの出力(プロンプト)に対するユーザの発話された応答と共にこれに付随する背景ノイズなどの予想される発話入力であってもよい。
【0008】
本発明によるダイアログシステムは、音声インタフェース、ダイアログ制御ユニット、予測モジュール及び最適化ユニットを有する。予想される音声入力信号の特性は、ダイアログ制御ユニットにより供給される情報を利用する予測モジュールにより推定される。ダイアログ制御ユニットは、発話内容の解釈のあいまいさを解消し、与えられる対話記述に従って対話を制御し、ユーザに提供するため音声データを音声生成装置に送信し、発話されたユーザ入力を促す。その後、最適化モジュールが、予測モジュールにより供給される特性に基づき、音声インタフェース制御パラメータを生成する。
【0009】
従って、音声インタフェースは、音声入力信号の変化を補償するよう最適に調整し、これにより、利用性を確保しながら、音声認識の向上及びシステム応答時間の短縮を可能にする。このように、ダイアログシステムのパフォーマンスは、システムのユーザが特別なリクエストをする必要なく最適化される。
【0010】
音声インタフェースは、音声ハードウェア、音声ドライバ及び音声モジュールから構成されてもよい。音声ハードウェアは、電話の受話器などの装置に等しく組み込まれ、あるいは独立型のものであってもよい音声入力信号を記録する手段に接続されるインタフェースの「フロントエンド」である。音声ハードウェアは、例えば、サウンドカード、モデムなどであってもよい。
【0011】
音声ドライバは、音声入力信号をデジタル信号形式に変換し、デジタル入力信号を音声入力データブロックに構成する。その後、音声ドライバは、音声入力データブロックを音声モジュールにわたし、当該モジュールは音声データの信号エネルギーを解析し、発話内容を判断及び抽出する。
【0012】
音声インタフェースが入出力インタフェースであるシステムでは、音声モジュール、音声ドライバ及び音声ハードウェアはまた、音声出力を処理することが可能である。ここで、音声モジュールは、音声生成装置などからデジタル音声情報を受け取り、デジタル出力信号を音声出力信号に変換する音声ドライバに適切な形式によりデジタル情報をわたす。音声ハードウェアは、その後、ラウドスピーカーを介し音声出力信号を発信することができる。この場合、音声インタフェースは、ユーザがマイクロフォンに発話し、ラウドスピーカーを介しシステム出力プロンプトを聞くことによって、発話された対話においてシステムとやりとりすることが可能となる。しかしながら、本発明は双方向に発話される対話に限定されるものではない。音声インタフェースは、異なる出力インタフェースが、例えば、グラフィカルディスプレイ上に視覚的に出力プロンプトをユーザに提示しながら、発話コマンドを含む入力音声を処理するのに十分であるかもしれない。
【0013】
従属項は、本発明の特に効果的な実施例及び特徴を開示し、これにより、システムがさらに方法クレームの特徴により展開可能となる。
【0014】
好ましくは、制御パラメータは、音声インタフェースの音声ドライバの記録及び/又は処理パラメータを有する。音声ドライバは、音声モジュールに音声データブロックを供給する。典型的には、このような音声データブロックは、ブロックヘッダとブロックデータとから構成され、ヘッダは固定サイズ及びフォーマットを有し、データブロックのサイズは可変とされる。ブロックのサイズは小さいものとすることが可能であり、これにより、システム応答時間の迅速化及びオーバーヘッドの向上が可能となる。より大きなブロックはシステム応答時間の遅延及びオーバーヘッドの低下を招く。システムの瞬間的能力に応じて音声ブロックサイズを調整することがしばしば望ましい。このため、音声ドライバは、最適化装置に音声ブロックの現在サイズを通知する。ダイアログ制御モジュールにより供給される情報に応じて、最適化装置は、音声ブロックのサイズが所望に従って増減されるように、音声ドライバのパラメータを変更するようにしてもよい。音声ドライバの他のパラメータは、記録レベル、すなわち、マイクロフォンの感度であってもよい。インタフェースを介し外部アプリケーションに供給され、又は入力信号を処理することにより取得される背景ノイズのレベル及び入力音声の質に関する情報に応じて、最適化装置は、現在の状況に最も適するようにマイクロフォンの感度を調整するようにしてもよい。
【0015】
制御パラメータはまた、音声インタフェースの音声モジュールの閾値パラメータを有するようにしてもよい。このような閾値パラメータは、音声又はサイレンスのエネルギーレベルであってもよく、すなわち、サイレンス閾値は、音声入力信号において発話を検出するのに音声モジュールにより適用される。サイレンス閾値より高いエネルギーレベルを有する任意の信号は、発話検出アルゴリズムにより考慮される。他の閾値パラメータは、ユーザが出力プロンプトに応答するのにダイアログシステムが待機する時間、例えば、ダイアログシステムによりユーザに与えられるいくつかの選択肢の1つを選択するのにユーザに利用可能な時間の長さなどを決定するタイムアウト値であってもよい。予測ユニットは、やりとりされている対話のタイプに応じてユーザの応答の特性を判断し、これに応じて最適化装置は、音声モジュールのタイムアウト値を調整する。さらなる閾値パラメータは、ファイナルサイレンスウィンドウ、すなわち、ユーザが発話を終了したとダイアログ制御ユニットが結論付ける発話に続いて経過した時間に関する。やりとりされている対話のタイプに応じて、最適化装置は、ファイナルサイレンスウィンドウの長さを増減するようにしてもよい。例えば、予想されるスペルを言う入力の場合、スペルされた単語の文字の何れもが見逃されないように、ファイナルサイレンスウィンドウの長さを拡大することが効果的である。
【0016】
制御パラメータは、音声インタフェースの適切なモジュールに直接適用されてもよいし、あるいは、音声インタフェースのモジュールの決定プロセスにおける他の関連するパラメータと共に考慮されてもよい。これら他のパラメータは、現在パラメータの前に最適化装置により供給されたものであってもよいし、あるいは、外部ソースから取得されたものであってもよい。
【0017】
本発明の好適実施例では、予想される音声入力信号の特性は、現在利用可能なデータ及び/又は以前の入力データから推定される。
【0018】
特に、予想される音声入力信号の特性は、入力音声信号の発話内容の意味解析から推定されてもよい。例えば、搭載ダイアログシステムを有する車の運転手は、エアコンをオンにし、特定の温度に調整するため、例えば、「エアコンをオンし、約22度に設定せよ」などのコマンドを発話する。音声入力信号が処理され、音声認識が実行されると、発話された単語の意味解析が音声理解モジュールにおいて実行され、当該モジュールは、「オン」、「エアコン」、「22度」などの関連する単語及びフレーズを特定し、関係のない単語を無視する。その後、関連する単語及びフレーズが、適切なコマンドが起動可能となるように、ダイアログ制御ユニットに転送される。本発明によると、予想される音声入力の特性が推定できるように、予測モジュールにアクションが通知される。この場合、予測モジュールは、当該データから以降の入力信号の1つの特性がエアコンにより生ずる比較的高いノイズレベルであるということを推定する。これに応じて最適化装置は、本例では、エアコンの動作音がダイアログシステムによりサイレンスとして扱われるように、サイレンス閾値を引き上げることにより入力音声制御パラメータを生成する。
【0019】
好ましくは、予想される入力信号の特性はまた、決定された環境状態入力データから推定されてもよい。本発明の構成では、ダイアログシステムには外部環境に関する関連データが供給される。例えば、このようなダイアログシステムを備える車では、rpm値などの情報が適切なインタフェースを介しダイアログシステムにわたされてもよい。その後、予測モジュールは、rpm値の上昇から以降の音声入力信号が音量増大により特徴付けされることを推定することが可能である。この特徴は、その後に最適化装置にわたされ、次に当該装置により適切な音声入力制御パラメータが生成される。ここで、運転手は、適切なボタンを手動により起動することにより、車の1以上の窓を開く。搭載されているアプリケーションは、ダイアログ制御ユニットに当該アクションを通知し、最適化装置が背景ノイズの増大を補償するため、音声モジュールの適切な制御パラメータを生成することが可能となるように、必要な情報を予測モジュールに供給する。
【0020】
効果的には、予想される音声入力信号の特性はまた、ダイアログシステムの現在プロンプトに対する予想される応答から推定されるようにしてもよい。例えば、ダイアログシステムを搭載するナビゲーションシステムの場合、車の運転手は、「Llanelweddへの最短ルートを探索せよ」とナビゲーションシステムに求めるかもしれない。ダイアログ制御モジュールは、当該コマンドを処理するが、目的地の名前を認識せず、これに応じて目的地の名前のスペルを言うよう運転手に求める出力プロンプトを発する。予測モジュールは、予想されるスペルされた音声入力が、比較的長いサイレンスにより分離される短い発話から構成されると推定し、最適化装置に当該特性を通知する。最適化装置は、目的地のすべてのスペルされた文字が良好に記録及び処理可能となるように、ファイナルサイレンスウィンドウの拡大などの適切な入力制御パラメータを生成する。
【0021】
本発明の他の課題及び特徴は、添付した図面に関して考慮される以下の詳細な説明から明らかとなるであろう。しかしながら、これらの図面は単なる例示のためのものであり、本発明の限定的規定として構成されたものではないということは理解されるべきであり、添付された請求項が参照されるべきである。
【0022】
単独の図1は、本発明の実施例によるダイアログシステムの概略ブロック図である。
【0023】
本発明の他の可能な実施例を排除するものではない図面の記載において、本システムは、自動車のダイアログシステムなどのユーザ装置の一部として示されている。
【発明を実施するための最良の形態】
【0024】
音声インタフェース11は、入力と出力の両方の音声信号を処理することができ、音声ハードウェア8、音声ドライバ9及び音声モジュール10から構成される。マイクロフォン18により検出される音声入力信号3は、サウンドカードタイプなどの音声ハードウェア8により記録される。記録された音声入力信号は、音声モジュール10によるさらなる処理が行われる前に、それをデジタル化する音声ドライバ9にわたされる。音声モジュール10は、発話内容21及び/又は背景ノイズを判断することができる。他方、デジタル化された音声信号形式によるシステム1の出力プロンプト6が、ラウドスピーカー19に接続される音声ハードウェア8により音声信号20として以降において出力される前に、音声モジュール10及び音声ドライバ9によって処理することができる。
【0025】
音声入力3の発話内容21は、発話内容21からデジタルテキスト5を生成する自動発話認識モジュール15にわたされる。その後、デジタルテキスト5はさらに、デジタルテキスト5を調べ、関連する意味情報22を抽出する意味解析装置又は「発話理解」モジュール16により処理される。関連する単語22が、ダイアログ制御モジュール12に転送される。
【0026】
ダイアログ制御モジュール12は、意味解析装置16により与えられる意味情報22を調べることにより対話の性質を判断し、必要に応じてコマンドを外部アプリケーション24に転送し、与えられた対話説明に続き、必要に応じてデジタルプロンプトテキスト23を生成する。
【0027】
ユーザからの発話入力3が求められる場合、ダイアログ制御モジュール12は、音声生成装置に送られるデジタル入力プロンプトテキスト23を生成する。次にこれは、音声インタフェース11にわたされ、その後ラウドスピーカー19に音声出力プロンプト20として発せられる音声出力信号6を生成する。
【0028】
本例では、ダイアログ制御モジュール12は、適切なインタフェース7を用いて外部アプリケーション24、ここでは車の搭載装置に接続される。このようにして、「車の窓を開けろ」などのユーザにより発話されるコマンドは、ダイアログ制御モジュール12により適切に符号化され、以降においてコマンドを実行するアプリケーション24にインタフェース7を介しわたされる。
【0029】
ダイアログ制御ユニット12に接続、又は本例では一体化される予測モジュール13は、対話の結果として実行されるアクションの予想される音声入力信号3の特性に対する効果を判断する。例えば、ユーザは、車の窓を開けるためのコマンドを発したかもしれない。予測モジュール13は、以降の入力音声信号の背景ノイズが結果としてより良好に発音されることを推測する。その後、予測モジュール13は、最適化装置14に予測される入力音声信号の予測される特性、この場合、結果としてのより低い信号対ノイズ比による背景ノイズの上昇を与える。
【0030】
予測モジュール13により提供される特性2を利用して、最適化装置14は、音声インタフェース11の適切な制御パラメータを生成することができる。本例では、最適化装置14は、音声モジュール10のサイレンス閾値を引き上げることにより、ノイズ増加を打ち消すよう動作する。車の窓が開けられると、音声モジュール9は、引き上げられたサイレンス閾値が背景ノイズの上昇を補償するように、最適化されたパラメータ4によりデジタル化された音声入力信号を処理する。
【0031】
音声インタフェース11はまた、音声ブロックの現在サイズや背景ノイズの現在レベルなどの情報25を最適化装置14に供給する。最適化装置14は、最適化された制御パラメータを生成するのに当該情報25を適用することができる。
【0032】
出力プロンプト20のタイプに応じて、ユーザの応答はフレーズ、センテンス又はスペルを言う単語などの形式となるかもしれない。例えば、出力プロンプト20は、ユーザが単に「イエス」又は「ノー」を返事するだけでよい直接的な質問の形式であってもよい。この場合、予測モジュール13は、予想される入力信号3が、一言により特徴付けされ、時間が短いと推定し、最適化装置14に当該特性を通知する。最適化装置14はこれに応じて、例えば、音声入力信号3に短いタイムアウト値を指定することによって、制御パラメータ4を生成する。
【0033】
外部アプリケーションはまた、ダイアログシステム1に関連情報を供給することができる。例えば、アプリケーション24は、ダイアログシステム1に車のrpm値を継続的に供給することができる。予測モジュール13は、rpm値の上昇に対しモーターノイズの上昇を予測し、これに応じて以降の入力音声信号3の特性を推定する。最適化装置14は、サイレンス閾値を引き上げるため、制御パラメータ4を生成し、これにより、ノイズ上昇を補償する。モーターのrpm値の低下は、モーターノイズのレベルを低下させ、これにより、予測モジュール13は入力音声信号3に対する背景ノイズのレベル低下を推定する。その後、最適化装置14はこれに応じて音声入力制御パラメータ4を調整する。
【0034】
おそらく音声ハードウェアを除いて、本発明のすべてのモジュール及びユニットは、適切なプロセッサを用いてソフトウェアにより実現することが可能である。
【0035】
本発明は好適な実施例及びその変形の形式により開示されたが、本発明の範囲から逸脱することなく多数の追加的変更及び変形が可能であるということは理解されるであろう。本発明の一実施例では、ダイアログシステムは、いくつかの発話の処理後に現在のユーザの声の質を決定することが可能であってもよく、あるいは、ユーザは格納されているユーザプロファイル情報にアクセスするのに利用され、次に音声インタフェースのための適切な制御パラメータを生成するのに利用される識別コードを入力することによって、システムに知らされてもよい。
【0036】
簡単化のため、本出願を通じて、「ある」という用語の使用は複数を排除するものでなく、「有する」という用語は他のステップ又は要素を排除するものでないということが理解されるべきである。「ユニット」又は「モジュール」の用語の使用は、単一のユニット又はモジュールに限定されるものではない。
【図面の簡単な説明】
【0037】
【図1】図1は、音声インタフェース11及び音声情報を処理する各種モジュール12、14、15、16及び17を有するダイアログシステム1を示す。

【特許請求の範囲】
【請求項1】
音声信号を処理する音声インタフェースを有するダイアログシステムを駆動する方法であって、
予想される音声入力信号の特性が推定され、前記特性に基づき音声インタフェース制御パラメータが生成され、前記音声インタフェースの動作が前記音声インタフェース制御パラメータに基づき最適化されることを特徴とする方法。
【請求項2】
請求項1記載の方法であって、
特性は、現在及び/又は以前の入力データから推定されることを特徴とする方法。
【請求項3】
請求項2記載の方法であって、
特性は、前記入力音声信号の発話内容の意味解析から推定されることを特徴とする方法。
【請求項4】
請求項2又は3記載の方法であって、
特性は、決定された環境状態データから推定されることを特徴とする方法。
【請求項5】
請求項1乃至4何れか一項記載の方法であって、
特性は、前記ダイアログシステムの現在プロンプトに対する予想される応答から推定されることを特徴とする方法。
【請求項6】
請求項1乃至5何れか一項記載の方法であって、
前記制御パラメータは、前記音声インタフェースの音声ドライバのための記録及び/又は処理パラメータを有することを特徴とする方法。
【請求項7】
請求項1乃至6何れか一項記載の方法であって、
前記制御パラメータは、前記音声インタフェースの音声モジュールのための閾値パラメータを有することを特徴とする方法。
【請求項8】
音声インタフェースと、
ダイアログ制御ユニットと、
予想される音声入力信号の特性を推定する予測モジュールと、
前記特性に基づき音声入力制御パラメータを生成することにより、前記音声インタフェースの動作を最適化する音声最適化装置と、
を有することを特徴とするダイアログシステム。
【請求項9】
請求項8記載のダイアログシステムであって、
前記音声インタフェースは、音声ハードウェア、音声ドライバ及び/又は音声モジュールから構成されることを特徴とするシステム。

【図1】
image rotate


【公表番号】特表2007−501420(P2007−501420A)
【公表日】平成19年1月25日(2007.1.25)
【国際特許分類】
【出願番号】特願2006−521731(P2006−521731)
【出願日】平成16年7月22日(2004.7.22)
【国際出願番号】PCT/IB2004/051284
【国際公開番号】WO2005/013262
【国際公開日】平成17年2月10日(2005.2.10)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【氏名又は名称原語表記】Koninklijke Philips Electronics N.V.
【住所又は居所原語表記】Groenewoudseweg 1,5621 BA Eindhoven, The Netherlands
【Fターム(参考)】