説明

入出力デバイス情報を考慮したマルチモーダル対話プログラム、システム及び方法

【課題】1つの対話シナリオを設計するだけで、様々な入出力デバイスを搭載した端末毎に、異なる対話シナリオを進行させるマルチモーダル対話プログラムを提供する。
【解決手段】状態sで可用な各デバイス行動aにおけるデバイス行動確率r(sd0,ad0)を蓄積したデバイス行動確率蓄積手段と、デバイス種別の有無を取得するデバイス種別取得手段と、端末のデバイス種別の有無とr(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出するデバイス可用報酬値算出手段と、状態sに、行動aを実行した際に得られる報酬期待値r(s0,a0)に対して、r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する報酬期待値算出手段と、報酬期待値rを用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する部分観測マルコフ決定過程POMDP手段と、行動aに基づく対話シナリオを端末へ送信する対話シナリオ送信手段とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチモーダル対話(Multimodal Interaction)システムの技術に関する。
【背景技術】
【0002】
「マルチモーダル対話システム」は、文字による入力情報だけではなく、音声処理や画像処理の技術を用いて、ユーザと対話的にシナリオを進行することよって、最適な結果へ導く技術をいう。この技術によれば、自然な対話によって、ユーザ毎に最適に対象機器を制御することができる。「マルチモーダル」とは、「多モード」を意味し、文字のほか、音声や映像等の異なるメディアを用いることができることを意味する。
【0003】
従来、人間に対する対話の待ち時間を短縮することによって、自然な対話を実現した対話装置の技術がある(例えば特許文献1参照)。この技術によれば、端末は、PDA(Personal Digital Assistance)やパーソナルコンピュータであって、ユーザからの音声を入力するマイク部と、ユーザの身体の動きを撮影するビデオカメラ部とを有する。マイク部によってユーザの声が検出されなくても、ビデオカメラ部によって撮影された身体の動き、例えば「相づち」を検出することによって、対話の終了(応答)を予測することができる。ユーザにおける対話の終了を検出することによって、次の対話シナリオへ進行することができ、人間に対する応答の待ち時間を短縮することができる。
【0004】
また、マルチモーダル対話システムを、オンラインショッピング(Online Shopping)に適用した技術もある(例えば非特許文献1参照)。この技術によれば、ショッピングで用いるドキュメントを格納するドキュメントサーバモジュールと、対話進行を管理する対話制御モジュールと、入出力端末を管理するフロントエンドモジュールとから構成される。ドキュメントサーバモジュールが蓄積するドキュメントとは、例えば、対話シナリオ、顧客・商品データ(XML(Extensible Markup Language)形式)、表示スタイル等を含む。このシステムによれば、フロントエンドモジュールを搭載する端末として、パーソナルコンピュータを想定している。パーソナルコンピュータにおける音声入力部、ポインティング入力部、合成音声出力部、擬人化エージェント出力部等を利用して、ショッピング対話を進行することができる。
【0005】
更に、部分観測マルコフ決定過程POMDP(Partially-Observed Markov Decision Process)を用いた対話心理学習の技術もある(例えば特許文献2参照)。部分観測マルコフ決定過程(以下「POMDP」という)とは、報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する処理をいう。以下では、POMDPについて、詳細に説明する。
【0006】
図1は、POMDPを対話システムに適用したシステム構成図である。
【0007】
図1によれば、対話サーバモジュールプログラム1と、端末モジュールプログラム2とから構成されている。例えば、対話サーバモジュールプログラム1はサーバによって実行され、ネットワークを介して、端末モジュールプログラム2は端末によって実行される。
【0008】
対話サーバモジュールプログラム1は、報酬期待値蓄積部11と、POMDP部12と、対話シナリオ蓄積部13と、回答情報受信部14と、対話シナリオ送信部15とを有する。
【0009】
報酬期待値蓄積部11は、状態sで行動aを実行した際に得られる報酬期待値r(s,a)を蓄積している。「報酬期待値」とは、状態sで行動aを実行した際に得られる報酬の「見込み」を表したものである。報酬期待値r(s,a)は、一般に、経験値によって設定される。
【0010】
対話シナリオ蓄積部13は、行動a毎に、端末に送信すべき対話シナリオを蓄積している。「対話シナリオ」とは、質問と回答とからなるツリー状に表現されるデータ構造をいう。例えば、質問「何色の機種がお好みですか?」に対する、回答「赤色」「青色」「白色」等に応じて、色毎に異なる次の質問(又は情報提供)へ移行する。
【0011】
部分観測マルコフ決定過程POMDP部12は、報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する。図1によれば、POMDP部12は、行動系列蓄積部121と、確率分布算出部122と、報酬算出部123と、行動決定部124とを有する。
【0012】
行動系列蓄積部121は、以下の確率を蓄積している。
・観測期待確率P(o'|s',a):
行動aを実行した後の状態s'について観測o'を受け取る確率
・状態遷移確率P(s'|s,a):
行動aを実行した後に状態sから状態s'へ移行する確率
ここで、以下のように定義する。
S:有限な「状態s」の集合,{s}
O:有限な「観測o」の集合,{o}
A:有限な「行動a」の集合,{a}
【0013】
観測期待確率P(o'|s',a)及び状態遷移確率P(s'|s,a)は、大量の対話シミュレーションの実験による蓄積された行動系列データ(学習データ)に基づいて、機械学習分野における強化学習(例えばQ-learningやTD-learning)方法で得られる。
【0014】
「状態s」は、以下のような4つに区分される。
「s0」:初期状態
「s1」:ユーザからの回答情報の入力なし
「s2」:対話シナリオの範囲内で、ユーザからの回答情報の入力あり
「s3」:ユーザからの回答の入力は必要なく、次の動作へ自動遷移
「s4」:その他の状態
【0015】
「行動a」は、以下のように3つに区分される。
「ain」:入力受け付け
「aout」:情報を提供する
「await」:待機
ここで、各行動aは、対話シナリオ蓄積部13に蓄積された各対話シナリオと対応付けられている。例えば、「携帯電話機の機種選定」をタスクとした場合に、以下のような行動aの対話シナリオがある。
「ain」:入力受け付け
「携帯電話の色を入力」、「年齢を入力」、・・・
「aout」:情報を提供する
「対話装置の紹介」、「携帯電話の色に関する質問」、・・・
【0016】
確率分布算出部122は、観測期待確率P(o'|s',a)と状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出する。確率分布とは、各状態s(確率変数)に対する、その起こりやすさを表す。対話状態に応じて最適な行動系列を出力する方策関数を決めるために、時刻tにおける状態の確率分布bt(s')は、1つ前の時刻における状態の確率分布bt-1(s)を用いて、以下の式によって算出される。
【数1】

η:はbtの総和を1にするための正規化定数
【0017】
報酬算出部123は、報酬期待値r(s,a)と確率分布bt(s)とを用いて、報酬Vtを算出する。行動系列aτ+tが与えられた場合、時刻t以降に獲得できる報酬Vtは、以下の式によって表される。
【数2】

γ:1より小さい正定数
【0018】
行動決定部124は、報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する。ここで、決定された行動aに対応する対話シナリオを、対話シナリオ蓄積部13から取得する。取得された対話シナリオは、ユーザに対して提示される。
【0019】
回答情報受信部14は、端末モジュールプログラム2から、入力デバイスに基づく回答情報を受信する。受信された回答情報は、POMDP部12の行動決定部124へ入力される。
【0020】
対話シナリオ送信部15は、POMDP部12の行動決定部124によって取得された対話シナリオを、端末モジュールプログラム2へ送信する。
【0021】
端末モジュールプログラム2は、ユーザに対する入力デバイス及び出力デバイスを有する。入力デバイスがマイクである場合、入力音声処理部は、マイクによって取得された音声信号を回答情報に変換し、その回答情報を対話モジュールプログラム1へ送信する。また、出力デバイスがスピーカである場合、出力音声処理部は、対話モジュールプログラム1から受信した回答情報を音声信号に変換し、その音声信号がスピーカから出力される。
【先行技術文献】
【特許文献】
【0022】
【特許文献1】特開2003−228449号公報
【特許文献2】特開2010−129033号公報
【非特許文献】
【0023】
【非特許文献1】小林剛典、中村有作、桂田浩一、山田博文、小林聡、新田恒雄、「MMI記述言語XISLによるオンラインショッピングシステムの開発」、[online]、[平成23年2月6日検索]、インターネット<URL:http://ci.nii.ac.jp/naid/110002917299>
【発明の概要】
【発明が解決しようとする課題】
【0024】
近年、ユーザ操作可能な端末は、パーソナルコンピュータに限られず、カーナビゲーション端末、デジタルサイネージ端末、デジタルフォトフレーム、携帯電話機、スマートフォン等、様々な機器に広がってきた。これら多様な端末に、対話的(インタラクティブ)なインタフェースをユーザに提供することによって、様々な機器に対する操作の利便性を向上させることが期待されている。
【0025】
しかしながら、対話シナリオは、一般に、端末に搭載される入出力デバイスに対応させて記述されている。前述した特許文献1及び非特許文献1によれば、端末が、マイク部及びビデオカメラ部を予め搭載していることを前提としており、その対話シナリオも、マイク部及びビデオカメラ部を用いるように予め設計されている。そうすると、マイク部及びビデオカメラ部を予め搭載していないカーナビゲーション端末やデジタルサイネージ端末等は、この対話システムに適用することはできない。即ち、対話シナリオは、搭載されている入出力デバイスが異なる端末毎に、設計又は調整されなければならない。
【0026】
一方で、近年、端末毎に、多様な入出力デバイスが複数搭載されている。入出力デバイスとしても、例えば、カメラ、タッチパネル、ディスプレイ(タッチパネルディスプレイ、マルチタッチスクリーン、3次元ディスプレイ)、マイク、スピーカ(イヤホン)、加速度センサ、地磁気センサ、温度センサ、気圧センサ、振動子等、様々なものがある。また、同一種別の入出力デバイスであっても、その端末種別に応じて、異なる特性(例えば表示サイズ)を搭載している場合もある。このような様々な入出力デバイスを搭載した端末毎に、対話シナリオを設計又は調整することは高コストを招く。
【0027】
そこで、本発明は、1つの対話シナリオを設計するだけで、様々な入出力デバイスを搭載した端末毎に、異なる対話シナリオを進行させることができるマルチモーダル対話プログラム、システム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0028】
本発明によれば、ユーザ操作に基づく端末との間で、そのユーザと対話的にシナリオを進行するようにコンピュータを機能させるマルチモーダル対話サーバプログラムであって、
行動a毎に、端末に送信すべき対話シナリオを蓄積した対話シナリオ蓄積手段と、
状態sで行動aを実行した際に得られる報酬期待値r(s0,a0)を蓄積した報酬期待値蓄積手段と、
複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積したデバイス行動確率蓄積手段と、
端末に搭載された1つ以上のデバイス種別の有無を取得するデバイス種別取得手段と、
入力/出力デバイス毎に、当該端末のデバイス種別の有無と、デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出するデバイス可用報酬値算出手段と、
報酬期待値蓄積手段の報酬期待値r(s0,a0)に対して、デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する報酬期待値算出手段と、
報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する部分観測マルコフ決定POMDP(Partially-Observed Markov Decision Process)処理手段と、
対話シナリオ蓄積手段から、決定された行動aに基づく対話シナリオを取得し、該対話シナリオを端末へ送信する対話シナリオ送信手段と
してコンピュータを機能させることを特徴とする。
【0029】
本発明のマルチモーダル対話サーバプログラムにおける他の実施形態によれば、
部分観測マルコフ決定処理手段は、
行動aを実行した後の状態s'について観測o'を受け取る観測期待確率P(o'|s',a)と、行動aを実行した後に状態sから状態s'へ移行する状態遷移確率P(s'|s,a)とを蓄積した行動系列蓄積手段と、
観測期待確率P(o'|s',a)と状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出する確率分布算出手段と、
報酬期待値r(s,a)と確率分布bt(s)とを用いて、報酬Vtを算出する報酬算出手段と、
報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する行動決定手段と
を含むものであってもよい。
【0030】
本発明のマルチモーダル対話サーバプログラムにおける他の実施形態によれば、
デバイス行動確率蓄積手段について、デバイス行動確率r(sd0,ad0)は、当該対話シナリオに対して当該デバイスの使用可否を、1(使用すべき)〜0〜−1(使用すべきでない)の範囲で表した確率であり、
デバイス可用報酬値算出手段について、端末に搭載された1つ以上のデバイス種別の有無を、1(有効)/0(無効)で表したものであってもよい。
【0031】
本発明によれば、前述のマルチモーダル対話サーバプログラムをコンピュータで機能させる対話サーバと、
ユーザ操作可能であって、1つ以上の入力/出力デバイスを有する端末と、
を有するマルチモーダル対話システムであって、
端末は、
デバイス種別毎の有効/無効を、対話サーバへ送信するデバイス情報送信手段と、
対話サーバから受信した対話シナリオを、出力デバイスによってユーザへ提示する出力デバイス制御手段と、
ユーザ操作によって入力された入力デバイスに対する回答情報を、対話サーバへ送信する入力デバイス制御手段と
を有することを特徴とする。
【0032】
本発明のマルチモーダル対話システムにおける他の実施形態によれば、
システムは、ユーザ観測情報分析サーバを更に有し、
端末は、当該入力デバイス毎に検出された観測特徴量を、ユーザ観測分析サーバへ送信する観測特徴量送信手段を更に有し、
ユーザ観測情報分析サーバは、端末から受信した観測特徴量に基づいて、ユーザにおける回答情報を導出し、該回答情報を、対話サーバへ送信する
ものであってもよい。
【0033】
本発明によれば、ユーザ操作に基づく端末と、そのユーザと対話的にシナリオを進行する対話サーバとを有するシステムにおけるマルチモーダル対話方法であって、
行動a毎に、端末に送信すべき対話シナリオを蓄積した対話シナリオ蓄積部と、
状態sで行動aを実行した際に得られる報酬期待値r(s0,a0)を蓄積した報酬期待値蓄積部と、
複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積したデバイス行動確率蓄積部と
を有し、
端末に搭載された1つ以上のデバイス種別の有無を取得する第1のステップと、
入力/出力デバイス毎に、当該端末のデバイス種別の有無と、デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出する第2のステップと、
報酬期待値蓄積部の報酬期待値r(s0,a0)に対して、デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する第3のステップと、
報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する部分観測マルコフ決定過程POMDPの第4のステップと、
対話シナリオ蓄積部から、決定された行動aに基づく対話シナリオを取得し、該対話シナリオを端末へ送信する第5のステップと
を有することを特徴とする。
【0034】
本発明のマルチモーダル対話方法における他の実施形態によれば、
行動aを実行した後の状態s'について観測o'を受け取る観測期待確率P(o'|s',a)と、行動aを実行した後に状態sから状態s'へ移行する状態遷移確率P(s'|s,a)とを蓄積した行動系列蓄積部を有し、
第4のステップついて、
観測期待確率P(o'|s',a)と状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出するステップと、
報酬期待値r(s,a)と確率分布bt(s)とを用いて、報酬Vtを算出するステップと、
報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定するステップと
を含むものであってもよい。
【0035】
本発明のマルチモーダル対話方法における他の実施形態によれば、
デバイス行動確率蓄積部について、デバイス行動確率r(sd0,ad0)は、当該対話シナリオに対して当該デバイスの使用可否を、1(使用すべき)〜0〜−1(使用すべきでない)の範囲で表した確率であり、
第2のステップについて、端末に搭載された1つ以上のデバイス種別の有無を、1(有効)/0(無効)で表したものであってもよい。
【発明の効果】
【0036】
本発明のマルチモーダル対話プログラム、システム及び方法によれば、1つの対話シナリオを設計するだけで、様々な入出力デバイスを搭載した端末毎に、異なる対話シナリオを進行させることができる。
【図面の簡単な説明】
【0037】
【図1】部分観測マルコフ決定過程POMDPを対話システムに適用したシステム構成図である。
【図2】本発明におけるマルチモーダル対話システムの構成図である。
【図3】本発明におけるマルチモーダル対話プログラムの機能構成図である。
【図4】本発明における対話シナリオの流れを表す説明図である。
【図5】ユーザ動向分析サーバを含むシステム構成図である。
【発明を実施するための形態】
【0038】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0039】
図2は、本発明におけるマルチモーダル対話システムの構成図である。
【0040】
図2によれば、対話サーバ1と、様々な種類の端末2とが、ネットワークを介して接続されている。端末2としては、デジタルサイネージ端末、デジタルフォトフレーム、携帯電話機、スマートフォン等があり、各端末には、カメラ、スピーカ、ディスプレイ、センサ等の様々な入出力デバイスが搭載されている。端末2は、例えばWebブラウザにプラグインされたFLASH Player(登録商標)又はOpenGL(登録商標)に基づいて、入出力デバイスが制御される。Adobe Systems社によるFLASH Playerは、音声、動画、ベクターグラフィックスのアニメーションを組み合わせたWebコンテンツを再生するソフトウェアであって、ユーザによる入力操作も可能なアプリケーション実行環境を提供する。Silicon Graphics社によるOpenGLは、グラフィックス処理のためのプログラミングインターフェースを提供する。例えば、ユーザが、FLASHやOpenGLによって表示されたアバタと対話するように実現できる。
【0041】
尚、図2によれば、対話サーバ1は、端末2に送信すべき対話シナリオに基づくコンテンツを、コンテンツサーバ4から取得するものであってもよい。コンテンツサーバ4は、具体的には、対話シナリオに基づく静止画像、動画像、合成音声等のコンテンツを蓄積する。
【0042】
また、図2によれば、ユーザ動向分析サーバ3が、ネットワークに更に接続されている。ユーザ動向分析サーバ3は、端末2から、入力デバイスにおける観測特徴量を受信し、その特徴を分析することによって、対話サーバ1に対する回答情報を生成する。その回答情報は、対話サーバ1へ送信される。
【0043】
図2によれば、対話サーバ1に搭載されたコンピュータで、対話サーバモジュールプログラムを実行させる。また、端末2に搭載されたコンピュータで、端末モジュールプログラム2を実行させる。勿論、両モジュールプログラムが、単体装置の1つのコンピュータによって一体的に実行されるものであってもよい。本発明によれば、サーバモジュールプログラムと端末モジュールプログラムとそれぞれが実行されるべき対象装置は、特定されるものではない。
【0044】
図3は、本発明におけるマルチモーダル対話プログラムの機能構成図である。
【0045】
図3によれば、マルチモーダル対話プログラムにおける対話サーバモジュールプログラム1は、ユーザ操作に基づく端末2との間で、そのユーザと対話的にシナリオを進行するようにコンピュータを機能させる。図3によれば、対話サーバモジュールプログラム1は、図1と同様に、報酬期待値蓄積部11と、部分観測マルコフ決定過程POMDP部12と、対話シナリオ蓄積部13と、回答情報受信部14と、対話シナリオ送信部15とを有する。これら機能構成部の処理内容は、基本的に、従来技術として前述した図1と同じである。
【0046】
本発明の対話サーバモジュールプログラム1によれば、更に、デバイス行動確率蓄積部16と、デバイス種別取得部17と、デバイス可用報酬値算出部18と、報酬期待値算出部19とを有する。
【0047】
[デバイス行動確率蓄積部16]
デバイス行動確率蓄積部16は、複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積している。デバイス行動確率r(sd0,ad0)は、当該対話シナリオに対して当該デバイスの使用可否を、1(使用すべき)〜0〜−1(使用すべきでない)の範囲で表した確率である。
【0048】
デバイス行動aの集合Aは、A{ain,aout,await}であって、例えば以下のように表される。
ain1:「カメラによる入力要求」
ain2:「タッチパネルによる入力要求」
ain3:「マイクによる入力要求」
aout1:「スピーカで情報提供」(音声の発声)
aout2:「ディスプレイで情報提供」(吹き出しによって文字の表示)
aout3:「ディスプレイで関連情報の提供」(関連画像の表示)
【0049】
また、例えば以下のような入出力デバイスがあるとする。勿論、以下の入出力デバイスを搭載しているか否かは、ユーザ操作に基づく端末によって異なる。
[入力デバイス]
SM:マイク状態
SC:カメラ状態
ST:タッチパネル状態
[出力デバイス]
SS:スピーカ状態
SD:ディスプレイ状態
【0050】
具体的なデバイス行動確率r(sd0,ad0)のテーブルは、例えば以下のように表される。
【表1】

【0051】
例えば、行動「ain1」は、カメラ入力の行動を必要とするために、デバイス「カメラSC」の行動確率値は「1」(使用すべき)となっている。ここで、デバイス「マイクSM」の行動確率値は「−1」(使用すべきでない)であり、デバイス「タッチパネルST」の行動確率値も「−1」(使用すべきでない)である。
【0052】
また、図3によれば、例えば、行動「aout1」は、音声出力の行動を必要とするために、デバイス「スピーカSS」の行動確率値は「1」(使用すべき)となっている。ここで、デバイス「ディスプレイSD」の行動確率値は「0.5」である。これは、音声出力の行動「aout1」の場合であっても、出力デバイスとしてディスプレイを用いる確率は、幾分高いことを意味する(1〜0〜−1の範囲によれば、0.5は上位1/4に相当)。尚、デバイス行動確率のテーブル値は、経験値によって設定するか、又は、大量の利用者評価データに基づいた統計値によって設定する。
【0053】
[デバイス種別取得部17]
デバイス種別取得部17は、端末に搭載された1つ以上のデバイス種別の有無を取得する。例えば端末がフォトフレームである場合、端末は、以下のようなデバイス種別情報を、対話サーバ1へ送信する。
Sd_t=「SM,SC,ST,SS,SD」=「0,0,1,1,1」
0:無効 1:有効
このデバイス種別情報によれば、当該端末は、タッチパネル、スピーカ及びディスプレイを搭載しているが、マイク及びカメラは搭載していないことを表す。また、端末は、入出力デバイスの有無が変化した際に、リアルタイムに、デバイス種別情報を対話サーバ1へ送信する。
【0054】
[デバイス可用報酬値算出部18]
デバイス可用報酬値算出部18は、入力/出力デバイス毎に、当該端末のデバイス種別の有無と、デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出する。例えば、デバイス種別情報Sd_t=[SM,SC,ST,SS,SD]=[0,0,1,1,1]と、表1のデバイス行動確率r(sd0,ad0)とを乗算すると、以下のr(SM,ainα)、r(SS,aoutβ)等の確率のテーブルが計算される。αとβはainとaoutそれぞれの添字である。
【表2】

r(sd,ad)は、各テーブルの値を加算したものである。
r(sd,ad)=
(r(SM,ainα)+r(SC,ainα)+r(ST,ainα)+
r(SS,aoutβ)+r(SD,aoutβ))
【0055】
[報酬期待値算出部19]
報酬期待値算出部19は、状態sに、行動aを実行した際に得られる報酬期待値r(s0,a0)に対して、デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する。これは、既存の報酬期待値r(s0,a0)を、デバイス可用報酬値r(sd,ad)によって最も適切な行動aに導くことができる。
【0056】
これによって、部分観測マルコフ決定過程POMDP部12は、報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する。POMDP部12は、前述した式2の中の行動aに対する報酬rについて、以下のように定義される。
【数3】

s0及びa0は、対話状態と対話装置行動に関するパラメータである。
sd及びadは、デバイス可用報酬値と対話装置動作タイプに関するパラメータである。
【0057】
図4は、本発明における対話シナリオの流れを表す説明図である。
【0058】
図4によれば、端末2がフォトフレームの場合であって、そのフォトフレームは、入力デバイスとしてタッチパネルSTを有し、出力デバイスとしてスピーカSS及びディスプレイSDとを有する。
【0059】
[時刻t=0](状態S0)
初期状態について、r(s0,A)を最大とする動作aを決定する。このとき、以下の動作aが決定されたとする。
動作a=「aout」
デバイス行動=(aout1、aout3)
ここでの対話シナリオは、例えば以下のようになる。
「aout1」:スピーカから、「こちらは携帯電話機の推薦サービスです」と発声する。
「aout3」:ディスプレイに、関連情報として、キャラクタの口から最新機種やキャンペーン情報の文字の吹き出しを表示する。
【0060】
[時刻t=1]
次に、前述した式2及び式3(POMDP処理)によって、状態s3へ移行している。そして、報酬Vtが最大となる動作a(デバイス行動)が決定される。例えば以下のように決定されたとする。
動作a(デバイス行動)=(aout1,ain2)
「aout1」:スピーカから、「何の色が好きですか」と発声する。
「ain2」 :タッチパネルに色の選択ボタンを表示して、ユーザのタッチを受け付ける。
【0061】
[時刻t=2]
これに対し、ユーザがタッチパネルに対して「赤」ボタンに触れたとする。これによって、回答情報red@touchを得られたとする。次に、前述した式2及び式3(POMDP処理)によって状態s2へ移行している。そして、報酬Vtが最大となる動作a(デバイス行動)が決定される。例えば以下のように決定されたとする。
動作a(デバイス行動)=(aout1,aout3)
「aout1」:スピーカから、「お勧めの赤色の携帯はS005とCA006です」と発声する。
「aout3」:ディスプレイに、S005とCA006の機能情報や口コミ情報のような関連情報を表示する。
【0062】
ここで、時刻t=2のとき、ユーザが、端末2のスピーカをミュート(消音)にしたとする(又はスピーカが故障となってもよい)。このとき、端末2は、対話サーバ1へ、スピーカSSが無効(0)になったことを表すデバイス種別情報を送信する。本発明によれば、端末は、有効/無効のデバイス種別情報をリアルタイムに検出し、その情報は直ぐに対話サーバ1へ送信される。
【0063】
このとき、以下のように変更される。
Sd_t=「SM,SC,ST,SS,SD」=「0,0,1,0,1」
これによって、デバイス可用報酬値r(sd,ad)も以下のように変更される。
【表3】

【0064】
これによって、報酬Vtが最大となる動作a(デバイス行動)が異なることとなる。例えば以下のように決定されたとする。
動作a(デバイス行動)=(aout2,aout3)
「aout2」:ディスプレイのキャラクタの口元に「お勧めの赤色の携帯はS005とCA006です」と吹き出し文字で表示される。
「aout3」:ディスプレイに、S005とCA006の機能情報や口コミ情報のような関連情報を表示する。
これによって、スピーカに代えて、ディスプレイを用いて、対話シナリオを進行させることができる。
【0065】
図5は、ユーザ動向分析サーバを含むシステム構成図である。
【0066】
図5によれば、端末2は、入力デバイス(例えばカメラ、マイク、タッチパネル)から観測特徴量を取得し、その観測特徴量をユーザ動向分析サーバ3へ送信している。観測特徴量としては、例えば以下のようなものがある。
【0067】
「ユーザの顔映像観測特徴量」O_face: カメラから得られる観測特徴量
検出された顔の顔向き情報
顔向き角度の軌跡
ユーザの顔合わせ数
顔映像(静止画像)中から直接取り出した低レベルGabor特徴量
顔画像特徴量(顔画像のHaar-Like特徴量)
「ユーザの音声観測特徴量」O_voice: マイクから得られる観測特徴量
音声のパワー・ピッチの平均・標準偏差・最大・最大−最小値差
音声特徴量(音声パワー情報、MFCC情報、ピッチ情報等)
「ユーザのタッチ操作観測特徴量」O_touch: タッチパネルから得られる特徴量
タッチしたパネル座標
タッチしたイベント情報(リンク情報など)
【0068】
端末2は、入力デバイスから取得されたデータを対話サーバ1へ送信すると共に、入力デバイスによって検出された観測特徴量をユーザ動向分析サーバ3へ送信する。ユーザ動向分析サーバ3は、観測特徴量に基づいた回答情報(認識結果)を、対話サーバ1へ送信する。これによって、対話サーバ1は、その回答情報も考慮して、対話シナリオを進行させることができる。
【0069】
以上、詳細に説明したように、本発明のマルチモーダル対話プログラム、システム及び方法によれば、1つの対話シナリオを設計するだけで、様々な入出力デバイスを搭載した端末毎に、異なる対話シナリオを進行させることができる。特に、端末に搭載された入出力デバイスの構成に対応させて、対話シナリオを進行させることができる。
【0070】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0071】
1 マルチモーダル対話プログラム、対話サーバ
11 報酬期待値蓄積部
12 部分観測マルコフ決定過程POMDP部
121 行動系列蓄積部
122 確率分布算出部
123 報酬算出部
124 行動決定部
13 対話シナリオ蓄積部
14 回答情報受信部
15 対話シナリオ送信部
16 デバイス行動確率蓄積部
17 デバイス種別取得部
18 デバイス可用報酬値算出部
19 報酬期待値算出部
2 端末
3 ユーザ動向分析サーバ
4 コンテンツサーバ

【特許請求の範囲】
【請求項1】
ユーザ操作に基づく端末との間で、そのユーザと対話的にシナリオを進行するようにコンピュータを機能させるマルチモーダル対話サーバプログラムであって、
行動a毎に、前記端末に送信すべき対話シナリオを蓄積した対話シナリオ蓄積手段と、
状態sで行動aを実行した際に得られる報酬期待値r(s0,a0)を蓄積した報酬期待値蓄積手段と、
複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積したデバイス行動確率蓄積手段と、
前記端末に搭載された1つ以上のデバイス種別の有無を取得するデバイス種別取得手段と、
入力/出力デバイス毎に、当該端末のデバイス種別の有無と、前記デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出するデバイス可用報酬値算出手段と、
前記報酬期待値蓄積手段の前記報酬期待値r(s0,a0)に対して、前記デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する報酬期待値算出手段と、
前記報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する部分観測マルコフ決定POMDP(Partially-Observed Markov Decision Process)処理手段と、
前記対話シナリオ蓄積手段から、決定された前記行動aに基づく対話シナリオを取得し、該対話シナリオを前記端末へ送信する対話シナリオ送信手段と
してコンピュータを機能させるマルチモーダル対話サーバプログラム。
【請求項2】
前記部分観測マルコフ決定処理手段は、
行動aを実行した後の状態s'について観測o'を受け取る観測期待確率P(o'|s',a)と、行動aを実行した後に状態sから状態s'へ移行する状態遷移確率P(s'|s,a)とを蓄積した行動系列蓄積手段と、
前記観測期待確率P(o'|s',a)と前記状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出する確率分布算出手段と、
前記報酬期待値r(s,a)と前記確率分布bt(s)とを用いて、報酬Vtを算出する報酬算出手段と、
前記報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する行動決定手段と
を含むことを特徴とする請求項1に記載のマルチモーダル対話サーバプログラム。
【請求項3】
前記デバイス行動確率蓄積手段について、前記デバイス行動確率r(sd0,ad0)は、当該対話シナリオに対して当該デバイスの使用可否を、1(使用すべき)〜0〜−1(使用すべきでない)の範囲で表した確率であり、
前記デバイス可用報酬値算出手段について、前記端末に搭載された1つ以上のデバイス種別の有無を、1(有効)/0(無効)で表したものである
ことを特徴とする請求項1又は2に記載の対話サーバプログラム。
【請求項4】
請求項1から3のいずれか1項に記載のマルチモーダル対話サーバプログラムをコンピュータで機能させる対話サーバと、
ユーザ操作可能であって、1つ以上の入力/出力デバイスを有する端末と、
を有するマルチモーダル対話システムであって、
前記端末は、
前記デバイス種別毎の有効/無効を、前記対話サーバへ送信するデバイス情報送信手段と、
前記対話サーバから受信した前記対話シナリオを、出力デバイスによってユーザへ提示する出力デバイス制御手段と、
ユーザ操作によって入力された入力デバイスに対する回答情報を、前記対話サーバへ送信する入力デバイス制御手段と
を有することを特徴とするマルチモーダル対話システム。
【請求項5】
前記システムは、ユーザ観測情報分析サーバを更に有し、
前記端末は、当該入力デバイス毎に検出された観測特徴量を、前記ユーザ観測分析サーバへ送信する観測特徴量送信手段を更に有し、
前記ユーザ観測情報分析サーバは、前記端末から受信した観測特徴量に基づいて、前記ユーザにおける回答情報を導出し、該回答情報を、前記対話サーバへ送信する
ことを特徴する請求項4に記載のマルチモーダル対話システム。
【請求項6】
ユーザ操作に基づく端末と、そのユーザと対話的にシナリオを進行する対話サーバとを有するシステムにおけるマルチモーダル対話方法であって、
行動a毎に、前記端末に送信すべき対話シナリオを蓄積した対話シナリオ蓄積部と、
状態sで行動aを実行した際に得られる報酬期待値r(s0,a0)を蓄積した報酬期待値蓄積部と、
複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積したデバイス行動確率蓄積部と
を有し、
前記端末に搭載された1つ以上のデバイス種別の有無を取得する第1のステップと、
入力/出力デバイス毎に、当該端末のデバイス種別の有無と、前記デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出する第2のステップと、
前記報酬期待値蓄積部の前記報酬期待値r(s0,a0)に対して、前記デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する第3のステップと、
前記報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する部分観測マルコフ決定POMDP(Partially-Observed Markov Decision Process)処理の第4のステップと、
前記対話シナリオ蓄積部から、決定された前記行動aに基づく対話シナリオを取得し、該対話シナリオを前記端末へ送信する第5のステップと
を有することを特徴とするマルチモーダル対話方法。
【請求項7】
行動aを実行した後の状態s'について観測o'を受け取る観測期待確率P(o'|s',a)と、行動aを実行した後に状態sから状態s'へ移行する状態遷移確率P(s'|s,a)とを蓄積した行動系列蓄積部を有し、
第4のステップついて、
前記観測期待確率P(o'|s',a)と前記状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出するステップと、
前記報酬期待値r(s,a)と前記確率分布bt(s)とを用いて、報酬Vtを算出するステップと、
前記報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定するステップと
を含むことを特徴とする請求項6に記載のマルチモーダル対話方法。
【請求項8】
前記デバイス行動確率蓄積部について、前記デバイス行動確率r(sd0,ad0)は、当該対話シナリオに対して当該デバイスの使用可否を、1(使用すべき)〜0〜−1(使用すべきでない)の範囲で表した確率であり、
第2のステップについて、前記端末に搭載された1つ以上のデバイス種別の有無を、1(有効)/0(無効)で表したものである
ことを特徴とする請求項6又は7に記載のマルチモーダル対話方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−216007(P2012−216007A)
【公開日】平成24年11月8日(2012.11.8)
【国際特許分類】
【出願番号】特願2011−80019(P2011−80019)
【出願日】平成23年3月31日(2011.3.31)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】