対話処理装置、対話処理方法、及び対話処理プログラム
【課題】利用者の発話に適したエキスパート部を選択する。
【解決手段】音声入力部は音声を入力し、音声認識部は入力した音声を認識し、予め定めた処理を行う場合、音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行わない場合、音声認識部が認識した認識結果に基づいて適合性を推定する複数のエキスパート部と、複数のエキスパート部のうち前記処理を行うエキスパート部が処理を継続しないと判断した場合、前記処理を行わない場合に推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部とを備える。
【解決手段】音声入力部は音声を入力し、音声認識部は入力した音声を認識し、予め定めた処理を行う場合、音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行わない場合、音声認識部が認識した認識結果に基づいて適合性を推定する複数のエキスパート部と、複数のエキスパート部のうち前記処理を行うエキスパート部が処理を継続しないと判断した場合、前記処理を行わない場合に推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話処理装置、対話処理方法、及び対話処理プログラムに関する。
【背景技術】
【0002】
利用者の発声内容に基づいて処理を行う対話処理技術が開発されている。例えば、ロボットに応用することで利用者が動作を指示する負担を軽減することが試みられている。この対話処理技術を用いることで、利用者が発話して指示した動作の種別を応答して動作を直ちに実行しない。これによりシステム側で誤認識された動作を直ちに実行することが回避され、利用者が意図する動作を導くことができる。
【0003】
例えば、特許文献1に記載の対話処理装置は、音声を入力する音声入力装置と、入力された音声を認識する音声認識部と、音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切替エキスパートが対話対象の発話に応じてモードの切り替えを行う。第1のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第2のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する。
対話行動制御部は、音声認識結果を各エキスパートに配布し、選択したトピックと各エキスパートが選択される確からしさを表すスコアに基づいてエキスパートを選択する。エキスパートとは、利用者との対話において予め定めた種類の処理、又は利用者によって指示された種類の動作を行うための処理を行うモジュール(構成部)である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2009/028647号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の対話処理装置は、不適切なエキスパートを選択しても、選択したトピックを変更しなければ選択したエキスパートを変更しないことがあった。
【0006】
本発明は上記の点に鑑みてなされたものであり、利用者の発話に適したエキスパートを選択する対話処理装置、対話処理方法、及び対話処理プログラムを提供する。
【課題を解決するための手段】
【0007】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音声を入力する音声入力部と、前記音声入力部が入力した音声を認識する音声認識部と、予め定めた処理を行うエキスパート部であって、前記処理を行う場合、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行わない場合、前記音声認識部が認識した認識結果に基づいて適合性を推定する複数のエキスパート部と、
前記複数のエキスパート部のうち、前記処理を行う場合、前記処理を継続しないと判断したエキスパート部があるとき、前記複数のエキスパート部のうち前記処理を行わない場合に推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部と、を備えることを特徴とする対話処理装置である。
【0008】
(2)本発明のその他の態様は、音声を入力する音声入力部と、前記音声入力部が入力した音声を認識する音声認識部と、予め定めた処理を行う機能を備える複数のエキスパート部のうち前記処理を行うエキスパート部について、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記音声認識部が認識した認識結果に基づいて適合性を推定し、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部とを備えることを特徴とする対話処理装置。
【0009】
(3)本発明のその他の態様は、前記動作理解部は、前記推定した適合性に基づいて前記処理を継続するか否かを判定することを特徴とする(1)又は(2)の対話処理装置である。
【0010】
(4)本発明のその他の態様は、前記複数エキスパート部の各々は、利用者が行う質問内容を表す発話情報と、前記質問内容に対する出力情報を対応付けて記憶した処理情報記憶部を備え、前記処理は、前記音声認識部が認識した認識結果に対応する発話情報の一部が照合する発話情報に対応する出力情報を選択することを特徴とする(1)ないし(3)のいずれかの対話処理装置である。
【0011】
(5)本発明のその他の態様は、前記複数のエキスパート部において前記処理情報記憶部に記憶された前記発話情報及び出力情報が各々異なることを特徴とする(4)の対話処理装置である。
【0012】
(6)本発明のその他の態様は、予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置における対話処理方法において、前記対話処理装置が、入力した音声を認識する第1の過程と、前記複数のエキスパート部のうち前記処理を行うエキスパート部が、前記認識した認識結果に基づいて前記処理を継続するか否かを判定する第2の過程と、前記処理を行うエキスパート部が前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々が、前記認識した認識結果に基づいて適合性を推定する第3の過程と、前記対話処理装置が、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する第4の過程とを有すること、を特徴とする対話処理方法である。
【0013】
(7)本発明のその他の態様は、予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置のコンピュータに、入力した音声を認識する手順、前記複数のエキスパート部のうち前記処理を行うエキスパート部について、前記認識した認識結果に基づいて処理を継続するか否かを判定する手順、前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記認識した認識結果に基づいて適合性を推定する手順、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する手順、を実行させるための対話処理プログラムである。
【発明の効果】
【0014】
本発明の一態様(1)、(2)、(6)、(7)によれば、予め定めた種類の処理を行っているエキスパート部の処理を継続するか否か考慮されるため、利用者の発話に適したエキスパート部を選択することができる。
本発明のその他の態様(3)によれば、さらに現在予め定めた種類の処理を行っていないエキスパート部が利用者の発話に適したエキスパート部である可能性を考慮して、利用者の発話に適したエキスパート部を選択することができる。
本発明のその他の態様(4)によれば、さらに利用者の発話に適した出力情報を出力するエキスパート部を選択することができる。
本発明のその他の態様(5)によれば、さらに利用者の発話と、発話に対する応答が異なるエキスパート部の中から、利用者の発話に適したエキスパート部を選択することができる。
【図面の簡単な説明】
【0015】
【図1】本発明の実施形態に係る対話処理装置の構成を示す概略図である。
【図2】本実施形態に係る対話処理を示すフローチャートである。
【図3】本実施形態に係る音声認識部の構成の一例を示す概略図である。
【図4】本実施形態に係る動作理解部が行うエキスパート選択処理を示すフローチャートである。
【図5】本実施形態に係るエキスパート部の構成を示す概略図である。
【図6】本実施形態に係るRUエキスパート部の処理情報記憶部が記憶する処理情報の一例を表す概念図である。
【図7】本実施形態に係るQAエキスパート部の処理情報記憶部が記憶する処理情報の一例を表す概念図である。
【図8】本実施形態に係るIPエキスパート部の処理情報記憶部が記憶する処理情報の一例を表す概念図である。
【図9】本実施形態に係るエキスパート共通の特徴量情報の一例を示す表である。
【図10】本実施形態に係るRUエキスパート部の特徴量情報の一例を示す表である。
【図11】本実施形態に係るIPエキスパート部の特徴量情報の一例を示す表である。
【図12】本実施形態に係るQAエキスパート部の特徴量情報の一例を示す表である。
【図13】本実施形態に係るRUエキスパート部が用いる特徴量情報の一例を示す表である。
【図14】本実施形態に係るIPエキスパート部が用いる特徴量情報の一例を示す表である。
【図15】本実施形態に係るQAエキスパート部が用いる特徴量情報の一例を示す表である。
【図16】本実施形態に係る対話処理装置による対話の一例を示す表である。
【図17】本実施形態に係る対話処理装置が選択したエキスパート部の回数の一例を示す表である。
【図18】従来技術によって選択したエキスパート部の回数の一例を示す表である。
【発明を実施するための形態】
【0016】
本発明の実施形態は、利用者が発話した音声を入力し、入力した音声信号に対して音声認識を行い、予め定めた種類の処理を行う複数のエキスパート部のうち現在処理を行っているエキスパート部について、音声認識結果に基づいて処理を継続するか否かを判定する。本実施形態は、処理を継続しないと判断した場合、複数のエキスパート部のうち現在起動していないエキスパート部の各々について、音声認識結果に基づいて適合性を推定する。本実施形態は、推定した適合性に基づいて処理を行うエキスパート部を選択する。
また、本実施形態は、さらに推定した適合性に基づいて現在処理を行っているエキスパート部の処理を継続するか否かを判定する。
【0017】
以下、図面を参照しながら本実施形態について説明する。
図1は、本実施形態に係る対話処理装置1の構成を示す概略図である。
対話処理装置1は、音声入力部101、音声認識部102、動作理解部103、エキスパート部104−1、エキスパート部104−2、エキスパート部104−3、タスク計画部106、情報出力部107及び情報提示部108を含んで構成される。
なお、エキスパート部104−1〜104−3を総称する場合や区別しない場合には、エキスパート部104−1〜104−3又は単にエキスパート部104と呼ぶ。
【0018】
音声入力部101は、受信した音波を音響信号に変換し、変換した音響信号を音声認識部102に出力する。音声入力部101は、例えばマイクロホンである。ここで、音声入力部101は、利用者が発話した音声に伴う音波を受信する。
音声認識部102は、音声入力部101から入力された音響信号に基づいて認識した音声認識情報を生成し、生成した音声認識情報を動作理解部103に出力する。音声認識部102の構成については後述する。
【0019】
音声認識部102は、予め設定された時間(例えば、1秒)よりも長い時間、予め定めた値よりも音響信号の強度(例えば、パワー)が小さい場合、無音状態と検出する。音声認識部102は、前後が無音状態で挟まれる区間を発話区間と判断する。音声認識部102は、発話区間毎に上述の音声認識情報を動作理解部103に出力する。
【0020】
動作理解部103は、現在処理を行っていないエキスパート部104から適合度情報を入力される。動作理解部103は、現在処理を行っているエキスパート部104から処理を継続するか否かを示す処理継続信号を入力される。
処理継続信号が処理を継続しないことを示す場合、動作理解部103は、入力された適合性情報に基づいて処理を開始するエキスパート部104を選択する。
なお、どのエキスパート部104も処理を行っておらず処理継続信号が入力されない場合(例えば、初期状態)、動作理解部103は、予め設定されたエキスパート部104を当初処理を開始するエキスパート部104と選択する。
動作理解部103は、選択したエキスパート部104に、処理を開始することを示す起動信号を出力する。
【0021】
対話処理装置1は、上述のように処理の種類が各々異なるエキスパート部104−1〜104−3を複数個備える。図1に示す例では、エキスパート部の個数は3個であるが、本実施形態ではエキスパート部の個数は、1個よりも多ければ何個でもよい。エキスパート部(ドメインエキスパートとも呼ぶ)は、利用者との対話における予め定めた種類の処理や、利用者によって指示された種類の動作を行うための処理を行うモジュール(構成部)である。
エキスパート部104は、次のように共通の処理を行う機能をさらに有する。エキスパート部104は、動作理解部103から起動信号を入力された場合、動作理解部103から入力された音声認識情報に基づき予め設定された処理を行う。この処理は、エキスパート部104が備える動作処理部1045(後述)が行い、出力パターン情報を生成する。処理選択部107から処理選択信号を入力されたとき、生成した出力パターン信号を処理選択部107に出力する。起動信号が入力されたエキスパート部(処理を行うエキスパート部)は、動作理解部103から入力された音声認識情報に基づき処理を継続するか否か判定し、その処理を継続するか否かを示す処理継続信号を生成する。そのエキスパート部は、生成した処理継続信号を動作理解部103に出力する。
動作理解部103から起動信号が入力されないエキスパート部(処理を行わないエキスパート部)は、動作理解部103から入力された音声認識情報に基づいて適合性情報を推定し、推定した適合性情報を動作理解部103に出力する。
【0022】
情報出力部107は、各エキスパート部104−1〜104−3の動作処理部1045に対して一定時間間隔(例えば、10ms)で出力パターン情報の出力を要求することを示す出力要求信号を出力する。情報出力部107は、予め設定された処理を行っているエキスパート部104から出力パターン情報を入力され、入力された出力パターン情報を情報提示部108に出力する。
情報提示部108は、情報出力部107から入力された出力パターン情報を利用者が知覚可能な形態に変換して利用者に提示する。出力パターン情報が、応答情報のように形態がテキスト列を備える場合には、その応答情報に対してテキスト音声合成を行って音声信号を生成する。情報提示部108は生成した音声信号に基づく音を再生する。但し、出力パターン情報が指示可能情報である場合には、情報提示部108は出力パターン上右方を表す文字の画像に変換し、変換した画像を表示する。指示可能情報とは、利用者が発話によって情報提示部108に実行させることができる情報である。指示可能情報の例については後述する。出力パターン情報が、画像情報である場合には、その画像信号に基づく画像を表示する。
【0023】
次に、本実施形態に係る対話処理装置1が行う対話処理について説明する。
図2は、本実施形態に係る対話処理を示すフローチャートである。
(ステップS101)音声入力部101は、受信した音波を音響信号に変換し、変換した音響信号を音声認識部102に出力する。その後、ステップS102に進む。
(ステップS102)音声認識部102は、音声入力部101から入力された音響信号に基づいて認識した音声認識情報を生成し、生成した音声認識情報を発話区間毎に動作理解部103に出力する。その後、ステップS103に進む。
【0024】
(ステップS103)エキスパート部104は、前回動作理解部103から起動信号を入力されたか否か判断する。即ち、エキスパート部104は、予め設定された処理を行うか否か判断する。エキスパート部104は、動作理解部103から起動信号を入力された場合(ステップS103 Y)、ステップS105に進む。エキスパート部104は、動作理解部103から起動信号を入力されない場合(ステップS103 N)、ステップS104に進む。
【0025】
(ステップS104)エキスパート部104は、動作理解部103から入力された音声認識情報に基づいて適合性情報を推定し、推定した適合性情報を動作理解部103に出力する。その後、ステップS107に進む。
(ステップS105)エキスパート部104は、動作理解部103から入力された音声認識情報に基づき予め設定された処理を行う。エキスパート部104は、自部が備える動作処理部1045において処理を行って出力パターン情報を生成する。処理選択部107から処理選択信号を入力されたとき、生成した出力パターン情報を処理選択部107に出力する。その後、ステップS106に進む。
(ステップS106)エキスパート部104は、動作理解部103から入力された音声認識情報に基づき処理を継続するか否か判定し、その処理を継続するか否かを示す処理継続信号を生成する。そのエキスパート部104は、生成した処理継続信号を動作理解部103に出力する。その後、ステップS107に進む。
【0026】
(ステップS107)動作理解部103は、対話処理装置1が備える全てのエキスパート部104−1〜104−3についてステップS103〜S106の処理を行ったか否か判断する。動作理解部103が対話処理装置1が備える全てのエキスパート部104−1〜104−3についてステップS103〜S106の処理を行ったと判断した場合(ステップS107 Y)、ステップS108に進む。動作理解部103がステップS103〜S106の処理を行っていないエキスパート部104があると判断した場合(ステップS107 N)、ステップS103に進む。
(ステップS108)動作理解部103は、現在予め設定された処理を行っていないエキスパート部104から適合性情報を入力される。動作理解部103は、現在予め設定された処理を行っているエキスパート部104から処理を継続するか否かを示す処理継続信号を入力される。処理継続信号が処理を継続しないこと(非継続)を示す場合、動作理解部103は、入力された適合性情報に基づいて次回起動するエキスパート部104を選択する。動作理解部103は選択したエキスパート部104に、処理を開始することを示す起動信号を出力する。その後、ステップS109に進む。
【0027】
(ステップS109)情報出力部107は、各エキスパート部104−1〜104−3の動作処理部1045に対して一定時間間隔で出力要求信号を出力する。情報出力部107は、予め設定された処理を行っているエキスパート部104から出力パターン情報を入力され、入力された出力パターン情報を情報提示部108に出力する。その後、ステップS110に進む。
(ステップS110)情報提示部108は、情報出力部107から入力された出力パターン情報を利用者が知覚可能な形態に変換して利用者に提示する。その後、処理を終了する。
【0028】
次に、音声認識部102の構成の一例について説明する。
図3は、本実施形態に係る音声認識部102の構成の一例を示す概略図である。
音声認識部102は、特徴量算出部1021、音響モデル記憶部1022、音素決定部1023、単語情報記憶部(単語辞書)1024、言語モデル記憶部1025、単語決定部1026を含んで構成される。
特徴量算出部1021は、音声入力部101から入力された音響信号に基づいてフレーム(例えば20ms)毎に音響特徴量(例えば、メル周波数ケプストラム(Mel frequency cepstral coefficient;MFCC))を算出する。特徴量算出部1021は、算出した音響特徴量を音素決定部1023に出力する。
【0029】
音響モデル記憶部1022には、複数個の音響特徴量に対応する対数確率値のセットを音素情報毎に備える音響モデル(例えば、隠れマルコフモデル(hidden Markov model;HMM))が予め記憶されている。
音素決定部1023は、特徴量算出部1021から入力された音響特徴量に対応する対数確率値のセットを含む音素情報を音響モデル記憶部1022から読み出す。音素決定部1023は、音響モデル記憶部1022から読み出した対数確率値を入力された音響特徴量の順番に加算して音響スコア(尤度)を算出する。音素決定部1023は、音響スコアが1番目からM(Mは予め設定された1以上の整数)番目に大きい音素情報と各々の音響スコアを関連付けて音素候補情報として単語決定部1026及び動作理解部103に出力する。
【0030】
単語情報記憶部1024には、音素情報の組からなる単語情報(単語ごとの読み)が予め複数個記憶されている。
言語モデル記憶部1025には、複数(例えば3個)の単語情報の組と対数確率値(単語信頼度)のセット(単語間の接続制約)を複数個備える言語モデルが予め記憶されている。
単語決定部1026は、音素決定部1023から入力された音素候補情報に含まれる音素情報の組に対応する単語情報を単語情報記憶部1024から読み出す。単語決定部1026は、読み出した単語情報の組に対応する単語信頼度を言語モデル記憶部1025から読み出し、読み出した単語信頼度を入力された音素候補情報が表す単語の順に加算して言語スコアを算出する。単語決定部1026は、算出した言語スコアが1番目からN(Nは予め定めた1以上の整数)番目に大きい単語情報と各々の言語スコアを単語候補情報と定める。単語決定部1026は、定めた単語候補情報に含まれる各単語情報の音素情報の組に対応する音響スコアを、入力された音素候補情報から抽出する。単語決定部1026は、定めた単語候補情報と抽出した音素候補情報を音声認識情報として動作理解部103に出力する。
【0031】
次に、動作理解部103が行うエキスパート選択処理について説明する。
図4は、本実施形態に係る動作理解部103が行うエキスパート選択処理を示すフローチャートである。
(ステップS201)動作理解部103は、音声認識部102から入力された音声認識情報を各エキスパート部104−1〜104−3に出力する。その後、ステップS202に進む。
【0032】
(ステップS202)動作理解部103は、現在予め設定された処理を行っていないエキスパート部104から適合性情報を入力される。適合性情報とは、そのエキスパート部104が与えられた音声認識情報に適合する度合いを示す情報、例えばエキスパート部104が次回処理を行う確率値Pである。確率値Pを算出する処理については後述する。その後、ステップS203に進む。
【0033】
(ステップS203)動作理解部103は、現在予め設定された処理を行っているエキスパート部104から処理を継続するか否かを示す処理継続信号を入力される。
入力された処理継続信号が、そのエキスパート部104の処理を継続することを示す(例えば、信号値1)場合(ステップS203 Y)、動作理解部103は、処理を終了する。入力された処理継続信号が、そのエキスパート部104の処理を継続しないことを示す(例えば、信号値0)場合(ステップS203 N)、ステップS204に進む。
【0034】
(ステップS204)動作理解部103は、入力された適合性情報が示す適合性が最も高いエキスパート部104を、次回予め設定された処理を行うエキスパート部104と決定する。動作理解部103は、次回予め設定された処理を行うエキスパート部に、その処理を行うことを指示する起動信号を出力する。その後、処理を終了する。
【0035】
次に、エキスパート部104が共通に備える構成について説明する。
図5は、本実施形態に係るエキスパート部104の構成を示す概略図である。
エキスパート部104は、特徴量生成部1041、処理情報記憶部1042、適合性推定部1043、処理継続判定部1044、動作処理部1045及び対話履歴記憶部1046を含んで構成される。
【0036】
特徴量生成部1041は、動作理解部103から入力された音声認識情報に基づいて特徴量情報を生成する。特徴量情報とは、与えられた音声認識情報に対してエキスパート部104毎の動作の特徴を表す特徴量の組からなる情報である。特徴量の具体例については、後述する。特徴量生成部1041は、特徴量情報を生成するために入力された音声認識情報の一部から特徴量情報の一部を抽出する。特徴量生成部1041は、入力された音声認識情報の他の部分に対応する処理情報を処理情報記憶部1042から読み出し、読み出した処理情報に基づいて特徴量情報の他の部分を生成する。さらに他の特徴量情報については、特徴量生成部1041は、対話履歴記憶部1046から読み出した対話履歴情報に基づいて生成する。特徴量の具体例及び生成方法については後述する。
【0037】
特徴量生成部1041は、処理継続判定部1044から処理を継続しないことを示す処理継続信号を入力されたときから動作理解部103から起動信号を入力されるまで、生成した特徴量情報を適合性推定部1043に出力する。つまり、該当するエキスパート部104(具体的には動作処理部1045)が予め設定された処理を行わない場合に、適合性推定部1043が適合性情報を推定する。
特徴量生成部1041は、動作理解部103から起動信号を入力されたとき、又は処理継続判定部1044から処理を継続することを示す処理継続信号を入力されたとき、生成した特徴量情報を処理継続判定部1044に出力する。つまり、該当するエキスパート部104(具体的には動作処理部1045)が処理を行う場合に、処理継続判定部1044が処理の継続・非継続を判定する。
なお、後述するように特徴量生成部1041が出力する特徴量情報が含む特徴量の組は、適合性推定部1043に出力するものと処理継続判定部1044に出力するものとで異なってもよい。
【0038】
処理情報記憶部1042は、そのエキスパート部104が予め設定された処理を実行するための処理に用いる情報やその処理を特徴付ける情報を処理情報として記憶しておく。処理情報の詳細については後述する。
【0039】
適合性推定部1043は、特徴量生成部1041から入力された特徴量情報(特徴量ベクトルF)に基づいて、当該エキスパート部104に係る適合性情報を推定する。適合性情報とは、エキスパート部104が入力された音声認識情報に適合する度合いを示す情報である。具体的には、適合性情報は、そのエキスパート部104が次回起動する確率値Pである。適合性推定部1043は、例えば式(1)を用いて確率値Pを算出する。
【0040】
【数1】
【0041】
式(1)において、F1,...,Fnは、特徴量ベクトルFの要素値(特徴量)である。nは、特徴量ベクトルFの要素数である。a1,...,anは、要素値F1,...,Fnの各々に対する乗算係数であって、実数値をとる。a0は、バイアス値であって、実数値をとる。適合性推定部1043は、エキスパート部104毎の特徴量情報と起動・非起動(つまり予め設定した処理を行うか否か)の間の既知の関係を用いて、事前学習によって係数a0,...,anを予め算出し、設定しておく。
確率値Pは、特徴量の線形結合値(a0+Σl=1nalFl)が増加するに従って単調に増加し、最小値0から最大値1までの間の実数値である。この線形結合値が∞に近づくと、確率値Pは1に漸近し、この線形結合値が−∞に近づくとPは0に漸近する。
適合性推定部1043は、推定した適合性情報を動作理解部103に出力する。
【0042】
処理継続判定部1044は、特徴量生成部1041から入力された特徴量情報(特徴量ベクトルF)に基づいて、当該エキスパート部104の動作を継続するか否か(即ち、動作処理部1045が予め設定した処理を行うか否か)を判断する。処理継続判定部1044は、動作を継続するか否かを示す処理継続信号を生成する。処理継続信号の値は、例えば1又は0である。処理継続信号の値が1の場合、予め設定した処理を継続することを示す。処理継続信号の値が0の場合、予め設定した処理を継続しないことを示す。処理継続判定部1044は、生成した処理継続信号を特徴量生成部1041、動作処理部1045及び動作理解部103に出力する。
【0043】
処理継続判定部1044は、現在予め設定された処理を行っているエキスパート部104が、その処理を継続するか否かを判断するために、例えばサポートベクターマシン(support vector machine;SVM)を用いる。サポートベクターマシンを用いる場合、処理継続判定部1044は、例えば、入力された特徴量情報を表す特徴量ベクトルFと重み係数を要素とする重み係数ベクトルwの内積を算出する。処理継続判定部1044は、算出した内積が予め定めた実数値b(例えば、ゼロ)と等しい又は大きい場合、処理を継続すると判断する。処理継続判定部1044は、算出した内積が予め定めた実数値bよりも小さい場合、処理を継続しない(非継続)と判断する。
【0044】
但し、処理継続判定部1044は、エキスパート部104毎に特徴量情報と動作継続・非継続(予め設定された処理を行うか否か)の既知の関係を用いて、事前学習によって重み係数ベクトルw及び実数値bを予め算出し、設定しておく。事前学習においては、例えば、上述の内積と実数値bの和である実数値yが1又は1よりも大きいという条件のもとで、重み係数ベクトルwのノルムが最小とする条件を課す。事前学習において算出する実数値yは、特徴量ベクトルFについて予め設定された処理を継続する場合に値1をとり、予め設定された処理を継続しない場合に値−1をとる。
【0045】
動作処理部1045は、処理継続判定部1044から処理を継続することを示す処理継続信号を入力された場合、又は、動作理解部103から起動信号を入力された場合、動作理解部103から入力された音声認識情報に基づいて予め定めた処理を行う。例えば、動作処理部1045は、音声認識情報に含まれる単語情報(キーワード)を備える発話パターン情報(例えば、質問情報)を処理情報記憶部1042から検索し、検索した発話パターン情報と対応する出力パターン情報(例えば、応答情報及び提示情報)を処理情報として処理情報記憶部1042から読み出す処理を行う。ここで、処理情報記憶部1042は、予め発話パターン情報と出力パターン情報を対応付けて処理情報として記憶している。
【0046】
動作処理部1045は、情報出力部107から出力パターン情報の出力を要求することを示す出力要求信号を入力されたとき、読み出した出力パターン情報を情報出力部107に出力する。動作処理部1045は、読み出した発話パターン情報と出力パターン情報(又はこれらの識別情報)を時刻情報と対応付けて対話履歴記憶部1046に記憶する。従って、対話履歴記憶部1046には、時刻情報毎の発話パターン情報と出力パターン情報の情報列が対話履歴として記憶される。
【0047】
動作処理部1045は、エキスパート部104−1〜104−3毎に各々異なる予め設定された処理を行う。エキスパート部104−1〜104−3が、各々RU(request understanding;要求理解)エキスパート部104−1、QA(question answering;質問応答)エキスパート部104−2、IP(interactive presentation;インタラクティブプレゼンテーション)エキスパート部104−3である場合を例にとって説明する。
以下の説明では、各機能部(特徴量生成部1041等)を、各エキスパート部104毎に区別する場合には、特徴量生成部1041−1等と呼ぶ。ここで、末尾の−1等は、エキスパート部104−1等を示す。
【0048】
RUエキスパート部104−1は、入力された音声認識情報からIPエキスパート部104−3の処理を開始させることを示す処理要求情報を抽出し、抽出した処理要求情報を確認するための対話処理(後述)を行う。RUエキスパート部104−1は、確認した処理要求情報をタスク計画部106(図示せず)に出力する。
【0049】
タスク計画部106は、対話処理装置1が備える構成部の一つである。タスク計画部106は、RUエキスパート部104−1の動作処理部1045から入力された処理要求情報に基づいて処理を開始させるIPエキスパート部104−3を選択する。タスク計画部106は、自部が備える記憶部に処理要求情報と処理を開始させるIPエキスパート部104−3の識別情報を対応付けて予め記憶させておく。タスク計画部106は、入力された処理要求情報に対応するIPエキスパート部104−3の識別情報を読み出し、読み出した識別情報が示すIPエキスパート部104−3の動作処理部1045−3に処理を開始することを指示する起動信号を出力する。動作処理部1045−3は、動作理解部103以外に、タスク計画部106からも起動信号を入力されることがある。動作処理部1045−3は、起動信号を入力されたとき、動作理解部103から入力された音声認識情報に基づいて予め設定された処理(後述)を行う。
【0050】
次に、RUエキスパート部104−1の処理情報記憶部1042−1が記憶する処理情報について動作処理部1045が行う処理とともに説明する。
図6は、本実施形態に係るRUエキスパート部104−1の処理情報記憶部1042−1が記憶する処理情報の一例を表す概念図である。
図6に示すように、処理情報記憶部1042−1は、発話パターン情報として質問情報、肯定発話情報、否定発話情報を記憶する。処理情報記憶部1042−1は、質問情報と対応付けて応答情報を出力パターン情報として記憶する。
質問情報とは、利用者が対話処理装置1に対して質問する内容を表す情報である。図6の最上行の「グリニッジ ニ ツイテ オシエテ クダサイ」とは、利用者が「グリニッジ」について質問することを表す質問情報である。そのうち、質問情報の一部として含まれ下線が付された部分「グリニッジ」、「オシエテ」は、キーワード情報を示す。キーワード情報とは、質問情報として必須であり、動作処理部1045−1が検索の手がかりとして音声認識情報に含まれる単語情報と照合する語句を表す情報である。
【0051】
図6の第2行の「カイジトシ グリニッジ ノ セツメイ デスネ」とは、利用者に対してグリニッジに対する説明を要求することについて確認を促す応答情報(出力パターン情報)である。第3行の「ハイ」、「ウン」とは、直前に提示された応答情報又は提示情報に対して肯定的な発話を表す肯定発話情報である。第4行の「イイエ」、「イヤ」とは、直前に提示された応答情報又は提示情報に対して否定的な発話を表す否定発話情報である。
【0052】
従って、動作処理部1045−1は、入力された音声認識情報に含まれる単語情報として「グリニッジ」及び「オシエテ」を含む場合、処理情報記憶部1042−1から「グリニッジ ニ ツイテ オシエテ クダサイ」を示す質問情報を読み出す。動作処理部1045は、この質問情報に対応する応答情報として「カイジトシ グリニッジ ノ セツメイ デスネ」を示す応答情報を処理情報記憶部1042−1から読み出す。動作処理部1045は、この読み出した応答情報を情報出力部107に出力し、読み出した質問情報と応答情報を時刻情報と対応付けて対話履歴記憶部1046−1に記憶する。動作処理部1045−1は、この読み出した質問情報のキーワードである「グリニッジ」、「セツメイ」を処理要求情報の候補として自部が備える記憶部に記憶する。
【0053】
動作処理部1045−1は、入力された音声認識情報に含まれる単語情報として「ハイ」を含む場合、処理情報記憶部1042−1から「ハイ」を示す肯定発話情報を読み出す。動作処理部1045−1は、読み出した肯定発話情報を対話履歴記憶部1046−1に時刻情報と対応付けて記憶する。
動作処理部1045−1は、肯定発話情報を読み出した場合、記憶した処理要求情報の候補「グリニッジ」、「セツメイ」を処理要求情報と定め、定めた処理要求情報をタスク計画部106に出力する。
【0054】
動作処理部1045−1は、入力された音声認識情報に含まれる単語情報として「イイエ」を含む場合、処理情報記憶部1042−1から「イイエ」を示す否定発話情報を読み出す。動作処理部1045−1は、読み出した否定発話情報を時刻情報と対応付けて対話履歴記憶部1046−1に記憶する。
動作処理部1045−1は、否定発話情報を読み出した場合、記憶した処理要求情報の候補「グリニッジ」、「セツメイ」を自部が備える記憶部から削除する。
【0055】
QAエキスパート部104−2は、予め定めた題目(例えば、世界遺産)に関する質問情報と応答情報の対を記憶する処理情報記憶部1042−2を備える。QAエキスパート部104−2は、音声認識情報に含まれる単語情報とキーワード情報が照合する質問情報に対応する応答情報を出力パターン情報として情報出力部107に出力する。
ここで、QAエキスパート部104−2の処理情報記憶部1042−2が記憶する処理情報について動作処理部1045が行う処理とともに説明する。
図7は、本実施形態に係るQAエキスパート部104−2の処理情報記憶部1042−2が記憶する処理情報の一例を表す概念図である。
図7に示すように、処理情報記憶部1042−2は、発話パターン情報として質問情報、肯定発話情報、否定発話情報、相槌情報を記憶する。処理情報記憶部1042−2は、質問情報と対応付けて応答情報と提示情報を出力パターン情報として記憶する。
図7の最上行の「イタリア ノ セカイイサン ノ リスト ヲ ミセテ クダサイ」とは、利用者が「イタリアの世界遺産のリストを見せ」ることを要求する質問情報である。そのうち、質問情報の一部として含まれ下線が付された部分「イタリア」、「セカイイサン」、「リスト」、「ミセテ」は、キーワード情報を示す。
【0056】
図7の第2行の「イタリア ノ セカイイサン ヲ チイキベツ ニ ショウカイ シマス」とは、利用者に対してイタリアの世界遺産を地域別に紹介することを示す応答情報(出力パターン情報)である。この応答情報は、同時に第4行に示す、イタリアの地域別の世界遺産のリストを示す画像情報(提示情報)を提示することについて利用者に対して注意を促す応答情報である。
第3行の「ドノ チイキ ノ リスト ガ ミタイ カ オッシャッテ クダサイ」とは、提示している画像情報を参照してどの地域のリストを提示すべきか利用者に対して指示を促す応答情報である。
図7の第5行の「ハイ」、「ウン」とは、直前に提示された応答情報又は提示情報に対しする肯定発話情報である。第6行の「イイエ」、「イヤ」とは、直前に提示された応答情報又は提示情報に対する否定発話情報である。
図7の第7行の「ナルホド」、「ソウデスネ」とは、直前に提示された応答情報に対して利用者が反応を示す相槌情報である。
【0057】
従って、動作処理部1045−2は、入力された音声認識情報に含まれる単語情報として「イタリア」、「セカイイサン」、「リスト」及び「ミセテ」を含む場合、処理情報記憶部1042−2から「イタリア ノ セカイイサン ノ リスト ヲ ミセテ クダサイ」を示す質問情報を読み出す。動作処理部1045−2は、この質問情報に対応する応答情報として「イタリア ノ セカイイサン ノ リスト ヲ ミセテ クダサイ。ドノ チイキ ノ リスト ガ ミタイ カ オッシャッテ クダサイ」を示す応答情報とイタリアの地域別の世界遺産のリストを示す画像情報を提示情報として読み出す。動作処理部1045−2は、この読み出した応答情報と提示情報を出力パターン情報として情報出力部107に出力し、読み出した質問情報を発話パターン情報として、応答情報及び提示情報を出力パターン情報として時刻情報と対応付けて対話履歴記憶部1046−2に記憶する。
【0058】
動作処理部1045−2は、入力された音声認識情報に含まれる単語情報として「ハイ」を含む場合、処理情報記憶部1042−2から「ハイ」を示す肯定発話情報を読み出す。動作処理部1045−2は、読み出した肯定発話情報を対話履歴記憶部1046−2に時刻情報と対応付けて記憶する。
動作処理部1045−2は、入力された音声認識情報に含まれる単語情報として「いいえ」を含む場合、処理情報記憶部1042−2から「イイエ」を示す否定発話情報を読み出す。動作処理部1045−2は、読み出した否定発話情報を対話履歴記憶部1046−2に時刻情報と対応付けて記憶する。
動作処理部1045−2は、入力された音声認識情報に含まれる単語情報として「なるほど」を含む場合、処理情報記憶部1042−2から「ナルホド」を示す相槌情報を読み出す。動作処理部1045−2は、読み出した相槌情報を対話履歴記憶部1046−2に時刻情報と対応付けて記憶する。
【0059】
IPエキスパート部104−3は、予め定めた題目(トピック)のうち1つの事項(例えば、著名な世界遺産のうちの1つ)に関する提示情報(映像情報、音声情報)と応答情報を質問情報と対応付けて記憶する動作情報記憶部1042−3を備える。IPエキスパート部104−3は、音声認識情報に含まれる単語情報とキーワード情報が照合する質問情報に対応する応答情報及び提示情報を出力パターン情報として情報出力部107に出力する。
動作情報記憶部1042−3に記憶されている動作情報は、最初に出力すべき応答情報と提示情報の組を初期出力情報として含む。IPエキスパート部104−3は、タスク計画部106から処理を開始することを指示する起動信号が入力された場合、初期出力情報を情報出力部107に出力し、対話履歴記憶部1046−3に記憶する。
【0060】
ここで、IPエキスパート部104−3の処理情報記憶部1042−3が記憶する処理情報について動作処理部1045−3が行う処理とともに説明する。
図8は、本実施形態に係るIPエキスパート部104−3の処理情報記憶部1042−3が記憶する処理情報の一例を表す概念図である。
図8に示すように、処理情報記憶部1042−3は、発話パターン情報として質問情報、指示可能情報を記憶する。処理情報記憶部1042−3は、応答情報と提示情報を出力パターン情報として記憶する。処理情報記憶部1042−3は、質問情報と対応付けて記憶する応答情報と提示情報を出力パターン情報として記憶する。
【0061】
図8の最上行から第3行に太字で示される、応答情報と提示情報の組が初期出力情報である。図8の最上行及び第2行の「カイジトシ グリニッジ ノ アンナイ ヲ シマス/グリニッジヒョウジュンジ ノ キジュン トナル トシトシテ ユイショ アル ミナトマチ デス」とは、利用者に海事都市グリニッジの案内を開始することを示し、第3行のグリニッジ市内を示す画像情報を提示することについて注意を喚起する応答情報である。
図8の第4行の「グリニッジヒョウジュンジ ッテ ナンデスカ?」とは、利用者が対話処理装置1に対してグリニッジ標準時に対して問い合わせる質問情報である。そのうち、質問情報の一部として含まれ下線が付された部分「グリニッジヒョウジュンジ」、「ナンデスカ」は、キーワード情報を示す。
【0062】
図8の第5行の「グリニッジテンモンダイ デノ ヘイキンタイヨウジ ノ コトデス」とは、利用者に対してグリニッジ標準時に対する回答としてグリニッジ天文台での平均太陽時をを示す応答情報(出力パターン情報)である。この応答情報は、同時に第6行に示す、グリニッジ天文台の内容を示す画像情報(提示情報)を提示することについて利用者に対して注意を促す応答情報である。
図8の第7行の「トマル」、「ツギ」、「モドル」、「モウイチド」とは、利用者1が提示情報を提示する処理の形態を指示する指示可能情報である。「トマル」とは、画像情報の提示を停止することを指示する情報である。「ツギ」とは、現在提示されている画像情報の直後に提示される画像情報を提示することを指示する情報である。「モドル」とは、現在提示されている画像情報の直前に提示される画像情報を提示することを指示する情報である。「モウイチド」とは、現在提示している画像情報を再度初頭から提示することを指示する情報である。
【0063】
従って、動作処理部1045−3は、タスク計画部106から起動信号が入力された場合、初期出力情報(応答情報、提示情報)を処理情報記憶部1042−3から読み出す。動作処理部1045−3は、読み出した初期出力情報を出力パターン情報として情報出力部107に出力し、対話履歴記憶部1046に記憶する。
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「グリニッジヒョウジュンジ」及び「ナンデスカ」を含む場合、処理情報記憶部1042−3から「グリニッジヒョウジュンジ ッテ ナンデスカ?」を示す質問情報を読み出す。動作処理部1045−3は、この質問情報に対応する応答情報として「グリニッジテンモンダイ デノ ヘイキンタイヨウジ ノ コトデス」を示す応答情報とグリニッジ天文台の内容を示す画像情報を提示情報として読み出す。動作処理部1045−3は、この読み出した応答情報と提示情報を出力パターン情報として情報出力部107に出力し、読み出した質問情報を発話パターン情報として、応答情報及び提示情報を出力パターン情報として、時刻情報と対応付けて対話履歴記憶部1046−3に記憶する。
【0064】
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「トマル」を含む場合、処理情報記憶部1042−3から「トマル」を示す指示可能情報を読み出す。動作処理部1045−3は、現在出力している出力パターン情報の情報出力処理部107への出力を停止する。動作処理部1045−3は、読み出した指示可能情報を対話履歴記憶部1046−3に出力パターン情報として時刻情報と対応付けて記憶する。
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「ツギ」を含む場合、処理情報記憶部1042−3から「ツギ」を示す指示可能情報を読み出す。動作処理部1045−3は、現在出力している提示情報よりも後に提示されるべき提示情報を出力パターン情報として情報出力部107へ出力する。動作処理部1045−3は、読み出した指示可能情報を対話履歴記憶部1046−3に出力パターン情報として時刻情報と対応付けて記憶する。
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「モドル」を含む場合、処理情報記憶部1042−3から「モドル」を示す指示可能情報を読み出す。動作処理部1045−3は、現在出力している提示情報よりも前に提示されるべき提示情報を出力パターン情報として情報出力部107へ出力する。動作処理部1045−3は、読み出した指示可能情報を対話履歴記憶部1046−3に出力パターン情報として時刻情報と対応付けて記憶する。
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「モウイチド」を含む場合、処理情報記憶部1042から「モウイチド」を示す指示可能情報を読み出す。動作処理部1045−3は、現在出力している提示情報を初頭から再度、出力パターン情報として情報出力部107へ出力する。動作処理部1045−3は、読み出した指示可能情報を対話履歴記憶部1046に出力パターン情報として時刻情報と対応付けて記憶する。
【0065】
次に、各エキスパート部の特徴量生成部1041が生成する特徴量情報の具体例について説明する。
以下の説明において、特徴量Fi,rxは、入力された音声認識情報に基づく特徴量情報である。特徴量Fi,hxは、対話履歴記憶部1046から読み出した対話履歴情報に基づく特徴量情報である。SRRi,jは、音声認識情報においてエキスパートクラスiにおいてj番目に言語スコアが高い単語情報及び対応する音素情報である。エキスパートクラスとは、エキスパート部の種類を意味する。iは、エキスパートクラスの何れかを示すインデックスである。iがRUのとき、RUエキスパート部104−1を示す。iがQAのとき、QAエキスパート部104−2を示す。i=IPのとき、IPエキスパート部104−3を示す。SRRi,allは、音声認識情報においてエキスパートクラスiにおいて1番目からN番目に言語スコアが高い単語情報及び対応する音素情報の全てである。SRRlv,jは、大語彙言語モデルを用いた発話検証用の音声認識情報においてj番目に言語スコアが高い単語情報及び対応する音素情報の全てである。大語彙言語モデルとは、言語モデル記憶部1025に記憶される言語モデルであって、このモデルを構成する単語列に用いられる単語の種類の数(例えば、60、250語、)が多い言語モデルである(通常の言語モデルでは、例えば5、000語)。
【0066】
図9は、本実施形態に係るエキスパート部104共通の特徴量情報の一例を示す表である。
図9の最左列から右側へ順に、関連があるエキスパートクラス(種類)、特徴量、内容を示す。図9の最左列においてエキスパートクラスが共通とは、RUエキスパート部104−1、QAエキスパート部104−2、IPエキスパート部104−3が共通に生成する特徴量情報を示す。
【0067】
図9の上から第2行の特徴量Fi,r1は、SRRi,1が得られたかどうかを示す特徴量である。SRRi,1が得られた場合、Fi,r1の値が1であり、SRRi,1が得らなかった場合、Fi,r1の値が0である。
図9の上から第3行の特徴量Fi,r2は、SRRi,jに含まれる単語情報としてフィラーが含まれるかどうかを示す特徴量である。フィラーとは、意図をもった発話の間に挟みこむ語句、例えば「ええと」、「あのう」である。SRRi,1にフィラーが含まれる場合、Fi,r2の値が1であり、SRRi,1にフィラーが含まれない場合、Fi,r2の値が0である。
【0068】
図9の上から第4行の特徴量Fi,r3は、SRRi,1に含まれる単語情報に係る単語信頼度の最小値を示す。
図9の上から第5行の特徴量Fi,r4は、SRRi,1に含まれる単語情報に係る単語信頼度の平均値を示す。
図9の上から第6行の特徴量Fi,r5は、SRRi,1に含まれる音韻情報に係る音響スコアを発話区間の時間で除算した値を示す。
図9の上から第7行の特徴量Fi,r6は、SRRi,1の言語スコアを示す。
図9の上から第8行の特徴量Fi,r7は、SRRi,1に含まれる単語数を示す。
図9の上から第9行の特徴量Fi,r8は、SRRi,allに含まれる単語数を示す。
図9の上から第10行の特徴量Fi,r9は、特徴量Fi,r5と、SRRlv,1の音響スコアを発話区間の時間で除算した値との差分値を示す。
【0069】
図10は、本実施形態に係るRUエキスパート部104−1の特徴量情報の一例を示す表である。
図10の最左列から右側へ順に、関連があるエキスパートクラス(種類)、特徴量、内容を示す。図10の最左列においてエキスパートクラスがRUとは、RUエキスパート部104−1の特徴量生成部1041−1のみが生成する特徴量情報を示す。
図10の上から第2行の特徴量FRU,r10は、SRRRU,1が肯定発話情報を含むかどうかを示す特徴量である。SRRRU,1が肯定発話情報を含む場合、FRU,r10の値が1であり、SRRRU,1が肯定発話情報を含まない場合、FRU,r10の値が0である。特徴量生成部1041−1は、SRRRU,1が肯定発話情報を含むかどうかを判断するために、処理情報記憶部1042−1に記憶されている肯定発話情報と、SRRRU,1に含まれる単語情報を照合する。
【0070】
図10の上から第3行の特徴量FRU,r11は、SRRRU,2が否定発話情報を含むかどうかを示す特徴量である。SRRRU,2が否定発話情報を含む場合、FRU,r10は値1であり、SRRRU,1が否定発話情報を含まない場合、FRU,r10の値が0である。特徴量生成部1041−1は、SRRRU,1が否定発話情報を含むかどうかを判断するために、処理情報記憶部1042−1に記憶されている否定発話情報と、SRRRU,1に含まれる単語情報を照合する。
【0071】
図10の上から第4行の特徴量FRU,r12は、音声認識情報に含まれる認識結果となる単語情報のうち、言語モデルによる認識結果の候補数を示す。
図10の上から第5行の特徴量FRU,r13は、SRRRU,1に世界遺産の名称が含まれているか否かを示す特徴量である。SRRRU,1に世界遺産の名称が含まれている場合、FRU,r13は値1であり、SRRRU,1に世界遺産の名称が含まれていない場合、FRU,r13は値0である。特徴量生成部1041−1は、SRRRU,1が世界遺産の名称を含むかどうかを判断するために、処理情報記憶部1042−1に記憶されている質問情報に含まれるキーワードのうち世界遺産の名称を示す部分と照合する。
【0072】
図10の上から第6行の特徴量FRU,h1は、対話履歴記憶部1046−1から読み出した音声認識情報であるSRRRU,1が肯定発話情報を含むかどうかを示す特徴量である。SRRRU,1が肯定発話情報を含む場合、FRU,h1の値が1であり、SRRRU,1が肯定発話情報を含まない場合、FRU,h1の値が0である。特徴量生成部1041−1は、SRRRU,1が肯定発話情報を含むかどうかを判断するために、処理情報記憶部1042−1に記憶されている肯定発話情報と、SRRRU,1に含まれる単語情報を照合する。特徴量FRU,h1は、処理継続判定部1044−1において処理を継続するか否かを判定するために用いられるが、適合性推定部1043−1において確率値Pを算出するためには用いられない。
【0073】
図10の上から第7行の特徴量FRU,h2は、RUエキスパート部104−1に遷移した後のターン数を示す特徴量である。ターン数とは、利用者による発話、対話制御装置1からの情報提示(提示情報の提示、応答情報の提示)の回数である。特徴量生成部1041−1は、対話履歴記憶部1046−1から対話履歴を読み出し、動作理解部103−1から起動信号を入力された時刻から後の読み出した対話履歴に含まれる質問情報、応答情報、肯定発話情報及び否定発話情報の総数を算出する。
【0074】
図10の上から第8行の特徴量FRU,h3は、RUエキスパート部104−1に遷移した後の否定発話の回数を示す特徴量である。特徴量生成部1041−1は、対話履歴記憶部1046−1から対話履歴を読み出し、動作理解部103−1から起動信号を入力された時刻から後の読み出した対話履歴に含まれる否定発話情報の総数を算出する。
図10の上から第9行の特徴量FRU,h4は、特徴量FRU,h3を特徴量FRU,h2で除算した特徴量である。
【0075】
図11は、本実施形態に係るIPエキスパート部104−3の特徴量情報の一例を示す表である。
図11の最左列から右側へ順に、関連があるエキスパートクラス(種類)、特徴量、内容を示す。図11の最左列においてエキスパートクラスがIPとは、IPエキスパート部104−3の特徴量生成部1041−3のみが生成する特徴量情報を示す。
【0076】
図11の上から第2行の特徴量FIP,r10は、SRRIP,1に含まれる単語情報と照合するキーワード情報を含む質問情報が処理情報記憶部1042−3にあるか否かを示す特徴量である。このような質問情報がある場合、FIP,r10の値は1であり、このような質問情報がない場合、FIP,r10の値は0である。
図11の上から第3行の特徴量FIP,r11は、質問情報に含まれるキーワードと照合する単語であって、SRRIP,jに含まれる単語情報における単語数を、SRRIP,jに含まれる単語数で除算した値を、全ての認識結果jにわたる総和をとり、さらに認識結果の個数で除算した値である。この質問情報とは、処理情報記憶部1042−3に記憶されている質問情報である。これは、特徴量FIP,r12〜FIP,r16においても同様である。
【0077】
図11の上から第4行の特徴量FIP,r12は、質問情報に含まれるキーワードkと照合する単語であって、SRRIP,allに含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードk間の最小値を示す。
図11の上から第5行の特徴量FIP,r13は、質問情報に含まれるキーワードkと照合する単語であって、SRRIP,allに含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードk間の最大値を示す。
【0078】
図11の上から第6行の特徴量FIP,r14は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRIP,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の平均値である。
図11の上から第7行の特徴量FIP,r15は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRIP,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の最小値である。
図11の上から第8行の特徴量FIP,r16は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRIP,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の最大値である。
図11の上から第9行の特徴量FIP,h1は、IPエキスパート部104−3が既出(即ち対話処理装置1が動作開始以降、予め設定された処理を行ったことがある)であるか否かを示す特徴量である。IPエキスパート部104−3が既出である場合、特徴量FIP,h1は値1である。IPエキスパート部104−3が既出でない場合、特徴量FIP,h1は値0である。IPエキスパート部104−3が既出であるか否かを判断するために、特徴量生成部1041は対話履歴記憶部1046−3から読み出した対話履歴情報に質問情報等の発話パターン情報及び応答情報等の出力パターン情報が含まれているか否かを判断する。
【0079】
図12は、本実施形態に係るQAエキスパート部104−2の特徴量情報の一例を示す表である。
図12の最左列から右側へ順に、関連があるエキスパートクラス(種類)、特徴量、内容を示す。図12の最左列においてエキスパートクラスがQAとは、QAエキスパート部104−2の特徴量生成部1041−2のみが生成する特徴量情報を示す。
【0080】
図12の上から第2行の特徴量FQA,r10は、SRRQA,1に含まれる単語情報と照合するキーワード情報を含む質問情報が処理情報記憶部1042−2にあるか否かを示す特徴量である。このような質問情報がある場合、FQA,r10の値が1であり、このような質問情報がない場合、FQA,r10の値は0である。
図12の上から第3行の特徴量FQA,r11は、質問情報に含まれるキーワードと照合する単語であって、SRRQA,jに含まれる単語情報における単語数を、SRRQA,jに含まれる単語数で除算した値を、全ての認識結果jにわたる総和をとり、さらに認識結果の個数で除算した値である。この質問情報とは、処理情報記憶部1042−2に記憶されている質問情報である。これは、特徴量FQA,r12〜FQA,r16においても同様である。
【0081】
図12の上から第4行の特徴量FQA,r12は、質問情報に含まれるキーワードkと照合する単語であって、SRRQA,allに含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードk間の最小値を示す。
図12の上から第5行の特徴量FQA,r13は、質問情報に含まれるキーワードkと照合する単語であって、SRRQA,allに含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードk間の最大値を示す。
【0082】
図12の上から第6行の特徴量FQA,r14は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRQA,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の平均値である。
図12の上から第7行の特徴量FQA,r15は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRQA,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の最小値である。
図12の上から第8行の特徴量FQA,r16は、SRRIP,1に含まれる単語情報における単語が相槌情報であるか否かを示す特徴量である。SRRIP,1に含まれる単語情報における単語が相槌情報である場合、特徴量FQA,r16の値は1である。SRRIP,1に含まれる単語情報における単語が相槌情報ではない場合、特徴量FQA,r16の値は0である。特徴量生成部1041−2は、SRRIP,1に含まれる単語情報における単語が相槌情報であるかどうかを判断するために、処理情報記憶部1042−2に記憶されている相槌情報と、SRRIP,1に含まれる単語情報を照合する。
【0083】
図12の上から第9行の特徴量FQA,h1は、対話履歴記憶部1046−2から読み出した音声認識情報であるSRRQA,1が肯定発話情報を含むかどうかを示す特徴量である。SRRQA,1が肯定発話情報を含む場合、FQA,h1の値は1であり、SRRQA,1が肯定発話情報を含まない場合、FQA,h1の値は0である。特徴量生成部1041−2は、SRRQA,1が肯定発話情報を含むかどうかを判断するために、処理情報記憶部1042−2に記憶されている肯定発話情報と、SRRQA,1に含まれる単語情報を照合する。特徴量FQA,h1は、処理継続判定部1044−2において処理を継続するか否かを判定するために用いられるが、適合性推定部1043−2において確率値Pを算出するためには用いられない。
【0084】
図12の上から第10行の特徴量FQA,h2は、QAエキスパート部104−2に遷移した後のターン数を示す特徴量である。ターン数とは、利用者が行う発話及び対話処理装置1からの応答の総数である。そこで、特徴量生成部1041−2は、対話履歴記憶部1046−2から対話履歴を読み出し、動作理解部103−2から起動信号を入力された時刻から後の読み出した対話履歴に含まれる質問情報、応答情報、肯定発話情報及び否定発話情報の総数を算出する。
【0085】
図12の上から第11行の特徴量FQA,h3は、QAエキスパート部104−2に遷移(予め設定された処理を開始)した後の否定発話の回数を示す特徴量である。特徴量生成部1041−2は、対話履歴記憶部1046−2から対話履歴を読み出し、動作理解部103−2から起動信号を入力された時刻から後の読み出した対話履歴に含まれる否定発話情報の総数を算出する。
図12の上から第12行の特徴量FQA,h4は、特徴量FQA,h3を特徴量FQA,h2で除算した特徴量である。
【0086】
上述の特徴量を、各エキスパート部104−1〜104−3の適合性推定部1043−1〜1043−3は、確率値の算出に、処理継続判定部1044−1〜1044−3は、エキスパート部の処理を継続するか否かの判断に用いる。
具体的には、RUエキスパート部104−1の適合性推定部1043−1は、特徴量FRU,r1−FRU,r13、FRU,h2−FRU,h4を、式(1)の特徴量F1−Fnに代入して確率値Pを算出する。処理継続判定部1044−1は、特徴量FRU,r1−FRU,r13、FRU,h1−FRU,h4を、特徴量ベクトルFの要素値として処理を継続するか否か判断する。
【0087】
具体的には、IPエキスパート部104−3の適合性推定部1043−3は、特徴量FIP,r1−FIP,r16、FIP,h1を、式(1)の特徴量F1−Fnに代入して確率値P(適合)を算出する。処理継続判定部1044−3は、特徴量FIP,r1−FIP,r16、FIP,h1を、特徴量ベクトルFの要素値として処理を継続するか否か判断する。
具体的には、QAエキスパート部104−2の適合性推定部1043−2は、特徴量FQA,r1−FQA,r16、FQA,h2−FQA,h4を、式(1)の特徴量F1−Fnに代入して確率値Pを算出する。処理継続判定部1044−2は、特徴量FQA,r1−FQA,r16、FQA,h1−FQA,h4を、特徴量ベクトルFの要素値として処理を継続するか否か判断する。
【0088】
なお、上述の特徴量を全て確率値の算出又は、エキスパート部の処理を継続するか否かの判断に用いると、演算量が過大になるうえ、各特徴量に乗算する係数を事前学習する際に過学習(overfitting)が生じ、却って推定精度や判断精度が低下するおそれがある。そこで、上述の特徴量のうち確率値、又は処理継続・非継続の判断に寄与する一部の特徴量のみを用い、確率値、又は処理継続・非継続の判断に寄与しないものを用いなくともよい。次に、その一部の特徴量情報の例について説明する。
【0089】
図13は、本実施形態に係るRUエキスパート部104−1が用いる特徴量情報の一例を示す表である。
図13の最上行は、最左列から右側へ順に、特徴量、適合性推定、継続・非継続判定を示す。図13の最左列の第2行以降の行は、RUエキスパート部104−1が用いる特徴量の候補としてFRU,r1,...FRU,r13,FRU,h1,...,FRU,h4,Faを示す。ここで、特徴量Faとは、(具体的には動作処理部1045が)予め設定した処理を行わないエキスパート部104が推定した適合性情報(確率値P)の最大値を示す。
図13において、−印は該当する情報がないことを示す。図13の左から第2列において、○は適合性推定に用いる特徴量であることを示す。図13の左から第3列において、○は継続・非継続判断に用いる特徴量であることを示す。
即ち、図13は、適合性推定部1043−1は、適合性情報(確率値P)を算出する際に特徴量FRU,r2,...FRU,r6,FRU,r8,FRU,r13を用いることを示す。従って、特徴量生成部1041は、これらの特徴量情報を生成し、生成した特徴量情報を適合性推定部1043に出力する。
また、図13は、処理継続判定部1044−1は、処理の継続・非継続を判定する際に特徴量FRU,r1,FRU,r2,FRU,r4,FRU,r5,FRU,h1,FRU,h2,Faを用いることを示す。従って、特徴量生成部1041−1は、特徴量FRU,r1,FRU,r2,FRU,r4,FRU,r5,FRU,h1,FRU,h2を表す特徴量情報を生成し、生成した特徴量情報を処理継続判定部1044−1に出力する。
【0090】
図14は、本実施形態に係るIPエキスパート部104−3が用いる特徴量情報の一例を示す表である。
図14の最上行は、最左列から右側へ順に、特徴量、適合性推定、継続・非継続判定を示す。図14の最左列の第2行以降の行は、IPエキスパート部104−3が用いる特徴量の候補としてFIP,r1,...FIP,r16,FIP,h1,Faを示す。
図14において、−印は該当する情報がないことを示す。図14の左から第2列において、○は適合性推定に用いる特徴量であることを示す。図14の左から第3列において、○は継続非継続判定に用いる特徴量であることを示す。
即ち、図14は、適合性推定部1043−3は、適合性情報(確率値P)を算出する際に特徴量FIP,r2,FIP,r4,FIP,r6,...FIP,r10,FIP,r12,...FIP,r14を用いることを示す。従って、特徴量生成部1041−1は、これらの特徴量情報を生成し、生成した特徴量情報を適合性推定部1043−3に出力する。
また、図14は、処理継続判定部1044−3は、処理の継続・非継続を判定する際に特徴量FIP,r1,...FIP,r8,Faを用いることを示す。従って、特徴量生成部1041−3は、特徴量FIP,r1,...FIP,r8を表す特徴量情報を生成し、生成した特徴量情報を処理継続判定部1044−3に出力する。
【0091】
図15は、本実施形態に係るQAエキスパート部104−2が用いる特徴量情報の一例を示す表である。
図15の最上行は、最左列から右側へ順に、特徴量、適合性推定、継続・非継続判定を示す。図15の最左列の第2行以降の行は、QAエキスパート部104−2が用いる特徴量の候補としてFQA,r1,...FQA,r16,FQA,h1,...FQA,h4,Faを示す。
図15において、−印は該当する情報がないことを示す。図15の左から第2列において、○は適合性推定に用いる特徴量であることを示す。図15の左から第3列において、○は継続・非継続判定に用いる特徴量であることを示す。
即ち、図15は、適合性推定部1043−2は、適合性情報(確率値P)を算出する際に特徴量FQA,r2,...FQA,r4,FQA,r6,...FQA,r8,FQA,r10,FQA,r13,...FQA,r15を用いることを示す。従って、特徴量生成部1041−2は、これらの特徴量情報を生成し、生成した特徴量情報を適合性推定部1043−2に出力する。
また、図15は、処理継続判定部1044−2は、処理の継続・非継続を判定する際に特徴量FQA,r1,...FQA,r6,FQA,h1,Faを用いることを示す。従って、特徴量生成部1041−2は、特徴量FQA,r1,...FQA,r6,FQA,h1を表す特徴量情報を生成し、生成した特徴量情報を処理継続判定部1044−2に出力する。
【0092】
なお、本実施形態では、動作理解部103は、予め設定された処理を行わないエキスパート部104から入力され確率値Pのうち最大値を特徴量Faとして選択し、選択した特徴量Faを予め設定された処理を行うエキスパート部104の処理継続判定部1044に出力する。処理継続判定部1044は、動作理解部103から特徴量Faから入力されるようにする。これにより、処理継続判定部1044は音声認識結果に対するエキスパート部の適合性を考慮して、当該エキスパート部104が実行している処理の継続・非継続の判断を行うことができる。
【0093】
なお、適合性推定や継続・非継続判定に用いる特徴量を選択するために、本実施形態について事前検証を行っておく。この検証では、特徴量の候補の中から、特徴量を1個除外して各エキスパート部が正しく選択されるかを適合性推定、処理の継続・非継続の判断の各々について調べる。除外対象の特徴量を変更して検証を繰り返す。そして、除外対象の特徴量毎について性能の指標値であるF値を求めた。次に、F値が最も高くなる除外対象の特徴量を特徴量の候補から削除して検証を繰り返す。但し、特徴量の候補の中から、どの特徴量を除外してもF値がこれ以上高くならなったときに検証を終了する。検証が終了して残った特徴量の候補の一例が、図13〜15に示す特徴量である。この残った特徴量の候補が、適合性推定又は継続・非継続判定に用いる特徴量として選択される。
【0094】
F値とは、適合率(precision)と再現率(recall)の調和平均、つまり適合率と再現率の積を、適合率と再現率の相加平均で除算した値である。適合率とは選択された情報の数の選択対象の情報の数に対する割合であり、本実施形態では、エキスパート部104毎の選択された回数の試行回数に対する割合である。再現率とは選択された情報の数の正解情報の数に対する割合であり、本実施形態では、エキスパート部104毎の選択された回数の正解として選択されるべき試行回数に対する割合である。一般に適合率が増加すると再現率が低下する関係にあるが、F値が高いほどエキスパート部104を選択する精度が高いことを表す。
【0095】
なお、図1に示す対話処理装置1は、IPエキスパート部104−3を1個備えるが、本実施形態では、これには限られない。本実施形態では対話処理装置1は、各々異なる質問情報、応答情報、提示情報のセットを記憶しているIPエキスパート部104−3を複数個備えてもよい。
【0096】
なお、図1に示す対話処理装置1では、動作理解部103が、現在処理を行っているエキスパート部から処理を継続するか否かを示す処理継続信号を入力され、現在処理を行っていないエキスパート部から適合度情報を入力される。各エキスパート部は音声認識情報に基づいて特徴量情報を生成する。現在予め設定された処理を行っているエキスパート部は、生成した特徴量情報に基づき処理継続信号を生成する。現在予め設定された処理を行っていないエキスパート部は、生成した特徴量情報に基づき適合度情報を生成する。
しかし、本実施形態ではこれには限られず、動作理解部103は、各エキスパート部104−1〜104−3から音声認識情報に基づいて生成した特徴量情報を入力されるようにしてもよい。このとき、動作理解部103は、処理継続判定部1044と同様に現在予め設定された処理を行っているエキスパート部から入力された特徴量情報に基づき処理継続信号を生成し、適合性推定部1043と同様に現在予め設定された処理を行っていないエキスパート部から入力された特徴量情報に基づき適合性情報を生成する。この場合、各エキスパート部104−1〜104−3は、適合性推定部1043と処理継続判定部1044を省略してもよい。
【0097】
次に、対話処理装置1が出力する発話と利用者の発話からなる対話の一例について説明する。
図16は、本実施形態に係る対話処理装置1による対話の一例を示す表である。
図16は、最左列から右側へ順に、発話主体、発話(動作)、選択エキスパートを示す。選択エキスパートとは、予め設定された処理を行うエキスパート部104として動作理解部103が選択したエキスパート部104である。
図16の第2行は、対話処理装置1が、利用者に対して「こんにちは、イタリア、ギリシャと他の地域の有名な世界遺産についての質問にお答えします。また、いくつかの世界遺産について詳しく説明できます。何でも聞いてみて下さい。」という音声を提示することを示す。これにより、対話処理装置1は利用者に対して問合せを促す。図16の第2行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
図16の第3行は、対話処理装置1が上述の音声を受けて利用者が発話した「イタリアの世界遺産のリストを見せて下さい。」を示す音声を認識し、対話処理装置1はイタリアの世界遺産のリストを画像で表示することを示す。図16の第3行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
【0098】
図16の第4行は、対話処理装置1が、利用者に対して「イタリアの世界遺産を地域別に紹介します。どの地域のリストを見たいかおっしゃって下さい。」という音声を提示することを示す。これにより、対話処理装置1は利用者に対して紹介する地域について音声で指示することを促す。図16の第4行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
図16の第5行は、対話処理装置1が上述の音声を受けて利用者が発話した「他に何が聞けますか?」、を示す音声を認識し、対話処理装置1はイタリアの世界遺産のリストを画像で表示することを示す。図16の第5行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
【0099】
図16の第6行は、対話処理装置1が利用者に対して「イタリア、ギリシャの世界遺産と、他の著名な世界遺産に関して質問にお答えします。」という音声を提示することを示し、世界遺産のリストを画像情報として提示する。
これにより、対話処理装置1は世界遺産に関する質問を利用者に対して促す。図16の第6行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
【0100】
図16の第7行は、対話処理装置1が、利用者が発話した「グリニッジについて教えてください。」という音声を認識し、RUエキスパート部104−1が処理を開始したことを示す。
図16の第8行は、対話処理装置1が「海事都市グリニッジの説明ですね?」という音声を提示し、利用者に認識した情報の確認を促す。図16の第8行は、この処理に係るエキスパート部がRUエキスパート部104−1であることを示す。
図16の第9行は、対話処理装置1が、利用者が発話した「はい」という音声を認識し、認識した情報が肯定応答情報であることを認識する。図16の第9行は、この選択エキスパートがRUエキスパート部104−1であることを示す。
【0101】
図16の第10行は、対話処理装置1が「はい、海事都市グリニッジの案内をします。グリニッジ標準時の基準となる都市として由緒ある港町です。」という音声を提示し、提示する情報の概要を示す。図16の第10行は、この選択エキスパートがIPエキスパート部104−3であることを示す。
図16の第11行は、対話処理装置1が、利用者が発話した「グリニッジ標準時ってなんですか?」という音声を認識することを示す。図16の第11行は、この選択エキスパートが104−3であることを示す。
図16の第12行は、対話処理装置1が「グリニッジ天文台での平均太陽時です。」という音声を、利用者の発話に対する応答情報として提示することを示す。図16の第12行は、この選択エキスパートがIPエキスパート部104−3であることを示す。
【0102】
次に、本実施形態に係る対話処理装置1の検証結果として選択エキスパートの選択精度について説明する。なお、検証において、IPエキスパート部104−3を8個備える対話処理装置1を用いた。
図17は、本実施形態に係る対話処理装置1が選択したエキスパート部104の回数の一例を示す表である。
図17の各列は、対話処理装置1が選択したエキスパート部104(選択エキスパート)を示す。図17の各行は、正解として既知のエキスパート部104(正解エキスパート)を示す。選択エキスパート、正解エキスパートの種類は、それぞれRUエキスパート部104−1を1種類(RU)、QAエキスパート部104−2を1種類(QA)、IPエキスパート部104−3を8種類(IP1〜IP8)、計10種類である。IP1〜IP8は、各々異なる処理情報(質問情報、応答情報、提示情報)を記憶し出力する。 図17の第3〜12行、第3〜12列の各欄は、その行の正解エキスパートに対してその列の選択エキスパートと選択した回数を示す。図17の第13列は、全選択エキスパートにわたる正解エキスパート毎の回数の合計値(試行回数)を示す。図17の第13行は、全正解エキスパートにわたる選択エキスパート毎の選択された回数の合計値を示す。従って、図17の第3〜12行の各対角要素は、エキスパート部毎の正しく選択された回数を示す。
【0103】
図17が示すように、RUについては、234回中162回が正解である。QAについては、1025回中941回が正解である。IP1については、12回中8回が正解である。IP2については、22回中18回が正解である。IP3については、72回中52回が正解である。IP4については、80回中61回が正解である。IP5については、29回中26回が正解である。IP6については、35回中24回が正解である。IP7については、57回中43回が正解である。IP8については、17回中12回が正解である。従って、全エキスパート部104にわたる正答率は85.09%である。
【0104】
比較として、従来技術を用いた場合のエキスパート部104の選択精度について説明する。選択対象となるエキスパート部104の個数及び種類は、上述と同様である。ここでは、エキスパート部104毎に異なる言語モデルを用いて音声認識してスコア値を算出する。また、直前のエキスパート部と同一のエキスパート部について予め定めた値を算出したスコア値に加算して、直前のエキスパート部を優先して選択する(参考文献: B. Lin, H. Wang, and L. Lee. A distributed architecture for cooperative spoken dialogue agents with coherent dialogue state and history. n Proc. ASRU−99, 1999)。
【0105】
図18は、従来技術によって選択したエキスパート部104の回数の一例を示す表である。
図18において、用いたエキスパート部の個数及び種類、試行回数、各行各列の配列は、図17が示す結果と同様である。
図18によれば、RUについては、234回中128回が正解である。QAについては、1025回中951回が正解である。IP1については、12回中4回が正解である。IP2については、22回中7回が正解である。IP3については、72回中21回が正解である。IP4については、80回中19回が正解である。IP5については、29回中12回が正解である。IP6については、35回中9回が正解である。IP7については、57回中15回が正解である。IP8については、17回中1回が正解である。従って、全エキスパート部104にわたる正答率は73.72%である。これより本実施形態では全エキスパート部104にわたる正答率が11.37%向上している。
【0106】
このように、本実施形態では、予め定めた処理を行う機能を有する複数のエキスパート部を備え、入力した音声を認識し、複数のエキスパート部のうち前記処理を行うエキスパート部が、前記認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行うエキスパート部が前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々が、前記認識した認識結果に基づいて適合性を推定し、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する。これにより、処理を行っているエキスパート部の処理を継続するか否か考慮されるため、利用者の発話に適したエキスパート部を選択することができる。
【0107】
また、本実施形態では、さらに推定した適合性に基づいて前記処理を行うエキスパート部の処理を継続するか否かを判定する。これにより、本実施形態に係る対話処理装置は現在処理を行っていないエキスパート部が利用者の発話に適したエキスパート部である可能性を考慮して、利用者の発話に適したエキスパート部を選択することができる。
【0108】
また、本実施形態では、前記複数エキスパート部の各々は、利用者が行う質問内容を表す発話情報と、前記質問内容に対する出力情報を対応付けて記憶した処理情報記憶部を備え、前記処理は、前記音声認識部が認識した認識結果に対応する発話情報の一部が照合する発話情報に対応する出力情報を選択する。これにより、さらに利用者の発話に適した出力情報を出力するエキスパート部を選択することができる。
【0109】
また、本実施形態では、前記複数のエキスパート部において前記処理情報記憶部に記憶された前記発話情報及び出力情報が各々異なることを特徴とする。これにより、さらに利用者の発話と、発話に対する応答が異なるエキスパート部の中から、利用者の発話に適したエキスパート部を選択することができる。
【0110】
なお、上述した実施形態における対話処理装置1の一部、例えば、特徴量算出部1021、音素決定部1023、単語決定部1026、動作理解部103、特徴量生成部1041、適合性推定部1043、処理継続判定部1044、動作処理部1045、タスク計画部106、及び情報出力部107をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。
【0111】
また、対話処理装置1が備えるエキスパート部104のうち少なくとも1つは、対話処理装置1が備える他の機能部、例えば、特徴量算出部1021、音素決定部1023、単語決定部1026、動作理解部103、タスク計画部106、及び情報出力部107を実現する、別個のコンピュータシステムを備え、そのコンピュータシステムを用いて実現されるものであっても良い。その場合、対話処理装置1を実現するプログラムとは別個のプログラムを用いて実現する。
対話処理装置1が備える他の機能部、例えば、特徴量算出部1021、音素決定部1023、単語決定部1026、動作理解部103タスク計画部106、及び情報出力部107を実現する、別個のコンピュータシステムを備え、そのコンピュータシステムを用いて実現されるものであってもよい。その場合、対話処理装置1を実現するプログラムとは別個のプログラムを用いて実現する。
【0112】
また、対話処理装置1が備えるエキスパート部104のうち少なくとも1つは、音声認識部を備え、その音声認識部が備える音響モデル部はエキスパート部104毎に異なる音響モデルを記憶しても良い。また、その音声認識部が備える言語モデル部はエキスパート部104毎に異なる言語モデルを記憶しても良い。その場合、対話処理装置1は、音声入力部101は動作理解部103に音響信号を出力する。動作理解部103は、音声入力部101から入力された音響信号を音声認識情報の代わりに、音声認識部を備えるエキスパート部104に出力する。そのエキスパート部104は、動作理解部103から入力された音響信号に基づいて音声認識情報を生成するようにする。対話処理装置1が備えるエキスパート部の全てが音声認識部を備える場合、音声認識部102を省略しても良い。
【0113】
なお、ここでいう「コンピュータシステム」とは、対話処理装置1に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における対話処理装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。対話処理装置1の各機能ブロックは個別にプロセッサ化しても良いし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
【0114】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0115】
1…対話処理装置、101…音声入力部、102…音声認識部、
1021…特徴量算出部、1022…音響モデル記憶部、1023…音素決定部、
1024…単語情報記憶部、1025…言語モデル記憶部、1026…単語決定部、
103…動作理解部、104(104−1〜104−3)エキスパート部、
104−1…RUエキスパート部、104−2…QAエキスパート部、
104−3…IPエキスパート部、
1041(1041−1〜1041−3)…特徴量生成部、
1042(1042−1〜1042−3)…処理情報記憶部、
1043(1043−1〜1043−3)…適合性推定部、
1044(1044−1〜1044−3)…処理継続判定部、
1045(1045−1〜1045−3)…動作処理部、
1046(1046−1〜1046−3)…対話履歴記憶部、
106…タスク計画部、107…情報出力部、108…情報提示部
【技術分野】
【0001】
本発明は、対話処理装置、対話処理方法、及び対話処理プログラムに関する。
【背景技術】
【0002】
利用者の発声内容に基づいて処理を行う対話処理技術が開発されている。例えば、ロボットに応用することで利用者が動作を指示する負担を軽減することが試みられている。この対話処理技術を用いることで、利用者が発話して指示した動作の種別を応答して動作を直ちに実行しない。これによりシステム側で誤認識された動作を直ちに実行することが回避され、利用者が意図する動作を導くことができる。
【0003】
例えば、特許文献1に記載の対話処理装置は、音声を入力する音声入力装置と、入力された音声を認識する音声認識部と、音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切替エキスパートが対話対象の発話に応じてモードの切り替えを行う。第1のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第2のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する。
対話行動制御部は、音声認識結果を各エキスパートに配布し、選択したトピックと各エキスパートが選択される確からしさを表すスコアに基づいてエキスパートを選択する。エキスパートとは、利用者との対話において予め定めた種類の処理、又は利用者によって指示された種類の動作を行うための処理を行うモジュール(構成部)である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2009/028647号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の対話処理装置は、不適切なエキスパートを選択しても、選択したトピックを変更しなければ選択したエキスパートを変更しないことがあった。
【0006】
本発明は上記の点に鑑みてなされたものであり、利用者の発話に適したエキスパートを選択する対話処理装置、対話処理方法、及び対話処理プログラムを提供する。
【課題を解決するための手段】
【0007】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音声を入力する音声入力部と、前記音声入力部が入力した音声を認識する音声認識部と、予め定めた処理を行うエキスパート部であって、前記処理を行う場合、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行わない場合、前記音声認識部が認識した認識結果に基づいて適合性を推定する複数のエキスパート部と、
前記複数のエキスパート部のうち、前記処理を行う場合、前記処理を継続しないと判断したエキスパート部があるとき、前記複数のエキスパート部のうち前記処理を行わない場合に推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部と、を備えることを特徴とする対話処理装置である。
【0008】
(2)本発明のその他の態様は、音声を入力する音声入力部と、前記音声入力部が入力した音声を認識する音声認識部と、予め定めた処理を行う機能を備える複数のエキスパート部のうち前記処理を行うエキスパート部について、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記音声認識部が認識した認識結果に基づいて適合性を推定し、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部とを備えることを特徴とする対話処理装置。
【0009】
(3)本発明のその他の態様は、前記動作理解部は、前記推定した適合性に基づいて前記処理を継続するか否かを判定することを特徴とする(1)又は(2)の対話処理装置である。
【0010】
(4)本発明のその他の態様は、前記複数エキスパート部の各々は、利用者が行う質問内容を表す発話情報と、前記質問内容に対する出力情報を対応付けて記憶した処理情報記憶部を備え、前記処理は、前記音声認識部が認識した認識結果に対応する発話情報の一部が照合する発話情報に対応する出力情報を選択することを特徴とする(1)ないし(3)のいずれかの対話処理装置である。
【0011】
(5)本発明のその他の態様は、前記複数のエキスパート部において前記処理情報記憶部に記憶された前記発話情報及び出力情報が各々異なることを特徴とする(4)の対話処理装置である。
【0012】
(6)本発明のその他の態様は、予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置における対話処理方法において、前記対話処理装置が、入力した音声を認識する第1の過程と、前記複数のエキスパート部のうち前記処理を行うエキスパート部が、前記認識した認識結果に基づいて前記処理を継続するか否かを判定する第2の過程と、前記処理を行うエキスパート部が前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々が、前記認識した認識結果に基づいて適合性を推定する第3の過程と、前記対話処理装置が、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する第4の過程とを有すること、を特徴とする対話処理方法である。
【0013】
(7)本発明のその他の態様は、予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置のコンピュータに、入力した音声を認識する手順、前記複数のエキスパート部のうち前記処理を行うエキスパート部について、前記認識した認識結果に基づいて処理を継続するか否かを判定する手順、前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記認識した認識結果に基づいて適合性を推定する手順、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する手順、を実行させるための対話処理プログラムである。
【発明の効果】
【0014】
本発明の一態様(1)、(2)、(6)、(7)によれば、予め定めた種類の処理を行っているエキスパート部の処理を継続するか否か考慮されるため、利用者の発話に適したエキスパート部を選択することができる。
本発明のその他の態様(3)によれば、さらに現在予め定めた種類の処理を行っていないエキスパート部が利用者の発話に適したエキスパート部である可能性を考慮して、利用者の発話に適したエキスパート部を選択することができる。
本発明のその他の態様(4)によれば、さらに利用者の発話に適した出力情報を出力するエキスパート部を選択することができる。
本発明のその他の態様(5)によれば、さらに利用者の発話と、発話に対する応答が異なるエキスパート部の中から、利用者の発話に適したエキスパート部を選択することができる。
【図面の簡単な説明】
【0015】
【図1】本発明の実施形態に係る対話処理装置の構成を示す概略図である。
【図2】本実施形態に係る対話処理を示すフローチャートである。
【図3】本実施形態に係る音声認識部の構成の一例を示す概略図である。
【図4】本実施形態に係る動作理解部が行うエキスパート選択処理を示すフローチャートである。
【図5】本実施形態に係るエキスパート部の構成を示す概略図である。
【図6】本実施形態に係るRUエキスパート部の処理情報記憶部が記憶する処理情報の一例を表す概念図である。
【図7】本実施形態に係るQAエキスパート部の処理情報記憶部が記憶する処理情報の一例を表す概念図である。
【図8】本実施形態に係るIPエキスパート部の処理情報記憶部が記憶する処理情報の一例を表す概念図である。
【図9】本実施形態に係るエキスパート共通の特徴量情報の一例を示す表である。
【図10】本実施形態に係るRUエキスパート部の特徴量情報の一例を示す表である。
【図11】本実施形態に係るIPエキスパート部の特徴量情報の一例を示す表である。
【図12】本実施形態に係るQAエキスパート部の特徴量情報の一例を示す表である。
【図13】本実施形態に係るRUエキスパート部が用いる特徴量情報の一例を示す表である。
【図14】本実施形態に係るIPエキスパート部が用いる特徴量情報の一例を示す表である。
【図15】本実施形態に係るQAエキスパート部が用いる特徴量情報の一例を示す表である。
【図16】本実施形態に係る対話処理装置による対話の一例を示す表である。
【図17】本実施形態に係る対話処理装置が選択したエキスパート部の回数の一例を示す表である。
【図18】従来技術によって選択したエキスパート部の回数の一例を示す表である。
【発明を実施するための形態】
【0016】
本発明の実施形態は、利用者が発話した音声を入力し、入力した音声信号に対して音声認識を行い、予め定めた種類の処理を行う複数のエキスパート部のうち現在処理を行っているエキスパート部について、音声認識結果に基づいて処理を継続するか否かを判定する。本実施形態は、処理を継続しないと判断した場合、複数のエキスパート部のうち現在起動していないエキスパート部の各々について、音声認識結果に基づいて適合性を推定する。本実施形態は、推定した適合性に基づいて処理を行うエキスパート部を選択する。
また、本実施形態は、さらに推定した適合性に基づいて現在処理を行っているエキスパート部の処理を継続するか否かを判定する。
【0017】
以下、図面を参照しながら本実施形態について説明する。
図1は、本実施形態に係る対話処理装置1の構成を示す概略図である。
対話処理装置1は、音声入力部101、音声認識部102、動作理解部103、エキスパート部104−1、エキスパート部104−2、エキスパート部104−3、タスク計画部106、情報出力部107及び情報提示部108を含んで構成される。
なお、エキスパート部104−1〜104−3を総称する場合や区別しない場合には、エキスパート部104−1〜104−3又は単にエキスパート部104と呼ぶ。
【0018】
音声入力部101は、受信した音波を音響信号に変換し、変換した音響信号を音声認識部102に出力する。音声入力部101は、例えばマイクロホンである。ここで、音声入力部101は、利用者が発話した音声に伴う音波を受信する。
音声認識部102は、音声入力部101から入力された音響信号に基づいて認識した音声認識情報を生成し、生成した音声認識情報を動作理解部103に出力する。音声認識部102の構成については後述する。
【0019】
音声認識部102は、予め設定された時間(例えば、1秒)よりも長い時間、予め定めた値よりも音響信号の強度(例えば、パワー)が小さい場合、無音状態と検出する。音声認識部102は、前後が無音状態で挟まれる区間を発話区間と判断する。音声認識部102は、発話区間毎に上述の音声認識情報を動作理解部103に出力する。
【0020】
動作理解部103は、現在処理を行っていないエキスパート部104から適合度情報を入力される。動作理解部103は、現在処理を行っているエキスパート部104から処理を継続するか否かを示す処理継続信号を入力される。
処理継続信号が処理を継続しないことを示す場合、動作理解部103は、入力された適合性情報に基づいて処理を開始するエキスパート部104を選択する。
なお、どのエキスパート部104も処理を行っておらず処理継続信号が入力されない場合(例えば、初期状態)、動作理解部103は、予め設定されたエキスパート部104を当初処理を開始するエキスパート部104と選択する。
動作理解部103は、選択したエキスパート部104に、処理を開始することを示す起動信号を出力する。
【0021】
対話処理装置1は、上述のように処理の種類が各々異なるエキスパート部104−1〜104−3を複数個備える。図1に示す例では、エキスパート部の個数は3個であるが、本実施形態ではエキスパート部の個数は、1個よりも多ければ何個でもよい。エキスパート部(ドメインエキスパートとも呼ぶ)は、利用者との対話における予め定めた種類の処理や、利用者によって指示された種類の動作を行うための処理を行うモジュール(構成部)である。
エキスパート部104は、次のように共通の処理を行う機能をさらに有する。エキスパート部104は、動作理解部103から起動信号を入力された場合、動作理解部103から入力された音声認識情報に基づき予め設定された処理を行う。この処理は、エキスパート部104が備える動作処理部1045(後述)が行い、出力パターン情報を生成する。処理選択部107から処理選択信号を入力されたとき、生成した出力パターン信号を処理選択部107に出力する。起動信号が入力されたエキスパート部(処理を行うエキスパート部)は、動作理解部103から入力された音声認識情報に基づき処理を継続するか否か判定し、その処理を継続するか否かを示す処理継続信号を生成する。そのエキスパート部は、生成した処理継続信号を動作理解部103に出力する。
動作理解部103から起動信号が入力されないエキスパート部(処理を行わないエキスパート部)は、動作理解部103から入力された音声認識情報に基づいて適合性情報を推定し、推定した適合性情報を動作理解部103に出力する。
【0022】
情報出力部107は、各エキスパート部104−1〜104−3の動作処理部1045に対して一定時間間隔(例えば、10ms)で出力パターン情報の出力を要求することを示す出力要求信号を出力する。情報出力部107は、予め設定された処理を行っているエキスパート部104から出力パターン情報を入力され、入力された出力パターン情報を情報提示部108に出力する。
情報提示部108は、情報出力部107から入力された出力パターン情報を利用者が知覚可能な形態に変換して利用者に提示する。出力パターン情報が、応答情報のように形態がテキスト列を備える場合には、その応答情報に対してテキスト音声合成を行って音声信号を生成する。情報提示部108は生成した音声信号に基づく音を再生する。但し、出力パターン情報が指示可能情報である場合には、情報提示部108は出力パターン上右方を表す文字の画像に変換し、変換した画像を表示する。指示可能情報とは、利用者が発話によって情報提示部108に実行させることができる情報である。指示可能情報の例については後述する。出力パターン情報が、画像情報である場合には、その画像信号に基づく画像を表示する。
【0023】
次に、本実施形態に係る対話処理装置1が行う対話処理について説明する。
図2は、本実施形態に係る対話処理を示すフローチャートである。
(ステップS101)音声入力部101は、受信した音波を音響信号に変換し、変換した音響信号を音声認識部102に出力する。その後、ステップS102に進む。
(ステップS102)音声認識部102は、音声入力部101から入力された音響信号に基づいて認識した音声認識情報を生成し、生成した音声認識情報を発話区間毎に動作理解部103に出力する。その後、ステップS103に進む。
【0024】
(ステップS103)エキスパート部104は、前回動作理解部103から起動信号を入力されたか否か判断する。即ち、エキスパート部104は、予め設定された処理を行うか否か判断する。エキスパート部104は、動作理解部103から起動信号を入力された場合(ステップS103 Y)、ステップS105に進む。エキスパート部104は、動作理解部103から起動信号を入力されない場合(ステップS103 N)、ステップS104に進む。
【0025】
(ステップS104)エキスパート部104は、動作理解部103から入力された音声認識情報に基づいて適合性情報を推定し、推定した適合性情報を動作理解部103に出力する。その後、ステップS107に進む。
(ステップS105)エキスパート部104は、動作理解部103から入力された音声認識情報に基づき予め設定された処理を行う。エキスパート部104は、自部が備える動作処理部1045において処理を行って出力パターン情報を生成する。処理選択部107から処理選択信号を入力されたとき、生成した出力パターン情報を処理選択部107に出力する。その後、ステップS106に進む。
(ステップS106)エキスパート部104は、動作理解部103から入力された音声認識情報に基づき処理を継続するか否か判定し、その処理を継続するか否かを示す処理継続信号を生成する。そのエキスパート部104は、生成した処理継続信号を動作理解部103に出力する。その後、ステップS107に進む。
【0026】
(ステップS107)動作理解部103は、対話処理装置1が備える全てのエキスパート部104−1〜104−3についてステップS103〜S106の処理を行ったか否か判断する。動作理解部103が対話処理装置1が備える全てのエキスパート部104−1〜104−3についてステップS103〜S106の処理を行ったと判断した場合(ステップS107 Y)、ステップS108に進む。動作理解部103がステップS103〜S106の処理を行っていないエキスパート部104があると判断した場合(ステップS107 N)、ステップS103に進む。
(ステップS108)動作理解部103は、現在予め設定された処理を行っていないエキスパート部104から適合性情報を入力される。動作理解部103は、現在予め設定された処理を行っているエキスパート部104から処理を継続するか否かを示す処理継続信号を入力される。処理継続信号が処理を継続しないこと(非継続)を示す場合、動作理解部103は、入力された適合性情報に基づいて次回起動するエキスパート部104を選択する。動作理解部103は選択したエキスパート部104に、処理を開始することを示す起動信号を出力する。その後、ステップS109に進む。
【0027】
(ステップS109)情報出力部107は、各エキスパート部104−1〜104−3の動作処理部1045に対して一定時間間隔で出力要求信号を出力する。情報出力部107は、予め設定された処理を行っているエキスパート部104から出力パターン情報を入力され、入力された出力パターン情報を情報提示部108に出力する。その後、ステップS110に進む。
(ステップS110)情報提示部108は、情報出力部107から入力された出力パターン情報を利用者が知覚可能な形態に変換して利用者に提示する。その後、処理を終了する。
【0028】
次に、音声認識部102の構成の一例について説明する。
図3は、本実施形態に係る音声認識部102の構成の一例を示す概略図である。
音声認識部102は、特徴量算出部1021、音響モデル記憶部1022、音素決定部1023、単語情報記憶部(単語辞書)1024、言語モデル記憶部1025、単語決定部1026を含んで構成される。
特徴量算出部1021は、音声入力部101から入力された音響信号に基づいてフレーム(例えば20ms)毎に音響特徴量(例えば、メル周波数ケプストラム(Mel frequency cepstral coefficient;MFCC))を算出する。特徴量算出部1021は、算出した音響特徴量を音素決定部1023に出力する。
【0029】
音響モデル記憶部1022には、複数個の音響特徴量に対応する対数確率値のセットを音素情報毎に備える音響モデル(例えば、隠れマルコフモデル(hidden Markov model;HMM))が予め記憶されている。
音素決定部1023は、特徴量算出部1021から入力された音響特徴量に対応する対数確率値のセットを含む音素情報を音響モデル記憶部1022から読み出す。音素決定部1023は、音響モデル記憶部1022から読み出した対数確率値を入力された音響特徴量の順番に加算して音響スコア(尤度)を算出する。音素決定部1023は、音響スコアが1番目からM(Mは予め設定された1以上の整数)番目に大きい音素情報と各々の音響スコアを関連付けて音素候補情報として単語決定部1026及び動作理解部103に出力する。
【0030】
単語情報記憶部1024には、音素情報の組からなる単語情報(単語ごとの読み)が予め複数個記憶されている。
言語モデル記憶部1025には、複数(例えば3個)の単語情報の組と対数確率値(単語信頼度)のセット(単語間の接続制約)を複数個備える言語モデルが予め記憶されている。
単語決定部1026は、音素決定部1023から入力された音素候補情報に含まれる音素情報の組に対応する単語情報を単語情報記憶部1024から読み出す。単語決定部1026は、読み出した単語情報の組に対応する単語信頼度を言語モデル記憶部1025から読み出し、読み出した単語信頼度を入力された音素候補情報が表す単語の順に加算して言語スコアを算出する。単語決定部1026は、算出した言語スコアが1番目からN(Nは予め定めた1以上の整数)番目に大きい単語情報と各々の言語スコアを単語候補情報と定める。単語決定部1026は、定めた単語候補情報に含まれる各単語情報の音素情報の組に対応する音響スコアを、入力された音素候補情報から抽出する。単語決定部1026は、定めた単語候補情報と抽出した音素候補情報を音声認識情報として動作理解部103に出力する。
【0031】
次に、動作理解部103が行うエキスパート選択処理について説明する。
図4は、本実施形態に係る動作理解部103が行うエキスパート選択処理を示すフローチャートである。
(ステップS201)動作理解部103は、音声認識部102から入力された音声認識情報を各エキスパート部104−1〜104−3に出力する。その後、ステップS202に進む。
【0032】
(ステップS202)動作理解部103は、現在予め設定された処理を行っていないエキスパート部104から適合性情報を入力される。適合性情報とは、そのエキスパート部104が与えられた音声認識情報に適合する度合いを示す情報、例えばエキスパート部104が次回処理を行う確率値Pである。確率値Pを算出する処理については後述する。その後、ステップS203に進む。
【0033】
(ステップS203)動作理解部103は、現在予め設定された処理を行っているエキスパート部104から処理を継続するか否かを示す処理継続信号を入力される。
入力された処理継続信号が、そのエキスパート部104の処理を継続することを示す(例えば、信号値1)場合(ステップS203 Y)、動作理解部103は、処理を終了する。入力された処理継続信号が、そのエキスパート部104の処理を継続しないことを示す(例えば、信号値0)場合(ステップS203 N)、ステップS204に進む。
【0034】
(ステップS204)動作理解部103は、入力された適合性情報が示す適合性が最も高いエキスパート部104を、次回予め設定された処理を行うエキスパート部104と決定する。動作理解部103は、次回予め設定された処理を行うエキスパート部に、その処理を行うことを指示する起動信号を出力する。その後、処理を終了する。
【0035】
次に、エキスパート部104が共通に備える構成について説明する。
図5は、本実施形態に係るエキスパート部104の構成を示す概略図である。
エキスパート部104は、特徴量生成部1041、処理情報記憶部1042、適合性推定部1043、処理継続判定部1044、動作処理部1045及び対話履歴記憶部1046を含んで構成される。
【0036】
特徴量生成部1041は、動作理解部103から入力された音声認識情報に基づいて特徴量情報を生成する。特徴量情報とは、与えられた音声認識情報に対してエキスパート部104毎の動作の特徴を表す特徴量の組からなる情報である。特徴量の具体例については、後述する。特徴量生成部1041は、特徴量情報を生成するために入力された音声認識情報の一部から特徴量情報の一部を抽出する。特徴量生成部1041は、入力された音声認識情報の他の部分に対応する処理情報を処理情報記憶部1042から読み出し、読み出した処理情報に基づいて特徴量情報の他の部分を生成する。さらに他の特徴量情報については、特徴量生成部1041は、対話履歴記憶部1046から読み出した対話履歴情報に基づいて生成する。特徴量の具体例及び生成方法については後述する。
【0037】
特徴量生成部1041は、処理継続判定部1044から処理を継続しないことを示す処理継続信号を入力されたときから動作理解部103から起動信号を入力されるまで、生成した特徴量情報を適合性推定部1043に出力する。つまり、該当するエキスパート部104(具体的には動作処理部1045)が予め設定された処理を行わない場合に、適合性推定部1043が適合性情報を推定する。
特徴量生成部1041は、動作理解部103から起動信号を入力されたとき、又は処理継続判定部1044から処理を継続することを示す処理継続信号を入力されたとき、生成した特徴量情報を処理継続判定部1044に出力する。つまり、該当するエキスパート部104(具体的には動作処理部1045)が処理を行う場合に、処理継続判定部1044が処理の継続・非継続を判定する。
なお、後述するように特徴量生成部1041が出力する特徴量情報が含む特徴量の組は、適合性推定部1043に出力するものと処理継続判定部1044に出力するものとで異なってもよい。
【0038】
処理情報記憶部1042は、そのエキスパート部104が予め設定された処理を実行するための処理に用いる情報やその処理を特徴付ける情報を処理情報として記憶しておく。処理情報の詳細については後述する。
【0039】
適合性推定部1043は、特徴量生成部1041から入力された特徴量情報(特徴量ベクトルF)に基づいて、当該エキスパート部104に係る適合性情報を推定する。適合性情報とは、エキスパート部104が入力された音声認識情報に適合する度合いを示す情報である。具体的には、適合性情報は、そのエキスパート部104が次回起動する確率値Pである。適合性推定部1043は、例えば式(1)を用いて確率値Pを算出する。
【0040】
【数1】
【0041】
式(1)において、F1,...,Fnは、特徴量ベクトルFの要素値(特徴量)である。nは、特徴量ベクトルFの要素数である。a1,...,anは、要素値F1,...,Fnの各々に対する乗算係数であって、実数値をとる。a0は、バイアス値であって、実数値をとる。適合性推定部1043は、エキスパート部104毎の特徴量情報と起動・非起動(つまり予め設定した処理を行うか否か)の間の既知の関係を用いて、事前学習によって係数a0,...,anを予め算出し、設定しておく。
確率値Pは、特徴量の線形結合値(a0+Σl=1nalFl)が増加するに従って単調に増加し、最小値0から最大値1までの間の実数値である。この線形結合値が∞に近づくと、確率値Pは1に漸近し、この線形結合値が−∞に近づくとPは0に漸近する。
適合性推定部1043は、推定した適合性情報を動作理解部103に出力する。
【0042】
処理継続判定部1044は、特徴量生成部1041から入力された特徴量情報(特徴量ベクトルF)に基づいて、当該エキスパート部104の動作を継続するか否か(即ち、動作処理部1045が予め設定した処理を行うか否か)を判断する。処理継続判定部1044は、動作を継続するか否かを示す処理継続信号を生成する。処理継続信号の値は、例えば1又は0である。処理継続信号の値が1の場合、予め設定した処理を継続することを示す。処理継続信号の値が0の場合、予め設定した処理を継続しないことを示す。処理継続判定部1044は、生成した処理継続信号を特徴量生成部1041、動作処理部1045及び動作理解部103に出力する。
【0043】
処理継続判定部1044は、現在予め設定された処理を行っているエキスパート部104が、その処理を継続するか否かを判断するために、例えばサポートベクターマシン(support vector machine;SVM)を用いる。サポートベクターマシンを用いる場合、処理継続判定部1044は、例えば、入力された特徴量情報を表す特徴量ベクトルFと重み係数を要素とする重み係数ベクトルwの内積を算出する。処理継続判定部1044は、算出した内積が予め定めた実数値b(例えば、ゼロ)と等しい又は大きい場合、処理を継続すると判断する。処理継続判定部1044は、算出した内積が予め定めた実数値bよりも小さい場合、処理を継続しない(非継続)と判断する。
【0044】
但し、処理継続判定部1044は、エキスパート部104毎に特徴量情報と動作継続・非継続(予め設定された処理を行うか否か)の既知の関係を用いて、事前学習によって重み係数ベクトルw及び実数値bを予め算出し、設定しておく。事前学習においては、例えば、上述の内積と実数値bの和である実数値yが1又は1よりも大きいという条件のもとで、重み係数ベクトルwのノルムが最小とする条件を課す。事前学習において算出する実数値yは、特徴量ベクトルFについて予め設定された処理を継続する場合に値1をとり、予め設定された処理を継続しない場合に値−1をとる。
【0045】
動作処理部1045は、処理継続判定部1044から処理を継続することを示す処理継続信号を入力された場合、又は、動作理解部103から起動信号を入力された場合、動作理解部103から入力された音声認識情報に基づいて予め定めた処理を行う。例えば、動作処理部1045は、音声認識情報に含まれる単語情報(キーワード)を備える発話パターン情報(例えば、質問情報)を処理情報記憶部1042から検索し、検索した発話パターン情報と対応する出力パターン情報(例えば、応答情報及び提示情報)を処理情報として処理情報記憶部1042から読み出す処理を行う。ここで、処理情報記憶部1042は、予め発話パターン情報と出力パターン情報を対応付けて処理情報として記憶している。
【0046】
動作処理部1045は、情報出力部107から出力パターン情報の出力を要求することを示す出力要求信号を入力されたとき、読み出した出力パターン情報を情報出力部107に出力する。動作処理部1045は、読み出した発話パターン情報と出力パターン情報(又はこれらの識別情報)を時刻情報と対応付けて対話履歴記憶部1046に記憶する。従って、対話履歴記憶部1046には、時刻情報毎の発話パターン情報と出力パターン情報の情報列が対話履歴として記憶される。
【0047】
動作処理部1045は、エキスパート部104−1〜104−3毎に各々異なる予め設定された処理を行う。エキスパート部104−1〜104−3が、各々RU(request understanding;要求理解)エキスパート部104−1、QA(question answering;質問応答)エキスパート部104−2、IP(interactive presentation;インタラクティブプレゼンテーション)エキスパート部104−3である場合を例にとって説明する。
以下の説明では、各機能部(特徴量生成部1041等)を、各エキスパート部104毎に区別する場合には、特徴量生成部1041−1等と呼ぶ。ここで、末尾の−1等は、エキスパート部104−1等を示す。
【0048】
RUエキスパート部104−1は、入力された音声認識情報からIPエキスパート部104−3の処理を開始させることを示す処理要求情報を抽出し、抽出した処理要求情報を確認するための対話処理(後述)を行う。RUエキスパート部104−1は、確認した処理要求情報をタスク計画部106(図示せず)に出力する。
【0049】
タスク計画部106は、対話処理装置1が備える構成部の一つである。タスク計画部106は、RUエキスパート部104−1の動作処理部1045から入力された処理要求情報に基づいて処理を開始させるIPエキスパート部104−3を選択する。タスク計画部106は、自部が備える記憶部に処理要求情報と処理を開始させるIPエキスパート部104−3の識別情報を対応付けて予め記憶させておく。タスク計画部106は、入力された処理要求情報に対応するIPエキスパート部104−3の識別情報を読み出し、読み出した識別情報が示すIPエキスパート部104−3の動作処理部1045−3に処理を開始することを指示する起動信号を出力する。動作処理部1045−3は、動作理解部103以外に、タスク計画部106からも起動信号を入力されることがある。動作処理部1045−3は、起動信号を入力されたとき、動作理解部103から入力された音声認識情報に基づいて予め設定された処理(後述)を行う。
【0050】
次に、RUエキスパート部104−1の処理情報記憶部1042−1が記憶する処理情報について動作処理部1045が行う処理とともに説明する。
図6は、本実施形態に係るRUエキスパート部104−1の処理情報記憶部1042−1が記憶する処理情報の一例を表す概念図である。
図6に示すように、処理情報記憶部1042−1は、発話パターン情報として質問情報、肯定発話情報、否定発話情報を記憶する。処理情報記憶部1042−1は、質問情報と対応付けて応答情報を出力パターン情報として記憶する。
質問情報とは、利用者が対話処理装置1に対して質問する内容を表す情報である。図6の最上行の「グリニッジ ニ ツイテ オシエテ クダサイ」とは、利用者が「グリニッジ」について質問することを表す質問情報である。そのうち、質問情報の一部として含まれ下線が付された部分「グリニッジ」、「オシエテ」は、キーワード情報を示す。キーワード情報とは、質問情報として必須であり、動作処理部1045−1が検索の手がかりとして音声認識情報に含まれる単語情報と照合する語句を表す情報である。
【0051】
図6の第2行の「カイジトシ グリニッジ ノ セツメイ デスネ」とは、利用者に対してグリニッジに対する説明を要求することについて確認を促す応答情報(出力パターン情報)である。第3行の「ハイ」、「ウン」とは、直前に提示された応答情報又は提示情報に対して肯定的な発話を表す肯定発話情報である。第4行の「イイエ」、「イヤ」とは、直前に提示された応答情報又は提示情報に対して否定的な発話を表す否定発話情報である。
【0052】
従って、動作処理部1045−1は、入力された音声認識情報に含まれる単語情報として「グリニッジ」及び「オシエテ」を含む場合、処理情報記憶部1042−1から「グリニッジ ニ ツイテ オシエテ クダサイ」を示す質問情報を読み出す。動作処理部1045は、この質問情報に対応する応答情報として「カイジトシ グリニッジ ノ セツメイ デスネ」を示す応答情報を処理情報記憶部1042−1から読み出す。動作処理部1045は、この読み出した応答情報を情報出力部107に出力し、読み出した質問情報と応答情報を時刻情報と対応付けて対話履歴記憶部1046−1に記憶する。動作処理部1045−1は、この読み出した質問情報のキーワードである「グリニッジ」、「セツメイ」を処理要求情報の候補として自部が備える記憶部に記憶する。
【0053】
動作処理部1045−1は、入力された音声認識情報に含まれる単語情報として「ハイ」を含む場合、処理情報記憶部1042−1から「ハイ」を示す肯定発話情報を読み出す。動作処理部1045−1は、読み出した肯定発話情報を対話履歴記憶部1046−1に時刻情報と対応付けて記憶する。
動作処理部1045−1は、肯定発話情報を読み出した場合、記憶した処理要求情報の候補「グリニッジ」、「セツメイ」を処理要求情報と定め、定めた処理要求情報をタスク計画部106に出力する。
【0054】
動作処理部1045−1は、入力された音声認識情報に含まれる単語情報として「イイエ」を含む場合、処理情報記憶部1042−1から「イイエ」を示す否定発話情報を読み出す。動作処理部1045−1は、読み出した否定発話情報を時刻情報と対応付けて対話履歴記憶部1046−1に記憶する。
動作処理部1045−1は、否定発話情報を読み出した場合、記憶した処理要求情報の候補「グリニッジ」、「セツメイ」を自部が備える記憶部から削除する。
【0055】
QAエキスパート部104−2は、予め定めた題目(例えば、世界遺産)に関する質問情報と応答情報の対を記憶する処理情報記憶部1042−2を備える。QAエキスパート部104−2は、音声認識情報に含まれる単語情報とキーワード情報が照合する質問情報に対応する応答情報を出力パターン情報として情報出力部107に出力する。
ここで、QAエキスパート部104−2の処理情報記憶部1042−2が記憶する処理情報について動作処理部1045が行う処理とともに説明する。
図7は、本実施形態に係るQAエキスパート部104−2の処理情報記憶部1042−2が記憶する処理情報の一例を表す概念図である。
図7に示すように、処理情報記憶部1042−2は、発話パターン情報として質問情報、肯定発話情報、否定発話情報、相槌情報を記憶する。処理情報記憶部1042−2は、質問情報と対応付けて応答情報と提示情報を出力パターン情報として記憶する。
図7の最上行の「イタリア ノ セカイイサン ノ リスト ヲ ミセテ クダサイ」とは、利用者が「イタリアの世界遺産のリストを見せ」ることを要求する質問情報である。そのうち、質問情報の一部として含まれ下線が付された部分「イタリア」、「セカイイサン」、「リスト」、「ミセテ」は、キーワード情報を示す。
【0056】
図7の第2行の「イタリア ノ セカイイサン ヲ チイキベツ ニ ショウカイ シマス」とは、利用者に対してイタリアの世界遺産を地域別に紹介することを示す応答情報(出力パターン情報)である。この応答情報は、同時に第4行に示す、イタリアの地域別の世界遺産のリストを示す画像情報(提示情報)を提示することについて利用者に対して注意を促す応答情報である。
第3行の「ドノ チイキ ノ リスト ガ ミタイ カ オッシャッテ クダサイ」とは、提示している画像情報を参照してどの地域のリストを提示すべきか利用者に対して指示を促す応答情報である。
図7の第5行の「ハイ」、「ウン」とは、直前に提示された応答情報又は提示情報に対しする肯定発話情報である。第6行の「イイエ」、「イヤ」とは、直前に提示された応答情報又は提示情報に対する否定発話情報である。
図7の第7行の「ナルホド」、「ソウデスネ」とは、直前に提示された応答情報に対して利用者が反応を示す相槌情報である。
【0057】
従って、動作処理部1045−2は、入力された音声認識情報に含まれる単語情報として「イタリア」、「セカイイサン」、「リスト」及び「ミセテ」を含む場合、処理情報記憶部1042−2から「イタリア ノ セカイイサン ノ リスト ヲ ミセテ クダサイ」を示す質問情報を読み出す。動作処理部1045−2は、この質問情報に対応する応答情報として「イタリア ノ セカイイサン ノ リスト ヲ ミセテ クダサイ。ドノ チイキ ノ リスト ガ ミタイ カ オッシャッテ クダサイ」を示す応答情報とイタリアの地域別の世界遺産のリストを示す画像情報を提示情報として読み出す。動作処理部1045−2は、この読み出した応答情報と提示情報を出力パターン情報として情報出力部107に出力し、読み出した質問情報を発話パターン情報として、応答情報及び提示情報を出力パターン情報として時刻情報と対応付けて対話履歴記憶部1046−2に記憶する。
【0058】
動作処理部1045−2は、入力された音声認識情報に含まれる単語情報として「ハイ」を含む場合、処理情報記憶部1042−2から「ハイ」を示す肯定発話情報を読み出す。動作処理部1045−2は、読み出した肯定発話情報を対話履歴記憶部1046−2に時刻情報と対応付けて記憶する。
動作処理部1045−2は、入力された音声認識情報に含まれる単語情報として「いいえ」を含む場合、処理情報記憶部1042−2から「イイエ」を示す否定発話情報を読み出す。動作処理部1045−2は、読み出した否定発話情報を対話履歴記憶部1046−2に時刻情報と対応付けて記憶する。
動作処理部1045−2は、入力された音声認識情報に含まれる単語情報として「なるほど」を含む場合、処理情報記憶部1042−2から「ナルホド」を示す相槌情報を読み出す。動作処理部1045−2は、読み出した相槌情報を対話履歴記憶部1046−2に時刻情報と対応付けて記憶する。
【0059】
IPエキスパート部104−3は、予め定めた題目(トピック)のうち1つの事項(例えば、著名な世界遺産のうちの1つ)に関する提示情報(映像情報、音声情報)と応答情報を質問情報と対応付けて記憶する動作情報記憶部1042−3を備える。IPエキスパート部104−3は、音声認識情報に含まれる単語情報とキーワード情報が照合する質問情報に対応する応答情報及び提示情報を出力パターン情報として情報出力部107に出力する。
動作情報記憶部1042−3に記憶されている動作情報は、最初に出力すべき応答情報と提示情報の組を初期出力情報として含む。IPエキスパート部104−3は、タスク計画部106から処理を開始することを指示する起動信号が入力された場合、初期出力情報を情報出力部107に出力し、対話履歴記憶部1046−3に記憶する。
【0060】
ここで、IPエキスパート部104−3の処理情報記憶部1042−3が記憶する処理情報について動作処理部1045−3が行う処理とともに説明する。
図8は、本実施形態に係るIPエキスパート部104−3の処理情報記憶部1042−3が記憶する処理情報の一例を表す概念図である。
図8に示すように、処理情報記憶部1042−3は、発話パターン情報として質問情報、指示可能情報を記憶する。処理情報記憶部1042−3は、応答情報と提示情報を出力パターン情報として記憶する。処理情報記憶部1042−3は、質問情報と対応付けて記憶する応答情報と提示情報を出力パターン情報として記憶する。
【0061】
図8の最上行から第3行に太字で示される、応答情報と提示情報の組が初期出力情報である。図8の最上行及び第2行の「カイジトシ グリニッジ ノ アンナイ ヲ シマス/グリニッジヒョウジュンジ ノ キジュン トナル トシトシテ ユイショ アル ミナトマチ デス」とは、利用者に海事都市グリニッジの案内を開始することを示し、第3行のグリニッジ市内を示す画像情報を提示することについて注意を喚起する応答情報である。
図8の第4行の「グリニッジヒョウジュンジ ッテ ナンデスカ?」とは、利用者が対話処理装置1に対してグリニッジ標準時に対して問い合わせる質問情報である。そのうち、質問情報の一部として含まれ下線が付された部分「グリニッジヒョウジュンジ」、「ナンデスカ」は、キーワード情報を示す。
【0062】
図8の第5行の「グリニッジテンモンダイ デノ ヘイキンタイヨウジ ノ コトデス」とは、利用者に対してグリニッジ標準時に対する回答としてグリニッジ天文台での平均太陽時をを示す応答情報(出力パターン情報)である。この応答情報は、同時に第6行に示す、グリニッジ天文台の内容を示す画像情報(提示情報)を提示することについて利用者に対して注意を促す応答情報である。
図8の第7行の「トマル」、「ツギ」、「モドル」、「モウイチド」とは、利用者1が提示情報を提示する処理の形態を指示する指示可能情報である。「トマル」とは、画像情報の提示を停止することを指示する情報である。「ツギ」とは、現在提示されている画像情報の直後に提示される画像情報を提示することを指示する情報である。「モドル」とは、現在提示されている画像情報の直前に提示される画像情報を提示することを指示する情報である。「モウイチド」とは、現在提示している画像情報を再度初頭から提示することを指示する情報である。
【0063】
従って、動作処理部1045−3は、タスク計画部106から起動信号が入力された場合、初期出力情報(応答情報、提示情報)を処理情報記憶部1042−3から読み出す。動作処理部1045−3は、読み出した初期出力情報を出力パターン情報として情報出力部107に出力し、対話履歴記憶部1046に記憶する。
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「グリニッジヒョウジュンジ」及び「ナンデスカ」を含む場合、処理情報記憶部1042−3から「グリニッジヒョウジュンジ ッテ ナンデスカ?」を示す質問情報を読み出す。動作処理部1045−3は、この質問情報に対応する応答情報として「グリニッジテンモンダイ デノ ヘイキンタイヨウジ ノ コトデス」を示す応答情報とグリニッジ天文台の内容を示す画像情報を提示情報として読み出す。動作処理部1045−3は、この読み出した応答情報と提示情報を出力パターン情報として情報出力部107に出力し、読み出した質問情報を発話パターン情報として、応答情報及び提示情報を出力パターン情報として、時刻情報と対応付けて対話履歴記憶部1046−3に記憶する。
【0064】
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「トマル」を含む場合、処理情報記憶部1042−3から「トマル」を示す指示可能情報を読み出す。動作処理部1045−3は、現在出力している出力パターン情報の情報出力処理部107への出力を停止する。動作処理部1045−3は、読み出した指示可能情報を対話履歴記憶部1046−3に出力パターン情報として時刻情報と対応付けて記憶する。
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「ツギ」を含む場合、処理情報記憶部1042−3から「ツギ」を示す指示可能情報を読み出す。動作処理部1045−3は、現在出力している提示情報よりも後に提示されるべき提示情報を出力パターン情報として情報出力部107へ出力する。動作処理部1045−3は、読み出した指示可能情報を対話履歴記憶部1046−3に出力パターン情報として時刻情報と対応付けて記憶する。
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「モドル」を含む場合、処理情報記憶部1042−3から「モドル」を示す指示可能情報を読み出す。動作処理部1045−3は、現在出力している提示情報よりも前に提示されるべき提示情報を出力パターン情報として情報出力部107へ出力する。動作処理部1045−3は、読み出した指示可能情報を対話履歴記憶部1046−3に出力パターン情報として時刻情報と対応付けて記憶する。
動作処理部1045−3は、入力された音声認識情報に含まれる単語情報として「モウイチド」を含む場合、処理情報記憶部1042から「モウイチド」を示す指示可能情報を読み出す。動作処理部1045−3は、現在出力している提示情報を初頭から再度、出力パターン情報として情報出力部107へ出力する。動作処理部1045−3は、読み出した指示可能情報を対話履歴記憶部1046に出力パターン情報として時刻情報と対応付けて記憶する。
【0065】
次に、各エキスパート部の特徴量生成部1041が生成する特徴量情報の具体例について説明する。
以下の説明において、特徴量Fi,rxは、入力された音声認識情報に基づく特徴量情報である。特徴量Fi,hxは、対話履歴記憶部1046から読み出した対話履歴情報に基づく特徴量情報である。SRRi,jは、音声認識情報においてエキスパートクラスiにおいてj番目に言語スコアが高い単語情報及び対応する音素情報である。エキスパートクラスとは、エキスパート部の種類を意味する。iは、エキスパートクラスの何れかを示すインデックスである。iがRUのとき、RUエキスパート部104−1を示す。iがQAのとき、QAエキスパート部104−2を示す。i=IPのとき、IPエキスパート部104−3を示す。SRRi,allは、音声認識情報においてエキスパートクラスiにおいて1番目からN番目に言語スコアが高い単語情報及び対応する音素情報の全てである。SRRlv,jは、大語彙言語モデルを用いた発話検証用の音声認識情報においてj番目に言語スコアが高い単語情報及び対応する音素情報の全てである。大語彙言語モデルとは、言語モデル記憶部1025に記憶される言語モデルであって、このモデルを構成する単語列に用いられる単語の種類の数(例えば、60、250語、)が多い言語モデルである(通常の言語モデルでは、例えば5、000語)。
【0066】
図9は、本実施形態に係るエキスパート部104共通の特徴量情報の一例を示す表である。
図9の最左列から右側へ順に、関連があるエキスパートクラス(種類)、特徴量、内容を示す。図9の最左列においてエキスパートクラスが共通とは、RUエキスパート部104−1、QAエキスパート部104−2、IPエキスパート部104−3が共通に生成する特徴量情報を示す。
【0067】
図9の上から第2行の特徴量Fi,r1は、SRRi,1が得られたかどうかを示す特徴量である。SRRi,1が得られた場合、Fi,r1の値が1であり、SRRi,1が得らなかった場合、Fi,r1の値が0である。
図9の上から第3行の特徴量Fi,r2は、SRRi,jに含まれる単語情報としてフィラーが含まれるかどうかを示す特徴量である。フィラーとは、意図をもった発話の間に挟みこむ語句、例えば「ええと」、「あのう」である。SRRi,1にフィラーが含まれる場合、Fi,r2の値が1であり、SRRi,1にフィラーが含まれない場合、Fi,r2の値が0である。
【0068】
図9の上から第4行の特徴量Fi,r3は、SRRi,1に含まれる単語情報に係る単語信頼度の最小値を示す。
図9の上から第5行の特徴量Fi,r4は、SRRi,1に含まれる単語情報に係る単語信頼度の平均値を示す。
図9の上から第6行の特徴量Fi,r5は、SRRi,1に含まれる音韻情報に係る音響スコアを発話区間の時間で除算した値を示す。
図9の上から第7行の特徴量Fi,r6は、SRRi,1の言語スコアを示す。
図9の上から第8行の特徴量Fi,r7は、SRRi,1に含まれる単語数を示す。
図9の上から第9行の特徴量Fi,r8は、SRRi,allに含まれる単語数を示す。
図9の上から第10行の特徴量Fi,r9は、特徴量Fi,r5と、SRRlv,1の音響スコアを発話区間の時間で除算した値との差分値を示す。
【0069】
図10は、本実施形態に係るRUエキスパート部104−1の特徴量情報の一例を示す表である。
図10の最左列から右側へ順に、関連があるエキスパートクラス(種類)、特徴量、内容を示す。図10の最左列においてエキスパートクラスがRUとは、RUエキスパート部104−1の特徴量生成部1041−1のみが生成する特徴量情報を示す。
図10の上から第2行の特徴量FRU,r10は、SRRRU,1が肯定発話情報を含むかどうかを示す特徴量である。SRRRU,1が肯定発話情報を含む場合、FRU,r10の値が1であり、SRRRU,1が肯定発話情報を含まない場合、FRU,r10の値が0である。特徴量生成部1041−1は、SRRRU,1が肯定発話情報を含むかどうかを判断するために、処理情報記憶部1042−1に記憶されている肯定発話情報と、SRRRU,1に含まれる単語情報を照合する。
【0070】
図10の上から第3行の特徴量FRU,r11は、SRRRU,2が否定発話情報を含むかどうかを示す特徴量である。SRRRU,2が否定発話情報を含む場合、FRU,r10は値1であり、SRRRU,1が否定発話情報を含まない場合、FRU,r10の値が0である。特徴量生成部1041−1は、SRRRU,1が否定発話情報を含むかどうかを判断するために、処理情報記憶部1042−1に記憶されている否定発話情報と、SRRRU,1に含まれる単語情報を照合する。
【0071】
図10の上から第4行の特徴量FRU,r12は、音声認識情報に含まれる認識結果となる単語情報のうち、言語モデルによる認識結果の候補数を示す。
図10の上から第5行の特徴量FRU,r13は、SRRRU,1に世界遺産の名称が含まれているか否かを示す特徴量である。SRRRU,1に世界遺産の名称が含まれている場合、FRU,r13は値1であり、SRRRU,1に世界遺産の名称が含まれていない場合、FRU,r13は値0である。特徴量生成部1041−1は、SRRRU,1が世界遺産の名称を含むかどうかを判断するために、処理情報記憶部1042−1に記憶されている質問情報に含まれるキーワードのうち世界遺産の名称を示す部分と照合する。
【0072】
図10の上から第6行の特徴量FRU,h1は、対話履歴記憶部1046−1から読み出した音声認識情報であるSRRRU,1が肯定発話情報を含むかどうかを示す特徴量である。SRRRU,1が肯定発話情報を含む場合、FRU,h1の値が1であり、SRRRU,1が肯定発話情報を含まない場合、FRU,h1の値が0である。特徴量生成部1041−1は、SRRRU,1が肯定発話情報を含むかどうかを判断するために、処理情報記憶部1042−1に記憶されている肯定発話情報と、SRRRU,1に含まれる単語情報を照合する。特徴量FRU,h1は、処理継続判定部1044−1において処理を継続するか否かを判定するために用いられるが、適合性推定部1043−1において確率値Pを算出するためには用いられない。
【0073】
図10の上から第7行の特徴量FRU,h2は、RUエキスパート部104−1に遷移した後のターン数を示す特徴量である。ターン数とは、利用者による発話、対話制御装置1からの情報提示(提示情報の提示、応答情報の提示)の回数である。特徴量生成部1041−1は、対話履歴記憶部1046−1から対話履歴を読み出し、動作理解部103−1から起動信号を入力された時刻から後の読み出した対話履歴に含まれる質問情報、応答情報、肯定発話情報及び否定発話情報の総数を算出する。
【0074】
図10の上から第8行の特徴量FRU,h3は、RUエキスパート部104−1に遷移した後の否定発話の回数を示す特徴量である。特徴量生成部1041−1は、対話履歴記憶部1046−1から対話履歴を読み出し、動作理解部103−1から起動信号を入力された時刻から後の読み出した対話履歴に含まれる否定発話情報の総数を算出する。
図10の上から第9行の特徴量FRU,h4は、特徴量FRU,h3を特徴量FRU,h2で除算した特徴量である。
【0075】
図11は、本実施形態に係るIPエキスパート部104−3の特徴量情報の一例を示す表である。
図11の最左列から右側へ順に、関連があるエキスパートクラス(種類)、特徴量、内容を示す。図11の最左列においてエキスパートクラスがIPとは、IPエキスパート部104−3の特徴量生成部1041−3のみが生成する特徴量情報を示す。
【0076】
図11の上から第2行の特徴量FIP,r10は、SRRIP,1に含まれる単語情報と照合するキーワード情報を含む質問情報が処理情報記憶部1042−3にあるか否かを示す特徴量である。このような質問情報がある場合、FIP,r10の値は1であり、このような質問情報がない場合、FIP,r10の値は0である。
図11の上から第3行の特徴量FIP,r11は、質問情報に含まれるキーワードと照合する単語であって、SRRIP,jに含まれる単語情報における単語数を、SRRIP,jに含まれる単語数で除算した値を、全ての認識結果jにわたる総和をとり、さらに認識結果の個数で除算した値である。この質問情報とは、処理情報記憶部1042−3に記憶されている質問情報である。これは、特徴量FIP,r12〜FIP,r16においても同様である。
【0077】
図11の上から第4行の特徴量FIP,r12は、質問情報に含まれるキーワードkと照合する単語であって、SRRIP,allに含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードk間の最小値を示す。
図11の上から第5行の特徴量FIP,r13は、質問情報に含まれるキーワードkと照合する単語であって、SRRIP,allに含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードk間の最大値を示す。
【0078】
図11の上から第6行の特徴量FIP,r14は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRIP,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の平均値である。
図11の上から第7行の特徴量FIP,r15は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRIP,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の最小値である。
図11の上から第8行の特徴量FIP,r16は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRIP,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の最大値である。
図11の上から第9行の特徴量FIP,h1は、IPエキスパート部104−3が既出(即ち対話処理装置1が動作開始以降、予め設定された処理を行ったことがある)であるか否かを示す特徴量である。IPエキスパート部104−3が既出である場合、特徴量FIP,h1は値1である。IPエキスパート部104−3が既出でない場合、特徴量FIP,h1は値0である。IPエキスパート部104−3が既出であるか否かを判断するために、特徴量生成部1041は対話履歴記憶部1046−3から読み出した対話履歴情報に質問情報等の発話パターン情報及び応答情報等の出力パターン情報が含まれているか否かを判断する。
【0079】
図12は、本実施形態に係るQAエキスパート部104−2の特徴量情報の一例を示す表である。
図12の最左列から右側へ順に、関連があるエキスパートクラス(種類)、特徴量、内容を示す。図12の最左列においてエキスパートクラスがQAとは、QAエキスパート部104−2の特徴量生成部1041−2のみが生成する特徴量情報を示す。
【0080】
図12の上から第2行の特徴量FQA,r10は、SRRQA,1に含まれる単語情報と照合するキーワード情報を含む質問情報が処理情報記憶部1042−2にあるか否かを示す特徴量である。このような質問情報がある場合、FQA,r10の値が1であり、このような質問情報がない場合、FQA,r10の値は0である。
図12の上から第3行の特徴量FQA,r11は、質問情報に含まれるキーワードと照合する単語であって、SRRQA,jに含まれる単語情報における単語数を、SRRQA,jに含まれる単語数で除算した値を、全ての認識結果jにわたる総和をとり、さらに認識結果の個数で除算した値である。この質問情報とは、処理情報記憶部1042−2に記憶されている質問情報である。これは、特徴量FQA,r12〜FQA,r16においても同様である。
【0081】
図12の上から第4行の特徴量FQA,r12は、質問情報に含まれるキーワードkと照合する単語であって、SRRQA,allに含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードk間の最小値を示す。
図12の上から第5行の特徴量FQA,r13は、質問情報に含まれるキーワードkと照合する単語であって、SRRQA,allに含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードk間の最大値を示す。
【0082】
図12の上から第6行の特徴量FQA,r14は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRQA,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の平均値である。
図12の上から第7行の特徴量FQA,r15は、質問情報に含まれるキーワードkに照合する単語であって第1候補SRRQA,1に含まれる単語情報における単語に対応する単語信頼度のキーワードk間の最小値である。
図12の上から第8行の特徴量FQA,r16は、SRRIP,1に含まれる単語情報における単語が相槌情報であるか否かを示す特徴量である。SRRIP,1に含まれる単語情報における単語が相槌情報である場合、特徴量FQA,r16の値は1である。SRRIP,1に含まれる単語情報における単語が相槌情報ではない場合、特徴量FQA,r16の値は0である。特徴量生成部1041−2は、SRRIP,1に含まれる単語情報における単語が相槌情報であるかどうかを判断するために、処理情報記憶部1042−2に記憶されている相槌情報と、SRRIP,1に含まれる単語情報を照合する。
【0083】
図12の上から第9行の特徴量FQA,h1は、対話履歴記憶部1046−2から読み出した音声認識情報であるSRRQA,1が肯定発話情報を含むかどうかを示す特徴量である。SRRQA,1が肯定発話情報を含む場合、FQA,h1の値は1であり、SRRQA,1が肯定発話情報を含まない場合、FQA,h1の値は0である。特徴量生成部1041−2は、SRRQA,1が肯定発話情報を含むかどうかを判断するために、処理情報記憶部1042−2に記憶されている肯定発話情報と、SRRQA,1に含まれる単語情報を照合する。特徴量FQA,h1は、処理継続判定部1044−2において処理を継続するか否かを判定するために用いられるが、適合性推定部1043−2において確率値Pを算出するためには用いられない。
【0084】
図12の上から第10行の特徴量FQA,h2は、QAエキスパート部104−2に遷移した後のターン数を示す特徴量である。ターン数とは、利用者が行う発話及び対話処理装置1からの応答の総数である。そこで、特徴量生成部1041−2は、対話履歴記憶部1046−2から対話履歴を読み出し、動作理解部103−2から起動信号を入力された時刻から後の読み出した対話履歴に含まれる質問情報、応答情報、肯定発話情報及び否定発話情報の総数を算出する。
【0085】
図12の上から第11行の特徴量FQA,h3は、QAエキスパート部104−2に遷移(予め設定された処理を開始)した後の否定発話の回数を示す特徴量である。特徴量生成部1041−2は、対話履歴記憶部1046−2から対話履歴を読み出し、動作理解部103−2から起動信号を入力された時刻から後の読み出した対話履歴に含まれる否定発話情報の総数を算出する。
図12の上から第12行の特徴量FQA,h4は、特徴量FQA,h3を特徴量FQA,h2で除算した特徴量である。
【0086】
上述の特徴量を、各エキスパート部104−1〜104−3の適合性推定部1043−1〜1043−3は、確率値の算出に、処理継続判定部1044−1〜1044−3は、エキスパート部の処理を継続するか否かの判断に用いる。
具体的には、RUエキスパート部104−1の適合性推定部1043−1は、特徴量FRU,r1−FRU,r13、FRU,h2−FRU,h4を、式(1)の特徴量F1−Fnに代入して確率値Pを算出する。処理継続判定部1044−1は、特徴量FRU,r1−FRU,r13、FRU,h1−FRU,h4を、特徴量ベクトルFの要素値として処理を継続するか否か判断する。
【0087】
具体的には、IPエキスパート部104−3の適合性推定部1043−3は、特徴量FIP,r1−FIP,r16、FIP,h1を、式(1)の特徴量F1−Fnに代入して確率値P(適合)を算出する。処理継続判定部1044−3は、特徴量FIP,r1−FIP,r16、FIP,h1を、特徴量ベクトルFの要素値として処理を継続するか否か判断する。
具体的には、QAエキスパート部104−2の適合性推定部1043−2は、特徴量FQA,r1−FQA,r16、FQA,h2−FQA,h4を、式(1)の特徴量F1−Fnに代入して確率値Pを算出する。処理継続判定部1044−2は、特徴量FQA,r1−FQA,r16、FQA,h1−FQA,h4を、特徴量ベクトルFの要素値として処理を継続するか否か判断する。
【0088】
なお、上述の特徴量を全て確率値の算出又は、エキスパート部の処理を継続するか否かの判断に用いると、演算量が過大になるうえ、各特徴量に乗算する係数を事前学習する際に過学習(overfitting)が生じ、却って推定精度や判断精度が低下するおそれがある。そこで、上述の特徴量のうち確率値、又は処理継続・非継続の判断に寄与する一部の特徴量のみを用い、確率値、又は処理継続・非継続の判断に寄与しないものを用いなくともよい。次に、その一部の特徴量情報の例について説明する。
【0089】
図13は、本実施形態に係るRUエキスパート部104−1が用いる特徴量情報の一例を示す表である。
図13の最上行は、最左列から右側へ順に、特徴量、適合性推定、継続・非継続判定を示す。図13の最左列の第2行以降の行は、RUエキスパート部104−1が用いる特徴量の候補としてFRU,r1,...FRU,r13,FRU,h1,...,FRU,h4,Faを示す。ここで、特徴量Faとは、(具体的には動作処理部1045が)予め設定した処理を行わないエキスパート部104が推定した適合性情報(確率値P)の最大値を示す。
図13において、−印は該当する情報がないことを示す。図13の左から第2列において、○は適合性推定に用いる特徴量であることを示す。図13の左から第3列において、○は継続・非継続判断に用いる特徴量であることを示す。
即ち、図13は、適合性推定部1043−1は、適合性情報(確率値P)を算出する際に特徴量FRU,r2,...FRU,r6,FRU,r8,FRU,r13を用いることを示す。従って、特徴量生成部1041は、これらの特徴量情報を生成し、生成した特徴量情報を適合性推定部1043に出力する。
また、図13は、処理継続判定部1044−1は、処理の継続・非継続を判定する際に特徴量FRU,r1,FRU,r2,FRU,r4,FRU,r5,FRU,h1,FRU,h2,Faを用いることを示す。従って、特徴量生成部1041−1は、特徴量FRU,r1,FRU,r2,FRU,r4,FRU,r5,FRU,h1,FRU,h2を表す特徴量情報を生成し、生成した特徴量情報を処理継続判定部1044−1に出力する。
【0090】
図14は、本実施形態に係るIPエキスパート部104−3が用いる特徴量情報の一例を示す表である。
図14の最上行は、最左列から右側へ順に、特徴量、適合性推定、継続・非継続判定を示す。図14の最左列の第2行以降の行は、IPエキスパート部104−3が用いる特徴量の候補としてFIP,r1,...FIP,r16,FIP,h1,Faを示す。
図14において、−印は該当する情報がないことを示す。図14の左から第2列において、○は適合性推定に用いる特徴量であることを示す。図14の左から第3列において、○は継続非継続判定に用いる特徴量であることを示す。
即ち、図14は、適合性推定部1043−3は、適合性情報(確率値P)を算出する際に特徴量FIP,r2,FIP,r4,FIP,r6,...FIP,r10,FIP,r12,...FIP,r14を用いることを示す。従って、特徴量生成部1041−1は、これらの特徴量情報を生成し、生成した特徴量情報を適合性推定部1043−3に出力する。
また、図14は、処理継続判定部1044−3は、処理の継続・非継続を判定する際に特徴量FIP,r1,...FIP,r8,Faを用いることを示す。従って、特徴量生成部1041−3は、特徴量FIP,r1,...FIP,r8を表す特徴量情報を生成し、生成した特徴量情報を処理継続判定部1044−3に出力する。
【0091】
図15は、本実施形態に係るQAエキスパート部104−2が用いる特徴量情報の一例を示す表である。
図15の最上行は、最左列から右側へ順に、特徴量、適合性推定、継続・非継続判定を示す。図15の最左列の第2行以降の行は、QAエキスパート部104−2が用いる特徴量の候補としてFQA,r1,...FQA,r16,FQA,h1,...FQA,h4,Faを示す。
図15において、−印は該当する情報がないことを示す。図15の左から第2列において、○は適合性推定に用いる特徴量であることを示す。図15の左から第3列において、○は継続・非継続判定に用いる特徴量であることを示す。
即ち、図15は、適合性推定部1043−2は、適合性情報(確率値P)を算出する際に特徴量FQA,r2,...FQA,r4,FQA,r6,...FQA,r8,FQA,r10,FQA,r13,...FQA,r15を用いることを示す。従って、特徴量生成部1041−2は、これらの特徴量情報を生成し、生成した特徴量情報を適合性推定部1043−2に出力する。
また、図15は、処理継続判定部1044−2は、処理の継続・非継続を判定する際に特徴量FQA,r1,...FQA,r6,FQA,h1,Faを用いることを示す。従って、特徴量生成部1041−2は、特徴量FQA,r1,...FQA,r6,FQA,h1を表す特徴量情報を生成し、生成した特徴量情報を処理継続判定部1044−2に出力する。
【0092】
なお、本実施形態では、動作理解部103は、予め設定された処理を行わないエキスパート部104から入力され確率値Pのうち最大値を特徴量Faとして選択し、選択した特徴量Faを予め設定された処理を行うエキスパート部104の処理継続判定部1044に出力する。処理継続判定部1044は、動作理解部103から特徴量Faから入力されるようにする。これにより、処理継続判定部1044は音声認識結果に対するエキスパート部の適合性を考慮して、当該エキスパート部104が実行している処理の継続・非継続の判断を行うことができる。
【0093】
なお、適合性推定や継続・非継続判定に用いる特徴量を選択するために、本実施形態について事前検証を行っておく。この検証では、特徴量の候補の中から、特徴量を1個除外して各エキスパート部が正しく選択されるかを適合性推定、処理の継続・非継続の判断の各々について調べる。除外対象の特徴量を変更して検証を繰り返す。そして、除外対象の特徴量毎について性能の指標値であるF値を求めた。次に、F値が最も高くなる除外対象の特徴量を特徴量の候補から削除して検証を繰り返す。但し、特徴量の候補の中から、どの特徴量を除外してもF値がこれ以上高くならなったときに検証を終了する。検証が終了して残った特徴量の候補の一例が、図13〜15に示す特徴量である。この残った特徴量の候補が、適合性推定又は継続・非継続判定に用いる特徴量として選択される。
【0094】
F値とは、適合率(precision)と再現率(recall)の調和平均、つまり適合率と再現率の積を、適合率と再現率の相加平均で除算した値である。適合率とは選択された情報の数の選択対象の情報の数に対する割合であり、本実施形態では、エキスパート部104毎の選択された回数の試行回数に対する割合である。再現率とは選択された情報の数の正解情報の数に対する割合であり、本実施形態では、エキスパート部104毎の選択された回数の正解として選択されるべき試行回数に対する割合である。一般に適合率が増加すると再現率が低下する関係にあるが、F値が高いほどエキスパート部104を選択する精度が高いことを表す。
【0095】
なお、図1に示す対話処理装置1は、IPエキスパート部104−3を1個備えるが、本実施形態では、これには限られない。本実施形態では対話処理装置1は、各々異なる質問情報、応答情報、提示情報のセットを記憶しているIPエキスパート部104−3を複数個備えてもよい。
【0096】
なお、図1に示す対話処理装置1では、動作理解部103が、現在処理を行っているエキスパート部から処理を継続するか否かを示す処理継続信号を入力され、現在処理を行っていないエキスパート部から適合度情報を入力される。各エキスパート部は音声認識情報に基づいて特徴量情報を生成する。現在予め設定された処理を行っているエキスパート部は、生成した特徴量情報に基づき処理継続信号を生成する。現在予め設定された処理を行っていないエキスパート部は、生成した特徴量情報に基づき適合度情報を生成する。
しかし、本実施形態ではこれには限られず、動作理解部103は、各エキスパート部104−1〜104−3から音声認識情報に基づいて生成した特徴量情報を入力されるようにしてもよい。このとき、動作理解部103は、処理継続判定部1044と同様に現在予め設定された処理を行っているエキスパート部から入力された特徴量情報に基づき処理継続信号を生成し、適合性推定部1043と同様に現在予め設定された処理を行っていないエキスパート部から入力された特徴量情報に基づき適合性情報を生成する。この場合、各エキスパート部104−1〜104−3は、適合性推定部1043と処理継続判定部1044を省略してもよい。
【0097】
次に、対話処理装置1が出力する発話と利用者の発話からなる対話の一例について説明する。
図16は、本実施形態に係る対話処理装置1による対話の一例を示す表である。
図16は、最左列から右側へ順に、発話主体、発話(動作)、選択エキスパートを示す。選択エキスパートとは、予め設定された処理を行うエキスパート部104として動作理解部103が選択したエキスパート部104である。
図16の第2行は、対話処理装置1が、利用者に対して「こんにちは、イタリア、ギリシャと他の地域の有名な世界遺産についての質問にお答えします。また、いくつかの世界遺産について詳しく説明できます。何でも聞いてみて下さい。」という音声を提示することを示す。これにより、対話処理装置1は利用者に対して問合せを促す。図16の第2行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
図16の第3行は、対話処理装置1が上述の音声を受けて利用者が発話した「イタリアの世界遺産のリストを見せて下さい。」を示す音声を認識し、対話処理装置1はイタリアの世界遺産のリストを画像で表示することを示す。図16の第3行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
【0098】
図16の第4行は、対話処理装置1が、利用者に対して「イタリアの世界遺産を地域別に紹介します。どの地域のリストを見たいかおっしゃって下さい。」という音声を提示することを示す。これにより、対話処理装置1は利用者に対して紹介する地域について音声で指示することを促す。図16の第4行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
図16の第5行は、対話処理装置1が上述の音声を受けて利用者が発話した「他に何が聞けますか?」、を示す音声を認識し、対話処理装置1はイタリアの世界遺産のリストを画像で表示することを示す。図16の第5行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
【0099】
図16の第6行は、対話処理装置1が利用者に対して「イタリア、ギリシャの世界遺産と、他の著名な世界遺産に関して質問にお答えします。」という音声を提示することを示し、世界遺産のリストを画像情報として提示する。
これにより、対話処理装置1は世界遺産に関する質問を利用者に対して促す。図16の第6行は、この選択エキスパートがQAエキスパート部104−1であることを示す。
【0100】
図16の第7行は、対話処理装置1が、利用者が発話した「グリニッジについて教えてください。」という音声を認識し、RUエキスパート部104−1が処理を開始したことを示す。
図16の第8行は、対話処理装置1が「海事都市グリニッジの説明ですね?」という音声を提示し、利用者に認識した情報の確認を促す。図16の第8行は、この処理に係るエキスパート部がRUエキスパート部104−1であることを示す。
図16の第9行は、対話処理装置1が、利用者が発話した「はい」という音声を認識し、認識した情報が肯定応答情報であることを認識する。図16の第9行は、この選択エキスパートがRUエキスパート部104−1であることを示す。
【0101】
図16の第10行は、対話処理装置1が「はい、海事都市グリニッジの案内をします。グリニッジ標準時の基準となる都市として由緒ある港町です。」という音声を提示し、提示する情報の概要を示す。図16の第10行は、この選択エキスパートがIPエキスパート部104−3であることを示す。
図16の第11行は、対話処理装置1が、利用者が発話した「グリニッジ標準時ってなんですか?」という音声を認識することを示す。図16の第11行は、この選択エキスパートが104−3であることを示す。
図16の第12行は、対話処理装置1が「グリニッジ天文台での平均太陽時です。」という音声を、利用者の発話に対する応答情報として提示することを示す。図16の第12行は、この選択エキスパートがIPエキスパート部104−3であることを示す。
【0102】
次に、本実施形態に係る対話処理装置1の検証結果として選択エキスパートの選択精度について説明する。なお、検証において、IPエキスパート部104−3を8個備える対話処理装置1を用いた。
図17は、本実施形態に係る対話処理装置1が選択したエキスパート部104の回数の一例を示す表である。
図17の各列は、対話処理装置1が選択したエキスパート部104(選択エキスパート)を示す。図17の各行は、正解として既知のエキスパート部104(正解エキスパート)を示す。選択エキスパート、正解エキスパートの種類は、それぞれRUエキスパート部104−1を1種類(RU)、QAエキスパート部104−2を1種類(QA)、IPエキスパート部104−3を8種類(IP1〜IP8)、計10種類である。IP1〜IP8は、各々異なる処理情報(質問情報、応答情報、提示情報)を記憶し出力する。 図17の第3〜12行、第3〜12列の各欄は、その行の正解エキスパートに対してその列の選択エキスパートと選択した回数を示す。図17の第13列は、全選択エキスパートにわたる正解エキスパート毎の回数の合計値(試行回数)を示す。図17の第13行は、全正解エキスパートにわたる選択エキスパート毎の選択された回数の合計値を示す。従って、図17の第3〜12行の各対角要素は、エキスパート部毎の正しく選択された回数を示す。
【0103】
図17が示すように、RUについては、234回中162回が正解である。QAについては、1025回中941回が正解である。IP1については、12回中8回が正解である。IP2については、22回中18回が正解である。IP3については、72回中52回が正解である。IP4については、80回中61回が正解である。IP5については、29回中26回が正解である。IP6については、35回中24回が正解である。IP7については、57回中43回が正解である。IP8については、17回中12回が正解である。従って、全エキスパート部104にわたる正答率は85.09%である。
【0104】
比較として、従来技術を用いた場合のエキスパート部104の選択精度について説明する。選択対象となるエキスパート部104の個数及び種類は、上述と同様である。ここでは、エキスパート部104毎に異なる言語モデルを用いて音声認識してスコア値を算出する。また、直前のエキスパート部と同一のエキスパート部について予め定めた値を算出したスコア値に加算して、直前のエキスパート部を優先して選択する(参考文献: B. Lin, H. Wang, and L. Lee. A distributed architecture for cooperative spoken dialogue agents with coherent dialogue state and history. n Proc. ASRU−99, 1999)。
【0105】
図18は、従来技術によって選択したエキスパート部104の回数の一例を示す表である。
図18において、用いたエキスパート部の個数及び種類、試行回数、各行各列の配列は、図17が示す結果と同様である。
図18によれば、RUについては、234回中128回が正解である。QAについては、1025回中951回が正解である。IP1については、12回中4回が正解である。IP2については、22回中7回が正解である。IP3については、72回中21回が正解である。IP4については、80回中19回が正解である。IP5については、29回中12回が正解である。IP6については、35回中9回が正解である。IP7については、57回中15回が正解である。IP8については、17回中1回が正解である。従って、全エキスパート部104にわたる正答率は73.72%である。これより本実施形態では全エキスパート部104にわたる正答率が11.37%向上している。
【0106】
このように、本実施形態では、予め定めた処理を行う機能を有する複数のエキスパート部を備え、入力した音声を認識し、複数のエキスパート部のうち前記処理を行うエキスパート部が、前記認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行うエキスパート部が前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々が、前記認識した認識結果に基づいて適合性を推定し、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する。これにより、処理を行っているエキスパート部の処理を継続するか否か考慮されるため、利用者の発話に適したエキスパート部を選択することができる。
【0107】
また、本実施形態では、さらに推定した適合性に基づいて前記処理を行うエキスパート部の処理を継続するか否かを判定する。これにより、本実施形態に係る対話処理装置は現在処理を行っていないエキスパート部が利用者の発話に適したエキスパート部である可能性を考慮して、利用者の発話に適したエキスパート部を選択することができる。
【0108】
また、本実施形態では、前記複数エキスパート部の各々は、利用者が行う質問内容を表す発話情報と、前記質問内容に対する出力情報を対応付けて記憶した処理情報記憶部を備え、前記処理は、前記音声認識部が認識した認識結果に対応する発話情報の一部が照合する発話情報に対応する出力情報を選択する。これにより、さらに利用者の発話に適した出力情報を出力するエキスパート部を選択することができる。
【0109】
また、本実施形態では、前記複数のエキスパート部において前記処理情報記憶部に記憶された前記発話情報及び出力情報が各々異なることを特徴とする。これにより、さらに利用者の発話と、発話に対する応答が異なるエキスパート部の中から、利用者の発話に適したエキスパート部を選択することができる。
【0110】
なお、上述した実施形態における対話処理装置1の一部、例えば、特徴量算出部1021、音素決定部1023、単語決定部1026、動作理解部103、特徴量生成部1041、適合性推定部1043、処理継続判定部1044、動作処理部1045、タスク計画部106、及び情報出力部107をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。
【0111】
また、対話処理装置1が備えるエキスパート部104のうち少なくとも1つは、対話処理装置1が備える他の機能部、例えば、特徴量算出部1021、音素決定部1023、単語決定部1026、動作理解部103、タスク計画部106、及び情報出力部107を実現する、別個のコンピュータシステムを備え、そのコンピュータシステムを用いて実現されるものであっても良い。その場合、対話処理装置1を実現するプログラムとは別個のプログラムを用いて実現する。
対話処理装置1が備える他の機能部、例えば、特徴量算出部1021、音素決定部1023、単語決定部1026、動作理解部103タスク計画部106、及び情報出力部107を実現する、別個のコンピュータシステムを備え、そのコンピュータシステムを用いて実現されるものであってもよい。その場合、対話処理装置1を実現するプログラムとは別個のプログラムを用いて実現する。
【0112】
また、対話処理装置1が備えるエキスパート部104のうち少なくとも1つは、音声認識部を備え、その音声認識部が備える音響モデル部はエキスパート部104毎に異なる音響モデルを記憶しても良い。また、その音声認識部が備える言語モデル部はエキスパート部104毎に異なる言語モデルを記憶しても良い。その場合、対話処理装置1は、音声入力部101は動作理解部103に音響信号を出力する。動作理解部103は、音声入力部101から入力された音響信号を音声認識情報の代わりに、音声認識部を備えるエキスパート部104に出力する。そのエキスパート部104は、動作理解部103から入力された音響信号に基づいて音声認識情報を生成するようにする。対話処理装置1が備えるエキスパート部の全てが音声認識部を備える場合、音声認識部102を省略しても良い。
【0113】
なお、ここでいう「コンピュータシステム」とは、対話処理装置1に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における対話処理装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。対話処理装置1の各機能ブロックは個別にプロセッサ化しても良いし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
【0114】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0115】
1…対話処理装置、101…音声入力部、102…音声認識部、
1021…特徴量算出部、1022…音響モデル記憶部、1023…音素決定部、
1024…単語情報記憶部、1025…言語モデル記憶部、1026…単語決定部、
103…動作理解部、104(104−1〜104−3)エキスパート部、
104−1…RUエキスパート部、104−2…QAエキスパート部、
104−3…IPエキスパート部、
1041(1041−1〜1041−3)…特徴量生成部、
1042(1042−1〜1042−3)…処理情報記憶部、
1043(1043−1〜1043−3)…適合性推定部、
1044(1044−1〜1044−3)…処理継続判定部、
1045(1045−1〜1045−3)…動作処理部、
1046(1046−1〜1046−3)…対話履歴記憶部、
106…タスク計画部、107…情報出力部、108…情報提示部
【特許請求の範囲】
【請求項1】
音声を入力する音声入力部と、
前記音声入力部が入力した音声を認識する音声認識部と、
予め定めた処理を行うエキスパート部であって、前記処理を行う場合、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行わない場合、前記音声認識部が認識した認識結果に基づいて適合性を推定する複数のエキスパート部と、
前記複数のエキスパート部のうち、前記処理を行う場合、前記処理を継続しないと判断したエキスパート部があるとき、前記複数のエキスパート部のうち前記処理を行わない場合に推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部と、
を備えることを特徴とする対話処理装置。
【請求項2】
音声を入力する音声入力部と、
前記音声入力部が入力した音声を認識する音声認識部と、
予め定めた処理を行う機能を備える複数のエキスパート部のうち前記処理を行うエキスパート部について、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、
前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記音声認識部が認識した認識結果に基づいて適合性を推定し、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部と、
を備えることを特徴とする対話処理装置。
【請求項3】
前記動作理解部は、前記推定した適合性に基づいて前記処理を継続するか否かを判定すること
を特徴とする請求項1又は2に記載の対話処理装置。
【請求項4】
前記複数のエキスパート部の各々は、
利用者が行う質問内容を表す発話情報と、前記質問内容に対する出力情報を対応付けて記憶した処理情報記憶部を備え、
前記処理は、前記音声認識部が認識した認識結果に対応する発話情報の一部が照合する発話情報に対応する出力情報を選択すること
を特徴とする請求項1ないし3のいずれか1項に記載の対話処理装置。
【請求項5】
前記複数のエキスパート部において
前記処理情報記憶部に記憶された前記発話情報及び出力情報が各々異なること
を特徴とする請求項4に記載の対話処理装置。
【請求項6】
予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置における対話処理方法において、
前記対話処理装置が、入力した音声を認識する第1の過程と、
前記複数のエキスパート部のうち前記処理を行うエキスパート部が、前記認識した認識結果に基づいて前記処理を継続するか否かを判定する第2の過程と、
前記処理を行うエキスパート部が前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々が、前記認識した認識結果に基づいて適合性を推定する第3の過程と、
前記対話処理装置が、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する第4の過程とを有すること、
を特徴とする対話処理方法。
【請求項7】
予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置のコンピュータに、
入力した音声を認識する手順、
前記複数のエキスパート部のうち前記処理を行うエキスパート部について、前記認識した認識結果に基づいて処理を継続するか否かを判定する手順、
前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記認識した認識結果に基づいて適合性を推定する手順、
前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する手順、
を実行させるための対話処理プログラム。
【請求項1】
音声を入力する音声入力部と、
前記音声入力部が入力した音声を認識する音声認識部と、
予め定めた処理を行うエキスパート部であって、前記処理を行う場合、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行わない場合、前記音声認識部が認識した認識結果に基づいて適合性を推定する複数のエキスパート部と、
前記複数のエキスパート部のうち、前記処理を行う場合、前記処理を継続しないと判断したエキスパート部があるとき、前記複数のエキスパート部のうち前記処理を行わない場合に推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部と、
を備えることを特徴とする対話処理装置。
【請求項2】
音声を入力する音声入力部と、
前記音声入力部が入力した音声を認識する音声認識部と、
予め定めた処理を行う機能を備える複数のエキスパート部のうち前記処理を行うエキスパート部について、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、
前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記音声認識部が認識した認識結果に基づいて適合性を推定し、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部と、
を備えることを特徴とする対話処理装置。
【請求項3】
前記動作理解部は、前記推定した適合性に基づいて前記処理を継続するか否かを判定すること
を特徴とする請求項1又は2に記載の対話処理装置。
【請求項4】
前記複数のエキスパート部の各々は、
利用者が行う質問内容を表す発話情報と、前記質問内容に対する出力情報を対応付けて記憶した処理情報記憶部を備え、
前記処理は、前記音声認識部が認識した認識結果に対応する発話情報の一部が照合する発話情報に対応する出力情報を選択すること
を特徴とする請求項1ないし3のいずれか1項に記載の対話処理装置。
【請求項5】
前記複数のエキスパート部において
前記処理情報記憶部に記憶された前記発話情報及び出力情報が各々異なること
を特徴とする請求項4に記載の対話処理装置。
【請求項6】
予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置における対話処理方法において、
前記対話処理装置が、入力した音声を認識する第1の過程と、
前記複数のエキスパート部のうち前記処理を行うエキスパート部が、前記認識した認識結果に基づいて前記処理を継続するか否かを判定する第2の過程と、
前記処理を行うエキスパート部が前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々が、前記認識した認識結果に基づいて適合性を推定する第3の過程と、
前記対話処理装置が、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する第4の過程とを有すること、
を特徴とする対話処理方法。
【請求項7】
予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置のコンピュータに、
入力した音声を認識する手順、
前記複数のエキスパート部のうち前記処理を行うエキスパート部について、前記認識した認識結果に基づいて処理を継続するか否かを判定する手順、
前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記認識した認識結果に基づいて適合性を推定する手順、
前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する手順、
を実行させるための対話処理プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【公開番号】特開2012−42952(P2012−42952A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2011−175395(P2011−175395)
【出願日】平成23年8月10日(2011.8.10)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 一般社団法人 情報処理学会、研究報告音声言語情報処理、2011−SLP−86、12、2011年5月9日 社団法人 人工知能学会、2011年度人工知能学会全国大会(第25回)予稿集、3C2−OS19−1、2011年6月1日
【出願人】(000005326)本田技研工業株式会社 (23,863)
【Fターム(参考)】
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願日】平成23年8月10日(2011.8.10)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 一般社団法人 情報処理学会、研究報告音声言語情報処理、2011−SLP−86、12、2011年5月9日 社団法人 人工知能学会、2011年度人工知能学会全国大会(第25回)予稿集、3C2−OS19−1、2011年6月1日
【出願人】(000005326)本田技研工業株式会社 (23,863)
【Fターム(参考)】
[ Back to top ]