対話処理装置、対話処理方法、及び対話処理プログラム

【課題】利用者の発話に適したエキスパート部を選択する。
【解決手段】音声入力部は音声を入力し、音声認識部は入力した音声を認識し、予め定めた処理を行う場合、音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行わない場合、音声認識部が認識した認識結果に基づいて適合性を推定する複数のエキスパート部と、複数のエキスパート部のうち前記処理を行うエキスパート部が処理を継続しないと判断した場合、前記処理を行わない場合に推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、対話処理装置、対話処理方法、及び対話処理プログラムに関する。
【背景技術】
【０００２】
利用者の発声内容に基づいて処理を行う対話処理技術が開発されている。例えば、ロボットに応用することで利用者が動作を指示する負担を軽減することが試みられている。この対話処理技術を用いることで、利用者が発話して指示した動作の種別を応答して動作を直ちに実行しない。これによりシステム側で誤認識された動作を直ちに実行することが回避され、利用者が意図する動作を導くことができる。
【０００３】
例えば、特許文献１に記載の対話処理装置は、音声を入力する音声入力装置と、入力された音声を認識する音声認識部と、音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切替エキスパートが対話対象の発話に応じてモードの切り替えを行う。第１のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第２のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する。
対話行動制御部は、音声認識結果を各エキスパートに配布し、選択したトピックと各エキスパートが選択される確からしさを表すスコアに基づいてエキスパートを選択する。エキスパートとは、利用者との対話において予め定めた種類の処理、又は利用者によって指示された種類の動作を行うための処理を行うモジュール（構成部）である。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】国際公開第２００９／０２８６４７号
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、特許文献１に記載の対話処理装置は、不適切なエキスパートを選択しても、選択したトピックを変更しなければ選択したエキスパートを変更しないことがあった。
【０００６】
本発明は上記の点に鑑みてなされたものであり、利用者の発話に適したエキスパートを選択する対話処理装置、対話処理方法、及び対話処理プログラムを提供する。
【課題を解決するための手段】
【０００７】
（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音声を入力する音声入力部と、前記音声入力部が入力した音声を認識する音声認識部と、予め定めた処理を行うエキスパート部であって、前記処理を行う場合、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行わない場合、前記音声認識部が認識した認識結果に基づいて適合性を推定する複数のエキスパート部と、
前記複数のエキスパート部のうち、前記処理を行う場合、前記処理を継続しないと判断したエキスパート部があるとき、前記複数のエキスパート部のうち前記処理を行わない場合に推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部と、を備えることを特徴とする対話処理装置である。
【０００８】
（２）本発明のその他の態様は、音声を入力する音声入力部と、前記音声入力部が入力した音声を認識する音声認識部と、予め定めた処理を行う機能を備える複数のエキスパート部のうち前記処理を行うエキスパート部について、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記音声認識部が認識した認識結果に基づいて適合性を推定し、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部とを備えることを特徴とする対話処理装置。
【０００９】
（３）本発明のその他の態様は、前記動作理解部は、前記推定した適合性に基づいて前記処理を継続するか否かを判定することを特徴とする（１）又は（２）の対話処理装置である。
【００１０】
（４）本発明のその他の態様は、前記複数エキスパート部の各々は、利用者が行う質問内容を表す発話情報と、前記質問内容に対する出力情報を対応付けて記憶した処理情報記憶部を備え、前記処理は、前記音声認識部が認識した認識結果に対応する発話情報の一部が照合する発話情報に対応する出力情報を選択することを特徴とする（１）ないし（３）のいずれかの対話処理装置である。
【００１１】
（５）本発明のその他の態様は、前記複数のエキスパート部において前記処理情報記憶部に記憶された前記発話情報及び出力情報が各々異なることを特徴とする（４）の対話処理装置である。
【００１２】
（６）本発明のその他の態様は、予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置における対話処理方法において、前記対話処理装置が、入力した音声を認識する第１の過程と、前記複数のエキスパート部のうち前記処理を行うエキスパート部が、前記認識した認識結果に基づいて前記処理を継続するか否かを判定する第２の過程と、前記処理を行うエキスパート部が前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々が、前記認識した認識結果に基づいて適合性を推定する第３の過程と、前記対話処理装置が、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する第４の過程とを有すること、を特徴とする対話処理方法である。
【００１３】
（７）本発明のその他の態様は、予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置のコンピュータに、入力した音声を認識する手順、前記複数のエキスパート部のうち前記処理を行うエキスパート部について、前記認識した認識結果に基づいて処理を継続するか否かを判定する手順、前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記認識した認識結果に基づいて適合性を推定する手順、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する手順、を実行させるための対話処理プログラムである。
【発明の効果】
【００１４】
本発明の一態様（１）、（２）、（６）、（７）によれば、予め定めた種類の処理を行っているエキスパート部の処理を継続するか否か考慮されるため、利用者の発話に適したエキスパート部を選択することができる。
本発明のその他の態様（３）によれば、さらに現在予め定めた種類の処理を行っていないエキスパート部が利用者の発話に適したエキスパート部である可能性を考慮して、利用者の発話に適したエキスパート部を選択することができる。
本発明のその他の態様（４）によれば、さらに利用者の発話に適した出力情報を出力するエキスパート部を選択することができる。
本発明のその他の態様（５）によれば、さらに利用者の発話と、発話に対する応答が異なるエキスパート部の中から、利用者の発話に適したエキスパート部を選択することができる。
【図面の簡単な説明】
【００１５】
【図１】本発明の実施形態に係る対話処理装置の構成を示す概略図である。
【図２】本実施形態に係る対話処理を示すフローチャートである。
【図３】本実施形態に係る音声認識部の構成の一例を示す概略図である。
【図４】本実施形態に係る動作理解部が行うエキスパート選択処理を示すフローチャートである。
【図５】本実施形態に係るエキスパート部の構成を示す概略図である。
【図６】本実施形態に係るＲＵエキスパート部の処理情報記憶部が記憶する処理情報の一例を表す概念図である。
【図７】本実施形態に係るＱＡエキスパート部の処理情報記憶部が記憶する処理情報の一例を表す概念図である。
【図８】本実施形態に係るＩＰエキスパート部の処理情報記憶部が記憶する処理情報の一例を表す概念図である。
【図９】本実施形態に係るエキスパート共通の特徴量情報の一例を示す表である。
【図１０】本実施形態に係るＲＵエキスパート部の特徴量情報の一例を示す表である。
【図１１】本実施形態に係るＩＰエキスパート部の特徴量情報の一例を示す表である。
【図１２】本実施形態に係るＱＡエキスパート部の特徴量情報の一例を示す表である。
【図１３】本実施形態に係るＲＵエキスパート部が用いる特徴量情報の一例を示す表である。
【図１４】本実施形態に係るＩＰエキスパート部が用いる特徴量情報の一例を示す表である。
【図１５】本実施形態に係るＱＡエキスパート部が用いる特徴量情報の一例を示す表である。
【図１６】本実施形態に係る対話処理装置による対話の一例を示す表である。
【図１７】本実施形態に係る対話処理装置が選択したエキスパート部の回数の一例を示す表である。
【図１８】従来技術によって選択したエキスパート部の回数の一例を示す表である。
【発明を実施するための形態】
【００１６】
本発明の実施形態は、利用者が発話した音声を入力し、入力した音声信号に対して音声認識を行い、予め定めた種類の処理を行う複数のエキスパート部のうち現在処理を行っているエキスパート部について、音声認識結果に基づいて処理を継続するか否かを判定する。本実施形態は、処理を継続しないと判断した場合、複数のエキスパート部のうち現在起動していないエキスパート部の各々について、音声認識結果に基づいて適合性を推定する。本実施形態は、推定した適合性に基づいて処理を行うエキスパート部を選択する。
また、本実施形態は、さらに推定した適合性に基づいて現在処理を行っているエキスパート部の処理を継続するか否かを判定する。
【００１７】
以下、図面を参照しながら本実施形態について説明する。
図１は、本実施形態に係る対話処理装置１の構成を示す概略図である。
対話処理装置１は、音声入力部１０１、音声認識部１０２、動作理解部１０３、エキスパート部１０４−１、エキスパート部１０４−２、エキスパート部１０４−３、タスク計画部１０６、情報出力部１０７及び情報提示部１０８を含んで構成される。
なお、エキスパート部１０４−１〜１０４−３を総称する場合や区別しない場合には、エキスパート部１０４−１〜１０４−３又は単にエキスパート部１０４と呼ぶ。
【００１８】
音声入力部１０１は、受信した音波を音響信号に変換し、変換した音響信号を音声認識部１０２に出力する。音声入力部１０１は、例えばマイクロホンである。ここで、音声入力部１０１は、利用者が発話した音声に伴う音波を受信する。
音声認識部１０２は、音声入力部１０１から入力された音響信号に基づいて認識した音声認識情報を生成し、生成した音声認識情報を動作理解部１０３に出力する。音声認識部１０２の構成については後述する。
【００１９】
音声認識部１０２は、予め設定された時間（例えば、１秒）よりも長い時間、予め定めた値よりも音響信号の強度（例えば、パワー）が小さい場合、無音状態と検出する。音声認識部１０２は、前後が無音状態で挟まれる区間を発話区間と判断する。音声認識部１０２は、発話区間毎に上述の音声認識情報を動作理解部１０３に出力する。
【００２０】
動作理解部１０３は、現在処理を行っていないエキスパート部１０４から適合度情報を入力される。動作理解部１０３は、現在処理を行っているエキスパート部１０４から処理を継続するか否かを示す処理継続信号を入力される。
処理継続信号が処理を継続しないことを示す場合、動作理解部１０３は、入力された適合性情報に基づいて処理を開始するエキスパート部１０４を選択する。
なお、どのエキスパート部１０４も処理を行っておらず処理継続信号が入力されない場合（例えば、初期状態）、動作理解部１０３は、予め設定されたエキスパート部１０４を当初処理を開始するエキスパート部１０４と選択する。
動作理解部１０３は、選択したエキスパート部１０４に、処理を開始することを示す起動信号を出力する。
【００２１】
対話処理装置１は、上述のように処理の種類が各々異なるエキスパート部１０４−１〜１０４−３を複数個備える。図１に示す例では、エキスパート部の個数は３個であるが、本実施形態ではエキスパート部の個数は、１個よりも多ければ何個でもよい。エキスパート部（ドメインエキスパートとも呼ぶ）は、利用者との対話における予め定めた種類の処理や、利用者によって指示された種類の動作を行うための処理を行うモジュール（構成部）である。
エキスパート部１０４は、次のように共通の処理を行う機能をさらに有する。エキスパート部１０４は、動作理解部１０３から起動信号を入力された場合、動作理解部１０３から入力された音声認識情報に基づき予め設定された処理を行う。この処理は、エキスパート部１０４が備える動作処理部１０４５（後述）が行い、出力パターン情報を生成する。処理選択部１０７から処理選択信号を入力されたとき、生成した出力パターン信号を処理選択部１０７に出力する。起動信号が入力されたエキスパート部（処理を行うエキスパート部）は、動作理解部１０３から入力された音声認識情報に基づき処理を継続するか否か判定し、その処理を継続するか否かを示す処理継続信号を生成する。そのエキスパート部は、生成した処理継続信号を動作理解部１０３に出力する。
動作理解部１０３から起動信号が入力されないエキスパート部（処理を行わないエキスパート部）は、動作理解部１０３から入力された音声認識情報に基づいて適合性情報を推定し、推定した適合性情報を動作理解部１０３に出力する。
【００２２】
情報出力部１０７は、各エキスパート部１０４−１〜１０４−３の動作処理部１０４５に対して一定時間間隔（例えば、１０ｍｓ）で出力パターン情報の出力を要求することを示す出力要求信号を出力する。情報出力部１０７は、予め設定された処理を行っているエキスパート部１０４から出力パターン情報を入力され、入力された出力パターン情報を情報提示部１０８に出力する。
情報提示部１０８は、情報出力部１０７から入力された出力パターン情報を利用者が知覚可能な形態に変換して利用者に提示する。出力パターン情報が、応答情報のように形態がテキスト列を備える場合には、その応答情報に対してテキスト音声合成を行って音声信号を生成する。情報提示部１０８は生成した音声信号に基づく音を再生する。但し、出力パターン情報が指示可能情報である場合には、情報提示部１０８は出力パターン上右方を表す文字の画像に変換し、変換した画像を表示する。指示可能情報とは、利用者が発話によって情報提示部１０８に実行させることができる情報である。指示可能情報の例については後述する。出力パターン情報が、画像情報である場合には、その画像信号に基づく画像を表示する。
【００２３】
次に、本実施形態に係る対話処理装置１が行う対話処理について説明する。
図２は、本実施形態に係る対話処理を示すフローチャートである。
（ステップＳ１０１）音声入力部１０１は、受信した音波を音響信号に変換し、変換した音響信号を音声認識部１０２に出力する。その後、ステップＳ１０２に進む。
（ステップＳ１０２）音声認識部１０２は、音声入力部１０１から入力された音響信号に基づいて認識した音声認識情報を生成し、生成した音声認識情報を発話区間毎に動作理解部１０３に出力する。その後、ステップＳ１０３に進む。
【００２４】
（ステップＳ１０３）エキスパート部１０４は、前回動作理解部１０３から起動信号を入力されたか否か判断する。即ち、エキスパート部１０４は、予め設定された処理を行うか否か判断する。エキスパート部１０４は、動作理解部１０３から起動信号を入力された場合（ステップＳ１０３Ｙ）、ステップＳ１０５に進む。エキスパート部１０４は、動作理解部１０３から起動信号を入力されない場合（ステップＳ１０３Ｎ）、ステップＳ１０４に進む。
【００２５】
（ステップＳ１０４）エキスパート部１０４は、動作理解部１０３から入力された音声認識情報に基づいて適合性情報を推定し、推定した適合性情報を動作理解部１０３に出力する。その後、ステップＳ１０７に進む。
（ステップＳ１０５）エキスパート部１０４は、動作理解部１０３から入力された音声認識情報に基づき予め設定された処理を行う。エキスパート部１０４は、自部が備える動作処理部１０４５において処理を行って出力パターン情報を生成する。処理選択部１０７から処理選択信号を入力されたとき、生成した出力パターン情報を処理選択部１０７に出力する。その後、ステップＳ１０６に進む。
（ステップＳ１０６）エキスパート部１０４は、動作理解部１０３から入力された音声認識情報に基づき処理を継続するか否か判定し、その処理を継続するか否かを示す処理継続信号を生成する。そのエキスパート部１０４は、生成した処理継続信号を動作理解部１０３に出力する。その後、ステップＳ１０７に進む。
【００２６】
（ステップＳ１０７）動作理解部１０３は、対話処理装置１が備える全てのエキスパート部１０４−１〜１０４−３についてステップＳ１０３〜Ｓ１０６の処理を行ったか否か判断する。動作理解部１０３が対話処理装置１が備える全てのエキスパート部１０４−１〜１０４−３についてステップＳ１０３〜Ｓ１０６の処理を行ったと判断した場合（ステップＳ１０７Ｙ）、ステップＳ１０８に進む。動作理解部１０３がステップＳ１０３〜Ｓ１０６の処理を行っていないエキスパート部１０４があると判断した場合（ステップＳ１０７Ｎ）、ステップＳ１０３に進む。
（ステップＳ１０８）動作理解部１０３は、現在予め設定された処理を行っていないエキスパート部１０４から適合性情報を入力される。動作理解部１０３は、現在予め設定された処理を行っているエキスパート部１０４から処理を継続するか否かを示す処理継続信号を入力される。処理継続信号が処理を継続しないこと（非継続）を示す場合、動作理解部１０３は、入力された適合性情報に基づいて次回起動するエキスパート部１０４を選択する。動作理解部１０３は選択したエキスパート部１０４に、処理を開始することを示す起動信号を出力する。その後、ステップＳ１０９に進む。
【００２７】
（ステップＳ１０９）情報出力部１０７は、各エキスパート部１０４−１〜１０４−３の動作処理部１０４５に対して一定時間間隔で出力要求信号を出力する。情報出力部１０７は、予め設定された処理を行っているエキスパート部１０４から出力パターン情報を入力され、入力された出力パターン情報を情報提示部１０８に出力する。その後、ステップＳ１１０に進む。
（ステップＳ１１０）情報提示部１０８は、情報出力部１０７から入力された出力パターン情報を利用者が知覚可能な形態に変換して利用者に提示する。その後、処理を終了する。
【００２８】
次に、音声認識部１０２の構成の一例について説明する。
図３は、本実施形態に係る音声認識部１０２の構成の一例を示す概略図である。
音声認識部１０２は、特徴量算出部１０２１、音響モデル記憶部１０２２、音素決定部１０２３、単語情報記憶部（単語辞書）１０２４、言語モデル記憶部１０２５、単語決定部１０２６を含んで構成される。
特徴量算出部１０２１は、音声入力部１０１から入力された音響信号に基づいてフレーム（例えば２０ｍｓ）毎に音響特徴量（例えば、メル周波数ケプストラム（Ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ；ＭＦＣＣ））を算出する。特徴量算出部１０２１は、算出した音響特徴量を音素決定部１０２３に出力する。
【００２９】
音響モデル記憶部１０２２には、複数個の音響特徴量に対応する対数確率値のセットを音素情報毎に備える音響モデル（例えば、隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ；ＨＭＭ））が予め記憶されている。
音素決定部１０２３は、特徴量算出部１０２１から入力された音響特徴量に対応する対数確率値のセットを含む音素情報を音響モデル記憶部１０２２から読み出す。音素決定部１０２３は、音響モデル記憶部１０２２から読み出した対数確率値を入力された音響特徴量の順番に加算して音響スコア（尤度）を算出する。音素決定部１０２３は、音響スコアが１番目からＭ（Ｍは予め設定された１以上の整数）番目に大きい音素情報と各々の音響スコアを関連付けて音素候補情報として単語決定部１０２６及び動作理解部１０３に出力する。
【００３０】
単語情報記憶部１０２４には、音素情報の組からなる単語情報（単語ごとの読み）が予め複数個記憶されている。
言語モデル記憶部１０２５には、複数（例えば３個）の単語情報の組と対数確率値（単語信頼度）のセット（単語間の接続制約）を複数個備える言語モデルが予め記憶されている。
単語決定部１０２６は、音素決定部１０２３から入力された音素候補情報に含まれる音素情報の組に対応する単語情報を単語情報記憶部１０２４から読み出す。単語決定部１０２６は、読み出した単語情報の組に対応する単語信頼度を言語モデル記憶部１０２５から読み出し、読み出した単語信頼度を入力された音素候補情報が表す単語の順に加算して言語スコアを算出する。単語決定部１０２６は、算出した言語スコアが１番目からＮ（Ｎは予め定めた１以上の整数）番目に大きい単語情報と各々の言語スコアを単語候補情報と定める。単語決定部１０２６は、定めた単語候補情報に含まれる各単語情報の音素情報の組に対応する音響スコアを、入力された音素候補情報から抽出する。単語決定部１０２６は、定めた単語候補情報と抽出した音素候補情報を音声認識情報として動作理解部１０３に出力する。
【００３１】
次に、動作理解部１０３が行うエキスパート選択処理について説明する。
図４は、本実施形態に係る動作理解部１０３が行うエキスパート選択処理を示すフローチャートである。
（ステップＳ２０１）動作理解部１０３は、音声認識部１０２から入力された音声認識情報を各エキスパート部１０４−１〜１０４−３に出力する。その後、ステップＳ２０２に進む。
【００３２】
（ステップＳ２０２）動作理解部１０３は、現在予め設定された処理を行っていないエキスパート部１０４から適合性情報を入力される。適合性情報とは、そのエキスパート部１０４が与えられた音声認識情報に適合する度合いを示す情報、例えばエキスパート部１０４が次回処理を行う確率値Ｐである。確率値Ｐを算出する処理については後述する。その後、ステップＳ２０３に進む。
【００３３】
（ステップＳ２０３）動作理解部１０３は、現在予め設定された処理を行っているエキスパート部１０４から処理を継続するか否かを示す処理継続信号を入力される。
入力された処理継続信号が、そのエキスパート部１０４の処理を継続することを示す（例えば、信号値１）場合（ステップＳ２０３Ｙ）、動作理解部１０３は、処理を終了する。入力された処理継続信号が、そのエキスパート部１０４の処理を継続しないことを示す（例えば、信号値０）場合（ステップＳ２０３Ｎ）、ステップＳ２０４に進む。
【００３４】
（ステップＳ２０４）動作理解部１０３は、入力された適合性情報が示す適合性が最も高いエキスパート部１０４を、次回予め設定された処理を行うエキスパート部１０４と決定する。動作理解部１０３は、次回予め設定された処理を行うエキスパート部に、その処理を行うことを指示する起動信号を出力する。その後、処理を終了する。
【００３５】
次に、エキスパート部１０４が共通に備える構成について説明する。
図５は、本実施形態に係るエキスパート部１０４の構成を示す概略図である。
エキスパート部１０４は、特徴量生成部１０４１、処理情報記憶部１０４２、適合性推定部１０４３、処理継続判定部１０４４、動作処理部１０４５及び対話履歴記憶部１０４６を含んで構成される。
【００３６】
特徴量生成部１０４１は、動作理解部１０３から入力された音声認識情報に基づいて特徴量情報を生成する。特徴量情報とは、与えられた音声認識情報に対してエキスパート部１０４毎の動作の特徴を表す特徴量の組からなる情報である。特徴量の具体例については、後述する。特徴量生成部１０４１は、特徴量情報を生成するために入力された音声認識情報の一部から特徴量情報の一部を抽出する。特徴量生成部１０４１は、入力された音声認識情報の他の部分に対応する処理情報を処理情報記憶部１０４２から読み出し、読み出した処理情報に基づいて特徴量情報の他の部分を生成する。さらに他の特徴量情報については、特徴量生成部１０４１は、対話履歴記憶部１０４６から読み出した対話履歴情報に基づいて生成する。特徴量の具体例及び生成方法については後述する。
【００３７】
特徴量生成部１０４１は、処理継続判定部１０４４から処理を継続しないことを示す処理継続信号を入力されたときから動作理解部１０３から起動信号を入力されるまで、生成した特徴量情報を適合性推定部１０４３に出力する。つまり、該当するエキスパート部１０４（具体的には動作処理部１０４５）が予め設定された処理を行わない場合に、適合性推定部１０４３が適合性情報を推定する。
特徴量生成部１０４１は、動作理解部１０３から起動信号を入力されたとき、又は処理継続判定部１０４４から処理を継続することを示す処理継続信号を入力されたとき、生成した特徴量情報を処理継続判定部１０４４に出力する。つまり、該当するエキスパート部１０４（具体的には動作処理部１０４５）が処理を行う場合に、処理継続判定部１０４４が処理の継続・非継続を判定する。
なお、後述するように特徴量生成部１０４１が出力する特徴量情報が含む特徴量の組は、適合性推定部１０４３に出力するものと処理継続判定部１０４４に出力するものとで異なってもよい。
【００３８】
処理情報記憶部１０４２は、そのエキスパート部１０４が予め設定された処理を実行するための処理に用いる情報やその処理を特徴付ける情報を処理情報として記憶しておく。処理情報の詳細については後述する。
【００３９】
適合性推定部１０４３は、特徴量生成部１０４１から入力された特徴量情報（特徴量ベクトルＦ）に基づいて、当該エキスパート部１０４に係る適合性情報を推定する。適合性情報とは、エキスパート部１０４が入力された音声認識情報に適合する度合いを示す情報である。具体的には、適合性情報は、そのエキスパート部１０４が次回起動する確率値Ｐである。適合性推定部１０４３は、例えば式（１）を用いて確率値Ｐを算出する。
【００４０】
【数１】

【００４１】
式（１）において、Ｆ_１，．．．，Ｆ_ｎは、特徴量ベクトルＦの要素値（特徴量）である。ｎは、特徴量ベクトルＦの要素数である。ａ_１，．．．，ａ_ｎは、要素値Ｆ_１，．．．，Ｆ_ｎの各々に対する乗算係数であって、実数値をとる。ａ_０は、バイアス値であって、実数値をとる。適合性推定部１０４３は、エキスパート部１０４毎の特徴量情報と起動・非起動（つまり予め設定した処理を行うか否か）の間の既知の関係を用いて、事前学習によって係数ａ_０，．．．，ａ_ｎを予め算出し、設定しておく。
確率値Ｐは、特徴量の線形結合値（ａ_０＋Σ_ｌ＝１^ｎａ_ｌＦ_ｌ）が増加するに従って単調に増加し、最小値０から最大値１までの間の実数値である。この線形結合値が∞に近づくと、確率値Ｐは１に漸近し、この線形結合値が−∞に近づくとＰは０に漸近する。
適合性推定部１０４３は、推定した適合性情報を動作理解部１０３に出力する。
【００４２】
処理継続判定部１０４４は、特徴量生成部１０４１から入力された特徴量情報（特徴量ベクトルＦ）に基づいて、当該エキスパート部１０４の動作を継続するか否か（即ち、動作処理部１０４５が予め設定した処理を行うか否か）を判断する。処理継続判定部１０４４は、動作を継続するか否かを示す処理継続信号を生成する。処理継続信号の値は、例えば１又は０である。処理継続信号の値が１の場合、予め設定した処理を継続することを示す。処理継続信号の値が０の場合、予め設定した処理を継続しないことを示す。処理継続判定部１０４４は、生成した処理継続信号を特徴量生成部１０４１、動作処理部１０４５及び動作理解部１０３に出力する。
【００４３】
処理継続判定部１０４４は、現在予め設定された処理を行っているエキスパート部１０４が、その処理を継続するか否かを判断するために、例えばサポートベクターマシン（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ；ＳＶＭ）を用いる。サポートベクターマシンを用いる場合、処理継続判定部１０４４は、例えば、入力された特徴量情報を表す特徴量ベクトルＦと重み係数を要素とする重み係数ベクトルｗの内積を算出する。処理継続判定部１０４４は、算出した内積が予め定めた実数値ｂ（例えば、ゼロ）と等しい又は大きい場合、処理を継続すると判断する。処理継続判定部１０４４は、算出した内積が予め定めた実数値ｂよりも小さい場合、処理を継続しない（非継続）と判断する。
【００４４】
但し、処理継続判定部１０４４は、エキスパート部１０４毎に特徴量情報と動作継続・非継続（予め設定された処理を行うか否か）の既知の関係を用いて、事前学習によって重み係数ベクトルｗ及び実数値ｂを予め算出し、設定しておく。事前学習においては、例えば、上述の内積と実数値ｂの和である実数値ｙが１又は１よりも大きいという条件のもとで、重み係数ベクトルｗのノルムが最小とする条件を課す。事前学習において算出する実数値ｙは、特徴量ベクトルＦについて予め設定された処理を継続する場合に値１をとり、予め設定された処理を継続しない場合に値−１をとる。
【００４５】
動作処理部１０４５は、処理継続判定部１０４４から処理を継続することを示す処理継続信号を入力された場合、又は、動作理解部１０３から起動信号を入力された場合、動作理解部１０３から入力された音声認識情報に基づいて予め定めた処理を行う。例えば、動作処理部１０４５は、音声認識情報に含まれる単語情報（キーワード）を備える発話パターン情報（例えば、質問情報）を処理情報記憶部１０４２から検索し、検索した発話パターン情報と対応する出力パターン情報（例えば、応答情報及び提示情報）を処理情報として処理情報記憶部１０４２から読み出す処理を行う。ここで、処理情報記憶部１０４２は、予め発話パターン情報と出力パターン情報を対応付けて処理情報として記憶している。
【００４６】
動作処理部１０４５は、情報出力部１０７から出力パターン情報の出力を要求することを示す出力要求信号を入力されたとき、読み出した出力パターン情報を情報出力部１０７に出力する。動作処理部１０４５は、読み出した発話パターン情報と出力パターン情報（又はこれらの識別情報）を時刻情報と対応付けて対話履歴記憶部１０４６に記憶する。従って、対話履歴記憶部１０４６には、時刻情報毎の発話パターン情報と出力パターン情報の情報列が対話履歴として記憶される。
【００４７】
動作処理部１０４５は、エキスパート部１０４−１〜１０４−３毎に各々異なる予め設定された処理を行う。エキスパート部１０４−１〜１０４−３が、各々ＲＵ（ｒｅｑｕｅｓｔｕｎｄｅｒｓｔａｎｄｉｎｇ；要求理解）エキスパート部１０４−１、ＱＡ（ｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ；質問応答）エキスパート部１０４−２、ＩＰ（ｉｎｔｅｒａｃｔｉｖｅｐｒｅｓｅｎｔａｔｉｏｎ；インタラクティブプレゼンテーション）エキスパート部１０４−３である場合を例にとって説明する。
以下の説明では、各機能部（特徴量生成部１０４１等）を、各エキスパート部１０４毎に区別する場合には、特徴量生成部１０４１−１等と呼ぶ。ここで、末尾の−１等は、エキスパート部１０４−１等を示す。
【００４８】
ＲＵエキスパート部１０４−１は、入力された音声認識情報からＩＰエキスパート部１０４−３の処理を開始させることを示す処理要求情報を抽出し、抽出した処理要求情報を確認するための対話処理（後述）を行う。ＲＵエキスパート部１０４−１は、確認した処理要求情報をタスク計画部１０６（図示せず）に出力する。
【００４９】
タスク計画部１０６は、対話処理装置１が備える構成部の一つである。タスク計画部１０６は、ＲＵエキスパート部１０４−１の動作処理部１０４５から入力された処理要求情報に基づいて処理を開始させるＩＰエキスパート部１０４−３を選択する。タスク計画部１０６は、自部が備える記憶部に処理要求情報と処理を開始させるＩＰエキスパート部１０４−３の識別情報を対応付けて予め記憶させておく。タスク計画部１０６は、入力された処理要求情報に対応するＩＰエキスパート部１０４−３の識別情報を読み出し、読み出した識別情報が示すＩＰエキスパート部１０４−３の動作処理部１０４５−３に処理を開始することを指示する起動信号を出力する。動作処理部１０４５−３は、動作理解部１０３以外に、タスク計画部１０６からも起動信号を入力されることがある。動作処理部１０４５−３は、起動信号を入力されたとき、動作理解部１０３から入力された音声認識情報に基づいて予め設定された処理（後述）を行う。
【００５０】
次に、ＲＵエキスパート部１０４−１の処理情報記憶部１０４２−１が記憶する処理情報について動作処理部１０４５が行う処理とともに説明する。
図６は、本実施形態に係るＲＵエキスパート部１０４−１の処理情報記憶部１０４２−１が記憶する処理情報の一例を表す概念図である。
図６に示すように、処理情報記憶部１０４２−１は、発話パターン情報として質問情報、肯定発話情報、否定発話情報を記憶する。処理情報記憶部１０４２−１は、質問情報と対応付けて応答情報を出力パターン情報として記憶する。
質問情報とは、利用者が対話処理装置１に対して質問する内容を表す情報である。図６の最上行の「グリニッジニツイテオシエテクダサイ」とは、利用者が「グリニッジ」について質問することを表す質問情報である。そのうち、質問情報の一部として含まれ下線が付された部分「グリニッジ」、「オシエテ」は、キーワード情報を示す。キーワード情報とは、質問情報として必須であり、動作処理部１０４５−１が検索の手がかりとして音声認識情報に含まれる単語情報と照合する語句を表す情報である。
【００５１】
図６の第２行の「カイジトシグリニッジノセツメイデスネ」とは、利用者に対してグリニッジに対する説明を要求することについて確認を促す応答情報（出力パターン情報）である。第３行の「ハイ」、「ウン」とは、直前に提示された応答情報又は提示情報に対して肯定的な発話を表す肯定発話情報である。第４行の「イイエ」、「イヤ」とは、直前に提示された応答情報又は提示情報に対して否定的な発話を表す否定発話情報である。
【００５２】
従って、動作処理部１０４５−１は、入力された音声認識情報に含まれる単語情報として「グリニッジ」及び「オシエテ」を含む場合、処理情報記憶部１０４２−１から「グリニッジニツイテオシエテクダサイ」を示す質問情報を読み出す。動作処理部１０４５は、この質問情報に対応する応答情報として「カイジトシグリニッジノセツメイデスネ」を示す応答情報を処理情報記憶部１０４２−１から読み出す。動作処理部１０４５は、この読み出した応答情報を情報出力部１０７に出力し、読み出した質問情報と応答情報を時刻情報と対応付けて対話履歴記憶部１０４６−１に記憶する。動作処理部１０４５−１は、この読み出した質問情報のキーワードである「グリニッジ」、「セツメイ」を処理要求情報の候補として自部が備える記憶部に記憶する。
【００５３】
動作処理部１０４５−１は、入力された音声認識情報に含まれる単語情報として「ハイ」を含む場合、処理情報記憶部１０４２−１から「ハイ」を示す肯定発話情報を読み出す。動作処理部１０４５−１は、読み出した肯定発話情報を対話履歴記憶部１０４６−１に時刻情報と対応付けて記憶する。
動作処理部１０４５−１は、肯定発話情報を読み出した場合、記憶した処理要求情報の候補「グリニッジ」、「セツメイ」を処理要求情報と定め、定めた処理要求情報をタスク計画部１０６に出力する。
【００５４】
動作処理部１０４５−１は、入力された音声認識情報に含まれる単語情報として「イイエ」を含む場合、処理情報記憶部１０４２−１から「イイエ」を示す否定発話情報を読み出す。動作処理部１０４５−１は、読み出した否定発話情報を時刻情報と対応付けて対話履歴記憶部１０４６−１に記憶する。
動作処理部１０４５−１は、否定発話情報を読み出した場合、記憶した処理要求情報の候補「グリニッジ」、「セツメイ」を自部が備える記憶部から削除する。
【００５５】
ＱＡエキスパート部１０４−２は、予め定めた題目（例えば、世界遺産）に関する質問情報と応答情報の対を記憶する処理情報記憶部１０４２−２を備える。ＱＡエキスパート部１０４−２は、音声認識情報に含まれる単語情報とキーワード情報が照合する質問情報に対応する応答情報を出力パターン情報として情報出力部１０７に出力する。
ここで、ＱＡエキスパート部１０４−２の処理情報記憶部１０４２−２が記憶する処理情報について動作処理部１０４５が行う処理とともに説明する。
図７は、本実施形態に係るＱＡエキスパート部１０４−２の処理情報記憶部１０４２−２が記憶する処理情報の一例を表す概念図である。
図７に示すように、処理情報記憶部１０４２−２は、発話パターン情報として質問情報、肯定発話情報、否定発話情報、相槌情報を記憶する。処理情報記憶部１０４２−２は、質問情報と対応付けて応答情報と提示情報を出力パターン情報として記憶する。
図７の最上行の「イタリアノセカイイサンノリストヲミセテクダサイ」とは、利用者が「イタリアの世界遺産のリストを見せ」ることを要求する質問情報である。そのうち、質問情報の一部として含まれ下線が付された部分「イタリア」、「セカイイサン」、「リスト」、「ミセテ」は、キーワード情報を示す。
【００５６】
図７の第２行の「イタリアノセカイイサンヲチイキベツニショウカイシマス」とは、利用者に対してイタリアの世界遺産を地域別に紹介することを示す応答情報（出力パターン情報）である。この応答情報は、同時に第４行に示す、イタリアの地域別の世界遺産のリストを示す画像情報（提示情報）を提示することについて利用者に対して注意を促す応答情報である。
第３行の「ドノチイキノリストガミタイカオッシャッテクダサイ」とは、提示している画像情報を参照してどの地域のリストを提示すべきか利用者に対して指示を促す応答情報である。
図７の第５行の「ハイ」、「ウン」とは、直前に提示された応答情報又は提示情報に対しする肯定発話情報である。第６行の「イイエ」、「イヤ」とは、直前に提示された応答情報又は提示情報に対する否定発話情報である。
図７の第７行の「ナルホド」、「ソウデスネ」とは、直前に提示された応答情報に対して利用者が反応を示す相槌情報である。
【００５７】
従って、動作処理部１０４５−２は、入力された音声認識情報に含まれる単語情報として「イタリア」、「セカイイサン」、「リスト」及び「ミセテ」を含む場合、処理情報記憶部１０４２−２から「イタリアノセカイイサンノリストヲミセテクダサイ」を示す質問情報を読み出す。動作処理部１０４５−２は、この質問情報に対応する応答情報として「イタリアノセカイイサンノリストヲミセテクダサイ。ドノチイキノリストガミタイカオッシャッテクダサイ」を示す応答情報とイタリアの地域別の世界遺産のリストを示す画像情報を提示情報として読み出す。動作処理部１０４５−２は、この読み出した応答情報と提示情報を出力パターン情報として情報出力部１０７に出力し、読み出した質問情報を発話パターン情報として、応答情報及び提示情報を出力パターン情報として時刻情報と対応付けて対話履歴記憶部１０４６−２に記憶する。
【００５８】
動作処理部１０４５−２は、入力された音声認識情報に含まれる単語情報として「ハイ」を含む場合、処理情報記憶部１０４２−２から「ハイ」を示す肯定発話情報を読み出す。動作処理部１０４５−２は、読み出した肯定発話情報を対話履歴記憶部１０４６−２に時刻情報と対応付けて記憶する。
動作処理部１０４５−２は、入力された音声認識情報に含まれる単語情報として「いいえ」を含む場合、処理情報記憶部１０４２−２から「イイエ」を示す否定発話情報を読み出す。動作処理部１０４５−２は、読み出した否定発話情報を対話履歴記憶部１０４６−２に時刻情報と対応付けて記憶する。
動作処理部１０４５−２は、入力された音声認識情報に含まれる単語情報として「なるほど」を含む場合、処理情報記憶部１０４２−２から「ナルホド」を示す相槌情報を読み出す。動作処理部１０４５−２は、読み出した相槌情報を対話履歴記憶部１０４６−２に時刻情報と対応付けて記憶する。
【００５９】
ＩＰエキスパート部１０４−３は、予め定めた題目（トピック）のうち1つの事項（例えば、著名な世界遺産のうちの１つ）に関する提示情報（映像情報、音声情報）と応答情報を質問情報と対応付けて記憶する動作情報記憶部１０４２−３を備える。ＩＰエキスパート部１０４−３は、音声認識情報に含まれる単語情報とキーワード情報が照合する質問情報に対応する応答情報及び提示情報を出力パターン情報として情報出力部１０７に出力する。
動作情報記憶部１０４２−３に記憶されている動作情報は、最初に出力すべき応答情報と提示情報の組を初期出力情報として含む。ＩＰエキスパート部１０４−３は、タスク計画部１０６から処理を開始することを指示する起動信号が入力された場合、初期出力情報を情報出力部１０７に出力し、対話履歴記憶部１０４６−３に記憶する。
【００６０】
ここで、ＩＰエキスパート部１０４−３の処理情報記憶部１０４２−３が記憶する処理情報について動作処理部１０４５−３が行う処理とともに説明する。
図８は、本実施形態に係るＩＰエキスパート部１０４−３の処理情報記憶部１０４２−３が記憶する処理情報の一例を表す概念図である。
図８に示すように、処理情報記憶部１０４２−３は、発話パターン情報として質問情報、指示可能情報を記憶する。処理情報記憶部１０４２−３は、応答情報と提示情報を出力パターン情報として記憶する。処理情報記憶部１０４２−３は、質問情報と対応付けて記憶する応答情報と提示情報を出力パターン情報として記憶する。
【００６１】
図８の最上行から第３行に太字で示される、応答情報と提示情報の組が初期出力情報である。図８の最上行及び第２行の「カイジトシグリニッジノアンナイヲシマス／グリニッジヒョウジュンジノキジュントナルトシトシテユイショアルミナトマチデス」とは、利用者に海事都市グリニッジの案内を開始することを示し、第３行のグリニッジ市内を示す画像情報を提示することについて注意を喚起する応答情報である。
図８の第４行の「グリニッジヒョウジュンジッテナンデスカ？」とは、利用者が対話処理装置１に対してグリニッジ標準時に対して問い合わせる質問情報である。そのうち、質問情報の一部として含まれ下線が付された部分「グリニッジヒョウジュンジ」、「ナンデスカ」は、キーワード情報を示す。
【００６２】
図８の第５行の「グリニッジテンモンダイデノヘイキンタイヨウジノコトデス」とは、利用者に対してグリニッジ標準時に対する回答としてグリニッジ天文台での平均太陽時をを示す応答情報（出力パターン情報）である。この応答情報は、同時に第６行に示す、グリニッジ天文台の内容を示す画像情報（提示情報）を提示することについて利用者に対して注意を促す応答情報である。
図８の第７行の「トマル」、「ツギ」、「モドル」、「モウイチド」とは、利用者１が提示情報を提示する処理の形態を指示する指示可能情報である。「トマル」とは、画像情報の提示を停止することを指示する情報である。「ツギ」とは、現在提示されている画像情報の直後に提示される画像情報を提示することを指示する情報である。「モドル」とは、現在提示されている画像情報の直前に提示される画像情報を提示することを指示する情報である。「モウイチド」とは、現在提示している画像情報を再度初頭から提示することを指示する情報である。
【００６３】
従って、動作処理部１０４５−３は、タスク計画部１０６から起動信号が入力された場合、初期出力情報（応答情報、提示情報）を処理情報記憶部１０４２−３から読み出す。動作処理部１０４５−３は、読み出した初期出力情報を出力パターン情報として情報出力部１０７に出力し、対話履歴記憶部１０４６に記憶する。
動作処理部１０４５−３は、入力された音声認識情報に含まれる単語情報として「グリニッジヒョウジュンジ」及び「ナンデスカ」を含む場合、処理情報記憶部１０４２−３から「グリニッジヒョウジュンジッテナンデスカ？」を示す質問情報を読み出す。動作処理部１０４５−３は、この質問情報に対応する応答情報として「グリニッジテンモンダイデノヘイキンタイヨウジノコトデス」を示す応答情報とグリニッジ天文台の内容を示す画像情報を提示情報として読み出す。動作処理部１０４５−３は、この読み出した応答情報と提示情報を出力パターン情報として情報出力部１０７に出力し、読み出した質問情報を発話パターン情報として、応答情報及び提示情報を出力パターン情報として、時刻情報と対応付けて対話履歴記憶部１０４６−３に記憶する。
【００６４】
動作処理部１０４５−３は、入力された音声認識情報に含まれる単語情報として「トマル」を含む場合、処理情報記憶部１０４２−３から「トマル」を示す指示可能情報を読み出す。動作処理部１０４５−３は、現在出力している出力パターン情報の情報出力処理部１０７への出力を停止する。動作処理部１０４５−３は、読み出した指示可能情報を対話履歴記憶部１０４６−３に出力パターン情報として時刻情報と対応付けて記憶する。
動作処理部１０４５−３は、入力された音声認識情報に含まれる単語情報として「ツギ」を含む場合、処理情報記憶部１０４２−３から「ツギ」を示す指示可能情報を読み出す。動作処理部１０４５−３は、現在出力している提示情報よりも後に提示されるべき提示情報を出力パターン情報として情報出力部１０７へ出力する。動作処理部１０４５−３は、読み出した指示可能情報を対話履歴記憶部１０４６−３に出力パターン情報として時刻情報と対応付けて記憶する。
動作処理部１０４５−３は、入力された音声認識情報に含まれる単語情報として「モドル」を含む場合、処理情報記憶部１０４２−３から「モドル」を示す指示可能情報を読み出す。動作処理部１０４５−３は、現在出力している提示情報よりも前に提示されるべき提示情報を出力パターン情報として情報出力部１０７へ出力する。動作処理部１０４５−３は、読み出した指示可能情報を対話履歴記憶部１０４６−３に出力パターン情報として時刻情報と対応付けて記憶する。
動作処理部１０４５−３は、入力された音声認識情報に含まれる単語情報として「モウイチド」を含む場合、処理情報記憶部１０４２から「モウイチド」を示す指示可能情報を読み出す。動作処理部１０４５−３は、現在出力している提示情報を初頭から再度、出力パターン情報として情報出力部１０７へ出力する。動作処理部１０４５−３は、読み出した指示可能情報を対話履歴記憶部１０４６に出力パターン情報として時刻情報と対応付けて記憶する。
【００６５】
次に、各エキスパート部の特徴量生成部１０４１が生成する特徴量情報の具体例について説明する。
以下の説明において、特徴量Ｆ_ｉ，ｒｘは、入力された音声認識情報に基づく特徴量情報である。特徴量Ｆ_ｉ，ｈｘは、対話履歴記憶部１０４６から読み出した対話履歴情報に基づく特徴量情報である。ＳＲＲ_ｉ，ｊは、音声認識情報においてエキスパートクラスｉにおいてｊ番目に言語スコアが高い単語情報及び対応する音素情報である。エキスパートクラスとは、エキスパート部の種類を意味する。ｉは、エキスパートクラスの何れかを示すインデックスである。ｉがＲＵのとき、ＲＵエキスパート部１０４−１を示す。ｉがＱＡのとき、ＱＡエキスパート部１０４−２を示す。ｉ＝ＩＰのとき、ＩＰエキスパート部１０４−３を示す。ＳＲＲ_{ｉ，ａｌｌ}は、音声認識情報においてエキスパートクラスｉにおいて１番目からＮ番目に言語スコアが高い単語情報及び対応する音素情報の全てである。ＳＲＲ_ｌｖ，ｊは、大語彙言語モデルを用いた発話検証用の音声認識情報においてｊ番目に言語スコアが高い単語情報及び対応する音素情報の全てである。大語彙言語モデルとは、言語モデル記憶部１０２５に記憶される言語モデルであって、このモデルを構成する単語列に用いられる単語の種類の数（例えば、６０、２５０語、）が多い言語モデルである（通常の言語モデルでは、例えば５、０００語）。
【００６６】
図９は、本実施形態に係るエキスパート部１０４共通の特徴量情報の一例を示す表である。
図９の最左列から右側へ順に、関連があるエキスパートクラス（種類）、特徴量、内容を示す。図９の最左列においてエキスパートクラスが共通とは、ＲＵエキスパート部１０４−１、ＱＡエキスパート部１０４−２、ＩＰエキスパート部１０４−３が共通に生成する特徴量情報を示す。
【００６７】
図９の上から第２行の特徴量Ｆ_ｉ，ｒ１は、ＳＲＲ_ｉ，１が得られたかどうかを示す特徴量である。ＳＲＲ_ｉ，１が得られた場合、Ｆ_ｉ，ｒ１の値が１であり、ＳＲＲ_ｉ，１が得らなかった場合、Ｆ_ｉ，ｒ１の値が０である。
図９の上から第３行の特徴量Ｆ_ｉ，ｒ２は、ＳＲＲ_ｉ，ｊに含まれる単語情報としてフィラーが含まれるかどうかを示す特徴量である。フィラーとは、意図をもった発話の間に挟みこむ語句、例えば「ええと」、「あのう」である。ＳＲＲ_ｉ，１にフィラーが含まれる場合、Ｆ_ｉ，ｒ２の値が１であり、ＳＲＲ_ｉ，１にフィラーが含まれない場合、Ｆ_ｉ，ｒ２の値が０である。
【００６８】
図９の上から第４行の特徴量Ｆ_ｉ，ｒ３は、ＳＲＲ_ｉ，１に含まれる単語情報に係る単語信頼度の最小値を示す。
図９の上から第５行の特徴量Ｆ_ｉ，ｒ４は、ＳＲＲ_ｉ，１に含まれる単語情報に係る単語信頼度の平均値を示す。
図９の上から第６行の特徴量Ｆ_ｉ，ｒ５は、ＳＲＲ_ｉ，１に含まれる音韻情報に係る音響スコアを発話区間の時間で除算した値を示す。
図９の上から第７行の特徴量Ｆ_ｉ，ｒ６は、ＳＲＲ_ｉ，１の言語スコアを示す。
図９の上から第８行の特徴量Ｆ_ｉ，ｒ７は、ＳＲＲ_ｉ，１に含まれる単語数を示す。
図９の上から第９行の特徴量Ｆ_ｉ，ｒ８は、ＳＲＲ_{ｉ，ａｌｌ}に含まれる単語数を示す。
図９の上から第１０行の特徴量Ｆ_ｉ，ｒ９は、特徴量Ｆ_ｉ，ｒ５と、ＳＲＲ_ｌｖ，１の音響スコアを発話区間の時間で除算した値との差分値を示す。
【００６９】
図１０は、本実施形態に係るＲＵエキスパート部１０４−１の特徴量情報の一例を示す表である。
図１０の最左列から右側へ順に、関連があるエキスパートクラス（種類）、特徴量、内容を示す。図１０の最左列においてエキスパートクラスがＲＵとは、ＲＵエキスパート部１０４−１の特徴量生成部１０４１−１のみが生成する特徴量情報を示す。
図１０の上から第２行の特徴量Ｆ_{ＲＵ，ｒ１０}は、ＳＲＲ_ＲＵ，１が肯定発話情報を含むかどうかを示す特徴量である。ＳＲＲ_ＲＵ，１が肯定発話情報を含む場合、Ｆ_{ＲＵ，ｒ１０}の値が１であり、ＳＲＲ_ＲＵ，１が肯定発話情報を含まない場合、Ｆ_{ＲＵ，ｒ１０}の値が０である。特徴量生成部１０４１−１は、ＳＲＲ_ＲＵ，１が肯定発話情報を含むかどうかを判断するために、処理情報記憶部１０４２−１に記憶されている肯定発話情報と、ＳＲＲ_ＲＵ，１に含まれる単語情報を照合する。
【００７０】
図１０の上から第３行の特徴量Ｆ_{ＲＵ，ｒ１１}は、ＳＲＲ_ＲＵ，２が否定発話情報を含むかどうかを示す特徴量である。ＳＲＲ_ＲＵ，２が否定発話情報を含む場合、Ｆ_{ＲＵ，ｒ１０}は値１であり、ＳＲＲ_ＲＵ，１が否定発話情報を含まない場合、Ｆ_{ＲＵ，ｒ１０}の値が０である。特徴量生成部１０４１−１は、ＳＲＲ_ＲＵ，１が否定発話情報を含むかどうかを判断するために、処理情報記憶部１０４２−１に記憶されている否定発話情報と、ＳＲＲ_ＲＵ，１に含まれる単語情報を照合する。
【００７１】
図１０の上から第４行の特徴量Ｆ_{ＲＵ，ｒ１２}は、音声認識情報に含まれる認識結果となる単語情報のうち、言語モデルによる認識結果の候補数を示す。
図１０の上から第５行の特徴量Ｆ_{ＲＵ，ｒ１３}は、ＳＲＲ_ＲＵ，１に世界遺産の名称が含まれているか否かを示す特徴量である。ＳＲＲ_ＲＵ，１に世界遺産の名称が含まれている場合、Ｆ_{ＲＵ，ｒ１３}は値１であり、ＳＲＲ_ＲＵ，１に世界遺産の名称が含まれていない場合、Ｆ_{ＲＵ，ｒ１３}は値０である。特徴量生成部１０４１−１は、ＳＲＲ_ＲＵ，１が世界遺産の名称を含むかどうかを判断するために、処理情報記憶部１０４２−１に記憶されている質問情報に含まれるキーワードのうち世界遺産の名称を示す部分と照合する。
【００７２】
図１０の上から第６行の特徴量Ｆ_{ＲＵ，ｈ１}は、対話履歴記憶部１０４６−１から読み出した音声認識情報であるＳＲＲ_ＲＵ，１が肯定発話情報を含むかどうかを示す特徴量である。ＳＲＲ_ＲＵ，１が肯定発話情報を含む場合、Ｆ_{ＲＵ，ｈ１}の値が１であり、ＳＲＲ_ＲＵ，１が肯定発話情報を含まない場合、Ｆ_{ＲＵ，ｈ１}の値が０である。特徴量生成部１０４１−１は、ＳＲＲ_ＲＵ，１が肯定発話情報を含むかどうかを判断するために、処理情報記憶部１０４２−１に記憶されている肯定発話情報と、ＳＲＲ_ＲＵ，１に含まれる単語情報を照合する。特徴量Ｆ_{ＲＵ，ｈ１}は、処理継続判定部１０４４−１において処理を継続するか否かを判定するために用いられるが、適合性推定部１０４３−１において確率値Ｐを算出するためには用いられない。
【００７３】
図１０の上から第７行の特徴量Ｆ_{ＲＵ，ｈ２}は、ＲＵエキスパート部１０４−１に遷移した後のターン数を示す特徴量である。ターン数とは、利用者による発話、対話制御装置１からの情報提示（提示情報の提示、応答情報の提示）の回数である。特徴量生成部１０４１−１は、対話履歴記憶部１０４６−１から対話履歴を読み出し、動作理解部１０３−１から起動信号を入力された時刻から後の読み出した対話履歴に含まれる質問情報、応答情報、肯定発話情報及び否定発話情報の総数を算出する。
【００７４】
図１０の上から第８行の特徴量Ｆ_{ＲＵ，ｈ３}は、ＲＵエキスパート部１０４−１に遷移した後の否定発話の回数を示す特徴量である。特徴量生成部１０４１−１は、対話履歴記憶部１０４６−１から対話履歴を読み出し、動作理解部１０３−１から起動信号を入力された時刻から後の読み出した対話履歴に含まれる否定発話情報の総数を算出する。
図１０の上から第９行の特徴量Ｆ_{ＲＵ，ｈ４}は、特徴量Ｆ_{ＲＵ，ｈ３}を特徴量Ｆ_{ＲＵ，ｈ２}で除算した特徴量である。
【００７５】
図１１は、本実施形態に係るＩＰエキスパート部１０４−３の特徴量情報の一例を示す表である。
図１１の最左列から右側へ順に、関連があるエキスパートクラス（種類）、特徴量、内容を示す。図１１の最左列においてエキスパートクラスがＩＰとは、ＩＰエキスパート部１０４−３の特徴量生成部１０４１−３のみが生成する特徴量情報を示す。
【００７６】
図１１の上から第２行の特徴量Ｆ_{ＩＰ，ｒ１０}は、ＳＲＲ_ＩＰ，１に含まれる単語情報と照合するキーワード情報を含む質問情報が処理情報記憶部１０４２−３にあるか否かを示す特徴量である。このような質問情報がある場合、Ｆ_{ＩＰ，ｒ１０}の値は１であり、このような質問情報がない場合、Ｆ_{ＩＰ，ｒ１０}の値は０である。
図１１の上から第３行の特徴量Ｆ_{ＩＰ，ｒ１１}は、質問情報に含まれるキーワードと照合する単語であって、ＳＲＲ_ＩＰ，ｊに含まれる単語情報における単語数を、ＳＲＲ_ＩＰ，ｊに含まれる単語数で除算した値を、全ての認識結果ｊにわたる総和をとり、さらに認識結果の個数で除算した値である。この質問情報とは、処理情報記憶部１０４２−３に記憶されている質問情報である。これは、特徴量Ｆ_{ＩＰ，ｒ１２}〜Ｆ_{ＩＰ，ｒ１６}においても同様である。
【００７７】
図１１の上から第４行の特徴量Ｆ_{ＩＰ，ｒ１２}は、質問情報に含まれるキーワードｋと照合する単語であって、ＳＲＲ_{ＩＰ，ａｌｌ}に含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードｋ間の最小値を示す。
図１１の上から第５行の特徴量Ｆ_{ＩＰ，ｒ１３}は、質問情報に含まれるキーワードｋと照合する単語であって、ＳＲＲ_{ＩＰ，ａｌｌ}に含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードｋ間の最大値を示す。
【００７８】
図１１の上から第６行の特徴量Ｆ_{ＩＰ，ｒ１４}は、質問情報に含まれるキーワードｋに照合する単語であって第１候補ＳＲＲ_ＩＰ，１に含まれる単語情報における単語に対応する単語信頼度のキーワードｋ間の平均値である。
図１１の上から第７行の特徴量Ｆ_{ＩＰ，ｒ１５}は、質問情報に含まれるキーワードｋに照合する単語であって第１候補ＳＲＲ_ＩＰ，１に含まれる単語情報における単語に対応する単語信頼度のキーワードｋ間の最小値である。
図１１の上から第８行の特徴量Ｆ_{ＩＰ，ｒ１６}は、質問情報に含まれるキーワードｋに照合する単語であって第１候補ＳＲＲ_ＩＰ，１に含まれる単語情報における単語に対応する単語信頼度のキーワードｋ間の最大値である。
図１１の上から第９行の特徴量Ｆ_{ＩＰ，ｈ１}は、ＩＰエキスパート部１０４−３が既出（即ち対話処理装置１が動作開始以降、予め設定された処理を行ったことがある）であるか否かを示す特徴量である。ＩＰエキスパート部１０４−３が既出である場合、特徴量Ｆ_{ＩＰ，ｈ１}は値１である。ＩＰエキスパート部１０４−３が既出でない場合、特徴量Ｆ_{ＩＰ，ｈ１}は値０である。ＩＰエキスパート部１０４−３が既出であるか否かを判断するために、特徴量生成部１０４１は対話履歴記憶部１０４６−３から読み出した対話履歴情報に質問情報等の発話パターン情報及び応答情報等の出力パターン情報が含まれているか否かを判断する。
【００７９】
図１２は、本実施形態に係るＱＡエキスパート部１０４−２の特徴量情報の一例を示す表である。
図１２の最左列から右側へ順に、関連があるエキスパートクラス（種類）、特徴量、内容を示す。図１２の最左列においてエキスパートクラスがＱＡとは、ＱＡエキスパート部１０４−２の特徴量生成部１０４１−２のみが生成する特徴量情報を示す。
【００８０】
図１２の上から第２行の特徴量Ｆ_{ＱＡ，ｒ１０}は、ＳＲＲ_ＱＡ，１に含まれる単語情報と照合するキーワード情報を含む質問情報が処理情報記憶部１０４２−２にあるか否かを示す特徴量である。このような質問情報がある場合、Ｆ_{ＱＡ，ｒ１０}の値が１であり、このような質問情報がない場合、Ｆ_{ＱＡ，ｒ１０}の値は０である。
図１２の上から第３行の特徴量Ｆ_{ＱＡ，ｒ１１}は、質問情報に含まれるキーワードと照合する単語であって、ＳＲＲ_ＱＡ，ｊに含まれる単語情報における単語数を、ＳＲＲ_ＱＡ，ｊに含まれる単語数で除算した値を、全ての認識結果ｊにわたる総和をとり、さらに認識結果の個数で除算した値である。この質問情報とは、処理情報記憶部１０４２−２に記憶されている質問情報である。これは、特徴量Ｆ_{ＱＡ，ｒ１２}〜Ｆ_{ＱＡ，ｒ１６}においても同様である。
【００８１】
図１２の上から第４行の特徴量Ｆ_{ＱＡ，ｒ１２}は、質問情報に含まれるキーワードｋと照合する単語であって、ＳＲＲ_{ＱＡ，ａｌｌ}に含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードｋ間の最小値を示す。
図１２の上から第５行の特徴量Ｆ_{ＱＡ，ｒ１３}は、質問情報に含まれるキーワードｋと照合する単語であって、ＳＲＲ_{ＱＡ，ａｌｌ}に含まれる単語情報における単語数の全認識候補内での個数を、認識結果の個数で除算した値であって、キーワードｋ間の最大値を示す。
【００８２】
図１２の上から第６行の特徴量Ｆ_{ＱＡ，ｒ１４}は、質問情報に含まれるキーワードｋに照合する単語であって第１候補ＳＲＲ_ＱＡ，１に含まれる単語情報における単語に対応する単語信頼度のキーワードｋ間の平均値である。
図１２の上から第７行の特徴量Ｆ_{ＱＡ，ｒ１５}は、質問情報に含まれるキーワードｋに照合する単語であって第１候補ＳＲＲ_ＱＡ，１に含まれる単語情報における単語に対応する単語信頼度のキーワードｋ間の最小値である。
図１２の上から第８行の特徴量Ｆ_{ＱＡ，ｒ１６}は、ＳＲＲ_ＩＰ，１に含まれる単語情報における単語が相槌情報であるか否かを示す特徴量である。ＳＲＲ_ＩＰ，１に含まれる単語情報における単語が相槌情報である場合、特徴量Ｆ_{ＱＡ，ｒ１６}の値は１である。ＳＲＲ_ＩＰ，１に含まれる単語情報における単語が相槌情報ではない場合、特徴量Ｆ_{ＱＡ，ｒ１６}の値は０である。特徴量生成部１０４１−２は、ＳＲＲ_ＩＰ，１に含まれる単語情報における単語が相槌情報であるかどうかを判断するために、処理情報記憶部１０４２−２に記憶されている相槌情報と、ＳＲＲ_ＩＰ，１に含まれる単語情報を照合する。
【００８３】
図１２の上から第９行の特徴量Ｆ_{ＱＡ，ｈ１}は、対話履歴記憶部１０４６−２から読み出した音声認識情報であるＳＲＲ_ＱＡ，１が肯定発話情報を含むかどうかを示す特徴量である。ＳＲＲ_ＱＡ，１が肯定発話情報を含む場合、Ｆ_{ＱＡ，ｈ１}の値は１であり、ＳＲＲ_ＱＡ，１が肯定発話情報を含まない場合、Ｆ_{ＱＡ，ｈ１}の値は０である。特徴量生成部１０４１−２は、ＳＲＲ_ＱＡ，１が肯定発話情報を含むかどうかを判断するために、処理情報記憶部１０４２−２に記憶されている肯定発話情報と、ＳＲＲ_ＱＡ，１に含まれる単語情報を照合する。特徴量Ｆ_{ＱＡ，ｈ１}は、処理継続判定部１０４４−２において処理を継続するか否かを判定するために用いられるが、適合性推定部１０４３−２において確率値Ｐを算出するためには用いられない。
【００８４】
図１２の上から第１０行の特徴量Ｆ_{ＱＡ，ｈ２}は、ＱＡエキスパート部１０４−２に遷移した後のターン数を示す特徴量である。ターン数とは、利用者が行う発話及び対話処理装置１からの応答の総数である。そこで、特徴量生成部１０４１−２は、対話履歴記憶部１０４６−２から対話履歴を読み出し、動作理解部１０３−２から起動信号を入力された時刻から後の読み出した対話履歴に含まれる質問情報、応答情報、肯定発話情報及び否定発話情報の総数を算出する。
【００８５】
図１２の上から第１１行の特徴量Ｆ_{ＱＡ，ｈ３}は、ＱＡエキスパート部１０４−２に遷移（予め設定された処理を開始）した後の否定発話の回数を示す特徴量である。特徴量生成部１０４１−２は、対話履歴記憶部１０４６−２から対話履歴を読み出し、動作理解部１０３−２から起動信号を入力された時刻から後の読み出した対話履歴に含まれる否定発話情報の総数を算出する。
図１２の上から第１２行の特徴量Ｆ_{ＱＡ，ｈ４}は、特徴量Ｆ_{ＱＡ，ｈ３}を特徴量Ｆ_{ＱＡ，ｈ２}で除算した特徴量である。
【００８６】
上述の特徴量を、各エキスパート部１０４−１〜１０４−３の適合性推定部１０４３−１〜１０４３−３は、確率値の算出に、処理継続判定部１０４４−１〜１０４４−３は、エキスパート部の処理を継続するか否かの判断に用いる。
具体的には、ＲＵエキスパート部１０４−１の適合性推定部１０４３−１は、特徴量Ｆ_{ＲＵ，ｒ１}−Ｆ_{ＲＵ，ｒ１３}、Ｆ_{ＲＵ，ｈ２}−Ｆ_{ＲＵ，ｈ４}を、式（１）の特徴量Ｆ_１−Ｆ_ｎに代入して確率値Ｐを算出する。処理継続判定部１０４４−１は、特徴量Ｆ_{ＲＵ，ｒ１}−Ｆ_{ＲＵ，ｒ１３}、Ｆ_{ＲＵ，ｈ１}−Ｆ_{ＲＵ，ｈ４}を、特徴量ベクトルＦの要素値として処理を継続するか否か判断する。
【００８７】
具体的には、ＩＰエキスパート部１０４−３の適合性推定部１０４３−３は、特徴量Ｆ_{ＩＰ，ｒ１}−Ｆ_{ＩＰ，ｒ１６}、Ｆ_{ＩＰ，ｈ１}を、式（１）の特徴量Ｆ_１−Ｆ_ｎに代入して確率値Ｐ（適合）を算出する。処理継続判定部１０４４−３は、特徴量Ｆ_{ＩＰ，ｒ１}−Ｆ_{ＩＰ，ｒ１６}、Ｆ_{ＩＰ，ｈ１}を、特徴量ベクトルＦの要素値として処理を継続するか否か判断する。
具体的には、ＱＡエキスパート部１０４−２の適合性推定部１０４３−２は、特徴量Ｆ_{ＱＡ，ｒ１}−Ｆ_{ＱＡ，ｒ１６}、Ｆ_{ＱＡ，ｈ２}−Ｆ_{ＱＡ，ｈ４}を、式（１）の特徴量Ｆ_１−Ｆ_ｎに代入して確率値Ｐを算出する。処理継続判定部１０４４−２は、特徴量Ｆ_{ＱＡ，ｒ１}−Ｆ_{ＱＡ，ｒ１６}、Ｆ_{ＱＡ，ｈ１}−Ｆ_{ＱＡ，ｈ４}を、特徴量ベクトルＦの要素値として処理を継続するか否か判断する。
【００８８】
なお、上述の特徴量を全て確率値の算出又は、エキスパート部の処理を継続するか否かの判断に用いると、演算量が過大になるうえ、各特徴量に乗算する係数を事前学習する際に過学習（ｏｖｅｒｆｉｔｔｉｎｇ）が生じ、却って推定精度や判断精度が低下するおそれがある。そこで、上述の特徴量のうち確率値、又は処理継続・非継続の判断に寄与する一部の特徴量のみを用い、確率値、又は処理継続・非継続の判断に寄与しないものを用いなくともよい。次に、その一部の特徴量情報の例について説明する。
【００８９】
図１３は、本実施形態に係るＲＵエキスパート部１０４−１が用いる特徴量情報の一例を示す表である。
図１３の最上行は、最左列から右側へ順に、特徴量、適合性推定、継続・非継続判定を示す。図１３の最左列の第２行以降の行は、ＲＵエキスパート部１０４−１が用いる特徴量の候補としてＦ_{ＲＵ，ｒ１}，．．．Ｆ_{ＲＵ，ｒ１３}，Ｆ_{ＲＵ，ｈ１}，．．．，Ｆ_{ＲＵ，ｈ４}，Ｆ_ａを示す。ここで、特徴量Ｆ_ａとは、（具体的には動作処理部１０４５が）予め設定した処理を行わないエキスパート部１０４が推定した適合性情報（確率値Ｐ）の最大値を示す。
図１３において、−印は該当する情報がないことを示す。図１３の左から第２列において、○は適合性推定に用いる特徴量であることを示す。図１３の左から第３列において、○は継続・非継続判断に用いる特徴量であることを示す。
即ち、図１３は、適合性推定部１０４３−１は、適合性情報（確率値Ｐ）を算出する際に特徴量Ｆ_{ＲＵ，ｒ２}，．．．Ｆ_{ＲＵ，ｒ６}，Ｆ_{ＲＵ，ｒ８}，Ｆ_{ＲＵ，ｒ１３}を用いることを示す。従って、特徴量生成部１０４１は、これらの特徴量情報を生成し、生成した特徴量情報を適合性推定部１０４３に出力する。
また、図１３は、処理継続判定部１０４４−１は、処理の継続・非継続を判定する際に特徴量Ｆ_{ＲＵ，ｒ１}，Ｆ_{ＲＵ，ｒ２}，Ｆ_{ＲＵ，ｒ４}，Ｆ_{ＲＵ，ｒ５}，Ｆ_{ＲＵ，ｈ１}，Ｆ_{ＲＵ，ｈ２}，Ｆ_ａを用いることを示す。従って、特徴量生成部１０４１−１は、特徴量Ｆ_{ＲＵ，ｒ１}，Ｆ_{ＲＵ，ｒ２}，Ｆ_{ＲＵ，ｒ４}，Ｆ_{ＲＵ，ｒ５}，Ｆ_{ＲＵ，ｈ１}，Ｆ_{ＲＵ，ｈ２}を表す特徴量情報を生成し、生成した特徴量情報を処理継続判定部１０４４−１に出力する。
【００９０】
図１４は、本実施形態に係るＩＰエキスパート部１０４−３が用いる特徴量情報の一例を示す表である。
図１４の最上行は、最左列から右側へ順に、特徴量、適合性推定、継続・非継続判定を示す。図１４の最左列の第２行以降の行は、ＩＰエキスパート部１０４−３が用いる特徴量の候補としてＦ_{ＩＰ，ｒ１}，．．．Ｆ_{ＩＰ，ｒ１６}，Ｆ_{ＩＰ，ｈ１}，Ｆ_ａを示す。
図１４において、−印は該当する情報がないことを示す。図１４の左から第２列において、○は適合性推定に用いる特徴量であることを示す。図１４の左から第３列において、○は継続非継続判定に用いる特徴量であることを示す。
即ち、図１４は、適合性推定部１０４３−３は、適合性情報（確率値Ｐ）を算出する際に特徴量Ｆ_{ＩＰ，ｒ２}，Ｆ_{ＩＰ，ｒ４}，Ｆ_{ＩＰ，ｒ６}，．．．Ｆ_{ＩＰ，ｒ１０}，Ｆ_{ＩＰ，ｒ１２}，．．．Ｆ_{ＩＰ，ｒ１４}を用いることを示す。従って、特徴量生成部１０４１−１は、これらの特徴量情報を生成し、生成した特徴量情報を適合性推定部１０４３−３に出力する。
また、図１４は、処理継続判定部１０４４−３は、処理の継続・非継続を判定する際に特徴量Ｆ_{ＩＰ，ｒ１}，．．．Ｆ_{ＩＰ，ｒ８}，Ｆ_ａを用いることを示す。従って、特徴量生成部１０４１−３は、特徴量Ｆ_{ＩＰ，ｒ１}，．．．Ｆ_{ＩＰ，ｒ８}を表す特徴量情報を生成し、生成した特徴量情報を処理継続判定部１０４４−３に出力する。
【００９１】
図１５は、本実施形態に係るＱＡエキスパート部１０４−２が用いる特徴量情報の一例を示す表である。
図１５の最上行は、最左列から右側へ順に、特徴量、適合性推定、継続・非継続判定を示す。図１５の最左列の第２行以降の行は、ＱＡエキスパート部１０４−２が用いる特徴量の候補としてＦ_{ＱＡ，ｒ１}，．．．Ｆ_{ＱＡ，ｒ１６}，Ｆ_{ＱＡ，ｈ１}，．．．Ｆ_{ＱＡ，ｈ４}，Ｆ_ａを示す。
図１５において、−印は該当する情報がないことを示す。図１５の左から第２列において、○は適合性推定に用いる特徴量であることを示す。図１５の左から第３列において、○は継続・非継続判定に用いる特徴量であることを示す。
即ち、図１５は、適合性推定部１０４３−２は、適合性情報（確率値Ｐ）を算出する際に特徴量Ｆ_{ＱＡ，ｒ２}，．．．Ｆ_{ＱＡ，ｒ４}，Ｆ_{ＱＡ，ｒ６}，．．．Ｆ_{ＱＡ，ｒ８}，Ｆ_{ＱＡ，ｒ１０}，Ｆ_{ＱＡ，ｒ１３}，．．．Ｆ_{ＱＡ，ｒ１５}を用いることを示す。従って、特徴量生成部１０４１−２は、これらの特徴量情報を生成し、生成した特徴量情報を適合性推定部１０４３−２に出力する。
また、図１５は、処理継続判定部１０４４−２は、処理の継続・非継続を判定する際に特徴量Ｆ_{ＱＡ，ｒ１}，．．．Ｆ_{ＱＡ，ｒ６}，Ｆ_{ＱＡ，ｈ１}，Ｆ_ａを用いることを示す。従って、特徴量生成部１０４１−２は、特徴量Ｆ_{ＱＡ，ｒ１}，．．．Ｆ_{ＱＡ，ｒ６}，Ｆ_{ＱＡ，ｈ１}を表す特徴量情報を生成し、生成した特徴量情報を処理継続判定部１０４４−２に出力する。
【００９２】
なお、本実施形態では、動作理解部１０３は、予め設定された処理を行わないエキスパート部１０４から入力され確率値Ｐのうち最大値を特徴量Ｆ_ａとして選択し、選択した特徴量Ｆ_ａを予め設定された処理を行うエキスパート部１０４の処理継続判定部１０４４に出力する。処理継続判定部１０４４は、動作理解部１０３から特徴量Ｆ_ａから入力されるようにする。これにより、処理継続判定部１０４４は音声認識結果に対するエキスパート部の適合性を考慮して、当該エキスパート部１０４が実行している処理の継続・非継続の判断を行うことができる。
【００９３】
なお、適合性推定や継続・非継続判定に用いる特徴量を選択するために、本実施形態について事前検証を行っておく。この検証では、特徴量の候補の中から、特徴量を１個除外して各エキスパート部が正しく選択されるかを適合性推定、処理の継続・非継続の判断の各々について調べる。除外対象の特徴量を変更して検証を繰り返す。そして、除外対象の特徴量毎について性能の指標値であるＦ値を求めた。次に、Ｆ値が最も高くなる除外対象の特徴量を特徴量の候補から削除して検証を繰り返す。但し、特徴量の候補の中から、どの特徴量を除外してもＦ値がこれ以上高くならなったときに検証を終了する。検証が終了して残った特徴量の候補の一例が、図１３〜１５に示す特徴量である。この残った特徴量の候補が、適合性推定又は継続・非継続判定に用いる特徴量として選択される。
【００９４】
Ｆ値とは、適合率（ｐｒｅｃｉｓｉｏｎ）と再現率（ｒｅｃａｌｌ）の調和平均、つまり適合率と再現率の積を、適合率と再現率の相加平均で除算した値である。適合率とは選択された情報の数の選択対象の情報の数に対する割合であり、本実施形態では、エキスパート部１０４毎の選択された回数の試行回数に対する割合である。再現率とは選択された情報の数の正解情報の数に対する割合であり、本実施形態では、エキスパート部１０４毎の選択された回数の正解として選択されるべき試行回数に対する割合である。一般に適合率が増加すると再現率が低下する関係にあるが、Ｆ値が高いほどエキスパート部１０４を選択する精度が高いことを表す。
【００９５】
なお、図１に示す対話処理装置１は、ＩＰエキスパート部１０４−３を１個備えるが、本実施形態では、これには限られない。本実施形態では対話処理装置１は、各々異なる質問情報、応答情報、提示情報のセットを記憶しているＩＰエキスパート部１０４−３を複数個備えてもよい。
【００９６】
なお、図１に示す対話処理装置１では、動作理解部１０３が、現在処理を行っているエキスパート部から処理を継続するか否かを示す処理継続信号を入力され、現在処理を行っていないエキスパート部から適合度情報を入力される。各エキスパート部は音声認識情報に基づいて特徴量情報を生成する。現在予め設定された処理を行っているエキスパート部は、生成した特徴量情報に基づき処理継続信号を生成する。現在予め設定された処理を行っていないエキスパート部は、生成した特徴量情報に基づき適合度情報を生成する。
しかし、本実施形態ではこれには限られず、動作理解部１０３は、各エキスパート部１０４−１〜１０４−３から音声認識情報に基づいて生成した特徴量情報を入力されるようにしてもよい。このとき、動作理解部１０３は、処理継続判定部１０４４と同様に現在予め設定された処理を行っているエキスパート部から入力された特徴量情報に基づき処理継続信号を生成し、適合性推定部１０４３と同様に現在予め設定された処理を行っていないエキスパート部から入力された特徴量情報に基づき適合性情報を生成する。この場合、各エキスパート部１０４−１〜１０４−３は、適合性推定部１０４３と処理継続判定部１０４４を省略してもよい。
【００９７】
次に、対話処理装置１が出力する発話と利用者の発話からなる対話の一例について説明する。
図１６は、本実施形態に係る対話処理装置１による対話の一例を示す表である。
図１６は、最左列から右側へ順に、発話主体、発話（動作）、選択エキスパートを示す。選択エキスパートとは、予め設定された処理を行うエキスパート部１０４として動作理解部１０３が選択したエキスパート部１０４である。
図１６の第２行は、対話処理装置１が、利用者に対して「こんにちは、イタリア、ギリシャと他の地域の有名な世界遺産についての質問にお答えします。また、いくつかの世界遺産について詳しく説明できます。何でも聞いてみて下さい。」という音声を提示することを示す。これにより、対話処理装置１は利用者に対して問合せを促す。図１６の第２行は、この選択エキスパートがＱＡエキスパート部１０４−１であることを示す。
図１６の第３行は、対話処理装置１が上述の音声を受けて利用者が発話した「イタリアの世界遺産のリストを見せて下さい。」を示す音声を認識し、対話処理装置１はイタリアの世界遺産のリストを画像で表示することを示す。図１６の第３行は、この選択エキスパートがＱＡエキスパート部１０４−１であることを示す。
【００９８】
図１６の第４行は、対話処理装置１が、利用者に対して「イタリアの世界遺産を地域別に紹介します。どの地域のリストを見たいかおっしゃって下さい。」という音声を提示することを示す。これにより、対話処理装置１は利用者に対して紹介する地域について音声で指示することを促す。図１６の第４行は、この選択エキスパートがＱＡエキスパート部１０４−１であることを示す。
図１６の第５行は、対話処理装置１が上述の音声を受けて利用者が発話した「他に何が聞けますか？」、を示す音声を認識し、対話処理装置１はイタリアの世界遺産のリストを画像で表示することを示す。図１６の第５行は、この選択エキスパートがＱＡエキスパート部１０４−１であることを示す。
【００９９】
図１６の第６行は、対話処理装置１が利用者に対して「イタリア、ギリシャの世界遺産と、他の著名な世界遺産に関して質問にお答えします。」という音声を提示することを示し、世界遺産のリストを画像情報として提示する。
これにより、対話処理装置１は世界遺産に関する質問を利用者に対して促す。図１６の第６行は、この選択エキスパートがＱＡエキスパート部１０４−１であることを示す。
【０１００】
図１６の第７行は、対話処理装置１が、利用者が発話した「グリニッジについて教えてください。」という音声を認識し、ＲＵエキスパート部１０４−１が処理を開始したことを示す。
図１６の第８行は、対話処理装置１が「海事都市グリニッジの説明ですね？」という音声を提示し、利用者に認識した情報の確認を促す。図１６の第８行は、この処理に係るエキスパート部がＲＵエキスパート部１０４−１であることを示す。
図１６の第９行は、対話処理装置１が、利用者が発話した「はい」という音声を認識し、認識した情報が肯定応答情報であることを認識する。図１６の第９行は、この選択エキスパートがＲＵエキスパート部１０４−１であることを示す。
【０１０１】
図１６の第１０行は、対話処理装置１が「はい、海事都市グリニッジの案内をします。グリニッジ標準時の基準となる都市として由緒ある港町です。」という音声を提示し、提示する情報の概要を示す。図１６の第１０行は、この選択エキスパートがＩＰエキスパート部１０４−３であることを示す。
図１６の第１１行は、対話処理装置１が、利用者が発話した「グリニッジ標準時ってなんですか？」という音声を認識することを示す。図１６の第１１行は、この選択エキスパートが１０４−３であることを示す。
図１６の第１２行は、対話処理装置１が「グリニッジ天文台での平均太陽時です。」という音声を、利用者の発話に対する応答情報として提示することを示す。図１６の第１２行は、この選択エキスパートがＩＰエキスパート部１０４−３であることを示す。
【０１０２】
次に、本実施形態に係る対話処理装置１の検証結果として選択エキスパートの選択精度について説明する。なお、検証において、ＩＰエキスパート部１０４−３を８個備える対話処理装置１を用いた。
図１７は、本実施形態に係る対話処理装置１が選択したエキスパート部１０４の回数の一例を示す表である。
図１７の各列は、対話処理装置１が選択したエキスパート部１０４（選択エキスパート）を示す。図１７の各行は、正解として既知のエキスパート部１０４（正解エキスパート）を示す。選択エキスパート、正解エキスパートの種類は、それぞれＲＵエキスパート部１０４−１を１種類（ＲＵ）、ＱＡエキスパート部１０４−２を１種類（ＱＡ）、ＩＰエキスパート部１０４−３を８種類（ＩＰ１〜ＩＰ８）、計１０種類である。ＩＰ１〜ＩＰ８は、各々異なる処理情報（質問情報、応答情報、提示情報）を記憶し出力する。図１７の第３〜１２行、第３〜１２列の各欄は、その行の正解エキスパートに対してその列の選択エキスパートと選択した回数を示す。図１７の第１３列は、全選択エキスパートにわたる正解エキスパート毎の回数の合計値（試行回数）を示す。図１７の第１３行は、全正解エキスパートにわたる選択エキスパート毎の選択された回数の合計値を示す。従って、図１７の第３〜１２行の各対角要素は、エキスパート部毎の正しく選択された回数を示す。
【０１０３】
図１７が示すように、ＲＵについては、２３４回中１６２回が正解である。ＱＡについては、１０２５回中９４１回が正解である。ＩＰ１については、１２回中８回が正解である。ＩＰ２については、２２回中１８回が正解である。ＩＰ３については、７２回中５２回が正解である。ＩＰ４については、８０回中６１回が正解である。ＩＰ５については、２９回中２６回が正解である。ＩＰ６については、３５回中２４回が正解である。ＩＰ７については、５７回中４３回が正解である。ＩＰ８については、１７回中１２回が正解である。従って、全エキスパート部１０４にわたる正答率は８５．０９％である。
【０１０４】
比較として、従来技術を用いた場合のエキスパート部１０４の選択精度について説明する。選択対象となるエキスパート部１０４の個数及び種類は、上述と同様である。ここでは、エキスパート部１０４毎に異なる言語モデルを用いて音声認識してスコア値を算出する。また、直前のエキスパート部と同一のエキスパート部について予め定めた値を算出したスコア値に加算して、直前のエキスパート部を優先して選択する（参考文献：Ｂ．Ｌｉｎ，Ｈ．Ｗａｎｇ，ａｎｄＬ．Ｌｅｅ．Ａｄｉｓｔｒｉｂｕｔｅｄａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｃｏｏｐｅｒａｔｉｖｅｓｐｏｋｅｎｄｉａｌｏｇｕｅａｇｅｎｔｓｗｉｔｈｃｏｈｅｒｅｎｔｄｉａｌｏｇｕｅｓｔａｔｅａｎｄｈｉｓｔｏｒｙ．ｎＰｒｏｃ．ＡＳＲＵ−９９，１９９９）。
【０１０５】
図１８は、従来技術によって選択したエキスパート部１０４の回数の一例を示す表である。
図１８において、用いたエキスパート部の個数及び種類、試行回数、各行各列の配列は、図１７が示す結果と同様である。
図１８によれば、ＲＵについては、２３４回中１２８回が正解である。ＱＡについては、１０２５回中９５１回が正解である。ＩＰ１については、１２回中４回が正解である。ＩＰ２については、２２回中７回が正解である。ＩＰ３については、７２回中２１回が正解である。ＩＰ４については、８０回中１９回が正解である。ＩＰ５については、２９回中１２回が正解である。ＩＰ６については、３５回中９回が正解である。ＩＰ７については、５７回中１５回が正解である。ＩＰ８については、１７回中１回が正解である。従って、全エキスパート部１０４にわたる正答率は７３．７２％である。これより本実施形態では全エキスパート部１０４にわたる正答率が１１．３７％向上している。
【０１０６】
このように、本実施形態では、予め定めた処理を行う機能を有する複数のエキスパート部を備え、入力した音声を認識し、複数のエキスパート部のうち前記処理を行うエキスパート部が、前記認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行うエキスパート部が前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々が、前記認識した認識結果に基づいて適合性を推定し、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する。これにより、処理を行っているエキスパート部の処理を継続するか否か考慮されるため、利用者の発話に適したエキスパート部を選択することができる。
【０１０７】
また、本実施形態では、さらに推定した適合性に基づいて前記処理を行うエキスパート部の処理を継続するか否かを判定する。これにより、本実施形態に係る対話処理装置は現在処理を行っていないエキスパート部が利用者の発話に適したエキスパート部である可能性を考慮して、利用者の発話に適したエキスパート部を選択することができる。
【０１０８】
また、本実施形態では、前記複数エキスパート部の各々は、利用者が行う質問内容を表す発話情報と、前記質問内容に対する出力情報を対応付けて記憶した処理情報記憶部を備え、前記処理は、前記音声認識部が認識した認識結果に対応する発話情報の一部が照合する発話情報に対応する出力情報を選択する。これにより、さらに利用者の発話に適した出力情報を出力するエキスパート部を選択することができる。
【０１０９】
また、本実施形態では、前記複数のエキスパート部において前記処理情報記憶部に記憶された前記発話情報及び出力情報が各々異なることを特徴とする。これにより、さらに利用者の発話と、発話に対する応答が異なるエキスパート部の中から、利用者の発話に適したエキスパート部を選択することができる。
【０１１０】
なお、上述した実施形態における対話処理装置１の一部、例えば、特徴量算出部１０２１、音素決定部１０２３、単語決定部１０２６、動作理解部１０３、特徴量生成部１０４１、適合性推定部１０４３、処理継続判定部１０４４、動作処理部１０４５、タスク計画部１０６、及び情報出力部１０７をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。
【０１１１】
また、対話処理装置１が備えるエキスパート部１０４のうち少なくとも１つは、対話処理装置１が備える他の機能部、例えば、特徴量算出部１０２１、音素決定部１０２３、単語決定部１０２６、動作理解部１０３、タスク計画部１０６、及び情報出力部１０７を実現する、別個のコンピュータシステムを備え、そのコンピュータシステムを用いて実現されるものであっても良い。その場合、対話処理装置１を実現するプログラムとは別個のプログラムを用いて実現する。
対話処理装置１が備える他の機能部、例えば、特徴量算出部１０２１、音素決定部１０２３、単語決定部１０２６、動作理解部１０３タスク計画部１０６、及び情報出力部１０７を実現する、別個のコンピュータシステムを備え、そのコンピュータシステムを用いて実現されるものであってもよい。その場合、対話処理装置１を実現するプログラムとは別個のプログラムを用いて実現する。
【０１１２】
また、対話処理装置１が備えるエキスパート部１０４のうち少なくとも１つは、音声認識部を備え、その音声認識部が備える音響モデル部はエキスパート部１０４毎に異なる音響モデルを記憶しても良い。また、その音声認識部が備える言語モデル部はエキスパート部１０４毎に異なる言語モデルを記憶しても良い。その場合、対話処理装置１は、音声入力部１０１は動作理解部１０３に音響信号を出力する。動作理解部１０３は、音声入力部１０１から入力された音響信号を音声認識情報の代わりに、音声認識部を備えるエキスパート部１０４に出力する。そのエキスパート部１０４は、動作理解部１０３から入力された音響信号に基づいて音声認識情報を生成するようにする。対話処理装置１が備えるエキスパート部の全てが音声認識部を備える場合、音声認識部１０２を省略しても良い。
【０１１３】
なお、ここでいう「コンピュータシステム」とは、対話処理装置１に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における対話処理装置１の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。対話処理装置１の各機能ブロックは個別にプロセッサ化しても良いし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
【０１１４】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【０１１５】
１…対話処理装置、１０１…音声入力部、１０２…音声認識部、
１０２１…特徴量算出部、１０２２…音響モデル記憶部、１０２３…音素決定部、
１０２４…単語情報記憶部、１０２５…言語モデル記憶部、１０２６…単語決定部、
１０３…動作理解部、１０４（１０４−１〜１０４−３）エキスパート部、
１０４−１…ＲＵエキスパート部、１０４−２…ＱＡエキスパート部、
１０４−３…ＩＰエキスパート部、
１０４１（１０４１−１〜１０４１−３）…特徴量生成部、
１０４２（１０４２−１〜１０４２−３）…処理情報記憶部、
１０４３（１０４３−１〜１０４３−３）…適合性推定部、
１０４４（１０４４−１〜１０４４−３）…処理継続判定部、
１０４５（１０４５−１〜１０４５−３）…動作処理部、
１０４６（１０４６−１〜１０４６−３）…対話履歴記憶部、
１０６…タスク計画部、１０７…情報出力部、１０８…情報提示部

【特許請求の範囲】
【請求項１】
音声を入力する音声入力部と、
前記音声入力部が入力した音声を認識する音声認識部と、
予め定めた処理を行うエキスパート部であって、前記処理を行う場合、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、前記処理を行わない場合、前記音声認識部が認識した認識結果に基づいて適合性を推定する複数のエキスパート部と、
前記複数のエキスパート部のうち、前記処理を行う場合、前記処理を継続しないと判断したエキスパート部があるとき、前記複数のエキスパート部のうち前記処理を行わない場合に推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部と、
を備えることを特徴とする対話処理装置。
【請求項２】
音声を入力する音声入力部と、
前記音声入力部が入力した音声を認識する音声認識部と、
予め定めた処理を行う機能を備える複数のエキスパート部のうち前記処理を行うエキスパート部について、前記音声認識部が認識した認識結果に基づいて前記処理を継続するか否かを判定し、
前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記音声認識部が認識した認識結果に基づいて適合性を推定し、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する動作理解部と、
を備えることを特徴とする対話処理装置。
【請求項３】
前記動作理解部は、前記推定した適合性に基づいて前記処理を継続するか否かを判定すること
を特徴とする請求項１又は２に記載の対話処理装置。
【請求項４】
前記複数のエキスパート部の各々は、
利用者が行う質問内容を表す発話情報と、前記質問内容に対する出力情報を対応付けて記憶した処理情報記憶部を備え、
前記処理は、前記音声認識部が認識した認識結果に対応する発話情報の一部が照合する発話情報に対応する出力情報を選択すること
を特徴とする請求項１ないし３のいずれか１項に記載の対話処理装置。
【請求項５】
前記複数のエキスパート部において
前記処理情報記憶部に記憶された前記発話情報及び出力情報が各々異なること
を特徴とする請求項４に記載の対話処理装置。
【請求項６】
予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置における対話処理方法において、
前記対話処理装置が、入力した音声を認識する第１の過程と、
前記複数のエキスパート部のうち前記処理を行うエキスパート部が、前記認識した認識結果に基づいて前記処理を継続するか否かを判定する第２の過程と、
前記処理を行うエキスパート部が前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々が、前記認識した認識結果に基づいて適合性を推定する第３の過程と、
前記対話処理装置が、前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する第４の過程とを有すること、
を特徴とする対話処理方法。
【請求項７】
予め定めた処理を行う機能を有する複数のエキスパート部を備える対話処理装置のコンピュータに、
入力した音声を認識する手順、
前記複数のエキスパート部のうち前記処理を行うエキスパート部について、前記認識した認識結果に基づいて処理を継続するか否かを判定する手順、
前記処理を継続しないと判断した場合、前記複数のエキスパート部のうち前記処理を行わないエキスパート部の各々について、前記認識した認識結果に基づいて適合性を推定する手順、
前記推定した適合性に基づいて前記処理を行うエキスパート部を選択する手順、
を実行させるための対話処理プログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【公開番号】特開２０１２−４２９５２（Ｐ２０１２−４２９５２Ａ）
【公開日】平成２４年３月１日（２０１２．３．１）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声認識処理中の手順，例．マン・マシン対話 (884)
    - 音声の合成；テキストを音声に変換するシステム (2,199)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 計算機で処理しうる形式にデータを変換するための入力装置；処理ユ... (73,920)
      - 音声入力；音声出力 (1,364)

【出願番号】特願２０１１−１７５３９５（Ｐ２０１１−１７５３９５）
【出願日】平成２３年８月１０日（２０１１．８．１０）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　一般社団法人　情報処理学会、研究報告音声言語情報処理、２０１１−ＳＬＰ−８６、１２、２０１１年５月９日　社団法人　人工知能学会、２０１１年度人工知能学会全国大会（第２５回）予稿集、３Ｃ２−ＯＳ１９−１、２０１１年６月１日
【出願人】（０００００５３２６）本田技研工業株式会社 (23,863)
【Ｆターム（参考）】

音声認識 (5,191)
- 目的、機能 (1,020)
  - 連続音声の認識 (112)
- 他機器との結合 (1,170)
  - 音声合成装置との結合 (119)

[ Back to top ]

対話処理装置、対話処理方法、及び対話処理プログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

対話処理装置、対話処理方法、及び対話処理プログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク