情報処理システム、処理方法及びプログラム

【課題】ユーザ間のコミュニケーションを円滑に行うための情報処理システム、処理方法及びプログラムを提供すること。
【解決手段】ユーザ間のコミュニケーションを円滑に行うための情報処理システムであり、第一の話者から第二の話者へのコミュニケーションの処理を行う情報処理システムであって、第二の話者の特徴を抽出する第二の話者特徴抽出手段と、第二の話者の特徴に基づいて、第一の話者からの入力データを処理するコミュニケーション処理手段とを有することを特徴とする情報処理システムである。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ユーザ間のコミュニケーションを円滑に行うための情報処理システム、処理方法及びプログラムに関する。
【背景技術】
【０００２】
人間と機械または機械を介した人間と人間のコミュニケーションシステムは異なるユーザであっても出力が円滑に対応できるように、様々なシステムが提案されている。
【０００３】
例えば、音声認識の分野では、話者の顔画像の特徴を用いた音声認識システムが提案されている（特許文献１参照）。
【０００４】
この特許文献１に記載された音声認識システムは、図30に示すように、音声認識入力部と映像信号入力部と、不特定話者音声認識部と、特定話者音声認識部と、画像処理部と、認識結果統合部とで構成される。画像処理部は、顔領域抽出部と、顔画像データベースと、画像比較部とから構成される。特定話者音声認識部は、音声処理部と、音声データベースと、音声認識処理部とから構成されている。
【０００５】
このシステムでは、発話者の顔画像の特徴を用いて話者を特定し、複数の特定話者の入力に対しても、高い認識率を実現することができる音声認識方式を提供している。
【０００６】
また、文章の送り手と受け手の待遇関係を利用し、文章から合成音声を出力する情報処理方法が提案されている（特許文献２参照）。
【０００７】
この特許文献２に記載された情報処理方法は、図31に示すように、メールボックスとコマンド入力部と、操作管理部と、電子メール管理部と、文章読み上げ部と、音声送信部と、文章解析部と、文章生成部と、待遇判定部と、意味表現要約部とで構成される。
【０００８】
このシステムにおける待遇関係の判定は、予め記憶されている送り手と受け手のプロファイル情報を利用して行う。
【０００９】
また、ユーザのタイプを識別して音声認識、対話制御及び音声合成を選定する音声応答装置が発明されている（特許文献３参照）
この特許文献３に記載された音声応答装置は、図32に示すように、ユーザのタイプ識別手段と、音声認識手段と、対話制御手段と、データベースと、音声合成手段とから構成される。
【００１０】
このシステムでは、一人のユーザに対してユーザのタイプを識別し、その識別情報を用いて音声認識、対話制御及び音声合成を行い、そのユーザに適した応答音声を出力する。
【特許文献１】特開平11-282492号公報
【特許文献２】特開平10-149361号公報
【特許文献３】特開2004-163541号公報
【発明の開示】
【発明が解決しようとする課題】
【００１１】
しかしながら、前記特許文献に記載された技術の第一の問題点は、第一の話者からの入力に対し、第二の話者の特徴に適した音声認識、テキスト変換又は機械翻訳、音声合成等のコミュニケーション処理は行えないことである。
【００１２】
その理由は、まず、前記特許文献1及び文献3においては、第二の話者の個人属性を獲得する手段を設けていないためである。
【００１３】
また、前記の特許文献2において、文章の送り手と受け手のプロファイルからユーザの個人属性を獲得することになっているため、第二の話者のプロファイルが予め与えられていない場合には、第二の話者の特徴が獲得できなくなるためである。
【００１４】
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、ユーザ間のコミュニケーションを円滑に行うための情報処理システム、処理方法及びプログラムを提供することにある。
【課題を解決するための手段】
【００１５】
上記目的を達成する本発明は、第一の話者から第二の話者へのコミュニケーションの処理を行う情報処理システムであって、前記第二の話者の特徴を抽出する第二の話者特徴抽出手段と、前記第二の話者の特徴に基づいて、第一の話者からの入力データの最適化処理を行うコミュニケーション処理手段とを有することを特徴とする情報処理システムである。
【００１６】
また、上記目的を達成する本発明は、第一の話者から第二の話者へのコミュニケーションの処理を行う処理方法であって、前記第二の話者の特徴を抽出する第一の話者特徴抽出処理と、前記第二の話者の特徴に基づいて、第一の話者からの入力データのコミュニケーション処理を行うコミュニケーション処理とを有することを特徴とする処理方法である。
【００１７】
また、上記目的を達成する本発明は、第一の話者から第二の話者へのコミュニケーションの処理を実行する情報処理システムのプログラムであって、前記第二の話者の特徴を抽出する第一の話者特徴抽出処理と、前記第二の話者の特徴に基づいて、第一の話者からの入力データの最適化処理を行うコミュニケーション処理とを情報処理システムに実行させるプログラムである。
【発明の効果】
【００１８】
本発明によれば、種々の属性を持つ話者の発話に対して、第二の話者のプロファイルを予め用意しなくても、第二の話者の話者特徴を第一の話者から第二話者への音声認識、テキスト変換又は機械翻訳、音声合成等のコミュニケーション処理を行うことができることにある。
【発明を実施するための最良の形態】
【００１９】
＜第１の実施の形態＞
第１の実施の形態を説明する。
【００２０】
第１の実施の形態は、音声やテキスト等によるコミュニケーションを発する第一の話者と、そのコミュニケーションを受ける側の第二の話者との間の翻訳、音声合成等のコミュニケーション処理を図るシステムにおいて、第二の話者の特徴量を抽出する第二の話者特徴抽出手段を設けて第二の話者の個人属性をリアルタイム的に抽出する。そして、第二の話者の特徴抽出手段により抽出された第二の話者の話者属性と辞書・モデルデータベースに格納されたモデル群の各モデルが持つ属性との類似度を算出し、類似度が最大となるものを選び出し、第一の話者の音声、テキスト等に対して、第二の話者に適した音声認識、テキスト変換又は機械翻訳、音声合成等のコミュニケーション処理を行うものである。
【００２１】
また、第１の実施の形態におけるコミュニケーション処理システムにおける辞書・モデルデータベースに格納された辞書・モデルは、音声認識用辞書・モデル、機械翻訳用辞書・モデル、テキスト変換用辞書・モデル、音声合成用辞書・モデル等の各種の辞書・モデルを、第二の話者の特徴に基づいて予め構築する。例えば、音声認識用言語モデルの構築では、第一の話者から第二の話者への発話タイプを、「老人男性への発話」タイプと、「老人女性への発話」タイプと、「壮年男性への発話」タイプと、「壮年女性への発話」タイプと、「青年男性への発話」タイプと、「青年女性への発話」タイプと、「若年男性への発話」タイプと、「若年女性への発話」タイプと、「子供男性への発話」タイプと、「子供女性への発話」タイプに分類して音声認識用言語モデルを構築することができる。同様に、第二の話者の特徴に基づく機械翻訳用辞書・モデル、テキスト変換用辞書・モデル、音声合成用辞書・モデル等を予め構築して辞書・モデルデータベースに格納しておく。
【００２２】
また、コミュニケーション処理として第一の話者の音声認識を行う場合にも、抽出された第二の話者の特徴を用いることにより、辞書・モデルデータベースから、適切な第一の話者の音声認識用の音声認識用辞書・モデルを選択することができる。例えば、第二の話者特徴抽出手段により抽出した第二の話者の特徴が「子供、女性」の時、第一話者からの発話に対する音声認識用言語モデルの選択は、「子供、女性」の属性情報を用いて、音声認識用辞書・モデルデータベースから、第１の話者が「子供、女性」に話しかける時に用いられる「子供、女性」の音声認識用言語モデルを選択することができる。具体的には、第二の話者の話者属性情報（子供、女性）と、辞書・モデルデータベースに格納されている各種の音声認識用辞書・モデルが持つ属性情報との類似度を算出して、類似度が最大となるものを選択する。このようにして、「子供、女性」の属性を持つ音声認識用言語モデルを選択して、第一の話者の音声認識を行うことが可能となる。同様に、第二の話者が他の属性を持つ話者であっても、その話者の属性にあう音声認識用言語モデルを、辞書・モデル選択手段により選択し、音声認識を行うことが可能となる。
【００２３】
また、コミュニケーション処理手段として第一の話者の言語の機械翻訳を行う場合、第二話者の特徴を用いて、辞書・モデルデータベースに格納された翻訳辞書を選択する。例えば、英日翻訳の場合、日本語生成用辞書を第二話者の属性に応じて予め構築して辞書・モデルデータベースに格納する。英語人称代名詞「your」を例として説明すると、「your」と対応する日本語の訳語候補は「あなたの」、「君の」と「僕の」等の訳語を持たせる。そのため、機械翻訳用辞書は原言語辞書単語「your」の目的言語ブロックは、日本語見出し語「あなたの」と品詞情報と、第二の話者の話者属性を示す情報「若年、男性」等の情報から構成する一番目の目的言語辞書ブロックと、見出し語「君の」と品詞情報と、第二の話者の話者属性を示す「青年、男性」等の情報から構成する二番目のブロックと、見出し語「僕の」と品詞情報と、第二の話者の話者属性を示す「子供、男性」等の情報から構成する三番目のブロックとで、英語人称代名詞「your」の辞書を構築することができる。例えば、システムに第一の話者から英文「What is your name?」を入力して、第二の話者が「子供、男性」であると推定された場合、まず、英語の形態素解析と構文解析を行い、その結果、形態素要素英語疑問代名詞「What」、Be動詞「be」、人称代名詞「your」、名詞「name」との情報を得ることができる。一方、日本語側では、英日翻訳辞書から「What」から「何」を、「be」から「だ」を、「name」から「名前」を、「your」から「あなたの」と「君の」と「僕の」との三つの候補を読み込む。次に、前記の「子供、男性」の情報を用いて、「your」の三つの日本語候補の話者特徴との類似度を算出し、「子供、男性」を持つ「僕の」のブロックの類似度が最大となるため、「your」の訳語が「僕の」となる。次に、日本語を生成するための形態素は「何」、「だ」、「僕の」、「名前」となる。次に、日本語独立助動詞「だ」が持つ格フレームと翻訳規則を用いて機械翻訳を行い、「僕の名前は何だ？」と出力を提供することができる。同様に、第二の話者の属性は「青年、男性」の場合、翻訳結果は「君の名前は何ですか？」、第二の話者の属性は「若年、男性」の場合、翻訳結果は「あなたの名前は何ですか？」との翻訳結果を生成する。
【００２４】
また、コミュニケーション処理が音声合成処理であり、第二の話者が老人の場合、辞書・モデル選択手段により、第二の話者の特徴を用いて、高齢者用の音声合成用辞書・モデルを選択し、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、第１の話者のテキスト、音声等を、高齢者に適した、速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールすることができる。
【００２５】
次に、第１の実施の形態における具体的な構成について図面を参照して詳細に説明する。
【００２６】
図1は、本発明を実施するための第１の実施の形態の構成を示すブロック図である。
【００２７】
図1を参照すると、本発明の第一の実施の形態は、第１の話者の音声、画像、又は文字情報等のデータを入力する入力手段101と、入力データを処理するコミュニケーション処理手段100と、第二の話者の特徴を抽出する第二の話者特徴抽出手段105と、コミュニケーション処理手段100から出力された文字、音声、画像等の情報を出力する出力手段116とを備えている。
【００２８】
コミュニケーション処理手段100は、辞書・モデル選択手段、音声認識手段、テキスト変換手段、機械翻訳手段、音声合成手段等の中から、一つまたは二つ以上の構成でコミュニケーション処理を実施する。
【００２９】
また、本実施の形態において、コミュニケーション処理手段100の各種の処理を行うため、上述したように各種の辞書・モデルを予め構築して辞書・モデルデータベースに格納しておく。
【００３０】
例えば、音声認識用言語モデルの構築において、第一話者からの発話タイプとして、「老人男性への発話」タイプと、「老人女性への発話」タイプと、「壮年男性への発話」タイプと、「壮年女性への発話」タイプと、「青年男性への発話」タイプと、「青年女性への発話」タイプと、「若年男性への発話」タイプと、「若年女性への発話」タイプと、「子供男性への発話」タイプと、「子供女性への発話」タイプに分類して音声認識用言語モデルを構築する。同様に、第二の話者の話者特徴に基づく機械翻訳用辞書・モデル、テキスト変換用辞書・モデル、音声合成用辞書・モデル等を予め構築して辞書・モデルデータベースに格納しておく。
【００３１】
第二の話者特徴抽出手段105による第二の話者の特徴抽出は、第二の話者の音声データ、顔画像、指紋等、他の生体情報などからもその話者の特徴を抽出する。また、第二の話者のプロファイルが提供された場合や、センサーや話者の個人属性を通信可能なＩＣカードまたは話者の個人属性を通信可能なＩＣカードに内蔵した端末装置等を用いることにより第二の話者の特徴を抽出することもできる。例えば、第二話者の音声データや顔画像を含む画像データなどを用いて年齢、性別等の属性情報を抽出することができる。
【００３２】
次に、図1と図22を参照して本発明を実施するための第一の形態の動作について詳細に説明する。
【００３３】
入力手段101を通じてシステムにデータを入力する（ステップ2201）。
【００３４】
次に、第二の話者特徴抽出手段105により第二の話者の個人属性を示す話者特徴を抽出する（ステップ2202）。
【００３５】
次に、第二の話者特徴抽出手段105から抽出された第二の話者の特徴を用いて、辞書・モデル選択手段により、コミュニケーション処理用の辞書・モデルの選択処理を行う（ステップ2203）。例えば、入力は文で、コミュニケーション処理として機械翻訳を行う場合、辞書・モデル選択手段により、第二の話者の話者特徴に適した翻訳辞書・モデルを選択する。また、入力は音声で、コミュニケーション処理として音声認識を行うよう実施した場合、辞書・モデル選択手段により、第二の話者の話者特徴に適した音声認識用辞書・モデルを選択する。尚、辞書・モデル選択手段では、第二の話者特徴抽出手段105から抽出した第二の話者の特徴と、辞書・モデルデータベースに格納された各種の辞書・モデルが持つ属性情報との類似度を算出し、類似度が最大となるものを選択する。
【００３６】
次に、前記のステップで選択された辞書・モデルを用いて、コミュニケーション処理手段100によりコミュニケーション処理を行う（ステップ2204）。コミュニケーション処理方式として、音声認識、テキスト変換、機械翻訳、音声合成等を実施することができる。
【００３７】
そして、前記コミュニケーション処理手段100での処理結果を、出力装置を通じて出力する（ステップ2205）。
【００３８】
本発明を実施するための第１の実施の形態の効果について説明する。
【００３９】
本発明の第１の実施の形態では、第二の話者特徴抽出手段を設けることにより、第二の話者のプロファイルを予め用意しなくても、第二の話者の話者特徴を利用したコミュニケーション処理が可能となる。
【００４０】
具体的には、コミュニケーション処理として音声認識を行うよう実施した場合、第二の話者の特徴に適した音声認識方法を提供し、音声認識の精度を改善できるとなる効果を有する。
【００４１】
例えば、第二の話者特徴抽出手段により抽出した第二の話者の話者特徴が「子供、女性」の時、第一話者からの発話に対する音声認識用言語モデルの選択は、「子供、女性」の属性情報を用いて、音声認識用辞書・モデルデータベースから、「子供、女性」の第二の話者特徴を持つ音声認識用言語モデルを選択する。具体的に、第二話者の話者属性情報（子供、女性）と、辞書・モデルデータベースに格納されている各種の音声認識用辞書・モデルが持つ属性情報との類似度を算出して、類似度が最大となるものを選択する。このようにして、「子供、女性」の属性を持つ音声認識用言語モデルを選択して、第１の話者の発話の音声認識を行うことが可能となる。同様に、第二の話者が他の属性を持つ話者の時、その話者の属性にあう音声認識用言語モデルを、辞書・モデル選択手段により選択し、音声認識を行うことが可能となる。
【００４２】
また、コミュニケーション処理として機械翻訳を行うよう実現した場合、第二話者の特徴を用いて、辞書・モデルデータベースに格納された翻訳辞書を選択することにより、第二の話者の特徴に適した機械翻訳手法を提供し、翻訳結果の多様性を実現することができる効果を有する。
【００４３】
例えば、英日翻訳の場合、日本語生成用辞書を第二話者の属性に応じて予め構築して辞書・モデルデータベースに格納する。英語人称代名詞「your」を例として説明すると、「your」と対応する日本語の訳語候補は「あなたの」、「君の」と「僕の」等の訳語を持たせることができる。そのため、機械翻訳用辞書は原言語辞書単語「your」の目的言語ブロックは、日本語見出し語「あなたの」と品詞情報と、第二の話者の話者属性を示す情報「若年、男性」等の情報から構成する一番目の目的言語辞書ブロックと、見出し語「君の」と品詞情報と、第二の話者の話者属性を示す「青年、男性」等の情報から構成する二番目のブロックと、見出し語「僕の」と品詞情報と、第二の話者の話者属性を示す「子供、男性」等の情報から構成する三番目のブロックとで、英語人称代名詞「your」の辞書を構築する。仮に、システムに第一話者から英文「What is your name?」を入力して、第二の話者が「子供、男性」であると推定された場合、機械翻訳では、まず、英語の形態素解析と構文解析を行い、その結果、形態素要素英語疑問代名詞「What」、Be動詞「be」、人称代名詞「your」、名詞「name」との情報を得る。一方、日本語側では、英日翻訳辞書から「What」から「何」を、「be」から「だ」を、「name」から「名前」を、「your」から「あなたの」と「君の」と「僕の」との三つの候補を読み込む。次に、前記の「子供、男性」の情報を用いて、「your」の三つの日本語候補の話者特徴との類似度を算出し、「子供、男性」を持つ「僕の」のブロックの類似度が最大となるため、「your」の訳語が「僕の」となる。次に、日本語を生成するための形態素は「何」、「だ」、「僕の」、「名前」となる。日本語独立助動詞「だ」が持つ格フレームと翻訳規則を用いて機械翻訳を行い、「僕の名前は何だ？」と出力を提供することができる。同様に、第二の話者の属性は「青年、男性」の場合、翻訳結果は「君の名前は何ですか？」、第二の話者の属性は「若年、男性」の場合、翻訳結果は「あなたの名前は何ですか？」との翻訳結果を生成する翻訳方法を提供することにより、翻訳結果の多様性を実現することができる。
【００４４】
また、コミュニケーション処理として音声合成を行うよう実現した場合、合成された音声の実用性を高める効果を有する。
【００４５】
例えば、第二の話者が老人の場合、辞書・モデル選択手段により、第二の話者特徴を用いて音声合成用辞書・モデルを選択して、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールするができる音声合成方法を提供することにより、合成された音声の実用性を高める効果を有する。
＜第２の実施の形態＞
第２の実施の形態は、第１の実施の形態の構成に加えて、第一の話者の特徴を抽出する第一の話者特徴抽出手段を更に設け、両話者の個人属性をリアルタイム的に獲得し、第一の話者属性と第二の話者の話者属性とを用いて、辞書・モデル選択手段により、予め用意された辞書・モデルデータベースの各モデルが持つ属性との類似度を算出して、その類似度が最大となるものを選び出して、音声認識、テキスト変換又は機械翻訳、音声合成等のコミュニケーション処理を行う。
【００４６】
第２の実施の形態における、第一の話者の話者特徴と第二の話者の話者特徴とを共に用いたコミュニケーション処理システムにおいては、辞書・モデルデータベースに格納された辞書・モデルでは、音声認識用辞書、機械翻訳用辞書、テキスト変換用辞書、音声合成用辞書等の各種の辞書を予め第一の話者の話者特徴と第二の話者の話者特徴とを共に考慮して構築する。例えば、音声認識用データベースの構築は、予め第一の話者の話者特徴と第二話者の話者特徴との組み合わせにより、第一話者からの発話内容や発話タイプを両話者の特徴により反映することが可能な内容で、種々の音声認識用辞書・モデルを構築して辞書・モデルデータベースに格納する。例えば、子供男性への発話タイプを、「老人男性から子供男性への発話」タイプと、「老人女性から子供男性への発話」タイプと、「青年男性から子供男性への発話」タイプと、「青年女性から子供男性への発話」タイプと、「若年男性から子供男性への発話」タイプと、「若年女性から子供男性への発話」タイプとの種類に分類することができる。同様に、子供女性への発話タイプを、「老人男性から子供女性への発話」タイプと、「老人女性から子供女性への発話」タイプと、「青年男性から子供女性への発話」タイプと、「青年女性から子供女性への発話」タイプと、「若年男性から子供女性への発話」タイプと、「若年女性から子供女性への発話」タイプとの種類に分類することができる。このようにして分類した発話タイプを示す言語を用いて、「子供への発話」における種々の音声認識用辞書・モデルを構築して辞書・モデルデータベースに格納することができる。同様に、機械翻訳、テキスト変換、音声合成等の辞書・モデルも予め構築して辞書・モデルデータベースに格納する。
【００４７】
また、第２の実施の形態において、コミュニケーション処理として音声認識を行うよう実施した場合は、第一の話者の特徴と第二話者の特徴を同時に用いて、辞書・モデルデータベースに格納された音声認識用辞書・モデルを選択する。例えば、第一の話者が青年女性で、第二の話者が子供男性の時、辞書・モデル選択手段により、第一の話者の話者特徴を示す「青年、女性」と第二の話者の話者特徴を示す「子供、男性」を用いて、辞書・モデルデータベースに格納された辞書・モデルとの類似度を算出し、類似度が最大となるものを選択する。具体的に第一話者からの発話に対する音声認識処理においては、音響モデルの選出は第一の話者の話者属性を用いて辞書・データベースに格納されている音声認識用音響モデルが持つ話者の属性との類似度を算出し、類似度が最大となるものを選択する。言語モデルの選出は第一の話者の話者特徴と第二の話者の話者特徴とを用いて話者関係判定手段により得られた話者関係と両話者の特徴とを同時に用いて、辞書・データベースに格納されている音声認識用言語モデルの属性情報との類似度を算出し、類似度が最大となるものを選択する。このようにして、第一言語の話者が「青年、女性」で、なおかつ、第二の話者が「子供、男性」との属性を持つ音声認識用辞書・モデルを選択されて音声認識を行うことが可能となる。同様に、第一の話者の話者特徴と第二の話者の話者特徴が別の特徴であっても、前記のように音声認識用辞書・モデルを選択して、その両話者の特徴に適した音声認識を行うことが可能となる。
【００４８】
コミュニケーション処理手段として機械翻訳を行うよう実施した場合、形態素解析、構文解析、目的言語を生成する目的言語生成処理等が含まれる。目的言語生成処理では、第一の話者の話者特徴と第二話者の話者特徴を同時に用いて、辞書・モデル選択手段により、辞書・モデルデータベースに格納された翻訳辞書を選択する。
【００４９】
説明するために、仮に中日翻訳辞書が予め構築されている。その翻訳辞書の中国語側では、適用できる第一話者の特徴を付与されている。日本語側では、第二の話者の話者特徴に応じて訳語が付与されている。
【００５０】
中国語人称代名詞「晩生」を例として説明すると、「晩生」は一般的に謙譲的な言い方で、聞き手より年下の人に、男性でも女性でも使用できる。そのため、原言語である「晩生」のブロックに「原言語話者特徴（年下）」との属性情報を付与する。「晩生」と対応する日本語の訳語候補は、「わたくし」、「わたし」、「僕」等となるため、構築できる機械翻訳用辞書は原言語側では、「晩生」と「年下」から構成される原言語ブロックで、生成側では、「わたくし」と、品詞情報と、目的言語話者特徴（年上、女性）から構成する一番目の目的言語生成ブロックと、「わたし」と、品詞情報と、目的言語話者特徴（年上、男性）から構成する二番目の目的言語生成ブロックと、「僕」と、品詞情報と、目的言語話者特徴（年下、男性）から構成する三番目の目的言語生成ブロックで辞書を構築することができる。
【００５１】
次に、「図３３の文章１」を翻訳例として説明する。例えば、第一の話者が青年男性で、第二の話者が「老人、男性」の時、この際の機械翻訳は、まず、中国語の形態素解析と構文解析を行い、その結果、形態素要素代名詞「晩生」、アスペクト助字「在」、動詞「図３３の単語１」、名詞「図３３の単語２」とをから構成された構文情報が得られる。一方、日本語側では、中日翻訳辞書から、代名詞「晩生」から「わたくし」、「わたし」と「僕」を、アスペクト助字「在」から「ている」を、動詞「図３３の単語１」から「読む」を、名詞「図３３の単語２」から「本」を読み込む。
【００５２】
次に、前記の第一の話者の話者特徴「青年、男性」と第二の話者の話者特徴「老人、男性」の情報を用いて、話者関係判定手段により両話者の年齢を比較して、原言語話者特徴（年下）と目的言語話者特徴（年上）との結果が得られる。さらに、第一の話者の話者特徴量「青年、男性、原言語話者特徴（年下）」と第二の話者の話者特徴量「老人、男性、目的言語話者特徴（年上）」とを用いて、翻訳辞書が持つ属性情報との類似度を算出して、類似度が最大のものを選択する。その結果、「晩生」の三つの訳語候補の中から、「わたし」の訳語を選択することになる。
【００５３】
続いて、前記の形態素情報、格フレームを持つ構文情報と翻訳規則を用いて機械翻訳を行い、「わたしは本を読んでいます」との翻訳結果を生成することになる。同様に、第一の話者は青年男性で、第二の話者は老人女性の際に、前記翻訳例の出力は「わたくしは本を読んでいます」との翻訳結果を生成することになる。第一の話者は青年男性で、第二の話者は子供の際に、翻訳結果は「僕は本を読んでいます」との翻訳結果を生成することになる。
【００５４】
また、コミュニケーション処理手段として音声合成を行うよう実施した場合、第一の話者の話者特徴と第二の話者の特徴を同時に用いて、話者関係を判定する。特に、第二言語側の話者が老人の場合、辞書・モデル選択手段により、第二の話者特徴を用いて音声合成用辞書・モデルを選択して、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールするができる。
【００５５】
次に、第２の実施の形態における具体的な構成について図面を参照して詳細に説明する。
【００５６】
図2は、第２の実施の形態の構成を示すブロック図である。
【００５７】
図2を参照すると、第２の実施の形態は、図1に示された第１の実施の形態の構成と同様に、入力手段101と、第二の話者特徴抽出手段105と、前記出力手段116を備えている。その他に、第一の話者の特徴を抽出する第一の話者の特徴抽出手段104と、コミュニケーション処理手段200とを備えている。
【００５８】
コミュニケーション処理手段200では、話者関係判定手段、辞書・モデル選択手段、音声認識手段、テキスト変換手段、機械翻訳手段、音声合成手段等の中から、一つまたは二つ以上の構成でコミュニケーション処理を実施する。
【００５９】
尚、話者関係判定手段は、第一の話者の特徴抽出手段104及び第二の話者特徴抽出手段105により抽出された第一及び第二の話者の特徴に基づいて、第一の話者と第二の話者との関係を判定するものである。
【００６０】
本実施の形態においては、コミュニケーション処理手段200の各種の処理を行うための各種の辞書・モデルを予め構築して辞書・モデルデータベースに格納する。例えば、子供男性への発話タイプを、「老人男性から子供男性への発話」タイプと、「老人女性から子供男性への発話」タイプと、「青年男性から子供男性への発話」タイプと、「青年女性から子供男性への発話」タイプと、「若年男性から子供男性への発話」タイプと、「若年女性から子供男性への発話」タイプとの種類に分類することができる。同様に、子供女性への発話タイプを、「老人男性から子供女性への発話」タイプと、「老人女性から子供女性への発話」タイプと、「青年男性から子供女性への発話」タイプと、「青年女性から子供女性への発話」タイプと、「若年男性から子供女性への発話」タイプと、「若年女性から子供女性への発話」タイプとの種類に分類することができる。このようにして分類した発話タイプを示す言語を用いて、「子供への発話」における種々の音声認識用辞書・モデルを構築して辞書・モデルデータベースに格納する。同様に、機械翻訳、テキスト変換、音声合成等の辞書・モデルも予め構築して辞書・モデルデータベースに格納する。
【００６１】
次に、図2と図23を参照して本発明を実施するための第２の実施の形態の動作について詳細に説明する。
【００６２】
入力手段101を通じてシステムにデータを入力する（ステップ2301）。
【００６３】
次に、第一の話者特徴抽出手段104により第一の話者の個人属性を示す話者特徴を抽出し、第二の話者特徴抽出手段105により第二の話者の個人属性を示す話者特徴を抽出する（ステップ2302）。
【００６４】
第一の話者特徴抽出手段104から抽出された第一話者の話者特徴と第二の話者特徴抽出手段105から抽出された第二の話者の話者特徴とを用いて、話者関係判定手段により話者の関係を判定する。例えば、両話者の年齢を比較して「年上」と「年下」との判定結果が得られる（ステップ2303）。
【００６５】
前記話者関係判定手段により得られた両話者の話者関係情報を用いて、辞書・モデル選択手段により、コミュニケーション処理用の辞書・モデルの選択処理を行う（ステップ2304）。
【００６６】
例えば、入力は文で、コミュニケーション処理として機械翻訳を行うよう実施した場合、辞書・モデル選択手段により、両話者の話者特徴に適した翻訳辞書・モデルを選択する。入力は音声で、コミュニケーション処理として音声認識を行うよう実施した場合、辞書・モデル選択手段により、両話者の話者特徴に適した音声認識用辞書・モデルを選択する。辞書・モデル選択手段では、前記話者特徴抽出手段104と前記話者特徴抽出手段105から抽出した両話者の属性情報と、話者関係判定手段により得られた話者関係情報を用いて、辞書・モデルデータベースに格納された各種の辞書・モデルが持つ属性情報との類似度を算出して類似度が最大となるものを選択することにより辞書・モデルの選択処理を行う。
【００６７】
次に、前記のステップで選択された辞書・モデルを用いて、コミュニケーション処理手段200によりコミュニケーション処理を行う（ステップ2305）。コミュニケーション処理方式として、音声認識、テキスト変換、機械翻訳、音声合成等を実施することができる。
【００６８】
そして、前記コミュニケーション処理手段200での処理結果を、出力装置を通じて出力する（ステップ2306）。
【００６９】
第２の実施の形態の効果について説明する。
【００７０】
第２の実施の形態では、第一の話者特徴抽出手段及び第二の話者特徴抽出手段を設けることにより、両話者のプロファイルを予め用意しなくても、両話者の話者特徴を共に利用したコミュニケーション処理が可能となる。
【００７１】
具体的には、コミュニケーション処理として音声認識を行うよう実施した場合、両話者の特徴を共に適した音声認識を行う手法を提供することが可能となる効果を有する。
【００７２】
例えば、第一の話者が青年女性で、第二の話者が子供男性の時、辞書・モデル選択手段により、第一の話者の話者特徴を示す「青年、女性」と第二の話者の話者特徴を示す「子供、男性」を用いて、辞書・モデルデータベースに格納された辞書・モデルとの類似度を算出し、類似度が最大となるものを選択する。具体的に第一話者からの発話に対する音声認識処理においては、音響モデルの選出は第一の話者の話者属性を用いて辞書・データベースに格納されている音声認識用音響モデルが持つ話者の属性との類似度を算出し、類似度が最大となるものを選択する。言語モデルの選出は第一の話者の話者特徴と第二の話者の話者特徴を用いて話者関係判定手段により得られた話者関係と両話者の特徴とを同時に用いて、辞書・データベースに格納されている音声認識用言語モデルの属性情報との類似度を算出し、類似度が最大となるものを選択する。このようにして、第一言語の話者が「青年、女性」で、なおかつ、第二の話者が「子供、男性」との属性を持つ音声認識用辞書・モデルを選択されて音声認識を行うことが可能となる。同様に、第一の話者の話者特徴と第二の話者の話者特徴が別の特徴であっても、前記のように音声認識用辞書・モデルを選択して、その両話者の特徴に適した音声認識を行うことが可能となる。
【００７３】
また、コミュニケーション処理として機械翻訳を行うよう実現した場合、形態素解析、構文解析、目的言語を生成する目的言語生成処理等が含まれる。目的言語生成処理では、第一の話者の話者特徴と第二話者の話者特徴を同時に用いて、辞書・モデル選択手段により、辞書・モデルデータベースに格納された翻訳辞書を選択する。
【００７４】
例えば、中日機械翻訳を行う場合、中国語「図３３の文章１」の例では、中国語人称代名詞「晩生」は一般的に謙譲的な言い方で、聞き手より年下の人が男性でも女性でも使用できる。例えば日中翻訳辞書の原言語である「晩生」のブロックに「原言語話者特徴（年下）」との属性情報を付与する。「晩生」と対応する日本語の訳語候補は、「わたくし」、「わたし」、「僕」等となるため、構築できる機械翻訳用辞書は原言語側では、「晩生」と「年下」から構成される原言語ブロックで、生成側では、「わたくし」と目的言語話者特徴（年上、女性）から構成する目的言語生成ブロックと、「わたし」と目的言語話者特徴（年上、男性）から構成する目的言語生成ブロックと、「僕」と目的言語話者特徴（年下、男性）等の情報から構成するブロックで辞書を構築することができる。
【００７５】
次に、「図３３の文章１」を翻訳例として説明する。例えば、第一の話者が青年男性で、第二の話者が「老人、男性」の時、この際の機械翻訳は、まず、中国語の形態素解析と構文解析を行い、その結果、形態素要素代名詞「晩生」、アスペクト助字「在」、動詞「図３３の単語１」、名詞「図３３の単語２」とをから構成された構文情報が得られる。一方、日本語側では、中日翻訳辞書から、代名詞「晩生」から「わたくし」、「わたし」と「僕」を、アスペクト助字「在」から「ている」を、動詞「図３３の単語１」から「読む」を、名詞「図３３の単語２」から「本」を読み込む。
【００７６】
次に、前記の第一の話者の話者特徴「青年、男性」と第二の話者の話者特徴「老人、男性」の情報を用いて、話者関係判定手段により両話者の年齢を比較して、原言語話者特徴（年下）と目的言語話者特徴（年上）との結果が得られる。さらに、第一の話者の話者特徴量「青年、男性、原言語話者特徴（年下）」と第二の話者の話者特徴量「老人、男性、目的言語話者特徴（年上）」とを用いて、翻訳辞書が持つ属性情報との類似度を算出して、類似度が最大のものを選択する。その結果、「晩生」の三つの訳語候補の中から、「わたし」の訳語を選択することになる。
【００７７】
次に、前記の形態素情報、格フレームを持つ構文情報と翻訳規則を用いて機械翻訳を行い、「わたしは本を読んでいます」との翻訳結果を生成することになる。同様に、第一の話者は青年男性で、第二の話者は老人女性の際に、前記翻訳例の出力は「わたくしは本を読んでいます」との翻訳結果を生成することになる。第一の話者は青年男性で、第二の話者は子供の際に、翻訳結果は「僕は本を読んでいます」との翻訳結果を生成する翻訳方法を提供することにより、翻訳結果の多様性を実現することができる。
【００７８】
また、コミュニケーション処理として音声合成を行うよう実現した場合、合成された音声の実用性を高める効果を有する。
【００７９】
例えば、第一の話者の話者特徴と第二の話者の特徴を同時に用いて、話者関係を判定する。特に、第二言語側の話者が老人の場合、辞書・モデル選択手段により、両話者の特徴を用いて音声合成用辞書・モデルを選択して、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールするができる音声合成方法を提供することにより、合成された音声の実用性を高めることができる。
＜第３の実施の形態＞
第３の実施の形態を説明する。
【００８０】
図3は、本発明を実施するための第３の実施の形態の構成を示すブロック図である。
【００８１】
図3を参照すると、本発明の第３の実施の形態は、図2に示された第２の実施の形態の構成において、前記入力手段101と、前記第一の話者特徴抽出手段104と、前記第二の話者特徴抽出手段105と、前記出力手段116を備えているほか、両話者の対話履歴を保存する話者対話履歴データベース310と、コミュニケーション処理手段300とを備えている。両話者の対話履歴データベース310では、両話者の話者特徴と共に、話者の対話履歴を時系列で記録する。
【００８２】
コミュニケーション処理手段300では、話者関係判定手段、対話履歴管理手段、辞書・モデル選択手段、音声認識手段、テキスト変換手段、機械翻訳手段、音声合成手段等の中から、一つまたは二つ以上の構成でコミュニケーション処理を実施する。
【００８３】
また、話者からの発話に対し、常に話者の特徴に応じて時系列で対話履歴データベース310に記録する。発話者が新規話者の場合、新規ユーザとして発話者の特徴量とその発話を話者対話履歴データベース310に保存する。新規話者でない場合、話者の対話履歴を検索して、時系列で話者対話履歴データベース310に記録する。
【００８４】
また、本実施の形態における辞書・モデルデータベースは、前記第２の実施の形態と同様なものによりシステムを構築することができる。
【００８５】
また、対話履歴管理手段114は、図29に示すように、話者関係判定手段113から出力された両話者の特徴と話者関係に基づいて、話者対話履歴データベース310から両話者の対話履歴を抽出して分析を行う対話履歴分析手段2901と、対話履歴の分析結果により前記第一の話者特徴抽出手段104と前記第二の話者特徴抽出手段105により抽出された話者の特徴及び前記話者関係判定手段113から出力された話者の関係が正しいかどうかを判定する話者特徴判定手段2902と、前記話者特徴判定手段2902からの判定結果において、「誤りがある」と判定された際、話者の特徴に対するフィードバック処理を行うフィードバック処理手段2903とを構成される。
【００８６】
対話履歴分析手段2901は、話者関係判定手段113から出力された両話者の特徴と話者関係に基づいて、話者対話履歴データベース310から両話者の対話履歴を抽出して、話者特徴と、対話スタイルと、対話内容のキーワードなどを含むベクトルや、又は前記ベクトルを時系列化したモデルを生成する処理などを行う。
【００８７】
話者特徴判定手段2902は、前記話者対話履歴分析手段2901で生成された対話履歴の特徴ベクトルやモデルなどを用いて、前記第一の話者特徴抽出手段104と前記第二の話者特徴抽出手段105とにより抽出された話者の特徴及び前記話者関係判定手段113から出力された話者の関係に対する判定結果が正しいかどうかを判定する。例えば、日本語の「女言葉」の言語表現を示す特徴量と、「男言葉」の言語表現を示す特徴量とをそれぞれ用意して、話者対話履歴データベース310に保存しておいて、対話履歴分析手段2901からえられた話者の特徴ベクトルと照合することにより、話者の性別の判定を行うことができる。
【００８８】
フィードバック処理手段2903は、前記話者特徴判定手段2902からの判定結果において、「誤りがある」と判定された際、話者の特徴に対してフィードバック処理を行う。例えば、第一の話者と第二の話者が共に男性と推定されたが、第一の話者の入力文が「鍵を持ってきてくれてよかった。ありがとうございました。どうしてかしら、あたし、最近よく忘れ物をするわよ。」がある時に、前記話者特徴判定手段2902により第一の話者が「女性」であることを判定して、フィードバック処理を行うことにより、第一話者の性別の属性値を直すことできる。
【００８９】
このように、話者の対話の状態や進行から得られる情報を利用し、話者の特徴が「正しいかどうか」を自動的に判断することにより、話者の個人属性の誤りを自動的に検出して訂正する機能を実現することができる。
【００９０】
次に、図3と図24を参照して本発明を実施するための第三の形態の動作について詳細に説明する。
【００９１】
入力手段101を通じてシステムにデータを入力する（ステップ2401）。
【００９２】
次に、第一の話者特徴抽出手段104により第一の話者の個人属性を示す話者特徴を抽出し、第二の話者特徴抽出手段105により第二の話者の個人属性を示す話者特徴を抽出する（ステップ2402）。
【００９３】
第一の話者特徴抽出手段104から抽出された第一話者の話者特徴と第二の話者特徴抽出手段105から抽出された第二の話者の話者特徴を用いて、話者関係判定手段により話者の関係を判定する。例えば、両話者の年齢を比較して「年上」と「年下」の判定結果が得られる（ステップ2403）。
【００９４】
話者関係判定手段113から出力された両話者の特徴と話者関係に基づいて、話者対話履歴データベース310から両話者の対話履歴を抽出して対話履歴分析手段2901により分析を行い、分析結果により前記使用された両話者の特徴及び話者関係が正しいかどうかに対する判定処理を話者特徴判定手段2902により行う。「誤りがある」と判定された際、話者の特徴抽出を再度行うようにフィードバック処理手段2903によりフィードバック処理を行う（ステップ2404）。
【００９５】
前のステップで得られた正しい話者属性と話者関係の情報を用いて、辞書・モデル選択手段により、コミュニケーション処理用の辞書・モデルの選択処理を行う（ステップ2405）。例えば、入力は文で、コミュニケーション処理として機械翻訳を行うよう実施した場合、辞書・モデル選択手段により、両話者の話者特徴に適した翻訳辞書・モデルを選択する。入力は音声で、コミュニケーション処理として音声認識を行うよう実施した場合、辞書・モデル選択手段により、両話者の話者特徴に適した音声認識用辞書・モデルを選択する。
辞書・モデル選択手段では、前記話者特徴抽出手段104と前記話者特徴抽出手段105から抽出した両話者の属性情報と、話者関係判定手段により得られた話者関係情報を用いて、辞書・モデルデータベースに格納された各種の辞書・モデルが持つ属性情報との類似度を算出して類似度が最大となるものを選択することにより辞書・モデルの選択処理を行う。
【００９６】
続いて、前記のステップで選択された辞書・モデルを用いて、コミュニケーション処理手段100によりコミュニケーション処理を行う（ステップ2406）。コミュニケーション処理方式として、音声認識、テキスト変換、機械翻訳、音声合成等を実施することができる。
【００９７】
そして、前記コミュニケーション処理手段300での処理結果を、出力装置を通じて出力する（ステップ2407）。
【００９８】
第３の実施の形態の効果について説明する。
【００９９】
上述のように、本発明の第３の実施の形態では、第２の実施の形態の効果を有するほか、話者対話履歴管理手段114と話者対話履歴データベース310とを設けることにより、話者の対話履歴を分析し、話者の対話の状態や進行から得られる情報を利用し、前記第一の話者特徴抽出手段104と第二の話者特徴抽出手段105により抽出した話者の特徴に対して、正誤判定及びフィードバック処理を行うことにより、誤りを自動的に検出することができ、両話者の話者特徴をコミュニケーション処理に正しく利用されるような機能を実現することができる効果を有する。
【実施例１】
【０１００】
本発明の実施例１を、図面を参照して説明する。かかる実施例は第１の実施の形態に対応するものである。
【０１０１】
本実施例を図4に示す。テキスト入力手段102と、第二の話者の特徴抽出手段105と、テキスト変換手段106と、辞書・モデルデータベース107と、辞書・モデル選択手段112と、テキスト出力手段115とをから構成される。
【０１０２】
本実施例におけるコミュニケーション処理手段100はテキスト変換手段106と、辞書・モデル選択手段112とを有する。
【０１０３】
テキスト入力手段102としてキーボードを、テキスト出力手段115としてディスプレイを利用する。
【０１０４】
第二の話者特徴抽出手段105は、話者の特徴をリアルタイム的に抽出する手段である。話者特徴を抽出する方法は、例えば、話者の音声データから話者の年齢や性別等の話者属性を推定する方法や話者の顔を含む画像から話者属性を推定する方法等が挙げられる。話者の顔を含む画像から話者の特徴を抽出する方法は、一般的に、入力画像データから、顔画像のグレーズケール化処理、画像角度正規化処理、画像サイズ正規化処理、画像特徴抽出処理及び話者属性推定処理を行うことにより、話者特徴を抽出することである。
【０１０５】
話者の顔画像特徴抽出技術は、Gabor Waveletを用いた技術が知られている。例えば、非特許文献Pattern Recognition30（6）,pp.837-846,1997,「Phantom Faces for Face Analysis」。顔器官に特徴点を設定する手法としてRetina Samplingと呼ばれる効果的な画素位置サンプリング手法も知られている。例えば、非特許文献Audio and Video based Person Authentication - AVBPA99，pp. 125-129,1999,「Face Authentication by retinotopic sampling of the Gabor decomposition and Support Vector Machines」がある。
【０１０６】
また、話者の顔特徴から話者の個人属性を推定する従来技術は、顔のテクスチャを用いた手法と、平均顔との距離を用いた手法と、複数の特徴量を用いた手法が知られている。
【０１０７】
例えば、平均顔との距離を用いた手法では、年齢、性別ごとに平均顔を作成し、その平均顔に独自に特徴点を取って、また、入力顔にも同様に特徴点を取って、その二乗誤差を利用し、顔器官の特徴点を表す評価関数で評価することにより、入力顔と平均顔との特徴点間の距離を求め、その最小距離となる平均顔を当該話者の年齢や性別とする技術が知られている。例えば、特開2003-99779号公報、特開2006-344236号公報等に示されている従来技術も、この実施の形態の装置においても、前述の技術を用いることが可能である。
【０１０８】
前記の従来技術のほか、隠れマルコフモデル、遺伝的アルゴリズムを用いることも可能であるが、これだけに限定されない。
【０１０９】
また、話者の音声データから話者の年齢や性別等の話者属性を推定することができる。一般的な方法は、まず、学習データとして性別や年齢などの話者属性を示すラベリングされた各年代の音声データにより各年代の平均的な音声特徴量を、音声信号をスペクトラム分析などにより得られる。次に、ある話者の音声データからの音声信号をスペクトラム分析などにより、その話者の音声の特徴量を獲得する。次に、この特徴量と前記学習データにより得られた各年代の平均的な音声特徴量との類似度を算出し、類似度が最大となるものを選び出すことにより、その話者の年齢や性別等を推定することができる。
【０１１０】
例えば、話者から発せられた音声を音響分析して音響特徴量を獲得し、獲得された特徴量を用いて、予め男女別に用意された子供層、若年層、青年層、壮年層、老年層の其々の標準的なパターンとの類似度を算出し、最も類似している標準パターンにより、話者の年齢、性別を獲得する方法も話者の特徴を獲得することができる。
【０１１１】
また、話者特徴抽出手段105が、話者の音声データ、顔画像から抽出する方法に限らずに、センサーや話者の個人属性を通信可能なＩＣカードまたは話者の個人属性を通信可能なＩＣカードに内蔵した端末装置等を用いる方法、他の手段により話者の生体情報を獲得する方法、話者のプロファイルから話者の人種、年齢、性別等の情報を獲得する方法も利用してもよい。
【０１１２】
辞書・モデル選択手段112は、話者の特徴を示す識別情報を付与した辞書・モデルを格納するデータベース107の中から、話者に適した辞書・モデルを選択し、音声認識、テキスト変換又は機械翻訳、音声合成用の各種の辞書・モデルを選択する手段である．
辞書・モデルを選択するアルゴリズムは、内積、Jaccard係数、余弦、Dice係数に基づく類似度、カイ二乗に基づく類似度、ユークリッド距離の逆数に基づく類似度を用いることができるが、これだけに限定されない。
【０１１３】
例えば、標準話者Ａの話者特徴ベクトルは

その正規化された重みは

とし、ある話者Ｂの話者特徴ベクトルは、

とし、その正規化された重みは、

とする。Ｘ・ＹをＸとＹと同じ属性がある場合に同じ属性同士の重みを掛け合わせた合計を返す演算であるとするとき、内積、Jaccard係数、余弦、Dice係数などの方法による話者Ｂと標準話者Ａとの類似度を計算する式は次に示す。

上の式に示すような計算方法で話者の特徴と辞書・モデルが持つ標準話者の特徴との類似度を計算し、類似度が最大となるものは辞書・モデル選択の対象とする。
【０１１４】
辞書・モデルデータベース107では、音声認識、テキスト変換または機械翻訳、音声合成、シソラース辞書等から構成されたデータベースである。各種の辞書及びモデルは、多数の話者の年齢・性別等の属性により一般化して、各年齢層の標準話者の特徴量を識別情報として辞書・モデルに付与して構築する。例えば、子供層、若年層、青年層、壮年層、老年層によって男女別に一般化して各種の辞書を用意することができる。
【０１１５】
テキスト変換手段106では、入力テキストの言い換え表現の処理を行う。テキスト入力手段102からの入力に対し、形態素解析、構文解析などの処理を行う．また、第二の話者の特徴抽出手段105から獲得された話者の属性を用いて、辞書・モデル選択手段112により辞書・データベース107から第二の話者に適する言語表現に言い換えを行うことができる。
【０１１６】
例えば、日本語言換えを行う場合、仮に言換え用辞書を第二話者の属性に応じて予め構築して辞書・モデルデータベースに格納されている。ここでは、日本語のて接続複合化用言「ほしい」を例として説明する。言換え生成側の辞書を次のように構築する。言換えの対象である「ほしい」の辞書の原言語ブロックは、固有部「欲しい」と、品詞情報「て接続複合化用言（い型）」と、活用形情報と、接続番号情報と等で構成する。生成側では、より丁寧度が高い「頂く」と、より丁寧度が低い「下さい」との二つのブロックで構築する。一番目のブロックは、固有部「頂きたい」と、品詞情報と、活用形情報と、接続番号情報と、第二話者属性（老人,男性,女性）等で構成する。二番目のブロックは、固有部「下さい」と、品詞情報と、活用形情報と、接続番号情報と、第二話者属性（子供,若年,男性,女性）等で構成する。
【０１１７】
例えば、第一の話者がシステムに「今週のレポートを見せてほしいですが」と入力して、第二の話者が「老人、男性」であると推定された。この際の言換え処理は、まず、日本語の形態素解析と構文解析を行い、その結果、形態素要素は名詞「今週」、格助詞「の」、名詞「レポート」、格助詞「を」、一段動詞「見せる」、接続助詞「て」、て接続複合化用言「ほしい」、助動詞「だ」、終助詞「が」等の情報を得ることができる。この際に、丁寧度を示す単語「ほしい」の辞書から、「頂きたい」と「下さい」との二つの候補を読み込む。
【０１１８】
次に、前記の第二の話者の話者属性「老人、男性」の情報を用いて、「頂きたい」と「下さい」の二つの候補の話者特徴との類似度を算出し、「老人、男性」を持つ「頂きたい」のブロックの類似度が最大となるため、「ほしい」の言換えの目的語が「頂きたい」となる。
【０１１９】
次に、言換え文を生成するための形態素は「今週」、「の」、「レポート」、「を」、「見せる」、「て」、「頂きたい」、助動詞「だ」、終助詞「が」からなる。
【０１２０】
次に、日本語の構文規則情報を用いて言換えの目的文を生成する。その結果、「今週のレポートを見せて頂きたいですが」となる。同様に、第二言語の話者の話者属性が「若年、男性」または「若年、女性」の際、目的文は「今週のレポートを見せてください」との結果になる。
【実施例２】
【０１２１】
実施例２を、図面を参照して説明する。かかる実施例は本発明を実施するための第１の実施の形態に対応するものである。
【０１２２】
図5を参照すると、本発明の実施例２に係る音声合成手段110は、図4に示された実施例１におけるテキスト出力手段115の代わりに、テキスト変換手段106から出力されたテキストを合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例１と同じである。
【０１２３】
音声合成手段110では、テキスト変換手段106からの出力に対して、第二の話者特徴抽出手段105により抽出した第二の話者特徴を用いて、辞書・モデル選択手段112により、辞書・モデルデータベース107の中から、第二の話者特徴に適する音声合成用辞書を選択し、音声合成処理を行う。
【０１２４】
例えば、第二言語側の話者が老人の場合、第二の話者特徴を用いて、辞書・モデル選択手段112により、辞書・モデルデータベース107の中から、音声合成用辞書・モデルを選択して、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールするができる音声合成方法を提供することにより、合成された音声の実用性を高める効果を有する。
【０１２５】
音声出力手段111は、前記音声合成手段110から出力された合成音声波形信号を音声信号としてスピーカを通して合成音声を出力する音声出力手段である。
【０１２６】
本実施例においては、例えば、前記第一の実施例の例文の「今週のレポートを見せてほしいですが」の入力に対して、本実施例においては、前記の言換え処理を行い、言換えの結果に対し、第二の話者の話者特徴を用いて音声合成用の辞書・モデルを選択して音声合成を行うことができる。その結果、第二の話者が「老人、男性」または「老人、女性」の場合、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールして、合成音声の出力で「今週のレポートを見せて頂きたいですが」を提供することができる。又、第二の話者が「若年、男性」または「若年、女性」の場合、一般的な音声合成効果で、合成音声の出力で「今週のレポートを見せてください」を提供することができる。
【実施例３】
【０１２７】
実施例３を、図面を参照して説明する。かかる実施例は本発明を実施するための第１の実施の形態に対応するものである。
【０１２８】
図6に示すように、本実施例は実施例１のテキスト変換手段106の代わりに、機械翻訳手段109に変えたものを備え、その他の点は実施例１を同じである。
【０１２９】
機械翻訳手段109では、前記テキスト入力手段102から入力テキストを第二言語に翻訳する手段である。機械翻訳に必要な各種の辞書は、前記第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から第二の話者特徴に適した翻訳用辞書を選出し、翻訳処理を行う。
【０１３０】
例えば、図25と図26を参照して、第二の話者の特徴に適した機械翻訳結果を、出力機能を説明する。
【０１３１】
図25に記載されたデータは、日本語「名前」の日英翻訳用辞書で、原言語である日本語側は、「名前」を例として挙げられたデータ構造である。その原言語側のフィールドは、単語見出し情報と、読み情報と、標準表記情報と、品詞情報と、文スタイル情報等を含む。目的言語側のフィールドは、読み情報と、品詞情報と、目的言語話者特徴を示す情報と、文スタイル情報等を含む。具体的に、日本語側では、日本語単語「名前」だけの辞書エントリーは、「単語見出し（“名前”）」と、「読み（“なまえ”）」と、品詞情報である「品詞（名詞（普通名詞））」に対し、英語側では、「E_読み（“name”）」と品詞情報を示す「品詞（NOUN（c））」と対応する。また、日本語単語「名前」を使った日本語質問文を示す標準表記である「標準表記（“お名前は”）」と、品詞情報である「品詞（名詞（普通名詞））」と、日本語の質問文の文スタイルを示す「J_文スタイル（質問）」との情報から構成された辞書のエントリーに対し、目的言語である英語側は、「E_読み（“name”）」と品詞情報を示す「品詞（NOUN（c））」と文スタイルと、原言語側話者特徴と、目的言語側話者特徴等のフィールドから構成される。原言語側の話者特徴と目的言語側の話者特徴の属性値は、男性、女性、子供、若年、青年、壮年、老人、話者の年齢差を示す年下や年上、又は年齢と性別から構成かれた属性情報を利用する。また、青年女性、若年女性、壮年男性、壮年女性のような属性値のセットも利用することができる。
【０１３２】
例えば、第一話者から「お名前は？」と入力した時、第二の話者は若年男性の時、その年齢と性別の属性値は「目的言語話者特徴（年下、子供、若年男性）」の中に「若年男性」と一致するため、第一の発話者からの「お名前は？」の発話に対し、この目的言語の話者特徴を用いて、第二の話者に対して「What is your name?」と翻訳することができる。同様に、第二の話者の属性値は「子供、若年男性」のいずれかである時に、翻訳結果は「What is your name?」で、第二の話者の属性値は「壮年男性」である時、翻訳結果は「May I have your name?」で、第二の話者の属性値は「壮年女性、老人」のいずれかである時、翻訳結果は「Could you please tell me your name?」で、第二の話者の属性値は「若年女性、青年女性」である際に、翻訳結果は「I would like to ask you whether you would grant me permission to have your name?」で出力することができる。
【実施例４】
【０１３３】
実施例４を、図面を参照して説明する。かかる実施例は本発明を実施するための第１の実施の形態に対応するものである。
【０１３４】
図7を参照すると、本発明の実施例４に係る音声合成手段110は、図6に示された実施例３における機械翻訳手段109から出力された翻訳結果を合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例３を同じである。
【０１３５】
機械翻訳手段109では、テキスト入力手段101の入力に対し、第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、辞書・モデル選択手段112により辞書・データベース107から第二の話者の特徴に適した目的言語辞書を選択して機械翻訳を行う。
音声合成手段110では、機械翻訳手段109からの翻訳結果に対し、第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、辞書・モデルデータベース107から第二の話者の特徴に適用する音声合成用辞書やモデルを選択して、音声合成を行う。
【０１３６】
音声出力手段111では、前記音声合成手段110から出力された合成音声波形信号を音声信号としてスピーカを通して合成音声を出力する。
【０１３７】
例えば、英日翻訳の場合、第一の話者が「How old are you?」と入力した場合、本実施例により、第二の話者側である日本語側は若い女性の際に翻訳結果は「ご芳齢は？」と翻訳されて合成音声を出力する。日本語側はお年寄りの際に翻訳結果は「おいくつですか?」と翻訳されて、合成音声の音量をやや大きくして、声の高さをやや高めにして、ゆっくりと喋らせる。日本語側は子供の際に翻訳結果は「何歳なの?」と翻訳されて優しい声で合成音声を提供することができる。
【実施例５】
【０１３８】
実施例５を、図面を参照して説明する。かかる実施例は本発明を実施するための第１の実施の形態に対応するものである。
【０１３９】
図8を参照すると、本実施例は実施例２のテキスト入力手段102の代わりに、第一話者の音声を入力する音声入力手段103を備え、入力音声を認識処理を行う音声認識手段108を備えている。その他の点は実施例２を同じである。
【０１４０】
音声入力手段103は、音声を取り込むために指向性マイクを用いて話者の音声を取り込んで音声入力解析処理を行う。マイクには場所や環境などに限定しない、特に携帯端末などに組み込まれたマイクなどを指す。音声入力解析処理は、音声自動通訳機のようなモバイル端末における様々な環境などで、話者の発話音声データを取り込んで、音声信号における各種の音声処理を行うことである。例えば、8kHzや16kHzのサンプリング周波数でアナログ信号をディジタル信号に変換する処理、音声認識を行うための信号を並列データに変換し、レジスタなどに格納する処理、耐雑音処理など。
【０１４１】
音声認識手段108では、音声入力手段103から出力された音声信号に対して音声認識を行って認識結果を出力するものである。音声認識処理手段108に行われる音声認識処理はＬＰＣ音声分析、音声区間検出、パターン照合、判定などの連続した音声認識処理を行う。音声認識の手法は特定のものとする必要がなく、ＨＭＭ、ニューラルネットワーク、Ｎグラム言語モデルなど、一般的に用いられる既存の手法を採用すればよい。
音声認識手段108における音声認識処理の辞書・モデルの選択は、第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から,第二の話者の特徴に適した音声認識用言語モデルを選択する。
【０１４２】
例えば、第二の話者特徴抽出手段により抽出した第二の話者の話者特徴は「子供、女性」の時、第一話者からの発話に対して、音声認識用言語モデルの選択は、「子供、女性」の属性情報を用いて、音声認識用辞書・モデルデータベースから、「子供、女性」との第二の話者特徴を持つ音声認識用言語モデルを選択することができる。具体的に、第二話者の話者属性情報（子供、女性）と、辞書・モデルデータベースに格納されている各種の音声認識用辞書・モデルが持つ属性情報との類似度を算出して、類似度が最大となるものを選択する。このようにして、「子供、女性」との属性を持つ音声認識用言語モデルを選択して音声認識を行うことが可能となる。同様に、第二の話者が他の属性を持つ話者の時、その話者の属性にあう音声認識用言語モデルを、辞書・モデル選択手段により選択して音声認識を行うことにより、音声認識精度を向上することができる。
【０１４３】
テキスト変換処理106では、音声認識手段108からの出力結果を、第二の話者の特徴を利用して辞書・モデル選択手段112により辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中からテキスト変換処理用の辞書・モデルを選択してテキスト変換処理を行う。
【０１４４】
例えば、「林檎」の言い換え用辞書に、子供向けの言い換え用生成ブロックは読み情報の「りんご」と「名詞」である品詞情報と「果物」である意味分類情報と「第二話者の話者特徴（子供）」である第二話者特徴情報から構成されて、成人や外国人向けの言い換え用生成ブロックは読み情報の「アップル」と「名詞」である品詞情報と「果物」である意味分類情報と「第二話者の話者特徴（成人、外国人）」である第二話者特徴情報から構成すれば、テキスト変換処理手段106における言い換え処理は、第二話者の特徴を参照することにより、「アップルを食べてね」の入力に対し、第二話者側は子供の時、「りんごを食べてね」、第二話者が成人の時「アップルをたべてね」と言い換えを行うことができる。
【０１４５】
また、音声合成手段110では、テキスト変換手段106からの変換結果に対し、第二の話者特徴抽出手段105から獲得された第二の話者の特徴を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から音声合成用の辞書・モデルを選択する。
【実施例６】
【０１４６】
実施例６を、図面を参照して説明する。かかる実施例は本発明を実施するための第１の実施の形態に対応するものである。
【０１４７】
図9を参照すると、本実施例は実施例５のテキスト変換手段106の代わりに、機械翻訳手段109を備えている。その他の点は実施例５を同じである。
【０１４８】
本実施例にける音声入力手段103は、第一の話者（第一言語の話者）の音声を取り込んで音声入力解析処理を行うものである。入力音声を解析するための処理は前記第五の実施例の音声入力手段と同様な処理を行ってもよい。
【０１４９】
音声認識手段108は、入力された第一言語の話者の音声を認識するものである。音声認識手法は前記第五の実施例の音声認識処理と同様に処理してもよい。
【０１５０】
音声認識手段108における音声認識処理の辞書・モデルの選択は、第二の話者特徴抽出手段105により抽出された第二言語の話者の特徴を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から音声認識用の辞書・モデルを選択する。結果として、第二言語の話者の特徴に適した音声認識を行うことができる。
【０１５１】
機械翻訳手段109では、音声認識手段108からの出力結果を、第二言語の話者の特徴を利用して辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から翻訳用単語辞書、規則辞書などの辞書・モデルを選択して翻訳処理を行う。
【０１５２】
例えば、英日翻訳の場合、「Please eat the apple!」の音声認識結果を翻訳処理を行うようとする場合、仮に、英日翻訳用単語辞書の単語「apple」は、原言語側の情報を示すブロックと二つの生成ブロックからなる。具体的に、日本語生成側は「りんご」の読み情報と「名詞」の品詞情報と「果物」である意味分類情報と第二言語の話者の属性情報である「第二話者の話者特徴（子供）」で構成する子供向けの一番目の日本語生成ブロックと、「アップル」の読み情報と「名詞」の品詞情報と「果物」である意味分類情報と第二言語の話者の属性情報である「第二話者の話者特徴（成人）」で構成する成人向けの二番目の日本語生成ブロックからなる。同様に、仮に、動詞「eat」の辞書が「eat」の原言語辞書ブロックと、二つの目的言語生成用ブロック「食べる」と「召し上がる」とのブロックからなる。各ブロックは読み情報と、品詞情報と、意味分類情報、第二の話者属性情報などが付与されている。前記「Please eat the apple!」を翻訳する際に、形態素解析と構文解析と目的言語生成処理等の一連の処理を行う。目的言語生成する際に、第二の話者特性を用いて、各訳語候補が持つ話者属性との類似度を算出することにより、訳語選択を行う。子供に「りんご」を選択して「りんごを食べてね！」、成人に「アップル」を選択して丁寧な文法ルールを用いて「アップルをお召し上がりください！」との翻訳結果を提供することができる。
【０１５３】
音声合成手段110は前記第五の実施例の音声合成手段110と同様な処理を行ってもよい。
【０１５４】
音声出力手段111は前記第五の実施例の音声出力手段111と同様な処理を行ってもよい。
【０１５５】
以上のように、第一話者（第一言語の話者）の発話を音声入力手段103へ入力し、第二の話者特徴抽出手段105により獲得された第二の話者の特徴を用いて、辞書・モデル選択手段に112より、辞書・モデルデータベース107から音声認識用の辞書・モデルを選択して音声認識を行う。音声認識手段108からの認識結果に対して、第二の話者の特徴を用いて辞書・モデル選択手段に112より、辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳処理を行う。機械翻訳手段109からの翻訳結果に対して、第二の話者の特徴を用いて辞書・モデル選択手段に112より、辞書・モデルデータベース107から音声合成用辞書を選択して音声合成処理を行う。音声合成処理手段110からの出力は、スピーカなどの音声出力手段を通して出力する。
【実施例７】
【０１５６】
実施例７を、図面を参照して説明する。かかる実施例は本発明を実施するための第２の実施の形態に対応するものである。
【０１５７】
図10を参照すると、本実施例は、テキスト入力手段102と、コミュニケーション処理手段200と、第一の話者の特徴抽出手段104と、第二の話者の特徴抽出手段105と、辞書・モデルデータベース107と、テキスト出力手段115により構成される。
【０１５８】
コミュニケーション処理手段200はテキスト変換手段106と、辞書・モデル選択手段112と、話者関係判定手段113とを備えている。
【０１５９】
また、本実施例において、コミュニケーション処理手段200の各種の処理を行うための各種の辞書・モデルを予め構築して辞書・モデルデータベース107に格納する。例えば、子供男性への発話タイプを、「老人男性から子供男性への発話」タイプと、「老人女性から子供男性への発話」タイプと、「青年男性から子供男性への発話」タイプと、「青年女性から子供男性への発話」タイプと、「若年男性から子供男性への発話」タイプと、「若年女性から子供男性への発話」タイプとの種類に分類することができる。同様に、子供女性への発話タイプを、「老人男性から子供女性への発話」タイプと、「老人女性から子供女性への発話」タイプと、「青年男性から子供女性への発話」タイプと、「青年女性から子供女性への発話」タイプと、「若年男性から子供女性への発話」タイプと、「若年女性から子供女性への発話」タイプとの種類に分類することができる。このようにして分類した発話タイプを示す言語を用いて、「子供への発話」における種々の音声認識用辞書・モデルを構築して辞書・モデルデータベースに格納することができる。同様に、機械翻訳、テキスト変換、音声合成等の辞書・モデルも予め構築して辞書・モデルデータベースに格納する。
【０１６０】
テキスト入力手段101と、テキスト出力手段115と、辞書・モデルデータベース107と、第二の話者特徴抽出手段105においては、それぞれ、前記第一の実施例との対応する部分が同様な処理で構成する。
【０１６１】
第一の話者の特徴抽出手段104は、前記第一の実施例の第二の話者特徴抽出手段105と同様な構成で同じ処理を行ってもよい。
【０１６２】
話者関係判定手段113では、第一の話者の特徴抽出手段104により抽出された第一の話者特徴と、第二の話者の特徴抽出手段105により抽出された第二の話者特徴と比較して話者の関係を判定する。例えば、第一の話者の個人属性が「青年、男性」で、第二の話者の個人属性が「老人、女性」である際に、比較結果は、第一言語側の話者の属性は「第一の話者の特徴（年下、青年男性）」で、第二の話者の属性は「第二の話者の特徴（年上、老年女性）」で得られる。
【０１６３】
辞書・モデル選択手段112では、前記話者関係判定手段113からの出力に基づいて、両話者の話者関係を用いて辞書・モデルデータベース107の中からテキスト変換用辞書・モデルを選択する。
【０１６４】
前述のように、本実施例では、両話者の特徴を同時に抽出して、話者関係判定手段113を通して両話者の関係を示す結果により、辞書・モデル選択手段112により、テキスト変換用辞書・モデルを選択し、両話者の特徴を共に考慮したテキスト変換処理を行う。
【実施例８】
【０１６５】
実施例８を、図面を参照して説明する。かかる実施例は本発明を実施するための第２の実施の形態に対応するものである。
【０１６６】
図11を参照すると、本発明の実施例８に係る音声合成手段110は、図10に示された第七の実施例におけるテキスト出力手段115の代わりに、テキスト変換手段106から出力されたテキストを合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例７を同じである。
【０１６７】
音声合成手段110では、テキスト変換手段106からの出力に対して、話者関係判定手段113から出力された両話者の関係を示す判定結果を用いて、辞書・モデル選択手段112により、辞書・モデルデータベース107の中から、両話者の話者関係を示す音声合成用辞書・モデルを選択し、音声合成処理を行うためのパラメータをコントロールする。
【０１６８】
音声出力手段111では、前記音声合成手段110から出力された合成音声波形信号を音声信号としてスピーカを通して合成音声を出力する。
【実施例９】
【０１６９】
実施例９を、図面を参照して説明する。かかる実施例は本発明を実施するための第２の実施の形態に対応するものである。
【０１７０】
図12を参照すると、本実施例は実施例７のテキスト変換手段106の代わりに、機械翻訳手段109に変えたものを備えている。その他の点は実施例７を同じである。
【０１７１】
機械翻訳手段109では、前記テキスト入力手段102から入力テキストを第二言語に翻訳する手段である。機械翻訳に必要な各種の辞書の選択は、前記第一の話者特徴抽出手段と前記第二の話者の特徴抽出手段により抽出された話者の特徴を前記話者関係判定手段113に出力し、話者関係の判定を行う。話者関係判定手段113からの出力結果を用いて、辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳処理を行う。
【０１７２】
例えば、「会議通訳システム」に本実施例を導入すれば、会議参加者のＰＣへのメモ書きを翻訳する場合、一人の発話者の発話をそれぞれの聞き手の属性に合わせた翻訳結果を提供することができるようになる。
【０１７３】
ここでは、中日通訳が行える会議通訳システムを想定して説明する。仮に青年男性の発話者Ａ（一郎）、老人女性の話者Ｂ、若年男性の話者Ｃの三人がいると想定する．また、仮に、辞書データベース１０７に格納されている翻訳辞書は、「晩生」、「叫」と「一郎」の内容を含む。
【０１７４】
まず、中国語「晩生」を例として説明すると、「晩生」は人称代名詞で、一般的に聞き手より年下の人に、男性でも女性でも使用できる。そのため、「晩生」の原言語側のブロックに「原言語話者特徴（年下）」との属性情報を付与する。「晩生」と対応する日本語の訳語候補は、「わたくし」、「わたし」、「僕」等となるため、構築できる機械翻訳用辞書は原言語側では、「晩生」と原言語話者特徴（年下）から構成される原言語ブロックで、生成側では、「わたくし」と、品詞情報等と、目的言語話者特徴（年上、女性）等の情報から構成する一番目の目的言語生成ブロックと、「わたし」と、品詞情報等と、目的言語話者特徴（年上、男性）等の情報から構成する二番目の目的言語生成ブロックと、「僕」と、品詞情報等と、目的言語話者特徴（年下、男性）等の情報から構成する三番目の目的言語生成ブロックで辞書を構築する。
【０１７５】
次に、中国語動詞「叫」の使用できる人は年齢と性別との関係がなしに対して、日本語側では丁寧度の異なるもの、独立助動詞「だ」と五段動詞「申す」と対応することができる。そのため、「叫」の翻訳辞書は、原言語側では原言語話者特徴（Φ）の属性を付与する。意味は、すべてのユーザに使用できることを示す。一方、生成側では、独立助動詞「だ」の見出し情報と、固有部情報と、品詞情報と、目的言語話者特徴（年下、男性）等の情報から構成される一番目の生成ブロックと、五段動詞「申す」の見出し情報と、固有部情報と、品詞情報と、目的言語話者特徴（年上、女性）等の情報から構成される二番目の生成ブロックで構成されている。また、名詞「一郎」は、一般的な翻訳辞書で、年齢や性別の情報を付与しなくてもよい。
【０１７６】
次に、話者Ａからの自己紹介の例文「晩生叫一郎．」を翻訳例として説明する。
この文を日本語に翻訳する時、まず、中国語の形態素解析と構文解析を行い、その結果、形態素要素代名詞「晩生」、動詞「叫」、名詞「一郎」とをから構成された構文情報が得られる。一方、日本語側では、中日翻訳辞書から、代名詞「晩生」から「わたくし」、「わたし」と「僕」を、動詞「叫」から「だ」と「申す」を、名詞「一郎」から「一郎」を読み込む。
【０１７７】
次に、話者Ａの発話を話者Ｂに翻訳するとき、まず、前記の第一の話者特徴抽出手段104と第二の話者特徴抽出手段105により、両話者の特徴を抽出する。次に話者Ａの特徴「青年、男性」と話者Ｂの特徴「老人、女性」の情報を用いて、話者関係判定手段により両話者の年齢を比較して、原言語話者特徴（年下）と目的言語話者特徴（年上）との結果が得られる。さらに、第一の話者の話者特徴量「青年、男性、原言語話者特徴（年下）」と第二の話者の話者特徴量「老人、女性、目的言語話者特徴（年上）」とを用いて、翻訳辞書が持つ属性情報との類似度を算出して、類似度が最大のものを選択する。その結果、「晩生」の三つの訳語候補の中から、「わたくし」の訳語を選択することになる。同様に「叫」の訳語候補の中から「申す」を選択することになる。
【０１７８】
そのため、日本語生成側の形態素は「わたくし」、「申す」、「一郎」からなる。次に、五段動詞「申す」の格フレームと日本語構文生成規則を用いて目的言語を生成し、「わたくしは一郎と申します」との翻訳結果を話者Ｂに提示することができる。
【０１７９】
同様に、話者Ａの発話を話者Ｃに翻訳する時、「僕は一郎です」との翻訳結果を話者Ｃに提示することができる。
【実施例１０】
【０１８０】
実施例１０を、図面を参照して説明する。かかる実施例は本発明を実施するための第２の実施の形態に対応するものである。
【０１８１】
図13を参照すると、本発明の第九の実施例に係る音声合成手段110は、図12に示された第八の実施例におけるテキスト出力手段115の代わりに、機械翻訳手段109から出力された翻訳結果を合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例８を同じである。
【０１８２】
図13において、第一の話者特徴抽出手段104により第一の話者特徴を抽出する。第二の話者特徴抽出手段105により第二の話者の特徴を抽出する。抽出された第一、第二の話者の話者特徴を用いて話者関係判定手段113により、両話者の関係を判定する。判定された話者関係の結果を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳手段109に利用されて翻訳処理を行う。次に、機械翻訳の結果に対して、判定された話者関係の結果を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から音声合成用辞書・モデルを選択して音声合成を行う。音声合成手段110からの合成音声を音声出力手段111を通じて出力する。
【実施例１１】
【０１８３】
実施例１１を、図面を参照して説明する。かかる実施例は本発明を実施するための第２の実施の形態に対応するものである。
【０１８４】
図14を参照すると、本実施例は実施例８のテキスト入力手段102の代わりに、第一話者の音声を入力する音声入力手段103を備え、入力音声を認識処理を行う音声認識手段108を備えている。その他の点は実施例８を同じである。
【０１８５】
音声入力手段103は、第一の話者の音声を取り込んで音声入力解析処理を行うものである。入力音声を解析するための処理は前記第五の実施例の音声入力手段と同様な処理を行ってもよい。
【０１８６】
音声認識手段108は、入力された第一言語の話者の音声を認識するものである。音声認識手法は前記第五の実施例の音声認識処理と同様に処理してもよい。
【０１８７】
音声認識手段108における音声認識処理の辞書・モデルの選択は、第一の話者特徴抽出手段104により抽出された第一の話者の特徴と、第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、前記話者関係判定手段113により話者関係を判定して、判定結果を利用して前記辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から音声認識用の辞書・モデルを選択する。
【０１８８】
テキスト変換手段106では、音声認識手段108からの出力結果を、前記話者関係判定手段113により獲得された話者関係を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から言い換え用単語辞書や、変換規則辞書などを選択してテキスト変換処理を行う。
【０１８９】
音声合成手段110と音声出力手段111は実施例５の音声合成手段110と音声出力手段111と同様な処理を行うことができる。
【実施例１２】
【０１９０】
実施例１２を、図面を参照して説明する。かかる実施例は本発明を実施するための第２の実施の形態に対応するものである。
【０１９１】
図12を参照すると、本実施例は実施例１１のテキスト変換手段106の代わりに、機械翻訳手段109を備えている。その他の点は実施例１１と同じである。
【０１９２】
音声入力手段103と音声認識手段108は、実施例１１の音声入力手段103と音声認識手段108と同様な構成で処理を行うことができる。
【０１９３】
機械翻訳手段109では、前記話者関係判定手段113により話者関係を判定して、判定結果を利用して前記辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から機械翻訳用の単語辞書、翻訳規則辞書、翻訳モデル等を選択して、機械翻訳処理を行う。
【０１９４】
例えば、中日翻訳の場合、「図３３の文章２」の音声認識結果を翻訳処理する場合、中日翻訳用用言辞書の単語「図３３の単語３」の生成側に、発話者の年齢より「年下」の聞き手に「〜ください」と、発話者の年齢より「年上」の聞き手に「お〜ください」との二つ目的言語生成ブロックを設け、同様に「吃」の辞書に「食べる」（年下）と「召し上がる」（年上）との二つの生成ブロックを設けることができる。また、機械翻訳処理では「図３３の文章２」に対して形態素解析、構文解析を行い、日本語生成するためのルール選択は、前記話者関係判定手段113により獲得された話者関係を示す結果を利用して選択する。そして、「図３３の文章２」の入力文を日本語に翻訳可能な結果として、「林檎を食べてください」と「林檎をお召し上がりください」とを生成することができる。言うまでもなく、第二の話者が発話者より「年下」の時、「林檎を食べてください」が生成されて、第二の話者が発話者より「年上」の時、「林檎をお召し上がりください」という翻訳結果が生成される。
【実施例１３】
【０１９５】
実施例１３を、図面を参照して説明する。かかる実施例は本発明を実施するための第３の実施の形態に対応するものである。
【０１９６】
図16を参照すると、本実施例は、テキスト入力手段102と、第一の話者特徴を抽出する第一の話者特徴抽出手段104と、第二の話者特徴を抽出する第二の話者の特徴抽出手段105と、コミュニケーション処理手段300と、辞書・モデルデータベース107と、話者対話履歴データベース310と、テキスト出力手段115とをから構成される。本実施例におけるコミュニケーション処理手段300は、テキスト変換手段106と、辞書・モデル選択手段112と、対話履歴管理手段114とを有する。
【０１９７】
図16に示す本実施例におけるテキスト入力手段102と、テキスト出力手段115と、第一話者の特徴抽出手段104と、第二の話者特徴抽出手段105と、辞書・モデルデータベース107との部分は、第十二の実施例の対応する部分と同様な構築方法で実現することができる。
話者の対話履歴データベース310では、両話者の話者特徴と共に、話者の対話履歴を時系列で記録する。
【０１９８】
次に、本実施例におけるコミュニケーション処理手段300を、図面を参照して説明する。本実施例におけるコミュニケーション処理手段300における話者関係判定手段113と、辞書モデル選択手段112と、テキスト変換手段106との部分は、第十二の実施例の対応する部分と同様な構築方法で実現することができる。対話管理手段114は、図29に示すように、対話履歴分析手段2901と、話者特徴判定手段2902と、フィードバック処理手段2903とをから構成される。
【０１９９】
対話履歴分析手段2901では、話者関係判定手段113から出力された両話者の特徴と話者関係に基づいて、話者対話履歴データベース310から両話者の対話履歴を抽出して、話者特徴と、対話スタイルと、対話内容のキーワードなどを含むベクトルや、又は前記ベクトルを時系列化したモデルを生成する処理などを行う。
【０２００】
話者特徴判定手段2902では、前記話者対話履歴分析手段2901で生成された対話履歴の特徴ベクトルやモデルなどを用いて、前記第一の話者特徴抽出手段104と前記第二の話者特徴抽出手段105により抽出された話者の特徴及び前記話者関係判定手段113から出力された話者の関係に対する判定結果が正しいかどうかを判定する。
【０２０１】
例えば、日本語の「女言葉」の言語表現を示す特徴量と、「男言葉」の言語表現を示す特徴量とをそれぞれ用意して、話者対話履歴データベース310に保存しておいて、対話履歴分析手段2901からえられた話者の特徴ベクトルと照合することにより、話者の性別の判定を行うことができる。
【０２０２】
フィードバック処理手段2903では、前記話者特徴判定手段2902からの判定結果において、「誤りがある」と判定された際、話者の特徴に対してフィードバック処理を行う。
【０２０３】
例えば、第一の話者と第二の話者が共に男性と推定されたが、第一の話者の入力文が「鍵を持ってきてくれてよかった。ありがとうございました。どうしてかしら、あたし、最近よく忘れ物をするわよ。」がある時に、前記話者特徴判定手段2902により第一の話者が「女性」であることを判定して、フィードバック処理を行うことにより、第一話者の性別の属性値を直すことできる。
【０２０４】
このように、話者の対話の状態や進行から得られる情報を利用し、話者の特徴が「正しいかどうか」を自動的に判断することにより、話者の個人属性の誤りを自動的に検出して訂正する機能を実現することができる。
【実施例１４】
【０２０５】
次に、発明を実施するための実施例１４を、図面を参照して説明する。かかる実施例は本発明を実施するための第３の実施の形態に対応するものである。
【０２０６】
本実施例を図17に示す。図17を参照すると、実施例１４に係る音声合成手段110は、図16に示された実施例１３におけるテキスト出力手段115の代わりに、テキスト変換手段106から出力されたテキストを合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例１３と同じである。
【０２０７】
音声合成手段110と音声出力手段111は、実施例１２の対応する部分とを同じである。
【０２０８】
このように、第一の話者から入力したテキストに対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮したテキスト変換の結果を合成音声で出力することができる。
【実施例１５】
【０２０９】
実施例１５を、図面を参照して説明する。かかる実施例は本発明を実施するための第３の実施の形態に対応するものである。
【０２１０】
本実施例を図18に示す。図18を参照すると、本実施例は実施例１３のテキスト変換手段106の代わりに、機械翻訳手段109に変えたものを備えている。その他の点は実施例１３と同じである。
【０２１１】
機械翻訳手段109では、前記テキスト入力手段102から入力テキストを第二言語に翻訳する手段である。機械翻訳に必要な各種の辞書の選択は、前記第一の話者特徴抽出手段と前記第二の話者の特徴抽出手段により抽出された話者の特徴を前記話者関係判定手段113に出力し、話者関係の判定を行う。話者関係判定手段113からの出力結果に対して、話者対話履歴データベースから話者の対話履歴を抽出して対話管理手段114により話者の特徴が正しいかどうかを判定する。対話管理手段114から出力された正しい話者特徴と話者関係を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳処理を行う。
【０２１２】
このように、第一の話者から入力したテキストに対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮した機械翻訳処理の結果を提供することができる。
【実施例１６】
【０２１３】
実施例１６を、図面を参照して説明する。かかる実施例は本発明を実施するための第３の実施の形態に対応するものである。
【０２１４】
本実施例を図19に示す。図19を参照すると、本実施例は実施例１５に係る音声合成手段110は、図18に示された実施例１５におけるテキスト出力手段115の代わりに、機械翻訳手段109から出力された翻訳結果を合成音声処理を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例１５と同じである。
【０２１５】
音声合成手段110と音声出力手段111は、実施例１４の対応する部分とを同じである。
【０２１６】
このように、第一の話者から入力したテキストに対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮した機械翻訳結果を合成音声で出力することができる。
【実施例１７】
【０２１７】
実施例１７を、図面を参照して説明する。かかる実施例は本発明を実施するための第３の実施の形態に対応するものである。
【０２１８】
本実施例を図20に示す。図20を参照すると、本実施例に係る音声合成手段110は、図17に示された実施例１４におけるテキスト入力手段102の代わりに、第一話者の音声を入力する音声入力手段103を備え、入力音声を認識処理を行う音声認識手段108を備えている。その他の点は実施例１４と同じである。
【０２１９】
このように、第一の話者からの音声入力に対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮したテキスト変換処理の結果を合成音声で出力することができる。
【実施例１８】
【０２２０】
実施例１８を、図面を参照して説明する。かかる実施例は本発明を実施するための第３の実施の形態に対応するものである。
【０２２１】
本実施例を図21に示す。図21を参照すると、本実施例は実施例１７のテキスト変換手段106の代わりに、機械翻訳手段109を備えている。その他の点は実施例１７と同じである。
【０２２２】
機械翻訳手段109では、前記テキスト入力手段102から入力テキストを第二言語に翻訳する手段である。機械翻訳に必要な各種の辞書の選択は、前記第一の話者特徴抽出手段と前記第二の話者の特徴抽出手段により抽出された話者の特徴を前記話者関係判定手段113に出力し、話者関係の判定を行う。話者関係判定手段113からの出力結果に対して、話者対話履歴データベースから話者の対話履歴を抽出して対話管理手段114により話者の特徴が正しいかどうかを判定する。対話管理手段114から出力された正しい話者特徴と話者関係を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳処理を行う。
【０２２３】
このように、第一の話者からの音声入力に対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮した機械翻訳結果を合成音声で出力することができる。
なお、本発明における各実施の形態及び実施例の応用においては、単一的な計算機装置やシステムに限定せず、複数の端末や計算機などによりシステムを構成することも出来る。
例えば、第二の実施の形態に対応して、入力手段101と第一の話者特徴抽出手段104を第一の端末に、出力手段111と第二の話者特徴抽出手段105を第二の端末に、コミュニケーション処理手段200をサーバコンピュータに配置して、各端末とサーバコンピュータがネットワーク経由でお互いに通信しながら処理を実行するように実施することは容易である。
【産業上の利用可能性】
【０２２４】
本発明のコミュニケーションシステムが、各モジュールを実現するための機能を含むテキスト及び音声出力方法、その各手順を電子機器などに実行させるための音声コミュニケーションプログラム及びこれらのプログラムを記録した電子機器読み取り可能な記録媒体と、これらのプログラムを含む電子機器の内部メモリに内臓可能なプログラム製品、そのプログラムを含む携帯端末やサーバなどの計算機、音声通訳装置などにより提供することができる。
【０２２５】
本発明によると、以上説明したとおり、両話者のコミュニケーションシステムにおける音声対話システム、テレビ会議システム、テレビ電話自動通訳システム、又は音声通訳システムにおける同言語間、又は異なる言語体系の話者におけるコミュニケーションの補助を行うことができる。また、本発明は、話者の個人属性を音声認識、言い換えや機械翻訳、音声合成に用いることにより、高い音声認識精度と、機械翻訳精度と豊富な音声合成機能、多用な言語表現機能をユーザに提供することができる。特に、本発明は、同言語の話者同士に対しても、異なる言語体系の話者に対しても、必要に応じるシステムを構築することにより、話者間の円滑なコミュニケーションを実現することができる。
【図面の簡単な説明】
【０２２６】
【図１】本発明の第一の実施形態における情報処理システムの概略構成を示すブロック図である。
【図２】本発明の第二の実施形態における情報処理システムの概略構成を示すブロック図である。
【図３】本発明の第三の実施形態における情報処理システムの概略構成を示すブロック図である。
【図４】本発明の第一の実施形態における実施例1の概略構成を示すブロック図である。
【図５】本発明の第一の実施形態における実施例2の概略構成を示すブロック図である。
【図６】本発明の第一の実施形態における実施例3の概略構成を示すブロック図である。
【図７】本発明の第一の実施形態における実施例4の概略構成を示すブロック図である。
【図８】本発明の第一の実施形態における実施例5の概略構成を示すブロック図である。
【図９】本発明の第一の実施形態における実施例6の概略構成を示すブロック図である。
【図１０】本発明の第二の実施形態における実施例1の概略構成を示すブロック図である。
【図１１】本発明の第二の実施形態における実施例2の概略構成を示すブロック図である。
【図１２】本発明の第二の実施形態における実施例3の概略構成を示すブロック図である。
【図１３】本発明の第二の実施形態における実施例4の概略構成を示すブロック図である。
【図１４】本発明の第二の実施形態における実施例5の概略構成を示すブロック図である。
【図１５】本発明の第二の実施形態における実施例6の概略構成を示すブロック図である。
【図１６】本発明の第三の実施形態における実施例1の概略構成を示すブロック図である。
【図１７】本発明の第三の実施形態における実施例2の概略構成を示すブロック図である。
【図１８】本発明の第三の実施形態における実施例3の概略構成を示すブロック図である。
【図１９】本発明の第三の実施形態における実施例4の概略構成を示すブロック図である。
【図２０】本発明の第三の実施形態における実施例5の概略構成を示すブロック図である。
【図２１】本発明の第三の実施形態における実施例6の概略構成を示すブロック図である。
【図２２】本発明における第一の実施形態のアルゴリズムを示すフローチャートである。
【図２３】本発明における第二の実施形態のアルゴリズムを示すフローチャートである。
【図２４】本発明における第三の実施形態のアルゴリズムを示すフローチャートである。
【図２５】第２の実施の形態における一種の日英機械翻訳辞書構造を示す例である。
【図２６】図25の辞書例から生成可能な翻訳結果を示す図である。
【図２７】音声認識用モデルの識別情報を示す図である。
【図２８】辞書・モデルデータベースに格納する機械翻訳用辞書の日本語文体情報を示す実施例である。
【図２９】従来の音声認識装置の概略構成図である。
【図３０】従来のメール文章を読み上げて合成音声を出力する概略構成図である。
【図３１】従来の音声応答装置の概略構成図である。
【図３２】従来の音声応答装置の概略構成図である。
【図３３】本発明を説明する為の図である。
【符号の説明】
【０２２７】
100 コミュニケーション処理手段
101 入力手段
102 テキスト入力手段
103 音声入力手段
104 第一の話者特徴抽出手段
105 第二の話者特徴抽出手段
106 テキスト変換手段
107 辞書・モデルデータベース
108 音声認識手段
109 機械翻訳手段
110 音声合成手段
111 音声出力手段
112 辞書・モデル選択手段
113 話者関係判定手段
114 対話履歴管理手段
115 テキスト出力手段
116 出力手段
200 コミュニケーション処理手段
300 コミュニケーション処理手段
310 話者対話履歴データベース

【特許請求の範囲】
【請求項１】
第一の話者から第二の話者へのコミュニケーションの処理を行う情報処理システムであって、
前記第二の話者の特徴を抽出する第二の話者特徴抽出手段と、
前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理するコミュニケーション処理手段と
を有することを特徴とする情報処理システム。
【請求項２】
前記第一の話者の特徴を抽出する第一の話者特徴抽出手段を有し、
前記コミュニケーション処理手段は、前記一の話者の特徴及び前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理する
ことを特徴とする請求項１に記載の情報処理システム。
【請求項３】
前記コミュニケーション処理手段は、
前記１の話者の特徴及び前記第二の話者の特徴に基づいて、話者の関係を判定する話者関係判定手段を有し、
前記判定された話者の関係を参照して、第一の話者からの入力データを処理する
ことを特徴とする請求項２に記載の情報処理システム。
【請求項４】
話者の対話履歴を保存する対話履歴データベースと、
前記コミュニケーション処理手段は、前記１の話者の特徴又は前記第二の話者の特徴と、前記対話履歴データベース話者の対話履歴とに基づいて、第一の話者からの入力データを処理する
ことを特徴とする請求項２又は請求項３に記載の情報処理システム。
【請求項５】
前記コミュニケーション処理手段は、
辞書・モデルデータベースと、
第二の話者の特徴に基づいて、辞書・モデルデータベースから辞書又はモデルを選択する辞書・モデル選択手段と、
選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適したデータに変換するデータ変換手段と
を有することを特徴とする請求項１から請求項４のいずれかに記載の情報処理システム。
【請求項６】
前記データ変換手段が、選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適したテキストに変換するテキスト変換手段であることを特徴とする請求項５に記載の情報処理システム。
【請求項７】
前記データ変換手段が、選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適した音声合成を行う音声合成手段であることを特徴とする請求項５に記載の情報処理システム。
【請求項８】
前記データ変換手段が、選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適した言語表現に翻訳する翻訳手段であることを特徴とする請求項５に記載の情報処理システム。
【請求項９】
前記データ変換手段が、選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適した言語表現に翻訳し、翻訳した言語表現を第２の話者に適した音声合成を行う翻訳・音声合成手段であることを特徴とする請求項５に記載の情報処理システム。
【請求項１０】
第１の話者の音声を音声認識して入力データとして出力する音声認識手段を有することを特徴とする請求項１から請求項９のいずれかに記載の情報処理システム。
【請求項１１】
前記コミュニケーション処理手段は、前記話者関係判定手段の判定に基づいて、前記辞書・モデルデータベースから辞書又はモデルを選択することを特徴とする請求項３から請求項１０のいずれかに記載の情報処理システム。
【請求項１２】
前記コミュニケーション処理手段は、前記話者特徴抽出手段から抽出した話者特徴に基づいて話者の対話履歴データベースから話者の対話履歴を分析して得られた各種のパターンとの照合を行う対話管理手段を有することを特徴とする請求項３から請求項１０のいずれかに記載の情報処理システム。
【請求項１３】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、話者の音声データから話者の特徴を抽出することを特徴とする請求項１から請求項１２のいずれかに記載の情報処理システム。
【請求項１４】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、話者の顔画像から話者の特徴を抽出することを特徴とする請求項１から請求項１２のいずれかに記載の情報処理システム。
【請求項１５】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、センサーにより話者の特徴を抽出することを特徴とする請求項１から請求項１２のいずれかに記載の情報処理システム。
【請求項１６】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、前記話者の個人属性を通信可能なＩＣカード、前記話者の個人属性を通信可能なＩＣカードに内蔵した端末装置、前記ＩＣカードまたは前記端末を用いることにより話者の特徴を抽出することを特徴とする請求項１から請求項１２のいずれかに記載の情報処理システム。
【請求項１７】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、話者の性別、年齢、人種、身体姿勢又は生体情報を示す個人属性を出力することを特徴とする請求項１から請求項１２のいずれかに記載の情報処理システム。
【請求項１８】
第一の話者から第二の話者へのコミュニケーションの処理を行う処理方法であって、
前記第二の話者の特徴を抽出する第一の話者特徴抽出処理と、
前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理するコミュニケーション処理と
を有することを特徴とする処理方法。
【請求項１９】
前記第一の話者の特徴を抽出する第二の話者特徴抽出処理を有し、
前記コミュニケーション処理は、前記１の話者の特徴及び前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理する
ことを特徴とする請求項１８に記載の処理方法。
【請求項２０】
前記コミュニケーション処理は、
前記１の話者の特徴及び前記第二の話者の特徴に基づいて、話者の関係を判定する話者関係判定処理を有し、
前記判定された話者の関係を参照して、第一の話者からの入力データを処理する
ことを特徴とする請求項１９に記載の処理方法。
【請求項２１】
前記コミュニケーション処理は、前記１の話者の特徴又は前記第二の話者の特徴と、話者の対話履歴とに基づいて、第一の話者からの入力データをする
ことを特徴とする請求項１９又は請求項２０に記載の処理方法。
【請求項２２】
前記コミュニケーション処理手段は、第二の話者の特徴に基づいて、辞書・モデルデータベースから辞書又はモデルを選択し、選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適したデータに変換するデータ変換処理を有することを特徴とする請求項１８から請求項２１のいずれかに記載の処理方法。
【請求項２３】
前記データ変換処理は、選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適したテキストに変換する処理であることを特徴とする請求項２２に記載の処理方法。
【請求項２４】
前記データ変換処理は、選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適した音声合成を行う処理であることを特徴とする請求項２２に記載の処理方法。
【請求項２５】
前記データ変換処理は、選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適した言語表現に翻訳する処理であることを特徴とする請求項２２に記載の処理方法。
【請求項２６】
前記データ変換処理は、選択された辞書又はモデルを用いて、第一の話者からの入力データを第２の話者に適した言語表現に翻訳し、翻訳した言語表現を第２の話者に適した音声合成を行う処理であることを特徴とする請求項２２に記載の処理方法。
【請求項２７】
第１の話者の音声を音声認識して入力データとして出力する音声認識処理を有することを特徴とする請求項１８から請求項２６のいずれかに記載の処理方法。
【請求項２８】
前記コミュニケーション処理は、前記話者関係判定処理の判定に基づいて、辞書・モデルデータベースから辞書又はモデルを選択することを特徴とする請求項２０から請求項２７のいずれかに記載の処理方法。
【請求項２９】
前記コミュニケーション処理は、抽出した話者特徴に基づいて、話者の対話履歴データベースから話者の対話履歴を分析して得られた各種のパターンとの照合を行う対話管理処理を有することを特徴とする請求項２１から請求項２８のいずれかに記載の処理方法。
【請求項３０】
話者の音声データから、第一の話者の特徴又は第二の話者の特徴を抽出することを特徴とする請求項１８から請求項２９のいずれかに記載の処理方法。
【請求項３１】
話者の顔画像から、第一の話者の特徴又は第二の話者の特徴を抽出することを特徴とする請求項１８から請求項２９のいずれかに記載の処理方法。
【請求項３２】
センサーにより、第一の話者の特徴又は第二の話者の特徴を抽出することを特徴とする請求項１８から請求項２９のいずれかに記載の処理方法。
【請求項３３】
前記話者の個人属性を通信可能なＩＣカード、前記話者の個人属性を通信可能なＩＣカードに内蔵した端末装置、前記ＩＣカードまたは前記端末を用いることにより、第一の話者の特徴又は第二の話者の特徴を抽出することを特徴とする請求項１８から請求項２９のいずれかに記載の処理方法。
【請求項３４】
話者の性別、年齢、人種、身体姿勢又は生体情報を示す個人属性を出力することを特徴とする請求項１８から請求項２９のいずれかに記載の処理方法。
【請求項３５】
第一の話者から第二の話者へのコミュニケーションの処理を実行する情報処理システムのプログラムであって、
前記第二の話者の特徴を抽出する第一の話者特徴抽出処理と、
前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理するコミュニケーション処理と
を情報処理システムに実行させるプログラム。
【請求項３６】
前記第一の話者の特徴を抽出する第二の話者特徴抽出処理を情報処理システムに実行させ、
前記コミュニケーション処理は、前記１の話者の特徴及び前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理する
ことを特徴とする請求項３５に記載のプログラム。
【請求項３７】
前記コミュニケーション処理は、
前記１の話者の特徴及び前記第二の話者の特徴に基づいて、話者の関係を判定する処理と、
前記判定された話者の関係を参照して、第一の話者からの入力データを処理する処理と
を有することを特徴とする請求項３６に記載のプログラム。

【図１】