説明

情報処理システム、処理方法及びプログラム

【課題】ユーザ間のコミュニケーションを円滑に行うための情報処理システム、処理方法及びプログラムを提供すること。
【解決手段】ユーザ間のコミュニケーションを円滑に行うための情報処理システムであり、第一の話者から第二の話者へのコミュニケーションの処理を行う情報処理システムであって、第二の話者の特徴を抽出する第二の話者特徴抽出手段と、第二の話者の特徴に基づいて、第一の話者からの入力データを処理するコミュニケーション処理手段とを有することを特徴とする情報処理システムである。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザ間のコミュニケーションを円滑に行うための情報処理システム、処理方法及びプログラムに関する。
【背景技術】
【0002】
人間と機械または機械を介した人間と人間のコミュニケーションシステムは異なるユーザであっても出力が円滑に対応できるように、様々なシステムが提案されている。
【0003】
例えば、音声認識の分野では、話者の顔画像の特徴を用いた音声認識システムが提案されている(特許文献1参照)。
【0004】
この特許文献1に記載された音声認識システムは、図30に示すように、音声認識入力部と映像信号入力部と、不特定話者音声認識部と、特定話者音声認識部と、画像処理部と、認識結果統合部とで構成される。画像処理部は、顔領域抽出部と、顔画像データベースと、画像比較部とから構成される。特定話者音声認識部は、音声処理部と、音声データベースと、音声認識処理部とから構成されている。
【0005】
このシステムでは、発話者の顔画像の特徴を用いて話者を特定し、複数の特定話者の入力に対しても、高い認識率を実現することができる音声認識方式を提供している。
【0006】
また、文章の送り手と受け手の待遇関係を利用し、文章から合成音声を出力する情報処理方法が提案されている(特許文献2参照)。
【0007】
この特許文献2に記載された情報処理方法は、図31に示すように、メールボックスとコマンド入力部と、操作管理部と、電子メール管理部と、文章読み上げ部と、音声送信部と、文章解析部と、文章生成部と、待遇判定部と、意味表現要約部とで構成される。
【0008】
このシステムにおける待遇関係の判定は、予め記憶されている送り手と受け手のプロファイル情報を利用して行う。
【0009】
また、ユーザのタイプを識別して音声認識、対話制御及び音声合成を選定する音声応答装置が発明されている(特許文献3参照)
この特許文献3に記載された音声応答装置は、図32に示すように、ユーザのタイプ識別手段と、音声認識手段と、対話制御手段と、データベースと、音声合成手段とから構成される。
【0010】
このシステムでは、一人のユーザに対してユーザのタイプを識別し、その識別情報を用いて音声認識、対話制御及び音声合成を行い、そのユーザに適した応答音声を出力する。
【特許文献1】特開平11-282492号公報
【特許文献2】特開平10-149361号公報
【特許文献3】特開2004-163541号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
しかしながら、前記特許文献に記載された技術の第一の問題点は、第一の話者からの入力に対し、第二の話者の特徴に適した音声認識、テキスト変換又は機械翻訳、音声合成等のコミュニケーション処理は行えないことである。
【0012】
その理由は、まず、前記特許文献1及び文献3においては、第二の話者の個人属性を獲得する手段を設けていないためである。
【0013】
また、前記の特許文献2において、文章の送り手と受け手のプロファイルからユーザの個人属性を獲得することになっているため、第二の話者のプロファイルが予め与えられていない場合には、第二の話者の特徴が獲得できなくなるためである。
【0014】
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、ユーザ間のコミュニケーションを円滑に行うための情報処理システム、処理方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0015】
上記目的を達成する本発明は、第一の話者から第二の話者へのコミュニケーションの処理を行う情報処理システムであって、前記第二の話者の特徴を抽出する第二の話者特徴抽出手段と、前記第二の話者の特徴に基づいて、第一の話者からの入力データの最適化処理を行うコミュニケーション処理手段とを有することを特徴とする情報処理システムである。
【0016】
また、上記目的を達成する本発明は、第一の話者から第二の話者へのコミュニケーションの処理を行う処理方法であって、前記第二の話者の特徴を抽出する第一の話者特徴抽出処理と、前記第二の話者の特徴に基づいて、第一の話者からの入力データのコミュニケーション処理を行うコミュニケーション処理とを有することを特徴とする処理方法である。
【0017】
また、上記目的を達成する本発明は、第一の話者から第二の話者へのコミュニケーションの処理を実行する情報処理システムのプログラムであって、前記第二の話者の特徴を抽出する第一の話者特徴抽出処理と、前記第二の話者の特徴に基づいて、第一の話者からの入力データの最適化処理を行うコミュニケーション処理とを情報処理システムに実行させるプログラムである。
【発明の効果】
【0018】
本発明によれば、種々の属性を持つ話者の発話に対して、第二の話者のプロファイルを予め用意しなくても、第二の話者の話者特徴を第一の話者から第二話者への音声認識、テキスト変換又は機械翻訳、音声合成等のコミュニケーション処理を行うことができることにある。
【発明を実施するための最良の形態】
【0019】
<第1の実施の形態>
第1の実施の形態を説明する。
【0020】
第1の実施の形態は、音声やテキスト等によるコミュニケーションを発する第一の話者と、そのコミュニケーションを受ける側の第二の話者との間の翻訳、音声合成等のコミュニケーション処理を図るシステムにおいて、第二の話者の特徴量を抽出する第二の話者特徴抽出手段を設けて第二の話者の個人属性をリアルタイム的に抽出する。そして、第二の話者の特徴抽出手段により抽出された第二の話者の話者属性と辞書・モデルデータベースに格納されたモデル群の各モデルが持つ属性との類似度を算出し、類似度が最大となるものを選び出し、第一の話者の音声、テキスト等に対して、第二の話者に適した音声認識、テキスト変換又は機械翻訳、音声合成等のコミュニケーション処理を行うものである。
【0021】
また、第1の実施の形態におけるコミュニケーション処理システムにおける辞書・モデルデータベースに格納された辞書・モデルは、音声認識用辞書・モデル、機械翻訳用辞書・モデル、テキスト変換用辞書・モデル、音声合成用辞書・モデル等の各種の辞書・モデルを、第二の話者の特徴に基づいて予め構築する。例えば、音声認識用言語モデルの構築では、第一の話者から第二の話者への発話タイプを、「老人男性への発話」タイプと、「老人女性への発話」タイプと、「壮年男性への発話」タイプと、「壮年女性への発話」タイプと、「青年男性への発話」タイプと、「青年女性への発話」タイプと、「若年男性への発話」タイプと、「若年女性への発話」タイプと、「子供男性への発話」タイプと、「子供女性への発話」タイプに分類して音声認識用言語モデルを構築することができる。同様に、第二の話者の特徴に基づく機械翻訳用辞書・モデル、テキスト変換用辞書・モデル、音声合成用辞書・モデル等を予め構築して辞書・モデルデータベースに格納しておく。
【0022】
また、コミュニケーション処理として第一の話者の音声認識を行う場合にも、抽出された第二の話者の特徴を用いることにより、辞書・モデルデータベースから、適切な第一の話者の音声認識用の音声認識用辞書・モデルを選択することができる。例えば、第二の話者特徴抽出手段により抽出した第二の話者の特徴が「子供、女性」の時、第一話者からの発話に対する音声認識用言語モデルの選択は、「子供、女性」の属性情報を用いて、音声認識用辞書・モデルデータベースから、第1の話者が「子供、女性」に話しかける時に用いられる「子供、女性」の音声認識用言語モデルを選択することができる。具体的には、第二の話者の話者属性情報(子供、女性)と、辞書・モデルデータベースに格納されている各種の音声認識用辞書・モデルが持つ属性情報との類似度を算出して、類似度が最大となるものを選択する。このようにして、「子供、女性」の属性を持つ音声認識用言語モデルを選択して、第一の話者の音声認識を行うことが可能となる。同様に、第二の話者が他の属性を持つ話者であっても、その話者の属性にあう音声認識用言語モデルを、辞書・モデル選択手段により選択し、音声認識を行うことが可能となる。
【0023】
また、コミュニケーション処理手段として第一の話者の言語の機械翻訳を行う場合、第二話者の特徴を用いて、辞書・モデルデータベースに格納された翻訳辞書を選択する。例えば、英日翻訳の場合、日本語生成用辞書を第二話者の属性に応じて予め構築して辞書・モデルデータベースに格納する。英語人称代名詞「your」を例として説明すると、「your」と対応する日本語の訳語候補は「あなたの」、「君の」と「僕の」等の訳語を持たせる。そのため、機械翻訳用辞書は原言語辞書単語「your」の目的言語ブロックは、日本語見出し語「あなたの」と品詞情報と、第二の話者の話者属性を示す情報「若年、男性」等の情報から構成する一番目の目的言語辞書ブロックと、見出し語「君の」と品詞情報と、第二の話者の話者属性を示す「青年、男性」等の情報から構成する二番目のブロックと、見出し語「僕の」と品詞情報と、第二の話者の話者属性を示す「子供、男性」等の情報から構成する三番目のブロックとで、英語人称代名詞「your」の辞書を構築することができる。例えば、システムに第一の話者から英文「What is your name?」を入力して、第二の話者が「子供、男性」であると推定された場合、まず、英語の形態素解析と構文解析を行い、その結果、形態素要素英語疑問代名詞「What」、Be動詞「be」、人称代名詞「your」、名詞「name」との情報を得ることができる。一方、日本語側では、英日翻訳辞書から「What」から「何」を、「be」から「だ」を、「name」から「名前」を、「your」から「あなたの」と「君の」と「僕の」との三つの候補を読み込む。次に、前記の「子供、男性」の情報を用いて、「your」の三つの日本語候補の話者特徴との類似度を算出し、「子供、男性」を持つ「僕の」のブロックの類似度が最大となるため、「your」の訳語が「僕の」となる。次に、日本語を生成するための形態素は「何」、「だ」、「僕の」、「名前」となる。次に、日本語独立助動詞「だ」が持つ格フレームと翻訳規則を用いて機械翻訳を行い、「僕の名前は何だ?」と出力を提供することができる。同様に、第二の話者の属性は「青年、男性」の場合、翻訳結果は「君の名前は何ですか?」、第二の話者の属性は「若年、男性」の場合、翻訳結果は「あなたの名前は何ですか?」との翻訳結果を生成する。
【0024】
また、コミュニケーション処理が音声合成処理であり、第二の話者が老人の場合、辞書・モデル選択手段により、第二の話者の特徴を用いて、高齢者用の音声合成用辞書・モデルを選択し、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、第1の話者のテキスト、音声等を、高齢者に適した、速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールすることができる。
【0025】
次に、第1の実施の形態における具体的な構成について図面を参照して詳細に説明する。
【0026】
図1は、本発明を実施するための第1の実施の形態の構成を示すブロック図である。
【0027】
図1を参照すると、本発明の第一の実施の形態は、第1の話者の音声、画像、又は文字情報等のデータを入力する入力手段101と、入力データを処理するコミュニケーション処理手段100と、第二の話者の特徴を抽出する第二の話者特徴抽出手段105と、コミュニケーション処理手段100から出力された文字、音声、画像等の情報を出力する出力手段116とを備えている。
【0028】
コミュニケーション処理手段100は、辞書・モデル選択手段、音声認識手段、テキスト変換手段、機械翻訳手段、音声合成手段等の中から、一つまたは二つ以上の構成でコミュニケーション処理を実施する。
【0029】
また、本実施の形態において、コミュニケーション処理手段100の各種の処理を行うため、上述したように各種の辞書・モデルを予め構築して辞書・モデルデータベースに格納しておく。
【0030】
例えば、音声認識用言語モデルの構築において、第一話者からの発話タイプとして、「老人男性への発話」タイプと、「老人女性への発話」タイプと、「壮年男性への発話」タイプと、「壮年女性への発話」タイプと、「青年男性への発話」タイプと、「青年女性への発話」タイプと、「若年男性への発話」タイプと、「若年女性への発話」タイプと、「子供男性への発話」タイプと、「子供女性への発話」タイプに分類して音声認識用言語モデルを構築する。同様に、第二の話者の話者特徴に基づく機械翻訳用辞書・モデル、テキスト変換用辞書・モデル、音声合成用辞書・モデル等を予め構築して辞書・モデルデータベースに格納しておく。
【0031】
第二の話者特徴抽出手段105による第二の話者の特徴抽出は、第二の話者の音声データ、顔画像、指紋等、他の生体情報などからもその話者の特徴を抽出する。また、第二の話者のプロファイルが提供された場合や、センサーや話者の個人属性を通信可能なICカードまたは話者の個人属性を通信可能なICカードに内蔵した端末装置等を用いることにより第二の話者の特徴を抽出することもできる。例えば、第二話者の音声データや顔画像を含む画像データなどを用いて年齢、性別等の属性情報を抽出することができる。
【0032】
次に、図1と図22を参照して本発明を実施するための第一の形態の動作について詳細に説明する。
【0033】
入力手段101を通じてシステムにデータを入力する(ステップ2201)。
【0034】
次に、第二の話者特徴抽出手段105により第二の話者の個人属性を示す話者特徴を抽出する(ステップ2202)。
【0035】
次に、第二の話者特徴抽出手段105から抽出された第二の話者の特徴を用いて、辞書・モデル選択手段により、コミュニケーション処理用の辞書・モデルの選択処理を行う(ステップ2203)。例えば、入力は文で、コミュニケーション処理として機械翻訳を行う場合、辞書・モデル選択手段により、第二の話者の話者特徴に適した翻訳辞書・モデルを選択する。また、入力は音声で、コミュニケーション処理として音声認識を行うよう実施した場合、辞書・モデル選択手段により、第二の話者の話者特徴に適した音声認識用辞書・モデルを選択する。尚、辞書・モデル選択手段では、第二の話者特徴抽出手段105から抽出した第二の話者の特徴と、辞書・モデルデータベースに格納された各種の辞書・モデルが持つ属性情報との類似度を算出し、類似度が最大となるものを選択する。
【0036】
次に、前記のステップで選択された辞書・モデルを用いて、コミュニケーション処理手段100によりコミュニケーション処理を行う(ステップ2204)。コミュニケーション処理方式として、音声認識、テキスト変換、機械翻訳、音声合成等を実施することができる。
【0037】
そして、前記コミュニケーション処理手段100での処理結果を、出力装置を通じて出力する(ステップ2205)。
【0038】
本発明を実施するための第1の実施の形態の効果について説明する。
【0039】
本発明の第1の実施の形態では、第二の話者特徴抽出手段を設けることにより、第二の話者のプロファイルを予め用意しなくても、第二の話者の話者特徴を利用したコミュニケーション処理が可能となる。
【0040】
具体的には、コミュニケーション処理として音声認識を行うよう実施した場合、第二の話者の特徴に適した音声認識方法を提供し、音声認識の精度を改善できるとなる効果を有する。
【0041】
例えば、第二の話者特徴抽出手段により抽出した第二の話者の話者特徴が「子供、女性」の時、第一話者からの発話に対する音声認識用言語モデルの選択は、「子供、女性」の属性情報を用いて、音声認識用辞書・モデルデータベースから、「子供、女性」の第二の話者特徴を持つ音声認識用言語モデルを選択する。具体的に、第二話者の話者属性情報(子供、女性)と、辞書・モデルデータベースに格納されている各種の音声認識用辞書・モデルが持つ属性情報との類似度を算出して、類似度が最大となるものを選択する。このようにして、「子供、女性」の属性を持つ音声認識用言語モデルを選択して、第1の話者の発話の音声認識を行うことが可能となる。同様に、第二の話者が他の属性を持つ話者の時、その話者の属性にあう音声認識用言語モデルを、辞書・モデル選択手段により選択し、音声認識を行うことが可能となる。
【0042】
また、コミュニケーション処理として機械翻訳を行うよう実現した場合、第二話者の特徴を用いて、辞書・モデルデータベースに格納された翻訳辞書を選択することにより、第二の話者の特徴に適した機械翻訳手法を提供し、翻訳結果の多様性を実現することができる効果を有する。
【0043】
例えば、英日翻訳の場合、日本語生成用辞書を第二話者の属性に応じて予め構築して辞書・モデルデータベースに格納する。英語人称代名詞「your」を例として説明すると、「your」と対応する日本語の訳語候補は「あなたの」、「君の」と「僕の」等の訳語を持たせることができる。そのため、機械翻訳用辞書は原言語辞書単語「your」の目的言語ブロックは、日本語見出し語「あなたの」と品詞情報と、第二の話者の話者属性を示す情報「若年、男性」等の情報から構成する一番目の目的言語辞書ブロックと、見出し語「君の」と品詞情報と、第二の話者の話者属性を示す「青年、男性」等の情報から構成する二番目のブロックと、見出し語「僕の」と品詞情報と、第二の話者の話者属性を示す「子供、男性」等の情報から構成する三番目のブロックとで、英語人称代名詞「your」の辞書を構築する。仮に、システムに第一話者から英文「What is your name?」を入力して、第二の話者が「子供、男性」であると推定された場合、機械翻訳では、まず、英語の形態素解析と構文解析を行い、その結果、形態素要素英語疑問代名詞「What」、Be動詞「be」、人称代名詞「your」、名詞「name」との情報を得る。一方、日本語側では、英日翻訳辞書から「What」から「何」を、「be」から「だ」を、「name」から「名前」を、「your」から「あなたの」と「君の」と「僕の」との三つの候補を読み込む。次に、前記の「子供、男性」の情報を用いて、「your」の三つの日本語候補の話者特徴との類似度を算出し、「子供、男性」を持つ「僕の」のブロックの類似度が最大となるため、「your」の訳語が「僕の」となる。次に、日本語を生成するための形態素は「何」、「だ」、「僕の」、「名前」となる。日本語独立助動詞「だ」が持つ格フレームと翻訳規則を用いて機械翻訳を行い、「僕の名前は何だ?」と出力を提供することができる。同様に、第二の話者の属性は「青年、男性」の場合、翻訳結果は「君の名前は何ですか?」、第二の話者の属性は「若年、男性」の場合、翻訳結果は「あなたの名前は何ですか?」との翻訳結果を生成する翻訳方法を提供することにより、翻訳結果の多様性を実現することができる。
【0044】
また、コミュニケーション処理として音声合成を行うよう実現した場合、合成された音声の実用性を高める効果を有する。
【0045】
例えば、第二の話者が老人の場合、辞書・モデル選択手段により、第二の話者特徴を用いて音声合成用辞書・モデルを選択して、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールするができる音声合成方法を提供することにより、合成された音声の実用性を高める効果を有する。
<第2の実施の形態>
第2の実施の形態は、第1の実施の形態の構成に加えて、第一の話者の特徴を抽出する第一の話者特徴抽出手段を更に設け、両話者の個人属性をリアルタイム的に獲得し、第一の話者属性と第二の話者の話者属性とを用いて、辞書・モデル選択手段により、予め用意された辞書・モデルデータベースの各モデルが持つ属性との類似度を算出して、その類似度が最大となるものを選び出して、音声認識、テキスト変換又は機械翻訳、音声合成等のコミュニケーション処理を行う。
【0046】
第2の実施の形態における、第一の話者の話者特徴と第二の話者の話者特徴とを共に用いたコミュニケーション処理システムにおいては、辞書・モデルデータベースに格納された辞書・モデルでは、音声認識用辞書、機械翻訳用辞書、テキスト変換用辞書、音声合成用辞書等の各種の辞書を予め第一の話者の話者特徴と第二の話者の話者特徴とを共に考慮して構築する。例えば、音声認識用データベースの構築は、予め第一の話者の話者特徴と第二話者の話者特徴との組み合わせにより、第一話者からの発話内容や発話タイプを両話者の特徴により反映することが可能な内容で、種々の音声認識用辞書・モデルを構築して辞書・モデルデータベースに格納する。例えば、子供男性への発話タイプを、「老人男性から子供男性への発話」タイプと、「老人女性から子供男性への発話」タイプと、「青年男性から子供男性への発話」タイプと、「青年女性から子供男性への発話」タイプと、「若年男性から子供男性への発話」タイプと、「若年女性から子供男性への発話」タイプとの種類に分類することができる。同様に、子供女性への発話タイプを、「老人男性から子供女性への発話」タイプと、「老人女性から子供女性への発話」タイプと、「青年男性から子供女性への発話」タイプと、「青年女性から子供女性への発話」タイプと、「若年男性から子供女性への発話」タイプと、「若年女性から子供女性への発話」タイプとの種類に分類することができる。このようにして分類した発話タイプを示す言語を用いて、「子供への発話」における種々の音声認識用辞書・モデルを構築して辞書・モデルデータベースに格納することができる。同様に、機械翻訳、テキスト変換、音声合成等の辞書・モデルも予め構築して辞書・モデルデータベースに格納する。
【0047】
また、第2の実施の形態において、コミュニケーション処理として音声認識を行うよう実施した場合は、第一の話者の特徴と第二話者の特徴を同時に用いて、辞書・モデルデータベースに格納された音声認識用辞書・モデルを選択する。例えば、第一の話者が青年女性で、第二の話者が子供男性の時、辞書・モデル選択手段により、第一の話者の話者特徴を示す「青年、女性」と第二の話者の話者特徴を示す「子供、男性」を用いて、辞書・モデルデータベースに格納された辞書・モデルとの類似度を算出し、類似度が最大となるものを選択する。具体的に第一話者からの発話に対する音声認識処理においては、音響モデルの選出は第一の話者の話者属性を用いて辞書・データベースに格納されている音声認識用音響モデルが持つ話者の属性との類似度を算出し、類似度が最大となるものを選択する。言語モデルの選出は第一の話者の話者特徴と第二の話者の話者特徴とを用いて話者関係判定手段により得られた話者関係と両話者の特徴とを同時に用いて、辞書・データベースに格納されている音声認識用言語モデルの属性情報との類似度を算出し、類似度が最大となるものを選択する。このようにして、第一言語の話者が「青年、女性」で、なおかつ、第二の話者が「子供、男性」との属性を持つ音声認識用辞書・モデルを選択されて音声認識を行うことが可能となる。同様に、第一の話者の話者特徴と第二の話者の話者特徴が別の特徴であっても、前記のように音声認識用辞書・モデルを選択して、その両話者の特徴に適した音声認識を行うことが可能となる。
【0048】
コミュニケーション処理手段として機械翻訳を行うよう実施した場合、形態素解析、構文解析、目的言語を生成する目的言語生成処理等が含まれる。目的言語生成処理では、第一の話者の話者特徴と第二話者の話者特徴を同時に用いて、辞書・モデル選択手段により、辞書・モデルデータベースに格納された翻訳辞書を選択する。
【0049】
説明するために、仮に中日翻訳辞書が予め構築されている。その翻訳辞書の中国語側では、適用できる第一話者の特徴を付与されている。日本語側では、第二の話者の話者特徴に応じて訳語が付与されている。
【0050】
中国語人称代名詞「晩生」を例として説明すると、「晩生」は一般的に謙譲的な言い方で、聞き手より年下の人に、男性でも女性でも使用できる。そのため、原言語である「晩生」のブロックに「原言語話者特徴(年下)」との属性情報を付与する。「晩生」と対応する日本語の訳語候補は、「わたくし」、「わたし」、「僕」等となるため、構築できる機械翻訳用辞書は原言語側では、「晩生」と「年下」から構成される原言語ブロックで、生成側では、「わたくし」と、品詞情報と、目的言語話者特徴(年上、女性)から構成する一番目の目的言語生成ブロックと、「わたし」と、品詞情報と、目的言語話者特徴(年上、男性)から構成する二番目の目的言語生成ブロックと、「僕」と、品詞情報と、目的言語話者特徴(年下、男性)から構成する三番目の目的言語生成ブロックで辞書を構築することができる。
【0051】
次に、「図33の文章1」を翻訳例として説明する。例えば、第一の話者が青年男性で、第二の話者が「老人、男性」の時、この際の機械翻訳は、まず、中国語の形態素解析と構文解析を行い、その結果、形態素要素代名詞「晩生」、アスペクト助字「在」、動詞「図33の単語1」、名詞「図33の単語2」とをから構成された構文情報が得られる。一方、日本語側では、中日翻訳辞書から、代名詞「晩生」から「わたくし」、「わたし」と「僕」を、アスペクト助字「在」から「ている」を、動詞「図33の単語1」から「読む」を、名詞「図33の単語2」から「本」を読み込む。
【0052】
次に、前記の第一の話者の話者特徴「青年、男性」と第二の話者の話者特徴「老人、男性」の情報を用いて、話者関係判定手段により両話者の年齢を比較して、原言語話者特徴(年下)と目的言語話者特徴(年上)との結果が得られる。さらに、第一の話者の話者特徴量「青年、男性、原言語話者特徴(年下)」と第二の話者の話者特徴量「老人、男性、目的言語話者特徴(年上)」とを用いて、翻訳辞書が持つ属性情報との類似度を算出して、類似度が最大のものを選択する。その結果、「晩生」の三つの訳語候補の中から、「わたし」の訳語を選択することになる。
【0053】
続いて、前記の形態素情報、格フレームを持つ構文情報と翻訳規則を用いて機械翻訳を行い、「わたしは本を読んでいます」との翻訳結果を生成することになる。同様に、第一の話者は青年男性で、第二の話者は老人女性の際に、前記翻訳例の出力は「わたくしは本を読んでいます」との翻訳結果を生成することになる。第一の話者は青年男性で、第二の話者は子供の際に、翻訳結果は「僕は本を読んでいます」との翻訳結果を生成することになる。
【0054】
また、コミュニケーション処理手段として音声合成を行うよう実施した場合、第一の話者の話者特徴と第二の話者の特徴を同時に用いて、話者関係を判定する。特に、第二言語側の話者が老人の場合、辞書・モデル選択手段により、第二の話者特徴を用いて音声合成用辞書・モデルを選択して、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールするができる。
【0055】
次に、第2の実施の形態における具体的な構成について図面を参照して詳細に説明する。
【0056】
図2は、第2の実施の形態の構成を示すブロック図である。
【0057】
図2を参照すると、第2の実施の形態は、図1に示された第1の実施の形態の構成と同様に、入力手段101と、第二の話者特徴抽出手段105と、前記出力手段116を備えている。その他に、第一の話者の特徴を抽出する第一の話者の特徴抽出手段104と、コミュニケーション処理手段200とを備えている。
【0058】
コミュニケーション処理手段200では、話者関係判定手段、辞書・モデル選択手段、音声認識手段、テキスト変換手段、機械翻訳手段、音声合成手段等の中から、一つまたは二つ以上の構成でコミュニケーション処理を実施する。
【0059】
尚、話者関係判定手段は、第一の話者の特徴抽出手段104及び第二の話者特徴抽出手段105により抽出された第一及び第二の話者の特徴に基づいて、第一の話者と第二の話者との関係を判定するものである。
【0060】
本実施の形態においては、コミュニケーション処理手段200の各種の処理を行うための各種の辞書・モデルを予め構築して辞書・モデルデータベースに格納する。例えば、子供男性への発話タイプを、「老人男性から子供男性への発話」タイプと、「老人女性から子供男性への発話」タイプと、「青年男性から子供男性への発話」タイプと、「青年女性から子供男性への発話」タイプと、「若年男性から子供男性への発話」タイプと、「若年女性から子供男性への発話」タイプとの種類に分類することができる。同様に、子供女性への発話タイプを、「老人男性から子供女性への発話」タイプと、「老人女性から子供女性への発話」タイプと、「青年男性から子供女性への発話」タイプと、「青年女性から子供女性への発話」タイプと、「若年男性から子供女性への発話」タイプと、「若年女性から子供女性への発話」タイプとの種類に分類することができる。このようにして分類した発話タイプを示す言語を用いて、「子供への発話」における種々の音声認識用辞書・モデルを構築して辞書・モデルデータベースに格納する。同様に、機械翻訳、テキスト変換、音声合成等の辞書・モデルも予め構築して辞書・モデルデータベースに格納する。
【0061】
次に、図2と図23を参照して本発明を実施するための第2の実施の形態の動作について詳細に説明する。
【0062】
入力手段101を通じてシステムにデータを入力する(ステップ2301)。
【0063】
次に、第一の話者特徴抽出手段104により第一の話者の個人属性を示す話者特徴を抽出し、第二の話者特徴抽出手段105により第二の話者の個人属性を示す話者特徴を抽出する(ステップ2302)。
【0064】
第一の話者特徴抽出手段104から抽出された第一話者の話者特徴と第二の話者特徴抽出手段105から抽出された第二の話者の話者特徴とを用いて、話者関係判定手段により話者の関係を判定する。例えば、両話者の年齢を比較して「年上」と「年下」との判定結果が得られる(ステップ2303)。
【0065】
前記話者関係判定手段により得られた両話者の話者関係情報を用いて、辞書・モデル選択手段により、コミュニケーション処理用の辞書・モデルの選択処理を行う(ステップ2304)。
【0066】
例えば、入力は文で、コミュニケーション処理として機械翻訳を行うよう実施した場合、辞書・モデル選択手段により、両話者の話者特徴に適した翻訳辞書・モデルを選択する。入力は音声で、コミュニケーション処理として音声認識を行うよう実施した場合、辞書・モデル選択手段により、両話者の話者特徴に適した音声認識用辞書・モデルを選択する。辞書・モデル選択手段では、前記話者特徴抽出手段104と前記話者特徴抽出手段105から抽出した両話者の属性情報と、話者関係判定手段により得られた話者関係情報を用いて、辞書・モデルデータベースに格納された各種の辞書・モデルが持つ属性情報との類似度を算出して類似度が最大となるものを選択することにより辞書・モデルの選択処理を行う。
【0067】
次に、前記のステップで選択された辞書・モデルを用いて、コミュニケーション処理手段200によりコミュニケーション処理を行う(ステップ2305)。コミュニケーション処理方式として、音声認識、テキスト変換、機械翻訳、音声合成等を実施することができる。
【0068】
そして、前記コミュニケーション処理手段200での処理結果を、出力装置を通じて出力する(ステップ2306)。
【0069】
第2の実施の形態の効果について説明する。
【0070】
第2の実施の形態では、第一の話者特徴抽出手段及び第二の話者特徴抽出手段を設けることにより、両話者のプロファイルを予め用意しなくても、両話者の話者特徴を共に利用したコミュニケーション処理が可能となる。
【0071】
具体的には、コミュニケーション処理として音声認識を行うよう実施した場合、両話者の特徴を共に適した音声認識を行う手法を提供することが可能となる効果を有する。
【0072】
例えば、第一の話者が青年女性で、第二の話者が子供男性の時、辞書・モデル選択手段により、第一の話者の話者特徴を示す「青年、女性」と第二の話者の話者特徴を示す「子供、男性」を用いて、辞書・モデルデータベースに格納された辞書・モデルとの類似度を算出し、類似度が最大となるものを選択する。具体的に第一話者からの発話に対する音声認識処理においては、音響モデルの選出は第一の話者の話者属性を用いて辞書・データベースに格納されている音声認識用音響モデルが持つ話者の属性との類似度を算出し、類似度が最大となるものを選択する。言語モデルの選出は第一の話者の話者特徴と第二の話者の話者特徴を用いて話者関係判定手段により得られた話者関係と両話者の特徴とを同時に用いて、辞書・データベースに格納されている音声認識用言語モデルの属性情報との類似度を算出し、類似度が最大となるものを選択する。このようにして、第一言語の話者が「青年、女性」で、なおかつ、第二の話者が「子供、男性」との属性を持つ音声認識用辞書・モデルを選択されて音声認識を行うことが可能となる。同様に、第一の話者の話者特徴と第二の話者の話者特徴が別の特徴であっても、前記のように音声認識用辞書・モデルを選択して、その両話者の特徴に適した音声認識を行うことが可能となる。
【0073】
また、コミュニケーション処理として機械翻訳を行うよう実現した場合、形態素解析、構文解析、目的言語を生成する目的言語生成処理等が含まれる。目的言語生成処理では、第一の話者の話者特徴と第二話者の話者特徴を同時に用いて、辞書・モデル選択手段により、辞書・モデルデータベースに格納された翻訳辞書を選択する。
【0074】
例えば、中日機械翻訳を行う場合、中国語「図33の文章1」の例では、中国語人称代名詞「晩生」は一般的に謙譲的な言い方で、聞き手より年下の人が男性でも女性でも使用できる。例えば日中翻訳辞書の原言語である「晩生」のブロックに「原言語話者特徴(年下)」との属性情報を付与する。「晩生」と対応する日本語の訳語候補は、「わたくし」、「わたし」、「僕」等となるため、構築できる機械翻訳用辞書は原言語側では、「晩生」と「年下」から構成される原言語ブロックで、生成側では、「わたくし」と目的言語話者特徴(年上、女性)から構成する目的言語生成ブロックと、「わたし」と目的言語話者特徴(年上、男性)から構成する目的言語生成ブロックと、「僕」と目的言語話者特徴(年下、男性)等の情報から構成するブロックで辞書を構築することができる。
【0075】
次に、「図33の文章1」を翻訳例として説明する。例えば、第一の話者が青年男性で、第二の話者が「老人、男性」の時、この際の機械翻訳は、まず、中国語の形態素解析と構文解析を行い、その結果、形態素要素代名詞「晩生」、アスペクト助字「在」、動詞「図33の単語1」、名詞「図33の単語2」とをから構成された構文情報が得られる。一方、日本語側では、中日翻訳辞書から、代名詞「晩生」から「わたくし」、「わたし」と「僕」を、アスペクト助字「在」から「ている」を、動詞「図33の単語1」から「読む」を、名詞「図33の単語2」から「本」を読み込む。
【0076】
次に、前記の第一の話者の話者特徴「青年、男性」と第二の話者の話者特徴「老人、男性」の情報を用いて、話者関係判定手段により両話者の年齢を比較して、原言語話者特徴(年下)と目的言語話者特徴(年上)との結果が得られる。さらに、第一の話者の話者特徴量「青年、男性、原言語話者特徴(年下)」と第二の話者の話者特徴量「老人、男性、目的言語話者特徴(年上)」とを用いて、翻訳辞書が持つ属性情報との類似度を算出して、類似度が最大のものを選択する。その結果、「晩生」の三つの訳語候補の中から、「わたし」の訳語を選択することになる。
【0077】
次に、前記の形態素情報、格フレームを持つ構文情報と翻訳規則を用いて機械翻訳を行い、「わたしは本を読んでいます」との翻訳結果を生成することになる。同様に、第一の話者は青年男性で、第二の話者は老人女性の際に、前記翻訳例の出力は「わたくしは本を読んでいます」との翻訳結果を生成することになる。第一の話者は青年男性で、第二の話者は子供の際に、翻訳結果は「僕は本を読んでいます」との翻訳結果を生成する翻訳方法を提供することにより、翻訳結果の多様性を実現することができる。
【0078】
また、コミュニケーション処理として音声合成を行うよう実現した場合、合成された音声の実用性を高める効果を有する。
【0079】
例えば、第一の話者の話者特徴と第二の話者の特徴を同時に用いて、話者関係を判定する。特に、第二言語側の話者が老人の場合、辞書・モデル選択手段により、両話者の特徴を用いて音声合成用辞書・モデルを選択して、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールするができる音声合成方法を提供することにより、合成された音声の実用性を高めることができる。
<第3の実施の形態>
第3の実施の形態を説明する。
【0080】
図3は、本発明を実施するための第3の実施の形態の構成を示すブロック図である。
【0081】
図3を参照すると、本発明の第3の実施の形態は、図2に示された第2の実施の形態の構成において、前記入力手段101と、前記第一の話者特徴抽出手段104と、前記第二の話者特徴抽出手段105と、前記出力手段116を備えているほか、両話者の対話履歴を保存する話者対話履歴データベース310と、コミュニケーション処理手段300とを備えている。両話者の対話履歴データベース310では、両話者の話者特徴と共に、話者の対話履歴を時系列で記録する。
【0082】
コミュニケーション処理手段300では、話者関係判定手段、対話履歴管理手段、辞書・モデル選択手段、音声認識手段、テキスト変換手段、機械翻訳手段、音声合成手段等の中から、一つまたは二つ以上の構成でコミュニケーション処理を実施する。
【0083】
また、話者からの発話に対し、常に話者の特徴に応じて時系列で対話履歴データベース310に記録する。発話者が新規話者の場合、新規ユーザとして発話者の特徴量とその発話を話者対話履歴データベース310に保存する。新規話者でない場合、話者の対話履歴を検索して、時系列で話者対話履歴データベース310に記録する。
【0084】
また、本実施の形態における辞書・モデルデータベースは、前記第2の実施の形態と同様なものによりシステムを構築することができる。
【0085】
また、対話履歴管理手段114は、図29に示すように、話者関係判定手段113から出力された両話者の特徴と話者関係に基づいて、話者対話履歴データベース310から両話者の対話履歴を抽出して分析を行う対話履歴分析手段2901と、対話履歴の分析結果により前記第一の話者特徴抽出手段104と前記第二の話者特徴抽出手段105により抽出された話者の特徴及び前記話者関係判定手段113から出力された話者の関係が正しいかどうかを判定する話者特徴判定手段2902と、前記話者特徴判定手段2902からの判定結果において、「誤りがある」と判定された際、話者の特徴に対するフィードバック処理を行うフィードバック処理手段2903とを構成される。
【0086】
対話履歴分析手段2901は、話者関係判定手段113から出力された両話者の特徴と話者関係に基づいて、話者対話履歴データベース310から両話者の対話履歴を抽出して、話者特徴と、対話スタイルと、対話内容のキーワードなどを含むベクトルや、又は前記ベクトルを時系列化したモデルを生成する処理などを行う。
【0087】
話者特徴判定手段2902は、前記話者対話履歴分析手段2901で生成された対話履歴の特徴ベクトルやモデルなどを用いて、前記第一の話者特徴抽出手段104と前記第二の話者特徴抽出手段105とにより抽出された話者の特徴及び前記話者関係判定手段113から出力された話者の関係に対する判定結果が正しいかどうかを判定する。例えば、日本語の「女言葉」の言語表現を示す特徴量と、「男言葉」の言語表現を示す特徴量とをそれぞれ用意して、話者対話履歴データベース310に保存しておいて、対話履歴分析手段2901からえられた話者の特徴ベクトルと照合することにより、話者の性別の判定を行うことができる。
【0088】
フィードバック処理手段2903は、前記話者特徴判定手段2902からの判定結果において、「誤りがある」と判定された際、話者の特徴に対してフィードバック処理を行う。例えば、第一の話者と第二の話者が共に男性と推定されたが、第一の話者の入力文が「鍵を持ってきてくれてよかった。ありがとうございました。どうしてかしら、あたし、最近よく忘れ物をするわよ。」がある時に、前記話者特徴判定手段2902により第一の話者が「女性」であることを判定して、フィードバック処理を行うことにより、第一話者の性別の属性値を直すことできる。
【0089】
このように、話者の対話の状態や進行から得られる情報を利用し、話者の特徴が「正しいかどうか」を自動的に判断することにより、話者の個人属性の誤りを自動的に検出して訂正する機能を実現することができる。
【0090】
次に、図3と図24を参照して本発明を実施するための第三の形態の動作について詳細に説明する。
【0091】
入力手段101を通じてシステムにデータを入力する(ステップ2401)。
【0092】
次に、第一の話者特徴抽出手段104により第一の話者の個人属性を示す話者特徴を抽出し、第二の話者特徴抽出手段105により第二の話者の個人属性を示す話者特徴を抽出する(ステップ2402)。
【0093】
第一の話者特徴抽出手段104から抽出された第一話者の話者特徴と第二の話者特徴抽出手段105から抽出された第二の話者の話者特徴を用いて、話者関係判定手段により話者の関係を判定する。例えば、両話者の年齢を比較して「年上」と「年下」の判定結果が得られる(ステップ2403)。
【0094】
話者関係判定手段113から出力された両話者の特徴と話者関係に基づいて、話者対話履歴データベース310から両話者の対話履歴を抽出して対話履歴分析手段2901により分析を行い、分析結果により前記使用された両話者の特徴及び話者関係が正しいかどうかに対する判定処理を話者特徴判定手段2902により行う。「誤りがある」と判定された際、話者の特徴抽出を再度行うようにフィードバック処理手段2903によりフィードバック処理を行う(ステップ2404)。
【0095】
前のステップで得られた正しい話者属性と話者関係の情報を用いて、辞書・モデル選択手段により、コミュニケーション処理用の辞書・モデルの選択処理を行う(ステップ2405)。例えば、入力は文で、コミュニケーション処理として機械翻訳を行うよう実施した場合、辞書・モデル選択手段により、両話者の話者特徴に適した翻訳辞書・モデルを選択する。入力は音声で、コミュニケーション処理として音声認識を行うよう実施した場合、辞書・モデル選択手段により、両話者の話者特徴に適した音声認識用辞書・モデルを選択する。
辞書・モデル選択手段では、前記話者特徴抽出手段104と前記話者特徴抽出手段105から抽出した両話者の属性情報と、話者関係判定手段により得られた話者関係情報を用いて、辞書・モデルデータベースに格納された各種の辞書・モデルが持つ属性情報との類似度を算出して類似度が最大となるものを選択することにより辞書・モデルの選択処理を行う。
【0096】
続いて、前記のステップで選択された辞書・モデルを用いて、コミュニケーション処理手段100によりコミュニケーション処理を行う(ステップ2406)。コミュニケーション処理方式として、音声認識、テキスト変換、機械翻訳、音声合成等を実施することができる。
【0097】
そして、前記コミュニケーション処理手段300での処理結果を、出力装置を通じて出力する(ステップ2407)。
【0098】
第3の実施の形態の効果について説明する。
【0099】
上述のように、本発明の第3の実施の形態では、第2の実施の形態の効果を有するほか、話者対話履歴管理手段114と話者対話履歴データベース310とを設けることにより、話者の対話履歴を分析し、話者の対話の状態や進行から得られる情報を利用し、前記第一の話者特徴抽出手段104と第二の話者特徴抽出手段105により抽出した話者の特徴に対して、正誤判定及びフィードバック処理を行うことにより、誤りを自動的に検出することができ、両話者の話者特徴をコミュニケーション処理に正しく利用されるような機能を実現することができる効果を有する。
【実施例1】
【0100】
本発明の実施例1を、図面を参照して説明する。かかる実施例は第1の実施の形態に対応するものである。
【0101】
本実施例を図4に示す。テキスト入力手段102と、第二の話者の特徴抽出手段105と、テキスト変換手段106と、辞書・モデルデータベース107と、辞書・モデル選択手段112と、テキスト出力手段115とをから構成される。
【0102】
本実施例におけるコミュニケーション処理手段100はテキスト変換手段106と、辞書・モデル選択手段112とを有する。
【0103】
テキスト入力手段102としてキーボードを、テキスト出力手段115としてディスプレイを利用する。
【0104】
第二の話者特徴抽出手段105は、話者の特徴をリアルタイム的に抽出する手段である。話者特徴を抽出する方法は、例えば、話者の音声データから話者の年齢や性別等の話者属性を推定する方法や話者の顔を含む画像から話者属性を推定する方法等が挙げられる。話者の顔を含む画像から話者の特徴を抽出する方法は、一般的に、入力画像データから、顔画像のグレーズケール化処理、画像角度正規化処理、画像サイズ正規化処理、画像特徴抽出処理及び話者属性推定処理を行うことにより、話者特徴を抽出することである。
【0105】
話者の顔画像特徴抽出技術は、Gabor Waveletを用いた技術が知られている。例えば、非特許文献Pattern Recognition30(6),pp.837-846,1997,「Phantom Faces for Face Analysis」。顔器官に特徴点を設定する手法としてRetina Samplingと呼ばれる効果的な画素位置サンプリング手法も知られている。例えば、非特許文献Audio and Video based Person Authentication - AVBPA99,pp. 125-129,1999,「Face Authentication by retinotopic sampling of the Gabor decomposition and Support Vector Machines」がある。
【0106】
また、話者の顔特徴から話者の個人属性を推定する従来技術は、顔のテクスチャを用いた手法と、平均顔との距離を用いた手法と、複数の特徴量を用いた手法が知られている。
【0107】
例えば、平均顔との距離を用いた手法では、年齢、性別ごとに平均顔を作成し、その平均顔に独自に特徴点を取って、また、入力顔にも同様に特徴点を取って、その二乗誤差を利用し、顔器官の特徴点を表す評価関数で評価することにより、入力顔と平均顔との特徴点間の距離を求め、その最小距離となる平均顔を当該話者の年齢や性別とする技術が知られている。例えば、特開2003-99779号公報、特開2006-344236号公報等に示されている従来技術も、この実施の形態の装置においても、前述の技術を用いることが可能である。
【0108】
前記の従来技術のほか、隠れマルコフモデル、遺伝的アルゴリズムを用いることも可能であるが、これだけに限定されない。
【0109】
また、話者の音声データから話者の年齢や性別等の話者属性を推定することができる。一般的な方法は、まず、学習データとして性別や年齢などの話者属性を示すラベリングされた各年代の音声データにより各年代の平均的な音声特徴量を、音声信号をスペクトラム分析などにより得られる。次に、ある話者の音声データからの音声信号をスペクトラム分析などにより、その話者の音声の特徴量を獲得する。次に、この特徴量と前記学習データにより得られた各年代の平均的な音声特徴量との類似度を算出し、類似度が最大となるものを選び出すことにより、その話者の年齢や性別等を推定することができる。
【0110】
例えば、話者から発せられた音声を音響分析して音響特徴量を獲得し、獲得された特徴量を用いて、予め男女別に用意された子供層、若年層、青年層、壮年層、老年層の其々の標準的なパターンとの類似度を算出し、最も類似している標準パターンにより、話者の年齢、性別を獲得する方法も話者の特徴を獲得することができる。
【0111】
また、話者特徴抽出手段105が、話者の音声データ、顔画像から抽出する方法に限らずに、センサーや話者の個人属性を通信可能なICカードまたは話者の個人属性を通信可能なICカードに内蔵した端末装置等を用いる方法、他の手段により話者の生体情報を獲得する方法、話者のプロファイルから話者の人種、年齢、性別等の情報を獲得する方法も利用してもよい。
【0112】
辞書・モデル選択手段112は、話者の特徴を示す識別情報を付与した辞書・モデルを格納するデータベース107の中から、話者に適した辞書・モデルを選択し、音声認識、テキスト変換又は機械翻訳、音声合成用の各種の辞書・モデルを選択する手段である.
辞書・モデルを選択するアルゴリズムは、内積、Jaccard係数、余弦、Dice係数に基づく類似度、カイ二乗に基づく類似度、ユークリッド距離の逆数に基づく類似度を用いることができるが、これだけに限定されない。
【0113】
例えば、標準話者Aの話者特徴ベクトルは

その正規化された重みは

とし、ある話者Bの話者特徴ベクトルは、

とし、その正規化された重みは、

とする。X・YをXとYと同じ属性がある場合に同じ属性同士の重みを掛け合わせた合計を返す演算であるとするとき、内積、Jaccard係数、余弦、Dice係数などの方法による話者Bと標準話者Aとの類似度を計算する式は次に示す。

上の式に示すような計算方法で話者の特徴と辞書・モデルが持つ標準話者の特徴との類似度を計算し、類似度が最大となるものは辞書・モデル選択の対象とする。
【0114】
辞書・モデルデータベース107では、音声認識、テキスト変換または機械翻訳、音声合成、シソラース辞書等から構成されたデータベースである。各種の辞書及びモデルは、多数の話者の年齢・性別等の属性により一般化して、各年齢層の標準話者の特徴量を識別情報として辞書・モデルに付与して構築する。例えば、子供層、若年層、青年層、壮年層、老年層によって男女別に一般化して各種の辞書を用意することができる。
【0115】
テキスト変換手段106では、入力テキストの言い換え表現の処理を行う。テキスト入力手段102からの入力に対し、形態素解析、構文解析などの処理を行う.また、第二の話者の特徴抽出手段105から獲得された話者の属性を用いて、辞書・モデル選択手段112により辞書・データベース107から第二の話者に適する言語表現に言い換えを行うことができる。
【0116】
例えば、日本語言換えを行う場合、仮に言換え用辞書を第二話者の属性に応じて予め構築して辞書・モデルデータベースに格納されている。ここでは、日本語のて接続複合化用言「ほしい」を例として説明する。言換え生成側の辞書を次のように構築する。言換えの対象である「ほしい」の辞書の原言語ブロックは、固有部「欲しい」と、品詞情報「て接続複合化用言(い型)」と、活用形情報と、接続番号情報と等で構成する。生成側では、より丁寧度が高い「頂く」と、より丁寧度が低い「下さい」との二つのブロックで構築する。一番目のブロックは、固有部「頂きたい」と、品詞情報と、活用形情報と、接続番号情報と、第二話者属性(老人,男性,女性)等で構成する。二番目のブロックは、固有部「下さい」と、品詞情報と、活用形情報と、接続番号情報と、第二話者属性(子供,若年,男性,女性)等で構成する。
【0117】
例えば、第一の話者がシステムに「今週のレポートを見せてほしいですが」と入力して、第二の話者が「老人、男性」であると推定された。この際の言換え処理は、まず、日本語の形態素解析と構文解析を行い、その結果、形態素要素は名詞「今週」、格助詞「の」、名詞「レポート」、格助詞「を」、一段動詞「見せる」、接続助詞「て」、て接続複合化用言「ほしい」、助動詞「だ」、終助詞「が」等の情報を得ることができる。この際に、丁寧度を示す単語「ほしい」の辞書から、「頂きたい」と「下さい」との二つの候補を読み込む。
【0118】
次に、前記の第二の話者の話者属性「老人、男性」の情報を用いて、「頂きたい」と「下さい」の二つの候補の話者特徴との類似度を算出し、「老人、男性」を持つ「頂きたい」のブロックの類似度が最大となるため、「ほしい」の言換えの目的語が「頂きたい」となる。
【0119】
次に、言換え文を生成するための形態素は「今週」、「の」、「レポート」、「を」、「見せる」、「て」、「頂きたい」、助動詞「だ」、終助詞「が」からなる。
【0120】
次に、日本語の構文規則情報を用いて言換えの目的文を生成する。その結果、「今週のレポートを見せて頂きたいですが」となる。同様に、第二言語の話者の話者属性が「若年、男性」または「若年、女性」の際、目的文は「今週のレポートを見せてください」との結果になる。
【実施例2】
【0121】
実施例2を、図面を参照して説明する。かかる実施例は本発明を実施するための第1の実施の形態に対応するものである。
【0122】
図5を参照すると、本発明の実施例2に係る音声合成手段110は、図4に示された実施例1におけるテキスト出力手段115の代わりに、テキスト変換手段106から出力されたテキストを合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例1と同じである。
【0123】
音声合成手段110では、テキスト変換手段106からの出力に対して、第二の話者特徴抽出手段105により抽出した第二の話者特徴を用いて、辞書・モデル選択手段112により、辞書・モデルデータベース107の中から、第二の話者特徴に適する音声合成用辞書を選択し、音声合成処理を行う。
【0124】
例えば、第二言語側の話者が老人の場合、第二の話者特徴を用いて、辞書・モデル選択手段112により、辞書・モデルデータベース107の中から、音声合成用辞書・モデルを選択して、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールするができる音声合成方法を提供することにより、合成された音声の実用性を高める効果を有する。
【0125】
音声出力手段111は、前記音声合成手段110から出力された合成音声波形信号を音声信号としてスピーカを通して合成音声を出力する音声出力手段である。
【0126】
本実施例においては、例えば、前記第一の実施例の例文の「今週のレポートを見せてほしいですが」の入力に対して、本実施例においては、前記の言換え処理を行い、言換えの結果に対し、第二の話者の話者特徴を用いて音声合成用の辞書・モデルを選択して音声合成を行うことができる。その結果、第二の話者が「老人、男性」または「老人、女性」の場合、合成音声波形の持続時間をやや長くし、音圧レベルとピッチ周波数の閾値を適切に調整することにより、高齢者に適した速度でゆっくり喋らせ、音量をやや大きくして、声の高さをコントロールして、合成音声の出力で「今週のレポートを見せて頂きたいですが」を提供することができる。又、第二の話者が「若年、男性」または「若年、女性」の場合、一般的な音声合成効果で、合成音声の出力で「今週のレポートを見せてください」を提供することができる。
【実施例3】
【0127】
実施例3を、図面を参照して説明する。かかる実施例は本発明を実施するための第1の実施の形態に対応するものである。
【0128】
図6に示すように、本実施例は実施例1のテキスト変換手段106の代わりに、機械翻訳手段109に変えたものを備え、その他の点は実施例1を同じである。
【0129】
機械翻訳手段109では、前記テキスト入力手段102から入力テキストを第二言語に翻訳する手段である。機械翻訳に必要な各種の辞書は、前記第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から第二の話者特徴に適した翻訳用辞書を選出し、翻訳処理を行う。
【0130】
例えば、図25と図26を参照して、第二の話者の特徴に適した機械翻訳結果を、出力機能を説明する。
【0131】
図25に記載されたデータは、日本語「名前」の日英翻訳用辞書で、原言語である日本語側は、「名前」を例として挙げられたデータ構造である。その原言語側のフィールドは、単語見出し情報と、読み情報と、標準表記情報と、品詞情報と、文スタイル情報等を含む。目的言語側のフィールドは、読み情報と、品詞情報と、目的言語話者特徴を示す情報と、文スタイル情報等を含む。具体的に、日本語側では、日本語単語「名前」だけの辞書エントリーは、「単語見出し(“名前”)」と、「読み(“なまえ”)」と、品詞情報である「品詞(名詞(普通名詞))」に対し、英語側では、「E_読み(“name”)」と品詞情報を示す「品詞(NOUN(c))」と対応する。また、日本語単語「名前」を使った日本語質問文を示す標準表記である「標準表記(“お名前は”)」と、品詞情報である「品詞(名詞(普通名詞))」と、日本語の質問文の文スタイルを示す「J_文スタイル(質問)」との情報から構成された辞書のエントリーに対し、目的言語である英語側は、「E_読み(“name”)」と品詞情報を示す「品詞(NOUN(c))」と文スタイルと、原言語側話者特徴と、目的言語側話者特徴等のフィールドから構成される。原言語側の話者特徴と目的言語側の話者特徴の属性値は、男性、女性、子供、若年、青年、壮年、老人、話者の年齢差を示す年下や年上、又は年齢と性別から構成かれた属性情報を利用する。また、青年女性、若年女性、壮年男性、壮年女性のような属性値のセットも利用することができる。
【0132】
例えば、第一話者から「お名前は?」と入力した時、第二の話者は若年男性の時、その年齢と性別の属性値は「目的言語話者特徴(年下、子供、若年男性)」の中に「若年男性」と一致するため、第一の発話者からの「お名前は?」の発話に対し、この目的言語の話者特徴を用いて、第二の話者に対して「What is your name?」と翻訳することができる。同様に、第二の話者の属性値は「子供、若年男性」のいずれかである時に、翻訳結果は「What is your name?」で、第二の話者の属性値は「壮年男性」である時、翻訳結果は「May I have your name?」で、第二の話者の属性値は「壮年女性、老人」のいずれかである時、翻訳結果は「Could you please tell me your name?」で、第二の話者の属性値は「若年女性、青年女性」である際に、翻訳結果は「I would like to ask you whether you would grant me permission to have your name?」で出力することができる。
【実施例4】
【0133】
実施例4を、図面を参照して説明する。かかる実施例は本発明を実施するための第1の実施の形態に対応するものである。
【0134】
図7を参照すると、本発明の実施例4に係る音声合成手段110は、図6に示された実施例3における機械翻訳手段109から出力された翻訳結果を合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例3を同じである。
【0135】
機械翻訳手段109では、テキスト入力手段101の入力に対し、第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、辞書・モデル選択手段112により辞書・データベース107から第二の話者の特徴に適した目的言語辞書を選択して機械翻訳を行う。
音声合成手段110では、機械翻訳手段109からの翻訳結果に対し、第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、辞書・モデルデータベース107から第二の話者の特徴に適用する音声合成用辞書やモデルを選択して、音声合成を行う。
【0136】
音声出力手段111では、前記音声合成手段110から出力された合成音声波形信号を音声信号としてスピーカを通して合成音声を出力する。
【0137】
例えば、英日翻訳の場合、第一の話者が「How old are you?」と入力した場合、本実施例により、第二の話者側である日本語側は若い女性の際に翻訳結果は「ご芳齢は?」と翻訳されて合成音声を出力する。日本語側はお年寄りの際に翻訳結果は「おいくつですか?」と翻訳されて、合成音声の音量をやや大きくして、声の高さをやや高めにして、ゆっくりと喋らせる。日本語側は子供の際に翻訳結果は「何歳なの?」と翻訳されて優しい声で合成音声を提供することができる。
【実施例5】
【0138】
実施例5を、図面を参照して説明する。かかる実施例は本発明を実施するための第1の実施の形態に対応するものである。
【0139】
図8を参照すると、本実施例は実施例2のテキスト入力手段102の代わりに、第一話者の音声を入力する音声入力手段103を備え、入力音声を認識処理を行う音声認識手段108を備えている。その他の点は実施例2を同じである。
【0140】
音声入力手段103は、音声を取り込むために指向性マイクを用いて話者の音声を取り込んで音声入力解析処理を行う。マイクには場所や環境などに限定しない、特に携帯端末などに組み込まれたマイクなどを指す。音声入力解析処理は、音声自動通訳機のようなモバイル端末における様々な環境などで、話者の発話音声データを取り込んで、音声信号における各種の音声処理を行うことである。例えば、8kHzや16kHzのサンプリング周波数でアナログ信号をディジタル信号に変換する処理、音声認識を行うための信号を並列データに変換し、レジスタなどに格納する処理、耐雑音処理など。
【0141】
音声認識手段108では、音声入力手段103から出力された音声信号に対して音声認識を行って認識結果を出力するものである。音声認識処理手段108に行われる音声認識処理はLPC音声分析、音声区間検出、パターン照合、判定などの連続した音声認識処理を行う。音声認識の手法は特定のものとする必要がなく、HMM、ニューラルネットワーク、Nグラム言語モデルなど、一般的に用いられる既存の手法を採用すればよい。
音声認識手段108における音声認識処理の辞書・モデルの選択は、第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から,第二の話者の特徴に適した音声認識用言語モデルを選択する。
【0142】
例えば、第二の話者特徴抽出手段により抽出した第二の話者の話者特徴は「子供、女性」の時、第一話者からの発話に対して、音声認識用言語モデルの選択は、「子供、女性」の属性情報を用いて、音声認識用辞書・モデルデータベースから、「子供、女性」との第二の話者特徴を持つ音声認識用言語モデルを選択することができる。具体的に、第二話者の話者属性情報(子供、女性)と、辞書・モデルデータベースに格納されている各種の音声認識用辞書・モデルが持つ属性情報との類似度を算出して、類似度が最大となるものを選択する。このようにして、「子供、女性」との属性を持つ音声認識用言語モデルを選択して音声認識を行うことが可能となる。同様に、第二の話者が他の属性を持つ話者の時、その話者の属性にあう音声認識用言語モデルを、辞書・モデル選択手段により選択して音声認識を行うことにより、音声認識精度を向上することができる。
【0143】
テキスト変換処理106では、音声認識手段108からの出力結果を、第二の話者の特徴を利用して辞書・モデル選択手段112により辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中からテキスト変換処理用の辞書・モデルを選択してテキスト変換処理を行う。
【0144】
例えば、「林檎」の言い換え用辞書に、子供向けの言い換え用生成ブロックは読み情報の「りんご」と「名詞」である品詞情報と「果物」である意味分類情報と「第二話者の話者特徴(子供)」である第二話者特徴情報から構成されて、成人や外国人向けの言い換え用生成ブロックは読み情報の「アップル」と「名詞」である品詞情報と「果物」である意味分類情報と「第二話者の話者特徴(成人、外国人)」である第二話者特徴情報から構成すれば、テキスト変換処理手段106における言い換え処理は、第二話者の特徴を参照することにより、「アップルを食べてね」の入力に対し、第二話者側は子供の時、「りんごを食べてね」、第二話者が成人の時「アップルをたべてね」と言い換えを行うことができる。
【0145】
また、音声合成手段110では、テキスト変換手段106からの変換結果に対し、第二の話者特徴抽出手段105から獲得された第二の話者の特徴を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から音声合成用の辞書・モデルを選択する。
【実施例6】
【0146】
実施例6を、図面を参照して説明する。かかる実施例は本発明を実施するための第1の実施の形態に対応するものである。
【0147】
図9を参照すると、本実施例は実施例5のテキスト変換手段106の代わりに、機械翻訳手段109を備えている。その他の点は実施例5を同じである。
【0148】
本実施例にける音声入力手段103は、第一の話者(第一言語の話者)の音声を取り込んで音声入力解析処理を行うものである。入力音声を解析するための処理は前記第五の実施例の音声入力手段と同様な処理を行ってもよい。
【0149】
音声認識手段108は、入力された第一言語の話者の音声を認識するものである。音声認識手法は前記第五の実施例の音声認識処理と同様に処理してもよい。
【0150】
音声認識手段108における音声認識処理の辞書・モデルの選択は、第二の話者特徴抽出手段105により抽出された第二言語の話者の特徴を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から音声認識用の辞書・モデルを選択する。結果として、第二言語の話者の特徴に適した音声認識を行うことができる。
【0151】
機械翻訳手段109では、音声認識手段108からの出力結果を、第二言語の話者の特徴を利用して辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から翻訳用単語辞書、規則辞書などの辞書・モデルを選択して翻訳処理を行う。
【0152】
例えば、英日翻訳の場合、「Please eat the apple!」の音声認識結果を翻訳処理を行うようとする場合、仮に、英日翻訳用単語辞書の単語「apple」は、原言語側の情報を示すブロックと二つの生成ブロックからなる。具体的に、日本語生成側は「りんご」の読み情報と「名詞」の品詞情報と「果物」である意味分類情報と第二言語の話者の属性情報である「第二話者の話者特徴(子供)」で構成する子供向けの一番目の日本語生成ブロックと、「アップル」の読み情報と「名詞」の品詞情報と「果物」である意味分類情報と第二言語の話者の属性情報である「第二話者の話者特徴(成人)」で構成する成人向けの二番目の日本語生成ブロックからなる。同様に、仮に、動詞「eat」の辞書が「eat」の原言語辞書ブロックと、二つの目的言語生成用ブロック「食べる」と「召し上がる」とのブロックからなる。各ブロックは読み情報と、品詞情報と、意味分類情報、第二の話者属性情報などが付与されている。前記「Please eat the apple!」を翻訳する際に、形態素解析と構文解析と目的言語生成処理等の一連の処理を行う。目的言語生成する際に、第二の話者特性を用いて、各訳語候補が持つ話者属性との類似度を算出することにより、訳語選択を行う。子供に「りんご」を選択して「りんごを食べてね!」、成人に「アップル」を選択して丁寧な文法ルールを用いて「アップルをお召し上がりください!」との翻訳結果を提供することができる。
【0153】
音声合成手段110は前記第五の実施例の音声合成手段110と同様な処理を行ってもよい。
【0154】
音声出力手段111は前記第五の実施例の音声出力手段111と同様な処理を行ってもよい。
【0155】
以上のように、第一話者(第一言語の話者)の発話を音声入力手段103へ入力し、第二の話者特徴抽出手段105により獲得された第二の話者の特徴を用いて、辞書・モデル選択手段に112より、辞書・モデルデータベース107から音声認識用の辞書・モデルを選択して音声認識を行う。音声認識手段108からの認識結果に対して、第二の話者の特徴を用いて辞書・モデル選択手段に112より、辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳処理を行う。機械翻訳手段109からの翻訳結果に対して、第二の話者の特徴を用いて辞書・モデル選択手段に112より、辞書・モデルデータベース107から音声合成用辞書を選択して音声合成処理を行う。音声合成処理手段110からの出力は、スピーカなどの音声出力手段を通して出力する。
【実施例7】
【0156】
実施例7を、図面を参照して説明する。かかる実施例は本発明を実施するための第2の実施の形態に対応するものである。
【0157】
図10を参照すると、本実施例は、テキスト入力手段102と、コミュニケーション処理手段200と、第一の話者の特徴抽出手段104と、第二の話者の特徴抽出手段105と、辞書・モデルデータベース107と、テキスト出力手段115により構成される。
【0158】
コミュニケーション処理手段200はテキスト変換手段106と、辞書・モデル選択手段112と、話者関係判定手段113とを備えている。
【0159】
また、本実施例において、コミュニケーション処理手段200の各種の処理を行うための各種の辞書・モデルを予め構築して辞書・モデルデータベース107に格納する。例えば、子供男性への発話タイプを、「老人男性から子供男性への発話」タイプと、「老人女性から子供男性への発話」タイプと、「青年男性から子供男性への発話」タイプと、「青年女性から子供男性への発話」タイプと、「若年男性から子供男性への発話」タイプと、「若年女性から子供男性への発話」タイプとの種類に分類することができる。同様に、子供女性への発話タイプを、「老人男性から子供女性への発話」タイプと、「老人女性から子供女性への発話」タイプと、「青年男性から子供女性への発話」タイプと、「青年女性から子供女性への発話」タイプと、「若年男性から子供女性への発話」タイプと、「若年女性から子供女性への発話」タイプとの種類に分類することができる。このようにして分類した発話タイプを示す言語を用いて、「子供への発話」における種々の音声認識用辞書・モデルを構築して辞書・モデルデータベースに格納することができる。同様に、機械翻訳、テキスト変換、音声合成等の辞書・モデルも予め構築して辞書・モデルデータベースに格納する。
【0160】
テキスト入力手段101と、テキスト出力手段115と、辞書・モデルデータベース107と、第二の話者特徴抽出手段105においては、それぞれ、前記第一の実施例との対応する部分が同様な処理で構成する。
【0161】
第一の話者の特徴抽出手段104は、前記第一の実施例の第二の話者特徴抽出手段105と同様な構成で同じ処理を行ってもよい。
【0162】
話者関係判定手段113では、第一の話者の特徴抽出手段104により抽出された第一の話者特徴と、第二の話者の特徴抽出手段105により抽出された第二の話者特徴と比較して話者の関係を判定する。例えば、第一の話者の個人属性が「青年、男性」で、第二の話者の個人属性が「老人、女性」である際に、比較結果は、第一言語側の話者の属性は「第一の話者の特徴(年下、青年男性)」で、第二の話者の属性は「第二の話者の特徴(年上、老年女性)」で得られる。
【0163】
辞書・モデル選択手段112では、前記話者関係判定手段113からの出力に基づいて、両話者の話者関係を用いて辞書・モデルデータベース107の中からテキスト変換用辞書・モデルを選択する。
【0164】
前述のように、本実施例では、両話者の特徴を同時に抽出して、話者関係判定手段113を通して両話者の関係を示す結果により、辞書・モデル選択手段112により、テキスト変換用辞書・モデルを選択し、両話者の特徴を共に考慮したテキスト変換処理を行う。
【実施例8】
【0165】
実施例8を、図面を参照して説明する。かかる実施例は本発明を実施するための第2の実施の形態に対応するものである。
【0166】
図11を参照すると、本発明の実施例8に係る音声合成手段110は、図10に示された第七の実施例におけるテキスト出力手段115の代わりに、テキスト変換手段106から出力されたテキストを合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例7を同じである。
【0167】
音声合成手段110では、テキスト変換手段106からの出力に対して、話者関係判定手段113から出力された両話者の関係を示す判定結果を用いて、辞書・モデル選択手段112により、辞書・モデルデータベース107の中から、両話者の話者関係を示す音声合成用辞書・モデルを選択し、音声合成処理を行うためのパラメータをコントロールする。
【0168】
音声出力手段111では、前記音声合成手段110から出力された合成音声波形信号を音声信号としてスピーカを通して合成音声を出力する。
【実施例9】
【0169】
実施例9を、図面を参照して説明する。かかる実施例は本発明を実施するための第2の実施の形態に対応するものである。
【0170】
図12を参照すると、本実施例は実施例7のテキスト変換手段106の代わりに、機械翻訳手段109に変えたものを備えている。その他の点は実施例7を同じである。
【0171】
機械翻訳手段109では、前記テキスト入力手段102から入力テキストを第二言語に翻訳する手段である。機械翻訳に必要な各種の辞書の選択は、前記第一の話者特徴抽出手段と前記第二の話者の特徴抽出手段により抽出された話者の特徴を前記話者関係判定手段113に出力し、話者関係の判定を行う。話者関係判定手段113からの出力結果を用いて、辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳処理を行う。
【0172】
例えば、「会議通訳システム」に本実施例を導入すれば、会議参加者のPCへのメモ書きを翻訳する場合、一人の発話者の発話をそれぞれの聞き手の属性に合わせた翻訳結果を提供することができるようになる。
【0173】
ここでは、中日通訳が行える会議通訳システムを想定して説明する。仮に青年男性の発話者A(一郎)、老人女性の話者B、若年男性の話者Cの三人がいると想定する.また、仮に、辞書データベース107に格納されている翻訳辞書は、「晩生」、「叫」と「一郎」の内容を含む。
【0174】
まず、中国語「晩生」を例として説明すると、「晩生」は人称代名詞で、一般的に聞き手より年下の人に、男性でも女性でも使用できる。そのため、「晩生」の原言語側のブロックに「原言語話者特徴(年下)」との属性情報を付与する。「晩生」と対応する日本語の訳語候補は、「わたくし」、「わたし」、「僕」等となるため、構築できる機械翻訳用辞書は原言語側では、「晩生」と原言語話者特徴(年下)から構成される原言語ブロックで、生成側では、「わたくし」と、品詞情報等と、目的言語話者特徴(年上、女性)等の情報から構成する一番目の目的言語生成ブロックと、「わたし」と、品詞情報等と、目的言語話者特徴(年上、男性)等の情報から構成する二番目の目的言語生成ブロックと、「僕」と、品詞情報等と、目的言語話者特徴(年下、男性)等の情報から構成する三番目の目的言語生成ブロックで辞書を構築する。
【0175】
次に、中国語動詞「叫」の使用できる人は年齢と性別との関係がなしに対して、日本語側では丁寧度の異なるもの、独立助動詞「だ」と五段動詞「申す」と対応することができる。そのため、「叫」の翻訳辞書は、原言語側では原言語話者特徴(Φ)の属性を付与する。意味は、すべてのユーザに使用できることを示す。一方、生成側では、独立助動詞「だ」の見出し情報と、固有部情報と、品詞情報と、目的言語話者特徴(年下、男性)等の情報から構成される一番目の生成ブロックと、五段動詞「申す」の見出し情報と、固有部情報と、品詞情報と、目的言語話者特徴(年上、女性)等の情報から構成される二番目の生成ブロックで構成されている。また、名詞「一郎」は、一般的な翻訳辞書で、年齢や性別の情報を付与しなくてもよい。
【0176】
次に、話者Aからの自己紹介の例文「晩生叫一郎.」を翻訳例として説明する。
この文を日本語に翻訳する時、まず、中国語の形態素解析と構文解析を行い、その結果、形態素要素代名詞「晩生」、動詞「叫」、名詞「一郎」とをから構成された構文情報が得られる。一方、日本語側では、中日翻訳辞書から、代名詞「晩生」から「わたくし」、「わたし」と「僕」を、動詞「叫」から「だ」と「申す」を、名詞「一郎」から「一郎」を読み込む。
【0177】
次に、話者Aの発話を話者Bに翻訳するとき、まず、前記の第一の話者特徴抽出手段104と第二の話者特徴抽出手段105により、両話者の特徴を抽出する。次に話者Aの特徴「青年、男性」と話者Bの特徴「老人、女性」の情報を用いて、話者関係判定手段により両話者の年齢を比較して、原言語話者特徴(年下)と目的言語話者特徴(年上)との結果が得られる。さらに、第一の話者の話者特徴量「青年、男性、原言語話者特徴(年下)」と第二の話者の話者特徴量「老人、女性、目的言語話者特徴(年上)」とを用いて、翻訳辞書が持つ属性情報との類似度を算出して、類似度が最大のものを選択する。その結果、「晩生」の三つの訳語候補の中から、「わたくし」の訳語を選択することになる。同様に「叫」の訳語候補の中から「申す」を選択することになる。
【0178】
そのため、日本語生成側の形態素は「わたくし」、「申す」、「一郎」からなる。次に、五段動詞「申す」の格フレームと日本語構文生成規則を用いて目的言語を生成し、「わたくしは一郎と申します」との翻訳結果を話者Bに提示することができる。
【0179】
同様に、話者Aの発話を話者Cに翻訳する時、「僕は一郎です」との翻訳結果を話者Cに提示することができる。
【実施例10】
【0180】
実施例10を、図面を参照して説明する。かかる実施例は本発明を実施するための第2の実施の形態に対応するものである。
【0181】
図13を参照すると、本発明の第九の実施例に係る音声合成手段110は、図12に示された第八の実施例におけるテキスト出力手段115の代わりに、機械翻訳手段109から出力された翻訳結果を合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例8を同じである。
【0182】
図13において、第一の話者特徴抽出手段104により第一の話者特徴を抽出する。第二の話者特徴抽出手段105により第二の話者の特徴を抽出する。抽出された第一、第二の話者の話者特徴を用いて話者関係判定手段113により、両話者の関係を判定する。判定された話者関係の結果を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳手段109に利用されて翻訳処理を行う。次に、機械翻訳の結果に対して、判定された話者関係の結果を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から音声合成用辞書・モデルを選択して音声合成を行う。音声合成手段110からの合成音声を音声出力手段111を通じて出力する。
【実施例11】
【0183】
実施例11を、図面を参照して説明する。かかる実施例は本発明を実施するための第2の実施の形態に対応するものである。
【0184】
図14を参照すると、本実施例は実施例8のテキスト入力手段102の代わりに、第一話者の音声を入力する音声入力手段103を備え、入力音声を認識処理を行う音声認識手段108を備えている。その他の点は実施例8を同じである。
【0185】
音声入力手段103は、第一の話者の音声を取り込んで音声入力解析処理を行うものである。入力音声を解析するための処理は前記第五の実施例の音声入力手段と同様な処理を行ってもよい。
【0186】
音声認識手段108は、入力された第一言語の話者の音声を認識するものである。音声認識手法は前記第五の実施例の音声認識処理と同様に処理してもよい。
【0187】
音声認識手段108における音声認識処理の辞書・モデルの選択は、第一の話者特徴抽出手段104により抽出された第一の話者の特徴と、第二の話者特徴抽出手段105により抽出された第二の話者の特徴を用いて、前記話者関係判定手段113により話者関係を判定して、判定結果を利用して前記辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から音声認識用の辞書・モデルを選択する。
【0188】
テキスト変換手段106では、音声認識手段108からの出力結果を、前記話者関係判定手段113により獲得された話者関係を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から言い換え用単語辞書や、変換規則辞書などを選択してテキスト変換処理を行う。
【0189】
音声合成手段110と音声出力手段111は実施例5の音声合成手段110と音声出力手段111と同様な処理を行うことができる。
【実施例12】
【0190】
実施例12を、図面を参照して説明する。かかる実施例は本発明を実施するための第2の実施の形態に対応するものである。
【0191】
図12を参照すると、本実施例は実施例11のテキスト変換手段106の代わりに、機械翻訳手段109を備えている。その他の点は実施例11と同じである。
【0192】
音声入力手段103と音声認識手段108は、実施例11の音声入力手段103と音声認識手段108と同様な構成で処理を行うことができる。
【0193】
機械翻訳手段109では、前記話者関係判定手段113により話者関係を判定して、判定結果を利用して前記辞書・モデル選択手段112により辞書・モデルデータベース107に格納されているモデル群の中から機械翻訳用の単語辞書、翻訳規則辞書、翻訳モデル等を選択して、機械翻訳処理を行う。
【0194】
例えば、中日翻訳の場合、「図33の文章2」の音声認識結果を翻訳処理する場合、中日翻訳用用言辞書の単語「図33の単語3」の生成側に、発話者の年齢より「年下」の聞き手に「〜ください」と、発話者の年齢より「年上」の聞き手に「お〜ください」との二つ目的言語生成ブロックを設け、同様に「吃」の辞書に「食べる」(年下)と「召し上がる」(年上)との二つの生成ブロックを設けることができる。また、機械翻訳処理では「図33の文章2」に対して形態素解析、構文解析を行い、日本語生成するためのルール選択は、前記話者関係判定手段113により獲得された話者関係を示す結果を利用して選択する。そして、「図33の文章2」の入力文を日本語に翻訳可能な結果として、「林檎を食べてください」と「林檎をお召し上がりください」とを生成することができる。言うまでもなく、第二の話者が発話者より「年下」の時、「林檎を食べてください」が生成されて、第二の話者が発話者より「年上」の時、「林檎をお召し上がりください」という翻訳結果が生成される。
【実施例13】
【0195】
実施例13を、図面を参照して説明する。かかる実施例は本発明を実施するための第3の実施の形態に対応するものである。
【0196】
図16を参照すると、本実施例は、テキスト入力手段102と、第一の話者特徴を抽出する第一の話者特徴抽出手段104と、第二の話者特徴を抽出する第二の話者の特徴抽出手段105と、コミュニケーション処理手段300と、辞書・モデルデータベース107と、話者対話履歴データベース310と、テキスト出力手段115とをから構成される。本実施例におけるコミュニケーション処理手段300は、テキスト変換手段106と、辞書・モデル選択手段112と、対話履歴管理手段114とを有する。
【0197】
図16に示す本実施例におけるテキスト入力手段102と、テキスト出力手段115と、第一話者の特徴抽出手段104と、第二の話者特徴抽出手段105と、辞書・モデルデータベース107との部分は、第十二の実施例の対応する部分と同様な構築方法で実現することができる。
話者の対話履歴データベース310では、両話者の話者特徴と共に、話者の対話履歴を時系列で記録する。
【0198】
次に、本実施例におけるコミュニケーション処理手段300を、図面を参照して説明する。本実施例におけるコミュニケーション処理手段300における話者関係判定手段113と、辞書モデル選択手段112と、テキスト変換手段106との部分は、第十二の実施例の対応する部分と同様な構築方法で実現することができる。対話管理手段114は、図29に示すように、対話履歴分析手段2901と、話者特徴判定手段2902と、フィードバック処理手段2903とをから構成される。
【0199】
対話履歴分析手段2901では、話者関係判定手段113から出力された両話者の特徴と話者関係に基づいて、話者対話履歴データベース310から両話者の対話履歴を抽出して、話者特徴と、対話スタイルと、対話内容のキーワードなどを含むベクトルや、又は前記ベクトルを時系列化したモデルを生成する処理などを行う。
【0200】
話者特徴判定手段2902では、前記話者対話履歴分析手段2901で生成された対話履歴の特徴ベクトルやモデルなどを用いて、前記第一の話者特徴抽出手段104と前記第二の話者特徴抽出手段105により抽出された話者の特徴及び前記話者関係判定手段113から出力された話者の関係に対する判定結果が正しいかどうかを判定する。
【0201】
例えば、日本語の「女言葉」の言語表現を示す特徴量と、「男言葉」の言語表現を示す特徴量とをそれぞれ用意して、話者対話履歴データベース310に保存しておいて、対話履歴分析手段2901からえられた話者の特徴ベクトルと照合することにより、話者の性別の判定を行うことができる。
【0202】
フィードバック処理手段2903では、前記話者特徴判定手段2902からの判定結果において、「誤りがある」と判定された際、話者の特徴に対してフィードバック処理を行う。
【0203】
例えば、第一の話者と第二の話者が共に男性と推定されたが、第一の話者の入力文が「鍵を持ってきてくれてよかった。ありがとうございました。どうしてかしら、あたし、最近よく忘れ物をするわよ。」がある時に、前記話者特徴判定手段2902により第一の話者が「女性」であることを判定して、フィードバック処理を行うことにより、第一話者の性別の属性値を直すことできる。
【0204】
このように、話者の対話の状態や進行から得られる情報を利用し、話者の特徴が「正しいかどうか」を自動的に判断することにより、話者の個人属性の誤りを自動的に検出して訂正する機能を実現することができる。
【実施例14】
【0205】
次に、発明を実施するための実施例14を、図面を参照して説明する。かかる実施例は本発明を実施するための第3の実施の形態に対応するものである。
【0206】
本実施例を図17に示す。図17を参照すると、実施例14に係る音声合成手段110は、図16に示された実施例13におけるテキスト出力手段115の代わりに、テキスト変換手段106から出力されたテキストを合成音声を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例13と同じである。
【0207】
音声合成手段110と音声出力手段111は、実施例12の対応する部分とを同じである。
【0208】
このように、第一の話者から入力したテキストに対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮したテキスト変換の結果を合成音声で出力することができる。
【実施例15】
【0209】
実施例15を、図面を参照して説明する。かかる実施例は本発明を実施するための第3の実施の形態に対応するものである。
【0210】
本実施例を図18に示す。図18を参照すると、本実施例は実施例13のテキスト変換手段106の代わりに、機械翻訳手段109に変えたものを備えている。その他の点は実施例13と同じである。
【0211】
機械翻訳手段109では、前記テキスト入力手段102から入力テキストを第二言語に翻訳する手段である。機械翻訳に必要な各種の辞書の選択は、前記第一の話者特徴抽出手段と前記第二の話者の特徴抽出手段により抽出された話者の特徴を前記話者関係判定手段113に出力し、話者関係の判定を行う。話者関係判定手段113からの出力結果に対して、話者対話履歴データベースから話者の対話履歴を抽出して対話管理手段114により話者の特徴が正しいかどうかを判定する。対話管理手段114から出力された正しい話者特徴と話者関係を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳処理を行う。
【0212】
このように、第一の話者から入力したテキストに対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮した機械翻訳処理の結果を提供することができる。
【実施例16】
【0213】
実施例16を、図面を参照して説明する。かかる実施例は本発明を実施するための第3の実施の形態に対応するものである。
【0214】
本実施例を図19に示す。図19を参照すると、本実施例は実施例15に係る音声合成手段110は、図18に示された実施例15におけるテキスト出力手段115の代わりに、機械翻訳手段109から出力された翻訳結果を合成音声処理を行う音声合成手段110を備え、また、合成音声を出力する音声出力手段111を備えている。その他の点は実施例15と同じである。
【0215】
音声合成手段110と音声出力手段111は、実施例14の対応する部分とを同じである。
【0216】
このように、第一の話者から入力したテキストに対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮した機械翻訳結果を合成音声で出力することができる。
【実施例17】
【0217】
実施例17を、図面を参照して説明する。かかる実施例は本発明を実施するための第3の実施の形態に対応するものである。
【0218】
本実施例を図20に示す。図20を参照すると、本実施例に係る音声合成手段110は、図17に示された実施例14におけるテキスト入力手段102の代わりに、第一話者の音声を入力する音声入力手段103を備え、入力音声を認識処理を行う音声認識手段108を備えている。その他の点は実施例14と同じである。
【0219】
このように、第一の話者からの音声入力に対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮したテキスト変換処理の結果を合成音声で出力することができる。
【実施例18】
【0220】
実施例18を、図面を参照して説明する。かかる実施例は本発明を実施するための第3の実施の形態に対応するものである。
【0221】
本実施例を図21に示す。図21を参照すると、本実施例は実施例17のテキスト変換手段106の代わりに、機械翻訳手段109を備えている。その他の点は実施例17と同じである。
【0222】
機械翻訳手段109では、前記テキスト入力手段102から入力テキストを第二言語に翻訳する手段である。機械翻訳に必要な各種の辞書の選択は、前記第一の話者特徴抽出手段と前記第二の話者の特徴抽出手段により抽出された話者の特徴を前記話者関係判定手段113に出力し、話者関係の判定を行う。話者関係判定手段113からの出力結果に対して、話者対話履歴データベースから話者の対話履歴を抽出して対話管理手段114により話者の特徴が正しいかどうかを判定する。対話管理手段114から出力された正しい話者特徴と話者関係を用いて、辞書・モデル選択手段112により辞書・モデルデータベース107から機械翻訳用辞書を選択して機械翻訳処理を行う。
【0223】
このように、第一の話者からの音声入力に対して、第一の話者の特徴と第二の話者の特徴及び両話者の対話履歴を考慮した機械翻訳結果を合成音声で出力することができる。
なお、本発明における各実施の形態及び実施例の応用においては、単一的な計算機装置やシステムに限定せず、複数の端末や計算機などによりシステムを構成することも出来る。
例えば、第二の実施の形態に対応して、入力手段101と第一の話者特徴抽出手段104を第一の端末に、出力手段111と第二の話者特徴抽出手段105を第二の端末に、コミュニケーション処理手段200をサーバコンピュータに配置して、各端末とサーバコンピュータがネットワーク経由でお互いに通信しながら処理を実行するように実施することは容易である。
【産業上の利用可能性】
【0224】
本発明のコミュニケーションシステムが、各モジュールを実現するための機能を含むテキスト及び音声出力方法、その各手順を電子機器などに実行させるための音声コミュニケーションプログラム及びこれらのプログラムを記録した電子機器読み取り可能な記録媒体と、これらのプログラムを含む電子機器の内部メモリに内臓可能なプログラム製品、そのプログラムを含む携帯端末やサーバなどの計算機、音声通訳装置などにより提供することができる。
【0225】
本発明によると、以上説明したとおり、両話者のコミュニケーションシステムにおける音声対話システム、テレビ会議システム、テレビ電話自動通訳システム、又は音声通訳システムにおける同言語間、又は異なる言語体系の話者におけるコミュニケーションの補助を行うことができる。また、本発明は、話者の個人属性を音声認識、言い換えや機械翻訳、音声合成に用いることにより、高い音声認識精度と、機械翻訳精度と豊富な音声合成機能、多用な言語表現機能をユーザに提供することができる。特に、本発明は、同言語の話者同士に対しても、異なる言語体系の話者に対しても、必要に応じるシステムを構築することにより、話者間の円滑なコミュニケーションを実現することができる。
【図面の簡単な説明】
【0226】
【図1】本発明の第一の実施形態における情報処理システムの概略構成を示すブロック図である。
【図2】本発明の第二の実施形態における情報処理システムの概略構成を示すブロック図である。
【図3】本発明の第三の実施形態における情報処理システムの概略構成を示すブロック図である。
【図4】本発明の第一の実施形態における実施例1の概略構成を示すブロック図である。
【図5】本発明の第一の実施形態における実施例2の概略構成を示すブロック図である。
【図6】本発明の第一の実施形態における実施例3の概略構成を示すブロック図である。
【図7】本発明の第一の実施形態における実施例4の概略構成を示すブロック図である。
【図8】本発明の第一の実施形態における実施例5の概略構成を示すブロック図である。
【図9】本発明の第一の実施形態における実施例6の概略構成を示すブロック図である。
【図10】本発明の第二の実施形態における実施例1の概略構成を示すブロック図である。
【図11】本発明の第二の実施形態における実施例2の概略構成を示すブロック図である。
【図12】本発明の第二の実施形態における実施例3の概略構成を示すブロック図である。
【図13】本発明の第二の実施形態における実施例4の概略構成を示すブロック図である。
【図14】本発明の第二の実施形態における実施例5の概略構成を示すブロック図である。
【図15】本発明の第二の実施形態における実施例6の概略構成を示すブロック図である。
【図16】本発明の第三の実施形態における実施例1の概略構成を示すブロック図である。
【図17】本発明の第三の実施形態における実施例2の概略構成を示すブロック図である。
【図18】本発明の第三の実施形態における実施例3の概略構成を示すブロック図である。
【図19】本発明の第三の実施形態における実施例4の概略構成を示すブロック図である。
【図20】本発明の第三の実施形態における実施例5の概略構成を示すブロック図である。
【図21】本発明の第三の実施形態における実施例6の概略構成を示すブロック図である。
【図22】本発明における第一の実施形態のアルゴリズムを示すフローチャートである。
【図23】本発明における第二の実施形態のアルゴリズムを示すフローチャートである。
【図24】本発明における第三の実施形態のアルゴリズムを示すフローチャートである。
【図25】第2の実施の形態における一種の日英機械翻訳辞書構造を示す例である。
【図26】図25の辞書例から生成可能な翻訳結果を示す図である。
【図27】音声認識用モデルの識別情報を示す図である。
【図28】辞書・モデルデータベースに格納する機械翻訳用辞書の日本語文体情報を示す実施例である。
【図29】従来の音声認識装置の概略構成図である。
【図30】従来のメール文章を読み上げて合成音声を出力する概略構成図である。
【図31】従来の音声応答装置の概略構成図である。
【図32】従来の音声応答装置の概略構成図である。
【図33】本発明を説明する為の図である。
【符号の説明】
【0227】
100 コミュニケーション処理手段
101 入力手段
102 テキスト入力手段
103 音声入力手段
104 第一の話者特徴抽出手段
105 第二の話者特徴抽出手段
106 テキスト変換手段
107 辞書・モデルデータベース
108 音声認識手段
109 機械翻訳手段
110 音声合成手段
111 音声出力手段
112 辞書・モデル選択手段
113 話者関係判定手段
114 対話履歴管理手段
115 テキスト出力手段
116 出力手段
200 コミュニケーション処理手段
300 コミュニケーション処理手段
310 話者対話履歴データベース

【特許請求の範囲】
【請求項1】
第一の話者から第二の話者へのコミュニケーションの処理を行う情報処理システムであって、
前記第二の話者の特徴を抽出する第二の話者特徴抽出手段と、
前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理するコミュニケーション処理手段と
を有することを特徴とする情報処理システム。
【請求項2】
前記第一の話者の特徴を抽出する第一の話者特徴抽出手段を有し、
前記コミュニケーション処理手段は、前記一の話者の特徴及び前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理する
ことを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記コミュニケーション処理手段は、
前記1の話者の特徴及び前記第二の話者の特徴に基づいて、話者の関係を判定する話者関係判定手段を有し、
前記判定された話者の関係を参照して、第一の話者からの入力データを処理する
ことを特徴とする請求項2に記載の情報処理システム。
【請求項4】
話者の対話履歴を保存する対話履歴データベースと、
前記コミュニケーション処理手段は、前記1の話者の特徴又は前記第二の話者の特徴と、前記対話履歴データベース話者の対話履歴とに基づいて、第一の話者からの入力データを処理する
ことを特徴とする請求項2又は請求項3に記載の情報処理システム。
【請求項5】
前記コミュニケーション処理手段は、
辞書・モデルデータベースと、
第二の話者の特徴に基づいて、辞書・モデルデータベースから辞書又はモデルを選択する辞書・モデル選択手段と、
選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適したデータに変換するデータ変換手段と
を有することを特徴とする請求項1から請求項4のいずれかに記載の情報処理システム。
【請求項6】
前記データ変換手段が、選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適したテキストに変換するテキスト変換手段であることを特徴とする請求項5に記載の情報処理システム。
【請求項7】
前記データ変換手段が、選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適した音声合成を行う音声合成手段であることを特徴とする請求項5に記載の情報処理システム。
【請求項8】
前記データ変換手段が、選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適した言語表現に翻訳する翻訳手段であることを特徴とする請求項5に記載の情報処理システム。
【請求項9】
前記データ変換手段が、選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適した言語表現に翻訳し、翻訳した言語表現を第2の話者に適した音声合成を行う翻訳・音声合成手段であることを特徴とする請求項5に記載の情報処理システム。
【請求項10】
第1の話者の音声を音声認識して入力データとして出力する音声認識手段を有することを特徴とする請求項1から請求項9のいずれかに記載の情報処理システム。
【請求項11】
前記コミュニケーション処理手段は、前記話者関係判定手段の判定に基づいて、前記辞書・モデルデータベースから辞書又はモデルを選択することを特徴とする請求項3から請求項10のいずれかに記載の情報処理システム。
【請求項12】
前記コミュニケーション処理手段は、前記話者特徴抽出手段から抽出した話者特徴に基づいて話者の対話履歴データベースから話者の対話履歴を分析して得られた各種のパターンとの照合を行う対話管理手段を有することを特徴とする請求項3から請求項10のいずれかに記載の情報処理システム。
【請求項13】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、話者の音声データから話者の特徴を抽出することを特徴とする請求項1から請求項12のいずれかに記載の情報処理システム。
【請求項14】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、話者の顔画像から話者の特徴を抽出することを特徴とする請求項1から請求項12のいずれかに記載の情報処理システム。
【請求項15】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、センサーにより話者の特徴を抽出することを特徴とする請求項1から請求項12のいずれかに記載の情報処理システム。
【請求項16】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、前記話者の個人属性を通信可能なICカード、前記話者の個人属性を通信可能なICカードに内蔵した端末装置、前記ICカードまたは前記端末を用いることにより話者の特徴を抽出することを特徴とする請求項1から請求項12のいずれかに記載の情報処理システム。
【請求項17】
前記第一の話者特徴抽出手段又は第二の話者特徴抽出手段が、話者の性別、年齢、人種、身体姿勢又は生体情報を示す個人属性を出力することを特徴とする請求項1から請求項12のいずれかに記載の情報処理システム。
【請求項18】
第一の話者から第二の話者へのコミュニケーションの処理を行う処理方法であって、
前記第二の話者の特徴を抽出する第一の話者特徴抽出処理と、
前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理するコミュニケーション処理と
を有することを特徴とする処理方法。
【請求項19】
前記第一の話者の特徴を抽出する第二の話者特徴抽出処理を有し、
前記コミュニケーション処理は、前記1の話者の特徴及び前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理する
ことを特徴とする請求項18に記載の処理方法。
【請求項20】
前記コミュニケーション処理は、
前記1の話者の特徴及び前記第二の話者の特徴に基づいて、話者の関係を判定する話者関係判定処理を有し、
前記判定された話者の関係を参照して、第一の話者からの入力データを処理する
ことを特徴とする請求項19に記載の処理方法。
【請求項21】
前記コミュニケーション処理は、前記1の話者の特徴又は前記第二の話者の特徴と、話者の対話履歴とに基づいて、第一の話者からの入力データをする
ことを特徴とする請求項19又は請求項20に記載の処理方法。
【請求項22】
前記コミュニケーション処理手段は、第二の話者の特徴に基づいて、辞書・モデルデータベースから辞書又はモデルを選択し、選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適したデータに変換するデータ変換処理を有することを特徴とする請求項18から請求項21のいずれかに記載の処理方法。
【請求項23】
前記データ変換処理は、選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適したテキストに変換する処理であることを特徴とする請求項22に記載の処理方法。
【請求項24】
前記データ変換処理は、選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適した音声合成を行う処理であることを特徴とする請求項22に記載の処理方法。
【請求項25】
前記データ変換処理は、選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適した言語表現に翻訳する処理であることを特徴とする請求項22に記載の処理方法。
【請求項26】
前記データ変換処理は、選択された辞書又はモデルを用いて、第一の話者からの入力データを第2の話者に適した言語表現に翻訳し、翻訳した言語表現を第2の話者に適した音声合成を行う処理であることを特徴とする請求項22に記載の処理方法。
【請求項27】
第1の話者の音声を音声認識して入力データとして出力する音声認識処理を有することを特徴とする請求項18から請求項26のいずれかに記載の処理方法。
【請求項28】
前記コミュニケーション処理は、前記話者関係判定処理の判定に基づいて、辞書・モデルデータベースから辞書又はモデルを選択することを特徴とする請求項20から請求項27のいずれかに記載の処理方法。
【請求項29】
前記コミュニケーション処理は、抽出した話者特徴に基づいて、話者の対話履歴データベースから話者の対話履歴を分析して得られた各種のパターンとの照合を行う対話管理処理を有することを特徴とする請求項21から請求項28のいずれかに記載の処理方法。
【請求項30】
話者の音声データから、第一の話者の特徴又は第二の話者の特徴を抽出することを特徴とする請求項18から請求項29のいずれかに記載の処理方法。
【請求項31】
話者の顔画像から、第一の話者の特徴又は第二の話者の特徴を抽出することを特徴とする請求項18から請求項29のいずれかに記載の処理方法。
【請求項32】
センサーにより、第一の話者の特徴又は第二の話者の特徴を抽出することを特徴とする請求項18から請求項29のいずれかに記載の処理方法。
【請求項33】
前記話者の個人属性を通信可能なICカード、前記話者の個人属性を通信可能なICカードに内蔵した端末装置、前記ICカードまたは前記端末を用いることにより、第一の話者の特徴又は第二の話者の特徴を抽出することを特徴とする請求項18から請求項29のいずれかに記載の処理方法。
【請求項34】
話者の性別、年齢、人種、身体姿勢又は生体情報を示す個人属性を出力することを特徴とする請求項18から請求項29のいずれかに記載の処理方法。
【請求項35】
第一の話者から第二の話者へのコミュニケーションの処理を実行する情報処理システムのプログラムであって、
前記第二の話者の特徴を抽出する第一の話者特徴抽出処理と、
前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理するコミュニケーション処理と
を情報処理システムに実行させるプログラム。
【請求項36】
前記第一の話者の特徴を抽出する第二の話者特徴抽出処理を情報処理システムに実行させ、
前記コミュニケーション処理は、前記1の話者の特徴及び前記第二の話者の特徴に基づいて、第一の話者からの入力データを処理する
ことを特徴とする請求項35に記載のプログラム。
【請求項37】
前記コミュニケーション処理は、
前記1の話者の特徴及び前記第二の話者の特徴に基づいて、話者の関係を判定する処理と、
前記判定された話者の関係を参照して、第一の話者からの入力データを処理する処理と
を有することを特徴とする請求項36に記載のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate


【公開番号】特開2009−139390(P2009−139390A)
【公開日】平成21年6月25日(2009.6.25)
【国際特許分類】
【出願番号】特願2007−312147(P2007−312147)
【出願日】平成19年12月3日(2007.12.3)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】