アバタ通信システム

【課題】立体アバタを用いた自然な通信を実現する。
【解決手段】受信手段３０は、携帯電話装置２からの音声および動画像を受信する。音声認識手段３２は、受信した音声について音声認識を行い、音素に対応する口唇形状を生成する。動画像認識手段３４は、受信した動画像に基づいて、口唇形状を含む顔の表情を認識する。アバタ動作決定手段３６は、音声認識手段３２の出力と動画像認識手段３４の出力とに基づいて、アバタの動作を示すアバタ動作データを生成する。アバタ動作決定手段３６は、口唇形状決定手段３８を含んでいる。口唇形状決定手段３８は、音声認識手段３２による口唇形状と、動画像認識手段３４による口唇形状とを統合して口唇動作データ（アバタ動作データの一部）を決定する。送信手段４０は、得られたアバタ動作データを相手方の携帯電話装置に送信する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明はアバタ通信システムに関し、特にその音声と口唇画像の動きとの整合性の向上に関するものである。
【背景技術】
【０００２】
アバタ画像を用いて通信を行う方法が提案されている。ここで、「アバタ」とは、通信者の分身として相手方通信者に提示される画像であり、通信者の動作に対応して動作するものをいう。
【０００３】
たとえば、画像撮像機能および表示機能を有する端末装置に３次元モデル表示ソフトウエアを用意しておく。３次元モデルソフトウエアは、３次元モデルのパラメータデータを受けて、３次元モデル画像を生成して表示するソフトウエアである。さらに、通話者の端末装置間の通信に、サーバ装置を介在させる。サーバ装置は、通話者の画像データに基づいて、予め、アバタ画像を記録している。サーバ装置は、通話者の音声を受信し、当該音声にあわせてアバタの口の動きを生成し、アバタ動作データを、相手方の端末装置に送信する。併せて、音声も送信する。
【０００４】
相手方の端末装置では、受信したアバタ動作データに基づいて、アバタ画像の表情を変化させるとともに、音声を出力する。
【０００５】
音声に基づいて、口唇形状を決定する手法は、特許文献１などに開示されている。
【０００６】
【特許文献１】特開２００１−３１９２４１
【発明の開示】
【発明が解決しようとする課題】
【０００７】
口唇形状を音声に基づいて決定する上記手法は、音と口唇形状との一致度が高く、不自然さが少ないという利点があるものの、次のような問題点があった。音に対応付けて口唇形状を決定しているので、発話者の口唇形状の微妙なニュアンスを表現することが困難であった。たとえば、無音期間における口唇表情を表現することができなかった。また、音から次の音へ移行する際の口唇形状の変化を規則的に作り出さざるを得ず、微妙な表情の変化を表現することができなかった。
【０００８】
この問題を解決するために、通話者を撮像した画像に基づいて口唇形状を取得し、この口唇形状の変化と同じようにアバタ画像の口唇形状を変化させるという手法も考えられる。この手法によれば、上記音声に基づく場合に比べて、口唇形状に関して多くの情報を得ることができ、それだけ微妙な表現も可能となる。
【０００９】
しかしながら、通話者の画像をそのまま相手方に伝える場合には問題はないが、アバタ画像を用いる場合には、一旦口唇の動きを認識し、認識した動きにあわせてアバタの口唇形状も変化させる必要がある。このため、口唇形状の認識が完全でなければ、音声と口唇形状とのずれが生じ、不自然になってしまう可能性があった。また、通信状態が悪く、発話者の画像が正確にサーバに伝送されない場合には、このようなことが顕著に発生する可能性があった。
【００１０】
そこで、この発明では、微妙な表情の変化を表現可能であって、音声と口唇形状とのずれの少ないアバタ通信システムを提供することを目的とする。
【課題を解決するための手段】
【００１１】
(1)この発明に係るアバタ通信システムは、第１の端末装置、第２の端末装置、サーバ装置を備えたアバタ通信システムであって、前記第１の端末装置は、第１の操作者の音声を取得する音声取得手段と、第１の操作者の画像を撮像する撮像手段と、音声取得手段、撮像手段によって取得した第１の操作者の音声および画像を、サーバ装置に送信するための送信手段とを備えており、
前記サーバ装置は、第１の端末装置から送信されてきた音声および画像を受信する受信手段と、受信した音声に基づいて音声認識を行い、認識した音素に対応する口唇形状の時間的変化を認識する音声認識手段と、受信した画像に基づいて、口唇形状の時間的変化を認識する画像認識手段と、音声認識手段によって認識された口唇形状の時間的変化を、画像認識手段によって認識された口唇形状の時間的変化によって修正し、口唇形状の時間的変化を決定するアバタ動作決定手段と、
前記音声およびアバタ動作決定手段によって決定された口唇形状の時間的変化に関する情報を第２の端末装置に送信するための送信手段とを備えており、
前記第２の端末装置は、サーバ装置から送信されてきた音声および口唇形状の時間的変化に関する情報を受信する受信手段と、受信した口唇形状の時間的変化に関する情報に基づいて、アバタ画像の口唇形状を変化させてアバタ動画像を生成するアバタ動画像生成手段と、生成されたアバタ動画像を、第２の操作者に提示するための表示手段と、受信した音声を出力するための音声出力手段とを備えていることを特徴としている。
【００１２】
サーバ装置は、音声に基づいて基本的な口唇形状を決定し、これを画像認識結果に基づいて修正するようにしているので、音声と口唇形状とのずれを排除しつつ、口唇形状の微妙な変化も失わないようにした口唇形状を持ったアバタ画像を生成することができる。
【００１３】
(2)この発明に係るサーバ装置は、第１の端末装置および第２の端末装置と通信可能なサーバ装置であって、第１の端末装置から送信されてきた音声に基づいて音声認識を行い、認識した音素に対応する口唇形状の時間的変化を認識する音声認識手段と、第１の端末装置から送信されてきた画像に基づいて、口唇形状の時間的変化を認識する画像認識手段と、音声認識手段によって認識された口唇形状の時間的変化を、画像認識手段によって認識された口唇形状の時間的変化によって修正し、口唇形状の時間的変化を決定するアバタ動作決定手段と、前記音声およびアバタ動作決定手段によって決定された口唇形状の時間的変化に関する情報を第２の端末装置に送信するための送信手段とを備えている。
【００１４】
音声に基づいて基本的な口唇形状を決定し、これを画像認識結果に基づいて修正するようにしているので、音声と口唇形状とのずれを排除しつつ、口唇形状の微妙な変化も失わないようにした口唇形状を持ったアバタ画像を生成することができる。
【００１５】
(3)この発明に係る口唇形状決定プログラムは、口唇形状を決定する処理をコンピュータに行わせるためのプログラムであって、与えられた音声に基づいて音声認識を行い、認識した音素に対応する口唇形状の時間的変化を認識する音声認識処理と、前記音声に対応するものとして与えられた画像に基づいて、口唇形状の時間的変化を認識する動画像認識処理と、音声認識処理によって認識された口唇形状の時間的変化を、動画像認識処理によって認識された口唇形状の時間的変化によって修正し、口唇形状の時間的変化を決定するアバタ動作決定処理とをコンピュータに実行させることを特徴としている。
【００１６】
音声に基づいて基本的な口唇形状を決定し、これを画像認識結果に基づいて修正するようにしているので、音声と口唇形状とのずれを排除しつつ、口唇形状の微妙な変化も失わないようにした口唇形状を決定することができる。
【００１７】
(4)この発明に係るシステムは、サーバ装置は、第１の端末装置から属性決定データを受け取り、音声認識手段は、当該属性決定データに応じて、同じ音素に対しても、当該属性を表す異なる口唇形状を生成することを特徴としている。
【００１８】
したがって、操作者の希望する属性にしたがう口唇形状を生成することができる。
【００１９】
(5)この発明に係るシステムは、サーバ装置は、第１の端末装置から属性決定データを受け取り、アバタ動作決定手段は、前記属性決定データに基づいて口唇形状を含むアバタ動画像を修正することを特徴としている。
【００２０】
したがって、操作者の希望する属性にしたがうアバタの表情を生成することができる。
【００２１】
この発明において、「動画像認識手段」とは、動画像に基づいて、少なくともその特徴を抽出する手段をいう。実施形態では、図１０のステップＳ１２がこれに対応する。
【００２２】
「音声認識手段」とは、音声に基づいて、少なくともその音声に対応する口の形状を得るために必要な処理を行う手段をいう。実施形態では、図１０のステップＳ１４がこれに対応する。
【００２３】
「アバタ動作決定手段」とは、少なくとも、動画像認識手段と音声認識手段による口唇形状を統合して、アバタの口唇動作を得る手段をいう。実施形態では、図１０のステップＳ１６がこれに対応する。
【００２４】
「プログラム」とは、ＣＰＵによって直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮されたプログラム、暗号化されたプログラムやハードディスク等によってインストールして動作可能となるプログラムなどを含む概念である。
【発明を実施するための形態】
【００２５】
１．第１の実施形態
(1)システムの全体構成
図１に、この発明の一実施形態によるアバタ通信システムの全体構成を示す。このシステムは、操作者の有する携帯電話装置２、８、およびこれら携帯電話装置２、８と通信回線４を介して接続されたサーバ装置６を備えている。携帯電話装置２、８は、いずれも、動画を撮像し、表示する機能を有している。
【００２６】
アバタ通信を行う操作者は、携帯電話装置２からサーバ装置６に接続して予め用意されている立体アバタ画像を選択する。携帯電話装置８を有する相手方の操作者も同様にして、サーバ装置６に記録されている立体アバタ画像を選択する。
【００２７】
携帯電話装置２において撮像された操作者の動画像および入力された音声は、通信回線４（電話回線網、インターネットなど）を介して、サーバ装置６に送信される。サーバ装置６は、携帯電話装置２の操作者が選択した立体アバタ画像を、相手方の携帯電話装置８に、通信回線４を介して送信する。この立体アバタ画像は、携帯電話装置８において表示される。
【００２８】
サーバ装置６は、携帯電話装置２から送られてきた動画像および音声に基づいて、アバタ画像の動きを表すアバタ動作データを生成し、携帯電話装置８に送信する。また、携帯電話装置２からの音声も送信する。携帯電話装置８は、このアバタ動作データに基づいて、アバタ画像を動かしてアバタ動画像とするとともに、音声を出力する。
【００２９】
上記のようにして、アバタを用いた通信を行うことができる。なお、携帯電話装置８から携帯電話装置２に対しても、同様に、アバタの動きおよび音声を送信することができる。
【００３０】
(2)携帯電話装置の機能ブロック図
図２に、携帯電話装置２の機能ブロック図を示す。なお、携帯電話装置８も同様の構成である。音声取得手段１０は、操作者の音声を電気信号に変換する。撮像手段１２は、操作者の動画を撮像して電気信号に変換する。送信手段１４は、これら音声および動画像を、通信回線４を介してサーバ装置６に送信するものである。
【００３１】
受信手段２２は、通信回線４を介して、サーバ装置６から相手方の音声およびアバタ動作データを受信する。アバタ動画像生成手段２０は、受信したアバタ動作データに基づいて、アバタ画像を動かしてアバタの動画像を生成する。表示手段１６は、これを表示する。また、音声出力手段１８は、受信した音声を出力する。なお、この実施形態では、携帯電話装置２からサーバ装置６に対し、音声および動画像を送信するために、電話回線網およびインターネットを使用している。
【００３２】
(3)サーバ装置の機能ブロック図
図３に、サーバ装置６の機能ブロック図を示す。受信手段３０は、携帯電話装置２からの音声および動画像を受信する。音声認識手段３２は、受信した音声について音声認識を行い、音素に対応する口唇形状を生成する。動画像認識手段３４は、受信した動画像に基づいて、口唇形状を含む顔の表情を認識する。
【００３３】
アバタ動作決定手段３６は、音声認識手段３２の出力と動画像認識手段３４の出力とに基づいて、アバタの動作を示すアバタ動作データを生成する。アバタ動作決定手段３６は、口唇形状決定手段３８を含んでいる。口唇形状決定手段３８は、音声認識手段３２による口唇形状と、動画像認識手段３４による口唇形状とを統合して口唇動作データ（アバタ動作データの一部）を決定する。送信手段４０は、得られたアバタ動作データを携帯電話装置８に送信する。
【００３４】
(4)携帯電話装置のハードウエア構成
図４に、携帯電話装置２のハードウエア構成を示す。なお、携帯電話装置８も同じ構成である。ＣＰＵ５０には、ディスプレイ５２、スピーカ５４、通信回路５６、キー５８、マイク６０、カメラ６２、メモリ６４が接続されている。
【００３５】
表示手段であるディスプレイ５２は、画像を表示するためのものである。音声出力手段であるスピーカ５４は、音声を出力するためのものである。送信手段および受信手段である通信回路５６は、通信回路４を介して、サーバ装置６と通信するためのものである。キー５８は、テキストデータを入力するためのものである。音声取得手段であるマイク６０は、操作者などの音声を取得して音声信号に変換するものである。撮像手段であるカメラ６２は、操作者などの動画像を取得して画像信号に変換するものである。メモリ６４は、立体アバタ動画像を表示するためのプログラムを記録している。
【００３６】
このプログラムは、アバタの表面を定義した面、当該面のテクスチャーおよび各面の動きのデータに基づいて、アバタ動画像を表示する。
【００３７】
(5)サーバ装置のハードウエア構成
図５に、サーバ装置６のハードウエア構成を示す。ＣＰＵ７０には、ディスプレイ７２、メモリ７４、通信回路７６、キーボード／マウス７８、ハードディスク８０、ＣＤ−ＲＯＭドライブ８２が接続されている。ハードディスク８０には、オペレーティングシステム９０、アバタ通信プログラム９４、アバタデータ９６などが記録されている。アバタ通信プログラム９４は、オペレーティングシステム９０と協働して、機能を発揮するものである。また、アバタデータ９６は、図７に示すように、複数種類の立体アバタ画像を備えている。各立体アバタ画像には、アバタＩＤが付されている。また、立体アバタ画像として、基本形態だけでなく、笑った形態、微笑んだ形態、怒った形態など、様々な形態が記録されている。
【００３８】
基本形態の立体アバタ画像の例を図１６に示す。この図に示すものでは、特徴点ａ〜ｗの３次元座標によって、画像が定義されている。なお、実際には、さらに多くの特徴点が設けられているが、図では省略している。各特徴点によって形成される面には、所定のテクスチャーが与えられている。たとえば、特徴点ｊを中心とし、特徴点ｉとｋを通る楕円面は、黒目のテクスチャーが与えられている。また、特徴点ａ、ａ１、ａ４、ａ３によって形成される面は、肌のテクスチャーが与えられる。
【００３９】
図７では、イメージとして示しているが、実際には、特徴点の３次元座標と、テクスチャーによって、立体アバタ画像のデータが記録されている。
【００４０】
(6)アバタ通信処理
図６に、アバタ通信プログラム９４のうちの、アバタ画像選択処理の部分のフローチャートを示す。
【００４１】
まず、ＣＰＵ７０は、携帯電話装置２から、アバタ画面選択のための画面送信要求を受ける（ステップＳ１）。これに対し、ＣＰＵ７０は、ハードディスク８０に記録されている複数のアバタデータ９６のそれぞれにつき、基本形態を読み出して、携帯電話装置２に送信する（ステップＳ２）。すなわち、ＣＰＵ７０は、複数のアバタを提示して、ユーザにいずれかを選択させるための画面を送信する。この時、携帯電話装置２に表示される選択画面を、図８に示す。
【００４２】
この画面により、ユーザがアバタ選択情報を携帯電話装置２に入力すると、ＣＰＵ７０は、この選択情報を受信する（ステップＳ３）。次に、ＣＰＵ７０は、ユーザによって選択されたアバタのアバタＩＤを、当該ユーザのユーザＩＤ（ここでは、ユーザの携帯電話装置２の電話番号）に対応付けて、ハードディスク８０に記録する（ステップＳ４）。図９に、ハードディスク８０に記録された、ユーザ・アバタ対応テーブルを示す。
【００４３】
なお、上記のアバタ選択処理は、各ユーザについて一度だけ行えばよい。２度目からは、前回選択したアバタを使用するようにする。これにより、ユーザは、通信の都度、アバタを選択する煩わしさがない。なお、アバタを変更したい場合のみ、上記のアバタ選択処理を行うようにする。
【００４４】
また、通信の都度、アバタを選択させるようにしてもよい。
【００４５】
図１０に、アバタ通信プログラム９４のうち、通信処理の部分のフローチャートを示す。ＣＰＵ７０は、携帯電話装置２の電話番号を取得し、図９のテーブルの中から対応するアバタ画像を取得する。これを、相手方の携帯電話装置８に送信する（ステップＳ１０）。同様にして、携帯電話装置２に対しても、携帯電話装置８の操作者のアバタ画像が送信される。以下、携帯電話装置２から携帯電話装置８への通信処理について説明するが、携帯電話装置８から携帯電話装置２への通信処理も同様である。
【００４６】
ＣＰＵ７０は、ステップＳ１１において、携帯電話装置２からの音声および動画像を受信する。次に、ＣＰＵ７０は、受信した動画像（連続した静止画像）につき画像認識を行う（ステップＳ１２）。
【００４７】
まず、ＣＰＵ７０は、受信した画像に基づいて、ユーザの頭の向き（図１１におけるＸ軸、Ｙ軸、Ｚ軸に対する回転角度）を算出する。その処理のフローチャートを図１２に示す。
【００４８】
ＣＰＵ７０は、色彩の違いを利用して、毛髪部分と肌色部分を取り出す（ステップＳ２１）。この毛髪部分と肌色部分の外形を、楕円によって近似する（ステップＳ２２）。ＣＰＵ７０は、この楕円の傾きを算出し（図１３参照）、Ｚ軸まわりの回転角を得る（ステップＳ２３）。
【００４９】
次にＹ軸回転角を算出する。この実施形態では、頭全体（毛髪部分と肌色部分の全体）の重心座標Ｗfと、肌色部分のみの重心座標Ｗsとの差Ｓxに基づいて、Ｙ軸回転角を算出している。図１４に示すように、Ｙ軸を中心とした回転が大きくなると、後ろにある髪の毛が画像として現れ、その結果、重心Ｗfと重心ＷsのＸ軸方向の座標差Ｓxも大きくなる。
【００５０】
ＣＰＵ７０は、まず、重心座標Ｗfと、肌色部分のみの重心座標ＷsとのＸ軸方向の座標差Ｓxを算出する（ステップＳ２４）。この実施形態では、顔の標準モデル（平均的な毛髪部分と肌色部分を有するモデル）について、予め、座標差ＳxとＹ軸回転角との対応を算出しておき、テーブルとして記録している。ＣＰＵ７０は、このテーブルに基づいて、座標差Ｓxに対応するＹ軸回転角を得る（ステップＳ２５）。
【００５１】
次に、Ｘ軸回転角を算出する。Ｘ軸回転角についても、予め、標準モデルについて、座標差Ｓy（Ｙ軸方向への座標差）とＹ軸回転角との対応を算出しておき、テーブルとして記録している。ＣＰＵ７０は、重心座標Ｗfと重心座標ＷsとのＹ軸方向の座標差Ｓyを算出する（ステップＳ２６）。次に、テーブルを参照して、Ｘ軸回転角を得る（ステップＳ２７）。
【００５２】
この実施形態では、毛髪部分と肌色部分に基づいて、ユーザの頭の向きを算出している。このような手法は、呉海元他「色彩動画像からの頭部ジェスチャー認識システム」情報処理学会論文誌３７巻６号（１９９６年６月）１２３４頁以下に示されている。
【００５３】
なお、両目の位置に基づいて、顔の向きを算出するようにしてもよい。
【００５４】
次に、ＣＰＵ７０は、上記のようにして算出したＸ回転角、Ｙ回転角、Ｚ回転角に基づいて、ユーザが正面を向いた画像（Ｘ、Ｙ、Ｚ軸への回転角度が０）を生成する（ステップＳ２８）。なお、撮像した画像は平面画像であるから、ＣＰＵ７０は、標準モデルと同じような顔の表面形状を有する立体であると推定して、回転処理を行う。この回転処理により、図１５に示すようなユーザの正面画像を得ることができる。
【００５５】
続いて、ＣＰＵ７０は、図１５の特徴点Ａ〜Ｗ等の抽出を行い、その座標を取得する（ステップＳ２９）。
【００５６】
次に、ＣＰＵ７０は、抽出した特徴点に基づいて、アバタの動作を生成する（ステップＳ１３）。ここでは、図７に記録されている当該アバタ画像（基本、笑う、微笑む、怒る・・）のうち、上記で抽出した特徴点Ａ〜Ｗに最も合致するものを１つ選択する。図１６に、アバタ画像の基本画像を示す。ＣＰＵ７０は、アバタ画像の基本画像やその他の表情についても、図１５と同じようにして特徴点ａ〜ｗを算出する。なお、特徴点ａは特徴点Ａに対応し、特徴点ｂは特徴点Ｂに、・・・・それぞれ対応するものとする。そして、両特徴点の比較パラメータを比較して最もよく類似しているものを選択する。比較するパラメータとしては、たとえば、口の開き度合い（特徴点Ｄ、Ｆ（ｄ、ｆ）の距離と特徴点Ｅ、Ｇ（ｅ、ｇ）の距離の比）、右目の角度（特徴点Ｈ、Ｌ（ｈ、ｌ）を結ぶ直線の角度）、左目の角度（特徴点Ｍ、Ｑ（ｍ、ｑ）を結ぶ直線の角度）、右目の開き度合い（特徴点Ｈ、Ｌ（ｈ、ｌ）の距離と特徴点Ｉ、Ｋ（ｉ、ｋ）の距離の比）、左目の開き度合い（特徴点Ｍ、Ｑ（ｍ、ｑ）の距離と特徴点Ｎ、Ｐ（ｎ、ｐ）の距離の比）などを用いることができる。
【００５７】
上記のようにして、ユーザの画像に対応したアバタ画像の表情を選択する。ユーザの画像は刻々変化するので、この変化にあわせて、アバタ画像も変化することになる。ＣＰＵ７０は、このようにして算出した画像認識によるアバタ画像を時刻とともにメモリ７４に記録する。なお、メモリ７４には、所定秒前までの画像認識によるアバタ画像が連続的に記録されている。
【００５８】
次に、ＣＰＵ７０は、受信した音声の音声認識を行い、音素のテキストデータを得る（ステップＳ１４）。次に、ＣＰＵ７０は、認識した音素に対応するアバタの口唇形状を生成する（ステップＳ１５）。この実施形態では、各音素に対して、基本となるアバタ画像（図８に記録されたもの）の口唇形状（特徴点Ｄ〜Ｇ）が、どのように変化するかを示すテーブルをハードディスク８０に記録している。
【００５９】
図１７に、音素/o/を例としたテーブルを示す。最上欄の「１」「２」「３」「４」は、時間経過（所定の時間間隔）を示す。第２欄は、アバタ画像の特徴点ｅと特徴点ｇとの距離の変化を、基本となる口唇形状との比として示している。第３欄はアバタ画像の特徴点ｄと特徴点ｆとの距離の変化を、基本となる口唇形状との比として示している。音素/o/を発音する場合、特徴点ｅと特徴点ｇとの距離が大きくなり、特徴点ｄと特徴点ｆとの距離が小さくなることが示されている。
【００６０】
ＣＰＵ７０は、このテーブルに基づいて、認識した各音素に基づいて、対応する口唇形状を生成する。生成した口唇形状は、時刻とともにメモリ７４に記録する。なお、メモリ７４には、所定秒前までの音声認識による口唇形状が記録されている。ただし、口唇形状が記録されるのは、音素が認識できた期間だけであり、無音期間などにおいては生成されない。
【００６１】
次に、ＣＰＵ７０は、画像認識による口唇形状と音声認識による口唇形状とを統合する（ステップＳ１６）。図１８に、メモリ７４に記録された画像認識による口唇形状と、音声認識による口唇形状とを示す。時間経過は、ｔ1からt10へと進行している。ＣＰＵ７０は、各時刻における口唇形状を、メモリ７４に記録された画像認識による口唇形状と音声認識による口唇形状の時間的推移に基づいて決定する。たとえば、時刻ｔ10における口唇形状の決定には、時刻ｔ1〜ｔ10の画像認識および音声認識の口唇形状が用いられる。
【００６２】
この実施形態では、音声認識による口唇形状を基本とし、音声認識の口唇形状が存在しない部分を、画像認識による口唇形状にて補完するようにしている。具体的には、所定時刻分の画像認識による口唇形状と音声認識による口唇形状を入力とし、適切な口唇形状を教師信号として与えることによって学習させたニューラルネットワークによって決定する。
【００６３】
たとえば、音声認識による口唇形状が存在する部分はこれをそのまま用い、音声認識による口唇形状が存在しない部分については、画像認識による口唇形状に自然と連続するように口唇形状が変化するようにニューラルネットワークを形成するとよい。
【００６４】
図１８に示されているように、時刻ｔ5では、画像認識処理の誤りにより、発話があるにもかかわらず口が閉じてしまっている。この実施形態では、音声認識による口唇形状を主体としているので、決定された口唇形状では、開いた口の形となっており、不自然さが解消されている。また、時刻ｔ7の音声認識による口唇形状と、時刻ｔ8の画像認識による口唇形状とは大きく異なっており、これをそのまま接続すると、極めて不自然な口の動きになってしまうが、決定した口唇形状では、緩やかな変化となっている。
【００６５】
次に、ＣＰＵ７０は、上記のようにして決定した口唇形状を含むアバタ画像を、携帯電話装置８に送信する。既に、ステップＳ１０において、面の情報、テクスチャーの情報は送信しているので、ここでは、基本となるアバタ画像との差だけを送信する。つまり、アバタ動作データとして送信する（ステップＳ１７）。
【００６６】
たとえば、顔の表情が全く変わらず、顔の向きだけが変わった場合には、顔の上下左右方向の向き（上記のＸ軸回転角、Ｙ軸回転角、Ｚ軸回転角）だけを送信するだけで、携帯電話装置８においてアバタを動作させることができる。また、テクスチャーは基本的に変化しないので、送信する必要はない。面情報については、その形状が変化した場合には、面を構成する点の座標を送信する。面自体の形状に変化はなく、面全体が移動した場合には、その移動量と方向のみを送信すればよい。
【００６７】
さらに、ＣＰＵ７０は、携帯電話装置２から受信した音声を、携帯電話装置８に送信する（ステップＳ１８）。なお、アバタ動作データだけでなく音声データについても、通常の電話回線で送信するのではなく、インターネット回線を介して送信することが好ましい。両者の同期をとるために、時刻データを付けたデジタルデータとして送信するためである。
【００６８】
上記の一連の処理が終了すると、ステップＳ１１以下の処理を繰り返す。これにより、立体アバタ動画像を用いた通信を行うことができる。
【００６９】
なお、上記では、ニューラルネットワークによって口唇形状を統合しているが、音声認識による口唇形状と、画像認識による口唇形状とを、所定の比率によって合成するようにしてもよい。この場合においても、上記のように、音声認識による口唇形状を基本とし、これを画像認識による口唇形状によって補正することが好ましい。
【００７０】
(7)その他の形態
7-1 アバタ画像の動作決定
上記実施形態では、特徴点Ａ〜Ｗの比較パラメータが最も類似するアバタ画像の表情を選択するようにしている。しかし、次のようにして、アバタ画像の動作を決定するようにしてもよい。
【００７１】
予め、ユーザの正面の画像（基本画像）に基づいて、その特徴点を取得しておく。ユーザの画像を取得し、その特徴点を算出する。この特徴点と、基本画像における特徴点との差を算出する。アバタ画像の基本画像の特徴点を、ここで算出した差に基づいて、移動させる。このようにすれば、アバタ画像の基本画像を用意するだけでよく、全ての表情についてのアバタ画像を用意する必要がない。
【００７２】
7-2 アバタ画像の生成
また、上記各実施形態では、予め用意したアバタを、ユーザが選択するようにしている。しかし、携帯電話端末装置２から送信されてきたユーザの画像に基づいて、当該ユーザの画像を変形してアバタを生成するようにしてもよい。この場合には、通信に先立って、アバタの生成を行う必要がある。
【００７３】
図１９に、アバタ生成プログラムのフローチャートを示す。このプログラムは、サーバ装置のハードディスク８０に記録される。
【００７４】
ＣＰＵ７０は、ステップＳ３１において、携帯電話装置２からの操作者の顔の画像を受信し、メモリ７４に記録する（ステップＳ３２）。なお、この実施形態では、操作者が正面の画像を送信するようにしている。次に、ＣＰＵ７０は、当該画像について、図２０に示すように、特徴点Ａ〜Ｗの認識を行って、その座標を記録する（ステップＳ３３）。図において、直線αは、特徴点Ｊと特徴点Ｏとを結ぶ直線βにおける、点Ｊと点δの距離と、点Ｏと点δの距離とが等しくなるような点δと、あごの輪郭の中心点Ｂとを結ぶ直線である。直線γは、特徴点Ｄと特徴点Ｆとを結ぶ直線である。特徴点Ａと特徴点Ｃは、この直線γとあごの輪郭との交わる点である。なお、説明のために特徴点を少なくしているが、実際には、より多くの特徴点を設けることが好ましい。
【００７５】
また、この実施形態において、各特徴点の認識は３次元座標において行う。図２０では平面的に表現しているが、各特徴点のデータは、図２１に示すように、Ｘ，Ｙ，Ｚの３次元座標のデータとして記録される。なお、平面画像に基づいて、３次元座標を得る手法は、上記実施形態と同様である。
【００７６】
上記の結果、図２１に示すように、操作者（ユーザ）のＩＤに対応付けて、特徴点Ａ〜Ｗの座標がハードディスク８０に記録される。次に、ＣＰＵ７０は、これら特徴点Ａ〜Ｗに基づいて、アバタ画像を生成する（ステップＳ３４）。たとえば、図２２に示すようなアバタ画像が生成される。
【００７７】
以下、アバタ画像生成の処理を説明する。まず、ＣＰＵ７０は、図２０の特徴点Ａ〜Ｗに対応する特徴点ａ〜ｗを決定する。この実施形態では、特徴点ａ〜ｇは、特徴点Ａ〜Ｇと同じ座標位置に配置している。また、特徴点ｈ〜ｗは、特徴点Ｈ〜Ｗに対して所定の関係となるような位置に配置している。つまり、目が大きくなるように、特徴点の座標位置を変更している。さらに、ＣＰＵ７０は、配置した特徴点ａ〜ｗに基づいて、これら特徴点を補完するように特徴点ａ1〜ａ4、ｂ1、ｃ1〜ｃ4などを配置する。たとえば、特徴点ｂ1は、特徴点ｇと特徴点ｂとの中間位置の座標に配置される。なお、図２２においては、補完される特徴点の一部だけを示している。
【００７８】
次に、ＣＰＵ７０は、各特徴点によって形成される面に、所定のテクスチャーを与える。いずれの面に、どのようなテクスチャーを与えるかは、予め定められている。たとえば、特徴点ｊを中心とし、特徴点ｉとｋを通る楕円面は、黒目のテクスチャーが与えられる。たとえば、特徴点ａ、ａ1、ａ4、ａ3によって形成される面は、肌のテクスチャーが与えられる。
【００７９】
以上のようにして生成されたアバタ画像のデータは、図２１に示すように、各特徴点ａ〜ｗの座標、各面のテクスチャーとしてハードディスク８０に、アバタデータ９６として記録される。なお、この実施形態では、操作者の有する携帯電話装置２の電話番号を、ユーザＩＤとして記録するようにしている。
【００８０】
このように、ユーザの画像に基づいてアバタを生成した場合には、ユーザ画像の特徴点Ａ〜Ｗの動きに対応付けて、アバタの特徴点ａ〜ｗを動かすようにしてもよい。
【００８１】
7-3 口唇形状の決定
なお、上記実施形態では、音声認識に基づいてテキストを得て、口唇形状を生成しているが、音声に変えてキー５８から入力されたテキストに基づいて口唇形状を生成してもよい。この場合、画像認識に基づく口唇形状の決定は行わず、テキストに基づく口唇形状だけを用いてアバタを動作させることができる。また、画像認識のための画像を別途撮像し、この画像認識に基づく口唇形状と、テキストに基づく口唇形状を統合して口唇形状を決定し、アバタを動作させるようにしてもよい。
【００８２】
２．第２の実施形態
上記実施形態では、図１７に示すように、各音素に対しての口唇の形状は一定である。しかし、操作者の選択した性格に応じて、同じ音素であっても口唇形状を変えるようにしてもよい。これにより、「豪放」な印象を与える口唇の動き、「しとやか」な印象を与える口唇の動きなどを表現することができる。さらに、性格に応じて、アバタの表情を変化させるようにしてもよい。
【００８３】
以下、このように操作者の選択した性格に基づいてアバタの表情を変えることのできる実施形態を示す。
【００８４】
この実施形態におけるアバタ通信システムの機能ブロック図を図２３に示す。受信手段３０、動画像認識手段３４、送信手段４０は、第１の実施形態と同じである。
【００８５】
この実施形態における音声認識手段３２は、音素決定手段３２ａ、音声口唇形状選択手段３２ｂ、性格対応テーブル３２ｃを備えている。口唇形状テーブル３２ｃには、各音素に対応する口唇形状のセットが、基本となる口唇形状に基づいて予め算出されて記録されている。さらに、この口唇形状セットが、用意された性格ごとに算出され記録されている。
【００８６】
音素決定手段３２ａは、与えられた音声に基づいて音素を決定する。音声口唇形状選択手段３２ｂは、音素に基づいて、操作者が通信開始時などに選択した性格に対応する口唇形状を口唇形状テーブル３２ｃから読み出し、アバタ動作決定手段３６に与える。
【００８７】
アバタ動作決定手段３６は、口唇形状決定手段３８、性格付与手段４２、表情パターンテーブル４４を備えている。口唇形状決定手段３８は、第１の実施形態と同じものである。性格付与手段４２は、操作者が選択した性格に基づいて、表情パターンテーブル４４を参照し、アバタの表情を修正する。上記のようにして、操作者が希望する性格をアバタに与えることができる。
【００８８】
サーバ装置６のハードウエア構成は、第１の実施形態と同じである。この実施形態では、各音素の一連の口唇形状を予め生成し、口唇形状テーブル３２ｃとしてハードディスク８０に記録するようにしている。これにより、処理を迅速にすることができる。さらに、図２４に示すように、それぞれの音素について、各性格「豪放」「しとやか」「おおげさ」・・・に対応する口唇形状を予め生成して、口唇形状テーブル３２ｃに記録している。図では、音素/o/についてのみ口唇形状を示しているが、他の音素についても同様に記録されている。なお、この口唇形状テーブル３２ｃは、各アバタごとに生成されて記録されている。
【００８９】
図２５および図２６に、この実施形態によるアバタ通信処理プログラムのフローチャートを示す。ＣＰＵ７０は、通信の開始とともに、携帯電話装置２に対して、アバタの性格を何れにするかを質問する画面を、インターネットを介して送信する。携帯電話装置２によって選択された性格（属性決定データ）が返信されてくると、これをメモリ７４に記録する（ステップＳ８）。なお、この性格選択は、通信のたびに毎回問い合わせをするのではなく、ディフォルトとして、操作者（ユーザ）ごとにハードディスク８０に記録するようにしてもよい。
【００９０】
次に、ＣＰＵ７０は、操作者の選択した性格（属性決定データ）に基づいて、図２４に示す口唇形状テーブルのいずれかを選択する（ステップＳ９）。ステップＳ１０でアバタ画像を相手方の携帯電話装置８に送信し、その後、画像認識に基づいて、アバタの動作を生成する点は、第１の実施形態と同じである（ステップＳ１０〜Ｓ１３）。
【００９１】
ステップＳ１４において、ＣＰＵ７０は、受信した音声に基づいて音素を認識する。なお、この実施形態では、発話された文が疑問文であるか否かを判断する。また、どの音素にアクセントがあるのかも判断する。これらの処理は、酒向慎司他「ピクセルベースアプローチによるＨＭＭに基づいた唇動画像の生成」信学技報PRMU99-157（１９９９年）に記載された手法によって実現することができる。次に、この音素に対応する口唇動作を生成する（ステップＳ１５）。この際、ステップＳ９において選択した口唇形状テーブルを用いる。これにより、操作者の選択した性格に対応した口唇形状を得ることができる。
【００９２】
次に、実施形態１と同じようにして、画像認識に基づく口唇の動作と、音声認識に基づく口唇の動作とを統合する（ステップＳ１６）。次に、操作者の選択した性格に基づいて、アバタ動画像の表情を修正する（ステップＳ１６５）。
【００９３】
この実施形態では、図２７に示すような表情パターンテーブル４４を、ハードディスク８０に予め記録している。この表情パターンテーブル４４は、図２８に示すように、顔の外形を正規化して示したものである。各位置は、目や口などの重心座標として示されている。口の位置Ａ、目の位置Ａ・・・は、基本的な位置を示している。口の位置Ｂ・・・は、音素/a/や/o/につき、当該部分にアクセントがある場合に用いる位置である。口の位置Ｃ・・・は、疑問文の語尾の場合に用いる位置である。性格「豪放」「しとやか」・・・により、それぞれ異なった位置が定義されている。
【００９４】
ＣＰＵ７０は、このテーブルに基づいて、口、目などの位置を修正する。なお、図２７において示されている位置は、２次元座標上での位置である。よって、３次元位置に換算して用いる必要がある。また、正規化された座標にて示されているので、実際のアバタ上での位置を計算する必要がある。このようにして、性格に応じてアバタの表情が修正される。
【００９５】
続いて、ＣＰＵ７０は、アバタの動作指令を生成して送信し（ステップＳ１７）、音声を送信する（ステップＳ１８）。
【００９６】
なお、上記実施形態では、画像認識に基づく口唇の動作と音声認識に基づく口唇の動作とを統合した後に、表情パターンテーブル４４に基づく表情の修正を行っている。しかし、口唇形状については、統合を行う前に修正をしておいてもよい。
【００９７】
また、表情パターンテーブル４４において、各性格、各状況（基本、アクセントがある場合、疑問文などの場合）ごとに目や口などについて異なる形状を記録しておいて、用いるようにしてもよい。
【００９８】
なお、ステップＳ１６において行った統合を行わずに、画像または音声に基づく口唇動作を用いてアバタの動作を決定し、性格に基づく表情の修正（ステップＳ１６５）を行うようにしてもよい。
【００９９】
上記実施形態では、属性として性格を用いているが、年齢、性別などの属性を用いるようにしてもよい。
【０１００】
上記各実施形態では、３次元アバタを用いているが、２次元アバタを用いるようにしてもよい。
【図面の簡単な説明】
【０１０１】
【図１】この発明の一実施形態によるアバタ通信システムの構成を示す図である。
【図２】携帯電話装置の機能ブロック図である。
【図３】サーバ装置の機能ブロック図である。
【図４】携帯電話装置のハードウエア構成図である。
【図５】サーバ装置のハードウエア構成図である。
【図６】アバタ通信処理プログラムのフローチャートである。
【図７】アバタデータの一例を示す図である。
【図８】アバタ選択画面を示す図である。
【図９】ユーザとアバタとの対応を記録したテーブルである。
【図１０】アバタ通信処理プログラムのフローチャートである。
【図１１】顔の向きをＸ軸、Ｙ軸、Ｚ軸の回転によって決定することを示すための図である。
【図１２】画像認識の部分の詳細を示すフローチャートである。
【図１３】顔のＺ軸まわりへの傾きを示す図である。
【図１４】Ｘ軸、Ｙ軸まわりへの回転を算出するために用いる重心ＷfとＷsとを示す図である。
【図１５】ユーザの正面画像と特徴点を示す図である。
【図１６】アバタ画像とその特徴点を示す図である。
【図１７】音素に対する口唇形状を示すテーブルである。
【図１８】口唇形状の統合を説明するための図である。
【図１９】アバタ生成プログラムのフローチャートである。
【図２０】画像認識によって得られる特徴点を示す図である。
【図２１】アバタ画像テーブルを示す図である。
【図２２】アバタ画像を示す図である。
【図２３】第２の実施形態によるサーバ装置の機能ブロック図を示す図である。
【図２４】口唇形状テーブルを示す図である。
【図２５】アバタ通信処理プログラムのフローチャートである。
【図２６】アバタ通信処理プログラムのフローチャートである。
【図２７】表情パターンテーブルを示す図である。
【図２８】表情の正規化を示す図である。
【符号の説明】
【０１０２】
３０・・・受信手段
３２・・・音声認識手段
３４・・・動画像認識手段
３６・・・アバタ動作決定手段
３８・・・口唇形状決定手段
４０・・・送信手段

【特許請求の範囲】
【請求項１】
第１の端末装置、第２の端末装置、サーバ装置を備えたアバタ通信システムであって、
前記第１の端末装置は、
第１の操作者の音声を取得する音声取得手段と、
第１の操作者の画像を撮像する撮像手段と、
音声取得手段、撮像手段によって取得した第１の操作者の音声および画像を、サーバ装置に送信するための送信手段と、
を備えており、
前記サーバ装置は、
第１の端末装置から送信されてきた音声および画像を受信する受信手段と、
受信した音声に基づいて音声認識を行い、認識した音素に対応する口唇形状の時間的変化を認識する音声認識手段と、
受信した画像に基づいて、口唇形状の時間的変化を認識する画像認識手段と、
音声認識手段によって認識された
口唇形状の時間的変化を、画像認識手段によって認識された口唇形状の時間的変化によって修正し、口唇形状の時間的変化を決定するアバタ動作決定手段と、
前記音声およびアバタ動作決定手段によって決定された口唇形状の時間的変化に関する情報を第２の端末装置に送信するための送信手段と、
を備えており、
前記第２の端末装置は、
サーバ装置から送信されてきた音声および口唇形状の時間的変化に関する情報を受信する受信手段と、
受信した口唇形状の時間的変化に関する情報に基づいて、アバタ画像の口唇形状を変化させてアバタ動画像を生成するアバタ動画像生成手段と、
生成されたアバタ動画像を、第２の操作者に提示するための表示手段と、
受信した音声を出力するための音声出力手段と、
を備えていることを特徴とするアバタ通信システム。
【請求項２】
第１の端末装置および第２の端末装置と通信可能なサーバ装置であって、
第１の端末装置から送信されてきた音声に基づいて音声認識を行い、認識した音素に対応する口唇形状の時間的変化を認識する音声認識手段と、
第１の端末装置から送信されてきた画像に基づいて、口唇形状の時間的変化を認識する画像認識手段と、
音声認識手段によって認識された口唇形状の時間的変化を、画像認識手段によって認識された口唇形状の時間的変化によって修正し、口唇形状の時間的変化を決定するアバタ動作決定手段と、
前記音声およびアバタ動作決定手段によって決定された口唇形状の時間的変化に関する情報を第２の端末装置に送信するための送信手段と、
を備えたサーバ装置。
【請求項３】
口唇形状を決定する処理をコンピュータに行わせるためのプログラムであって、
与えられた音声に基づいて音声認識を行い、認識した音素に対応する口唇形状の時間的変化を認識する音声認識処理と、
前記音声に対応するものとして与えられた画像に基づいて、口唇形状の時間的変化を認識する動画像認識処理と、
音声認識処理によって認識された口唇形状の時間的変化を、動画像認識処理によって認識された口唇形状の時間的変化によって修正し、口唇形状の時間的変化を決定するアバタ動作決定処理と、
をコンピュータに実行させるための口唇形状決定プログラム。
【請求項４】
請求項１〜３のいずれかのシステム、装置またはプログラムにおいて、
サーバ装置は、第１の端末装置から属性決定データを受け取り、
前記音声認識手段は、当該属性決定データに応じて、同じ音素に対しても、当該属性を表す異なる口唇形状を生成することを特徴とするもの。
【請求項５】
請求項１〜４のいずれかのシステム、装置またはプログラムにおいて、
サーバ装置は、第１の端末装置から属性決定データを受け取り、
前記アバタ動作決定手段は、前記属性決定データに基づいて口唇形状を含むアバタ動画像を修正することを特徴とするもの。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【図２２】

【図２３】

【図２４】

【図２５】

【図２６】

【図２７】

【図２８】

【公開番号】特開２００６−６５６８３（Ｐ２００６−６５６８３Ａ）
【公開日】平成１８年３月９日（２００６．３．９）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 計算機で処理しうる形式にデータを変換するための入力装置；処理ユ... (73,920)
      - ユーザーと計算機との相互作用のための入力装置または入力と出力が... (38,535)
      - 音声入力；音声出力 (1,364)
  - イメージデータ処理または発生一般 (58,387)
    - イメージ分析，例．ビットマップから非ビットマップへ (10,245)
      - 動きの分析 (2,724)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声認識システムの構造上の細部 (875)

【出願番号】特願２００４−２４９０６８（Ｐ２００４−２４９０６８）
【出願日】平成１６年８月２７日（２００４．８．２７）
【出願人】（５９６１００８１２）京セラコミュニケーションシステム株式会社 (38)
【出願人】（５０４３２７０６３）ザクリタエ・アクチアニェルナエ・オプシチェストヴァ・シーストーム (2)
【Ｆターム（参考）】

[ Back to top ]

アバタ通信システム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

アバタ通信システム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク