説明

アバタ生成装置、方法およびプログラム

【課題】表情が自然かつ発話を促すアバタを生成する。
【解決手段】発話音声の呼気段落の切れ目を予測する手段104と、切れ目の直前の呼気段落中の発話音声の基本周波数に応じて、基本周波数が大きいほど大きな笑い推定値を出力する第1モデルにより笑い推定値を算出する手段105と、笑い推定値が第1閾値以上であるかどうかで笑いレベルを設定する手段105と、直前の微笑み推定値を入力とした第2モデルの第1出力値、直前の笑い推定値、および次の呼気段落の初めの所定期間での音圧を入力とした第3モデルの第2出力値の和または積である微笑み推定値を算出する手段106と、微笑み推定値が第2閾値以上であるかどうかで微笑みレベルを設定する手段105と、笑いレベルおよび微笑みレベルに応じてアバタを生成する手段108、109と、を具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ボイスメールやビデオメール、テレビ電話などで、機器に向かって喋ったり録音する際に、話者の発話音声に合わせてアバタ(avatar)が発話を促したり、話者を乗せる微笑みや笑いを返すことにより、話者が音声を吹き込みやすくなったり感情のこもったメッセージを吹き込めるようにするための音声録音インタフェース、ならびにその微笑み・笑い推測モデルに係る技術に関する。
【背景技術】
【0002】
従来のリアルタイム、非リアルタイムのメディアコミュニケーション(人と人の間に機械を挟んだコミュニケーション)は、反応のない機械に対して発話するために間が掴み辛い、不安になる、緊張するといった問題がある。
【0003】
これを解決するためにコミュニケーションする際にアバタを介することで上記の障壁を下げようとする研究事例(例えば、特許文献1、特許文献2参照)があるが、アバタをユーザがキー操作しなくてはならないという手間がある。また非リアルタイムのコミュニケーションでは、一方の発話内容に対してアバタをインタラクティブに操作することはできないという問題がある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001−160154公報
【特許文献2】特開2005−327096公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
このように、従来のコミュニケーション支援システムではアバタの表情やジェスチャなどの反応をユーザが操作しなくてはならない。そのため自然かつインタラクティブな反応を返すことが困難であり、非リアルタイムコミュニケーションには用いられない。
【0006】
そこで、本発明の目的は、このような従来の課題を解決し、表情が自然でかつ発話を促すように変化するアバタを生成するアバタ生成装置、方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述の課題を解決するため、本発明のアバタ生成装置は、発話音声の時系列的な関係性から呼気段落の切れ目を予測する予測手段と、前記切れ目の直前の呼気段落中の発話音声の基本周波数に応じて、該基本周波数が大きいほど大きな笑い推定値を出力する第1統計モデルにより笑い推定値を算出する第1推定手段と、前記笑い推定値が第1閾値以上であるかどうかで笑いレベルを設定する第1設定手段と、直前の微笑み推定値を入力とした第2統計モデルの第1出力値、直前の笑い推定値、および次の呼気段落の初めの所定期間での音圧を入力とした第3統計モデルの第2出力値の和または積である微笑み推定値を算出する第2推定手段と、前記微笑み推定値が第2閾値以上であるかどうかで微笑みレベルを設定する第2設定手段と、前記笑いレベルおよび前記微笑みレベルに応じてアバタを生成する生成手段と、を具備することを特徴とする。
【発明の効果】
【0008】
本発明のアバタ生成装置、方法およびプログラムによれば、表情が自然でかつ発話を促すように変化するアバタを生成するように表示させることができる。
【図面の簡単な説明】
【0009】
【図1】本発明の実施形態のアバタ生成装置のブロック図。
【図2】図1のアバタ生成装置の動作の一例を示すフローチャート。
【図3】図1のアバタ生成部で生成されるアバタの表情の例を示す図。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら本発明の実施形態に係るアバタ生成装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
まず、本発明の実施形態の概要を説明する。
人の笑いは随意の笑いと不随意の笑いに大別される。本実施形態では、随意の笑いの中で社交の笑いをモデル化する。社交の笑いとは、コミュニケーションをとるときに相手との関係を良く保とうとするために用いられる微笑みで、カウンセラーの相手に話易くさせるためや、初対面の人と良い関係を築こうとするときなどにみられる。
【0011】
本実施形態では、話の聞き手が行う社交の笑いの中で、興味を持って聞いていることを表現し発話を促す笑い(興味の微笑み)と、発話に対して面白いまたは賛成であるという正の評価を表現する笑い(評価の笑い)とをモデル化する。興味の微笑みは、話し手が発話する前、もしくは発話し始めてまもなく生起し、その度合いは割合穏やかで、持続時間は長い。一方、評価の笑いは、一息で発話するかたまり(呼気段落)が終わる瞬間もしくはその少し前に生起し、その度合いは興味の微笑みよりも強く、次の発話が始まる前もしくは始まる瞬間まで続く。本実施形態では、話者の音声に応じて話しの聞き手の表情を推定する。
【0012】
本発明の実施形態では、機器に向かって喋ったり録音する際に、発話音声に対応してアバタ(聞き手に対応する)が微笑みや笑いを返すことにより、音声を録音しやすくなったり、表情豊かなメッセージを吹き込めるようにすることを目的として、話者に喋りやすくさせるために、微笑みや笑いの推測値が予め定めた閾値を超えたときにアバタが微笑みや笑いの反応を返す。なお、アバタとは、人や分身としてのユーザの表現の1つであり、ユーザの化身を表現するオブジェクトを示し、コンピュータグラフィックで作成されるものである。
【0013】
次に、本発明の実施形態のアバタ生成装置について図1を参照して説明する。
本実施形態のアバタ生成装置は、マイク101、パーソナルコンピュータPC102、およびディスプレイ110を含み、PC102は、反応推定部103、アバタ表情決定部108、およびアバタ生成部109を含む。反応推定部103は、呼気段落予測部104、笑い推定部105、および微笑み推定部106を含み、微笑み推定部106はメモリ107を含む。
なお、マイク101とディスプレイ110を含まない、反応推定部103とアバタ表情決定部108とアバタ生成部109を含む装置をアバタ生成装置と呼ぶこともある。
【0014】
マイク101は、発話者の発話音声(音声パケット)を取得する。
呼気段落予測部104は、マイク101の取得音声のオン・オフの時系列的な関係性から呼気段落の切れ目を予測する。具体的には呼気段落予測部104は、発話音声のオン・オフのリズムから統計モデルを用いてリアルタイムに呼気段落の終わりのタイミングを予測する。ここで、呼気段落とは、ある息継ぎから次の息継ぎまでの期間を示す。また、統計モデルは、例えば、MA(moving average)モデル、HMM(hidden Markov model)である。なお、統計モデルは以下同様の意味で用いるが、様々な計算で使用され、それぞれが異なるモデルであってもよい。また、計算内容が異なれば、同じモデルでも異なるパラメータが設定されている。
【0015】
笑い推定部105は、上述した「評価の笑い」をモデル化して笑いレベルを決定する。具体的には、笑い推定部105は、呼気段落予測部104が予測したタイミングで呼気段落の切れ目である場合には、直前の呼気段落中の発話音声の基本周波数を用いて統計モデルにより笑い推定値を求め、この笑い推定値を笑い閾値と比較する。なお、基本周波数は、マイク101で取得した発話音声の音圧を周波数に変換し、雑音を除去後に存在する周波数のうちの最も高い周波数を示す。例えば笑い推定部105が、マイク101が取得した発話音声から基本周波数を計算する。
統計モデルでは、基本周波数が大きいほど、統計モデルの出力値である笑い推定値も大きくなる。笑い推定部105は、笑い閾値をL個記憶していて(Lは1以上の整数)、笑い推定値がこれらの閾値以上かどうか判定して、この笑い推定値に対応する笑いレベルを設定する。笑い推定部105は、例えばL=2として、「笑い閾値2>笑い閾値1」として、笑い推定値が笑い閾値2以上である場合に笑いレベルを笑いレベル2に設定し、笑い推定値が笑い閾値2よりも小さくかつ笑い閾値1以上である場合には笑いレベルを笑いレベル1に設定し、これらの設定値をアバタ表情決定部108に渡す。一方、笑い推定値が笑い閾値1よりも小さい場合には笑いレベルを設定せず、その旨をアバタ表情決定部108に渡す。
【0016】
微笑み推定部106は、上述した「興味の微笑み」をモデル化して微笑みレベルを決定する。具体的には、微笑み推定部106は、直前のM個の微笑み推定値(Mは1以上の整数)を入力とした統計モデルの出力値、直前の笑い推定値、次の呼気段落の初めの所定期間(例えば500ms)の音圧を入力とした統計モデルの出力値により微笑み推定値を求める。例えば、微笑み推定部106は、直前のM個の微笑み推定値(Mは1以上の整数)を入力とした統計モデルの出力値と、直前の笑い推定値と、次の呼気段落の初めの所定期間の音圧を入力とした統計モデルの出力値との和または積を微笑み推定値とする。統計モデルは、直前のM個の微笑み推定値が大きいほど大きな出力値を出力し、所定期間の音圧が大きいほど大きな出力値を出力する。直前M個の微笑み推定値とは、現在の呼気段落のM個前までの呼気段落それぞれでの微笑み推定値を示す。また、直前の笑い推定値とは、現在の呼気段落の1つ前の呼気段落での笑い推定値を示す。メモリ107は、直前のM個の微笑み推定値、直前の笑い推定値を記憶している。
微笑み推定部106は、微笑み閾値をN個記憶していて(Nは1以上の整数)、微笑み推定値がこれらの閾値以上かどうか判定して、この微笑み推定値に対応する微笑みレベルを設定する。微笑み推定部106は、例えばN=3として、「微笑み閾値3>微笑み閾値2>微笑み閾値1」として、微笑み推定値が微笑み閾値3以上である場合に微笑みレベルを微笑みレベル3に設定し、微笑み推定値が微笑み閾値3よりも小さくかつ微笑み閾値2以上である場合には微笑みレベルを微笑みレベル2に設定し、微笑み推定値が微笑み閾値2よりも小さくかつ微笑み閾値1以上である場合には微笑みレベルを微笑みレベル1に設定し、これらの設定値をアバタ表情決定部108に渡す。一方、微笑み推定値が微笑み閾値1よりも小さい場合には笑いおよび微笑みがないとして、その旨をアバタ表情決定部108に渡す。
【0017】
アバタ表情決定部108は、笑い推定部105および微笑み推定部106から、それぞれ笑いレベルおよび微笑みレベルを受け取る。それぞれのレベルに応じて表情を選択する。上述したように、例えばL=2、N=3の場合には、6つの表情のうちのいずれかの表情を選択する(図3を参照)。
アバタ生成部109は、発話者の発話音声に応じた、聞き手の微笑みや笑いを示すアバタ(笑いアバタ)を生成する。このときアバタの表情はアバタ表情決定部108から受け取った情報を基にする。ディスプレイ110は、アバタ生成部109で生成されたアバタ画像151を表示する。
【0018】
次に、図1のアバタ生成装置の動作の一例について図2を参照して説明する。
まず、マイク101が音声パケットを取得する(ステップS202)。次に、呼気段落予測部104が、統計モデルによる呼気段落予測処理によって呼気段落の切れ目を予測する(ステップS203)。笑い推定部105は、呼気段落の切れ目であればステップS205へ進み、呼気段落の切れ目でなければステップS202に戻る。笑い推定部105は、直前の呼気段落中の発話音声の基本周波数を用いて統計モデルにより笑いの推定値を求める(ステップS205)。笑い推定部105は、笑い推定値が笑い閾値2以上であるかどうかを判定し(ステップS206)、笑い閾値2以上である場合に笑いレベルを2に設定し(ステップS212)、笑い閾値2を下回った場合にはステップS207に進む。笑い推定部105は、笑い推定値が笑い閾値1以上であるかどうかを判定し(ステップS207)、笑い閾値1以上である場合に笑いレベルを1に設定し(ステップS213)、笑い閾値1を下回った場合には処理208へ進む。このとき「笑い閾値2>笑い閾値1」である。ステップS212およびステップS213で笑いレベルが定まったら、アバタ表情決定部108、アバタ生成部109、およびディスプレイ110がレベルに応じた笑いを提示する(ステップS217)。
【0019】
微笑み推定部106が、直前3つの微笑み推定値を入力として、現在の表情が笑んでいそうな度合いを出力する統計モデル(入力値が大きければ大きいほど、大きな値が出力され、微笑んでいる度合いが大きくなる)の出力値と、直前の笑い推定値と、次の呼気段落の始めの500msの音圧を入力とした統計モデルの出力値との和または積として微笑み推定値を求める(統計モデルでは、音声により聞き手が微笑んでいるかどうかを判定)(ステップS208)。微笑み推定部106は、微笑み推定値が微笑み閾値3以上であるかどうかを判定し(ステップS209)、微笑み閾値3である場合に微笑みレベルを3に設定し(ステップS214)、微笑み閾値3を下回った場合にはステップS210に進む。微笑み推定部106は、微笑み推定値が微笑み閾値2以上であるかどうかを判定し(ステップS210)、微笑み閾値2以上である場合に微笑みレベルを2に設定し(ステップS215)、微笑み閾値2を下回った場合にはステップS211に進む。微笑み推定部106は、微笑み推定値が微笑み閾値1以上であるかどうかを判定し(ステップS211)、微笑み閾値1以上である場合に微笑みレベルを1に設定し(ステップS216)、微笑み閾値1を下回った場合にはステップS219に進む。アバタ表情決定部108、アバタ生成部109、およびディスプレイ110は、笑いおよび微笑みなし表情を提示し(ステップS219)、ステップS214、S215、およびS216で微笑みレベルが定まったら、レベルに応じた微笑みを提示する(ステップS218)。(ただし、微笑み閾値3>微笑閾値2>微笑閾値1とする)
それぞれのレベルに応じた提示するアバタの表情は、アバタ表情決定部108が例えば表1のように決定している。また、アバタ生成部109は、例えば図3に示すアバタを生成する。
【表1】

【0020】
以上に示した実施形態によれば、話者の発話音声を入力するためのマイクを用意し、そこから取り込んだ音声をPC内の笑い推測部および微笑み推定部へと送り、笑い推測値および微笑み推定値を統計モデルに基づいて計算することができ、得られた推測値を基に笑いおよび微笑みを決定し、ディスプレイに表示されたアバタに笑いまたは微笑みを表現させることができる。これにより話者の発話リズムに合わせて聞き手を想定したアバタが自然に笑顔や笑いを返すため、話者とアバタ間で引きこみ現象が起こる。具体的には、アバタが話を肯定しながら聞いているように感じるために話者がより発話しやすくなる、発話の時系列的なリズムに合わせて引き出すような笑いを返すので話が盛り上がる、相手がいて、聞いてくれていると感じるので話者のメッセージに感情がこもるという効果を奏する。
【0021】
また、話者の発話の時系列的なオン・オフのリズムから予測モデルを立てて笑顔や笑いの生起タイミングを求め、さらに発話音声の基本周波数や音圧から推測モデルを立てて笑いと微笑みを生起することによって、話者が発話しやすく、感情のこもったメッセージを吹き込める音声録音インタフェース、ならびにその微笑み・笑い推測モデルを提供することができる。
【0022】
さらに、話者の発話に対して、アバタが自然かつ盛り上げるような微笑みや笑いを返すことにより、ボイスメールやビデオメール、テレビ電話など、機器に向かって話したり録音することを助ける。
【0023】
またさらに、機器に向かって喋ったり録音する際に、発話音声に対応してアバタが微笑みや笑いを返すことにより、音声を録音しやすくなったり、表情豊かなメッセージを吹き込めるようにすることができる。具体的にはディスプレイに表示されたアバタが、人のコミュニケーションでの引き込みあいに使う笑いや微笑みを、発話者の発話音声に対してリアルタイムに返すことによって発話者は好意的に聞いてもらえているという安心感を得て発話しやすくなる。また、人と人の対面コミュニケーションでは各々の発する笑顔が相互に影響して互いに笑顔になり(同調)、コミュニケーションが盛り上がっていくが、発話音声に対してアバタが笑顔を返すことによって、発話者が同調して笑顔になる。発話者はアバタも同調しているという感覚をもち発話が盛り上がり、発話音声に感情を込めることができる。
【0024】
さらにまた、本実施形態のアバタ生成装置は、音声を吹き込む様々なシステムに組み込むことができる。具体例としては、一般的に吹き込むのに緊張してしまったり感情が込められない、間が取りづらいといわれるボイスメール、留守番電話、ビデオメッセージなどに音声を吹き込む際に本実施形態のアバタ生成装置を用い、発話音声に合わせて微笑み/笑いを返すアバタを提示することで、発話者は落ち着いて、テンポよく、感情のこもったメッセージを吹き込むことができる。
【0025】
また、リアルタイムの音声コミュニケーションメディアにも応用可能である。電話では相手の顔が見えないために本来対面コミュニケーションであれば観察できる表情などの手がかりがないために、相手がちゃんと聞いてくれているか、会話内容を理解しているか、会話内容に賛成しているかといったことが分からないというような不安がある。IP電話や携帯電話で通話するときに、互いの端末のディスプレイ上に本発明のアバタを表示することで、各々のユーザはアバタに対して、それがあたかも通話相手かのように話しかけることができ、相手が聞いてくれている、内容を理解してくれている、話に賛成してくれているという安心感をもって話すことができる。その結果感情豊かに発話することができ、会話が盛り上がっていく。
【0026】
さらにTV会議への応用も可能である。TV会議は対話をする、遠隔地にいる相手の様子がディスプレイに表示されているため、表情を観察することも、うなずいているのを見ることもできる。しかしTV会議では相手と同じ空間を共有している感覚が少ない、相手は見えているが視線が一致しないためにアイコンタクトを取れず、メッセージが伝わっているのか分かりづらい。結果的にTV会議では本来人が行っているコミュニケーションにおける相互の引き込みを行うことができない。そこで本発明のシステムをそれぞれの参加者の前のディスプレイの脇に表示する。アバタを参加者全員の発話に対して反応させ、参加者全員で共有することで、参加者は自信をもって感情豊かに発言することができるし、アバタを橋渡し役として参加者間での相互引き込みを行うことができる。
【0027】
またさらに、メッセージの対象が限られていない朗読、アナウンス、自動音声応答の音声吹き込みの際にも本実施形態のアバタ生成装置は有効である。これらの音声吹き込みは相手がいない状況で行われるため、発話のテンポが発話者単体のリズムに依存してしまう。対面環境においてメッセージは送り手だけでなく受け手も含めた相互のリズムに乗せて発せられるが、発話者単体のリズムに依存してしまうとメッセージが機械的になってしまう。そこで本発明のアバタ生成装置によりアバタを表示し、それに対してメッセージを吹き込むことで、人間味、表情のあるメッセージを録音することができる。
【0028】
また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態のアバタ生成装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態のアバタ生成装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
【0029】
なお、本願発明におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。
【0030】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【0031】
101・・・マイク、102・・・PC、103・・・反応推定部、104・・・呼気段落予測部、105・・・笑い推定部、106・・・微笑み推定部、107・・・メモリ、108・・・アバタ表情決定部、109・・・アバタ生成部、110・・・ディスプレイ、151・・・アバタ画像。

【特許請求の範囲】
【請求項1】
発話音声の時系列的な関係性から呼気段落の切れ目を予測する予測手段と、
前記切れ目の直前の呼気段落中の発話音声の基本周波数に応じて、該基本周波数が大きいほど大きな笑い推定値を出力する第1統計モデルにより笑い推定値を算出する第1推定手段と、
前記笑い推定値が第1閾値以上であるかどうかで笑いレベルを設定する第1設定手段と、
直前の微笑み推定値を入力とした第2統計モデルの第1出力値、直前の笑い推定値、および次の呼気段落の初めの所定期間での音圧を入力とした第3統計モデルの第2出力値の和または積である微笑み推定値を算出する第2推定手段と、
前記微笑み推定値が第2閾値以上であるかどうかで微笑みレベルを設定する第2設定手段と、
前記笑いレベルおよび前記微笑みレベルに応じてアバタを生成する生成手段と、を具備することを特徴とするアバタ生成装置。
【請求項2】
前記予測手段は、発話音声のオン・オフのリズムから第1MAモデルを使用して前記切れ目を予測し、
前記第1推定手段は、第2MAモデルによって前記笑い推定値を算出し、
前記第1設定手段は、前記笑い推定値が前記第1閾値以上である場合には前記笑いレベルを笑いレベル1に設定し、
前記生成手段は、前記笑いレベル1に対応するアバタを生成し、
前記第2推定手段は、第3MAモデルによって前記微笑み推定値を算出し、
前記第2設定手段は、前記微笑み推定値が前記第2閾値以上である場合には前記微笑みレベルを微笑みレベル1に設定し、
前記生成手段は、前記微笑みレベル1に対応するアバタを生成し、
前記第2設定手段は、前記微笑み推定値が前記第2閾値未満である場合には前記微笑みレベルを笑いおよび微笑みがないレベルに設定し、
前記生成手段は、前記笑いおよび微笑みがないレベルに対応する、笑いおよび微笑みがないアバタを生成することを特徴とする請求項1に記載のアバタ生成装置。
【請求項3】
発話音声の時系列的な関係性から呼気段落の切れ目を予測する予測ステップと、
前記切れ目の直前の呼気段落中の発話音声の基本周波数に応じて、該基本周波数が大きいほど大きな笑い推定値を出力する第1統計モデルにより笑い推定値を算出する第1ステップと、
前記笑い推定値が第1閾値以上であるかどうかで笑いレベルを設定する第1設定ステップと、
直前の微笑み推定値を入力とした第2統計モデルの第1出力値、直前の笑い推定値、および次の呼気段落の初めの所定期間での音圧を入力とした第3統計モデルの第2出力値の和または積である微笑み推定値を算出する第2推定ステップと、
前記微笑み推定値が第2閾値以上であるかどうかで微笑みレベルを設定する第2設定ステップと、
前記笑いレベルおよび前記微笑みレベルに応じてアバタを生成する生成ステップと、を具備することを特徴とするアバタ生成方法。
【請求項4】
前記予測ステップでは、発話音声のオン・オフのリズムから第1MAモデルを使用して前記切れ目を予測し、
前記第1推定ステップでは、第2MAモデルによって前記笑い推定値を算出し、
前記第1設定ステップでは、前記笑い推定値が前記第1閾値以上である場合には前記笑いレベルを笑いレベル1に設定し、
前記生成ステップでは、前記笑いレベル1に対応するアバタを生成し、
前記第2推定ステップでは、第3MAモデルによって前記微笑み推定値を算出し、
前記第2設定ステップでは、前記微笑み推定値が前記第2閾値以上である場合には前記微笑みレベルを微笑みレベル1に設定し、
前記生成ステップでは、前記微笑みレベル1に対応するアバタを生成し、
前記第2設定ステップでは、前記微笑み推定値が前記第2閾値未満である場合には前記微笑みレベルを笑いおよび微笑みがないレベルに設定し、
前記生成ステップでは、前記笑いおよび微笑みがないレベルに対応する、笑いおよび微笑みがないアバタを生成することを特徴とする請求項3に記載のアバタ生成方法。
【請求項5】
コンピュータに、請求項3または請求項4に記載のアバタ生成方法の各処理を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate