アバタ生成装置、方法およびプログラム

【課題】表情が自然かつ発話を促すアバタを生成する。
【解決手段】発話音声の呼気段落の切れ目を予測する手段１０４と、切れ目の直前の呼気段落中の発話音声の基本周波数に応じて、基本周波数が大きいほど大きな笑い推定値を出力する第１モデルにより笑い推定値を算出する手段１０５と、笑い推定値が第１閾値以上であるかどうかで笑いレベルを設定する手段１０５と、直前の微笑み推定値を入力とした第２モデルの第１出力値、直前の笑い推定値、および次の呼気段落の初めの所定期間での音圧を入力とした第３モデルの第２出力値の和または積である微笑み推定値を算出する手段１０６と、微笑み推定値が第２閾値以上であるかどうかで微笑みレベルを設定する手段１０５と、笑いレベルおよび微笑みレベルに応じてアバタを生成する手段１０８、１０９と、を具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ボイスメールやビデオメール、テレビ電話などで、機器に向かって喋ったり録音する際に、話者の発話音声に合わせてアバタ（avatar）が発話を促したり、話者を乗せる微笑みや笑いを返すことにより、話者が音声を吹き込みやすくなったり感情のこもったメッセージを吹き込めるようにするための音声録音インタフェース、ならびにその微笑み・笑い推測モデルに係る技術に関する。
【背景技術】
【０００２】
従来のリアルタイム、非リアルタイムのメディアコミュニケーション（人と人の間に機械を挟んだコミュニケーション）は、反応のない機械に対して発話するために間が掴み辛い、不安になる、緊張するといった問題がある。
【０００３】
これを解決するためにコミュニケーションする際にアバタを介することで上記の障壁を下げようとする研究事例（例えば、特許文献１、特許文献２参照）があるが、アバタをユーザがキー操作しなくてはならないという手間がある。また非リアルタイムのコミュニケーションでは、一方の発話内容に対してアバタをインタラクティブに操作することはできないという問題がある。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００１−１６０１５４公報
【特許文献２】特開２００５−３２７０９６公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
このように、従来のコミュニケーション支援システムではアバタの表情やジェスチャなどの反応をユーザが操作しなくてはならない。そのため自然かつインタラクティブな反応を返すことが困難であり、非リアルタイムコミュニケーションには用いられない。
【０００６】
そこで、本発明の目的は、このような従来の課題を解決し、表情が自然でかつ発話を促すように変化するアバタを生成するアバタ生成装置、方法およびプログラムを提供することにある。
【課題を解決するための手段】
【０００７】
上述の課題を解決するため、本発明のアバタ生成装置は、発話音声の時系列的な関係性から呼気段落の切れ目を予測する予測手段と、前記切れ目の直前の呼気段落中の発話音声の基本周波数に応じて、該基本周波数が大きいほど大きな笑い推定値を出力する第１統計モデルにより笑い推定値を算出する第１推定手段と、前記笑い推定値が第１閾値以上であるかどうかで笑いレベルを設定する第１設定手段と、直前の微笑み推定値を入力とした第２統計モデルの第１出力値、直前の笑い推定値、および次の呼気段落の初めの所定期間での音圧を入力とした第３統計モデルの第２出力値の和または積である微笑み推定値を算出する第２推定手段と、前記微笑み推定値が第２閾値以上であるかどうかで微笑みレベルを設定する第２設定手段と、前記笑いレベルおよび前記微笑みレベルに応じてアバタを生成する生成手段と、を具備することを特徴とする。
【発明の効果】
【０００８】
本発明のアバタ生成装置、方法およびプログラムによれば、表情が自然でかつ発話を促すように変化するアバタを生成するように表示させることができる。
【図面の簡単な説明】
【０００９】
【図１】本発明の実施形態のアバタ生成装置のブロック図。
【図２】図１のアバタ生成装置の動作の一例を示すフローチャート。
【図３】図１のアバタ生成部で生成されるアバタの表情の例を示す図。
【発明を実施するための形態】
【００１０】
以下、図面を参照しながら本発明の実施形態に係るアバタ生成装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
まず、本発明の実施形態の概要を説明する。
人の笑いは随意の笑いと不随意の笑いに大別される。本実施形態では、随意の笑いの中で社交の笑いをモデル化する。社交の笑いとは、コミュニケーションをとるときに相手との関係を良く保とうとするために用いられる微笑みで、カウンセラーの相手に話易くさせるためや、初対面の人と良い関係を築こうとするときなどにみられる。
【００１１】
本実施形態では、話の聞き手が行う社交の笑いの中で、興味を持って聞いていることを表現し発話を促す笑い（興味の微笑み）と、発話に対して面白いまたは賛成であるという正の評価を表現する笑い（評価の笑い）とをモデル化する。興味の微笑みは、話し手が発話する前、もしくは発話し始めてまもなく生起し、その度合いは割合穏やかで、持続時間は長い。一方、評価の笑いは、一息で発話するかたまり（呼気段落）が終わる瞬間もしくはその少し前に生起し、その度合いは興味の微笑みよりも強く、次の発話が始まる前もしくは始まる瞬間まで続く。本実施形態では、話者の音声に応じて話しの聞き手の表情を推定する。
【００１２】
本発明の実施形態では、機器に向かって喋ったり録音する際に、発話音声に対応してアバタ（聞き手に対応する）が微笑みや笑いを返すことにより、音声を録音しやすくなったり、表情豊かなメッセージを吹き込めるようにすることを目的として、話者に喋りやすくさせるために、微笑みや笑いの推測値が予め定めた閾値を超えたときにアバタが微笑みや笑いの反応を返す。なお、アバタとは、人や分身としてのユーザの表現の１つであり、ユーザの化身を表現するオブジェクトを示し、コンピュータグラフィックで作成されるものである。
【００１３】
次に、本発明の実施形態のアバタ生成装置について図１を参照して説明する。
本実施形態のアバタ生成装置は、マイク１０１、パーソナルコンピュータＰＣ１０２、およびディスプレイ１１０を含み、ＰＣ１０２は、反応推定部１０３、アバタ表情決定部１０８、およびアバタ生成部１０９を含む。反応推定部１０３は、呼気段落予測部１０４、笑い推定部１０５、および微笑み推定部１０６を含み、微笑み推定部１０６はメモリ１０７を含む。
なお、マイク１０１とディスプレイ１１０を含まない、反応推定部１０３とアバタ表情決定部１０８とアバタ生成部１０９を含む装置をアバタ生成装置と呼ぶこともある。
【００１４】
マイク１０１は、発話者の発話音声（音声パケット）を取得する。
呼気段落予測部１０４は、マイク１０１の取得音声のオン・オフの時系列的な関係性から呼気段落の切れ目を予測する。具体的には呼気段落予測部１０４は、発話音声のオン・オフのリズムから統計モデルを用いてリアルタイムに呼気段落の終わりのタイミングを予測する。ここで、呼気段落とは、ある息継ぎから次の息継ぎまでの期間を示す。また、統計モデルは、例えば、ＭＡ（moving average）モデル、ＨＭＭ（hidden Markov model）である。なお、統計モデルは以下同様の意味で用いるが、様々な計算で使用され、それぞれが異なるモデルであってもよい。また、計算内容が異なれば、同じモデルでも異なるパラメータが設定されている。
【００１５】
笑い推定部１０５は、上述した「評価の笑い」をモデル化して笑いレベルを決定する。具体的には、笑い推定部１０５は、呼気段落予測部１０４が予測したタイミングで呼気段落の切れ目である場合には、直前の呼気段落中の発話音声の基本周波数を用いて統計モデルにより笑い推定値を求め、この笑い推定値を笑い閾値と比較する。なお、基本周波数は、マイク１０１で取得した発話音声の音圧を周波数に変換し、雑音を除去後に存在する周波数のうちの最も高い周波数を示す。例えば笑い推定部１０５が、マイク１０１が取得した発話音声から基本周波数を計算する。
統計モデルでは、基本周波数が大きいほど、統計モデルの出力値である笑い推定値も大きくなる。笑い推定部１０５は、笑い閾値をＬ個記憶していて（Ｌは１以上の整数）、笑い推定値がこれらの閾値以上かどうか判定して、この笑い推定値に対応する笑いレベルを設定する。笑い推定部１０５は、例えばＬ＝２として、「笑い閾値２＞笑い閾値１」として、笑い推定値が笑い閾値２以上である場合に笑いレベルを笑いレベル２に設定し、笑い推定値が笑い閾値２よりも小さくかつ笑い閾値１以上である場合には笑いレベルを笑いレベル１に設定し、これらの設定値をアバタ表情決定部１０８に渡す。一方、笑い推定値が笑い閾値１よりも小さい場合には笑いレベルを設定せず、その旨をアバタ表情決定部１０８に渡す。
【００１６】
微笑み推定部１０６は、上述した「興味の微笑み」をモデル化して微笑みレベルを決定する。具体的には、微笑み推定部１０６は、直前のＭ個の微笑み推定値（Ｍは１以上の整数）を入力とした統計モデルの出力値、直前の笑い推定値、次の呼気段落の初めの所定期間（例えば５００ｍｓ）の音圧を入力とした統計モデルの出力値により微笑み推定値を求める。例えば、微笑み推定部１０６は、直前のＭ個の微笑み推定値（Ｍは１以上の整数）を入力とした統計モデルの出力値と、直前の笑い推定値と、次の呼気段落の初めの所定期間の音圧を入力とした統計モデルの出力値との和または積を微笑み推定値とする。統計モデルは、直前のＭ個の微笑み推定値が大きいほど大きな出力値を出力し、所定期間の音圧が大きいほど大きな出力値を出力する。直前Ｍ個の微笑み推定値とは、現在の呼気段落のＭ個前までの呼気段落それぞれでの微笑み推定値を示す。また、直前の笑い推定値とは、現在の呼気段落の１つ前の呼気段落での笑い推定値を示す。メモリ１０７は、直前のＭ個の微笑み推定値、直前の笑い推定値を記憶している。
微笑み推定部１０６は、微笑み閾値をＮ個記憶していて（Ｎは１以上の整数）、微笑み推定値がこれらの閾値以上かどうか判定して、この微笑み推定値に対応する微笑みレベルを設定する。微笑み推定部１０６は、例えばＮ＝３として、「微笑み閾値３＞微笑み閾値２＞微笑み閾値１」として、微笑み推定値が微笑み閾値３以上である場合に微笑みレベルを微笑みレベル３に設定し、微笑み推定値が微笑み閾値３よりも小さくかつ微笑み閾値２以上である場合には微笑みレベルを微笑みレベル２に設定し、微笑み推定値が微笑み閾値２よりも小さくかつ微笑み閾値１以上である場合には微笑みレベルを微笑みレベル１に設定し、これらの設定値をアバタ表情決定部１０８に渡す。一方、微笑み推定値が微笑み閾値１よりも小さい場合には笑いおよび微笑みがないとして、その旨をアバタ表情決定部１０８に渡す。
【００１７】
アバタ表情決定部１０８は、笑い推定部１０５および微笑み推定部１０６から、それぞれ笑いレベルおよび微笑みレベルを受け取る。それぞれのレベルに応じて表情を選択する。上述したように、例えばＬ＝２、Ｎ＝３の場合には、６つの表情のうちのいずれかの表情を選択する（図３を参照）。
アバタ生成部１０９は、発話者の発話音声に応じた、聞き手の微笑みや笑いを示すアバタ（笑いアバタ）を生成する。このときアバタの表情はアバタ表情決定部１０８から受け取った情報を基にする。ディスプレイ１１０は、アバタ生成部１０９で生成されたアバタ画像１５１を表示する。
【００１８】
次に、図１のアバタ生成装置の動作の一例について図２を参照して説明する。
まず、マイク１０１が音声パケットを取得する（ステップＳ２０２）。次に、呼気段落予測部１０４が、統計モデルによる呼気段落予測処理によって呼気段落の切れ目を予測する（ステップＳ２０３）。笑い推定部１０５は、呼気段落の切れ目であればステップＳ２０５へ進み、呼気段落の切れ目でなければステップＳ２０２に戻る。笑い推定部１０５は、直前の呼気段落中の発話音声の基本周波数を用いて統計モデルにより笑いの推定値を求める（ステップＳ２０５）。笑い推定部１０５は、笑い推定値が笑い閾値２以上であるかどうかを判定し（ステップＳ２０６）、笑い閾値２以上である場合に笑いレベルを２に設定し（ステップＳ２１２）、笑い閾値２を下回った場合にはステップＳ２０７に進む。笑い推定部１０５は、笑い推定値が笑い閾値１以上であるかどうかを判定し（ステップＳ２０７）、笑い閾値１以上である場合に笑いレベルを１に設定し（ステップＳ２１３）、笑い閾値１を下回った場合には処理２０８へ進む。このとき「笑い閾値２＞笑い閾値１」である。ステップＳ２１２およびステップＳ２１３で笑いレベルが定まったら、アバタ表情決定部１０８、アバタ生成部１０９、およびディスプレイ１１０がレベルに応じた笑いを提示する（ステップＳ２１７）。
【００１９】
微笑み推定部１０６が、直前３つの微笑み推定値を入力として、現在の表情が笑んでいそうな度合いを出力する統計モデル（入力値が大きければ大きいほど、大きな値が出力され、微笑んでいる度合いが大きくなる）の出力値と、直前の笑い推定値と、次の呼気段落の始めの５００ｍｓの音圧を入力とした統計モデルの出力値との和または積として微笑み推定値を求める（統計モデルでは、音声により聞き手が微笑んでいるかどうかを判定）（ステップＳ２０８）。微笑み推定部１０６は、微笑み推定値が微笑み閾値３以上であるかどうかを判定し（ステップＳ２０９）、微笑み閾値３である場合に微笑みレベルを３に設定し（ステップＳ２１４）、微笑み閾値３を下回った場合にはステップＳ２１０に進む。微笑み推定部１０６は、微笑み推定値が微笑み閾値２以上であるかどうかを判定し（ステップＳ２１０）、微笑み閾値２以上である場合に微笑みレベルを２に設定し（ステップＳ２１５）、微笑み閾値２を下回った場合にはステップＳ２１１に進む。微笑み推定部１０６は、微笑み推定値が微笑み閾値１以上であるかどうかを判定し（ステップＳ２１１）、微笑み閾値１以上である場合に微笑みレベルを１に設定し（ステップＳ２１６）、微笑み閾値１を下回った場合にはステップＳ２１９に進む。アバタ表情決定部１０８、アバタ生成部１０９、およびディスプレイ１１０は、笑いおよび微笑みなし表情を提示し（ステップＳ２１９）、ステップＳ２１４、Ｓ２１５、およびＳ２１６で微笑みレベルが定まったら、レベルに応じた微笑みを提示する（ステップＳ２１８）。（ただし、微笑み閾値３＞微笑閾値２＞微笑閾値１とする）
それぞれのレベルに応じた提示するアバタの表情は、アバタ表情決定部１０８が例えば表１のように決定している。また、アバタ生成部１０９は、例えば図３に示すアバタを生成する。
【表１】

【００２０】
以上に示した実施形態によれば、話者の発話音声を入力するためのマイクを用意し、そこから取り込んだ音声をＰＣ内の笑い推測部および微笑み推定部へと送り、笑い推測値および微笑み推定値を統計モデルに基づいて計算することができ、得られた推測値を基に笑いおよび微笑みを決定し、ディスプレイに表示されたアバタに笑いまたは微笑みを表現させることができる。これにより話者の発話リズムに合わせて聞き手を想定したアバタが自然に笑顔や笑いを返すため、話者とアバタ間で引きこみ現象が起こる。具体的には、アバタが話を肯定しながら聞いているように感じるために話者がより発話しやすくなる、発話の時系列的なリズムに合わせて引き出すような笑いを返すので話が盛り上がる、相手がいて、聞いてくれていると感じるので話者のメッセージに感情がこもるという効果を奏する。
【００２１】
また、話者の発話の時系列的なオン・オフのリズムから予測モデルを立てて笑顔や笑いの生起タイミングを求め、さらに発話音声の基本周波数や音圧から推測モデルを立てて笑いと微笑みを生起することによって、話者が発話しやすく、感情のこもったメッセージを吹き込める音声録音インタフェース、ならびにその微笑み・笑い推測モデルを提供することができる。
【００２２】
さらに、話者の発話に対して、アバタが自然かつ盛り上げるような微笑みや笑いを返すことにより、ボイスメールやビデオメール、テレビ電話など、機器に向かって話したり録音することを助ける。
【００２３】
またさらに、機器に向かって喋ったり録音する際に、発話音声に対応してアバタが微笑みや笑いを返すことにより、音声を録音しやすくなったり、表情豊かなメッセージを吹き込めるようにすることができる。具体的にはディスプレイに表示されたアバタが、人のコミュニケーションでの引き込みあいに使う笑いや微笑みを、発話者の発話音声に対してリアルタイムに返すことによって発話者は好意的に聞いてもらえているという安心感を得て発話しやすくなる。また、人と人の対面コミュニケーションでは各々の発する笑顔が相互に影響して互いに笑顔になり（同調）、コミュニケーションが盛り上がっていくが、発話音声に対してアバタが笑顔を返すことによって、発話者が同調して笑顔になる。発話者はアバタも同調しているという感覚をもち発話が盛り上がり、発話音声に感情を込めることができる。
【００２４】
さらにまた、本実施形態のアバタ生成装置は、音声を吹き込む様々なシステムに組み込むことができる。具体例としては、一般的に吹き込むのに緊張してしまったり感情が込められない、間が取りづらいといわれるボイスメール、留守番電話、ビデオメッセージなどに音声を吹き込む際に本実施形態のアバタ生成装置を用い、発話音声に合わせて微笑み／笑いを返すアバタを提示することで、発話者は落ち着いて、テンポよく、感情のこもったメッセージを吹き込むことができる。
【００２５】
また、リアルタイムの音声コミュニケーションメディアにも応用可能である。電話では相手の顔が見えないために本来対面コミュニケーションであれば観察できる表情などの手がかりがないために、相手がちゃんと聞いてくれているか、会話内容を理解しているか、会話内容に賛成しているかといったことが分からないというような不安がある。ＩＰ電話や携帯電話で通話するときに、互いの端末のディスプレイ上に本発明のアバタを表示することで、各々のユーザはアバタに対して、それがあたかも通話相手かのように話しかけることができ、相手が聞いてくれている、内容を理解してくれている、話に賛成してくれているという安心感をもって話すことができる。その結果感情豊かに発話することができ、会話が盛り上がっていく。
【００２６】
さらにＴＶ会議への応用も可能である。ＴＶ会議は対話をする、遠隔地にいる相手の様子がディスプレイに表示されているため、表情を観察することも、うなずいているのを見ることもできる。しかしＴＶ会議では相手と同じ空間を共有している感覚が少ない、相手は見えているが視線が一致しないためにアイコンタクトを取れず、メッセージが伝わっているのか分かりづらい。結果的にＴＶ会議では本来人が行っているコミュニケーションにおける相互の引き込みを行うことができない。そこで本発明のシステムをそれぞれの参加者の前のディスプレイの脇に表示する。アバタを参加者全員の発話に対して反応させ、参加者全員で共有することで、参加者は自信をもって感情豊かに発言することができるし、アバタを橋渡し役として参加者間での相互引き込みを行うことができる。
【００２７】
またさらに、メッセージの対象が限られていない朗読、アナウンス、自動音声応答の音声吹き込みの際にも本実施形態のアバタ生成装置は有効である。これらの音声吹き込みは相手がいない状況で行われるため、発話のテンポが発話者単体のリズムに依存してしまう。対面環境においてメッセージは送り手だけでなく受け手も含めた相互のリズムに乗せて発せられるが、発話者単体のリズムに依存してしまうとメッセージが機械的になってしまう。そこで本発明のアバタ生成装置によりアバタを表示し、それに対してメッセージを吹き込むことで、人間味、表情のあるメッセージを録音することができる。
【００２８】
また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態のアバタ生成装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態のアバタ生成装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
【００２９】
なお、本願発明におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。
【００３０】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【００３１】
１０１・・・マイク、１０２・・・ＰＣ、１０３・・・反応推定部、１０４・・・呼気段落予測部、１０５・・・笑い推定部、１０６・・・微笑み推定部、１０７・・・メモリ、１０８・・・アバタ表情決定部、１０９・・・アバタ生成部、１１０・・・ディスプレイ、１５１・・・アバタ画像。

【特許請求の範囲】
【請求項１】
発話音声の時系列的な関係性から呼気段落の切れ目を予測する予測手段と、
前記切れ目の直前の呼気段落中の発話音声の基本周波数に応じて、該基本周波数が大きいほど大きな笑い推定値を出力する第１統計モデルにより笑い推定値を算出する第１推定手段と、
前記笑い推定値が第１閾値以上であるかどうかで笑いレベルを設定する第１設定手段と、
直前の微笑み推定値を入力とした第２統計モデルの第１出力値、直前の笑い推定値、および次の呼気段落の初めの所定期間での音圧を入力とした第３統計モデルの第２出力値の和または積である微笑み推定値を算出する第２推定手段と、
前記微笑み推定値が第２閾値以上であるかどうかで微笑みレベルを設定する第２設定手段と、
前記笑いレベルおよび前記微笑みレベルに応じてアバタを生成する生成手段と、を具備することを特徴とするアバタ生成装置。
【請求項２】
前記予測手段は、発話音声のオン・オフのリズムから第１ＭＡモデルを使用して前記切れ目を予測し、
前記第１推定手段は、第２ＭＡモデルによって前記笑い推定値を算出し、
前記第１設定手段は、前記笑い推定値が前記第１閾値以上である場合には前記笑いレベルを笑いレベル１に設定し、
前記生成手段は、前記笑いレベル１に対応するアバタを生成し、
前記第２推定手段は、第３ＭＡモデルによって前記微笑み推定値を算出し、
前記第２設定手段は、前記微笑み推定値が前記第２閾値以上である場合には前記微笑みレベルを微笑みレベル１に設定し、
前記生成手段は、前記微笑みレベル１に対応するアバタを生成し、
前記第２設定手段は、前記微笑み推定値が前記第２閾値未満である場合には前記微笑みレベルを笑いおよび微笑みがないレベルに設定し、
前記生成手段は、前記笑いおよび微笑みがないレベルに対応する、笑いおよび微笑みがないアバタを生成することを特徴とする請求項１に記載のアバタ生成装置。
【請求項３】
発話音声の時系列的な関係性から呼気段落の切れ目を予測する予測ステップと、
前記切れ目の直前の呼気段落中の発話音声の基本周波数に応じて、該基本周波数が大きいほど大きな笑い推定値を出力する第１統計モデルにより笑い推定値を算出する第１ステップと、
前記笑い推定値が第１閾値以上であるかどうかで笑いレベルを設定する第１設定ステップと、
直前の微笑み推定値を入力とした第２統計モデルの第１出力値、直前の笑い推定値、および次の呼気段落の初めの所定期間での音圧を入力とした第３統計モデルの第２出力値の和または積である微笑み推定値を算出する第２推定ステップと、
前記微笑み推定値が第２閾値以上であるかどうかで微笑みレベルを設定する第２設定ステップと、
前記笑いレベルおよび前記微笑みレベルに応じてアバタを生成する生成ステップと、を具備することを特徴とするアバタ生成方法。
【請求項４】
前記予測ステップでは、発話音声のオン・オフのリズムから第１ＭＡモデルを使用して前記切れ目を予測し、
前記第１推定ステップでは、第２ＭＡモデルによって前記笑い推定値を算出し、
前記第１設定ステップでは、前記笑い推定値が前記第１閾値以上である場合には前記笑いレベルを笑いレベル１に設定し、
前記生成ステップでは、前記笑いレベル１に対応するアバタを生成し、
前記第２推定ステップでは、第３ＭＡモデルによって前記微笑み推定値を算出し、
前記第２設定ステップでは、前記微笑み推定値が前記第２閾値以上である場合には前記微笑みレベルを微笑みレベル１に設定し、
前記生成ステップでは、前記微笑みレベル１に対応するアバタを生成し、
前記第２設定ステップでは、前記微笑み推定値が前記第２閾値未満である場合には前記微笑みレベルを笑いおよび微笑みがないレベルに設定し、
前記生成ステップでは、前記笑いおよび微笑みがないレベルに対応する、笑いおよび微笑みがないアバタを生成することを特徴とする請求項３に記載のアバタ生成方法。
【請求項５】
コンピュータに、請求項３または請求項４に記載のアバタ生成方法の各処理を実行させるためのプログラム。

【図１】