画像処理装置および方法、並びに、プログラム

【課題】任意の言葉に対して、自然な口の動きを表す発話映像を生成する。
【解決手段】映像生成部１２３は、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである初口形、および、１つの音を発し終える際に形成される口形であって、複数の基本口形のうちのいずれかである終口形が、ユーザにより入力された対象語を発音する際に現れる順序に従って、各基本口形を表す基本口形画像データを並べるとともに、２つの連続する基本口形画像データの間の中間画像データを、当該２つの基本口形画像データを用いて補間することにより、対象語を発音する際の口の動きを表す発話映像を生成する。本発明は、例えば、読唇術のトレーニング装置に適用できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置および方法、並びに、プログラムに関し、特に、人が話す際の口の動きを表す映像を生成する場合に用いて好適な画像処理装置および方法、並びに、プログラムに関する。
【背景技術】
【０００２】
従来、聴覚障害者等が読唇術を身につけるために、ビデオ映像を利用したトレーニングが行われている。しかし、ビデオ映像を利用する場合、予め撮影が行われている言葉に対するトレーニングしか行うことができない。
【０００３】
一方、従来、任意の言葉に対して、人が話す際の口の動きを表す映像（以下、発話映像と称する）を自動生成する技術（以下、発話映像化技術と称する）が研究されている（例えば、特許文献１参照）。例えば、この発話映像化技術を適用することにより、任意の言葉に対する読唇術のトレーニングを実現することが可能になる。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平９−２６５２５３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、特許文献１に記載の発話映像化技術により得られる発話映像は、実際に発話時の口の動きを撮影したビデオ映像と比較して、口の動きが不自然になり、トレーニングに支障を来すことが想定される。
【０００６】
本発明は、このような状況に鑑みてなされたものであり、任意の言葉に対して、自然な口の動きを表す発話映像を生成できるようにするものである。
【課題を解決するための手段】
【０００７】
本発明の一側面の画像処理装置は、人が話す際の口の動きを表す発話映像を生成する画像処理装置であって、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第１の口形、および、１つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第２の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、２つの連続する前記基本口形画像の間の画像を、当該２つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成手段を含む。
【０００８】
前記映像生成手段には、前記第１の口形から前記第２の口形に変化する間、前記第２の口形から前記第１の口形に変化する間、および、前記第２の口形から別の前記第２の口形に変化する間の画像を補間させることができる。
【０００９】
前記第１の口形を表示する第１の表示時間、前記第２の口形を表示する第２の表示時間、前記第１の口形から前記第２の口形に変化する間の第１の遷移時間、前記第２の口形から前記第１の口形に変化する間の第２の遷移時間、および、前記第２の口形から他の前記第２の口形に変化する間の第３の遷移時間を設定する設定手段をさらに設け、前記映像生成手段には、前記第１の表示時間、前記第２の表示時間、前記第１の遷移時間、前記第２の遷移時間、および、前記第３の遷移時間に基づいて、前記発話映像における発話速度を調整させることができる。
【００１０】
与えられた前記対象語に対して、前記対象語を発音する際に現れる前記第１の口形および前記第２の口形の順序を示すデータを生成する口形順序データ生成手段をさらに設け、前記映像生成手段には、生成された前記データに基づいて前記発話映像を生成させることができる。
【００１１】
前記基本口形は、母音を発するときに形成される母音口形、および、唇を閉じた状態の閉唇口形を含むようにすることができる。
【００１２】
本発明の一側面の画像処理方法は、人が話す際の口の動きを表す発話映像を生成する画像処理方法であって、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第１の口形、および、１つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第２の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、２つの連続する前記基本口形画像の間の画像を、当該２つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成ステップを含む。
【００１３】
本発明の一側面のプログラムは、人が話す際の口の動きを表す発話映像を生成するコンピュータに、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第１の口形、および、１つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第２の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、２つの連続する前記基本口形画像の間の画像を、当該２つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成ステップを含む処理を実行させる。
【００１４】
本発明の一側面においては、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第１の口形、および、１つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第２の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像が並べられるとともに、２つの連続する前記基本口形画像の間の画像が、当該２つの前記基本口形画像を用いて補間されることにより、前記対象語を発音する際の口の動きを表す発話映像が生成される。
【発明の効果】
【００１５】
本発明の一側面によれば、任意の言葉に対して、自然な口の動きを表す発話映像を生成することができる。
【図面の簡単な説明】
【００１６】
【図１】基本口形の例を示す図である。
【図２】日本語の各音を口形パターンにより分類した表である。
【図３】本発明を適用した発話映像生成システムの一実施の形態を示すブロック図である。
【図４】発話映像生成処理を説明するためのフローチャートである。
【図５】発話速度パラメータの一例を示す図である。
【図６】発話速度の設定値と発話速度パラメータの対応関係の一例を示す表である。
【図７】映像生成処理の詳細を説明するためのフローチャートである。
【図８】特徴点の一例を示す図である。
【図９】モーフィングに用いる領域の一例を示す図である。
【図１０】モーフィングの具体例について説明するための図である。
【図１１】モーフィング率とブレンド強度の関係の例を示す図である。
【図１２】モーフィング率とブレンド強度の関係の他の例を示す図である。
【図１３】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【００１７】
以下、本発明を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．本発明に適用する理論
２．本発明の実施の形態
３．本発明の適用例および変形例
【００１８】
＜１．本発明に適用する理論＞
まず、図１および図２を参照して、本発明に適用する理論について説明する。
【００１９】
なお、以下、「発話する」「発音する」「発声する」「言葉を発する」「話す」など言葉を声に出す動作を表す用語を用いる場合、特に断りがない限り、声を出さずに、声を出す場合と同様に口を動かす動作も含むものとする。
【００２０】
また、以下、「音」と表現する場合は、日本語１拍の音を表すものとする。この「拍」とは、日本語の語句の音の流れの量化の単位であり、「モーラ」とも呼ばれている。「拍」は言語の音の流れや音声上や音響上の単位である「音節」とは異なるものである。
【００２１】
さらに、以下、「言葉」は、特に断りがない限り、語句および文章を含むものとする。
【００２２】
［日本語の音と口形の関係］
まず、図１および図２を参照して、日本語の音と口形の関係について説明する。
【００２３】
人が言葉を話すとき、それぞれの言葉に応じて所定の口の形を作って発声することで、それぞれの言葉に対応し、他の人が認識できる音声が発せられる。また、人が同じ言葉を話すときには、同じ音が発せられるように、その都度類似した口の動きをする。これは、異なる人が同じ言語の同じ言葉を話すときも同様であり、互いに類似度の高い口の動きとなる。
【００２４】
また、人が言葉を話すときに、言葉の中の各音を発するために形成される口形は、発せられる音または口形の特徴などに応じて、複数の種類の基本口形に分類される。すなわち、人が言葉の中の各音を発するとき、発する音の種類に応じて、基本口形の中のいずれかの口形が形成される。そして、ある基本口形から別の基本口形へと口形を変化させながら、その口形の変化に合わせて発声することで、言葉が発せられる。
【００２５】
日本語の各音を発する際には、その音の母音に対応した口形が形成される。すなわち、ア段、イ段、ウ段、エ段、オ段の各音を発する場合、その音を発し終える際に、ア、イ、ウ、エ、オの各母音に対応した口形（以下、終口形と称する）がそれぞれ形成される。これは、濁音、半濁音、拗音等を発する場合も同様である。
【００２６】
なお、以下、ア、イ、ウ、エ、オの各母音に対応する口形を、それぞれア口形、イ口形、ウ口形、エ口形、オ口形と称する。また、以下、ア口形、イ口形、ウ口形、エ口形、オ口形を、まとめて母音口形と称する。
【００２７】
一方、中には、音の出始めに、その音を発するために必要な口形であって、その音の母音に対応する口形とは異なる口形（以下、初口形と称する）が形成される音が存在する。例えば、”さ”を発音する場合、音の出始めにイ口形が形成され、その後ア口形が形成される。同様に、”わ”を発音する場合、音の出初めにウ口形が形成され、その後ア口形が形成される。
【００２８】
このように、日本語の音には、初口形が形成される音（以下、複口形音と称する）と形成されない音（以下、単口形音と称する）が存在する。また、初口形には、イ口形、ウ口形、唇を閉じた口形（以下、閉唇口形と称する）の３種類が存在する。一方、上述したように、終口形には、ア口形、イ口形、ウ口形、エ口形、オ口形の５種類が存在する。そして、ア口形、イ口形、ウ口形、エ口形、オ口形、閉唇口形の６種類の口形が、日本語における基本口形となる。
【００２９】
図１は、各基本口形の例を示している。図１の左端の列は、基本口形の種類を示し、まん中の列は、各基本口形を表す記号である口形コードを示し、右端の列は、各基本口形に対する口形の例を模式的に示している。
【００３０】
なお、以下、ア口形、イ口形、ウ口形、エ口形、オ口形、閉唇口形の口形コードとして、"A"、"I"、"U"、"E"、"O"、"X"の各文字を割り当てるものとする。
【００３１】
図２は、日本語の各音を、発音時に形成される口形のパターン（以下、口形パターンと称する）により分類した表である。図２の左から１列目は、各口形パターンの番号を示し、２列目は、各口形パターンに対応する音の五十音図の段を示している。また、３列目、４列目は、各口形パターンの初口形および終口形の種類をそれぞれ示している。なお、単口形の口形パターン、すなわち、初口形が現れない口形の口形パターンの初口形の欄には、”−”を示している。
【００３２】
さらに、５列目は、各口形パターンに対するコードパターンを示している。このコードパターンは、初口形、終口形の順に口形コードを並べたものである。なお、以下、単口形のコードパターンの初口形の口形コードとして、"-"の文字を割り当てるものとする。
【００３３】
また、６列目（右端の列）は、各口形パターンにより発音される音を示している。換言すれば、６列目の音を発するときに、５列目のコードパターンにより示される口形パターンが形成される。例えば、”あ”に対するコードパターンは"-A"であり、”あ”を発音するとき、初口形が形成されず、終口形としてア口形が形成されることが分かる。また、例えば、”ぴょ”に対するコードパターンは"XO"であり、”ぴょ”を発音するとき、初口形として閉唇口形が形成され、終口形としてオ口形が形成されることが分かる。
【００３４】
なお、複数の音を続けて発する場合、基本的には発する音に対応する口形パターンが順番に形成される。ただし、連続する音の組み合わせによっては、口形パターンの一部が他の音の口形の影響を受けて、図２に示される口形パターンと実際の口形パターンとが一致しなくなる場合がある。この点の詳細については後述する。
【００３５】
また、五十音図のどの段にも含まれない促音や撥音の口形は複雑に変化する。これは、促音や撥音は、口形が決まっておらず、その前後に発せられる音によって口形が変化するためである。この点の詳細についても後述する。
【００３６】
なお、以下、各口形パターンは１つの音を発声するときの単位であるため、これらを口形節とも称する。
【００３７】
［口形順序コード］
例えば、図２に基づいて、”雨（あめ）”の各音（”あ”、”め”）に対応するコードパターンを順番に並べると、"-AXE"となる。この口形コードの列は、”あめ”を発音する時に形成される口形の順序を示している。このように、日本語の各言葉を発するときに形成される口形の順序を口形コードにより表現したものを、以下、口形順序コードと称する。すなわち、口形順序コードは、対象となる言葉を発する際に現れる初口形および終口形の順番を示すデータであり、口形順序コードの奇数番目は、初口形の口形コードを示し、偶数番目は、終口形の口形コードを示す。
【００３８】
［口形順序コード生成規則］
ここで、口形順序コードを生成するための規則について説明する。
【００３９】
口形順序コードは、基本的には、生成対象となる言葉（以下、対象語と称する）に現れる各音に対応するコードパターンを順番に並べることにより生成される。ただし、上述したように、連続する音の組み合わせによる口形の変化や、促音および撥音に対する口形の変化を反映するために、後述する変化規則が適用される。
【００４０】
なお、口形順序コードにおいて、奇数番目と偶数番目の連続する２つの口形コードの組が口形節となるため、以下、これらの組を先頭から順に、第１口形節、第２口形節、第３口形節、・・・、第s口形節と称する。また、以下、s＝1,2,3,・・・,sMAX（sMAXは、対象語の口形節数）としたとき、第s口形節の初口形の口形コードをcF(s)で表し、第s口形節の終口形の口形コードをcL(s)で表す。例えば、上述した”雨（あめ）”の場合、口形節数sMAX＝2、cF(1)＝-,cL(1)＝A,cF(2)＝X,cL(2)＝Eとなる。
【００４１】
［単純連結コード］
２拍以上の言葉に対する口形順序コードを生成する場合、まず、図２に基づいて、その言葉に現れる各音に対応するコードパターンを単純に並べた口形コードの列（以下、単純連結コードと称する）を生成する。ただし、この段階では促音や撥音に対する口形パターンを決定するができないため、促音や撥音に対するコードパターンには、一時的に"-*"が割り当てられる。
【００４２】
そして、単純連結コードの先頭から順に、以下の口形変化規則１乃至６を適用し、口形コードを補正することにより、対象語に対する口形順序コードが生成される。
【００４３】
［口形変化規則１］
1＜s≦sMAXのとき、cL(s)＝cL(s-1)かつcF(s)＝-ならば、cF(s)とcL(s)を削除する。
【００４４】
この規則は、第s口形節が単口形音で、かつ、その単口形音の終口形が、第s-1口形節の終口形と同じ場合、第s口形節の終口形が、第s-1口形節の終口形に吸収され、出現しなくなるという特徴に基づくものである。
【００４５】
例えば、”明かり（あかり）”に対する単純連結コードは"-A-A-I"となる。ここで、cL(2)＝cL(1)＝AかつcF(2)＝-なので、口形変化規則１に従って、cF(2)とcL(2)が削除される。その結果、”明かり”の口形順序コードは"-A-I"となる。従って、”明かり”は３拍の言葉であるが、口形節数は２となる。
【００４６】
［口形変化規則２］
1＜s≦sMAXのとき、cF(s)＝cL(s-1)ならば、cF(s)＝-とする。
【００４７】
この規則は、第s口形節の初口形が第s-1口形節の終口形と同じ場合、第s口形節の初口形が、第s-1口形節の終口形に吸収され、出現しなくなるという特徴に基づくものである。
【００４８】
例えば、”伊勢（いせ）”に対する単純連結コードは"-IIE"となる。ここで、cF(2)＝cL(1)＝Iなので、口形変化規則２に従って、cF(2)＝-となる。その結果、”いせ”の口形順序コードは、"-I-E"となる。
【００４９】
［口形変化規則３］
1＜s＜sMAXのとき、cL(s)＝*かつcF(s+1)＝Xならば、cL(s)＝X、cF(s+1)＝-とする。
【００５０】
この規則は、第s口形節が促音または撥音であり、第s+1口形節の初口形が閉唇口形である場合、第s口形節の促音または撥音を発するときの口形は閉唇口形となり、第s+1口形節の初口形が出現しなくなるという特徴に基づくものである。
【００５１】
例えば、”コップ”に対する単純連結コードは"-O-*XU"となる。ここで、cL(2)＝*かつcF(3)＝Xなので、口形変化規則３に従って、cL(2)＝X、cF(3)＝-となる。その結果、”コップ”の口形順序コードは、"-O-X-U"となる。
【００５２】
［口形変化規則４］
1＜s≦sMAXのとき、cL(s)＝*かつcL(s-1)＝A、または、cL(s)＝*かつcL(s-1)＝Eならば、cL(s)＝Iとする。
【００５３】
この規則は、第s口形節が促音または撥音であり、第s-1口形節の終口形がア口形またはエ口形である場合、第s口形節の促音または撥音を発するときの口形がイ口形になるという特徴に基づくものである。
【００５４】
例えば、”エンド”に対する単純連結コードは"-E-*UO"となる。ここで、cL(2)＝*かつcL(1)＝Eなので、口形変化規則４に従って、cL(2)＝Iとなる。その結果、”エンド”の口形順序コードは、"-E-IUO"となる。
【００５５】
［口形変化規則５］
1＜s≦sMAXのとき、cL(s)＝*かつcL(s-1)＝Oならば、cL(s)＝Uとする。
【００５６】
この規則は、第s口形節が促音または撥音であり、第s-1口形節の終口形がオ口形である場合、第s口形節の促音または撥音を発するときの口形がウ口形になるという特徴に基づくものである。
【００５７】
例えば、”突起（とっき）”に対する単純連結コードは"UO-*-I"となる。ここで、cL(2)＝*かつcL(1)＝Oなので、口形変化規則５に従って、cL(2)＝U となる。その結果、”突起”の口形順序コードは、"UO-U-I"となる。
【００５８】
［口形変化規則６］
1＜s≦sMAXのとき、cL(s)＝*かつcL(s-1)＝I、または、cL(s)＝*かつcL(s-1)＝Uならば、cF(s)とcL(s)を削除する。
【００５９】
この規則は、第s口形節が促音または撥音であり、第s-1口形節の終口形がイ口形またはウ口形である場合、第s口形節の促音または撥音を発するときの口形は、第s-1口形節の終口形と同じになり、その結果、第s-1口形節の終口形に吸収され、出現しなくなるという特徴に基づくものである。
【００６０】
例えば、”近所（きんじょ）”に対する単純連結コードは"-I-*UO"となる。ここで、cL(2)＝*かつcL(1)＝Iなので、口形変化規則６に従って、cF(2)とcL(2)が削除される。その結果、”近所”の口形順序コードは、"-IUO"となる。
【００６１】
なお、口形変化規則３が、口形変化規則４乃至６より優先して適用される。これは、第s口形節が促音または撥音であり、第s+1口形節の初口形が閉唇口形である場合、第s-1口形節の音に関係なく、第s口形節の促音または撥音を発するときの口形が閉唇口形になるという特徴に基づくものである。
【００６２】
例えば、”サンマ”に対する単純連結コードは"IA-*XA"であり、第２口形節に対して口形変化規則３および４の両方を適用することが考えられる。ここで、”サンマ”の口形順序コードは、口形変化規則３を適用すると"IA-X-A"となり、口形変化規則４を適用する"IA-IXA"となるが、自然な発話では、"サンマ"の口形変化は、前者の"IA-X-A"により近くなる。
【００６３】
以上に述べた口形順序コード生成規則に従って、日本語の任意の言葉に対して、口形順序コードを生成することができる。
【００６４】
＜２．本発明の実施の形態＞
次に、図３乃至図１２を参照して、本発明の実施の形態について説明する。
【００６５】
［発話映像生成システムの構成例］
図３は、本発明を適用した発話映像生成システムの一実施の形態を示すブロック図である。
【００６６】
発話映像生成システム１０１は、ユーザにより入力された任意の言葉に対する発話映像を生成し、表示するシステムである。発話映像生成システム１０１は、入力装置１１１、画像処理装置１１２、および、表示装置１１３を含むように構成される。
【００６７】
入力装置１１１は、例えば、キーボード、マウス、ボタン、スイッチ、タッチパネル、カメラなどの各種の入力デバイスにより構成され、発話映像を生成する対象となる言葉や、発話速度等の各種の設定値を入力するために用いられる。入力装置１１１は、ユーザにより入力される、発話映像を生成する対象となる言葉（以下、対象語と称する）を示すデータ（以下、対象語データと称する）、および、各種の設定値を示すデータ（以下、設定データと称する）を画像処理装置１１２に供給する。
【００６８】
画像処理装置１１２は、対象語データに対する発話映像を生成し、表示装置１１３に表示させる装置である。画像処理装置１１２は、例えば、コンピュータにより構成され、所定の制御プログラムを実行することにより、口形順序コード生成部１２１、設定部１２２、映像生成部１２３、および、表示制御部１２４を含む機能が実現される。また、画像処理装置１１２は、例えば、ハードディスクドライブ、EEPROMなどの不揮発性のメモリにより構成される記憶部１２５を備える。
【００６９】
口形順序データ生成部１２１は、上述した口形順序コード生成規則に従って、入力装置１１１から供給される対象語データに示される対象語に対する口形順序コードを生成し、生成した口形順序コードを映像生成部１２３に供給する。
【００７０】
設定部１２２は、入力装置１１１から供給される設定データに基づいて、映像生成部１２３の動作を調整するための各種のパラメータを設定する。
【００７１】
映像生成部１２３は、口形順序データ生成部１２１により生成された口形順序コード、および、記憶部１２５に記憶されている、６種類の各基本口形を表す基本口形画像データに基づいて、対象語に対する発話映像を表す発話映像データを生成する。映像生成部１２３は、生成した発話映像データを表示制御部１２４に供給したり、あるいは、記憶部１２５に記憶させたりする。
【００７２】
表示制御部１２４は、表示装置１１３を制御して、発話映像データに基づく発話映像を表示装置１１３に表示させる。
【００７３】
記憶部１２５は、６種類の基本口形に対応する基本口形画像データを予め記憶している。この基本口形画像データは、例えば、任意の人をモデルに選択し、”ア”、”イ”、”ウ”、”エ”、”オ”、”ン”の各音を発音したときの口付近を撮影することにより生成される。
【００７４】
なお、以下、ア口形、イ口形、ウ口形、エ口形、オ口形、閉唇口形の各口形に対応する基本口形画像データを、それぞれア口形画像データ、イ口形画像データ、ウ口形画像データ、エ口形画像データ、オ口形画像データ、閉唇口形画像データと称する。
【００７５】
表示装置１１３は、例えば、LCD（Liquid Crystal Display）などの各種のディスプレイ装置により構成される。
【００７６】
［発話映像生成処理］
次に、図４のフローチャートを参照して、発話映像生成システム１０１により実行される発話映像生成処理について説明する。なお、この処理は、例えば、発話映像生成システム１０１の電源がオンされたとき開始され、オフされたとき終了する。
【００７７】
ステップＳ１において、設定部１２２は、発話速度が入力されたか否かを判定する。例えば、ユーザが、入力装置１１１を介して発話速度の設定値を入力し、入力された発話速度を示す設定データが入力装置１１１から設定部１２２に供給されたとき、設定部１２２は、発話速度が入力されたと判定し、処理はステップＳ２に進む。
【００７８】
ステップＳ２において、設定部１２２は、発話速度を調整する。具体的には、設定部１２２は、発話速度を調整するためのパラメータ（以下、発話速度パラメータと称する）の値を、入力された発話速度に対応する値に設定し、設定した発話速度パラメータを映像生成部１２３に供給する。
【００７９】
図５は、発話速度パラメータの例を示している。発話速度パラメータは、第１口形変形時間Ｔ_Ｍ、第２口形変形時間Ｔ_Ｍ’、初口形表示時間Ｔ_Ｆ、および、終口形表示時間Ｔ_Ｌの４種類からなる。
【００８０】
第１口形変形時間Ｔ_Ｍは、単口形音の口形節に対する映像において、前の口形節の終口形から当該口形節の終口形に変化する間の遷移時間を示すパラメータである。
【００８１】
第２口形変形時間Ｔ_Ｍ’は、複口形音の口形節に対する映像において、前の口形節の終口形から当該口形節の初口形に変化する間の遷移時間、および、当該口形節の初口形から終口形に変形する間の遷移時間を示すパラメータである。
【００８２】
初口形表示時間Ｔ_Ｆは、複口形音の口形節に対する映像において、初口形を表示する時間を示すパラメータである。
【００８３】
終口形表示時間Ｔ_Ｌは、単口形音および複口形音の口形節に対する映像において、終口形を表示する時間を示すパラメータである。
【００８４】
図６は、発話速度の設定値と発話速度パラメータの対応関係の例を示す表である。なお、この例では、発話速度パラメータの単位（時間）を、発話映像におけるフレーム数で表している。
【００８５】
この例では、発話速度は、速い、標準、ゆっくりの３段階に調整することが可能である。また、基本的に、発話速度が速くなるほど、各発話速度パラメータの値は小さくなり（時間が短くなり）、発話速度が遅くなるほど、各発話速度パラメータの値は大きくなる（時間が長くなる）。
【００８６】
なお、この例では、発話速度が速い場合と標準の場合とで、第１口形変形時間Ｔ_Ｍおよび第２口形変形時間Ｔ_Ｍ’が、それぞれ同じ値に設定されている。また、発話速度が標準の場合とゆっくりの場合とで、初口形表示時間Ｔ_Ｆが、同じ値に設定されている。
【００８７】
ステップＳ２において、設定部１２２は、図６の表に基づいて、ユーザにより設定された発話速度に対応する第１口形変形時間Ｔ_Ｍ、第２口形変形時間Ｔ_Ｍ’、初口形表示時間Ｔ_Ｆ、および、終口形表示時間Ｔ_Ｌを求め、求めた値を映像生成部１２３に供給する。その後、処理は、ステップＳ３に進む。
【００８８】
一方、ステップＳ１において、発話速度が入力されていないと判定された場合、ステップＳ２の処理はスキップされ、処理はステップＳ３に進む。
【００８９】
ステップＳ３において、口形順序コード生成部１２１は、対象語が入力されたか否かを判定する。対象語が入力されていないと判定された場合、処理はステップＳ１に戻り、ステップＳ３において、対象語入力されたと判定されるまで、ステップＳ１乃至Ｓ３の処理が繰り返し実行される。
【００９０】
一方、例えば、ユーザが、入力装置１１１を介して対象語を入力し、入力された対象語を示す対象語データが入力装置１１１から口形順序コード生成部１２１に供給された場合、ステップＳ３において、口形順序コード生成部１２１は、対象語が入力されたと判定し、処理はステップＳ４に進む。
【００９１】
ステップＳ４において、口形順序コード生成部１２１は、上述した口形順序コード生成規則に従って、対象語データに対する口形順序コードを生成する。そして、口形順序コード生成部１２１は、生成した口形順序コードを映像生成部１２３に供給する。
【００９２】
ただし、このとき、口形順序コード生成部１２１は、口形変化規則１を適用しない。すなわち、上述したように、口形変化規則１では、第s口形節の口形コードが削除されるが、第s口形節の音に対する表示時間を確保するために、あえて口形変化規則１を適用せずに、第s口形節の口形コードがそのまま残される。
【００９３】
また、口形順序コード生成部１２１は、口形変化規則６の代わりに、その変形パターンである口形変化規則６’を適用する。
【００９４】
［口形変化規則６’］
1＜s≦sMAXのとき、cL(s)＝*かつcL(s-1)＝I、または、cL(s)＝*かつcL(s-1)＝Uならば、cL(s)をcL(s-1)と同じ値に設定する。
【００９５】
すなわち、上述したように、口形変化規則６では、第s口形節の口形コードが削除されるが、口形変化規則６’では、第s口形節の音に対する表示時間を確保するために、第s口形節の口形コードが、削除されずに、第s-1口形節の終口形と同じ終口形を有する単口形音の口形コード（コードパターン）に設定される。
【００９６】
ステップＳ５において、発話映像生成システム１０１は、映像生成処理を実行する。ここで、図７のフローチャートを参照して、映像生成処理の詳細について説明する。
【００９７】
ステップＳ５１において、映像生成部１２３は、表示時間Ｔを終口形表示時間Ｔ_Ｌに設定する。
【００９８】
ステップＳ５２において、発話映像生成システム１０１は、閉唇口形を表示する。具体的には、映像生成部１２３は、閉唇口形画像データを記憶部１２５から読み出す。そして、映像生成部１２３は、読み出した閉唇口形画像データを、表示時間Ｔ（＝終口形表示時間Ｔ_Ｌ）の間、表示制御部１２４に供給する。表示制御部１２４は、映像生成部１２３から供給される閉唇口形画像データに基づく画像を表示装置１１３に表示させる。これにより、終口形表示時間Ｔ_Ｌの間、閉唇口形を表す画像が表示装置１１３に表示される。
【００９９】
ステップＳ５３において、映像生成部１２３は、ポインタpを１に設定する。
【０１００】
ステップＳ５４において、映像生成部１２３は、次の口形節において初口形が形成されるか否かを判定する。映像生成部１２３は、口形順序コードのp番目の口形コードが-でない場合、次の口形節において初口形が形成されると判定し、処理はステップＳ５５に進む。
【０１０１】
ステップＳ５５において、映像生成部１２３は、表示時間Ｔを第２口形変形時間Ｔ_Ｍ’に設定する。
【０１０２】
ステップＳ５６において、発話映像生成システム１０１は、口形を変化させる。具体的には、映像生成部１２３は、p番目の口形コードに対応する基本口形画像データを記憶部１２５から読み出す。そして、映像生成部１２３は、現在表示中の変更元の基本口形画像データから、p番目の口形コードに対応する変更先の基本口形画像データに変化させるために補間する画像データ（以下、中間画像データと称する）を、表示時間Ｔ（＝第２口形変形時間Ｔ_Ｍ’）により示されるフレーム数分生成する。
【０１０３】
例えば、映像生成部１２３は、モーフィングの手法を用いて、中間画像データを生成する。ここで、モーフィングを用いた場合の中間画像データの生成方法の例について説明する。
【０１０４】
モーフィングを行う場合、各基本口形画像データに対して、モーフィングに必要な特徴点が予め設定される。図８は、ア口形画像データに対して設定される特徴点の例を示している。
【０１０５】
まず、左右の口角に対して特徴点CPa_L、CPa_Rが設定される。また、特徴点CPa_LとCPa_Rの２点を通る直線を補助線Lhとし、補助線Lh上において特徴点CPa_L、CPa_R間をｎ分割する点を通り、補助線Lhに垂直な直線を補助線Lvm（m＝1,2,・・・,n-1）とした場合、各補助線Lvmと、上唇の上端および下端、並びに、下唇の上端および下端との交点付近に特徴点Pa(m,r)（r＝1〜4）が設定される。そして、全ての基本口形画像データに対して、同様の特徴点が設定される。
【０１０６】
これにより、各基本口形画像データにおいて、それぞれ対応する位置に、4n−2個の特徴点が設定される。なお、図８は、分割数n＝4に設定した場合の特徴点の例を示している。
【０１０７】
そして、映像生成部１２３は、各基本口形画像データに設定されている特徴点を用いてモーフィングを行う。具体的には、映像生成部１２３は、変形元の基本口形画像データと変形先の基本口形画像データにおいて、各特徴点を結ぶことにより形成される多角形の領域Rs（s＝0,1,2,・・・）を定義する。
【０１０８】
図９は、図８のア口形画像データに対して定義される領域の例を示している。この例では、領域Ra0乃至Ra11の12個の領域が定義されている。
【０１０９】
なお、図９では、図を見やすくするために、領域Ra0a乃至Ra11以外の符号の図示を省略している。
【０１１０】
映像生成部１２３は、変形元の基本口形画像データの各領域Rsの形状を、変形先の基本口形画像データのそれぞれ対応する各領域Rsの形状へと徐々に変化させていく。
【０１１１】
ここで、図１０を参照して、変形元のア口形画像データの領域Ra4の形状を、変更先のオ口形画像データの領域Ro4に変化させる場合について考える。
【０１１２】
領域Ra4を領域Ro4に変化させる途中の時刻tにおける領域を領域Rt4とし、領域Ra4の特徴点Pa(2,1)に対応する領域Rt4および領域Ro4の特徴点を、それぞれ特徴点Pt(2,1)およびPo(2,1)とし、モーフィング率をkとすると、特徴点Pt(2,1)の座標は、次式（１）により求められる。
【０１１３】
Pt(2,1)＝k×Pa(2,1)＋（1.0−k）×Po(2,1) ・・・（１）
【０１１４】
領域Rt4の他の特徴点の座標についても、式（１）により求められ、その結果、領域Rt4の形状が求められる。
【０１１５】
そして、映像生成部１２３は、例えば、アフィン変換または透視変換などの手法を用いて、変形元の領域Ra4の画像の形状および変形先の領域Ro4の画像の形状を、領域Rt4の形状に変換し、変形した２枚の画像を合成することにより、領域Rt4に対応する画像を生成する。
【０１１６】
図１１は、このような画像の合成に用いるブレンド強度の特性の一例を示すグラフである。なお、横軸はモーフィング率kを示し、縦軸はブレンド強度αを示している。また、ブレンド強度αは、変形元の画像（例えば、領域Ra4の画像）に対するブレンド強度を示し、ブレンド強度βは、変形先の画像（例えば、領域Ro4の画像）に対するブレンド強度を示している。
【０１１７】
この特性では、変形元の画像から変形先の画像への遷移が進むにつれて（モーフィング率が高くなるにつれて）、ブレンド強度αが線形に減少し、ブレンド強度βが線形に増加する。すなわち、変形元の画像から変形先の画像への遷移が進むにつれて、合成後の画像において、変形元の画像の成分が弱くなり、変形元の画像の成分が強くなる。これにより、変形元の基本口形画像データから変形先の基本口形画像データに変化させるまでの間、滑らかに口形を変化させることが可能になる。
【０１１８】
図１２は、ブレンド強度の特性の他の例を示すグラフである。この例では、ブレンド強度αおよびブレンド強度βの特性を、ともに正弦波形に沿って変化させるようにしている。これにより、図１１の例と比較して、合成後の画像において、モーフィングの初期において、より変形元の画像成分が強くなり、モーフィングの末期において、より変形先の画像成分が強くなる。これにより、モーフィングの初期および末期において、より滑らかに口形を変化させることが可能になる。
【０１１９】
そして、他の領域についても同様の処理を行うことにより、時刻tにおける各領域の画像が生成される。その結果、時刻tにおける中間画像データを生成することができる。
【０１２０】
映像生成部１２３は、以上のようにして、表示時間Ｔ（＝第２口形変形時間Ｔ_Ｍ’）により示されるフレーム数分の中間画像データを生成し、表示制御部１２４に供給する。表示制御部１２４は、映像生成部１２３から供給される中間画像データに基づく画像を表示装置１１３に表示させる。これにより、表示装置１１３に表示される発話映像の口形が、変形元の口形（p-1番目の口形コードに対応する基本口形（終口形））から、変形先の口形（p番目の口形コードに対応する基本口形（初口形））に徐々に変化する。
【０１２１】
ステップＳ５７において、映像生成部１２３は、表示時間Ｔを初口形表示時間Ｔ_Ｆに設定する。
【０１２２】
ステップＳ５８において、発話映像生成システム１０１は、初口形を表示する。具体的には、映像生成部１２３は、p番目の口形コードに対応する基本口形画像データを、表示時間Ｔ（＝初口形表示時間Ｔ_Ｆ）の間、表示制御部１２４に供給する。表示制御部１２４は、映像生成部１２３から供給される基本口形画像データに基づく画像を表示装置１１３に表示させる。これにより、初口形表示時間Ｔ_Ｆの間、初口形を表す画像が表示装置１１３に表示される。
【０１２３】
ステップＳ５９において、映像生成部１２３は、表示時間Ｔを第２口形変形時間Ｔ_Ｍ’に設定する。
【０１２４】
その後、処理はステップＳ６１に進む。
【０１２５】
一方、ステップＳ５４において、映像生成部１２３は、口形順序コードのp番目の口形コードが-である場合、次の口形節において初口形が形成されないと判定し、処理はステップＳ６０に進む。
【０１２６】
ステップＳ６０において、映像生成部１２３は、表示時間Ｔを第１口形変形時間Ｔ_Ｍに設定する。
【０１２７】
その後、処理はステップＳ６１に進む。
【０１２８】
ステップＳ６１において、映像生成部１２３は、ポインタpの値を１つインクリメントする。
【０１２９】
ステップＳ６２において、発話映像生成システム１０１は、ステップＳ５６の処理と同様にして、口形を変化させる。
【０１３０】
これにより、ステップＳ５４において、次の口形節において初口形が形成されると判定され、ステップＳ５８において、初口形が表示された場合、表示装置１１３に表示される発話映像の口形が、変形元の口形（p-1番目の口形コードに対応する基本口形（初口形））から、変形先の口形（p番目の口形コードに対応する基本口形（終口形））に徐々に変化する。
【０１３１】
一方、ステップＳ５４において、次の口形節において初口形が形成されないと判定され、初口形が表示されなかった場合、表示装置１１３に表示される発話映像の口形が、変形元の口形（p-2番目の口形コードに対応する基本口形（終口形））から、変形先の口形（p番目の口形コードに対応する基本口形（終口形））に徐々に変化する。
【０１３２】
ステップＳ６３において、映像生成部１２３は、表示時間Ｔを終口形表示時間Ｔ_Ｌに設定する。
【０１３３】
ステップＳ６４において、発話映像生成システム１０１は、終口形を表示する。具体的には、映像生成部１２３は、p番目の口形コードに対応する基本口形画像データを、表示時間Ｔ（＝終口形表示時間Ｔ_Ｌ）の間、表示制御部１２４に供給する。表示制御部１２４は、映像生成部１２３から供給される基本口形画像データに基づく画像を表示装置１１３に表示させる。これにより、終口形表示時間Ｔ_Ｌの間、終口形を表す画像が表示装置１１３に表示される。
【０１３４】
ステップＳ６５において、映像生成部１２３は、ポインタpの値を１つインクリメントする。
【０１３５】
ステップＳ６６において、映像生成部１２３は、口形順序コードを最後まで処理したか否かを判定する。口形順序コードを最後まで処理していないと判定された場合、処理はステップＳ５４に戻る。
【０１３６】
その後、ステップＳ６６において、口形順序コードを最後まで処理したと判定されるまで、ステップＳ５４乃至Ｓ６６の処理が繰り返し実行される。これにより、口形順序コードに基づいて、対象語を発音する際に各基本口形（初口形または終口形）が現れる順序に従って、各基本口形を表す基本口形画像データが並べられるとともに、２つの連続する基本口形画像データの間に中間画像データが補間され、対象語に対する発話映像データが生成される。そして、対象語を発音する際の口の動きを表す発話映像が表示される。
【０１３７】
一方、ステップＳ６６において、口形順序コードを最後まで処理したと判定された場合、映像生成処理は終了する。
【０１３８】
その後、処理は、図４のステップＳ１に戻り、ステップＳ１以降の処理が実行される。
【０１３９】
以上のようにして、任意の対象語に対して、自然な口の動きを表す発話映像を生成し、表示することができる。
【０１４０】
また、発話速度パラメータを調整することにより、自然な口の動きを保ったまま、発話映像における発話速度を所望の速度に調整することができる。
【０１４１】
これにより、任意の言葉に対する読唇術のトレーニングを、支障なく適切に行うことができる。
【０１４２】
＜３．本発明の適用例および変形例＞
なお、図６の発話速度および発話速度パラメータの値は、その一例であり、他の値に設定するようにしてもよい。例えば、発話速度を２段階、または、４段階以上に設定できるようにしてもよい。また、例えば、初口形の前後の口形変化時間を個別に設定できるようにしてもよい。さらに、例えば、単口形音と複口形音の終口形表示時間を個別に設定できるようにしてもよい。また、例えば、図２を参照して説明した口形パターン毎に個別に発話速度パラメータの値を設定できるようにしてもよい。
【０１４３】
また、対象語を入力する方法として、例えば、通常の文字入力の他、文字認識や音声認識を用いた方法など、任意の方法を採用することができる。
【０１４４】
さらに、対象語を入力する代わりに、口形順序コードを直接入力するようにしてもよい。
【０１４５】
また、２組以上の基本口形画像データ、すなわち、２人以上の異なる人をモデルとした基本口形画像データを用意して、例えば、ユーザ設定により切替えて使用できるようにしてもよい。
【０１４６】
さらに、以上の説明では、発話映像の各フレームの画像を生成しながら、リアルタイムに表示する例を示したが、発話映像データを記憶部１２５に記憶して、後で再生できるようにしてもよい。
【０１４７】
また、以上の説明では、同じ基本口形が連続する場合にも、その間の中間画像データを生成する例を示したが、中間画像データの生成を省略することも可能である。
【０１４８】
また、例えば、ブレンド強度の特性を表すグラフを表示し、グラフの形状を変更できるようにしたり、モーフィング率に対するブレンド強度の値を入力できるようにしたりして、図１１および図１２を参照して上述したブレンド強度の特性を、ユーザが調整できるようにしてもよい。
【０１４９】
また、本発明は、読唇術のトレーニング以外にも、任意の言葉を発話する際の人の口の動きを再現する技術を利用する分野に適用することが可能である。
【０１５０】
例えば、本発明は、日本語を母国語としない人のための日本語の発話方法の学習に適用することが可能である。
【０１５１】
また、例えば、本発明は、アニメーションの製作に適用することができる。なお、本発明を適用可能なアニメーションには、映画、テレビ番組、ゲームの画面、コンピュータネットワーク上の仮想空間において使用されるアバターなど、あらゆる絵を用いたアニメーションが含まれる。
【０１５２】
さらに、例えば、本発明は、既存の映像、画像、写真等を用いて、人が話す顔または口を含む部分の再現または変形等を行う技術に適用することが可能である。例えば、撮影済みの画像や写真を用いて、その人が話す顔を画像上で再現したり、その人の話すときの口の画像を他の画像に合成したりして楽しむゲーム等に適用することができる。また、例えば、外国語の映画を日本語で吹き替える場合に、より俳優の口の動きが自然に見えるように、俳優の口形を日本語の台詞に合わせて変化させる技術に適用することができる。
【０１５３】
また、例えば、本発明は、発話するロボットや人形等の口の形を、発話に合わせて動かす技術に適用することが可能である。
【０１５４】
さらに、本発明は、日本語以外にも、日本語と同様に初口形と終口形が形成される言語に対して適用することが可能である。
【０１５５】
なお、日本語でも地方の方言においては、以上に説明したものと初口形が異なる場合があり、その場合には、それに対応して、口形コードや基本口形画像データを変更するようにすればよい。
【０１５６】
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【０１５７】
図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
【０１５８】
コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。
【０１５９】
バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。
【０１６０】
入力部３０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記憶部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。
【０１６１】
以上のように構成されるコンピュータでは、CPU３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。
【０１６２】
コンピュータ（CPU３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【０１６３】
コンピュータでは、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記憶部３０８に、あらかじめインストールしておくことができる。
【０１６４】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【０１６５】
また、本明細書において、システムの用語は、複数の装置、手段などより構成される全体的な装置を意味するものとする。
【０１６６】
さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【０１６７】
１０１発話映像生成システム
１１１入力装置
１１２画像処理装置
１１３表示装置
１２１口形順序コード生成部
１２２設定部
１２３映像生成部
１２４表示制御部
１２５記憶部

【特許請求の範囲】
【請求項１】
人が話す際の口の動きを表す発話映像を生成する画像処理装置において、
所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第１の口形、および、１つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第２の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、２つの連続する前記基本口形画像の間の画像を、当該２つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成手段を
含む画像処理装置。
【請求項２】
前記映像生成手段は、前記第１の口形から前記第２の口形に変化する間、前記第２の口形から前記第１の口形に変化する間、および、前記第２の口形から別の前記第２の口形に変化する間の画像を補間する
請求項１に記載の画像処理装置。
【請求項３】
前記第１の口形を表示する第１の表示時間、前記第２の口形を表示する第２の表示時間、前記第１の口形から前記第２の口形に変化する間の第１の遷移時間、前記第２の口形から前記第１の口形に変化する間の第２の遷移時間、および、前記第２の口形から他の前記第２の口形に変化する間の第３の遷移時間を設定する設定手段を
さらに含み、
前記映像生成手段は、前記第１の表示時間、前記第２の表示時間、前記第１の遷移時間、前記第２の遷移時間、および、前記第３の遷移時間に基づいて、前記発話映像における発話速度を調整する
請求項１に記載の画像処理装置。
【請求項４】
与えられた前記対象語に対して、前記対象語を発音する際に現れる前記第１の口形および前記第２の口形の順序を示すデータを生成する口形順序データ生成手段を
さらに含み、
前記映像生成手段は、生成された前記データに基づいて前記発話映像を生成する
請求項１に記載の画像処理装置。
【請求項５】
前記基本口形は、母音を発するときに形成される母音口形、および、唇を閉じた状態の閉唇口形を含む
請求項１に記載の画像処理装置
【請求項６】
生成された前記発話映像の表示を制御する表示制御手段を
さらに含む請求項１に記載の画像処理装置。
【請求項７】
人が話す際の口の動きを表す発話映像を生成する画像処理方法において、
所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第１の口形、および、１つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第２の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、２つの連続する前記基本口形画像の間の画像を、当該２つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成ステップを
含む画像処理方法。
【請求項８】
人が話す際の口の動きを表す発話映像を生成するコンピュータに、
所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第１の口形、および、１つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第２の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、２つの連続する前記基本口形画像の間の画像を、当該２つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成ステップを
含む処理を実行させるためのプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【公開番号】特開２０１２−１０３９０４（Ｐ２０１２−１０３９０４Ａ）
【公開日】平成２４年５月３１日（２０１２．５．３１）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - イメージデータ処理または発生一般 (58,387)
    - アニメーション［６，２０１１．０１］ (971)
      - ３Ｄ［三次元］アニメーション (115)
        
        キャラクタ，例．人間，動物または仮想生物，についてのもの (70)

【出願番号】特願２０１０−２５１８２６（Ｐ２０１０−２５１８２６）
【出願日】平成２２年１１月１０日（２０１０．１１．１０）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成２２年８月２０日　社団法人　電子情報通信学会発行の「第９回情報科学技術フォーラム　講演論文集　第３分冊」に発表
【出願人】（５０５２４８１２９）株式会社エスワイシステム (1)
【Ｆターム（参考）】

[ Back to top ]

画像処理装置および方法、並びに、プログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

画像処理装置および方法、並びに、プログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク