説明

画像処理装置および方法、並びに、プログラム

【課題】任意の言葉に対して、自然な口の動きを表す発話映像を生成する。
【解決手段】映像生成部123は、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである初口形、および、1つの音を発し終える際に形成される口形であって、複数の基本口形のうちのいずれかである終口形が、ユーザにより入力された対象語を発音する際に現れる順序に従って、各基本口形を表す基本口形画像データを並べるとともに、2つの連続する基本口形画像データの間の中間画像データを、当該2つの基本口形画像データを用いて補間することにより、対象語を発音する際の口の動きを表す発話映像を生成する。本発明は、例えば、読唇術のトレーニング装置に適用できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置および方法、並びに、プログラムに関し、特に、人が話す際の口の動きを表す映像を生成する場合に用いて好適な画像処理装置および方法、並びに、プログラムに関する。
【背景技術】
【0002】
従来、聴覚障害者等が読唇術を身につけるために、ビデオ映像を利用したトレーニングが行われている。しかし、ビデオ映像を利用する場合、予め撮影が行われている言葉に対するトレーニングしか行うことができない。
【0003】
一方、従来、任意の言葉に対して、人が話す際の口の動きを表す映像(以下、発話映像と称する)を自動生成する技術(以下、発話映像化技術と称する)が研究されている(例えば、特許文献1参照)。例えば、この発話映像化技術を適用することにより、任意の言葉に対する読唇術のトレーニングを実現することが可能になる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平9−265253号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の発話映像化技術により得られる発話映像は、実際に発話時の口の動きを撮影したビデオ映像と比較して、口の動きが不自然になり、トレーニングに支障を来すことが想定される。
【0006】
本発明は、このような状況に鑑みてなされたものであり、任意の言葉に対して、自然な口の動きを表す発話映像を生成できるようにするものである。
【課題を解決するための手段】
【0007】
本発明の一側面の画像処理装置は、人が話す際の口の動きを表す発話映像を生成する画像処理装置であって、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第1の口形、および、1つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第2の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、2つの連続する前記基本口形画像の間の画像を、当該2つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成手段を含む。
【0008】
前記映像生成手段には、前記第1の口形から前記第2の口形に変化する間、前記第2の口形から前記第1の口形に変化する間、および、前記第2の口形から別の前記第2の口形に変化する間の画像を補間させることができる。
【0009】
前記第1の口形を表示する第1の表示時間、前記第2の口形を表示する第2の表示時間、前記第1の口形から前記第2の口形に変化する間の第1の遷移時間、前記第2の口形から前記第1の口形に変化する間の第2の遷移時間、および、前記第2の口形から他の前記第2の口形に変化する間の第3の遷移時間を設定する設定手段をさらに設け、前記映像生成手段には、前記第1の表示時間、前記第2の表示時間、前記第1の遷移時間、前記第2の遷移時間、および、前記第3の遷移時間に基づいて、前記発話映像における発話速度を調整させることができる。
【0010】
与えられた前記対象語に対して、前記対象語を発音する際に現れる前記第1の口形および前記第2の口形の順序を示すデータを生成する口形順序データ生成手段をさらに設け、前記映像生成手段には、生成された前記データに基づいて前記発話映像を生成させることができる。
【0011】
前記基本口形は、母音を発するときに形成される母音口形、および、唇を閉じた状態の閉唇口形を含むようにすることができる。
【0012】
本発明の一側面の画像処理方法は、人が話す際の口の動きを表す発話映像を生成する画像処理方法であって、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第1の口形、および、1つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第2の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、2つの連続する前記基本口形画像の間の画像を、当該2つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成ステップを含む。
【0013】
本発明の一側面のプログラムは、人が話す際の口の動きを表す発話映像を生成するコンピュータに、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第1の口形、および、1つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第2の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、2つの連続する前記基本口形画像の間の画像を、当該2つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成ステップを含む処理を実行させる。
【0014】
本発明の一側面においては、所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第1の口形、および、1つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第2の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像が並べられるとともに、2つの連続する前記基本口形画像の間の画像が、当該2つの前記基本口形画像を用いて補間されることにより、前記対象語を発音する際の口の動きを表す発話映像が生成される。
【発明の効果】
【0015】
本発明の一側面によれば、任意の言葉に対して、自然な口の動きを表す発話映像を生成することができる。
【図面の簡単な説明】
【0016】
【図1】基本口形の例を示す図である。
【図2】日本語の各音を口形パターンにより分類した表である。
【図3】本発明を適用した発話映像生成システムの一実施の形態を示すブロック図である。
【図4】発話映像生成処理を説明するためのフローチャートである。
【図5】発話速度パラメータの一例を示す図である。
【図6】発話速度の設定値と発話速度パラメータの対応関係の一例を示す表である。
【図7】映像生成処理の詳細を説明するためのフローチャートである。
【図8】特徴点の一例を示す図である。
【図9】モーフィングに用いる領域の一例を示す図である。
【図10】モーフィングの具体例について説明するための図である。
【図11】モーフィング率とブレンド強度の関係の例を示す図である。
【図12】モーフィング率とブレンド強度の関係の他の例を示す図である。
【図13】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0017】
以下、本発明を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.本発明に適用する理論
2.本発明の実施の形態
3.本発明の適用例および変形例
【0018】
<1.本発明に適用する理論>
まず、図1および図2を参照して、本発明に適用する理論について説明する。
【0019】
なお、以下、「発話する」「発音する」「発声する」「言葉を発する」「話す」など言葉を声に出す動作を表す用語を用いる場合、特に断りがない限り、声を出さずに、声を出す場合と同様に口を動かす動作も含むものとする。
【0020】
また、以下、「音」と表現する場合は、日本語1拍の音を表すものとする。この「拍」とは、日本語の語句の音の流れの量化の単位であり、「モーラ」とも呼ばれている。「拍」は言語の音の流れや音声上や音響上の単位である「音節」とは異なるものである。
【0021】
さらに、以下、「言葉」は、特に断りがない限り、語句および文章を含むものとする。
【0022】
[日本語の音と口形の関係]
まず、図1および図2を参照して、日本語の音と口形の関係について説明する。
【0023】
人が言葉を話すとき、それぞれの言葉に応じて所定の口の形を作って発声することで、それぞれの言葉に対応し、他の人が認識できる音声が発せられる。また、人が同じ言葉を話すときには、同じ音が発せられるように、その都度類似した口の動きをする。これは、異なる人が同じ言語の同じ言葉を話すときも同様であり、互いに類似度の高い口の動きとなる。
【0024】
また、人が言葉を話すときに、言葉の中の各音を発するために形成される口形は、発せられる音または口形の特徴などに応じて、複数の種類の基本口形に分類される。すなわち、人が言葉の中の各音を発するとき、発する音の種類に応じて、基本口形の中のいずれかの口形が形成される。そして、ある基本口形から別の基本口形へと口形を変化させながら、その口形の変化に合わせて発声することで、言葉が発せられる。
【0025】
日本語の各音を発する際には、その音の母音に対応した口形が形成される。すなわち、ア段、イ段、ウ段、エ段、オ段の各音を発する場合、その音を発し終える際に、ア、イ、ウ、エ、オの各母音に対応した口形(以下、終口形と称する)がそれぞれ形成される。これは、濁音、半濁音、拗音等を発する場合も同様である。
【0026】
なお、以下、ア、イ、ウ、エ、オの各母音に対応する口形を、それぞれア口形、イ口形、ウ口形、エ口形、オ口形と称する。また、以下、ア口形、イ口形、ウ口形、エ口形、オ口形を、まとめて母音口形と称する。
【0027】
一方、中には、音の出始めに、その音を発するために必要な口形であって、その音の母音に対応する口形とは異なる口形(以下、初口形と称する)が形成される音が存在する。例えば、”さ”を発音する場合、音の出始めにイ口形が形成され、その後ア口形が形成される。同様に、”わ”を発音する場合、音の出初めにウ口形が形成され、その後ア口形が形成される。
【0028】
このように、日本語の音には、初口形が形成される音(以下、複口形音と称する)と形成されない音(以下、単口形音と称する)が存在する。また、初口形には、イ口形、ウ口形、唇を閉じた口形(以下、閉唇口形と称する)の3種類が存在する。一方、上述したように、終口形には、ア口形、イ口形、ウ口形、エ口形、オ口形の5種類が存在する。そして、ア口形、イ口形、ウ口形、エ口形、オ口形、閉唇口形の6種類の口形が、日本語における基本口形となる。
【0029】
図1は、各基本口形の例を示している。図1の左端の列は、基本口形の種類を示し、まん中の列は、各基本口形を表す記号である口形コードを示し、右端の列は、各基本口形に対する口形の例を模式的に示している。
【0030】
なお、以下、ア口形、イ口形、ウ口形、エ口形、オ口形、閉唇口形の口形コードとして、"A"、"I"、"U"、"E"、"O"、"X"の各文字を割り当てるものとする。
【0031】
図2は、日本語の各音を、発音時に形成される口形のパターン(以下、口形パターンと称する)により分類した表である。図2の左から1列目は、各口形パターンの番号を示し、2列目は、各口形パターンに対応する音の五十音図の段を示している。また、3列目、4列目は、各口形パターンの初口形および終口形の種類をそれぞれ示している。なお、単口形の口形パターン、すなわち、初口形が現れない口形の口形パターンの初口形の欄には、”−”を示している。
【0032】
さらに、5列目は、各口形パターンに対するコードパターンを示している。このコードパターンは、初口形、終口形の順に口形コードを並べたものである。なお、以下、単口形のコードパターンの初口形の口形コードとして、"-"の文字を割り当てるものとする。
【0033】
また、6列目(右端の列)は、各口形パターンにより発音される音を示している。換言すれば、6列目の音を発するときに、5列目のコードパターンにより示される口形パターンが形成される。例えば、”あ”に対するコードパターンは"-A"であり、”あ”を発音するとき、初口形が形成されず、終口形としてア口形が形成されることが分かる。また、例えば、”ぴょ”に対するコードパターンは"XO"であり、”ぴょ”を発音するとき、初口形として閉唇口形が形成され、終口形としてオ口形が形成されることが分かる。
【0034】
なお、複数の音を続けて発する場合、基本的には発する音に対応する口形パターンが順番に形成される。ただし、連続する音の組み合わせによっては、口形パターンの一部が他の音の口形の影響を受けて、図2に示される口形パターンと実際の口形パターンとが一致しなくなる場合がある。この点の詳細については後述する。
【0035】
また、五十音図のどの段にも含まれない促音や撥音の口形は複雑に変化する。これは、促音や撥音は、口形が決まっておらず、その前後に発せられる音によって口形が変化するためである。この点の詳細についても後述する。
【0036】
なお、以下、各口形パターンは1つの音を発声するときの単位であるため、これらを口形節とも称する。
【0037】
[口形順序コード]
例えば、図2に基づいて、”雨(あめ)”の各音(”あ”、”め”)に対応するコードパターンを順番に並べると、"-AXE"となる。この口形コードの列は、”あめ”を発音する時に形成される口形の順序を示している。このように、日本語の各言葉を発するときに形成される口形の順序を口形コードにより表現したものを、以下、口形順序コードと称する。すなわち、口形順序コードは、対象となる言葉を発する際に現れる初口形および終口形の順番を示すデータであり、口形順序コードの奇数番目は、初口形の口形コードを示し、偶数番目は、終口形の口形コードを示す。
【0038】
[口形順序コード生成規則]
ここで、口形順序コードを生成するための規則について説明する。
【0039】
口形順序コードは、基本的には、生成対象となる言葉(以下、対象語と称する)に現れる各音に対応するコードパターンを順番に並べることにより生成される。ただし、上述したように、連続する音の組み合わせによる口形の変化や、促音および撥音に対する口形の変化を反映するために、後述する変化規則が適用される。
【0040】
なお、口形順序コードにおいて、奇数番目と偶数番目の連続する2つの口形コードの組が口形節となるため、以下、これらの組を先頭から順に、第1口形節、第2口形節、第3口形節、・・・、第s口形節と称する。また、以下、s=1,2,3,・・・,sMAX(sMAXは、対象語の口形節数)としたとき、第s口形節の初口形の口形コードをcF(s)で表し、第s口形節の終口形の口形コードをcL(s)で表す。例えば、上述した”雨(あめ)”の場合、口形節数sMAX=2、cF(1)=-,cL(1)=A,cF(2)=X,cL(2)=Eとなる。
【0041】
[単純連結コード]
2拍以上の言葉に対する口形順序コードを生成する場合、まず、図2に基づいて、その言葉に現れる各音に対応するコードパターンを単純に並べた口形コードの列(以下、単純連結コードと称する)を生成する。ただし、この段階では促音や撥音に対する口形パターンを決定するができないため、促音や撥音に対するコードパターンには、一時的に"-*"が割り当てられる。
【0042】
そして、単純連結コードの先頭から順に、以下の口形変化規則1乃至6を適用し、口形コードを補正することにより、対象語に対する口形順序コードが生成される。
【0043】
[口形変化規則1]
1<s≦sMAXのとき、cL(s)=cL(s-1)かつcF(s)=-ならば、cF(s)とcL(s)を削除する。
【0044】
この規則は、第s口形節が単口形音で、かつ、その単口形音の終口形が、第s-1口形節の終口形と同じ場合、第s口形節の終口形が、第s-1口形節の終口形に吸収され、出現しなくなるという特徴に基づくものである。
【0045】
例えば、”明かり(あかり)”に対する単純連結コードは"-A-A-I"となる。ここで、cL(2)=cL(1)=AかつcF(2)=-なので、口形変化規則1に従って、cF(2)とcL(2)が削除される。その結果、”明かり”の口形順序コードは"-A-I"となる。従って、”明かり”は3拍の言葉であるが、口形節数は2となる。
【0046】
[口形変化規則2]
1<s≦sMAXのとき、cF(s)=cL(s-1)ならば、cF(s)=-とする。
【0047】
この規則は、第s口形節の初口形が第s-1口形節の終口形と同じ場合、第s口形節の初口形が、第s-1口形節の終口形に吸収され、出現しなくなるという特徴に基づくものである。
【0048】
例えば、”伊勢(いせ)”に対する単純連結コードは"-IIE"となる。ここで、cF(2)=cL(1)=Iなので、口形変化規則2に従って、cF(2)=-となる。その結果、”いせ”の口形順序コードは、"-I-E"となる。
【0049】
[口形変化規則3]
1<s<sMAXのとき、cL(s)=*かつcF(s+1)=Xならば、cL(s)=X、cF(s+1)=-とする。
【0050】
この規則は、第s口形節が促音または撥音であり、第s+1口形節の初口形が閉唇口形である場合、第s口形節の促音または撥音を発するときの口形は閉唇口形となり、第s+1口形節の初口形が出現しなくなるという特徴に基づくものである。
【0051】
例えば、”コップ”に対する単純連結コードは"-O-*XU"となる。ここで、cL(2)=*かつcF(3)=Xなので、口形変化規則3に従って、cL(2)=X、cF(3)=-となる。その結果、”コップ”の口形順序コードは、"-O-X-U"となる。
【0052】
[口形変化規則4]
1<s≦sMAXのとき、cL(s)=*かつcL(s-1)=A、または、cL(s)=*かつcL(s-1)=Eならば、cL(s)=Iとする。
【0053】
この規則は、第s口形節が促音または撥音であり、第s-1口形節の終口形がア口形またはエ口形である場合、第s口形節の促音または撥音を発するときの口形がイ口形になるという特徴に基づくものである。
【0054】
例えば、”エンド”に対する単純連結コードは"-E-*UO"となる。ここで、cL(2)=*かつcL(1)=Eなので、口形変化規則4に従って、cL(2)=Iとなる。その結果、”エンド”の口形順序コードは、"-E-IUO"となる。
【0055】
[口形変化規則5]
1<s≦sMAXのとき、cL(s)=*かつcL(s-1)=Oならば、cL(s)=Uとする。
【0056】
この規則は、第s口形節が促音または撥音であり、第s-1口形節の終口形がオ口形である場合、第s口形節の促音または撥音を発するときの口形がウ口形になるという特徴に基づくものである。
【0057】
例えば、”突起(とっき)”に対する単純連結コードは"UO-*-I"となる。ここで、cL(2)=*かつcL(1)=Oなので、口形変化規則5に従って、cL(2)=U となる。その結果、”突起”の口形順序コードは、"UO-U-I"となる。
【0058】
[口形変化規則6]
1<s≦sMAXのとき、cL(s)=*かつcL(s-1)=I、または、cL(s)=*かつcL(s-1)=Uならば、cF(s)とcL(s)を削除する。
【0059】
この規則は、第s口形節が促音または撥音であり、第s-1口形節の終口形がイ口形またはウ口形である場合、第s口形節の促音または撥音を発するときの口形は、第s-1口形節の終口形と同じになり、その結果、第s-1口形節の終口形に吸収され、出現しなくなるという特徴に基づくものである。
【0060】
例えば、”近所(きんじょ)”に対する単純連結コードは"-I-*UO"となる。ここで、cL(2)=*かつcL(1)=Iなので、口形変化規則6に従って、cF(2)とcL(2)が削除される。その結果、”近所”の口形順序コードは、"-IUO"となる。
【0061】
なお、口形変化規則3が、口形変化規則4乃至6より優先して適用される。これは、第s口形節が促音または撥音であり、第s+1口形節の初口形が閉唇口形である場合、第s-1口形節の音に関係なく、第s口形節の促音または撥音を発するときの口形が閉唇口形になるという特徴に基づくものである。
【0062】
例えば、”サンマ”に対する単純連結コードは"IA-*XA"であり、第2口形節に対して口形変化規則3および4の両方を適用することが考えられる。ここで、”サンマ”の口形順序コードは、口形変化規則3を適用すると"IA-X-A"となり、口形変化規則4を適用する"IA-IXA"となるが、自然な発話では、"サンマ"の口形変化は、前者の"IA-X-A"により近くなる。
【0063】
以上に述べた口形順序コード生成規則に従って、日本語の任意の言葉に対して、口形順序コードを生成することができる。
【0064】
<2.本発明の実施の形態>
次に、図3乃至図12を参照して、本発明の実施の形態について説明する。
【0065】
[発話映像生成システムの構成例]
図3は、本発明を適用した発話映像生成システムの一実施の形態を示すブロック図である。
【0066】
発話映像生成システム101は、ユーザにより入力された任意の言葉に対する発話映像を生成し、表示するシステムである。発話映像生成システム101は、入力装置111、画像処理装置112、および、表示装置113を含むように構成される。
【0067】
入力装置111は、例えば、キーボード、マウス、ボタン、スイッチ、タッチパネル、カメラなどの各種の入力デバイスにより構成され、発話映像を生成する対象となる言葉や、発話速度等の各種の設定値を入力するために用いられる。入力装置111は、ユーザにより入力される、発話映像を生成する対象となる言葉(以下、対象語と称する)を示すデータ(以下、対象語データと称する)、および、各種の設定値を示すデータ(以下、設定データと称する)を画像処理装置112に供給する。
【0068】
画像処理装置112は、対象語データに対する発話映像を生成し、表示装置113に表示させる装置である。画像処理装置112は、例えば、コンピュータにより構成され、所定の制御プログラムを実行することにより、口形順序コード生成部121、設定部122、映像生成部123、および、表示制御部124を含む機能が実現される。また、画像処理装置112は、例えば、ハードディスクドライブ、EEPROMなどの不揮発性のメモリにより構成される記憶部125を備える。
【0069】
口形順序データ生成部121は、上述した口形順序コード生成規則に従って、入力装置111から供給される対象語データに示される対象語に対する口形順序コードを生成し、生成した口形順序コードを映像生成部123に供給する。
【0070】
設定部122は、入力装置111から供給される設定データに基づいて、映像生成部123の動作を調整するための各種のパラメータを設定する。
【0071】
映像生成部123は、口形順序データ生成部121により生成された口形順序コード、および、記憶部125に記憶されている、6種類の各基本口形を表す基本口形画像データに基づいて、対象語に対する発話映像を表す発話映像データを生成する。映像生成部123は、生成した発話映像データを表示制御部124に供給したり、あるいは、記憶部125に記憶させたりする。
【0072】
表示制御部124は、表示装置113を制御して、発話映像データに基づく発話映像を表示装置113に表示させる。
【0073】
記憶部125は、6種類の基本口形に対応する基本口形画像データを予め記憶している。この基本口形画像データは、例えば、任意の人をモデルに選択し、”ア”、”イ”、”ウ”、”エ”、”オ”、”ン”の各音を発音したときの口付近を撮影することにより生成される。
【0074】
なお、以下、ア口形、イ口形、ウ口形、エ口形、オ口形、閉唇口形の各口形に対応する基本口形画像データを、それぞれア口形画像データ、イ口形画像データ、ウ口形画像データ、エ口形画像データ、オ口形画像データ、閉唇口形画像データと称する。
【0075】
表示装置113は、例えば、LCD(Liquid Crystal Display)などの各種のディスプレイ装置により構成される。
【0076】
[発話映像生成処理]
次に、図4のフローチャートを参照して、発話映像生成システム101により実行される発話映像生成処理について説明する。なお、この処理は、例えば、発話映像生成システム101の電源がオンされたとき開始され、オフされたとき終了する。
【0077】
ステップS1において、設定部122は、発話速度が入力されたか否かを判定する。例えば、ユーザが、入力装置111を介して発話速度の設定値を入力し、入力された発話速度を示す設定データが入力装置111から設定部122に供給されたとき、設定部122は、発話速度が入力されたと判定し、処理はステップS2に進む。
【0078】
ステップS2において、設定部122は、発話速度を調整する。具体的には、設定部122は、発話速度を調整するためのパラメータ(以下、発話速度パラメータと称する)の値を、入力された発話速度に対応する値に設定し、設定した発話速度パラメータを映像生成部123に供給する。
【0079】
図5は、発話速度パラメータの例を示している。発話速度パラメータは、第1口形変形時間T、第2口形変形時間T’、初口形表示時間T、および、終口形表示時間Tの4種類からなる。
【0080】
第1口形変形時間Tは、単口形音の口形節に対する映像において、前の口形節の終口形から当該口形節の終口形に変化する間の遷移時間を示すパラメータである。
【0081】
第2口形変形時間T’は、複口形音の口形節に対する映像において、前の口形節の終口形から当該口形節の初口形に変化する間の遷移時間、および、当該口形節の初口形から終口形に変形する間の遷移時間を示すパラメータである。
【0082】
初口形表示時間Tは、複口形音の口形節に対する映像において、初口形を表示する時間を示すパラメータである。
【0083】
終口形表示時間Tは、単口形音および複口形音の口形節に対する映像において、終口形を表示する時間を示すパラメータである。
【0084】
図6は、発話速度の設定値と発話速度パラメータの対応関係の例を示す表である。なお、この例では、発話速度パラメータの単位(時間)を、発話映像におけるフレーム数で表している。
【0085】
この例では、発話速度は、速い、標準、ゆっくりの3段階に調整することが可能である。また、基本的に、発話速度が速くなるほど、各発話速度パラメータの値は小さくなり(時間が短くなり)、発話速度が遅くなるほど、各発話速度パラメータの値は大きくなる(時間が長くなる)。
【0086】
なお、この例では、発話速度が速い場合と標準の場合とで、第1口形変形時間Tおよび第2口形変形時間T’が、それぞれ同じ値に設定されている。また、発話速度が標準の場合とゆっくりの場合とで、初口形表示時間Tが、同じ値に設定されている。
【0087】
ステップS2において、設定部122は、図6の表に基づいて、ユーザにより設定された発話速度に対応する第1口形変形時間T、第2口形変形時間T’、初口形表示時間T、および、終口形表示時間Tを求め、求めた値を映像生成部123に供給する。その後、処理は、ステップS3に進む。
【0088】
一方、ステップS1において、発話速度が入力されていないと判定された場合、ステップS2の処理はスキップされ、処理はステップS3に進む。
【0089】
ステップS3において、口形順序コード生成部121は、対象語が入力されたか否かを判定する。対象語が入力されていないと判定された場合、処理はステップS1に戻り、ステップS3において、対象語入力されたと判定されるまで、ステップS1乃至S3の処理が繰り返し実行される。
【0090】
一方、例えば、ユーザが、入力装置111を介して対象語を入力し、入力された対象語を示す対象語データが入力装置111から口形順序コード生成部121に供給された場合、ステップS3において、口形順序コード生成部121は、対象語が入力されたと判定し、処理はステップS4に進む。
【0091】
ステップS4において、口形順序コード生成部121は、上述した口形順序コード生成規則に従って、対象語データに対する口形順序コードを生成する。そして、口形順序コード生成部121は、生成した口形順序コードを映像生成部123に供給する。
【0092】
ただし、このとき、口形順序コード生成部121は、口形変化規則1を適用しない。すなわち、上述したように、口形変化規則1では、第s口形節の口形コードが削除されるが、第s口形節の音に対する表示時間を確保するために、あえて口形変化規則1を適用せずに、第s口形節の口形コードがそのまま残される。
【0093】
また、口形順序コード生成部121は、口形変化規則6の代わりに、その変形パターンである口形変化規則6’を適用する。
【0094】
[口形変化規則6’]
1<s≦sMAXのとき、cL(s)=*かつcL(s-1)=I、または、cL(s)=*かつcL(s-1)=Uならば、cL(s)をcL(s-1)と同じ値に設定する。
【0095】
すなわち、上述したように、口形変化規則6では、第s口形節の口形コードが削除されるが、口形変化規則6’では、第s口形節の音に対する表示時間を確保するために、第s口形節の口形コードが、削除されずに、第s-1口形節の終口形と同じ終口形を有する単口形音の口形コード(コードパターン)に設定される。
【0096】
ステップS5において、発話映像生成システム101は、映像生成処理を実行する。ここで、図7のフローチャートを参照して、映像生成処理の詳細について説明する。
【0097】
ステップS51において、映像生成部123は、表示時間Tを終口形表示時間Tに設定する。
【0098】
ステップS52において、発話映像生成システム101は、閉唇口形を表示する。具体的には、映像生成部123は、閉唇口形画像データを記憶部125から読み出す。そして、映像生成部123は、読み出した閉唇口形画像データを、表示時間T(=終口形表示時間T)の間、表示制御部124に供給する。表示制御部124は、映像生成部123から供給される閉唇口形画像データに基づく画像を表示装置113に表示させる。これにより、終口形表示時間Tの間、閉唇口形を表す画像が表示装置113に表示される。
【0099】
ステップS53において、映像生成部123は、ポインタpを1に設定する。
【0100】
ステップS54において、映像生成部123は、次の口形節において初口形が形成されるか否かを判定する。映像生成部123は、口形順序コードのp番目の口形コードが-でない場合、次の口形節において初口形が形成されると判定し、処理はステップS55に進む。
【0101】
ステップS55において、映像生成部123は、表示時間Tを第2口形変形時間T’に設定する。
【0102】
ステップS56において、発話映像生成システム101は、口形を変化させる。具体的には、映像生成部123は、p番目の口形コードに対応する基本口形画像データを記憶部125から読み出す。そして、映像生成部123は、現在表示中の変更元の基本口形画像データから、p番目の口形コードに対応する変更先の基本口形画像データに変化させるために補間する画像データ(以下、中間画像データと称する)を、表示時間T(=第2口形変形時間T’)により示されるフレーム数分生成する。
【0103】
例えば、映像生成部123は、モーフィングの手法を用いて、中間画像データを生成する。ここで、モーフィングを用いた場合の中間画像データの生成方法の例について説明する。
【0104】
モーフィングを行う場合、各基本口形画像データに対して、モーフィングに必要な特徴点が予め設定される。図8は、ア口形画像データに対して設定される特徴点の例を示している。
【0105】
まず、左右の口角に対して特徴点CPaL、CPaRが設定される。また、特徴点CPaLとCPaRの2点を通る直線を補助線Lhとし、補助線Lh上において特徴点CPaL、CPaR間をn分割する点を通り、補助線Lhに垂直な直線を補助線Lvm(m=1,2,・・・,n-1)とした場合、各補助線Lvmと、上唇の上端および下端、並びに、下唇の上端および下端との交点付近に特徴点Pa(m,r)(r=1〜4)が設定される。そして、全ての基本口形画像データに対して、同様の特徴点が設定される。
【0106】
これにより、各基本口形画像データにおいて、それぞれ対応する位置に、4n−2個の特徴点が設定される。なお、図8は、分割数n=4に設定した場合の特徴点の例を示している。
【0107】
そして、映像生成部123は、各基本口形画像データに設定されている特徴点を用いてモーフィングを行う。具体的には、映像生成部123は、変形元の基本口形画像データと変形先の基本口形画像データにおいて、各特徴点を結ぶことにより形成される多角形の領域Rs(s=0,1,2,・・・)を定義する。
【0108】
図9は、図8のア口形画像データに対して定義される領域の例を示している。この例では、領域Ra0乃至Ra11の12個の領域が定義されている。
【0109】
なお、図9では、図を見やすくするために、領域Ra0a乃至Ra11以外の符号の図示を省略している。
【0110】
映像生成部123は、変形元の基本口形画像データの各領域Rsの形状を、変形先の基本口形画像データのそれぞれ対応する各領域Rsの形状へと徐々に変化させていく。
【0111】
ここで、図10を参照して、変形元のア口形画像データの領域Ra4の形状を、変更先のオ口形画像データの領域Ro4に変化させる場合について考える。
【0112】
領域Ra4を領域Ro4に変化させる途中の時刻tにおける領域を領域Rt4とし、領域Ra4の特徴点Pa(2,1)に対応する領域Rt4および領域Ro4の特徴点を、それぞれ特徴点Pt(2,1)およびPo(2,1)とし、モーフィング率をkとすると、特徴点Pt(2,1)の座標は、次式(1)により求められる。
【0113】
Pt(2,1)=k×Pa(2,1)+(1.0−k)×Po(2,1) ・・・(1)
【0114】
領域Rt4の他の特徴点の座標についても、式(1)により求められ、その結果、領域Rt4の形状が求められる。
【0115】
そして、映像生成部123は、例えば、アフィン変換または透視変換などの手法を用いて、変形元の領域Ra4の画像の形状および変形先の領域Ro4の画像の形状を、領域Rt4の形状に変換し、変形した2枚の画像を合成することにより、領域Rt4に対応する画像を生成する。
【0116】
図11は、このような画像の合成に用いるブレンド強度の特性の一例を示すグラフである。なお、横軸はモーフィング率kを示し、縦軸はブレンド強度αを示している。また、ブレンド強度αは、変形元の画像(例えば、領域Ra4の画像)に対するブレンド強度を示し、ブレンド強度βは、変形先の画像(例えば、領域Ro4の画像)に対するブレンド強度を示している。
【0117】
この特性では、変形元の画像から変形先の画像への遷移が進むにつれて(モーフィング率が高くなるにつれて)、ブレンド強度αが線形に減少し、ブレンド強度βが線形に増加する。すなわち、変形元の画像から変形先の画像への遷移が進むにつれて、合成後の画像において、変形元の画像の成分が弱くなり、変形元の画像の成分が強くなる。これにより、変形元の基本口形画像データから変形先の基本口形画像データに変化させるまでの間、滑らかに口形を変化させることが可能になる。
【0118】
図12は、ブレンド強度の特性の他の例を示すグラフである。この例では、ブレンド強度αおよびブレンド強度βの特性を、ともに正弦波形に沿って変化させるようにしている。これにより、図11の例と比較して、合成後の画像において、モーフィングの初期において、より変形元の画像成分が強くなり、モーフィングの末期において、より変形先の画像成分が強くなる。これにより、モーフィングの初期および末期において、より滑らかに口形を変化させることが可能になる。
【0119】
そして、他の領域についても同様の処理を行うことにより、時刻tにおける各領域の画像が生成される。その結果、時刻tにおける中間画像データを生成することができる。
【0120】
映像生成部123は、以上のようにして、表示時間T(=第2口形変形時間T’)により示されるフレーム数分の中間画像データを生成し、表示制御部124に供給する。表示制御部124は、映像生成部123から供給される中間画像データに基づく画像を表示装置113に表示させる。これにより、表示装置113に表示される発話映像の口形が、変形元の口形(p-1番目の口形コードに対応する基本口形(終口形))から、変形先の口形(p番目の口形コードに対応する基本口形(初口形))に徐々に変化する。
【0121】
ステップS57において、映像生成部123は、表示時間Tを初口形表示時間Tに設定する。
【0122】
ステップS58において、発話映像生成システム101は、初口形を表示する。具体的には、映像生成部123は、p番目の口形コードに対応する基本口形画像データを、表示時間T(=初口形表示時間T)の間、表示制御部124に供給する。表示制御部124は、映像生成部123から供給される基本口形画像データに基づく画像を表示装置113に表示させる。これにより、初口形表示時間Tの間、初口形を表す画像が表示装置113に表示される。
【0123】
ステップS59において、映像生成部123は、表示時間Tを第2口形変形時間T’に設定する。
【0124】
その後、処理はステップS61に進む。
【0125】
一方、ステップS54において、映像生成部123は、口形順序コードのp番目の口形コードが-である場合、次の口形節において初口形が形成されないと判定し、処理はステップS60に進む。
【0126】
ステップS60において、映像生成部123は、表示時間Tを第1口形変形時間Tに設定する。
【0127】
その後、処理はステップS61に進む。
【0128】
ステップS61において、映像生成部123は、ポインタpの値を1つインクリメントする。
【0129】
ステップS62において、発話映像生成システム101は、ステップS56の処理と同様にして、口形を変化させる。
【0130】
これにより、ステップS54において、次の口形節において初口形が形成されると判定され、ステップS58において、初口形が表示された場合、表示装置113に表示される発話映像の口形が、変形元の口形(p-1番目の口形コードに対応する基本口形(初口形))から、変形先の口形(p番目の口形コードに対応する基本口形(終口形))に徐々に変化する。
【0131】
一方、ステップS54において、次の口形節において初口形が形成されないと判定され、初口形が表示されなかった場合、表示装置113に表示される発話映像の口形が、変形元の口形(p-2番目の口形コードに対応する基本口形(終口形))から、変形先の口形(p番目の口形コードに対応する基本口形(終口形))に徐々に変化する。
【0132】
ステップS63において、映像生成部123は、表示時間Tを終口形表示時間Tに設定する。
【0133】
ステップS64において、発話映像生成システム101は、終口形を表示する。具体的には、映像生成部123は、p番目の口形コードに対応する基本口形画像データを、表示時間T(=終口形表示時間T)の間、表示制御部124に供給する。表示制御部124は、映像生成部123から供給される基本口形画像データに基づく画像を表示装置113に表示させる。これにより、終口形表示時間Tの間、終口形を表す画像が表示装置113に表示される。
【0134】
ステップS65において、映像生成部123は、ポインタpの値を1つインクリメントする。
【0135】
ステップS66において、映像生成部123は、口形順序コードを最後まで処理したか否かを判定する。口形順序コードを最後まで処理していないと判定された場合、処理はステップS54に戻る。
【0136】
その後、ステップS66において、口形順序コードを最後まで処理したと判定されるまで、ステップS54乃至S66の処理が繰り返し実行される。これにより、口形順序コードに基づいて、対象語を発音する際に各基本口形(初口形または終口形)が現れる順序に従って、各基本口形を表す基本口形画像データが並べられるとともに、2つの連続する基本口形画像データの間に中間画像データが補間され、対象語に対する発話映像データが生成される。そして、対象語を発音する際の口の動きを表す発話映像が表示される。
【0137】
一方、ステップS66において、口形順序コードを最後まで処理したと判定された場合、映像生成処理は終了する。
【0138】
その後、処理は、図4のステップS1に戻り、ステップS1以降の処理が実行される。
【0139】
以上のようにして、任意の対象語に対して、自然な口の動きを表す発話映像を生成し、表示することができる。
【0140】
また、発話速度パラメータを調整することにより、自然な口の動きを保ったまま、発話映像における発話速度を所望の速度に調整することができる。
【0141】
これにより、任意の言葉に対する読唇術のトレーニングを、支障なく適切に行うことができる。
【0142】
<3.本発明の適用例および変形例>
なお、図6の発話速度および発話速度パラメータの値は、その一例であり、他の値に設定するようにしてもよい。例えば、発話速度を2段階、または、4段階以上に設定できるようにしてもよい。また、例えば、初口形の前後の口形変化時間を個別に設定できるようにしてもよい。さらに、例えば、単口形音と複口形音の終口形表示時間を個別に設定できるようにしてもよい。また、例えば、図2を参照して説明した口形パターン毎に個別に発話速度パラメータの値を設定できるようにしてもよい。
【0143】
また、対象語を入力する方法として、例えば、通常の文字入力の他、文字認識や音声認識を用いた方法など、任意の方法を採用することができる。
【0144】
さらに、対象語を入力する代わりに、口形順序コードを直接入力するようにしてもよい。
【0145】
また、2組以上の基本口形画像データ、すなわち、2人以上の異なる人をモデルとした基本口形画像データを用意して、例えば、ユーザ設定により切替えて使用できるようにしてもよい。
【0146】
さらに、以上の説明では、発話映像の各フレームの画像を生成しながら、リアルタイムに表示する例を示したが、発話映像データを記憶部125に記憶して、後で再生できるようにしてもよい。
【0147】
また、以上の説明では、同じ基本口形が連続する場合にも、その間の中間画像データを生成する例を示したが、中間画像データの生成を省略することも可能である。
【0148】
また、例えば、ブレンド強度の特性を表すグラフを表示し、グラフの形状を変更できるようにしたり、モーフィング率に対するブレンド強度の値を入力できるようにしたりして、図11および図12を参照して上述したブレンド強度の特性を、ユーザが調整できるようにしてもよい。
【0149】
また、本発明は、読唇術のトレーニング以外にも、任意の言葉を発話する際の人の口の動きを再現する技術を利用する分野に適用することが可能である。
【0150】
例えば、本発明は、日本語を母国語としない人のための日本語の発話方法の学習に適用することが可能である。
【0151】
また、例えば、本発明は、アニメーションの製作に適用することができる。なお、本発明を適用可能なアニメーションには、映画、テレビ番組、ゲームの画面、コンピュータネットワーク上の仮想空間において使用されるアバターなど、あらゆる絵を用いたアニメーションが含まれる。
【0152】
さらに、例えば、本発明は、既存の映像、画像、写真等を用いて、人が話す顔または口を含む部分の再現または変形等を行う技術に適用することが可能である。例えば、撮影済みの画像や写真を用いて、その人が話す顔を画像上で再現したり、その人の話すときの口の画像を他の画像に合成したりして楽しむゲーム等に適用することができる。また、例えば、外国語の映画を日本語で吹き替える場合に、より俳優の口の動きが自然に見えるように、俳優の口形を日本語の台詞に合わせて変化させる技術に適用することができる。
【0153】
また、例えば、本発明は、発話するロボットや人形等の口の形を、発話に合わせて動かす技術に適用することが可能である。
【0154】
さらに、本発明は、日本語以外にも、日本語と同様に初口形と終口形が形成される言語に対して適用することが可能である。
【0155】
なお、日本語でも地方の方言においては、以上に説明したものと初口形が異なる場合があり、その場合には、それに対応して、口形コードや基本口形画像データを変更するようにすればよい。
【0156】
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0157】
図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
【0158】
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
【0159】
バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
【0160】
入力部306は、キーボード、マウス、マイクロフォンなどよりなる。出力部307は、ディスプレイ、スピーカなどよりなる。記憶部308は、ハードディスクや不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア311を駆動する。
【0161】
以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
【0162】
コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0163】
コンピュータでは、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
【0164】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0165】
また、本明細書において、システムの用語は、複数の装置、手段などより構成される全体的な装置を意味するものとする。
【0166】
さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0167】
101 発話映像生成システム
111 入力装置
112 画像処理装置
113 表示装置
121 口形順序コード生成部
122 設定部
123 映像生成部
124 表示制御部
125 記憶部

【特許請求の範囲】
【請求項1】
人が話す際の口の動きを表す発話映像を生成する画像処理装置において、
所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第1の口形、および、1つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第2の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、2つの連続する前記基本口形画像の間の画像を、当該2つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成手段を
含む画像処理装置。
【請求項2】
前記映像生成手段は、前記第1の口形から前記第2の口形に変化する間、前記第2の口形から前記第1の口形に変化する間、および、前記第2の口形から別の前記第2の口形に変化する間の画像を補間する
請求項1に記載の画像処理装置。
【請求項3】
前記第1の口形を表示する第1の表示時間、前記第2の口形を表示する第2の表示時間、前記第1の口形から前記第2の口形に変化する間の第1の遷移時間、前記第2の口形から前記第1の口形に変化する間の第2の遷移時間、および、前記第2の口形から他の前記第2の口形に変化する間の第3の遷移時間を設定する設定手段を
さらに含み、
前記映像生成手段は、前記第1の表示時間、前記第2の表示時間、前記第1の遷移時間、前記第2の遷移時間、および、前記第3の遷移時間に基づいて、前記発話映像における発話速度を調整する
請求項1に記載の画像処理装置。
【請求項4】
与えられた前記対象語に対して、前記対象語を発音する際に現れる前記第1の口形および前記第2の口形の順序を示すデータを生成する口形順序データ生成手段を
さらに含み、
前記映像生成手段は、生成された前記データに基づいて前記発話映像を生成する
請求項1に記載の画像処理装置。
【請求項5】
前記基本口形は、母音を発するときに形成される母音口形、および、唇を閉じた状態の閉唇口形を含む
請求項1に記載の画像処理装置
【請求項6】
生成された前記発話映像の表示を制御する表示制御手段を
さらに含む請求項1に記載の画像処理装置。
【請求項7】
人が話す際の口の動きを表す発話映像を生成する画像処理方法において、
所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第1の口形、および、1つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第2の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、2つの連続する前記基本口形画像の間の画像を、当該2つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成ステップを
含む画像処理方法。
【請求項8】
人が話す際の口の動きを表す発話映像を生成するコンピュータに、
所定の音を発する場合に予め形成され、その音の母音に対応する口形とは異なる口形であって、複数の基本口形のうちのいずれかである第1の口形、および、1つの音を発し終える際に形成される口形であって、複数の前記基本口形のうちのいずれかである第2の口形が、生成対象となる言葉である対象語を発音する際に現れる順序に従って、各前記基本口形を表す基本口形画像を並べるとともに、2つの連続する前記基本口形画像の間の画像を、当該2つの前記基本口形画像を用いて補間することにより、前記対象語に対する前記発話映像を生成する映像生成ステップを
含む処理を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−103904(P2012−103904A)
【公開日】平成24年5月31日(2012.5.31)
【国際特許分類】
【出願番号】特願2010−251826(P2010−251826)
【出願日】平成22年11月10日(2010.11.10)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成22年8月20日 社団法人 電子情報通信学会発行の「第9回情報科学技術フォーラム 講演論文集 第3分冊」に発表
【出願人】(505248129)株式会社エスワイシステム (1)
【Fターム(参考)】