説明

MRI発話動画作成装置、MRI発話動画作成方法及びそのプログラム

【課題】少ない繰り返し発声で高画質のMRI発話動画を作成可能とする。
【解決手段】時系列信号観測部は、或る文章の発話時における口腔内の発話器官の位置情報を、所定のサンプリング間隔で時系列的に観測する。時間関数・発話駆動時点抽出部は、前記位置情報の時系列信号から、空間行列と時間関数と複数の発話駆動時点を抽出する。MRI画像撮像部は、前記文章と同一の文章の発話時における発話器官のMRI画像を、前記発話駆動時点ごとに撮像する。MRI発話動画作成部は、前記時間関数と前記MRI画像とを組み合わせることにより、MRI発話動画を作成する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、発話運動パラメータから空間行列・時間関数・発話駆動時点を抽出し、得られた発話駆動時点における発声時の発話器官をMRIにより撮像し、得られた発話器官のMRI画像と時間関数を用いてMRI発話動画を作成するMRI発話動画作成装置、MRI発話動画作成方法及びそのプログラムに関する。
【背景技術】
【0002】
人間の発話メカニズムを理解する上で、発声時の口唇や舌などの発話器官の運動を観測することは非常に重要である。しかし、発話器官のほとんどは口腔内にあり、発話器官を体の外から観測することは難しい。これまでに、安全かつ高精度な発話運動の観測のために、MRI(Magnetic Resonance Imaging)を用いて発話運動の動画を作成する方法が提案されている。一つは、発話同期撮像法で、被験者に同一文章を繰り返し発声させ、これと同期してMRI装置がサンプリング周期ごとにスキャンを行い、得られたデータから2次元あるいは3次元のMRI発話動画を再構成するものである(非特許文献1)。この方法は高画質の動画を得ることが可能であるが、被験者が正確なタイミングで同じ発声を100回以上繰り返す必要がある。もう一つは、リアルタイムMRIで、繰り返し発声を必要としないが、画質が低い(非特許文献2)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】島田他、「Synchronized Sampling Method(SSM)を利用した4D−MRI」、日本放射線技術学会雑誌、2002年、第58巻第12号、p.1592-1598
【非特許文献2】S.Narayanan他、"An approach to real-time magnetic resonance imaging for speech production", J.Acoust.Soc.Am., 2004, 115(4), p.1771-1776
【発明の概要】
【発明が解決しようとする課題】
【0004】
高画質のMRI発話動画を得るためには、非特許文献1の方法ではMRIスキャナ内で同一文章を100回以上繰り返し発声する必要があるという問題があり、非特許文献2の方法では動画の画質と時間分解能の両方を上げることが困難であるという問題がある。
【0005】
本発明は、発話運動がスパース表現でのモデル化に適していることに鑑み、発話運動のスパース性を利用した非一様な時間サンプリングによりMRI画像を撮像し、発話運動の時間関数と組み合わせることで、少ない繰り返し発声で高画質のMRI発話動画を得ることが可能な、MRI発話動画作成装置、MRI発話動画作成方法及びそのプログラムを実現することにある。
【課題を解決するための手段】
【0006】
本発明のMRI発話動画作成装置は、時系列信号観測部と時間関数・発話駆動時点抽出部とMRI画像撮像部とMRI発話動画作成部とを備える。
【0007】
時系列信号観測部は、或る文章の発話時における口腔内の発話器官の位置情報を、所定のサンプリングレートで時系列的に観測する。
【0008】
時間関数・発話駆動時点抽出部は、前記位置情報の時系列信号から、空間行列と時間関数と複数の発話駆動時点を抽出する。
【0009】
MRI画像撮像部は、前記文章と同一の文章の発話時における発話器官のMRI画像を、前記発話駆動時点ごとに撮像する。
【0010】
MRI発話動画作成部は、前記時間関数と前記MRI画像とを組み合わせることにより、MRI発話動画を作成する。
【発明の効果】
【0011】
本発明のMRI発話動画作成装置、MRI発話動画作成方法及びそのプログラムによれば、発話運動のスパース性を利用した非一様な時間サンプリングによりMRI画像を撮像し、発話運動の時間関数と組み合わせることで、少ない繰り返し発声で高画質のMRI発話動画を得ることができる。
【図面の簡単な説明】
【0012】
【図1】本発明のMRI発話動画作成装置の機能構成例を示す図。
【図2】本発明のMRI発話動画作成装置の処理フロー例を示す図。
【図3】時系列信号観測部による各発話器官の位置情報の観測結果の一例を示す図。
【図4】図3の観測結果における垂直方向の位置情報について、時間軸上に展開した図。
【図5】図3の観測結果から抽出した時間関数の一例を示す図。
【図6】スパースな時刻(駆動時点)における空間行列の各要素値(ベクトル値)を平面上にプロットした一例を示す図。
【発明を実施するための形態】
【0013】
図1に本発明のMRI発話動画作成装置100の機能構成例を、図2にその処理フロー例をそれぞれ示す。MRI発話動画作成装置100は、時系列信号観測部110と時間関数・発話駆動時点抽出部120とMRI画像撮像部130とMRI発話動画作成部140とを備える。
【0014】
時系列信号観測部110は、発話時における口腔内の発話器官の位置情報の時系列信号(発話運動パラメータ)を観測する。具体的には、或る文章の発話時における口腔内の発話器官の位置情報を、所定のサンプリングレートで時系列的に観測する。観測には2次元磁気センサシステムを用い、例えば、下歯茎、上唇、下唇、及び舌上の3点のそれぞれの水平及び垂直位置の12個の位置情報を毎秒250回のサンプリングレートで観測する。また、発話運動の観測と同時に音声を録音してもよい。録音のサンプリングレートは、例えば16kHz程度とすることが考えられる。
【0015】
時間関数・発話駆動時点抽出部120は、時系列信号観測部110で観測されたp個の位置情報それぞれに係る時間長Tの時系列信号Y(p×T)から、空間行列A(p×m)と時間関数F(m×T)とm点の発話駆動時点k(k=1,・・・,m)を、例えば参考文献1のNon-negative Temporal Decomposition(NTD)を用いて抽出する。抽出する発話駆動時点kの個数mは、例えば発話に含まれる音素の個数とすることが考えられる。
〔参考文献1〕S.Hiroya, "NON-NEGATIVE TEMPORAL DECOMPOSITION OF SPEECH PARAMETERS", Proc.ICASSP, 2010, p.5066-5069
【0016】
NTDではY=AF、つまり、
【数1】

【0017】
という分解を行う。ここで、tは所定のサンプリングレートにおける各観測時刻、yi(t)は観測された位置情報の時系列信号Yの各要素の値、ai,kは空間行列Aの各要素の値(ベクトル値)、fk(t)は時間関数Fの各要素の値である。式(1)は、fk(t)がtk-1≦t≦tk(tkは発話駆動時点kの時刻)の区間においてのみ値を持つという時間関数の局所化のアイディアを導入することで、tk-1≦t≦tkの区間にある各観測時刻tについて、次のように簡略化できる。
【0018】
【数2】

【0019】
ここで、時間関数fk(t)が[0,1]であり、かつ、fk(t)+fk-1(t)=1とすれば、隣り合う発話駆動時点k−1とkにおける空間行列ai,kの内挿によりyを表現するモデルとなる。式(2)より、tk-1≦t≦tkの区間における歪みは当該区間のパラメータのみに依存するため、ai,k=yi(tk)と固定した場合、発話駆動時点kの時刻tkと時間関数fk(t)は、最小二乗法とDP(動的計画法)を用いることで、局所区間をつなぎ合わせた全区間に対する歪みを最小にするように決定することができる。
【0020】
NTDでは、AとFの各要素が非負値であり、時間関数fk(t)が[0,1]であり、かつ、fk(t)+fk-1(t)=1という制約の下で、式(2)における歪みを最小化するA、Fおよびtkを求める。つまり、次式の評価関数を、非負行列因子分解(NMF:Non-negative Matrix Factorization)(参考文献2)とDPを用いて最小化する。
【0021】
【数3】

【0022】
ここで、1=t1<t2<・・・<tm=Tであり、αはfk(t)+fk-1(t)=1という制約をどの程度考慮するかの重み付けのための定数である。
〔参考文献2〕D.D.Lee and H.S.Seung, "Learning the parts of objects by non-negative matrix factorization", Nature, 1999, vol.401, p.788-791
【0023】
A、Fおよびtkを求める手順は、空間行列ai,kの初期値をai,k=yi(tk)、時間関数fk(t)の初期値を[0,1]の乱数、発話駆動時点kの時刻tkを予め定められた初期値とし、まず、式(3)の評価関数を最小にするFとtkを、NMFとDPを用いて求め、得られたtkを用い再度NMFを用いてai,kとfk(t)を更新することによりAとFを求める。
【0024】
区間tk-1≦t≦tkにおけるfk(t)とfk-1(t)の更新は、乗算型の更新式を用いて次のように行う。なお、本更新式の収束性は保証されている。
【0025】
【数4】

【0026】
また、ai,kの更新も乗算型の更新式を用いて次のように行う。
【0027】
【数5】

【0028】
ここで、ai,kの決定には区間tk≦t≦tk+1も必要であることに注意する。
【0029】
また、tk(k=2,・・・,m−1)は、d(t)を観測時刻tにおける歪みとしたとき、局所区間をつなぎ合わせた全区間に対する歪みに基づき、次式により求めることができる。
【0030】
【数6】

【0031】
ここで、d(t)は、観測されたyi(t)と近似値ai,k・fk(t)+ai,k-1・fk-1(t)の間の二乗誤差を用いる。式(7)のtkはDPを利用して、次式に基づき効率良く求めることができる。
【0032】
【数7】

【0033】
ここで、D(tk)は時刻tkでの最小累積歪み、δは探索幅である。
【0034】
MRI画像撮像部130は、時系列信号観測部110で口腔内の発話器官の位置情報の観測に用いた発話文章と同一の文章の発話時における発話器官のMRI画像を、時間関数・発話駆動時点抽出部120で抽出されたm個の発話駆動時点k(時刻tk)ごとに撮像する。発話は、被験者にMRIスキャナ内で仰向けになった状態で行ってもらう。被験者は時系列信号観測部110での位置情報の観測の際に発話した被験者と同じであることが望ましい。発話リズムを揃えるために、時系列信号観測部110での位置情報の観測の際の発話音声をMRIスキャナ内でヘッドフォンを通して聞きながら発話するようにしてもよい。また、MRIスキャナ内での発話音声を録音して、発話リズムが揃っているかを事後的に確認してもよい。MRIの撮像は、少なくとも正中矢状面での発話器官の撮像を行い、必要に応じて複数の矢状断面の撮像を行ってもよい。同一文章の発話は少なくとも1回行い、繰り返しても行っても構わない。
【0035】
MRI発話動画作成部140は、時間関数・発話駆動時点抽出部120で抽出された時間関数とMRI画像撮像部130で撮像されたMRI画像とを組み合わせることにより、MRI発話動画を作成する。
【0036】
例えば、発話駆動時点kで撮像されたMRI画像の画素値がbi,j(k)であるとき、これと時間関数fk(t)とを組み合わせて、tk-1≦t≦tkの区間における時系列信号の観測時刻tのMRI画像xi,j(t)(i、jはMRI画像の2次元座標)を、
i,j(t)=bi,j(k)・fk(t)+bi,j(k−1)・fk-1(t) (9)
により逐次作成し、それらを時系列で連結することにより動画を作成する。MRI画像の画素数は例えば256×256、画素値bi,j(k)は例えば8ビット、すなわち[0,255]の画素値とすることが考えられる。なお、時間関数を2次元磁気センサシステムにより所定のサンプリングレートで観測した位置情報から抽出した場合、必要に応じて、時間関数にアップ/ダウンサンプリングを施すことで、サンプリングレートを変更することができる。また、式(9)のように画素値の重み付き和をとると、駆動時点間の中心付近で画像がぼやけることがあるため、形状を考慮した画像補間を行ってもよい(参考文献3参照)。
〔参考文献3〕G.T.Herman他,"Shape-based interpolation", IEEE Computer Graphics and Applications, 1992, vol.12, p.69-79
【0037】
以上のように本発明のMRI発話動画作成装置及びMRI発話動画作成方法によれば、発話運動のスパース性を利用して非一様な発話駆動時点kをサンプリングし、サンプリング時刻tkごとにMRI画像を撮像し、それを発話運動の時間関数fk(t)と組み合わせて時刻tのMRI画像xi,j(t)を生成することで、少ない繰り返し発声で高画質のMRI発話動画を得ることが可能となる。
【0038】
本発明のMRI発話動画作成装置及びMRI発話動画作成方法における各処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明のMRI発話動画作成装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0039】
本発明のMRI発話動画作成装置をコンピュータによって実現する場合、装置及びその各部が有す機能の処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には必要なプログラムやデータがRAM(Random Access Memory)に読み込まれる。その読み込まれたプログラムがCPUにより実行されることにより、コンピュータ上で各処理内容が実現される。なお、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0040】
<効果の確認>
予め音素に対応する発話駆動時点kの初期時刻tkを用意する。αは予備実験の結果100万とした。入力データは、2次元磁気センサシステムを用いて毎秒250回のレートで計測された下歯茎1点、上・下唇それぞれ1点、舌上の3点の計6点の水平および垂直位置である。発話資料は、「午後はたまった書類に目を通します」、「昨日はテレビゲームをして遊んだ」などの日本語文章を用いた。
【0041】
図3は、「昨日はテレビゲームをして遊んだ」と発話した時の2次元磁気センサシステムによって観測された正中面上での発話器官の発話運動パラメータを示したものである。図4は、図3のデータの垂直方向の運動を時間軸上にプロットしたものである。図5は、図3のデータからNTDにより抽出した時間関数を示したものである。時間関数は非常に滑らかな動きをしていることが分かる。ここで、矢印は発話駆動時点である。図6は、発話駆動時点k=2(音素/k/;○印)とk=3(音素/i/;□印)における2次元磁気センサシステムの空間行列の各要素値(ベクトル値)を平面上にプロットしたものである。
【0042】
NTDにより分解した空間行列A、時間関数F、発話駆動時点kを用いて再合成した発話運動パラメータと観測した発話運動パラメータとのRMS距離を計算した結果、近似誤差は0.16mmとなり、発話運動がスパース表現でのモデル化に適していることを確認した。つまり、発話運動を高い時間分解能で観測せずとも、適切な時間タイミングで観測した発話器官の画像と時間関数があれば、発話運動を高精度に再現することが可能であることを示している。

【特許請求の範囲】
【請求項1】
或る文章の発話時における口腔内の発話器官の位置情報を、所定のサンプリングレートで時系列的に観測する時系列信号観測部と、
前記位置情報の時系列信号から、空間行列と時間関数と複数の発話駆動時点を抽出する時間関数・発話駆動時点抽出部と、
前記文章と同一の文章の発話時における発話器官のMRI画像を、前記発話駆動時点ごとに撮像するMRI画像撮像部と、
前記時間関数と前記MRI画像とを組み合わせることにより、MRI発話動画を作成するMRI発話動画作成部と、
を備えるMRI発話動画作成装置。
【請求項2】
請求項1に記載のMRI発話動画作成装置において、
前記時系列信号観測部は、下歯茎、上唇、下唇、及び舌上の3点のそれぞれの水平及び垂直位置の12個の位置情報を観測する
ことを特徴とするMRI発話動画作成装置。
【請求項3】
請求項1又は2に記載のMRI発話動画作成装置において、
前記時間関数・発話駆動時点抽出部が抽出する発話駆動時点の個数は、前記発話に含まれる音素の個数である
ことを特徴とするMRI発話動画作成装置。
【請求項4】
請求項1乃至3のいずれかに記載のMRI発話動画作成装置において、
前記MRI発話動画作成部は、時間関数がfk(t)(kは前記発話駆動時点の番号、tは前記時系列信号の観測時刻)、発話駆動時点kで撮像されたMRI画像の画素値がbi,j(k)、発話駆動時点kの時刻がtkであるとき、tk-1≦t≦tkの区間での前記時系列信号の観測時刻tにおけるMRI画像xi,j(t)(i、jはMRI画像の2次元座標)を、
i,j(t)=bi,j(k)・fk(t)+bi,j(k−1)・fk-1(t)
により逐次作成し、それらを時系列で連結することにより動画を作成する
ことを特徴とするMRI発話動画作成装置。
【請求項5】
或る文章の発話時における口腔内の発話器官の位置情報を、所定のサンプリングレートで時系列的に観測する時系列信号観測ステップと、
前記位置情報の時系列信号から、空間行列と時間関数と複数の発話駆動時点を抽出する時間関数・発話駆動時点抽出ステップと、
前記文章と同一の文章の発話時における発話器官のMRI画像を、前記発話駆動時点ごとに撮像するMRI画像撮像ステップと、
前記時間関数と前記MRI画像とを組み合わせることにより、MRI発話動画を作成するMRI発話動画作成ステップと、
を実行するMRI発話動画作成方法。
【請求項6】
請求項5に記載のMRI発話動画作成方法において、
前記時系列信号観測ステップは、下歯茎、上唇、下唇、及び舌上の3点のそれぞれの水平及び垂直位置の12個の位置情報を観測する
ことを特徴とするMRI発話動画作成方法。
【請求項7】
請求項5又は6に記載のMRI発話動画作成方法において、
前記時間関数・発話駆動時点抽出ステップで抽出する発話駆動時点の個数は、前記発話に含まれる音素の個数である
ことを特徴とするMRI発話動画作成方法。
【請求項8】
請求項5乃至7のいずれかに記載のMRI発話動画作成方法において、
前記MRI発話動画作成ステップは、時間関数がfk(t)(kは前記発話駆動時点の番号、tは前記時系列信号の観測時刻)、発話駆動時点kで撮像されたMRI画像の画素値がbi,j(k)、発話駆動時点kの時刻がtkであるとき、tk-1≦t≦tkの区間での前記時系列信号の観測時刻tにおけるMRI画像xi,j(t)(i、jはMRI画像の2次元座標)を、
i,j(t)=bi,j(k)・fk(t)+bi,j(k−1)・fk-1(t)
により逐次作成し、それらを時系列で連結することにより動画を作成する
ことを特徴とするMRI発話動画作成方法。
【請求項9】
請求項1乃至4のいずれかに記載のMRI発話動画作成装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−123094(P2012−123094A)
【公開日】平成24年6月28日(2012.6.28)
【国際特許分類】
【出願番号】特願2010−272515(P2010−272515)
【出願日】平成22年12月7日(2010.12.7)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】