説明

情報処理装置、情報処理方法及びプログラム

【課題】複雑な調整を行うことなく、聴き取りの判別がし易い画像データの形状や配置位置に応じた良好な音声を提示する。
【解決手段】映像変形処理部101は、画像データの形状を変形する。音声出力位置決定処理部102は、映像変形処理部101による画像データの変形処理に係る変形情報に基づいて、画像データに対応する音声データの出力位置を決定する。音場構成処理部103は、音声出力位置決定処理部102により決定された出力位置に基づいて音場を構成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データの形状や配置位置に応じた音声を出力する技術に関するものである。
【背景技術】
【0002】
従来、画面上の画像や映像フレーム(ウィンドウ)に対応する音場を構築する方法としては、画面上の画像の二次元的な位置に応じて、左右のスピーカから聞こえてくる対象画像の音量とバランスを調整する技術が知られている(例えば、特許文献1参照)。
【0003】
また、画面上の画像の二次元的な位置と、視聴者の位置とに応じて、音の聞こえてくる方向を決定し、音場を構築する技術が知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−81675号公報
【特許文献2】特開平11−126153号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、左右のスピーカから聞こえてくる対象画像の音量とバランスを調整する従来の方法では、指向性に乏しいため、複数の聞き分けが難しいという問題があった。
【0006】
また、視聴者が注目する画像の方向から音声が聞こえてくるように音場を構築するためには、視聴者の位置特定が必要である等の問題があった。
【0007】
そこで、本発明の目的は、複雑な調整を行うことなく、聴き取りの判別がし易い画像データの形状や配置位置に応じた良好な音声を提示することにある。
【課題を解決するための手段】
【0008】
本発明の情報処理装置は、画像データの形状を変形する変形手段と、前記変形手段による前記画像データの変形処理に係る変形情報に基づいて、前記画像データに対応する音声データの出力位置を決定する第1の決定手段と、前記第1の決定手段により決定された前記出力位置に基づいて音場を構成する構成手段とを有することを特徴とする。
【発明の効果】
【0009】
本発明においては、画像データの変形処理に係る変形情報や配置位置に基づいて、対応する音声データの出力位置を決定して音場を構成するようにしている。従って、本発明によれば、複雑な調整を行うことなく、聴き取りの判別がし易い画像データの形状や配置位置に応じた良好な音声を提示することが可能となる。
【図面の簡単な説明】
【0010】
【図1】本発明の第1の実施形態に係る映像音声出力装置の構成を示す図である。
【図2】本発明の第1の実施形態に係る映像音声出力装置の処理の流れを示すフローチャートである。
【図3】本発明の第2の実施形態に係る映像音声出力装置の構成を示す図である。
【図4】本発明の第2の実施形態に係る映像音声出力装置の処理の流れを示すフローチャートである。
【図5】本発明の第3の実施形態に係る映像音声出力装置の構成を示す図である。
【図6】本発明の第4の実施形態に係る映像音声出力装置の構成を示す図である。
【図7】本発明の第4の実施形態に係る映像音声出力装置300の処理の流れを示すフローチャートである。
【図8】本発明の第1の実施形態の処理を経て出力される画像・映像と、当該画像・映像に対応して出力される音声との出力位置を示す図である。
【図9】本発明の第3の実施形態の処理を経て出力される画像・映像と、当該画像・映像に対応して出力される音声との出力位置を示す図である。
【図10】本発明の第4の実施形態の処理を経て出力される画像・映像と、当該画像・映像に対応して出力される音声との出力位置を示す図である。
【発明を実施するための形態】
【0011】
以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。
【0012】
<第1の実施形態>
先ず、本発明の第1の実施形態について説明する。図1は、本発明の第1の実施形態に係る映像音声出力装置の構成を示す図である。
【0013】
図1において、100は、本実施形態に係る映像音声出力装置本体である。501は、映像音声出力装置100に入力される画像データ(もしくは映像データ)である。504は、映像音声出力装置100に入力される音声データである。なお、映像音声出力装置100は、本発明の情報処理装置の適用例となる構成である。画像データ501は、本発明における画像データの適用例となる構成である。
【0014】
101は、画像データの2次元的な形状を変形して出力する映像変形処理部である。映像変形処理部101は、請求項1に記載した変形手段の適用例となる構成である。
【0015】
102は、映像変形処理部101から出力される変形処理情報を利用して、音声データ504を出力する位置を決定する音声出力位置決定処理部である。音声出力位置決定処理部102は、請求項1に記載した第1の決定手段の適用例となる構成である。
【0016】
103は、音声出力位置決定処理部102で決定された位置情報を基に、音声データ504を出力するための音場を構成する音場構成処理部である。音場構成処理部103は、請求項1に記載した構成手段の適用例となる構成である。
【0017】
502は、音声出力位置決定処理部102により変形処理された画像データを表示部503に合わせて表示するための変換処理を行う映像表示処理部である。503は、ディスプレイ等の表示部である。
【0018】
505は、音場構成処理部103により作成された音声データを音声出力部506に合わせて出力するための変換処理を行う音声出力処理部である。506は、スピーカ等の音声出力部である。
【0019】
次に、本発明の第1の実施形態に係る映像音声出力装置100の処理の流れについて説明する。図2は、本実施形態に係る映像音声出力装置の処理の流れを示すフローチャートである。
【0020】
まず、画像データ501は、映像変形処理部101に入力される。映像変形処理部101は、画像データの2次元的な形状を変形する変換処理を行う(ステップS201)。ここで、画像データの2次元的な変形処理とは、拡大、縮小、回転、台形、四辺形変形等の処理である。例えば、台形変形処理は、各入力画素に伸長計数を乗、加算し、座標変換を行う方法等がある(例えば、特開2007−166009号公報参照)。
【0021】
また、上記変形処理を行う際に映像変形処理部101にて用いられた、もしくは得られた、例えば台形変形処理であれば伸長計数、変換後の台形の各辺の長さといった変形処理パラメータを示す変形処理情報は、音声出力位置決定処理部102に与えられる。音声出力位置決定処理部102は、変形処理情報に基づいて、音声を出力する1次元、2次元又は3次元的な位置を決定する(ステップS202)。
【0022】
例えば、長方形から台形への変形処理を行った場合、変換後の台形の各辺を上辺、下辺、左辺、右辺とすると、左辺の長さlLと右辺の長さlRの比から音声を出力する1次元的な位置を計算する。1次元的な出力位置AP1(x)は以下のように表すことができる。
AP1(x)=x0+C*(lL/lR)
ここで、x0は基準位置、Cは出力位置変化係数を表す。
【0023】
上記のようにして求められた音声を出力する位置を示す音声出力位置情報及び音声データ504は、音場構成処理部103に入力される。音場構成処理部103は、音声出力部506の構成、配置等を鑑みて、音声出力部506の各構成要素に対する音量や位相を決定する(ステップS203)。
【0024】
映像変形処理部101にて変形処理された画像データは、映像表示処理部502に入力される。映像表示処理部502は、画像データに対して表示部503に表示するための処理を施す。映像表示処理部502にて処理が施された画像データは、表示部503に入力される。表示部503は、映像表示処理部502から入力された画像データを表示する(ステップS204)。またそれとともに、音声出力処理部505は、上記決定された音量や位相及び音声データ504を入力し、音声出力部506に出力するための処理を行い、音声出力部506に音声を出力させる(ステップS204)。
【0025】
図8は、上述した処理を経て出力される画像・映像と、当該画像・映像に対応して出力される音声との出力位置を示す図である。ここで、601は表示部503上の画面領域、602は、画面領域601上に表示された画像フレーム、603の矢印は、音声の出力位置を表し、矢印の矢尻の先頭に音声の出力位置があることを表している。
【0026】
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。図3は、本発明の第2の実施形態に係る映像音声出力装置の構成を示す図である。
【0027】
図3において、200は、本実施形態に係る映像音声出力装置本体である。201は、入力された画像データを、最終的に表示する表示部503の表示領域を包含する2次元領域のどこに配置するかを決定、配置する映像2次元配置位置決定処理部である。なお、映像2次元配置位置決定処理部201は、請求項2に記載した第2の決定手段の適用例となる構成である。
【0028】
202は、入力された画像データの2次元的な形状を変形して出力する映像変形処理部である。
【0029】
203は、映像2次元配置位置決定処理部201から出力される2次元配置情報と、映像変形処理部202から出力される変形処理情報とを利用して、音声データ504を出力する位置を決定する音声出力位置決定処理部である。なお、音場構成処理部103は、図1の103に示した構成と同じである。2次元配置情報とは、画像データを上記2次元領域のどこに配置したかを示す情報である。
【0030】
次に、本発明の第2の実施形態に係る映像音声出力装置200の処理の流れについて説明する。図4は、本実施形態に係る映像音声出力装置200の処理の流れを示すフローチャートである。
【0031】
まず、画像データ501は、映像2次元配置位置決定処理部201に入力される。映像2次元配置位置決定処理部201は、入力された画像データ501を2次元領域のどこに配置するかを予め設定された値等を用いて決定する(ステップS401)。また、画像データは、映像変形処理部202にも入力される。映像変形処理部202は、映像2次元配置位置決定処理部201で決定された2次元配置情報や予め設定された変形処理パラメータ等を用いて、画像データ501の二次元的な形状を変形する変換処理を行う(ステップS401)。
【0032】
また、上記変形処理を行う際に映像変形処理部202にて用いられた、もしくは得られた、例えば台形変形処理であれば伸長計数、変換後の台形の各辺の長さといった変形処理パラメータを示す変形処理情報と、映像2次元配置位置決定処理部201で得られた2次元配置情報とは、音声出力位置決定処理部203に与えられる。音声出力位置決定処理部203は、変形処理情報と2次元配置情報とに基づいて、音声を出力する1次元、2次元又は3次元的な位置を決定する(ステップS402)。
【0033】
例えば、長方形から台形への変形処理を行った場合、変換後の台形の各辺を上辺、下辺、左辺、右辺とすると、上辺の長さlTと下辺の長さlBの比、左辺の長さlLと右辺の長さlRの比から音声を出力する2次元的な位置を計算する。直交座標系(x,y)における2次元的な出力位置AP(x,y)は以下のように表すことができる。
AP(x,y)=(x+Cx+(lL/lR),y+Cy*(lT/lB))
ここで、Cx ,Cyは各x軸方向、y軸方向の出力位置変化計数を表す。
【0034】
上記のようにして求められた音声出力位置情報及び音声データ504は、音場構成処理部103に入力される。音場構成処理部103は、音声出力部506の構成、配置等を鑑みて、音声出力部506の各構成要素に対する音量や位相を決定する(ステップS403)。
【0035】
映像変形処理部202にて変形処理された画像データは、映像表示処理部502に入力される。映像表示処理部502は、入力された画像データに対して表示部503に表示するための処理を施す。映像表示処理部502にて処理が施された画像データは、表示部503に入力される。表示部503は、映像表示処理部502から入力された画像データを表示する(ステップS404)。それとともに、音声出力処理部505は、上記決定された音量や位相及び音声データ504を入力し、音声出力部506に出力するための処理を行い、音声出力部506に音声を出力させる(ステップS404)。
【0036】
<第3の実施形態>
次に、本発明の第3の実施形態について説明する。図5は、本発明の第3の実施形態に係る映像音声出力装置の構成を示す図である。
【0037】
図5に示す構成は、図3に示した構成において、映像変形処理部202と映像表示処理部502との間に、映像合成処理部204を追加し、音場構成処理部103を複数の入力音声データに対し処理を行う音場構成処理部205に置き換えた構成である。映像合成処理部204は、請求項2に記載した合成手段の適用例となる構成である。
【0038】
この追加により、複数の画像フレームが入力された場合、各フレームに対する処理結果を合成し、複数の画像フレーム、音声を同時に表示・提示することが可能になる。
【0039】
図9は、上述した処理を経て出力される画像と、当該画像に対応して出力される音声との出力位置を示す図である。この例では3つの画像フレームが同時に表示され、また各々のフレームに対して、音声の出力位置が決定され、音場が構成されている。
【0040】
<第4の実施形態>
次に、本発明の第4の実施形態について説明する。図6は、本発明の第4の実施形態に係る映像音声出力装置の構成を示す図である。
【0041】
図6において、300は、本実施形態に係る映像音声出力装置本体である。301は、入力された画像データ501を仮想3次元領域のどこに配置するかを決定、配置する映像3次元配置位置決定処理部である。映像3次元配置位置決定処理部301は、請求項4に記載した第1の決定手段の適用例となる構成である。
【0042】
302は、入力された画像データ501の3次元的に配置された画像データを2次元に表示するための2次元画像データに変換する映像2次元変換処理部である。映像2次元変換処理部302は、請求項5に記載した変換手段の適用例となる構成である。
【0043】
303は、映像3次元配置位置決定処理部301の3次元配置情報を利用して、音声データ504を出力する位置を決定する音声出力位置決定処理部である。なお、3次元配置情報とは、画像データ501が仮想3次元領域のどこに配置されているのかを示す情報である。音声出力位置決定処理部303は、請求項4に記載した第2の決定手段の適用例となる構成である。また、図6の205は、請求項4に記載した構成手段の適用例となる構成である。
【0044】
次に、本発明の第4の実施形態に係る映像音声出力装置300の処理の流れについて説明する。図7は、本実施形態に係る映像音声出力装置300の処理の流れを示すフローチャートである。
【0045】
まず、一つもしくは複数の画像データ501は、映像3次元配置位置決定処理部301に入力される。映像3次元配置位置決定処理部301は、入力された画像データ501を仮想3次元領域のどこに配置するかを決定する(ステップS701)。
【0046】
また、一つもしくは複数の画像データ501は、映像2次元変換処理部302に入力される。映像2次元変換処理部302は、映像3次元配置位置決定処理部301で決定された3次元配置情報に応じて、入力された画像データ501を2次元画面情報へ写像変換する処理を行う(ステップS702)。それとともに、映像3次元配置位置決定処理部301で決定された一つもしくは複数の3次元配置情報は、音声出力位置決定処理部303に入力される。音声出力位置決定処理部303は、入力された3次元配置情報に基づいて、音声を出力する1次元、2次元又は3次元的な位置を決定する(ステップS702)。例えば、長方形の画像データを仮想三次元空間に配置し、その重心の位置から鉛直方向の位置に音声の出力位置を決定する。仮想三次元空間におけるこの出力位置は、以下のように表すことができる。
直交座標系(x,y,z)において、長方形の画像データの各頂点を時計回りにp0(x0,y0,z0),p1(x1,y1,z1),p2(x2,y2,z2),p3(x3,y3,z3)とする。そのとき長方形の画像データの重心点gは、
g(x,y,z)=((x0+x2)/2,(y0+y2)/2,(z0+z2)/2)
となる。
音声を出力する位置の平面からの距離をh(xh,yh,zh)とすると、音声を出力する位置APは、
AP(x,y,z)=g+h=((x0+x2)/2+xh,(y0+y2)/2+yh,(z0+z2)/2+zh)
【0047】
上記のようにして求められた一つもしくは複数の音声出力位置情報と音声データ504とは、音場構成処理部205に入力される。音場構成処理部205は、音声出力部506の構成、配置等を鑑みて、音声出力部506の各構成要素に対する音量や位相を決定する(ステップS703)。
【0048】
映像2次元変換処理部302にて変換された画像データは、映像表示処理部502に入力される。映像表示処理部502は、入力された画像データを表示部503に表示するための処理を施す。映像表示処理部502にて処理が施された画像データは、表示部503に入力される。表示部503は、映像表示処理部502から入力された画像データを表示する(ステップS704)。それとともに、音声出力処理部505は、上記決定された音量や位相及び入力音声データ504を入力し、音声出力部506に出力するための処理を行い、音声出力部506に音声を出力させる(ステップS704)。
【0049】
図10は、上記した処理を経て出力される画像と、当該画像に対応して出力される音声との出力位置を示す図である。この例では6つの画像フレームが同時に表示され、また各々のフレームに対して、音声の出力位置が決定され、音場が構成されている。
【0050】
なお、音声の出力方向について本実施形態においては鉛直方向としたが、画像・映像が更に動きを伴う場合の時等は、それに合わせて出力方向角度の調整を行ってもよい。
【0051】
以上説明した実施形態においては、画像データの変形処理に係る変形情報や配置位置に基づいて、対応する音声データの出力位置を決定して音場を構成するようにしている。従って、複雑な調整を行うことなく、聴き取りの判別がし易い画像データの形状や配置位置に応じた良好な音声を提示することが可能となる。
【0052】
すなわち、上述した実施形態においては、画像データの形状や配置位置に合わせた指向性の高い音場を構築することにより、視聴者の位置に捕らわれない音声の提示が可能であり、複数同時に音声出力する場合にも判別し易い。
【0053】
また、画像データの形状や配置位置と音声の向きがマッチし、より直感的に画像・映像と音声とを対応付け易くなる。
【0054】
上述した本発明の実施形態を構成する各手段及び各ステップは、コンピュータのRAMやROM等に記憶されたプログラムが動作することによって実現できる。このプログラム及び前記プログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。
【0055】
また、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施形態も可能であり、具体的には、一つの機器からなる装置に適用してもよい。
【0056】
なお、本発明は、上述した実施形態の機能を実現するソフトウェアのプログラムを、システム又は装置に直接、又は遠隔から供給する。そして、そのシステム又は装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
【符号の説明】
【0057】
100、200、210、300 映像音声出力装置、101、202 映像変形処理部、102 音声出力位置決定処理部、103 音場構成処理部、201 映像2次元配置位置決定処理部、203 音声出力位置決定処理部、204 映像合成処理部、205 音場構成処理部、301 映像3次元配置位置決定処理部、302 映像2次元変換処理部、303 音声出力位置決定処理部、501 画像データ、502 映像表示処理部、503 表示部、504 音声データ、505 音声出力処理部、506 音声出力部

【特許請求の範囲】
【請求項1】
画像データの形状を変形する変形手段と、
前記変形手段による前記画像データの変形処理に係る変形情報に基づいて、前記画像データに対応する音声データの出力位置を決定する第1の決定手段と、
前記第1の決定手段により決定された前記出力位置に基づいて音場を構成する構成手段とを有することを特徴とする情報処理装置。
【請求項2】
前記画像データの2次元領域における配置位置を決定する第2の決定手段を更に有し、
前記第1の決定手段は、更に、前記第2の決定手段により決定された配置位置を示す2次元配置情報に基づいて、前記音声データの出力位置を決定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
複数の前記画像データを合成する合成手段を更に有し、
前記第1の決定手段は、複数の前記画像データに対応する複数の前記音声データの出力位置を決定することを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
画像データの仮想3次元領域における配置位置を決定する第1の決定手段と、
前記第1の決定手段により決定された配置位置を示す3次元配置情報に基づいて、前記画像データに対応する音声データの出力位置を決定する第2の決定手段と、
前記第2の決定手段により決定された前記出力位置に基づいて音場を構成する構成手段とを有することを特徴とする情報処理装置。
【請求項5】
前記3次元配置情報に応じて、前記画像データを2次元画像データに変換する変換手段を更に有することを特徴とする請求項4に記載の情報処理装置。
【請求項6】
画像データの形状を変形する変形ステップと、
前記変形ステップによる前記画像データの変形処理に係る変形情報に基づいて、前記画像データに対応する音声データの出力位置を決定する決定ステップと、
前記決定ステップにより決定された前記出力位置に基づいて音場を構成する構成ステップとを含むことを特徴とする情報処理方法。
【請求項7】
画像データの仮想3次元領域における配置位置を決定する第1の決定ステップと、
前記第1の決定ステップにより決定された配置位置を示す3次元配置情報に基づいて、前記画像データに対応する音声データの出力位置を決定する第2の決定ステップと、
前記第2の決定ステップにより決定された前記出力位置に基づいて音場を構成する構成ステップとを含むことを特徴とする情報処理方法。
【請求項8】
画像データの形状を変形する変形ステップと、
前記変形ステップによる前記画像データの変形処理に係る変形情報に基づいて、前記画像データに対応する音声データの出力位置を決定する決定ステップと、
前記決定ステップにより決定された前記出力位置に基づいて音場を構成する構成ステップとをコンピュータに実行させるためのプログラム。
【請求項9】
画像データの仮想3次元領域における配置位置を決定する第1の決定ステップと、
前記第1の決定ステップにより決定された配置位置を示す3次元配置情報に基づいて、前記画像データに対応する音声データの出力位置を決定する第2の決定ステップと、
前記第2の決定ステップにより決定された前記出力位置に基づいて音場を構成する構成ステップとをコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate