説明

音声処理装置、音声処理方法、およびプログラム

【課題】音声処理装置、音声処理方法、およびプログラムを提供する。
【解決手段】表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と、前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部とを備える、音声処理装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理方法、およびプログラムに関する。
【背景技術】
【0002】
近日、左目用画像および右目用画像を表示することによりユーザに立体視画像を知覚させることが可能な3D表示装置が流通している。3D用に制作されるテレビジョン映像や映画が増加傾向にあること、2D画像を3D画像に変換する技術が盛んに研究されていることなどから、3D表示装置は今後さらに普及すると予想される。なお、3D表示装置について記載された文献として下記の特許文献1が挙げられる。
【0003】
また、音声については、5.1chのようにマルチチャンネル化されたシステムが存在する。このシステムでは、左右のフロントスピーカ、左右のリアスピーカ、センタースピーカなどの複数のスピーカに、各スピーカ用に生成された音声を出力させることにより、ユーザに臨場感のある音場を提供することが可能である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004−38933号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、2D画像を3D画像に変換する場合、2D画像用の音声と変換後の3D画像との連携が疎になってしまうことが懸念される。また、3D画像用の音声は3D画像を考慮して制作されるが、従来の3D表示装置では、3D画像と3D画像用の音声との連携をより強調することが困難であった。
【0006】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、立体視画像と音声との連携をより強調することが可能な、新規かつ改良された音声処理装置、音声処理方法、およびプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある観点によれば、表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と、前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部と、を備える音声処理装置が提供される。
【0008】
前記音声出力装置は、前方音声出力装置、および、前記前方音声出力装置より前記表示装置と離隔する位置に配置される後方音声出力装置を含み、前記音声制御部は、前記代表知覚位置と基準面との距離に応じ、前記前方音声出力装置および前記後方音声出力装置による音声出力を制御してもよい。
【0009】
前記音声制御部は、前記代表知覚位置が前記基準面と一致する場合、前記前方音声出力装置には前記前方音声出力装置用の第1の音声信号を供給し、前記後方音声出力装置には前記後方音声出力装置用の第2の音声信号を供給してもよい。
【0010】
前記音声制御部は、前記代表知覚位置が前記基準面よりユーザ側である場合、前記第1の音声信号を、前記代表知覚位置と前記基準面との距離に応じた比率で前記前方音声出力装置および前記後方音声出力装置に供給してもよい。
【0011】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど高い比率で前記第1の音声信号を前記後方音声出力装置に供給してもよい。
【0012】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど前記後方音声出力装置に供給する前記第2の音声信号を小さくしてもよい。
【0013】
前記音声制御部は、前記基準面が前記代表知覚位置よりユーザ側である場合、前記第2の音声信号を、前記代表知覚位置と前記基準面との距離に応じた比率で前記前方音声出力装置および前記後方音声出力装置に供給してもよい。
【0014】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど高い比率で前記第2の音声信号を前記前方音声出力装置に供給してもよい。
【0015】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど前記前方音声出力装置に供給する前記第1の音声信号を小さくしてもよい。
【0016】
前記推定部は、前記左目用画像および前記右目用画像に含まれる1または2以上の画像オブジェクトのユーザによる知覚位置を推定し、前記1または2以上の画像オブジェクトの知覚位置に基づいて前記代表知覚位置を推定してもよい。
【0017】
前記推定部は、前記1または2以上の画像オブジェクトの知覚位置のうちのいずれかの知覚位置を前記代表知覚位置として推定してもよい。
【0018】
前記推定部は、前記1または2以上の画像オブジェクトの知覚位置の平均値を前記代表知覚位置として推定してもよい。
【0019】
前記推定部は、前記左目用画像および前記右目用画像を分割して得られる複数の領域の各々のユーザによる知覚位置を推定し、前記複数の領域の知覚位置の分布に基づいて前記代表知覚位置を推定してもよい。
【0020】
また、上記課題を解決するために、本発明の別の観点によれば、表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定するステップと、前記代表知覚位置に応じ、音声出力装置による音声出力を制御するステップと、を含む音声処理方法が提供される。
【0021】
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と、前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部と、として機能させるためのプログラムが提供される。
【発明の効果】
【0022】
以上説明したように本発明によれば、立体視画像と音声との連携をより強調することが可能である。
【図面の簡単な説明】
【0023】
【図1】本発明の実施形態による表示装置の外観を示した説明図である。
【図2】本発明の実施形態による表示装置の構成を示した機能ブロック図である。
【図3】画像表示部のサイズ標記を説明するための図面である。
【図4】画像オブジェクトの検出例を示した説明図である。
【図5】左目用画像および右目用画像に含まれる画像オブジェクトの表示位置と立体視画像の知覚位置との関係を示した説明図である。
【図6】画像分割の一例を示した説明図である。
【図7】エリアごとの距離xmの具体例を示した説明図である。
【図8】ユーザによる立体視画像の知覚位置Pが画像表示部と一致する場合の音声制御部による音声制御を示した説明図である。
【図9】ユーザによる立体視画像の知覚位置Pが画像表示部よりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図10】ユーザによる立体視画像の知覚位置Pが画像表示部よりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図11】画像表示部がユーザによる立体視画像の知覚位置Pよりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図12】画像表示部がユーザによる立体視画像の知覚位置Pよりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図13】画像表示部がユーザによる立体視画像の知覚位置Pよりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図14】本発明の実施形態による表示装置の動作を示したフローチャートである。
【発明を実施するための形態】
【0024】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0025】
また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
1.本発明の実施形態による表示装置の概要
2.表示装置の構成
2−1.代表知覚位置の推定
(第1の例)
(第2の例)
2−2.音声制御の具体例
3.表示装置の動作
4.まとめ
【0026】
<1.本発明の実施形態による表示装置の概要>
まず、図1を参照し、本発明の実施形態による表示装置100の概要を説明する。
【0027】
図1は、本発明の実施形態による表示装置100の外観を示した説明図である。なお、図1には、ユーザが着用するシャッタ眼鏡200も表示装置100と併せて示している。
【0028】
図1に示したように、表示装置100は、画像が表示される画像表示部110を備える。表示装置100は、左目用画像および右目用画像を画像表示部110に表示することにより、ユーザに立体視画像を知覚させることができる。また、この表示装置100は、「2.表示装置の構成」において詳細に説明するように、スピーカシステムを構成する各スピーカからの音声出力を制御する音声処理装置としての機能も有する。
【0029】
シャッタ眼鏡200は、例えば液晶シャッタからなる右目用画像透過部212及び左目用画像透過部214を含む。シャッタ眼鏡200は、表示装置100から送出される信号に応じて、右目用画像透過部212及び左目用画像透過部214の開閉動作を実行する。ユーザは、シャッタ眼鏡200の右目用画像透過部212及び左目用画像透過部214を通して、画像表示部110から発する光を見ることで、画像表示部110に表示される左目用画像および右目用画像を立体視画像として知覚することが出来る。
【0030】
一方、通常の2D画像が画像表示部110に表示されている場合は、ユーザはそのまま画像表示部110から出射される光を見ることで、画像表示部110に表示される画像を通常の2D画像として知覚することができる。
【0031】
なお、図1では、音声処理装置の一例として表示装置100を示したが、音声処理装置はかかる例に限定されない。例えば、音声処理装置は、PC(Personal Computer)、家庭用映像処理装置(DVDレコーダ、ビデオデッキなど)、PDA(Personal Digital Assistants)、家庭用ゲーム機器、携帯電話、携帯用映像処理装置、携帯用ゲーム機器などの情報処理装置であってもよい。
【0032】
また、本明細書においては、左目用画像が左目によって知覚され、右目用画像が右目によって知覚されるようにするためにシャッタ動作を利用する制御方式を説明するが、制御方式はかかる例に限定されない。例えば、左目用の偏光フィルタおよび右目用の偏光フィルタを用いることによっても同等な効果を得ることが可能である。
【0033】
<2.表示装置の構成>
以上、本発明の実施形態による表示装置100の概要を説明した。次に、図2を参照し、本発明の実施形態による表示装置100の構成を説明する。
【0034】
図2は、本発明の実施形態による表示装置100の構成を示した機能ブロック図である。図2に示したように、表示装置100は、画像表示部110と、映像信号制御部120と、シャッタ制御部130と、タイミング制御部140と、赤外線エミッタ150と、映像解析部160と、音声制御部170と、スピーカシステム180と、を備える。
【0035】
画像表示部110は、上述したように画像の表示を行うための構成であり、外部から信号が印加されると、印加された信号に応じた画像を表示する。この画像表示部110は、図2に示したように、表示パネル112と、ゲートドライバ113と、データドライバ114と、バックライト115と、を含んで構成される。
【0036】
表示パネル112は、外部からの信号の印加に応じて画像を表示するものである。表示パネル112は、複数の走査線に対する順次走査により画像を表示する。表示パネル112は、ガラス等の透明板の間に所定の配向状態を有する液晶分子が封入されている。表示パネル112の駆動方式は、TN(Twisted Nematic)方式、VA(Virtical Alignment)方式、またはIPS(In−Place−Switching)方式であってもよい。本発明の実施形態による表示パネル112は、外部からの信号印加に応じ、右目用画像と左目用画像を所定のタイミングで交互に表示する。
【0037】
ゲートドライバ113は、表示パネル112のゲートバスライン(図示せず)を駆動するためのドライバである。ゲートドライバ113にはタイミング制御部140から信号が伝送され、ゲートドライバ113はタイミング制御部140から伝送された信号に応じてゲートバスラインへ信号を出力する。
【0038】
データドライバ114は、表示パネル112のデータ線(図示せず)に印加するための信号を生成するためのドライバである。データドライバ114にはタイミング制御部140から信号が伝送され、データドライバ114はタイミング制御部140から伝送された信号に応じてデータ線へ印加する信号を生成して出力する。
【0039】
バックライト115は、ユーザ側から見て画像表示部110の一番奥に設けられるものである。画像表示部110に画像を表示する際には、バックライト115からは偏光されていない(無偏光の)白色光がユーザ側に位置する表示パネル112に出射される。バックライト115としては、例えば発光ダイオードを用いてもよいし、冷陰極管を用いてもよい。なお、図2では、バックライト115として面光源を示しているが、本発明においては光源の形態はかかる例に限定されない。例えば、表示パネル112の周辺部に光源を配置し、当該光源からの光を拡散板等で拡散することで表示パネル112に光を出射してもよい。また例えば、面光源の替わりに点光源と集光レンズを組み合わせてもよい。
【0040】
映像信号制御部120は、左目用画像および右目用画像を表示するための3D映像信号が入力されると、左目用画像および右目用画像を画像表示部110において交互に表示するための映像信号を生成する。映像信号制御部120により生成された映像信号はタイミング制御部140に伝送される。
【0041】
シャッタ制御部130は、映像信号制御部120における信号処理に応じて生成される所定の信号の伝送を受け、当該信号に応じてシャッタ眼鏡200のシャッタ動作を制御するシャッタ制御信号を生成する。シャッタ眼鏡200では、シャッタ制御部130で生成され、赤外線エミッタ150から発せされるシャッタ制御信号に基づいて、右目用画像透過部212及び左目用画像透過部214の開閉動作を実行する。具体的には、表示パネル112に左目用画像が表示されている間には左目用画像透過部214が開かれ、表示パネル112に右目用画像が表示されている間には右目用画像透過部212が開かれるようにシャッタ動作が実行される。
【0042】
タイミング制御部140は、映像信号制御部120から伝送される信号に応じて、ゲートドライバ113およびデータドライバ114の動作に用いられるパルス信号を生成する。タイミング制御部140でパルス信号を生成して、ゲートドライバ113およびデータドライバ114がタイミング制御部140で生成されたパルス信号を受けることで、映像信号制御部120から伝送される映像信号に応じた画像が表示パネル112に表示される。
【0043】
映像解析部160は、3D映像信号に基づく立体視画像のユーザによる代表知覚位置を推定する推定部として機能する。この推定のために、映像解析部160には、3D映像信号、画像表示部110の画面サイズ、ユーザおよび画像表示部110間の視聴距離などの情報が供給される。なお、画像表示部110の画面サイズ、ユーザおよび画像表示部110間の視聴距離などの情報は、表示装置100に設定されていてもよいし、ユーザ操作により入力されてもよい。また、代表知覚位置の推定方法については、「2−1.代表知覚位置の推定」において詳細に説明する。
【0044】
音声制御部170は、映像解析部160により推定された代表知覚位置に応じ、スピーカシステム180(音声出力装置)からの音声出力を制御する。具体的には、スピーカシステム180は、センタースピーカC、フロントスピーカL(前方音声出力装置)、フロントスピーカR(前方音声出力装置)、リアスピーカLs(後方音声出力装置)、およびリアスピーカRs(後方音声出力装置)を含み、音声制御部170は、これら各スピーカ用からの音声出力を制御する。この音声制御部170による音声制御については、「2−2.音声制御の具体例」において詳細に説明する。
【0045】
以上、本発明の実施形態による表示装置100の構成を説明した。以下、映像解析部160による代表知覚位置の推定、および音声制御部170による音声制御についてより詳細に説明する。
【0046】
[2−1.代表知覚位置の推定]
(第1の例)
代表知覚位置の推定には、画像表示部110の1ピクセルあたりの大きさが用いられる。したがって、この1ピクセルあたりの大きさが未知である場合、映像解析部160は、画像表示部110の画面サイズ情報から1ピクセルあたりの大きさ(pixel_cm)を算出する。
【0047】
例えば、画面サイズ情報として、以下の値が既知である場合を考える。
TV_INCH:画像表示部110の大きさ[inch]
TV_WIDTH_PIXEL:有効画面(横)のピクセル数[pixel]
TV_HEIGHT_PIXEL:有効画面(縦)のピクセル数[pixel]
【0048】
この場合、図3に示した下記の値を画面サイズ情報から算出することができる。
tv_size_pixel:有効画面の大きさ[pixel]
tv_size:有効画面の大きさ[cm]
tv_width:有効画面の横幅[cm]
tv_height:有効画面の高さ[cm]
【0049】
例えば、tv_size_pixelおよびtv_sizeは、以下の数式に従って算出される。
tv_size_pixel
=sqrt(TV_WIDTH_PIXEL^2
+TV_HEIGHT_PIXEL^2)
tv_size=TV_INCH×2.54
【0050】
さらに、1ピクセルあたりの大きさであるpixel_cmは、tv_size_pixelおよびtv_sizeから、以下の数式に従って算出される。
pixel_cm=tv_size/tv_size_pixel
【0051】
具体例として、TV_INCHが40inchであり、TV_WIDTH_PIXELが1920pixelであり、TV_HEIGHT_PIXELが1080pixelである場合、各値は以下のように算出される。
tv_size_pixel=2202.9pixel
tv_size =101.6cm
pixel_cm =0.0461cm

【0052】
映像解析部160は、上記のpixel_cm、左目用画像および右目用画像の差分に基づき、ユーザによる立体視画像の代表知覚位置を推定する。すなわち、映像解析部160は、ユーザによる立体視画像の代表知覚位置と画像表示部110との間の距離xを算出する。ここで、代表知覚位置は、立体視画像のうちで代表的な画像オブジェクト(部分)のユーザによる知覚位置であってもよい。以下、この画像オブジェクトの検出について図4を参照して簡単に説明した後、図5を参照して距離xの算出方法を説明する。
【0053】
映像解析部160は、例えば、顔検出技術を用いることにより左目用画像および右目用画像に含まれる顔画像を画像オブジェクトとして検出する。その結果、1の顔画像のみが検出された場合、映像解析部160は、当該顔画像のユーザによる知覚位置を代表知覚位置として扱い、当該顔画像に関する距離xを以下に説明する方法により算出する。一方、図4に示したように複数の顔画像A〜Cが検出された場合、映像解析部160は、いずれかの顔画像を選択し、選択した顔画像に関する距離xを算出してもよい。または、映像解析部160は、顔画像A〜Cに関する距離x(A)〜x(C)を算出し、距離x(A)〜x(C)の平均値を距離xとして算出してもよい。
【0054】
図5は、左目用画像および右目用画像に含まれる画像オブジェクトの表示位置と立体視画像の知覚位置との関係を示した説明図である。映像解析部160は、図5に示したように、左目用画像に含まれる画像オブジェクトと、右目用画像に含まれるある画像オブジェクトの水平方向の表示位置の差分であるLR_DIFF_PIXEL(pixel)を、上記のpixel_cmを用いてcm単位の値に換算する(下記数式参照)。
lr_diff=LR_DIFF_PIXEL×pixel_cm
【0055】
ここで、画像表示部110とユーザ間の距離D(cm)およびユーザの目の間隔E(cm)が既知である場合、映像解析部160は、画像オブジェクトのユーザによる知覚位置の画像表示部110からの距離x(cm)を、以下の数式に従って算出することができる。
x=lr_diff×D/(E+lr_diff)
【0056】
具体例として、LR_DIFF_PIXELが10pixelであり、pixel_cmが0.0461cmであり、距離Dが250cmであり、間隔Eが6cmである場合、lr_diffおよび距離xは以下の値となる。なお、ユーザによる画像オブジェクトの知覚位置が画像表示部110の裏側である場合、距離xは負の値となる。
lr_diff=0.4612cm
x=17.845cm
【0057】
(第2の例)
第1の例においては、代表知覚位置が、立体視画像のうちで代表的な画像オブジェクト(部分)のユーザによる知覚位置である例を説明したが、代表知覚位置はかかる例に限定されない。例えば、代表知覚位置は、以下に説明するように、立体視画像を構成する各領域のユーザによる知覚位置のうちで支配的であると考えられる位置であってもよい。
【0058】
このような代表知覚位置の推定のために、第2の例においては、左目用画像および右目用画像を分割して複数の領域を定義し、各領域のユーザによる知覚位置と画像表示部110との距離を推定し、各領域に関して推定された距離の分布に基づいて距離xを算出する。以下、図6および図7を参照してより詳細に説明する。
【0059】
図6は、画像分割の一例を示した説明図である。図6に示したように、映像解析部160は、左目用画像および右目用画像においてエリア0〜エリアNを定める。なお、各エリアの形状およびサイズは特に限定されず、各エリアは例えば10×10pixelで構成されてもよい。
【0060】
そして、映像解析部160は、エリアごとに、当該エリア内の画像のユーザによる知覚位置と画像表示部110との距離xm(0≦m≦N)を第1の例において説明した方法に準じて算出する。例えばエリア数が10である場合、映像解析部160は、図7に示したように、エリア0〜エリア9ごとに距離x0〜x9を算出する。
【0061】
さらに、映像解析部160は、エリアごとに算出された距離xmの分布に基づいて距離xを特定する。例えば、映像解析部160は、エリアごとに算出された距離xmのうちで、最も多い値を距離xとして扱ってもよい。この方法によれば、図7に示した例では、エリアごとに算出された距離x0〜x9のうちで最も多い値である4cmが距離xとして扱われる。
【0062】
または、映像解析部160は、所定の値幅ごとに当該値幅に含まれる距離xmの数を集計し、最も距離xmを多く含む値幅に基づいて距離xを特定してもよい。例えば、0〜5cm、5〜10cmというように、5cm幅ごとの値幅に該当する距離x(エリア)の数を集計する場合、図7に示した例では、20〜25cmの値幅に含まれる距離xmの数が最も多くなる。この場合、映像解析部160は、当該値幅の最小値である20cmを距離xとして扱ってもよいし、当該値幅に含まれる距離xmの平均値を距離xとして扱ってもよい。
【0063】
[2−2.音声制御の具体例]
音声制御部170は、映像解析部160により上記のようにして得られた距離xに基づき、スピーカシステム180からの音声出力を制御する。以下、図8〜図13を参照し、音声制御部170による音声出力の制御について具体的に説明する。
【0064】
(x=0である場合)
映像解析部160により得られた距離xが「0」である場合、すなわち、ユーザによる立体視画像の知覚位置Pが画像表示部110の配置位置(基準面の一例)と一致する場合、音声制御部170は、各スピーカ用の音声信号を対応するスピーカからそのまま出力させる。
【0065】
具体的には、音声制御部170は、図8に示したように、センタースピーカC用の音声信号C1をセンタースピーカCに供給し、フロントスピーカL用の音声信号L1をフロントスピーカLに供給し、フロントスピーカR用の音声信号R1をフロントスピーカRに供給する。同様に、音声制御部170は、リアスピーカLs用の音声信号L2をリアスピーカLsに供給し、リアスピーカRs用の音声信号R2をリアスピーカRsに供給する。
【0066】
(x>0である場合)
続いて、図9を参照し、映像解析部160により得られた距離xが「0」より大きい場合、すなわち、ユーザによる立体視画像の知覚位置Pが画像表示部110よりユーザ側である場合の音声制御部170による音声制御について説明する。
【0067】
図9は、ユーザによる立体視画像の知覚位置Pが画像表示部110よりユーザ側である場合の音声制御部170による音声制御を示した説明図である。この場合、音声制御部170は、本来のフロントスピーカL用の音声信号L1を、距離xに応じた音量比率でフロントスピーカLおよびリアスピーカLsに供給する。より具体的には、音声制御部170は、距離xが大きくなるほど高い比率で音声信号L1をリアスピーカLsに供給する。
【0068】
同様に、音声制御部170は、本来のフロントスピーカR用の音声信号R1を、距離xに応じた音量比率でフロントスピーカRおよびリアスピーカRsに供給する。より具体的には、音声制御部170は、距離xが大きくなるほど高い比率で音声信号R1をリアスピーカRsに供給する。
【0069】
また、音声制御部170は、距離xが大きくなるにつれて、リアスピーカLsに供給する本来のリアスピーカ用の音声信号L2を小さくし、リアスピーカRsに供給する本来のリアスピーカ用の音声信号R2を小さくする。
【0070】
一例として、音声制御部170は、下記数式により表現されるC1’、L1’、R1’、L2’、およびR2’を、各々センタースピーカC、フロントスピーカL、フロントスピーカR、リアスピーカLs、およびリアスピーカRsに供給してもよい。なお、下記数式におけるC1は、L1、R1、L2、およびR2は、対応するスピーカ用の本来の音声信号である。
【0071】
C1’=(1−x/D)C1
L1’=(1−x/D)L1
R1’=(1−x/D)R1
L2’=(1−x/D)L2+(x/D)L1+(1−x/D)C1/2
R2’=(1−x/D)R2+(x/D)R1+(1−x/D)C1/2
【0072】
(x=Dである場合)
なお、図10に示したように、映像解析部160により得られた距離xがユーザによる視聴距離Dと等しい場合、音声制御部170は上記数式に従い、下記数式により表現されるC1’、L1’、R1’、L2’、およびR2’を対応するスピーカに供給する。
【0073】
C1’=0
L1’=0
R1’=0
L2’=L1+C1/2
R2’=R1+C1/2
【0074】
(−D<x<0である場合)
次に、図11を参照し、映像解析部160により得られた距離xに関して「−D<x<0」が満たされる場合、すなわち、画像表示部110がユーザによる立体視画像の知覚位置Pよりユーザ側であり、xの絶対値がD未満である場合の音声制御について説明する。
【0075】
図11は、画像表示部110がユーザによる立体視画像の知覚位置Pよりユーザ側である場合の音声制御部170による音声制御を示した説明図である。この場合、音声制御部170は、本来のリアスピーカLs用の音声信号L2を、距離xに応じた音量比率でフロントスピーカLおよびリアスピーカLsに供給する。より具体的には、音声制御部170は、距離xの絶対値が大きくなるほど高い比率で音声信号L2をフロントスピーカLに供給する。
【0076】
同様に、音声制御部170は、本来のリアスピーカRs用の音声信号R2を、距離xに応じた音量比率でフロントスピーカRおよびリアスピーカRsに供給する。より具体的には、音声制御部170は、距離xの絶対値が大きくなるほど高い比率で音声信号R2をフロントスピーカRに供給する。
【0077】
また、音声制御部170は、距離xの絶対値が大きくなるにつれて、フロントスピーカLに供給する音声信号L1を小さくし、フロントスピーカRに供給する音声信号R1を小さくする。
【0078】
一例として、音声制御部170は、下記数式により表現されるC1’、L1’、R1’、L2’、およびR2’を、各々センタースピーカC、フロントスピーカL、フロントスピーカR、リアスピーカLs、およびリアスピーカRsに供給してもよい。
【0079】
C1’=(1−│x│/D)C1
L1’=(1−│x│/D)L1+(│x│/D)L2
R1’=(1−│x│/D)R1+(│x│/D)R2
L2’=(1−│x│/D)L2
R2’=(1−│x│/D)R2
【0080】
(−D=xである場合)
なお、図12に示したように、映像解析部160により得られた距離xの絶対値がユーザによる視聴距離Dと等しい場合、音声制御部170は上記数式に従い、下記数式により表現されるC1’、L1’、R1’、L2’、およびR2’を対応するスピーカに供給する。
【0081】
C1’=0
L1’=L2
R1’=R2
L2’=0
R2’=0
【0082】
(x<−Dである場合)
続いて、図13を参照し、映像解析部160により得られた距離xに関して「x<−D」が満たされる場合、すなわち、画像表示部110がユーザによる立体視画像の知覚位置Pよりユーザ側であり、xの絶対値がDを上回る場合の音声制御について説明する。
【0083】
図13は、画像表示部110がユーザによる立体視画像の知覚位置Pよりユーザ側である場合の音声制御部170による音声制御を示した説明図である。この場合、音声制御部170は、本来のリアスピーカLs用の音声信号L2を、距離xに応じた大きさでフロントスピーカLに供給する。より具体的には、音声制御部170は、距離xの絶対値が大きくなるほどフロントロントスピーカLに供給する音声信号L2を小さくする。
【0084】
同様に、音声制御部170は、本来のリアスピーカRs用の音声信号R2を、距離xに応じた大きさでフロントスピーカRに供給する。より具体的には、音声制御部170は、距離xの絶対値が大きくなるほどフロントロントスピーカRに供給する音声信号R2を小さくする。
【0085】
一例として、音声制御部170は、下記数式により表現されるC1’、L1’、R1’、L2’、およびR2’を、各々センタースピーカC、フロントスピーカL、フロントスピーカR、リアスピーカLs、およびリアスピーカRsに供給してもよい。
【0086】
C1’=0
L1’=(D/│x│)L2
R1’=(D/│x│)R2
L2’=0
R2’=0
【0087】
以上説明したように、本発明の実施形態による表示装置100は、左目用画像および右目用画像に基づく立体視画像のユーザによる代表知覚位置に応じ、各スピーカからの音声出力を制御することができる。
【0088】
<3.表示装置の動作>
次に、図14を参照し、本発明の実施形態による表示装置100の動作を簡潔にまとめる。
【0089】
図14は、本発明の実施形態による表示装置100の動作を示したフローチャートである。図14に示したように、まず、表示装置100の映像解析部160は、表示装置100の画面サイズ、およびユーザによる視聴距離などの情報を取得する(S210)。また、映像解析部160は、3D映像信号の入力に基づき、左目用画像と右目用画像の差分を取得する(S220)。
【0090】
そして、映像解析部160は、S210において取得した情報、および、左目用画像と右目用画像の差分に基づき、立体視画像のユーザによる代表知覚位置を推定する(S230)。すなわち、映像解析部160は、ユーザによる立体視画像の代表知覚位置と画像表示部110との間の距離xを算出する。なお、距離xは、「2−1.代表知覚位置の推定」において説明したように、多様な方法により算出することが可能である。その後、音声制御部170は、映像解析部160により算出された距離xに応じ、スピーカシステム180を構成する各スピーカからの音声出力を制御する(S240)。
【0091】
<4.まとめ>
以上説明したように、本発明の実施形態による表示装置100は、左目用画像および右目用画像に基づく立体視画像のユーザによる代表知覚位置に応じ、各スピーカからの音声出力を制御することができる。その結果、左目用画像および右目用画像からなる3D画像と音声信号の連携をより強調することが可能となる。
【0092】
例えば、表示装置100は、歌舞伎や演劇などのコンテンツに関し、舞台のユーザによる知覚位置が画像表示部110の後方である場合には、本来のリアスピーカ用の音声信号をフロントスピーカから出力させる。かかる構成により、舞台全体を遠くから眺めている感覚をより強くユーザに与えることが可能となる。また、表示装置100は、オーケストラ演奏などのコンテンツに関し、オーケストラのユーザによる知覚位置が画像表示部110よりユーザ側である場合には、本来のフロントスピーカ用の音声信号をリアスピーカから出力させる。かかる構成により、オーケストラの一員として演奏現場にいるような臨場感をより強くユーザに与えることが可能となる。
【0093】
なお、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0094】
例えば、上記実施形態では、立体視画像のうちで代表的な画像オブジェクトを顔検出技術により検出する例を説明したが、本発明はかかる例に限定されない。顔画像でなくても、動きを有する被写体は代表的な画像オブジェクトであると考えられる。そこで、表示装置100は、動きを有する被写体を立体視画像のうちで代表的な画像オブジェクトとして検出するために、一例として以下の処理を行ってもよい。
(ステップ1)
表示装置100は、各フレームに基づき、各フレームの撮像時における撮像装置の動きを検出する。撮像装置の動きには、撮像装置の位置の移動や、撮像装置による撮像方向の変化などが含まれる。この撮像装置の動きは、例えば、連続する2のフレームの差分に基づいて検出することができる。より具体的には、表示装置100は、フレームL−1を構成するブロックごとに、フレームLに対する動き予測を行い、ブロックごとの動きベクトルを得る。そして、表示装置100は、全ブロックの動きベクトルから、支配的な方向に対して大きく異なる動きベクトルを除き、他の動きベクトルから撮像装置の動きベクトルを検出する。
(ステップ2)
表示装置100は、フレームL−1を、ステップ1において検出した撮像装置の動きベクトルをキャンセルするようにフレームL−1を変換する。例えば、ステップ1において検出された撮像装置の動きベクトルの方向がQ、大きさがRであった場合、フレームL−1内の画像を、−Q方向に大きさRだけ移動させる。
(ステップ3)
表示装置100は、フレームLと、ステップ2による変換後のフレームL−1との差分画像を生成する。ここで、静止している物体であっても、撮像装置の動きにより、フレームLとフレームL−1における存在位置は異なる。しかし、上記のように、変換後のフレームL−1においては撮像装置の動きがキャンセルされているため、静止している物体のフレームLおよび変換後のフレームL−1における存在位置はほぼ一致すると考えられる。このため、フレームLと変換後のフレームL−1との差分画像においては、主に動きを有する被写体がフレーム間の差分として現れる。
(ステップ4)
表示装置100は、ステップ3で生成した差分画像から、動きを有する被写体を検出する。表示装置100は、このようにして動きを有する被写体を立体視画像のうちで代表的な画像オブジェクトとして検出できるので、動きを有する被写体のユーザによる知覚位置をユーザによる代表知覚位置として算出することできる。かかる構成により、表示装置100は、動きを有する被写体として例えばサーキットの立体視画像中でレーシングカーを検出し、ユーザによるレーシングカーの知覚位置に応じて音声制御を行うことが可能である。
【0095】
または、表示装置100は、撮像装置により追跡して撮像された被写体(追っかけ撮りされた被写体)を立体視画像のうちで代表的な画像オブジェクトとして検出し、ユーザによる当該被写体の知覚位置に応じて音声制御を行ってもよい。撮像装置により追跡して撮像された被写体を検出するための方法の一例を以下に説明する。
(ステップ1)
表示装置100は、各フレームに基づき、各フレームの撮像時における撮像装置の動きを検出する。
(ステップ2)
表示装置100は、ステップ1で検出した撮像装置の動き量が閾値を上回った区間を撮像装置が動いていた区間として判断する。
(ステップ3)
表示装置100は、撮像装置が動いていた区間において、所定長さ以上の区間にわたって検出された被写体を、追跡して撮像された被写体として検出する。
【0096】
また、上記では、各スピーカからの音声制御として、各スピーカから出力させる音声信号の音量を制御する例を説明したが、本発明はかかる例に限定されない。例えば、音量制御に代えて、または音量制御と共に、各スピーカから出力させる音声信号の位相を制御することも本発明の技術的範囲に属する。
【0097】
また、本明細書の表示装置100の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、表示装置100の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。また、表示装置100に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した表示装置100の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
【符号の説明】
【0098】
100 表示装置
110 画面表示部
120 映像信号制御部
130 シャッタ制御部
140 タイミング制御部
150 赤外線エミッタ
160 映像解析部
170 音声制御部
180 スピーカシステム


【特許請求の範囲】
【請求項1】
表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と;
前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部と;
を備える、音声処理装置。
【請求項2】
前記音声出力装置は、前方音声出力装置、および、前記前方音声出力装置より前記表示装置と離隔する位置に配置される後方音声出力装置を含み、
前記音声制御部は、前記代表知覚位置と基準面との距離に応じ、前記前方音声出力装置および前記後方音声出力装置による音声出力を制御する、請求項1に記載の音声処理装置。
【請求項3】
前記音声制御部は、前記代表知覚位置が前記基準面と一致する場合、前記前方音声出力装置には前記前方音声出力装置用の第1の音声信号を供給し、前記後方音声出力装置には前記後方音声出力装置用の第2の音声信号を供給する、請求項2に記載の音声処理装置。
【請求項4】
前記音声制御部は、前記代表知覚位置が前記基準面よりユーザ側である場合、前記第1の音声信号を、前記代表知覚位置と前記基準面との距離に応じた比率で前記前方音声出力装置および前記後方音声出力装置に供給する、請求項3に記載の音声処理装置。
【請求項5】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど高い比率で前記第1の音声信号を前記後方音声出力装置に供給する、請求項4に記載の音声処理装置。
【請求項6】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど前記後方音声出力装置に供給する前記第2の音声信号を小さくする、請求項5に記載の音声処理装置。
【請求項7】
前記音声制御部は、前記基準面が前記代表知覚位置よりユーザ側である場合、前記第2の音声信号を、前記代表知覚位置と前記基準面との距離に応じた比率で前記前方音声出力装置および前記後方音声出力装置に供給する、請求項3に記載の音声処理装置。
【請求項8】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど高い比率で前記第2の音声信号を前記前方音声出力装置に供給する、請求項7に記載の音声処理装置。
【請求項9】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど前記前方音声出力装置に供給する前記第1の音声信号を小さくする、請求項8に記載の音声処理装置。
【請求項10】
前記推定部は、前記左目用画像および前記右目用画像に含まれる1または2以上の画像オブジェクトのユーザによる知覚位置を推定し、前記1または2以上の画像オブジェクトの知覚位置に基づいて前記代表知覚位置を推定する、請求項1に記載の音声処理装置。
【請求項11】
前記推定部は、前記1または2以上の画像オブジェクトの知覚位置のうちのいずれかの知覚位置を前記代表知覚位置として推定する、請求項10に記載の音声処理装置。
【請求項12】
前記推定部は、前記1または2以上の画像オブジェクトの知覚位置の平均値を前記代表知覚位置として推定する、請求項10に記載の音声処理装置。
【請求項13】
前記推定部は、前記左目用画像および前記右目用画像を分割して得られる複数の領域の各々のユーザによる知覚位置を推定し、前記複数の領域の知覚位置の分布に基づいて前記代表知覚位置を推定する、請求項1に記載の音声処理装置。
【請求項14】
表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定するステップと;
前記代表知覚位置に応じ、音声出力装置による音声出力を制御するステップと;
を含む、音声処理方法。
【請求項15】
コンピュータを、
表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と;
前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部と;
として機能させるための、プログラム。








【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2012−15728(P2012−15728A)
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願番号】特願2010−149365(P2010−149365)
【出願日】平成22年6月30日(2010.6.30)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】