音声処理装置、音声処理方法、およびプログラム

【課題】音声処理装置、音声処理方法、およびプログラムを提供する。
【解決手段】表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と、前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部とを備える、音声処理装置。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声処理装置、音声処理方法、およびプログラムに関する。
【背景技術】
【０００２】
近日、左目用画像および右目用画像を表示することによりユーザに立体視画像を知覚させることが可能な３Ｄ表示装置が流通している。３Ｄ用に制作されるテレビジョン映像や映画が増加傾向にあること、２Ｄ画像を３Ｄ画像に変換する技術が盛んに研究されていることなどから、３Ｄ表示装置は今後さらに普及すると予想される。なお、３Ｄ表示装置について記載された文献として下記の特許文献１が挙げられる。
【０００３】
また、音声については、５．１ｃｈのようにマルチチャンネル化されたシステムが存在する。このシステムでは、左右のフロントスピーカ、左右のリアスピーカ、センタースピーカなどの複数のスピーカに、各スピーカ用に生成された音声を出力させることにより、ユーザに臨場感のある音場を提供することが可能である。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００４−３８９３３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかし、２Ｄ画像を３Ｄ画像に変換する場合、２Ｄ画像用の音声と変換後の３Ｄ画像との連携が疎になってしまうことが懸念される。また、３Ｄ画像用の音声は３Ｄ画像を考慮して制作されるが、従来の３Ｄ表示装置では、３Ｄ画像と３Ｄ画像用の音声との連携をより強調することが困難であった。
【０００６】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、立体視画像と音声との連携をより強調することが可能な、新規かつ改良された音声処理装置、音声処理方法、およびプログラムを提供することにある。
【課題を解決するための手段】
【０００７】
上記課題を解決するために、本発明のある観点によれば、表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と、前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部と、を備える音声処理装置が提供される。
【０００８】
前記音声出力装置は、前方音声出力装置、および、前記前方音声出力装置より前記表示装置と離隔する位置に配置される後方音声出力装置を含み、前記音声制御部は、前記代表知覚位置と基準面との距離に応じ、前記前方音声出力装置および前記後方音声出力装置による音声出力を制御してもよい。
【０００９】
前記音声制御部は、前記代表知覚位置が前記基準面と一致する場合、前記前方音声出力装置には前記前方音声出力装置用の第１の音声信号を供給し、前記後方音声出力装置には前記後方音声出力装置用の第２の音声信号を供給してもよい。
【００１０】
前記音声制御部は、前記代表知覚位置が前記基準面よりユーザ側である場合、前記第１の音声信号を、前記代表知覚位置と前記基準面との距離に応じた比率で前記前方音声出力装置および前記後方音声出力装置に供給してもよい。
【００１１】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど高い比率で前記第１の音声信号を前記後方音声出力装置に供給してもよい。
【００１２】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど前記後方音声出力装置に供給する前記第２の音声信号を小さくしてもよい。
【００１３】
前記音声制御部は、前記基準面が前記代表知覚位置よりユーザ側である場合、前記第２の音声信号を、前記代表知覚位置と前記基準面との距離に応じた比率で前記前方音声出力装置および前記後方音声出力装置に供給してもよい。
【００１４】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど高い比率で前記第２の音声信号を前記前方音声出力装置に供給してもよい。
【００１５】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど前記前方音声出力装置に供給する前記第１の音声信号を小さくしてもよい。
【００１６】
前記推定部は、前記左目用画像および前記右目用画像に含まれる１または２以上の画像オブジェクトのユーザによる知覚位置を推定し、前記１または２以上の画像オブジェクトの知覚位置に基づいて前記代表知覚位置を推定してもよい。
【００１７】
前記推定部は、前記１または２以上の画像オブジェクトの知覚位置のうちのいずれかの知覚位置を前記代表知覚位置として推定してもよい。
【００１８】
前記推定部は、前記１または２以上の画像オブジェクトの知覚位置の平均値を前記代表知覚位置として推定してもよい。
【００１９】
前記推定部は、前記左目用画像および前記右目用画像を分割して得られる複数の領域の各々のユーザによる知覚位置を推定し、前記複数の領域の知覚位置の分布に基づいて前記代表知覚位置を推定してもよい。
【００２０】
また、上記課題を解決するために、本発明の別の観点によれば、表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定するステップと、前記代表知覚位置に応じ、音声出力装置による音声出力を制御するステップと、を含む音声処理方法が提供される。
【００２１】
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と、前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部と、として機能させるためのプログラムが提供される。
【発明の効果】
【００２２】
以上説明したように本発明によれば、立体視画像と音声との連携をより強調することが可能である。
【図面の簡単な説明】
【００２３】
【図１】本発明の実施形態による表示装置の外観を示した説明図である。
【図２】本発明の実施形態による表示装置の構成を示した機能ブロック図である。
【図３】画像表示部のサイズ標記を説明するための図面である。
【図４】画像オブジェクトの検出例を示した説明図である。
【図５】左目用画像および右目用画像に含まれる画像オブジェクトの表示位置と立体視画像の知覚位置との関係を示した説明図である。
【図６】画像分割の一例を示した説明図である。
【図７】エリアごとの距離ｘｍの具体例を示した説明図である。
【図８】ユーザによる立体視画像の知覚位置Ｐが画像表示部と一致する場合の音声制御部による音声制御を示した説明図である。
【図９】ユーザによる立体視画像の知覚位置Ｐが画像表示部よりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図１０】ユーザによる立体視画像の知覚位置Ｐが画像表示部よりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図１１】画像表示部がユーザによる立体視画像の知覚位置Ｐよりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図１２】画像表示部がユーザによる立体視画像の知覚位置Ｐよりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図１３】画像表示部がユーザによる立体視画像の知覚位置Ｐよりユーザ側である場合の音声制御部による音声制御を示した説明図である。
【図１４】本発明の実施形態による表示装置の動作を示したフローチャートである。
【発明を実施するための形態】
【００２４】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【００２５】
また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
１．本発明の実施形態による表示装置の概要
２．表示装置の構成
２−１．代表知覚位置の推定
（第１の例）
（第２の例）
２−２．音声制御の具体例
３．表示装置の動作
４．まとめ
【００２６】
＜１．本発明の実施形態による表示装置の概要＞
まず、図１を参照し、本発明の実施形態による表示装置１００の概要を説明する。
【００２７】
図１は、本発明の実施形態による表示装置１００の外観を示した説明図である。なお、図１には、ユーザが着用するシャッタ眼鏡２００も表示装置１００と併せて示している。
【００２８】
図１に示したように、表示装置１００は、画像が表示される画像表示部１１０を備える。表示装置１００は、左目用画像および右目用画像を画像表示部１１０に表示することにより、ユーザに立体視画像を知覚させることができる。また、この表示装置１００は、「２．表示装置の構成」において詳細に説明するように、スピーカシステムを構成する各スピーカからの音声出力を制御する音声処理装置としての機能も有する。
【００２９】
シャッタ眼鏡２００は、例えば液晶シャッタからなる右目用画像透過部２１２及び左目用画像透過部２１４を含む。シャッタ眼鏡２００は、表示装置１００から送出される信号に応じて、右目用画像透過部２１２及び左目用画像透過部２１４の開閉動作を実行する。ユーザは、シャッタ眼鏡２００の右目用画像透過部２１２及び左目用画像透過部２１４を通して、画像表示部１１０から発する光を見ることで、画像表示部１１０に表示される左目用画像および右目用画像を立体視画像として知覚することが出来る。
【００３０】
一方、通常の２Ｄ画像が画像表示部１１０に表示されている場合は、ユーザはそのまま画像表示部１１０から出射される光を見ることで、画像表示部１１０に表示される画像を通常の２Ｄ画像として知覚することができる。
【００３１】
なお、図１では、音声処理装置の一例として表示装置１００を示したが、音声処理装置はかかる例に限定されない。例えば、音声処理装置は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、家庭用映像処理装置（ＤＶＤレコーダ、ビデオデッキなど）、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、家庭用ゲーム機器、携帯電話、携帯用映像処理装置、携帯用ゲーム機器などの情報処理装置であってもよい。
【００３２】
また、本明細書においては、左目用画像が左目によって知覚され、右目用画像が右目によって知覚されるようにするためにシャッタ動作を利用する制御方式を説明するが、制御方式はかかる例に限定されない。例えば、左目用の偏光フィルタおよび右目用の偏光フィルタを用いることによっても同等な効果を得ることが可能である。
【００３３】
＜２．表示装置の構成＞
以上、本発明の実施形態による表示装置１００の概要を説明した。次に、図２を参照し、本発明の実施形態による表示装置１００の構成を説明する。
【００３４】
図２は、本発明の実施形態による表示装置１００の構成を示した機能ブロック図である。図２に示したように、表示装置１００は、画像表示部１１０と、映像信号制御部１２０と、シャッタ制御部１３０と、タイミング制御部１４０と、赤外線エミッタ１５０と、映像解析部１６０と、音声制御部１７０と、スピーカシステム１８０と、を備える。
【００３５】
画像表示部１１０は、上述したように画像の表示を行うための構成であり、外部から信号が印加されると、印加された信号に応じた画像を表示する。この画像表示部１１０は、図２に示したように、表示パネル１１２と、ゲートドライバ１１３と、データドライバ１１４と、バックライト１１５と、を含んで構成される。
【００３６】
表示パネル１１２は、外部からの信号の印加に応じて画像を表示するものである。表示パネル１１２は、複数の走査線に対する順次走査により画像を表示する。表示パネル１１２は、ガラス等の透明板の間に所定の配向状態を有する液晶分子が封入されている。表示パネル１１２の駆動方式は、ＴＮ（ＴｗｉｓｔｅｄＮｅｍａｔｉｃ）方式、ＶＡ（ＶｉｒｔｉｃａｌＡｌｉｇｎｍｅｎｔ）方式、またはＩＰＳ（Ｉｎ−Ｐｌａｃｅ−Ｓｗｉｔｃｈｉｎｇ）方式であってもよい。本発明の実施形態による表示パネル１１２は、外部からの信号印加に応じ、右目用画像と左目用画像を所定のタイミングで交互に表示する。
【００３７】
ゲートドライバ１１３は、表示パネル１１２のゲートバスライン（図示せず）を駆動するためのドライバである。ゲートドライバ１１３にはタイミング制御部１４０から信号が伝送され、ゲートドライバ１１３はタイミング制御部１４０から伝送された信号に応じてゲートバスラインへ信号を出力する。
【００３８】
データドライバ１１４は、表示パネル１１２のデータ線（図示せず）に印加するための信号を生成するためのドライバである。データドライバ１１４にはタイミング制御部１４０から信号が伝送され、データドライバ１１４はタイミング制御部１４０から伝送された信号に応じてデータ線へ印加する信号を生成して出力する。
【００３９】
バックライト１１５は、ユーザ側から見て画像表示部１１０の一番奥に設けられるものである。画像表示部１１０に画像を表示する際には、バックライト１１５からは偏光されていない（無偏光の）白色光がユーザ側に位置する表示パネル１１２に出射される。バックライト１１５としては、例えば発光ダイオードを用いてもよいし、冷陰極管を用いてもよい。なお、図２では、バックライト１１５として面光源を示しているが、本発明においては光源の形態はかかる例に限定されない。例えば、表示パネル１１２の周辺部に光源を配置し、当該光源からの光を拡散板等で拡散することで表示パネル１１２に光を出射してもよい。また例えば、面光源の替わりに点光源と集光レンズを組み合わせてもよい。
【００４０】
映像信号制御部１２０は、左目用画像および右目用画像を表示するための３Ｄ映像信号が入力されると、左目用画像および右目用画像を画像表示部１１０において交互に表示するための映像信号を生成する。映像信号制御部１２０により生成された映像信号はタイミング制御部１４０に伝送される。
【００４１】
シャッタ制御部１３０は、映像信号制御部１２０における信号処理に応じて生成される所定の信号の伝送を受け、当該信号に応じてシャッタ眼鏡２００のシャッタ動作を制御するシャッタ制御信号を生成する。シャッタ眼鏡２００では、シャッタ制御部１３０で生成され、赤外線エミッタ１５０から発せされるシャッタ制御信号に基づいて、右目用画像透過部２１２及び左目用画像透過部２１４の開閉動作を実行する。具体的には、表示パネル１１２に左目用画像が表示されている間には左目用画像透過部２１４が開かれ、表示パネル１１２に右目用画像が表示されている間には右目用画像透過部２１２が開かれるようにシャッタ動作が実行される。
【００４２】
タイミング制御部１４０は、映像信号制御部１２０から伝送される信号に応じて、ゲートドライバ１１３およびデータドライバ１１４の動作に用いられるパルス信号を生成する。タイミング制御部１４０でパルス信号を生成して、ゲートドライバ１１３およびデータドライバ１１４がタイミング制御部１４０で生成されたパルス信号を受けることで、映像信号制御部１２０から伝送される映像信号に応じた画像が表示パネル１１２に表示される。
【００４３】
映像解析部１６０は、３Ｄ映像信号に基づく立体視画像のユーザによる代表知覚位置を推定する推定部として機能する。この推定のために、映像解析部１６０には、３Ｄ映像信号、画像表示部１１０の画面サイズ、ユーザおよび画像表示部１１０間の視聴距離などの情報が供給される。なお、画像表示部１１０の画面サイズ、ユーザおよび画像表示部１１０間の視聴距離などの情報は、表示装置１００に設定されていてもよいし、ユーザ操作により入力されてもよい。また、代表知覚位置の推定方法については、「２−１．代表知覚位置の推定」において詳細に説明する。
【００４４】
音声制御部１７０は、映像解析部１６０により推定された代表知覚位置に応じ、スピーカシステム１８０（音声出力装置）からの音声出力を制御する。具体的には、スピーカシステム１８０は、センタースピーカＣ、フロントスピーカＬ（前方音声出力装置）、フロントスピーカＲ（前方音声出力装置）、リアスピーカＬｓ（後方音声出力装置）、およびリアスピーカＲｓ（後方音声出力装置）を含み、音声制御部１７０は、これら各スピーカ用からの音声出力を制御する。この音声制御部１７０による音声制御については、「２−２．音声制御の具体例」において詳細に説明する。
【００４５】
以上、本発明の実施形態による表示装置１００の構成を説明した。以下、映像解析部１６０による代表知覚位置の推定、および音声制御部１７０による音声制御についてより詳細に説明する。
【００４６】
[２−１．代表知覚位置の推定]
（第１の例）
代表知覚位置の推定には、画像表示部１１０の１ピクセルあたりの大きさが用いられる。したがって、この１ピクセルあたりの大きさが未知である場合、映像解析部１６０は、画像表示部１１０の画面サイズ情報から１ピクセルあたりの大きさ（ｐｉｘｅｌ＿ｃｍ）を算出する。
【００４７】
例えば、画面サイズ情報として、以下の値が既知である場合を考える。
ＴＶ＿ＩＮＣＨ：画像表示部１１０の大きさ［ｉｎｃｈ］
ＴＶ＿ＷＩＤＴＨ＿ＰＩＸＥＬ：有効画面（横）のピクセル数［ｐｉｘｅｌ］
ＴＶ＿ＨＥＩＧＨＴ＿ＰＩＸＥＬ：有効画面（縦）のピクセル数［ｐｉｘｅｌ］
【００４８】
この場合、図３に示した下記の値を画面サイズ情報から算出することができる。
ｔｖ＿ｓｉｚｅ＿ｐｉｘｅｌ：有効画面の大きさ［ｐｉｘｅｌ］
ｔｖ＿ｓｉｚｅ：有効画面の大きさ［ｃｍ］
ｔｖ＿ｗｉｄｔｈ：有効画面の横幅［ｃｍ］
ｔｖ＿ｈｅｉｇｈｔ：有効画面の高さ［ｃｍ］
【００４９】
例えば、ｔｖ＿ｓｉｚｅ＿ｐｉｘｅｌおよびｔｖ＿ｓｉｚｅは、以下の数式に従って算出される。
ｔｖ＿ｓｉｚｅ＿ｐｉｘｅｌ
＝ｓｑｒｔ（ＴＶ＿ＷＩＤＴＨ＿ＰＩＸＥＬ＾２
＋ＴＶ＿ＨＥＩＧＨＴ＿ＰＩＸＥＬ＾２）
ｔｖ＿ｓｉｚｅ＝ＴＶ＿ＩＮＣＨ×２．５４
【００５０】
さらに、１ピクセルあたりの大きさであるｐｉｘｅｌ＿ｃｍは、ｔｖ＿ｓｉｚｅ＿ｐｉｘｅｌおよびｔｖ＿ｓｉｚｅから、以下の数式に従って算出される。
ｐｉｘｅｌ＿ｃｍ＝ｔｖ＿ｓｉｚｅ／ｔｖ＿ｓｉｚｅ＿ｐｉｘｅｌ
【００５１】
具体例として、ＴＶ＿ＩＮＣＨが４０ｉｎｃｈであり、ＴＶ＿ＷＩＤＴＨ＿ＰＩＸＥＬが１９２０ｐｉｘｅｌであり、ＴＶ＿ＨＥＩＧＨＴ＿ＰＩＸＥＬが１０８０ｐｉｘｅｌである場合、各値は以下のように算出される。
ｔｖ＿ｓｉｚｅ＿ｐｉｘｅｌ＝２２０２．９ｐｉｘｅｌ
ｔｖ＿ｓｉｚｅ＝１０１．６ｃｍ
ｐｉｘｅｌ＿ｃｍ＝０．０４６１ｃｍ

【００５２】
映像解析部１６０は、上記のｐｉｘｅｌ＿ｃｍ、左目用画像および右目用画像の差分に基づき、ユーザによる立体視画像の代表知覚位置を推定する。すなわち、映像解析部１６０は、ユーザによる立体視画像の代表知覚位置と画像表示部１１０との間の距離ｘを算出する。ここで、代表知覚位置は、立体視画像のうちで代表的な画像オブジェクト（部分）のユーザによる知覚位置であってもよい。以下、この画像オブジェクトの検出について図４を参照して簡単に説明した後、図５を参照して距離ｘの算出方法を説明する。
【００５３】
映像解析部１６０は、例えば、顔検出技術を用いることにより左目用画像および右目用画像に含まれる顔画像を画像オブジェクトとして検出する。その結果、１の顔画像のみが検出された場合、映像解析部１６０は、当該顔画像のユーザによる知覚位置を代表知覚位置として扱い、当該顔画像に関する距離ｘを以下に説明する方法により算出する。一方、図４に示したように複数の顔画像Ａ〜Ｃが検出された場合、映像解析部１６０は、いずれかの顔画像を選択し、選択した顔画像に関する距離ｘを算出してもよい。または、映像解析部１６０は、顔画像Ａ〜Ｃに関する距離ｘ（Ａ）〜ｘ（Ｃ）を算出し、距離ｘ（Ａ）〜ｘ（Ｃ）の平均値を距離ｘとして算出してもよい。
【００５４】
図５は、左目用画像および右目用画像に含まれる画像オブジェクトの表示位置と立体視画像の知覚位置との関係を示した説明図である。映像解析部１６０は、図５に示したように、左目用画像に含まれる画像オブジェクトと、右目用画像に含まれるある画像オブジェクトの水平方向の表示位置の差分であるＬＲ＿ＤＩＦＦ＿ＰＩＸＥＬ（ｐｉｘｅｌ）を、上記のｐｉｘｅｌ＿ｃｍを用いてｃｍ単位の値に換算する（下記数式参照）。
ｌｒ＿ｄｉｆｆ＝ＬＲ＿ＤＩＦＦ＿ＰＩＸＥＬ×ｐｉｘｅｌ＿ｃｍ
【００５５】
ここで、画像表示部１１０とユーザ間の距離Ｄ（ｃｍ）およびユーザの目の間隔Ｅ（ｃｍ）が既知である場合、映像解析部１６０は、画像オブジェクトのユーザによる知覚位置の画像表示部１１０からの距離ｘ（ｃｍ）を、以下の数式に従って算出することができる。
ｘ＝ｌｒ＿ｄｉｆｆ×Ｄ／（Ｅ＋ｌｒ＿ｄｉｆｆ）
【００５６】
具体例として、ＬＲ＿ＤＩＦＦ＿ＰＩＸＥＬが１０ｐｉｘｅｌであり、ｐｉｘｅｌ＿ｃｍが０．０４６１ｃｍであり、距離Ｄが２５０ｃｍであり、間隔Ｅが６ｃｍである場合、ｌｒ＿ｄｉｆｆおよび距離ｘは以下の値となる。なお、ユーザによる画像オブジェクトの知覚位置が画像表示部１１０の裏側である場合、距離ｘは負の値となる。
ｌｒ＿ｄｉｆｆ＝０．４６１２ｃｍ
ｘ＝１７．８４５ｃｍ
【００５７】
（第２の例）
第１の例においては、代表知覚位置が、立体視画像のうちで代表的な画像オブジェクト（部分）のユーザによる知覚位置である例を説明したが、代表知覚位置はかかる例に限定されない。例えば、代表知覚位置は、以下に説明するように、立体視画像を構成する各領域のユーザによる知覚位置のうちで支配的であると考えられる位置であってもよい。
【００５８】
このような代表知覚位置の推定のために、第２の例においては、左目用画像および右目用画像を分割して複数の領域を定義し、各領域のユーザによる知覚位置と画像表示部１１０との距離を推定し、各領域に関して推定された距離の分布に基づいて距離ｘを算出する。以下、図６および図７を参照してより詳細に説明する。
【００５９】
図６は、画像分割の一例を示した説明図である。図６に示したように、映像解析部１６０は、左目用画像および右目用画像においてエリア０〜エリアＮを定める。なお、各エリアの形状およびサイズは特に限定されず、各エリアは例えば１０×１０ｐｉｘｅｌで構成されてもよい。
【００６０】
そして、映像解析部１６０は、エリアごとに、当該エリア内の画像のユーザによる知覚位置と画像表示部１１０との距離ｘｍ（０≦ｍ≦Ｎ）を第１の例において説明した方法に準じて算出する。例えばエリア数が１０である場合、映像解析部１６０は、図７に示したように、エリア０〜エリア９ごとに距離ｘ０〜ｘ９を算出する。
【００６１】
さらに、映像解析部１６０は、エリアごとに算出された距離ｘｍの分布に基づいて距離ｘを特定する。例えば、映像解析部１６０は、エリアごとに算出された距離ｘｍのうちで、最も多い値を距離ｘとして扱ってもよい。この方法によれば、図７に示した例では、エリアごとに算出された距離ｘ０〜ｘ９のうちで最も多い値である４ｃｍが距離ｘとして扱われる。
【００６２】
または、映像解析部１６０は、所定の値幅ごとに当該値幅に含まれる距離ｘｍの数を集計し、最も距離ｘｍを多く含む値幅に基づいて距離ｘを特定してもよい。例えば、０〜５ｃｍ、５〜１０ｃｍというように、５ｃｍ幅ごとの値幅に該当する距離ｘ（エリア）の数を集計する場合、図７に示した例では、２０〜２５ｃｍの値幅に含まれる距離ｘｍの数が最も多くなる。この場合、映像解析部１６０は、当該値幅の最小値である２０ｃｍを距離ｘとして扱ってもよいし、当該値幅に含まれる距離ｘｍの平均値を距離ｘとして扱ってもよい。
【００６３】
[２−２．音声制御の具体例]
音声制御部１７０は、映像解析部１６０により上記のようにして得られた距離ｘに基づき、スピーカシステム１８０からの音声出力を制御する。以下、図８〜図１３を参照し、音声制御部１７０による音声出力の制御について具体的に説明する。
【００６４】
（ｘ＝０である場合）
映像解析部１６０により得られた距離ｘが「０」である場合、すなわち、ユーザによる立体視画像の知覚位置Ｐが画像表示部１１０の配置位置（基準面の一例）と一致する場合、音声制御部１７０は、各スピーカ用の音声信号を対応するスピーカからそのまま出力させる。
【００６５】
具体的には、音声制御部１７０は、図８に示したように、センタースピーカＣ用の音声信号Ｃ１をセンタースピーカＣに供給し、フロントスピーカＬ用の音声信号Ｌ１をフロントスピーカＬに供給し、フロントスピーカＲ用の音声信号Ｒ１をフロントスピーカＲに供給する。同様に、音声制御部１７０は、リアスピーカＬｓ用の音声信号Ｌ２をリアスピーカＬｓに供給し、リアスピーカＲｓ用の音声信号Ｒ２をリアスピーカＲｓに供給する。
【００６６】
（ｘ＞０である場合）
続いて、図９を参照し、映像解析部１６０により得られた距離ｘが「０」より大きい場合、すなわち、ユーザによる立体視画像の知覚位置Ｐが画像表示部１１０よりユーザ側である場合の音声制御部１７０による音声制御について説明する。
【００６７】
図９は、ユーザによる立体視画像の知覚位置Ｐが画像表示部１１０よりユーザ側である場合の音声制御部１７０による音声制御を示した説明図である。この場合、音声制御部１７０は、本来のフロントスピーカＬ用の音声信号Ｌ１を、距離ｘに応じた音量比率でフロントスピーカＬおよびリアスピーカＬｓに供給する。より具体的には、音声制御部１７０は、距離ｘが大きくなるほど高い比率で音声信号Ｌ１をリアスピーカＬｓに供給する。
【００６８】
同様に、音声制御部１７０は、本来のフロントスピーカＲ用の音声信号Ｒ１を、距離ｘに応じた音量比率でフロントスピーカＲおよびリアスピーカＲｓに供給する。より具体的には、音声制御部１７０は、距離ｘが大きくなるほど高い比率で音声信号Ｒ１をリアスピーカＲｓに供給する。
【００６９】
また、音声制御部１７０は、距離ｘが大きくなるにつれて、リアスピーカＬｓに供給する本来のリアスピーカ用の音声信号Ｌ２を小さくし、リアスピーカＲｓに供給する本来のリアスピーカ用の音声信号Ｒ２を小さくする。
【００７０】
一例として、音声制御部１７０は、下記数式により表現されるＣ１’、Ｌ１’、Ｒ１’、Ｌ２’、およびＲ２’を、各々センタースピーカＣ、フロントスピーカＬ、フロントスピーカＲ、リアスピーカＬｓ、およびリアスピーカＲｓに供給してもよい。なお、下記数式におけるＣ１は、Ｌ１、Ｒ１、Ｌ２、およびＲ２は、対応するスピーカ用の本来の音声信号である。
【００７１】
Ｃ１’＝（１−ｘ／Ｄ）Ｃ１
Ｌ１’＝（１−ｘ／Ｄ）Ｌ１
Ｒ１’＝（１−ｘ／Ｄ）Ｒ１
Ｌ２’＝（１−ｘ／Ｄ）Ｌ２＋（ｘ／Ｄ）Ｌ１＋（１−ｘ／Ｄ）Ｃ１／２
Ｒ２’＝（１−ｘ／Ｄ）Ｒ２＋（ｘ／Ｄ）Ｒ１＋（１−ｘ／Ｄ）Ｃ１／２
【００７２】
（ｘ＝Ｄである場合）
なお、図１０に示したように、映像解析部１６０により得られた距離ｘがユーザによる視聴距離Ｄと等しい場合、音声制御部１７０は上記数式に従い、下記数式により表現されるＣ１’、Ｌ１’、Ｒ１’、Ｌ２’、およびＲ２’を対応するスピーカに供給する。
【００７３】
Ｃ１’＝０
Ｌ１’＝０
Ｒ１’＝０
Ｌ２’＝Ｌ１＋Ｃ１／２
Ｒ２’＝Ｒ１＋Ｃ１／２
【００７４】
（−Ｄ＜ｘ＜０である場合）
次に、図１１を参照し、映像解析部１６０により得られた距離ｘに関して「−Ｄ＜ｘ＜０」が満たされる場合、すなわち、画像表示部１１０がユーザによる立体視画像の知覚位置Ｐよりユーザ側であり、ｘの絶対値がＤ未満である場合の音声制御について説明する。
【００７５】
図１１は、画像表示部１１０がユーザによる立体視画像の知覚位置Ｐよりユーザ側である場合の音声制御部１７０による音声制御を示した説明図である。この場合、音声制御部１７０は、本来のリアスピーカＬｓ用の音声信号Ｌ２を、距離ｘに応じた音量比率でフロントスピーカＬおよびリアスピーカＬｓに供給する。より具体的には、音声制御部１７０は、距離ｘの絶対値が大きくなるほど高い比率で音声信号Ｌ２をフロントスピーカＬに供給する。
【００７６】
同様に、音声制御部１７０は、本来のリアスピーカＲｓ用の音声信号Ｒ２を、距離ｘに応じた音量比率でフロントスピーカＲおよびリアスピーカＲｓに供給する。より具体的には、音声制御部１７０は、距離ｘの絶対値が大きくなるほど高い比率で音声信号Ｒ２をフロントスピーカＲに供給する。
【００７７】
また、音声制御部１７０は、距離ｘの絶対値が大きくなるにつれて、フロントスピーカＬに供給する音声信号Ｌ１を小さくし、フロントスピーカＲに供給する音声信号Ｒ１を小さくする。
【００７８】
一例として、音声制御部１７０は、下記数式により表現されるＣ１’、Ｌ１’、Ｒ１’、Ｌ２’、およびＲ２’を、各々センタースピーカＣ、フロントスピーカＬ、フロントスピーカＲ、リアスピーカＬｓ、およびリアスピーカＲｓに供給してもよい。
【００７９】
Ｃ１’＝（１−│ｘ│／Ｄ）Ｃ１
Ｌ１’＝（１−│ｘ│／Ｄ）Ｌ１＋（│ｘ│／Ｄ）Ｌ２
Ｒ１’＝（１−│ｘ│／Ｄ）Ｒ１＋（│ｘ│／Ｄ）Ｒ２
Ｌ２’＝（１−│ｘ│／Ｄ）Ｌ２
Ｒ２’＝（１−│ｘ│／Ｄ）Ｒ２
【００８０】
（−Ｄ＝ｘである場合）
なお、図１２に示したように、映像解析部１６０により得られた距離ｘの絶対値がユーザによる視聴距離Ｄと等しい場合、音声制御部１７０は上記数式に従い、下記数式により表現されるＣ１’、Ｌ１’、Ｒ１’、Ｌ２’、およびＲ２’を対応するスピーカに供給する。
【００８１】
Ｃ１’＝０
Ｌ１’＝Ｌ２
Ｒ１’＝Ｒ２
Ｌ２’＝０
Ｒ２’＝０
【００８２】
（ｘ＜−Ｄである場合）
続いて、図１３を参照し、映像解析部１６０により得られた距離ｘに関して「ｘ＜−Ｄ」が満たされる場合、すなわち、画像表示部１１０がユーザによる立体視画像の知覚位置Ｐよりユーザ側であり、ｘの絶対値がＤを上回る場合の音声制御について説明する。
【００８３】
図１３は、画像表示部１１０がユーザによる立体視画像の知覚位置Ｐよりユーザ側である場合の音声制御部１７０による音声制御を示した説明図である。この場合、音声制御部１７０は、本来のリアスピーカＬｓ用の音声信号Ｌ２を、距離ｘに応じた大きさでフロントスピーカＬに供給する。より具体的には、音声制御部１７０は、距離ｘの絶対値が大きくなるほどフロントロントスピーカＬに供給する音声信号Ｌ２を小さくする。
【００８４】
同様に、音声制御部１７０は、本来のリアスピーカＲｓ用の音声信号Ｒ２を、距離ｘに応じた大きさでフロントスピーカＲに供給する。より具体的には、音声制御部１７０は、距離ｘの絶対値が大きくなるほどフロントロントスピーカＲに供給する音声信号Ｒ２を小さくする。
【００８５】
一例として、音声制御部１７０は、下記数式により表現されるＣ１’、Ｌ１’、Ｒ１’、Ｌ２’、およびＲ２’を、各々センタースピーカＣ、フロントスピーカＬ、フロントスピーカＲ、リアスピーカＬｓ、およびリアスピーカＲｓに供給してもよい。
【００８６】
Ｃ１’＝０
Ｌ１’＝（Ｄ／│ｘ│）Ｌ２
Ｒ１’＝（Ｄ／│ｘ│）Ｒ２
Ｌ２’＝０
Ｒ２’＝０
【００８７】
以上説明したように、本発明の実施形態による表示装置１００は、左目用画像および右目用画像に基づく立体視画像のユーザによる代表知覚位置に応じ、各スピーカからの音声出力を制御することができる。
【００８８】
＜３．表示装置の動作＞
次に、図１４を参照し、本発明の実施形態による表示装置１００の動作を簡潔にまとめる。
【００８９】
図１４は、本発明の実施形態による表示装置１００の動作を示したフローチャートである。図１４に示したように、まず、表示装置１００の映像解析部１６０は、表示装置１００の画面サイズ、およびユーザによる視聴距離などの情報を取得する（Ｓ２１０）。また、映像解析部１６０は、３Ｄ映像信号の入力に基づき、左目用画像と右目用画像の差分を取得する（Ｓ２２０）。
【００９０】
そして、映像解析部１６０は、Ｓ２１０において取得した情報、および、左目用画像と右目用画像の差分に基づき、立体視画像のユーザによる代表知覚位置を推定する（Ｓ２３０）。すなわち、映像解析部１６０は、ユーザによる立体視画像の代表知覚位置と画像表示部１１０との間の距離ｘを算出する。なお、距離ｘは、「２−１．代表知覚位置の推定」において説明したように、多様な方法により算出することが可能である。その後、音声制御部１７０は、映像解析部１６０により算出された距離ｘに応じ、スピーカシステム１８０を構成する各スピーカからの音声出力を制御する（Ｓ２４０）。
【００９１】
＜４．まとめ＞
以上説明したように、本発明の実施形態による表示装置１００は、左目用画像および右目用画像に基づく立体視画像のユーザによる代表知覚位置に応じ、各スピーカからの音声出力を制御することができる。その結果、左目用画像および右目用画像からなる３Ｄ画像と音声信号の連携をより強調することが可能となる。
【００９２】
例えば、表示装置１００は、歌舞伎や演劇などのコンテンツに関し、舞台のユーザによる知覚位置が画像表示部１１０の後方である場合には、本来のリアスピーカ用の音声信号をフロントスピーカから出力させる。かかる構成により、舞台全体を遠くから眺めている感覚をより強くユーザに与えることが可能となる。また、表示装置１００は、オーケストラ演奏などのコンテンツに関し、オーケストラのユーザによる知覚位置が画像表示部１１０よりユーザ側である場合には、本来のフロントスピーカ用の音声信号をリアスピーカから出力させる。かかる構成により、オーケストラの一員として演奏現場にいるような臨場感をより強くユーザに与えることが可能となる。
【００９３】
なお、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【００９４】
例えば、上記実施形態では、立体視画像のうちで代表的な画像オブジェクトを顔検出技術により検出する例を説明したが、本発明はかかる例に限定されない。顔画像でなくても、動きを有する被写体は代表的な画像オブジェクトであると考えられる。そこで、表示装置１００は、動きを有する被写体を立体視画像のうちで代表的な画像オブジェクトとして検出するために、一例として以下の処理を行ってもよい。
（ステップ１）
表示装置１００は、各フレームに基づき、各フレームの撮像時における撮像装置の動きを検出する。撮像装置の動きには、撮像装置の位置の移動や、撮像装置による撮像方向の変化などが含まれる。この撮像装置の動きは、例えば、連続する２のフレームの差分に基づいて検出することができる。より具体的には、表示装置１００は、フレームＬ−１を構成するブロックごとに、フレームＬに対する動き予測を行い、ブロックごとの動きベクトルを得る。そして、表示装置１００は、全ブロックの動きベクトルから、支配的な方向に対して大きく異なる動きベクトルを除き、他の動きベクトルから撮像装置の動きベクトルを検出する。
（ステップ２）
表示装置１００は、フレームＬ−１を、ステップ１において検出した撮像装置の動きベクトルをキャンセルするようにフレームＬ−１を変換する。例えば、ステップ１において検出された撮像装置の動きベクトルの方向がＱ、大きさがＲであった場合、フレームＬ−１内の画像を、−Ｑ方向に大きさＲだけ移動させる。
（ステップ３）
表示装置１００は、フレームＬと、ステップ２による変換後のフレームＬ−１との差分画像を生成する。ここで、静止している物体であっても、撮像装置の動きにより、フレームＬとフレームＬ−１における存在位置は異なる。しかし、上記のように、変換後のフレームＬ−１においては撮像装置の動きがキャンセルされているため、静止している物体のフレームＬおよび変換後のフレームＬ−１における存在位置はほぼ一致すると考えられる。このため、フレームＬと変換後のフレームＬ−１との差分画像においては、主に動きを有する被写体がフレーム間の差分として現れる。
（ステップ４）
表示装置１００は、ステップ３で生成した差分画像から、動きを有する被写体を検出する。表示装置１００は、このようにして動きを有する被写体を立体視画像のうちで代表的な画像オブジェクトとして検出できるので、動きを有する被写体のユーザによる知覚位置をユーザによる代表知覚位置として算出することできる。かかる構成により、表示装置１００は、動きを有する被写体として例えばサーキットの立体視画像中でレーシングカーを検出し、ユーザによるレーシングカーの知覚位置に応じて音声制御を行うことが可能である。
【００９５】
または、表示装置１００は、撮像装置により追跡して撮像された被写体（追っかけ撮りされた被写体）を立体視画像のうちで代表的な画像オブジェクトとして検出し、ユーザによる当該被写体の知覚位置に応じて音声制御を行ってもよい。撮像装置により追跡して撮像された被写体を検出するための方法の一例を以下に説明する。
（ステップ１）
表示装置１００は、各フレームに基づき、各フレームの撮像時における撮像装置の動きを検出する。
（ステップ２）
表示装置１００は、ステップ１で検出した撮像装置の動き量が閾値を上回った区間を撮像装置が動いていた区間として判断する。
（ステップ３）
表示装置１００は、撮像装置が動いていた区間において、所定長さ以上の区間にわたって検出された被写体を、追跡して撮像された被写体として検出する。
【００９６】
また、上記では、各スピーカからの音声制御として、各スピーカから出力させる音声信号の音量を制御する例を説明したが、本発明はかかる例に限定されない。例えば、音量制御に代えて、または音量制御と共に、各スピーカから出力させる音声信号の位相を制御することも本発明の技術的範囲に属する。
【００９７】
また、本明細書の表示装置１００の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、表示装置１００の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。また、表示装置１００に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した表示装置１００の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
【符号の説明】
【００９８】
１００表示装置
１１０画面表示部
１２０映像信号制御部
１３０シャッタ制御部
１４０タイミング制御部
１５０赤外線エミッタ
１６０映像解析部
１７０音声制御部
１８０スピーカシステム

【特許請求の範囲】
【請求項１】
表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と；
前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部と；
を備える、音声処理装置。
【請求項２】
前記音声出力装置は、前方音声出力装置、および、前記前方音声出力装置より前記表示装置と離隔する位置に配置される後方音声出力装置を含み、
前記音声制御部は、前記代表知覚位置と基準面との距離に応じ、前記前方音声出力装置および前記後方音声出力装置による音声出力を制御する、請求項１に記載の音声処理装置。
【請求項３】
前記音声制御部は、前記代表知覚位置が前記基準面と一致する場合、前記前方音声出力装置には前記前方音声出力装置用の第１の音声信号を供給し、前記後方音声出力装置には前記後方音声出力装置用の第２の音声信号を供給する、請求項２に記載の音声処理装置。
【請求項４】
前記音声制御部は、前記代表知覚位置が前記基準面よりユーザ側である場合、前記第１の音声信号を、前記代表知覚位置と前記基準面との距離に応じた比率で前記前方音声出力装置および前記後方音声出力装置に供給する、請求項３に記載の音声処理装置。
【請求項５】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど高い比率で前記第１の音声信号を前記後方音声出力装置に供給する、請求項４に記載の音声処理装置。
【請求項６】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど前記後方音声出力装置に供給する前記第２の音声信号を小さくする、請求項５に記載の音声処理装置。
【請求項７】
前記音声制御部は、前記基準面が前記代表知覚位置よりユーザ側である場合、前記第２の音声信号を、前記代表知覚位置と前記基準面との距離に応じた比率で前記前方音声出力装置および前記後方音声出力装置に供給する、請求項３に記載の音声処理装置。
【請求項８】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど高い比率で前記第２の音声信号を前記前方音声出力装置に供給する、請求項７に記載の音声処理装置。
【請求項９】
前記音声制御部は、前記代表知覚位置と前記基準面との距離が大きくなるほど前記前方音声出力装置に供給する前記第１の音声信号を小さくする、請求項８に記載の音声処理装置。
【請求項１０】
前記推定部は、前記左目用画像および前記右目用画像に含まれる１または２以上の画像オブジェクトのユーザによる知覚位置を推定し、前記１または２以上の画像オブジェクトの知覚位置に基づいて前記代表知覚位置を推定する、請求項１に記載の音声処理装置。
【請求項１１】
前記推定部は、前記１または２以上の画像オブジェクトの知覚位置のうちのいずれかの知覚位置を前記代表知覚位置として推定する、請求項１０に記載の音声処理装置。
【請求項１２】
前記推定部は、前記１または２以上の画像オブジェクトの知覚位置の平均値を前記代表知覚位置として推定する、請求項１０に記載の音声処理装置。
【請求項１３】
前記推定部は、前記左目用画像および前記右目用画像を分割して得られる複数の領域の各々のユーザによる知覚位置を推定し、前記複数の領域の知覚位置の分布に基づいて前記代表知覚位置を推定する、請求項１に記載の音声処理装置。
【請求項１４】
表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定するステップと；
前記代表知覚位置に応じ、音声出力装置による音声出力を制御するステップと；
を含む、音声処理方法。
【請求項１５】
コンピュータを、
表示装置に表示される左目用画像と右目用画像の差分から、前記左目用画像および前記右目用画像に基づく立体視画像のユーザによる代表知覚位置を推定する推定部と；
前記推定部により推定された前記代表知覚位置に応じ、音声出力装置による音声出力を制御する音声制御部と；
として機能させるための、プログラム。

【図１】