説明

画像記録装置及び方法

【課題】画像内の主要被写体領域に応じて音像定位を決定する。
【解決手段】動画撮影時、撮像された左右の視点画像データ内の主要被写体領域が検出される。情報取得部73は、主要被写体画像の最大視差量情報を取得する。音像定位決定部74は、主要被写体領域サイズ<第1領域閾値の場合や、第1領域閾値<主要被写体領域サイズ<第2領域閾値で、且つ主要被写体画像の最大視差量情報<視差量閾値の場合、シフト残響音割合比率を0%に決定する。第1領域閾値<主要被写体領域サイズ<第2領域閾値で、且つ視差量閾値<主要被写体画像の最大視差量情報の場合、シフト残響音割合比率をマイナス5%に決定する。第2領域閾値<主要被写体領域サイズの場合、シフト残響音割合比率をマイナス10%に決定する。決定されたシフト残響音割合比率に応じて残響音割合がシフトされた音声データ、各視点画像データは、圧縮された後にRAM78に記憶される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像記録装置及び方法に関するものである。
【背景技術】
【0002】
動画を撮影可能で持ち運び可能なデジタルビデオカメラ(以下、ビデオカメラ)は、広く一般に普及しており、例えば、レース場での車の撮影、運動会での子供の撮影等に用いられている。ビデオカメラは、撮像レンズとマイクロフォンとを備え、撮像レンズで撮影した画像データと、マイクロフォンのトランスデューサで変換された電気信号である音声情報とが、記録メディアに一緒に記録される。
【0003】
特許文献1記載のビデオカメラでは、動画撮影時にズーム操作が行われたときに、マイクロフォンの特性としての指向性の広がり、方向及び感度等を制御している。例えば、撮影倍率を上げて撮影範囲を狭くし、画像内の被写体のサイズを大きくするズーム操作を行ったときには、それに合わせてマイクロフォンの指向性も狭くし、ズームした被写体から発せられる音声のみを取得することにより、臨場感をアップさせている。
【0004】
また、動画を再生して、左右のスピーカから音声が出力されたとき、聴取者は、どの辺りから音声が聞こえるか(どの辺りに音像が存在するか)を感じる。この音像が存在すると感じる位置は、左右のスピーカからの音量等に応じて変化する。例えば、左右のスピーカから同じ音量の音声が出力された場合には、左右のスピーカの真中付近に音像が存在すると感じ、左のスピーカからのみ音声が出力された場合には、左のスピーカ付近に音像が存在すると感じる。この音像が存在すると感じる位置が音像定位と称され、決められた位置(例えば、聴取者がいる位置)から左右のスピーカの真中辺りまでを結ぶ線を基準線としたときに、この基準線と、聴取者がいる位置から音像定位までを結ぶ線との角度が定位角度と称される。
【0005】
さらに、左右のスピーカから出力され、聴取者に到達する音声は、周囲の壁等に反響して到達する反響音(残響音)と、直接到達する直接音とに分けられる。聴取者は、直接音に対する残響音の割合が大きくなると、音像定位が奥側となり音声が奥側から聞こえるように感じる。また、直接音に対する残響音の割合が小さくなると、音像定位が手前側となり音声が手前側から聞こえるように感じる。従って、出力する音声にリバーブをかけて残響音を大きくする制御や、出力する音声の音量を小さくする制御を行うと、音像定位を奥側にすることができ、これとは逆の制御を行うと、音像定位を手前側にすることができる。
【0006】
特許文献2記載の撮像装置では、ズーム操作により、被写体が5人から3人になると、各被写体の音像の定位角度を変更して、3人の被写体の音像だけが定位された状態で記録され、被写体ではなくなった2人から発せられる音声は記録しないように制御する。これにより、再生時の動画及び音声の一体感が向上される。また、画像内の中央に写っている被写体の音像は、左右のスピーカの真中付近に定位させ、画像内の左側部分または右側部分に写っている被写体の音像は、左右のスピーカのうち被写体が写っている側のスピーカ付近に定位させている。
【0007】
特許文献3記載の3次元空間再現システムでは、映像に立体感を与えるために、観察者の左目に映す左視点画像と、観察者の右目に映す右視点画像との視差のある2つの画像から立体用画像を作成し、この立体用画像の奥行き感に応じて音声情報の出力量を制御している。左右視点画像において鑑賞者から最も近くに見える点が、最大視差量となる点であり、左右視点画像において鑑賞者から最も遠くに見える点が、最小視差量となる点であり、最大視差量と最小視差量との差が小さい場合、画像の奥行き感が小さく感じられる。このときには、出力する音声の音量を大きくして音像定位を手前側にし、音声が手前側から聞こえるように制御することにより、臨場感をアップさせている。また、最大視差量と最小視差量との差が大きく、画像の奥行き感が大きく感じられる場合には、出力する音声の音量を小さくして音像定位を奥側にし、音声が奥側から聞こえるように制御している。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開平9−247637号公報
【特許文献2】特開2007−201818号公報
【特許文献3】特開平6−105400号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
特許文献1及び2では、ズーム操作により画像内の被写体サイズを変化させたときには、取得した音声を加工することにより、臨場感や、記録した動画と記録した音声との一体感を高くしているが、ズーム操作を行わずに、被写体が接近してきたり遠ざかったりすることにより、画像内の被写体サイズが変化したときには、取得した音声の加工が行われないため、臨場感や、記録した動画と記録した音声との一体感を高くすることができない。
【0010】
また、特許文献3では、最大視差量と最小視差量との差に応じて、音声が手前側及び奥側のどちらから聞こえるようにするかを制御することにより、臨場感を変化させているため、最大視差量と最小視差量との差が大きく、画像の奥行き感が大きく感じられるときには、画像中の主要被写体領域に関係なく、音声が奥側から聞こえるように制御される。画像中の主要被写体領域が変化したときにも、最大視差量と最小視差量との差が同じ場合には、音声が同じ側から聞こえるため、臨場感を変化させることができない。
【0011】
本発明は、上記課題を解決するためになされたものであり、画像内の主要被写体領域に応じて音像定位を決定して臨場感を変化させることができる画像記録装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するために、本発明の画像記録装置は、複数の視点から同一の被写体を撮影する複数の撮像レンズを有し、立体用動画を構成する複数の視点画像を連続して取得する視点画像取得手段と、前記複数の視点画像を取得する毎に、音声情報を取得する音声取得手段と、前記複数の視点画像を取得する毎に、前記複数の視点画像の中で主要な被写体が占める主要被写体領域を検出する検出手段と、前記複数の視点画像を取得する毎に、前記複数の視点画像中の複数の視差量情報、前記複数の撮像レンズのズーム倍率情報、及び焦点調整を行うときの前記複数の撮像レンズの調整量情報の少なくとも1つを取得する情報取得手段と、前記主要被写体領域と前記情報取得手段で取得した情報とに基づいて、前記音声取得手段で取得された音声情報の音像定位を決定する音像定位決定手段と、前記複数の視点画像と、前記音声取得手段で取得された音声情報と、前記音像定位決定手段で決定された音像定位情報とを記録する記録手段と、を備えたことを特徴とする。
【0013】
また、前記複数の視差量情報は、前記複数の視点画像の最大視差量情報及び平均視差量情報と、前記主要被写体画像の最大視差量情報及び平均視差量情報とからなることが好ましい。
【0014】
さらに、前記視点画像取得手段が設けられた装置本体と、前記装置本体に設けられ、前記立体用動画を表示する表示手段と、前記装置本体に設けられ、前記音声情報を出力する音声出力手段とを備えることが好ましい。
【0015】
また、前記記録手段は、前記音声取得手段で取得された音声情報と、前記音像定位情報とを個別に記録し、前記立体用動画を再生するときには、前記音像定位情報に基づいて音像定位が決定された音声情報を出力すること、または、前記記録手段は、前記音像定位情報に基づいて音像定位が決定された音声情報を記録することが好ましい。
【0016】
さらに、本発明の画像記録方法は、複数の視点から同一の被写体を撮影する複数の撮像レンズにより、立体用動画を構成する複数の視点画像を連続して取得する視点画像取得ステップと、前記複数の視点画像を取得する毎に、音声情報を取得する音声取得ステップと、前記複数の視点画像を取得する毎に、前記複数の視点画像の中で主要な被写体が占める主要被写体領域を検出する検出ステップと、前記複数の視点画像を取得する毎に、前記複数の視点画像中の複数の視差量情報、前記複数の撮像レンズのズーム倍率情報、及び焦点調整を行うときの前記複数の撮像レンズの調整量情報の少なくとも1つを取得する情報取得ステップと、前記主要被写体領域と前記情報取得ステップで取得した情報とに基づいて、前記音声取得ステップで取得された音声情報の音像定位を決定する音像定位決定ステップと、前記複数の視点画像と、前記音声取得ステップで取得された音声情報と、前記音像定位決定ステップで決定された音像定位情報とを記録する記録ステップと、を有することを特徴とする。
【発明の効果】
【0017】
本発明によれば、立体用動画を構成する複数の視点画像中の主要被写体領域に基づいて、音声取得手段で取得された音声情報の音像定位を決定し、複数の視点画像と、音声情報と、決定された音像定位情報とを記録するから、記録した視点画像及び音声情報の再生時には、主要被写体領域に応じた音像定位から音声が出力される。これにより、動画再生時の臨場感や迫力を高めることができる。さらに、複数の視点画像中の複数の視差量情報、複数の撮像レンズのズーム倍率情報、及び焦点調整を行うときの複数の撮像レンズの調整量情報の少なくとも1つの情報に基づいて、音像定位を決定するから、視点画像及び音声情報の再生時には、前記情報に応じた音像定位から音声が出力され、動画再生時の臨場感や迫力をより一層高めることができる。
【図面の簡単な説明】
【0018】
【図1】本発明を実施したデジタルカメラを示す正面斜視図である。
【図2】デジタルカメラを示す背面図である。
【図3】デジタルカメラ内部の電気的構成を示すブロック図である。
【図4】左撮像部及び右撮像部の電気的構成を示すブロック図である。
【図5】音像定位決定部の電気的構成を示すブロック図である。
【図6】(A)は左視点画像データを表示した状態、(B)は右視点画像データを表示した状態の説明図である。
【図7】主要被写体領域が異なる4つの画像データを示す説明図である。
【図8】動画ファイルを示す説明図である。
【図9】動画撮影時の処理の流れを示すフローチャートである。
【図10】動画撮影時の処理の流れを示すフローチャートである。
【図11】画像データ内に複数の主要被写体領域があるときの画像データを示す説明図である。
【図12】フォーカス駆動量に基づいてシフト残響音割合比率を決定する第2実施形態のシフト残響音割合比率決定テーブルである。
【図13】第2実施形態の動画ファイルを示す説明図である。
【図14】動画ファイルを示す説明図である。
【図15】ズーム位置情報に基づいてシフト残響音割合比率を決定する第3実施形態のシフト残響音割合比率決定テーブルである。
【図16】第3実施形態の動画ファイルの説明図である。
【発明を実施するための形態】
【0019】
[第1実施形態]
図1に示すように、本発明を実施したデジタルカメラ10は、カメラ本体10aの前面に、左レンズ鏡筒11と右レンズ鏡筒12とが設けられている。左レンズ鏡筒11には、撮像レンズ13が組み込まれ、右レンズ鏡筒12には、撮像レンズ14が組み込まれている。各レンズ鏡筒11,12は、デジタルカメラ10が電源オフ状態にある際に、カメラ本体10aの内部に収納され、静止画撮影モードや動画撮影モードに移行されたときにカメラ本体10aの前面から突出する。撮像レンズ13,14は、ズームレンズ13a,14a、フォーカスレンズ13b,14b(図4参照)から構成されている。
【0020】
カメラ本体10aの前面には、ストロボ15と、外部の音声を左マイクロフォン66(図3参照)に到達させるための左集音開口16aと、外部の音声を右マイクロフォン67(図3参照)に到達させるための右集音開口16bとが設けられている。ストロボ15は、CPU50(図3参照)によって作動され、被写体に向けて光を照射する。左集音開口16aはカメラ本体10a前面の左側端部に設けられ、右集音開口16bはカメラ本体10a前面の右側端部に設けられている。また、カメラ本体10aの上面には、電源ボタン17、レリーズボタン18等が設けられている。
【0021】
デジタルカメラ10は、静止画撮影モードと、動画撮影モードと、撮影した画像を再生表示する再生モードとが設けられている。レリーズボタン18は、2段押しの構造とされている。静止画撮影モードでは、レリーズボタン18を軽く押圧(半押し)すると、露出調整や焦点調整などの撮影準備動作が行われる。この状態でさらに押圧(全押し)すると、撮影動作が行われる。動画撮影モードでは、レリーズボタン18の全押しに伴って動画撮影が開始され、全押しの解除により終了される。
【0022】
図2に示すように、カメラ本体10aの背面には、画像や各種設定条件が表示されるLCD20、各種設定、表示画像及びモードの切り換えを行うためのメニューキー21、LCD20に表示する画像を拡大及び縮小ズームさせるズームボタン22が設けられている。ズームボタン22の操作により、ズームレンズ13a,14aが移動され、拡大及び縮小ズームが行われる。LCD20の前面には、立体視用のレンチキュラーレンズ(図示せず)が取り付けられている。
【0023】
カメラ本体10aの背面には、左スピーカ81(図3参照)から出力された音声を外部に発する左スピーカ開口23と、右スピーカ82(図3参照)から出力された音声を外部に発する右スピーカ開口24とが設けられている。左スピーカ開口23はLCD20の左側に設けられ、右スピーカ開口24はLCD20の右側に設けられている。
【0024】
図3〜図5に示すように、デジタルカメラ10には、左撮像部31と右撮像部32とが設けられている。左撮像部31は、撮像レンズ13と、撮像レンズ13の背後に配され、撮像レンズ13を透過した被写体光が入射するCCD33とを備える。このCCD33は、被写体像を光電変換して時系列の3色信号を発生し、これを相関二重サンプリング回路(CDS)34に送る。CCDドライバ37には、CPU50によって制御されるTG(タイミングジェネレータ)38からのタイミング信号(クロック信号)が入力される。このCCDドライバ37によって、CCD33が作動される。CCD33から出力された3色信号は、CDS34でノイズ成分が除去され、CCD33の各セルの蓄積電荷量に正確に対応した3色信号に変換される。CDS34から出力された3色信号は、ISO感度に応じて増幅器(AMP)35で増幅され、A/D変換器36で画像データに変換される。ズーム用モータ39a、フォーカス用モータ39bは、モータドライバ(図示せず)を介してCPU50により駆動され、ズームレンズ13a、フォーカスレンズ13bを移動してズーム及び焦点調整を行う。
【0025】
画像入力コントローラ40は、データバス49を介してCPU50に接続されており、CPU50の命令によってCDS34,AMP35,A/D変換器36を制御する。CPU50には、各種制御用のプログラムや設定情報などが記録されたEEPROM(図示せず)が接続されている。CPU50は、EEPROM内のプログラムを読み取って、各部を制御する。
【0026】
右撮像部32は、左撮像部31と同様に、撮像レンズ14、CCD41、CDS42、AMP43、A/D変換器44、CCDドライバ45、TG46、ズーム用モータ47a、フォーカス用モータ47b、画像入力コントローラ48を備え、CPU50によって作動される。
【0027】
画像入力コントローラ40は、A/D変換器36から出力された画像デーをビデオメモリ51、あるいはバッファメモリ52に記録する。同様に、画像入力コントローラ48は、A/D変換器44から出力された画像データをビデオメモリ53、あるいはバッファメモリ54に記録する。
【0028】
ビデオメモリ51,53は、LCD20をビューファインダとして使用する際に、解像度の低いスルー画の画像データが一時的に記録される。このスルー画の画像データは、データバス49を介してLCDドライバ56に送られ、スルー画がLCD20に表示される。バッファメモリ52は、撮像された高解像度の左視点画像データが一時的に記録され、バッファメモリ54は、撮像された高解像度の右視点画像データが一時的に記録される。本実施形態では、動画撮影時には、1秒間に20フレームの視点画像データがバッファメモリ52,54に連続して記録される。
【0029】
再生モードで動画を再生するとき、LCDドライバ56は、各視点画像データを一ライン毎交互にストライプ状に並べた画像(以下、立体用画像)をLCD20に出力する。LCD20の前面に配されたレンチキュラーレンズによって、左視点画像データを観察者の左目に、右視点画像データを右目にそれぞれ映すことで、立体画像を表示することができる。
【0030】
測光・測距部61は、左撮像部31で撮影される被写体の輝度、および被写体までの距離を検出し、この検出結果から露出量、ホワイトバランス補正量、および焦点距離を決定する。同様に、測光・測距部62は、右撮像部32で撮影される被写体の輝度、および被写体までの距離を検出し、この検出結果から露出量、ホワイトバランス補正量、および焦点距離を決定する。
【0031】
測光・測距部61,62は、スルー画の表示中は所定のサイクルで作動している。スルー画の表示中は、測光・測距部61,62で決定された露出量に応じて絞り(図示せず)の絞り径が制御される。
【0032】
測光・測距部61,62は、静止画撮影モードでレリーズボタン18が半押しされたとき、及び動画撮影モードでレリーズボタン18が全押しされたときに、輝度および距離の検出を開始し、検出結果をCPU50に逐次送信する。CPU50は、測光・測距部61、62からの検出結果に基づいて、フォーカスレンズ13b,14bを移動させて焦点調整を行う。また、CPU50は、測光・測距部61、62からの検出結果に基づいて、絞り、CCD33,41、及びストロボ15の動作を制御する。
【0033】
左マイクロフォン66は、音を音声データ(電気信号)に変換するトランスデューサ66aを備え、動画撮影時に周囲の音を集音し、集音した音を音声データに変換する。同様に、右マイクロフォン67は、トランスデューサ67aを備える。各マイクロフォン66,67は、左右視点画像データを取得する毎に、音声データを取得する。
【0034】
バッテリ69は、デジタルカメラ10内部に内蔵され、LCD20やCPU50などの各部へ電力を供給する。バッテリ69はCPU50に接続されており、このCPU50によって各部に供給する電力が制御される。
【0035】
領域検出部72は、動画撮影時に、バッファメモリ52から図6(A)に示す左視点画像データを読み出すとともに、バッファメモリ54から図6(B)に示す右視点画像データを読み出し、各視点画像データ内の主要な被写体領域(図6及び図7における点線で囲まれた領域)を検出し、主要被写体領域サイズを検出する。領域検出部72は、公知のパターン認識や色認識等により、主要な被写体を検出する。なお、領域検出部72は、左右視点画像データそれぞれの主要被写体領域を検出し、そのサイズの平均値を主要被写体領域サイズとして検出する。また、領域検出部72は、左右視点画像データを取得する毎に、主要被写体領域を検出する。
【0036】
情報取得部73は、主要被写体画像において鑑賞者から最も近くに見える近視点NP(図6における×印)を検出し、図6(A)に示す左視点画像データの画像左端から近視点NPまでの距離DNLと、図6(B)に示す右視点画像データの画像左端から近視点NPまでの距離DNRとを算出する。そして、情報取得部73は、距離DNL−距離DNRで算出される値を、主要被写体画像の最大視差量情報として取得する。また、情報取得部73は、左右視点画像データを取得する毎に、主要被写体画像の最大視差量情報を取得する。
【0037】
図5に示すように、音像定位決定部74は、制御部91、左右マイクロフォン66,67で取得された音声データ(以下、生音声データと称する)を二分する乗算器92a,92b、加算器93、リバーブ回路94を備える。加算器93は、Lチャンネル用の加算器、Rチャンネル用の加算器が設けられている。本実施形態では、音像定位決定部74は、聴取者が左右スピーカ81,82の中間で、カメラ本体10aの背面から所定距離(例えば、50cm)離れている状態であるときの音像定位を決定する。
【0038】
乗算器92a,92bは、制御部91から入力される乗算係数92ak,92bkに基づいて生音声データを、第1音声データと第2音声データとに二分する。なお、乗算係数92ak,92bkの和は1である。
【0039】
リバーブ回路94は、乗算器92bを介して入力された第2音声データから残響音データを得て、この残響音データを加算器93に出力する。第1音声データに対する第2音声データの割合(以下、残響音割合と称する)が小さくなると、音像定位が手前側となり音声が手前側から聞こえるように感じられる。残響音割合が大きくなると、音像定位が奥側となり音声が奥側から聞こえるように感じられる。
【0040】
制御部91は、領域検出部72で検出された主要被写体領域サイズと、情報取得部73で取得した主要被写体画像の最大視差量情報とに基づいて、予め設定された基準となる基準残響音割合からシフトする残響音割合比率(以下、シフト残響音割合比率と称する)を決定する。なお、基準残響音割合情報は、予めRAM78に記憶されている。
【0041】
制御部91は、予め設定された第1領域閾値、第2領域閾値、視差量閾値を用いて、主要被写体領域サイズ<第1領域閾値、第1領域閾値≦主要被写体領域サイズ<第2領域閾値、第2領域閾値≦主要被写体領域サイズのいずれであるかを判定するとともに、主要被写体画像の最大視差量情報<視差量閾値、視差量閾値≦主要被写体画像の最大視差量情報のいずれであるかを判定する。制御部91は、その判定結果に応じてシフト残響音割合比率を決定する。なお、各閾値情報は、予めRAM78に記憶されており、その数値は、適宜変更可能である。
【0042】
図7(A)に示すように、主要被写体領域サイズ<第1領域閾値の場合や、図7(B)に示すように、第1領域閾値≦主要被写体領域サイズ<第2領域閾値で、且つ主要被写体画像の最大視差量情報<視差量閾値の場合には、制御部91は、シフト残響音割合比率を0(ゼロ)%に決定する。
【0043】
図7(C)に示すように、第1領域閾値≦主要被写体領域サイズ<第2領域閾値で、且つ視差量閾値≦主要被写体画像の最大視差量情報の場合には、制御部91は、シフト残響音割合比率をマイナス5%に決定する。
【0044】
図7(D)に示すように、第2領域閾値≦主要被写体領域サイズの場合には、制御部91は、シフト残響音割合比率をマイナス10%に決定する。なお、第2領域閾値≦主要被写体領域サイズの場合には、視差量閾値≦主要被写体画像の最大視差量情報となる。
【0045】
制御部91は、決定したシフト残響音割合比率に基づいて残響音割合を算出し、算出した残響音割合となるように、乗算器92a,92bで用いる乗算係数92ak,92bkを算出する。
【0046】
また、RAM78には、定位角度を決定するための頭部伝達関数が予め複数記憶されている。この頭部伝達関数は、人間の頭部に似た形状を有し、その右耳および左耳に対応する部分にそれぞれマイクが取り付けられたダミーヘッドを用い、聴取者から50cm離れているとともに、聴取者に対して水平角(定位角)で特定される音源において発生した音が、聴取者の左右の耳に伝達されたときの波形を捉え、源音波形との差分を測定し、この測定を、空間上の複数の位置の音源から発生する音について行い、測定されたデータから、音源から発生した音の波形をダミーヘッドの右耳または左耳に到達した時の波形に変換する関数として、音源の位置に応じて算出されたものである。
【0047】
音像定位決定部74は、乗算器92aを介して入力される第1音声データに、頭部伝達関数に基づいた畳み込み演算を施し、演算を施した音声データを加算器93に出力する第1〜第5定位付器96a〜96eを備える。各定位付器96a〜96eは、頭部伝達関数に対応するFIRフィルタがLチャンネル及びRチャンネル用に2個並列に接続した構成となっている。音声データを、定位させたい位置に応じたFIRフィルタに通して加工し再生すると、聴取者には、定位させたい位置から音が聞こえてくるように感じられる。
【0048】
各定位付器96a〜96eは、左右スピーカ81,82間を5等分したときに、第1定位付器96aが一番左の部分に対応し、第2定位付器96bが左から2番目の部分に対応し、第3〜第5定位付器96c〜96eが、真中部分、右から2番目の部分、一番右の部分にそれぞれ対応するように設定されている。各定位付器96a〜96eは、各部分に対応する音源の位置の頭部伝達関数をRAM78から読み出し、この読み出した頭部伝達関数に基づいた畳み込み演算を行う。なお、定位付器の数は、適宜変更可能であり、例えば、聴取者の正面方向を0°としたときに、聴取者を中心に30°ピッチで12等分した各方向に対応した12個の定位付器を設け、聴取者の左右や後方に音像を定位させてもよい。
【0049】
制御部91は、画像を左右方向に5等分したときに、領域検出部72で検出された主要被写体領域の左右方向の中心部がどの部分に位置するかを検出し、各定位付器96a〜96eの中から、検出した部分に対応した1つを選択する。この選択された1つには、乗算器92aを介して第1音声データが入力される。
【0050】
定位付器96a〜96eの中の選択された1つは、入力された第1音声データに畳み込み演算を施し、演算を施した音声データを加算器93に出力する。加算器93は、この入力された音声データと、リバーブ回路から入力された残響音データとを加算して加算音声データを得る。音声出力時には、加算音声データが、左右スピーカ81,82から出力される。
【0051】
圧縮・伸長部76は、左視点画像データ、右視点画像データ及び加算音声データを、周知のJPEG形式で圧縮・伸長する。
【0052】
図8に示すように、動画撮影時には動画ファイルPFが作成される。この動画ファイルPFは、画像や音声などの様々な形式のデータを1つのファイルに格納するためのRIFFチャンクヘッダ、音声付きの動画を扱うためのAVIヘッダ、ストリームヘッダ、オーディオチャンク、ビデオ(L)チャンク、ビデオ(R)チャンクから構成される。オーディオチャンク、ビデオ(L)チャンク、ビデオ(R)チャンクは、それぞれ複数設けられる。動画ファイルPFは、メモリコントローラ77によって駆動制御されるデータリーダによりRAM78に記録される(図3参照)。連続して撮影した動画は、1つの動画ファイルPFとしてRAM78に記録される。
【0053】
ビデオ(L)チャンクは、動画を構成する20フレーム(1秒)分の圧縮された左視点画像データ(左画像ストリーム)から構成される。ビデオ(R)チャンクは、20フレーム分の圧縮された右視点画像データ(右画像ストリーム)から構成される。オーディオチャンクは、20フレーム分の圧縮された加算音声データ(オーディオストリーム)から構成される。
【0054】
ストリームヘッダには、各ストリームにどのような情報が書き込まれているかの情報として、画像の種類、画像の再生時間、データ量/チャンク(1チャンクあたりの再生時のデータ量)、先頭アドレス(各フレームの先頭アドレス)、ストリームID、解像度、圧縮方式、表示次元、フレーム数/チャンク、撮影情報等が記録される。
【0055】
次に、デジタルカメラ10の作用について、図9及び図10のフローチャートを用いて説明を行う。動画撮影モードでレリーズボタン18を全押しする(ステップ(以下,S)1)でY)と、左視点画像データがバッファメモリ52に記録され、右視点画像データがバッファメモリ54に記録される(S2)。
【0056】
領域検出部72は、バッファメモリ52,54から左視点画像データ及び右視点画像データを読み出し、各視点画像データ内の主要な被写体領域を検出し、主要被写体領域サイズを検出する(S3)。情報取得部73は、主要被写体画像において鑑賞者から最も近くに見える近視点NPを検出し、図6(A)に示す左視点画像データの画像左端から近視点NPまでの距離DNLと、図6(B)に示す右視点画像データの画像左端から近視点NPまでの距離DNRとを算出し、距離DNL−距離DNRで算出される値を、主要被写体画像の最大視差量情報として取得する(S4)。
【0057】
制御部91は、主要被写体領域サイズ<第1領域閾値であるか否かを判定し(S5)、主要被写体領域サイズ<第1領域閾値であると判定した場合(S5でY)には、シフト残響音割合比率を0%に決定する(S6)。
【0058】
制御部91は、主要被写体領域サイズ<第1領域閾値ではないと判定した場合(S5でN)には、第1領域閾値≦主要被写体領域サイズ<第2領域閾値であるか否かを判定する(S7)。第1領域閾値≦主要被写体領域サイズ<第2領域閾値であると判定した場合(S7でY)には、制御部91は、主要被写体画像の最大視差量情報<視差量閾値であるか否かを判定する(S8)。制御部91は、第1領域閾値≦主要被写体領域サイズ<第2領域閾値で(S7でY)、且つ主要被写体画像の最大視差量情報<視差量閾値であると判定した場合(S8でY)には、シフト残響音割合比率を0%に決定する(S6)。シフト残響音割合比率が0%の場合、残響音割合は基準残響音割合となる。
【0059】
制御部91は、第1領域閾値≦主要被写体領域サイズ<第2領域閾値で(S7でY)、且つ視差量閾値≦主要被写体画像の最大視差量情報であると判定した場合(S8でN、S9)には、シフト残響音割合比率をマイナス5%に決定する(S10)。この場合、残響音割合は、基準残響音割合から5%小さくなったものとなり、基準残響音割合のときよりも音像定位が手前側となる。これにより、音声出力時に音声が手前側から聞こえるようになり、臨場感がアップする。
【0060】
制御部91は、第2領域閾値≦主要被写体領域サイズであると判定した場合(S7でN、S11)には、シフト残響音割合比率をマイナス10%に決定する(S12)。この場合、残響音割合は、基準残響音割合から10%小さくなったものとなり、基準残響音割合から5%小さい残響音割合のときよりもさらに音像定位が手前側となる。これにより、音声出力時に音声がより一層手前側から聞こえるようになり、臨場感もより一層アップする。
【0061】
制御部91は、決定したシフト残響音割合比率に基づいて残響音割合を算出し、算出した残響音割合となるように、乗算係数92ak,92bkを算出する(S13)。そして、制御部91は、算出した乗算係数92ak,92bkを乗算器92a,92bに出力する。乗算器92a,92bは、入力された乗算係数92ak,92bkに基づいて、生音声データを第1音声データと第2音声データとに二分する(S14)。
【0062】
リバーブ回路94は、乗算器92bを介して入力された第2音声データから残響音データを得て(S15)、この残響音データを加算器93に出力する。
【0063】
制御部91は、画像を左右方向に5等分したときに、領域検出部72で検出された主要被写体領域の左右方向の中心部がどの部分に位置するかを検出し(例えば、左から2番目の部分)、各定位付器96a〜96eの中から、検出部分(左から2番目の部分)に対応した1つ(第2定位付器96b)を選択する(S16)。この選択された第2定位付器96bには、乗算器92aを介して第1音声データが入力される。
【0064】
第2定位付器96bは、対応した頭部伝達関数をRAM78から読み出し、この読み出した頭部伝達関数に基づいて第1音声データに畳み込み演算を施し(S17)、演算を施した音声データを加算器93に出力する。これにより、音声出力時には、主要被写体領域の位置に応じて定位角度が決定された音像定位から音声が出力される。
【0065】
第2定位付器96bから入力された音声データとリバーブ回路94から入力された残響音データとは、加算器93で加算されて加算音声データとなる。この加算音声データと、バッファメモリ52,54から読み出された各視点画像データとは、圧縮・伸長部76によりJPEG形式で圧縮された後、RAM78に記憶される(S18)。
【0066】
レリーズボタン18が引き続き押圧されている(S19でY)ときには、再度(S2)以降が行われ、レリーズボタン18の押圧が解除される(S19でN)と、動画撮影モードでの撮影が終了する。
【0067】
再生モード時に、メニューキー21の操作により、RAM78に記録された動画ファイルPFの1つが選択されると、選択された動画ファイルPFが再生される。再生時には、動画ファイルPF内の各視点画像データ及び加算音声データが、圧縮・伸長部76により伸長される。この伸長された左視点画像データと右視点画像データとに基づいて立体用画像が作成され、この立体用画像がLCD20に表示される。立体用画像は、動画ファイルPF内の視点画像データの分だけ作成され、複数の立体用画像を連続してLCD20に表示することにより、立体用動画が再生される。
【0068】
また、伸長された加算音声データは、LCD20への立体用画像の表示に合わせて、左スピーカ81及び右スピーカ82から出力される。この出力される加算音声データは、主要被写体領域サイズ及び最大視差量情報に基づいて音像定位を手前側、奥側のどちらにするか(以下、前後方向の音像定位)が決定されるとともに、画像中の主要被写体領域位置に基づいて定位角度が決定された音声データであるため、動画再生時の臨場感や迫力が高められる。
【0069】
図11に示すように、画像データ内に主要被写体領域(点線で囲まれた領域)が複数(例えば、4つ)ある場合には、情報取得部73は、4つの主要被写体画像それぞれの最大視差量情報を取得し、4つの最大視差量情報の平均値を、最大視差量情報として取得する。
【0070】
なお、情報取得部73は、視点画像の最大視差量情報及び平均視差量情報、主要被写体画像の平均視差量情報などを取得してもよく、情報取得部73で取得した情報と、領域検出部72で検出された主要被写体領域サイズとに基づいて、音像定位決定部74はシフト残響音割合比率を決定する。各画像の平均視差量情報を取得するときには、各画像において鑑賞者から最も遠くに見える遠視点を検出し、左視点画像データの画像左端から遠視点までの距離DFLと、右視点画像データの画像左端から遠視点までの距離DFRとを算出する。そして、距離DFL−距離DFRで算出される値を、画像における左右視点画像間の水平方向の最小視差量情報として取得し、この最小視差量情報と最大視差量情報との平均値を、平均視差量情報として取得する。
【0071】
また、画像の特徴点を複数抽出し、複数の特徴点それぞれにおいて視差量情報を取得し、各特徴点の視差量情報の平均値を、平均視差量情報として取得してもよい。なお、特徴点としては、画像が人である場合、鼻の頂点、目尻、目頭、眉尻、眉頭、口角部等が挙げられる。この場合、主要被写体領域を検出するときに、特徴点の抽出も行う。
【0072】
[第2実施形態]
図12及び図13に示す第2実施形態では、情報取得部73は、焦点調整を行うときのフォーカスレンズ13b,14bの調整量情報としてのフォーカス駆動量(レンズ移動量)を取得する。なお、第1実施形態のものと同様の構成部材には同一の符号を付し、その詳細な説明を省略する。
【0073】
音像定位決定部74は、領域検出部72で検出された主要被写体領域サイズと、情報取得部73で取得したフォーカス駆動量とに基づいて、シフト残響音割合比率を決定する。
【0074】
図12に示すように、RAM78には、シフト残響音割合比率決定テーブルが記録されており、音像定位決定部74は、このシフト残響音割合比率決定テーブルを参照して、シフト残響音割合比率を決定する。例えば、主要被写体領域サイズ≧領域閾値で、且つフォーカス駆動量≧駆動閾値の場合は、シフト残響音割合比率を0%に決定し、主要被写体領域≧領域閾値で、且つフォーカス駆動量<駆動閾値の場合は、シフト残響音割合比率をマイナス5%に決定する。
【0075】
圧縮・伸長部76は、周知のMPEG形式で、20フレーム(1秒)分の左視点画像データから基本フレーム(左画像Iフレーム)、差分フレームとしてのPフレーム(左画像Pフレーム)及びBフレーム(左画像Bフレーム)を作成する。同様に、圧縮・伸長部76は、右画像Iフレーム、右画像Pフレーム及び右画像Bフレームを作成する。
【0076】
図13に示すように、動画ファイルMPFは、GOP(Group Of Picture)(L)と、GOP(R)と、20フレーム分の圧縮された生音声データ及びシフト残響音割合比率データとから構成される。本実施形態では、生音声データとシフト残響音割合比率データとは、個別に記録される。なお、主要被写体領域に基づいて各定位付器96a〜96eの中からいずれを用いるかを選択しておき、この選択データを、生音声データ及びシフト残響音割合比率データとは別に記録してもよい。
【0077】
GOP(L)は、左画像Iフレーム、左画像Pフレーム及び左画像Bフレームから構成される。GOP(R)は、右画像Iフレーム、右画像Pフレーム及び右画像Bフレームから構成される。
【0078】
動画ファイルMPFを再生するときには、圧縮・伸長部76は、各フレーム及び各データをMPEG形式で伸長する。伸長された左画像Iフレームは、左画像Pフレーム及び左画像Bフレームに基づいて変更される。同様に、伸長された右画像Iフレームは、右画像Pフレーム及び右画像Bフレームに基づいて変更される。この変更された各Iフレームに基づいて立体用画像が作成され、この立体用画像がLCD20に表示される。また、伸長された生音声データは、音像定位決定部74で、シフト残響音割合比率データに基づいて前後方向の音像定位が決定されるとともに、主要被写体領域に基づいて定位角度が決定された加算音声データとなる。この加算音声データは、LCD20への立体用画像の表示に合わせて、左スピーカ81及び右スピーカ82から出力される。
【0079】
なお、図14に示すように、動画ファイルMPFを、GOP(L)と、20フレーム分のLチャンネル用の生音声データ(L)及びシフト残響音割合比率データと、GOP(R)と、20フレーム分のRチャンネル用の生音声データ(R)及びシフト残響音割合比率データとから構成してもよい。
【0080】
[第3実施形態]
図15及び図16に示す第3実施形態では、情報取得部73は、主要被写体画像の最大視差量情報と、撮像レンズ13,14のズーム倍率情報としてのズーム位置情報とを取得する。なお、第1実施形態のものと同様の構成部材には同一の符号を付し、その詳細な説明を省略する。
【0081】
本実施形態では、35mmフィルム換算で広角28mm〜望遠300mmまでズーム可能とされている。情報取得部73は、ズーム位置情報として、ズーム位置が広角位置、標準位置、望遠位置のいずれに相当するかを判定する。例えば、ズーム位置<40mmのときには広角位置と判定し、40mm≦ズーム位置≦120mmのときには標準位置と判定し、120mm<ズーム位置のときには望遠位置と判定する。
【0082】
音像定位決定部74は、情報取得部73で取得した主要被写体画像の最大視差量情報とズーム位置情報とに基づいて、シフト残響音割合比率を決定する。
【0083】
図15に示すように、RAM78には、シフト残響音割合比率決定テーブルが記録されており、音像定位決定部74は、このシフト残響音割合比率決定テーブルを参照して、シフト残響音割合比率を決定する。例えば、第1領域閾値≦主要被写体画像の最大視差量<第2領域閾値で、且つ標準位置の場合は、シフト残響音割合比率をマイナス2%に決定し、第2閾値<主要被写体画像の最大視差量で、且つ広角位置の場合は、シフト残響音割合比率をマイナス10%に決定する。
【0084】
圧縮・伸長部76は、各データをJPEG形式で圧縮・伸長する。図16に示すように、この圧縮された動画ファイルJPFは、RIFFチャンクヘッダ、AVIヘッダ、ストリームヘッダ、オーディオチャンク、コントロールチャンク、ビデオ(L)チャンク、ビデオ(R)チャンクから構成される。オーディオチャンク、コントロールチャンク、ビデオ(L)チャンク、ビデオ(R)チャンクは、それぞれ複数設けられる。
【0085】
オーディオチャンクは、20フレーム(1秒)分の圧縮された生音声データから構成される。コントロールチャンクは、20フレーム分の圧縮されたシフト残響音割合比率データから構成される。なお、主要被写体領域に基づいて各定位付器96a〜96eの中からいずれを用いるかを選択しておき、この選択データを、シフト残響音割合比率データとは別にコントロールチャンクに記録してもよい。
【0086】
動画ファイルJPFを再生するときには、圧縮・伸長部76は、各データをJPEG形式で伸長する。この伸長されたデータに基づいて作成された立体用画像がLCD20に表示される。また、伸長された生音声データは、音像定位決定部74で、シフト残響音割合比率データに基づいて前後方向の音像定位が決定されるとともに、主要被写体領域に基づいて定位角度が決定された加算音声データとなる。この加算音声データは、LCD20への立体用画像の表示に合わせて、左スピーカ81及び右スピーカ82から出力される。
【0087】
なお、上記実施形態では、残響音割合を変えることにより、音像定位を手前側または奥側に変えているが、音量、音声データ(信号)の位相差、音圧レベル比等を変えることにより、音像定位を手前側または奥側に変えてもよい。
【0088】
また、残響音を直接音よりも遅れて出力し、この遅れ時間を変えることにより、音像定位を手前側または奥側に変えてもよい。
【0089】
さらに、上記実施形態では、音像定位決定部74は、聴取者がカメラ本体10aの背面から50cm離れている状態であるときの音像定位を決定しているが、その距離は適宜変更可能であり、例えば、50cm、1m、1.5m等複数の距離での音像定位を決定可能にしてもよい。この場合、複数の距離それぞれに対応した頭部伝達関数を予め算出しておき、複数の距離のいずれの音像定位を決定するかを、メニューキー21等により選択可能にし、音像定位決定部74は、選択された距離に対応した頭部伝達関数を用いて音像定位を決定する。
【0090】
また、上記実施形態では、左右スピーカ81,82から音声を出力しているが、ヘッドフォンを接続する接続端子を設け、ヘッドフォンから音声を出力してもよい。
【0091】
さらに、上記実施形態では、デジタルカメラについて説明しているが、それぞれ個別に設けられた複数のカメラ及びスピーカ、パソコン等から構成される画像記録システムにも、本発明を利用することができ、さらには、カメラ付き携帯電話等にも、本発明を利用することができる。
【符号の説明】
【0092】
10 デジタルカメラ
13,14 撮像レンズ
13a,14a ズームレンズ
13b,14b フォーカスレンズ
20 LCD
31 左撮像部
32 右撮像部
39a,47a ズーム用モータ
39b,47b フォーカス用モータ
50 CPU
66 左マイクロフォン
67 右マイクロフォン
72 領域検出部
73 情報取得部
74 音像定位決定部
78 RAM
81 左スピーカ
82 右スピーカ

【特許請求の範囲】
【請求項1】
複数の視点から同一の被写体を撮影する複数の撮像レンズを有し、立体用動画を構成する複数の視点画像を連続して取得する視点画像取得手段と、
前記複数の視点画像を取得する毎に、音声情報を取得する音声取得手段と、
前記複数の視点画像を取得する毎に、前記複数の視点画像の中で主要な被写体が占める主要被写体領域を検出する検出手段と、
前記複数の視点画像を取得する毎に、前記複数の視点画像中の複数の視差量情報、前記複数の撮像レンズのズーム倍率情報、及び焦点調整を行うときの前記複数の撮像レンズの調整量情報の少なくとも1つを取得する情報取得手段と、
前記主要被写体領域と前記情報取得手段で取得した情報とに基づいて、前記音声取得手段で取得された音声情報の音像定位を決定する音像定位決定手段と、
前記複数の視点画像と、前記音声取得手段で取得された音声情報と、前記音像定位決定手段で決定された音像定位情報とを記録する記録手段と、
を備えたことを特徴とする画像記録装置。
【請求項2】
前記複数の視差量情報は、前記複数の視点画像の最大視差量情報及び平均視差量情報と、前記主要被写体画像の最大視差量情報及び平均視差量情報とからなることを特徴とする請求項1記載の画像記録装置。
【請求項3】
前記視点画像取得手段が設けられた装置本体と、
前記装置本体に設けられ、前記立体用動画を表示する表示手段と、
前記装置本体に設けられ、前記音声情報を出力する音声出力手段とを備えることを特徴とする請求項1または2記載の画像記録装置。
【請求項4】
前記記録手段は、前記音声取得手段で取得された音声情報と、前記音像定位情報とを個別に記録し、
前記立体用動画を再生するときには、前記音像定位情報に基づいて音像定位が決定された音声情報を出力することを特徴とする請求項1ないし3いずれか1つ記載の画像記録装置。
【請求項5】
前記記録手段は、前記音像定位情報に基づいて音像定位が決定された音声情報を記録することを特徴とする請求項1ないし3いずれか1つ記載の画像記録装置。
【請求項6】
複数の視点から同一の被写体を撮影する複数の撮像レンズにより、立体用動画を構成する複数の視点画像を連続して取得する視点画像取得ステップと、
前記複数の視点画像を取得する毎に、音声情報を取得する音声取得ステップと、
前記複数の視点画像を取得する毎に、前記複数の視点画像の中で主要な被写体が占める主要被写体領域を検出する検出ステップと、
前記複数の視点画像を取得する毎に、前記複数の視点画像中の複数の視差量情報、前記複数の撮像レンズのズーム倍率情報、及び焦点調整を行うときの前記複数の撮像レンズの調整量情報の少なくとも1つを取得する情報取得ステップと、
前記主要被写体領域と前記情報取得ステップで取得した情報とに基づいて、前記音声取得ステップで取得された音声情報の音像定位を決定する音像定位決定ステップと、
前記複数の視点画像と、前記音声取得ステップで取得された音声情報と、前記音像定位決定ステップで決定された音像定位情報とを記録する記録ステップと、
を有することを特徴とする画像記録方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2011−50009(P2011−50009A)
【公開日】平成23年3月10日(2011.3.10)
【国際特許分類】
【出願番号】特願2009−198881(P2009−198881)
【出願日】平成21年8月28日(2009.8.28)
【出願人】(306037311)富士フイルム株式会社 (25,513)
【Fターム(参考)】