説明

撮影装置、撮影画像処理方法、およびプログラム

【課題】撮影対象のシーンをより細かく特定することを可能にした撮影装置を提供する。
【解決手段】画像データに基づいてシーンを検出する画像検出手段と、音声データに基づいてシーンを検出する音声検出手段と、画像検出手段で検出されたシーンと音声検出手段で検出されたシーンとに基づいてシーンを特定するシーン検出手段と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、撮影装置、撮影画像処理方法、およびコンピュータに実行させるためのプログラムに関する。
【背景技術】
【0002】
近年、デジタルスチルカメラおよびデジタルビデオカメラ等の撮影装置には、画像処理情報から撮影シーンを判定し、判定した撮影シーンに最適な露出値を算出する機能を有しているものがある(特許文献1参照)。特許文献1に開示されたカメラは、主被写体が画面上に占める主被写体領域と背景が画面上に占める背景領域との占有比率にしたがって、判別対象の撮影シーンが接写シーン、ポートレートシーンおよび風景シーンのうち、いずれの撮影シーンに該当するかを判別している。
【0003】
なお、話者の音声情報から話者の性別および年齢を判定する音声認識装置が特許文献2に開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2000−75351号公報
【特許文献2】特開2001−5487号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に開示されたカメラでは、撮影シーンの判別が正しく行われたとしても、撮影シーンが大まかにしか分類されていないため、より細かく撮影条件を設定することができないという問題があった。
【0006】
本発明は上述したような技術が有する問題点を解決するためになされたものであり、撮影対象のシーンをより細かく特定することを可能にした撮影装置、撮影画像処理方法、およびコンピュータに実行させるためのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するための本発明の撮影装置は、
画像データに基づいてシーンを検出する画像検出手段と、
音声データに基づいてシーンを検出する音声検出手段と、
前記画像検出手段で検出されたシーンと前記音声検出手段で検出されたシーンとに基づいてシーンを特定するシーン検出手段と、
を有する構成である。
【0008】
また、本発明の撮影画像処理方法は、
画像データに基づいてシーンを検出し、
音声データに基づいてシーンを検出し、
前記画像データで検出されたシーンと前記音声データで検出されたシーンとに基づいてシーンを特定するものである。
【0009】
さらに、本発明のプログラムは、コンピュータに実行させるためのプログラムであって、
画像データに基づいてシーンを検出し、
音声データに基づいてシーンを検出し、
前記画像データで検出されたシーンと前記音声データで検出されたシーンとに基づいてシーンを特定する処理を前記コンピュータに実行させるものである。
【発明の効果】
【0010】
本発明によれば、シーンがより細かく特定されるので、シーンに特化した効果を画像に対してかけることができる。
【図面の簡単な説明】
【0011】
【図1】本発明の一実施形態の撮影装置の一構成例を示すブロック図である。
【図2】図1に示した撮影装置の動作を説明するためのフローチャートである。
【図3】本実施形態のデジタルカメラの一構成例を示すブロック図である。
【図4】本実施形態のデジタルカメラの動作の一例を示すシーケンス図である。
【図5】画像データに基づくシーン検出条件の例を示す表である。
【図6】画像信号処理部が実行するシーン検出動作の手順を示すフローチャートである。
【図7】サウンドデータに基づくシーン検出の例を示す図である。
【図8】シーン判定画像データとシーン判定音声データを組み合わせることで特定されるシーンの例を示す表である。
【図9】特定されたシーンに対応する、画像処理の設定情報の例を示す表である。
【発明を実施するための形態】
【0012】
本発明の一実施形態の撮影装置の構成を説明する。図1は本発明の一実施形態の撮影装置の一構成例を示すブロック図である。
【0013】
図1に示すように、撮影装置11は、画像データに基づいてシーンを検出する画像検出手段12と、音声データに基づいてシーンを検出する音声検出手段13と、画像検出手段12で検出されたシーンと音声検出手段13で検出されたシーンとに基づいてシーンを特定するシーン検出手段14と、を有する。
【0014】
図1に示した撮影装置11が実行する撮影画像処理方法を説明する。図2は図1に示した撮影装置の動作を説明するためのフローチャートである。
【0015】
図2に示すように、画像検出手段12が画像データに基づいてシーンを検出し(ステップ101)、音声検出手段13が音声データに基づいてシーンを検出する(ステップ102)。さらに、シーン検出手段14が画像データで検出されたシーンと音声データで検出されたシーンとに基づいてシーンを特定する(ステップ103)。
【0016】
なお、本発明の撮影装置を、スマートフォンを含むカメラ付き携帯電話のカメラに適用することも可能である。また、本発明の撮影装置の機能を、例えば、ゲーム機、タブレットPC(Personal Computer)、ノートPC、DVD(Digital Versatile Disk)レコーダおよびブルーレイディスク(登録商標)レコーダなどの情報処理装置に設けてもよい。以下では、本発明の撮影装置の機能を備えたデジタルカメラの場合についての実施形態を説明する。
【0017】
本実施形態のデジタルカメラの構成を説明する。図3は本実施形態のデジタルカメラの一構成例を示すブロック図である。
【0018】
図3に示すように、本実施形態のデジタルカメラは、レンズ1および撮像素子2を含むモジュール21と、撮像素子2から受信する信号を処理する画像信号処理部3と、撮像素子2で取り込まれた画像を表示する表示デバイス5と、画像データを保存する記憶部6と、装置の向きを検出する方位センサ7と、録音用のマイク8と、各部を構成するMPU(Micro Processing Unit)4とを有する。
【0019】
太陽光などの光が被写体で反射した光がレンズ1を介して撮像素子2の受光部(不図示)に入力される。モジュール21には、位置制御に関する制御信号を画像信号処理部3から受信すると、レンズ1を光軸方向に移動させる駆動機構(不図示)が設けられ、駆動機構は撮像素子2の受光部で被写体の像のピントが合うようにレンズ1の位置を調節する。撮像素子2は、レンズ1を介して受光部に入力される光を電気信号に変換して画像信号処理部3に送信する。表示デバイス5は、例えば、液晶ディスプレイである。記憶部6は、例えば、不揮発性メモリおよびハードディスクドライブなどの記憶装置である。方位センサ7は、デジタルカメラの向きを検出し、撮影方向の方位の情報を含む方位データをMPU4に送信する。
【0020】
画像信号処理部3は、静止画/動画のライブビューモードの動作開始の指示を含む制御信号をMPU4から受信すると、撮像素子2およびレンズ1を起動する。画像信号処理部3は、撮像素子2からBayer画像データを受信すると、Bayer画像データを用いてAE(Auto Exposure:自動露出)/AF(Auto Focus)の検波を行い、ピントが合うようにレンズ1の位置制御を行い、適切な光量になるように撮像素子2の露光制御を行う。また、画像信号処理部3は、静止画のライブビュー、動画のライブビュー/録画のいずれのモードでも、Bayer画像データに対して、WB(ホワイトバランス)、ガンマ補正、エッジ強調、ノイズリダクションおよび色処理等の処理を行った後、最終的に映像データであるYUV画像データに変換してMPU4に送信する。YUVは、画像の色情報を表す形式の一種であり、輝度信号(Y)と、輝度信号と青色成分の差(U)、および輝度信号と赤色成分の差(V)の3つの情報を意味する。画像信号処理部3は、MPU4から静止画のライブビューのモードで静止画キャプチャの指示を受け取ると、表示デバイス5で表示される1画像分のYUV画像データを最終的にJPEG(Joint Photograph Experts Group)データに変換してMPU4に送信する。
【0021】
また、画像信号処理部3は、一定の周期でBayer画像データを受信すると、被写体までの距離および画像データの明るさ等の情報から利用者が撮影しようとしているシーンを検出し、被写体に人物を含むか否か等の情報を含む検出結果をMPU4に送信する。以下では、この検出結果の情報を「シーン判定画像データ」と称する。また、画像信号処理部3は、MPU4から画像処理に関する設定情報を受け取ると、その設定情報を反映させたYUV画像データをMPU4に送信する。画像信号処理部3のシーン検出動作およびシーン判定画像データについては、図5および図6を参照して詳しく説明する。
【0022】
MPU4は、プログラムを格納するメモリ41を有し、プログラムにしたがって処理を実行することで、図3に示す制御部42、シーン検出部43およびシーン判定部44が仮想的に構成される。
【0023】
制御部42は、利用者から操作部(不図示)を介して静止画/動画のライブビューモードを起動する旨の指示が入力されると、動作開始の指示を含む制御信号を画像信号処理部3に送信し、画像信号処理部3からYUV画像データを受信すると、YUV画像データを表示デバイス5に送信し、画像を表示デバイス5に表示させる。利用者から操作部(不図示)を介して静止画キャプチャの指示が入力されると、制御部42は、画像信号処理部3から受信するJPEGデータを記憶部6に格納する。動画録画時、制御部42は、画像信号処理部3から受信するYUV画像データと、マイク8を介して入力される音のデータであるサウンドデータとを結合して動画データを作成し、動画データを記憶部6に格納する。なお、制御部42は、画像を表示デバイス5に表示させる際、方位センサ7から受信する方位データから方位の情報を読み出し、撮影方向の方位を表示デバイス5に表示させてもよい。
【0024】
続いて、シーン検出部43とシーン判定部44について説明する。サウンドデータに基づくシーン検出処理、および2種類のデータに基づくシーン特定処理は、静止画のライブビュー/キャプチャ時、動画のライブビュー/録画時のいずれでの場合でも行うことが可能であるが、ここでは、静止画ライブビューの場合で説明する。
【0025】
シーン検出部43は、マイク8から受信するサウンドデータに対して、一定の周期で、周波数解析を行ってシーンを検出し、シーンの検出結果を保持する。以下では、この検出結果の情報を「シーン判定音声データ」と称する。シーン検出部43は、シーン判定音声データを保持している状態で、シーン判定部44からシーン判定音声データの要求があると、保持していたシーン判定音声データをシーン判定部44に渡す。本実施形態では、通常、静止画ライブビュー時に画像と一緒に記録されるサウンドデータを、シーンを特定するためのデータの1つとして利用することに特徴がある。
【0026】
なお、本実施形態におけるシーン検出部43として、特許文献2に開示された音声認識装置を適用することが可能であり、その詳細な説明を省略する。また、本実施形態では、赤ちゃん、子供、成人女性および成人男性の一般的な声の各音声パターンが予めメモリ41に格納されている。また、動物の鳴き声、昆虫の鳴き声、乗り物の音、風景の音および自然の音のそれぞれについて、複数の音声パターンが予めメモリ41に格納されている。風景または自然の音には、例えば、海辺のビーチの「波の音」、川辺の「水の流れる音」、滝の「水しぶきのあがる音」、打ち上げ花火の音などがある。
【0027】
シーン判定部44は、画像信号処理部3からシーン判定画像データを受信すると、シーン検出部43にシーン判定音声データを要求し、シーン検出部43から受信するシーン判定音声データと画像信号処理部3から受信したシーン判定画像データとを用いてシーンを特定する。つまり、シーン判定部44は、画像信号処理部3がBayer画像データから検出したシーンと、シーン検出部43がマイク8を介して受信したサウンドデータから検出したシーンとの2種類のデータに基づいて、シーンを特定する。そして、シーン判定部44は、特定したシーンに対応する設定情報を画像信号処理部3に送信する。
【0028】
画像処理に関する設定情報として、シーン毎に最適な設定情報を記述したテーブルをメモリ41に予め保存しておいてもよい。この場合、シーン判定部44は、シーンを特定すると、テーブルを参照し、特定したシーンに応じた設定情報を読み出して画像信号処理部3に送信し、画像信号処理部3に対して設定変更を実行させる。
【0029】
シーン判定部44が特定したシーンに対応して、画像処理の設定変更を行うことで、レンズ1の位置、撮像素子2の露光、および画像信号処理部3の画像処理が、シーンに応じて変更される。その結果、設定変更が反映されたYUV画像データがMPU4を介して表示デバイス5に送られ、そのデータの画像が表示デバイス5に表示される。また、設定変更は静止画キャプチャモードのキャプチャ画像にも反映されるため、キャプチャした場合は、設定変更が反映されたJPEGデータが記憶部6に保存される。
【0030】
なお、本実施形態では、デジタルカメラに方位センサ7が設けられている場合で説明したが、方位センサ7が設けられていなくてもよい。
【0031】
次に、本実施形態のデジタルカメラの動作を説明する。図4は本実施形態のデジタルカメラの動作の一例を示すシーケンス図であり、本実施形態のデジタルカメラがシーンの特定を一定の周期で繰り返し行う場合を示す。ここでは、静止画ライブビューモードの場合で説明する。
【0032】
利用者が本実施形態のデジタルカメラに静止画ライブビューモードを起動する旨の指示を入力すると、画像信号処理部3およびMPU4のシーン検出部43のそれぞれはシーンの検出を開始する。画像信号処理部3およびシーン検出部43は一定の周期でシーンの検出を繰り返す。図4に示す例では、シーン検出にかかる時間が画像信号処理部3よりもシーン検出部43の方が短いため、シーン検出部43は、サウンドデータからシーンを検出すると、検出したシーンの情報を含むシーン判定音声データを保持する(図4に示す番号201)。シーン検出にかかる時間は、画像信号処理部3の方がシーン検出部43よりも短くてもよい。
【0033】
続いて、画像信号処理部3がBayer画像データからシーンを検出すると、検出したシーンの情報を含むシーン判定画像データをMPU4のシーン判定部44に送信する(図4に示す番号202)。シーン判定部44は、シーン判定画像データを画像信号処理部3から受信すると、シーン判定音声データをシーン検出部43に要求し、シーン判定音声データをシーン検出部43から受け取る(図4に示す番号203)。
【0034】
シーン判定部44は、シーン判定画像データおよびシーン判定音声データの2種類のデータに基づいてシーンを特定する(図4に示す番号204)。その後、シーン判定部44は、特定したシーンに対応する設定情報を画像信号処理部3に送信する(図4に示す番号205)。その結果、画像処理に関する設定情報の最適値が画像信号処理部3に通知される。さらに、シーン判定部44は、シーンの特定が終了したことを画像信号処理部3に通知する(図4に示す番号206)。画像信号処理部3は、シーンの特定が終了した旨の情報をシーン判定部44から受信すると、撮像素子2から受信するBayer画像データを用いて、次のシーンの検出を行う。
【0035】
このようにして、利用者が本実施形態のデジタルカメラに静止画ライブビューモード停止の指示を入力するまで、画像信号処理部3およびシーン検出部43のそれぞれが同じ周期であるが、非同期でシーンの検出を繰り返し、シーン判定部44が2種類のデータに基づいてシーンを特定し、特定したシーンに対応して画像処理の設定を行う。
【0036】
次に、図4に示したフロー図において、画像信号処理部3がBayer画像データからシーンを検出する際の動作を説明する。図5は画像データに基づくシーン検出条件の例を示す表であり、図6は画像信号処理部が実行するシーン検出動作の手順を示すフローチャートである。
【0037】
図5に示す表には、検出シーンがNo.1〜7に分類され、各検出シーンに対応して、検出条件が記述されている。No.1〜7のいずれにも該当しない場合、シーン検出対象外(No.8)として判定される。図5に示す表がメモリ41に予め格納されている。
【0038】
図5に示す表において、Dは本実施形態のデジタルカメラから被写体までの距離がマクロ距離であるか否かの閾値である。Bv1、Bv2、Bv3およびBv4のそれぞれは、明るさ(ブライトバリュー)を判定するための閾値であり、画像に風景、トワイライトおよび夜景のうち、いずれが含まれているかを判定するための基準値となる。大きさの関係は、Bv4<Bv3<Bv2<Bv1である。T1およびT2は色温度を判定するための閾値である。大きさの関係は、T2<T1である。
【0039】
表5のNo.5〜No.7の検出シーンの検出条件を比較すると、夜間の風景である夜景よりも昼間の風景の方が明るいので、明るさについて、No.5の検出条件はBv1以上になっており、No.7の検出条件はBv4より小さい。このことは、表5のNo.2とNo.3の検出条件についても同様である。
【0040】
また、No.トワイライト(No.6の検出シーン)の撮影では、明るさが昼間の風景の場合よりも暗く、夜景の場合よりも明るいので、明るさの検出条件はBv3以上、Bv2未満となっている。このことは、色温度にも反映され、色温度での検出条件は、昼間の風景の場合がT1以上であるのに対し、トワイライトの場合はT2(<T1)以上になっている。色情報での検出条件では、トワイライトの撮影では空が赤みを帯びているので、画像に「赤色」が含まれるのに対し、昼間の風景では「緑色」や「青色」が画像に含まれている。
【0041】
図6に示すように、画像信号処理部3は、自装置から被写体までの距離がD以下か否かを調べることで、その距離がマクロ距離か否かを判定する(ステップ301)。画像信号処理部3は、ステップ301において、自装置から被写体までの距離がD以下で、マクロ距離と判定すると、画像から人物の顔を検出できるか否かを調べる(ステップ302)。画像信号処理部3は、画像から顔を検出した場合、人物を接写するシーンと判定し(ステップ303)、画像から顔を検出できない場合、利用者がマクロで人物以外の被写体を撮影するシーンと判定する(ステップ304)。なお、ステップ303の場合は、図5に示すNo.4の検出シーンに含まれる。
【0042】
ステップ301において、画像信号処理部3は、自装置から被写体までの距離がDより小さく、マクロ距離でないと判定すると、画像から人物の顔を検出できるか否かを調べる(ステップ305)。画像信号処理部3は、画像から顔を検出すると、画像データから明るさ、色温度および色情報を参照し、画像から風景を検出できるか否かを調べる(ステップ306)。画像信号処理部3は、画像データから明るさ≧Bv1、および色温度≧T1を検出し、色情報として青色および緑色を検出すると、利用者が人物と風景を撮影するシーンと判定する(ステップ307)。ステップ306で風景を検出できなければ、画像信号処理部3は、明るさ、色温度および色情報を参照し、画像から夜景を検出できるか否かを調べる(ステップ308)。画像信号処理部3は、画像データから明るさ<Bv4を検出すると、利用者が人物と夜景を撮影するシーンと判定する(ステップ309)。画像から風景も夜景も検出できない場合、画像信号処理部3は、利用者が人物を主にして撮影するシーンと判定する(ステップ310)。
【0043】
一方、ステップ305において、画像信号処理部3は、画像から人物の顔を検出できない場合、画像データから明るさ、色温度および色情報を参照し、画像から風景、トワイライトおよび夜景のいずれかが検出できるか判定する(ステップ311、313、315)。画像信号処理部3は、画像データから明るさ≧Bv1、および色温度≧T1を検出し、色情報として青色および緑色を検出すると、利用者が風景を撮影するシーンと判定する(ステップ312)。画像信号処理部3は、画像データからBv3≦明るさ<Bv2、および色温度≧T2を検出し、色情報として赤色を検出すると、利用者がトワイライトを撮影するシーンと判定する(ステップ314)。画像信号処理部3は、画像データから明るさ<Bv4を検出すると、利用者が夜景を撮影するシーンと判定する(ステップ316)。画像信号処理部3は、画像から風景、トワイライトおよび夜景のいずれも検出できない場合、シーン検出の対象外であると判定する(ステップ317)。
【0044】
画像信号処理部3は、図5に示す表を参照しながら、図6に示す手順にしたがって利用者の撮影シーンを検出すると、図5に示す表における検出シーンの項目の「マクロ」、「人物+風景」、・・・、「夜景」のうちのいずれかのシーンまたは「シーン外」を、検出したシーンの情報として、シーン判定画像データに含める。
【0045】
次に、図4に示したフロー図において、シーン検出部43がサウンドデータからシーンを検出する際の動作を、図7を参照して説明する。図7はサウンドデータに基づくシーン検出の例を示す図である。図7の表の小項目の各要素に対応して音声パターンがメモリ41に予め格納されている。
【0046】
図7に示すように、人の声に関して、シーン検出部43は、サウンドデータから、赤ちゃん、子供、成人女性、および成人男性のうち、いずれかの人物の声であると分析すると、その人物が被写体に含まれていると判定する。また、シーン検出部43は、サウンドデータから、複数の人の声であって、大きさの異なる声が混在していると分析すると、利用者が「雑踏」を撮影するシーンと判定する。
【0047】
動物の鳴き声に関して、シーン検出部43は、サウンドデータから、ほ乳類/鳥、および昆虫のうち、いずれかの動物または昆虫の鳴き声であると分析すると、その動物または昆虫が被写体に含まれていると判定する。乗り物の音に関して、シーン検出部43は、サウンドデータから、自動車/電車/飛行機のうち、いずれかの乗り物の音であると分析すると、その乗り物が被写体に含まれていると判定する。風景・自然の音に関して、シーン検出部43は、ビーチ、滝および花火のうち、いずれかの音であると分析すると、その音の発生源が被写体に含まれていると判定する。
【0048】
シーン検出部43は、サウンドデータからシーンを検出すると、図7に示す表における検出シーンの小項目の「赤ちゃん」、「子供」、・・・、「花火」のうち、1以上の要素を、検出したシーンの情報として、シーン判定音声データに含める。シーン判定音声データには、被写体の情報が含まれることになる。ただし、シーン検出部43は、大項目が「動物の鳴き声」の場合、「ほ乳類」、「鳥」および「昆虫」の要素まで分析し、大項目が「乗り物の音」の場合、「自動車」、「電車」および「飛行機」の要素まで分析し、分析した要素をシーンの情報に含める。また、シーン検出部43がサウンドデータから複数の要素を検出した場合、シーン判定音声データに2以上の要素が含まれることになる。
【0049】
なお、本実施形態では、シーン検出部43がサウンドデータから複数の要素を検出すると、検出した要素を全てシーン判定音声データに含める場合で説明しているが、予め決められた優先順位にしたがって、シーン判定音声データに含める要素の数を絞ってもよい。例えば、優先度が大きいほど優先順位が高いとすると、優先度を「人の声>動物の鳴き声>乗り物の音>風景・自然音」のように予め決めておき、優先度の最も大きい2つの要素をシーン判定音声データに含めるようにしてもよい。優先度の順位はこの場合に限らない。ただし、検出シーンが図5に示した「人物+風景」および「風景」の場合には、シーン特定の際、「風景・自然音」の要素が必要になるため、シーン検出部43は、「風景・自然音」の要素を検出した場合、その要素を常にシーン判定音声データに含めるようにしてもよい。
【0050】
次に、シーン判定部44が2種類のデータに基づいてシーンを特定する際の動作を説明する。図8はシーン判定画像データとシーン判定音声データを組み合わせることで特定されるシーンの例を示す表である。図8に示す表がメモリ41に予め格納されている。
【0051】
図8に示すように、シーン判定画像データのシーンの情報に対応して、大項目が「マクロ」〜「夜景」および「シーン外」に分類されている。また、シーン判定音声データのシーンの情報に対応して、「動物」および「乗り物」が大項目に追加されている。
【0052】
図8に示す表の中項目および小項目は、シーン判定音声データのシーンの情報に対応して分類されている。具体的には、大項目「マクロ」は、中項目で昆虫/昆虫以外に細分化されている。また、大項目に人物が含まれるシーンでは、人物が赤ちゃん/子供/成人女性/成人男性に細分化されている。また、大項目「風景」は中項目がビーチ/滝/花火/それ以外に細分化され、大項目「夜景」は中項目が雑踏/雑踏以外に細分化されている。大項目が「夜景」で、中項目が「雑踏」のシーンでは、シーン判定部44は、街のネオンが被写体と判定する。
【0053】
シーン判定部44は、図8の表に示す大項目、中項目および小項目において、シーン判定画像データの情報で大項目の要素を選択し、シーン判定音声データの情報で中項目を選択し、大項目が「人物+風景」の場合には小項目の要素も選択することで、シーンを特定する。例えば、シーン判定画像データに「人物+風景」の情報が含まれており、シーン判定音声データに「滝」および「子供」の情報が含まれている場合、シーン判定部44は、図8の表に示すNo.8のシーンと特定する。
【0054】
次に、シーン判定部44が特定したシーンに対応して、画像信号処理部3に通知する設定情報の具体例を説明する。図9は、シーン判定部が特定したシーンに対応する、画像処理の設定情報の例を示す表である。図9に示す表がメモリ41に予め格納されている。
【0055】
シーン判定部44は、特定したシーンに応じて、画像のコントラスト、明るさ、シャープネス、および色合いなどを、シーン判定音声データで特定される被写体に応じて最適化する設定情報を画像信号処理部3に通知する。また、シーン判定部44は、被写体に応じて、画像信号処理部3に対して画像変換の処理を指示してもよい。画像変換の処理とは、例えば、被写体が成人女性であれば、検出した顔の小じわ、シミおよびくすみなどを消去したり、顔の中で目や口などのパーツを大きくしたりすることである。小じわ、シミおよびくすみなどを消去することで、透明感のある肌にする効果が得られ、目や口を大きくすることで、目や口元の存在感がアップする効果が得られる。
【0056】
図9の小項目が「赤ちゃん」の場合の設定に示すように、シーン判定部44は、被写体の人物が笑顔になったことを検出したときの画像をキャプチャする「スマイルシャッター」をONにする旨の設定を、画像信号処理部3に対して行ってもよい。また、図9の小項目が「滝」の場合の設定に示すように、シーン判定部44は、シャッタースピードについてハイスピードシャッターとスローシャッターの2種類のスピードから、いずれかを利用者が選択できるようにしてもよい。
【0057】
本実施形態によれば、シーン特定のための情報として、画像データだけでなく、画像とは情報の種類が異なる音声データも使用しているため、シーンをより細かく特定することが可能になる。シーンを細かく特定することで、シーンに特化した効果を画像に対してかけることができる。また、シーン特定に使用する音声データに被写体の情報が反映されているので、画像データの被写体に対して画像処理を設定することが可能である。よって、本実施形態では、画像処理が間違って設定されてしまうことを抑制でき、利用者は自分が想定するシーンにより合致したシーンの画像を取得できる。
【0058】
なお、本実施形態では、Bayer画像データからのシーン検出およびサウンドデータからのシーン検出を、画像信号処理部3およびMPU4で別々に実行させる場合で説明したが、これらのシーン検出の両方をMPU4に実行させてもよい。この場合、MPU4は、画像信号処理部3からシーン検出に使用するBayer画像データを受け取り、図5および図6を参照して説明したように、画像データからシーンの検出を行う。
【0059】
また、音声データでは人物の声が検出されているが、画像データでは人物の顔が検出されていない場合や、音声データから波の音が検出されているが、画像データでは風景が検出されていない場合など、音声データで検出されたシーンと画像データで検出されたシーンとが合致しない場合も起こり得る。このような場合に、画像処理をどのように設定するかを決めておいてもよい。シーンをより細かく特定できるようになるため、シーンの細分化およびシーン検出精度の向上を図ることができる。
【0060】
また、画像データの圧縮形式はJPEGに限らず、画像データの形式はBayer画像データおよびYUV画像データに限らない。例えば、表示部デバイス5に画像を表示させる際、制御部42がYUV画像データをRGB画像データに変換して表示デバイス5に送信してもよい。
【0061】
また、本実施形態では、画像データと音声データに基づいてシーンを特定する場合を説明したが、方位センサ7から出力される方位データが示す情報も考慮してシーンの特定を行ってもよい。さらに、本実施形態では、説明を簡単にするために、被写体が動いている場合や撮影が逆光の場合を除外し、検出対象のシーンが一般的なシーンの場合で説明したが、本実施形態のデジタルカメラに加速度センサを設け、加速度センサが行う手ブレ検出、ならびに画像信号処理部3が行う動体検出および逆光判定のうち、少なくともいずれかの要素を、画像データおよび音声データのそれぞれから検出されるシーンに組み合わせることで、特定するシーンをより細分化してもよい。
【符号の説明】
【0062】
1 レンズ
2 撮像素子
3 画像信号処理部
4 MPU
5 表示デバイス
6 記憶部
7 方位センサ
8 マイク
11 撮影装置
12 画像検出手段
13 音声検出手段
14 シーン検出手段

【特許請求の範囲】
【請求項1】
画像データに基づいてシーンを検出する画像検出手段と、
音声データに基づいてシーンを検出する音声検出手段と、
前記画像検出手段で検出されたシーンと前記音声検出手段で検出されたシーンとに基づいてシーンを特定するシーン検出手段と、
を有する撮影装置。
【請求項2】
請求項1記載の撮影装置において、
前記画像検出手段は、前記画像データに基づいてシーンを検出した後、前記画像データに対して所定の設定に基づいて画像処理を行うものであり、
前記シーン検出手段は、特定したシーンに対応して、前記画像処理の設定を前記画像検出手段に変更させる、撮影装置。
【請求項3】
請求項2記載の撮影装置において、
前記シーン検出手段は、
前記画像データに基づいて検出されるシーンと前記音声データに基づいて検出されるシーンとの組み合わせで特定されるシーン毎に、前記画像処理に関する設定情報が記述されたテーブルを予め保持し、該テーブルを参照して、前記特定したシーンに対応する前記設定情報を前記テーブルから読み出して前記画像検出手段に通知することで、前記画像処理の設定を該画像検出手段に変更させる、撮影装置。
【請求項4】
請求項2または3記載の撮影装置において、
前記シーン検出手段は、
前記音声データに基づいて検出されたシーンから被写体を特定し、特定した被写体に対応して、該被写体に対する前記画像処理の設定を前記画像検出手段に変更させる、撮影装置。
【請求項5】
画像データに基づいてシーンを検出し、
音声データに基づいてシーンを検出し、
前記画像データで検出されたシーンと前記音声データで検出されたシーンとに基づいてシーンを特定する、撮影画像処理方法。
【請求項6】
コンピュータに実行させるためのプログラムであって、
画像データに基づいてシーンを検出し、
音声データに基づいてシーンを検出し、
前記画像データで検出されたシーンと前記音声データで検出されたシーンとに基づいてシーンを特定する処理を前記コンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2013−46217(P2013−46217A)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2011−182592(P2011−182592)
【出願日】平成23年8月24日(2011.8.24)
【出願人】(310006855)NECカシオモバイルコミュニケーションズ株式会社 (1,081)
【Fターム(参考)】