説明

撮像装置、画像検出装置及びプログラム

【課題】被写体の検出精度の向上を図る。
【解決手段】被写体を撮像して主要被写体を含む被写体画像の画像データを取得する撮像部1と、被写体画像内の主要被写体である人物から発せられた音声を集音する集音部6とを備える撮像装置100に、撮像部により取得された画像データ及び集音部により集音された音声に基づいて、被写体画像内の主要被写体を検出する処理を行うCPU71を備え、CPUは、集音部により集音された音に基づいて主要被写体の属性を特定し、当該属性に基づいて、検出すべき当該主要被写体の検出基準を変更する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、主要被写体の検出を行う撮像装置、画像検出装置及びプログラムに関する。
【背景技術】
【0002】
従来、撮像装置により主要被写体の画像検出を行い、集音装置により主要被写体の音声検出を行うことにより、画像検出された被写体の方向と音声検出された被写体の方向が一致するか否かを判定して、一致しなかった場合は認識エラーとした技術が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−274707号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記特許文献1の場合、画像検出と音声検出は互いに独立した処理となっており、被写体の検出に音声認識結果を利用して、被写体の検出精度を向上させるものではなく、被写体の検出精度の向上が課題となっていた。
【0005】
そこで、本発明の課題は、被写体の検出精度を向上できる撮像装置、画像検出装置及びプログラムを提供することである。
【課題を解決するための手段】
【0006】
請求項1に記載の発明の撮像装置は、
被写体を撮像して主要被写体を含む被写体画像の画像情報を取得する撮像手段と、前記主要被写体から発せられた音を集音する集音手段と、前記撮像手段により取得された前記画像情報及び前記集音手段により集音された音に基づいて、前記被写体画像内の前記主要被写体を検出する主要被写体検出手段と、を備え、前記主要被写体検出手段は、前記集音手段により集音された音に基づいて前記主要被写体の属性を特定し、当該属性に基づいて、検出すべき当該主要被写体の検出基準を変更することを特徴としている。
【0007】
請求項2に記載の発明は、請求項1に記載の撮像装置において、
前記主要被写体検出手段は、前記主要被写体の属性として、当該主要被写体に係る性別及び年齢のうち、少なくとも何れか一つを特定することを特徴としている。
【0008】
請求項3に記載の発明は、請求項1又は2に記載の撮像装置において、
前記主要被写体は、人物の顔であり、前記主要被写体検出手段は、前記主要被写体の属性として、前記人物に係る性別及び年齢のうち、少なくとも何れか一つを特定し、当該人物に係る性別及び年齢のうち、少なくとも何れか一つに基づいて、検出すべき前記人物に係る顔パーツの位置関係の基準を変更することを特徴としている。
【0009】
請求項4に記載の発明は、請求項1〜3の何れか一項に記載の撮像装置において、
前記主要被写体検出手段は、特定された前記主要被写体の属性の重要度を高くするように、検出すべき当該主要被写体の検出基準を変更することを特徴としている。
【0010】
請求項5に記載の発明は、請求項4に記載の撮像装置において、
前記主要被写体検出手段により検出された前記人物の顔について人物の認識を行う顔認識手段を備えることを特徴としている。
【0011】
請求項6に記載の発明は、請求項5に記載の撮像装置において、
前記集音手段により集音された音を認識して前記人物の顔の認識用特徴情報を特定する特徴情報特定手段と、前記特徴情報特定手段により特定された前記認識用特徴情報の前記顔認識手段による顔認識に係る重要度を高くするように変更する特徴重要度変更手段と、を備えることを特徴としている。
【0012】
請求項7に記載の発明は、請求項6に記載の撮像装置において、
前記認識用特徴情報は、前記人物の性別及び年齢のうち、少なくとも何れか一つであることを特徴としている。
【0013】
請求項8に記載の発明は、請求項5〜7の何れか一項に記載の撮像装置において、
前記顔認識手段により認識された前記人物の名前を表示する名前表示手段を備えることを特徴としている。
【0014】
請求項9に記載の発明のプログラムは、
被写体を撮像して被写体画像の画像情報を取得する撮像手段と、前記被写体画像内の主要被写体から発せられた音を集音する集音手段と、を備える撮像装置に、前記撮像手段により取得された前記画像情報及び前記集音手段により集音された音に基づいて、前記被写体画像内の前記主要被写体を検出する主要被写体検出機能、を実現させ、前記主要被写体検出機能は、前記集音手段により集音された音に基づいて前記主要被写体の属性を特定し、当該属性に基づいて、検出すべき当該主要被写体の検出基準を変更することを特徴としている。
【0015】
請求項10に記載の発明の画像検出装置は、
主要被写体を有する画像情報を取得する画像取得手段と、前記主要被写体から発せられた音を集音する集音手段と、前記画像取得手段により取得された前記画像情報及び前記集音手段により集音された音に基づいて、前記画像情報内の前記主要被写体を検出する主要被写体検出手段と、を備え、前記主要被写体検出手段は、前記集音手段により集音された音に基づいて前記主要被写体の属性を特定し、当該属性に基づいて、検出すべき当該主要被写体の検出基準を変更することを特徴としている。
【発明の効果】
【0016】
本発明によれば、主要被写体から発せられた音の情報を利用して主要被写体の検出基準を変更して主要被写体の検出を行うことができ、この結果、主要被写体の検出精度の向上を図ることができる。
【図面の簡単な説明】
【0017】
【図1】本発明を適用した一実施形態の撮像装置の概略構成を示すブロック図である。
【図2】図1の撮像装置の画像表示部に表示された被写体画像の一例を模式的に示す図である。
【図3】図1の撮像装置のデータ記憶部に記憶されている顔画像データと音声データの一例を模式的に示す図である。
【図4】図1の撮像装置による撮像処理に係る動作の一例を模式的に示す図である。
【図5】変形例1の撮像装置の概略構成を示すブロック図である。
【図6】図5の撮像装置の画像表示部に表示された被写体画像の一例を模式的に示す図である。
【図7】図5の撮像装置のデータ記憶部に記憶されている人物の名前と顔画像データと音声データの一例を模式的に示す図である。
【図8】変形例2の撮像装置の概略構成を示すブロック図である。
【発明を実施するための形態】
【0018】
以下に、本発明について、図面を用いて具体的な態様を説明する。ただし、発明の範囲は、図示例に限定されない。
図1は、本発明を適用した一実施形態の撮像装置100の概略構成を示すブロック図である。
【0019】
本実施形態の撮像装置100は、主要被写体である人物から発せられた音を認識して、発音方向、人物の性別、年齢及び国籍等の音関連検出用情報を特定して、当該音関連検出用情報の重要度を高くして顔検出を行なう。
具体的には、撮像装置100は、図1に示すように、撮像部1と、撮像補助部2と、表示部3、操作部4と、記録媒体5と、集音部6と、制御部7と、データ記憶部8等を備えて構成されている。
【0020】
撮像部1は、撮像レンズ群11と、電子撮像部12と、映像信号処理部13と、画像メモリ14と、撮影制御部15等を備えている。
【0021】
撮像レンズ群11は、複数の撮像レンズから構成されている。
電子撮像部12は、撮像レンズ群11を通過した被写体像を二次元の画像信号に変換するCCD(Charge Coupled Device)やCMOS(Complementary Metal-oxide Semiconductor)等の撮像素子から構成されている。
映像信号処理部13は、電子撮像部12から出力される画像信号に対して所定の画像処理を施すものである。
画像メモリ14は、画像処理後の画像信号を一時的に記憶する。
撮影制御部15は、CPU71の制御下にて、電子撮像部12及び映像信号処理部13を制御する。具体的には、撮影制御部15は、電子撮像部12に所定の露出時間で被写体を撮像させ、当該電子撮像部12の撮像領域から画像信号を所定のフレームレートで読み出す処理の実行を制御する。
【0022】
上記構成の撮像部1は、被写体を撮像して撮像画像データ(画像信号)を取得する撮像手段を構成している。
【0023】
撮像補助部2は、撮像部1による被写体の撮像の際に駆動するものであり、例えば、フォーカス駆動部21と、ズーム駆動部22等を備えている。
【0024】
フォーカス駆動部21は、撮像レンズ群11に接続されたフォーカス機構部(図示略)を駆動させる。
ズーム駆動部22は、撮像レンズ群11に接続されたズーム機構部(図示略)を駆動させる。
なお、フォーカス駆動部21及びズーム駆動部22は、撮影制御部15に接続され、撮影制御部15の制御下にて駆動する。
【0025】
表示部3は、撮像部1により撮像された画像を表示するものであり、表示制御部31と、画像表示部32等を備えている。
【0026】
表示制御部31は、CPU71から適宜出力される表示データを一時的に保存するビデオメモリ(図示略)を備えている。
【0027】
画像表示部32は、表示制御部31からの出力信号に基づいて表示画面に所定の画像や情報を表示する。具体的には、画像表示部32は、撮像処理にて撮像された被写体画像(図2(a)及び図2(b)参照)を表示し、顔検出処理(後述)にて顔が検出されると、当該顔に略矩形状の枠Wを重畳表示する(図2(b)参照)。
なお、図2(a)にあっては、主要被写体としての女子の各々から発せられた音声「撮ってね〜」及び「こっち〜」を模式的にふきだしで表している。
【0028】
操作部4は、当該撮像装置100の所定操作を行うためのものであり、例えば、操作入力部41と、入力回路42等を備えている。
【0029】
操作入力部41は、撮像部1による被写体の撮像を指示するシャッターボタン41aを備えている。シャッターボタン41aは、例えば、半押し操作及び全押し操作の2段階の押圧操作が可能に構成され、各操作段階に応じた所定の操作信号を出力する。
入力回路42は、操作入力部41から出力され入力された操作信号をCPU71に入力するためのものである。
【0030】
記録媒体5は、例えば、カード型の不揮発性メモリ(フラッシュメモリ)やハードディスク等により構成され、撮像部1により生成された撮像画像データを記録する。
【0031】
集音部6は、例えば、マイクやアンプ(図示略)等を備え、周囲から発せられた所定の音を集音して音声データを生成し、音声データをCPU71に出力する。具体的には、集音部6は、集音手段として、主要被写体としての女子(人物)から発せられた音声、例えば、「撮ってね〜」及び「こっち〜」等を集音する(図2(a)参照)。
マイクは、指向性を有し、人物(主要被写体)の発音方向、即ち、話者方向の特定のために複数設けられている。
【0032】
データ記憶部8は、顔検出処理にて検出された顔画像データと、集音部6により生成された音声データを対応付けて記憶する(図3(a)及び図3(b)参照)。例えば、顔検出処理にて検出された左側の女子(図2(b)参照)の顔画像データと、音声データ「撮ってね〜」を対応付けて記憶したり(図3(a)参照)、右側の女子(図2(b)参照)の顔画像データと、音声データ「こっち〜」を対応付けて記憶する(図3(b)参照)。
なお、上記では顔画像データとしたが、当然顔画像データそのものではなく、顔画像の特徴部分を示すデータを記憶するようにしても良い。
また同様に、上記では音声データとしたが、当然音声データそのものではなく、音声の特徴部分を示すデータを記憶するようにしても良い。
なお、顔検出処理にて検出された顔に係る人物の名前は、例えば、操作入力部41の所定操作に基づいて事後的に入力されるようになっている。
これにより、その後に行われる顔検出処理及び顔認識処理にて、データ記憶部8に記憶されている顔画像データや音声データ等を用いて、主要被写体である人物の認識(特定)を好適に行うことができる。
【0033】
制御部7は、撮像装置100の各部を制御するものであり、例えば、CPU71と、プログラムメモリ72と、データメモリ73等を備えている。
【0034】
CPU71は、プログラムメモリ72に記憶された撮像装置100用の各種処理プログラムに従って各種の制御動作を行うものである。
【0035】
データメモリ73は、例えば、フラッシュメモリ等により構成され、CPU71によって処理されるデータ等を一時記憶する。
【0036】
プログラムメモリ72は、CPU71の動作に必要な各種プログラムやデータを記憶するものである。具体的には、プログラムメモリ72は、顔検出プログラム72a、検出用情報特定プログラム72b、重要度変更プログラム72c、検出用情報特定用データd等を記憶している。
【0037】
顔検出プログラム72aは、CPU71を主要被写体検出手段として機能させるものである。即ち、顔検出プログラム72aは、撮像部1により生成された撮像画像データに基づいて、被写体画像内の主要被写体として人物の顔を検出する処理に係る機能をCPU71に実現させるためのプログラムである。
具体的には、CPU71が顔検出プログラム72aを実行することで、複数の撮像画像データのうち、一の撮像画像データについて顔探索枠を所定方向に走査して、目、鼻、ロなどに相当する特徴部分(顔パーツ)を特定して、各顔パーツの位置関係から顔であるか否かを判定し、顔であると判定されると当該探索枠領域を顔領域として検出する。また、顔検出処理は、後述する重要度変更処理にて変更された音関連検出用情報の重要度を考慮して行われる。
なお、上記の顔検出処理の方法は、一例であって、これに限られるものではない。
【0038】
検出用情報特定プログラム72bは、CPU71を検出用情報特定手段として機能させるものである。即ち、検出用情報特定プログラム72bは、集音部6により集音された音に基づいて、顔検出処理による人物の顔の検出用の音関連検出用情報、例えば、発音方向、性別、年齢及び国籍等を特定する処理に係る機能をCPU71に実現させるためのプログラムである。
具体的には、CPU71が検出用情報特定プログラム72bを実行することで、集音部6の複数のマイクにより集音されて生成された音声データを分析して、当該分析結果に基づいて主要被写体の話者方向を特定したり、検出用情報特定用データdを参照して、主要被写体の性別、年齢及び国籍を特定する。
なお、音声認識により、発話者の年齢、性別、国籍を推定する技術は、特開2003−330485号公報において公知である。
【0039】
重要度変更プログラム72cは、CPU71を重要度変更手段として機能させるものである。即ち、重要度変更プログラム72cは、顔検出処理による人物の顔の検出の際に、検出用情報特定処理にて特定された主要被写体の発音方向、性別、年齢及び国籍等の重要度を高くするように変更する重要度変更処理に係る機能をCPU71に実現させるためのプログラムである。
具体的には、CPU71が重要度変更プログラム72cを実行することで、顔検出処理において、顔検出を主要被写体の話者方向を中心として実行したり、各顔パーツの位置関係の基準を性別、年齢及び国籍に応じて変更したり、顔の主要部をなす肌色の濃淡の基準を国籍に応じて変更することにより、特定の人物を検出し易くすることができる。
なお、顔検出により、検出した顔の年齢、性別、国籍を推定する技術は、特開2007−80057号公報において公知である。この文献に記載されているのは、検出した顔から所定の特徴を見出すものであるが、これを逆利用することにより、所定の特徴から所定の顔の重要度を向上させて、検出し易くすることが可能になる。
なお、重要度変更処理における主要被写体の発音方向、性別、年齢及び国籍等の諸要素の重要度の変更の有無の設定は、例えば、操作入力部41の所定操作に基づいて事前に変更することができるようになっている。
【0040】
検出用情報特定用データdは、性別、年齢別、国籍別などに区分された複数種の基準音響モデルデータである。例えば、男性用の基準音響モデルは、300Hz前後の低い周波数からなり、女性用の基準音響モデルは、400Hz前後で、男性に比べて高い周波数となっている。
【0041】
次に、撮像処理について図4を参照して詳細に説明する。
ここで、図4は、撮像処理に係る動作の一例を示すフローチャートである。
【0042】
図4に示すように、先ず、撮像部1による被写体の撮像が開始されると、CPU71は、撮像部1により撮像され生成された画像データに基づいてスルー画像を画像表示部32に表示させる(ステップS1)。
【0043】
次に、集音部6により被写体の主要被写体から発せられた音声を集音されると(ステップS2)、CPU71は、集音部6により集音され音声が所定音量以上か否かを判定する(ステップS3)。
ここで、音声が所定音量以上であると判定されると(ステップS3;YES)、CPU71は、プログラムメモリ72内の検出用情報特定プログラム72bを実行して、集音部6により生成された音声データを分析して、当該分析結果に基づいて主要被写体の話者方向を特定したり、検出用情報特定用データdを参照して、主要被写体の性別、年齢及び国籍を特定する(ステップS4)。
なお、ステップS2にて、主要被写体からの音声の認識率を向上させる上では、予め所定の言葉(例えば、「撮ってね〜」等)を登録しておき、当該言葉を主要被写体にしゃべって貰うようにしても良い。
【0044】
そして、CPU71は、プログラムメモリ72内の重要度変更プログラム72cを実行して、特定された人物の顔の検出用の音関連検出用情報、例えば、主要被写体の発音方向、性別、年齢及び国籍等の重要度を高くする(ステップS5)。具体的には、CPU71は、顔検出の中心を主要被写体の話者方向としたり、各顔パーツの位置関係の基準を性別、年齢及び国籍に応じて変更したり、顔の主要部をなす肌色の濃淡の基準を国籍に応じて変更する。
続けて、CPU71は、プログラムメモリ72内の顔検出プログラム72aを実行して、撮像部1により生成された撮像画像データに基づいて、被写体画像内の人物の顔を検出する顔検出処理を実行する(ステップS6)。具体的には、CPU71は、重要度変更処理にて変更された音関連検出用情報の重要度を考慮して、主要被写体の話者方向を中心として顔検出を行ったり、性別、年齢及び国籍に応じて各顔パーツの位置関係の基準を変更したり、国籍に応じて顔の主要部をなす肌色の濃淡の基準を変更して、顔検出を行う。
そして、顔検出処理にて人物の顔が検出されると、CPU71は、当該顔に略矩形状の顔検出枠W(図2(b)参照)を画像表示部32にOSD表示させる(ステップS7)。
【0045】
なお、ステップS3にて、集音された音声が所定音量以上ではないと判定されると(ステップS3;NO)、ステップS6に移行して、CPU71は、重要度変更処理を行うことなく、顔検出処理を行う。
【0046】
その後、ユーザによりシャッターボタン41aが半押し操作されると(ステップS8;YES)、CPU71は、顔検出処理にて検出された顔に重畳された顔検出枠Wを測光エリアとして露出条件を調整する自動露出処理(AE)や、顔検出枠Wを測距エリアとして合焦位置を調整する自動合焦処理(AF)を行う(ステップS9)。
そして、ユーザによるシャッターボタン41aが半押し操作が解除されることなく(ステップS10;NO)、シャッターボタン41aが全押し操作されると(ステップS11;YES)、CPU71は、静止画像(本画像)を撮像記録する処理を実行する(ステップS12)。
【0047】
その後、CPU71は、顔検出処理にて検出された顔の顔画像データを抽出して、当該顔画像データと、集音部6により集音された音声データを対応付けてデータ記憶部8に記憶させる(ステップS13)。
【0048】
なお、ステップS8にて、ユーザによりシャッターボタン41aの半押し操作が行われない場合(ステップS8;NO)や、ステップS10にて、ユーザによるシャッターボタン41aの半押し操作が解除されると(ステップS10;YES)、ステップS1に戻る。
【0049】
以上のように、本実施形態の撮像装置100によれば、集音部6により集音された音の音声データに基づいて、顔検出処理による顔検出用の話者方向、性別、年齢及び国籍等の音関連検出用情報を特定して、顔検出処理の際に、特定された音関連検出用情報の重要度を高くするように変更する。即ち、顔検出処理において、顔検出の中心を主要被写体の話者方向としたり、各顔パーツの位置関係の基準を性別、年齢及び国籍に応じて変更したり、顔の主要部をなす肌色の濃淡の基準を国籍に応じて変更する。
従って、主要被写体である人物から発せられた音の情報を利用して主要被写体である人物の属性を特定し、当該属性に基づいて、検出すべき主要被写体である人物の検出基準を変更して当該人物の顔検出を行うことができ、この結果、主要被写体の検出精度の向上を図ることができる。さらに、顔検出処理の迅速化を図ることができる。
【0050】
また、主要被写体である人物の発音方向、性別、年齢及び国籍等を音関連検出用情報として適用したので、当該音関連検出用情報を用いて顔検出処理をより適正に行うことができる。
【0051】
なお、本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲において、種々の改良並びに設計の変更を行っても良い。
以下に、撮像装置の変形例について図5〜図8を参照して説明する。
【0052】
<変形例1>
変形例1の撮像装置200は、主要被写体としての人物から発せられた音を認識して当該人物の顔画像情報を特定して、特定された顔画像情報に基づいて顔検出処理を行う。
具体的には、図5に示すように、変形例1の撮像装置200のプログラムメモリ72は、顔検出プログラム72a、検出用情報特定プログラム72b、重要度変更プログラム72c、検出用情報特定用データdに加えて、顔画像情報特定プログラム72d、顔認識プログラム72eを記憶している。
【0053】
顔画像情報特定プログラム72dは、CPU71を顔画像情報特定手段として機能させるものである。即ち、顔画像情報特定プログラム72dは、集音部6により集音された音の音声データに基づいて、データ記憶部8に音声データと対応付けて記録されている顔画像データを特定する処理に係る機能をCPU71に実現させるためのプログラムである。
具体的には、顔検出処理にて、CPU71が顔画像情報特定プログラム72dを実行することで、被写体の撮像の際に集音部6により集音された音の音声データ(例えば、「おいしい!」;図6(a)参照)を分析し、当該音声データの周波数特性に基づいて、データ記憶部8に音声データ(例えば、「楽しい」及び「おもしろい」等)と対応付けて記録されている顔画像データ(例えば、「かおり」の顔画像データ)を特定する(図7(a)参照)。
そして、CPU71がプログラムメモリ72内の顔検出プログラム72aを実行することで、顔画像情報特定処理にて特定された顔画像データを基準として被写体内から主要被写体である人物の顔の検出を行う。
【0054】
顔認識プログラム72eは、CPU71を顔認識手段として機能させるものである。即ち、顔認識プログラム72eは、顔検出処理にて検出された人物の顔の認識を行う顔認識処理に係る機能をCPU71に実現させるためのプログラムである。
具体的には、CPU71が顔認識プログラム72eを実行することで、データ記憶部8を参照して、顔検出処理にて検出された人物の顔を認識して、当該人物の名前を特定する。
そして、CPU71は、顔認識処理にて認識された人物の名前を顔画像と対応付けて画像表示部(名前表示手段)32に表示させる(図6(b)参照)。
【0055】
データ記憶部8は、図7(a)に示すように、顔情報記録手段として、主要被写体としての人物(例えば、「かおり」)の顔の顔画像データと音声データ(例えば、「たのしい」及び「おもしろい」等)とを対応づけて記録する。
また、顔認識処理にて人物の名前が特定されると、データ記憶部8は、図7(b)に示すように、人物の名前(例えば、「かおり」)と対応付けて、顔検出処理にて新たに検出された顔の顔画像データ(図7(b)における右側の顔画像)と、集音部6により新たに集音された音声データ(例えば、「おいしい」)を記録する。
【0056】
従って、変形例1の撮像装置200によれば、集音部6により集音された音の音声データに基づいて、データ記憶部8に音声データと対応付けて記録されている顔画像データを特定して、特定された顔画像データに基づいて、主要被写体である人物の顔の検出を行うことができるので、被写体内からの主要被写体の顔の検出をより適正に、且つ、迅速に行うことができる。即ち、主要被写体が横を向いていたり、不鮮明な状態の画像であっても、主要被写体から発せられた音声に基づいて、主要被写体である人物の顔検出を適正に行うことができる。
【0057】
また、顔検出処理により検出された人物の顔を認識して、当該人物の名前を特定して顔画像と対応付けて画像表示部32に表示するので、撮像処理にて、被写体画像内から検出され認識された人物を撮影者に報知することができる。これにより、撮影者は、顔認識処理が適正に行われたか否かの把握を適正に行うことができる。
そして、データ記憶部8は、主要被写体である人物の名前と対応付けて、顔検出処理にて新たに検出された顔の顔画像データと、集音部6により新たに集音された音声データを記録するので、その後に行われる顔検出処理及び顔認識処理にて、データ記憶部8に記憶されている顔画像データや音声データ等を用いて、主要被写体である人物の認識(特定)を好適に行うことができる。
【0058】
<変形例2>
変形例2の撮像装置300は、集音部6により集音された音を認識して顔認識処理における人物の性別、年齢及び国籍等の認識用特徴情報を特定し、当該認識用特徴情報の顔認識処理における優先順位を高くするように変更する。
【0059】
即ち、図8に示すように、変形例2の撮像装置300のプログラムメモリ72は、顔検出プログラム72a、検出用情報特定プログラム72b、重要度変更プログラム72c、顔認識プログラム72e、検出用情報特定用データdに加えて、特徴情報特定プログラム72f、特徴重要度変更プログラム72g、顔情報記録制御プログラム72hを記憶している。
【0060】
特徴情報特定プログラム72fは、CPU71を特徴情報特定手段として機能させるものである。即ち、特徴情報特定プログラム72fは、集音部6により集音された音声を認識して人物(主要被写体)の認識用特徴情報を特定する処理に係る機能をCPU71に実現させるためのプログラムである。
具体的には、CPU71が特徴情報特定プログラム72fを実行することで、集音部6により集音された音声の周波数特性に基づいて、人物(主要被写体)の性別、年齢及び国籍等の認識用特徴情報を特定する。
そして、CPU71は、特定された人物の性別、年齢及び国籍等の認識用特徴情報を顔画像と対応付けて画像表示部(特徴情報表示手段)32に表示させる。
【0061】
特徴重要度変更プログラム72gは、CPU71を特徴重要度変更手段として機能させるものである。即ち、特徴重要度変更プログラム72gは、特徴情報特定処理にて特定された認識用特徴情報の顔認識処理における優先順位(顔認識処理に係る重要度)を高くするように変更する。
具体的には、CPU71が特徴重要度変更プログラム72gを実行することで、例えば、特定された主要被写体としての人物が男性(女性)である場合には、データ記憶部8に記憶されている男性(女性)のデータベースを優先的に参照し、また、人物の年齢や国籍に応じて、当該年齢や国籍のデータベースを優先的に参照して、顔認識処理を行う。
【0062】
顔情報記録制御プログラム72hは、CPU71を顔情報記録制御手段として機能させるものである。即ち、顔情報記録制御プログラム72hは、特徴情報特定処理にて特定された認識用特徴情報、及び集音部6により集音された音声の音声データを顔画像データと対応付けてデータ記憶部8に記録させる処理に係る機能をCPU71に実現させるためのプログラムである。
具体的には、顔認識処理の後、CPU71は、顔情報記録制御プログラム72hを実行することで、顔認識処理にて顔認識された人物の性別、年齢及び国籍等(認識用特徴情報)及び音声データを顔画像データと対応付けてデータ記憶部8に記録させる。
【0063】
従って、変形例2の撮像装置300によれば、集音部6により集音された音を認識して顔認識処理における人物の性別、年齢及び国籍等の認識用特徴情報を特定し、当該認識用特徴情報の顔認識処理における優先順位を高くするように変更するので、主要被写体である人物の性別や年齢や国籍に応じて、当該性別や年齢や国籍のデータベースを優先的に参照して、顔認識処理を適正に、且つ、迅速に行う。
【0064】
また、特定された認識用特徴情報を顔画像と対応付けて画像表示部32に表示するので、撮像処理にて、被写体画像内から検出され認識された人物の認識用特徴情報を撮影者に報知することができ、撮影者は、顔認識処理が適正に行われているか否かの把握を適正に行うことができる。
そして、データ記憶部8は、主要被写体である人物の名前と対応付けて、顔検出処理にて新たに検出された顔の顔画像データと、集音部6により新たに集音された音声データの他に、人物の性別、年齢及び国籍等を認識用特徴情報を記録するので、その後に行われる顔検出処理及び顔認識処理にて、データ記憶部8に記憶されている認識用特徴情報を用いて、主要被写体である人物の認識(特定)を好適に行うことができる。
【0065】
また、主要被写体である人物の性別、年齢及び国籍等を認識用特徴情報として適用したので、当該認識用特徴情報を用いて顔認識処理をより適正に行うことができる。
【0066】
なお、上記変形例2にあっては、人物の性別、年齢及び国籍等の認識用特徴情報を顔画像データと対応付けてデータ記憶部8に記録するようにしたが、これに限られるものではなく、例えば、人物の性別、年齢及び国籍等の認識用特徴情報や人物の名前等をExifタグ情報として、Exif形式の画像データに付帯するようにしても良い。これにより、当該撮像装置300以外の外部機器であっても、当該画像データのExifタグ情報を参照することで、主要被写体である人物の名前や性別、年齢及び国籍等の認識用特徴情報を認識することができる。
【0067】
また、上記実施形態では、主要被写体として、人物の顔を例示して説明したが、これに限られるものではなく、例えば、電車、自動車、船舶、飛行機等の乗り物や、犬、猫、牛、ライオン等の動物など、音(鳴き声)を発するものであれば如何なるものであっても良い。即ち、乗り物や動物の各画像と音(鳴き声)を対応付けてデータ記憶部8に記録しておくことで、これら乗り物や動物の撮影の際に、乗り物や動物の音(鳴き声)から主要被写体としての乗り物や動物の検出を精度良く行うことができる。
【0068】
さらに、上記実施形態では、音関連検出用情報として、主要被写体の発音方向、性別、年齢及び国籍を例示したが、これに限られるものではなく、主要被写体から発せられて当該主要被写体の検出に係る情報であれば如何なるものであっても良い。
加えて、認識用特徴情報として、主要被写体である人物の性別、年齢及び国籍を例示したが、これに限られるものではなく、人物の顔の特徴を表して当該顔の認識に係る情報であれば如何なるものであっても良い。
また、上記実施形態では、変形例1、変形例2共に別に構成したカメラであるとしたが、1つのカメラであって、3つの動作モードを切り替えて使用する構成としても良いことは勿論である。これにより、多くの動作モードを1つのカメラで実現できるので利便性を向上させることができる。
また、上記実施形態では、顔検出プログラムaで検出した顔に対して顔認識プログラムeで個人の特定を行うように構成したが、このようではなくとも構わず、1つのプログラムで、例えば顔検出プログラムで顔の検出と共に個人の特定を行っても構わない。
【0069】
また、撮像装置100の構成は、上記実施形態に例示したものは一例であり、これに限られるものではない。
【0070】
加えて、上記実施形態では、主要被写体検出手段、検出用情報特定手段、重要度変更手段、顔画像情報特定手段、顔認識手段、特徴情報特定手段、特徴重要度変更手段、顔情報記録制御手段としての機能を、CPU71によって所定のプログラム等が実行されることにより実現される構成としたが、これに限られるものではなく、例えば、各種機能を実現するためのロジック回路等から構成しても良い。
【符号の説明】
【0071】
100、200、300 撮像装置
1 撮像部
3 表示部
32 画像表示部
6 集音部
71 CPU
8 データ記憶部

【特許請求の範囲】
【請求項1】
被写体を撮像して主要被写体を含む被写体画像の画像情報を取得する撮像手段と、
前記主要被写体から発せられた音を集音する集音手段と、
前記撮像手段により取得された前記画像情報及び前記集音手段により集音された音に基づいて、前記被写体画像内の前記主要被写体を検出する主要被写体検出手段と、
を備え、
前記主要被写体検出手段は、
前記集音手段により集音された音に基づいて前記主要被写体の属性を特定し、当該属性に基づいて、検出すべき当該主要被写体の検出基準を変更することを特徴とする撮像装置。
【請求項2】
前記主要被写体検出手段は、
前記主要被写体の属性として、当該主要被写体に係る性別及び年齢のうち、少なくとも何れか一つを特定することを特徴とする請求項1に記載の撮像装置。
【請求項3】
前記主要被写体は、人物の顔であり、
前記主要被写体検出手段は、
前記主要被写体の属性として、前記人物に係る性別及び年齢のうち、少なくとも何れか一つを特定し、当該人物に係る性別及び年齢のうち、少なくとも何れか一つに基づいて、検出すべき前記人物に係る顔パーツの位置関係の基準を変更することを特徴とする請求項1又は2に記載の撮像装置。
【請求項4】
前記主要被写体検出手段は、
特定された前記主要被写体の属性の重要度を高くするように、検出すべき当該主要被写体の検出基準を変更することを特徴とする請求項1〜3の何れか一項に記載の撮像装置。
【請求項5】
前記主要被写体検出手段により検出された前記人物の顔について人物の認識を行う顔認識手段を備えることを特徴とする請求項4に記載の撮像装置。
【請求項6】
前記集音手段により集音された音を認識して前記人物の顔の認識用特徴情報を特定する特徴情報特定手段と、
前記特徴情報特定手段により特定された前記認識用特徴情報の前記顔認識手段による顔認識に係る重要度を高くするように変更する特徴重要度変更手段と、を備えることを特徴とする請求項5に記載の撮像装置。
【請求項7】
前記認識用特徴情報は、前記人物の性別及び年齢のうち、少なくとも何れか一つであることを特徴とする請求項6に記載の撮像装置。
【請求項8】
前記顔認識手段により認識された前記人物の名前を表示する名前表示手段を備えることを特徴とする請求項5〜7の何れか一項に記載の撮像装置。
【請求項9】
被写体を撮像して被写体画像の画像情報を取得する撮像手段と、前記被写体画像内の主要被写体から発せられた音を集音する集音手段と、を備える撮像装置に、
前記撮像手段により取得された前記画像情報及び前記集音手段により集音された音に基づいて、前記被写体画像内の前記主要被写体を検出する主要被写体検出機能、
を実現させ、
前記主要被写体検出機能は、
前記集音手段により集音された音に基づいて前記主要被写体の属性を特定し、当該属性に基づいて、検出すべき当該主要被写体の検出基準を変更することを特徴とするプログラム。
【請求項10】
主要被写体を有する画像情報を取得する画像取得手段と、
前記主要被写体から発せられた音を集音する集音手段と、
前記画像取得手段により取得された前記画像情報及び前記集音手段により集音された音に基づいて、前記画像情報内の前記主要被写体を検出する主要被写体検出手段と、
を備え、
前記主要被写体検出手段は、
前記集音手段により集音された音に基づいて前記主要被写体の属性を特定し、当該属性に基づいて、検出すべき当該主要被写体の検出基準を変更することを特徴とする画像検出装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−148132(P2010−148132A)
【公開日】平成22年7月1日(2010.7.1)
【国際特許分類】
【出願番号】特願2010−9995(P2010−9995)
【出願日】平成22年1月20日(2010.1.20)
【分割の表示】特願2007−226151(P2007−226151)の分割
【原出願日】平成19年8月31日(2007.8.31)
【出願人】(000001443)カシオ計算機株式会社 (8,748)
【Fターム(参考)】