説明

撮像装置、方法

【課題】 カメラで被写体を撮影した際に、「何が撮影されているか」というデータは撮影者が手動で入力しなければならず、煩雑だった。また、顔認識技術も構図の影響を受けやすいものであった。
【解決手段】 複数の項目を被写体から検出し、特徴値を抽出する。それぞれの特徴値は独立して被写体認識の項目として用いることができる。
また、既に認識されている被写体から新たな特徴値を発見した場合には、その特徴値を既に認識されている特徴値と関連付けて登録するとともに、その新たな特徴値を独立して被写体認識に用いることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、撮影画像を効率よく分類・検索するための撮像装置に関する。
【背景技術】
【0002】
デジタルカメラの普及や、スキャナーの普及により、画像のデジタル化が進んでいる。特に新聞社などで用いる報道写真の場合、例えば野球の試合では、一つの試合で1000枚以上の画像を撮ることもある。画像には、後日検索を容易にするために、その画像に付加された画像情報以外の領域のデータ(いわゆるタグデータ)である日付、撮影者などのタグデータが付加されている。しかしより検索を容易にするためには、このほかに、「何が写っているのか」という情報が画像に付加されていることが望ましい。そこで、「何が写っているのか」という情報を画像に付加する手段として、撮影者が手動で入力する手段が考えられる。しかし、写真の枚数が多くなると手動で情報を入力するのは手間がかかった。
【0003】
この問題を解決すべく、カメラが自動的に「何が写っているのか」という情報を画像に付加する技術が知られている(特許文献1参照)。その技術はは、カメラが被写体の特徴的な部分、例えば画像の被写体の顔・身につけているゼッケン等を検出する。そしてカメラが検出した情報から被写体が誰であるか認識することにより、「何が写っているか」という情報を示すタグを作成する技術である。この技術を用いることにより、撮影者はタグを手動で付加する手間を省くことができ、本来の撮影に集中することができる。
【特許文献1】特開平5−89244号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら従来の技術では、カメラが単独で被写体の認識に用いることができる部分は限られていた。例えば、顔、ゼッケンを検出できるカメラであっても、少なくとも顔を検出しなければ被写体を認識できないなど、被写体の認識ができるか否かは、被写体のある一部分が撮影画像の構図に含まれているか否かによるところが大きかった。従って、様々な構図で同一の被写体を撮影した場合に、被写体の認識精度が構図により大きく左右されるという課題があった。
【課題を解決するための手段】
【0005】
上記課題を解決するために、本発明は、被写体の特徴を示す第1の特徴量を記憶する記憶手段と、
撮影レンズによって結像される被写体像を光電変換して撮影画像を得る撮像手段と、
前記撮像手段により得られた撮影画像から、被写体の特徴量を抽出する抽出手段と、
前記抽出手段により、前記第1の特徴量の少なくとも1つが抽出された撮影画像から、或いは、前記第1の特徴量の少なくとも1つが抽出された撮影画像に関連付けられた他の情報から、抽出された新たな第2の特徴量を、該抽出された第1の特徴量に関連付けて前記記憶手段に記憶させる付加手段と
を備えることを特徴とする。
【発明の効果】
【0006】
本発明によれば、カメラが検出技術を用いて被写体の特徴を自動で抽出し、データベースと照合することで被写体を認識できる。このため、撮影者が手動で被写体情報を入力する必要がない。また、複数の特徴から照合を行うため、認識の精度が構図の影響を受けにくくなる。
【発明を実施するための最良の形態】
【0007】
以下に、図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。ただし、この実施形態に記載されている構成要素はあくまで例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。
【0008】
(実施例1)
以下、1つめの実施例について説明する。
【0009】
図1に、報道カメラマンがスタジアム101内で野球の試合を撮影する撮影システムの概要図を示す。
【0010】
102は実際に試合を行うグラウンドであり、バッターボックス110、電光掲示板103が設けられている。電光掲示板103にはスピーカ104が備えられており、試合の情報が随時アナウンスされる。
【0011】
スタジアム101にはカメラマン席105が設けられている。カメラマン席105はカメラマン106が試合を撮影するための席である。109はバッターであり、バッターボックス110に立つ。カメラマン106は自らのデジタルカメラ107を用いてバッター109を撮影する。
【0012】
また、スタジアム110内には無線LANのアクセスポイント111が設けられており、デジタルカメラ107はこのアクセスポイントを通じてインターネット112に接続することが可能である。113は放送局のサーバである。放送局サーバ113はWebサイトを運営し、インターネット112を介して試合の情報を随時配信している。デジタルカメラ107は、インターネット112を介して放送局サーバ113から配信される情報を取得することが可能である。
【0013】
カメラマン106が撮影した画像はデジタルカメラ107からパーソナルコンピュータ(以下PCと呼ぶ)108に転送される。PC108は新聞社114とネットワークを介して接続されている。デジタルカメラ107からPC108に転送された画像は新聞社114に転送され、編集素材として用いられる。
【0014】
デジタルカメラ107からPC108へと画像を転送するために、種々の公知の技術を用いることができる。例えば、撮影後にカメラマン106が、デジタルカメラ107または画像を保存してある記録媒体(図示せず)をPC108に接続し、デジタルカメラ107がPC108に画像を転送してもよい。また、カメラマン106の指示により、無線通信を用いてデジタルカメラ107がPC108に画像を転送してもよい。
【0015】
図2に、図1に示すデジタルカメラ107のブロック図を示す。219は被写体像を結像するレンズである。209はレンズ219により結像された被写体像をアナログ画像として出力する光電変換機能を有するCCD等の撮像センサ209である。211は画像を表示するディスプレイである。208はメモリカード207の着脱を可能とするソケットである。204はフラッシュメモリ等のシステム記憶部である。システム記憶部204には、撮像装置の動作のプログラムや撮像動作に必要なプロパティデータや、外部機器との通信に必要な通信モジュール、さらにWebサイトを閲覧するためのWebブラウザが格納されている。206はDRAMであり、後述するCPU203がプログラムを実行する際のワークデータを保持する。また、デジタルカメラ107の撮影動作によって生成される画像やディスプレイ211に表示する画像を保持する。
【0016】
また、デジタルカメラ107は、デジタルカメラ107の動作モード、即ち撮影モードか再生モードかをユーザが指定するためのモードスイッチ221を備える。また、ユーザがデジタルカメラに対する指示を入力するための十字キーやセットボタン、キャンセルボタン等複数のスイッチで構成される操作スイッチ222を備える。さらに、撮像時に撮像開始を指示するシャッターボタン223とを備える。
【0017】
撮像センサ209はADコンバータ228を介して撮像回路210に接続される。撮像回路210は撮像センサ209から出力された画像に基づいてデジタル画像を生成し、データバス202を介してDRAM106に記録する。
【0018】
デジタルカメラ107はDRAM206が記憶したデジタル画像からディスプレイ211で表示すべきデジタル画像を生成する表示回路212を備える。また、生成されたデジタル画像をアナログ画像に変換して出力するDAコンバータ229とを備える。撮像回路210及び表示回路212は、互いにデータバス202を介して接続されている。
【0019】
また、デジタルカメラ107は、データバス202に接続されたメモリカードコントローラ213及びシステム記憶部コントローラ215と、IO225、CPU203とを備え、これらはデータバス202を介して互いに接続されている。
【0020】
さらに、デジタルカメラは、DRAM206に接続されると共に、データバス202に接続するメモリコントローラ205を備える。
【0021】
モードスイッチ221、操作スイッチ222、シャッターボタン223はIO225に接続されている。
【0022】
メモリカードコントローラ213は、メモリカード207にコマンド発行及びデータ転送をするように構成されている。
【0023】
データバス202は、バスマスタとしての撮影回路210や表示回路212からの要求に応じて、撮影又は画像の再生時に画像を伝送する。
【0024】
メモリコントローラ205は、データバス202からDRAM206へのアクセス要求を受け、これを調停しながらDRAM206へのアクセス信号を生成する。そしてDRAM206へのデータの書き込みやDRAM206からのデータの読み出しを実行する。
【0025】
CPU203は、システム記憶部204が記憶するプログラムに従ってカメラのシーケンスを制御する。このシステム記憶部204に格納されているプログラムに従って、後述する図3、図9、図18に示す処理が実行される。
【0026】
本装置は使用者がシャッターボタン223を押した場合、静止画撮影動作を行う。
【0027】
これにより、撮像センサ209は像を電気信号に変換し、これをADコンバータ228に出力する。ADコンバータ228はこれをデジタル値に変換し撮像回路210に出力する。撮像回路210は露出、ホワイトバランスを調整し、さらにデータの圧縮処理を行い、生成した圧縮画像をデータバス202及びメモリコントローラ205を介して、一旦DRAM206に記録する。メモリカードコントローラ213はDRAM206に生成された圧縮画像をメモリカード207に記録する。
【0028】
さらにデジタルカメラ107は特徴検出回路200及び特徴検出に必要なパラメータ値を保持するパラメータ保持部201を備える。パラメータ保持部201が保持するパラメータ値は書き換え可能で、人間の顔、数字、風景といった被写体の外見的な特徴を記録することが可能である。
【0029】
また、パラメータ保持部には、外見的特徴だけでなく人間や機械の発する音声の特徴を記録することも可能である。
【0030】
また本撮像装置は、特徴値を一時記憶する特徴値記憶回路230、及び特徴値の比較を行う特徴値比較回路231を備える。
【0031】
システム記憶部204には、被写体の特徴を示す値が記録されている。例えば顔の輪郭、目、鼻、口の位置関係を数値化した値や、文字パターンの特徴を示す値、さらには人間や機械の発する音声の特徴が記録されている。文字パターンとは、画像中に含まれる文字を表わす部分のことをいい、例として背番号・看板の文字などがある。被写体から顔部分・背番号部分をサーチする場合は、この値をパラメータ保持部201にロードする。
【0032】
特徴検出回路200は、入力される画像又は音声データとパラメータ値に基づき所望の特徴を示す部分を検出する。さらにこれらの所望の特徴を示す部分の特徴値を演算する。CPU203がこれらの値をデータバスを介して読み取ることが可能であるよう、デジタルカメラは構成されている。
【0033】
特徴検出回路200はパラメータ値を変更することによって、例えば画像の場合であれば人間の顔、動物の顔、アラビア数字、英語、平仮名といったものの特徴を、音声データの場合であれば人間の声や電子音といったものの特徴を抽出することが可能である。
【0034】
また、本装置は過去の撮影によって生成した特徴値を、メモリカード207またはシステム記憶部204に保存しておくことが可能である。特徴値記憶回路230は保存されていた特徴値を記憶する回路で、CPU203は特徴値を特徴値記憶回路230に転送することが可能である。
【0035】
特徴値比較回路231は特徴値を比較する回路であり、特徴検出回路200が出力する特徴値と特徴値記憶回路230が出力する特徴値を比較し、一致の度合いを演算する。CPU203は特徴値比較回路が演算した結果を読み出すことが可能である。
【0036】
マイクロフォン233は音声を読み取り、音声データとして電気信号に変換する装置であり、ADコンバータ232でデジタル信号に変換される。
【0037】
音声認識回路はADコンバータ232から送られてきた音声データを認識し、テキストデータに変換する回路である。
【0038】
ネットワークインタフェース234は、無線LANのアクセスポイントに接続するためのインタフェースであり、アクセスポイントを介してインターネットと接続し、他の情報処理装置と通信を行うことができる。
【0039】
なお、本実施例では特徴検出回路200、パラメータ保持部201、特徴値記憶回路230、特徴値比較回路231が、それぞれ1つの回路で顔、文字パターン、音声の検出等を行っているように記載している。しかし、本実施例において、顔、文字パターン、音声の検出等のため物理的に別の回路を有していてもよい。
【0040】
次に、デジタルカメラ107が放送局サーバ113から配信される試合情報を受け取る動作について、図3に示すフローチャートを用いながら説明する。
【0041】
以下、デジタルカメラ107にインストールされたプログラムに従いCPU203が実行する処理を説明する。
【0042】
メモリカード207には、試合前に予め放送局が提供する試合情報を配信するサイトのURLが記録されている。
【0043】
ステップS301では、デジタルカメラ107は接続待機状態にあり、ユーザからの接続の指示を待つ。
【0044】
カメラマン106が操作スイッチ222を用いてデジタルカメラ107に対しインターネット112への接続指示を行う。接続指示を受けたCPU203はネットワークインタフェース234を介してアクセスポイント111への接続を開始する(ステップS302,ステップS303)。
【0045】
アクセスポイントへの接続が行われると、アクセスポイント111からインターネット112への接続が行われる。CPU203はインターネットへの接続が完了したと判断すると(ステップS304)、メモリカード207に記録された、放送局が提供するサイトのURLを読み出す(ステップS305)。
【0046】
そしてCPU203は読み出したURLに基づき放送局サーバ113にアクセスする(S306)。
【0047】
CPU203はデジタルカメラ107を受信待機状態とし、放送局サーバ113から試合情報が配信されるのを待つ(ステップS307)。
【0048】
放送局サーバ113は、アクセスを行ったデジタルカメラ107に試合情報を送信する。
【0049】
CPU203はネットワークインタフェース234を介して、放送局サーバ113からデジタルカメラ107に送信された試合情報を受信し(ステップS308)、DRAM206に試合情報を記録する(ステップS309)。さらに、デジタルカメラ107内のデータベースに選手に関する情報を書き込んで処理を終了する(ステップS310)。この処理については後述する。
【0050】
試合情報は試合の攻守が交代するたびに、放送局サーバ113が更新して配信する。すなわち、デジタルカメラ107が試合中インターネットに接続されていれば、カメラマン106は自動的に最新の試合情報を入手することができる。
【0051】
ここで、試合情報のデータ構成について説明する。
【0052】
図4に、デジタルカメラ107が受信する試合情報のデータ構成を示す。試合情報は試合の基本的な情報である基本情報401、試合の進行状況を示す進行情報402、出場選手の情報を示す選手情報403から構成される。これらのデータの内容はテキストデータである。
【0053】
図5に基本情報401のデータ構成を示す。501は試合名である。502は試合の開始時刻を示す。503は試合が行われている球場を示す。
【0054】
図6に進行情報402のデータ構成を示す。601は回数であり、現在の回数を示す。602は現在攻撃しているチーム名を示す。603は球場の天候を示す。604は球場の気温を示す。605は現時点での得点を示す。図6では、チームAが4得点、チームBが3得点という状況を示している。606は試合時間であり、試合開始から進行情報が更新された時までの経過時間である。
【0055】
なお、進行情報は試合の経過によって変化する。従って、定期的に又は情報が変更された場合に、放送局サーバ113が更新する。
【0056】
図7に選手情報403のデータ構造を示す。選手情報は打順、選手名、背番号の3つで構成される。701は打順であり、1から9まで存在する。702は選手名である。703は選手の背番号である。
【0057】
なお、選手情報は選手の交代によって変化する。従って、定期的に又は情報が変更された場合に、放送局サーバ113が更新する。
【0058】
なお、本実施例では基本情報401、進行情報402、選手情報403が試合情報という1つのデータにまとめられて配信される構成としたが、これら3つの情報を別個のデータとして配信される構成をとってもよい。
【0059】
例えば、放送局サーバ113は、基本情報401と選手情報403のみ試合開始前に配信し、進行情報402は攻守が変わる毎に更新して配信し、選手情報403は選手交代があったときにのみ更新して配信する構成としてもよい。
【0060】
以上、試合情報のデータ構成について説明した。以下、試合情報を受信した後のデジタルカメラ107の動作について説明する。
【0061】
試合情報を受信し、DRAM206への記録を完了すると、CPU203は選手情報のデータベースへの書き込みを開始する(図3のステップS310)。
【0062】
図8に、システム記憶部204に保存されているデータベース801を示す。データベース801は4つの項目から構成されている。802は打順項目であり、選手の打順が登録される。803は選手名項目であり、選手の名前が登録される。804は背番号項目であり、選手の背番号が登録される。805は顔パターン項目であり、選手の顔の特徴値が登録される。顔の特徴値については後述する。
【0063】
CPU203はDRAM206から試合情報を読み出す。そして選手情報内の打順701に入力されているデータをデータベース801の打順項目802に、選手名702のデータを選手名項目803に、背番号703のデータを背番号項目804に、各々の項目を対応付けて登録する。
【0064】
この処理により、カメラ内のデータベース801に打順と選手名、背番号が対応付けられて登録される。選手情報を登録したデータベース801を図10に示す。
【0065】
次に、図9に示すフローチャートを用いて、本実施形態における撮影のフローを説明する。
【0066】
以下、デジタルカメラ107にインストールされたプログラムに従いCPU203が実行する処理を説明する。
【0067】
この時点で、データベースは図10に示す状態になっている。ここでは、顔に関する情報が未だ登録されていない被写体を撮影した場合について説明する。
【0068】
ここでは被写体から検出する対象を顔・背番号とし、パラメータ保持部201にはそれぞれの特徴を示す値をあらかじめ記録しておく。
【0069】
ステップS901にて、デジタルカメラ107は撮影モードを開始する。
【0070】
ステップS902にて、CPU203は、ディスプレイ211の制御と撮影動作を開始するためのシャッターボタン223の待機を開始する。
【0071】
ステップS903では、CPU203はシャッターボタン223が押されたかどうかを確認する。シャッターボタン223が押されていない場合はステップS902に戻り処理を繰り返す。
【0072】
ステップS903にてCPU203は、カメラマン106がシャッターボタン223を押したと判断すると、処理をステップS904に進め、撮影を開始する。
【0073】
ステップS904では、撮像センサ209上に結像した像が電気信号に変換される。そして画像処理により露出、ホワイトバランス調整などが施された上で、メモリ上に記憶される。さらに圧縮画像がDRAM106の異なる領域に生成される。CPU203はこの画像を圧縮し、更に圧縮された画像はメモリカード207に転送される。
【0074】
本実施例の具体的事例として、図11に撮影した画像を示す。図11に示す画像は、顔と背番号が確認できる構図となっている。
【0075】
ステップS905にて、CPU203は試合情報を撮影した画像に書き込む。このときCPU203はシステム記憶部204より図4に示す試合情報を読み出す。そしてCPU203は撮影した画像のヘッダ部に、図5に示す基本情報の内容と、図6に示す進行情報の内容を書き込む。
【0076】
この処理により、画像には試合名501、撮影時のイニング数601、撮影時の天候603など、さまざまな情報が付加される。この情報は、後日カメラマン106が大量の画像から所望の画像を検索する際に有効な情報となる。
【0077】
なお、撮影した画像すべてに試合情報を書き込むと、メモリカード207内の総データ量が増える可能性がある。そこで、試合情報を書き込む前に、CPU203が後述する検出・認識処理(ステップS906〜ステップS914)を行い、被写体が認識できたと判断した場合にのみ、画像に試合情報を書き込む構成としてもよい。
【0078】
ステップS906にて、CPU203は顔検出処理を開始する。このときCPU203はDRAM206内に記憶された画像を、データバス202を介して特徴検出回路200に転送する。特徴検出回路200は転送された画像に対して公知の顔検出技術を用いることにより、顔領域の検出を行い、画像中における顔の位置情報と特徴的な部位情報を抽出する。CPU203はこの部位情報を特徴値としてDRAM206に記憶する。なお、顔の特徴的な部位情報とは、例えば目、鼻、口等の画像情報等のことである。
【0079】
被写体の顔部分は通常、レンズの合焦位置の付近にある。このことを利用し、CPU203はいわゆるオートフォーカス枠の内側で顔検出処理を行うことにより、さらに精度よく被写体の顔領域を検出することができる。
【0080】
公知の顔検出技術としては、例えば特開平10−232934号公報や特開2000−48184号公報に開示されており、一般的にはこれらの文献に開示された方法を複数組み合わせて顔認識することが考えられる。
【0081】
ステップS906にて、CPU203は背番号検出処理を行う。背番号の検出も顔処理と同様、特徴検出回路200が画像に対し公知のパターン検出技術を用いることにより行われる。
【0082】
背番号を検出すると、CPU203は検出したデータをOCR回路236に転送する。転送されたデータはOCR処理され、テキストデータに変換される。CPU203は、このデータを背番号の特徴値としてDRAM206に記憶する。
【0083】
背番号を検出する際には、前述した顔検出の結果を用いることが可能である。通常、背番号は被写体の背中、すなわち顔の近傍に存在する。このことを用いて、顔の近傍にある文字列パターンが背番号であると判断することで、画像中にある他の文字列パターンと区別することが可能となる。この基準を用いることにより、背番号検出の精度を高めることができる。
【0084】
図11に示す画像では、図12中、矩形領域1201が顔として、矩形領域1202が背番号として検出され、その領域における特徴値が抽出される。
【0085】
また、図11に示す画像では、背番号が検出された後、検出された背番号がOCR部136でOCR処理されることよってテキストデータ「55」に変換される。このテキストデータが特徴値としてDRAM206に記憶される。
【0086】
本実施例では検出する対象を背番号としたが、胸ゼッケンや被写体の持っている番号札などを検出対象としてもよい。
【0087】
ステップS908において、背番号、顔の少なくとも1つが検出されたとCPU203が判断した場合には、ステップS909にて、CPU203は図10のデータベース801に蓄積されたレコードをレコードナンバーの若い順に1レコードずつ読み出す。
【0088】
背番号、顔ともに検出されなかった場合は、CPU203は処理をステップS902に戻す。デジタルカメラ107はシャッター待機状態となる。
【0089】
ステップS910では、CPU203は図10のデータベース801から読み出したレコードに記録された特徴値と、ステップS906、907にて検出された特徴値とを比較する。
【0090】
CPU203は、図10のデータベース801から読み出したレコードに登録された特徴値の中に、ステップS906、907にて検出された特徴値と一致するものがないと判断した場合には、処理をステップS902に戻す。デジタルカメラ107はシャッター待機状態となる。
【0091】
図10のデータベース801から読み出した特徴値の中にステップS906、ステップS907にて検出された特徴値と一致するものがあると判断した場合について説明する。この場合には、CPU203は、読み出したレコード中、選手名項目803に入力されているテキストデータを撮影した画像のヘッダ部に書き込み、ステップS913に処理を進める。
【0092】
具体的に、図10に示すデータベース801に登録されている特徴値と、図11に示す画像から抽出された特徴値とを比較する場合について説明する。CPU203は検出した背番号をOCR処理した文字列データ「55」、そして抽出した顔の特徴値と一致するデータが、背番号項目804、顔パターン項目805に登録されているか検索する。CPU203はレコードナンバー1から順に図10のデータベース801に記録されているレコードを読み出し、背番号項目に文字列データ55があるか否か判断する。また、顔パターン項目805に、検出した顔パターンと同じパターンがあるか否か判断する。
【0093】
図10のデータベース801において、背番号項目804に「55」が存在する。従って、CPU103はこのレコードと特徴値を比較した際に図10のデータベース801に背番号55が存在すると判断し、撮影した画像のヘッダ部に、読み出されたレコードの選手名項目803に登録されたデータである「SUZUKI」を書き込む。
【0094】
図10のデータベース801には顔の特徴値は登録されていない。従ってCPU203は、顔パターン項目805に、検出した顔パターンと同じパターンは存在しないと判断し、ヘッダには何も書き込まない。
【0095】
ステップS913では、CPU203はデータベースから読み出した特徴値に一致した特徴値(以下、一致特徴値と呼ぶ)の他に、別の特徴値(以下、新規特徴値と呼ぶ)が抽出されたか否かを判断する。新規特徴値が検出されたと判断した場合には、CPU203は処理をステップS914に進める。CPU203は、新規特徴値が検出されなかったと判断した場合には、処理をステップS902に戻し、デジタルカメラ107をシャッター待機状態にする。
【0096】
図11に示す画像からは、顔と背番号の特徴値が抽出されている。このうち、顔の特徴値が図10のデータベース801には登録されていない。従って、顔の特徴値が新規特徴値と判断される。
【0097】
ステップS914において、CPU203は検出された新規特徴値を、一致特徴値と同じレコードナンバーに登録し、シャッター待機状態に戻る。
【0098】
すなわち、図11に示す画像から抽出された特徴値のうち、新規特徴値である顔の特徴値が一致特徴値である背番号「55」と同じレコードナンバーのレコードの顔パターン項目に登録される。このときのデータベースを図13に示す。
【0099】
以上の処理が終了すると、CPU203は処理をステップS902に戻し、デジタルカメラ107はシャッター待機状態となる。
【0100】
次に、過去に顔が検出され顔パターンが登録されている被写体を撮影した場合について説明する。
【0101】
この時点でのデータベース801は図13のようになっている。本来、顔の特徴値は種々のパラメータで記述されるものだが、ここでは便宜上、顔の特徴値を「XXX」とする。
【0102】
ステップS901〜ステップS905までは一枚目の撮影と同様である。ステップS904で、図14に示す画像が撮影されたものとする。
【0103】
この構図では、CPU203がステップS906、ステップS907の検出処理を行った結果、図15の領域1501に示される顔のみが検出され、特徴値が抽出される。図14に示す画像の構図には背番号が含まれないため、背番号は検出されない。しかしながら、顔が検出されているため、CPU203は処理をステップS908からステップS909に進める。ステップS909では図13に示すデータベース801が読み出される。
【0104】
ステップS910では、CPU203は抽出した顔の特徴値と一致するデータが、図13のデータベース801の顔パターン項目805に登録されているか検索する。
【0105】
一枚目の撮影時に選手名「SUZUKI」の顔の特徴値「XXX」を登録しているため、検出した顔から抽出した特徴値と一致する特徴値「XXX」が図13のデータベース801から検索される。従ってステップS911において、CPU203は抽出した顔の特徴値が図13のデータベース801に登録されていると判断する。
【0106】
CPU203は、その画像が選手名「SUZUKI」なる被写体が撮影されているものと判断し、撮影した画像のヘッダに選手名項目の値「SUZUKI」を書き込む。
【0107】
ステップS913では、CPU203は顔パターン以外に検出された特徴値、すなわち新規特徴値はないと判断し、カメラをシャッター待機モードにする。
【0108】
本実施例では、各種検出を撮影後に行っているが、検出のタイミングは撮影後には限定されない。例えば、電子ビューファインダ(以下、EVFとする)を行う際に検出をしてもよい。
【0109】
EVFは、撮像センサ209に結像したディスプレイ211に繰り返し表示することによって、ユーザに対して撮影しようとする被写体を示す機能である。
【0110】
EVF時に検出を行う場合には、CPU203は撮影前に随時検出処理を行っておく。そしてシャッターボタンが押されると、CPU203はその時点で検出されている顔や背番号をカメラデジタルカメラ107内のデータベース801と比較する。
【0111】
本実施例では、サーバから被写体に関するデータを取得することで、撮影場所、日時、イベントに応じたデータを容易に取得することができる。また、Webサーバから取得するデータをテキストデータとすることでデジタルカメラの通信負荷を軽減することができる。さらに、新たに抽出された被写体の特徴値を一旦他の特徴値と関連づけすれば、新規に登録した特徴値を、被写体を識別する項目として独立に用いることが可能になる。よって、被写体認識の精度が構図の影響を受けにくくなる。
【0112】
(実施例2)
以下、2つめの実施例について説明する。なお、実施例1と同様の部分については説明を省略し、実施例2の特徴的な部分について詳細に説明する。
【0113】
図1、図2のシステムやデバイスの構成については実施例1と同様であるから、説明を省略する。
【0114】
図16に、本実施例におけるデジタルカメラ107内のデータベース1601を示す。本実施例では、データベース1601の項目に打順項目1602選手名項目1603、背番号項目1604、顔パターン項目1605、そして音声パターン項目1606が設定されている。
【0115】
放送局サーバ113からインターネット112を介して図4に示す試合情報を受信し、デジタルカメラ107内のデータベース1601に登録する点は実施例1と同様である。試合情報受信時のデータベース1601の内容を図17に示す。
【0116】
次に図18に示すフローチャートを用いて、本実施形態における撮像装置の動作を説明する。ここでは、カメラマン106が、顔の特徴値、音声の特徴値ともにデータベースに登録されていない被写体を撮影した場合について考える。
【0117】
ステップS1801〜ステップS1804については、実施例1と同様であるため、ここでは割愛する。
【0118】
本実施例の具体的な事例として、ステップS1804において図19に示す画像が撮影されたものとする。図19に示す画像は、被写体の背番号は確認できるが、顔は確認できない構図となっている。
【0119】
ステップS1804で撮影が行われると、CPU203は処理をステップS1805に進める。ステップS1805では、CPU203はカメラを音声録音モードにする。音声録音モードとは、シャッターが押されてから一定時間、例えば5秒間マイクロフォン233から入力される音声を録音するモードである。
【0120】
この音声録音モードとなっている一定時間中に、カメラマン106はマイクロフォン233から被写体を識別するための音声を入力することができる。例えばカメラマン106が、被写体の選手名が「トム」であることを認識しているとする。かかる場合には、画像を撮影した直後にマイクロフォン233に向かって「トム」と発声することで、「トム」という音声データが入力される。
【0121】
入力された音声データはADコンバータ232を介してデジタル信号に変換された後、画像と関連付けた上で別ファイルとしてDRAM206に記憶される。
【0122】
なお、音声データは画像と別ファイルとせず、CPU203が撮影した画像と音声データをまとめて1つの画像データとして記憶してもよい。
【0123】
一定時間経過後、CPU203は音声録音モードを停止し、処理をステップS1806に進める。
【0124】
ステップS1806における試合情報の書き込み、ステップS1807における顔検出、ステップS1808における背番号検出については実施例1と同様である。
【0125】
ステップS1809においてCPU203は音声認識を行う。CPU203はDRAM206内に記憶された音声データを、データバス202を介して特徴検出回路200に転送する。特徴検出回路200は転送された音声データに対して公知の音声認識技術を用いることにより、音声データ中における特徴的な情報を抽出する。公知の音声認識技術の例として、特開平9−135417に開示された技術がある。
【0126】
CPU203はこの特徴的な情報を特徴値としてDRAM206に記憶する。音声認識が終了すると、CPU203は処理をステップS1810に進める。
【0127】
ステップS1810では、背番号、顔、音声のいずれかがステップS1807〜ステップS1809の処理によって検出または認識されたか否か判断する。検出または認識されたと判断した場合には、ステップS1811において、CPU203は図17のデータベース1601に蓄積されたレコードをレコードナンバーの若い順に1レコードずつ読み出す。
【0128】
以下、ステップS1811からステップS1812は、実施例1と同様の処理を行う。以下、図19に示す画像を撮影した場合を例として具体的に説明する。
【0129】
図19に示す画像からは、背番号が検出され、音声パターンが認識される。検出された背番号から抽出された文字パターンはOCR部136での処理によって、テキストデータ「20」に変換される。
【0130】
背番号、音声が検出されているため、そこから抽出された特徴値とデータベース内の特徴値とが比較される(ステップS1810〜ステップS1812)。
【0131】
図17のデータベース1601には背番号パターン項目「20」が登録されている。従って、画像のヘッダ部には選手名項目の値「TOM」が書き込まれる(ステップS1813、ステップS1814)。
【0132】
また、検出された音声の特徴値は未だ図17のデータベース1601に未登録、つまり新規特徴値である。従って、この新規特徴値を図17のデータベース1601に登録する(ステップS1815、ステップS1816)。この時点でのデータベース1601の内容を図20に示す。音声データは種々のパラメータで記述されるものだが、ここでは便宜上、音声の特徴値を「YYY」とする。
【0133】
次に、データベース1601に顔の特徴値は登録されていないが、音声の特徴値は登録されている被写体を撮影した場合の処理について説明する。
【0134】
撮影前のデータベースは図20に示す状態になっている。以下、図18のフロー図を参照しながら説明する。
【0135】
ステップS1804で撮影した画像を図21に示す。また、この画像を撮影した際に、「トム」という音声が入力され、音声データとして記憶されているものとする(ステップS1805)。図21に示す画像は、顔は確認できるが、背番号は見えない構図となっている。
【0136】
検出処理によって、図21の画像からは顔が検出され、特徴値が抽出される。(ステップS1807)。また、記憶された音声データ、すなわち音声データ「トム」から、「YYY」という特徴値が抽出される。
【0137】
(ステップS1809)そして、検出された特徴値と図20のデータベース1601内の特徴値との比較が行われる(ステップS1810〜ステップS1812)。
【0138】
図20のデータベース1601の音声パターン項目1606には、既に特徴値「ZZZ」が登録されている。従って、画像のヘッダ部には選手名項目の値「TOM」が書き込まれる(ステップS1813、ステップS1814)。
【0139】
また、検出された顔から抽出された特徴値は未だデータベース1610に未登録の新規特徴値である。従って、CPU203は検出された顔から抽出された特徴値をデータベースに登録し(ステップS1815、ステップS1816)、処理をステップS1802に戻す。
【0140】
この時点でのデータベースの内容を図22に示す。選手名「TOM」について、背番号、顔、音声の特徴値1604〜1606が登録されている。顔の特徴値は便宜上「ZZZ」とした。このデータベースを用いることで、カメラマン106は背番号、顔、音声の少なくとも1つが含まれる構図で被写体を撮影すれば、被写体が何者か認識することが可能となる。すなわち、認識の精度が構図の影響を受けにくくなる。
【0141】
なお、本実施例ではカメラがマイクロフォン233からカメラマン106の音声を受信していたが、本発明はこの実施例に限定されるものではない。マイクロフォン233が外部の音声を受信することで、スピーカ104から流れる場内アナウンスによりコールされる選手名を認識することも可能である。
【0142】
例えば「6番、トム」という場内アナウンスがコールされた場合、マイクロフォン233にその音声が入力され、CPU203は「トム」の音声データから特徴値「YYY」を抽出してもよい。この場合CPU203は、認識して以降に撮影した画像のヘッダに「TOM」を書き込む。そしてCPU203は、次のバッターの名前をコールするアナウンスを認識したら、「TOM」の書き込みを終了し、画像のヘッダには次のバッターの名前を書き込んでいく。
【0143】
このような構成の場合、カメラマン106は音声データを自分で入力する必要がなくなるため、さらに撮影のみに集中することが可能になる。
【0144】
(他の実施例)
本発明の目的は前述した実施例の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を用いても達成できることは言うまでもない。この場合にはシステムあるいは装置のコンピュータ(またはCPUまたはMPU)が記録媒体に格納されたプログラムコードを読み出し実行することで、本発明の目的は達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することとなり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0145】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM、DVDなどを用いることができる。
【0146】
また、コンピュータが読み出したプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーションシステム)などが実際の処理の一部または全部を行ってもよい。かかる処理によって前述した実施例の機能が実現される場合本発明の範囲に含まれることは言うまでもない。
【0147】
さらに、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニット等の機能拡張デバイスを介してプログラムを実行してもよい。この場合には、記憶媒体から読み出されたプログラムコードが、機能拡張デバイスに備わるメモリに書きこまれる。そしてプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行う。かかる処理によって前述した実施形態の機能が実現される場合も本発明の範囲に含まれることは言うまでもない。
【図面の簡単な説明】
【0148】
【図1】撮影システムの概要を示す
【図2】デジタルカメラの構成を示す
【図3】サーバからのデータ受信フローを示す。
【図4】試合情報のデータ構成を示す。
【図5】基本情報のデータ構成を示す。
【図6】進行情報のデータ構成を示す。
【図7】選手情報のデータ構成を示す。
【図8】実施例1におけるデータベースを示す。
【図9】実施例1における撮影フローを示す。
【図10】実施例1におけるデータベースを示す。
【図11】実施例1おける撮影画像を示す。
【図12】実施例1における検出の様子を示す。
【図13】実施例1におけるデータベースを示す。
【図14】実施例1における撮影画像を示す。
【図15】実施例1における検出の様子を示す。
【図16】実施例2におけるデータベースを示す。
【図17】実施例2におけるデータベースを示す。
【図18】実施例2における撮影フローを示す。
【図19】実施例2における撮影画像を示す。
【図20】実施例2におけるデータベースを示す。
【図21】実施例2における撮影画像を示す。
【図22】実施例2におけるデータベースを示す。

【特許請求の範囲】
【請求項1】
被写体の特徴を示す第1の特徴量を記憶する記憶手段と、
撮影レンズによって結像される被写体像を光電変換して撮影画像を得る撮像手段と、
前記撮像手段により得られた撮影画像から、被写体の特徴量を抽出する抽出手段と、
前記抽出手段により、前記第1の特徴量の少なくとも1つが抽出された撮影画像から、或いは、前記第1の特徴量の少なくとも1つが抽出された撮影画像に関連付けられた他の情報から、抽出された新たな第2の特徴量を、該抽出された第1の特徴量に関連付けて前記記憶手段に記憶させる付加手段と
を備えることを特徴とする撮像装置。
【請求項2】
前記付加手段は、前記抽出手段により、前記第1の特徴量の少なくとも1つが抽出されたときに、前記撮像手段により得られた撮影画像に前記第1の特徴量に応じた被写体に関する情報を付加することを特徴とする請求項1に記載の撮像装置。
【請求項3】
前記付加手段は、前記抽出手段により、前記記憶手段により記憶された第2の特徴量の少なくとも1つが抽出されたときに、前記第1の特徴量が抽出されなくとも、前記撮像手段により得られた撮影画像に前記第1の特徴量に応じた被写体に関する情報を付加することを特徴とする請求項2に記載の撮像装置。
【請求項4】
前記付加手段は、前記抽出手段により、前記第2の特徴量のうち少なくとも1つが抽出された撮影画像から、或いは、前記第2の特徴量の少なくとも1つが抽出された撮影画像に関連付けられた他の情報から、新たな第3の特徴量が抽出された場合に、前記第1の特徴量が抽出されなくとも、該第3の特徴量を該抽出された第1の特徴量に関連付けて前記記憶手段に記憶させることを特徴とする請求項1に記載の撮像装置。
【請求項5】
前記撮像手段により得られた画像から被写体の顔領域を検出する顔検出手段を備え、
前記抽出手段は、前記顔検出手段により検出された顔領域から被写体の特徴量を抽出することを特徴とする請求項1に記載の撮像装置。
【請求項6】
前記撮像手段により得られた画像から被写体の情報を示す文字パターンを検出する文字情報検出手段を備え、前記抽出手段は、前記顔検出手段により検出された文字パターンから被写体の特徴量を抽出することを特徴とする請求項1に記載の撮像装置。
【請求項7】
前記文字情報検出手段により検出された文字情報を、テキストデータに変換する変換手段を備え、
前記抽出手段は、前記変換手段により変換されたテキストデータを特徴量として抽出することを特徴とする請求項6に記載の撮像装置。
【請求項8】
音声を受信する音声受信手段を備え、
前記抽出手段は、前記音声受信手段により受信した音声から特徴量を抽出することを特徴とする請求項1乃至4記載の撮像装置。
【請求項9】
通信回線を通じて外部と通信する通信手段と、
被写体に関する情報を受信する被写体情報受信手段を備え、
前記第1の記憶手段は、前記被写体情報受信手段により受信した情報に基づき、特徴量を記憶することを特徴とする請求項1に記載の撮像装置。
【請求項10】
前記被写体情報受信手段により受信される情報は、テキストデータであることを特徴とする請求項9に記載の撮像装置。
【請求項11】
撮像手段により得られた撮影画像から、被写体の特徴量を抽出する抽出工程と、
前記抽出工程により、被写体の特徴を示す第1の特徴量の少なくとも1つが抽出された撮影画像から、或いは、前記第1の特徴量の少なくとも1つが抽出された撮影画像に関連付けられた情報から、抽出された新たな第2の特徴量を、該抽出された第1の特徴量に関連付けて記憶手段に記憶させる付加工程
を備えることを特徴とする撮像方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate


【公開番号】特開2007−81681(P2007−81681A)
【公開日】平成19年3月29日(2007.3.29)
【国際特許分類】
【出願番号】特願2005−265517(P2005−265517)
【出願日】平成17年9月13日(2005.9.13)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】