撮像装置及びコンピュータ読み取り可能な記憶媒体

【課題】被写体画像から容易に人物等の特定の被写体を検出し、それに合わせてＡＦ、ＡＲ、ＡＷＢ等を行えるようにする。
【解決手段】ＣＣＤ３で撮像した画像信号は処理された後、評価値検出部９で被写体の人物部分を識別するための評価値が生成し、この評価値に基づいて人物部分を識別する。マイクロプロセッサ１２は上記の識別結果を用いてカメラの光量調節部１、自動焦点調節部２、白バランス調節部７を制御する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、動画像を撮影する撮像装置から得られる画像信号から特定の被写体を検出して撮像動作を行う撮像装置及びコンピュータ読み取り可能な記憶媒体に関するものである。
【背景技術】
【０００２】
民生用のビデオカメラ等の撮像装置においては、従来より自動露光制御装置（ＡＥ）、自動焦点制御装置（ＡＦ）、自動白バランス補正装置（ＡＷＢ）等が装備されている。それらの制御方法として従来から主に用いられるのは、撮影した画像信号から、何らかの評価値、例えば自動露光制御であれば撮影した画像の輝度分布、自動焦点制御では所定の周波数成分レベル、白バランス補正では各色信号のレベルの分布等を抽出し、それらの評価値に基づき所定のアルゴリズムで上記各制御を行っている（例えば、特許文献１参照）。
【０００３】
さて、ＡＦ、ＡＥ、ＡＷＢを行う主たる目的は、撮影したい被写体を撮影者が意識しなくても、露出レベル、焦点距離、白バランス等を常に良好な状態に保ち、撮影ができるようにすることにある。しかしながら上記従来の各制御方法では、被写体が何であろうと画像の所定の範囲から抽出される評価量に従って制御するため、場合によって被写体以外の対象物に対して上記各制御が行われ、撮影者の意図に合わないことが生じる。こうした問題の従来の解決方法として、被写体は撮影画像の中央にあることが多いということから、上記各制御用の評価値を画像の中央付近の範囲からのみ抽出するという方式がとられている。
【０００４】
【特許文献１】特開平４−２７１６７４号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記従来の方式では、被写体が画面の中央にあることが前提となっているため、限られた撮影条件のもとでしか効果がない。
【０００６】
従って、本発明は、画像信号から特定のパターンを容易に識別できるようにし、カメラに適用した場合に特定の被写体に対してＡＦ、ＡＥ、ＡＷＢを行えるようにすることを目的としている。
【課題を解決するための手段】
【０００７】
本発明の撮像装置の第１の態様は、撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手段と、検出された位置に対して自動焦点制御を行う焦点制御手段とを有することを特徴とする。
本発明の撮像装置の第２の態様は、撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手段と、検出された位置に対して自動露光制御を行う露光制御手段とを有することを特徴とする。
本発明の撮像装置の第３の態様は、撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手段と、検出された位置に対して自動白バランス補正を行う白バランス制御手段とを有することを特徴とする。
本発明のコンピュータ読み取り可能な記憶媒体の第１の態様は、撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手順と、検出された位置に対して自動焦点制御を行う焦点制御手順とをコンピュータに実行させるためのプログラムを記憶したことを特徴とする。
本発明のコンピュータ読み取り可能な記憶媒体の第２の態様は、撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手順と、検出された位置に対して自動露光制御を行う露光制御手順とをコンピュータに実行させるためのプログラムを記憶したことを特徴とする。
本発明のコンピュータ読み取り可能な記憶媒体の第３の態様は、撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手順と、検出された位置に対して自動白バランス補正を行う白バランス制御手順とをコンピュータに実行させるためのプログラムを記憶したことを特徴とする。
【発明の効果】
【０００８】
本発明によれば、撮像画像の中から特定の被写体を検出し、当該被写体に関してより効果的な処理、例えば自動露光制御、自動焦点制御、自動白バランス調整等を行うことができる。
【発明を実施するための最良の形態】
【０００９】
以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。
【００１０】
＜第１の実施形態＞
図１は、本発明の第１の実施形態に係る撮像装置の構成を示すものであって、撮影された映像から人物を特定し、当該人物に対してＡＦ、ＡＥ、ＡＷＢの各機能を重点的に動作させるものである。図１において、１は絞り等の光量調節部、２はレンズを含む自動焦点調節部、３はＣＣＤ撮像素子、４はオートゲインコントロール部、５はＡ／Ｄコンバータ、６は第１の画像信号処理部、７は白バランスゲイン調節部、８は第２の画像信号処理部、９は撮影された画像内の人物の部分を識別するための評価用信号を生成する評価値検出部、１０は第１のマイクロプロセッサ、１１は多層フィードフォワード型ニューラルネットワークであって、パターン識別の正確さを表す評価値を検出して出力する手段を含む。１２は第２のマイクロプロセッサ、１３は輝度信号出力端子、１４は色信号出力端子である。
【００１１】
次に動作について説明する。ＣＣＤ撮像素子３には、光量調節部１、自動焦点調節部２により調節された光学像が結像され、この光学像を光電変換してＣＣＤ画像信号として出力する。このＣＣＤ画像信号は、オートゲインコントロール部４により適切な振幅に調節された後、第１の画像信号処理部６で処理されて所定の形式の信号とされ、さらに白バランスゲイン調節部７で上記所定の形式の信号に対して白バランスゲイン調節される。次に第２の画像信号処理部８で輝度信号Ｙと色信号Ｃとに分離され、輝度信号Ｙは、輝度信号出力端子１３から出力され、色信号Ｃは色信号出力端子１４から出力される。
【００１２】
また、評価値検出部９には、各画像信号処理部６、８から所定の形式の画像信号が送られ、撮影した画像内の人物の部分を識別するための評価用信号が生成される。この評価値検出部９の出力評価値は、第１のマイクロプロセッサ１０と多層フィードフォワード型ニューラルネットワーク１１とに送られる。
【００１３】
この多層フィードフォワード型ニューラルネットワーク１１は、あらかじめ様々な撮影条件における上記評価値を入力したとき、画像内の人物の部分を正しく識別するように学習させたものである。従って、学習させた撮影条件と同じかまたはそれに近い場合には、上記ニューラルネットワーク１１は、適切に人物部分の識別を行うと共に、その識別の正確さを表す評価値が出力される。第２のマイクロプロセッサ１２は、上記正確さを表す評価値を検出し、所定以上の評価値と判定された場合は、ニューラルネットワーク１１の識別結果を用いて、光量調節部１、自動焦点調節部２、白バランスゲイン調節部７を画像の人物の部分に対して効果的に働くような制御信号を生成して制御する。
【００１４】
一方、学習させた撮影条件と著しく異なるような特殊な状態では、上記ニューラルネットワーク１１の識別結果は適切なものとはならず、かつ上記正確さを表す評価値もそうした状態を表すことになる。第１のマイクロプロセッサ１０は上記正確さを表す評価値を検出し、上記ニューラルネットワーク１１が誤って識別した状態においてのみ、ニューラルネットワーク１１に代わって画像内の人物の部分を識別するように動作する。その動作のプログラムは、ニューラルネットワーク１１が誤って識別するような条件を、このニューラルネットワーク１１の学習時にあらかじめ特定して置き、これら特定の場合に対応するように組まれたものである。そのため比較的小さなプログラム量で済み、第１のマイクロプロセッサ１０の負荷も、その能力内で十分対応可能なものとなっている。
【００１５】
また、第２のマイクロプロセッサ１２では、上記正確さを表す評価値に基づいて第１のマイクロプロセッサ１０の識別結果から、光量調節部１、自動焦点調節部２、白バランスゲイン調節部７を画像の人物の部分に対して効果的に働くように制御する。
【００１６】
＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。図２は、本発明の第２の実施形態に係る撮像装置の構成を示す図であり、第１の実施形態と同様に、撮影された映像から人物を特定し、当該人物に対してＡＦ、ＡＥ、ＡＷＢの各機能を重点的に動作させるものである。図２において、１は光量調節部、２は自動焦点調節部、３はＣＣＤ撮像素子、４はオートゲインコントロール部、５はＡ／Ｄコンバータ、６は第１の画像信号処理部、７は白バランス調節部、８は第２の画像信号処理部である。
【００１７】
９は評価値検出部で、撮影画像を水平、垂直８×８の６４個のブロックに分割し、各ブロックの肌色と黒の平均レベル（合計１２８個）とを出力する。１０は第１のマイクロプロセッサ、１３は輝度信号出力端子、１４は色信号出力端子である。
【００１８】
１１は入力層、中間層、出力層からなる多層フィードフォワード型ニューラルネットワークであって、入力層は１２８個のセル、中間層はＳｉｇｍｏｉｄ関数の出力特性を持つ３２個のセル、出力層はＳｉｇｍｏｉｄ関数の出力特性を持つ９個のセルからなり、入力層は評価値検出部９の出力する１２８個の肌色及び黒の各ブロック平均レベルが入力される。また、出力層の９個のセルは、画面を３×３の領域分割した各領域対応し、当該領域に人物が存在する場合には１、存在しない場合には０を出力するように学習させたものである。また、中間層３２個の各セルは、各々のセルの出力値を別途外部に読み出せる構成としたものである。
【００１９】
１５は、上記ニューラルネットワーク１１の識別結果が信頼できるものであるかを検出する識別結果検出部、１６は第２のマイクロプロセッサである。
【００２０】
次に動作について説明する。ＣＣＤ撮像素子３には、光量調節部１、自動焦点調節部２により調節された光学像が結像され、この光学像を光電変換してＣＣＤ画像信号として出力する。このＣＣＤ画像信号は、オートゲインコントロール部４により適切な振幅に調節された後、第１の画像信号処理部６で処理されて所定の形式の信号とされ、さらに白バランスゲイン調節部７で上記所定の形式の信号に対して白バランスゲインを調節される。次に第２の画像信号処理部８で輝度信号Ｙと色信号Ｃとに分離され、輝度信号Ｙは、輝度信号出力端子１３から出力され、色信号Ｃは色信号出力端子１４から出力される。
【００２１】
また、評価値検出部９には、第２の画像信号処理部８から輝度信号および色差信号として画像信号が送られる。評価値検出部９では、まず、上記輝度信号と色差信号で表される１フィールドまたは１フレームの画像を水平・垂直に８×８の６４個の小ブロックに分割し、次に、各ブロック毎に肌色と黒の平均レベルをそれぞれ計算して出力する。従って、この評価値検出部９からは合計１２８個の評価値（肌色６４個、黒６４個）が出力される。上記１２８個の評価値は第１のマイクロプロセッサ１０と多層フィードフォワード型ニューラルネットワーク１１とに入力される。
【００２２】
上記ニューラルネットワーク１１は、あらかじめ様々な条件の人物を含む入力画像、例えば一人の人物の正面、側面、ズームアップ、またはワイド画面等や、複数の人物の画像等、多数のテスト画像に対して、評価値検出部９で評価値を作成して、これを学習データとして用い、出力層の９個のセルが、その時出力すべき答えを教師データとしてあらかじめ学習させたものである（出力層の９個のセルは、前述の通り画面を９個の小領域に分割したときの各領域に対応する）。
【００２３】
従って、学習させた撮影条件と同じかまたはそれに近い場合には、上記ニューラルネットワーク１１は、適切に人物部分の識別を行う。逆に、学習した条件と著しく異なる場合、ニューラルネットワーク１１による識別結果は誤ったものとなる。
【００２４】
多層フィードフォワード型ニューラルネットワーク１１の出力結果が正しいかどうかを判断するには、出力層の出力値以外にも、中間層の出力値から推測することができる。これは以下の理由による。即ち、多層フィードフォワード型ニューラルネットワークは、その学習の過程で、入力データに対する出力と教師データとの差に基づき、各セル間のネットの重み係数を少しずつ変更してゆき、変更後の出力と教師データとの差を出し、これを何回も繰り返して学習してゆく。中間層の各セルでは、入力層の１２８個のセルの出力値に当該中間層のセルにつながるネットの重みをかけた１２８個の入力値を全て加算し、それにＳｉｇｍｏｉｄ関数をかけた値が出力されるが、Ｓｉｇｍｏｉｄ関数は例えば最小値が０で最大値が１となるような出力値の上下に飽和する非線形関数である。
【００２５】
従って、多層フィードフォワード型ニューラルネットワークが学習の過程で順調に所望の機能を学習するためには、ネットの重み係数を微小に変化させたとき、中間層の出力値も微小に変化できなければならない。換言すれば、うまく学習が完了した状態では、中間層の出力は、例えば０または１などの飽和状態にはならないと考えることができる。
【００２６】
従って、識別結果検出部１２では、多層フィードフォワード型ニューラルネットワーク１１の中間層の３２個のセルの出力がどれも飽和状態でなければ、当該ニューラルネットワークの識別結果は正、前記３２個の出力のうちのどれかが飽和状態であれば、誤であるとする。第１のマイクロプロセッサ１０は、識別結果検出部１５が誤の検出をした場合に、ニューラルネットワーク１１に代わり、画像内の人物の部分を検出するように動作する。その動作のプログラムは、ニューラルネットワーク１１が誤って識別するような条件を、ニューラルネットワーク１１の学習時にあらかじめ特定し、これら特定の場合に対応するように組まれたものである。そのため比較的小さなプログラム量ですみ、第１のマイクロプロセッサ１０の負荷も、その能力内で十分対応可能なものとなっている。
【００２７】
また、第２のマイクロプロセッサ１６では識別結果検出部１５の出力が正の場合はニューラルネットワーク１１の識別結果を用い、誤の場合は第１のマイクロプロセッサ１０の識別結果を用いて画像内の人物の場所を特定し、光量調節部１、自動焦点調節部２、白バランス調節部７を画像の人物の部分に対して効果的に働くように制御する。
【００２８】
尚、図１、図２の機能ブロックによるシステムは、ハード的に構成してもよく、また、ＣＰＵやメモリ等から成るマイクロコンピュータシステムに構成してもよい。マイクロコンピュータシステムに構成する場合、上記メモリは本発明による記憶媒体を構成する。この記憶媒体には、図１、図２について前述した処理を実行するためのプログラムが記憶されている。またこの記憶媒体としてはＲＯＭ、ＲＡＭ等の半導体メモリ、光ディスク、光磁気ディスク、磁気媒体等を用いてもよく、これらをＣＤ−ＲＯＭ、フロィピディスク、磁気テープ、不揮発性のメモリカード等して用いてもよい。
【００２９】
上述したように、上記の実施形態においては、従来のコンピュータのようにプログラムに基づく直列処理では困難なパターン識別やクラスタリング等を、あらかじめ学習させることにより比較的容易に行うことができる多層フィードフォワード型ニューラルネットワークを用い、特定の輝度分布、エッジの形、色等の特徴量が、撮像画像中に見いだされた時、その位置を出力し、当該位置に対してＡＦ、ＡＥ、ＡＷＢを重点的に制御するという構成にしている。
【００３０】
ただし、上記多層フィードフォワード型ニューラルネットワークは、識別すべきパターンの数が増える程、規模の増大、学習の困難さの増大、学習後の精度の低下（正解率の低下）をまねくということが一般的に言える。従って、上記特定被写体の検出を全て多層フィードフォワード型ニューラルネットワークで行っても、所望の機能を得ることが困難であると考えられる。
【００３１】
そこで上記実施形態では、あえて多層フィードフォワード型ニューラルネットワークで、全ての特定被写体検出を行うのではなく、所定の規模と検出能力を持つニューラルネットワークで特定被写体の検出を行うが、ニューラルネットワークが誤って被写体検出を行う状態を検出し、その場合には多層フィードフォワード型ニューラルネットワークに代わって被写体検出を行う第２の識別部を設けている。
【００３２】
これにより、多層フィードフォワード型ニューラルネットワークは適当な規模のもので、例えば９０〜９５％の正解率を持つものとし、残りの５〜１０％は第２の識別部でカバーする。このようにして、全体としての特定被写体検出の能力を高めることを実現することができる。
【図面の簡単な説明】
【００３３】
【図１】本発明の第１の実施形態に係る撮像装置の構成を示すブロック図である。
【図２】本発明の第２の実施形態に係る撮像装置の構成を示すブロック図である。
【符号の説明】
【００３４】
１光量調節部
２自動焦点調節部
３ＣＣＤ撮像素子
６第１の画像信号処理部
７白バランスゲイン調節部
８第２の画像信号処理部
９評価値検出部
１０第１のマイクロプロセッサ
１１多層フィードフォワード型ニューラルネットワーク
１２、１６第２のマイクロプロセッサ
１５識別結果検出部

【特許請求の範囲】
【請求項１】
撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手段と、
検出された位置に対して自動焦点制御を行う焦点制御手段とを有することを特徴とする撮像装置。
【請求項２】
撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手段と、
検出された位置に対して自動露光制御を行う露光制御手段とを有することを特徴とする撮像装置。
【請求項３】
撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手段と、
検出された位置に対して自動白バランス補正を行う白バランス制御手段とを有することを特徴とする撮像装置。
【請求項４】
前記検出手段は、前記撮像画像のエッジの形と識別パターンを比較することによって特定被写体の位置を検出することを特徴とする請求項１から３の何れか１項に記載の撮像装置。
【請求項５】
前記検出手段は、前記撮像画像の輝度分布と識別パターンを比較することによって特定被写体の位置を検出することを特徴とする請求項１から４の何れか１項に記載の撮像装置。
【請求項６】
前記検出手段は、特定の人物の複数画像から前記識別パターンを形成することを特徴とする請求項１から５の何れか１項に記載の撮像装置。
【請求項７】
前記検出手段は、前記撮像画像と識別パターンとを比較することによって特定被写体の位置を検出する多層フィードフォワード型ニューラルネットワークを用いた第１の検出手段と、前記第１の検出手段の検出結果が誤っていると判定した場合に、前記撮像画像から前記特定被写体の位置を検出する第２の検出手段とを有することを特徴とする請求項１から６の何れか１項に記載の撮像装置。
【請求項８】
前記第１及び第２の検出手段は、前記撮像画像について前記識別パターンに関する評価を行う評価手段を有し、その評価値に基づいてそれぞれ特定被写体の位置を検出することを特徴とする請求項７に記載の撮像装置。
【請求項９】
前記多層フィードフォワード型ニューラルネットワークは、中間層に、大小双方向に飽和レベルを持つ非線形の入出力特性を有し、前記第２の検出手段は、前記中間層のセルの出力が、前記飽和レベルにない場合には前記第１の検出手段の検出結果を正、前記飽和レベル又はそれに所定の範囲で近い値の場合は前記第１の検出手段の検出結果を誤とすることを特徴とする請求項７に記載の撮像装置。
【請求項１０】
撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手順と、
検出された位置に対して自動焦点制御を行う焦点制御手順とをコンピュータに実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【請求項１１】
撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手順と、
検出された位置に対して自動露光制御を行う露光制御手順とをコンピュータに実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【請求項１２】
撮像素子から得られた撮像画像から、識別パターンと比較することによって特定被写体の位置を検出する検出手順と、
検出された位置に対して自動白バランス補正を行う白バランス制御手順とをコンピュータに実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【請求項１３】
前記検出手順は、前記撮像画像のエッジの形と識別パターンを比較することによって特定被写体の位置を検出することを特徴とする請求項１０から１２の何れか１項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項１４】
前記検出手順は、前記撮像画像の輝度分布と識別パターンを比較することによって特定被写体の位置を検出することを特徴とする請求項１０から１３の何れか１項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項１５】
前記検出手順は、特定の人物の複数画像から前記識別パターンを形成することを特徴とする請求項１０から１４の何れか１項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項１６】
前記検出手順は、前記撮像画像と識別パターンとを比較することによって特定被写体の位置を検出する多層フィードフォワード型ニューラルネットワークを用いた第１の検出手順と、前記第１の検出手順の検出結果が誤っていると判定した場合に、前記撮像画像から前記特定被写体の位置を検出する第２の検出手順とを含むことを特徴とする請求項１０から１５の何れか１項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項１７】
前記第１及び第２の検出手順は、前記撮像画像について前記識別パターンに関する評価を行う評価手順を含み、その評価値に基づいてそれぞれ特定被写体の位置を検出することを特徴とする請求項１６に記載のコンピュータ読み取り可能な記憶媒体。
【請求項１８】
前記多層フィードフォワード型ニューラルネットワークは、中間層に、大小双方向に飽和レベルを持つ非線形の入出力特性を有し、前記第２の検出手順は、前記中間層のセルの出力が、前記飽和レベルにない場合には前記第１の検出手順の検出結果を正、前記飽和レベル又はそれに所定の範囲で近い値の場合は前記第１の検出手順の検出結果を誤とすることを特徴とする請求項１７に記載のコンピュータ読み取り可能な記憶媒体。

【図１】