説明

画像処理方法及び装置

【課題】画像フレーム内の領域を前景領域と背景領域に分離する。
【解決手段】フレームのセットにおける前記領域の要素の特徴に適用される統計関数に基づいて少なくとも前記領域の背景モデルを作成する。更に、ラベルへの特徴のマッピングが受信される。複数の差分値を含む差分基準は、領域の要素の特徴及び背景モデルの特徴に基づいて計算される。差分基準及びマッピングに基づいて要素を分類する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般にビデオ処理に関し、特に、ビデオにおいて前景を背景から分離することに関する。
【背景技術】
【0002】
現在、パン・チルト・ズーム(PTZ)カメラ等のビデオカメラは、主に監視の目的で普及している。カメラは、人間の目が処理できるより多くのデータ(ビデオコンテンツ)を取り込む。従って、ビデオコンテンツの自動解析が必要とされる。
【0003】
ビデオコンテンツの処理における重要なステップは、ビデオデータを前景と背景とに分割することである。そのような分割により、特定の前景オブジェクトの検出又は動いているオブジェクトの追跡等の更なる解析が可能になる。そのような更なる解析の結果として、例えば警備員に警告を与えてもよい。
【0004】
自動解析は、更にPTZカメラに関連している。PTZカメラは、事前に設定された向き又は観察されたビデオコンテンツに基づいて人間の介入なしで視界を変更してもよい。例えば、歩いている人を追跡する場合、カメラはその人が視界に入るようにパンしてもよい。
【0005】
前景/背景分割の一般的な方法は背景差分である。例えば、或るシーンの或る位置に対する中央の画素値(median pixel value)はその位置における現在の画素値と比較されてもよい。現在の画素値が中央の画素値と近似する場合、画素は背景に属すると考えられ、現在の画素値が近似値しない場合、その画素は前景オブジェクトに属すると考えられる。そのような方法に対する課題は、近似性を規定することである。機械学習の分野の技術は十分なトレーニングデータの可用性に依存するため、その課題を解決するためにそのような技術をすぐに適用することはできない。トレーニングデータを生成するには、多くの人的資源が必要である。
【0006】
従来技術において、更に複雑な背景モデリング方法が周知であるが、それら方法は計算費用が高く、また、必要とされる記憶容量のため、それら方法をカメラ等のデバイスに組み込むことができない。
【発明の開示】
【発明が解決しようとする課題】
【0007】
本発明の目的は、既存の構成の1つ以上の欠点を実質的に克服するか又は少なくとも改善することである。
【0008】
本開示の第1の面によると、フレーム内の領域の要素を分類する方法が提供される。この方法は以下のステップを有する:
・フレームのセットにおける前記領域の要素の特徴に適用される統計関数に基づいて少なくとも前記領域のモデルを作成するステップ;
・ラベルへの特徴のマッピングを受信するステップ;
・前記領域の要素の特徴及び前記モデルの特徴に基づいて複数の差分値を含む差分基準を計算するステップ;
・前記差分基準及び前記マッピングに基づいて前記要素を分類するステップ。
【0009】
また、本開示の第2の面によると、要素を含むフレームからトレーニング例を選択する方法が提供される。この方法は以下のステップを有する:
・フレームのセットから前記フレームの各位置に対してモデルを作成するステップ;
・複数の種類のうちの1つに属することが確実である要素の選択をユーザから受信するステップ;
・前記選択及び前記モデルから除外された前記要素の特徴に基づいて、前記選択から除外された要素の分類を判定するステップ;
・少なくともトレーニング例として正確に分類する尤度が低い要素を選択するステップ。
【0010】
本開示の別の面によると、上述の方法を実現する装置が提供される。
【0011】
本発明の他の面が更に開示される。
【発明を実施するための最良の形態】
【0012】
カメラは、カメラの視界に現れる視覚的コンテンツを表すビデオフレームを取り込むために使用される。パン・チルトカメラの場合、カメラの姿勢(orientation)は、その視界を変えることができる。従って、カメラは、カメラの視界より大きなシーンのビデオフレームを取り込める。
【0013】
カメラにより取り込まれた各フレームは、2つ以上の視覚的要素を含む。視覚的要素は、画像サンプルとして規定されてもよい。一実施形態において、視覚的要素は赤色/緑色/青色(RGB)画素等の画素である。別の実施形態において、各視覚的要素は画素のグループを含む。
【0014】
更に別の実施形態において、視覚的要素は、モーションJPEGフレームを復号化することにより取得される離散コサイン変換(DCT)係数、又はJPEG2000規格において使用される離散ウェーブレット変換(DWT)係数等の8×8のブロックの変換係数である。
【0015】
ビデオフレームに現れる視覚的要素を前景と背景とに分離することは、ある時点において取り込まれた視覚的要素を異なる時間に取り込まれたそのシーンの同一の場所の視覚的要素と比較することにより達成できる。
【0016】
実際には、前景/背景の分離は、フレームに対して、又はフレームの領域に対して実行される。そのような領域は、ドメインに関する知識を使用して識別される。例えば処理能力及びエネルギー消費を節約するため、ユーザは、前景/背景の分離がシーンの一部分に対して実行されないように指定してもよい。そのように除外する理由は、シーンの一部分のみが限定された領域であり、他の部分が公開された空間だからである。
【0017】
背景モデルは、異なる時間に取り込まれたシーン内の視覚的要素を表すために使用される。背景モデルは、シーンにおいて可視の非過渡的な部分の表現である。従って、背景モデルは、前景オブジェクトを含まないシーンを記述する。単純な例において、第1のフレームは背景モデルとして使用されてもよい。フレームが前景オブジェクトを含まない場合、第1のフレームはシーンにおいて可視の非過渡的な部分の表現であるため、その第1のフレームは正確な背景モデルである。しかし、第1のフレームを背景モデルとして使用することは、シーン内の漸進的な変化及び照明効果に対してロバストでない。更に、第1のフレームが前景オブジェクトを含まないという仮定は、一般に現実的ではない。パン・チルトカメラの場合、第1のフレームはシーン全体をカバーしていない。
【0018】
背景をモデリングする更に適切な方法は、シーンを表すデータの統計関数を使用することである。一実施形態において、データの平均値又は中央値等のフレームデータの統計関数から得られる定数は、背景モデルを構成するために使用される。従って、背景モデルの視覚的要素は、R=100、G=150、B=200、又は輝度=123.45の定数、あるいは変換係数{−50,28,76,38}を有してもよい。
【0019】
背景モデルのチャネル又は係数に対する個々の値は、個別に算出されてもよい。すなわち、背景モデルの視覚的要素の全体的な表現は、統計関数に対する入力として使用される履歴中の1つの特定の視覚的要素に関連しなくてもよい。
【0020】
別の実施形態において、分布は背景モデルの視覚的要素毎に算出される。例えば、カラーチャネル又は変換係数の平均値は、その標準偏差と共に使用されてもよい。これにより、平均値と異なるが十分に近似する値である観察された値が背景モデルに属すると考えられるため、視覚的要素のより動的な解釈が可能になる。更に別の実施形態において、背景はマルチモーダルであってもよい。オン又はオフになるエレベータの照明の場合を考慮する。そのような場合、平均/標準偏差の組合せが照明の「オン」状態を表すために使用され、別の組合せが照明の「オフ」状態を表すために使用される。
【0021】
全ての場合において、背景は異なる視覚的特性を有してモデリングされる。更に別の実施形態において、全ての視覚的コンテンツ(前景を含む)は背景モデルにモデリングされ、その後、前景を表すと考えられる視覚的要素及び背景を表すと考えられるコンテンツをその背景モデルに基づいて決定する。各分布の標準偏差は、例えばその決定を行なうために使用されてもよく、閾値より大きい標準偏差を有する視覚的要素は前景を表すと考えられる。残りの視覚的要素は、背景を表すと考えられる。
【0022】
背景モデルが単一のフレームの期間を超える寿命を有するため及び背景モデルが現在の視界のみではなくシーン全体を範囲に含むため、背景モデルによりモデリングされたシーンの部分は背景面(background plane)と呼ばれる。フレームの各視覚的要素は、背景面における位置に対応する。
【0023】
背景モデリング及び背景差分の概念は、当該技術において研究されてきた。重要な問題の1つは、視覚的要素が前景を表すと考えられるまでにそのような要素がモデルから離れられる範囲の閾値を設定することである。視覚的要素が1つの特徴、例えば強度、によりモデリングされる場合、適切な閾値を見つける問題は試行錯誤して解決される。しかし、正確な背景モデリングのためには、更なる特徴が必要とされる。例えば、8×8のDCTブロックの係数である視覚的要素の場合、64個の特徴(AC及びDC係数)が入手可能である。実際に全ての特徴が使用される必要はないが、12個等の入手可能な特徴の小さなサブセットを使用する場合でも、次元数及び可能な干渉は大きすぎるため単に試行錯誤して解決されるものではない。一般に機械学習法と呼ばれる多次元分類器が必要とされる。サポートベクトルマシン(Support Vector Machines)、k最近傍法又はニューラルネットワーク等の多次元分類器は、高次元特徴空間に対する問題に成功裏に適用されてきた。機械学習法は、種類の例から抽出された種類の特性に関する知識を含むモデルを生成する。前景/背景の分離の問題に適用される場合、それら種類は「前景」及び「背景」である。
【0024】
前景を背景から分離するために、メモリ使用量の少ない計算効率のよい方法を使用するのが望ましい。このため、入力フレームと背景モデルとの差分の複雑な解釈を含む単純な背景モデルが使用される。画素のブロックを視覚的要素として使用し且つブロックの変換係数を背景モデルに対する特徴として使用することにより、特に変換係数の更なる復号化が必要ないことを意味する場合に高速処理が可能になる。しかし、それは、実際には最大64次元である高次元特徴空間がサポートされる必要があることを意味する。
【0025】
単純な背景モデルが高速であり且つメモリ効率がよくても、その従来の使用方法において、単純な背景モデルは、メモリ使用量が多く且つ計算費用が高い背景モデルより精度は低い。本開示において使用される入力フレームと背景モデルとの差分の複雑な解釈により、背景からの前景の分離の精度が高めるため、その結果の品質は最も複雑な背景モデルを使用することにより得られる品質と同等である。差分の解釈は複雑であるものの、以下に詳細に説明するように、差分の解釈の実行は計算上非常に効率がよい。
【0026】
多次元分類方式は、機械学習モデルを作成するトレーニング段階及び機械学習モデルを使用する分類段階の2つの段階を必要とする。本開示において、トレーニング段階は事前に実行される。トレーニング段階はトレーニングシーンに対して一旦は実行されるのが好ましく、作成された機械学習モデルは、分類段階が実行される多くのシステムに、例えばカメラのメモリチップ又はコンパクトディスク上に提供されてもよい。トレーニングシーンは、分類されるシーンに関連付けられる必要はない。例えば、トレーニングシーンはオフィスであってもよく、分類されるシーンは家の中であってもよい。
【0027】
別の実施形態において、トレーニング段階は、分類段階が実行されるシーンに対して実行されるため、機械学習モデルを作成するのに使用されるトレーニング例はシーンの特性を適切に反映する。
【0028】
先ず多次元分類器を説明し、その後で、多次元分類器をトレーニングするために使用する例を選択する方法を説明する。
【0029】
図1は、前景又は背景を表すフレーム160の領域に現れる視覚的要素を分離する方法100を概略的に示すフローチャートである。方法100は、トレーニング段階105及び分類段階106を含む。
【0030】
分類段階106は、カメラにおいて実行されるのが好ましい。また、トレーニング段階105については、カメラにおいて実行されてもよく、あるいはカメラにリンクされるパーソナルコンピュータにより実行されてもよい。図6は、分類段階106及びトレーニング段階105が実現されるカメラ600を示す概略ブロック図である。段階105及び106は、カメラ600内で実行可能なソフトウェアとして実現される。
【0031】
カメラ600は、カメラモジュール601、パン/チルトモジュール603及びレンズシステム614により形成されるパン・チルト・ズームカメラ(PTZ)である。通常、カメラモジュール601は、少なくとも1つのプロセッサユニット605、メモリユニット606、光電センサアレイ615、光電センサアレイ615に結合する入出力(I/O)インタフェース607、通信網620に結合する入出力(I/O)インタフェース608、並びにパン/チルトモジュール603及びレンズシステム614に対するインタフェース613を含む。一般に、カメラモジュール601の構成要素605〜613は、当業者には周知の従来の動作モードを結果として与える方法で相互接続バス604を介して通信する。
【0032】
パン/チルトモジュール603は、カメラモジュール601からの信号に応答して垂直軸及び水平軸に関してカメラモジュール601を移動するサーボモータを含む。また、レンズシステム614は、カメラモジュール601からの信号に応答してレンズシステム614の焦点距離を変更するサーボモータを含む。
【0033】
機械学習モデルは、トレーニング段階105を実行するカメラと、分類段階106を実行するカメラとの間で通信網620を介して通信されてもよく、あるいは記憶媒体を介して転送されてもよい。
【0034】
方法100のトレーニング段階105において、トレーニング例110はサポートベクトルマシン等の多次元分類器120に供給され、多次元分類器120は機械学習モデル130を作成する。実質的には、機械学習モデル130は、視覚的要素の特徴から「背景」又は「前景」等のラベルへのマッピングである。
【0035】
分類段階106において、カメラ600により取り込まれた一連のフレーム又はフレームのセット140は、要素の特徴に適用された統計関数に基づいて、背景モデリングステップ145における背景モデル150を作成するために使用される。一実現例において、要素の特徴は一連のフレーム又はフレームのセット140にわたり平均化され、背景モデル150を得る。取り込まれたフレーム160の領域は、前景/背景の分離のため、カメラ600に提供される。ステップ170において、取り込まれたフレーム160の領域に現れる各視覚的要素の特徴と背景モデル150の対応する特徴との差分基準が計算される。差分基準は、取り込まれたフレーム160の領域の視覚的要素と背景面の対応する位置における背景モデル150との相関性を表す。
【0036】
ステップ180において、前景/背景の分離は、ステップ170で算出された特徴値に基づいて実行される。特徴値は、機械学習モデル130に対する入力として使用され、ラベルは、取り込まれたフレーム160の領域の視覚的要素毎に出力される。1つの構成において、ラベルは、視覚的要素が前景に属するか否かを示す。
【0037】
図7において、分類段階106を更に詳細に説明する。フレーム710が取り込まれ、減算モジュール730に提供される。フレーム710と同一シーンで取り込まれたフレームのセットから生成される背景モデル720が、減算モジュール730に更に提供される。減算モジュール730は、フレーム710を背景モデル720から減算する。例えば、フレーム730及び背景モデル720が8×8のブロックに対するDCT係数として表される場合、減算モジュール730の結果は、ブロック毎に複数の係数差分となる。すなわち、結果は多次元差分740である。多次元差分は分類モジュール750に適用され、8×8のブロックに対してスカラー差分760を生成する。これは、機械学習モデル755から得られるトレーニングサンプルに対してトレーニングされるサポートベクトルマシン又はナイーブベイズ法等の分類器を多次元差分740に適用することにより行なわれる。分類器750はスカラー差分760を生成し、スカラー差分760は閾値処理モジュール770により閾値処理される。モジュール770において、負数を有する全てのブロックは背景であると考えられ、正数を有する全てのブロックは前景であると考えられる。閾値処理モジュール770の結果、前景/背景分割780が行なわれる。
【0038】
通常、取り込まれたフレーム710は、背景モデル720を更新するために使用される。しかし、前景オブジェクトは無作為に背景の一部となることはない。分割の結果780は、前景オブジェクトが背景モデル720に吸収される影響を防止又は減少するために使用されてもよい。このために、背景モデル更新モジュール790は、取り込まれたフレーム710及び分割の結果780を入力として受け入れるために及び背景モデル720を選択的に更新するために使用されてもよい。
【0039】
別の構成において、単一の値がステップ180から出力される。その値は、ラベルを予測するために使用されるだけでなく、その予測が正確であるという方法100の信頼度の指標である。閾値が2値分類の結果の値に適用され、視覚的要素は前景ラベル又は背景ラベルを割り当てられる。方法100はステップ190において終了する。ステップ170及び180は、他のフレームに対して又は取り込まれた同一フレーム160の別の領域に対して繰り返されてもよい。
【0040】
方法100等の多次元分類方式は、機械学習モデル130を作成するためにトレーニング例110を必要とする。多次元分類方式に対してトレーニング例を選択することは時間のかかるタスクである。概念的には、フレームの各視覚的要素が正確なラベル、すなわちこの例では「背景」又は「前景」を割り当てられる。概念的には、種々の場所からの種々のコンテンツを含む多くのフレームは、機械学習モデル130を正常にトレーニングするために使用される必要がある。一般に、トレーニング例110の数が多いほど、結果として得られる機械学習モデル130はより正確になる。
【0041】
しかし実際には、特にカメラ600が動作するサイトでコンテンツが取得される場合、正確なラベルを生成するのに必要とされる人間の労力の犠牲は大きく、現実的には実現不可能である。
【0042】
十分な数のトレーニング例110を提供するというその問題に対処するために、機械学習モデル130をトレーニングする目的で、簡単な人的入力は、容易に構成される単純な(低次元)前景分離法(いわゆるオラクル)と組み合わされる。バランスの良いトレーニング例110のセットを作成することに焦点が当てられる。すなわち、トレーニング例110のセットは、オラクルにより高信頼度で容易に解析されない視覚的要素に偏るべきである。
【0043】
図2は、トレーニング例を選択する方法200を概略的に示すフローチャートである。ここでトレーニング例は、図1を参照して上述した方法100の入力110として使用される。方法200はステップ220で開始し、一連のフレーム210は背景モデリングされ、背景モデル230を生成又は更新する。
【0044】
1つの構成において、移動中央値(running median)が、ステップ220において背景をモデリングするために使用される。複数のフレームが履歴としてメモリに保持される。好ましくは、最新の8つのフレームが保持される。各視覚的要素に対して、履歴中の対応する視覚的要素の移動中央値である値が算出される。例えば、画素強度が視覚的要素として使用される場合、視覚的要素が座標x=50及びy=20における画素であり且つその座標における画素強度値の履歴が{100,150,120,130,140,131,141,110}である時、結果として得られる中央値は131である。
【0045】
別の例において、視覚的要素がフレームのDCT係数のブロックである場合、中央値は係数毎に個別に計算される。例えば2×2のブロックの場合、表1(Table 1)はDCT係数の履歴を示す。
【0046】
【表1】

【0047】
表2(Table 2)は、DCT係数の中央値を示す。
【0048】
【表2】

【0049】
中央値は合成値であるが、8つのフレームを表すものと考えられ、背景の最適な表現である。背景モデルは、ブロックの合成フレームとして認識される。
【0050】
別の構成において、適応背景モデルが使用される。これはモデリングされた値を先の値と新しい入力値との加重平均で更新するものである。8つの強度値{100,150,120,130,140,131,141,110}の履歴の例の場合、最初に観察した後の背景モデルは値100を含む。適応因子が0.95の場合、第2のフレームの後の背景モデルは値0.95*100 + 0.05*150 = 102.5を含む。8つの強度値の履歴に対しては、背景モデルの値は110.45である。同様に、適応値はブロックのDCT係数に対して算出される。一例として、表1に示す8つのフレームの履歴は、表3(Table 3)に示す適応値を結果として与える。
【0051】
【表3】

【0052】
適応背景モデルは、リソースの効率がよいが、最初は第1の値に非常に偏る。1つの構成において、適応背景モデルは、複数のフレームにわたる中央値の動作の結果で初期化することである。
【0053】
背景モデル230の作成後、一連のフレーム210の一部、又は、先に又は後で記録されたフレームであるフレーム240及び背景モデル230はステップ250に提供される。ステップ250ではその視覚的要素が前景に属する尤度を、フレーム240の視覚的要素毎に算出される。尤度の算出は、強度値又は変換係数等の視覚的要素の特徴及び背景モデル230に基づく。使用される背景モデルの一部は、フレーム240の視覚的要素の場所に対応する背景面の位置である。そのような尤度の算出を以下に詳細に説明する。
【0054】
ステップ260において、ユーザは、背景領域270の全ての視覚的要素が有効な前景を含まないように、フレーム240の背景領域270を指定する。何が有効な前景であるかは、アプリケーションドメイン及び画像の解像度に依存する。背景領域270の範囲に含まれないフレーム240の視覚的要素は、前景又は背景を含んでもよい。
【0055】
ステップ280において、トレーニング例は、ステップ250の視覚的要素の分類、及び、視覚的要素の背景領域270に対する相関性に基づいて選択される。トレーニング例の選択に関しては以下に更に詳細に説明する。ステップ280においてトレーニング例が選択された後、方法200はステップ290で終了する。
【0056】
方法200は、同一の背景モデル230を使用して同一シーンの別のフレームに対して繰り返されてもよく、あるいは方法200は、異なるフレーム240及び異なる背景モデル230を使用して異なるシーンに対して実行されてもよい。一実施形態において、トレーニング例110(図1)は、利用可能になるとすぐに方法100に提供される。別の実施形態において、例えば閾値により判定された十分な例が利用可能である場合、トレーニング例110は方法100に提供される。
【0057】
トレーニング例110は、ラベル(「背景」又は「前景」)と、視覚的要素と背景モデル130の対応する部分との差分に関する情報を含む差分タプル(difference tuple)とを含む。
【0058】
方法200において使用される単純な背景モデル130は、視覚的要素が前景又は背景を表す尤度を示す値を結果として与える。1つの構成において、背景面の対応する位置における背景モデルの値と視覚的要素との相関性を表す特徴値が算出される。例えば、視覚的要素が入力フレームの8×8のDCTブロックであり、且つ、背景面が入力フレームの面と同一である場合、入力フレームは背景モデルの8×8のDCTブロックに対応するモデルと比較される。背景差分は、2つのブロック間の差分を算出できる。1つの構成において、差分は、各係数に対する差分の絶対値を合計することにより算出される。その結果が差分値であり、差分単位で表される。別の構成において、差分は、表4(Table 4)に示す係数差分の平方を合計することにより算出される。
【0059】
【表4】

【0060】
差分値は、視覚的要素が前景を表す尤度として使用される。図3は、視覚的要素が前景を表す予想される尤度のスケール305を示す。領域310の低い尤度は、視覚的要素が背景を表す可能性が高いことを示し、領域320の高い尤度は、視覚的要素が前景を表す可能性が高いことを示す。領域310及び320は「確実」の種類である。同様に、中域330の尤度は「不確実」の種類である。
【0061】
1つの構成において、尤度値は、値の範囲に従って0〜1の数に正規化される。上述の例において、全ての係数が−127〜+127の同一範囲の値を有する場合、絶対差分の和9は4*255で除算され、平方差分の和23は4*2552で除算される。
【0062】
上述のように、多次元分類方法100に対する入力として提供されたトレーニング例110は差分タプルを含む。タプルの各要素は、多次元分類方式100で使用された次元に対応する値である。1つの構成において、差分タプルは、入力フレーム240のブロックのDCT係数と背景モデル230のブロックのDCT係数との間の平方差分から構成される。8×8のDCTブロックの例において、差分タプルは{1,4,9,9}である。
【0063】
以上、フレーム160の領域に現れる視覚的要素を分離する方法100及びトレーニング例を選択する方法200を説明したが、ステップ260においてユーザがフレーム240の背景領域270を指定する方法を次に更に詳細に説明する。図4は、有効な前景オブジェクト420及び430を含むフレーム410を示している。ユーザは、有効な前景オブジェクト420及び430を囲む矩形のバウンディングボックス440及び450をそれぞれ描くことによりフレーム410の背景領域を指定した。つまり、背景領域460は、バウンディングボックス440及び450を除外することにより規定される。
【0064】
尚、ユーザは現実的に可能な限り正確にバウンディングボックス440及び450を作成することを要求されるが、特に有効な前景オブジェクト420及び430が矩形でない場合、矩形のバンディングボックス440及び450は背景445等の背景を含むことが多い。また、殆どの自然なオブジェクトは矩形ではない。従って、背景領域460の全ての視覚的要素は背景を表すと考えられるが、ステップ260のユーザの選択した後は、全ての背景の視覚的要素が背景領域460の一部とはならない。
【0065】
ステップ260において、更に複雑な多角形を使用して背景領域270を選択してもよいが、上述の原理は変わらない。非常に複雑な多角形のみが、自然なオブジェクトの正確な輪郭を結果として与えるが、そのような多角形を描くのに必要とされるユーザの労力は非常に大きい。従って、実際には、バウンディングボックスは前景要素及び背景要素の双方を含むと仮定される。
【0066】
別の構成において、ステップ260において、ユーザは色又は強度の範囲を選択することにより背景領域270を指定する。例えば、ユーザは、閾値を下回る強度を有する全ての視覚的要素が背景を表し且つその閾値を上回る強度を有する画素が前景又は背景を表すと指定してもよい。
【0067】
背景領域270を規定するのと同様に、ユーザは確実に前景領域を指定し、フレーム140の残りが前景又は背景を表すように宣言してもよい。上述と同様の原理が当てはまる。
【0068】
オラクルが存在する場合の機械学習における通常の方法は、最も正確であると考えられる例を選択することである。この方法による問題は、それら例が前景を分離するのに単純な背景モデリング方法で十分である視覚的要素に偏ることである。一般にこれは、実際的ではない。
【0069】
従って、方法200は、単純な背景モデルが確実に分類できない視覚的要素を含むトレーニング例を特に含むバランスの良いトレーニング例110のセットを選択することを目的とする。
【0070】
このために、トレーニング例110は、ステップ250で「不確実」として分類された視覚的要素から採用される。単純な背景モデリング方法は、それら視覚的要素を正確に分類するか確実ではない。一実施形態において、候補セットは、ユーザの特定した背景領域460に対応せず且つ「不確実」として分類される視覚的要素を含んで作成される。必要とされるトレーニング例110の数に基づいて、トレーニング例110は「不確実」として分類される所定の数の視覚的要素を含むように選択される。
【0071】
1つの構成において、更なる閾値を採用することにより又は1つの例が選択される可能性を評価することによりトレーニング例110を選択するために、異なる値が使用されてもよい。例えば一実施形態において、選択の中断は選択された例の数に基づいて採用される。別の実施形態において、最小の距離閾値が使用される。
【0072】
別の実施形態において、トレーニング例110は、背景領域の視覚的要素又は「確実」な視覚的要素に対する「不確実」な視覚的要素の距離に基づいて選択される。誤ったラベルを有する例が選択される状況に対処するために、リスク回避及びダイバーシティ指向の2つの戦略が採用されてもよい。
【0073】
1つの構成において、リスク回避戦略が採用される。トレーニング例110が選択される候補セットが正確にラベル付けされるのが確実ではないと仮定すると、リスク回避戦略は確実と考えられる視覚的要素に関する情報を使用しようとする。それら要素は、前景尤度に対する閾値処理動作に従って前景又は背景を表すことが「確実」である視覚的要素であり且つ背景領域460にある視覚的要素である。トレーニング例110は、そのような視覚的要素がある種類に属する尤度、その種類に属することが確実であると考えられる視覚的要素に対する近さ及びその種類に属さないことが確実であると考えられる視覚的要素までの距離に基づいて選択及びラベル付けされる。1つの構成において、候補セットの視覚的要素は以下に説明するように順位付けされ、上位に順位付けされる視覚的要素はトレーニング例110として選択される。
【0074】
1つの構成において、まず、正規化された絶対差分値は視覚的要素に対する前景尤度として算出される。下位閾値及び上位閾値は、「確実」な分類を「不確実」な分類から分離するのに使用される。下位閾値を下回る値は、「確実」な背景視覚的要素と考えられ、上位閾値を上回る値は、「確実」な前景視覚的要素と考えられる。「不確実」な視覚的要素の場合、潜在的な前景の例であるか又は背景の例であるかの決定が行なわれる。値が上位閾値に最も近い場合、関連する視覚的要素は、前景尤度と同等の分類尤度を有する潜在的な前景の例である。値が上位閾値に近くない場合、関連する視覚的要素は、1−前景尤度に同等の分類尤度を有する潜在的な背景の例である。同一種類の要素及び他の種類の要素と視覚的要素との間の距離を反映する隣接尤度が算出される。潜在的な前景の例の場合、再隣接する「確実」な背景視覚的要素又は背景領域の視覚的要素までの空間距離dBは、例えばユークリッド距離又はシティブロック距離を使用して算出される。次に、再隣接する「確実」な前景視覚的要素までの空間距離dFが算出される。隣接尤度は、dBをdFで除算することにより算出される。同様の隣接尤度は、潜在的な背景の例に対して算出される。
【0075】
隣接尤度を分類尤度と乗算することにより候補セットの視覚的要素に対するスコアが算出され、候補セットはそれに従って順位付けされる。ここで、最大スコアはリスク回避戦略に対する最適な候補に対応する。
【0076】
別の構成においては、ダイバーシティ指向戦略に従う。ダイバーシティ指向戦略は、境界にある候補セットから例を選択しようとする。これは、それら例がトレーニングに最も有用なためである。リスク回避戦略と比較すると、例に誤ってラベル付けする危険性は高い。戦略は、上述のように隣接尤度を算出し、隣接尤度と1(ここで、値1は、視覚的要素が背景及び前景視覚的要素に対して同様に近接することを意味する)との間の差分の絶対値をスコアとして算出することにより実現される。スコアはそれに従って順位付けされる。ここで、最小スコアはこの戦略に対する最適な候補に対応する。
【0077】
トレーニング例110を選択するための空間関係の用途を例として示す。図5は、ステップ260においてユーザにより指定された背景領域520を有するフレーム510を示す。背景領域520から除外された視覚的要素は、「確実」な背景視覚的要素550、「確実」な前景視覚的要素560及び「不確実」な視覚的要素580を含む。この例の場合、前景尤度の下位閾値を0.25とし、上位閾値を0.8とする。視覚的要素570が0.45の前景尤度を有し、視覚的要素580が0.75の前景尤度を有するとする。
【0078】
「不確実」な視覚的要素570と最近接する「確実」な背景視覚的要素590との間のシティブロックの距離は1である。「不確実」な視覚的要素570と最近接する「確実」な前景視覚的要素501との間のシティブロックの距離は3である。リスク回避戦略を採用すると、隣接尤度は3であり、1で除算した結果として3を得る。「不確実」な視覚的要素570の前景尤度(0.45)が下位閾値に最も近いため、分類尤度は1-0.45 = 0.55である。スコアは、3*0.55 = 1.65である。
【0079】
「不確実」な視覚的要素580と最近接する「確実」な前景視覚的要素502との間のシティブロックの距離は2である。「不確実」な視覚的要素580と最近接する「確実」な背景視覚的要素503との間のシティブロックの距離は3である。リスク回避戦略を採用すると、隣接尤度は2であり、3で除算した結果として0.67を得る。前景尤度0.75が上位閾値に最も近いため、分類尤度は0.75である。スコアは、0.67*0.75 = 0.5である。
【0080】
例は、視覚的要素580が閾値により近い前景尤度を有するが、トレーニング例である視覚的要素570を選択する危険性は視覚的要素580を選択するより低いことを示す。
【0081】
1つの構成において、スコアを算出するための入力値は変倍されてもよい。例えば、値がより密な領域に入るように、平方根が隣接尤度に適用される。
【0082】
前景/背景の分離の結果、前景又は背景として視覚的要素のラベル付けが行なわれる。複数の視覚的要素に対する結果は、ビデオの更なる解析を行なうために使用される。例えば、前景オブジェクトは、前景視覚的要素をグループ化するために接続された構成要素の解析を行なうことにより検出されてもよい。領域閾値は、有効なオブジェクトを無効なオブジェクト及びノイズと区別ために適用されてもよい。
【0083】
上述において、本発明のいくつかの実施形態のみを説明したが、本発明の趣旨の範囲から逸脱せずに変形及び/又は変更がそれら実施形態に対して行なうことができる。実施形態は例であり、限定するものではない。
【図面の簡単な説明】
【0084】
【図1】前景オブジェクト又は背景を表すフレームの領域に現れる視覚的要素を分離する方法を概略的に示すフローチャートである。
【図2】図1の方法において使用するためにトレーニング例を選択する方法を概略的に示すフローチャートである。
【図3】視覚的要素が前景オブジェクトを表す予想される尤度の尺度を示す図である。
【図4】ユーザが背景領域を指定する方法を示す図である。
【図5】トレーニング例を選択するための空間関係の用途を示す図である。
【図6】図1及び図2の方法が実現されるカメラを示す概略ブロック図である。
【図7】図1の分類段階を示すデータフロー図である。

【特許請求の範囲】
【請求項1】
フレーム内の領域の要素を分類する方法であって、
フレームのセットにおける前記領域の要素の特徴に適用される統計関数に基づいて少なくとも前記領域のモデルを作成するステップと、
ラベルへの特徴のマッピングを受信するステップと、
前記領域の要素の特徴及び前記モデルの特徴に基づいて複数の差分値を含む差分基準を計算するステップと、
前記差分基準及び前記マッピングに基づいて前記要素を分類するステップ
を有することを特徴とする方法。
【請求項2】
前記特徴は変換係数であることを特徴とする請求項1に記載の方法。
【請求項3】
前記特徴は、複数の離散コサイン変換(DCT)係数であることを特徴とする請求項1に記載の方法。
【請求項4】
前記マッピングは、多次元分類器により形成されることを特徴とする請求項1に記載の方法。
【請求項5】
前記分類ステップは、
前記差分基準及び前記マッピングに基づいて要素が1つの種類に属する信頼度を計算するサブステップと、
前記信頼度に基づいて前記要素を分類するサブステップ
とを含むことを特徴とする請求項1に記載の方法。
【請求項6】
要素を含むフレームからトレーニング例を選択する方法であって、
フレームのセットから前記フレームの各位置に対してモデルを作成するステップと、
複数の種類のうちの1つに属することが確実である要素の選択をユーザから受信するステップと、
前記選択及び前記モデルから除外された前記要素の特徴に基づいて、前記選択から除外された要素の分類を判定するステップと、
少なくともトレーニング例として正確に分類する尤度が低い要素を選択するステップと
を有することを特徴とする方法。
【請求項7】
前記トレーニング例は、正確に分類する尤度が高い要素を更に含むことを特徴とする請求項6に記載の方法。
【請求項8】
前記受信ステップでは、前記フレーム内の少なくとも1つの領域が受信され、前記少なくとも1つの領域は、前記複数の種類のうちの1つに属することが確実な要素及び不確実な要素を表し、前記要素の選択は、前記1つ以上の領域から除外された要素であることを特徴とする請求項6に記載の方法。
【請求項9】
前記分類ステップの正確度は閾値に基づくことを特徴とする請求項6に記載の方法。
【請求項10】
正確に分類する尤度が低い要素は、選択された要素及び正確に分類する尤度が高い1つ以上の要素との空間関係に基づいて前記トレーニング例に含まれる請求項6に記載の方法。
【請求項11】
フレーム内の領域の要素を分類する装置であって、
フレームのセットにおける前記領域の要素の特徴に適用される統計関数に基づいて少なくとも前記領域のモデルを作成する手段と、
ラベルへの特徴のマッピングを受信する手段と、
前記領域の要素の特徴及び前記モデルの特徴に基づいて複数の差分値を含む差分基準を計算する手段と、
前記差分基準及び前記マッピングに基づいて前記要素を分類する手段と
を備えることを特徴とする装置。
【請求項12】
要素を含むフレームからトレーニング例を選択する装置であって、
フレームのセットから前記フレームの各位置に対してモデルを作成する手段と、
複数の種類のうちの1つに属することが確実である要素の選択をユーザから受信する手段と、
前記選択及び前記モデルから除外された前記要素の特徴に基づいて、前記選択から除外された要素の分類を判定する手段と、
少なくともトレーニング例として正確に分類する尤度が低い要素を選択する手段と
を備えることを特徴とする装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図6】
image rotate

【図4】
image rotate

【図5】
image rotate

【図7】
image rotate


【公開番号】特開2008−165792(P2008−165792A)
【公開日】平成20年7月17日(2008.7.17)
【国際特許分類】
【外国語出願】
【出願番号】特願2007−333203(P2007−333203)
【出願日】平成19年12月25日(2007.12.25)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】