グラウンドトルース・データからの合成画像及びビデオの生成

【課題】ビデオを生成するシステム及び方法を開示する。
【解決手段】物体情報が受信される。基準点に対する物体の動きのパスが生成される。基準フレームの一連の画像及びグラウンドが、グラウンドトルース、及び生成されたパスから生成される。画像を生成するシステム及び方法を開示する。物体情報が受信される。画像データ及びグラウンドトルースを、位置、画像記述、カメラ特性、及び画像歪みパラメータを用いて生成することができる。文書と基準点との間の位置関係が判定される。文書及びグラウンドトルースの画像が、物体情報及び位置関係から、かつ、文書のユーザ指定環境に応じて生成される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は一般に、画像及びビデオの生成の分野に関し、特に、グラウンドトルース・データを用いた、画像及びビデオの生成に関する。
【背景技術】
【０００２】
種々のモデルが、画像劣化を考慮した文書画像生成に用いられている。文書画像劣化の適切なモデルは、数多くの論文の主題となっている（Y. Li, D. Lopresti、G. Nagy及びA. Tomkinsによる「Validation of Image Defect Models for Optical Character Recognition （IEEE Trans. Pattern Anal. Mach. Intell. 18,2 （Feb. 1996）, pp. 99-108）」）。Pavlidasは、水平方向及び垂直方向のスケーリング、回転、サンプリング・レート、及び量子化閾値を含むモデルを提案している（T. Pavlidasによる「Effects of Distortion on the Recognition Rate of a Structural OCR System （Pro. Conf. on Comp. Vision and Pattern Recog., pp. 303-309, Washington, DC, 1983）」）。Bairdは、可変パラメータが、フォント・サイズ、空間サンプリング・レート、回転、水平方向及び垂直方向のスケーリング、水平方向及び垂直方向の平行移動、画素変位、ガウス点広がり関数、画素センサ感度、及び量子化閾値を含むモデルを提案している（H. Bairdによる「Document Image Defect Models （Proc. Of IAPR Workshop on Syntactic and Structural Pattern Recognition, pp. 38-46, Murray Hill, NJ June 1990）」、及びH. Bairdによる「The State of the Art of Document Image Degradation Modeling （Proc. of 4^th LAPR International Workshop on Document Analysis Systems, Rio de Janeiro, Brazil, pp. 1-16, 2000）」）。Smithは、点広がり関数の幅、及び２値化の閾値を変えるモデルを試している（E. H. Barney Smith及びT. Andersenによる「Text Degradations and OCR Training （International Conference on Document Analysis and Recognition 2005, Seoul, Korea, August 2005）」）。Khoubyari及びHullは、文字ストロークを厚くし、次いで、特定の黒画素を白画素に任意に換えることによって文字の粗をシミュレートしている（Khoubyari, S.、及びJ. J. Hullによる「Keyword Location in Noisy Document Images （Second Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, pp. 217-231, April, 1993）」）。Kanungo他は、製本文書の走査によって生じるカール歪みをモデリングしている（Kanungo, T.、Haralick, R.M.及びPhillips, I.による「Global and Local Document Degradation Models （Document Analysis and Recognition, 1993., Proceedings of the Second International Conference on Document Analysis and Recognition ICDAR-93, Volume, Issue, 20-22 Oct 1993, pp. 730-734）」）。更にZiは、関心文書の下にあるか、又は関心文書の裏面上にあるテキスト及び画像からのブリードスルーの効果を考察している（G. Ziによる「Groundtruth Generation and Document Image Degradation （University of Maryland Language and Media Processing Laboratory Technical Report （LAMP-TR-121）, 2005）」）。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
前述のモデルは、スキャナ上の画像、又は2値画像を扱う。前述のモデルは、非平面形態の撮像を規定するものでない。更に、前述のモデルは、ビデオを撮像するために、大量のデータ組を用いる。より一般化された撮像システム・モデルが必要である。
【課題を解決するための手段】
【０００４】
開示されるシステム及び方法の一実施例によって、ビデオが生成される。物体情報が受信される。基準点に対する物体の動きのパスが生成される。基準フレームの一連の画像及びグラウンドトルースが、物体情報、及び生成されたパスから生成される。
【０００５】
開示されるシステム及び方法の一実施例によって、画像が生成される。物体情報が受信される。画像データ及びグラウンドトルースを、位置、画像記述、カメラ特性、及び画像歪みパラメータを用いて生成することができる。文書と基準点との間の位置関係が判定される。文書及びグラウンドトルースの画像が、物体情報及び位置関係から、かつ、文書のユーザ指定環境に応じて生成される。
【発明を実施するための最良の形態】
【０００６】
本明細書記載の特徴及び利点は、全てを含む訳でなく、特に、多くの更なる特徴及び利点が、図面、明細書及び特許請求の範囲にかんがみて当業者に明らかになる。更に、本明細書において使用する文言は主に、読みやすさ及び教示の目的で選択されており、本発明の主題について、輪郭を描く、又は周囲に線を引くために選択されていないことがあり得る。
【０００７】
開示された実施例は、添付図面とともに解釈される、詳細な説明及び特許請求の範囲から、より容易に明らかになる他の利点及び特性を有する。
【実施例】
【０００８】
図面及び以下の説明は、例証の目的でのみ、本発明の好ましい実施例に関する。以下の記載から、本明細書及び特許請求の範囲記載の構造及び方法の別の実施例が、特許請求の範囲に係わる発明の原理から逸脱しない限り用いることができる実行可能な代替策として容易に認識されよう。
【０００９】
次に、いくつかの実施例を詳細に参照する。これらの例は添付図面に示す。実行可能な限り、類似又は同様の参照符号を用い得るものであり、類似又は同様の参照符号は、類似又は同様の機能を示し得る。図は、例証の目的でのみ、本発明の実施例を表す。本明細書及び特許請求の範囲記載の原理から逸脱しない限り本明細書及び特許請求の範囲記載の構造及び方法の別の実施例を用いることができることを当業者は以下の説明から容易に認識するであろう。
【００１０】
画像及びビデオを生成する方法及びシステムは、グラウンドトルース・データ、及びカメラのパラメータのモデル、並びに、撮像されている物体の環境を用いた、画像、又は一連の画像の生成を含む。モデリングは、画像劣化、及びハンドヘルド型装置を含む種々の画像捕捉装置によって捕捉される画像を含み得る。方法及びシステムは、画像捕捉装置、及び撮像されている文書の任意の配置、並びに、ソース文書及び任意の照明状態の等長的変形も可能にする。方法及びシステムは、フォーカス・ブラー、モーション・ブラー、ヒストグラム圧縮、センサ雑音、内部及び外部のカメラ・パラメータ、シャドウ、センサ分解能、口径食、背景クラッタ、文書変形や、鏡面反射特性、周囲特性、並びに、拡散照明及び材料特性の効果もモデリングする。一実施例では、これは、仮想カメラの位置、及びその内部パラメータに基づいた仮想画像を生成するための一般的な光線追跡モデルを用いることによって達成される。
【００１１】
図１は、画像生成システム１００を示す図である。プリンタ１０２は、印刷されたソース文書１０６を生成し、印刷情報を画像生成システム１００に供給する。画像捕捉装置１０４は、ソース文書１０６を検出し、捕捉し、画像１０８を生成する。画像捕捉装置１０４は例えば、ハンドヘルド型画像捕捉装置（ディジタル・カメラや携帯電話機など）、又は固定型画像捕捉装置（ウェブ・カメラなど）であり得る。例として、画像捕捉装置１０４は、本出願においてはカメラ１０４としても表す。画像生成システム１００は、プリンタ１０２からの印刷情報に応じて仮想画像１１０を生成する。印刷情報（図示せず）は、ソース文書１０６を表し、ページ記述言語（例えば、ポストスクリプト（登録商標）又はPCL）におけるデータであり得る。印刷情報は、コンピュータ・オペレーティング・システム（例えば、ウィンドウズ(登録商標)XP）によってラスタ画像に変換されるグラフィックス・デバイス・インタプリタ（GDI）コマンド系列でもあり得る。印刷情報は、ソース文書における物体毎のグラウンドトルース・データを含み得る。仮想画像１１０は、グラウンドトルース・データを含む、印刷情報から生成される印刷文書１０６の生成画像である。一実施例では、ページ記述言語ファイルは、インタープリタ（ゴーストスクリプトなど）によってラスタ表現（tiff、jpegやbmpなど）に変換される。一実施例では、仮想画像１１０は単一の画像である。別の実施例では、仮想画像１１０は、画像又はフレーム（ビデオなど）の系列である。一実施例では、仮想画像１１０は画像１０８を表す。画像生成システム１００は、印刷情報、カメラ１０４のパラメータ、及びソース文書１０６の環境パラメータを用いて仮想画像１１０を生成する。
【００１２】
画像生成システム１００は、インテル社によって製造されたペンティアム(登録商標)４又はジオン・プロセッサなどのプロセッサを含み得るものであり、画像生成をソフトウェアとして実行する。画像生成システム１００は全体的に、又は部分的に、パソコンのビデオ・カード上のグラフィックス処理装置（GPU）上のソフトウェアとして生成することもできる。
【００１３】
画像生成システム１００を用いて顔認識又は医療撮像システムのためのデータを生成することができる。
【００１４】
図２は、画像生成器１００であり得るビデオ生成器２００の一実施例を示すブロック図である。ビデオ生成器２００は、パス生成器２０２及び画像生成モデル２０４を備える。
【００１５】
パス生成器２０２は、特定の画像（文書１０６など）に対する、カメラの位置の座標系列を生成する。一実施例では、パス生成器２０２は、カメラ１０４の移動に対する人間の行動のモデル、カメラ１０４の移動のパス、及びカメラ１０４のフレーム・レートに応じて座標系列（座標xt、yt、zt、pt、tt及びztとして示す）を生成する。一実施例では、移動のパスは一連の制御点として規定され、人間モデルは、制御点間のカメラを移動させるための人間行動を表す。カメラ１０４の移動のパスは、個人がカメラによって行う移動を規定するためにユーザによって規定されるか、又はカメラ１０４から受信することができる。
【００１６】
画像生成モデル２０４は、カメラ１０４の特性、画像歪みパラメータ、及び、単一画像又はフレーム系列を（座標組毎に１つ）生成するために、プリンタ１０２からの画像記述及びグラウンドトルース・データを備える物体情報を用いることができる。カメラ１０４の特性、及び画像歪みパラメータは、ユーザ入力することができる。各フレームは、ソース文書１０６の特定のワープ及びシャドウを補正するよう歪めさせる。ソース文書１０６についての受信物体情報は、画像の生成を可能にする情報を含む。一連の画像の場合、動きを表す大量のデータ組が通常、用いられる。画像生成モデル２０４は、画像を表す物体情報（顔認識や医療撮像などの場合においては３次元でもよい）を用いて、画像又はビデオを生成する。一実施例では、物体情報は、文書のラスタ画像（例えば、tiff、jpeg、bmp等）、並びに、各文字の識別情報及び位置を規定したグラウンドトルース情報を含む。（注：位置は、文字の左上隅のx-y、並びにこれをカバーするボックスにおける列及び行の数として規定することが可能である）。別の実施例では、物体情報は、ページ記述言語（PDL）(ポストスクリプトやPCLなど)における印刷情報であり、画像生成モデル２０４の処理の一部は、ゴーストスクリプトなどのインタープリタを用いてPDLからの文書の画像を「レンダリングする」。別の実施例では、顔認識や医療撮像などの3次元アプリケーションの物体情報が、仮想現実マークアップ言語（VRML）又は拡張可能３D（X3D）ファイルとして供給され、画像生成モデル２０４の処理の一部は、オープンVRML、Xj3Dやフラックスなどのインタープリタを用いてオブジェクトの3次元ビューをレンダリングする。画像生成モデル２０４は、仮想画像１１０のグラウンドトルース・データを生成することができる。一実施例では、ソース文書１０６における何れかの入力x-y座標を、仮想画像１１０における対応する出力画像x’-y’に変換する写像テーブルが出力される。これは、図３のソース文書において示すバウンディング・ボックス・データの位置などの何れかのグラウンドトルース情報の幾何学的位置の変換を可能にする。仮想画像１１０における何れかのx’-ｙ’座標を、ソース文書１０６における対応するx-y位置に変換する「逆」写像テーブルも画像生成モデル２０４によって提供することができる。写像テーブルは、ソース文書又は実画像に生じるx-y又はx’-y’毎にエントリを有する通常のアレイ又はハッシュ・テーブルの形式をとり得る。別の実施例では、x-y又はx’-y’対が与えられ、他方の画像における対応する対を計算する関数を提供することができる。写像関数の例には、射影変換、及び他の周知の幾何変換が含まれる。特定の場合には、写像テーブルは、２つ以上の出力位置を設けることができる。更に、前述の位置は、入力位置に寄与した画像特性（例えば、強度、色等）の量を示す尤度値と関連付けることができる。よって、画像生成モデル２０４は、単一画像のグラウンドトルース・データを受信し、一連のビデオ・フレームのグラウンドトルース・データを生成することができる。これは、仮想画像１１０を生成する前に生成されるグラウンドトルース・データの量を削減する。一実施例では、画像生成モデル２０４は、画像捕捉装置１０４のパラメータ、センサ雑音、コントラスト劣化、シャドウ、口径食、フォーカス・ブラー、モーション・ブラー、背景、等長的表面（isometric surface）、及び全般照明を用いて仮想画像１１０を生成する。画像生成モデル２０４は、ワープを含む画像の動きのパラメータ、及びシャドウを含み得る。画像生成モデル２０４は、機械学習を用いてパラメータを推定することができる。
【００１７】
図３は、ソース文書１０６、及びグラウンドトルース・データによって表すマーキングされた領域３０１の画像である。マーキングされた領域３０１のグラウンドトルースは、ソース文書１０６上のフォントフェース、フォント・サイズ、及び位置を含み得る。画像生成モデル２０４は、プリンタ１０２若しくは別のソースからグラウンドトルースを受信し、又は、グラウンドトルースを印刷情報から生成する。グラウンドトルースは、画像上のマーキングされた領域３０１のオーバレイとして処理することができる。画像のグランドトルースは、ソース文書、及びそれがどのようにして生成されたか（文書の対応する紙バージョンが印刷された日時及び場所、プリンタ、PC、並びに文書を印刷した個人の識別情報など）についてのメタデータも含むことが可能である。グラウンドトルースは、元のソース・ファイル（例えば、ワード、PDF等）の位置、パス及び名前も含むことが可能である。これは、ソース・ファイルを後に位置特定するうえで十分である。
【００１８】
図４は、ソース文書１０６からカメラ１０４までの光線追跡を示す図である。画像生成モデル２０４は光線追跡を用いて、図５に関して後述する外部カメラ・パラメータを用いてソース文書１０６の部分からカメラ１０４までの光線を追跡することによって仮想画像１１０を生成する。光線を、文書１０６の各部分からカメラ１０４まで追跡して文書の画像を生成する。カメラ１０４をパス生成器２０２からの座標によって移動させるにつれ、光線が、文書１０６からカメラ１０４まで追跡される。
【００１９】
図５は、画像生成モデル２０４（カメラ外部パラメータ・モデル５０２、カメラ内部モデル５０４及び複数の効果モデル５０６、５０８、５１０、５１２、５１４、５１６、５１８、５２０、５２２、５２４及び５２６を備える）を示すブロック図である。効果モデル５０６、５０８、５１０、５１２、５１４、５１６、５１８、５２０、５２２、５２４及び５２６は、センサ雑音モデル５０６、ヒストグラム効果モデル５０８、シャドウ・マスク・モデル５１０、口径食モデル５１２、フォーカス・ブラー・モデル５１４、モーション・ブラー・モデル５１６、等長的表面モデル５１８、全般照明モデル５２０、背景モデル５２２、画像圧縮モデル５２４、及びブリードスルー・モデル５２６を含む。画像生成モデル２０４は、光線追跡にカメラ外部パラメータ・モデル５０２を用いる。画像生成モデル２０４は、カメラ内部パラメータ・モデル５０４を用いて、カメラ１０４からの画像に対する効果をシミュレートする。画像生成モデル２０４は、効果モデル５０６、５０８、５１０、５１２、５１４、５１６、５１８、５２０、５２２、５２４及び５２６を用いて、画像１０６に対する写真、照明及び環境をシミュレートする。
【００２０】
カメラ１０４の外部パラメータは、画像１０６に対する、カメラ１０４の平行移動及び向きの情報を含み得る。一実施例では、カメラ１０４の位置は、ソース文書１０６（その中心を原点とみなす）に対する、カメラ１０４のカメラ位置（例えば、単位：インチ（２．５ｃｍ））の大局x、y及びz値によって表す。カメラの向きは、３つのオイラー角度（,,_X、 ,,_Y、及び,,_Z）によって表す。一実施例では、画像生成モデル２０４は、光線追跡を用いて画像１１０を、外部パラメータ５０２の外部パラメータを用いて生成する。
【００２１】
図６は、ソース文書１０６の上方の例示的なビデオ軌道６０１を示す3次元図である。パス生成器２０２は、人間行動のモデル、及び配列制御点組を用いて、特定のソース文書１０６のカメラ１０４の位置を推定する。パス生成器２０２は、カメラ１０４のフレーム・レートでの、制御点間の軌道に沿ったカメラ１０４の動きを計算する。
【００２２】
人間行動モデルは、シミュレートされているタスクの名前、制御点間を移動するための時間量、及びカメラ１０４が各点に滞留する時間を求める数学的な時間の関数、制御点間のパスを求める数学的な遷移動作関数、及び各制御点に達した際のカメラ１０４の移動を求める数学的な滞留動作関数を規定する。制御点は、配列された（x、y、z、thetax、thetay、thetaz）の値の組として設けられる。シミュレートされるタスクの名前は、「情報ブラウジング」、「挿入のためのポイント・アンド・クリック」、「取り出しのためのポイント・アンド・クリック」、「拡張現実インタフェース」、「マウス」、「情報ブラウジング」及び「ジェスチャ」を含むが、それらに限定されない。数学的な時間の関数は、移動時間及び滞留時間のユーザ規定定数組を含む。フィッツの法則又はアコットの法則を用いて、点間をナビゲートするために必要な時間を予測することが可能である。数学的な遷移動作関数には、配列制御点組、各制御点対間の移動の合計時間、及びカメラ・フレーム・レート（通常、サンプリング・レート（通常、秒毎フレーム単位のサンプリング・レートとして規定される）が与えられる。遷移動作関数は、フレームが捕捉される都度、カメラの位置を算出する。数学的な遷移動作関数は、直線などのユーザ指定定数、又は、フレームが生成される都度のカメラの位置の手作業の指定を含む。特定の場合には、ナル遷移動作関数が用いられ、システムは制御点においてのみ、画像を生成する。画像数は、滞留時間、及びカメラのフレーム・レートによって求められる。線形動的システムは、遷移動作関数の別の例である。カルマン・フィルタは、人間動作の例から訓練することが可能な遷移動作関数であり、制限点間でカメラを人間がどのようにして移動させるかをシミュレートするパスを生成することが可能である。他の遷移動作関数の例には、拡張カルマン・フィルタ、粒子フィルタ、拡張粒子フィルタ、ベイズ・フィルタ、拡張ベイズ・フィルタ、及び当該技術分野において周知の他の手法を含む。数学的な滞留動作関数には、制御点としての開始位置、その点においてカメラが滞留する時間量、及び、その時間中のカメラの移動の規定が与えられる。移動の例には、継続的な滞留が含まれる。通常、カメラ１０４は、人間の手をシミュレートするために、制御点付近でジッタリングする。他の移動には、ズームイン及びズームアウトが含まれる。これは、ソース文書１０６までの距離を調節することによって、ユーザがカメラ１０４をフォーカスさせようとしていることをシミュレートする。別の滞留動作関数には回転がある。滞留動作関数は、前述の基本動作、及び他の動作の任意の組み合わせでもあり得る。滞留動作関数は、滞留中にフレームが生成される都度の、カメラの位置の手作業の規定であり得る。各動作に割り当てられる滞留時間量は一様であるか、ユーザ規定されるか、又は、別の数学的な関数によって規定することが可能である。
【００２３】
図１９A、図１９B及び図１９Cは、人間行動モデル及び関連した制御点の３つの実施例を示す図である。図１９Aに示す例では、「情報ブラウジング」という名前のタスクがシミュレートされる。制御点間の時間は、点間をナビゲートするための時間、及び各点において停止するための時間を求める定数組として規定される。線形動的システムを用いて、制御点間のパスを求める。第１の制御点p0は、カメラ１０４が静止状態にあることを規定している（すなわち、座標は全て、ゼロである）。第２の制御点p1は、文書の左上隅の右に2インチ（5cm）、文書の左上隅から下に3インチ（7.5cm）、文書のページの上方に3インチ（7.5cm）であり、文書に垂直であることを規定する。３つのオイラー角度はゼロである。p1は、x、y、ｚ位置及び別々のオイラー角度における変化を規定する。thetax=20度、thetax=１０度、及びthetaz=１０度である。
【００２４】
図19Bに示す例では、「ポイント・アンド・クリック」という名前のタスクがシミュレートされる。制御点間の時間は、フィッツの法則を施すことによって求められ、滞留時間は、定数（５秒）として規定される。動作関数は、カルマン・フィルタによって求められる。制御点は、静止状態における最初の点p0として規定される。カメラ１０４は、文書の左２インチ（5cm）、及び、最上部から下3インチ（7.5cm）の所にある。第２の制御点は、ソース文書１０６上の最も左上の段落の中心を算出する関数によって自動的に求められる。
【００２５】
図１９Cに示す例では、「拡張現実」という名前のタスクがシミュレートされる。３つの制御点が設けられている（最初のp0は、静止状態のカメラを示している）。p0からp1にナビゲートするための時間は、アコットの法則によって算出される。カメラはp1において6秒間滞留する。p0とp1との間の遷移動作はカルマン・フィルタによって求められ、カメラ１０４は、p1において滞留中にズームイン及びズームアウトを行う。p1からp2に移動するための時間はフィッツの法則によって求められ、遷移動作はカルマン・フィルタによって求められる。p2において滞留している間、カメラ１０４は、滞留時間の４０％の間、ズームイン及びズームアウトを行い、滞留時間の残りの６０％の間、左に回転する。
【００２６】
パス生成器２０２は、位置、速度、加速度及びジャークを含む一連の状態として、制御点間の軌道６０１を求める遷移動作関数として離散時間線形動的システムを用いることができる。一実施例では、パス生成器２０２は雑音を含む。図７は、最小エネルギ駆動力を用いた、軌道６０１の推定を示す3次元図である。一実施例では、位置推定は、ビデオ系列中の自己移動の推定のためにビデオ・モザイキングを行うためのビデオ特徴マッチング手法（内容を本明細書及び特許請求の範囲に援用する、T.Sato、S.Ikeda、M.Kanbara、A.Iketani、N.Nakajima、N.Yokoya及びK.Yamadaによる「High-resolution Video Mosaicing for Documents and Photos for Estimating Camera Motion （Proceedings of SPIE 5229, 246 (2004)）」記載のビデオ特徴マッチング手法など）を用いることができる。一実施例では、グラウンドトルース・データの存在が理由で、一般的な画像登録（フーリエ・メラン変換など）を用いることができる。
【００２７】
一実施例では、パス生成器２０２は、制御点間のパスを求める遷移動作関数として最小エネルギ解析を行う。カメラ１０４の位置及び向きは、３つの位置パラメータ及び３つのオイラー角度によって表す。前述はそれぞれ、離散時間線形動的システムを用いて更新される。例えば、ソース文書１０６の原点に対する、カメラ１０４の位置（単位：インチ（2.5cm））はXで表される。時間nにおける、カメラのX位置の状態は、
X_n=［P［n］V［n］A［n］J［n］］’
によって表す。
【００２８】
ここで、P［n］は、X方向におけるカメラ１０４の位置であり、V［n］は速度であり、A［n］は加速度であり、J［n］はジャークである。時間n+1における、カメラのX位置の状態は、
X_n+1=A*X_n+B*u(t)
の関係によって表す。
【００２９】
ここで、u(t)は駆動力として知られており、
【数１】

であり、
【数２】

である。
【００３０】
線形動的システムから、状態X_dexがnステップで到達可能な場合、可制御行列は、
C_n=［B AB_… A^n-１B］
である。
【００３１】
開始点から、所望の状態X_dexにnステップで達するための最小エネルギ解を用いれば、
u(t)=Cn^T(CnCn^T)^-１X_dex
が得られる。
【００３２】
画像生成モデル２０４は、カメラ内部モデル５０４を用いて、画像１１０を生成するためのカメラ内部パラメータを求めることもできる。画像生成モデル２０４は光線追跡をカメラ内部パラメータを用いて算出して、カメラ原点からのセンサの各画像を通って放たれる光線がソース文書１０６と交差する所を求める。一実施例では、カメラの内部パラメータは、２つの焦点距離（f_x及びf_y（単位：画素））、主点座標（（cc_x及びcc_y）（単位：画素））、スキュー係数、並びに、放射方向歪み及び接線方向歪みを表す５つの係数である。別の実施例では、内部パラメータは、内容を本明細書及び特許請求の範囲において援用する、Z. Zhangによる「A flexible new technique for camera calibration （IEEE Transactions on Pattern Analysis and Machine Intelligence、 v. 22, no.11, Nox. 2000, 1330-1334）」記載のモデルを用いて解析される。図８は、２０個の画像のチェッカーボード校正目標のサンプル、及び校正の結果を示す図である。校正は、焦点距離、光学的中心、スキュー、並びに、放射方向歪み及び接線方向歪みを補正することができる。あるいは、カメラ１０４のタイプのストック・パラメータ組を用いることができる。
【００３３】
画像生成モデル２０４は、ｘ方向及びy方向に半画素分だけ、画像平面における追跡光線のx、y位置をジッタリングし、次いで、光線の、ページとの間で生じる４つの交差の平均値を用いることによって、最終画像におけるエイリアシングを削減することができる。
【００３４】
画像生成モデル２０４は、画像を生成するためのセンサ雑音モデル５０６を含み得る。一実施例では、センサ雑音モデル５０６は、内容を本明細書及び特許請求の範囲において援用する、Costantini, R.及びSusstrunk, S. による「Virtual Sensor Design （Proceedings of the SPIE, Volume 5301, pp. 408-419 (2004)）」の仮想センサ設計などの信号依存性雑音及び信号に依存しない雑音を備えるセンサ雑音モデルである。別の実施例では、センサ雑音モデル５０６は、画素利得の非一様性のみを含む。センサ雑音モデル５０６は、平均１、及び、雑音の所望レベルを達成するよう調節可能な範囲を有する一様な変数を含み得る。画像生成モデル２０４は、光線追跡によって算出された画素の算出強度値で、利得の非一様性を乗算する。
【００３５】
図９は、例示的なセンサ雑音モデル５０６を示す図である。画素利得の非位置養成のスケール係数を実画像について機械学習手法を用いて推定することが可能である。一実施例では、センサ雑音モデルは、仮想画像、及びマッチングされる実画像における空間周波数の分布の類似度を最大にするための滑降シンプレックス（ネルダー・ミード）アルゴリズムを含む（内容を本明細書及び特許請求の範囲において援用する、Kanungo, T.及びZheng, Q.による「A Downhill Simplex Algorithm for Estimating Morphological Degradation Model Parameters （University of Maryland Technical Report, LAMP-RT-006）」を参照されたい）。
【００３６】
一実施例では、センサ雑音モデル５０６は、以下のように定義される近傍周波数分布（NFD）を用いる。画像における8x8画素ブロック９０１毎に、２ＤＦＦＴ（2次元高速フーリエ変換（FFT））が算出される（９０２に図示している）。ブロックは大半がテキスト又は大半が背景である旨をFFTのDC係数が示す場合、ブロックをこの時点で廃棄することができる。２ＤＦＦＴの振幅の対数の左上隅の対角成分が平均化される。合計で６つの周波数帯が検討される。
【００３７】
次いで、6ビットの特徴ベクトル９０３が構成される。各ビットは、かなり大きな成分が周波数帯それぞれにおいて存在しているか否かを示す。この場合における「かなり大きな」は、同様な画像の母集団の平均（事前に求められる）よりも大きいとして定義される。
【００３８】
画像内の8x8画素ブロック全てのこの特徴ベクトル９０３のサンプルが、コルモゴロフ-スミルノフ検定（KS検定）の2サンプルのバージョンを用いて別の画像からのサンプルと比較することが可能である。滑降シンプレックス・アルゴリズムのコスト関数入力として、センサ雑音モデル５０６は、KS検定がもたらすKS統計を用いる。（２つの母集団が実際に、単一の母集団から引き出されているという）ナル仮説を２つの母集団が満たす状態に近付くにつれてゼロに達する。滑降シンプレックス・アルゴリズムを用いる利点は、目的関数の導関数を計算しない点である。最適化関数は凸でないことがあり得るので、異なる当初シンプレックス推測を有するアルゴリズムの複数のランダムな再起動を行うことができる。一実施例では、0.01程度の画素利得非一様性スケール値は、アルゴリズムが収束する所である。
【００３９】
画像生成モデル２０４は、ヒストグラム効果モデル５０８を含む。実際に、実際のセンサを用いて捕捉された画像のヒストグラムの範囲は、シーンにおいて存在している強度値の範囲よりも小さい。ヒストグラム効果モデル５０８は、実際のカメラによって撮られた特定のサンプル画像において生起する値の範囲内に収まるよう仮想画像のヒストグラム値を写像することによるか、又は、ルックアップ・テーブル変換によってその画素値累積分布が画像例の画素値の累積分布に一致するように仮想画像のヒストグラムを変換しようとする、より複雑なヒストグラム・マッチングによってこの効果をモデリングすることができる。
【００４０】
一実施例では、ヒストグラム効果モデル５０８は、最大値及び最小値を有する所望のヒストグラムを含み、仮想画像のヒストグラムは、所望のヒストグラムに一致するよう調節される。別の実施例では、所望のヒストグラムは、ユーザ規定のサンプル画像から得られる。
【００４１】
画像生成モデル２０４は、文書画像の上方に投げかけられるシャドウを生成するためのシャドウ・マスク・モデル５１０を含む。ユーザの腕又はカメラ自体によって文書画像の上方に投げかけられることが多い大きな大域的なシャドウをモデリングするために、シャドウ・マスクを用いる。図１０Aは、シャドウ・マスク１００１を示す図である。図１０Bは、シャドウ・マスク１００１を用いて生成されるシャドウを有する仮想画像を示す図である。シャドウ・マスク１００１を要素単位で仮想画像と乗算して、シャドウを有する仮想画像を生成する。
【００４２】
一実施例では、ユーザ規定のサンプル画像における大域的なシャドウ・マスクは、SIGGRAPH２００３におけるポスター・プログラム「Shadow Removal from a Real Image Based on Shadow Density」においてM.Baba、M.Mukunoki及びN.Asadaによって提案された手法を用いて推定される。サンプル画像はまず最大値フィルタを用いてフィルタリングされ、次いで、最小値フィルタを用いてフィルタリングされ、次いで、平滑化フィルタを用いてフィルタリングされる。画像の大域的な輝度が結果として生じる。仮想文書画像生成器では、これはシャドウ・マスクとして直接用いられるが、更なる閾値化を行って別個の半影マスク及び本影マスクをもたらすことが可能である。図１１Aは、シャドウ・マスク・モデル５１０を用いて生成された画像の種々のシャドウ、及び半影領域及び本影領域を示す図である。図１１Ｂは、シャドウ、半影領域及び本影領域を有する画像の輝度を示す3次元図である。別の実施例では、いくつかのシャドウ・マスクが、特定のカメラ位置（X、Y、Z、thetax、thetay、thetaz）について予め算出される。シャドウ・マスク・モデル５１０は、位置がカメラの位置に最も近いシャドウ・マスクを選ぶよう修正される。至近性についての決定は、ユークリッド距離尺度や他の一般に用いられる距離尺度（例えば、都市ブロック距離等）によって行うことが可能である。別の代替的な実施例では、シャドウ・マスクは、カメラの位置、全域照明モデル、シャドウを投げかけ得る物体のモデルを前提として動的に生成される。シャドウ・マスク・モデル５１０は、カメラ位置を動的シャドウ生成アルゴリズムに供給し、算出するシャドウを仮想画像と要素単位で乗算して、シャドウを有する仮想画像を生成するよう修正される。
【００４３】
画像生成モデル２０４は口径食モデル５１２を含む。口径食モデル５１２は、画像画素に対応する光線と、カメラの光学軸との間の角度の増加に伴う、輝度における「コサイン4乗」減衰を、その角度のコサインの４乗で画素値を乗算することによって捕捉するための、口径食に似た効果をモデル画像において含む。実画像における口径食は、レンズ・エレメントによる妨害によって遠隔の軸外光線が物理アパーチャに達しないことの結果である。口径食モデル５１２は例えば、内容を本明細書及び特許請求の範囲に援用する、Aggarwal. M.、Hua, H.及びAhuja, N.による「On Cosine-fourth and Vignetting Effects in Real Lenses （Int.Conf. on Computer Vision （ICCV） Proceedings, Volume 1, Vancouver, Canada, July 9-12, 2001 ページ：472-479）」記載の口径食モデルであり得る。図１２は、口径食を有する画像を示す図である。一実施例では、口径食効果は、コサイン4乗効果をディセーブルすることが可能であるように、やはり、シャドウ・マスク推定手順によってうまく捕捉される。
【００４４】
画像生成モデル２０４は、パス生成器２０２からの座標、及びカメラ内部パラメータを用いて、フォーカスされていないカメラ１０４によってもたらされるブラーを補正するためのフォーカス・ブラー・モデル５１４を含む。一実施例では、フォーカス・ブラー・モデル５１４は、カメラ１０４の光学軸に沿った、ページまでの距離と、カメラが「フォーカスされている」として経験的に判定される距離（何れも単位：インチ（2.5ｃｍ））との間の差の絶対値として算出される標準偏差を有する単一ガウシアン点広がり関数（PSF）を含む。フォーカス・ブラー・モデル５１４は次いで、フォーカス・ブラー・スケール・パラメータ（フォーカス・ブラーの振幅を制御するためにユーザ規定することができる）で標準偏差をスケーリングする。ブラーはよって、カメラの移動に伴って線形的に増減する。図１３Aは、フォーカス・ブラー・モデルのガウシアンPSFを示す3次元図である。図１３Bは、フォーカス・ブラー・モデル５１４を用いて形成された画像を示す図である。
【００４５】
フォーカス・ブラー・スケール・パラメータは、近傍周波数分布及び滑降シンプレックス・アルゴリズム（センサ雑音パラメータとともに前述している）を用いて推定することもできる。滑降シンプレックス・アルゴリズムは、複数のパラメータを同時に最適化することが可能である。一実施例では、フォーカス・ブラー・スケール係数は、約0.3乃至約0.5の範囲である。
【００４６】
画像生成モデル２０４は、画像１０６に対する、カメラ１０４の動きによってもたらされる画像のブラーをモデリングするモーション・ブラー・モデル５１６を含む。一実施例では、モーション・ブラー・モデル５１６は、共通のブラーを用いて画像の部分全てについてブラーをモデリングする大域的なブラー・モデルを含む。このモデルは、カメラの実際のパラメータ（露光時間など）を含まず、画素と画像との間の距離差を含まない。後者は、特定のセンサ画素が他のセンサ画素よりも紙に近いことを補正しておらず、よって、モーション・ブラーの低下があり得る。この実施例において、大域的なブラーは、露光時間中にカメラ１０４が移動した場合に生じる、２つの直交方向（x及びyなど）におけるブラーの量を表し、ユーザが選択することができるブラー・パラメータblur_dx及びblur_dyによって方向及び振幅が求められるパスに沿った画素値の平均によって、最後の画像の各画素を置き換えることによって達成される、人工的であるが、知覚的にそれらしく見えるモーション・ブラーである。
【００４７】
別の実施例では、モーション・ブラー・モデル５１６は、対応する別々のカメラ位置の複数の中間画像を生成し、これらの画像を一画像に合成してブラーを表す。画像は、k回再レンダリングされる（部分的な位置変動は、所望の露光時間及びカメラ速度に対応する）。例証的な例として、モーション・ブラー・モデル５１６は、blur_dx及びblur_dyプラー・パラメータ組をゼロにセットし、特定の速度で移動しており、特定の露光時間を有していた場合にカメラ１０４が占める、設定された個数（k）の等間隔の中間位置において算出することによって仮想画像のブラーを生成する。最後の画像は、前述のk個の中間画像の平均である。この実施例は、より大きなkとともに増加する、最終画像の平滑性と、kとともに線形に増加する、画像組をレンダリングするために要する時間との間のトレードオフを提供し得る。図１４は、モーション・ブラー・モデル５１６を用いてブラーが生じたビデオ・フレームの例証的な例の図である。
【００４８】
画像生成モデル２０４は、可展面（例えば、折った紙又は製本ボリュームのワープやカールによってもたらされる）を有する画像を生成するために等長的表面モデル５１８を含む。可展面は例えば、「引き裂くことも引き伸ばすこともなく平面上に展開することが可能な」表面であり得る（内容を本明細書及び特許請求の範囲において援用する、Ｊ．Liang、D.Dementhon、及びD.Doermannによる「Flattening Curved Documents in Images （Proc. Of the IEEE Conf. on Computer Vision and Pattern Recognition （CVPR）、 2005）」）。これは等距離写像である。文書の表面に沿った距離は同じ状態に留まるからである。このようにしてワーピングするものとしてソース文書がモデリングされた場合、光線・平面交差の算出は、より一般的な光線・関数交差になる。図１５A及び図１５Bは、画像の一方向における二次曲線群及び三次曲線群それぞれを示す3次元図である。
【００４９】
画像生成モデル２０４は、材料特性及び光源特性の効果をモデリングするための全般照明モデル５２０を含む。上記効果は、内容を本明細書及び特許請求の範囲において援用する、「Real-Time Rendering（A.K.Peters, Natick、 MA. 2nd Edition （2002）, pp. 70-84）」にT.Akenine-Moller及びE.Hainesによって記載されているように、周囲成分、拡散反射成分及び鏡面反射成分を含み得る。上記効果は、光線追跡中に算出することができる。合計照度の周囲成分は、紙の周囲（ambient）定数と光源の周囲定数との積である（例えば、光源が周囲光を何ら照らさない場合、その周囲定数はゼロになる。）拡散反射成分は、紙の拡散反射定数と光源の拡散反射定数との積を、紙上の関心点から光源へのベクトルと、その点における法線ベクトルとの内積で乗算した結果である。最後に、鏡面反射成分は、紙の鏡面反射係数と光源の鏡面反射係数との積と、照明ベクトルと法線ベクトルとの間の正規化された半分のベクトルと、法線ベクトルとの内積とを乗算したものに輝き成分のべき指数をかけたものである。周囲成分、拡散反射成分及び鏡面反射成分が加算されると、その合計照度値を用いて、仮想画像における対応する画素の振幅を変調する。図１６は、ストロボ写真の効果を再現するために全般照明モデルによって生成される仮想画像を示す図である。第１の実施例では、紙（又は一般には物体）並びに光源の周囲係数、拡散反射係数及び鏡面反射係数と、光源の位置の数は固定である。別の実施例では、光源の位置は、経過時間、フレーム番号、又は任意のユーザ設定の関数として変わり得る。別の代替的な実施例では、周囲係数、拡散反射係数及び鏡面反射係数も、経過時間、フレーム番号、又は任意のユーザ設定の関数として動的に変わり得る。これは、物体の物理組成における変化（その自然時効や、紙文書においては、高照度の光や特定の他の力（熱など）の存在下でのその退色）をシミュレートすることを可能にする。これは、感熱紙文書の退色をシミュレートすることが可能である。
【００５０】
画像生成モデル２０４は、背景クラッタの効果をまねるための背景モデル５２２を含む。ユーザは、ソース文書１０６の境界の外側にある画像領域内に表示する対象の背景画像を規定することができる。図１７は、例示的な背景画像を示す。背景クラッタは、検査画像又は訓練画像において余分な情報をもたらし、それによって、光学式文字認識などのアプリケーションにおいて問題を引き起こす。背景モデルは、追跡光線が文書のマージンの外側の紙平面と交差した場合の画素値を光線追跡が供給するための背景としてデスクトップ・シーンの高分解能画像を用いることによって背景クラッタをまねる。一実施例では、画像は、小さな被写界深度を有する。シーン平面はカメラの画像平面と平行である。単一の固定背景画像を用いることができる。別の実施例では、いくつかの背景画像が提供され、背景モデルは、乱数生成器を用いてそれらの１つを確率的に選ぶ。例えば、時間の６０％は一画像を用いることができ、時間の３０％は別の画像を用いることができ、全フレームの１０％は別の画像を用いることができる。更に別の代替的な実施例では、背景画像はビデオ・クリップとして提供することが可能であり、背景として用いる特定のフレームは、最初に生成されたフレームから経過した時間、先行して生成されたフレームの数によって、又は、ユーザ設定によって判定される。ソース文書がビデオ・ディスプレイ上に示されており、背景が動的に変わった場合にそうであるように背景がソース文書と共平面である場合、背景として用いられる特定のフレームを光線追跡することが可能である。別の実施例では、背景として用いられる特定のフレームが、カメラからのその距離についてソース文書とは異なる設定の下ではあるが、カメラ（X、Y、Z、thetax、thetay、thetaz）の位置を前提として、光線追跡することが可能である。別の実施例では、光線追跡して背景画像を生成することが可能な、背景の3次元モデルを用いる。
【００５１】
画像生成モデル２０４は、カメラ１０４の画像圧縮をモデリングするための画像圧縮モデル５２４を含む。画像圧縮は例えば、静止画像圧縮又はビデオ圧縮であり得る。画像生成モデル２０４は、異なる圧縮レベルの種々の画像形式で仮想画像を生成する。
【００５２】
画像生成モデル２０４は、ページ・ブリードスルーのモデル５２６を含み得る。ブリードスルーは、走査文書画像では、多くの場合、生じる。一実施例では、ページ・ブリードスルー・モデルは、第2の文書画像（本のブリードスルーの場合に、長手方向軸を中心に回転させることができる）を第1の文書画像と合成することを含む。光線がソース文書と交差する場合、以下の発見的方法を用いることができる。光線がテキスト画素（暗画素）と交差すると、センサ画素値がその値にセットされる。しかし、光線が非テキスト画素（明画素）と交差すると、センサ画素値は、A^*,,＋B^*（1-,,）にセットされる。ここでAはその画素におけるソース文書の値であり、Bはその画素における反対側の文書の値であり、「,,」は混合値である（例えば、0.85は、現実的な可視ブリードスルーに適切な値であり得る）。
【００５３】
図１８は、画像生成システム１００の動作を示すフロー図である。画像生成システム１００は、人間行動のモデル、制御点組、及びカメラのフレーム・レート、ラスタ及びグラウンドトルースに変換可能な物体情報、カメラ特性、並びに画像歪みパラメータを含む、動きの規定を受信する。パス生成器２０２は、基準点に対する、物体の動きのパスを生成する（１８０４）か、又は、基準点に対する、物体の位置を生成する。画像生成モデル２０４は、グラウンドトルース及び生成パスから参照フレームの一連の画像、又は画像を生成する（１８０６）。画像生成モデル２０４は、パス又は位置、物体情報、カメラ特性及び画像歪みパラメータを用いて、グラウンドトルース情報を含む画像又はビデオ・データも生成することができる。
【００５４】
一実施例では、画像生成システム１００は、物体情報からの個人の画像又はビデオを生成し、顔認識のために、一又は複数の個人の実際の画像又はビデオとこれが比較される。別の実施例では、個人の一部分の画像又はビデオが、医療撮像との比較のために、かつ診断のために生成される。
【００５５】
本明細書における、「一実施例」又は「実施例」への参照は、そうした実施例に関して記載した特定の構成要素、特徴、構造又は特性が少なくとも一実施例に含まれることを意味する。本明細書中の種々の箇所における句「一実施例における」は必ずしも、その全てが同じ実施例を表すものでない。
【００５６】
「結合された」及び「接続された」の表現、並びにそれらの派生形を用いて、特定の実施例を説明していることがあり得る。前述の語は、互いに同義であることを意図するものでない。例えば、「接続された」の語を用いて特定の実施例を説明して、2つ以上の構成要素が互いに直接、物理的に又は電気的に接触していることを示すことができる。別の例では、「結合された」の語を用いて特定の実施例を説明して、2つ以上の構成要素が互いに直接、物理的に又は電気的に接触していることを示すことができる。しかし、「結合された｝の語は、2つ以上の構成要素が互いに直接、接触している訳でないが、なお、互いに協調、又は相互作用することも意味し得る。実施例はこの意味合いで限定される訳でない。
【００５７】
本明細書及び特許請求の範囲記載の通り、「comprises」、「comprising」、「includes」、「including」、「has」、「having」又はその何れかの他の変形が、排他的でない包含をカバーすることを意図している。例えば、構成要素のリストを有する処理、方法、物若しくは装置は、必ずしも前述の構成要素に限定される訳でない一方、明記されていないか、又は前述の処理、方法、物若しくは装置に固有の他の構成要素を含み得る。更に、別途明記していない限り、「or」は、包含的論理和を表し、排他的論理和は表さない。例えば、条件A又はBは、以下の何れかによって満たされる（Aが真であり（又は存在しており）、Bが偽である（又は存在していない）場合と、Aが偽であり（又は存在しておらず）、Bが真である（又は存在している）場合と、A及びBが真であり（又は存在している）場合）。
【００５８】
更に、「a」又は「an」を用いて。本発明の構成要素及び構成部分を表す。これは、便宜上、かつ、本発明の概略を示すために行っているに過ぎない。前述の記載は、１つ又は少なくとも１つを含むとして読むものとし、単数形は、そうでないことを意味することが明らかでない限り、複数形も含む。
【００５９】
本明細書及び特許請求の範囲を読めば、当業者は、本明細書及び特許請求の範囲に開示された原理によって、グラウンドトルースを用いて合成画像又はビデオを生成するシステム及び方法のなお更に別の構造設計及び機能設計を認識するであろう。よって、特定の実施例及び応用例を例証し、説明したが、本発明は、本明細書及び特許請求の範囲に開示されたまさにその構成及び構成部分に限定されず、当業者に明らかになる種々の修正、変更及び変形を、本発明の方法並びに装置の装置、動作及び詳細において特許請求の範囲記載の本発明の趣旨及び範囲から逸脱しない限り、行うことができる。
【図面の簡単な説明】
【００６０】
【図１】本発明による画像生成システムを示す図である。
【図２】図１の画像生成システムの一実施例を示すブロック図である。
【図３】図１のソース文書、及びソース文書のグラウンドトルースを示すマーキングした領域の画像を示す図である。
【図４】ソース文書からカメラまでの光線追跡を示す図である。
【図５】図２の画像生成システムの画像生成モデルを示すブロック図である。
【図６】ソース文書の上方の例示的なビデオ軌道を示す3次元図である。
【図７】最小エネルギ駆動力を用いた、図６の軌道の推定を示す3次元図である。
【図８】２０個の画像のチェッカーボード校正目標のサンプル、及びカメラ校正ツールボックスを示す図である。
【図９】センサ雑音モデルを示す図である。
【図１０Ａ】シャドウ・マスクを示す図である。
【図１０Ｂ】図１０Aのシャドウ・マスクを用いて生成されるシャドウを有する仮想画像を示す図である。
【図１１Ａ】画像の種々のシャドウ、半影領域及び本影領域を示す図である。
【図１１Ｂ】シャドウ、半影領域及び本影領域を有する画像の輝度を示す３次元図である。
【図１２】口径食を有する画像を示す図である。
【図１３Ａ】フォーカス・ブラー・モデルのガウシアンPSFを示す3次元図である。
【図１３Ｂ】フォーカス・ブラー・モデルを用いて形成された画像を示す図である。
【図１４】モーション・ブラー・モデルを用いてブラーが生じたビデオ・フレームの例証的な例を示す図である。
【図１５Ａ】画像の一方向における二次曲線群を示す3次元図である。
【図１５Ｂ】画像の一方向における三次曲線群を示す3次元図である。
【図１６】ストロボ写真の効果を再現するために全般照明モデルによって生成される仮想画像を示す図である。
【図１７】例示的な背景画像を示す図である。
【図１８】図１の画像生成システムの動作を示すフロー図である。
【図１９Ａ】人間行動モデル及び関連した制御点の実施例を示す図である。
【図１９Ｂ】人間行動モデル及び関連した制御点の別の実施例を示す図である。
【図１９Ｃ】人間行動モデル及び関連した制御点の更に別の実施例を示す図である。
【符号の説明】
【００６１】
１００画像生成システム
１０２プリンタ
１０４画像捕捉装置
１０６ソース文書
１０８画像
１１０仮想画像
２００ビデオ生成器
２０２パス生成器
２０４画像生成モデル

【特許請求の範囲】
【請求項１】
ビデオを生成する方法であって、
物体を表す物体情報を受信する工程と、
基準点に対する前記物体の動きのパスを生成する工程と、
基準フレームの一連の画像及びグラウンドトルースを前記物体情報及び前記生成されたパスから生成する工程とを備える方法。
【請求項２】
請求項１記載の方法であって、前記基準点が前記物体の画像を受信する方法。
【請求項３】
請求項１記載の方法であって、ハンドヘルド型撮像装置が前記基準点において配置される方法。
【請求項４】
請求項１記載の方法であって、前記一連の画像を生成する工程が、
前記物体に対する、画像装置の位置及び向きに基づいて前記一連の画像を生成する工程を含む方法。
【請求項５】
請求項１記載の方法であって、前記一連の画像を生成する工程が、
画像捕捉装置の特性に応じて前記一連の画像を生成する工程を含む方法。
【請求項６】
請求項５記載の方法であって、画像捕捉装置の前記特性がヒストグラム効果を含む方法。
【請求項７】
請求項１記載の方法であって、前記一連の画像を生成する工程が、
画像圧縮に応じて前記一連の画像を生成する工程を含む方法。
【請求項８】
請求項１記載の方法であって、前記一連の画像を生成する工程が、
モーション・ブラーに応じて前記一連の画像を生成する工程を含む方法。
【請求項９】
請求項１記載の方法であって、前記一連の画像を生成する工程が、
フォーカス・ブラーに応じて前記一連の画像を生成する工程を含む方法。
【請求項１０】
請求項１記載の方法であって、前記一連の画像を生成する工程が、
背景に応じて前記一連の画像を生成する工程を含む方法。
【請求項１１】
請求項１記載の方法であって、前記一連の画像を生成する工程が、
カメラ内部特性に応じて前記一連の画像を生成する工程を含む方法。
【請求項１２】
請求項１記載の方法であって、前記一連の画像を生成する工程が、等長的表面に応じて前記一連の画像を生成する工程を含む方法。
【請求項１３】
請求項１記載の方法であって、前記物体が人間の一部分である方法。
【請求項１４】
ビデオ生成器であって、
物体を表す物体情報を受信するためのインタフェースと、
基準点に対する、前記物体の動きのパスを生成するためのパス生成器と、
基準フレームの一連の画像及びグラウンドトルースを前記物体情報及び前記生成されたパスから生成するための画像生成器とを備えるビデオ生成器。
【請求項１５】
画像を生成する方法であって、
文書を表す物体情報を受信する工程と、
前記文書と基準点との間の位置関係を判定する工程と、
前記文書及びグラウンドトルースの画像を、前記物体情報及び前記位置関係から、かつ、前記文書のユーザ指定環境に応じて生成する工程とを備える方法。
【請求項１６】
請求項１５記載の方法であって、前記文書及びグラウンドトルースの画像を生成する工程が、
位置、画像の記述、カメラ特性、及び画像歪みパラメータを用いて画像データ及びグラウンドトルースを生成する工程を備える方法。
【請求項１７】
請求項１５記載の方法であって、前記文書の前記ユーザ指定環境が前記文書の照明を含む方法。
【請求項１８】
請求項１５記載の方法であって、前記文書の前記ユーザ指定環境が、前記文書の画像を捕捉する撮像捕捉装置の特性を含み、前記生成された画像が、前記捕捉された画像の視覚画像である方法。
【請求項１９】
請求項１５記載の方法であって、前記文書の前記ユーザ指定環境が前記文書の特性を含む方法。
【請求項２０】
請求項１９記載の方法であって、前記文書の特性が前記文書の形状を含む方法。
【請求項２１】
画像生成器であって、
文書を表す物体情報を受信するためのインタフェースと、
前記文書と基準点との間の位置関係を判定するためのプロセッサと、
前記文書及びグラウンドトルースの画像を、前記物体情報及び前記位置関係から、かつ、前記文書のユーザ指定環境に応じて生成するための生成器とを備える画像生成器。

【図２】