グラウンドトルース・データからの合成画像及びビデオの生成
【課題】ビデオを生成するシステム及び方法を開示する。
【解決手段】物体情報が受信される。基準点に対する物体の動きのパスが生成される。基準フレームの一連の画像及びグラウンドが、グラウンドトルース、及び生成されたパスから生成される。画像を生成するシステム及び方法を開示する。物体情報が受信される。画像データ及びグラウンドトルースを、位置、画像記述、カメラ特性、及び画像歪みパラメータを用いて生成することができる。文書と基準点との間の位置関係が判定される。文書及びグラウンドトルースの画像が、物体情報及び位置関係から、かつ、文書のユーザ指定環境に応じて生成される。
【解決手段】物体情報が受信される。基準点に対する物体の動きのパスが生成される。基準フレームの一連の画像及びグラウンドが、グラウンドトルース、及び生成されたパスから生成される。画像を生成するシステム及び方法を開示する。物体情報が受信される。画像データ及びグラウンドトルースを、位置、画像記述、カメラ特性、及び画像歪みパラメータを用いて生成することができる。文書と基準点との間の位置関係が判定される。文書及びグラウンドトルースの画像が、物体情報及び位置関係から、かつ、文書のユーザ指定環境に応じて生成される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は一般に、画像及びビデオの生成の分野に関し、特に、グラウンドトルース・データを用いた、画像及びビデオの生成に関する。
【背景技術】
【0002】
種々のモデルが、画像劣化を考慮した文書画像生成に用いられている。文書画像劣化の適切なモデルは、数多くの論文の主題となっている(Y. Li, D. Lopresti、G. Nagy及びA. Tomkinsによる「Validation of Image Defect Models for Optical Character Recognition (IEEE Trans. Pattern Anal. Mach. Intell. 18,2 (Feb. 1996), pp. 99-108)」)。Pavlidasは、水平方向及び垂直方向のスケーリング、回転、サンプリング・レート、及び量子化閾値を含むモデルを提案している(T. Pavlidasによる「Effects of Distortion on the Recognition Rate of a Structural OCR System (Pro. Conf. on Comp. Vision and Pattern Recog., pp. 303-309, Washington, DC, 1983)」)。Bairdは、可変パラメータが、フォント・サイズ、空間サンプリング・レート、回転、水平方向及び垂直方向のスケーリング、水平方向及び垂直方向の平行移動、画素変位、ガウス点広がり関数、画素センサ感度、及び量子化閾値を含むモデルを提案している(H. Bairdによる「Document Image Defect Models (Proc. Of IAPR Workshop on Syntactic and Structural Pattern Recognition, pp. 38-46, Murray Hill, NJ June 1990)」、及びH. Bairdによる「The State of the Art of Document Image Degradation Modeling (Proc. of 4th LAPR International Workshop on Document Analysis Systems, Rio de Janeiro, Brazil, pp. 1-16, 2000)」)。Smithは、点広がり関数の幅、及び2値化の閾値を変えるモデルを試している(E. H. Barney Smith及びT. Andersenによる「Text Degradations and OCR Training (International Conference on Document Analysis and Recognition 2005, Seoul, Korea, August 2005)」)。Khoubyari及びHullは、文字ストロークを厚くし、次いで、特定の黒画素を白画素に任意に換えることによって文字の粗をシミュレートしている(Khoubyari, S.、及びJ. J. Hullによる「Keyword Location in Noisy Document Images (Second Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, pp. 217-231, April, 1993)」)。Kanungo他は、製本文書の走査によって生じるカール歪みをモデリングしている(Kanungo, T.、Haralick, R.M.及びPhillips, I.による「Global and Local Document Degradation Models (Document Analysis and Recognition, 1993., Proceedings of the Second International Conference on Document Analysis and Recognition ICDAR-93, Volume, Issue, 20-22 Oct 1993, pp. 730-734)」)。更にZiは、関心文書の下にあるか、又は関心文書の裏面上にあるテキスト及び画像からのブリードスルーの効果を考察している(G. Ziによる「Groundtruth Generation and Document Image Degradation (University of Maryland Language and Media Processing Laboratory Technical Report (LAMP-TR-121), 2005)」)。
【発明の開示】
【発明が解決しようとする課題】
【0003】
前述のモデルは、スキャナ上の画像、又は2値画像を扱う。前述のモデルは、非平面形態の撮像を規定するものでない。更に、前述のモデルは、ビデオを撮像するために、大量のデータ組を用いる。より一般化された撮像システム・モデルが必要である。
【課題を解決するための手段】
【0004】
開示されるシステム及び方法の一実施例によって、ビデオが生成される。物体情報が受信される。基準点に対する物体の動きのパスが生成される。基準フレームの一連の画像及びグラウンドトルースが、物体情報、及び生成されたパスから生成される。
【0005】
開示されるシステム及び方法の一実施例によって、画像が生成される。物体情報が受信される。画像データ及びグラウンドトルースを、位置、画像記述、カメラ特性、及び画像歪みパラメータを用いて生成することができる。文書と基準点との間の位置関係が判定される。文書及びグラウンドトルースの画像が、物体情報及び位置関係から、かつ、文書のユーザ指定環境に応じて生成される。
【発明を実施するための最良の形態】
【0006】
本明細書記載の特徴及び利点は、全てを含む訳でなく、特に、多くの更なる特徴及び利点が、図面、明細書及び特許請求の範囲にかんがみて当業者に明らかになる。更に、本明細書において使用する文言は主に、読みやすさ及び教示の目的で選択されており、本発明の主題について、輪郭を描く、又は周囲に線を引くために選択されていないことがあり得る。
【0007】
開示された実施例は、添付図面とともに解釈される、詳細な説明及び特許請求の範囲から、より容易に明らかになる他の利点及び特性を有する。
【実施例】
【0008】
図面及び以下の説明は、例証の目的でのみ、本発明の好ましい実施例に関する。以下の記載から、本明細書及び特許請求の範囲記載の構造及び方法の別の実施例が、特許請求の範囲に係わる発明の原理から逸脱しない限り用いることができる実行可能な代替策として容易に認識されよう。
【0009】
次に、いくつかの実施例を詳細に参照する。これらの例は添付図面に示す。実行可能な限り、類似又は同様の参照符号を用い得るものであり、類似又は同様の参照符号は、類似又は同様の機能を示し得る。図は、例証の目的でのみ、本発明の実施例を表す。本明細書及び特許請求の範囲記載の原理から逸脱しない限り本明細書及び特許請求の範囲記載の構造及び方法の別の実施例を用いることができることを当業者は以下の説明から容易に認識するであろう。
【0010】
画像及びビデオを生成する方法及びシステムは、グラウンドトルース・データ、及びカメラのパラメータのモデル、並びに、撮像されている物体の環境を用いた、画像、又は一連の画像の生成を含む。モデリングは、画像劣化、及びハンドヘルド型装置を含む種々の画像捕捉装置によって捕捉される画像を含み得る。方法及びシステムは、画像捕捉装置、及び撮像されている文書の任意の配置、並びに、ソース文書及び任意の照明状態の等長的変形も可能にする。方法及びシステムは、フォーカス・ブラー、モーション・ブラー、ヒストグラム圧縮、センサ雑音、内部及び外部のカメラ・パラメータ、シャドウ、センサ分解能、口径食、背景クラッタ、文書変形や、鏡面反射特性、周囲特性、並びに、拡散照明及び材料特性の効果もモデリングする。一実施例では、これは、仮想カメラの位置、及びその内部パラメータに基づいた仮想画像を生成するための一般的な光線追跡モデルを用いることによって達成される。
【0011】
図1は、画像生成システム100を示す図である。プリンタ102は、印刷されたソース文書106を生成し、印刷情報を画像生成システム100に供給する。画像捕捉装置104は、ソース文書106を検出し、捕捉し、画像108を生成する。画像捕捉装置104は例えば、ハンドヘルド型画像捕捉装置(ディジタル・カメラや携帯電話機など)、又は固定型画像捕捉装置(ウェブ・カメラなど)であり得る。例として、画像捕捉装置104は、本出願においてはカメラ104としても表す。画像生成システム100は、プリンタ102からの印刷情報に応じて仮想画像110を生成する。印刷情報(図示せず)は、ソース文書106を表し、ページ記述言語(例えば、ポストスクリプト(登録商標)又はPCL)におけるデータであり得る。印刷情報は、コンピュータ・オペレーティング・システム(例えば、ウィンドウズ(登録商標)XP)によってラスタ画像に変換されるグラフィックス・デバイス・インタプリタ(GDI)コマンド系列でもあり得る。印刷情報は、ソース文書における物体毎のグラウンドトルース・データを含み得る。仮想画像110は、グラウンドトルース・データを含む、印刷情報から生成される印刷文書106の生成画像である。一実施例では、ページ記述言語ファイルは、インタープリタ(ゴーストスクリプトなど)によってラスタ表現(tiff、jpegやbmpなど)に変換される。一実施例では、仮想画像110は単一の画像である。別の実施例では、仮想画像110は、画像又はフレーム(ビデオなど)の系列である。一実施例では、仮想画像110は画像108を表す。画像生成システム100は、印刷情報、カメラ104のパラメータ、及びソース文書106の環境パラメータを用いて仮想画像110を生成する。
【0012】
画像生成システム100は、インテル社によって製造されたペンティアム(登録商標)4又はジオン・プロセッサなどのプロセッサを含み得るものであり、画像生成をソフトウェアとして実行する。画像生成システム100は全体的に、又は部分的に、パソコンのビデオ・カード上のグラフィックス処理装置(GPU)上のソフトウェアとして生成することもできる。
【0013】
画像生成システム100を用いて顔認識又は医療撮像システムのためのデータを生成することができる。
【0014】
図2は、画像生成器100であり得るビデオ生成器200の一実施例を示すブロック図である。ビデオ生成器200は、パス生成器202及び画像生成モデル204を備える。
【0015】
パス生成器202は、特定の画像(文書106など)に対する、カメラの位置の座標系列を生成する。一実施例では、パス生成器202は、カメラ104の移動に対する人間の行動のモデル、カメラ104の移動のパス、及びカメラ104のフレーム・レートに応じて座標系列(座標xt、yt、zt、pt、tt及びztとして示す)を生成する。一実施例では、移動のパスは一連の制御点として規定され、人間モデルは、制御点間のカメラを移動させるための人間行動を表す。カメラ104の移動のパスは、個人がカメラによって行う移動を規定するためにユーザによって規定されるか、又はカメラ104から受信することができる。
【0016】
画像生成モデル204は、カメラ104の特性、画像歪みパラメータ、及び、単一画像又はフレーム系列を(座標組毎に1つ)生成するために、プリンタ102からの画像記述及びグラウンドトルース・データを備える物体情報を用いることができる。カメラ104の特性、及び画像歪みパラメータは、ユーザ入力することができる。各フレームは、ソース文書106の特定のワープ及びシャドウを補正するよう歪めさせる。ソース文書106についての受信物体情報は、画像の生成を可能にする情報を含む。一連の画像の場合、動きを表す大量のデータ組が通常、用いられる。画像生成モデル204は、画像を表す物体情報(顔認識や医療撮像などの場合においては3次元でもよい)を用いて、画像又はビデオを生成する。一実施例では、物体情報は、文書のラスタ画像(例えば、tiff、jpeg、bmp等)、並びに、各文字の識別情報及び位置を規定したグラウンドトルース情報を含む。(注:位置は、文字の左上隅のx-y、並びにこれをカバーするボックスにおける列及び行の数として規定することが可能である)。別の実施例では、物体情報は、ページ記述言語(PDL)(ポストスクリプトやPCLなど)における印刷情報であり、画像生成モデル204の処理の一部は、ゴーストスクリプトなどのインタープリタを用いてPDLからの文書の画像を「レンダリングする」。別の実施例では、顔認識や医療撮像などの3次元アプリケーションの物体情報が、仮想現実マークアップ言語(VRML)又は拡張可能3D(X3D)ファイルとして供給され、画像生成モデル204の処理の一部は、オープンVRML、Xj3Dやフラックスなどのインタープリタを用いてオブジェクトの3次元ビューをレンダリングする。画像生成モデル204は、仮想画像110のグラウンドトルース・データを生成することができる。一実施例では、ソース文書106における何れかの入力x-y座標を、仮想画像110における対応する出力画像x’-y’に変換する写像テーブルが出力される。これは、図3のソース文書において示すバウンディング・ボックス・データの位置などの何れかのグラウンドトルース情報の幾何学的位置の変換を可能にする。仮想画像110における何れかのx’-y’座標を、ソース文書106における対応するx-y位置に変換する「逆」写像テーブルも画像生成モデル204によって提供することができる。写像テーブルは、ソース文書又は実画像に生じるx-y又はx’-y’毎にエントリを有する通常のアレイ又はハッシュ・テーブルの形式をとり得る。別の実施例では、x-y又はx’-y’対が与えられ、他方の画像における対応する対を計算する関数を提供することができる。写像関数の例には、射影変換、及び他の周知の幾何変換が含まれる。特定の場合には、写像テーブルは、2つ以上の出力位置を設けることができる。更に、前述の位置は、入力位置に寄与した画像特性(例えば、強度、色等)の量を示す尤度値と関連付けることができる。よって、画像生成モデル204は、単一画像のグラウンドトルース・データを受信し、一連のビデオ・フレームのグラウンドトルース・データを生成することができる。これは、仮想画像110を生成する前に生成されるグラウンドトルース・データの量を削減する。一実施例では、画像生成モデル204は、画像捕捉装置104のパラメータ、センサ雑音、コントラスト劣化、シャドウ、口径食、フォーカス・ブラー、モーション・ブラー、背景、等長的表面(isometric surface)、及び全般照明を用いて仮想画像110を生成する。画像生成モデル204は、ワープを含む画像の動きのパラメータ、及びシャドウを含み得る。画像生成モデル204は、機械学習を用いてパラメータを推定することができる。
【0017】
図3は、ソース文書106、及びグラウンドトルース・データによって表すマーキングされた領域301の画像である。マーキングされた領域301のグラウンドトルースは、ソース文書106上のフォントフェース、フォント・サイズ、及び位置を含み得る。画像生成モデル204は、プリンタ102若しくは別のソースからグラウンドトルースを受信し、又は、グラウンドトルースを印刷情報から生成する。グラウンドトルースは、画像上のマーキングされた領域301のオーバレイとして処理することができる。画像のグランドトルースは、ソース文書、及びそれがどのようにして生成されたか(文書の対応する紙バージョンが印刷された日時及び場所、プリンタ、PC、並びに文書を印刷した個人の識別情報など)についてのメタデータも含むことが可能である。グラウンドトルースは、元のソース・ファイル(例えば、ワード、PDF等)の位置、パス及び名前も含むことが可能である。これは、ソース・ファイルを後に位置特定するうえで十分である。
【0018】
図4は、ソース文書106からカメラ104までの光線追跡を示す図である。画像生成モデル204は光線追跡を用いて、図5に関して後述する外部カメラ・パラメータを用いてソース文書106の部分からカメラ104までの光線を追跡することによって仮想画像110を生成する。光線を、文書106の各部分からカメラ104まで追跡して文書の画像を生成する。カメラ104をパス生成器202からの座標によって移動させるにつれ、光線が、文書106からカメラ104まで追跡される。
【0019】
図5は、画像生成モデル204(カメラ外部パラメータ・モデル502、カメラ内部モデル504及び複数の効果モデル506、508、510、512、514、516、518、520、522、524及び526を備える)を示すブロック図である。効果モデル506、508、510、512、514、516、518、520、522、524及び526は、センサ雑音モデル506、ヒストグラム効果モデル508、シャドウ・マスク・モデル510、口径食モデル512、フォーカス・ブラー・モデル514、モーション・ブラー・モデル516、等長的表面モデル518、全般照明モデル520、背景モデル522、画像圧縮モデル524、及びブリードスルー・モデル526を含む。画像生成モデル204は、光線追跡にカメラ外部パラメータ・モデル502を用いる。画像生成モデル204は、カメラ内部パラメータ・モデル504を用いて、カメラ104からの画像に対する効果をシミュレートする。画像生成モデル204は、効果モデル506、508、510、512、514、516、518、520、522、524及び526を用いて、画像106に対する写真、照明及び環境をシミュレートする。
【0020】
カメラ104の外部パラメータは、画像106に対する、カメラ104の平行移動及び向きの情報を含み得る。一実施例では、カメラ104の位置は、ソース文書106(その中心を原点とみなす)に対する、カメラ104のカメラ位置(例えば、単位:インチ(2.5cm))の大局x、y及びz値によって表す。カメラの向きは、3つのオイラー角度(,,X、 ,,Y、及び,,Z)によって表す。一実施例では、画像生成モデル204は、光線追跡を用いて画像110を、外部パラメータ502の外部パラメータを用いて生成する。
【0021】
図6は、ソース文書106の上方の例示的なビデオ軌道601を示す3次元図である。パス生成器202は、人間行動のモデル、及び配列制御点組を用いて、特定のソース文書106のカメラ104の位置を推定する。パス生成器202は、カメラ104のフレーム・レートでの、制御点間の軌道に沿ったカメラ104の動きを計算する。
【0022】
人間行動モデルは、シミュレートされているタスクの名前、制御点間を移動するための時間量、及びカメラ104が各点に滞留する時間を求める数学的な時間の関数、制御点間のパスを求める数学的な遷移動作関数、及び各制御点に達した際のカメラ104の移動を求める数学的な滞留動作関数を規定する。制御点は、配列された(x、y、z、thetax、thetay、thetaz)の値の組として設けられる。シミュレートされるタスクの名前は、「情報ブラウジング」、「挿入のためのポイント・アンド・クリック」、「取り出しのためのポイント・アンド・クリック」、「拡張現実インタフェース」、「マウス」、「情報ブラウジング」及び「ジェスチャ」を含むが、それらに限定されない。数学的な時間の関数は、移動時間及び滞留時間のユーザ規定定数組を含む。フィッツの法則又はアコットの法則を用いて、点間をナビゲートするために必要な時間を予測することが可能である。数学的な遷移動作関数には、配列制御点組、各制御点対間の移動の合計時間、及びカメラ・フレーム・レート(通常、サンプリング・レート(通常、秒毎フレーム単位のサンプリング・レートとして規定される)が与えられる。遷移動作関数は、フレームが捕捉される都度、カメラの位置を算出する。数学的な遷移動作関数は、直線などのユーザ指定定数、又は、フレームが生成される都度のカメラの位置の手作業の指定を含む。特定の場合には、ナル遷移動作関数が用いられ、システムは制御点においてのみ、画像を生成する。画像数は、滞留時間、及びカメラのフレーム・レートによって求められる。線形動的システムは、遷移動作関数の別の例である。カルマン・フィルタは、人間動作の例から訓練することが可能な遷移動作関数であり、制限点間でカメラを人間がどのようにして移動させるかをシミュレートするパスを生成することが可能である。他の遷移動作関数の例には、拡張カルマン・フィルタ、粒子フィルタ、拡張粒子フィルタ、ベイズ・フィルタ、拡張ベイズ・フィルタ、及び当該技術分野において周知の他の手法を含む。数学的な滞留動作関数には、制御点としての開始位置、その点においてカメラが滞留する時間量、及び、その時間中のカメラの移動の規定が与えられる。移動の例には、継続的な滞留が含まれる。通常、カメラ104は、人間の手をシミュレートするために、制御点付近でジッタリングする。他の移動には、ズームイン及びズームアウトが含まれる。これは、ソース文書106までの距離を調節することによって、ユーザがカメラ104をフォーカスさせようとしていることをシミュレートする。別の滞留動作関数には回転がある。滞留動作関数は、前述の基本動作、及び他の動作の任意の組み合わせでもあり得る。滞留動作関数は、滞留中にフレームが生成される都度の、カメラの位置の手作業の規定であり得る。各動作に割り当てられる滞留時間量は一様であるか、ユーザ規定されるか、又は、別の数学的な関数によって規定することが可能である。
【0023】
図19A、図19B及び図19Cは、人間行動モデル及び関連した制御点の3つの実施例を示す図である。図19Aに示す例では、「情報ブラウジング」という名前のタスクがシミュレートされる。制御点間の時間は、点間をナビゲートするための時間、及び各点において停止するための時間を求める定数組として規定される。線形動的システムを用いて、制御点間のパスを求める。第1の制御点p0は、カメラ104が静止状態にあることを規定している(すなわち、座標は全て、ゼロである)。第2の制御点p1は、文書の左上隅の右に2インチ(5cm)、文書の左上隅から下に3インチ(7.5cm)、文書のページの上方に3インチ(7.5cm)であり、文書に垂直であることを規定する。3つのオイラー角度はゼロである。p1は、x、y、z位置及び別々のオイラー角度における変化を規定する。thetax=20度、thetax=10度、及びthetaz=10度である。
【0024】
図19Bに示す例では、「ポイント・アンド・クリック」という名前のタスクがシミュレートされる。制御点間の時間は、フィッツの法則を施すことによって求められ、滞留時間は、定数(5秒)として規定される。動作関数は、カルマン・フィルタによって求められる。制御点は、静止状態における最初の点p0として規定される。カメラ104は、文書の左2インチ(5cm)、及び、最上部から下3インチ(7.5cm)の所にある。第2の制御点は、ソース文書106上の最も左上の段落の中心を算出する関数によって自動的に求められる。
【0025】
図19Cに示す例では、「拡張現実」という名前のタスクがシミュレートされる。3つの制御点が設けられている(最初のp0は、静止状態のカメラを示している)。p0からp1にナビゲートするための時間は、アコットの法則によって算出される。カメラはp1において6秒間滞留する。p0とp1との間の遷移動作はカルマン・フィルタによって求められ、カメラ104は、p1において滞留中にズームイン及びズームアウトを行う。p1からp2に移動するための時間はフィッツの法則によって求められ、遷移動作はカルマン・フィルタによって求められる。p2において滞留している間、カメラ104は、滞留時間の40%の間、ズームイン及びズームアウトを行い、滞留時間の残りの60%の間、左に回転する。
【0026】
パス生成器202は、位置、速度、加速度及びジャークを含む一連の状態として、制御点間の軌道601を求める遷移動作関数として離散時間線形動的システムを用いることができる。一実施例では、パス生成器202は雑音を含む。図7は、最小エネルギ駆動力を用いた、軌道601の推定を示す3次元図である。一実施例では、位置推定は、ビデオ系列中の自己移動の推定のためにビデオ・モザイキングを行うためのビデオ特徴マッチング手法(内容を本明細書及び特許請求の範囲に援用する、T.Sato、S.Ikeda、M.Kanbara、A.Iketani、N.Nakajima、N.Yokoya及びK.Yamadaによる「High-resolution Video Mosaicing for Documents and Photos for Estimating Camera Motion (Proceedings of SPIE 5229, 246 (2004))」記載のビデオ特徴マッチング手法など)を用いることができる。一実施例では、グラウンドトルース・データの存在が理由で、一般的な画像登録(フーリエ・メラン変換など)を用いることができる。
【0027】
一実施例では、パス生成器202は、制御点間のパスを求める遷移動作関数として最小エネルギ解析を行う。カメラ104の位置及び向きは、3つの位置パラメータ及び3つのオイラー角度によって表す。前述はそれぞれ、離散時間線形動的システムを用いて更新される。例えば、ソース文書106の原点に対する、カメラ104の位置(単位:インチ(2.5cm))はXで表される。時間nにおける、カメラのX位置の状態は、
Xn=[P[n]V[n]A[n]J[n]]’
によって表す。
【0028】
ここで、P[n]は、X方向におけるカメラ104の位置であり、V[n]は速度であり、A[n]は加速度であり、J[n]はジャークである。時間n+1における、カメラのX位置の状態は、
Xn+1=A*Xn+B*u(t)
の関係によって表す。
【0029】
ここで、u(t)は駆動力として知られており、
【数1】
であり、
【数2】
である。
【0030】
線形動的システムから、状態Xdexがnステップで到達可能な場合、可制御行列は、
Cn=[B AB… An-1B]
である。
【0031】
開始点から、所望の状態Xdexにnステップで達するための最小エネルギ解を用いれば、
u(t)=CnT(CnCnT)-1Xdex
が得られる。
【0032】
画像生成モデル204は、カメラ内部モデル504を用いて、画像110を生成するためのカメラ内部パラメータを求めることもできる。画像生成モデル204は光線追跡をカメラ内部パラメータを用いて算出して、カメラ原点からのセンサの各画像を通って放たれる光線がソース文書106と交差する所を求める。一実施例では、カメラの内部パラメータは、2つの焦点距離(fx及びfy(単位:画素))、主点座標((ccx及びccy)(単位:画素))、スキュー係数、並びに、放射方向歪み及び接線方向歪みを表す5つの係数である。別の実施例では、内部パラメータは、内容を本明細書及び特許請求の範囲において援用する、Z. Zhangによる「A flexible new technique for camera calibration (IEEE Transactions on Pattern Analysis and Machine Intelligence、 v. 22, no.11, Nox. 2000, 1330-1334)」記載のモデルを用いて解析される。図8は、20個の画像のチェッカーボード校正目標のサンプル、及び校正の結果を示す図である。校正は、焦点距離、光学的中心、スキュー、並びに、放射方向歪み及び接線方向歪みを補正することができる。あるいは、カメラ104のタイプのストック・パラメータ組を用いることができる。
【0033】
画像生成モデル204は、x方向及びy方向に半画素分だけ、画像平面における追跡光線のx、y位置をジッタリングし、次いで、光線の、ページとの間で生じる4つの交差の平均値を用いることによって、最終画像におけるエイリアシングを削減することができる。
【0034】
画像生成モデル204は、画像を生成するためのセンサ雑音モデル506を含み得る。一実施例では、センサ雑音モデル506は、内容を本明細書及び特許請求の範囲において援用する、Costantini, R.及びSusstrunk, S. による「Virtual Sensor Design (Proceedings of the SPIE, Volume 5301, pp. 408-419 (2004))」の仮想センサ設計などの信号依存性雑音及び信号に依存しない雑音を備えるセンサ雑音モデルである。別の実施例では、センサ雑音モデル506は、画素利得の非一様性のみを含む。センサ雑音モデル506は、平均1、及び、雑音の所望レベルを達成するよう調節可能な範囲を有する一様な変数を含み得る。画像生成モデル204は、光線追跡によって算出された画素の算出強度値で、利得の非一様性を乗算する。
【0035】
図9は、例示的なセンサ雑音モデル506を示す図である。画素利得の非位置養成のスケール係数を実画像について機械学習手法を用いて推定することが可能である。一実施例では、センサ雑音モデルは、仮想画像、及びマッチングされる実画像における空間周波数の分布の類似度を最大にするための滑降シンプレックス(ネルダー・ミード)アルゴリズムを含む(内容を本明細書及び特許請求の範囲において援用する、Kanungo, T.及びZheng, Q.による「A Downhill Simplex Algorithm for Estimating Morphological Degradation Model Parameters (University of Maryland Technical Report, LAMP-RT-006)」を参照されたい)。
【0036】
一実施例では、センサ雑音モデル506は、以下のように定義される近傍周波数分布(NFD)を用いる。画像における8x8画素ブロック901毎に、2DFFT(2次元高速フーリエ変換(FFT))が算出される(902に図示している)。ブロックは大半がテキスト又は大半が背景である旨をFFTのDC係数が示す場合、ブロックをこの時点で廃棄することができる。2DFFTの振幅の対数の左上隅の対角成分が平均化される。合計で6つの周波数帯が検討される。
【0037】
次いで、6ビットの特徴ベクトル903が構成される。各ビットは、かなり大きな成分が周波数帯それぞれにおいて存在しているか否かを示す。この場合における「かなり大きな」は、同様な画像の母集団の平均(事前に求められる)よりも大きいとして定義される。
【0038】
画像内の8x8画素ブロック全てのこの特徴ベクトル903のサンプルが、コルモゴロフ-スミルノフ検定(KS検定)の2サンプルのバージョンを用いて別の画像からのサンプルと比較することが可能である。滑降シンプレックス・アルゴリズムのコスト関数入力として、センサ雑音モデル506は、KS検定がもたらすKS統計を用いる。(2つの母集団が実際に、単一の母集団から引き出されているという)ナル仮説を2つの母集団が満たす状態に近付くにつれてゼロに達する。滑降シンプレックス・アルゴリズムを用いる利点は、目的関数の導関数を計算しない点である。最適化関数は凸でないことがあり得るので、異なる当初シンプレックス推測を有するアルゴリズムの複数のランダムな再起動を行うことができる。一実施例では、0.01程度の画素利得非一様性スケール値は、アルゴリズムが収束する所である。
【0039】
画像生成モデル204は、ヒストグラム効果モデル508を含む。実際に、実際のセンサを用いて捕捉された画像のヒストグラムの範囲は、シーンにおいて存在している強度値の範囲よりも小さい。ヒストグラム効果モデル508は、実際のカメラによって撮られた特定のサンプル画像において生起する値の範囲内に収まるよう仮想画像のヒストグラム値を写像することによるか、又は、ルックアップ・テーブル変換によってその画素値累積分布が画像例の画素値の累積分布に一致するように仮想画像のヒストグラムを変換しようとする、より複雑なヒストグラム・マッチングによってこの効果をモデリングすることができる。
【0040】
一実施例では、ヒストグラム効果モデル508は、最大値及び最小値を有する所望のヒストグラムを含み、仮想画像のヒストグラムは、所望のヒストグラムに一致するよう調節される。別の実施例では、所望のヒストグラムは、ユーザ規定のサンプル画像から得られる。
【0041】
画像生成モデル204は、文書画像の上方に投げかけられるシャドウを生成するためのシャドウ・マスク・モデル510を含む。ユーザの腕又はカメラ自体によって文書画像の上方に投げかけられることが多い大きな大域的なシャドウをモデリングするために、シャドウ・マスクを用いる。図10Aは、シャドウ・マスク1001を示す図である。図10Bは、シャドウ・マスク1001を用いて生成されるシャドウを有する仮想画像を示す図である。シャドウ・マスク1001を要素単位で仮想画像と乗算して、シャドウを有する仮想画像を生成する。
【0042】
一実施例では、ユーザ規定のサンプル画像における大域的なシャドウ・マスクは、SIGGRAPH2003におけるポスター・プログラム「Shadow Removal from a Real Image Based on Shadow Density」においてM.Baba、M.Mukunoki及びN.Asadaによって提案された手法を用いて推定される。サンプル画像はまず最大値フィルタを用いてフィルタリングされ、次いで、最小値フィルタを用いてフィルタリングされ、次いで、平滑化フィルタを用いてフィルタリングされる。画像の大域的な輝度が結果として生じる。仮想文書画像生成器では、これはシャドウ・マスクとして直接用いられるが、更なる閾値化を行って別個の半影マスク及び本影マスクをもたらすことが可能である。図11Aは、シャドウ・マスク・モデル510を用いて生成された画像の種々のシャドウ、及び半影領域及び本影領域を示す図である。図11Bは、シャドウ、半影領域及び本影領域を有する画像の輝度を示す3次元図である。別の実施例では、いくつかのシャドウ・マスクが、特定のカメラ位置(X、Y、Z、thetax、thetay、thetaz)について予め算出される。シャドウ・マスク・モデル510は、位置がカメラの位置に最も近いシャドウ・マスクを選ぶよう修正される。至近性についての決定は、ユークリッド距離尺度や他の一般に用いられる距離尺度(例えば、都市ブロック距離等)によって行うことが可能である。別の代替的な実施例では、シャドウ・マスクは、カメラの位置、全域照明モデル、シャドウを投げかけ得る物体のモデルを前提として動的に生成される。シャドウ・マスク・モデル510は、カメラ位置を動的シャドウ生成アルゴリズムに供給し、算出するシャドウを仮想画像と要素単位で乗算して、シャドウを有する仮想画像を生成するよう修正される。
【0043】
画像生成モデル204は口径食モデル512を含む。口径食モデル512は、画像画素に対応する光線と、カメラの光学軸との間の角度の増加に伴う、輝度における「コサイン4乗」減衰を、その角度のコサインの4乗で画素値を乗算することによって捕捉するための、口径食に似た効果をモデル画像において含む。実画像における口径食は、レンズ・エレメントによる妨害によって遠隔の軸外光線が物理アパーチャに達しないことの結果である。口径食モデル512は例えば、内容を本明細書及び特許請求の範囲に援用する、Aggarwal. M.、Hua, H.及びAhuja, N.による「On Cosine-fourth and Vignetting Effects in Real Lenses (Int.Conf. on Computer Vision (ICCV) Proceedings, Volume 1, Vancouver, Canada, July 9-12, 2001 ページ:472-479)」記載の口径食モデルであり得る。図12は、口径食を有する画像を示す図である。一実施例では、口径食効果は、コサイン4乗効果をディセーブルすることが可能であるように、やはり、シャドウ・マスク推定手順によってうまく捕捉される。
【0044】
画像生成モデル204は、パス生成器202からの座標、及びカメラ内部パラメータを用いて、フォーカスされていないカメラ104によってもたらされるブラーを補正するためのフォーカス・ブラー・モデル514を含む。一実施例では、フォーカス・ブラー・モデル514は、カメラ104の光学軸に沿った、ページまでの距離と、カメラが「フォーカスされている」として経験的に判定される距離(何れも単位:インチ(2.5cm))との間の差の絶対値として算出される標準偏差を有する単一ガウシアン点広がり関数(PSF)を含む。フォーカス・ブラー・モデル514は次いで、フォーカス・ブラー・スケール・パラメータ(フォーカス・ブラーの振幅を制御するためにユーザ規定することができる)で標準偏差をスケーリングする。ブラーはよって、カメラの移動に伴って線形的に増減する。図13Aは、フォーカス・ブラー・モデルのガウシアンPSFを示す3次元図である。図13Bは、フォーカス・ブラー・モデル514を用いて形成された画像を示す図である。
【0045】
フォーカス・ブラー・スケール・パラメータは、近傍周波数分布及び滑降シンプレックス・アルゴリズム(センサ雑音パラメータとともに前述している)を用いて推定することもできる。滑降シンプレックス・アルゴリズムは、複数のパラメータを同時に最適化することが可能である。一実施例では、フォーカス・ブラー・スケール係数は、約0.3乃至約0.5の範囲である。
【0046】
画像生成モデル204は、画像106に対する、カメラ104の動きによってもたらされる画像のブラーをモデリングするモーション・ブラー・モデル516を含む。一実施例では、モーション・ブラー・モデル516は、共通のブラーを用いて画像の部分全てについてブラーをモデリングする大域的なブラー・モデルを含む。このモデルは、カメラの実際のパラメータ(露光時間など)を含まず、画素と画像との間の距離差を含まない。後者は、特定のセンサ画素が他のセンサ画素よりも紙に近いことを補正しておらず、よって、モーション・ブラーの低下があり得る。この実施例において、大域的なブラーは、露光時間中にカメラ104が移動した場合に生じる、2つの直交方向(x及びyなど)におけるブラーの量を表し、ユーザが選択することができるブラー・パラメータblur_dx及びblur_dyによって方向及び振幅が求められるパスに沿った画素値の平均によって、最後の画像の各画素を置き換えることによって達成される、人工的であるが、知覚的にそれらしく見えるモーション・ブラーである。
【0047】
別の実施例では、モーション・ブラー・モデル516は、対応する別々のカメラ位置の複数の中間画像を生成し、これらの画像を一画像に合成してブラーを表す。画像は、k回再レンダリングされる(部分的な位置変動は、所望の露光時間及びカメラ速度に対応する)。例証的な例として、モーション・ブラー・モデル516は、blur_dx及びblur_dyプラー・パラメータ組をゼロにセットし、特定の速度で移動しており、特定の露光時間を有していた場合にカメラ104が占める、設定された個数(k)の等間隔の中間位置において算出することによって仮想画像のブラーを生成する。最後の画像は、前述のk個の中間画像の平均である。この実施例は、より大きなkとともに増加する、最終画像の平滑性と、kとともに線形に増加する、画像組をレンダリングするために要する時間との間のトレードオフを提供し得る。図14は、モーション・ブラー・モデル516を用いてブラーが生じたビデオ・フレームの例証的な例の図である。
【0048】
画像生成モデル204は、可展面(例えば、折った紙又は製本ボリュームのワープやカールによってもたらされる)を有する画像を生成するために等長的表面モデル518を含む。可展面は例えば、「引き裂くことも引き伸ばすこともなく平面上に展開することが可能な」表面であり得る(内容を本明細書及び特許請求の範囲において援用する、J.Liang、D.Dementhon、及びD.Doermannによる「Flattening Curved Documents in Images (Proc. Of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR)、 2005)」)。これは等距離写像である。文書の表面に沿った距離は同じ状態に留まるからである。このようにしてワーピングするものとしてソース文書がモデリングされた場合、光線・平面交差の算出は、より一般的な光線・関数交差になる。図15A及び図15Bは、画像の一方向における二次曲線群及び三次曲線群それぞれを示す3次元図である。
【0049】
画像生成モデル204は、材料特性及び光源特性の効果をモデリングするための全般照明モデル520を含む。上記効果は、内容を本明細書及び特許請求の範囲において援用する、「Real-Time Rendering(A.K.Peters, Natick、 MA. 2nd Edition (2002), pp. 70-84)」にT.Akenine-Moller及びE.Hainesによって記載されているように、周囲成分、拡散反射成分及び鏡面反射成分を含み得る。上記効果は、光線追跡中に算出することができる。合計照度の周囲成分は、紙の周囲(ambient)定数と光源の周囲定数との積である(例えば、光源が周囲光を何ら照らさない場合、その周囲定数はゼロになる。)拡散反射成分は、紙の拡散反射定数と光源の拡散反射定数との積を、紙上の関心点から光源へのベクトルと、その点における法線ベクトルとの内積で乗算した結果である。最後に、鏡面反射成分は、紙の鏡面反射係数と光源の鏡面反射係数との積と、照明ベクトルと法線ベクトルとの間の正規化された半分のベクトルと、法線ベクトルとの内積とを乗算したものに輝き成分のべき指数をかけたものである。周囲成分、拡散反射成分及び鏡面反射成分が加算されると、その合計照度値を用いて、仮想画像における対応する画素の振幅を変調する。図16は、ストロボ写真の効果を再現するために全般照明モデルによって生成される仮想画像を示す図である。第1の実施例では、紙(又は一般には物体)並びに光源の周囲係数、拡散反射係数及び鏡面反射係数と、光源の位置の数は固定である。別の実施例では、光源の位置は、経過時間、フレーム番号、又は任意のユーザ設定の関数として変わり得る。別の代替的な実施例では、周囲係数、拡散反射係数及び鏡面反射係数も、経過時間、フレーム番号、又は任意のユーザ設定の関数として動的に変わり得る。これは、物体の物理組成における変化(その自然時効や、紙文書においては、高照度の光や特定の他の力(熱など)の存在下でのその退色)をシミュレートすることを可能にする。これは、感熱紙文書の退色をシミュレートすることが可能である。
【0050】
画像生成モデル204は、背景クラッタの効果をまねるための背景モデル522を含む。ユーザは、ソース文書106の境界の外側にある画像領域内に表示する対象の背景画像を規定することができる。図17は、例示的な背景画像を示す。背景クラッタは、検査画像又は訓練画像において余分な情報をもたらし、それによって、光学式文字認識などのアプリケーションにおいて問題を引き起こす。背景モデルは、追跡光線が文書のマージンの外側の紙平面と交差した場合の画素値を光線追跡が供給するための背景としてデスクトップ・シーンの高分解能画像を用いることによって背景クラッタをまねる。一実施例では、画像は、小さな被写界深度を有する。シーン平面はカメラの画像平面と平行である。単一の固定背景画像を用いることができる。別の実施例では、いくつかの背景画像が提供され、背景モデルは、乱数生成器を用いてそれらの1つを確率的に選ぶ。例えば、時間の60%は一画像を用いることができ、時間の30%は別の画像を用いることができ、全フレームの10%は別の画像を用いることができる。更に別の代替的な実施例では、背景画像はビデオ・クリップとして提供することが可能であり、背景として用いる特定のフレームは、最初に生成されたフレームから経過した時間、先行して生成されたフレームの数によって、又は、ユーザ設定によって判定される。ソース文書がビデオ・ディスプレイ上に示されており、背景が動的に変わった場合にそうであるように背景がソース文書と共平面である場合、背景として用いられる特定のフレームを光線追跡することが可能である。別の実施例では、背景として用いられる特定のフレームが、カメラからのその距離についてソース文書とは異なる設定の下ではあるが、カメラ(X、Y、Z、thetax、thetay、thetaz)の位置を前提として、光線追跡することが可能である。別の実施例では、光線追跡して背景画像を生成することが可能な、背景の3次元モデルを用いる。
【0051】
画像生成モデル204は、カメラ104の画像圧縮をモデリングするための画像圧縮モデル524を含む。画像圧縮は例えば、静止画像圧縮又はビデオ圧縮であり得る。画像生成モデル204は、異なる圧縮レベルの種々の画像形式で仮想画像を生成する。
【0052】
画像生成モデル204は、ページ・ブリードスルーのモデル526を含み得る。ブリードスルーは、走査文書画像では、多くの場合、生じる。一実施例では、ページ・ブリードスルー・モデルは、第2の文書画像(本のブリードスルーの場合に、長手方向軸を中心に回転させることができる)を第1の文書画像と合成することを含む。光線がソース文書と交差する場合、以下の発見的方法を用いることができる。光線がテキスト画素(暗画素)と交差すると、センサ画素値がその値にセットされる。しかし、光線が非テキスト画素(明画素)と交差すると、センサ画素値は、A*,,+B*(1-,,)にセットされる。ここでAはその画素におけるソース文書の値であり、Bはその画素における反対側の文書の値であり、「,,」は混合値である(例えば、0.85は、現実的な可視ブリードスルーに適切な値であり得る)。
【0053】
図18は、画像生成システム100の動作を示すフロー図である。画像生成システム100は、人間行動のモデル、制御点組、及びカメラのフレーム・レート、ラスタ及びグラウンドトルースに変換可能な物体情報、カメラ特性、並びに画像歪みパラメータを含む、動きの規定を受信する。パス生成器202は、基準点に対する、物体の動きのパスを生成する(1804)か、又は、基準点に対する、物体の位置を生成する。画像生成モデル204は、グラウンドトルース及び生成パスから参照フレームの一連の画像、又は画像を生成する(1806)。画像生成モデル204は、パス又は位置、物体情報、カメラ特性及び画像歪みパラメータを用いて、グラウンドトルース情報を含む画像又はビデオ・データも生成することができる。
【0054】
一実施例では、画像生成システム100は、物体情報からの個人の画像又はビデオを生成し、顔認識のために、一又は複数の個人の実際の画像又はビデオとこれが比較される。別の実施例では、個人の一部分の画像又はビデオが、医療撮像との比較のために、かつ診断のために生成される。
【0055】
本明細書における、「一実施例」又は「実施例」への参照は、そうした実施例に関して記載した特定の構成要素、特徴、構造又は特性が少なくとも一実施例に含まれることを意味する。本明細書中の種々の箇所における句「一実施例における」は必ずしも、その全てが同じ実施例を表すものでない。
【0056】
「結合された」及び「接続された」の表現、並びにそれらの派生形を用いて、特定の実施例を説明していることがあり得る。前述の語は、互いに同義であることを意図するものでない。例えば、「接続された」の語を用いて特定の実施例を説明して、2つ以上の構成要素が互いに直接、物理的に又は電気的に接触していることを示すことができる。別の例では、「結合された」の語を用いて特定の実施例を説明して、2つ以上の構成要素が互いに直接、物理的に又は電気的に接触していることを示すことができる。しかし、「結合された}の語は、2つ以上の構成要素が互いに直接、接触している訳でないが、なお、互いに協調、又は相互作用することも意味し得る。実施例はこの意味合いで限定される訳でない。
【0057】
本明細書及び特許請求の範囲記載の通り、「comprises」、「comprising」、「includes」、「including」、「has」、「having」又はその何れかの他の変形が、排他的でない包含をカバーすることを意図している。例えば、構成要素のリストを有する処理、方法、物若しくは装置は、必ずしも前述の構成要素に限定される訳でない一方、明記されていないか、又は前述の処理、方法、物若しくは装置に固有の他の構成要素を含み得る。更に、別途明記していない限り、「or」は、包含的論理和を表し、排他的論理和は表さない。例えば、条件A又はBは、以下の何れかによって満たされる(Aが真であり(又は存在しており)、Bが偽である(又は存在していない)場合と、Aが偽であり(又は存在しておらず)、Bが真である(又は存在している)場合と、A及びBが真であり(又は存在している)場合)。
【0058】
更に、「a」又は「an」を用いて。本発明の構成要素及び構成部分を表す。これは、便宜上、かつ、本発明の概略を示すために行っているに過ぎない。前述の記載は、1つ又は少なくとも1つを含むとして読むものとし、単数形は、そうでないことを意味することが明らかでない限り、複数形も含む。
【0059】
本明細書及び特許請求の範囲を読めば、当業者は、本明細書及び特許請求の範囲に開示された原理によって、グラウンドトルースを用いて合成画像又はビデオを生成するシステム及び方法のなお更に別の構造設計及び機能設計を認識するであろう。よって、特定の実施例及び応用例を例証し、説明したが、本発明は、本明細書及び特許請求の範囲に開示されたまさにその構成及び構成部分に限定されず、当業者に明らかになる種々の修正、変更及び変形を、本発明の方法並びに装置の装置、動作及び詳細において特許請求の範囲記載の本発明の趣旨及び範囲から逸脱しない限り、行うことができる。
【図面の簡単な説明】
【0060】
【図1】本発明による画像生成システムを示す図である。
【図2】図1の画像生成システムの一実施例を示すブロック図である。
【図3】図1のソース文書、及びソース文書のグラウンドトルースを示すマーキングした領域の画像を示す図である。
【図4】ソース文書からカメラまでの光線追跡を示す図である。
【図5】図2の画像生成システムの画像生成モデルを示すブロック図である。
【図6】ソース文書の上方の例示的なビデオ軌道を示す3次元図である。
【図7】最小エネルギ駆動力を用いた、図6の軌道の推定を示す3次元図である。
【図8】20個の画像のチェッカーボード校正目標のサンプル、及びカメラ校正ツールボックスを示す図である。
【図9】センサ雑音モデルを示す図である。
【図10A】シャドウ・マスクを示す図である。
【図10B】図10Aのシャドウ・マスクを用いて生成されるシャドウを有する仮想画像を示す図である。
【図11A】画像の種々のシャドウ、半影領域及び本影領域を示す図である。
【図11B】シャドウ、半影領域及び本影領域を有する画像の輝度を示す3次元図である。
【図12】口径食を有する画像を示す図である。
【図13A】フォーカス・ブラー・モデルのガウシアンPSFを示す3次元図である。
【図13B】フォーカス・ブラー・モデルを用いて形成された画像を示す図である。
【図14】モーション・ブラー・モデルを用いてブラーが生じたビデオ・フレームの例証的な例を示す図である。
【図15A】画像の一方向における二次曲線群を示す3次元図である。
【図15B】画像の一方向における三次曲線群を示す3次元図である。
【図16】ストロボ写真の効果を再現するために全般照明モデルによって生成される仮想画像を示す図である。
【図17】例示的な背景画像を示す図である。
【図18】図1の画像生成システムの動作を示すフロー図である。
【図19A】人間行動モデル及び関連した制御点の実施例を示す図である。
【図19B】人間行動モデル及び関連した制御点の別の実施例を示す図である。
【図19C】人間行動モデル及び関連した制御点の更に別の実施例を示す図である。
【符号の説明】
【0061】
100 画像生成システム
102 プリンタ
104 画像捕捉装置
106 ソース文書
108 画像
110 仮想画像
200 ビデオ生成器
202 パス生成器
204 画像生成モデル
【技術分野】
【0001】
本発明は一般に、画像及びビデオの生成の分野に関し、特に、グラウンドトルース・データを用いた、画像及びビデオの生成に関する。
【背景技術】
【0002】
種々のモデルが、画像劣化を考慮した文書画像生成に用いられている。文書画像劣化の適切なモデルは、数多くの論文の主題となっている(Y. Li, D. Lopresti、G. Nagy及びA. Tomkinsによる「Validation of Image Defect Models for Optical Character Recognition (IEEE Trans. Pattern Anal. Mach. Intell. 18,2 (Feb. 1996), pp. 99-108)」)。Pavlidasは、水平方向及び垂直方向のスケーリング、回転、サンプリング・レート、及び量子化閾値を含むモデルを提案している(T. Pavlidasによる「Effects of Distortion on the Recognition Rate of a Structural OCR System (Pro. Conf. on Comp. Vision and Pattern Recog., pp. 303-309, Washington, DC, 1983)」)。Bairdは、可変パラメータが、フォント・サイズ、空間サンプリング・レート、回転、水平方向及び垂直方向のスケーリング、水平方向及び垂直方向の平行移動、画素変位、ガウス点広がり関数、画素センサ感度、及び量子化閾値を含むモデルを提案している(H. Bairdによる「Document Image Defect Models (Proc. Of IAPR Workshop on Syntactic and Structural Pattern Recognition, pp. 38-46, Murray Hill, NJ June 1990)」、及びH. Bairdによる「The State of the Art of Document Image Degradation Modeling (Proc. of 4th LAPR International Workshop on Document Analysis Systems, Rio de Janeiro, Brazil, pp. 1-16, 2000)」)。Smithは、点広がり関数の幅、及び2値化の閾値を変えるモデルを試している(E. H. Barney Smith及びT. Andersenによる「Text Degradations and OCR Training (International Conference on Document Analysis and Recognition 2005, Seoul, Korea, August 2005)」)。Khoubyari及びHullは、文字ストロークを厚くし、次いで、特定の黒画素を白画素に任意に換えることによって文字の粗をシミュレートしている(Khoubyari, S.、及びJ. J. Hullによる「Keyword Location in Noisy Document Images (Second Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, pp. 217-231, April, 1993)」)。Kanungo他は、製本文書の走査によって生じるカール歪みをモデリングしている(Kanungo, T.、Haralick, R.M.及びPhillips, I.による「Global and Local Document Degradation Models (Document Analysis and Recognition, 1993., Proceedings of the Second International Conference on Document Analysis and Recognition ICDAR-93, Volume, Issue, 20-22 Oct 1993, pp. 730-734)」)。更にZiは、関心文書の下にあるか、又は関心文書の裏面上にあるテキスト及び画像からのブリードスルーの効果を考察している(G. Ziによる「Groundtruth Generation and Document Image Degradation (University of Maryland Language and Media Processing Laboratory Technical Report (LAMP-TR-121), 2005)」)。
【発明の開示】
【発明が解決しようとする課題】
【0003】
前述のモデルは、スキャナ上の画像、又は2値画像を扱う。前述のモデルは、非平面形態の撮像を規定するものでない。更に、前述のモデルは、ビデオを撮像するために、大量のデータ組を用いる。より一般化された撮像システム・モデルが必要である。
【課題を解決するための手段】
【0004】
開示されるシステム及び方法の一実施例によって、ビデオが生成される。物体情報が受信される。基準点に対する物体の動きのパスが生成される。基準フレームの一連の画像及びグラウンドトルースが、物体情報、及び生成されたパスから生成される。
【0005】
開示されるシステム及び方法の一実施例によって、画像が生成される。物体情報が受信される。画像データ及びグラウンドトルースを、位置、画像記述、カメラ特性、及び画像歪みパラメータを用いて生成することができる。文書と基準点との間の位置関係が判定される。文書及びグラウンドトルースの画像が、物体情報及び位置関係から、かつ、文書のユーザ指定環境に応じて生成される。
【発明を実施するための最良の形態】
【0006】
本明細書記載の特徴及び利点は、全てを含む訳でなく、特に、多くの更なる特徴及び利点が、図面、明細書及び特許請求の範囲にかんがみて当業者に明らかになる。更に、本明細書において使用する文言は主に、読みやすさ及び教示の目的で選択されており、本発明の主題について、輪郭を描く、又は周囲に線を引くために選択されていないことがあり得る。
【0007】
開示された実施例は、添付図面とともに解釈される、詳細な説明及び特許請求の範囲から、より容易に明らかになる他の利点及び特性を有する。
【実施例】
【0008】
図面及び以下の説明は、例証の目的でのみ、本発明の好ましい実施例に関する。以下の記載から、本明細書及び特許請求の範囲記載の構造及び方法の別の実施例が、特許請求の範囲に係わる発明の原理から逸脱しない限り用いることができる実行可能な代替策として容易に認識されよう。
【0009】
次に、いくつかの実施例を詳細に参照する。これらの例は添付図面に示す。実行可能な限り、類似又は同様の参照符号を用い得るものであり、類似又は同様の参照符号は、類似又は同様の機能を示し得る。図は、例証の目的でのみ、本発明の実施例を表す。本明細書及び特許請求の範囲記載の原理から逸脱しない限り本明細書及び特許請求の範囲記載の構造及び方法の別の実施例を用いることができることを当業者は以下の説明から容易に認識するであろう。
【0010】
画像及びビデオを生成する方法及びシステムは、グラウンドトルース・データ、及びカメラのパラメータのモデル、並びに、撮像されている物体の環境を用いた、画像、又は一連の画像の生成を含む。モデリングは、画像劣化、及びハンドヘルド型装置を含む種々の画像捕捉装置によって捕捉される画像を含み得る。方法及びシステムは、画像捕捉装置、及び撮像されている文書の任意の配置、並びに、ソース文書及び任意の照明状態の等長的変形も可能にする。方法及びシステムは、フォーカス・ブラー、モーション・ブラー、ヒストグラム圧縮、センサ雑音、内部及び外部のカメラ・パラメータ、シャドウ、センサ分解能、口径食、背景クラッタ、文書変形や、鏡面反射特性、周囲特性、並びに、拡散照明及び材料特性の効果もモデリングする。一実施例では、これは、仮想カメラの位置、及びその内部パラメータに基づいた仮想画像を生成するための一般的な光線追跡モデルを用いることによって達成される。
【0011】
図1は、画像生成システム100を示す図である。プリンタ102は、印刷されたソース文書106を生成し、印刷情報を画像生成システム100に供給する。画像捕捉装置104は、ソース文書106を検出し、捕捉し、画像108を生成する。画像捕捉装置104は例えば、ハンドヘルド型画像捕捉装置(ディジタル・カメラや携帯電話機など)、又は固定型画像捕捉装置(ウェブ・カメラなど)であり得る。例として、画像捕捉装置104は、本出願においてはカメラ104としても表す。画像生成システム100は、プリンタ102からの印刷情報に応じて仮想画像110を生成する。印刷情報(図示せず)は、ソース文書106を表し、ページ記述言語(例えば、ポストスクリプト(登録商標)又はPCL)におけるデータであり得る。印刷情報は、コンピュータ・オペレーティング・システム(例えば、ウィンドウズ(登録商標)XP)によってラスタ画像に変換されるグラフィックス・デバイス・インタプリタ(GDI)コマンド系列でもあり得る。印刷情報は、ソース文書における物体毎のグラウンドトルース・データを含み得る。仮想画像110は、グラウンドトルース・データを含む、印刷情報から生成される印刷文書106の生成画像である。一実施例では、ページ記述言語ファイルは、インタープリタ(ゴーストスクリプトなど)によってラスタ表現(tiff、jpegやbmpなど)に変換される。一実施例では、仮想画像110は単一の画像である。別の実施例では、仮想画像110は、画像又はフレーム(ビデオなど)の系列である。一実施例では、仮想画像110は画像108を表す。画像生成システム100は、印刷情報、カメラ104のパラメータ、及びソース文書106の環境パラメータを用いて仮想画像110を生成する。
【0012】
画像生成システム100は、インテル社によって製造されたペンティアム(登録商標)4又はジオン・プロセッサなどのプロセッサを含み得るものであり、画像生成をソフトウェアとして実行する。画像生成システム100は全体的に、又は部分的に、パソコンのビデオ・カード上のグラフィックス処理装置(GPU)上のソフトウェアとして生成することもできる。
【0013】
画像生成システム100を用いて顔認識又は医療撮像システムのためのデータを生成することができる。
【0014】
図2は、画像生成器100であり得るビデオ生成器200の一実施例を示すブロック図である。ビデオ生成器200は、パス生成器202及び画像生成モデル204を備える。
【0015】
パス生成器202は、特定の画像(文書106など)に対する、カメラの位置の座標系列を生成する。一実施例では、パス生成器202は、カメラ104の移動に対する人間の行動のモデル、カメラ104の移動のパス、及びカメラ104のフレーム・レートに応じて座標系列(座標xt、yt、zt、pt、tt及びztとして示す)を生成する。一実施例では、移動のパスは一連の制御点として規定され、人間モデルは、制御点間のカメラを移動させるための人間行動を表す。カメラ104の移動のパスは、個人がカメラによって行う移動を規定するためにユーザによって規定されるか、又はカメラ104から受信することができる。
【0016】
画像生成モデル204は、カメラ104の特性、画像歪みパラメータ、及び、単一画像又はフレーム系列を(座標組毎に1つ)生成するために、プリンタ102からの画像記述及びグラウンドトルース・データを備える物体情報を用いることができる。カメラ104の特性、及び画像歪みパラメータは、ユーザ入力することができる。各フレームは、ソース文書106の特定のワープ及びシャドウを補正するよう歪めさせる。ソース文書106についての受信物体情報は、画像の生成を可能にする情報を含む。一連の画像の場合、動きを表す大量のデータ組が通常、用いられる。画像生成モデル204は、画像を表す物体情報(顔認識や医療撮像などの場合においては3次元でもよい)を用いて、画像又はビデオを生成する。一実施例では、物体情報は、文書のラスタ画像(例えば、tiff、jpeg、bmp等)、並びに、各文字の識別情報及び位置を規定したグラウンドトルース情報を含む。(注:位置は、文字の左上隅のx-y、並びにこれをカバーするボックスにおける列及び行の数として規定することが可能である)。別の実施例では、物体情報は、ページ記述言語(PDL)(ポストスクリプトやPCLなど)における印刷情報であり、画像生成モデル204の処理の一部は、ゴーストスクリプトなどのインタープリタを用いてPDLからの文書の画像を「レンダリングする」。別の実施例では、顔認識や医療撮像などの3次元アプリケーションの物体情報が、仮想現実マークアップ言語(VRML)又は拡張可能3D(X3D)ファイルとして供給され、画像生成モデル204の処理の一部は、オープンVRML、Xj3Dやフラックスなどのインタープリタを用いてオブジェクトの3次元ビューをレンダリングする。画像生成モデル204は、仮想画像110のグラウンドトルース・データを生成することができる。一実施例では、ソース文書106における何れかの入力x-y座標を、仮想画像110における対応する出力画像x’-y’に変換する写像テーブルが出力される。これは、図3のソース文書において示すバウンディング・ボックス・データの位置などの何れかのグラウンドトルース情報の幾何学的位置の変換を可能にする。仮想画像110における何れかのx’-y’座標を、ソース文書106における対応するx-y位置に変換する「逆」写像テーブルも画像生成モデル204によって提供することができる。写像テーブルは、ソース文書又は実画像に生じるx-y又はx’-y’毎にエントリを有する通常のアレイ又はハッシュ・テーブルの形式をとり得る。別の実施例では、x-y又はx’-y’対が与えられ、他方の画像における対応する対を計算する関数を提供することができる。写像関数の例には、射影変換、及び他の周知の幾何変換が含まれる。特定の場合には、写像テーブルは、2つ以上の出力位置を設けることができる。更に、前述の位置は、入力位置に寄与した画像特性(例えば、強度、色等)の量を示す尤度値と関連付けることができる。よって、画像生成モデル204は、単一画像のグラウンドトルース・データを受信し、一連のビデオ・フレームのグラウンドトルース・データを生成することができる。これは、仮想画像110を生成する前に生成されるグラウンドトルース・データの量を削減する。一実施例では、画像生成モデル204は、画像捕捉装置104のパラメータ、センサ雑音、コントラスト劣化、シャドウ、口径食、フォーカス・ブラー、モーション・ブラー、背景、等長的表面(isometric surface)、及び全般照明を用いて仮想画像110を生成する。画像生成モデル204は、ワープを含む画像の動きのパラメータ、及びシャドウを含み得る。画像生成モデル204は、機械学習を用いてパラメータを推定することができる。
【0017】
図3は、ソース文書106、及びグラウンドトルース・データによって表すマーキングされた領域301の画像である。マーキングされた領域301のグラウンドトルースは、ソース文書106上のフォントフェース、フォント・サイズ、及び位置を含み得る。画像生成モデル204は、プリンタ102若しくは別のソースからグラウンドトルースを受信し、又は、グラウンドトルースを印刷情報から生成する。グラウンドトルースは、画像上のマーキングされた領域301のオーバレイとして処理することができる。画像のグランドトルースは、ソース文書、及びそれがどのようにして生成されたか(文書の対応する紙バージョンが印刷された日時及び場所、プリンタ、PC、並びに文書を印刷した個人の識別情報など)についてのメタデータも含むことが可能である。グラウンドトルースは、元のソース・ファイル(例えば、ワード、PDF等)の位置、パス及び名前も含むことが可能である。これは、ソース・ファイルを後に位置特定するうえで十分である。
【0018】
図4は、ソース文書106からカメラ104までの光線追跡を示す図である。画像生成モデル204は光線追跡を用いて、図5に関して後述する外部カメラ・パラメータを用いてソース文書106の部分からカメラ104までの光線を追跡することによって仮想画像110を生成する。光線を、文書106の各部分からカメラ104まで追跡して文書の画像を生成する。カメラ104をパス生成器202からの座標によって移動させるにつれ、光線が、文書106からカメラ104まで追跡される。
【0019】
図5は、画像生成モデル204(カメラ外部パラメータ・モデル502、カメラ内部モデル504及び複数の効果モデル506、508、510、512、514、516、518、520、522、524及び526を備える)を示すブロック図である。効果モデル506、508、510、512、514、516、518、520、522、524及び526は、センサ雑音モデル506、ヒストグラム効果モデル508、シャドウ・マスク・モデル510、口径食モデル512、フォーカス・ブラー・モデル514、モーション・ブラー・モデル516、等長的表面モデル518、全般照明モデル520、背景モデル522、画像圧縮モデル524、及びブリードスルー・モデル526を含む。画像生成モデル204は、光線追跡にカメラ外部パラメータ・モデル502を用いる。画像生成モデル204は、カメラ内部パラメータ・モデル504を用いて、カメラ104からの画像に対する効果をシミュレートする。画像生成モデル204は、効果モデル506、508、510、512、514、516、518、520、522、524及び526を用いて、画像106に対する写真、照明及び環境をシミュレートする。
【0020】
カメラ104の外部パラメータは、画像106に対する、カメラ104の平行移動及び向きの情報を含み得る。一実施例では、カメラ104の位置は、ソース文書106(その中心を原点とみなす)に対する、カメラ104のカメラ位置(例えば、単位:インチ(2.5cm))の大局x、y及びz値によって表す。カメラの向きは、3つのオイラー角度(,,X、 ,,Y、及び,,Z)によって表す。一実施例では、画像生成モデル204は、光線追跡を用いて画像110を、外部パラメータ502の外部パラメータを用いて生成する。
【0021】
図6は、ソース文書106の上方の例示的なビデオ軌道601を示す3次元図である。パス生成器202は、人間行動のモデル、及び配列制御点組を用いて、特定のソース文書106のカメラ104の位置を推定する。パス生成器202は、カメラ104のフレーム・レートでの、制御点間の軌道に沿ったカメラ104の動きを計算する。
【0022】
人間行動モデルは、シミュレートされているタスクの名前、制御点間を移動するための時間量、及びカメラ104が各点に滞留する時間を求める数学的な時間の関数、制御点間のパスを求める数学的な遷移動作関数、及び各制御点に達した際のカメラ104の移動を求める数学的な滞留動作関数を規定する。制御点は、配列された(x、y、z、thetax、thetay、thetaz)の値の組として設けられる。シミュレートされるタスクの名前は、「情報ブラウジング」、「挿入のためのポイント・アンド・クリック」、「取り出しのためのポイント・アンド・クリック」、「拡張現実インタフェース」、「マウス」、「情報ブラウジング」及び「ジェスチャ」を含むが、それらに限定されない。数学的な時間の関数は、移動時間及び滞留時間のユーザ規定定数組を含む。フィッツの法則又はアコットの法則を用いて、点間をナビゲートするために必要な時間を予測することが可能である。数学的な遷移動作関数には、配列制御点組、各制御点対間の移動の合計時間、及びカメラ・フレーム・レート(通常、サンプリング・レート(通常、秒毎フレーム単位のサンプリング・レートとして規定される)が与えられる。遷移動作関数は、フレームが捕捉される都度、カメラの位置を算出する。数学的な遷移動作関数は、直線などのユーザ指定定数、又は、フレームが生成される都度のカメラの位置の手作業の指定を含む。特定の場合には、ナル遷移動作関数が用いられ、システムは制御点においてのみ、画像を生成する。画像数は、滞留時間、及びカメラのフレーム・レートによって求められる。線形動的システムは、遷移動作関数の別の例である。カルマン・フィルタは、人間動作の例から訓練することが可能な遷移動作関数であり、制限点間でカメラを人間がどのようにして移動させるかをシミュレートするパスを生成することが可能である。他の遷移動作関数の例には、拡張カルマン・フィルタ、粒子フィルタ、拡張粒子フィルタ、ベイズ・フィルタ、拡張ベイズ・フィルタ、及び当該技術分野において周知の他の手法を含む。数学的な滞留動作関数には、制御点としての開始位置、その点においてカメラが滞留する時間量、及び、その時間中のカメラの移動の規定が与えられる。移動の例には、継続的な滞留が含まれる。通常、カメラ104は、人間の手をシミュレートするために、制御点付近でジッタリングする。他の移動には、ズームイン及びズームアウトが含まれる。これは、ソース文書106までの距離を調節することによって、ユーザがカメラ104をフォーカスさせようとしていることをシミュレートする。別の滞留動作関数には回転がある。滞留動作関数は、前述の基本動作、及び他の動作の任意の組み合わせでもあり得る。滞留動作関数は、滞留中にフレームが生成される都度の、カメラの位置の手作業の規定であり得る。各動作に割り当てられる滞留時間量は一様であるか、ユーザ規定されるか、又は、別の数学的な関数によって規定することが可能である。
【0023】
図19A、図19B及び図19Cは、人間行動モデル及び関連した制御点の3つの実施例を示す図である。図19Aに示す例では、「情報ブラウジング」という名前のタスクがシミュレートされる。制御点間の時間は、点間をナビゲートするための時間、及び各点において停止するための時間を求める定数組として規定される。線形動的システムを用いて、制御点間のパスを求める。第1の制御点p0は、カメラ104が静止状態にあることを規定している(すなわち、座標は全て、ゼロである)。第2の制御点p1は、文書の左上隅の右に2インチ(5cm)、文書の左上隅から下に3インチ(7.5cm)、文書のページの上方に3インチ(7.5cm)であり、文書に垂直であることを規定する。3つのオイラー角度はゼロである。p1は、x、y、z位置及び別々のオイラー角度における変化を規定する。thetax=20度、thetax=10度、及びthetaz=10度である。
【0024】
図19Bに示す例では、「ポイント・アンド・クリック」という名前のタスクがシミュレートされる。制御点間の時間は、フィッツの法則を施すことによって求められ、滞留時間は、定数(5秒)として規定される。動作関数は、カルマン・フィルタによって求められる。制御点は、静止状態における最初の点p0として規定される。カメラ104は、文書の左2インチ(5cm)、及び、最上部から下3インチ(7.5cm)の所にある。第2の制御点は、ソース文書106上の最も左上の段落の中心を算出する関数によって自動的に求められる。
【0025】
図19Cに示す例では、「拡張現実」という名前のタスクがシミュレートされる。3つの制御点が設けられている(最初のp0は、静止状態のカメラを示している)。p0からp1にナビゲートするための時間は、アコットの法則によって算出される。カメラはp1において6秒間滞留する。p0とp1との間の遷移動作はカルマン・フィルタによって求められ、カメラ104は、p1において滞留中にズームイン及びズームアウトを行う。p1からp2に移動するための時間はフィッツの法則によって求められ、遷移動作はカルマン・フィルタによって求められる。p2において滞留している間、カメラ104は、滞留時間の40%の間、ズームイン及びズームアウトを行い、滞留時間の残りの60%の間、左に回転する。
【0026】
パス生成器202は、位置、速度、加速度及びジャークを含む一連の状態として、制御点間の軌道601を求める遷移動作関数として離散時間線形動的システムを用いることができる。一実施例では、パス生成器202は雑音を含む。図7は、最小エネルギ駆動力を用いた、軌道601の推定を示す3次元図である。一実施例では、位置推定は、ビデオ系列中の自己移動の推定のためにビデオ・モザイキングを行うためのビデオ特徴マッチング手法(内容を本明細書及び特許請求の範囲に援用する、T.Sato、S.Ikeda、M.Kanbara、A.Iketani、N.Nakajima、N.Yokoya及びK.Yamadaによる「High-resolution Video Mosaicing for Documents and Photos for Estimating Camera Motion (Proceedings of SPIE 5229, 246 (2004))」記載のビデオ特徴マッチング手法など)を用いることができる。一実施例では、グラウンドトルース・データの存在が理由で、一般的な画像登録(フーリエ・メラン変換など)を用いることができる。
【0027】
一実施例では、パス生成器202は、制御点間のパスを求める遷移動作関数として最小エネルギ解析を行う。カメラ104の位置及び向きは、3つの位置パラメータ及び3つのオイラー角度によって表す。前述はそれぞれ、離散時間線形動的システムを用いて更新される。例えば、ソース文書106の原点に対する、カメラ104の位置(単位:インチ(2.5cm))はXで表される。時間nにおける、カメラのX位置の状態は、
Xn=[P[n]V[n]A[n]J[n]]’
によって表す。
【0028】
ここで、P[n]は、X方向におけるカメラ104の位置であり、V[n]は速度であり、A[n]は加速度であり、J[n]はジャークである。時間n+1における、カメラのX位置の状態は、
Xn+1=A*Xn+B*u(t)
の関係によって表す。
【0029】
ここで、u(t)は駆動力として知られており、
【数1】
であり、
【数2】
である。
【0030】
線形動的システムから、状態Xdexがnステップで到達可能な場合、可制御行列は、
Cn=[B AB… An-1B]
である。
【0031】
開始点から、所望の状態Xdexにnステップで達するための最小エネルギ解を用いれば、
u(t)=CnT(CnCnT)-1Xdex
が得られる。
【0032】
画像生成モデル204は、カメラ内部モデル504を用いて、画像110を生成するためのカメラ内部パラメータを求めることもできる。画像生成モデル204は光線追跡をカメラ内部パラメータを用いて算出して、カメラ原点からのセンサの各画像を通って放たれる光線がソース文書106と交差する所を求める。一実施例では、カメラの内部パラメータは、2つの焦点距離(fx及びfy(単位:画素))、主点座標((ccx及びccy)(単位:画素))、スキュー係数、並びに、放射方向歪み及び接線方向歪みを表す5つの係数である。別の実施例では、内部パラメータは、内容を本明細書及び特許請求の範囲において援用する、Z. Zhangによる「A flexible new technique for camera calibration (IEEE Transactions on Pattern Analysis and Machine Intelligence、 v. 22, no.11, Nox. 2000, 1330-1334)」記載のモデルを用いて解析される。図8は、20個の画像のチェッカーボード校正目標のサンプル、及び校正の結果を示す図である。校正は、焦点距離、光学的中心、スキュー、並びに、放射方向歪み及び接線方向歪みを補正することができる。あるいは、カメラ104のタイプのストック・パラメータ組を用いることができる。
【0033】
画像生成モデル204は、x方向及びy方向に半画素分だけ、画像平面における追跡光線のx、y位置をジッタリングし、次いで、光線の、ページとの間で生じる4つの交差の平均値を用いることによって、最終画像におけるエイリアシングを削減することができる。
【0034】
画像生成モデル204は、画像を生成するためのセンサ雑音モデル506を含み得る。一実施例では、センサ雑音モデル506は、内容を本明細書及び特許請求の範囲において援用する、Costantini, R.及びSusstrunk, S. による「Virtual Sensor Design (Proceedings of the SPIE, Volume 5301, pp. 408-419 (2004))」の仮想センサ設計などの信号依存性雑音及び信号に依存しない雑音を備えるセンサ雑音モデルである。別の実施例では、センサ雑音モデル506は、画素利得の非一様性のみを含む。センサ雑音モデル506は、平均1、及び、雑音の所望レベルを達成するよう調節可能な範囲を有する一様な変数を含み得る。画像生成モデル204は、光線追跡によって算出された画素の算出強度値で、利得の非一様性を乗算する。
【0035】
図9は、例示的なセンサ雑音モデル506を示す図である。画素利得の非位置養成のスケール係数を実画像について機械学習手法を用いて推定することが可能である。一実施例では、センサ雑音モデルは、仮想画像、及びマッチングされる実画像における空間周波数の分布の類似度を最大にするための滑降シンプレックス(ネルダー・ミード)アルゴリズムを含む(内容を本明細書及び特許請求の範囲において援用する、Kanungo, T.及びZheng, Q.による「A Downhill Simplex Algorithm for Estimating Morphological Degradation Model Parameters (University of Maryland Technical Report, LAMP-RT-006)」を参照されたい)。
【0036】
一実施例では、センサ雑音モデル506は、以下のように定義される近傍周波数分布(NFD)を用いる。画像における8x8画素ブロック901毎に、2DFFT(2次元高速フーリエ変換(FFT))が算出される(902に図示している)。ブロックは大半がテキスト又は大半が背景である旨をFFTのDC係数が示す場合、ブロックをこの時点で廃棄することができる。2DFFTの振幅の対数の左上隅の対角成分が平均化される。合計で6つの周波数帯が検討される。
【0037】
次いで、6ビットの特徴ベクトル903が構成される。各ビットは、かなり大きな成分が周波数帯それぞれにおいて存在しているか否かを示す。この場合における「かなり大きな」は、同様な画像の母集団の平均(事前に求められる)よりも大きいとして定義される。
【0038】
画像内の8x8画素ブロック全てのこの特徴ベクトル903のサンプルが、コルモゴロフ-スミルノフ検定(KS検定)の2サンプルのバージョンを用いて別の画像からのサンプルと比較することが可能である。滑降シンプレックス・アルゴリズムのコスト関数入力として、センサ雑音モデル506は、KS検定がもたらすKS統計を用いる。(2つの母集団が実際に、単一の母集団から引き出されているという)ナル仮説を2つの母集団が満たす状態に近付くにつれてゼロに達する。滑降シンプレックス・アルゴリズムを用いる利点は、目的関数の導関数を計算しない点である。最適化関数は凸でないことがあり得るので、異なる当初シンプレックス推測を有するアルゴリズムの複数のランダムな再起動を行うことができる。一実施例では、0.01程度の画素利得非一様性スケール値は、アルゴリズムが収束する所である。
【0039】
画像生成モデル204は、ヒストグラム効果モデル508を含む。実際に、実際のセンサを用いて捕捉された画像のヒストグラムの範囲は、シーンにおいて存在している強度値の範囲よりも小さい。ヒストグラム効果モデル508は、実際のカメラによって撮られた特定のサンプル画像において生起する値の範囲内に収まるよう仮想画像のヒストグラム値を写像することによるか、又は、ルックアップ・テーブル変換によってその画素値累積分布が画像例の画素値の累積分布に一致するように仮想画像のヒストグラムを変換しようとする、より複雑なヒストグラム・マッチングによってこの効果をモデリングすることができる。
【0040】
一実施例では、ヒストグラム効果モデル508は、最大値及び最小値を有する所望のヒストグラムを含み、仮想画像のヒストグラムは、所望のヒストグラムに一致するよう調節される。別の実施例では、所望のヒストグラムは、ユーザ規定のサンプル画像から得られる。
【0041】
画像生成モデル204は、文書画像の上方に投げかけられるシャドウを生成するためのシャドウ・マスク・モデル510を含む。ユーザの腕又はカメラ自体によって文書画像の上方に投げかけられることが多い大きな大域的なシャドウをモデリングするために、シャドウ・マスクを用いる。図10Aは、シャドウ・マスク1001を示す図である。図10Bは、シャドウ・マスク1001を用いて生成されるシャドウを有する仮想画像を示す図である。シャドウ・マスク1001を要素単位で仮想画像と乗算して、シャドウを有する仮想画像を生成する。
【0042】
一実施例では、ユーザ規定のサンプル画像における大域的なシャドウ・マスクは、SIGGRAPH2003におけるポスター・プログラム「Shadow Removal from a Real Image Based on Shadow Density」においてM.Baba、M.Mukunoki及びN.Asadaによって提案された手法を用いて推定される。サンプル画像はまず最大値フィルタを用いてフィルタリングされ、次いで、最小値フィルタを用いてフィルタリングされ、次いで、平滑化フィルタを用いてフィルタリングされる。画像の大域的な輝度が結果として生じる。仮想文書画像生成器では、これはシャドウ・マスクとして直接用いられるが、更なる閾値化を行って別個の半影マスク及び本影マスクをもたらすことが可能である。図11Aは、シャドウ・マスク・モデル510を用いて生成された画像の種々のシャドウ、及び半影領域及び本影領域を示す図である。図11Bは、シャドウ、半影領域及び本影領域を有する画像の輝度を示す3次元図である。別の実施例では、いくつかのシャドウ・マスクが、特定のカメラ位置(X、Y、Z、thetax、thetay、thetaz)について予め算出される。シャドウ・マスク・モデル510は、位置がカメラの位置に最も近いシャドウ・マスクを選ぶよう修正される。至近性についての決定は、ユークリッド距離尺度や他の一般に用いられる距離尺度(例えば、都市ブロック距離等)によって行うことが可能である。別の代替的な実施例では、シャドウ・マスクは、カメラの位置、全域照明モデル、シャドウを投げかけ得る物体のモデルを前提として動的に生成される。シャドウ・マスク・モデル510は、カメラ位置を動的シャドウ生成アルゴリズムに供給し、算出するシャドウを仮想画像と要素単位で乗算して、シャドウを有する仮想画像を生成するよう修正される。
【0043】
画像生成モデル204は口径食モデル512を含む。口径食モデル512は、画像画素に対応する光線と、カメラの光学軸との間の角度の増加に伴う、輝度における「コサイン4乗」減衰を、その角度のコサインの4乗で画素値を乗算することによって捕捉するための、口径食に似た効果をモデル画像において含む。実画像における口径食は、レンズ・エレメントによる妨害によって遠隔の軸外光線が物理アパーチャに達しないことの結果である。口径食モデル512は例えば、内容を本明細書及び特許請求の範囲に援用する、Aggarwal. M.、Hua, H.及びAhuja, N.による「On Cosine-fourth and Vignetting Effects in Real Lenses (Int.Conf. on Computer Vision (ICCV) Proceedings, Volume 1, Vancouver, Canada, July 9-12, 2001 ページ:472-479)」記載の口径食モデルであり得る。図12は、口径食を有する画像を示す図である。一実施例では、口径食効果は、コサイン4乗効果をディセーブルすることが可能であるように、やはり、シャドウ・マスク推定手順によってうまく捕捉される。
【0044】
画像生成モデル204は、パス生成器202からの座標、及びカメラ内部パラメータを用いて、フォーカスされていないカメラ104によってもたらされるブラーを補正するためのフォーカス・ブラー・モデル514を含む。一実施例では、フォーカス・ブラー・モデル514は、カメラ104の光学軸に沿った、ページまでの距離と、カメラが「フォーカスされている」として経験的に判定される距離(何れも単位:インチ(2.5cm))との間の差の絶対値として算出される標準偏差を有する単一ガウシアン点広がり関数(PSF)を含む。フォーカス・ブラー・モデル514は次いで、フォーカス・ブラー・スケール・パラメータ(フォーカス・ブラーの振幅を制御するためにユーザ規定することができる)で標準偏差をスケーリングする。ブラーはよって、カメラの移動に伴って線形的に増減する。図13Aは、フォーカス・ブラー・モデルのガウシアンPSFを示す3次元図である。図13Bは、フォーカス・ブラー・モデル514を用いて形成された画像を示す図である。
【0045】
フォーカス・ブラー・スケール・パラメータは、近傍周波数分布及び滑降シンプレックス・アルゴリズム(センサ雑音パラメータとともに前述している)を用いて推定することもできる。滑降シンプレックス・アルゴリズムは、複数のパラメータを同時に最適化することが可能である。一実施例では、フォーカス・ブラー・スケール係数は、約0.3乃至約0.5の範囲である。
【0046】
画像生成モデル204は、画像106に対する、カメラ104の動きによってもたらされる画像のブラーをモデリングするモーション・ブラー・モデル516を含む。一実施例では、モーション・ブラー・モデル516は、共通のブラーを用いて画像の部分全てについてブラーをモデリングする大域的なブラー・モデルを含む。このモデルは、カメラの実際のパラメータ(露光時間など)を含まず、画素と画像との間の距離差を含まない。後者は、特定のセンサ画素が他のセンサ画素よりも紙に近いことを補正しておらず、よって、モーション・ブラーの低下があり得る。この実施例において、大域的なブラーは、露光時間中にカメラ104が移動した場合に生じる、2つの直交方向(x及びyなど)におけるブラーの量を表し、ユーザが選択することができるブラー・パラメータblur_dx及びblur_dyによって方向及び振幅が求められるパスに沿った画素値の平均によって、最後の画像の各画素を置き換えることによって達成される、人工的であるが、知覚的にそれらしく見えるモーション・ブラーである。
【0047】
別の実施例では、モーション・ブラー・モデル516は、対応する別々のカメラ位置の複数の中間画像を生成し、これらの画像を一画像に合成してブラーを表す。画像は、k回再レンダリングされる(部分的な位置変動は、所望の露光時間及びカメラ速度に対応する)。例証的な例として、モーション・ブラー・モデル516は、blur_dx及びblur_dyプラー・パラメータ組をゼロにセットし、特定の速度で移動しており、特定の露光時間を有していた場合にカメラ104が占める、設定された個数(k)の等間隔の中間位置において算出することによって仮想画像のブラーを生成する。最後の画像は、前述のk個の中間画像の平均である。この実施例は、より大きなkとともに増加する、最終画像の平滑性と、kとともに線形に増加する、画像組をレンダリングするために要する時間との間のトレードオフを提供し得る。図14は、モーション・ブラー・モデル516を用いてブラーが生じたビデオ・フレームの例証的な例の図である。
【0048】
画像生成モデル204は、可展面(例えば、折った紙又は製本ボリュームのワープやカールによってもたらされる)を有する画像を生成するために等長的表面モデル518を含む。可展面は例えば、「引き裂くことも引き伸ばすこともなく平面上に展開することが可能な」表面であり得る(内容を本明細書及び特許請求の範囲において援用する、J.Liang、D.Dementhon、及びD.Doermannによる「Flattening Curved Documents in Images (Proc. Of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR)、 2005)」)。これは等距離写像である。文書の表面に沿った距離は同じ状態に留まるからである。このようにしてワーピングするものとしてソース文書がモデリングされた場合、光線・平面交差の算出は、より一般的な光線・関数交差になる。図15A及び図15Bは、画像の一方向における二次曲線群及び三次曲線群それぞれを示す3次元図である。
【0049】
画像生成モデル204は、材料特性及び光源特性の効果をモデリングするための全般照明モデル520を含む。上記効果は、内容を本明細書及び特許請求の範囲において援用する、「Real-Time Rendering(A.K.Peters, Natick、 MA. 2nd Edition (2002), pp. 70-84)」にT.Akenine-Moller及びE.Hainesによって記載されているように、周囲成分、拡散反射成分及び鏡面反射成分を含み得る。上記効果は、光線追跡中に算出することができる。合計照度の周囲成分は、紙の周囲(ambient)定数と光源の周囲定数との積である(例えば、光源が周囲光を何ら照らさない場合、その周囲定数はゼロになる。)拡散反射成分は、紙の拡散反射定数と光源の拡散反射定数との積を、紙上の関心点から光源へのベクトルと、その点における法線ベクトルとの内積で乗算した結果である。最後に、鏡面反射成分は、紙の鏡面反射係数と光源の鏡面反射係数との積と、照明ベクトルと法線ベクトルとの間の正規化された半分のベクトルと、法線ベクトルとの内積とを乗算したものに輝き成分のべき指数をかけたものである。周囲成分、拡散反射成分及び鏡面反射成分が加算されると、その合計照度値を用いて、仮想画像における対応する画素の振幅を変調する。図16は、ストロボ写真の効果を再現するために全般照明モデルによって生成される仮想画像を示す図である。第1の実施例では、紙(又は一般には物体)並びに光源の周囲係数、拡散反射係数及び鏡面反射係数と、光源の位置の数は固定である。別の実施例では、光源の位置は、経過時間、フレーム番号、又は任意のユーザ設定の関数として変わり得る。別の代替的な実施例では、周囲係数、拡散反射係数及び鏡面反射係数も、経過時間、フレーム番号、又は任意のユーザ設定の関数として動的に変わり得る。これは、物体の物理組成における変化(その自然時効や、紙文書においては、高照度の光や特定の他の力(熱など)の存在下でのその退色)をシミュレートすることを可能にする。これは、感熱紙文書の退色をシミュレートすることが可能である。
【0050】
画像生成モデル204は、背景クラッタの効果をまねるための背景モデル522を含む。ユーザは、ソース文書106の境界の外側にある画像領域内に表示する対象の背景画像を規定することができる。図17は、例示的な背景画像を示す。背景クラッタは、検査画像又は訓練画像において余分な情報をもたらし、それによって、光学式文字認識などのアプリケーションにおいて問題を引き起こす。背景モデルは、追跡光線が文書のマージンの外側の紙平面と交差した場合の画素値を光線追跡が供給するための背景としてデスクトップ・シーンの高分解能画像を用いることによって背景クラッタをまねる。一実施例では、画像は、小さな被写界深度を有する。シーン平面はカメラの画像平面と平行である。単一の固定背景画像を用いることができる。別の実施例では、いくつかの背景画像が提供され、背景モデルは、乱数生成器を用いてそれらの1つを確率的に選ぶ。例えば、時間の60%は一画像を用いることができ、時間の30%は別の画像を用いることができ、全フレームの10%は別の画像を用いることができる。更に別の代替的な実施例では、背景画像はビデオ・クリップとして提供することが可能であり、背景として用いる特定のフレームは、最初に生成されたフレームから経過した時間、先行して生成されたフレームの数によって、又は、ユーザ設定によって判定される。ソース文書がビデオ・ディスプレイ上に示されており、背景が動的に変わった場合にそうであるように背景がソース文書と共平面である場合、背景として用いられる特定のフレームを光線追跡することが可能である。別の実施例では、背景として用いられる特定のフレームが、カメラからのその距離についてソース文書とは異なる設定の下ではあるが、カメラ(X、Y、Z、thetax、thetay、thetaz)の位置を前提として、光線追跡することが可能である。別の実施例では、光線追跡して背景画像を生成することが可能な、背景の3次元モデルを用いる。
【0051】
画像生成モデル204は、カメラ104の画像圧縮をモデリングするための画像圧縮モデル524を含む。画像圧縮は例えば、静止画像圧縮又はビデオ圧縮であり得る。画像生成モデル204は、異なる圧縮レベルの種々の画像形式で仮想画像を生成する。
【0052】
画像生成モデル204は、ページ・ブリードスルーのモデル526を含み得る。ブリードスルーは、走査文書画像では、多くの場合、生じる。一実施例では、ページ・ブリードスルー・モデルは、第2の文書画像(本のブリードスルーの場合に、長手方向軸を中心に回転させることができる)を第1の文書画像と合成することを含む。光線がソース文書と交差する場合、以下の発見的方法を用いることができる。光線がテキスト画素(暗画素)と交差すると、センサ画素値がその値にセットされる。しかし、光線が非テキスト画素(明画素)と交差すると、センサ画素値は、A*,,+B*(1-,,)にセットされる。ここでAはその画素におけるソース文書の値であり、Bはその画素における反対側の文書の値であり、「,,」は混合値である(例えば、0.85は、現実的な可視ブリードスルーに適切な値であり得る)。
【0053】
図18は、画像生成システム100の動作を示すフロー図である。画像生成システム100は、人間行動のモデル、制御点組、及びカメラのフレーム・レート、ラスタ及びグラウンドトルースに変換可能な物体情報、カメラ特性、並びに画像歪みパラメータを含む、動きの規定を受信する。パス生成器202は、基準点に対する、物体の動きのパスを生成する(1804)か、又は、基準点に対する、物体の位置を生成する。画像生成モデル204は、グラウンドトルース及び生成パスから参照フレームの一連の画像、又は画像を生成する(1806)。画像生成モデル204は、パス又は位置、物体情報、カメラ特性及び画像歪みパラメータを用いて、グラウンドトルース情報を含む画像又はビデオ・データも生成することができる。
【0054】
一実施例では、画像生成システム100は、物体情報からの個人の画像又はビデオを生成し、顔認識のために、一又は複数の個人の実際の画像又はビデオとこれが比較される。別の実施例では、個人の一部分の画像又はビデオが、医療撮像との比較のために、かつ診断のために生成される。
【0055】
本明細書における、「一実施例」又は「実施例」への参照は、そうした実施例に関して記載した特定の構成要素、特徴、構造又は特性が少なくとも一実施例に含まれることを意味する。本明細書中の種々の箇所における句「一実施例における」は必ずしも、その全てが同じ実施例を表すものでない。
【0056】
「結合された」及び「接続された」の表現、並びにそれらの派生形を用いて、特定の実施例を説明していることがあり得る。前述の語は、互いに同義であることを意図するものでない。例えば、「接続された」の語を用いて特定の実施例を説明して、2つ以上の構成要素が互いに直接、物理的に又は電気的に接触していることを示すことができる。別の例では、「結合された」の語を用いて特定の実施例を説明して、2つ以上の構成要素が互いに直接、物理的に又は電気的に接触していることを示すことができる。しかし、「結合された}の語は、2つ以上の構成要素が互いに直接、接触している訳でないが、なお、互いに協調、又は相互作用することも意味し得る。実施例はこの意味合いで限定される訳でない。
【0057】
本明細書及び特許請求の範囲記載の通り、「comprises」、「comprising」、「includes」、「including」、「has」、「having」又はその何れかの他の変形が、排他的でない包含をカバーすることを意図している。例えば、構成要素のリストを有する処理、方法、物若しくは装置は、必ずしも前述の構成要素に限定される訳でない一方、明記されていないか、又は前述の処理、方法、物若しくは装置に固有の他の構成要素を含み得る。更に、別途明記していない限り、「or」は、包含的論理和を表し、排他的論理和は表さない。例えば、条件A又はBは、以下の何れかによって満たされる(Aが真であり(又は存在しており)、Bが偽である(又は存在していない)場合と、Aが偽であり(又は存在しておらず)、Bが真である(又は存在している)場合と、A及びBが真であり(又は存在している)場合)。
【0058】
更に、「a」又は「an」を用いて。本発明の構成要素及び構成部分を表す。これは、便宜上、かつ、本発明の概略を示すために行っているに過ぎない。前述の記載は、1つ又は少なくとも1つを含むとして読むものとし、単数形は、そうでないことを意味することが明らかでない限り、複数形も含む。
【0059】
本明細書及び特許請求の範囲を読めば、当業者は、本明細書及び特許請求の範囲に開示された原理によって、グラウンドトルースを用いて合成画像又はビデオを生成するシステム及び方法のなお更に別の構造設計及び機能設計を認識するであろう。よって、特定の実施例及び応用例を例証し、説明したが、本発明は、本明細書及び特許請求の範囲に開示されたまさにその構成及び構成部分に限定されず、当業者に明らかになる種々の修正、変更及び変形を、本発明の方法並びに装置の装置、動作及び詳細において特許請求の範囲記載の本発明の趣旨及び範囲から逸脱しない限り、行うことができる。
【図面の簡単な説明】
【0060】
【図1】本発明による画像生成システムを示す図である。
【図2】図1の画像生成システムの一実施例を示すブロック図である。
【図3】図1のソース文書、及びソース文書のグラウンドトルースを示すマーキングした領域の画像を示す図である。
【図4】ソース文書からカメラまでの光線追跡を示す図である。
【図5】図2の画像生成システムの画像生成モデルを示すブロック図である。
【図6】ソース文書の上方の例示的なビデオ軌道を示す3次元図である。
【図7】最小エネルギ駆動力を用いた、図6の軌道の推定を示す3次元図である。
【図8】20個の画像のチェッカーボード校正目標のサンプル、及びカメラ校正ツールボックスを示す図である。
【図9】センサ雑音モデルを示す図である。
【図10A】シャドウ・マスクを示す図である。
【図10B】図10Aのシャドウ・マスクを用いて生成されるシャドウを有する仮想画像を示す図である。
【図11A】画像の種々のシャドウ、半影領域及び本影領域を示す図である。
【図11B】シャドウ、半影領域及び本影領域を有する画像の輝度を示す3次元図である。
【図12】口径食を有する画像を示す図である。
【図13A】フォーカス・ブラー・モデルのガウシアンPSFを示す3次元図である。
【図13B】フォーカス・ブラー・モデルを用いて形成された画像を示す図である。
【図14】モーション・ブラー・モデルを用いてブラーが生じたビデオ・フレームの例証的な例を示す図である。
【図15A】画像の一方向における二次曲線群を示す3次元図である。
【図15B】画像の一方向における三次曲線群を示す3次元図である。
【図16】ストロボ写真の効果を再現するために全般照明モデルによって生成される仮想画像を示す図である。
【図17】例示的な背景画像を示す図である。
【図18】図1の画像生成システムの動作を示すフロー図である。
【図19A】人間行動モデル及び関連した制御点の実施例を示す図である。
【図19B】人間行動モデル及び関連した制御点の別の実施例を示す図である。
【図19C】人間行動モデル及び関連した制御点の更に別の実施例を示す図である。
【符号の説明】
【0061】
100 画像生成システム
102 プリンタ
104 画像捕捉装置
106 ソース文書
108 画像
110 仮想画像
200 ビデオ生成器
202 パス生成器
204 画像生成モデル
【特許請求の範囲】
【請求項1】
ビデオを生成する方法であって、
物体を表す物体情報を受信する工程と、
基準点に対する前記物体の動きのパスを生成する工程と、
基準フレームの一連の画像及びグラウンドトルースを前記物体情報及び前記生成されたパスから生成する工程とを備える方法。
【請求項2】
請求項1記載の方法であって、前記基準点が前記物体の画像を受信する方法。
【請求項3】
請求項1記載の方法であって、ハンドヘルド型撮像装置が前記基準点において配置される方法。
【請求項4】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
前記物体に対する、画像装置の位置及び向きに基づいて前記一連の画像を生成する工程を含む方法。
【請求項5】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
画像捕捉装置の特性に応じて前記一連の画像を生成する工程を含む方法。
【請求項6】
請求項5記載の方法であって、画像捕捉装置の前記特性がヒストグラム効果を含む方法。
【請求項7】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
画像圧縮に応じて前記一連の画像を生成する工程を含む方法。
【請求項8】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
モーション・ブラーに応じて前記一連の画像を生成する工程を含む方法。
【請求項9】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
フォーカス・ブラーに応じて前記一連の画像を生成する工程を含む方法。
【請求項10】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
背景に応じて前記一連の画像を生成する工程を含む方法。
【請求項11】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
カメラ内部特性に応じて前記一連の画像を生成する工程を含む方法。
【請求項12】
請求項1記載の方法であって、前記一連の画像を生成する工程が、等長的表面に応じて前記一連の画像を生成する工程を含む方法。
【請求項13】
請求項1記載の方法であって、前記物体が人間の一部分である方法。
【請求項14】
ビデオ生成器であって、
物体を表す物体情報を受信するためのインタフェースと、
基準点に対する、前記物体の動きのパスを生成するためのパス生成器と、
基準フレームの一連の画像及びグラウンドトルースを前記物体情報及び前記生成されたパスから生成するための画像生成器とを備えるビデオ生成器。
【請求項15】
画像を生成する方法であって、
文書を表す物体情報を受信する工程と、
前記文書と基準点との間の位置関係を判定する工程と、
前記文書及びグラウンドトルースの画像を、前記物体情報及び前記位置関係から、かつ、前記文書のユーザ指定環境に応じて生成する工程とを備える方法。
【請求項16】
請求項15記載の方法であって、前記文書及びグラウンドトルースの画像を生成する工程が、
位置、画像の記述、カメラ特性、及び画像歪みパラメータを用いて画像データ及びグラウンドトルースを生成する工程を備える方法。
【請求項17】
請求項15記載の方法であって、前記文書の前記ユーザ指定環境が前記文書の照明を含む方法。
【請求項18】
請求項15記載の方法であって、前記文書の前記ユーザ指定環境が、前記文書の画像を捕捉する撮像捕捉装置の特性を含み、前記生成された画像が、前記捕捉された画像の視覚画像である方法。
【請求項19】
請求項15記載の方法であって、前記文書の前記ユーザ指定環境が前記文書の特性を含む方法。
【請求項20】
請求項19記載の方法であって、前記文書の特性が前記文書の形状を含む方法。
【請求項21】
画像生成器であって、
文書を表す物体情報を受信するためのインタフェースと、
前記文書と基準点との間の位置関係を判定するためのプロセッサと、
前記文書及びグラウンドトルースの画像を、前記物体情報及び前記位置関係から、かつ、前記文書のユーザ指定環境に応じて生成するための生成器とを備える画像生成器。
【請求項1】
ビデオを生成する方法であって、
物体を表す物体情報を受信する工程と、
基準点に対する前記物体の動きのパスを生成する工程と、
基準フレームの一連の画像及びグラウンドトルースを前記物体情報及び前記生成されたパスから生成する工程とを備える方法。
【請求項2】
請求項1記載の方法であって、前記基準点が前記物体の画像を受信する方法。
【請求項3】
請求項1記載の方法であって、ハンドヘルド型撮像装置が前記基準点において配置される方法。
【請求項4】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
前記物体に対する、画像装置の位置及び向きに基づいて前記一連の画像を生成する工程を含む方法。
【請求項5】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
画像捕捉装置の特性に応じて前記一連の画像を生成する工程を含む方法。
【請求項6】
請求項5記載の方法であって、画像捕捉装置の前記特性がヒストグラム効果を含む方法。
【請求項7】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
画像圧縮に応じて前記一連の画像を生成する工程を含む方法。
【請求項8】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
モーション・ブラーに応じて前記一連の画像を生成する工程を含む方法。
【請求項9】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
フォーカス・ブラーに応じて前記一連の画像を生成する工程を含む方法。
【請求項10】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
背景に応じて前記一連の画像を生成する工程を含む方法。
【請求項11】
請求項1記載の方法であって、前記一連の画像を生成する工程が、
カメラ内部特性に応じて前記一連の画像を生成する工程を含む方法。
【請求項12】
請求項1記載の方法であって、前記一連の画像を生成する工程が、等長的表面に応じて前記一連の画像を生成する工程を含む方法。
【請求項13】
請求項1記載の方法であって、前記物体が人間の一部分である方法。
【請求項14】
ビデオ生成器であって、
物体を表す物体情報を受信するためのインタフェースと、
基準点に対する、前記物体の動きのパスを生成するためのパス生成器と、
基準フレームの一連の画像及びグラウンドトルースを前記物体情報及び前記生成されたパスから生成するための画像生成器とを備えるビデオ生成器。
【請求項15】
画像を生成する方法であって、
文書を表す物体情報を受信する工程と、
前記文書と基準点との間の位置関係を判定する工程と、
前記文書及びグラウンドトルースの画像を、前記物体情報及び前記位置関係から、かつ、前記文書のユーザ指定環境に応じて生成する工程とを備える方法。
【請求項16】
請求項15記載の方法であって、前記文書及びグラウンドトルースの画像を生成する工程が、
位置、画像の記述、カメラ特性、及び画像歪みパラメータを用いて画像データ及びグラウンドトルースを生成する工程を備える方法。
【請求項17】
請求項15記載の方法であって、前記文書の前記ユーザ指定環境が前記文書の照明を含む方法。
【請求項18】
請求項15記載の方法であって、前記文書の前記ユーザ指定環境が、前記文書の画像を捕捉する撮像捕捉装置の特性を含み、前記生成された画像が、前記捕捉された画像の視覚画像である方法。
【請求項19】
請求項15記載の方法であって、前記文書の前記ユーザ指定環境が前記文書の特性を含む方法。
【請求項20】
請求項19記載の方法であって、前記文書の特性が前記文書の形状を含む方法。
【請求項21】
画像生成器であって、
文書を表す物体情報を受信するためのインタフェースと、
前記文書と基準点との間の位置関係を判定するためのプロセッサと、
前記文書及びグラウンドトルースの画像を、前記物体情報及び前記位置関係から、かつ、前記文書のユーザ指定環境に応じて生成するための生成器とを備える画像生成器。
【図2】
【図5】
【図18】
【図19A】
【図19B】
【図19C】
【図1】
【図3】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10A】
【図10B】
【図11A】
【図11B】
【図12】
【図13A】
【図13B】
【図14】
【図15A】
【図15B】
【図16】
【図17】
【図5】
【図18】
【図19A】
【図19B】
【図19C】
【図1】
【図3】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10A】
【図10B】
【図11A】
【図11B】
【図12】
【図13A】
【図13B】
【図14】
【図15A】
【図15B】
【図16】
【図17】
【公開番号】特開2008−176791(P2008−176791A)
【公開日】平成20年7月31日(2008.7.31)
【国際特許分類】
【出願番号】特願2008−8112(P2008−8112)
【出願日】平成20年1月17日(2008.1.17)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
【公開日】平成20年7月31日(2008.7.31)
【国際特許分類】
【出願日】平成20年1月17日(2008.1.17)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
[ Back to top ]