画像中のピクセルの機械支援による人為的ラベル付けのシステムおよび方法

【課題】グラウンドトゥルースデータを取得するための面倒および時間を緩和する。
【解決手段】コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能なグラウンドトゥルースユーザインターフェースラベラ１１２において、コンピュータ環境に格納された画像の前景ピクセルのみにピクセル基準でラベルを割り当てるためのラベル付け機構と、ユーザによってピクセルが選択された後であってコミットされる前に、前記割り当てられたラベルを変更できるようにする暫定操作モードを設定する手段と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本出願は、画像処理に関し、より具体的には、ピクセルのレベルでオリジナルのグラウンドトゥルース(groundtruthed)画像を生成することに関する。
【背景技術】
【０００２】
グラウンドトゥルースの必要性は、機械学習ベースのアルゴリズムを訓練し、アルゴリズムの性能を評価する文書画像解析において浸透している。しかし、グラウンドトゥルースデータは取得するのが困難である。作成するのが面倒で時間がかかり、また、研究グループごとに異なるフォーマットおよび規格に依存している。豊富で高品質なグラウンドトゥルースデータの不足は、画像処理の様々な分野における改善を妨げるものと見られている。民間のＯＣＲ企業が、自社のグラウンドトゥルース文書のデータベースを競合し得る資産と見ていることが、この状況を証拠づけている。
【先行技術文献】
【非特許文献】
【０００３】
【非特許文献１】L. C. ハーら, "The Architecture Of Trueviz: A Groundtruth/Metada Editing And Visualizing Toolkit", Pattern Recognition, 36（3）:811-825, 2003
【非特許文献２】ヤンら, "Semi-Automatic Groundtruth Generation For Chart Image Recognition", DAS, pages 324-335, 2006
【発明の概要】
【発明が解決しようとする課題】
【０００４】
現在、グラウンドトゥルースは主として２つの手段によって行われている。主要な方策は、エンクロージャによってグラウンドトゥルースを行うものである。概して便宜の問題として、ほとんどのエンクロージャグラウンドトゥルースは、矩形領域をラベル付けすることに焦点を当てているが、それは、ラベルタイプに従って色分けされた矩形をドラッグするユーザインターフェースを考案する、比較的単純なものであるためである。別のエンクロージャタイプのグラウンドトゥルースプロセスは、多角形領域を囲い込みの（enclosing）機構として用いる。
【０００５】
第２のグラウンドトゥルースの方策は、ピクセルベースで画像をラベル付けするマイクロソフトペイントやアドビフォトショップなどの標準的な画像編集ツールを使用するものである。例えば、これらのツールのブラシ動作がグラウンドトゥルース操作に用いられることがある。しかし、この方策は面倒で不正確であり、急速に極めて非常に労働集約的になってしまう。
【０００６】
以前の文書画像グラウンドトゥルースツールが、非特許文献１にて考察されており、これは、文書画像中のレイアウトおよび視覚構造を使用している。別のグラウンドトゥルースツールが、非特許文献２によって説明されている。
【０００７】
グラウンドトゥルースデータを取得するための面倒および時間を緩和する、新しいツールおよび方法が有益であると考えられる。
【課題を解決するための手段】
【０００８】
ユーザインターフェースおよび方法は、コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能である。ユーザインターフェースは、コンピュータ環境に格納された画像の前景ピクセルのみをラベル付けするラベラ（labeler）である。ラベラは、領域モード／状態およびブラシモード／状態で動作し、ピクセルが選択された後に、割り当てられたラベルの変更を可能にする暫定モード（Tentative mode）を含む。ピクセル群を選択して、ポイントアンドクリックコマンドによって同時にラベル付けしてもよく、また、ピクセルは、画像層としてメモリに格納されるピクセルの１つ以上の群に属してもよい。群は、ユーザ選択動作によって動的に、かつ／または自動認識アルゴリズムによって形成される。特定のラベルで既にラベル付けされたピクセルは、付加的なラベル付け操作によって改変されないようにロックされてもよい。画像中でより容易に識別されるように、割り当てられていないピクセルが強調表示されてもよい。ラベル付けされた画像間の比較は、異なるグラウンドトゥルースラベル付けの間の違いを示すために行われる。
【図面の簡単な説明】
【０００９】
【図１】本出願の概念が実施される環境のシステム図である。
【図２】本出願のグラウンドトゥルースラベラのポップアップメニューを示す図である。
【図３】ピクセルラベラの操作を示す図である。
【図４】ピクセルラベラの操作を示す図である。
【図５】ピクセルラベラの操作を示す図である。
【図６】ピクセルラベラの操作を示す図である。
【図７】ピクセルラベラの操作を示す図である。
【図８】ピクセルラベラの操作を示す図である。
【図９】ピクセルラベラの操作を示す図である。
【図１０】ピクセルラベラの操作を示す図である。
【図１１】ピクセルラベラの操作を示す図である。
【図１２】ピクセルラベラの操作を示す図である。
【図１３】ピクセルラベラの操作を示す図である。
【図１４】ピクセルラベラの操作を示す図である。
【図１５】ピクセルラベラの操作を示す図である。
【図１６】主な操作を含むピクセルラベラの状態図である。
【図１７Ａ】図１６に示されるものに加えて付加的な操作を示す図である。
【図１７Ｂ】図１６に示されるものに加えて付加的な操作を示す図である。
【図１８】図１７の選択編集状態の状態操作を示す図である。
【図１９】本出願の多層概念を示す図である。
【発明を実施するための形態】
【００１０】
図１に、本出願の概念を実践することができるシステム１００が示される。システム１００は様々なチャネルを示しており、それらによって、グラウンドトゥルースラベル付けのため、デジタル化されたビットマップ方式の画像、および／またはデジタルインク技術によって形成された画像が入力される。
【００１１】
より具体的には、画像を有する文書１０２のハードコピーがスキャナ１０４に入力され、スキャナが、文書１０２の画像を画像の電子文書１０６に変換または変形する。ハードコピー文書１０２上の画像は、電子データ処理デバイスによって、ペン、鉛筆、もしくは他の非電子用具によって、または電子および手動両方のスタンプによって作られてもよいが、それらに限定されない。電子文書１０６は、本出願のグラウンドトゥルースラベラ１１２を含む、コンピュータ、パーソナルデジタルシステム、または他の電子デバイス１１０のスクリーン１０８上に表示される。電子デバイス１１０は、グラウンドトゥルースシステム１１２を操作するため、少なくとも１つのプロセッサおよび十分な電子記憶装置を含む。グラウンドトゥルースラベラは、電子デバイス１１０のメモリに格納されたソフトウェアとして具体化され、電子デバイス１１０のプロセッサによって操作されてもよい。グラウンドトゥルースラベラ１１２は、電子デバイス１１０のマウス、キーボード、または他のユーザインターフェースの操作によって制御される、ユーザインターフェースの形態で実装されてもよい。図１に示される電子デバイス１１０は、そのような入出力デバイスを含むものと理解される。
【００１２】
あるいは、ホワイトボードまたはデジタルインクデバイス１１４が電子デバイス１１０に連結され、それによって、ビットマップ方式の画像またはデジタルインク画像１１６がデバイス１１０に電子的に伝送されてもよい。ビットマップ方式の画像またはデジタルインク画像をグラウンドトゥルースラベラ１１２に供給してもよい別のチャネルは、別の電子デバイス１１８を使用することによる。このデバイスは、コンピュータ、コンピュータ化ＣＡＤシステム、ウェブページを配信するインターネット上のサーバ、または、ビットマップ方式画像および／またはデジタルインク画像１２０をラベラ１１２に供給する、電子タブレット、個人情報端末（ＰＤＡ）などの他のあらゆるシステムを含むが、それらに限定されない多数のシステムのいずれかであることができる。さらに、電子デバイス１１０にロードされた画像生成ソフトウェアを使用して、ラベラシステム１１２が使用するためにビットマップ方式の画像またはデジタルインク画像を生成することができる。ラベラシステム１１２によって処理された画像を含む電子文書の完成版は、コンピュータシステム１１０の記憶装置に格納されるか、別の電子デバイス１１８に送信されるか、プリンタ１２２によってハードコピーの形態で印刷されるか、または、コンバータ／スキャナ１０４と関連付けられた印刷機能から印刷される。
【００１３】
上述の考察は、画像を生成するための様々なチャネルについて明示的に述べているが、本出願の概念は、他のチャネルを介して取得された文書上の画像とも同様に機能することを理解されたい。
【００１４】
ピクセルレベルでラベル付けするグラウンドトゥルースラベラ１１２は、一連のユーザインターフェース技術を含む。ラベラ１１２は、ラベル付けすべき画像の文書をユーザに提示する。文書は、白黒（bitonal）、グレースケール、またはカラーであることができ、文書画像は、加速されたユーザインターフェースコマンドおよび技術をそれらが使用し、それによって、より少ないユーザ操作で類似したラベルのピクセルの大きな集合を併せてタグ付けするのに役立つ構造によって特徴付けられる。ラベラ１１２のユーザインターフェース動作としては、二通りのエンクロージャ／ブラシ選択領域／モード、暫定ラベル付け状態、層をまたがるピクセルのグループ化、構造認識による自動グループ化、タスク指定プログラムを用いたブートストラップ、および複数ユーザによって作成されたグラウンドトゥルースの比較ツールが挙げられる。
【００１５】
一実施形態では、画像に対する異なるマーキングのタイプは異なるオーバーレイ色によって識別される。例えば、署名を含むバイナリ化した形態では、グラウンドトゥルースのタスクは、その形態の署名のラインを含むピクセルを青で（「機械印刷ライングラフィック」を表す）、手書きの署名を赤で（「手書きテキスト」を表す）色付けしてもよい。色の使用は、文書中の異なるタイプのマーキングを区別する１つの手法であるが、他の識別子の中でも、異なるグレースケール、および明確なパターン（例えば、点線、斜影線、鎖パターンなど）を含む他の識別子も使用されてもよいことに留意されたい。
【００１６】
次に、本発明のラベラユーザインターフェースの様々な態様について説明する。
【００１７】
１．ユーザインターフェース設計
１ａ．領域モードおよびブラシモード
文書は、比較的均一な白または他の色の背景に対して設定された前景マーキングによって特色付けられる。ラベラ１１２は、背景ではなく前景のピクセルのみをラベル付けする。したがって、プロセスの第１のステップは、十分に確立された画像処理技術を使用して、カラー、グレースケール、または白黒の黒（bitonal-black）の前景マーキングを背景から分離することである。これらの技術によって、背景ピクセルは不変の「白」として処理され、識別子（例えば、カラー）は付加されない。
【００１８】
一実施形態では、前景／背景の分離は、白黒画像中のすべての白色ピクセルを背景として見なすことによって、または、グレースケールもしくはカラー画像の場合、結果として得られる白色ピクセルをすべて背景として閾値化し（thresholding）ラベル付けすることによって行われる。より高度な実装例では、全体を本明細書に組み込む米国特許第７，１７７，４８３号、「System and method for enhancement of document images」において使用され記載されているような、様々な既存の画像処理ステップを適用して、白以外の背景領域を決定することができる。
【００１９】
ラベラのメニュー２００（例えば、図２のポップアップメニュー２００）が起動されてもよく、これは、一実施形態では、右マウスボタンをクリックすることによって生じる。メニュー２００は、前景ピクセルに重なる多数のラベルおよびそれらに関連する色に対する選択オプションを提示する。
【００２０】
以下の考察では、素材の大部分が特定の色に関連する。本明細書では、色は参照番号によって識別される。しかし、実装において、実際の色自体が画像の一部としてスクリーン上に示されるであろうことを理解されたい。
【００２１】
例えば、図２のメニュー２００に関しては、ユーザは、ラベル２０２を選択して、手書きテキスト（例えば、赤）２０４、手書きグラフィック（例えば、茶色）２０６、機械印刷テキスト（例えば、紫）２０７、機械印刷ライングラフィック（例えば、青）２０８、スキャナノイズごま塩（scanner noise salt and pepper）（例えば、緑）２１０を識別するなどしてもよい。他のラベルは、未割当て（例えば、黒）２１２および背景（例えば、白）２１３として識別される。他のラベル指定は、ラベル２０２の下のリストに記載されており、それぞれ、画像中のマーキングタイプのラベルを指定するため、異なる色を有することを理解されたい。しかし、図面を明瞭にするため、すべてのラベルに符号が付いているわけではない。メニュー２００には、異なるサイズのブラシを選択できるようにする、ブラシサイズのセレクター２１４も示されている。この例では、ユーザはサイズ「１６」のブラシ２１６を選択している。同様に、ブラシスタイル２１８は、円または塗りつぶし（flood-fill）のどちらかのスタイルの間で選択されてもよく、この例では、塗りつぶしスタイル２２２ではなく円２２０が選択されている。メニュー２００はまた、「すべてロック（Lock All）」ボタン２２４、「元に戻す（Undo）」ボタン２２６、「領域／ブラシ（Region/Brush）」ボタン２２８、「未割当て（Unassigned）」ボタン２３２、「比較（Compare）」ボタン２３４、および「ズーム（Zoom）」ボタン２３６を含む。ラベルの説明およびそれらの色は、一実施形態では、ユーザ編集可能なＸＭＬ設定ファイルによって設定される。使用中のとき、また図３に示されるように、メニュー２００は、グラウンドトゥルース処理が行われる画像３００上に直接ポップアップしてもよい。
【００２２】
ユーザインターフェースは、２つの主要なモードまたは状態のうち１つで存在する。領域モードでは、ユーザは、マウスをドラッグして、エンクロージャによって画像の領域を選択する。ソーンドら, "Perceptually-Supported Image Editing Of Text And Graphics," ACM UISTI, pages 183-192, 2003（参照により本明細書に組み込む）によって最初に紹介された、オーバーロードループ選択（overloaded loop selection）と呼ばれる技術によって、どのツールが望ましいかを前もって選択することなく、矩形または投げ縄による選択が可能になっている。
【００２３】
図４に示されるように、左ボタンを押した状態でマウスをドラッグすると同時に、ユーザがドラッグした形状に応じて選択矩形または投げ縄(lasso)のどちらかが動的に示される。ユーザが円弧４００に沿ってドラッグしていると、システムはまず、これを矩形４０２のための移動であると理解する。しかし、投げ縄エンクロージャ４００がより完全に完成すると、図５に示されるように、投げ縄５００が選択される。したがって、マウスリリースの時点で、選択パスの形状が十分に閉じている場合、投げ縄エンクロージャが選択され、そうでなければ、選択矩形４０２が表示され、その領域内のピクセルが選択される。ピクセルが選択されると、囲い込まれた画像区画（例えば、この場合、茶色によって識別される手書きグラフィック２０６）を表すラベルを用いて、図面の囲い込まれた矢印６００が茶色になる。したがって、図６の画像３００は茶色の矢印指示子６００以外は完全に黒である。
【００２４】
次に図７を参照すると、多角形選択の操作が示される。特に、マウスをダブルクリックすることによって多角形選択状態が起動し、それによって、マウスクリックを使用して多角形７００の頂点をドロップすることによる領域選択が可能になる。（画像を囲い込む）多角形７００が形成されると、ユーザは、このアイテムを表すべきラベルを選択するが、考察のため、選択色は、メニュー２００の機械印刷ライングラフィック２０８を表す青であってもよい。
【００２５】
第２の主なモードはブラシモードである。領域モードとブラシモードとの間の移行は、この実施形態では、スペースキーを押すことによって、またはメニューもしくはツールバーの「領域／ブラシ」ボタン２２８をクリックすることによって遂行されてもよい。ブラシモードでは、カーソルは、丸または別の形状の「ブラシ」に置き換えられる。このモードでは、ラベル色はブラシを移動させる前に選択される（この場合、選択色は青−２０８である）。前景ピクセルは、ブラシが（左マウスボタンを押し下げた状態で）それらの上でドラッグされると選択される。ブラシモードにおける操作が図９に示され、この図では、円形ブラシ９００が点線位置９００から始まり、ユーザによって、画像（即ち、トランジスタ概略図（transistor schematic））の外周の周りで移動される。図９では、ブラシ９００は開始部分（即ち、点線９００）に至るパスをまだ完成させていない。しかし、これが完成すると、次にブラシは、機械印刷ライングラフィック（即ち、青）２０８を表す内部の上を移動される。ブラシシステムがどのように働くかを容易に理解するため、トレースライン９０２が単に提供されていることを理解されたい。このラインは、この実施形態の画像上に実際には現れない。
【００２６】
１ｂ．暫定状態
領域モードおよびブラシモードの両方において、ユーザが一連のピクセルを選択した後、それらのピクセルは、選択されたラベル分類を示す色で表示される。しかし、任意選択の直後に、インターフェースはまず暫定状態に入り、選択されたピクセルは、最終色ラベルの増補された外観（augmented appearance）によって示される。例えば、増補された外観は、最終色の非飽和色、ある種のパターンもしくはテクスチャ、または他の識別子であってもよい。
【００２７】
暫定状態によって、ユーザは、選択されたピクセルのラベル（およびそれに関連する色）を、その色にコミットする前に変更することができる。（しかし、コミット操作がある場合であっても、あらゆる動作を元に戻すことは常に可能であり、いずれのピクセルラベルのコミットメントも不可逆的ではない）。これは、一実施形態では、右ボタンをクリックし、異なるラベル（およびそれに関連する色）を選択することによって行われる。また、暫定状態では、ユーザは、メニュー２００の元に戻すボタン２２６もしくはツールバーをクリックして、選択されたピクセルをそれらの以前のラベルに、または未割当て状態にリセットすることができる。画像編集ツールの標準的な選択後命令（select-then-command）パラダイムとは異なり、ラベル付けのタスクは、これらのステップ両方を組み合わせて単一操作とすることによって容易になっている。ユーザインターフェースの設計用語では、暫定状態は、素材を選択した直後にラベルを修正する機会をユーザに与える疑似モードであるが、この状態は自動的に終了し、迅速で順次的な色付けコマンドの妨げにはならない。元に戻す概念は図１１に示され、ここでは、画像８００の青（２０８）に色付けされた部分８００’が囲い込まれており、次に、元に戻すボタン８００’が起動されて、区画８００’をその以前の状態（即ち、黒−２１２）に戻す。
【００２８】
１ｃ．ピクセル群
領域モードはまた、前景ピクセル群の自動および手動での確立に基づいて、ラベラ１１２のいくつかの機能にアクセスする。ユーザが、領域モードまたはブラシモードのどちらかで一連のピクセルを選択し、ラベル付けするたびに、それらのピクセルは、シングルマウスクリックによって後で選択することができる群として記憶される。具体的には、ラベラ１１２では、共通して関連付けられたピクセルの群に属するピクセルの上にカーソルが位置づけられた場合、「グループコマンド」（例えば、一実施形態では、シフト左クリックマウスコマンド）が、そのピクセルを含む前景ピクセル群のすべてのピクセルを選択する。これによって、関与するピクセルを個々に選択し直す面倒なしに、ユーザが最初のラベル付け作業を行い、次にピクセル群に戻り、それらのラベルを変更することが容易になる。
【００２９】
ピクセルは複数の群に属することがあり得る。これらには、連続的な「循環識別（cycle identification）コマンド」（例えば、シフトキー左マウスクリックコマンド）によって順にアクセスすることができる。一連の群は一度に１つずつ循環されて、現在の暫定ラベル色でそれぞれ表示される。
【００３０】
１ｄ．群構造の自動検出
ピクセル群は、手動の領域またはブラシに基づく選択によってだけではなく、自動プロセスによっても作られる。ラベラ１１２では、ユーザは、「構造認識（Recognize Structure）」操作（例えば、ボタン２３０）を呼び出してもよい。選択されると、自動画像処理が行われて、文書の知覚的に意味のある要素に対応するピクセル群が形成される。ラベラ１１２の一実施形態では、画像処理技術が使用されて、水平線および垂直線が検出され、これらが群として形成される。スクラッチ画像では、水平線および垂直線はフル画像から除かれ、残っている連結成分が収集される。各連結成分は、ラベラ１１２のポイントアンドクリックによって選択することができる別のピクセル群を形成する。プログラムアーキテクチャは、これらのグループ分けを検出する自動プログラムが利用可能な程度まで、テキストラインおよびレイアウトを含む構造認識の他の形態に拡張可能である。一実施形態では、そのような構造は、それぞれ全体を参照により本明細書に組み込む、ソーンドによる同時係属中の米国特許出願第（未確定）号（代理人整理番号２００９００２３−ＵＳ−ＮＰ）、名称「System And Method For Segmenting Text Lines In Documents」、ならびに、プラティークらによる米国出願第（未確定）号（代理人整理番号２００９００１７−ＵＳ−ＮＰ）、名称「System And Method For Classifying Connected Groups Of Foreground Pixels In Scanned Document Images According To The Type Of Marking」に教示されているように遂行される。
【００３１】
上述の群構造概念を例示して、図１２および１３に注目する。例えば、直線構造１２００および１２０２などの構造が認識されていると、ラインに沿った任意の場所（１２０４、１２０６）でマウスをクリックすることによって、ライン全体が、機械印刷ライングラフィック（例えば、２０８青）など、選択されたラベル色に対応する色に変わる。換言すれば、システムはラインの構造を認識するので、場所１２０４および１２０６でクリックすることによって、ライン１２００および１２０２全体が適切なラベル色に変わる。
【００３２】
１ｅ．ブートストラップ
完全自動のピクセルラベラが存在している。本発明のピクセルラベラ１１２の別の特徴は、自動のピクセルラベラを使用してブートストラッププロセスを行うことによって、ピクセルラベルが初期化されてもよい点である。この動作を遂行するため、自動認識アルゴリズムが初期画像（またはその任意のユーザ選択領域）上で実行され、このアルゴリズムによって取得されるラベルで前景ピクセルが色付けされる。認識アルゴリズム自体ではなくユーザインターフェース（ＵＩ）設計に焦点を当てたラベラ１１２の実装において、ユーザは、自身のカスタムのピクセルラベルブートストラッププログラムを供給してもよい。一実施形態では、そのようなブートストラッププログラムは、単純なインターフェースを実装する分類を含むＪａｖａ（登録商標）ＪＡＲファイルの形態である。
【００３３】
１ｆ．未割当てピクセル
ユーザが画像中の多数の前景ピクセルをラベル付けした後、背景ノイズのスペックなど、まだラベル付けされていないピクセルを検出するのが困難な場合がある。ラベラ１１２は、ツールバー上に「未割当てピクセルの検索（Find Unassigned）」ボタンを含む。このボタンを起動することによって、すべてのまだラベル付けされていないピクセルによって形成されるすべての連結成分の上に重なる楕円が表示されて、ユーザによる検出が容易になる。
【００３４】
１ｇ．層ロック
ラベラ１１２は、図２の「すべてロック」ボタン２２４によって表されるロック機能を含み、それによって、ユーザは、任意のラベル（即ち、色）を「ロック」して、このラベルが既に与えられたピクセルを変更できないようにすることができる。これによって、領域内の一部のピクセルをラベル付けし、ピクセルをロックし、次に、大領域の選択操作（矩形のドラッグ、投げ縄、または多角形など）によって、領域内の残りのピクセルをすべて一度にラベル付けすることが可能になる。図１４および１５を参照すると、層ロックの概念が示される。例えば、図１４では、手書きテキスト（「３７０１４７」）１４００は手書きテキスト２０４（即ち、赤）として既に強調表示されている。したがって、数字３７０１４７は全体が赤である。図から分かるように、これらの数字と機械印刷ライングラフィック「修理受付番号（REPAIR ORDER NUMBER）」１４０２との間には重なりがある。この重なりは図面中で１４０４と指定されており、「３」と「ＰＡ」との間に生じている。層ロックがなければ、「修理受付番号」１４０２が色付けされていると、１４０４において重なっている「３」の区画はその新しい色ラベルに変わってしまう。しかし、この付加的な強調表示またはラベル付けを行う前に、（図２の）「すべてロック」ボタン２２４が選択されている場合、ラベラ１１２がその色を変更しようとしているときでも、１４００の色付けが維持される。これは、図１５に最も詳しく示されており、ここでは、「修理受付番号」は機械印刷ライングラフィック色（青−２０８）に変更されている。しかし、数字「３７０１４７」の残りと同様に、「３」の重なり１４０４は赤で維持される。
【００３５】
１ｈ．ラベル付け比較
グラウンドトゥルースの精度を担保するため、複数のユーザに所与の画像をラベル付けさせ、次にそれらユーザの出力を比較することが望ましい。ラベラ１１２は、グラウンドトゥルース比較機能を含む。ユーザは、一般的には他のユーザまたは自動プロセスのグラウンドトゥルース作業によって取得される、所与の画像の多数のラベル付けをロードする。次に、グラウンドトゥルースラベル付けが一致するか一致しないかを視覚的に示す「比較」機能（ボタン）２３４が呼び出される。
【００３６】
２．実装
ラベラ１１２は、一実施形態では、より大きな画像の解析ツールキットの最上層の約４０のカスタムクラスでＪａｖａ（登録商標）／Ｓｗｉｎｇにおいて実施される。ラベラ１１２の状態機械図の一部分１６００が図１６に示される。各選択／ラベル付け操作によって、その操作において選択され色付けされた（または別の形で識別された）前景ピクセルのみを含むビットマップ層が作られる。一連のラベル付け操作によって、ユーザに見える単層のキャンバス上に描画されるスタックが形成される。
【００３７】
ラベル付け操作の出力は非常に単純である。一実施形態では、それは、色（整数）およびそれらのテキスト記述をラベル付けする整数インデックスからのマッピングをリストするとともに、ラベル色が付けられた画像自体をＰＮＧフォーマットでエンコードするＣＤＡＴＡブロックを含むＸＭＬファイルから成る。表示の便宜上、ラベル付けの個々の単体のＰＮＧ画像は同様に出力される。
【００３８】
ラベラ１１２はピクセル当たり１つのラベルをサポートする。多くの文書画像アプリケーションでは、画像要素が、例えば、機械印刷されたベースラインに重なる手書き署名、またはグリフのワード、ライン、およびパラグラフの帰属関係を表すいくつかのラベルを採用することが望ましい。この能力は、ラベラ１１２とアーキテクチャ的に互換性を有する。
【００３９】
状態図部分１６００は、矩形または閉路どちらかの領域のマウスドラッグ選択（１６０４）を扱うドラッグＲＯＩ状態(Drag ROI State)（１６０２）のラベラで始まる。左マウスリリースによって選択は終了する。ダブル左マウスクリックによって多角形状態に入る（１６０６）。多角形状態に入ると、多角形エリアのマウス選択は、シングル左マウスクリックで頂点をドロップし、ダブルマウスクリックで多角形をクローズアップし、ドラッグＲＯＩ状態へと出ることによって扱われる。ブラシ状態（１６０８）は左マウスドラッグによってブラシ処理を扱う。右クリックによって、（例えば、メニュー２０２の）ラベルブラシパネルが立ち上がり、そこでブラシのサイズおよび色を選ぶことができる。左マウスリリースによって現在のブラシ処理が終了する。スペースキーを押すことによってブラシ状態とドラッグＲＯＩ状態とがトグルで切り換わる。ラベラツールバー上には「状態切換え（Switch State）」ボタンが設けられる。「状態切換え」ボタンはラベラ１１２の現在の状況を表示する。クリックされると、「状態切換え」ボタンはまた、多角形−ドラッグＲＯＩ−ブラシ状態の順で状態を切り換える。
【００４０】
上述のイベント１６１０、１６１２、１６１４によってピクセルが選択される（即ち、何らかが選択され、ロックはされていないに対して「ｙｅｓ」）と、最終ラベル色の計算前の未飽和版である現在の暫定ラベル色として色付けされる。これは、ラベラが暫定的状態（１６１６）であることを示す。この時点で、マウスを右クリックすることによってラベルブラシパネルが立ち上がって、現在の選択されたピクセルのラベル色を変更することが可能になる（１６１８）。他のいずれかのマウスイベントまたはキーボードイベントによって、暫定状態が終了し、現在の選択がコミットされ（１６２０）、キャンバスの最上層が選択されたラベル色でペイントされた新しい層が作られる。次に、ラベラは、ドラッグＲＯＩ、多角形、ブラシ、または選択状態など、以前の状態に戻る（１６２２）。
【００４１】
上述したものは、ラベラ１１２の特定の機構を示す。ラベラ１１２は、図１７の状態図１７００に示されるものなど、付加的な能力を有することを理解されたい。ここでは、ラベラ１１２のＵＩプロセスは、すべてのマウスイベントおよびボタンが無効にされている初期（Ｉｎｉｔ）状態（１７０２）から始まることが分かる。ファイルをロードする際、ユーザインターフェース（ＵＩ）ラベラはドラッグＲＯＩ状態（１６０２）に入り、その後に図１６のプロセスが始められてもよい。
【００４２】
ズームインおよびズームアウトに対するマウスホイールリスナー（１７０４）、マウス位置を示し、マウスの下にオブジェクトがあるときにカーソルを変更するマウスモーションリスナー（１７０６）など、いくつかの共通のマウスリスナーも存在する。これらのリスナーは関連のある状態によって共有される。これらは右上端の円によって示される。
【００４３】
状態図中のズーム状態（１７０８）は、ズーム領域の左マウスドラッグによるズームを扱う。ズームボタン２３６をクリックすることによってアクセスすることができる。マウスリリースによってズーム状態を出て、ラベラは以前の状態に戻る。図１７は、図１８においてより詳細に考察される選択編集状態（１７１０）も含む。
【００４４】
図１８は、選択編集状態（１７１０）および周囲操作（surrounding operations）１８００をより詳細に示す。シフト左マウスクリックは、２種類の選択としての働きをすることができる。１つは、この現在のマウスの場所の下に位置する異なる層を循環するものである。第２に、マウスが新しい場所に移動し、異なる層を選択した場合、選択された層を、後で一度に選択することができる１つの群にグループ化する。層が選択され、かつ／または現在の選択群に追加されるごとに、層はすべて現在のラベル暫定色に変更され、修正または消去を可能にする暫定モードにある。シフトキーリリースによって選択状態が終了し、変更がコミットされる。
【００４５】
図１９に示されるように、画像の部分のラベル（色）を変更する動作が生じるたびに、新しい層が作られ、図１９の下部に示されるように、キャンバスビットマップの最上層にペイントされる。この実施例では、層１は矩形エリアをマウスでドラッグすることによって作られたものである。層２は、シフトとマウスドラッグとによって複数の連結成分オブジェクトを選択することによって作られたものである。層３は、ピクセルの手書き部分をブラシ処理することによって作られたものである。層はすべてキャンバスビットマップ上にペイントされて、最終結果が形成される。
【００４６】
ラベラ１１２のさらなるオプションとしては次のものが挙げられる。スマートブラシ：前景ピクセルをユーザがクリックすることによって、連結された前景ピクセルを最大距離まで塗りつぶすことができる。これは、「ストロークフォロー（stroke following）」に近似したアルゴリズムであろう。ブラシは、（局所的に）連結されておらず異なるラベルを必要とする近接したストロークを網羅できるので、これは、幅広のブラシを用いたペイントとは異なる。塗りつぶしの最大範囲は予め決定しなくてもよい。それは、ユーザへの動的なフィードバックを伴って、マウスホイールによって増減することができる。あるいは、塗りつぶしは、比較的低速のアニメーションで行うことができるので、ユーザは、単にマウスボタンを押し続けて、より多数の連結ピクセルを塗りつぶし続けることができる。後者はペンインターフェースに有効である。それに加えて、交差ストロークを汚すのを回避するため、塗りつぶしも指向性のある「円錐形」に制限するのが有益なことがある。
【００４７】
アクティブブラシ：ピクセル色を変更する、または網羅するピクセルの解析に基づかないブラシ。例えば、特別なブラシは、アクティブブラシが前景ピクセルの５０％以上を網羅する場合にのみ、ピクセルを色付けすることができる。メディアンフィルターブラシ：仕上げの完成用。メディアンフィルターブラシは、特定の割合が長い前景ラン（foreground runs）に関与する場合にのみ、網羅するピクセルを色付けしてもよい。
【００４８】
このシステムおよび方法は、ピクセルごとの基準で文書画像をラベル付けするのに必要な労力を大幅に低減する。これは、一実施形態では、ユーザが次に直接ポイントアンドクリック操作することによってラベル付けすることができる、知覚的に顕著なピクセル群を確立するため、このタスクを対象とするユーザインターフェース設計の組み合わせによって、また、プロセスをブートストラップする自動認識技術の活用によって遂行される。
【００４９】
コンピュータマウスと相互作用するラベラについて上記に記載してきたが、他の構成が可能である。例えば、１つの変形例は、マウスではなくペン／スタイラスを使用してラベラユーザインターフェースが実装されるものである。
【符号の説明】
【００５０】
１００システム、１０２ハードコピー文書、１０４スキャナ、１０６電子文書、１０８スクリーン、１１０電子デバイス、１１２ラベラ、１１４デジタルインクデバイス、１１６デジタルインク画像、１１８電子デバイス、１２０デジタルインク画像、１２２プリンタ。

【特許請求の範囲】
【請求項１】
コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能なグラウンドトゥルースユーザインターフェースラベラにおいて、
コンピュータ環境に格納された画像の前景ピクセルのみにピクセル基準でラベルを割り当てるためのラベル付け機構と、
ユーザによってピクセルが選択された後であってコミットされる前に、前記割り当てられたラベルを変更できるようにする暫定操作モードを設定する手段と、
を備えることを特徴とするグラウンドトゥルースユーザインターフェースラベラ。
【請求項２】
請求項１に記載のユーザインターフェースであって、
ピクセルの選択は、領域モードまたはブラシモードのどちらかを使用して遂行され、
前記領域モードは、選択されたピクセルのエンクロージャによって前記ピクセルを選択するように構成され、
前記ブラシモードは、ペイント操作においてピクセルを選択するように構成されたことを特徴とするユーザインターフェース。
【請求項３】
コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能なグラウンドトゥルースユーザインターフェースラベラにおいて、
コンピュータ環境に格納された画像の前景ピクセルのみにピクセル基準でラベルを割り当てるためのラベル付け機構と、
ラベル付けのために同時に選択しうるピクセル群を形成するグループ化機構であって、ピクセルは、画像層としてメモリに格納される１又は複数のピクセル群に属し、前記ピクセル群は、ユーザ選択動作によって、かつ／または自動認識アルゴリズムによって動的に形成される、グループ化機構と、
を備えることを特徴とするグラウンドトゥルースユーザインターフェースラベラ。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７Ａ】

【図１７Ｂ】

【図１８】

【図１９】

【公開番号】特開２０１１−１８３３４（Ｐ２０１１−１８３３４Ａ）
【公開日】平成２３年１月２７日（２０１１．１．２７）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 計算機で処理しうる形式にデータを変換するための入力装置；処理ユ... (73,920)
      - ユーザーと計算機との相互作用のための入力装置または入力と出力が... (38,535)
        
        グラフィカルユーザーインタフェースのための相互作用技術，例．ウ... (14,535)
  - イメージデータ処理または発生一般 (58,387)
    - ２Ｄ［二次元］イメージ発生 (4,063)
      - 手動入力装置，例．マウス，ライトペン，キーボード上の方向キー，... (1,107)

【出願番号】特願２０１０−１５５６７２（Ｐ２０１０−１５５６７２）
【出願日】平成２２年７月８日（２０１０．７．８）
【出願人】（５０２０９６５４３）パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Ｐａｌｏ　Ａｌｔｏ　Ｒｅｓｅａｒｃｈ　Ｃｅｎｔｅｒ　Ｉｎｃｏｒｐｏｒａｔｅｄ
【Ｆターム（参考）】

[ Back to top ]

画像中のピクセルの機械支援による人為的ラベル付けのシステムおよび方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

画像中のピクセルの機械支援による人為的ラベル付けのシステムおよび方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク