画像中のピクセルの機械支援による人為的ラベル付けのシステムおよび方法
【課題】グラウンドトゥルースデータを取得するための面倒および時間を緩和する。
【解決手段】コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能なグラウンドトゥルースユーザインターフェースラベラ112において、コンピュータ環境に格納された画像の前景ピクセルのみにピクセル基準でラベルを割り当てるためのラベル付け機構と、ユーザによってピクセルが選択された後であってコミットされる前に、前記割り当てられたラベルを変更できるようにする暫定操作モードを設定する手段と、を備える。
【解決手段】コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能なグラウンドトゥルースユーザインターフェースラベラ112において、コンピュータ環境に格納された画像の前景ピクセルのみにピクセル基準でラベルを割り当てるためのラベル付け機構と、ユーザによってピクセルが選択された後であってコミットされる前に、前記割り当てられたラベルを変更できるようにする暫定操作モードを設定する手段と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、画像処理に関し、より具体的には、ピクセルのレベルでオリジナルのグラウンドトゥルース(groundtruthed)画像を生成することに関する。
【背景技術】
【0002】
グラウンドトゥルースの必要性は、機械学習ベースのアルゴリズムを訓練し、アルゴリズムの性能を評価する文書画像解析において浸透している。しかし、グラウンドトゥルースデータは取得するのが困難である。作成するのが面倒で時間がかかり、また、研究グループごとに異なるフォーマットおよび規格に依存している。豊富で高品質なグラウンドトゥルースデータの不足は、画像処理の様々な分野における改善を妨げるものと見られている。民間のOCR企業が、自社のグラウンドトゥルース文書のデータベースを競合し得る資産と見ていることが、この状況を証拠づけている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】L. C. ハーら, "The Architecture Of Trueviz: A Groundtruth/Metada Editing And Visualizing Toolkit", Pattern Recognition, 36(3):811-825, 2003
【非特許文献2】ヤンら, "Semi-Automatic Groundtruth Generation For Chart Image Recognition", DAS, pages 324-335, 2006
【発明の概要】
【発明が解決しようとする課題】
【0004】
現在、グラウンドトゥルースは主として2つの手段によって行われている。主要な方策は、エンクロージャによってグラウンドトゥルースを行うものである。概して便宜の問題として、ほとんどのエンクロージャグラウンドトゥルースは、矩形領域をラベル付けすることに焦点を当てているが、それは、ラベルタイプに従って色分けされた矩形をドラッグするユーザインターフェースを考案する、比較的単純なものであるためである。別のエンクロージャタイプのグラウンドトゥルースプロセスは、多角形領域を囲い込みの(enclosing)機構として用いる。
【0005】
第2のグラウンドトゥルースの方策は、ピクセルベースで画像をラベル付けするマイクロソフトペイントやアドビフォトショップなどの標準的な画像編集ツールを使用するものである。例えば、これらのツールのブラシ動作がグラウンドトゥルース操作に用いられることがある。しかし、この方策は面倒で不正確であり、急速に極めて非常に労働集約的になってしまう。
【0006】
以前の文書画像グラウンドトゥルースツールが、非特許文献1にて考察されており、これは、文書画像中のレイアウトおよび視覚構造を使用している。別のグラウンドトゥルースツールが、非特許文献2によって説明されている。
【0007】
グラウンドトゥルースデータを取得するための面倒および時間を緩和する、新しいツールおよび方法が有益であると考えられる。
【課題を解決するための手段】
【0008】
ユーザインターフェースおよび方法は、コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能である。ユーザインターフェースは、コンピュータ環境に格納された画像の前景ピクセルのみをラベル付けするラベラ(labeler)である。ラベラは、領域モード/状態およびブラシモード/状態で動作し、ピクセルが選択された後に、割り当てられたラベルの変更を可能にする暫定モード(Tentative mode)を含む。ピクセル群を選択して、ポイントアンドクリックコマンドによって同時にラベル付けしてもよく、また、ピクセルは、画像層としてメモリに格納されるピクセルの1つ以上の群に属してもよい。群は、ユーザ選択動作によって動的に、かつ/または自動認識アルゴリズムによって形成される。特定のラベルで既にラベル付けされたピクセルは、付加的なラベル付け操作によって改変されないようにロックされてもよい。画像中でより容易に識別されるように、割り当てられていないピクセルが強調表示されてもよい。ラベル付けされた画像間の比較は、異なるグラウンドトゥルースラベル付けの間の違いを示すために行われる。
【図面の簡単な説明】
【0009】
【図1】本出願の概念が実施される環境のシステム図である。
【図2】本出願のグラウンドトゥルースラベラのポップアップメニューを示す図である。
【図3】ピクセルラベラの操作を示す図である。
【図4】ピクセルラベラの操作を示す図である。
【図5】ピクセルラベラの操作を示す図である。
【図6】ピクセルラベラの操作を示す図である。
【図7】ピクセルラベラの操作を示す図である。
【図8】ピクセルラベラの操作を示す図である。
【図9】ピクセルラベラの操作を示す図である。
【図10】ピクセルラベラの操作を示す図である。
【図11】ピクセルラベラの操作を示す図である。
【図12】ピクセルラベラの操作を示す図である。
【図13】ピクセルラベラの操作を示す図である。
【図14】ピクセルラベラの操作を示す図である。
【図15】ピクセルラベラの操作を示す図である。
【図16】主な操作を含むピクセルラベラの状態図である。
【図17A】図16に示されるものに加えて付加的な操作を示す図である。
【図17B】図16に示されるものに加えて付加的な操作を示す図である。
【図18】図17の選択編集状態の状態操作を示す図である。
【図19】本出願の多層概念を示す図である。
【発明を実施するための形態】
【0010】
図1に、本出願の概念を実践することができるシステム100が示される。システム100は様々なチャネルを示しており、それらによって、グラウンドトゥルースラベル付けのため、デジタル化されたビットマップ方式の画像、および/またはデジタルインク技術によって形成された画像が入力される。
【0011】
より具体的には、画像を有する文書102のハードコピーがスキャナ104に入力され、スキャナが、文書102の画像を画像の電子文書106に変換または変形する。ハードコピー文書102上の画像は、電子データ処理デバイスによって、ペン、鉛筆、もしくは他の非電子用具によって、または電子および手動両方のスタンプによって作られてもよいが、それらに限定されない。電子文書106は、本出願のグラウンドトゥルースラベラ112を含む、コンピュータ、パーソナルデジタルシステム、または他の電子デバイス110のスクリーン108上に表示される。電子デバイス110は、グラウンドトゥルースシステム112を操作するため、少なくとも1つのプロセッサおよび十分な電子記憶装置を含む。グラウンドトゥルースラベラは、電子デバイス110のメモリに格納されたソフトウェアとして具体化され、電子デバイス110のプロセッサによって操作されてもよい。グラウンドトゥルースラベラ112は、電子デバイス110のマウス、キーボード、または他のユーザインターフェースの操作によって制御される、ユーザインターフェースの形態で実装されてもよい。図1に示される電子デバイス110は、そのような入出力デバイスを含むものと理解される。
【0012】
あるいは、ホワイトボードまたはデジタルインクデバイス114が電子デバイス110に連結され、それによって、ビットマップ方式の画像またはデジタルインク画像116がデバイス110に電子的に伝送されてもよい。ビットマップ方式の画像またはデジタルインク画像をグラウンドトゥルースラベラ112に供給してもよい別のチャネルは、別の電子デバイス118を使用することによる。このデバイスは、コンピュータ、コンピュータ化CADシステム、ウェブページを配信するインターネット上のサーバ、または、ビットマップ方式画像および/またはデジタルインク画像120をラベラ112に供給する、電子タブレット、個人情報端末(PDA)などの他のあらゆるシステムを含むが、それらに限定されない多数のシステムのいずれかであることができる。さらに、電子デバイス110にロードされた画像生成ソフトウェアを使用して、ラベラシステム112が使用するためにビットマップ方式の画像またはデジタルインク画像を生成することができる。ラベラシステム112によって処理された画像を含む電子文書の完成版は、コンピュータシステム110の記憶装置に格納されるか、別の電子デバイス118に送信されるか、プリンタ122によってハードコピーの形態で印刷されるか、または、コンバータ/スキャナ104と関連付けられた印刷機能から印刷される。
【0013】
上述の考察は、画像を生成するための様々なチャネルについて明示的に述べているが、本出願の概念は、他のチャネルを介して取得された文書上の画像とも同様に機能することを理解されたい。
【0014】
ピクセルレベルでラベル付けするグラウンドトゥルースラベラ112は、一連のユーザインターフェース技術を含む。ラベラ112は、ラベル付けすべき画像の文書をユーザに提示する。文書は、白黒(bitonal)、グレースケール、またはカラーであることができ、文書画像は、加速されたユーザインターフェースコマンドおよび技術をそれらが使用し、それによって、より少ないユーザ操作で類似したラベルのピクセルの大きな集合を併せてタグ付けするのに役立つ構造によって特徴付けられる。ラベラ112のユーザインターフェース動作としては、二通りのエンクロージャ/ブラシ選択領域/モード、暫定ラベル付け状態、層をまたがるピクセルのグループ化、構造認識による自動グループ化、タスク指定プログラムを用いたブートストラップ、および複数ユーザによって作成されたグラウンドトゥルースの比較ツールが挙げられる。
【0015】
一実施形態では、画像に対する異なるマーキングのタイプは異なるオーバーレイ色によって識別される。例えば、署名を含むバイナリ化した形態では、グラウンドトゥルースのタスクは、その形態の署名のラインを含むピクセルを青で(「機械印刷ライングラフィック」を表す)、手書きの署名を赤で(「手書きテキスト」を表す)色付けしてもよい。色の使用は、文書中の異なるタイプのマーキングを区別する1つの手法であるが、他の識別子の中でも、異なるグレースケール、および明確なパターン(例えば、点線、斜影線、鎖パターンなど)を含む他の識別子も使用されてもよいことに留意されたい。
【0016】
次に、本発明のラベラユーザインターフェースの様々な態様について説明する。
【0017】
1.ユーザインターフェース設計
1a.領域モードおよびブラシモード
文書は、比較的均一な白または他の色の背景に対して設定された前景マーキングによって特色付けられる。ラベラ112は、背景ではなく前景のピクセルのみをラベル付けする。したがって、プロセスの第1のステップは、十分に確立された画像処理技術を使用して、カラー、グレースケール、または白黒の黒(bitonal-black)の前景マーキングを背景から分離することである。これらの技術によって、背景ピクセルは不変の「白」として処理され、識別子(例えば、カラー)は付加されない。
【0018】
一実施形態では、前景/背景の分離は、白黒画像中のすべての白色ピクセルを背景として見なすことによって、または、グレースケールもしくはカラー画像の場合、結果として得られる白色ピクセルをすべて背景として閾値化し(thresholding)ラベル付けすることによって行われる。より高度な実装例では、全体を本明細書に組み込む米国特許第7,177,483号、「System and method for enhancement of document images」において使用され記載されているような、様々な既存の画像処理ステップを適用して、白以外の背景領域を決定することができる。
【0019】
ラベラのメニュー200(例えば、図2のポップアップメニュー200)が起動されてもよく、これは、一実施形態では、右マウスボタンをクリックすることによって生じる。メニュー200は、前景ピクセルに重なる多数のラベルおよびそれらに関連する色に対する選択オプションを提示する。
【0020】
以下の考察では、素材の大部分が特定の色に関連する。本明細書では、色は参照番号によって識別される。しかし、実装において、実際の色自体が画像の一部としてスクリーン上に示されるであろうことを理解されたい。
【0021】
例えば、図2のメニュー200に関しては、ユーザは、ラベル202を選択して、手書きテキスト(例えば、赤)204、手書きグラフィック(例えば、茶色)206、機械印刷テキスト(例えば、紫)207、機械印刷ライングラフィック(例えば、青)208、スキャナノイズごま塩(scanner noise salt and pepper)(例えば、緑)210を識別するなどしてもよい。他のラベルは、未割当て(例えば、黒)212および背景(例えば、白)213として識別される。他のラベル指定は、ラベル202の下のリストに記載されており、それぞれ、画像中のマーキングタイプのラベルを指定するため、異なる色を有することを理解されたい。しかし、図面を明瞭にするため、すべてのラベルに符号が付いているわけではない。メニュー200には、異なるサイズのブラシを選択できるようにする、ブラシサイズのセレクター214も示されている。この例では、ユーザはサイズ「16」のブラシ216を選択している。同様に、ブラシスタイル218は、円または塗りつぶし(flood-fill)のどちらかのスタイルの間で選択されてもよく、この例では、塗りつぶしスタイル222ではなく円220が選択されている。メニュー200はまた、「すべてロック(Lock All)」ボタン224、「元に戻す(Undo)」ボタン226、「領域/ブラシ(Region/Brush)」ボタン228、「未割当て(Unassigned)」ボタン232、「比較(Compare)」ボタン234、および「ズーム(Zoom)」ボタン236を含む。ラベルの説明およびそれらの色は、一実施形態では、ユーザ編集可能なXML設定ファイルによって設定される。使用中のとき、また図3に示されるように、メニュー200は、グラウンドトゥルース処理が行われる画像300上に直接ポップアップしてもよい。
【0022】
ユーザインターフェースは、2つの主要なモードまたは状態のうち1つで存在する。領域モードでは、ユーザは、マウスをドラッグして、エンクロージャによって画像の領域を選択する。ソーンドら, "Perceptually-Supported Image Editing Of Text And Graphics," ACM UISTI, pages 183-192, 2003(参照により本明細書に組み込む)によって最初に紹介された、オーバーロードループ選択(overloaded loop selection)と呼ばれる技術によって、どのツールが望ましいかを前もって選択することなく、矩形または投げ縄による選択が可能になっている。
【0023】
図4に示されるように、左ボタンを押した状態でマウスをドラッグすると同時に、ユーザがドラッグした形状に応じて選択矩形または投げ縄(lasso)のどちらかが動的に示される。ユーザが円弧400に沿ってドラッグしていると、システムはまず、これを矩形402のための移動であると理解する。しかし、投げ縄エンクロージャ400がより完全に完成すると、図5に示されるように、投げ縄500が選択される。したがって、マウスリリースの時点で、選択パスの形状が十分に閉じている場合、投げ縄エンクロージャが選択され、そうでなければ、選択矩形402が表示され、その領域内のピクセルが選択される。ピクセルが選択されると、囲い込まれた画像区画(例えば、この場合、茶色によって識別される手書きグラフィック206)を表すラベルを用いて、図面の囲い込まれた矢印600が茶色になる。したがって、図6の画像300は茶色の矢印指示子600以外は完全に黒である。
【0024】
次に図7を参照すると、多角形選択の操作が示される。特に、マウスをダブルクリックすることによって多角形選択状態が起動し、それによって、マウスクリックを使用して多角形700の頂点をドロップすることによる領域選択が可能になる。(画像を囲い込む)多角形700が形成されると、ユーザは、このアイテムを表すべきラベルを選択するが、考察のため、選択色は、メニュー200の機械印刷ライングラフィック208を表す青であってもよい。
【0025】
第2の主なモードはブラシモードである。領域モードとブラシモードとの間の移行は、この実施形態では、スペースキーを押すことによって、またはメニューもしくはツールバーの「領域/ブラシ」ボタン228をクリックすることによって遂行されてもよい。ブラシモードでは、カーソルは、丸または別の形状の「ブラシ」に置き換えられる。このモードでは、ラベル色はブラシを移動させる前に選択される(この場合、選択色は青−208である)。前景ピクセルは、ブラシが(左マウスボタンを押し下げた状態で)それらの上でドラッグされると選択される。ブラシモードにおける操作が図9に示され、この図では、円形ブラシ900が点線位置900から始まり、ユーザによって、画像(即ち、トランジスタ概略図(transistor schematic))の外周の周りで移動される。図9では、ブラシ900は開始部分(即ち、点線900)に至るパスをまだ完成させていない。しかし、これが完成すると、次にブラシは、機械印刷ライングラフィック(即ち、青)208を表す内部の上を移動される。ブラシシステムがどのように働くかを容易に理解するため、トレースライン902が単に提供されていることを理解されたい。このラインは、この実施形態の画像上に実際には現れない。
【0026】
1b.暫定状態
領域モードおよびブラシモードの両方において、ユーザが一連のピクセルを選択した後、それらのピクセルは、選択されたラベル分類を示す色で表示される。しかし、任意選択の直後に、インターフェースはまず暫定状態に入り、選択されたピクセルは、最終色ラベルの増補された外観(augmented appearance)によって示される。例えば、増補された外観は、最終色の非飽和色、ある種のパターンもしくはテクスチャ、または他の識別子であってもよい。
【0027】
暫定状態によって、ユーザは、選択されたピクセルのラベル(およびそれに関連する色)を、その色にコミットする前に変更することができる。(しかし、コミット操作がある場合であっても、あらゆる動作を元に戻すことは常に可能であり、いずれのピクセルラベルのコミットメントも不可逆的ではない)。これは、一実施形態では、右ボタンをクリックし、異なるラベル(およびそれに関連する色)を選択することによって行われる。また、暫定状態では、ユーザは、メニュー200の元に戻すボタン226もしくはツールバーをクリックして、選択されたピクセルをそれらの以前のラベルに、または未割当て状態にリセットすることができる。画像編集ツールの標準的な選択後命令(select-then-command)パラダイムとは異なり、ラベル付けのタスクは、これらのステップ両方を組み合わせて単一操作とすることによって容易になっている。ユーザインターフェースの設計用語では、暫定状態は、素材を選択した直後にラベルを修正する機会をユーザに与える疑似モードであるが、この状態は自動的に終了し、迅速で順次的な色付けコマンドの妨げにはならない。元に戻す概念は図11に示され、ここでは、画像800の青(208)に色付けされた部分800’が囲い込まれており、次に、元に戻すボタン800’が起動されて、区画800’をその以前の状態(即ち、黒−212)に戻す。
【0028】
1c.ピクセル群
領域モードはまた、前景ピクセル群の自動および手動での確立に基づいて、ラベラ112のいくつかの機能にアクセスする。ユーザが、領域モードまたはブラシモードのどちらかで一連のピクセルを選択し、ラベル付けするたびに、それらのピクセルは、シングルマウスクリックによって後で選択することができる群として記憶される。具体的には、ラベラ112では、共通して関連付けられたピクセルの群に属するピクセルの上にカーソルが位置づけられた場合、「グループコマンド」(例えば、一実施形態では、シフト左クリックマウスコマンド)が、そのピクセルを含む前景ピクセル群のすべてのピクセルを選択する。これによって、関与するピクセルを個々に選択し直す面倒なしに、ユーザが最初のラベル付け作業を行い、次にピクセル群に戻り、それらのラベルを変更することが容易になる。
【0029】
ピクセルは複数の群に属することがあり得る。これらには、連続的な「循環識別(cycle identification)コマンド」(例えば、シフトキー左マウスクリックコマンド)によって順にアクセスすることができる。一連の群は一度に1つずつ循環されて、現在の暫定ラベル色でそれぞれ表示される。
【0030】
1d.群構造の自動検出
ピクセル群は、手動の領域またはブラシに基づく選択によってだけではなく、自動プロセスによっても作られる。ラベラ112では、ユーザは、「構造認識(Recognize Structure)」操作(例えば、ボタン230)を呼び出してもよい。選択されると、自動画像処理が行われて、文書の知覚的に意味のある要素に対応するピクセル群が形成される。ラベラ112の一実施形態では、画像処理技術が使用されて、水平線および垂直線が検出され、これらが群として形成される。スクラッチ画像では、水平線および垂直線はフル画像から除かれ、残っている連結成分が収集される。各連結成分は、ラベラ112のポイントアンドクリックによって選択することができる別のピクセル群を形成する。プログラムアーキテクチャは、これらのグループ分けを検出する自動プログラムが利用可能な程度まで、テキストラインおよびレイアウトを含む構造認識の他の形態に拡張可能である。一実施形態では、そのような構造は、それぞれ全体を参照により本明細書に組み込む、ソーンドによる同時係属中の米国特許出願第(未確定)号(代理人整理番号20090023−US−NP)、名称「System And Method For Segmenting Text Lines In Documents」、ならびに、プラティークらによる米国出願第(未確定)号(代理人整理番号20090017−US−NP)、名称「System And Method For Classifying Connected Groups Of Foreground Pixels In Scanned Document Images According To The Type Of Marking」に教示されているように遂行される。
【0031】
上述の群構造概念を例示して、図12および13に注目する。例えば、直線構造1200および1202などの構造が認識されていると、ラインに沿った任意の場所(1204、1206)でマウスをクリックすることによって、ライン全体が、機械印刷ライングラフィック(例えば、208 青)など、選択されたラベル色に対応する色に変わる。換言すれば、システムはラインの構造を認識するので、場所1204および1206でクリックすることによって、ライン1200および1202全体が適切なラベル色に変わる。
【0032】
1e.ブートストラップ
完全自動のピクセルラベラが存在している。本発明のピクセルラベラ112の別の特徴は、自動のピクセルラベラを使用してブートストラッププロセスを行うことによって、ピクセルラベルが初期化されてもよい点である。この動作を遂行するため、自動認識アルゴリズムが初期画像(またはその任意のユーザ選択領域)上で実行され、このアルゴリズムによって取得されるラベルで前景ピクセルが色付けされる。認識アルゴリズム自体ではなくユーザインターフェース(UI)設計に焦点を当てたラベラ112の実装において、ユーザは、自身のカスタムのピクセルラベルブートストラッププログラムを供給してもよい。一実施形態では、そのようなブートストラッププログラムは、単純なインターフェースを実装する分類を含むJava(登録商標) JARファイルの形態である。
【0033】
1f.未割当てピクセル
ユーザが画像中の多数の前景ピクセルをラベル付けした後、背景ノイズのスペックなど、まだラベル付けされていないピクセルを検出するのが困難な場合がある。ラベラ112は、ツールバー上に「未割当てピクセルの検索(Find Unassigned)」ボタンを含む。このボタンを起動することによって、すべてのまだラベル付けされていないピクセルによって形成されるすべての連結成分の上に重なる楕円が表示されて、ユーザによる検出が容易になる。
【0034】
1g.層ロック
ラベラ112は、図2の「すべてロック」ボタン224によって表されるロック機能を含み、それによって、ユーザは、任意のラベル(即ち、色)を「ロック」して、このラベルが既に与えられたピクセルを変更できないようにすることができる。これによって、領域内の一部のピクセルをラベル付けし、ピクセルをロックし、次に、大領域の選択操作(矩形のドラッグ、投げ縄、または多角形など)によって、領域内の残りのピクセルをすべて一度にラベル付けすることが可能になる。図14および15を参照すると、層ロックの概念が示される。例えば、図14では、手書きテキスト(「370147」)1400は手書きテキスト204(即ち、赤)として既に強調表示されている。したがって、数字370147は全体が赤である。図から分かるように、これらの数字と機械印刷ライングラフィック「修理受付番号(REPAIR ORDER NUMBER)」1402との間には重なりがある。この重なりは図面中で1404と指定されており、「3」と「PA」との間に生じている。層ロックがなければ、「修理受付番号」1402が色付けされていると、1404において重なっている「3」の区画はその新しい色ラベルに変わってしまう。しかし、この付加的な強調表示またはラベル付けを行う前に、(図2の)「すべてロック」ボタン224が選択されている場合、ラベラ112がその色を変更しようとしているときでも、1400の色付けが維持される。これは、図15に最も詳しく示されており、ここでは、「修理受付番号」は機械印刷ライングラフィック色(青−208)に変更されている。しかし、数字「370147」の残りと同様に、「3」の重なり1404は赤で維持される。
【0035】
1h.ラベル付け比較
グラウンドトゥルースの精度を担保するため、複数のユーザに所与の画像をラベル付けさせ、次にそれらユーザの出力を比較することが望ましい。ラベラ112は、グラウンドトゥルース比較機能を含む。ユーザは、一般的には他のユーザまたは自動プロセスのグラウンドトゥルース作業によって取得される、所与の画像の多数のラベル付けをロードする。次に、グラウンドトゥルースラベル付けが一致するか一致しないかを視覚的に示す「比較」機能(ボタン)234が呼び出される。
【0036】
2.実装
ラベラ112は、一実施形態では、より大きな画像の解析ツールキットの最上層の約40のカスタムクラスでJava(登録商標)/Swingにおいて実施される。ラベラ112の状態機械図の一部分1600が図16に示される。各選択/ラベル付け操作によって、その操作において選択され色付けされた(または別の形で識別された)前景ピクセルのみを含むビットマップ層が作られる。一連のラベル付け操作によって、ユーザに見える単層のキャンバス上に描画されるスタックが形成される。
【0037】
ラベル付け操作の出力は非常に単純である。一実施形態では、それは、色(整数)およびそれらのテキスト記述をラベル付けする整数インデックスからのマッピングをリストするとともに、ラベル色が付けられた画像自体をPNGフォーマットでエンコードするCDATAブロックを含むXMLファイルから成る。表示の便宜上、ラベル付けの個々の単体のPNG画像は同様に出力される。
【0038】
ラベラ112はピクセル当たり1つのラベルをサポートする。多くの文書画像アプリケーションでは、画像要素が、例えば、機械印刷されたベースラインに重なる手書き署名、またはグリフのワード、ライン、およびパラグラフの帰属関係を表すいくつかのラベルを採用することが望ましい。この能力は、ラベラ112とアーキテクチャ的に互換性を有する。
【0039】
状態図部分1600は、矩形または閉路どちらかの領域のマウスドラッグ選択(1604)を扱うドラッグROI状態(Drag ROI State)(1602)のラベラで始まる。左マウスリリースによって選択は終了する。ダブル左マウスクリックによって多角形状態に入る(1606)。多角形状態に入ると、多角形エリアのマウス選択は、シングル左マウスクリックで頂点をドロップし、ダブルマウスクリックで多角形をクローズアップし、ドラッグROI状態へと出ることによって扱われる。ブラシ状態(1608)は左マウスドラッグによってブラシ処理を扱う。右クリックによって、(例えば、メニュー202の)ラベルブラシパネルが立ち上がり、そこでブラシのサイズおよび色を選ぶことができる。左マウスリリースによって現在のブラシ処理が終了する。スペースキーを押すことによってブラシ状態とドラッグROI状態とがトグルで切り換わる。ラベラツールバー上には「状態切換え(Switch State)」ボタンが設けられる。「状態切換え」ボタンはラベラ112の現在の状況を表示する。クリックされると、「状態切換え」ボタンはまた、多角形−ドラッグROI−ブラシ状態の順で状態を切り換える。
【0040】
上述のイベント1610、1612、1614によってピクセルが選択される(即ち、何らかが選択され、ロックはされていないに対して「yes」)と、最終ラベル色の計算前の未飽和版である現在の暫定ラベル色として色付けされる。これは、ラベラが暫定的状態(1616)であることを示す。この時点で、マウスを右クリックすることによってラベルブラシパネルが立ち上がって、現在の選択されたピクセルのラベル色を変更することが可能になる(1618)。他のいずれかのマウスイベントまたはキーボードイベントによって、暫定状態が終了し、現在の選択がコミットされ(1620)、キャンバスの最上層が選択されたラベル色でペイントされた新しい層が作られる。次に、ラベラは、ドラッグROI、多角形、ブラシ、または選択状態など、以前の状態に戻る(1622)。
【0041】
上述したものは、ラベラ112の特定の機構を示す。ラベラ112は、図17の状態図1700に示されるものなど、付加的な能力を有することを理解されたい。ここでは、ラベラ112のUIプロセスは、すべてのマウスイベントおよびボタンが無効にされている初期(Init)状態(1702)から始まることが分かる。ファイルをロードする際、ユーザインターフェース(UI)ラベラはドラッグROI状態(1602)に入り、その後に図16のプロセスが始められてもよい。
【0042】
ズームインおよびズームアウトに対するマウスホイールリスナー(1704)、マウス位置を示し、マウスの下にオブジェクトがあるときにカーソルを変更するマウスモーションリスナー(1706)など、いくつかの共通のマウスリスナーも存在する。これらのリスナーは関連のある状態によって共有される。これらは右上端の円によって示される。
【0043】
状態図中のズーム状態(1708)は、ズーム領域の左マウスドラッグによるズームを扱う。ズームボタン236をクリックすることによってアクセスすることができる。マウスリリースによってズーム状態を出て、ラベラは以前の状態に戻る。図17は、図18においてより詳細に考察される選択編集状態(1710)も含む。
【0044】
図18は、選択編集状態(1710)および周囲操作(surrounding operations)1800をより詳細に示す。シフト左マウスクリックは、2種類の選択としての働きをすることができる。1つは、この現在のマウスの場所の下に位置する異なる層を循環するものである。第2に、マウスが新しい場所に移動し、異なる層を選択した場合、選択された層を、後で一度に選択することができる1つの群にグループ化する。層が選択され、かつ/または現在の選択群に追加されるごとに、層はすべて現在のラベル暫定色に変更され、修正または消去を可能にする暫定モードにある。シフトキーリリースによって選択状態が終了し、変更がコミットされる。
【0045】
図19に示されるように、画像の部分のラベル(色)を変更する動作が生じるたびに、新しい層が作られ、図19の下部に示されるように、キャンバスビットマップの最上層にペイントされる。この実施例では、層1は矩形エリアをマウスでドラッグすることによって作られたものである。層2は、シフトとマウスドラッグとによって複数の連結成分オブジェクトを選択することによって作られたものである。層3は、ピクセルの手書き部分をブラシ処理することによって作られたものである。層はすべてキャンバスビットマップ上にペイントされて、最終結果が形成される。
【0046】
ラベラ112のさらなるオプションとしては次のものが挙げられる。スマートブラシ:前景ピクセルをユーザがクリックすることによって、連結された前景ピクセルを最大距離まで塗りつぶすことができる。これは、「ストロークフォロー(stroke following)」に近似したアルゴリズムであろう。ブラシは、(局所的に)連結されておらず異なるラベルを必要とする近接したストロークを網羅できるので、これは、幅広のブラシを用いたペイントとは異なる。塗りつぶしの最大範囲は予め決定しなくてもよい。それは、ユーザへの動的なフィードバックを伴って、マウスホイールによって増減することができる。あるいは、塗りつぶしは、比較的低速のアニメーションで行うことができるので、ユーザは、単にマウスボタンを押し続けて、より多数の連結ピクセルを塗りつぶし続けることができる。後者はペンインターフェースに有効である。それに加えて、交差ストロークを汚すのを回避するため、塗りつぶしも指向性のある「円錐形」に制限するのが有益なことがある。
【0047】
アクティブブラシ:ピクセル色を変更する、または網羅するピクセルの解析に基づかないブラシ。例えば、特別なブラシは、アクティブブラシが前景ピクセルの50%以上を網羅する場合にのみ、ピクセルを色付けすることができる。メディアンフィルターブラシ:仕上げの完成用。メディアンフィルターブラシは、特定の割合が長い前景ラン(foreground runs)に関与する場合にのみ、網羅するピクセルを色付けしてもよい。
【0048】
このシステムおよび方法は、ピクセルごとの基準で文書画像をラベル付けするのに必要な労力を大幅に低減する。これは、一実施形態では、ユーザが次に直接ポイントアンドクリック操作することによってラベル付けすることができる、知覚的に顕著なピクセル群を確立するため、このタスクを対象とするユーザインターフェース設計の組み合わせによって、また、プロセスをブートストラップする自動認識技術の活用によって遂行される。
【0049】
コンピュータマウスと相互作用するラベラについて上記に記載してきたが、他の構成が可能である。例えば、1つの変形例は、マウスではなくペン/スタイラスを使用してラベラユーザインターフェースが実装されるものである。
【符号の説明】
【0050】
100 システム、102 ハードコピー文書、104 スキャナ、106 電子文書、108 スクリーン、110 電子デバイス、112 ラベラ、114 デジタルインクデバイス、116 デジタルインク画像、118 電子デバイス、120 デジタルインク画像、122 プリンタ。
【技術分野】
【0001】
本出願は、画像処理に関し、より具体的には、ピクセルのレベルでオリジナルのグラウンドトゥルース(groundtruthed)画像を生成することに関する。
【背景技術】
【0002】
グラウンドトゥルースの必要性は、機械学習ベースのアルゴリズムを訓練し、アルゴリズムの性能を評価する文書画像解析において浸透している。しかし、グラウンドトゥルースデータは取得するのが困難である。作成するのが面倒で時間がかかり、また、研究グループごとに異なるフォーマットおよび規格に依存している。豊富で高品質なグラウンドトゥルースデータの不足は、画像処理の様々な分野における改善を妨げるものと見られている。民間のOCR企業が、自社のグラウンドトゥルース文書のデータベースを競合し得る資産と見ていることが、この状況を証拠づけている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】L. C. ハーら, "The Architecture Of Trueviz: A Groundtruth/Metada Editing And Visualizing Toolkit", Pattern Recognition, 36(3):811-825, 2003
【非特許文献2】ヤンら, "Semi-Automatic Groundtruth Generation For Chart Image Recognition", DAS, pages 324-335, 2006
【発明の概要】
【発明が解決しようとする課題】
【0004】
現在、グラウンドトゥルースは主として2つの手段によって行われている。主要な方策は、エンクロージャによってグラウンドトゥルースを行うものである。概して便宜の問題として、ほとんどのエンクロージャグラウンドトゥルースは、矩形領域をラベル付けすることに焦点を当てているが、それは、ラベルタイプに従って色分けされた矩形をドラッグするユーザインターフェースを考案する、比較的単純なものであるためである。別のエンクロージャタイプのグラウンドトゥルースプロセスは、多角形領域を囲い込みの(enclosing)機構として用いる。
【0005】
第2のグラウンドトゥルースの方策は、ピクセルベースで画像をラベル付けするマイクロソフトペイントやアドビフォトショップなどの標準的な画像編集ツールを使用するものである。例えば、これらのツールのブラシ動作がグラウンドトゥルース操作に用いられることがある。しかし、この方策は面倒で不正確であり、急速に極めて非常に労働集約的になってしまう。
【0006】
以前の文書画像グラウンドトゥルースツールが、非特許文献1にて考察されており、これは、文書画像中のレイアウトおよび視覚構造を使用している。別のグラウンドトゥルースツールが、非特許文献2によって説明されている。
【0007】
グラウンドトゥルースデータを取得するための面倒および時間を緩和する、新しいツールおよび方法が有益であると考えられる。
【課題を解決するための手段】
【0008】
ユーザインターフェースおよび方法は、コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能である。ユーザインターフェースは、コンピュータ環境に格納された画像の前景ピクセルのみをラベル付けするラベラ(labeler)である。ラベラは、領域モード/状態およびブラシモード/状態で動作し、ピクセルが選択された後に、割り当てられたラベルの変更を可能にする暫定モード(Tentative mode)を含む。ピクセル群を選択して、ポイントアンドクリックコマンドによって同時にラベル付けしてもよく、また、ピクセルは、画像層としてメモリに格納されるピクセルの1つ以上の群に属してもよい。群は、ユーザ選択動作によって動的に、かつ/または自動認識アルゴリズムによって形成される。特定のラベルで既にラベル付けされたピクセルは、付加的なラベル付け操作によって改変されないようにロックされてもよい。画像中でより容易に識別されるように、割り当てられていないピクセルが強調表示されてもよい。ラベル付けされた画像間の比較は、異なるグラウンドトゥルースラベル付けの間の違いを示すために行われる。
【図面の簡単な説明】
【0009】
【図1】本出願の概念が実施される環境のシステム図である。
【図2】本出願のグラウンドトゥルースラベラのポップアップメニューを示す図である。
【図3】ピクセルラベラの操作を示す図である。
【図4】ピクセルラベラの操作を示す図である。
【図5】ピクセルラベラの操作を示す図である。
【図6】ピクセルラベラの操作を示す図である。
【図7】ピクセルラベラの操作を示す図である。
【図8】ピクセルラベラの操作を示す図である。
【図9】ピクセルラベラの操作を示す図である。
【図10】ピクセルラベラの操作を示す図である。
【図11】ピクセルラベラの操作を示す図である。
【図12】ピクセルラベラの操作を示す図である。
【図13】ピクセルラベラの操作を示す図である。
【図14】ピクセルラベラの操作を示す図である。
【図15】ピクセルラベラの操作を示す図である。
【図16】主な操作を含むピクセルラベラの状態図である。
【図17A】図16に示されるものに加えて付加的な操作を示す図である。
【図17B】図16に示されるものに加えて付加的な操作を示す図である。
【図18】図17の選択編集状態の状態操作を示す図である。
【図19】本出願の多層概念を示す図である。
【発明を実施するための形態】
【0010】
図1に、本出願の概念を実践することができるシステム100が示される。システム100は様々なチャネルを示しており、それらによって、グラウンドトゥルースラベル付けのため、デジタル化されたビットマップ方式の画像、および/またはデジタルインク技術によって形成された画像が入力される。
【0011】
より具体的には、画像を有する文書102のハードコピーがスキャナ104に入力され、スキャナが、文書102の画像を画像の電子文書106に変換または変形する。ハードコピー文書102上の画像は、電子データ処理デバイスによって、ペン、鉛筆、もしくは他の非電子用具によって、または電子および手動両方のスタンプによって作られてもよいが、それらに限定されない。電子文書106は、本出願のグラウンドトゥルースラベラ112を含む、コンピュータ、パーソナルデジタルシステム、または他の電子デバイス110のスクリーン108上に表示される。電子デバイス110は、グラウンドトゥルースシステム112を操作するため、少なくとも1つのプロセッサおよび十分な電子記憶装置を含む。グラウンドトゥルースラベラは、電子デバイス110のメモリに格納されたソフトウェアとして具体化され、電子デバイス110のプロセッサによって操作されてもよい。グラウンドトゥルースラベラ112は、電子デバイス110のマウス、キーボード、または他のユーザインターフェースの操作によって制御される、ユーザインターフェースの形態で実装されてもよい。図1に示される電子デバイス110は、そのような入出力デバイスを含むものと理解される。
【0012】
あるいは、ホワイトボードまたはデジタルインクデバイス114が電子デバイス110に連結され、それによって、ビットマップ方式の画像またはデジタルインク画像116がデバイス110に電子的に伝送されてもよい。ビットマップ方式の画像またはデジタルインク画像をグラウンドトゥルースラベラ112に供給してもよい別のチャネルは、別の電子デバイス118を使用することによる。このデバイスは、コンピュータ、コンピュータ化CADシステム、ウェブページを配信するインターネット上のサーバ、または、ビットマップ方式画像および/またはデジタルインク画像120をラベラ112に供給する、電子タブレット、個人情報端末(PDA)などの他のあらゆるシステムを含むが、それらに限定されない多数のシステムのいずれかであることができる。さらに、電子デバイス110にロードされた画像生成ソフトウェアを使用して、ラベラシステム112が使用するためにビットマップ方式の画像またはデジタルインク画像を生成することができる。ラベラシステム112によって処理された画像を含む電子文書の完成版は、コンピュータシステム110の記憶装置に格納されるか、別の電子デバイス118に送信されるか、プリンタ122によってハードコピーの形態で印刷されるか、または、コンバータ/スキャナ104と関連付けられた印刷機能から印刷される。
【0013】
上述の考察は、画像を生成するための様々なチャネルについて明示的に述べているが、本出願の概念は、他のチャネルを介して取得された文書上の画像とも同様に機能することを理解されたい。
【0014】
ピクセルレベルでラベル付けするグラウンドトゥルースラベラ112は、一連のユーザインターフェース技術を含む。ラベラ112は、ラベル付けすべき画像の文書をユーザに提示する。文書は、白黒(bitonal)、グレースケール、またはカラーであることができ、文書画像は、加速されたユーザインターフェースコマンドおよび技術をそれらが使用し、それによって、より少ないユーザ操作で類似したラベルのピクセルの大きな集合を併せてタグ付けするのに役立つ構造によって特徴付けられる。ラベラ112のユーザインターフェース動作としては、二通りのエンクロージャ/ブラシ選択領域/モード、暫定ラベル付け状態、層をまたがるピクセルのグループ化、構造認識による自動グループ化、タスク指定プログラムを用いたブートストラップ、および複数ユーザによって作成されたグラウンドトゥルースの比較ツールが挙げられる。
【0015】
一実施形態では、画像に対する異なるマーキングのタイプは異なるオーバーレイ色によって識別される。例えば、署名を含むバイナリ化した形態では、グラウンドトゥルースのタスクは、その形態の署名のラインを含むピクセルを青で(「機械印刷ライングラフィック」を表す)、手書きの署名を赤で(「手書きテキスト」を表す)色付けしてもよい。色の使用は、文書中の異なるタイプのマーキングを区別する1つの手法であるが、他の識別子の中でも、異なるグレースケール、および明確なパターン(例えば、点線、斜影線、鎖パターンなど)を含む他の識別子も使用されてもよいことに留意されたい。
【0016】
次に、本発明のラベラユーザインターフェースの様々な態様について説明する。
【0017】
1.ユーザインターフェース設計
1a.領域モードおよびブラシモード
文書は、比較的均一な白または他の色の背景に対して設定された前景マーキングによって特色付けられる。ラベラ112は、背景ではなく前景のピクセルのみをラベル付けする。したがって、プロセスの第1のステップは、十分に確立された画像処理技術を使用して、カラー、グレースケール、または白黒の黒(bitonal-black)の前景マーキングを背景から分離することである。これらの技術によって、背景ピクセルは不変の「白」として処理され、識別子(例えば、カラー)は付加されない。
【0018】
一実施形態では、前景/背景の分離は、白黒画像中のすべての白色ピクセルを背景として見なすことによって、または、グレースケールもしくはカラー画像の場合、結果として得られる白色ピクセルをすべて背景として閾値化し(thresholding)ラベル付けすることによって行われる。より高度な実装例では、全体を本明細書に組み込む米国特許第7,177,483号、「System and method for enhancement of document images」において使用され記載されているような、様々な既存の画像処理ステップを適用して、白以外の背景領域を決定することができる。
【0019】
ラベラのメニュー200(例えば、図2のポップアップメニュー200)が起動されてもよく、これは、一実施形態では、右マウスボタンをクリックすることによって生じる。メニュー200は、前景ピクセルに重なる多数のラベルおよびそれらに関連する色に対する選択オプションを提示する。
【0020】
以下の考察では、素材の大部分が特定の色に関連する。本明細書では、色は参照番号によって識別される。しかし、実装において、実際の色自体が画像の一部としてスクリーン上に示されるであろうことを理解されたい。
【0021】
例えば、図2のメニュー200に関しては、ユーザは、ラベル202を選択して、手書きテキスト(例えば、赤)204、手書きグラフィック(例えば、茶色)206、機械印刷テキスト(例えば、紫)207、機械印刷ライングラフィック(例えば、青)208、スキャナノイズごま塩(scanner noise salt and pepper)(例えば、緑)210を識別するなどしてもよい。他のラベルは、未割当て(例えば、黒)212および背景(例えば、白)213として識別される。他のラベル指定は、ラベル202の下のリストに記載されており、それぞれ、画像中のマーキングタイプのラベルを指定するため、異なる色を有することを理解されたい。しかし、図面を明瞭にするため、すべてのラベルに符号が付いているわけではない。メニュー200には、異なるサイズのブラシを選択できるようにする、ブラシサイズのセレクター214も示されている。この例では、ユーザはサイズ「16」のブラシ216を選択している。同様に、ブラシスタイル218は、円または塗りつぶし(flood-fill)のどちらかのスタイルの間で選択されてもよく、この例では、塗りつぶしスタイル222ではなく円220が選択されている。メニュー200はまた、「すべてロック(Lock All)」ボタン224、「元に戻す(Undo)」ボタン226、「領域/ブラシ(Region/Brush)」ボタン228、「未割当て(Unassigned)」ボタン232、「比較(Compare)」ボタン234、および「ズーム(Zoom)」ボタン236を含む。ラベルの説明およびそれらの色は、一実施形態では、ユーザ編集可能なXML設定ファイルによって設定される。使用中のとき、また図3に示されるように、メニュー200は、グラウンドトゥルース処理が行われる画像300上に直接ポップアップしてもよい。
【0022】
ユーザインターフェースは、2つの主要なモードまたは状態のうち1つで存在する。領域モードでは、ユーザは、マウスをドラッグして、エンクロージャによって画像の領域を選択する。ソーンドら, "Perceptually-Supported Image Editing Of Text And Graphics," ACM UISTI, pages 183-192, 2003(参照により本明細書に組み込む)によって最初に紹介された、オーバーロードループ選択(overloaded loop selection)と呼ばれる技術によって、どのツールが望ましいかを前もって選択することなく、矩形または投げ縄による選択が可能になっている。
【0023】
図4に示されるように、左ボタンを押した状態でマウスをドラッグすると同時に、ユーザがドラッグした形状に応じて選択矩形または投げ縄(lasso)のどちらかが動的に示される。ユーザが円弧400に沿ってドラッグしていると、システムはまず、これを矩形402のための移動であると理解する。しかし、投げ縄エンクロージャ400がより完全に完成すると、図5に示されるように、投げ縄500が選択される。したがって、マウスリリースの時点で、選択パスの形状が十分に閉じている場合、投げ縄エンクロージャが選択され、そうでなければ、選択矩形402が表示され、その領域内のピクセルが選択される。ピクセルが選択されると、囲い込まれた画像区画(例えば、この場合、茶色によって識別される手書きグラフィック206)を表すラベルを用いて、図面の囲い込まれた矢印600が茶色になる。したがって、図6の画像300は茶色の矢印指示子600以外は完全に黒である。
【0024】
次に図7を参照すると、多角形選択の操作が示される。特に、マウスをダブルクリックすることによって多角形選択状態が起動し、それによって、マウスクリックを使用して多角形700の頂点をドロップすることによる領域選択が可能になる。(画像を囲い込む)多角形700が形成されると、ユーザは、このアイテムを表すべきラベルを選択するが、考察のため、選択色は、メニュー200の機械印刷ライングラフィック208を表す青であってもよい。
【0025】
第2の主なモードはブラシモードである。領域モードとブラシモードとの間の移行は、この実施形態では、スペースキーを押すことによって、またはメニューもしくはツールバーの「領域/ブラシ」ボタン228をクリックすることによって遂行されてもよい。ブラシモードでは、カーソルは、丸または別の形状の「ブラシ」に置き換えられる。このモードでは、ラベル色はブラシを移動させる前に選択される(この場合、選択色は青−208である)。前景ピクセルは、ブラシが(左マウスボタンを押し下げた状態で)それらの上でドラッグされると選択される。ブラシモードにおける操作が図9に示され、この図では、円形ブラシ900が点線位置900から始まり、ユーザによって、画像(即ち、トランジスタ概略図(transistor schematic))の外周の周りで移動される。図9では、ブラシ900は開始部分(即ち、点線900)に至るパスをまだ完成させていない。しかし、これが完成すると、次にブラシは、機械印刷ライングラフィック(即ち、青)208を表す内部の上を移動される。ブラシシステムがどのように働くかを容易に理解するため、トレースライン902が単に提供されていることを理解されたい。このラインは、この実施形態の画像上に実際には現れない。
【0026】
1b.暫定状態
領域モードおよびブラシモードの両方において、ユーザが一連のピクセルを選択した後、それらのピクセルは、選択されたラベル分類を示す色で表示される。しかし、任意選択の直後に、インターフェースはまず暫定状態に入り、選択されたピクセルは、最終色ラベルの増補された外観(augmented appearance)によって示される。例えば、増補された外観は、最終色の非飽和色、ある種のパターンもしくはテクスチャ、または他の識別子であってもよい。
【0027】
暫定状態によって、ユーザは、選択されたピクセルのラベル(およびそれに関連する色)を、その色にコミットする前に変更することができる。(しかし、コミット操作がある場合であっても、あらゆる動作を元に戻すことは常に可能であり、いずれのピクセルラベルのコミットメントも不可逆的ではない)。これは、一実施形態では、右ボタンをクリックし、異なるラベル(およびそれに関連する色)を選択することによって行われる。また、暫定状態では、ユーザは、メニュー200の元に戻すボタン226もしくはツールバーをクリックして、選択されたピクセルをそれらの以前のラベルに、または未割当て状態にリセットすることができる。画像編集ツールの標準的な選択後命令(select-then-command)パラダイムとは異なり、ラベル付けのタスクは、これらのステップ両方を組み合わせて単一操作とすることによって容易になっている。ユーザインターフェースの設計用語では、暫定状態は、素材を選択した直後にラベルを修正する機会をユーザに与える疑似モードであるが、この状態は自動的に終了し、迅速で順次的な色付けコマンドの妨げにはならない。元に戻す概念は図11に示され、ここでは、画像800の青(208)に色付けされた部分800’が囲い込まれており、次に、元に戻すボタン800’が起動されて、区画800’をその以前の状態(即ち、黒−212)に戻す。
【0028】
1c.ピクセル群
領域モードはまた、前景ピクセル群の自動および手動での確立に基づいて、ラベラ112のいくつかの機能にアクセスする。ユーザが、領域モードまたはブラシモードのどちらかで一連のピクセルを選択し、ラベル付けするたびに、それらのピクセルは、シングルマウスクリックによって後で選択することができる群として記憶される。具体的には、ラベラ112では、共通して関連付けられたピクセルの群に属するピクセルの上にカーソルが位置づけられた場合、「グループコマンド」(例えば、一実施形態では、シフト左クリックマウスコマンド)が、そのピクセルを含む前景ピクセル群のすべてのピクセルを選択する。これによって、関与するピクセルを個々に選択し直す面倒なしに、ユーザが最初のラベル付け作業を行い、次にピクセル群に戻り、それらのラベルを変更することが容易になる。
【0029】
ピクセルは複数の群に属することがあり得る。これらには、連続的な「循環識別(cycle identification)コマンド」(例えば、シフトキー左マウスクリックコマンド)によって順にアクセスすることができる。一連の群は一度に1つずつ循環されて、現在の暫定ラベル色でそれぞれ表示される。
【0030】
1d.群構造の自動検出
ピクセル群は、手動の領域またはブラシに基づく選択によってだけではなく、自動プロセスによっても作られる。ラベラ112では、ユーザは、「構造認識(Recognize Structure)」操作(例えば、ボタン230)を呼び出してもよい。選択されると、自動画像処理が行われて、文書の知覚的に意味のある要素に対応するピクセル群が形成される。ラベラ112の一実施形態では、画像処理技術が使用されて、水平線および垂直線が検出され、これらが群として形成される。スクラッチ画像では、水平線および垂直線はフル画像から除かれ、残っている連結成分が収集される。各連結成分は、ラベラ112のポイントアンドクリックによって選択することができる別のピクセル群を形成する。プログラムアーキテクチャは、これらのグループ分けを検出する自動プログラムが利用可能な程度まで、テキストラインおよびレイアウトを含む構造認識の他の形態に拡張可能である。一実施形態では、そのような構造は、それぞれ全体を参照により本明細書に組み込む、ソーンドによる同時係属中の米国特許出願第(未確定)号(代理人整理番号20090023−US−NP)、名称「System And Method For Segmenting Text Lines In Documents」、ならびに、プラティークらによる米国出願第(未確定)号(代理人整理番号20090017−US−NP)、名称「System And Method For Classifying Connected Groups Of Foreground Pixels In Scanned Document Images According To The Type Of Marking」に教示されているように遂行される。
【0031】
上述の群構造概念を例示して、図12および13に注目する。例えば、直線構造1200および1202などの構造が認識されていると、ラインに沿った任意の場所(1204、1206)でマウスをクリックすることによって、ライン全体が、機械印刷ライングラフィック(例えば、208 青)など、選択されたラベル色に対応する色に変わる。換言すれば、システムはラインの構造を認識するので、場所1204および1206でクリックすることによって、ライン1200および1202全体が適切なラベル色に変わる。
【0032】
1e.ブートストラップ
完全自動のピクセルラベラが存在している。本発明のピクセルラベラ112の別の特徴は、自動のピクセルラベラを使用してブートストラッププロセスを行うことによって、ピクセルラベルが初期化されてもよい点である。この動作を遂行するため、自動認識アルゴリズムが初期画像(またはその任意のユーザ選択領域)上で実行され、このアルゴリズムによって取得されるラベルで前景ピクセルが色付けされる。認識アルゴリズム自体ではなくユーザインターフェース(UI)設計に焦点を当てたラベラ112の実装において、ユーザは、自身のカスタムのピクセルラベルブートストラッププログラムを供給してもよい。一実施形態では、そのようなブートストラッププログラムは、単純なインターフェースを実装する分類を含むJava(登録商標) JARファイルの形態である。
【0033】
1f.未割当てピクセル
ユーザが画像中の多数の前景ピクセルをラベル付けした後、背景ノイズのスペックなど、まだラベル付けされていないピクセルを検出するのが困難な場合がある。ラベラ112は、ツールバー上に「未割当てピクセルの検索(Find Unassigned)」ボタンを含む。このボタンを起動することによって、すべてのまだラベル付けされていないピクセルによって形成されるすべての連結成分の上に重なる楕円が表示されて、ユーザによる検出が容易になる。
【0034】
1g.層ロック
ラベラ112は、図2の「すべてロック」ボタン224によって表されるロック機能を含み、それによって、ユーザは、任意のラベル(即ち、色)を「ロック」して、このラベルが既に与えられたピクセルを変更できないようにすることができる。これによって、領域内の一部のピクセルをラベル付けし、ピクセルをロックし、次に、大領域の選択操作(矩形のドラッグ、投げ縄、または多角形など)によって、領域内の残りのピクセルをすべて一度にラベル付けすることが可能になる。図14および15を参照すると、層ロックの概念が示される。例えば、図14では、手書きテキスト(「370147」)1400は手書きテキスト204(即ち、赤)として既に強調表示されている。したがって、数字370147は全体が赤である。図から分かるように、これらの数字と機械印刷ライングラフィック「修理受付番号(REPAIR ORDER NUMBER)」1402との間には重なりがある。この重なりは図面中で1404と指定されており、「3」と「PA」との間に生じている。層ロックがなければ、「修理受付番号」1402が色付けされていると、1404において重なっている「3」の区画はその新しい色ラベルに変わってしまう。しかし、この付加的な強調表示またはラベル付けを行う前に、(図2の)「すべてロック」ボタン224が選択されている場合、ラベラ112がその色を変更しようとしているときでも、1400の色付けが維持される。これは、図15に最も詳しく示されており、ここでは、「修理受付番号」は機械印刷ライングラフィック色(青−208)に変更されている。しかし、数字「370147」の残りと同様に、「3」の重なり1404は赤で維持される。
【0035】
1h.ラベル付け比較
グラウンドトゥルースの精度を担保するため、複数のユーザに所与の画像をラベル付けさせ、次にそれらユーザの出力を比較することが望ましい。ラベラ112は、グラウンドトゥルース比較機能を含む。ユーザは、一般的には他のユーザまたは自動プロセスのグラウンドトゥルース作業によって取得される、所与の画像の多数のラベル付けをロードする。次に、グラウンドトゥルースラベル付けが一致するか一致しないかを視覚的に示す「比較」機能(ボタン)234が呼び出される。
【0036】
2.実装
ラベラ112は、一実施形態では、より大きな画像の解析ツールキットの最上層の約40のカスタムクラスでJava(登録商標)/Swingにおいて実施される。ラベラ112の状態機械図の一部分1600が図16に示される。各選択/ラベル付け操作によって、その操作において選択され色付けされた(または別の形で識別された)前景ピクセルのみを含むビットマップ層が作られる。一連のラベル付け操作によって、ユーザに見える単層のキャンバス上に描画されるスタックが形成される。
【0037】
ラベル付け操作の出力は非常に単純である。一実施形態では、それは、色(整数)およびそれらのテキスト記述をラベル付けする整数インデックスからのマッピングをリストするとともに、ラベル色が付けられた画像自体をPNGフォーマットでエンコードするCDATAブロックを含むXMLファイルから成る。表示の便宜上、ラベル付けの個々の単体のPNG画像は同様に出力される。
【0038】
ラベラ112はピクセル当たり1つのラベルをサポートする。多くの文書画像アプリケーションでは、画像要素が、例えば、機械印刷されたベースラインに重なる手書き署名、またはグリフのワード、ライン、およびパラグラフの帰属関係を表すいくつかのラベルを採用することが望ましい。この能力は、ラベラ112とアーキテクチャ的に互換性を有する。
【0039】
状態図部分1600は、矩形または閉路どちらかの領域のマウスドラッグ選択(1604)を扱うドラッグROI状態(Drag ROI State)(1602)のラベラで始まる。左マウスリリースによって選択は終了する。ダブル左マウスクリックによって多角形状態に入る(1606)。多角形状態に入ると、多角形エリアのマウス選択は、シングル左マウスクリックで頂点をドロップし、ダブルマウスクリックで多角形をクローズアップし、ドラッグROI状態へと出ることによって扱われる。ブラシ状態(1608)は左マウスドラッグによってブラシ処理を扱う。右クリックによって、(例えば、メニュー202の)ラベルブラシパネルが立ち上がり、そこでブラシのサイズおよび色を選ぶことができる。左マウスリリースによって現在のブラシ処理が終了する。スペースキーを押すことによってブラシ状態とドラッグROI状態とがトグルで切り換わる。ラベラツールバー上には「状態切換え(Switch State)」ボタンが設けられる。「状態切換え」ボタンはラベラ112の現在の状況を表示する。クリックされると、「状態切換え」ボタンはまた、多角形−ドラッグROI−ブラシ状態の順で状態を切り換える。
【0040】
上述のイベント1610、1612、1614によってピクセルが選択される(即ち、何らかが選択され、ロックはされていないに対して「yes」)と、最終ラベル色の計算前の未飽和版である現在の暫定ラベル色として色付けされる。これは、ラベラが暫定的状態(1616)であることを示す。この時点で、マウスを右クリックすることによってラベルブラシパネルが立ち上がって、現在の選択されたピクセルのラベル色を変更することが可能になる(1618)。他のいずれかのマウスイベントまたはキーボードイベントによって、暫定状態が終了し、現在の選択がコミットされ(1620)、キャンバスの最上層が選択されたラベル色でペイントされた新しい層が作られる。次に、ラベラは、ドラッグROI、多角形、ブラシ、または選択状態など、以前の状態に戻る(1622)。
【0041】
上述したものは、ラベラ112の特定の機構を示す。ラベラ112は、図17の状態図1700に示されるものなど、付加的な能力を有することを理解されたい。ここでは、ラベラ112のUIプロセスは、すべてのマウスイベントおよびボタンが無効にされている初期(Init)状態(1702)から始まることが分かる。ファイルをロードする際、ユーザインターフェース(UI)ラベラはドラッグROI状態(1602)に入り、その後に図16のプロセスが始められてもよい。
【0042】
ズームインおよびズームアウトに対するマウスホイールリスナー(1704)、マウス位置を示し、マウスの下にオブジェクトがあるときにカーソルを変更するマウスモーションリスナー(1706)など、いくつかの共通のマウスリスナーも存在する。これらのリスナーは関連のある状態によって共有される。これらは右上端の円によって示される。
【0043】
状態図中のズーム状態(1708)は、ズーム領域の左マウスドラッグによるズームを扱う。ズームボタン236をクリックすることによってアクセスすることができる。マウスリリースによってズーム状態を出て、ラベラは以前の状態に戻る。図17は、図18においてより詳細に考察される選択編集状態(1710)も含む。
【0044】
図18は、選択編集状態(1710)および周囲操作(surrounding operations)1800をより詳細に示す。シフト左マウスクリックは、2種類の選択としての働きをすることができる。1つは、この現在のマウスの場所の下に位置する異なる層を循環するものである。第2に、マウスが新しい場所に移動し、異なる層を選択した場合、選択された層を、後で一度に選択することができる1つの群にグループ化する。層が選択され、かつ/または現在の選択群に追加されるごとに、層はすべて現在のラベル暫定色に変更され、修正または消去を可能にする暫定モードにある。シフトキーリリースによって選択状態が終了し、変更がコミットされる。
【0045】
図19に示されるように、画像の部分のラベル(色)を変更する動作が生じるたびに、新しい層が作られ、図19の下部に示されるように、キャンバスビットマップの最上層にペイントされる。この実施例では、層1は矩形エリアをマウスでドラッグすることによって作られたものである。層2は、シフトとマウスドラッグとによって複数の連結成分オブジェクトを選択することによって作られたものである。層3は、ピクセルの手書き部分をブラシ処理することによって作られたものである。層はすべてキャンバスビットマップ上にペイントされて、最終結果が形成される。
【0046】
ラベラ112のさらなるオプションとしては次のものが挙げられる。スマートブラシ:前景ピクセルをユーザがクリックすることによって、連結された前景ピクセルを最大距離まで塗りつぶすことができる。これは、「ストロークフォロー(stroke following)」に近似したアルゴリズムであろう。ブラシは、(局所的に)連結されておらず異なるラベルを必要とする近接したストロークを網羅できるので、これは、幅広のブラシを用いたペイントとは異なる。塗りつぶしの最大範囲は予め決定しなくてもよい。それは、ユーザへの動的なフィードバックを伴って、マウスホイールによって増減することができる。あるいは、塗りつぶしは、比較的低速のアニメーションで行うことができるので、ユーザは、単にマウスボタンを押し続けて、より多数の連結ピクセルを塗りつぶし続けることができる。後者はペンインターフェースに有効である。それに加えて、交差ストロークを汚すのを回避するため、塗りつぶしも指向性のある「円錐形」に制限するのが有益なことがある。
【0047】
アクティブブラシ:ピクセル色を変更する、または網羅するピクセルの解析に基づかないブラシ。例えば、特別なブラシは、アクティブブラシが前景ピクセルの50%以上を網羅する場合にのみ、ピクセルを色付けすることができる。メディアンフィルターブラシ:仕上げの完成用。メディアンフィルターブラシは、特定の割合が長い前景ラン(foreground runs)に関与する場合にのみ、網羅するピクセルを色付けしてもよい。
【0048】
このシステムおよび方法は、ピクセルごとの基準で文書画像をラベル付けするのに必要な労力を大幅に低減する。これは、一実施形態では、ユーザが次に直接ポイントアンドクリック操作することによってラベル付けすることができる、知覚的に顕著なピクセル群を確立するため、このタスクを対象とするユーザインターフェース設計の組み合わせによって、また、プロセスをブートストラップする自動認識技術の活用によって遂行される。
【0049】
コンピュータマウスと相互作用するラベラについて上記に記載してきたが、他の構成が可能である。例えば、1つの変形例は、マウスではなくペン/スタイラスを使用してラベラユーザインターフェースが実装されるものである。
【符号の説明】
【0050】
100 システム、102 ハードコピー文書、104 スキャナ、106 電子文書、108 スクリーン、110 電子デバイス、112 ラベラ、114 デジタルインクデバイス、116 デジタルインク画像、118 電子デバイス、120 デジタルインク画像、122 プリンタ。
【特許請求の範囲】
【請求項1】
コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能なグラウンドトゥルースユーザインターフェースラベラにおいて、
コンピュータ環境に格納された画像の前景ピクセルのみにピクセル基準でラベルを割り当てるためのラベル付け機構と、
ユーザによってピクセルが選択された後であってコミットされる前に、前記割り当てられたラベルを変更できるようにする暫定操作モードを設定する手段と、
を備えることを特徴とするグラウンドトゥルースユーザインターフェースラベラ。
【請求項2】
請求項1に記載のユーザインターフェースであって、
ピクセルの選択は、領域モードまたはブラシモードのどちらかを使用して遂行され、
前記領域モードは、選択されたピクセルのエンクロージャによって前記ピクセルを選択するように構成され、
前記ブラシモードは、ペイント操作においてピクセルを選択するように構成されたことを特徴とするユーザインターフェース。
【請求項3】
コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能なグラウンドトゥルースユーザインターフェースラベラにおいて、
コンピュータ環境に格納された画像の前景ピクセルのみにピクセル基準でラベルを割り当てるためのラベル付け機構と、
ラベル付けのために同時に選択しうるピクセル群を形成するグループ化機構であって、ピクセルは、画像層としてメモリに格納される1又は複数のピクセル群に属し、前記ピクセル群は、ユーザ選択動作によって、かつ/または自動認識アルゴリズムによって動的に形成される、グループ化機構と、
を備えることを特徴とするグラウンドトゥルースユーザインターフェースラベラ。
【請求項1】
コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能なグラウンドトゥルースユーザインターフェースラベラにおいて、
コンピュータ環境に格納された画像の前景ピクセルのみにピクセル基準でラベルを割り当てるためのラベル付け機構と、
ユーザによってピクセルが選択された後であってコミットされる前に、前記割り当てられたラベルを変更できるようにする暫定操作モードを設定する手段と、
を備えることを特徴とするグラウンドトゥルースユーザインターフェースラベラ。
【請求項2】
請求項1に記載のユーザインターフェースであって、
ピクセルの選択は、領域モードまたはブラシモードのどちらかを使用して遂行され、
前記領域モードは、選択されたピクセルのエンクロージャによって前記ピクセルを選択するように構成され、
前記ブラシモードは、ペイント操作においてピクセルを選択するように構成されたことを特徴とするユーザインターフェース。
【請求項3】
コンピュータ可読媒体上で具体化され、コンピュータ上で実行可能なグラウンドトゥルースユーザインターフェースラベラにおいて、
コンピュータ環境に格納された画像の前景ピクセルのみにピクセル基準でラベルを割り当てるためのラベル付け機構と、
ラベル付けのために同時に選択しうるピクセル群を形成するグループ化機構であって、ピクセルは、画像層としてメモリに格納される1又は複数のピクセル群に属し、前記ピクセル群は、ユーザ選択動作によって、かつ/または自動認識アルゴリズムによって動的に形成される、グループ化機構と、
を備えることを特徴とするグラウンドトゥルースユーザインターフェースラベラ。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17A】
【図17B】
【図18】
【図19】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17A】
【図17B】
【図18】
【図19】
【公開番号】特開2011−18334(P2011−18334A)
【公開日】平成23年1月27日(2011.1.27)
【国際特許分類】
【出願番号】特願2010−155672(P2010−155672)
【出願日】平成22年7月8日(2010.7.8)
【出願人】(502096543)パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Palo Alto Research Center Incorporated
【Fターム(参考)】
【公開日】平成23年1月27日(2011.1.27)
【国際特許分類】
【出願日】平成22年7月8日(2010.7.8)
【出願人】(502096543)パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Palo Alto Research Center Incorporated
【Fターム(参考)】
[ Back to top ]