説明

フリーフォームデジタルインク注釈認識

【課題】 分類タイプ検出器および/または文脈情報を利用して、注釈ストロークを認識し、アンカーを設定して、リフロー可能なデジタル注釈を与えるシステマティックな手段を提供すること。
【解決手段】 これにより、デジタル文書内の注釈のアーカイブ、共有、検索が行え、また操作も簡単に行える。本発明の一実施例では、注釈認識方法により、グループ化され、分類され、文書内の基本テキストおよび/または点へのアンカーが作成されるストロークの入力が得られる。本発明の他の実施例では、言語学的な内容、領域特有の情報、アンカーの文脈、および文書文脈を利用して、注釈を正しく認識しやすくする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、認識に関するものであり、より具体的には、テキストおよび/またはグラフィックスへのフリーフォームのデジタルインク注釈を認識するシステムおよび方法に関するものである。
【背景技術】
【0002】
本出願は、2004年8月26日に出願され、番号10/927,452を割り当てられた「SPATIAL RECOGNITION AND GROUPING OF TEXT AND GRAPHICS」という表題の同時係属および同時譲渡米国出願(整理番号MS308215.01)、2003年8月21日に出願され、番号10/644,900を割り当てられた「ELECTRONIC INK PROCESSING」(整理番号MS305158.01)、および2002年5月14日に出願され、番号10/143,865を割り当てられた「HANDWRITING LAYOUT ANALYSIS OF FREEFORM DIGITAL INK INPUT」(整理番号MS300157.01)に関する。上記の出願は、参照により本明細書に組み込まれる。
【0003】
日々、人々は仕事および余暇活動にコンピュータを利用することに依存することが多くなってきている。しかし、コンピュータは、情報を処理するために不連続状態を識別する必要があるデジタルの領域で動作する。これは、出来事が決して完全に白または黒ではなく、常に灰色の陰影の中間にあるように思われる、はっきりとアナログな仕方で人間が機能するのとは反対である。したがって、デジタルとアナログとの間の主な違いは、デジタルでは時間に関してとびとびである不連続状態を必要とするが(例えば、異なるレベル)、アナログは時間に関して連続的であるという点である。当然のことながら人間はアナログ方式で活動しているので、コンピューティング技術は、前述の時間的違いにより生じる人間とコンピュータとのインターフェイス機能(例えば、デジタルコンピューティングインターフェイス)に関連する難しい問題を緩和する方向で発展してきている。
【0004】
キーセットは、最初期のマンマシンインターフェイスデバイスの1つであり、従来からタイプライタで使用されてきた。しかし残念なことに、コンピュータを利用したくても、タイピング方法を誰もが知っているわけではない。これが、コンピューティング技術を十分に利用できるであろうコンピュータユーザの数を制限している。解決策の1つは、コンピューティングモニタから絵を選択して、コンピュータにタスクを実行させられるグラフィカルユーザインターフェイスの導入であった。そこで、コンピューティングシステムの制御は、「マウス」として知られる指し示して選ぶポインティング&選択デバイスで行われるのがふつうだった。これにより、キーボードの使い方を学習しなくても、コンピューティング技術を利用できる人々の数が増えた。これらのタイプのデバイスによりコンピューティング技術の利用が容易になったとはいえ、手書きおよび手描きほど直観的でない。
【0005】
まず最初に、タイプライターで打ち込まれた、または活字で組まれた既存の情報をコンピュータに入力する試みに技術が注ぎ込まれた。スキャナまたは光学式画像処理装置を使用し、絵の「2値化」が行われた(例えば、画像をコンピューティングシステムに入力する)。画像を2値化してコンピューティングシステム内に取り込めると、次に、印刷または活字で組まれた素材も2値化できるであろう。しかし、スキャンされたページの画像は、コンピューティングシステムに取り込まれても、テキストまたは記号として操作することができないが、それは、システムにより「認識」されない、つまり、システムはそのページを理解しないからである。文字も単語も「絵」であり、実際に編集可能なテキストでも記号でもない。テキストに関するこのような制限を克服するために、スキャンニング技術を利用してテキストを編集可能なページとして2値化する光学式文字認識(OCR)技術が開発された。この技術は、OCRソフトウェアによりスキャンされた像を編集可能なテキストに変換できる特定のテキストフォントが使用されていた場合には十分うまく機能した。
【0006】
その後、OCR技術は、手書きの認識に利用してみても実用的と思われる精度レベルに到達した。このアプローチの問題は、直線状に配列された使用可能なタイプのフォントの制限された、または有限な選択部分(つまり、テキスト1行分)を認識するように既存のOCR技術をチューニングしたという点にある。したがって、既存のフォントのデータベースと比較することにより文字を「認識」することができた。フォントが理路整然としていない場合、OCR技術は、変な、つまり「存在しない」文字を返し、テキストを認識していないことを示す。手書きは、このような問題のなおいっそう極端な場合であることが判明している。人が書く場合、その人特有のスタイルが筆跡に現れる。この独自性のゆえに、法律文書では署名が使用され、他人と区別する。したがって、まさにその本質から、手書きは、同じ文字であっても無限の形がある。明らかに、特定の1つの文字に対する手書きの考えられるあらゆる形を保存することは、不可能であることはわかるであろう。手書き認識を現実のものとするために他の手段を求める必要があった。
【0007】
ふつうのことだが、ユーザは自分のシステムにより多くを要求し続けた。したがって、ページを認識するだけでは、最終的には、すべてのユーザを満足させるのには十分でなかった。デジタル時代になって、文書作業のある側面は簡単になったが、コンピュータシステムに入力する従来の手段を使用することを好むユーザが多い。このような理由から、携帯型デジタルライティングサーフェスデバイス(portable digital writing surface devices)などのデバイスが作成された。これらのシステムにより、ユーザは、従来通り書くこともできるが、書き込みは専用のライティングサーフェス(writing surface)を介して自動的に2値化される。これにより、データエントリなどの作業で従来のキーボードタイピングに適応していないユーザでも、このタイプの技術を介してシステムを使用することができる。ユーザは、最終的に、それらのデバイスを使用して文書および図面の編集を始めた。これらのマーキングまたは「注釈」は、「固定」または絵形式のデジタル文書の一部となった。したがって、文書が同じままであり、操作されていない限り、注釈付きのマークは基本テキスト上に残った。しかし、予想できるように、異なるワードプロセッサまたは異なる画面解像度でデジタル文書を開くと、その文書はレイアウトとサイズが変化することになる。このため、注釈は離ればなれになり、文書の他の領域に適用するのが不適切になる。この結果、マークの意味に大きな混乱が生じ、デジタル注釈の適用性がひどく制限される。ユーザは、編集コメント、図面挿入、および他の注釈が適所に残り、誰でも文書を取り出して、コメントについて作成者が意図したのと同じ解釈を施すことができることを納得できなければならない。
【0008】
【特許文献1】2004年8月26日に出願され、シリアル番号10/927,452を割り当てられた「SPATIAL RECOGNITION AND GROUPING OF TEXT AND GRAPHICS」という表題の同時係属および同時譲渡出願(整理番号MS308215.01)
【特許文献2】2003年8月21日に出願され、シリアル番号10/644,900を割り当てられた「ELECTRONIC INK PROCESSING」という表題の同時係属および同時譲渡特許出願(整理番号MS305158.01)
【特許文献3】2002年5月14日に出願され、シリアル番号10/143,865を割り当てられた「HANDWRITING LAYOUT ANALYSIS OF FREEFORM DIGITAL INK INPUT」という表題の同時係属および同時譲渡特許出願(整理番号MS300157.01)
【非特許文献1】W. Schilit, G. Golovchinsky, and M. Price; Beyond Paper: Supporting Active Reading with Free Form Digital Ink Annotations; Proc. of ACM CHI 1998; ACM Press. pp. 249−256
【非特許文献2】G. Golovchinsky, L. Dennoue; Moving Markup: Repositioning Freeform Annotations; Proc. of ACM UIST 2002; ACM Press, pp. 21−30
【非特許文献3】D. Bargeron and T. Moscovich; Reflowing Digital Ink Annotations; Proc. of CHI 2003; ACM Press, pp. 385−393
【非特許文献4】University of Chicago Press; The Chicago Manual of Style; The University of Chicago Press; Chicago, IL, USA; 13th edition, 1982
【非特許文献5】C.Marshall and A. Brush; From Personal to Shared Annotations; In Proc. of CHI 2002; ACM Press; pp. 812−813
【発明の開示】
【発明が解決しようとする課題】
【0009】
以下では、本発明のいくつかの態様の基本的な内容を理解できるように、発明の開示を簡単に説明する。この発明の開示は、本発明の概要を広範囲にわたって述べたものではない。この発明の開示は、本発明の鍵となる/決定的な要素を示したり、本発明の範囲を定めることを目的としていない。後で述べる詳細な説明の前置きとして、本発明のいくつかの概念を簡略化した形式で述べることのみを目的とする。
【0010】
本発明は、一般に、認識に関するものであり、より具体的には、テキストおよび/またはグラフィックスへのフリーフォームのデジタルインク注釈を認識するシステムおよび方法に関するものである。分類タイプ検出器および/または文脈情報を利用して、注釈ストローク(annotation strokes)を認識し、アンカーを設定して、リフロー可能な(reflowable)デジタル注釈を与えるシステマティックな手段を実現する。これにより、デジタル文書内の注釈の保管(アーカイブ)、共有、検索が行え、また操作も簡単に行える。本発明の一実施例では、注釈認識方法により、グループ化され、分類され、文書内の基本テキストおよび/または点へのアンカーが作成されるストロークの入力が得られる。本発明の他の実施例では、言語学的な内容、領域特有の情報、アンカーの文脈、および文書文脈を利用して、注釈を正しく認識しやすくする。したがって、本発明では、デジタル文書注釈を認識し、操作するためのリアルタイムの正確で効率のよい方法を提供する。
【0011】
前記の関係する目的を達成するために、本発明のいくつかの例示されている態様について、以下の説明および付属の図面に関して本明細書で説明する。ただし、これらの態様は本発明の原理を採用するさまざまな方法のうちわずかのみを示しており、本発明はこのような態様およびその等価物すべてを含むことを意図している。本発明の他の利点および新規性のある特徴は、図面を参照しつつ本発明の以下の詳細な説明を読むと明白になるであろう。
【課題を解決するための手段】
【0012】
次に、本発明は、本明細書全体を通して類似の番号は類似の要素を示すために使用される図面を参照しつつ説明される。以下の説明では、説明を目的として、本発明を完全に理解できるようにする多数の具体的詳細を述べている。しかし、本発明は具体的詳細を知らなくても実施できることは明白であろう。他の場合には、本発明を説明しやすくするために、よく知られている構造およびデバイスがブロック図形式で示されている。
【0013】
本出願で使用されているように、「コンポーネント」という用語は、コンピュータ関連のエンティティ、つまりハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、または実行中のソフトウェアのいずれかを指すことが意図されている。例えば、コンポーネントとして、限定はしないが、プロセッサ上で実行されているプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行のスレッド、プログラム、および/またはコンピュータなどがある。例えば、サーバ上で実行されているアプリケーションとサーバは両方ともコンピュータコンポーネントであってよい。1つまたは複数のコンポーネントを1つのプロセスおよび/または実行スレッド内に常駐させることができ、またコンポーネントを1台のコンピュータにローカルとして配置し、および/または2台またはそれ以上のコンピュータ間に分散させることができる。「スレッド」は、オペレーティングシステムのカーネルが実行に関するスケジュールを行うプロセス内のエンティティである。本技術分野ではよく知られているように、それぞれのスレッドは、スレッドの実行に関連付けられた揮発性データである関連する「コンテキスト」を持つ。スレッドのコンテキストは、システムレジスタの内容と、スレッドのプロセスに属す仮想アドレスを含む。したがって、スレッドのコンテキストを含む実際のデータは、実行時に変化する。
【0014】
デジタルインク注釈は、紙の文書の物理的注釈を模倣し、文書処理に関するユーザの体験を改善するために使用される。本発明では、デジタルライティングサーフェス(例えば、タブレットPC)などの紙に似た注釈インターフェイスを使用して作成されたフリーフォームデジタルインク注釈を認識するシステムおよび方法を提供する。本明細書で使用されている「認識済み注釈」という用語は、完全に操作可能であり、「理解される」注釈を意味する。これは、注釈が文書内のある点に固定されることを意味する場合も意味しない場合もある。しかし、認識済み注釈は、特定のアイテムを対象とすることを意味すると理解される。本発明の一実施例では、注釈認識は、デジタルインクストロークを複数の注釈にグループ化すること、複数の注釈を多数のタイプのうちの1つに分類すること、およびそれらの注釈を基本文書の該当する部分に固定することを含む。例えば、テキストの複数の単語の下に引かれた線は、下線として分類され、下線が引かれている単語に固定されるようにできる。
【0015】
デジタル文書上の注釈は、紙の上の注釈と比べて明確な利点を有する。これらは、アーカイブ、共有、検索、および容易な操作が可能である。フリーフォームデジタルインク注釈を使用すると、ペンと紙の柔軟性と自然な表現力が加わるが、マウスおよびキーボードで作成した注釈に固有の構造の一部が犠牲になる。例えば、現在のインク注釈システムではインクを固定せず、文書のサイズ変更または編集時に論理的にリフローできる。デジタルインク注釈が注釈している文書の部分に追随するようにリフローしない場合、インクは意味のないものとなるか、または誤らせる可能性がある。本発明では、デジタルインク注釈を認識してこの構造を推論し、より構造化されたデジタル注釈の強みを好ましいフリーフォーム媒体にリストアするアプローチをとる。本発明は、新しい注釈タイプをサポートし、異なる注釈要素の間の曖昧さをリアルタイムで効率よく解決できるように簡単に拡張可能である。デジタルインクストロークは、さらに、バックグラウンドプロセスとして非リアルタイムで認識されることが可能である。
【発明を実施するための最良の形態】
【0016】
図1では、本発明の一態様による注釈認識システム100のブロック図が示されている。注釈認識システム100は、入力104を受信し、出力106を供給する注釈認識コンポーネント102からなる。入力104は、例えば、文書の1ページ分を表すデジタルインクストロークからなる。文書は、多くの場合、全体がテキストからなるが、グラフィックも含む場合がある。入力104は、デジタルライティングサーフェスから、および/または2値化された(つまり、スキャンされた)ハードコピー文書からなどの直接2値化された入力とすることができる。注釈認識コンポーネント102は、入力104を分析し、ページのレイアウトを決定し、ページ情報から注釈関係情報を分離する。ストロークは、グループ化され処理されて、それにより、適切な注釈を決定する。処理は、リアルタイムおよび/または非リアルタイムで実行可能である。これにより、認識は、優先順位処理および/またはバックグラウンド処理として実行することができる。本発明の他の実施例は、文書文脈および/またはアンカー文脈情報などの文脈情報、およびテキストコンテンツ情報(つまり、言語情報)などの文脈情報を使用して、適切な注釈の決定を容易にできる。本発明のさらに他の実施例では、さらに、注釈の意味を解釈し、注釈に関係するアクションを実行および/または指令することができる。本発明は、さらに、文書のサイズ変更および/または他の何らかの方法による操作を行うときのリフロー機能を提供する認識済み注釈のため文書内の適切なアンカー点も決定することができる。
【0017】
本発明の他の実施例では、入力104に関連付けられた色を使用して、さらに注釈を認識することを容易にできる。本発明では、例えば、重要度、注釈の経過時間、ユーザ識別、および/または注釈タイプなどの注釈関係情報を表す色の知識を使用して、注釈認識を高めることができる。同様に、本発明では、出力時に色を使用することにより、注釈のタイプおよび/または入力のソースなどを識別することを容易にすることができる。本発明では、限定はしないが、デジタルインクストロークの太さ、デジタルインクストロークを作成するために使用されるペン先タイプ、デジタルインクストロークの透明度、およびデジタルインクストロークの粘性度を含む、他のスタイル特性を採用できる。非スタイル特性も採用できる。これらは、限定はしないが、デジタルインクストローク上のタイムスタンプ、およびデジタルインクストロークを作成するために使用されるペン先カーソル上のシリアル番号を含む。
【0018】
本発明のいくつかの実施例では、さらに、機械学習手法を使用して、注釈タイプの分類を容易にすることもできる。適用可能な手法については、例えば、特許文献1を参照。この出願では、分類器を自動的にチューニングし、デジタルインクストロークの認識を容易にする機械学習手法を説明している。本発明は、これらの手法を使用することができる。本発明のさらに他の実施例では、複数の注釈を使用して、注釈認識を容易に行えるようにできる。他の注釈を考慮することにより、候補注釈の所望のタイプおよび/または意味を複合確率の最大化を通じて解釈することができる。
【0019】
注釈認識コンポーネント102の出力106は、限定はしないが、注釈、注釈アンカー点、注釈アクションコマンド、および/または直接注釈アクション編集を含むことができる。この出力を使用して、美化(beautification)、色符号化、および/または言語/記号変換などの追加注釈関係機能を提供することができる。本発明は、さらに、言語領域、記号領域、および/またはユーザ特有領域かどうかに関係なく複数の領域に適用するように注釈を拡張するなどの文脈に基づく注釈拡張を実現できる。例えば、ユーザ特有の注釈をプロフェッショナルタイプセット注釈に変換することができ、および/またはアラビア語に基づくテキストを記号に基づくテキストに変換するといったことができる。本発明のいくつかの実施例は、さらに、例えば、多数の削除、追加、および変更などのアイテムをユーザが簡単に識別できるようにする検索可能な注釈グループを含むことができる。協調フィルタリング手法を使用すると、さらに、注釈を簡単に検索できるようにすることも可能である。これらの手法は、例えば、非常に大きな文書のどのようなページおよび/またはセクションがレビューアなどの大きなグループの実質的な精査の対象となったかを判別するために使用できる。
【0020】
図2を参照すると、本発明の一態様による注釈認識システム200の他のブロック図が示されている。注釈認識システム200は、入力204を受信し、出力206を供給する注釈認識コンポーネント202からなる。注釈認識コンポーネント202は、セグメンテーションコンポーネント208、分類器コンポーネント210、および注釈アンカー作成コンポーネント212からなる。セグメンテーションコンポーネント208は、デジタルインクストローク入力などの入力204を受信して、それらのストロークをセグメント分割し、可能な注釈候補のグループを形成する。分類器コンポーネント210は、セグメンテーションコンポーネント208から注釈候補を受信して、受信した注釈候補から注釈を検出/識別(つまり、「認識」)する。注釈アンカー作成コンポーネント212は、認識済み注釈を受信し、それらの注釈のアンカー点を決定する。これらのアンカー点では、基本文書の変更時に注釈のリフローを可能にする。その後、注釈およびアンカー点は、出力206としても使用可能にされる。本発明の他の実施例では、基本文書との直接的対話操作を実行し、適切な注釈表示および/または注釈アクションのために必要に応じて更新および変更を発効させることができる。
【0021】
図3を参照すると、本発明の一態様による注釈認識システム300のさらに他のブロック図が示されている。注釈認識システム300は、ストローク304および文書文脈306を受信し、構文解析ツリー出力308を供給する注釈認識コンポーネント302からなる。注釈認識コンポーネント302は、レイアウト分析&分類コンポーネント310および注釈検出コンポーネント312からなる。注釈検出コンポーネント312は、解決コンポーネント314および検出器1〜P 316〜320からなるが、ただしPは有限な正整数を表す。レイアウト分析&分類コンポーネント310は、ストローク304および文書文脈入力306を受信し、情報を処理する。本発明の一実施例では、これ(310)は、ライティングストロークおよびドローイングストロークをグループ化/分離し、ライティングストロークを単語、行、および段落にグループ化する。レイアウト分析&分類コンポーネント310は、基本文書文脈を考慮せずにストロークの初期構造解釈を出力する。
【0022】
その後、注釈検出コンポーネント312は、文書文脈入力306の抽象化に関して共通注釈マークアップを求め、ストロークの改訂された構造解釈を出力し、文書文脈抽象化の要素に構造をリンクする。注釈検出コンポーネント312は、文書ページ上のストローク入力304から特定の注釈タイプを識別し、そのアンカーを作成する個々のタイプ検出器1〜P 316〜320を採用する。個々のタイプ検出器1〜P 316〜320は、可能な注釈グループを決定するためにその注釈タイプに特有の手法を使用する。解決コンポーネント314は、タイプ検出器1〜P 316〜320から出力を受信し、最も可能性の高い注釈を抽出し、衝突が存在する場合に最良の候補を選択する。当業者であれば、注釈検出コンポーネント312は、必要に応じて、追加タイプ検出器を追加することにより容易に拡張できることを理解するであろう。解決コンポーネント314は、文書文脈の中へのアンカーを持つ構文解析ツリー出力308を生成する。
【0023】
図4を参照すると、本発明の一態様による注釈認識システム400のさらに他のブロック図が示されている。注釈認識システム400は、さまざまな入力404〜410を受信し、文書412に対し効力を持つ/関係する出力を生成する注釈コンポーネント402からなる。本発明のこの実施例は、本発明の範囲内で使用できる追加機能を示している。当業者であれば、本発明を実践するためにすべてのコンポーネントが必要なわけではないことを理解するであろう。同様に、さまざまな入力のすべてが必要なわけではない。さまざまな入力404〜410は、注釈ストローク入力404、文書文脈入力406、領域特有の情報入力408、およびその他の情報入力410からなる。他の情報入力410は、本発明により使用できるが、明示的に名付けられていない追加情報を表す。本発明のこの実施例では、注釈認識コンポーネント402は、受信コンポーネント414、認識コンポーネント416、分類コンポーネント418、注釈タイプ検出器420、アンカー作成コンポーネント422、リフローコンポーネント424、言語コンポーネント426、およびアクション決定コンポーネント428からなる。
【0024】
受信コンポーネント414は、さまざまな入力404〜410を受信して、それらを認識コンポーネント416に中継する。認識コンポーネント416は、入力404〜410を処理し、文書412を対象とする注釈関係情報を出力する。認識コンポーネント416は、他の追加コンポーネントを使用して、さまざまな入力404〜410の処理を容易に行えるようにすることができる。認識コンポーネント416は、分類コンポーネント418と相互作用して、注釈の分類を行いやすくすることができる。分類コンポーネント418は、注釈タイプ検出器420と相互作用して、注釈タイプの検出を行いやすくすることができる。認識コンポーネント416は、言語分析コンポーネント426と相互作用して、注釈の決定も行いやすくすることができる。言語分析コンポーネント426は、文書412内に置かれたテキストを使用して、注釈の文脈を決定し、特定の注釈の意味について洞察することができる。言語特徴も、認識コンポーネント416により使用される分類器に統合することができる。異なる言語に対応するために、注釈が書かれた文脈および/または言語に応じて分類特徴を修正することができる。
【0025】
認識コンポーネント416は、さらに、アンカー作成コンポーネント422とやり取りして、認識済み注釈に対するアンカー点を与えることができる。次に、アンカー作成コンポーネント422は、リフローコンポーネント424と相互作用して、文書412に対するリフロー機能を与えることができる。リフローコンポーネント424は、文書ウィンドウ内に認識済み注釈を正しく表示する作業を補助する。これ(424)は、さらに、文書412が要約されるときに注釈インジケータを与えることもできる。注釈インジケータは、例えば、認識済み注釈が文書内に置かれている場所を示すフラグとすることができる。これにより、ユーザは、注釈が明示的に示されていないとしてもユーザが関心を持つ文書の一セクションに関連付けられていることを知ることができる。
【0026】
認識コンポーネント416は、さらに、アクション決定コンポーネント428と相互作用して、認識済み注釈の意味の解釈を行いやすくすることができる。アクション決定コンポーネント428は、注釈アクションを識別し、さらに、文書412と相互作用して、決定されたアクションを実行することができる。また、言語分析コンポーネント426を使用すると、アクション決定コンポーネント428による、注釈で表されるアクションの識別が容易になる。さらに、認識コンポーネント416では、領域特有の情報入力408を使用して、付加的文脈を加えて、注釈の認識とともに正しい注釈アクションの決定なども容易に行えるようにできる。領域特有の情報408は、限定はしないが、ユーザ特有の情報、文書トピック情報、プロフェッショナルまたは設定情報、および/または認識コンポーネント416が処理する選択の可能な数を制限する限界を規定する領域情報を含む。
【0027】
上位システムの値は、認識可能な注釈の重要度を理解することによりより適切に評価される。ペーパーレスオフィスのビジョンは依然として将来の目標であるが、高解像度ディスプレイを含む多くの技術、デジタルタイポグラフィの進歩、ネットワーク接続情報システムの急増は、ユーザの電子的読み取り作業効率の向上に貢献している。イネーブリングリサーチ(enabling research)の重要な分野の1つはデジタル文書注釈である。デジタル注釈はいくつもの文書バージョンにわたって持続し、紙の注釈ではできない方法で、検索、共有、および分析が容易に行える。
【0028】
図5は、(A)「正式な」注釈で注釈が付けられ編集されたデジタルテキスト502と、(B)非公式なフリーフォーム注釈で同等に注釈が付けられ編集されたデジタルテキスト504と、(C)デジタルインクを使用して文書に注釈を入れるペン付きタブレット型コンピュータ506の図500である。多くのデジタル注釈システムは、図5(A)502に示されているように、ユーザが文書の一部を選択し、付箋紙に似た注釈オブジェクトがその点に固定されるユーザインターフェイスを採用している。ユーザは、キーボードを叩いて付箋にテキストを入力する。後から、文書の編集のときに、付箋がアンカーとともにリフローする。この方法は、商用アプリケーションにおいて広く使用されているが、面倒なユーザインターフェイスである。その結果、多くのユーザは、文書をプリントアウトし、紙の上でペンを使って印を付けるため、プロセス内のデジタル注釈の利点が失われる。
【0029】
ユーザが、タブレット型読み取りアプライアンス(図5(C)506)上でフリーフォームデジタルインクにより注釈をスケッチするユーザインターフェイス(図5(B)504)は、このような制限の一部を克服する。この方法は、コンピュータ上で紙の形態と感じを模倣することにより、ユーザインターフェイスを合理化し、ユーザが読み取り作業に集中できるようにする。例えば、Schilitらは、xLibrisシステムで、素材の批判的思考法、学習、および統合により文書注釈およびメモ取りが行われる読み取り形態である、タームアクティブリーディング(term active reading)を導入している。ユーザがページに直接印を付けられるようにすることにより、「便宜、文書の文脈における集中および視覚的検索(convenience, immersion in the document context,and visual search)」を加える(例えば、非特許文献1を参照)。
【0030】
本発明では、タブレットPCなどの紙に似た注釈インターフェイスを使用して作成されたフリーフォームデジタルインク注釈を認識する手法を実現する。本発明の一実施例では、注釈認識は、デジタルインクストロークを複数の注釈にグループ化すること、複数の注釈を多数のタイプのうちの1つに分類すること、およびそれらの注釈を基本文書の該当する部分に固定することを含む。例えば、テキストの複数の単語の下に引かれた線は、下線として分類され、下線が引かれている単語に固定されるようにできる。サポートされているフルセットの注釈タイプおよびアンカー作成関係について後述する。注釈リフロー、自動美化、およびアクション実行可能な編集動作の属性をインクに付けることを含むデジタルインク注釈を認識することが望ましい理由はいくつかある。
【0031】
図6は、リフローおよびクリーニング注釈の図600であり、(A)オリジナルのユーザ注釈602は(B)文書の編集時に適切にリフローされ(604)、その後(C)自動解釈に基づいてシステムによりクリーニングされる(606)。目標の1つは、図6(A)602および(B)604に示されているように、デジタルインクのリフローである。物理的対応物とは異なり、デジタル文書は異なるデバイス上で編集可能であり、表示可能である。したがって、文書レイアウトは変更可能である。デジタルインク注釈が注釈している文書の部分に追随するようにリフローしない場合、インクは意味のないものとなるか、または誤らせる可能性がある。デジタルインク注釈の認識、アンカー作成、およびリフローでは、このような有害な結果を避けることができる。GolovchinskyおよびDenoueはまず、この問題を観察したが(例えば、非特許文献2を参照)、報告された単純な発見的手法は多数の現実世界の注釈に対しては堅牢でなく、新しいタイプの注釈を組み込むフレームワークを提案していない。
【0032】
認識の第2の目標は、図6(C)606に示されているように、注釈を自動的に美化することである。フリーフォームインキング(freeform inking)は、便利な入力媒体であるが、Bargeronは、文書作成者は他人が作成したコメントを通読する場合にスタイル化された注釈を好むと報告している(例えば、非特許文献3を参照)。
【0033】
デジタルインク注釈を認識する第3の目標は、注釈をアクション実行可能にすることである。多くの注釈は、所望の変更を文書に伝達する、つまり、「これらの語を削除する(delete these words)」または「この文章をここに挿入する(insert this text here)」を含む。Chicago Manual of Style(例えば、非特許文献4を参照)では、標準の編集記号セットを定義する。注釈を自動認識することにより、本発明では、これらの動作をインクに加え、さらに、編集プロセスの合理化を進めることができる。
【0034】
システム内でこれらの目標を達成することは、認識以外の多くの面を組み込む広範なタスクである。認識結果をいつどのように表示するか、それらの結果をどのように訂正するかなどのユーザインターフェイス問題がある。機能などを実際のテキストエディタに適切に統合する方法などのソフトウェアアーキテクチャ問題がある。インクストロークをリフローする方法などの他のアルゴリズムに関する問題もある。しかし、注釈認識プロセスをうまくカプセル化されたソフトウェアコンポーネント内に分離することは有用である。アーキテクチャ、アルゴリズム、および実施例を含む、このコンポーネントの詳細について説明する。本発明では、複数の検出器が競合する仮説を提示する認識アプローチを使用し、これらはダイナミックプログラミング最適化を介して効率よく解決される。
【0035】
リフロー、美化、およびアクション実行を含む、上述のアプリケーション特徴をサポートするために、本発明の一実施例では、ソフトウェアコンポーネントを使用して、文書文脈内の注釈のセグメント分割、分類、およびアンカー作成を行う。この場合、問題を縮小して、注釈タイプの固定された語彙、つまり、水平範囲、垂直範囲、コンテナ、コネクタ、記号、書き込み、および描画を取り扱う。これらの注釈タイプはそれぞれ、認識を実行し、この制約されたアプローチを正当化するのに必要な文書文脈とともに定義される。
【0036】
可能なすべての注釈の集合はたぶん際限がないが、下線およびハイライト表示などのいくつかの共通注釈はすぐに思い付く。注釈の基本集合を定義するために、BrushおよびMarshallの仕事が(例えば、非特許文献5を参照)引用されているが、これは、マージンノートに加えて、注釈の小さなセット(下線/ハイライト表示/コンテナ)が主に実用されることを示している。テキスト検索およびリフロー動作の目的のためにマージンノートのカテゴリをさらに書き込みおよび描画に分割することは有用である。そこで、水平範囲、垂直範囲、コンテナ、コールアウトコネクタ、記号、書き込み、および描画の注釈の分類およびアンカー作成としての注釈認識の問題が提示される。描画7は、注釈付き文書の例における共通注釈タイプ、つまり水平範囲702、垂直範囲704、コンテナ706、コールアウトコネクタ708、記号710、および書き込み712、および描画714の欄外書き込みの図700である。
【0037】
注釈は、テキスト文書、プレゼンテーションスライド、スプレッドシート、地図、間取図、およびさらにビデオ(例えば、天気予報官およびスポーツコメンテータ)も含むさまざまな文書にわたるふつうの活動である。可能なすべての文書にわたる注釈認識を構築することは不可能であるが、解決策を多数の共通文書タイプに適用できるように問題を抽象化することが望ましい。このような文書文脈の適切な抽象化を定義することは困難であり、単純な定義ではすべてのアプリケーションのニーズに応えることは不可能である。本発明では、文書文脈がそのページから始まるツリー構造として定義される構造を使用する。このページは、0個以上のテキストブロック、および0個以上のグラフィックスオブジェクトを含む(例えば、特許文献2を参照)。テキストブロックは、1つまたは複数の単語を含む、1つまたは複数の行を含む、1つまたは複数の段落を含む。図8は、単純な文書文脈の図800である。基本的な文書文脈は、テキストの単語および行802、段落804、ブロック806、および画像/絵/チャート808を含む。これらの領域はそれぞれ、その境界ボックスにより抽象化される(図8)。この時点で、本発明のこの実施例では、文書の基本テキストは分析されない。これは、通常、不要であり、これにより解決策は言語独立になる。しかし、本発明の他の実施例では、言語学を利用して、さらに、注釈を正しく認識し、および/またはそのアクションを実行しやすくする。文脈のこの定義は、限定はしないが、文書処理文書、スライドプレゼンテーション、スプレッドシート、およびWebページを含む、さまざまな文書をサポートする上で十分情報豊富である。
【0038】
このような実装が与えられた場合、本発明のこの実施例では、注釈認識にカプセル化されたソフトウェアコンポーネントを使用する。図9は、高水準の注釈認識アーキテクチャの図900である。第1のステップ902では、書き込みおよびドローイングストロークを分離し、書き込みを単語、行、および段落にグループ分けする。第2のステップ904では、文書文脈に関係するインクを分析し、マークアップ要素を分類し、注釈を文書文脈に固定する。このコンポーネントは、ストロークおよび文書文脈をその入力として受信し、文書文脈内へのアンカーを持つ構文解析ツリーを出力として生成する。このような抽象化により、認識コンポーネントを異なるアプリケーションに容易に組み込むことができる。例えば、Webブラウザプラグインなどの製品において注釈認識器を採用することができる(例えば、非特許文献3を参照)。
【0039】
認識コンポーネント自体は、図9に示されているように、複数の段階からなる。最初に、ストロークが、ライティングストロークをグループ分けし、ドローイングストロークから分離し、ライティングストロークを単語、行、および段落にグループ分けする手書きレイアウト分析および分類用のコンポーネントを通じて実行される(例えば、特許文献3を参照)。この段では、基本文書文脈を考慮せずにインクの初期構造解釈を生成する。ストロークが書き込みおよび描画に分割された後、マークアップ検出段階で、文書文脈の抽象化に関係する共通注釈マークアップ(水平範囲、垂直範囲、コンテナ、コネクタ、および記号)を調べ、インクの改訂された構造解釈を生成し、それらの構造を文書文脈抽象化の要素にリンクする。マークアップ検出については後述する。
【0040】
マークアップ検出では、インクをセグメント分割し、水平範囲、垂直範囲、コンテナ、およびコネクタを含む注釈タイプの集合に分類する。マークアップ検出の可能なアプローチの1つは、ストロークの可能なすべての組み合わせを生成し、それぞれ異なるクラスに関して分類し、すべての仮説にわたって何らかの利用度または確率を最大化する。このアプローチには、いくつかの実用上の問題点がある。第1に、組み合わせ的である、つまりジェネリックな空間的刈り込み発見的手法(spatial pruning heuristics)であっても、システムをリアルタイムで稼働させるのに十分でない場合がある。第2に、妥当な分類器およびガーベッジモデルの学習のため十分なデータに依存する。
【0041】
ユーザ注釈にリアルタイムで追随できる、利用可能な大量の学習データを持たない、効率的ステムを生成することが望ましいので、より柔軟な解決策が選択される。本発明のマークアップ検出は、検出器の集合として実装される。それぞれの検出器は、ページ上のインクストローク間で特定の注釈タイプを識別してアンカー作成する役割を持ち、その注釈タイプに特有の手法を利用して、可能な複数のグループにわたって検索空間を刈り込む。
【0042】
検出器が特定の注釈タイプの候補を識別した場合、その結果の仮説を関連する信頼度とともに仮説マップに追加する。図10は、仮説フレームワークプロセスの一実施例の図1000であり、(A)最初にマップは空であり1002、(B)コネクタ検出で3つの衝突する仮説(X1、X2、X3)を入力し1004、(C)他の検出器がコンテナ(C)、水平範囲(H)、垂直範囲(V)、およびマージンノート(N)のマップへの追加を実行し1006、(D)解決では最も可能性の高い仮説(C、X2、およびN)を選択する1008。例えば、図10(C)1006で、コネクタ検出器は、ストロークはそれだけでコネクタであり得る(両方とも、比較的直線的であり、その終点のそれぞれにもっともらしいアンカーを持つ)、またはいっしょにして単一のコネクタを形成できるという仮説を立てる。仮説のペアは、同じストロークを共有する場合に衝突する。
【0043】
それぞれの注釈タイプは、他の注釈から、またページ上のランダムなストロークから区別できる特性の集合を持つ。これらの特徴は、ストローク特徴と文脈特徴の2つのカテゴリに分割できる。ストローク特徴は、インクストロークの集合と注釈の理想化されたバージョンとの間の類似性を捕捉する。例えば、下線の理想化されたバージョンは、直線であり、ストローク特徴は、下線と思われるストロークの集合とそれらのストロークを近似する最良の直線との間の距離、つまり、それらのストローク内の点の全回帰誤差を測定する。文脈特徴は、ストロークの集合の最良の理想化バージョンと文書文脈上の真の注釈との類似性を捕捉する。例えば、ストロークは、完全な直線であってよいが、線が文書内の単語の集合の下に来ていない限り下線ではない。
【0044】
そこで、それぞれの検出器のプロシージャとして、ストローク特徴を使用してそのタイプによるストロークの最良の理想化されたバージョンを確認し、文脈特徴を使用して理想化されたバージョンが文書文脈にどれだけよく当てはまっているかを調べる。図11は、検出器特徴の図1100であり、(A)文書のオリジナルのインク注釈1102、(B)インク注釈上にオーバーレイされた理想化された注釈、および文書文脈境界ボックス1104、(C)垂直範囲文脈特徴1106は、理想形とテキストの行との間の角度1108(θ)、理想形と行との間のギャップ1110(g)、さらに理想形の重なり合う部分の長さの和1112、および重なり合わない領域の長さの和1114を含み、(D)水平範囲文脈特徴1116は、理想形とテキストの行との間の角度1118(θ)、理想形と行の間のギャップ1120(g)、さらに、理想形の重なり合う部分の長さの和1122、および重なり合わない領域の長さの和1124を含み、(E)コールアウト文脈特徴1126は、矢印1128の先端の接線にそった矢尻(arrowhead)から文脈単語までの距離gを含み、(F)コンテナ文脈特徴1130は、文脈単語と重なり合う領域1132および文脈単語と重なり合わない領域1134を含む。
【0045】
さらに、ユーザサンプルに基づき、文書文脈に関するストロークのグループ分けの品質を判断するための特徴の集合を手動で導くことができる。いくつかの特徴は、特定のタイプの注釈としてストロークの所定の集合の特性を捕捉する「ストローク」特徴、およびストロークの集合が文書文脈にどのように関係しているかを示す特性を捕捉する「文脈」特徴に分けられる。これらの特徴は、表3にまとめられており、それぞれの特徴は正確に定義される。
【0046】
【表1】

【0047】
水平範囲−H={P1,...,PN}を水平範囲であると仮説が立てられているストローク内の点の集合とする。Rfit(H)を、H上の全回帰によるHの回転境界ボックスとする。W={W1,...,WN}を範囲の対象となると仮説を立てられている文書文脈からの単語の集合とする。
【0048】
・ 隣接単語の数。同じ親行内で隣接するW内の単語の最大数。
【0049】
・ 候補単語による範囲カバー率。Hθ,cを、Hが回帰直線(θ,c)にそって射影されたときの終点間の範囲とする。μ(Hθ,c)を直線(θ,c)にそったその範囲の測定とする。同様に、Wθ,cを、Wiが(θ,c)に対し射影されたときの範囲の集合とする。
【0050】
【数1】

【0051】
・ 適合誤差。H内の点の全回帰誤差。
【0052】
【数2】

【0053】
・ 回転境界ボックスのアスペクト比。回転境界ボックスRfit(H)の幅をその高さで除算した値。
【0054】
垂直範囲−V={P1,...,PN}を水平範囲であると仮説が立てられているストローク内の点の集合とする。Rfit(V)を全回帰によるVの回転境界ボックスとする。L={L1,...,LM}を範囲の対象となると仮説を立てられている文書文脈からの単語の集合とする。
【0055】
・ 隣接行の数。同じ親ブロック内で隣接するL内の単語の最大数。
【0056】
・ 候補行による範囲カバー率。Vθ,cを、Vが回帰直線(θ,c)に対し射影されたときの終点間の範囲とする。μ(Vθ,c)を直線(θ,c)にそったその範囲の測定とする。同様に、Lθ,cを、Liが(θ,c)に対し射影されたときの範囲の集合とする。
【0057】
【数3】

【0058】
コンテナ−C={S1,...,SN}を、コンテナであると仮説が立てられているストロークの集合とする。W={W1,...,WM}をコンテナの対象となると仮説を立てられている文書文脈からの単語の集合とする。
【0059】
B={B1,...,BM}をCの重心の周りの放射状点バケットの集合とする。それぞれのバケットは、以下の式で定義される。
【0060】
【数4】

【0061】
・ 囲まれている単語の数。これは、W内の単語の個数、つまり|W|である。
【0062】
・ 囲まれている単語により埋められた内側面積の割合。バケット毎に、外側面積CBiをバケットBi内の点の凸包とし、全面積をコンテナCCの凸包とする。その後、内側面積IAは以下の式で与えられる。
【0063】
【数5】

【0064】
そして、単語で埋められた内側面積の割合は、以下のとおりである。
【0065】
【数6】

【0066】
・ 円形バケットカバー率。これは、点を含むバケットの割合であり、以下の式で表される。
【0067】
【数7】

【0068】
・ 内側面積対全面積の比。内側面積IAと外側凸包CCの面積との比は、図12の図1200で示されている。ストローク点1204の重心1202の周りの放射状バケットBiの集合。1つのバケットの内側面積1206が示され、また外側面積1208が示されている。バケットの全面積は、内側面積1206+他の面積1208である。
【0069】
コネクタ−C={S1,...,SN}を、コネクタであると仮説が立てられているストロークの集合とする。Wを、コネクタの一端にあると仮説が立てられている文書文脈からの単語とする。
【0070】
・ ヘッドアンカーの有無。PHをコネクタの仮説の立てられているヘッドとし、(θ,c)を接線とする。{Qi}をページ上の全単語Wのすべての端点(corner point)コーナー点とする。重み付き楕円スコアを使用して、接線からずれている単語にペナルティを付ける。
【0071】
【数8】

【0072】
・ 曲率。ストロークS=(P1,...PN)の正規化された曲率は、ストロークがSK=(Q1,...QK)として一定のK個の点でリサンプリングされたときの各点での曲率の総和である。
【0073】
【数9】

【0074】
・ ストローク長。ストロークS=(P1,...PN)のストローク長は、各セグメントの長さの総和である。
【0075】
【数10】

【0076】
・ 矢尻の存在。矢尻検出の発見的手法が少しかかわる。CAは矢尻と仮説が立てられているストロークAの集合の凸包を表すものとする。(θ,c)は、コネクタの端での接線であるとする。
【0077】
仮説が立てられている矢尻は以下のとおりである。
【0078】
【数11】

【0079】
一番左の点は以下のとおりである。
【0080】
【数12】

【0081】
一番右の点は以下のとおりである。
【0082】
【数13】

【0083】
12、A23、A31は、それぞれ、直線P12、P23、およびP31により切断されたCA内の点を表す。A12、A23、A31の回帰誤差は、矢尻検出の特徴である。手作業でチューニングしたしきい値により、コネクタのいずれかの側に矢尻があるかを判別する。
【0084】
検出プロセスに戻ると、すべての検出器が実行された後、解の決定(resolution)プロセスを通じて最も可能性の高い注釈がマップから抽出され、その結果が出力に投じられる(例えば、図10(D)1008を参照)。解の決定(resolution)は、衝突する仮説がある場合に最良の候補を選ぶように設計される。これは、新しい注釈タイプをサポートするために検出器をモジュール式で追加できる統一フレームワークである。
【0085】
解の決定(resolution)は、説明されるストロークの数を最大にし、全体的な信頼度を最大にし、仮説の個数を最小にするように設計される。これは、以下のようにエネルギー関数の最大化として表すことができる。
【0086】
【数14】

【0087】
式1の中で、αおよびβは、経験的に求められた重みである。この関数は、ダイナミックプログラミングを利用して正確に最大化される。ストロークの順序付けには特別なところはないので、順序付けを任意に課して、以下の再帰関係を使用して解決される。
【0088】
【数15】

【0089】
式2の中で、Sはページ上のストロークの部分集合を表し、S’は最小IDを持つ、またはそのストロークに対し説明を持たない、S内のストロークを含む仮説であり、Cはその説明の信頼度+説明するストロークのα倍、または最小ストロークが未説明のまま残された場合には0である。
【0090】
評価目標は2つあった。第1に、完全システムの正確さを把握する必要があることであった。第2に、解の決定(resolution)プロセスの有効性を理解する必要があることであった。そのため、検出器のそれぞれの正確さが測定され、それらの数値と最終的なシステムの正確さとを比較した。テストセットは、229本の下線、250本の取消線、422個のコンテナ、255個のコールアウト、および36個の垂直範囲を含む、〜100個の注釈が大量に含まれるWebページで構成された。計算を簡単にするため、グルーピング誤差およびラベリング誤差は1つの単位にまとめられた。つまり、注釈は、適切にグループ化され、ラベル付けされた場合に正しく、そうでなければ、偽陰性になり、場合によっては、複数の偽陰性が生じる。
【0091】
【表2】

【0092】
【表3】

【0093】
これらの結果から、システムは、問題に固有の曖昧さがあり、学習データは少量であり、システムがリアルタイムで動作可能なように手法を選択する際に妥協が行われていても十分に高い精度を持っている。さらに大きなデータセットが使用される場合には、有用な特徴を追加することもできる。それらの結果から、解の決定(resolution)により、偽陰性に実質的変更を加えずに偽陽性の数を著しく減らせることがさらにわかる。これは、この問題に対する妥当な戦略であることを示している。
【0094】
そこで、本発明では、電子文書上のフリーフォームデジタルインク注釈を実用的な実装により認識するアプローチを提示する。その結果得られる認識器を使用することにより、従来のデジタル注釈に共通であるすべてのオペレーションが容易になるが、ただし、直接デジタルインクおよび/またはスキャンされたデジタルインクの自然な、および透明な媒体を通じて可能になる。本発明では、ユーザを制約することなく、複雑な文書であっても高い精度が得られる注釈認識のための拡張可能フレームワークを採用する。これは、可能なセグメンテーションおよび分類の網羅的検索を近似したものである。これにより、リアルタイムでインクの1ページ全体を分析することが可能になり、他の多くのインク認識問題にこれを応用することができる。本発明の一実施例では、例えば、Webページに注釈をつけるためシステム一式に統合することができる再利用可能なソフトウェアコンポーネントを採用する。
【0095】
さらに、ボックスおよびコネクタなどの認識される構造の多くは、流れ図および設計図などの他のタイプのスケッチにも共通のものである。本発明の効率的な推論アルゴリズムは、それらの分野にも拡張できる。さらに、ユーザが、基本セットではサポートされていない場合に、独自注釈スタイルでシステムをカスタマイズすることも可能である。
【0096】
図に示され、上記で説明されているシステム例を参照すると、本発明により実装することができる方法は、図13〜15の流れ図を参照するとよりよく理解されるであろう。説明を簡単にするために、方法を図に示し、一連のブロックとして記述するが、本発明はブロックの順序によって制限されるわけではなく、本発明により、いくつかのブロックはその図に示されているここで説明している内容と異なる順序でおよび/または他のブロックと同時に実行することも可能である。さらに、本発明により、方法を実装するために例示されているすべてのブロックが必要なわけではない。
【0097】
本発明は、1つまたは複数のコンポーネントによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的背景状況において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、データ構造などを含む。通常、プログラムモジュールの機能は、本発明のさまざまな実施例で望むとおりに組み合わせるか、または分散させることができる。
【0098】
図13では、本発明の一態様による注釈認識を容易にする方法1300の流れ図が示されている。方法1300は、文書のデジタルインクストローク入力を受信する1304ことで開始する1302。入力は、紙の複写などからスキャン/2値化されたデジタルライティングサーフェスおよび/またはデジタルインクストロークの直接デジタルインクストロークとすることができる。その後、デジタルインクストロークは、可能な複数の注釈にグループ化される1306。検出器を使用して、それらのグループを分類タイプに分類し、注釈を「認識する」1308。本発明の他の実施例では、解の決定(resolution)手法、注釈が複数のタイプなどに分類されると解釈される場合に衝突を解決するために使用される。その後、認識済み注釈を、流れの終点である文書内の適切な点に固定する1310。注釈の認識およびアンカー作成により、本発明はそのような追加特徴を美化、リフロー、およびアクション実行として用意することができる。本発明の他の実施例は、認識済み注釈が見えない場合でも認識済み注釈の場所を特定しやすくする「注釈インジケータ」を提供することを含む。これは、1ページが要約される場合などに実行できる。さらに、注釈は、限定はしないが、タイプライタで打ち込まれたテキスト、写真画像、幾何学的ベクトルグラフィックス画像、デジタルインク手書き、およびデジタルインクドローイングを含む、媒体タイプ上で本発明を介して認識することができる。
【0099】
図14では、本発明の一態様による注釈認識を容易にする方法1400の他の流れ図が示されている。方法1400は、文書のデジタルインクストローク入力を受信する1404ことで開始する1402。文書関係情報も受信する1406。文書関係情報(つまり、文脈)を使用することで、デジタルインクストローク入力からの注釈および/または注釈アンカー点を認識しやすくし1408、流れを終わらせる1410。本発明の一実施例では、文書関係情報は、ページから始まるツリー構造である文書文脈である。ページは、0個以上のテキストブロックおよび0個以上のグラフィックスオブジェクトを含む。テキストブロックは、1つまたは複数の単語を含む、1つまたは複数の行を含む、1つまたは複数の段落を含む。本発明の一方法ではこの特定のタイプの構造を使用して、テキストの基本的意味からその構造を分離し、言語独立の解決策を提供する。本発明の他の実施例では、テキストの基本的意味を使用して、言語依存の解決策を形成する。当業者であれば、さまざまな入力情報を使用してさまざまな種類の文書を簡単に処理できるという点で、本発明が柔軟であることを理解できるであろう。
【0100】
図15を参照すると、本発明の一態様による注釈認識を容易にする方法1500のさらに他の流れ図が示されている。方法1500は、文書のデジタルインクストローク入力を受信する1504ことで開始する1502。その後、上述のように、注釈がデジタルインクストローク入力から認識される1506。その後、認識済み注釈により表されるアクションが決定される1508。次に、任意選択のステップで、文書に対しアクションが実行され1510、この流れを終える。本発明の一実施例は、アクションを実行しなくても利用できる。例えば、本発明を使用して、表されているアクションを出力し、ユーザは、削除、大文字化、変更、および/または文書への追加を行う単語の個数の編集リストなど、要約などのためのアクションのリストをコンパイルすることができる。
【0101】
本発明のさまざまな態様を実装する他の背景状況を示すために、図16および以下の説明は、本発明のさまざまな態様を実装できる好適なコンピューティング環境1600の簡潔な概要説明を行うことを意図している。本発明は、ローカルコンピュータおよび/またはリモートコンピュータ上で実行されるコンピュータプログラムのコンピュータ実行可能命令の一般的な背景状況において上記で説明されているが、当業者であれば、本発明は、他のプログラムモジュールと組み合わせて実装できることも理解するであろう。一般に、プログラムモジュールは、特定のタスクを実行する、および/または特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造などを含む。さらに、当業者であれば、本発明の方法は、それぞれ、1つまたは複数の関連するデバイスと動作するように通信できる、シングルプロセッサまたはマルチプロセッサコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、さらにはパーソナルコンピュータ、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースおよび/またはプログラム可能家電製品などを含む、他のコンピュータシステム構成で実施できることを理解するであろう。本発明の例示されている態様は、通信ネットワークを通じてリンクされているリモート処理デバイスによりいくつかのタスクが実行される分散コンピューティング環境で実施することもできる。しかし、本発明のすべての態様ではないとしても一部は、スタンドアロンコンピュータ上で実施できる。分散コンピューティング環境では、プログラムモジュールは、ローカルおよび/またはリモートのメモリ記憶デバイス内に配置されうる。
【0102】
本出願で使用されているように、「コンポーネント」という用語は、コンピュータ関連のエンティティ、つまりハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、または実行中のソフトウェアのいずれかを指すことを意図されている。例えば、コンポーネントとして、限定はしないが、プロセッサ上で実行されているプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行のスレッド、プログラム、およびコンピュータがある。例えば、サーバ上で実行されているアプリケーションおよび/またはサーバはコンポーネントであってよい。さらに、コンポーネントは1つまたは複数のサブコンポーネントを含むことができる。
【0103】
図16を参照すると、本発明のさまざまな態様を実装するシステム環境例1600は、処理ユニット1604、システムメモリ1606、およびシステムメモリを含むさまざまなシステムコンポーネントを処理ユニット1604に結合するシステムバス1608を備える、従来のコンピュータ1602を備える。処理ユニット1604は、市販または専用プロセッサとすることができる。さらに、処理ユニットは、並列接続など、複数のプロセッサで形成されたマルチプロセッサとして実装することができる。
【0104】
システムバス1608は、メモリバスまたはメモリコントローラ、周辺機器バス、および、例えば、PCI、VESA、Microchannel、ISA、およびEISAなどのさまざまな従来のバスアーキテクチャを使用するローカルバスを含む数種類のバス構造のうちのいずれでもよい。システムメモリ1606は、読み取り専用メモリ(ROM)1610およびランダムアクセスメモリ(RAM)1612を含む。起動時などにコンピュータ1602内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム(BIOS)1614は、ROM 1610に保存される。
【0105】
コンピュータ1602は、さらに、例えば、ハードディスクドライブ1616、例えば取り外し可能ディスク1620に読み書きするための磁気ディスクドライブ1618、およびCD−ROMディスク1624またはその他の光媒体に読み書きするための光ディスクドライブ1622を備えることもできる。ハードディスクドライブ1616、磁気ディスクドライブ1618、および光ディスクドライブ1622は、ハードディスクドライブインターフェイス1626、磁気ディスクドライブインターフェイス1628、および光ドライブインターフェイス1630によりそれぞれシステムバス1608に接続される。ドライブ1616〜1622およびその関連するコンピュータ可読媒体は、コンピュータ1602用のデータ、データ構造体、コンピュータ実行可能命令などを保存する不揮発性記憶装置を実現する。上記のコンピュータ可読媒体の説明ではハードディスク、取り外し可能磁気ディスク、およびCDを取り上げたが、当業者であれば、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジなどのコンピュータにより読み取り可能な他のタイプの媒体も、動作環境例1600で使用することができること、さらにそのような媒体は、本発明の方法を実行するためのコンピュータ実行可能命令を保存できることを理解するであろう。
【0106】
オペレーティングシステム1632、1つまたは複数のアプリケーションプログラム1634、他のプログラムモジュール1636、およびプログラムデータ1638を含む、多くのプログラムモジュールは、ドライブ1616〜1622およびRAM 1612に保存することができる。オペレーティングシステム1632は、任意の好適なオペレーティングシステムまたはオペレーティングシステムの組み合わせとすることができる。例えば、アプリケーションプログラム1634およびプログラムモジュール1636は、本発明の一態様による注釈認識スキームを含むことができる。
【0107】
ユーザは、キーボード1640およびポインティングデバイス(例えば、マウス1642)などの1つまたは複数のユーザ入力デバイスを通じてコンピュータ1602にコマンドおよび情報を入力することができる。他の入力デバイス(図に示されていない)としては、マイク、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、無線リモート、スキャナなどがある。これらの入力デバイスおよびその他の入力デバイスは、システムバス1608に結合されているシリアポートインターフェイス1644を介して処理ユニット1604に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェイスにより接続されることもできる。モニタ1646またはその他の種類の表示デバイスも、ビデオアダプタ1648などのインターフェイスを介してシステムバス1608に接続される。コンピュータ1602は、通常、モニタ1646のほかに、スピーカおよびプリンタなど、他の周辺出力装置(図に示されていない)を備えることができる。
【0108】
コンピュータ1602は、1つまたは複数のリモートコンピュータ1660への論理接続を使用してネットワーク接続環境で動作可能である。リモートコンピュータ1660は、ワークステーション、サーバコンピュータ、ルータ、ピアデバイス、またはその他の共通ネットワークノードでもよく、通常は、コンピュータ1602に関係する説明されている要素の多くまたはすべてを含むが、簡潔にするため、メモリ記憶デバイス1662だけが図16に例示されている。図16で説明されている論理接続は、ローカルエリアネットワーク(LAN)1664およびワイドエリアネットワーク(WAN)1666を含む。このようなネットワーキング環境は、オフィス、企業全体にわたるコンピュータネットワーク、イントラネット、およびインターネットでは一般的である。
【0109】
例えば、LANネットワーキング環境で使用される場合、コンピュータ1602はネットワークインターフェイスまたはアダプタ1668を介してローカルネットワーク1664に接続される。WANネットワーキング環境で使用される場合、コンピュータ1602は、通常、モデム(例えば、電話、DSL、ケーブルなど)1670を備えるか、またはLAN上で通信サーバに接続されるか、またはインターネットなどのWAN 1666上での通信を確立する他の手段を備える。モデム1670は、コンピュータ1602に関して内蔵でも外付けでもよいが、シリアルポートインターフェイス1644を介してシステムバス1608に接続される。ネットワーク接続環境では、プログラムモジュール(アプリケーションプログラム1634を含む)および/またはプログラムデータ1638は、リモートメモリ記憶デバイス1662に保存することができる。図に示されているネットワーク接続は実施例であり、本発明の一態様を実施した場合にコンピュータ1602と1660との間の通信リンクを確立する他の手段(例えば、有線または無線)が使用可能であることは理解されるであろう。
【0110】
コンピュータプログラム分野の当業者の実務慣例によれば、断りのない限り、本発明は、コンピュータ1602またはリモートコンピュータ1660などのコンピュータにより実行される活動およびオペレーションの記号表現を参照しつつ説明されている。このような活動およびオペレーションは、コンピュータ実行であるということがある。活動および記号表現されたオペレーションは、結果として電気信号表現の変換または縮小を引き起こすデータビットを表す電気信号の処理ユニット1604による操作、およびメモリシステム(システムメモリ1606、ハードドライブ1616、フロッピー(登録商標)ディスク1620、CD−ROM 1624、およびリモートメモリ1662を含む)内のメモリロケーションでのデータビットの保持を含み、それによって、コンピュータシステムのオペレーションだけでなく、信号の他の処理をも再構成するか、または他の何らかの方法により変更する。そのようなデータビットが保持されるメモリロケーションは、データビットに対応する特定の電気的、磁気的、または光学的特性を持つ物理的位置である。
【0111】
図17は、本発明との相互やり取りが可能なコンピューティング環境1700の実施例を示す他のブロック図である。システム1700は、1つまたは複数のクライアント1702を備えるシステムをさらに例示している。クライアント(群)1702は、ハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)とすることができる。システム1700は、さらに、1つまたは複数のサーバ1704も備える。サーバ1704も、ハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)とすることができる。クライアント1702とサーバ1704との間で可能な通信の1つは、2つ以上のコンピュータプロセス間で伝送されるように適合されたデータパケットの形で実行できる。システム1700は、クライアント(群)1702とサーバ(群)1704との間の通信を容易に行えるようにするために採用することができる通信フレームワーク1708を含む。クライアント(群)1702は、クライアント(群)1702にローカルで情報を保存するために使用することができる1つまたは複数のクライアントデータストア1710に接続される。同様に、サーバ(群)1704は、サーバ(群)1704にローカルで情報を保存するために使用することができる1つまたは複数のサーバデータストア1706に接続される。
【0112】
本発明の一実施例では、2つ以上のコンピュータコンポーネントの間で伝送されるデータパケットは、少なくとも一部は、少なくとも1つの注釈を認識するために少なくとも一部はデジタルインクストローク入力を利用する注釈認識システムに関係する情報からなる。
【0113】
本発明のシステムおよび/または方法は、コンピュータコンポーネントおよび非コンピュータ関係コンポーネントも同様に使いやすくする注釈認識で使用することができることは理解されるであろう。さらに、当業者であれば、本発明のシステムおよび/または方法は、限定はしないが、コンピュータ、サーバ、および/または携帯型電子デバイスなどを含む、さまざまな電子関連技術で採用することが可能であることを認識するであろう。
【0114】
上述した内容は、本発明の複数の実施例を含む。もちろん、本発明を説明するためにコンポーネントまたは方法の考えられるすべての組み合わせを説明することは不可能であるが、当業者であれば、本発明の他の多くの組み合わせおよび置換が可能であることを理解できるであろう。したがって、本発明は、付属の請求項の精神と範囲内に収まるすべてのそのような変更、修正、および変更形態を包含することが意図されている。さらに、「含む、備える」という言い回しを詳細な説明または請求項で使用している範囲において、このような用語は「備える、含む」という用語と似た使い方をし、これは使用した場合に請求項の中で暫定的用語と解釈する。
【図面の簡単な説明】
【0115】
【図1】本発明の一態様による注釈認識システムのブロック図である。
【図2】本発明の一態様による注釈認識システムの他のブロック図である。
【図3】本発明の一態様による注釈認識システムのさらに他のブロック図である。
【図4】本発明の一態様による注釈認識システムのさらに他のブロック図である。
【図5】本発明の一態様によるデジタルインクストローク入力(digital ink stroke inputs)およびデジタルサーフェスライティングデバイスの実施例の図である。
【図6】本発明の一態様による注釈リフローおよびクリーニング(annotation reflow and cleaning)の図である。
【図7】本発明の一態様による共通注釈タイプの他の図である。
【図8】本発明の一態様による単純な文書文脈の図である。
【図9】本発明の一態様による注釈認識アーキテクチャの一実施例の図である。
【図10】本発明の一態様による検出器機能のいくつかの実施例の図である。
【図11】本発明の一態様による仮説フレームワークの図である。
【図12】本発明の一態様による放射状バケットを介して決定されるコンテナ領域の図である。
【図13】本発明の一態様による注釈認識を容易にする方法の流れ図である。
【図14】本発明の一態様による注釈認識を容易にする方法の他の流れ図である。
【図15】本発明の一態様による注釈認識を容易にする方法のさらに他の流れ図である。
【図16】本発明が機能できる動作環境例の図である。
【図17】本発明が機能できる他の動作環境例の図である。
【符号の説明】
【0116】
100 注釈認識システム
102 注釈認識コンポーネント
104 入力
106 出力
200 注釈認識システム
202 注釈認識コンポーネント
204 入力
206 出力
208 セグメンテーションコンポーネント
210 分類器コンポーネント
212 注釈アンカー作成コンポーネント
300 注釈認識システム
302 注釈認識コンポーネント
304 ストローク
306 文書文脈
308 構文解析ツリー出力
310 レイアウト分析&分類器コンポーネント
312 注釈検出コンポーネント
314 解決コンポーネント
316 検出器「1」
318 検出器「2」
320 検出器「P」
400 注釈認識システム
402 注釈コンポーネント
404 注釈ストローク
406 文書文脈
408 領域特有の情報
410 他の情報
412 文書
414 受信コンポーネント
416 認識コンポーネント
418 分類コンポーネント
420 注釈タイプ検出器
422 アンカー作成コンポーネント
424 リフローコンポーネント
426 言語分析コンポーネント
428 アクション決定コンポーネント
802 テキストの単語および行
806 ブロック
808 画像/絵/チャート
1202 重心
1204 ストローク点
1206 内側面積
1208 外側面積
1600 コンピューティング環境
1602 コンピュータ
1604 処理装置
1606 システムメモリ
1608 バス
1610 ROM
1614 BIOS
1616 ハードディスクドライブ
1618 磁気ディスクドライブ
1620 取り外し可能ディスク
1622 光ディスクドライブ
1624 CD−ROM
1626 ハードディスクドライブインターフェイス
1628 磁気ディスクドライブインターフェイス
1630 光ドライブインターフェイス
1632 オペレーティングシステム
1634 アプリケーションプログラム
1636 他のプログラムモジュール
1638 プログラムデータ
1640 キーボード
1642 マウス
1644 シリアルポートインターフェイス
1646 モニタ
1648 ビデオアダプタ
1660 リモートコンピュータ
1662 リモートメモリ記憶デバイス
1664 ローカルエリアネットワーク
1666 ワイドエリアネットワーク
1668 ネットワークインターフェイス
1670 モデム
1702 クライアント(群)
1704 サーバ(群)
1706 サーバデータストア(群)
1708 通信フレームワーク(群)
1710 クライアントデータストア



【特許請求の範囲】
【請求項1】
認識を容易に行えるようにするシステムであって、
デジタルインクストロークを含む少なくとも1つの入力を受信するコンポーネントと、
前記入力からの前記デジタルインクストロークの少なくとも1つの部分集合を識別し、少なくとも1つの認識済み注釈にグループ化する認識コンポーネントとを備えることを特徴とするシステム。
【請求項2】
前記認識コンポーネントは、前記注釈をリアルタイムで認識することを特徴とする請求項1に記載のシステム。
【請求項3】
前記認識コンポーネントは、バックグラウンドプロセスを使用して前記認識済み注釈を取得することを特徴とする請求項1に記載のシステム。
【請求項4】
前記注釈を拡張可能タイプのグループの少なくとも1つのタイプに分類する分類コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
【請求項5】
前記分類コンポーネントは、少なくとも1つのタイプ検出器を使用することを特徴とする請求項4に記載のシステム。
【請求項6】
前記注釈を前記入力の適切な部分に固定するアンカー作成コンポーネントを備えることを特徴とする請求項1に記載のシステム。
【請求項7】
注釈アンカー点を使用して、前記入力が操作されるときに注釈を自動的に、および論理的にリフローするリフローコンポーネントを備えることを特徴とする請求項6に記載のシステム。
【請求項8】
前記入力は、デジタルライティングデバイスからのデジタル情報および走査された入力からのデジタル情報からなるグループから選択された少なくとも1つの情報を備えることを特徴とする請求項1に記載のシステム。
【請求項9】
前記入力は、前記デジタルインクストロークに関係する文書文脈をさらに含むことを特徴とする請求項1に記載のシステム。
【請求項10】
前記認識コンポーネントは、前記文書文脈を使用して少なくとも1つの注釈を認識することを容易にすることを特徴とする請求項9に記載のシステム。
【請求項11】
前記文章文脈は、ツリー構造を備えることを特徴とする請求項9に記載のシステム。
【請求項12】
前記認識コンポーネントは、入力が要約されるときに認識済み注釈位置を識別するための認識済み注釈用の注釈インジケータをさらに提供することを特徴とする請求項1に記載のシステム。
【請求項13】
前記入力の言語的文脈を使用して前記認識コンポーネントが少なくとも1つの注釈の適切な認識を容易に行えるようにする言語分析コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
【請求項14】
前記認識コンポーネントは、領域特有の情報をさらに使用して少なくとも1つの認識済み注釈を判別することを容易にすることを特徴とする請求項1に記載のシステム。
【請求項15】
前記領域特有の情報は、ユーザ特有の情報、専門ジャンル情報、および注釈ガイドライン情報を含むグループから選択された少なくとも1つの情報を備えることを特徴とする請求項14に記載のシステム。
【請求項16】
前記認識済み注釈により指示された少なくとも1つのアクションを決定するアクション決定コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
【請求項17】
説明されたストロークの数を最大にし、全体的信頼度を最大にし、前記入力に対する仮説の数を最小にすることにより前記認識コンポーネントを容易にする解決コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
【請求項18】
前記解決コンポーネントは、αおよびβを経験的に求めた重みとして、式
【数1】

により与えられるエネルギー関数を使用することで注釈の認識を最適化することを特徴とする請求項17に記載のシステム。
【請求項19】
前記解決コンポーネントは、ダイナミックプログラムをさらに使用して、前記エネルギー関数の解の決定(resolution)を容易にすることを特徴とする請求項18に記載のシステム。
【請求項20】
認識を容易に行えるようにする方法であって、
デジタルインクストロークを含む少なくとも1つの入力を受信することと、
前記入力からの前記デジタルインクストロークの少なくとも一つの部分集合を識別し、少なくとも1つの認識済み注釈にグループ化することとを備えることを特徴とする方法。
【請求項21】
前記デジタルインクストロークの前記部分集合の前記識別およびグループ化は、リアルタイムで実行されて認識済み注釈を形成することを特徴とする請求項20に記載の方法。
【請求項22】
前記注釈を拡張可能タイプのグループの少なくとも1つのタイプに分類することをさらに備えることを特徴とする請求項20に記載の方法。
【請求項23】
拡張可能タイプの前記グループは、水平範囲タイプ、垂直範囲タイプ、コンテナタイプ、コネクタタイプ、記号タイプ、ライティングタイプ、およびドローイングタイプからなるグループから選択された少なくとも1つのタイプを含むことを特徴とする請求項22に記載の方法。
【請求項24】
少なくとも1つのタイプ検出器を使用して、前記注釈を分類することを容易にすることをさらに備えることを特徴とする請求項22に記載の方法。
【請求項25】
前記タイプ検出器は、水平範囲タイプ検出器、垂直範囲タイプ検出器、コンテナタイプ検出器、コネクタタイプ検出器、記号タイプ検出器、ライティングタイプ検出器、およびドローイングタイプ検出器からなるグループから選択された少なくとも1つの検出器を備えることを特徴とする請求項24に記載の方法。
【請求項26】
機械学習機能を使用して、前記注釈を分類することを容易にすることをさらに備えることを特徴とする請求項22に記載の方法。
【請求項27】
前記注釈を前記入力の適切な部分に固定することさらに備えることを特徴とする請求項20に記載の方法。
【請求項28】
注釈アンカー点を使用して、前記入力が操作されるときに注釈を自動的に、および論理的にリフローすることを備えること特徴とする請求項27に記載の方法。
【請求項29】
前記入力は、デジタルライティングデバイスからのデジタル情報およびスキャンされた入力からのデジタル情報からなるグループから選択された少なくとも1つの情報を備えることを特徴とする請求項20に記載の方法。
【請求項30】
前記入力は、スキャンプロセスから取得されたデジタルインクストロークを備えることを特徴とする請求項20に記載の方法。
【請求項31】
前記入力は、前記デジタルインクストロークに関係する文書文脈をさらに備えることを特徴とする請求項20に記載の方法。
【請求項32】
前記文書文脈を使用して、少なくとも1つの注釈を認識しやすくすることをさらに備えることを特徴とする請求項31に記載の方法。
【請求項33】
前記文脈は、ツリー構造を含むことを特徴とする請求項31に記載の方法。
【請求項34】
前記入力が要約されるときに認識済み注釈位置を識別するために前記認識済み注釈の注釈インジケータを与えることをさらに備えることを特徴とする請求項20に記載の方法。
【請求項35】
前記入力の言語的文脈を使用して、少なくとも1つの注釈の適切な認識を容易に行えるようにすることをさらに備えることを特徴とする請求項20に記載の方法。
【請求項36】
領域特有の情報を使用して、少なくとも1つの認識済み注釈を判別しやすくすることをさらに備えることを特徴とする請求項20に記載の方法。
【請求項37】
前記領域特有の情報は、アーキテクチャ図および地図からなるグループから選択された少なくとも1つの図を備えることを特徴とする請求項36に記載の方法。
【請求項38】
タイプされたテキスト、写真画像、幾何的ベクトルグラフィックス画像、デジタルインク手書き、およびデジタルインクドローイングからなるグループから選択された少なくとも1つの媒体タイプ上の注釈を認識することをさらに備えることを特徴とする請求項20に記載の方法。
【請求項39】
前記認識済み注釈により示される少なくとも1つのアクションを決定することをさらに備えることを特徴とする請求項20に記載の方法。
【請求項40】
複数の候補注釈を使用して、注釈の認識を容易に行えるようにすることをさらに備えることを特徴とする請求項20に記載の方法。
【請求項41】
前記デジタルインクストロークのスタイルおよび/または非スタイル特性を使用して、前記注釈の認識を容易にすることをさらに備えることを特徴とする請求項20に記載の方法。
【請求項42】
前記スタイル特性は、デジタルインクストロークの色、デジタルインクストロークの太さ、デジタルインクストロークを作成するために使用されるペン先スタイル、デジタルインクストロークの透明度、およびデジタルインクストロークの粘性度からなるグループから選択された少なくとも1つの特性を備えることを特徴とする請求項41に記載の方法。
【請求項43】
前記非スタイル特性は、デジタルインクストローク上のタイムスタンプおよびデジタルインクストロークを作成するために使用されるペン先カーソルのシリアル番号を含むグループから選択された少なくとも1つの特性を備えることを特徴とする請求項41に記載の方法。
【請求項44】
デジタルインクストロークに少なくとも一部は、基づいて検索可能な認識済み注釈を供給することをさらに備えることを特徴とする請求項20に記載の方法。
【請求項45】
協調フィルタリング手法を使用して、所望の検索結果の判別を容易にすることをさらに備えることを特徴とする請求項44に記載の方法。
【請求項46】
説明されたストロークの数を最大にし、全体的信頼度を最大にし、前記入力の仮説の個数を最小にすることにより前記認識済み注釈の判別を容易にする最適な解(resolution)を決定することを含むことを特徴とする請求項20に記載の方法。
【請求項47】
エネルギー関数を使用して前記最適な解(resolution)を決定することと、前記エネルギー関数は、αおよびβを経験的に求められた重みとして、式
【数2】

により与えられることとをさらに備えることを特徴とする請求項46に記載の方法。
【請求項48】
ダイナミックプログラミングを使用して、前記エネルギー関数の解の決定(resolution)を容易にすることをさらに備えることを特徴とする請求項47に記載の方法。
【請求項49】
認識を容易に行えるようにするシステムであって、
デジタルインクストロークを含む少なくとも1つの入力を受信する手段と、
前記入力からの前記デジタルインクストロークの少なくとも一つの部分集合を識別し、少なくとも1つの認識済み注釈にグループ化するための手段とを備えることを特徴とするシステム。
【請求項50】
認識を容易にする、2つ以上のコンピュータコンポーネントの間で伝送されるデータパケットであって、少なくとも一部は、少なくとも1つの注釈を認識するために少なくとも一部はデジタルインクストローク入力を利用する注釈認識システムに関係する情報を備えることを特徴とするデータパケット。
【請求項51】
請求項1に記載の前記システムのコンピュータ実行可能コンポーネントを保存していることを特徴とするコンピュータ可読媒体。
【請求項52】
コンピュータ、サーバ、および携帯型電子デバイスからなるグループから選択された少なくとも1つのデバイスを備えることを特徴とする請求項20に記載の方法を使用するデバイス。
【請求項53】
コンピュータ、サーバ、および携帯型電子デバイスからなる前記グループから選択された少なくとも1つデバイスを備えることを特徴とする請求項1に記載のシステムを使用するデバイス。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2006−85695(P2006−85695A)
【公開日】平成18年3月30日(2006.3.30)
【国際特許分類】
【出願番号】特願2005−257078(P2005−257078)
【出願日】平成17年9月5日(2005.9.5)
【出願人】(500046438)マイクロソフト コーポレーション (3,165)
【Fターム(参考)】