説明

手書きでないテキストを使用して手書きデータベースを探索する為の方法及びシステム

【課題】利用できる入力メカニズムがテキスト・エントリーだけである時、デジタル・インク・データベースの探索を可能にし、デジタル・インク・データベースの作成者以外の人物がデジタル・インク・データベースを探索できるようにする。
【解決手段】筆跡特徴合成を使用してインク・データベースを探索し、テキスト・ベースのクエリーを使用してデジタル・インク・データベースの探索を可能にするシステムおよび方法が開示される。手書き文字認識システムまたは適切なトレーニング手順から引き出された書き手特有の筆跡モデルを使用して、テキスト・クエリーは、デジタル・インク・データベースの作成者がテキスト・クエリーを手で書いたとすれば抽出されたであろう特徴ベクトルと類似した特徴ベクトルへ変換される。次に、特徴ベクトルはデータベースを探索するために使用される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的には、デジタル・プロセッサによって実現される手書き文字の探索または認識システムに関し、具体的には、手書きでないテキストを使用して手書きデータベースを探索する為の方法及びシステムに関する。
【背景技術】
【0002】
本明細書で使用される「デジタル・インク・データベース」とは、手書きの文字、例えば手書きのレターを形成する手書き文字のストリングを記憶するデータベースを意味する。
【概説】
【0003】
ペン・ベースのコンピューティング・システムは、人間とコンピュータの交信に便利で柔軟な手段を提供する。ほとんどの人は、ペンと紙を使用することに非常に慣れている。この習慣を、この媒体によって全く自然にサポートされるテキスト、線画、または計算のために、データ入力および記録メカニズムとしてペン状のデバイスを使用する既知のシステムに取り入れている。更に、書かれたインクは、デジタル・テキストよりも表現に富む形式であり、インク・ベースのシステムは言語から独立可能である。
【0004】
ペン・コンピューティングの使用の増加、およびネットワーク・コンピューティング・リソースへのペーパー・ベース・インタフェースの出現(例えば、P.Lapstun,NetpageSystem Overview,Silverbrook Research Pty Ltd,6th June,2000、およびAnoto,“Anoto,Ericsson,andTime Manager Take Pen and Paper into the Digital Age with the Anoto Technology”,PressRelease,6th April,2000を参照されたい)は、(生の)デジタル・インクを記憶、索引、および探索することのできる手法の必要性を表している。ペン・ベース・コンピューティングによって、ユーザは、メモおよび注釈の形式でデータを記憶することができ、後で手書きのクエリーに基づいて、このデータを探索することができる。しかしながら、手書きテキストの探索は、従来のテキスト(例えばASCIIテキスト)の探索よりも困難である。筆跡の生成に一貫性がなく、書き手によってスタイルが変化するからである。
【デジタル・インク・データベースの探索】
【0005】
デジタル・インク・データベースで手書きデータを探索する従来の方法は、パターン認識手法を使用して、先ずデジタル・インク・データベースおよび対応する探索クエリーを標準テキストへ変換し、次にデータベースの中で、変換された標準テキストとクエリー・テキストを照合することである。手書き文字認識によって生成された誤りに類似した文字誤りの存在のもとでテキスト照合を実行するファジー・テキスト探索方法は既に説明されている。P.Hall及び G.Dowlingによる “Approximate String Matching”,Computing Surveys,12(4),381〜402頁,1980年、を参照されたい。
【0006】
しかしながら、手書き文字認識の正確性は低いままであり、(データベース・エントリーおよび手書きクエリーの双方について)手書き文字認識によって導入された誤りの数は、この手法が良好に働かないことを意味している。手書き情報をテキストへ変換するプロセスは、筆跡の一般的形状およびダイナミック特性に関して、かなりの情報量の喪失を生じる。例えば、ある字句(例えば、「u」と「v」、「v」と「r」、「f」と「t」等)は、手書きの場合、形状が非常に類似する。更に、多くの手書きスタイル(特に筆記体で書く場合)、個々の文字の識別が非常に不明瞭である。
【0007】
デジタル・インク・データベースを直接探索および索引する様々な手法は、従来技術で知られている。例えば、A.Poon,K.Weber,及び T.Cassによる“Scribbler:ATool for Searching Digital Ink”,Proceedings of the ACM Computer−Human Interaction,58〜64頁,1994年、I.Kamelによる“FastRetrieval of Cursive Handwriting”,Proceedings of the 5th International Conferenceon Information and Knowledge Management,Rockville,MD USA,November 12〜16,1996、W.Aref,D.Barbera,P.Vallabhaneniによる“TheHandwritten Trie:Indexing Electronic Ink”,The 1995 ACM SIGMOD International Conferenceon Management of Data,San Jose,California,May 1995、W,Aref,D.Barbera,D.Lopresti 及びA.Tomkinsによる “Ink as a First−Class Datatype in Multimedia Databases”,Database System−Issuesand Research Direction,113〜163頁,1996年、およびR.Manmatha,C.Han,E.Riseman 及び W.Croftによる“IndexingHandwriting Using Word Matching”,Proceedings of the First ACM International Conferenceon Digital Libraries,151〜159頁,1996年、を参照されたい。
【0008】
これらのシステムは、クエリー・ペン・ストロークのセットから引き出された特徴ベクトルを、デジタル・インク・データベースから引き出された特徴ベクトルのデータベースと比較するため、類似性計量を使用する。クエリーとの最大類似性を示すデータベースのエントリーは、マッチとして返却される。更に、幾つかのアプローチは、索引を作成するか区分化スキームを使用して、データベースの全てのエントリーを順次に探索することを避ける。例えば、D.Barbara,W.Aref,I.Kamel及び P.Vallabhaneniによる“Method and Apparatus for Indexing a Plurality of HandwrittenObjects”,米国特許第5,649,023号、D.Barbara 及び I.Kamelによる“Method and Apparatus for SimilarityMatching of Handwritten Data Objects”,米国特許第5,710,916号、D.Barbara 及び H.Korthによる“Methodand Apparatus for Storage and Retrieval of Handwritten Information”,米国特許第5,524,240号、D.Barbara及び W.Arefによる“Method for Indexing and Searching Handwritten Documents in a Database”,米国特許第5,553,284号、R.Hull,D.Reynolds及び D.Gupterによる“Scribble Matching”,米国特許第6,018,591号、A.Poon,K.Weber 及び T.Cassによる“Searchingand Matching Unrecognized Handwriting”,米国特許第5,687,254号、およびW.Aref 及び D.Barbaraによる“TrieStructure Based Method and Apparatus for Indexing and Searching Handwritten Databaseswith Dynamic Search Sequencing”,米国特許第5,768,423号を参照されたい。
【0009】
他の研究、即ち、J.Hollerbachによる“An Oscillation Theory of Handwriting”,Biological Cybernetics,139〜156頁,1981年、およびY.Singer及び N.Tishbyによる“Dynamical Encoding of Cursive Handwriting”,IEEE Conference on ComputerVision and Pattern Recognition,1993年、は、筆跡合成のために手書きの物理特性をモデル化する努力を説明している。
【本発明の開示】
【0010】
前に説明したデジタル・インク・データベース探索手法は、デジタル・インク・データベースを作成した書き手によって生成されるインク・クエリーに依存する。しかしながら、デジタル・インク・データベースが、他の入力メカニズム、例えばコンピュータ・キーボードで入力されるか、または音声認識システムによって発話および認識されたテキスト・クエリーを使用して探索できれば有利であろう。あるいは、第三者が、自分の筆跡を使用するか、テキスト・ベースのクエリーを使用してデジタル・インク・データベースを探索したいと望むかも知れない。
【0011】
筆跡特徴合成を用いたインク・データベース探索は、テキスト・ベースのクエリーを使用してデジタル・インク・データベースを探索することを可能にする。手書き文字認識システムまたは適切なトレーニング手順から引き出された書き手特有の筆跡モデルを使用して、テキスト・クエリーは特徴ベクトルへ変換される。この特徴ベクトルは、デジタル・インク・データベースの作成者がテキスト・クエリーを手で書いたとすれば抽出されたであろう特徴ベクトルに類似している。次に、特徴ベクトルは、例えば従来の手法を使用してデータベースを探索するために使用される。これは、利用できる唯一の入力メカニズムがテキスト入力である時、デジタル・インク・データベースの探索を可能にし、デジタル・インク・データベースの作成者以外の人物がデジタル・インク・データベースを探索することを可能にする。
【0012】
本発明の広い形態によれば、テキスト・クエリーを用いてデジタル・インク・データベースを探索する方法が提供される。この方法は、
字句シーケンスおよび関連した特徴ベクトルのテーブルを含む辞典の探索を実行し、テキスト・クエリーを生成するように結合できる字句シーケンスを含む辞典エントリーのシーケンスを決定するステップと、
辞典エントリーのシーケンスに対応する特徴ベクトルのセットを取得するステップと、
特徴ベクトルのセットを用いてデジタル・インク・データベースを探索するステップと、
を含む。
【0013】
本発明の特定の実施形態によれば、辞典は、手書き文字認識の結果を用いてデジタル・インク・データベースの作成者から取得された筆跡モデルの一部分である。
【0014】
本発明の実施形態において、筆跡モデルは、字句シーケンスから特徴ベクトルへのマッピングを記憶する。好ましくは、辞典は各々の字句シーケンスについて複数の特徴ベクトルを含む。更に好ましくは、辞典エントリーの複数のシーケンスが決定されると、最小数のエントリーを有する辞典エントリーのシーケンスが使用される。
【0015】
更なる実施形態において、テキスト・クエリーは、手書き文字認識システムを使用して手書き入力をテキストへ変換し、および/または音声認識システムを使用して音声入力をテキストへ変換することによって取得される。
【0016】
本発明の特定の形態では、手書き文字認識の結果は、
筆跡をサンプリングするステップと、
フィルタを使用して筆跡を平滑化するステップと、
傾斜補正を実行するステップと、
ゾーン推定アルゴリズムを使用して高さの正規化を実行するステップと、
特徴抽出を使用してサブストロークの区分化および特徴ベクトルの生成を実行するステップと、
特徴ベクトルのセットの特徴縮減を使用するステップと、
ベクトル量子化を実行し、特徴ベクトルを集団化してコードワード・ベクトルを生成するステップと、
生成されたテキスト字句から最も可能性の高いワードを辞書から探索するステップと、
によって取得される。
【0017】
本発明の更に広範な形態によれば、クエリーを用いてデジタル・インク・データベースを探索する装置が提供される。この装置は、
ユーザがクエリーを入力するための入力デバイスと、
クエリーを受け取り、デジタル・インク・データベースと通信することのできるプロセッサと、
クエリーがまだテキスト・クエリーでない場合、クエリーをテキスト・クエリーへ変換する手段と、
辞典の探索を実行し、テキスト・クエリーを生成するために結合できる字句シーケンスを含む辞典エントリーのシーケンスを決定する手段と、
辞典エントリーのシーケンスに対応する特徴ベクトルのセットを取得する手段と、
特徴ベクトルのセットを用いてデジタル・インク・データベースを探索する手段と、
探索の結果をユーザへ表示する出力デバイスと
を備える。
【0018】
本発明の実施形態の他の態様によれば、テキスト・クエリーは、探索の特徴ベクトルを生成するために使用される筆跡モデルとは異なる筆跡モデルを使用して筆跡から生成される。
【0019】
本発明の更に広い形態によれば、クエリーを用いてデジタル・インク・データベースを探索する装置が提供される。この装置は、
デジタル・インク・データベースを記憶するストレージと、
辞典の探索を実行し、テキスト・クエリーを生成するために結合できる字句シーケンスを含む辞典エントリーのシーケンスを決定し、
辞典エントリーのシーケンスに対応する特徴ベクトルのセットを取得し、
特徴ベクトルのセットを使用してデジタル・インク・データベースを探索するように構成された
プロセッサと、を備え、
辞典は、手書き文字認識の結果を使用してデジタル・インク・データベースの作成者から取得された筆跡モデルの一部分である。
【本発明を実施する形態】
【0020】
本発明は、添付の図面と関連づけて記述される本発明の好ましいが非限定的な実施形態の以下の説明から明らかになるであろう。この説明は、単なる例として示されている。
【0021】
次の形態は、本発明の主題の正確な理解を提供するため、書かれた説明および添付のクレイムに適用されるものとして記述される。
【I.好ましい実施形態】
【0022】
本発明は、テキスト・クエリーを使用してデジタル・インク・データベースを探索する方法および装置を提供する。本発明の特徴を示すために組み込まれた図面において、図面の全体にわたって同様の部分を識別するため、同様の参照符号が使用される。
【0023】
本発明の実施形態は、処理システムを使用して実現することができる。処理システムの1つの例が図1に示される。具体的には、図示されるように、処理システム10は、一般的に、少なくともバス24を介して相互に結合されたプロセッサ20、メモリ21、入力デバイス22、例えばグラフィックス・タブレットおよび/またはキーボード、出力デバイス23、例えばディスプレイを含む。処理システムをデジタル・インク・データベース11へ結合するため、25で示されるような外部インタフェースも設けられる。
【0024】
使用に当たって、処理システム10は、データが、デジタル・インク・データベース11の中に記憶され、および/またはそこから検索されるように構成させる。プロセッサ20は、入力22を介して手書きデータ、テキスト・クエリー等を受け取る。これにより、処理システム10は任意の形式の処理システムまたは端末、例えばコンピュータ、ラップトップ、サーバ、特殊のハードウェア等であってよいことが分かるであろう。
【筆跡のモデル化】
【0025】
書き手特有の筆跡モデルは、特定のユーザの手書きスタイルを記述する。ほとんどのユーザ適合手書き文字認識システムは、個々のユーザのスタイル変化に対処するある種のモデルを生成する。一般的に、これらの筆跡モデルの目的は、入力ペン・ストロークのセットから抽出された特徴ベクトルを、認識されたテキストを表す字句のセットへマップすることである。
【0026】
しかしながら、デジタル・インクを探索する特徴合成アプローチは、書き手特有の筆跡モデルを使用して、逆マッピングを実行する。即ち、書き手がクエリー・テキストを手で書いたとしたら抽出されたであろう特徴を近似する特徴ベクトルのセットへクエリー・テキストを変換するため、モデルが使用される。図2は、手書きテキスト認識システムにおける一般的ステップの詳細を示す。筆跡は26でサンプリングされ、生のインク27が正規化ステップ28へ渡される。正規化されたインク29は、区分化ステップ30を経て、結果のストローク31は特徴抽出ステップ32へ渡される。特徴抽出ステップ32は特徴ベクトル33を抽出する。次に、筆跡モデル35を使用して、分類ステップ34が実行される。このステップはプリミティブ36を生成する。テキスト認識ステップ37はプリミティブ36を受け取り、言語モデル38および/または筆跡モデル35を使用して、生のインク27に対応するテキスト39を生成する。
【0027】
特徴合成を使用してインク・データベースを探索するには、追加のステップが必要である。書き手特有の筆跡モデル35は、テキストをインク特徴へマップする情報を記憶するように修正される必要がある。このマッピングを実行するため、個々の字句および字句グループ(即ち、字句のシーケンス)を特徴へ変換するテーブル(辞典と呼ばれる)が、筆跡モデルの中に含められる。認識が実行された後、出力テキストの中の字句および認識に使用された対応する特徴ベクトルを辞典へ追加することができる。
【0028】
通常一緒に起こる字句のグループおよび対応する特徴ベクトルは、連結されて辞典へ追加される。これが望ましい理由は、手書きが共結合効果を示し(字句を書く時、前後の字句の形状によって影響される)、よく書かれる字句(例えば、「qu」、「ed」、および「ing」)は、共結合を示しやすいからである。字句グループの特徴ベクトルを記憶することによって、ストローク・シーケンスの文脈的効果を考慮したクエリー・インクのより正確なレンダリングを生成することができる。
【0029】
辞典は、各々の字句シーケンスについて複数の特徴ベクトルを記憶できなければならない。同じ字句が何回も認識され得るから、辞典は、字句を最良に表す特徴ベクトルを選択できなければならない。これは、各々の字句シーケンスについて認識器から出力された全ての特徴ベクトル・シーケンスを、その特徴ベクトル・シーケンスがその字句シーケンスについて発見された回数のカウントと一緒に記憶することによって可能となる。字句シーケンスについて最高のカウント(即ち、発見の頻度が最も高く、したがって最も蓋然的な)特徴ベクトル・シーケンスが、特徴合成の間に使用される。
【0030】
どの字句グループを記憶するかの選択は、文字遷移統計(例えば、テキスト・コーパスから引き出される)に基づかせることができる。その場合、高い発生確率を有する字句シーケンスが記憶される(例えば、「ing」の確率は「inx」の確率よりも、はるかに大きい)。あるいは、認識の後で全ての可能な字句グループを記憶し、テーブルがあまりに大きくなった時、ある種の選択手順(例えば、最小近時使用)を実行することができる。
【0031】
辞典の中でワードの終わりを明示的にモデル化することによって、更なる改善を達成することができる。多くの筆記スタイルとして、文字はワードの終わりで不完全に書かれる。これは、特に、手で書かれるワードの接尾辞、例えば「ing」、「er」、および「ed」において明らかである。この行動をモデル化するため、ワード終了文字が字句シーケンスへ付加され(例えば、「ing#」)、この字句シーケンスがワードの終わりをモデル化することを示す。特徴合成の間、これらのエントリーは、クエリー・ワードを完了するためにのみ使用することができる。
【特徴合成】
【0032】
デジタル・インク・データベースを探索するため、テキスト・クエリーは、書き手特有の筆跡モデルを使用する特徴合成手順によって、特徴ベクトルのセットへ変換される。次に、これらの特徴ベクトルは、デジタル・インク・データベースを探索するためのクエリータームとして使用される。インク・データベースの探索は、従来のインク・マッチング手法を使用して実行することができる。図3は、この手順を説明している。ステップ40で、テキストが入力され、テキスト41は特徴合成ステップ42へ提供されて、特徴合成ステップ42は筆跡モデル35を使用して特徴43を生成する。特徴43は、デジタル・インク・データベース11のインク探索ステップ44で使用される。これはインク・マッチ45を生成する。
【0033】
特徴合成を実行するため、辞典の探索が実行され、結合されてクエリー・テキストを生成できる字句シーケンスを含む辞典エントリーのシーケンスが突き止められる。記憶された特徴ベクトルは、クエリー特徴ベクトルを生成するために連結される。しかしながら、クエリー・テキストを作り出すために使用できる辞典エントリーの異なった組み合わせが多数存在するかも知れない。テキストを生成できる最小数のエントリーが、文脈的効果を最も正確にモデル化するものと仮定する。例えば、次のエントリーが辞典の中に存在すると仮定する。
【0034】
【表1】

したがって、ワード「borrowed」は(bo)(rr)(ow)(ed)、(borr)(ow)(ed)、または(bor)(rowed)として作り出すことができ、最後の構成が最も望ましい。なぜなら、最も少ない要素から構成されているからである。
【A*辞典の探索】
【0035】
正確な結果を得るため、辞典は非常に大きいことを期待され、ワードに対する辞典エントリーの潜在的組み合わせの数は指数的であろう。長いワードを含むクエリーの場合、全ての順列の完全な列挙は実際的でないかも知れない。字句シーケンスsを探索するために、修正されたA探索アルゴリズムを使用することができる。S.Russell及び P.Norvig,Artificial Intelligence−A Modern Approach,Prentice Hall,1995年、を参照されたい。その場合、パス・コスト関数g(s)は、テキストを作り出すまでに使用された辞典エントリーの数であり、目標までの推定コストは、
h(s)=1、長さ(s)<長さ(クエリー)の場合
=0、他の場合
この発見的方法は、シーケンスがクエリー・ワードよりも少ない字句を有するならば、字句シーケンスを完了するのに少なくとも1つの追加的辞典エントリーが必要であることを記述している。探索ツリーの中のノードは、g(s)+h(s)によってソートされ(低い得点が優先する)、同じ得点を有するノードはシーケンスにおける字句の数によって順序を決められる(多いものが優先する)。
【0036】
注意すべきは、h(s)が単調で適格な発見的手法であり(即ち、それは決して目標へ到達するコストを過大に推定しない)、したがって探索は最適解の発見を保証され、最適に効率的である(即ち、最適解を発見することのできる最小数のノードを拡張する)。この結果の証明は、R.Dechter及び J.Pearlによる“Generalized Best−First Search Strategies and the Optimality of A”,Journalof the Association for Computing Machinery,32(3),505〜536頁,1985年、に示されている。
【0037】
上記の手順の例として、ワード「borrowed」の探索が以下に示されている。テーブルの中の各々の行は探索ノードを表し、より高い得点のノードはテーブルの最上部に置かれる。
【0038】
【表2】

テーブルの最上部にある最も有望なノードが拡張されて、次の結果になる。
【0039】
【表3】

再び、最も有望なノードが拡張される。
【0040】
【表4】

最上部のノードが、現在、完了したシーケンスであり、探索中の他のノードは、より良い得点を生成することができず、したがって、このノードが探索結果として選択される。
【II.様々な実施形態】
【0041】
[IIA.手書き文字認識を伴わない特徴合成]
特徴合成を使用するインク探索は、手書き文字認識システムを使用しないで実行することができる。この手法は、字句シーケンスおよび関連する特徴ベクトルの辞典を構築して、デジタル・インク・データベースを作成した書き手の筆跡をモデル化する能力を必要とするだけである。
【0042】
手書き文字認識の結果が、モデル化に利用できなければ、トレーニング手順を使用して、書き手特有の辞典を生成することができる。これを行うため、ユーザは、特定のトレーニング・テキストをコピーすることによって筆跡のサンプルを提供し、次に、このサンプルが辞典を構築するために使用される。トレーニング手順は、完全な手書き文字認識を実行するためには必要でない。なぜなら、筆跡によって表されるテキストは、既に知られているからである。それは、単に、入力を文字およびストロークへ区分化し、ストロークを特徴へ変換し、適切な字句グループおよび関連した特徴ベクトルを辞典の中に記憶するために必要である。
【0043】
辞典を構築するために使用されるトレーニング・テキストは、個々の字句および字句グループの均衡した例示的セットを提供するように最適化される必要がある。即ち、それは、類似した文字のユニグラム、バイグラム、およびトライグラムの範囲を最大にする必要がある。これに関しては、最も遭遇する可能性が高い字句および字句シーケンスに重点を置いている、J.Pitrelli,J.Subrahmonia, M.Perrone 及び K.Nathanによる“Optimization of Training Texts for Writer−DependentHandwriting Recognition”,Advances in Handwriting Recognition,World Scientific Publishing,1999年、を参照されたい。
【0044】
[IIB.認識およびインク・マッチングの異なった特徴]
手書き文字認識システムおよびインク・マッチング・アルゴリズムの双方が同じ特徴表現を使用することが望ましい。なぜなら、デジタル・インク・データベースを探索するために使用される特徴は、手書き文字認識の結果から引き出されるからである。
【0045】
しかしながら、認識特徴を探索特徴へ変換できれば、認識と探索に対して異なった特徴セットを使用することができる。幾つかの特徴セットは、認識特徴から、トレーニング・データのセットから学習される探索特徴への変換を可能にする。
【0046】
あるいは、多くの特徴セットは、認識特徴からデジタル・インクの近似を再生成することを可能にし、その近似から第2の特徴セットを抽出することができる。即ち、テキスト・クエリーは、特徴合成を使用して特徴ベクトルのセットへ変換され、特徴抽出プロセスの逆変換が特徴へ適用されて、それらをデジタル・インクへ変換し、そのデジタル・インクから探索特徴が抽出される。この手順が、探索特徴の抽出に影響を与えるアーチファクトをデジタル・インクへ決して導入しないように注意しなければならない(例えば、生成されたインクの不連続は、幾つかの特徴抽出手法で問題を生じるかもしれない)。
【0047】
[IIC.第三者のインク探索]
手書き文字認識を使用してインク入力をテキストへ変換し、特徴合成を用いて認識されたテキストをインク探索の特徴へ変換することによって、他の書き手のデジタル・インク・データベースを探索することができる。
【0048】
図4はこの状況を示し、書き手Aによって作成されたデジタル・インク・データベースを書き手Bが探索する。ステップ46で、インクが書き手Bから受け取られ、ストローク47が特徴抽出ステップ48へ渡される。特徴49が抽出され、認識ステップ50は言語モデル51および書き手Bのモデル52を使用して、対応するテキスト53を生成する。これは、辞典構築ステップ54で書き手Bの辞典を構築するために使用される。字句グループおよび特徴が書き手Bのモデル52へ戻され、モデルを改善/更新する。次に、テキスト53は特徴合成ステップ42を経験し、図3を参照して説明した類似のプロセスが実行されて、書き手Aによって作成されたインク・マッチ45が検索される。
【III.更なる例】
【0049】
次の例は、本発明の一実施形態の更に詳細なアウトラインを提供する。この例は、単なる例として意図され、本発明の範囲を限定するものではない。
【0050】
このセクションは、特徴合成を使用したインク・データベース探索の実現を詳細に説明する。ワードおよび文字の区分化、および基線方向の正規化を含む多数の前処理ステップが実行されたものと仮定する。これは単に手法を実現する1つの可能な方法であり、プロセスの各々の段階で利用可能な代替方法が存在することに注意されたい。例えば、使用できる多くの異なった区分化スキーム、特徴セット、筆跡モデル、および認識手順が存在する。
【0051】
特徴合成を使用する手書き文字認識およびインク探索手順は、トレーニング段階および認識または探索段階を必要とする。トレーニング段階の間に、トレーニング・データのセットはストローク特徴へ変換され、ストローク特徴はストローク・プリミティブへ集団化されて筆跡のモデルを作り出すために使用される。認識およびインク探索のために、このモデルは、入力インクをデコードするかインク探索の特徴を合成するために使用される。このプロセスは図5で示される。同じ前処理、正規化、区分化、および特徴抽出手順が、トレーニング、認識、および探索に使用されることに注意されたい。
【0052】
手書き文字認識システムは、入力インクをストローク・コードワードのセットへマップする。このストローク・コードワードは、マッチするワードを辞典から探索するために使用される。図6は、このプロセスの概略を提供し、個々のステップは以下で詳細に説明される。
【平滑化】
【0053】
インクは100Hzの一定レートでサンプリングされる。研究によれば、筆跡は約5Hzでピーク・スペクトル密度を有し、これは約10Hzでノイズ・レベルへ降下する。H.Teulings及び F.Maarseによる“Digital Recording and Processing of Handwriting Movements”,HumanMovement Science,3,193〜217頁,1984年、を参照されたい。よって、10Hzでカットオフを有する低域フィルタは、筆跡信号の関連スペクトル成分に影響を与えることなく高周波ノイズを除去するであろう。
【0054】
上記の仕様に合致する低域フィルタは、点座標を円形にし、FFTを実行して高周波成分を除去し、逆FFTを使用して信号を再生することによって生成できる。しかしながら、簡単な加重平均フィルタも有効に働く。点{p...p}のシーケンスを平滑化するため、
【0055】
【数1】

ここで、
【0056】
【数2】

フィルタの幅kおよびα平滑化係数は、経験的に決定される。
【傾斜補正】
【0057】
多くの手書きスタイルは、書かれた字句の垂直主軸を有しない(即ち、字句は一貫した傾斜で書かれる)。筆跡傾斜を除去することは、手書き字句の認識を改善できる正規化である。手書きにおいて、ダウンストロークは最も安定および一貫したストロークと考えられ、したがって筆跡傾斜を検出するために有用である。
【0058】
筆跡傾斜を検出するため、書かれたダウンストロークの点{p...p}における加重平均方向が推定される。
【0059】
【数3】

ここで、
【0060】
【数4】

角度αおよびαは、どのストローク・セグメントがダウンストロークの一部分として考えられるかを定義し、経験的にそれぞれ40°および140°に設定される(90°は垂直線を表す)。推定された傾斜が、垂直線からある閾値よりも大きく偏向すれば、傾斜は横ずれ変換を使用して除去される。
【0061】
【数5】

ここで、yminおよびymaxは、インクの境界長方形の最上部と最下部を表す。
【ゾーン推定】
【0062】
ゾーン推定は、入力インクの高さを正規化するために使用される。英語の字句は3つのゾーン−中間ゾーン(字句、例えば「a」、「c」、「e」等の高さに対応する)、および字句、例えば「b」、「d」、「g」、および「j」のアセンダおよびデセンダを含む上方および下方ゾーンを示す。
【0063】
ゾーン推定は、インク濃度の水平ヒストグラムを使用して実行される。即ち、インクの境界長方形を通過する等間隔の水平線の列について、インク交差の数が決定される。ヒストグラムの中央ピークが発見され、同じようにインク濃度が中央ピーク高のある分数よりも下へ降下するヒストグラムの両側の2つの点が発見される。これらの2つの点は、中間ゾーンの上方および下方境界として選択される。上方および下方ゾーンは、中間ゾーンと境界長方形の垂直極値との間の空間として画成される。
【特徴抽出】
【0064】
インクは垂直方向の極値(即ち、Y座標の極大および極小)でサブストロークへ区分化される。区分化が起こるためには、選択された区分化点でストロークを分割することによって生成された2つのサブストロークの長さが、前もって計算された最小距離(推定された中間ゾーンの高さの半分に設定される)を超えなければならない。
【0065】
次に、区分化されたサブストロークは、ストローク軌道に沿って等間隔に置かれた定数のn個の点を含むように再サンプリングされる。次に、座標を正規化することによって、特徴ベクトルがサブストロークのために作り出される。
【0066】
【数6】

【0067】
【数7】

ここで、
min=ブストローク境界長方形のX最小値、
middle=中間ゾーンの最上部のY座標、
h=中間ゾーンの高さ(即ち、ybase−ymiddle)。
【0068】
次に、特徴ベクトルが、正規化された座標からf={x’,y’,...,x’,y’}として作り出される。
【特徴の縮減】
【0069】
結果のベクトルは、多数の高度に相関した特徴を使用してサブストロークを記述する(明らかに、点pの座標は、点pi−1に依存する。以下同様である)。ベクトルの次元をmへ下げるため(ここでm<2n)、カルーネン・レーベ(Karhunen−Loeve)変換が使用される(「主成分分析」(PrincipalComponent Analysis−R.Duda,P.Hart,and D.Stork,Pattern Classification,Second Edition,JohnWiley&Sons,Inc.,569〜570頁,2001年)を参照)。この手順は、最小自乗の意味で最適のリニアマッピングを使用して、高次元の特徴を低次元へ投影する。
【0070】
これを行うため、全てのトレーニング特徴ベクトルX={f,...,f}のセットについて、次式を使用した共分散(自己相関)マトリックスが計算される。
【0071】
【数8】

このマトリックスの固有ベクトルおよび固有値が発見され(三重対角QL陰アルゴリズムを使用する。W.Press,B.Flannery,S.Teukolsky 及びW.Vetterlingによる W.T.,Numerical Recipes in C,Cambridge:Cambridge University Press,1988年)を参照)、PCAマトリックスZを形成するため、最大n個の固有値に対応する固有ベクトルが使用される。次に、特徴ベクトルは、このマトリックスと乗算され、直交無相関軸を有する新しい特徴空間へ特徴ベクトルを変換する。
【0072】
【数9】

【ベクトルの量子化】
【0073】
次に、変換された特徴ベクトルは、コホーネン(Kohonen)自己組織化特徴マップ(SOFM(Self−Organizing Feature Map))を使用して集団化される。T.Kohonenによる“Self−OrganizedFormation of Topologically Correct Feature Maps”,Biological Cybernetics,43,59〜69頁,1982年、を参照されたい。この手法は、監督されない学習手順を使用して入力ベクトルを集団化し、ベクトル間の距離および近接関係ができるだけ遠く維持されるようにする。使用されるSOFMは2次元構造を有し、可視的に類似したコードワード(即ち、クラスタ)は相互に近づけて置かれる。その結果、2つのコードワード間の距離は、コードワード値の間のある距離計量(例えばユークリッド距離)を使用して容易に計算することができる。
【0074】
SOFMトレーニングは、ランダムな重みで開始される簡単な2層ニューラルネットワークを使用して反復的に実行される。正規化された入力トレーニング・ベクトルxと最良にマッチする出力ニューロンは、最小ユークリッド距離を使用して発見される。
【0075】
【数10】

ここで、wは出力ノードiの重みベクトルを表す。最高活動値を有するノードおよびそれを取り巻くノードの重み(近傍関数Λによって決定される)は、次式を使用して更新される。
【0076】
【数11】

ここで、ηは学習レート関数であり、ηおよびΛは、典型的には、時間tにわたって変化する。トレーニングは、トレーニング・セットの反復中にニューロン重みへの顕著な変化が存在しなくなるまで継続する。
【0077】
サブストロークのシーケンスをコードワード・ベクトルへ変換するため、各々のサブストローク特徴ベクトルが、トレーニングされたSOFMを使用して量子化され、コードワード・ベクトルへ付加される。特徴ベクトルは、SOFMコードブックの出力ニューロンに対する最大活動値を選択することによって、コードワードへ量子化される。
【0078】
【数12】

【筆跡モデル】
【0079】
筆跡モデルは、ストローク・コードワード・ベクトルから字句へのマッピング(テキスト認識について)、および字句グループからコードワード・ベクトルへの逆マッピング(特徴合成について)を記憶する。筆跡モデルを構築するため、トレーニング・データにおける各々の字句はコードワード・ベクトルへ変換され、このコードワード・ベクトルは、対応する字句と一緒にテーブルの中に記憶される。
【0080】
特定のコードワード・シーケンスは多数の字句へマップし(例えば、不完全に書かれた「u」は「v」と同じ特徴ベクトルへマップするかも知れない)、個々の字句は多数のコードワード・ベクトルによってマップされることに注意されたい。コードワード・ベクトルが特定の字句を表した回数のカウントを取ることによって、字句xについてn個の辞典エントリーがあれば、ベクトルが字句xを表す確率は、次のように計算することができる。
【0081】
【数13】

ここで、cは、コードワード・ベクトルが字句xを表すように遭遇された回数のカウントである。次のテーブルは、仮説のコードワード・ベクトル{3,4}を表すテーブルから取られた例示的エントリーである。
【0082】
【表5】

このテーブルは、コードワード・シーケンス{3,4}が入力の中で遭遇されたならば、それが字句「u」を表す確率が0.54であり、それが「v」を表す確率が0.41であり、それが「r」を表す確率が0.05であることを示す。
【0083】
逆マッピング・テーブルは同じようにして生成され、字句および字句グループに関連づけられたコードワード・ベクトルを記憶する。
【認識】
【0084】
手書き文字認識を実行するためには、入力インクが前述したように処理され、結果のコードワード・ベクトルは、筆跡モデルを探索して字句仮説を生成するように使用される。派生字句の可能性が最も高いワードを辞典から探索するため、最良・第1探索ストラテジが使用される。プロセスは下記の図7で示される。
【インクの探索】
【0085】
インクの探索は、手書き文字認識の間に生成された筆跡モデルを使用して、入力クエリー・テキストをコードワードのシーケンスへマップするように実行される。このコードワード・ベクトルは、弾力的マッチング手法を使用してデジタル・インク・データベースを探索するために使用される。類似のインク・マッチング手法の完全な説明は、D.Lopresti及び A.Tomkinsによる“Temporal−Domain Matching of Hand−Drawn Pictorial Queries”,Handwritingand Drawing Research: Basic and Applied Issues,IOS Press,387〜401頁,1996年、に記載されている。次いで、結果のクエリーは類似性の順序に従って並べられ、ユーザに提供される。
【0086】
このように、本発明に従って、テキスト・クエリーを使用してデジタル・インク・データベースを探索する方法および装置が提供された。この方法および装置は、前述した利点を満足させる。
【0087】
本発明は、更に、個別的または集合的に本願の明細書で言及または指摘された部分、要素、および特徴にあり、これら部分、要素、または特徴の2つ以上の任意または全ての組み合わせにあると広く言うことができ、本発明が関連を有する技術で既知の同等物を有する特定の整数が言及されている場合は、そのような既知の同等物は、あたかも個々に記載されているかのように、ここに組み込まれていると考えられる。
【0088】
好適な実施形態が詳細に説明されたが、これまで説明され、また特許請求の範囲に記載されるような本発明の範囲から逸脱することなく、当業者による様々な変更、置換、および代替が可能であることを理解すべきである。
【図面の簡単な説明】
【0089】
【図1】処理システムを示す。
【図2】手書き文字認識方法の概観を示す。
【図3】特徴合成を使用するデジタル・インク・データベースの探索方法を示す。
【図4】第三者のインク・データベースの探索方法を示す。
【図5】トレーニングおよび認識/探索段階を示す。
【図6】手書き文字認識の方法を示す。
【図7】テキスト認識の例を示す。

【特許請求の範囲】
【請求項1】
手書きでないテキスト・クエリーと、手書き字句シーケンスを手書き特徴ベクトル・シーケンスに翻訳するテーブルとを用いて、手書き字句シーケンスのデジタルインクバージョンおよび前記手書き字句シーケンスの特徴ベクトル・シーケンスのデータベースを探索する方法において、前記データベースとテーブルにネットワークで接続された処理システムにより実施される、前記方法であって、
手書きでないテキスト・クエリーの手書きでない字句シーケンスを手書きの特徴ベクトル・シーケンスに変換するステップと、
前記テーブルを検索して、手書きでない前記字句シーケンスを生成する組み合わされた手書き字句シーケンスを決定するステップと、
前記テーブルから、決定された手書き字句シーケンスの組合せにより翻訳された手書き特徴ベクトル・シーケンスの組合せを出力するステップと、
出力された手書き特徴ベクトル・シーケンスの組合せに合致する手書き特徴ベクトル・シーケンスの組合せ用データベースを検索するステップと、
を含む、前記方法。
【請求項2】
前記データベースとテーブルの前記手書き字句シーケンスは、手書き認識を用いて生成された同一作成者のものである、請求項1に記載の方法。
【請求項3】
前記手書き認識は、
前記作成者の前記筆跡をサンプリングするステップと、
フィルタを使用して筆跡を平滑化するステップと、
傾斜補正を実行するステップと、
ゾーン推定アルゴリズムを使用して高さの正規化を実行するステップと、
特徴抽出を使用してサブストロークへの区分化および特徴ベクトルの生成を実行するステップと、
特徴ベクトルのセットの特徴縮減を使用するステップと、
ベクトル量子化を実行し、特徴ベクトルを集団化してコードワード・ベクトルを生成するステップと、
生成されたテキスト字句から最も可能性の高いワードを辞書から探索するステップと、
により前記処理システムが実行される、請求項2に記載の方法。
【請求項4】
前記テーブルは、各手書き字句シーケンスを複数の手書き特徴ベクトル・シーケンスに翻訳する、請求項1に記載の方法。
【請求項5】
前記テーブルは、ワードの終わりに対応する手書き字句シーケンスを示すワード終了文字を含む、請求項1に記載の方法。
【請求項6】
前記手書きでない字句シーケンスを生成する手書き字句シーケンスの2つ以上の組合せが決定される場合、前記変換するステップは:
手書き字句シーケンスの最小数を用いて前記手書きでない字句シーケンスを生成する手書き字句シーケンスの組合せを選択する工程と;
前記テーブルから、選択された前記手書き字句シーケンスの組合せにより翻訳された手書き特徴ベクトル・シーケンスの組合せを出力する工程と;
を含む、請求項1に記載の方法。
【請求項7】
前記手書きでないテキスト・クエリーは、前記処理システムのキーボードにより入力される、請求項1に記載の方法。
【請求項8】
前記手書きでないテキスト・クエリーは、音声認識を用いてテキストに変換される音声により入力される、請求項1に記載の方法。
【請求項9】
手書きでないテキスト・クエリーと、手書き字句シーケンスを手書き特徴ベクトル・シーケンスに翻訳するテーブルとを用いて、手書き字句シーケンスのデジタルインクバージョンおよび前記手書き字句シーケンスの特徴ベクトル・シーケンスのデータベースを探索するシステムであって、
前記システムは、前記データベースとテーブルを記憶する為のメモリと、プロセッサとを含み、前記プロセッサは、
前記テーブルを探索して、手書きでない前記字句シーケンスを生成する組み合わされた手書き字句シーケンスを決定し、
決定された前記手書き字句シーケンスの組合せにより翻訳された手書き特徴ベクトル・シーケンスの組合せを前記テーブルから出力することにより、手書きでないテキスト・クエリーの手書きでない字句シーケンスを手書き特徴ベクトル・シーケンスに変換すること、
出力された前記手書き特徴ベクトル・シーケンスに合致する手書き特徴ベクトル・シーケンスの組合せ用データベースを検索すること、
から構成されている、前記システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2008−293519(P2008−293519A)
【公開日】平成20年12月4日(2008.12.4)
【国際特許分類】
【出願番号】特願2008−175821(P2008−175821)
【出願日】平成20年7月4日(2008.7.4)
【分割の表示】特願2003−536935(P2003−536935)の分割
【原出願日】平成14年10月15日(2002.10.15)
【出願人】(303024600)シルバーブルック リサーチ ピーティワイ リミテッド (150)
【Fターム(参考)】