説明

文書再構成の方法及びシステム

本発明の種々の実施形態は、構造化文書を規定するために非構造化文書を分析する種々の技術を使用する。非構造化文書は、複数の基本要素を含むが、基本要素間の構造関係を指定する構造要素及び/又はそれらの基本要素に基づく文書の構造属性を含まない。構造化文書を規定するために、非構造化文書の基本要素が使用され、非構造化文書の種々の幾何学的属性を識別する。識別された幾何学的属性及び基本要素の他の属性は、関連する基本要素(例えば、単語、段落、結合グラフ等)、表、ガイド、のど等の構造要素を規定するために並びに基本要素及び構造要素の読み取りフローを規定するために使用される。幾何学的分析及び文書再構成処理(例えば、階層プロファイリング、効率的なクラスタ分析技術、効率的なデータ構造)の効率を向上する種々の方法が提供される。


Notice: Undefined index: DEJ in /mnt/www/gzt_disp.php on line 298

【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサにより実行された時に複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記文書の境界基本要素を識別する命令セットと、
前記境界基本要素に基づいて他の基本要素の集合間の境界線を識別する命令セットと、
前記境界線により限定された前記文書の領域を識別する命令セットと、
前記領域及び前記基本要素に基づいて構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項2】
構造化文書を規定する前記命令セットは、少なくとも2つの識別された領域間の階層関係を識別する命令セットを含む請求項1に記載のコンピュータ読み取り可能な記憶媒体。
【請求項3】
全体が第2の領域内にある第1の領域は前記第2の領域の子である請求項2に記載のコンピュータ読み取り可能な記憶媒体。
【請求項4】
2つの識別された領域間の階層関係を識別する前記命令セットは、識別された各領域が階層文書オブジェクトモデルのノードである前記文書オブジェクトモデルを規定する命令セットを含む請求項2に記載のコンピュータ読み取り可能な記憶媒体。
【請求項5】
前記構造化文書を規定する前記命令セットは、前記他の基本要素から規定された少なくとも1つの構造要素を前記文書オブジェクトモデルに読み込む命令セットを含む請求項4に記載のコンピュータ読み取り可能な記憶媒体。
【請求項6】
境界線は、前記文書の特定の境界基本要素の場所に基づいて識別される請求項1に記載のコンピュータ読み取り可能な記憶媒体。
【請求項7】
前記特定の境界基本要素は直線又は直線を近似する形状である請求項6に記載のコンピュータ読み取り可能な記憶媒体。
【請求項8】
前記領域を識別する前記命令セットは、
前記境界線が他の境界線と交差するかに基づいて実際に領域に境界をつける境界線の集合を選択する命令セットと、
領域を識別するために前記境界線の部分集合を横断する命令セットとを含む請求項1に記載のコンピュータ読み取り可能な記憶媒体。
【請求項9】
境界基本要素を識別する前記命令セットは、直線又は直線を近似する形状である基本要素及び基本要素のグループを識別する命令セットを含み、他の基本要素の集合間の境界線を識別する前記命令セットは、
前記境界基本要素間の交点を識別する命令セットと、
少なくとも2つの他の境界基本要素と交差しない境界基本要素を除去する命令セットとを含む請求項1に記載のコンピュータ読み取り可能な記憶媒体。
【請求項10】
前記境界線により限定された領域を識別する前記命令セットは、境界線の閉ループを識別するために前記識別された境界線を横断する命令セットを含み、各閉ループは領域である請求項1に記載のコンピュータ読み取り可能な記憶媒体。
【請求項11】
前記コンピュータプログラムは、前記文書に対する構造要素を規定するために前記識別された領域を使用する命令セットを更に含み、前記構造化文書は前記構造要素に更に基づく請求項1に記載のコンピュータ読み取り可能な記憶媒体。
【請求項12】
構造要素を規定するために前記識別された領域を使用する前記命令セットは、特定の各領域の基本要素の集合間の関連付けを行うために前記特定の領域を別個に分析する命令セットを含む請求項11に記載のコンピュータ読み取り可能な記憶媒体。
【請求項13】
(i)複数の基本要素を含む文書を分析し、(ii)前記分析に基づいて前記文書の構造を規定する構造要素を生成するプログラムを規定する方法であって、
前記文書の境界基本要素を識別するモジュールを既定することと、
前記境界基本要素に基づいて他の基本要素の集合間の境界線を識別するモジュールを規定することと、
前記境界線により限定された前記文書の領域を識別するモジュールを規定することと、
前記構造要素を指定するために前記識別された境界線及び領域を使用するモジュールを規定することとを含む方法。
【請求項14】
前記領域、前記基本要素及び前記構造要素に基づいて構造化文書を規定するモジュールを規定することを更に含む請求項13に記載の方法。
【請求項15】
前記文書は非構造化文書である請求項13に記載の方法。
【請求項16】
少なくとも1つのプロセッサにより実行された時に複数のグリフ及び複数の図形要素を含む複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記複数の図形要素を潜在的な境界線として識別する命令セットと、
前記潜在的な境界線の一部を実際の境界線として識別する命令セットと、
1つ以上のゾーンを識別するために前記実際の境界線を横断する命令セットと、
前記識別されたゾーンを含む階層文書モデルを規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項17】
前記複数の図形要素を潜在的な境界線として識別することは、
最大で特定の厚さの垂直線及び水平線である図形要素を識別する命令セットと、
最大で特定の厚さの垂直線及び水平線を近似する図形要素を識別する命令セットと、
直立矩形図形要素の外側エッジを識別する命令セットとを含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項18】
前記潜在的な境界線の一部を実際の境界線として識別する前記命令セットは、
前記潜在的な境界線の間の交点を識別する命令セットと、
全ての残りの潜在的な境界線が少なくとも2つの他の潜在的な境界線と交差するまで少なくとも2つの他の潜在的な境界線と交差しない潜在的な境界線を繰り返し除去する命令セットと、
前記残りの潜在的な境界線を実際の境界線として識別する命令セットとを含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項19】
1つ以上のゾーンを識別するために前記実際の境界線を横断する前記命令セットは、
前記実際の境界線の各々に対して反対方向に位置揃えされた2つの区間を含む方向を位置揃えされた区間の集合を規定する命令セットと、
交点及び前記交点から離れる方向を選択する命令セットと、
前記選択した交点に戻るまで前記選択した交点から開始して前記選択した方向へ前記区間の集合の中の前記区間を横断する命令セットと、
前記横断された区間により囲まれた前記領域をゾーンとして規定する命令セットと、
前記区間の集合から前記横断した区間を除去する命令セットととを含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項20】
前記方向を位置揃えされた区間はベクトルである請求項19に記載のコンピュータ読み取り可能な記憶媒体。
【請求項21】
1つ以上のゾーンを識別するために前記実際の境界線を横断する前記命令セットは、
前記方向を位置揃えされた区間の集合が空になるまで、
交点及び前記交点からの方向を選択する命令セットと、
前記選択した交点に戻るまで前記選択した交点から開始して前記選択した方向に前記区間の集合の中の前記区間を横断する命令セットと、
前記横断した区間により囲まれた前記領域をゾーンとして規定する命令セットと、
前記区間の集合から前記横断した区間を除去する命令セットとを更に繰り返し含む請求項19に記載のコンピュータ読み取り可能な記憶媒体。
【請求項22】
特定のゾーンが特定の方向に横断された時に前記特定のゾーンを島として規定することを更に含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項23】
第2のゾーンが第1のゾーンの完全に囲まれる場合、前記第1のゾーンは前記第2のゾーンの親である請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項24】
前記第1のゾーン及び前記第2のゾーンが境界線を共有しない場合、前記第2のゾーンは島である請求項23に記載のコンピュータ読み取り可能な記憶媒体。
【請求項25】
前記コンピュータプログラムは、実際の境界線でない前記図形要素及び前記グリフに基づいて構造要素を規定する命令セットを更に含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項26】
前記コンピュータプログラムは、前記階層文書モデルのゾーンに少なくとも1つの構造要素を読み込む命令セットを更に含む請求項25に記載のコンピュータ読み取り可能な記憶媒体。
【請求項27】
前記コンピュータプログラムは、回転ゾーンを識別する命令セットを更に含む請求項25に記載のコンピュータ読み取り可能な記憶媒体。
【請求項28】
回転ゾーンは、前記回転ゾーンを含むページと位置揃えされないゾーンである請求項27に記載のコンピュータ読み取り可能な記憶媒体。
【請求項29】
ゾーンは、少なくとも特定の角度だけページのエッジからオフセットしている場合に前記ページと位置揃えされない請求項28に記載のコンピュータ読み取り可能な記憶媒体。
【請求項30】
少なくとも1つのプロセッサにより実行された時に各々が関連するグリフの集合を含む複数の単語を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であり、各グリフが位置座標を有するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
位置揃えされた単語のグループ中の前記単語の各々における少なくとも1つの個別のグリフの位置座標に基づいて前記位置揃えされた単語のグループを識別する命令セットと、
前記識別された単語のグループに基づいて、前記グリフに対する位置揃え要素を規定する命令セットと、
前記グリフ及び前記規定された位置揃え要素に基づいて構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項31】
前記コンピュータプログラムは、一対の位置揃え要素の間の少なくとも1つの空白の領域を規定する命令セットを更に含み、前記構造化文書は前記空白の領域に基づいて更に規定される請求項30に記載のコンピュータ読み取り可能な記憶媒体。
【請求項32】
前記単語のグループを識別する前記命令セットは、1つの軸に沿って前記単語の座標から導出されたデータに対してクラスタ分析を実行する命令セットを含む請求項30に記載のコンピュータ読み取り可能な記憶媒体。
【請求項33】
前記クラスタ分析は、同様の値を有する大きなデータのグループを識別するために密度クラスタリングを含む請求項32に記載のコンピュータ読み取り可能な記憶媒体。
【請求項34】
前記境界要素は、グリフに対する右揃えガイド及び左揃えガイドである請求項30に記載のコンピュータ読み取り可能な記憶媒体。
【請求項35】
前記位置揃え要素を規定する前記命令セットは、
前記識別されたグループ中の前記単語に基づいてある幅を有する第1の軸に沿うストリップを規定する命令セットと、
単語が第2の軸に沿う特定の方向から前記ストリップと交差する前記第1の軸に沿う座標において前記ストリップを削除する命令セットとを含む請求項30に記載のコンピュータ読み取り可能な記憶媒体。
【請求項36】
構造化文書を規定する前記命令セットは、前記グリフ及び前記規定された位置揃え要素を使用してテキストカラムを識別する命令セットを含む請求項30に記載のコンピュータ読み取り可能な記憶媒体。
【請求項37】
(i)各々が関連するグリフの集合を含む複数の単語を含む文書であり、各グリフが位置座標を有する文書を分析し、(ii)前記分析に基づいて前記文書の構造を規定する構造要素を生成するプログラムを規定する方法であって、
位置揃えされた単語のグループ中の前記単語の各々における少なくとも1つの個別のグリフの位置座標に基づいて前記位置揃えされた単語のグループを識別するモジュールを規定することと、
前記識別された単語のグループに基づいて、前記グリフに対する境界を識別する前記グリフに対する位置揃え要素を規定するモジュールを規定することと、
前記文書の構造要素を指定するために前記識別された位置揃え要素を使用するモジュールを規定することとを含む方法。
【請求項38】
前記グリフ、前記規定した位置揃え要素及び前記構造要素に基づいて構造化文書を規定するモジュールを規定することを更に含む請求項37に記載の方法。
【請求項39】
少なくとも1つのプロセッサにより実行された時に各々が複数のグリフを含み且つ特定の位置値を有する複数の単語を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記単語の前記位置値を順序付けする命令セットと、
前記位置値の部分集合への複数の異なるグループ化を識別する命令セットと、
異なるグループ化毎に特定の制約の集合を満足する前記位置値の部分集合の集合を識別する命令セットと、
特定の基準を最適化する前記位置値の部分集合の前記集合のうちの特定の1つを判定する命令セットと、
前記特定の基準を最適化する前記部分集合の特定の集合に基づいて前記グリフに対する境界要素を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項40】
前記制約の集合は、前記位置値の部分集合が少なくとも特定の数の値を有するという要件を含む請求項39に記載のコンピュータ読み取り可能な記憶媒体。
【請求項41】
前記制約の集合は、前記部分集合の最大値と最小値との間の差分が特定の閾値を上回らないという要件を含む請求項39に記載のコンピュータ読み取り可能な記憶媒体。
【請求項42】
前記特定の位置値は単語の右エッジを表し、前記特定の基準を最適化する前記部分集合の集合は右揃えガイドを識別するために使用される請求項39に記載のコンピュータ読み取り可能な記憶媒体。
【請求項43】
前記特定の位置値は単語の左エッジを表し、前記特定の基準を最適化する前記部分集合の集合は左揃えガイドを識別するために使用される請求項39に記載のコンピュータ読み取り可能な記憶媒体。
【請求項44】
少なくとも1つのプロセッサにより実行された時にデータのクラスタを識別するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
クラスタリングされるデータ値の集合を受信する命令セットと、
各々が部分集合への前記データ値の異なるグループ化を指定する前記データ値の複数の区分を識別する命令セットと、
データ値の部分集合のグループ毎に特定の制約の集合を満足する前記部分集合の集合を識別する命令セットと、
特定の基準を最適化する部分集合の集合を判定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項45】
前記データ値は文書のグリフの位置であり、特定の基準を最適化する前記部分集合の集合は前記文書に対する位置揃えガイドを識別する請求項44に記載のコンピュータ読み取り可能な記憶媒体。
【請求項46】
少なくとも1つのプロセッサにより実行された時に各々が関連するグリフの集合を含む複数の単語を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記文書の左揃え点の集合及び右揃え点の集合を識別する命令セットと、
特定の判断基準を満足する左揃え点と右揃え点との間の前記文書中の空白を識別する命令セットと、
前記識別した空白を使用して構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項47】
前記左揃え点の集合及び前記右揃え点の集合は、単語の密度クラスタリングにより判定された位置揃えガイドを含む請求項46に記載のコンピュータ読み取り可能な記憶媒体。
【請求項48】
前記文書中の空白を識別する前記命令セットは、
前記右揃え点の集合から1つの右揃え点を選択する命令セットと、
前記選択した右揃え点の右側にある前記選択した右揃え点に最近接する左揃え点である前記左揃え点の集合の中の左揃え点を識別する命令セットと、
前記選択した右揃え点と前記識別した左揃え点との間の垂直ストリップを規定する命令セットと、
単語がストリップと交差する座標において前記垂直ストリップを削除する命令セットとを含む請求項46に記載のコンピュータ読み取り可能な記憶媒体。
【請求項49】
前記識別した空白を使用して構造化文書を規定する前記命令セットは、単語の行を分割する命令セットを含む請求項44に記載のコンピュータ読み取り可能な記憶媒体。
【請求項50】
少なくとも1つのプロセッサにより実行された時に複数のグリフを含む文書を解析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、
前記複数のグリフのそれぞれは、前記文書内の位置を有し、
前記コンピュータプログラムは、
前記文書における前記グリフの位置に基づいて、グリフの異なる集合を異なる単語として識別するために、前記グリフ間の関連付けを作成する命令セットと、
単語の異なる集合を異なる段落として識別するために、前記単語間の関連付けを作成する命令セットと、
前記段落について読み順を規定するために、隣接していない少なくとも2つの段落間の関連付けを規定する命令セットと、
を含むコンピュータ読み取り可能な記憶媒体。
【請求項51】
単語間の関連付けを作成する前記命令セットは、(i)前記単語を形成する前記グリフの垂直間隔の属性と、(ii)前記単語を形成する前記グリフの水平位置揃えの属性と、に基づいて関連付ける単語の集合を識別する命令セットを含む請求項50に記載のコンピュータ読み取り可能な記憶媒体。
【請求項52】
単語の異なる集合を異なる段落として識別するために、前記単語間の関連付けを作成する前記命令セットは、
単語の集合をテキスト行として識別するために、前記単語間の関連付けを作成する命令セットと、
テキスト行の集合を段落として識別するために、前記テキスト行の間の関連付けを作成する命令セットと、
を含む請求項50に記載のコンピュータ読み取り可能な記憶媒体。
【請求項53】
単語の集合をテキスト行として識別するために、前記単語間の関連付けを作成する前記命令セットは、
水平に位置揃えされた単語の集合を識別する命令セットと、
少なくとも1つの水平間隙の存在に基づいて、前記水平に位置揃えされた単語の集合を分割する命令セットと、
それぞれの残った集合内の単語間の関連付けを作成する命令セットと、
を含み、
前記水平に位置揃えされた単語の集合内の全ての単語は、互いに所定の閾値内にベースラインを有する請求項52に記載のコンピュータ読み取り可能な記憶媒体。
【請求項54】
前記水平に位置揃えされた単語の集合を分割する前記命令セットは、
水平に位置揃えされた単語間の少なくとも閾値の幅の間隙として、水平間隙を識別する命令セットと、
垂直に位置揃えされている水平間隙の集合を識別する命令セットと、
特定の基準の集合を満たさない水平間隙の集合を除去する命令セットと、
前記除去されなかった間隙で、前記水平に位置揃えされた単語の集合を分割する命令セットと、
を含む請求項53に記載のコンピュータ読み取り可能な記憶媒体。
【請求項55】
テキスト行の集合を段落として識別するために、前記テキスト行の間の関連付けを作成する前記命令セットは、隣接するテキスト行の垂直間隔の属性を比較する命令セットを含む請求項52に記載のコンピュータ読み取り可能な記憶媒体。
【請求項56】
テキスト行の集合を段落として識別するために、前記テキスト行の間の関連付けを作成する前記命令セットは、隣接するテキスト行の水平位置揃えの属性を比較する命令セットを含む請求項52に記載のコンピュータ読み取り可能な記憶媒体。
【請求項57】
前記コンピュータプログラムは、段落の集合をカラムとして識別するために、前記段落間の関連付けを作成する命令セットをさらに含む請求項50に記載のコンピュータ読み取り可能な記憶媒体。
【請求項58】
複数のグリフを含む文書を解析するプログラムを規定する方法であって、
前記複数のグリフのそれぞれは、前記文書内の位置を有し、
前記方法は、
前記文書における前記グリフの位置に基づいて、グリフの異なる集合を異なる単語として識別するために、前記グリフ間の関連付けを作成するモジュールを規定する工程と、
単語の異なる集合を異なる段落として識別するために、前記単語間の関連付けを作成するモジュールを規定する工程と、
前記段落について読み順を規定するために、隣接していない少なくとも2つの段落間の関連付けを規定するモジュールを規定する工程と、
を含む方法。
【請求項59】
グリフ間の関連付けを作成するモジュールを規定する前記工程は、前記グリフ間の水平間隔を識別するために、前記グリフの前記位置に対してクラスタ分析を実行するモジュールを規定する工程を含む請求項58に記載の方法。
【請求項60】
前記クラスタ分析は、単語間の間隔及び単語内の間隔を識別するために、水平間隔サイズのクラスタを識別する請求項59に記載の方法。
【請求項61】
少なくとも1つのプロセッサにより実行された時に各々が文書における位置を有する複数のグリフを含む前記文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記グリフの前記位置に基づいて種々のグリフの集合を種々の単語として識別する命令セットと、
種々の単語の集合を種々の段落として識別する命令セットと、
前記文書において連続していない少なくとも2つの段落にわたるフローを規定する前記段落の読み取り順序を規定する命令セットと、
前記単語、前記段落、及び前記規定した読み順に基づいて、構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項62】
特定のグリフの集合を単語として識別することは、前記グリフを関連付けることを含む請求項61に記載のコンピュータ読み取り可能な記憶媒体。
【請求項63】
特定のグリフの集合を単語として識別することは、前記グリフ間の関連付けを行うことを含む請求項61に記載のコンピュータ読み取り可能な記憶媒体。
【請求項64】
前記連続していない2つの段落は、第1のページの終端の第1の段落及び第2のページの先頭の第2の段落を含み、前記読み順は、前記第1の段落から前記第2の段落への直接の流れを特定する請求項61に記載のコンピュータ読み取り可能な記憶媒体。
【請求項65】
前記連続していない2つの段落は、第1のページの終端の第1の段落及び第2のページの先頭の第2の段落を含み、前記読み順は、前記第1の段落から前記第2の段落への直接の流れを特定する請求項61に記載のコンピュータ読み取り可能な記憶媒体。
【請求項66】
前記第1のページ及び前記第2のページは、前記文書において隣接していない請求項65に記載のコンピュータ読み取り可能な記憶媒体。
【請求項67】
少なくとも1つのプロセッサにより実行された時に各々が複数の特性を有する複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記基本要素の前記特性に基づいて基本要素の集合を構造要素として関連付ける命令セットと、
前記構造要素間の関係を規定する命令セットと、
前記関連付け及び関係に基づいて前記基本要素の全てにわたるフローを指定する命令セットと、
前記基本要素にわたる前記指定したフローを使用して前記文書とのユーザ対話を最適化する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項68】
前記ユーザ対話は選択動作を含む請求項67に記載のコンピュータ読み取り可能な記憶媒体。
【請求項69】
前記ユーザ対話は表示動作を含む請求項67に記載のコンピュータ読み取り可能な記憶媒体。
【請求項70】
前記ユーザ対話はナビゲーション動作を含む請求項67に記載のコンピュータ読み取り可能な記憶媒体。
【請求項71】
少なくとも1つのプロセッサにより実行された時に複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
第1の基本要素の集合を含む第1の領域が前記第1の基本要素の集合の部分集合を含む第2の基本要素の集合を含む第2の領域を含むようにネストされ且つ基本要素の集合を含む領域を識別する命令セットと、
他のいずれの領域にも含まれず且つ少なくとも2つの追加の領域を含む特定の領域を識別する命令セットと、
前記特定の領域を表として識別し且つ前記含まれた領域を前記表のセルとして識別する命令セットと、
各々が関連する基本要素の集合を含む複数のセルであり、複数の行及び列で構成された複数のセルを含む前記表に対する表構造要素を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項72】
前記表構造要素に基づいて構造化文書を規定する命令セットを更に含む請求項71に記載のコンピュータ読み取り可能な記憶媒体。
【請求項73】
前記構造化文書を規定する前記命令セットは、前記非構造化文書の階層モデルを規定する命令セットを含む請求項72に記載のコンピュータ読み取り可能な記憶媒体。
【請求項74】
前記表構造要素の前記セルは前記階層モデルのノードを含む請求項73に記載のコンピュータ読み取り可能な記憶媒体。
【請求項75】
前記表構造要素は前記階層モデルのノードを含む請求項73に記載のコンピュータ読み取り可能な記憶媒体。
【請求項76】
前記特定の領域はより大きな矩形であり、前記追加の領域は前記より大きな矩形内に含まれた複数の矩形である請求項71に記載のコンピュータ読み取り可能な記憶媒体。
【請求項77】
前記文書は複数の図形基本要素を含み、前記領域を識別する前記命令セットは、前記基本要素の集合間の境界線を識別する命令セットを含む請求項71に記載のコンピュータ読み取り可能な記憶媒体。
【請求項78】
前記境界線を識別する前記命令セットは、垂直線又は水平線である図形基本要素並びに垂直線又は水平線を近似する図形基本要素を識別することを含む請求項77に記載のコンピュータ読み取り可能な記憶媒体。
【請求項79】
前記特定の領域及び前記含まれた領域は、表を示す特定の特性の集合を満足する請求項71に記載のコンピュータ読み取り可能な記憶媒体。
【請求項80】
前記特定の領域は、いずれの親領域とのいずれの境界も共有しない請求項71に記載のコンピュータ読み取り可能な記憶媒体。
【請求項81】
前記特定の領域は前記表の外側境界である請求項71に記載のコンピュータ読み取り可能な記憶媒体。
【請求項82】
前記基本要素はグリフを含み、前記複数の識別した領域は、前記セルを形成する関連するグリフの集合の位置に基づいて推論される請求項71に記載のコンピュータ読み取り可能な記憶媒体。
【請求項83】
前記コンピュータプログラムはグリフの集合を段落として関連付ける命令セットを更に含み、前記境界線は前記段落の位置に基づいて推論される請求項82に記載のコンピュータ読み取り可能な記憶媒体。
【請求項84】
グリフの集合間の境界線を識別する前記命令セットは、垂直又は水平に位置揃えされる少なくとも2つのグリフの集合を識別する命令セットを含む請求項82に記載のコンピュータ読み取り可能な記憶媒体。
【請求項85】
連続する矩形を形成する識別された境界線の集合を識別する命令セットを含む請求項77に記載のコンピュータ読み取り可能な記憶媒体。
【請求項86】
前記連続する矩形は前記表構造要素の前記セルである請求項85に記載のコンピュータ読み取り可能な記憶媒体。
【請求項87】
(i)複数の基本要素を含む文書を分析し、(ii)前記分析に基づいて前記文書の構造を規定する構造要素を生成するプログラムを規定する方法であって、
第1の基本要素の集合を含む第1の領域が前記第1の基本要素の集合の部分集合を含む第2の基本要素の集合を含む第2の領域を含むようにネストされ且つ基本要素の集合を含む領域を識別するモジュールを規定することと、
他のいずれの領域にも含まれず且つ少なくとも2つの追加の領域を含む特定の領域を識別するモジュールを規定することと、
前記第1の領域を表として識別し且つ前記含まれた領域を前記表のセルとして識別することと、
各々が関連する基本要素の集合を含む複数のセルであり、複数の行及び列で構成された複数のセルを含む前記表に基づく表構造要素を規定するモジュールを規定することとを含む方法。
【請求項88】
少なくとも1つのプロセッサにより実行された時に複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
表を含む第1の基本要素の集合を識別する命令セットと、
前記第1の基本要素の集合に対する表構造要素を規定する命令セットと、
表を含まない第2の基本要素の集合を識別する命令セットと、
前記第2の基本要素の集合に対する表でない構造要素の集合を規定する命令セットと、
前記表構造要素及び前記表でない構造要素の集合を含む構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項89】
構造化文書を規定する前記命令セットは、前記構造要素の読み取り順序を規定する命令セットを含み、前記読み取り順序は、前記構造要素の集合の第1の構造要素から前記表構造要素へ、更に前記構造要素の集合の第2の構造要素へ進む請求項88に記載のコンピュータ読み取り可能な記憶媒体。
【請求項90】
前記コンピュータプログラムは、
各々が異なる表を含む種々の基本要素の集合を識別する命令セットと、
前記種々の集合毎に種々の表構造要素を規定する命令セットとを更に含む請求項88に記載のコンピュータ読み取り可能な記憶媒体。
【請求項91】
前記種々の集合の第1の集合は図形基本要素及びグリフの双方を含み、前記種々の集合の第2の集合はグリフのみを含む請求項90に記載のコンピュータ読み取り可能な記憶媒体。
【請求項92】
少なくとも1つのプロセッサにより実行された時に文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
各々が前記文書における単一のオブジェクトとして規定される前記複数の基本図形要素を含む前記文書であり、前記文書が表示された時に複数の基本図形要素が描かれる順序を示す描画順序を有する前記文書を受信する命令セットと、
前記描画順序が連続する基本図形要素間の位置関係を識別する命令セットと、
前記位置関係に基づいて前記基本図形要素のうちの少なくとも2つから単一の構造図形要素を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項93】
前記文書は複数のグリフを更に含み、前記描画順序は前記グリフが前記ページに描かれる順序を示さない請求項92に記載のコンピュータ読み取り可能な記憶媒体。
【請求項94】
前記文書はベクトル図形文書であり、前記基本図形要素はベクトル図形である請求項92に記載のコンピュータ読み取り可能な記憶媒体。
【請求項95】
連続する基本図形要素間の位置関係を識別する前記命令セットは、第1の基本図形要素及び前記読み取り順序で前記第1の基本図形要素に続く第2の基本図形要素に対して前記第1の基本図形要素及び前記第2の基本図形要素を含む構造図形要素のサイズを計算する命令セットを含む請求項92に記載のコンピュータ読み取り可能な記憶媒体。
【請求項96】
前記サイズは、前記第1の基本図形要素及び前記第2の基本図形要素を囲む直立バウンディングボックスの領域に比例する請求項95に記載のコンピュータ読み取り可能な記憶媒体。
【請求項97】
前記サイズは、前記第1の基本図形要素及び前記第2の基本図形要素を囲む直立バウンディングボックスの長さ及び高さの合計に比例する請求項95に記載のコンピュータ読み取り可能な記憶媒体。
【請求項98】
連続する基本図形要素間の位置関係を識別する前記命令セットは、
前記第2の基本図形要素及び前記読み取り順序で前記第2の基本図形要素に続く第3の基本図形要素に対して前記第2の基本図形要素及び前記第3の基本図形要素を含む構造図形要素のサイズを計算する命令セットと、
前記第1の基本図形要素及び前記第2の基本図形要素を含む前記構造図形要素の前記サイズと前記第2の図形要素及び前記第3の図形要素を含む前記構造図形要素の前記サイズとを比較する命令セットとを更に含む請求項95に記載のコンピュータ読み取り可能な記憶媒体。
【請求項99】
連続する基本図形要素間の位置関係を識別する前記命令セットは、
前記描画順序が連続する基本図形要素の各対を識別する命令セットと、
基本図形要素の識別された対毎に前記対に対する広がり値を計算する命令セットとを含む請求項92に記載のコンピュータ読み取り可能な記憶媒体。
【請求項100】
一対の広がり値は、前記対の前記2つの基本図形要素のサイズ及び近接度を記述する請求項99に記載のコンピュータ読み取り可能な記憶媒体。
【請求項101】
基本図形要素の対から単一の構造図形要素を規定する前記命令セットは、
クラスタ内で互いに近接する基本図形要素の全てが前記描画順序で連続するような前記基本図形要素のクラスタを前記計算した広がり値に基づいて識別する命令セットと、
特定の制約の集合を満足する前記クラスタの連続する基本図形要素のサブグループを識別する命令セットと、
サブグループ毎に、前記サブグループの前記基本図形要素の全てを含む構造図形要素を規定する命令セットとを含む請求項99に記載のコンピュータ読み取り可能な記憶媒体。
【請求項102】
前記基本図形要素のクラスタを識別する前記命令セットは、1次差分である前記計算した広がり値を有する前記基本図形要素に対して差分クラスタリングを実行する命令セットを含む請求項101に記載のコンピュータ読み取り可能な記憶媒体。
【請求項103】
前記特定の制約の集合は、前記サブグループの特定の基本要素毎の範囲が前記描画順序で前記特定の基本要素の前の前記サブグループの全ての基本要素に対する共同の範囲と交差するという要件を含む請求項101に記載のコンピュータ読み取り可能な記憶媒体。
【請求項104】
基本要素毎の前記範囲は、前記基本要素を含む最小の直立バウンディングボックスである請求項103に記載のコンピュータ読み取り可能な記憶媒体。
【請求項105】
基本要素毎の前記範囲は、前記基本要素を完全に囲む最小領域のパスである請求項103に記載のコンピュータ読み取り可能な記憶媒体。
【請求項106】
前記複数の基本図形要素から前記単一の構造図形要素を規定する前記命令セットは、前記構造図形要素を規定するために使用される前記基本図形要素の集合の間で少なくとも1つの関連付けを行う命令セットを含む請求項92に記載のコンピュータ読み取り可能な記憶媒体。
【請求項107】
前記コンピュータプログラムは、前記構造図形要素に基づいて構造化文書を規定する命令セットを更に含む請求項92に記載のコンピュータ読み取り可能な記憶媒体。
【請求項108】
前記構造化文書は、複数のノードを含む前記文書の階層モデルを含み、前記ノードの1つには前記構造図形要素が読み込まれる請求項107に記載のコンピュータ読み取り可能な記憶媒体。
【請求項109】
文書を分析し且つ前記分析に基づいて前記文書の構造を規定する構造要素を生成するプログラムを規定する方法であって、
各々が前記文書の単一のオブジェクトとして規定される複数の基本図形要素を含む前記文書であり、前記文書が表示される時に前記基本図形要素が描かれる順序を示す描画順序を有する文書を受信するモジュールを規定することと、
前記描画順序が連続する基本図形要素間の位置関係を識別するモジュールを規定することと、
前記位置関係に基づいて前記基本図形要素のうちの少なくとも2つから単一の構造図形要素を規定するモジュールを規定することとを含む方法。
【請求項110】
前記構造図形要素を含む構造化文書を規定するモジュールを規定することを更に含む請求項109に記載の方法。
【請求項111】
前記構造化文書は、複数のノードを含む前記文書の階層モデルを含み、前記ノードの1つには前記構造図形要素が読み込まれる請求項110に記載の方法。
【請求項112】
少なくとも1つのプロセッサにより実行された時に文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
各々が前記文書の単一のオブジェクトとして規定される複数の基本図形要素を含む前記文書であり、前記文書が表示される時に前記基本図形要素が描かれる順序を示す描画順序を有する文書を受信する命令セットと、
前記描画順序が連続する基本図形要素の対毎に前記対の前記基本図形要素のサイズに関連する値を計算する命令セットと、
前記計算した値に基づいて連続する基本図形要素のクラスタを規定する命令セットと、
特定の制約を満足する前記クラスタの基本図形要素のサブクラスタの集合を識別する命令セットと、
特定の各サブクラスタを前記特定のサブクラスタの前記基本図形要素を含む単一の構造図形要素として規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項113】
前記計算した値は、前記対の前記基本図形要素の互いに対する近接度に更に関連する請求項112に記載のコンピュータ読み取り可能な記憶媒体。
【請求項114】
文書を再構成するプログラムを規定する方法であって、
複数の基本要素を含む文書から構造化文書を規定する文書再構成動作のデフォルト集合を規定することと、
中間文書再構成結果がプロファイルに対する潜在的な文書再構成結果と一致する時に各々が(i)潜在的な文書再構成結果の集合及び(ii)前記文書再構成動作を変更する命令を含むプロファイルの階層集合であり、前記階層の下位レベルのプロファイルからの命令が上位レベルのプロファイルからの命令を無効にするプロファイルの階層集合を規定することと、
中間文書再構成結果をプロファイルとマッチングするモジュールを規定することとを含む方法。
【請求項115】
前記構造化文書は前記文書の階層モデルを含む請求項114に記載の方法。
【請求項116】
前記プロファイルの階層集合は、文書、小領域、ページ及びゾーンのうち少なくとも2つに対するプロファイルを含む請求項114に記載の方法。
【請求項117】
各文書プロファイルは可能なページプロファイルの特定の集合を指定し、各ページプロファイルは可能なゾーンプロファイルの特定の集合を指定する請求項116に記載の方法。
【請求項118】
第1の文書プロファイルに対する前記ページプロファイルの集合は特定のページプロファイルを含み、第2の文書プロファイルに対する前記ページプロファイルの集合は前記特定のページプロファイルを含む請求項117に記載の方法。
【請求項119】
特定のプロファイルの前記命令は、前記中間文書再構成結果が前記特定のプロファイルに対する前記潜在的な文書再構成結果と一致する時にテストされるべきである前記プロファイルの階層集合の下位レベルのプロファイルの部分集合を含む請求項114に記載の方法。
【請求項120】
特定のプロファイルの前記命令は、特定の文書再構成動作を実行しない命令を含む請求項114に記載の方法。
【請求項121】
前記特定のプロファイルはページに対するプロファイルであり、前記特定のプロファイルに対する前記潜在的な文書再構成結果の集合は、前記ページが1つのテキストカラムのみを有するという結果を含み、前記特定のプロファイルに対する前記命令はテキスト行を分割する動作を実行しない命令を含む請求項120に記載の方法。
【請求項122】
特定のプロファイルの前記命令は、特定の文書再構成動作を実行する方法に関する命令を含む請求項114に記載の方法。
【請求項123】
特定のプロファイルの前記命令は、結果が前記中間再構成結果から除去される特定の再構成処理を指定する命令を含む請求項114に記載の方法。
【請求項124】
少なくとも1つのプロセッサにより実行するためのコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
複数の基本要素を含む文書を受信する命令セットと、
構造化文書を規定するために前記文書を再構成する文書再構成動作のデフォルト集合を識別する命令セットと、
前記デフォルト集合の前記文書再構成動作の1つ以上を実行する命令セットと、
前記実行した文書再構成動作の結果に基づいて前記文書に対するプロファイルを識別する命令セットと、
前記識別したプロファイルに従って前記文書を再構成する前記文書再構成動作の集合を変更する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項125】
前記コンピュータプログラムは、前記集合を変更した後の前記変更済みの集合の前記文書再構成動作のうちの少なくとも1つを実行する命令セットを更に含む請求項124に記載のコンピュータ読み取り可能な記憶媒体。
【請求項126】
前記文書再構成動作の集合を変更する前記命令セットは、実行される前記再構成動作の集合から特定の再構成動作を除去する命令セットを含む請求項124に記載のコンピュータ読み取り可能な記憶媒体。
【請求項127】
前記文書再構成動作の集合を変更する前記命令セットは、実行される前記再構成動作の集合に特定の再構成動作を追加する命令セットを含む請求項124に記載のコンピュータ読み取り可能な記憶媒体。
【請求項128】
前記再構成動作のデフォルト集合は、前記再構成動作が実行される順序を指定する請求項124に記載のコンピュータ読み取り可能な記憶媒体。
【請求項129】
前記文書再構成動作の集合を変更する前記命令セットは、前記再構成動作が実行される前記順序を変更する命令セットを含む請求項128に記載のコンピュータ読み取り可能な記憶媒体。
【請求項130】
前記プロファイルは、前記実行された文書再構成動作の結果に基づいて前記文書に対する文書の種類を識別する文書プロファイルである請求項124に記載のコンピュータ読み取り可能な記憶媒体。
【請求項131】
前記コンピュータプログラムは、
前記集合を変更した後に前記変更済みの集合の前記文書再構成動作のうちの少なくとも1つを実行する命令セットと、
前記実行した文書再構成動作の結果に基づいて前記文書の特定の小領域に対する小領域プロファイルを識別する命令セットと、
前記識別した小領域プロファイルに従って前記文書の前記特定の小領域を再構成する前記文書再構成動作の集合を変更する命令セットとを更に含む請求項130に記載のコンピュータ読み取り可能な記憶媒体。
【請求項132】
前記特定の小領域は特定のページである請求項131に記載のコンピュータ読み取り可能な記憶媒体。
【請求項133】
前記小領域プロファイルの命令は、前記特定の小領域を再構成するための前記文書プロファイルの矛盾する命令を無効にする請求項131に記載のコンピュータ読み取り可能な記憶媒体。
【請求項134】
前記小領域プロファイルの命令と矛盾しない前記文書プロファイルの命令は、前記小領域プロファイルの識別の後も依然として動作している請求項131に記載のコンピュータ読み取り可能な記憶媒体。
【請求項135】
少なくとも1つのプロセッサにより実行された時に文書を表示するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
非構造化文書を分析することにより構築された構造要素の階層を含む構造化文書を規定する命令セットと、
前記文書をデバイスに表示する命令セットと、
前記文書中の関心位置の選択を受信する命令セットと、
前記関心位置に基づいて前記階層内の構造要素を関心領域として識別する命令セットと、
前記識別した関心領域を強調表示するように前記文書の前記表示を変更する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項136】
前記デバイスは小型スクリーンデバイスである請求項135に記載のコンピュータ読み取り可能な記憶媒体。
【請求項137】
前記デバイスはハンドヘルドデバイスである請求項136に記載のコンピュータ読み取り可能な記憶媒体。
【請求項138】
前記非構造化文書は関連付けられていない複数の基本要素を含み、前記構造化文書を規定する前記命令セットは、
構造要素を規定するために前記基本要素間の関連付けを行う命令セットと、
前記構造要素の階層を規定する命令セットとを含む請求項136に記載のコンピュータ読み取り可能な記憶媒体。
【請求項139】
前記構造要素を識別する前記命令セットは、
前記関心位置を含む前記階層の最下位レベルの前記構造要素を識別する命令セットと、
関心領域として適格である構造要素に到達するまで前記階層の前記最下位レベルで識別された前記構造要素を含む前記階層の上位レベルの構造要素を識別する命令セットとを含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。
【請求項140】
前記階層の前記最下位レベルの前記構造要素は単語として関連付けられたグリフの集合であり、関心領域として適格である前記構造要素は前記単語を含む段落である請求項139に記載のコンピュータ読み取り可能な記憶媒体。
【請求項141】
前記関心位置は図形要素内にあり、前記関心領域は前記図形要素である請求項139に記載のコンピュータ読み取り可能な記憶媒体。
【請求項142】
関心位置の選択を受信する前記命令セットは、タッチスクリーンデバイスの特定の位置においてダブルタップを受信する命令セットを含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。
【請求項143】
前記文書の前記表示を変更する前記命令セットは、前記関心領域を中央に置くために前記文書のズーム、回転及び平行移動の組み合わせに対する命令セットを含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。
【請求項144】
前記文書の前記表示を変更する前記命令セットは、
前記関心領域である前記構造要素に基づいて関心矩形を規定する命令セットと、
前記関心矩形全体を表示しつつ、前記関心矩形のサイズを最大にするように前記表示をズームする命令セットとを含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。
【請求項145】
前記関心矩形は、第1の方向の前記矩形の長さが第1の方向の前記デバイスにおける表示の長さと等しくなるようにズームされ、前記文書の前記表示を変更する前記命令セットは、第2の方向において前記表示の前記関心矩形を中央に置く命令セットを更に含む請求項144に記載のコンピュータ読み取り可能な記憶媒体。
【請求項146】
前記第1の方向は水平であり、前記第2の方向は垂直である請求項145に記載のコンピュータ読み取り可能な記憶媒体。
【請求項147】
前記第1の方向は垂直であり、前記第2の方向は水平である請求項145に記載のコンピュータ読み取り可能な記憶媒体。
【請求項148】
前記コンピュータプログラムは、
前記関心領域から移動するための入力を受信する命令セットと、
構造的に関連する関心領域を強調表示するように前記文書の前記表示を変更する命令セットとを更に含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。
【請求項149】
前記構造的に関連する関心領域は、読み取り順序が前記識別した構造要素の前である構造要素である請求項148に記載のコンピュータ読み取り可能な記憶媒体。
【請求項150】
前記構造的に関連する関心領域は、読み取り順序が前記識別した構造要素の後である構造要素である請求項148に記載のコンピュータ読み取り可能な記憶媒体。
【請求項151】
前記構造的に関連する関心領域は、前記文書において初期の関心領域とは異なるページ上の構造要素であり、前記構造化文書は、前記関心領域と前記構造的に関連する関心領域との間のリンクを含む請求項148に記載のコンピュータ読み取り可能な記憶媒体。
【請求項152】
少なくとも1つのプロセッサにより実行するためのハンドヘルド表示装置に対するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
基本要素の集合を関連付けることにより規定された構造要素の階層を含む構造化文書を規定するために関連付けられていない複数の基本要素を含む非構造化文書を分析する命令セットと、
前記表示装置が第1の向きを向いている場合に第1のレイアウトで前記構造化文書の特定の一部を前記ハンドヘルド表示装置に表示する命令セットと、
前記表示装置が第2の向きを向いている場合に前記第1のレイアウトとは異なる第2のレイアウトで前記構造化文書の前記特定の一部を前記ハンドヘルド表示装置に表示する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項153】
前記第1の向きは水平の向きであり、前記第2の向きは垂直の向きである請求項152に記載のコンピュータ読み取り可能な記憶媒体。
【請求項154】
前記構造化文書の前記一部は1カラムで配置されたテキストを含み、前記第1のレイアウトは前記テキストを3カラムで表示し且つ前記第2のレイアウトは前記テキストを2カラムで表示する請求項153に記載のコンピュータ読み取り可能な記憶媒体。
【請求項155】
前記ハンドヘルド表示装置は、前記表示装置の前記向きを判定する加速度計を含む請求項152に記載のコンピュータ読み取り可能な記憶媒体。
【請求項156】
前記ハンドヘルド表示装置はiPhone(登録商標)である請求項152に記載のコンピュータ読み取り可能な記憶媒体。
【請求項157】
文書を表示するプログラムを規定する方法であって、
非構造化文書を分析することにより構築された構造要素の階層を含む構造化文書を規定するモジュールを規定することと、
前記文書をデバイスに表示するモジュールを規定することと、
前記文書中の関心位置の選択を受信するモジュールを規定することと、
前記関心位置に基づいて前記階層内の構造要素を関心領域として識別するモジュールを規定することと、
前記識別した関心領域を強調表示するように前記文書の前記表示を変更するモジュールを規定することとを含む方法。
【請求項158】
前記プログラムはハンドヘルドデバイスのファームウェアに対して規定される請求項157に記載の方法。
【請求項159】
少なくとも1つのプロセッサにより実行された時に文書中のテキストの選択を規定するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
関連付けられていない複数のグリフを含む非構造化文書を受信する命令セットと、
グリフの集合を関連付ける命令セットと、
前記グリフの読み取りフローを指定する読み取り順序を識別する命令セットと、
前記文書を表示する命令セットと、
前記表示された文書内のテキストの選択に対する開始点及び終了点を受信する命令セットと、
前記識別したグリフの集合及び意図した読み取りフローを使用して前記開始点から前記終了点までのテキストの選択を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項160】
前記関連付けられたグリフの集合は複数の段落を含み、前記読み取り順序は連続しない第1の段落から第2の段落までの読み取りフローを指定する請求項159に記載のコンピュータ読み取り可能な記憶媒体。
【請求項161】
前記関連付けられたグリフの集合は複数のカラムを含み、前記開始点及び前記終了点は異なるカラムにある請求項159に記載のコンピュータ読み取り可能な記憶媒体。
【請求項162】
前記読み取り順序はカラム毎に順序値を指定し、前記テキストの選択は前記開始点を含む前記カラムの前記順序値と前記終了点を含む前記カラムの前記順序値との間の順序値を有する全てのカラムを含む請求項161に記載のコンピュータ読み取り可能な記憶媒体。
【請求項163】
前記コンピュータプログラムは、
前記開始点が前記読み取り順序で前記終了点の後であるかを判定する命令セットと、
前記開始点が前記終了点の後である場合に前記開始点が前記読み取り順序で前記終了点の前になるように前記選択に対する前記開始点及び前記終了点を交換する命令セットとを更に含む請求項159に記載のコンピュータ読み取り可能な記憶媒体。
【請求項164】
前記テキスト選択に対する前記開始点及び前記終了点は、カーソルコントローラによりクリック及びドラッグ選択により受信される請求項159に記載のコンピュータ読み取り可能な記憶媒体。
【請求項165】
前記開始点は、カーソルコントローラボタンが押下された時のカーソルの場所であり、前記終了点は、前記カーソルが前記開始点から移動された後の前記カーソルの場所である請求項159に記載のコンピュータ読み取り可能な記憶媒体。
【請求項166】
前記テキスト選択に対する前記開始点及び前記終了点は、タッチスクリーンジェスチャにより受信される請求項159に記載のコンピュータ読み取り可能な記憶媒体。
【請求項167】
前記開始点は、ユーザがオブジェクトにより前記タッチスクリーンに最初に触れた場所であり、前記終了点は、前記ユーザが前記オブジェクトをドラッグした先の場所である請求項166に記載のコンピュータ読み取り可能な記憶媒体。
【請求項168】
前記オブジェクトは前記ユーザの指である請求項167に記載のコンピュータ読み取り可能な記憶媒体。
【請求項169】
関連付けられたグリフの集合及び読み取り順序を識別する前記命令セットは前記非構造化文書から構造化文書を規定する命令セットを含み、前記関連付けられたグリフの集合は前記構造化文書の構造要素である請求項159に記載のコンピュータ読み取り可能な記憶媒体。
【請求項170】
前記構造化文書は、各々が1つ以上の関連付けられたグリフの集合を含む複数のレイアウトを含む請求項169に記載のコンピュータ読み取り可能な記憶媒体。
【請求項171】
前記コンピュータプログラムは、
前記開始点及び前記終了点が同一レイアウト内にあるかを判定する命令セットと、
前記開始点及び前記終了点が同一レイアウトにない場合に開始点と同一のレイアウトにある新しい終了点を規定する命令セットを更に含む請求項170に記載のコンピュータ読み取り可能な記憶媒体。
【請求項172】
新しい終了点を規定する命令セットは、
前記開始点から前記終了点までの直線を識別することと、
前記線が前記開始点の前記レイアウトを離れる点を前記新しい終了点として規定することとを含む請求項171に記載のコンピュータ読み取り可能な記憶媒体。
【請求項173】
テキストの選択を規定する前記命令セットは、
前記開始点及び前記終了点が同一のレイアウトにあるかを判定する命令セットと、
前記開始点及び前記終了点が異なるレイアウトにある場合に前記レイアウトの前記開始点の後の前記開始点の前記レイアウト中の全てのテキストを含むように前記選択を規定する命令セットとを含む請求項170に記載のコンピュータ読み取り可能な記憶媒体。
【請求項174】
テキストの選択を規定する前記命令セットは、前記開始点の前記レイアウトと前記終了点の前記レイアウトとの間のあらゆるレイアウトの全てのテキストを含むように前記選択を規定する命令セットを更に含む請求項173に記載のコンピュータ読み取り可能な記憶媒体。
【請求項175】
前記テキストの選択は第2の文書にコピー及び貼り付けするためのものであり、前記テキストは前記読み取り順序を維持して前記第2の文書に貼り付けられる請求項159に記載のコンピュータ読み取り可能な記憶媒体。
【請求項176】
少なくとも1つのプロセッサにより実行するためのコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
複数の構造要素及び前記構造要素の読み取り順序を含む構造化文書を複数の基本要素を含む非構造化文書の階層モデルとして規定するために前記非構造化文書を分析する命令セットと、
前記文書を表示する命令セットと、
前記文書中のテキストの選択に対する開始点及び終了点を受信する命令セットと、
前記構造要素及び前記構造要素の読み取り順序を使用して前記開始点から前記終了点までの文書中のテキストを選択する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項177】
前記文書は、ハンドヘルド表示装置に表示される請求項176に記載のコンピュータ読み取り可能な記憶媒体。
【請求項178】
前記開始点は1つの記事内のテキストカラムにあり、前記終了点は前記記事に対するコールアウト内にある請求項176に記載のコンピュータ読み取り可能な記憶媒体。
【請求項179】
前記コンピュータプログラムは、前記終了点を前記記事のテキストカラムに移動する命令セットを更に含む請求項178に記載のコンピュータ読み取り可能な記憶媒体。
【請求項180】
テキストを選択する前記命令セットは、前記記事の前記カラムの全てのテキストを選択する命令セットを含む請求項178に記載のコンピュータ読み取り可能な記憶媒体。
【請求項181】
文書中のテキストの選択を規定するプログラムを規定する方法であって、
関連付けられていない複数のグリフを含む非構造化文書を受信するモジュールを規定することと、
グリフの集合を関連付けるモジュールを規定することと、
前記グリフの読み取りフローを指定する読み取り順序を識別するモジュールを規定することと、
前記文書を表示するモジュールを規定することと、
前記表示された文書内のテキストの選択に対する開始点及び終了点を受信するモジュールを規定することと、
前記識別したグリフの集合及び意図した読み取りフローを使用して前記開始点から前記終了点までのテキストの選択を規定するモジュールを規定することとを含む方法。
【請求項182】
少なくとも1つのプロセッサにより実行された時に文書における位置に関して規定される複数の基本要素を含む前記文書に対する構造を規定するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
特定の基本要素の集合に対して最近接する基本要素の対の間の距離を識別する命令セットと、
前記識別した距離をソートする命令セットと、
区分に対する所定の閾値より大きい前記識別した距離を識別する単一の値を格納する命令セットと、
前記文書に対する構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項183】
前記区分に対する前記所定の閾値は、一対の基本要素の間の最短距離を識別する請求項182に記載のコンピュータ読み取り可能な記憶媒体。
【請求項184】
前記最短距離より近い基本要素の対は同一の基本要素のクラスタにある請求項183に記載のコンピュータ読み取り可能な記憶媒体。
【請求項185】
少なくとも1つのプロセッサにより実行された時に文書における位置に関して規定される複数の基本要素を含む前記文書に対する構造を規定するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
特定の基本要素の集合に対して前記集合の最近接する基本要素の対毎のグループ化を識別する命令セットと、
最近接する対から最も離れた対までの順序に基づいて前記基本要素の対毎のグループ化をソートする命令セットと、
区分を形成するのに十分に離間している前記基本要素の対毎のグループ化を識別する単一の値を格納する命令セットと、
前記文書に対する構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項186】
前記コンピュータ読み取り可能な記憶媒体はハンドヘルドデバイスのファームウェアである請求項185に記載のコンピュータ読み取り可能な記憶媒体。
【請求項187】
前記デバイスは携帯電話である請求項186に記載のコンピュータ読み取り可能な記憶媒体。
【請求項188】
前記デバイスはメディアプレーヤである請求項186に記載のコンピュータ読み取り可能な記憶媒体。
【請求項189】
前記コンピュータプログラムは、前記構造要素及び前記基本要素を含む構造化文書を規定する命令セットを更に含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
【請求項190】
前記文書は複数のグリフを含み、
前記コンピュータプログラムは、グリフの集合を単語として関連付ける命令セットを更に含み、
前記特定の基本要素の集合は単語の最も左側のグリフであり、
構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する前記命令セットは、位置揃えされた単語の集合に対する左揃えガイドを規定する命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
【請求項191】
前記文書は複数のグリフを含み、
前記コンピュータプログラムは、グリフの集合を単語として関連付ける命令セットを更に含み、
前記特定の基本要素の集合は単語の最も右側のグリフであり、
構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する前記命令セットは、位置揃えされた単語の集合に対する右揃えガイドを規定する命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
【請求項192】
前記特定の基本要素の集合は基本図形要素であり、構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する前記命令セットは、近傍の基本図形要素を構造図形要素として関連付ける命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
【請求項193】
前記基本要素はグリフであり、構造要素を規定する前記命令セットは、近傍のグリフの集合を単語として関連付ける命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
【請求項194】
最近接する基本要素の対毎のグループ化を識別する前記命令セットは、
共通の並び線を含むグリフの集合を識別する命令セットと、
前記グリフの座標に基づいて前記グリフの集合を第1の方向にソートする命令セットと、
前記ソートした集合の連続するグリフの対毎に前記対の前記グリフの間の座標値の差分を計算する命令セットと、
前記計算した差分を第1の配列に格納する命令セットとを含む請求項193に記載のコンピュータ読み取り可能な記憶媒体。
【請求項195】
最近接する対から最も離れた対までの順序に基づいて前記対毎の基本要素をソートする前記命令セットは、
前記計算した差分値をソートする命令セットと、
前記ソートした差分に対応する前記第1の配列の指標を第2の配列に格納する命令セットとを含む請求項194に記載のコンピュータ読み取り可能な記憶媒体。
【請求項196】
最小の差分値を格納する前記第1の配列の指標は、前記第2の配列の第1の指標の値として格納される請求項195に記載のコンピュータ読み取り可能な記憶媒体。
【請求項197】
前記コンピュータプログラムは、グリフ間の最小差分を判定する命令セットを更に含み、前記格納した単一の値は、前記最小差分を格納する前記第1の配列の前記指標が格納される前記第2の配列の指標である請求項195に記載のコンピュータ読み取り可能な記憶媒体。
【請求項198】
前記最小差分は単語間の空隙を表す請求項197に記載のコンピュータ読み取り可能な記憶媒体。
【請求項199】
前記区分を識別及び分析するのに前記格納した値を使用する命令セットは、前記単一の値として格納された前記指標以降の前記第2の配列の全ての指標において前記第2の配列の値として格納される第3の配列の指標において前記ソートしたx座標値を格納する前記第3の配列を分割する命令セットを含む請求項197に記載のコンピュータ読み取り可能な記憶媒体。
【請求項200】
前記単一の値を格納する前記命令セットは、各々が前記基本要素に対する種々の区分を識別する複数の単一の値を格納する命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
【請求項201】
前記コンピュータプログラムは、最適な距離尺度を表す理想的な最適な区分を識別するために前記基本要素に対する前記種々の区分を分析することを更に含む請求項200に記載のコンピュータ読み取り可能な記憶媒体。
【請求項202】
文書に対する構造を規定するプログラムを規定する方法であって、
文書における位置に関して規定される複数の基本要素を含む前記文書において最近接する基本要素の対毎のグループ化を識別するモジュールを規定することと、
最近接する対から最も離れた対までの順序に基づいて前記基本要素の対毎のグループ化をソートするモジュールを規定することと、
区分を形成するのに十分に離間している前記対毎にグループ化された基本要素を識別する単一の値を格納するモジュールを規定することと、
前記文書に対する構造要素を規定するために前記区分を識別及び分析するのに前記格納した値を使用するモジュールを規定することとを含む方法。
【請求項203】
前記構造要素及び前記基本要素に基づいて構造化文書を規定するモジュールを規定することを更に含む請求項202に記載の方法。
【請求項204】
前記構造化文書は、前記構造要素がノードである階層構造である請求項203に記載の方法。
【請求項205】
複数の基本要素を含む文書を分析及び操作する複数の異なる処理を規定することと、
前記基本要素と関連付けられたデータに対する記憶装置を規定することとから成り、前記データの少なくとも一部は前記処理とは別個のメモリ空間に格納され且つ少なくとも2つの異なる処理により共有され、前記処理は前記データに対する参照を使用して前記データにアクセスし、前記データは前記処理により複製されない方法。
【請求項206】
前記基本要素と関連付けられたデータに対する前記記憶装置は第1の記憶装置であり、前記方法は、(i)前記基本要素を識別するために前記文書を構文解析し、(ii)前記基本要素を第2の記憶装置に格納するパーサを更に含む請求項205に記載の方法。
【請求項207】
前記基本要素と関連付けられた前記データは、前記第2の記憶装置の前記基本要素に対する参照を含む請求項206に記載の方法。
【請求項208】
前記パーサは、(i)前記基本要素をランダムな順序で識別するために前記文書を構文解析し、(ii)前記基本要素を前記ランダムな順序で前記第2の記憶装置に格納するためのものである請求項206に記載の方法。
【請求項209】
前記ランダムな順序は、前記基本要素が前記文書のビットストリーム表現で規定される順序である請求項206に記載の方法。
【請求項210】
(i)特定の計測値に従って前記基本要素をソートし、(ii)前記基本要素と関連付けられた前記データをソート済み順序で前記第1の記憶装置に格納するモジュールを規定することを更に含む請求項206に記載の方法。
【請求項211】
前記基本要素は前記文書における場所に関する情報を含み、前記特定の計測値は前記基本要素の前記場所に基づく請求項210に記載の方法。
【請求項212】
前記文書の特定のページ内で、前記特定の計測値は、第1計測値として上から下に前記基本要素をソートし、第2計測値として左か右に前記基本要素をソートする請求項210に記載の方法。
【請求項213】
前記基本要素は複数のグリフを含む請求項205に記載の方法。
【請求項214】
前記複数の異なる処理は、
グリフの集合をテキスト行として関連付ける処理と、
グリフの集合を単語として関連付ける処理とを含む請求項213に記載の方法。
【請求項215】
グリフの集合をテキスト行として関連付ける前記処理は、前記基本要素と関連付けられた前記データを参照する第1のストリングとして特定のテキスト行を格納し、
グリフの集合を単語として関連付ける前記処理は、前記基本要素と関連付けられた同一データを参照する第2のストリングとして特定の単語を格納する請求項214に記載の方法。
【請求項216】
前記同一のデータは、複製されずに双方の処理により使用される請求項215に記載の方法。
【請求項217】
前記第1のストリング及び前記第2のストリングの各々は、2つの値だけを格納することにより前記データを参照する請求項215に記載の方法。
【請求項218】
前記2つの値は、第1のデータに対する参照及び前記ストリング中のデータ数のカウントである請求項217に記載の方法。
【請求項219】
前記第1のストリング及び前記第2のストリングは、同一の第1のデータを参照し、異なるカウントを格納する請求項217に記載の方法。
【請求項220】
前記基本要素と関連付けられたデータに対する前記記憶装置を管理するための共有メモリデータ構造を規定することを更に含む請求項205に記載の方法。
【請求項221】
前記共有メモリデータ構造は、前記基本要素と関連付けられた前記データが格納される前記別個のメモリ空間における場所を格納するためのものである請求項220に記載の方法。
【請求項222】
前記共有メモリデータ構造は、少なくとも2つの他のデータ構造が前記基本要素と関連付けられた前記データを参照する場合に使用するためのものである請求項220に記載の方法。
【請求項223】
前記少なくとも2つの他のデータ構造は、前記基本要素と関連付けられた前記データの所有権を共有する請求項222に記載の方法。
【請求項224】
前記共有メモリデータ構造は、前記基本要素と関連付けられた前記データを参照する他のデータ構造の数を格納するためのものである請求項220に記載の方法。
【請求項225】
少なくとも1つのプロセッサにより実行するためのコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
複数の基本要素を含む文書を構文解析する命令セットと、
ランダムな順序で前記基本要素を第1の記憶装置に格納する命令セットと、
前記文書における前記基本要素の場所に基づく順序で前記基本要素に対する参照を第2の記憶装置に格納する命令セットと、
文書再構成動作を実行するための命令を受信する命令セットと、
前記基本要素に対するいずれの新しい参照も格納せずに前記受信した命令を実行する命令セットとを含むコンピュータ読み取り可能な記憶媒体。
【請求項226】
前記コンピュータプログラムは、
第2の文書再構成動作を実行するための第2の命令セットを受信する命令セットと、
前記第2の文書再構成動作を実行することが前記基本要素に対する新しい参照を必要とすることを判定する命令セットと、
前記第2の記憶装置とは異なる順序で前記基本要素に対する新しい参照を第3の記憶装置に格納する命令セットとを更に含む請求項225に記載のコンピュータ読み取り可能な記憶媒体。
【請求項227】
前記第2の記憶装置及び前記第3の記憶装置は、同一の物理的記憶装置にある請求項226に記載のコンピュータ読み取り可能な記憶媒体。
【請求項228】
(i)複数の基本要素を含む文書を構文解析し、(ii)ランダムな順序で前記基本要素を第1の記憶装置に格納する第1のモジュールを規定することと、
(i)前記ランダムに順序付けされた基本要素に対する参照を格納する第2の記憶装置にメモリを割り当て、(ii)特定の順序で前記参照を前記割り当てられたメモリに格納する第2のモジュールを規定することと、
前記順序付けされた参照の一部を参照し且つ前記順序付けされた参照のうちの第1の参照に対する参照及びカウント値のみを含むデータ構造を格納する第3のモジュールを規定することと、
(i)文書再構成動作を実行するための命令を受信し、(ii)前記第1のモジュール、前記第2のモジュール及び前記第3のモジュールのうちメモリ及び計算の使用量を最小限にしつつ前記文書再構成動作を実行することを要求されるモジュールを識別する第4のモジュールを規定することとを含む方法。
【請求項229】
前記第3のモジュールのみが特定の文書再構成動作を実行する必要がある場合、前記基本要素のコピー又は前記基本要素に対する新しい参照に対して新しいメモリは割り当てられない請求項228に記載の方法。
【請求項230】
前記文書は非構造化文書である請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項231】
前記文書はベクトル図形文書である請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項232】
前記文書はPDF(Portable Document Format)文書である請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項233】
前記コンピュータプログラムはハンドヘルドデバイスに対するアプリケーションである請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、135、152、159、176、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項234】
前記コンピュータプログラムはオペレーティングシステムの一部である請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、135、152、159、176、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項235】
前記コンピュータプログラムは、オペレーティングシステム上で実行するアプリケーションである請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、135、152、159、176、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項236】
前記非構造化文書はベクトル図形文書である請求項135、152、159及び176のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項237】
前記非構造化文書は、PDF(Portable Document Format)文書である請求項135、152、159及び176のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15A】
image rotate

【図15B】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate

【図34】
image rotate

【図36】
image rotate

【図37】
image rotate

【図38A】
image rotate

【図38B】
image rotate

【図39】
image rotate

【図40】
image rotate

【図41】
image rotate

【図42】
image rotate

【図43】
image rotate

【図44】
image rotate

【図45】
image rotate

【図46】
image rotate

【図47】
image rotate

【図48】
image rotate

【図49】
image rotate

【図51】
image rotate

【図53A】
image rotate

【図53B】
image rotate

【図54】
image rotate

【図55A】
image rotate

【図55B】
image rotate

【図56】
image rotate

【図57A】
image rotate

【図57B】
image rotate

【図61】
image rotate

【図62】
image rotate

【図63】
image rotate

【図64】
image rotate

【図65】
image rotate

【図66】
image rotate

【図67】
image rotate

【図68】
image rotate

【図69】
image rotate

【図70】
image rotate

【図71】
image rotate

【図72】
image rotate

【図73】
image rotate

【図78】
image rotate

【図80A】
image rotate

【図80B】
image rotate

【図81A】
image rotate

【図81B】
image rotate

【図82】
image rotate

【図84】
image rotate

【図85】
image rotate

【図87】
image rotate

【図89】
image rotate

【図90】
image rotate

【図91】
image rotate

【図92】
image rotate

【図93】
image rotate

【図94】
image rotate

【図95】
image rotate

【図96】
image rotate

【図97】
image rotate

【図99】
image rotate

【図100】
image rotate

【図101】
image rotate

【図102】
image rotate

【図103】
image rotate

【図104】
image rotate

【図105】
image rotate

【図106】
image rotate

【図107】
image rotate

【図108】
image rotate

【図109】
image rotate

【図6】
image rotate

【図35】
image rotate

【図50】
image rotate

【図52】
image rotate

【図58】
image rotate

【図59】
image rotate

【図60】
image rotate

【図74】
image rotate

【図75】
image rotate

【図76】
image rotate

【図77】
image rotate

【図79】
image rotate

【図83】
image rotate

【図86】
image rotate

【図88】
image rotate

【図98】
image rotate


【公表番号】特表2012−514792(P2012−514792A)
【公表日】平成24年6月28日(2012.6.28)
【国際特許分類】
【出願番号】特願2011−544617(P2011−544617)
【出願日】平成21年12月31日(2009.12.31)
【国際出願番号】PCT/US2009/069885
【国際公開番号】WO2010/078475
【国際公開日】平成22年7月8日(2010.7.8)
【出願人】(503260918)アップル インコーポレイテッド (568)
【Fターム(参考)】