文書処理装置

【課題】段組構成になっているページのテキスト抽出を行う場合、単にページ内のテキスト描画コマンドの座標でソートするだけではテキスト抽出として不十分である。よって、ブロック内での読み順と、それぞれのブロック間での読み順を勘案したテキスト抽出を行う必要がある。
【解決方法】１つ１つのテキスト列のベースラインの「オフセット座標」と「終端座標」を取得し、作成したベースラインの座標情報を元に、平行かつ近傍の条件に当てはまるテキスト列をブロック化し、さらに、ブロック内のテキストをＹ座標でソートしておく。また、ブロック間での読み順を決定するために、各種条件式によりブロック間での連鎖性の判定と整列を行い、整列された順番でテキスト抽出を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は電子文書処理方法及び電子文書処理装置、特に、電子文書レイアウト情報を保持した電子文書からテキストを抽出するための電子文書処理方法及び電子文書処理装置に関するものである。
【背景技術】
【０００２】
電子文書におけるテキストの検索は、電子文書内に含まれるテキストを抽出し、その中に検索用に指定したテキストが含まれるかどうかを判定することによって行っている。このように、検索手法としては、抽出された文字の中にテキストが一部でも含まれるかどうかによって判定する方法が一般的である。
【０００３】
より限定的な検索手法としては、検索用テキストが完全に含まれるかどうかを判定する完全一致検索などがある。また、検索対象のファイルフォルダ等に配置される複数の電子文書に対して検索用のテキストが含まれているかを確認し、仮に検索用のテキストと一致するテキストを持つ電子文書が見つかれば、そのテキストがどの個所に書かれたものかを検索結果として抽出する全文検索などもある。
【０００４】
さらには、検索したい内容を文章として入力し、その文章に近い内容の情報を探すことができる概念検索といった高度な検索手段も存在している。たとえば、電子文書から抽出されるテキストが、"He is a good boy. But, she is a bad girl."であった場合、概念検索では"good boy"は勿論のこと、"nice boy"でも検索がヒットする。また、"bad boy"では検索にヒットしない。これは、抽出されたテキストが意味する概念に則しているかについて、検索処理を提供できているからである。
【０００５】
したがって概念検索を行う場合、日本語であれば日本語としての文章性であったり、英語であれば英語としての文章性であったり、その抽出したテキストが文章として意味が保たれている必要がある。
【０００６】
一方、文字のレイアウトを保持する電子文書において、テキスト描画を表すコマンド（以降、テキスト描画コマンドと呼ぶ）の順番と、テキスト描画コマンドがページ上で指定される描画開始位置が、それぞれ独立している場合がある。例えば、ページ上の中心あたりから、１つ目のテキスト描画コマンドがはじまり、次にページ上の下方あたりから２つ目のテキスト描画コマンドがはじまり、最後にページ上の上方あたりから最後のテキスト描画コマンドがはじまるといったケースである。
【０００７】
実際の電子文書の例で、ＰＤＦ (Portable Document Format) やＰＤＬ (Page Description Language)などで、そのような表現がなされる場合がある。例えば、ＰＤＦを作成するソフトウェアの１つに、プリンタドライバ型のソフトウェアがある。これは、元の原稿を作成したワープロアプリケーションやドローアプリケーションにおいて、印刷指示を行う際、通常のプリンタドライバの代わりに、このＰＤＦ作成用ドライバを選択すると、印刷コマンドからＰＤＦファイルを作成するソフトウェアである。
【０００８】
このとき、元の原稿を作成したアプリケーションが、どのようなテキスト描画の順番で、印刷コマンドをＰＤＦ作成ドライバに渡すかは、そのアプリケーションに依存する。すなわち、そのアプリケーションがレイアウトフリーな電子原稿作成アプリケーションであって、ページ上の文章の構成を考慮しないようにテキスト描画をしている場合、ＰＤＦ作成ドライバで作成されるＰＤＦファイルには、テキスト描画コマンドが並べられる順番として文章性を大きく欠いた結果で入力される場合がある。これは、テキスト描画コマンドが表すページ上の座標位置は正しいが、そのテキスト描画コマンドのＰＤＦファイル内での順番はばらばらであるということである。
【０００９】
レイアウトフリーな電子原稿作成アプリケーションの場合、操作者がテキストオブジェクトを生成した順に、そのオブジェクトに対してシーケンシャルに番号を振って管理している。しかし、操作者はレイアウトフリーに操作できる特性を活かして原稿を作成するので、テキストオブジェクトを生成した順番に則して文章性を保つようにテキストオブジェクトを配置していくことは必ずしも行われない。このような電子原稿から、ＰＤＦファイルを作成した場合、例えば図１に示すようなＰＤＦファイルが生成される。
【００１０】
図１では、レイアウトフリーな電子原稿作成アプリケーションから作成されたＰＤＦファイルのプレビュー（１０１）と、そのＰＤＦファイル内のテキスト描画コマンドの配列（１０２）の例を示している。１０２のようなテキスト描画コマンドの配列になった原因は、レイアウトフリーな電子原稿作成アプリケーションにて、テキストオブジェクトを生成したことに起因する。このときのテキストオブジェクトを生成した順番は、「Michael」「Confidential」「sushi」「Michael」「Possibly」「appreciates」の順である。ただし、その後に並べ変えて１０１のプレビューで示すような配置にし、操作者が意図する通りの文章に構成している。この電子原稿から、ＰＤＦファイルに変換した場合、１０２に示す順番でテキスト描画コマンドが入力されてしまう。
【００１１】
このようなＰＤＦファイルからテキスト描画コマンドが配置されている順にテキストを抽出しても文章性は保たれていないので、このような結果を受け取った検索エンジンは単語検索程度しかままならず、概念検索等の高度な検索において精度を落としてしまうという問題がある。
【００１２】
こういった基本的な問題に対応するため、ページ内のテキストを取得する際にテキスト描画コマンドを座標に応じてソートする先行技術の例として、特許文献１の「ページ記述言語ファイル内に記載されている単語を識別する装置及び方法」が開示されている。電子文書内のテキスト描画コマンドが記載されている順にテキストを抽出するのではなく、一旦すべてのテキスト描画コマンドと、それに紐付いた座標等のリソース情報を取り出す。さらに、テキスト描画コマンドのオフセット座標（テキスト描画の開始位置）をソートして、そのソート結果の順にテキストを抽出し、テキストの配置位置に則したテキスト抽出結果を得る技術がある。
【００１３】
ただ、ページの構成には図２のように段組が成されている場合もあり、ただ単にページ内のテキスト描画コマンドの座標に応じてソートする方法を取ってしまうと、大幅に文章性を損なってテキストを抽出してしまう問題がある。
【特許文献１】特開平０８−１９４６９７号公報
【発明の開示】
【発明が解決しようとする課題】
【００１４】
先述の通り、段組構成になっているページの場合は、単にページ内のテキスト描画コマンドの座標でソートするだけではテキスト抽出として不十分である。よって、ブロック内での読み順と、それぞれのブロック間での読み順を勘案したテキスト抽出を行う必要がある。
【００１５】
図３は段組構成になっているＰＤＦファイルである。この場合、３０１のテキスト後の読み順として正しいのは３０２のテキストである。しかし、ページ内のテキスト描画オブジェクトに対して座標順にソートした場合に、段組構成を勘案しないと、３０１のテキストの後に３０３のテキストを抽出する順番になってしまう。
【００１６】
よって、このような段組が構成されたケースにおいては、テキストのブロックの検知と、それぞれのブロック間での遷移が読み順として正しく検知できている必要があって、そのための情報処理装置及びその制御方法、プログラムを提供することを目的とする。
【課題を解決するための手段】
【００１７】
テキスト抽出する電子文書が先述したような段組を構成している場合、テキストの連鎖を検知するために、本発明による情報処理装置は以下の構成を順次実行する機能を備える。
【００１８】
１つ１つのテキスト列のベースラインの「オフセット座標」と「終端座標」を取得する。
【００１９】
１）で作成したベースラインの座標情報を元に、平行かつ近傍の条件に当てはまるテキスト列をブロック化する。さらに、ブロック内のテキストを、ページにおける縦方向の座標が大きい順にソートする（ページの上方から並べる）。
【００２０】
ブロック間での読み順を決定するために、各種条件式によりブロック間での連鎖性の判定と整列を行う。これは、ページ内のコンテンツに、確実に遷移すべき方向（ブロック）が示されている場合、その情報を最優先して遷移すべき方向を判定する。その他の場合は、ブロック間の距離と連鎖性に関係のあるページコンテンツを勘案して連鎖性インデックスを導出し、遷移すべき方向を判定する。
【００２１】
整列された順番でテキスト抽出を行う。
【発明の効果】
【００２２】
本発明によると、レイアウトフリーな電子原稿作成機能を有するアプリケーションが起源であって、かつ、ページのテキストの構成に段組が施されているような電子文書であっても、段組のブロック間の連鎖を検知してテキスト列をつなげる仕組みがあるので、ページ全体の文章性を損なうことなくテキストを取得することができる。
【００２３】
よって本発明によると、検索エンジンが本発明を用いることで、概念検索などページ全体の文章性が必要とされるような高度な検索において、その精度が向上する。
【発明を実施するための最良の形態】
【００２４】
以下、図面を参照しながら本発明に係る実施の形態を詳細に説明する。
【実施例１】
【００２５】
（本実施形態の文書処理装置の構成例）
図４は、本実施形態の文書処理装置の構成例を示すブロック図である。４０１は演算制御用のＣＰＵである。４０２はデータ及び指示入力のためのキーボードである。４０３は電子文書画像を表示するディスプレイである。４０４は電子文書を格納するハードディスクである。４０５は装置を制御するプログラムや必要な情報をあらかじめ記憶するＲＯＭである。４０６は様々なワークエリアとして利用されるＲＡＭである。４０７は、電子文書の構造を解析する解析手段に相当し、電子文書内のテキスト描画コマンドが指すテキスト列の配置特性を解析するレイアウト解析処理部である。４０８は本処理装置にあらかじめ定義された条件で二者のテキスト列が平行かつ近傍にある場合、その二者のテキスト列は連鎖していると判断してテキスト列をつなげ、つながったテキスト列を一つのブロックとしてブロック化するテキスト列結合処理部である。４０９はブロック間での読み順を判断するブロック間の整列処理部である。
【００２６】
尚、レイアウト解析処理部４０７や、テキスト列結合部４０８や、ブロック間の整列処理部４０９は、ＲＯＭ４０５に格納されたコンピュータプログラムをＣＰＵ４０１が実行することで実現される。すなわち、コンピュータプログラムは、コンピュータを、レイアウト解析処理部４０７や、テキスト列結合部４０８や、整列処理部４０９として機能させることができる。なお、コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体は、ＲＯＭ４０５に限るものではなく、例えばハードディスク４０４であってもよい。
（本実施形態の文書処理装置の動作例）
図５は、本発明に係る文書処理を行うステップである。レイアウト解析処理部４０７の処理に相当するレイアウト解析処理Ｓ５０１と、テキスト列結合処理部４０８に相当するテキスト列結合処理Ｓ５０２と、ブロック間の整列処理部４０９に相当するブロック間の整列処理Ｓ５０３と、Ｓ５０１−Ｓ５０３の処理結果をもって、整列された順番にテキスト列のテキストを抽出するＳ５０４で構成されている。
【００２７】
図６は、レイアウト解析処理を表すフローチャートと、その補足図である。ステップＳ６０１において、電子文書が保持するページ内のテキスト描画コマンドのすべてを取得する。なお、ＰＤＦファイルを例とした場合、テキスト描画コマンドはTjで表され、１０２で示すような記載が電子文書中でなされている。ステップＳ６０２では、６Ａで示すように、取得したテキスト描画コマンドに対応するフォント情報から、テキスト描画コマンドが表すテキスト列のベースラインを取得する。ベースラインは図７の７０１で示すように、書体の構成要素で、フォント情報の構成要素のひとつになっている。これは、テキスト列の並びの視線を誘導する役割として必要なラインで、テキスト列を並べる際にはベースラインの一直線上にそれぞれの文字が並ぶことになる。ステップＳ６０３では、６Ｂで示すように、ベースラインの先端座標と終端座標を取得する。ベースラインの先端座標は、先頭文字のベースラインの開始位置となり、ベースラインの終端座標は、最終文字のベースラインの終了位置となる。ステップＳ６０３の後にはレイアウト解析処理を終了する。
【００２８】
図８は、テキスト列結合処理を表すフローチャートと、その補足図である。ステップＳ８０１において、テキスト描画コマンドの数と同じ数だけバッファを用意する。それぞれのバッファには、テキスト列を構成するテキストと、そのテキスト列が持つベースラインの先端と終端の座標情報を収める。ステップＳ８０２ではテキスト列のブロック化を行うため、バッファの全数（ｎ1とする）から、２個のテキスト列を選ぶ組み合わせ（コンビネーションの数式を用いると、８Ａに示すようにｎ1Ｃ2と表せる）に対し、お互いのテキスト列が平行かつ近傍にあるか確認する。これは、８Ｂで示すように、両者のテキスト列のベースラインが平行であって、なおかつ両者のベースラインにおいて縦方向の間隔がフォントサイズの特定倍数以内であって、さらに横方向において両者のベースラインが共有する領域が存在している場合にブロック化する対象かどうかの確認である。なお、縦方向のベースラインの間隔の許容度については、図１３に示すように、ユーザーインターフェースによる選択ができるようになっていてもよい。ステップＳ８０３では、ステップＳ８０２の処理結果を踏まえて、ブロック化できるかを判断し、Ｙｅｓの場合にはステップＳ８０４に進み、Ｎｏの場合にはテキスト列結合処理を終了する。ステップＳ８０４では、ブロック化の条件に当てはまった複数のテキスト列をブロック化する。８Ｃに示すように、ブロック化されたテキスト列の集合は、それぞれのブロック別に縦方向に上方から順になるようにテキスト列をソートしておく。また、ブロックは矩形で定義するが、そのとき、ブロックを構成するテキスト列群が全て収まる大きさで矩形を定義する。なお、それぞれのブロックは、ページ上における矩形の大きさと、配置場所が把握できる情報を保持する。
【００２９】
図９は、ステップＳ５０２で作成したブロックに対して、それらブロック間での整列処理を表すフローチャートと、その補足図である。ステップＳ９０１では、ページ内のブロックのうち、最もページの開始位置に近い場所である左上のブロックを選択し、ブロック間の整列を開始する。ステップＳ９０２では、ステップＳ９０１にて開始したブロックから、次の遷移すべきブロックを判定するための連鎖性インデックス算出の第一段階を行う。そのため、ステップＳ９０２ではブロック間での距離を求める。このとき、９Ａに示すように、左上から開始したブロックの次の遷移すべきブロックを判定するための連鎖性インデックスを算出するため、分岐点と残りのブロックの開始点の二者を用いて、９Ｂに示すように特定の算出方法で導出する。９Ｂによると、まず、分岐点から、第１象限と第３象限のそれぞれの最寄りの開始点を特定する。ここで、第２象限にブロックがあることは例外的であり、また、第４象限への連鎖性も例外的であることから、第１象限と第３象限への連鎖性のみ確認を行う。開始ブロックの開始点の座標を（Ax2, Ay2）、分岐点を（0, 0）、第１象限方向の最寄りブロックの開始点の座標を（Ax1, Ay1）、第３象限の開始点の座標を（Ax3, Ay3）とする。まず、第１象限の開始点に関する連鎖性は、「Ax1」と「Ay1-Ay2」の和をブロック間の連鎖性インデックスとして算出する。同じく、第３象限の開始点に関する連鎖性は、「Ay3」と「Ax2-Ax3」の和をブロック間の連鎖性インデックスとして算出する。よって、この時点では、ブロック間の距離が近いほど、連鎖性インデックスが小さくなる。よって、連鎖性インデックスの値が小さいほど、連鎖性が高いと判断できる。
【００３０】
ステップＳ９０３では、さらにページ内のコンテンツ情報を勘案し、ステップＳ９０２で算出した連鎖性インデックスに変更を加えていく処理であり、それを図１０に示す。まず、ステップＳ１００１では、ブロック間の読み順として、最優先と思われる誘導情報がページ内のコンテンツにある場合、その情報を最優先として従う処理を行う。ステップＳ１００２においては、ブロックの段組間の読み順を誘導する記号が、ブロック内の文末にあるか確認する。１１Ａに示すように、段組が構成されている文書中には、読み順を誘導する矢印が記載されているケースがある。例えば、
【００３１】
【数１】

【００３２】
だとUnicodeで0x2199が文末に配置されることになり、その場合は第３象限方向のブロックを優先してブロックの遷移方向に選ぶ。このように、誘導矢印がある場合は、連鎖性の優先度は矢印が指す方向の象限にあるブロックを最優先として処理するため、ステップＳ１１０３に進み（ステップＳ１００２にてＹｅｓ）、条件にあった象限の方向のブロックを最優先として判定し、その後、最優先判定処理を終了する。図１１のステップＳ１１０２にてＮｏの判定の場合には、さらにステップＳ１１０２で最優先に判定できる条件があるか確認する。ステップＳ１１０２では、ブロックの段組間の読み順を誘導するグラフィックがページ内にレイアウトされているか確認する。例えば、１１Ｂに示すように、段組が構成されている文書は、段組の仕切り用にラインが施されているケースは多い。例えば、新聞のようなレイアウトを持った文書の場合など、段組の仕切り用のラインは一般的である。１１Ｂのケースの場合、第１象限の方向には、仕切り用のラインをまたぐことになるので、第３象限の方向を最優先として判定する。このように、段組の仕切りになるようなグラフィックがある場合、仕切りをまたがない方向の象限にあるブロックを最優先として処理するため、ステップＳ１１０３に進み（ステップＳ１１０２にてＹｅｓ）、条件にあった象限の方向のブロックを最優先として判定し、その後、最優先判定処理を終了する。ステップＳ１１０２にてＮｏになった場合、そのまま最優先判定処理を終了する。ステップＳ１００１における最優先判定処理の後に、ステップＳ１００２にて、連鎖性を判定するための最優先条件に当てはまったかを確認する。ステップＳ１００２にてＹｅｓの場合には、ページコンテンツ勘案処理を終了する。ステップＳ１００２がＮｏの場合には、ステップＳ１００３に進み、連鎖性インデックス編集処理を行う。連鎖性インデックス編集処理では、まず図１２のステップＳ１２０１にて、ブロック間にイメージが挿入されているか確認する。イメージが挿入されているかどうかは、ブロック間の分岐点と開始点を結ぶ線上にイメージの領域が被るかを確認すればよい。なお、１２Ａに示すように、イメージが挿入されている場合には（ステップＳ１２０２にてＹｅｓ）、ステップＳ１２０２に進んで、イメージに重なる領域分だけ、連鎖性インデックスを差し引き、ステップＳ１２０３に進む。ステップＳ１２０１がＮｏの場合はそのままステップＳ１２０３に進む。ステップＳ１２０３では、ブロック間でフォントサイズに違いがあるか確認する。ブロック間でフォントサイズが変わるような場合には連鎖性は少ないと捉えられるので、その事象を連鎖性インデックスに反映させる。フォントサイズの比較は、各ブロック先頭のテキストのフォントサイズの比較、もしくは全体の平均の比較で行う。ブロック間でフォントサイズが変わる場合には（ステップＳ１２０３にてＹｅｓ）、サイズの違いに応じて連鎖性インデックスを増やし、例えば、開始元のブロックのフォントサイズが6ptであり、遷移先候補のブロックのフォントサイズが9ptなら、それらのブロック間の連鎖性インデックスは1.5倍にするような処理を行う。その後、ステップＳ１２０５に進む。ステップＳ１２０３にてＮｏの場合は、そのままステップＳ１２０５に進む。ステップＳ１２０５では、ブロック間でフォントの書体に違いがあるか確認する。ブロック間で書体が変わるような場合には連鎖性は少ないと考えられる。よって、ブロック間でフォントの書体が変わる場合には（ステップＳ１２０５にてＹｅｓ）、連鎖性インデックスを2倍にする等、大きく増やす。その後、連鎖性インデックス編集処理を終了する。また、ステップＳ１２０５がＮｏの場合は、そのまま連鎖性インデックス編集処理を終了する。連鎖性インデックス編集処理が終了した後には、ページコンテンツ勘案処理も終了する。
【００３３】
ブロック間の整列処理に戻り、ステップＳ９０４では、ステップＳ９０３にて判定した最優先判定に当てはまった場合においては、ブロックの遷移する方向は最優先判定の結果に従う処理を行う。また、最優先判定に当てはまらなかった場合には、ステップＳ９０２及びステップＳ９０３で導出した連鎖性インデックスを用いることで、ブロックの遷移する方向を決定する。なお、ステップＳ９０５では、一度遷移する方向が第１象限に決まった場合、その後は第１象限のみを遷移対象とする処理を行う。一方、一度遷移する方向が第３象限に決まった場合、その後は第３象限のみを遷移対象とする処理を行う。その後、ステップＳ９０６において、ステップＳ９０５の処理を遂行したのちに、遷移する対象の方向（対象の象限）にブロックが無くなった場合に遷移処理を一旦リセットし、ステップＳ９０７に進む。ステップＳ９０７において、まだ処理済みでない（整列済みでない）ブロックがページ内に残っているか確認し、残っている場合においては（ステップＳ９０７にてＹｅｓ）、さらに処理を繰り返すため、ステップＳ９０１に戻る。ページ内に処理済みでないブロックが残っていない場合においては（ステップＳ９０７にてＮｏ）、ブロック間の整列処理を終了する。
【００３４】
その後、ステップＳ５０４では、ステップＳ５０３の整列処理によってソートされたブロックの順にブロック内のテキストを抽出する。このように、文書レイアウトに則したテキスト抽出を行うことで、ページ全体の文章性を損なうことなくテキストを取得することができる。
【００３５】
よって、本発明によると、検索エンジンが本発明を用いることで、概念検索などページ全体の文章性が必要とされるような高度な検索において、その精度が向上する。
【実施例２】
【００３６】
本発明は、複数の機器（例えばホストコンピュータ、インタフェース機器、プリンタなど）から構成されるシステムあるいは統合装置に適用しても、ひとつの機器からなる装置に適用してもよい。
【００３７】
また、本発明の目的が、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（または記録媒体）を、システムあるいは装置に供給することによって、達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。又、コンピュータが読み出したプログラムコードの指示に基づき、オペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、前述した実施形態の機能が実現される場合も含まれる。
【００３８】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。その後、そのプログラムコードの指示に基づき、機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、前述した実施形態の機能が実現される場合も含まれる。
【００３９】
なお、本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
【図面の簡単な説明】
【００４０】
【図１】ＰＤＦファイルのプレビュー例と、そのＰＤＦファイル内のテキスト描画コマンドの配列の例を示す図である。
【図２】段組が施されたＰＤＦの例を示す図である。
【図３】図２に対して、ベースラインのイメージ図を追加した図である。
【図４】本実施形態の、文書処理システムを実現するハードウェア構成例を示すブロック図である。
【図５】本実施形態の、文書処理の手順例を示すフローチャートである。
【図６】本実施形態の、レイアウト解析処理を示すフローチャートと、その補足図である。
【図７】書体の構成要素となるベースラインの例を示す図である。
【図８】本実施形態の、テキスト列結合処理を表すフローチャートと、その補足図である。
【図９】本実施形態の、ブロック間の整列処理を表すフローチャートと、その補足図である。
【図１０】本実施形態の、ページコンテンツ勘案処理を表すフローチャートと、その補足図である。
【図１１】本実施形態の、最優先判定処理を表すフローチャートと、その補足図である。
【図１２】本実施形態の、連鎖性インデックス編集処理表すフローチャートと、その補足図である。
【図１３】本実施形態の、条件入力のためのユーザーインターフェースの例を示す図である。
【符号の説明】
【００４１】
１０１ＰＤＦファイルのプレビュー例
１０２１０１のＰＤＦファイルが表すテキスト描画コマンド
２０１ＰＤＦファイルのプレビュー例
３０１ベースライン
３０２ベースライン
３０３ベースライン
４０１ＣＰＵ
４０２キーボード
４０３ディスプレイ
４０４ハードディスク
４０５ＲＯＭ
４０６ＲＡＭ
４０７レイアウト解析処理部
４０８テキスト列結合処理部
４０９ブロック間の整列処理部
６Ａフローチャートの補足説明
６Ｂフローチャートの補足説明
７０１ベースライン
８Ａ組み合わせ演算子標記による説明
８Ｂフローチャートの補足説明
８Ｃフローチャートの補足説明
９Ａフローチャートの補足説明
９Ｂフローチャートの補足説明
１１Ａフローチャートの補足説明
１１Ｂフローチャートの補足説明
１２Ａフローチャートの補足説明
１３０１条件設定のためのユーザーインターフェース

【特許請求の範囲】
【請求項１】
レイアウト情報を含む電子文書においてレイアウト解析処理（Ｓ５０１）を行い、平行かつ近傍に集合するテキスト列群を１つのブロックにまとめるブロック化手段（Ｓ５０２）と、前記ブロック間での読み順を決定するための連鎖性を判定するブロック連鎖性判定手段（Ｓ５０３）を備え、その連鎖順位に則した順番にてテキスト列を抽出する（Ｓ５０４）ことを特徴とする文書処理装置（４１０）。
【請求項２】
請求項１に記載の文書処理装置において、レイアウト情報を含む電子文書から、テキスト列及びテキスト列の座標情報を取得し（Ｓ８０１）、座標情報からブロック化すべき条件に含まれる場合（Ｓ８０２、Ｓ８０３）に、前記テキスト列をブロック化する（Ｓ８０４）ことを特徴とする文書処理装置（４１０）。
【請求項３】
請求項１に記載の文書処理装置において、ブロック連鎖性判定手段（Ｓ５０３）においては、連鎖性を判定するための決定的情報を解釈する最優先判定手段（Ｓ１００１）を備えることを特徴とする文書処理装置（４１０）。
【請求項４】
請求項１に記載の文書処理装置において、最優先判定（Ｓ１００１）がなされなかった場合に、連鎖性のインデックス算出を行い、前記インデックスの比較による判定（Ｓ１００３）を行うことを特徴とする文書処理装置（４１０）。
【請求項５】
請求項１に記載の文書処理装置において、ブロック化判定を行うための条件のバロメータをユーザーインターフェース（１３０１）によって切り替えることができることを特徴とする文書処理装置（４１０）。

【図１】