説明

文書処理装置

【課題】 段組構成になっているページのテキスト抽出を行う場合、単にページ内のテキスト描画コマンドの座標でソートするだけではテキスト抽出として不十分である。よって、ブロック内での読み順と、それぞれのブロック間での読み順を勘案したテキスト抽出を行う必要がある。
【解決方法】 1つ1つのテキスト列のベースラインの「オフセット座標」と「終端座標」を取得し、作成したベースラインの座標情報を元に、平行かつ近傍の条件に当てはまるテキスト列をブロック化し、さらに、ブロック内のテキストをY座標でソートしておく。また、ブロック間での読み順を決定するために、各種条件式によりブロック間での連鎖性の判定と整列を行い、整列された順番でテキスト抽出を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は電子文書処理方法及び電子文書処理装置、特に、電子文書レイアウト情報を保持した電子文書からテキストを抽出するための電子文書処理方法及び電子文書処理装置に関するものである。
【背景技術】
【0002】
電子文書におけるテキストの検索は、電子文書内に含まれるテキストを抽出し、その中に検索用に指定したテキストが含まれるかどうかを判定することによって行っている。このように、検索手法としては、抽出された文字の中にテキストが一部でも含まれるかどうかによって判定する方法が一般的である。
【0003】
より限定的な検索手法としては、検索用テキストが完全に含まれるかどうかを判定する完全一致検索などがある。また、検索対象のファイルフォルダ等に配置される複数の電子文書に対して検索用のテキストが含まれているかを確認し、仮に検索用のテキストと一致するテキストを持つ電子文書が見つかれば、そのテキストがどの個所に書かれたものかを検索結果として抽出する全文検索などもある。
【0004】
さらには、検索したい内容を文章として入力し、その文章に近い内容の情報を探すことができる概念検索といった高度な検索手段も存在している。たとえば、電子文書から抽出されるテキストが、"He is a good boy. But, she is a bad girl."であった場合、概念検索では"good boy"は勿論のこと、"nice boy"でも検索がヒットする。また、"bad boy"では検索にヒットしない。これは、抽出されたテキストが意味する概念に則しているかについて、検索処理を提供できているからである。
【0005】
したがって概念検索を行う場合、日本語であれば日本語としての文章性であったり、英語であれば英語としての文章性であったり、その抽出したテキストが文章として意味が保たれている必要がある。
【0006】
一方、文字のレイアウトを保持する電子文書において、テキスト描画を表すコマンド(以降、テキスト描画コマンドと呼ぶ)の順番と、テキスト描画コマンドがページ上で指定される描画開始位置が、それぞれ独立している場合がある。例えば、ページ上の中心あたりから、1つ目のテキスト描画コマンドがはじまり、次にページ上の下方あたりから2つ目のテキスト描画コマンドがはじまり、最後にページ上の上方あたりから最後のテキスト描画コマンドがはじまるといったケースである。
【0007】
実際の電子文書の例で、PDF (Portable Document Format) やPDL (Page Description Language)などで、そのような表現がなされる場合がある。例えば、PDFを作成するソフトウェアの1つに、プリンタドライバ型のソフトウェアがある。これは、元の原稿を作成したワープロアプリケーションやドローアプリケーションにおいて、印刷指示を行う際、通常のプリンタドライバの代わりに、このPDF作成用ドライバを選択すると、印刷コマンドからPDFファイルを作成するソフトウェアである。
【0008】
このとき、元の原稿を作成したアプリケーションが、どのようなテキスト描画の順番で、印刷コマンドをPDF作成ドライバに渡すかは、そのアプリケーションに依存する。すなわち、そのアプリケーションがレイアウトフリーな電子原稿作成アプリケーションであって、ページ上の文章の構成を考慮しないようにテキスト描画をしている場合、PDF作成ドライバで作成されるPDFファイルには、テキスト描画コマンドが並べられる順番として文章性を大きく欠いた結果で入力される場合がある。これは、テキスト描画コマンドが表すページ上の座標位置は正しいが、そのテキスト描画コマンドのPDFファイル内での順番はばらばらであるということである。
【0009】
レイアウトフリーな電子原稿作成アプリケーションの場合、操作者がテキストオブジェクトを生成した順に、そのオブジェクトに対してシーケンシャルに番号を振って管理している。しかし、操作者はレイアウトフリーに操作できる特性を活かして原稿を作成するので、テキストオブジェクトを生成した順番に則して文章性を保つようにテキストオブジェクトを配置していくことは必ずしも行われない。このような電子原稿から、PDFファイルを作成した場合、例えば図1に示すようなPDFファイルが生成される。
【0010】
図1では、レイアウトフリーな電子原稿作成アプリケーションから作成されたPDFファイルのプレビュー(101)と、そのPDFファイル内のテキスト描画コマンドの配列(102)の例を示している。102のようなテキスト描画コマンドの配列になった原因は、レイアウトフリーな電子原稿作成アプリケーションにて、テキストオブジェクトを生成したことに起因する。このときのテキストオブジェクトを生成した順番は、「Michael」「Confidential」「sushi」「Michael」「Possibly」「appreciates」の順である。ただし、その後に並べ変えて101のプレビューで示すような配置にし、操作者が意図する通りの文章に構成している。この電子原稿から、PDFファイルに変換した場合、102に示す順番でテキスト描画コマンドが入力されてしまう。
【0011】
このようなPDFファイルからテキスト描画コマンドが配置されている順にテキストを抽出しても文章性は保たれていないので、このような結果を受け取った検索エンジンは単語検索程度しかままならず、概念検索等の高度な検索において精度を落としてしまうという問題がある。
【0012】
こういった基本的な問題に対応するため、ページ内のテキストを取得する際にテキスト描画コマンドを座標に応じてソートする先行技術の例として、特許文献1の「ページ記述言語ファイル内に記載されている単語を識別する装置及び方法」が開示されている。電子文書内のテキスト描画コマンドが記載されている順にテキストを抽出するのではなく、一旦すべてのテキスト描画コマンドと、それに紐付いた座標等のリソース情報を取り出す。さらに、テキスト描画コマンドのオフセット座標(テキスト描画の開始位置)をソートして、そのソート結果の順にテキストを抽出し、テキストの配置位置に則したテキスト抽出結果を得る技術がある。
【0013】
ただ、ページの構成には図2のように段組が成されている場合もあり、ただ単にページ内のテキスト描画コマンドの座標に応じてソートする方法を取ってしまうと、大幅に文章性を損なってテキストを抽出してしまう問題がある。
【特許文献1】特開平08−194697号公報
【発明の開示】
【発明が解決しようとする課題】
【0014】
先述の通り、段組構成になっているページの場合は、単にページ内のテキスト描画コマンドの座標でソートするだけではテキスト抽出として不十分である。よって、ブロック内での読み順と、それぞれのブロック間での読み順を勘案したテキスト抽出を行う必要がある。
【0015】
図3は段組構成になっているPDFファイルである。この場合、301のテキスト後の読み順として正しいのは302のテキストである。しかし、ページ内のテキスト描画オブジェクトに対して座標順にソートした場合に、段組構成を勘案しないと、301のテキストの後に303のテキストを抽出する順番になってしまう。
【0016】
よって、このような段組が構成されたケースにおいては、テキストのブロックの検知と、それぞれのブロック間での遷移が読み順として正しく検知できている必要があって、そのための情報処理装置及びその制御方法、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0017】
テキスト抽出する電子文書が先述したような段組を構成している場合、テキストの連鎖を検知するために、本発明による情報処理装置は以下の構成を順次実行する機能を備える。
【0018】
1つ1つのテキスト列のベースラインの「オフセット座標」と「終端座標」を取得する。
【0019】
1)で作成したベースラインの座標情報を元に、平行かつ近傍の条件に当てはまるテキスト列をブロック化する。さらに、ブロック内のテキストを、ページにおける縦方向の座標が大きい順にソートする(ページの上方から並べる)。
【0020】
ブロック間での読み順を決定するために、各種条件式によりブロック間での連鎖性の判定と整列を行う。これは、ページ内のコンテンツに、確実に遷移すべき方向(ブロック)が示されている場合、その情報を最優先して遷移すべき方向を判定する。その他の場合は、ブロック間の距離と連鎖性に関係のあるページコンテンツを勘案して連鎖性インデックスを導出し、遷移すべき方向を判定する。
【0021】
整列された順番でテキスト抽出を行う。
【発明の効果】
【0022】
本発明によると、レイアウトフリーな電子原稿作成機能を有するアプリケーションが起源であって、かつ、ページのテキストの構成に段組が施されているような電子文書であっても、段組のブロック間の連鎖を検知してテキスト列をつなげる仕組みがあるので、ページ全体の文章性を損なうことなくテキストを取得することができる。
【0023】
よって本発明によると、検索エンジンが本発明を用いることで、概念検索などページ全体の文章性が必要とされるような高度な検索において、その精度が向上する。
【発明を実施するための最良の形態】
【0024】
以下、図面を参照しながら本発明に係る実施の形態を詳細に説明する。
【実施例1】
【0025】
(本実施形態の文書処理装置の構成例)
図4は、本実施形態の文書処理装置の構成例を示すブロック図である。401は演算制御用のCPUである。402はデータ及び指示入力のためのキーボードである。403は電子文書画像を表示するディスプレイである。404は電子文書を格納するハードディスクである。405は装置を制御するプログラムや必要な情報をあらかじめ記憶するROMである。406は様々なワークエリアとして利用されるRAMである。407は、電子文書の構造を解析する解析手段に相当し、電子文書内のテキスト描画コマンドが指すテキスト列の配置特性を解析するレイアウト解析処理部である。408は本処理装置にあらかじめ定義された条件で二者のテキスト列が平行かつ近傍にある場合、その二者のテキスト列は連鎖していると判断してテキスト列をつなげ、つながったテキスト列を一つのブロックとしてブロック化するテキスト列結合処理部である。409はブロック間での読み順を判断するブロック間の整列処理部である。
【0026】
尚、レイアウト解析処理部407や、テキスト列結合部408や、ブロック間の整列処理部409は、ROM405に格納されたコンピュータプログラムをCPU401が実行することで実現される。すなわち、コンピュータプログラムは、コンピュータを、レイアウト解析処理部407や、テキスト列結合部408や、整列処理部409として機能させることができる。なお、コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体は、ROM405に限るものではなく、例えばハードディスク404であってもよい。
(本実施形態の文書処理装置の動作例)
図5は、本発明に係る文書処理を行うステップである。レイアウト解析処理部407の処理に相当するレイアウト解析処理S501と、テキスト列結合処理部408に相当するテキスト列結合処理S502と、ブロック間の整列処理部409に相当するブロック間の整列処理S503と、S501−S503の処理結果をもって、整列された順番にテキスト列のテキストを抽出するS504で構成されている。
【0027】
図6は、レイアウト解析処理を表すフローチャートと、その補足図である。ステップS601において、電子文書が保持するページ内のテキスト描画コマンドのすべてを取得する。なお、PDFファイルを例とした場合、テキスト描画コマンドはTjで表され、102で示すような記載が電子文書中でなされている。ステップS602では、6Aで示すように、取得したテキスト描画コマンドに対応するフォント情報から、テキスト描画コマンドが表すテキスト列のベースラインを取得する。ベースラインは図7の701で示すように、書体の構成要素で、フォント情報の構成要素のひとつになっている。これは、テキスト列の並びの視線を誘導する役割として必要なラインで、テキスト列を並べる際にはベースラインの一直線上にそれぞれの文字が並ぶことになる。ステップS603では、6Bで示すように、ベースラインの先端座標と終端座標を取得する。ベースラインの先端座標は、先頭文字のベースラインの開始位置となり、ベースラインの終端座標は、最終文字のベースラインの終了位置となる。ステップS603の後にはレイアウト解析処理を終了する。
【0028】
図8は、テキスト列結合処理を表すフローチャートと、その補足図である。ステップS801において、テキスト描画コマンドの数と同じ数だけバッファを用意する。それぞれのバッファには、テキスト列を構成するテキストと、そのテキスト列が持つベースラインの先端と終端の座標情報を収める。ステップS802ではテキスト列のブロック化を行うため、バッファの全数(n1とする)から、2個のテキスト列を選ぶ組み合わせ(コンビネーションの数式を用いると、8Aに示すようにn1C2と表せる)に対し、お互いのテキスト列が平行かつ近傍にあるか確認する。これは、8Bで示すように、両者のテキスト列のベースラインが平行であって、なおかつ両者のベースラインにおいて縦方向の間隔がフォントサイズの特定倍数以内であって、さらに横方向において両者のベースラインが共有する領域が存在している場合にブロック化する対象かどうかの確認である。なお、縦方向のベースラインの間隔の許容度については、図13に示すように、ユーザーインターフェースによる選択ができるようになっていてもよい。ステップS803では、ステップS802の処理結果を踏まえて、ブロック化できるかを判断し、Yesの場合にはステップS804に進み、Noの場合にはテキスト列結合処理を終了する。ステップS804では、ブロック化の条件に当てはまった複数のテキスト列をブロック化する。8Cに示すように、ブロック化されたテキスト列の集合は、それぞれのブロック別に縦方向に上方から順になるようにテキスト列をソートしておく。また、ブロックは矩形で定義するが、そのとき、ブロックを構成するテキスト列群が全て収まる大きさで矩形を定義する。なお、それぞれのブロックは、ページ上における矩形の大きさと、配置場所が把握できる情報を保持する。
【0029】
図9は、ステップS502で作成したブロックに対して、それらブロック間での整列処理を表すフローチャートと、その補足図である。ステップS901では、ページ内のブロックのうち、最もページの開始位置に近い場所である左上のブロックを選択し、ブロック間の整列を開始する。ステップS902では、ステップS901にて開始したブロックから、次の遷移すべきブロックを判定するための連鎖性インデックス算出の第一段階を行う。そのため、ステップS902ではブロック間での距離を求める。このとき、9Aに示すように、左上から開始したブロックの次の遷移すべきブロックを判定するための連鎖性インデックスを算出するため、分岐点と残りのブロックの開始点の二者を用いて、9Bに示すように特定の算出方法で導出する。9Bによると、まず、分岐点から、第1象限と第3象限のそれぞれの最寄りの開始点を特定する。ここで、第2象限にブロックがあることは例外的であり、また、第4象限への連鎖性も例外的であることから、第1象限と第3象限への連鎖性のみ確認を行う。開始ブロックの開始点の座標を(Ax2, Ay2)、分岐点を(0, 0)、第1象限方向の最寄りブロックの開始点の座標を(Ax1, Ay1)、第3象限の開始点の座標を(Ax3, Ay3)とする。まず、第1象限の開始点に関する連鎖性は、「Ax1」と「Ay1-Ay2」の和をブロック間の連鎖性インデックスとして算出する。同じく、第3象限の開始点に関する連鎖性は、「Ay3」と「Ax2-Ax3」の和をブロック間の連鎖性インデックスとして算出する。よって、この時点では、ブロック間の距離が近いほど、連鎖性インデックスが小さくなる。よって、連鎖性インデックスの値が小さいほど、連鎖性が高いと判断できる。
【0030】
ステップS903では、さらにページ内のコンテンツ情報を勘案し、ステップS902で算出した連鎖性インデックスに変更を加えていく処理であり、それを図10に示す。まず、ステップS1001では、ブロック間の読み順として、最優先と思われる誘導情報がページ内のコンテンツにある場合、その情報を最優先として従う処理を行う。ステップS1002においては、ブロックの段組間の読み順を誘導する記号が、ブロック内の文末にあるか確認する。11Aに示すように、段組が構成されている文書中には、読み順を誘導する矢印が記載されているケースがある。例えば、
【0031】
【数1】

【0032】
だとUnicodeで0x2199が文末に配置されることになり、その場合は第3象限方向のブロックを優先してブロックの遷移方向に選ぶ。このように、誘導矢印がある場合は、連鎖性の優先度は矢印が指す方向の象限にあるブロックを最優先として処理するため、ステップS1103に進み(ステップS1002にてYes)、条件にあった象限の方向のブロックを最優先として判定し、その後、最優先判定処理を終了する。図11のステップS1102にてNoの判定の場合には、さらにステップS1102で最優先に判定できる条件があるか確認する。ステップS1102では、ブロックの段組間の読み順を誘導するグラフィックがページ内にレイアウトされているか確認する。例えば、11Bに示すように、段組が構成されている文書は、段組の仕切り用にラインが施されているケースは多い。例えば、新聞のようなレイアウトを持った文書の場合など、段組の仕切り用のラインは一般的である。11Bのケースの場合、第1象限の方向には、仕切り用のラインをまたぐことになるので、第3象限の方向を最優先として判定する。このように、段組の仕切りになるようなグラフィックがある場合、仕切りをまたがない方向の象限にあるブロックを最優先として処理するため、ステップS1103に進み(ステップS1102にてYes)、条件にあった象限の方向のブロックを最優先として判定し、その後、最優先判定処理を終了する。ステップS1102にてNoになった場合、そのまま最優先判定処理を終了する。ステップS1001における最優先判定処理の後に、ステップS1002にて、連鎖性を判定するための最優先条件に当てはまったかを確認する。ステップS1002にてYesの場合には、ページコンテンツ勘案処理を終了する。ステップS1002がNoの場合には、ステップS1003に進み、連鎖性インデックス編集処理を行う。連鎖性インデックス編集処理では、まず図12のステップS1201にて、ブロック間にイメージが挿入されているか確認する。イメージが挿入されているかどうかは、ブロック間の分岐点と開始点を結ぶ線上にイメージの領域が被るかを確認すればよい。なお、12Aに示すように、イメージが挿入されている場合には(ステップS1202にてYes)、ステップS1202に進んで、イメージに重なる領域分だけ、連鎖性インデックスを差し引き、ステップS1203に進む。ステップS1201がNoの場合はそのままステップS1203に進む。ステップS1203では、ブロック間でフォントサイズに違いがあるか確認する。ブロック間でフォントサイズが変わるような場合には連鎖性は少ないと捉えられるので、その事象を連鎖性インデックスに反映させる。フォントサイズの比較は、各ブロック先頭のテキストのフォントサイズの比較、もしくは全体の平均の比較で行う。ブロック間でフォントサイズが変わる場合には(ステップS1203にてYes)、サイズの違いに応じて連鎖性インデックスを増やし、例えば、開始元のブロックのフォントサイズが6ptであり、遷移先候補のブロックのフォントサイズが9ptなら、それらのブロック間の連鎖性インデックスは1.5倍にするような処理を行う。その後、ステップS1205に進む。ステップS1203にてNoの場合は、そのままステップS1205に進む。ステップS1205では、ブロック間でフォントの書体に違いがあるか確認する。ブロック間で書体が変わるような場合には連鎖性は少ないと考えられる。よって、ブロック間でフォントの書体が変わる場合には(ステップS1205にてYes)、連鎖性インデックスを2倍にする等、大きく増やす。その後、連鎖性インデックス編集処理を終了する。また、ステップS1205がNoの場合は、そのまま連鎖性インデックス編集処理を終了する。連鎖性インデックス編集処理が終了した後には、ページコンテンツ勘案処理も終了する。
【0033】
ブロック間の整列処理に戻り、ステップS904では、ステップS903にて判定した最優先判定に当てはまった場合においては、ブロックの遷移する方向は最優先判定の結果に従う処理を行う。また、最優先判定に当てはまらなかった場合には、ステップS902及びステップS903で導出した連鎖性インデックスを用いることで、ブロックの遷移する方向を決定する。なお、ステップS905では、一度遷移する方向が第1象限に決まった場合、その後は第1象限のみを遷移対象とする処理を行う。一方、一度遷移する方向が第3象限に決まった場合、その後は第3象限のみを遷移対象とする処理を行う。その後、ステップS906において、ステップS905の処理を遂行したのちに、遷移する対象の方向(対象の象限)にブロックが無くなった場合に遷移処理を一旦リセットし、ステップS907に進む。ステップS907において、まだ処理済みでない(整列済みでない)ブロックがページ内に残っているか確認し、残っている場合においては(ステップS907にてYes)、さらに処理を繰り返すため、ステップS901に戻る。ページ内に処理済みでないブロックが残っていない場合においては(ステップS907にてNo)、ブロック間の整列処理を終了する。
【0034】
その後、ステップS504では、ステップS503の整列処理によってソートされたブロックの順にブロック内のテキストを抽出する。このように、文書レイアウトに則したテキスト抽出を行うことで、ページ全体の文章性を損なうことなくテキストを取得することができる。
【0035】
よって、本発明によると、検索エンジンが本発明を用いることで、概念検索などページ全体の文章性が必要とされるような高度な検索において、その精度が向上する。
【実施例2】
【0036】
本発明は、複数の機器(例えばホストコンピュータ、インタフェース機器、プリンタなど)から構成されるシステムあるいは統合装置に適用しても、ひとつの機器からなる装置に適用してもよい。
【0037】
また、本発明の目的が、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給することによって、達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。又、コンピュータが読み出したプログラムコードの指示に基づき、オペレーティングシステム(OS)などが実際の処理の一部または全部を行い、前述した実施形態の機能が実現される場合も含まれる。
【0038】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。その後、そのプログラムコードの指示に基づき、機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、前述した実施形態の機能が実現される場合も含まれる。
【0039】
なお、本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
【図面の簡単な説明】
【0040】
【図1】PDFファイルのプレビュー例と、そのPDFファイル内のテキスト描画コマンドの配列の例を示す図である。
【図2】段組が施されたPDFの例を示す図である。
【図3】図2に対して、ベースラインのイメージ図を追加した図である。
【図4】本実施形態の、文書処理システムを実現するハードウェア構成例を示すブロック図である。
【図5】本実施形態の、文書処理の手順例を示すフローチャートである。
【図6】本実施形態の、レイアウト解析処理を示すフローチャートと、その補足図である。
【図7】書体の構成要素となるベースラインの例を示す図である。
【図8】本実施形態の、テキスト列結合処理を表すフローチャートと、その補足図である。
【図9】本実施形態の、ブロック間の整列処理を表すフローチャートと、その補足図である。
【図10】本実施形態の、ページコンテンツ勘案処理を表すフローチャートと、その補足図である。
【図11】本実施形態の、最優先判定処理を表すフローチャートと、その補足図である。
【図12】本実施形態の、連鎖性インデックス編集処理表すフローチャートと、その補足図である。
【図13】本実施形態の、条件入力のためのユーザーインターフェースの例を示す図である。
【符号の説明】
【0041】
101 PDFファイルのプレビュー例
102 101のPDFファイルが表すテキスト描画コマンド
201 PDFファイルのプレビュー例
301 ベースライン
302 ベースライン
303 ベースライン
401 CPU
402 キーボード
403 ディスプレイ
404 ハードディスク
405 ROM
406 RAM
407 レイアウト解析処理部
408 テキスト列結合処理部
409 ブロック間の整列処理部
6A フローチャートの補足説明
6B フローチャートの補足説明
701 ベースライン
8A 組み合わせ演算子標記による説明
8B フローチャートの補足説明
8C フローチャートの補足説明
9A フローチャートの補足説明
9B フローチャートの補足説明
11A フローチャートの補足説明
11B フローチャートの補足説明
12A フローチャートの補足説明
1301 条件設定のためのユーザーインターフェース

【特許請求の範囲】
【請求項1】
レイアウト情報を含む電子文書においてレイアウト解析処理(S501)を行い、平行かつ近傍に集合するテキスト列群を1つのブロックにまとめるブロック化手段(S502)と、前記ブロック間での読み順を決定するための連鎖性を判定するブロック連鎖性判定手段(S503)を備え、その連鎖順位に則した順番にてテキスト列を抽出する(S504)ことを特徴とする文書処理装置(410)。
【請求項2】
請求項1に記載の文書処理装置において、レイアウト情報を含む電子文書から、テキスト列及びテキスト列の座標情報を取得し(S801)、座標情報からブロック化すべき条件に含まれる場合(S802、S803)に、前記テキスト列をブロック化する(S804)ことを特徴とする文書処理装置(410)。
【請求項3】
請求項1に記載の文書処理装置において、ブロック連鎖性判定手段(S503)においては、連鎖性を判定するための決定的情報を解釈する最優先判定手段(S1001)を備えることを特徴とする文書処理装置(410)。
【請求項4】
請求項1に記載の文書処理装置において、最優先判定(S1001)がなされなかった場合に、連鎖性のインデックス算出を行い、前記インデックスの比較による判定(S1003)を行うことを特徴とする文書処理装置(410)。
【請求項5】
請求項1に記載の文書処理装置において、ブロック化判定を行うための条件のバロメータをユーザーインターフェース(1301)によって切り替えることができることを特徴とする文書処理装置(410)。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2010−176364(P2010−176364A)
【公開日】平成22年8月12日(2010.8.12)
【国際特許分類】
【出願番号】特願2009−17998(P2009−17998)
【出願日】平成21年1月29日(2009.1.29)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】