文書イメージ出力装置

【課題】文書をイメージデータとして切り取っておき、表示端末において見やすい位置に配置してイメージデータとして表示する。
【解決手段】文書から取り込まれたイメージデータの入力を受けて（ＳＴ１）、イメージデータのレイアウトを解析し、テキスト部分の範囲を行毎に分割（ＳＴ２）。各行イメージデータ（Ｌ１〜Ｌ５）について、文節または句読点である可能性が高い位置を探索し、該当位置で行イメージデータを分割（ＳＴ４）。小画面の表示端末に対しては、表示幅に収まり、かつ、文節または句読点の位置で改行した見やすい表示を提供（図２のＳＴ５）。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、スキャンした文書のイメージデータを、携帯電話などの小さい画面サイズに合わせて表示するための技術に関する。
【背景技術】
【０００２】
電子書籍化したデータを携帯電話などの端末に表示するために、ＯＣＲ処理により文書イメージをテキスト化する技術が存在する（特許文献１〜４）。
【０００３】
また、ＯＣＲ処理を行わずに、イメージデータをそのまま携帯電話などの小さな画面上に表示することも考えられる。しかし、この場合、読めないほど縮小して表示されてしまったり、拡大した場合に縦方向だけでなく、横方向にもスクロールするのは操作が煩雑であるといった問題を生じる。そこで、文書をイメージデータとして取り込んで文字毎にイメージを切り出して、画面サイズに合わせて改行して表示する技術が存在する（特許文献５、６）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００９−２５９１９０号公報
【特許文献２】特開２０００−１８１９９３号公報
【特許文献３】特開２００４−２９５３２９号公報
【特許文献４】特開２００７−１８１７８号公報
【特許文献５】特開２００４−５４５３号公報
【特許文献６】特開２００５−１８３３７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかし、ＯＣＲによる認識の場合、ＯＣＲ処理に時間がかかる、テキスト変換時に異なる文字として認識する可能性がある、元のフォントを反映できないといった問題がある。また、テキストのイメージを１文字単位で切り取って表示した場合には単語の途中であっても改行されてしまい、携帯電話の小画面デバイスにおいて見やすい表示を実現することはできず、さらに、文字の管理、配置処理が煩雑になるといった問題がある。
【０００６】
この発明は、文書をイメージデータとして取り込んで、文節または文章の終わり位置で切り取っておき、画面サイズに合わせて表示端末において見やすい位置で改行して画面上に表示することを目的とする。
【課題を解決するための手段】
【０００７】
(1)(13)この発明に係る文書イメージ出力装置は、画面表示用の文書イメージデータを出力するための文書イメージ出力装置であって、文書から取り込まれたイメージデータの入力を受けて、前記イメージデータのレイアウトを解析し、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割する行イメージ分割手段と、各行イメージデータについて、テキストが配列されている方向に所定スリット幅のスリットを順次設定し、当該各スリット内に含まれる表示画素数を計数し、当該計数した表示画素数に基づいて算出される指標値が、当該第１のしきい値以下となる部分が第１の所定幅を超えて存在する場合に、当該第１のしきい値以下となる部分が終了した位置の近傍において、行イメージデータを各セグメントに分割するセグメント分割手段と、分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶するセグメント記憶手段と、文書イメージデータが出力される表示領域の幅長さおよび前記分割された各セグメントのレイアウト情報に基づいて、セグメントを前記配列順序の順で、かつ、前記表示領域の幅長さより小さくなるように改行して配列した画面表示用のイメージデータを生成し、当該画面表示用のイメージデータを出力する結合イメージ出力手段とを備えている。
【０００８】
したがって、表示のためにイメージデータを用いているので、元の文書の文字と異なる文字に表示されるおそれがない。さらに、表示画素数に基づく指標値が第１のしきい値を越える場所で行イメージデータを分割しているので、概ね文節や句読点の位置において分割がなされ、表示の際に読みやすい位置で分割される。
【０００９】
さらに、表示の際、スクロール操作が一方向（上下または左右）だけでよく、操作性がよい。
【００１０】
(2)この発明に係る文書イメージ出力装置は、指標値が、前記スリットに含まれる表示画素数の、前記スリットの全体画素数に対する占有比率であることを特徴としている。
【００１１】
したがって、表示画素の割合により分割を行うことができる。
【００１２】
(3)この発明に係る文書イメージ出力装置は、指標値が、前記占有比率の移動平均であることを特徴としている。
【００１３】
したがって、局所的な占有比率の変化の影響を少なくして、より正確に分割を行うことができる。
【００１４】
(4)この発明に係る文書イメージ出力装置は、セグメント分割手段が、前記占有比率の移動平均が第１のしきい値以下となる部分が終了した位置の近傍において、前記占有比率が実質的に０になる位置を前記セグメントの分割位置とすることを特徴としている。
【００１５】
したがって、文字の途中で分割してしまうことを避けることができる。
【００１６】
(5)この発明に係る文書イメージ出力装置は、指標値が、行イメージデータのテキストが配列されている方向に設定した軸上の所定位置における前記表示画素数の微分値の絶対値または差分値の絶対値であることを特徴としている。
【００１７】
したがって、表示画素数の微分値の絶対値または差分値の絶対値に基づいて分割を行うことができる。
【００１８】
(6)この発明に係る文書イメージ出力装置は、指標値が、スリットに含まれる表示画素数の、スリットの全体画素数に対する占有比率の微分値の絶対値または差分値の絶対値であることを特徴としている。
【００１９】
したがって、占有比率の微分値の絶対値または差分値の絶対値に基づいて分割を行うことができる。
【００２０】
(7)この発明に係る文書イメージ出力装置は、セグメント分割手段が、指標値の第１のしきい値以下となる部分が終了し、指標値が第２のしきい値を超える部分において、行イメージデータを各セグメントに分割することを特徴としている。
【００２１】
したがって、より正確に文節の部分において分割することができる。
【００２２】
(8)この発明に係る文書イメージ出力装置は、指標値が第２の所定幅を超えて連続する場合には、当該部分に関し、前記第１のしきい値を下げて、セグメントの分割を行うことを特徴としている。
【００２３】
したがって、ひらがなやカタカナなどが連続する場合においても、分割を行うことが可能となる。
【００２４】
(9)この発明に係る文書イメージ出力装置は、指標値が第２の所定幅を超えて連続する場合には、当該部分に関し、前記スリットに含まれる表示画素数の、前記スリットの全体画素数に対する占有比率が実質的に０になる位置において分割を行うことを特徴としている。
【００２５】
したがって、ひらがなやカタカナなどが連続する場合においても、分割を行うことが可能となる。
【００２６】
(10)この発明に係る文書イメージ出力装置は、第１のしきい値が、ひらがな、カタカナまたは句読点と漢字とが連続する場合、漢字の前の位置をセグメントとして区切るように設定されていることを特徴としている。
【００２７】
(11)この発明に係る文書イメージ出力装置は、行イメージデータを連結した後に、セグメントへの分割を行うことを特徴としている。
【００２８】
したがって、元の文書において文節の途中で改行がなされていた場合であっても、適切に文節にて分割することができる。
【００２９】
(12)この発明に係る文書イメージ出力装置は、結合イメージ出力手段が、出力先の画面のサイズにより、小画面または大画面の判定をして、小画面の時は表示幅で改行して出力し、大画面の時は元の改行位置で改行して出力することを特徴としている。
【００３０】
(14)(15)(18)この発明に係る文書イメージ生成装置は、文書から取り込まれたイメージデータの入力を受けて、前記イメージデータのレイアウトを解析し、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割する行イメージ分割手段と、行毎に分割された行イメージデータについて、テキストが配列されている方向に所定スリット幅のスリットを順次設定し、当該各スリット内に含まれる表示画素数を計数し、当該計数した表示画素数に基づいて算出される指標値が、当該第１のしきい値以下となる部分が所定幅を超えて存在する場合に、当該第１のしきい値以下となる部分が終了した位置の近傍において、行イメージデータを各セグメントに分割するセグメント分割手段と、分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶するセグメント記憶手段とを備えている。
【００３１】
したがって、表示のためにイメージデータを用いているので、元の文書の文字と異なる文字に表示されるおそれがない。さらに、表示画素数に基づく指標値が第１のしきい値を越える場所で行イメージデータを分割しているので、概ね文節や句読点の位置において分割がなされ、表示の際に読みやすい位置で分割される。
【００３２】
(16)(17)この発明に係る文書イメージ表示装置は、文節または句読点にて分割されたセグメントを含む複数のセグメントと、当該セグメントの配列順序を含むレイアウト情報を受けとる手段と、文書イメージデータが出力される表示領域の幅長さおよび前記分割された各セグメントのレイアウト情報に基づいて、セグメントを前記配列順序の順で、かつ、前記表示領域の幅長さより小さくなるように改行して配列し、表示するイメージ表示手段とを備えている。
【００３３】
したがって、表示装置の表示画面にあわせて、文書のイメージデータを適切に表示することができる。
【００３４】
(19)この発明に係る文書イメージデータは、各行イメージデータについてテキストが配列されている方向に表示画素の密度の変化を得て、表示画素の密度が第１のしきい値より低い部分が所定幅以上連続した後、当該表示画素が前記第１のしきい値を超える位置の近傍にて、分割されたテキストのイメージデータを記録したテキストイメージデータ記録領域と、当該分割されたテキストイメージデータに対応づけて、分割されたイメージデータの配列順序を記録した配列順序記録領域とを有している。
【００３５】
したがって、表示装置の表示画面にあわせて、文書のイメージデータを適切に表示することができる。
【００３６】
(20)(21)この発明に係る文書イメージ出力装置は、文書を示すイメージデータの入力を受けて、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割する行イメージ分割手段と、各行イメージデータについて表示画素の密度をテキストが配列されている方向に得て、表示画素の密度が第１のしきい値より低い部分が所定幅以上連続した後、当該表示画素が前記第１のしきい値を超える位置の近傍にて、行イメージデータを各セグメントに分割するセグメント分割手段と、分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶するセグメント記憶手段と、セグメント記憶手段に記憶された各セグメントをそのまま、あるいは、出力先の表示画面の大きさに合致するように処理した後、出力する出力手段とを特徴としている。
【００３７】
したがって、表示画素の密度が第１のしきい値より低い部分が所定幅以上連続した後、当該表示画素が前記第１のしきい値を超える位置にて、行イメージデータを分割するようにしているので、概ね文節や句読点で分割することが可能である。
【００３８】
「表示画素」とは、背景ではなく文字などの実体を表す画素をいう。例えば、白黒２階調の場合には、黒画素が該当し、グレー階調の場合には、所定階調以上の画素が該当するが、白黒を反転表示したような場合には、白画素が表示画素に該当する。
【００３９】
「行イメージ分割手段」は、実施形態においては、ステップＳ０４がこれに対応する。
【００４０】
「セグメント分割手段」は、実施形態においては、ステップＳ３０がこれに対応する。
【００４１】
「セグメント記憶手段」は、実施形態においては、ステップＳ３０がこれに対応する。
【００４２】
「結合イメージ出力手段」は、実施形態においては、ステップＳ４８、Ｓ５０、Ｓ８０、Ｓ８２がこれに対応する
「プログラム」とは、ＣＰＵにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。
【図面の簡単な説明】
【００４３】
【図１】本発明の文書イメージ出力装置１００のブロック図である。
【図２】本発明の概念図である。
【図３】文書イメージ出力システム２００のシステム構成を示す図である。
【図４】出版社ＰＣ２のハードウェア構成を示す図である。
【図５】文書イメージ出力サーバ４のハードウェア構成を示す図である。
【図６】表示端末６のハードウェア構成を示す図である。
【図７】セグメントＤＢ５４のデータ例を示す図である。
【図８】文書イメージ出力システム２００における処理全体のフローチャートである。
【図９】レイアウト解析処理Ｓ１０２（図８）の詳細を示すフローチャートである。
【図１０】レイアウト解析の例を示す図である。
【図１１】セグメント分割処理Ｓ１０４（図８）の詳細を示すフローチャートである。
【図１２】テキストのイメージデータをスキャンするスリット幅について説明する図である。
【図１３】テキストのイメージデータ（図１３Ａ）に対応づけられた、所定位置におけるスリット内の占有比率を示すグラフ（図１３Ｂ）、所定位置における占有比率の移動平均を示すグラフ（図１３Ｃ）および所定位置における占有比率の差分値を示すグラフ（図１３Ｄ）である。
【図１４】結合イメージ生成処理Ｓ１０６（図８）の詳細を示すフローチャート図である。
【図１５】図１４に示すステップＳ４８の詳細を示すフローチャートである。
【図１６】小画面用に生成される結合イメージデータの例を示す図である。
【図１７】図１４に示すステップＳ５０の詳細を示すフローチャートである。
【図１８】大画面用に生成される結合イメージデータの例を示す図である。
【図１９】他の実施形態による結合イメージ表示処理の詳細を示すフローチャートである。
【図２０】その他の実施形態を示す図である。
【発明を実施するための形態】
【００４４】
１．本発明の概要
本発明の概要について、図１の文書イメージ出力装置１００のブロック図、および図２に示す発明の概念図を用いて、以下に説明する。
【００４５】
文書イメージ出力装置は、画面表示用の文書イメージデータを出力するための装置であり、行イメージ分割手段Ｂ０２、セグメント分割手段Ｂ０４、セグメント記憶手段Ｂ０６、結合イメージ出力手段Ｂ０８を備える。
【００４６】
図１の行イメージ分割手段Ｂ０２は、文書から取り込まれたイメージデータの入力を受けて（図２のＳＴ１）、イメージデータのレイアウトを解析し、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割する（図２のＳＴ２）。イメージデータの中に図表・挿絵が含まれる場合、これら図表イメージデータは、別途データベースに記憶される（図２のＳＴ３）。
【００４７】
図１のセグメント分割手段Ｂ０４は、各行イメージデータ（図２のＬ１〜Ｌ５）について、文節の区切りまたは句読点である可能性が高い位置を探索し、該当位置で行イメージデータを分割する（図２のＳＴ４）。
【００４８】
例えば、図２の行イメージデータＬ１について、表示画素である黒画素の密度を前方から後方に算出し、黒画素の密度が低い部分と、黒画素の密度が高い部分とが順に連続して存在する境界位置を分割する区切り位置とし、当該区切り位置において行イメージデータが各セグメントに分割される。
【００４９】
図１のセグメント記憶手段Ｂ０６は、分割されたセグメントの少なくとも配列順序（Ｌ１行の２番目など）を、レイアウト情報として各セグメントに関連づけて記憶する。このようにして、表示端末に対してイメージデータを提供するための前処理が完了する。
【００５０】
図１の結合イメージ出力手段Ｂ０８は、表示端末の表示領域サイズ（横書き文書の場合には、表示幅）に合わせて、文書イメージデータが出力される表示領域の幅長さと、分割された各セグメントのレイアウト情報とに基づいて、セグメントを配列順序の順で、かつ、表示領域の幅長さより小さくなるように改行して配列する。このようにして、配列されたセグメントのイメージは、画面表示用のイメージデータとして表示端末に出力される。
【００５１】
これにより、小画面の表示端末に対しては、表示幅に収まり、かつ、文節・句読点の位置で改行した見やすい表示を提供することができる（図２のＳＴ５）。また、元のレイアウト情報を保持しておくことで、例えば、大画面の表示端末に対して、元のレイアウトを再現したイメージデータを提供することができる（図２のＳＴ６）。
【００５２】
２．システム構成（図３）およびハードウェア構成（図４〜図６）
図３は、本発明の文書イメージ出力システム２００の構成を示す図である。本システムは、著作権者など、文書のイメージデータを紙媒体から取り込むための出版社ＰＣ２と、出版社ＰＣ２からイメージデータの提供を受けて、表示端末６に出力するイメージデータを生成するための文書イメージ出力サーバ４がネットワーク６を介して接続されている。また、ユーザーが有する小画面の表示端末６ａおよび大画面の表示端末６ｂが、文書イメージ出力サーバ４に接続できるように基地局８を介してネットワーク６に接続されている。さらに、ユーザーが有する大画面のＰＣ６ｃも文書イメージ出力サーバ４に接続できるようにネットワーク６に接続されている。
【００５３】
図４は、出版社ＰＣ２（図３）のハードウェア構成を示す図である。図４に示すように、出版社ＰＣ２は、ＣＰＵ２０、メモリ２２、ディスプレイ２４、ハードディスク２６、キーボード／マウス２８、通信回路３０、スキャナ３２を備えている。ハードディスク２６に記憶されたイメージ取得プログラム３３は、スキャナ３２から紙媒体のイメージデータを取り込む。ハードディスク２６に記憶された文書イメージ送信プログラム３４は、取り込まれたイメージデータを、文書イメージ出力サーバ４に送信する。
【００５４】
図５は、文書イメージ出力サーバ４（図３）のハードウェア構成を示す図である。図５に示すように、文書イメージ出力サーバ４は、ＣＰＵ４０、メモリ４２、ディスプレイ４４、ハードディスク４６、キーボード／マウス４８、通信回路４０を備えている。ハードディスク４６に記憶されたセグメント分割プログラム５２は、図３に示す出版社ＰＣ２から受けたイメージデータを、表示端末６のサイズに合わせて表示するために、予めテキスト部分のイメージを文節または句読点の位置で切り取った中間データを生成してセグメントＤＢ５４に記憶する。結合イメージ生成プログラム５６は、さらに、表示端末６の要求に応じて、セグメントＤＢ５４を参照してイメージデータを再構築する処理を実行する。
【００５５】
図６は、表示端末６（図３）のハードウェア構成を示す図である。図６に示すように、表示端末６は、ＣＰＵ６０、メモリ６２、ディスプレイ６４（表示端末６ａは小画面ディスプレイ６４ａ、表示端末６ｂは大画面ディスプレイ６４ｂ）、フラッシュメモリ６６、入力キー６８、無線または有線の通信回路７０を備えている。なお、図３に示す表示端末６ｃのハードウェア構成は、表示端末６ｂと同じである。
【００５６】
フラッシュメモリ６６に記憶された結合イメージ生成プログラム７２は、JPEG,GIFFなどのイメージファイルを表示することが可能なプログラムである。なお、この実施形態では、小画面の表示端末６ａのディスプレイ６４ａのサイズが、VGA（横４８０×縦６４０）である場合を例に説明する。
【００５７】
図７は、文書イメージ出力サーバ４のセグメントＤＢ５４に記憶されるデータの例を示す図である。
【００５８】
図７に示すように、セグメントＤＢ５４は、テキストとして分類されたセグメント「テキストセグメント」のデータベース（図７Ａ）と、図表として分類されたセグメント「図表セグメント」のデータベース（図７Ｂ）とに分けてられている。
【００５９】
図７Ａに示すテキストのデータ項目は、「ＩＤ」、「セグメント名」、「イメージの縦横サイズ」（ピクセル単位）、「セグメントの配列順序」などのレイアウト情報（ページ数−段落番号−行番号−配置番号、配置属性）である。図７Ｂに示すテキストのデータ項目は、「ＩＤ」、「セグメント名」、「イメージの縦横サイズ」（ピクセル単位）の他、「セグメントのレイアウト情報」（ページ数−レイアウト行の範囲（１−３行目）−配置属性（右））である。また、元のレイアウトを再現するため、図７Ａ、Ｂに示すテキストセグメントおよび図表セグメントの何れにもデータ項目として「原配置座標」（元原稿の左上端を原点として、各イメージの左上端を示す平面座標）が設けられている。
【００６０】
３．文書イメージ出力プログラムの処理
図８は、文書イメージ出力システム２００（図３）における処理全体の流れを示すフローチャートである。以下に、図８に示すレイアウト解析処理Ｓ１０２、セグメント分割処理Ｓ１０４、結合イメージ生成処理１０６、結合イメージ表示処理Ｓ１０８の順に説明する。
【００６１】
図８のレイアウト解析処理Ｓ１０２を行う対象の文書イメージは、予め出版社ＰＣ２から文書イメージ出力サーバ４にアップロードされている。例えば、出版社ＰＣ２のスキャナ３２を200dpiの解像度に設定し、白黒の2階調によりイメージデータの取り込みが行われる。
【００６２】
図９は、レイアウト解析処理Ｓ１０２（図８）の詳細を示すフローチャートである。レイアウト解析処理Ｓ１０２では、主としてテキスト部分のイメージを行毎に分割する処理が行われる。
【００６３】
文書イメージ出力サーバ４のセグメント分割プログラム５２が起動されると、ＣＰＵ４０は、文書のイメージデータを読み込み（ステップＳ０２）、文字や図表などの存在する表示画素部分だけを抽出する（ステップＳ０４）。具体的には、イメージデータを縦方向または横方向にスキャンして、図１０Ａに示すように、白画素のみで構成される範囲（図１０Ａに示す領域Ｈ）を切り取っていくことで、白画素の領域Ｈ以外の部分を表示画像部分Ｌとして特定することができる。なお、文書のイメージデータを水平に補正してから上記処理を行えば、より正確に表示画素部分を特定することができる。
【００６４】
これにより、図１０Ｂに示すように、テキスト部分Ｌ１〜Ｌ７および図表部分Ｆ１が矩形範囲として特定される。このとき、ＣＰＵ４０は、抽出された矩形範囲のサイズ・配置座標を抽出して、セグメントＤＢ５４に記憶されるためにメモリ４２に保持する（ステップＳ０６）。
【００６５】
つぎに、ＣＰＵ４０は、ノイズを除去するために、矩形範囲の幅がしきい値より小さいか否かを判定し（ステップＳ０８）、しきい値より小さな矩形範囲を削除する（ステップＳ１０）。例えば、縦横の幅が何れもしきい値２０ピクセル以下の矩形範囲が削除される。
【００６６】
さらに、ＣＰＵ４０は、矩形範囲の幅がしきい値（想定される行間隔が５０ｐｘの場合その２倍の１００ｐｘ）以上であるか否かを判断し、しきい値以上であると判断した矩形範囲（例えば、図１０Ｂの図表イメージＦ１）を図表としてレイアウト情報と関連づけてセグメントＤＢ５４（図７Ｂ）に記憶する。
【００６７】
ＣＰＵ４０は、テキスト部分と考えられる残りの矩形範囲について段落の位置を探索する（ステップＳ１６）。具体的には、図１０の行Ｌ６のように、上位の矩形に比べて右端の長さの短い行を段落の終わりと判定することができる。また、矩形範囲の開始位置が他の行より後ろにある行を段落の始め（１行目）と判定することができる。
【００６８】
ＣＰＵ４０は、矩形範囲が一定比率（縦横比が１：５または５：１）で所定長さ以上連続する長手方向を検出し、当該長さの方向に基づいて、縦書きまたは横書きの種別を文書の属性としてセグメントＤＢ５４に記憶する（ステップＳ１７）。例えば、図１０に示す文書は、横方向に長いセグメントが多いため横書きの文書と判定される。
【００６９】
ＣＰＵ４０は、テキストの矩形範囲に関するレイアウト情報を、行毎に生成した行イメージデータと関連づけてメモリ４２などに保持しておく（ステップＳ１８）。
【００７０】
図１１は、セグメント分割処理Ｓ１０４（図８）の詳細を示すフローチャートである。
【００７１】
文節の区切りが「{ひらがな／カタカナ／句読点}→漢字」という並びが多いことを利用して、各行毎の行イメージデータに対して、図８のセグメント分割処理が、以下のように実行される。すなわち、各行イメージデータに含まれる黒画素数に基づき算出される濃度の指標値が、前方から後方に「低」から「高」に変動する位置で各セグメントに分割される。
【００７２】
まず、各行イメージデータについて、テキストが配列されている方向（図１２のｘ方向）に所定幅のスリット（図１２に示す領域Ｓ）が設定される（ステップＳ２０）。図１２に示すように、この実施形態では、スリット幅を全角文字幅の１／８に設定している。イメージデータの解像度が240dpiとすれば、12ポイントの全角１文字を４８×４８程度のドットで取り込むことになる。この場合、図１２に示すように、１スリットは、６ドットの幅となる。
【００７３】
さらに、行イメージデータの幅方向について、各スリットに含まれる黒画素の総数が計数され（ステップＳ２２）、各スリットについて全体画素数に対する黒画素の占有比率が算出される（ステップＳ２４）。例えば、１スリット内に含まれる全体画素数が６ドット＊４８＝２８８個で、スリット内の黒画素がＮ個のとき、その占有比率はＮ／２８８で得られる。
【００７４】
図１３Ｂに、算出された各スリットの占有比率を示す。なお、図１３Ｂは、行イメージデータ（図１３Ａ）に対応付けて、各ｘ位置における黒画素数の計数値をグラフ化したものである。なお、図１３Ｂにおいて、１目盛りが占有比率１０％を示す。
【００７５】
さらに、ＣＰＵ４０は、所定スリット内における移動平均を算出する（ステップＳ２６）。例えば、前後の２スリットとした場合、５スリット分の移動平均が算出される。
【００７６】
図１３Ｃに、算出された占有比率の移動平均を示す。なお、図１３Ｂにおいて、１目盛りが、占有比率（平均値）１０％を示す。なお、図１３Ｃは、行イメージデータ（図１３Ａ）に対応付けて、各ｘ位置における黒画素数の計数値をグラフ化したものである。
【００７７】
ＣＰＵ４０は、移動平均が、前方から後方に所定スリット（４スリット）の幅以上、第１のしきい値以下（例えば、表示画素数の占有比率から算出した移動平均が１０％以下）で連続する部分を検出し（ステップＳ２８）、第２のしきい値以上（移動平均が第１のしきい値と同じ１０％超）となったｘ位置（図１３に示す、Ｐ１〜Ｐ３の位置）で分割する（ステップＳ３０）。この実施形態では、第１のしきい値と第２のしきい値を同じ値としている。
【００７８】
なお、図１３にＰ１’〜Ｐ３’に示すように、上記ｘ位置の最も近接で、黒画素の占有比率（図１３Ｂ）が極めて０％に近い（第３のしきい値以下の）位置で分割するようにしてもよい。
【００７９】
移動平均をとることによって、本来占有率が０％近傍であるにも拘わらず、当該値は上昇してしまう。そこで、この実施形態では、このような移動平均による影響を受けない幅（第１のしきい値が連続する幅）を用いて、「ひらがな／カタカナ／句読点」の部分を判定するようにしている。
【００８０】
このように、分割位置を決定する基準となる「第１のしきい値以下であるスリットの連続数」は、移動平均が影響を受けないように設定している。例えば、１文字分の８スリットとしてもよいが、影響を受ける前後２スリットの合計４スリットを除いた４スリットとすることもできる。
【００８１】
具体的には、移動平均の幅ｗを５スリットとし、スリット幅ｄを１／８文字としたとき、「第１のしきい値以下であるスリットの連続数」は、式１／ｄ−[ｗ／２]×２より、１／（１／８）−[５／２]×２＝４スリットで算出できる。
【００８２】
ここで、wは移動平均の幅を示すスリットの数であり、[ ]はガウス記号（小数点以下は切り捨て）を表す。
【００８３】
一方で、所定の幅長さ以上にわたって分割位置が存在しない場合も考えられる。例えば、ひらがなやカタカナが連続しており、漢字が存在しないため文節が見つからないような場合である。
【００８４】
ＣＰＵ４０は、所定のスリット数（例えば、１０文字分）に相当する幅長さ以上にわたって分割位置が存在しないセグメントが存在するとき（ステップＳ３２）、しきい値を下げて再度判定処理を実行し、所定位置で分割する（ステップＳ３４）。例えば、しきい値を占有比率の移動平均の１０％以下から５％以下に変更する。
【００８５】
ＣＰＵ４０は、分割されたセグメントを配列順序と関連づけてセグメントＤＢ５４に記憶する（ステップＳ３０）。以上で、表示端末で表示するイメージデータを再構築するための前処理が完了したことになる。
【００８６】
この実施形態では、濃度の変化に基づいて、セグメントへの分割を行っている。したがって、セグメント分割を行うために必要なイメージデータの解像度をＯＣＲ解析を行う場合に比べて粗くすることができる。
【００８７】
図１４は、結合イメージ生成処理Ｓ１０６（図８）および結合イメージ表示処理Ｓ１０８（図８）の詳細を示すフローチャート図である。
【００８８】
表示端末６（図３）において対象文書の閲覧要求の入力を受けて（ステップＳ４０）、端末の表示領域サイズが読み出され、文書イメージ出力サーバ４に送信される（ステップＳ４２）。このときに、携帯端末であれば、現在の閲覧状態（縦長または横長の種別）を表示領域サイズと併せて送信されることが好ましい。
【００８９】
文書イメージ出力サーバ４は、表示端末６からの閲覧要求に応じて、閲覧要求（ステップＳ４２）に含まれる端末の表示領域サイズに基づき、小画面か（または大画面か）否かを判断し、以下の再構築処理（ステップＳ４８またはＳ５０の何れか）を実行する（ステップＳ４６）。
【００９０】
この実施形態では、受信した端末装置の画面サイズのうち横幅が、６００ピクセル以下の場合に小画面と判断し、６００ピクセルを超えるときに大画面と判断するようにしている。よって、表示端末６ａの解像度がVGA（横４８０×縦６４０）である場合、小画面と判断される。なお、表示端末６の画面サイズの横幅が、元のイメージデータ（閲覧要求を受けた文書）の横幅以下の場合に小画面と判断し、元のイメージデータの横幅を超える場合に大画面と判断するようにしてもよい。
【００９１】
図１５は、図１４に示す小画面の場合（ステップＳ４８）の詳細を示すフローチャートである。
【００９２】
表示端末６の表示領域サイズが小画面（端末の閲覧状態における横ピクセル数が所定数未満）である判断したとき（Ｓ４６のＹｅｓ）、ＣＰＵ４０は、閲覧状態に基づいて決定した表示領域の幅に合わせて、コンピュータ内部において仮想表示する領域のサイズを決定する。例えば、表示端末６ａの表示領域サイズは、VGA（横４８０×縦６４０）であり、縦長閲覧状態である場合には、４８０ピクセルが仮想表示領域の幅として決定される。なお、仮想表示領域の下端は設定しない。
【００９３】
さらに、ＣＰＵ４０は、セグメントＤＢ５４から対象段落に属するテキストセグメントを読み出して、まず、イメージ領域の左上に最上位のセグメントのイメージ（図１６のＩｍ１）を配置する（ステップＳ５４）。次に、行の前方から右方向に順にテキストセグメントのイメージ（例えば、図１６のＩｍ２）を隣接して配置する（ステップＳ５６）。
【００９４】
セグメントが表示幅を超えるとき（例えば、図１６に点線で示すように、セグメントを配置したときに４８０ピクセルを超えるとき）、当該行が幅長さより小さくなるように下方左端の位置（図１６のＩｍ３）に改行して配置する（ステップＳ５８）。なお、このとき、見やすい表示とするために、所定幅の行間隔を設けて次行を配置するのがよい。以降は、Ｓ５８〜Ｓ６２の処理を繰り返す。
【００９５】
テキストセグメントを全て配置したとき（ステップＳ６０のＹｅｓ）、さらに、当該段落に関連づけられている図表・挿絵が存在する場合には（ステップＳ６２）、図１６に示すように、その図表・挿絵にＵＲＬなどによりリンク付けたアイコンＩｃをさらに配置して表示する（ステップＳ６８）。
【００９６】
その後、ＣＰＵ４０は、配置されたセグメントなどのイメージを１ファイルのイメージデータとして結合し、画面表示用のイメージデータ（結合イメージデータ）を生成する（図１４のＳ８０）。結合イメージデータは、表示端末６ａに出力される（図１４のＳ８２）。
【００９７】
図１７は、図１４に示す大画面の場合（ステップＳ５０）の詳細を示すフローチャートである。
【００９８】
表示端末６の表示領域サイズが大画面（端末の横ピクセル数が所定数以上）である判断したとき（Ｓ４６のＮｏ）、ＣＰＵ４０は、対象ページのセグメントを全て読み出す（ステップＳ６６）。
【００９９】
さらに、セグメントを配列順序（図７Ａに示すセグメントＤＢ５４に記憶されたレイアウト情報（ページ数−段落番号−行番号−配置番号））に従って配列する（ステップＳ６８）。
【０１００】
対象ページに関連づけられている図表・挿絵が存在する場合には、図表・挿絵のイメージを該当位置に配置する（ステップＳ８４）。これにより、図１８に示すようなデータが再現される。
【０１０１】
その後、ＣＰＵ４０は、配置されたセグメントなどのイメージを１ファイルのイメージデータとして結合し、画面表示用のイメージデータを生成する（図１４のＳ８０）。この画面表示用のイメージデータは、１つのイメージとしてもよいし、複数のセグメントのイメージデータによって構成されるものとしてもよい。画面表示用のイメージデータは、表示端末６ｂに出力される（図１４のＳ８２）。
【０１０２】
以上のようにして、表示端末６が小画面の場合には、表示の一単位（この実施形態では一段落）についての結合イメージデータが生成されて送信され、表示端末６が大画面の場合には、元のイメージデータの１ページ分の結合イメージデータが生成されて送信される。なお、大画面の場合には、もとのイメージデータをそのまま用いるようにしてもよい。
【０１０３】
結合イメージデータを受信した表示端末６は、これをディスプレイ上に表示する（ステップＳ４３）。小画面の表示端末６において、一段落分の結合イメージデータの長さが、ディスプレイの表示領域より長い場合には、下方向にスクロール操作をすることで閲覧を行うことができる。この場合、必ず、横方向にはスクロール操作が必要とならないように結合イメージデータが生成されているので、操作が容易である。
【０１０４】
表示端末装置６は、継続閲覧要求（たとえば、小画面の場合には次段落閲覧要求であり、大画面の場合には次ページ閲覧要求）を受けて、これをサーバ４に送信する（ステップＳ４４）。継続閲覧要求を受けたサーバ４は、大画面の場合には、ステップＳ５０、Ｓ８０、Ｓ８２を再度実行し、小画面の場合には、ステップＳ４８、Ｓ８０、Ｓ８２を再度実行し、次の結合イメージデータを生成して送信する。
【０１０５】
４．その他の実施形態
なお、上記実施形態では、文書イメージ出力サーバ４でセグメントを結合したイメージデータを生成し、表示端末６に当該イメージデータの表示処理だけを実行させることとした。しかし、文書イメージ出力サーバ４からは、要求された段落などに属するセグメントを送り、高性能の表示端末６において、文書イメージ出力サーバ４から受けた複数のセグメントを端末側でイメージに再構築するようにしてもよい。これにより、例えば、表示端末６において縦表示から横表示に表表示を変更した場合でも、表示領域の幅に応じてセグメントを再配置することが容易となり、表示変更のためにサーバに接続する必要がなくなる。
【０１０６】
なお、上記実施形態では、図３に示す出版社ＰＣ２、文書イメージ出力サーバ４、表示端末６が一連の処理を連携して行うこととしたが、全ての処理を表示端末６だけで行うようにしてもよい。
【０１０７】
なお、上記実施形態では、サーバの事業者がユーザーにサービスを提供することとしたが、文書のイメージデータを私的利用のために自己のサーバにアップしておき、必要時に閲覧して利用するようにしてもよい。
【０１０８】
なお、上記実施形態では、各行の行イメージデータについてセグメント分割処理（図８のＳ１０４、図１１）を行うこととしたが、行イメージデータを前行の後端と次行の前方で結合した状態で、セグメントの分割処理を実行してもよい。これにより、元のイメージデータで文節または句読点で改行されていない行間において、文節で改行されないセグメントの生成を抑制することができる。
【０１０９】
なお、上記実施形態では、図２０Ａに示すように、全角一文字に対して４８ドット相当となるような解像度にて２値のイメージデータを得るようにしている。その上で、３ドット幅のスリットにて、黒画素の占有率を算出するようにしている。
【０１１０】
しかし、図２０Ｂに示すように、より解像度の粗いイメージデータを用いることもできる。図２０Ｂにおいては、全角一文字に対して６ドット相当となるような解像度にて２値のイメージデータを得るようにしている。ただし、この場合において、黒画素の占有率にて算出を行うと、解像度が粗すぎて、区切り位置を適切に見いだせない可能性がある。そこで、解像度が粗い場合には、２値のイメージデータではなく、階調のあるイメージデータを用いればよい。たとえば、６４階調のイメージデータを用いれば、その階調が上記黒がその占有率と実質的に等価になる。つまり、階調データを、そのまま図１３Ｂに示す占有率として用いることができる。
【０１１１】
なお、上記実施形態では、出版社ＰＣ２からイメージデータを取り込むこととしたが、文書イメージ出力サーバ４でイメージデータを取り込むようにしてもよい。
【０１１２】
なお、上記実施形態では、スキャナーで取り込まれる文書、文字の解像度を200dpiとしたが、他の解像度（例えば、100〜400dpi）としてもよい。
【０１１３】
なお、セグメントＤＢ５４ののレイアウト情報を構成するデータ項目として「章」の番号を加えてもよい。
【０１１４】
なお、上記実施形態では、白画素を含む矩形領域を削除して、文章などの存在する表示画素部分だけを抽出することとしたが（図９のステップＳ０４）。しかし、黒画素が多く集まる矩形範囲を特定するようにしてもよい。
【０１１５】
なお、上記実施形態では、矩形範囲のサイズ、比率に基づいて段落の位置を検出したが、イメージデータから「。」で終わる位置を検出（すなわち、「。」およびこれに続く「スペース」のイメージを認識）して段落の位置を検出してもよい。
【０１１６】
なお、上記実施形態では、第２のしきい値を第１のしきい値と同じにしたが、第２のしきい値を第１のしきい値よりも大きい値に設定してもよい（ただし、第１のしきい値＜第２のしきい値とする）。
【０１１７】
なお、上記実施形態では、移動平均の幅を５スリット「前後２スリットを含む」としたが、これに限定されるものではなく、７スリット「前後３スリットを含む」などとしてもよい。また、移動平均をとる前方のスリット数と後方のスリット数とを同じにしたが、移動平均をとる前方のスリット数と後方のスリット数とを異ならせてもよい。
【０１１８】
なお、上記実施形態では、指標値として表示画素占有率の移動平均（図１３Ｃ）を用いたが、図１３Ｂに示す占有率を微分した微分値の絶対値または占有率を差分した差分値の絶対値に基づいて判断してもよい。図１３Ｄに、占有率を差分した差分値を示す。例えば、図１３Ｄにおいて、差分値０から上下１目盛り分（絶対値）をしきい値とし、所定の長さだけしきい値を下回って、後にしきい値を超えた位置の近傍を区切り位置とすることができる。
【０１１９】
さらに、表示画素占有率ではなく、表示画素数の微分値の絶対値または占有率の差分値の絶対値を指標値としてもよい。この場合においても、微分値が所定の長さだけしきい値を下回って、後にしきい値を超えた位置の近傍を区切り位置とすればよい。
【０１２０】
また、スリット幅を広くして徐々に移動させるなどしてもよい。例えば、上記実施形態において、スリット幅を１５ドットに設定し、３ドットずつ後方に移動させながら占有率を算出すれば、図１３Ｃの移動平均を直接得ることができる。
【０１２１】
なお、上記実施形態では、指標値として表示画素占有率の移動平均を用いたが、各スリットの占有率（図１３Ｂ）をそのまま用いて、区切り位置を見出すようにしてもよい。例えば、占有率が２０％（図１３Ｂに示す２目盛り）以上を漢字と認識し、１０％（図１３Ｂに示す１目盛り）以下を仮名文字または句読点と認識すれば、表示画素数の計数だけで処理を行うことができる。この場合、１０％〜２０％の間は「不明」（すなわち、「漢字」「仮名文字または句読点」のいずれにも認識しない）とする。区切り位置は、例えば、占有率１０％以内が所定長さだけ続き、その後、２０％にまで上昇した位置を抽出することによって決定することができる。
【０１２２】
なお、上記実施形態では、スリット幅をテキスト部分の高さの１／８に設定したが、例えば、１／６に設定する等、より幅を狭くまたは広く設定してもよい。
【０１２３】
なお、上記実施形態では、スリット幅の高さをテキスト部分の高さと同じに設定して指標値の濃度を判別したが、テキスト部分の高さより小さい幅に設定して指標値の濃度を判別するようにしてもよい。例えば、上記実施形態において、テキストの高さの半分の幅を有する領域をテキスト部分の中央に設定して指標値の濃度を判別するようにしてもよい。
【０１２４】
なお、上記実施形態では、第１のしきい値以下である部分の幅長さを４スリット分としたが、移動平均が影響を受けないのであれば、これに限られない。例えば、上記実施形態において「第１のしきい値以下であるスリットの連続数」は、１／ｄ−[ｗ／２]×２＝４スリット分と算出したが、より簡素化した（式）１／ｄ−ｗから、３スリット分（８−５）としてもよい。なお、ｗは自然数であり、[ｗ／２]×２とｗの差が１より大きくなることはない。
【０１２５】
なお、上記実施形態では、第１のしきい値を移動平均１０％としたが、これに限られない。なお、上記実施形態では、第２のしきい値を第１のしきい値と同じ１０％としたが、これに限定されるものではない。
【０１２６】
なお、上記実施形態では、所定長において漢字が見つからないときに、しきい値を下げるようにしたが、当該範囲を占有率が０パーセントになる位置で分割する（１文字ずつ切り出す）ようにしてもよい。
【０１２７】
また、セグメントの最長文字長に併せて複数パターンの中間データを持っておくこともできる。例えば、最長文字長を１００ドット、２００ドット、３００ドットの幅長さにそれぞれ設定した上で、セグメントの分割処理（図１１のＳ３２）を実行して生成した中間データを別々に記憶しておけばよい。なお、仮名文字・句読点のような低密度文字が連続する場合には、図１１のＳ３２に示すように、しきい値を下げることが有効と考えられるが、漢字のような高密度文字が連続するような場合には、逆にしきい値を上げることも可能であると考えられる。
【０１２８】
なお、上記実施形態では、解像度がVGAの表示端末を用いたが、他のサイズ（WVGA、SVGA、XGAなど）表示端末を用いてもよい。
【０１２９】
なお、上記実施形態では、クリック操作に基づいて、サーバにアクセスして段落番号ごとに表示としたが、クリック操作に基づいて、サーバにアクセスしてページ、文章毎に表示してもよい。
【０１３０】
なお、上記実施形態では、スキャナからイメージデータを取り込むこととしたが、テキストデータからイメージデータを生成してもよい。
【０１３１】
なお、上記実施形態では、前方から後方にスキャンすることとしたが、テキストが配列された方向であればよく、反対方向、すなわち後方から前方にスキャンして同様の処理を行ってもよい。縦書きにおいても同様である。
【０１３２】
なお、上記実施形態では、セグメントＤＢ５４（図７）に所定位置で分割したセグメントを中間データとして記憶することとしたが、イメージデータは各行毎にもっておいて、これに対応付けて分割する所定位置を記憶しておくようにしてもよい。
【０１３３】
なお、上記実施形態では、配置したイメージである複数のセグメントを１つのイメージデータとして結合して出力するようにしている。しかし、図１９のフローチャートに示すように、セグメントおよびレイアウト情報を出力するようにして、端末側でセグメントを配置した上で表示するようにしてもよい。
【０１３４】
図１９に示すように、表示端末６は、対象文書の閲覧要求を文書イメージ出力サーバ４に送信し（ステップＳ８８）、これを受けて文書イメージ出力サーバ４は、対象文書のセグメント及びレイアウト情報を表示端末６に送信する（ステップＳ９０）。
【０１３５】
表示端末６のＣＰＵ６０は、その表示領域サイズが小画面か（または大画面か）否かを判断し（ステップＳ９２）、その結果、小画面の場合には再構築処理Ｓ９４（図１４のＳ４８に対応する図１５に示すフローチャートと同様の処理）を実行し、配置されたイメージデータを画面上に出力する（ステップＳ９６）。大画面の場合には再構築処理Ｓ９８（図１４のＳ５０に対応する図１７に示すフローチャートと同様の処理）を実行し、配置されたイメージデータを画面上に出力する（ステップＳ９６）。

【特許請求の範囲】
【請求項１】
画面表示用の文書イメージデータを出力するための文書イメージ出力装置であって、
文書から取り込まれたイメージデータの入力を受けて、前記イメージデータのレイアウトを解析し、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割する行イメージ分割手段と、
各行イメージデータについて、テキストが配列されている方向に所定スリット幅のスリットを順次設定し、当該各スリット内に含まれる表示画素数を計数し、当該計数した表示画素数に基づいて算出される指標値が、当該第１のしきい値以下となる部分が第１の所定幅を超えて存在する場合に、当該第１のしきい値以下となる部分が終了した位置の近傍において、行イメージデータを各セグメントに分割するセグメント分割手段と、
分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶するセグメント記憶手段と、
文書イメージデータが出力される表示領域の幅長さおよび前記分割された各セグメントのレイアウト情報に基づいて、セグメントを前記配列順序の順で、かつ、前記表示領域の幅長さより小さくなるように改行して配列した画面表示用のイメージデータを生成し、当該画面表示用のイメージデータを出力する結合イメージ出力手段と、
を備えたこと特徴とする文書イメージ出力装置。
【請求項２】
請求項１の文書イメージ出力装置において、
前記指標値は、前記スリットに含まれる表示画素数の、前記スリットの全体画素数に対する占有比率であること、
を特徴とする文書イメージ出力装置。
【請求項３】
請求項２の文書イメージ出力装置において、
前記指標値は、前記占有比率の移動平均であること、
を特徴とする文書イメージ出力装置。
【請求項４】
請求項３の文書イメージ出力装置において、
前記セグメント分割手段は、前記占有比率の移動平均が第１のしきい値以下となる部分が終了した位置の近傍において、前記占有比率が実質的に０になる位置を前記セグメントの分割位置とすること
を特徴とする文書イメージ出力装置。
【請求項５】
請求項１の文書イメージ出力装置において、
前記指標値は、行イメージデータのテキストが配列されている方向に設定した軸上の所定位置における前記表示画素数の微分値の絶対値または差分値の絶対値であること、
を特徴とする文書イメージ出力装置。
【請求項６】
請求項１の文書イメージ出力装置において、
前記指標値は、前記スリットに含まれる表示画素数の、前記スリットの全体画素数に対する占有比率の微分値の絶対値または差分値の絶対値であること
を特徴とする文書イメージ出力装置。
【請求項７】
請求項１〜６のいずれかの文書イメージ出力装置において、
前記セグメント分割手段は、前記指標値の第１のしきい値以下となる部分が終了し、当該指標値が第２のしきい値を超える部分において、行イメージデータを各セグメントに分割すること
を特徴とする文書イメージ出力装置。
【請求項８】
請求項１〜７のいずれかの文書イメージ出力装置において、
前記指標値が第２の所定幅を超えて連続する場合には、当該部分に関し、前記第１のしきい値を下げて、セグメントの分割を行うこと
を特徴とする文書イメージ出力装置。
【請求項９】
請求項１〜７のいずれかの文書イメージ出力装置において、
前記指標値が第２の所定幅を超えて連続する場合には、当該部分に関し、前記スリットに含まれる表示画素数の、前記スリットの全体画素数に対する占有比率が実質的に０になる位置において分割を行うこと
を特徴とする文書イメージ出力装置。
【請求項１０】
請求項１〜９のいずれかの文書イメージ出力装置において、
前記第１のしきい値は、ひらがな、カタカナまたは句読点と漢字とが連続する場合、漢字の前の位置をセグメントとして区切るように設定されていること
を特徴とする文書イメージ出力装置。
【請求項１１】
請求項１〜１０のいずれかの文書イメージ出力装置において、
前記行イメージデータを連結した後に、セグメントへの分割を行うこと
を特徴とする文書イメージ出力装置。
【請求項１２】
請求項１〜１１の文書イメージ出力装置において、
前記結合イメージ出力手段は、出力先の画面のサイズにより、小画面または大画面の判定をして、小画面の時は表示幅で改行して出力し、大画面の時は元の改行位置で改行して出力すること、
を特徴とする文書イメージ出力装置。
【請求項１３】
画面表示用の文書イメージデータを出力するための文書イメージ出力装置をコンピュータによって実現するためのプログラムであって、
コンピュータを、
文書から取り込まれたイメージデータの入力を受けて、前記イメージデータのレイアウトを解析し、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割する行イメージ分割手段と、
各行イメージデータについて、テキストが配列されている方向に所定スリット幅のスリットを順次設定し、当該各スリット内に含まれる表示画素数を計数し、当該計数した表示画素数に基づいて算出される指標値が、当該第１のしきい値以下となる部分が第１の所定幅を超えて存在する場合に、当該第１のしきい値以下となる部分が終了した位置の近傍において、行イメージデータを各セグメントに分割するセグメント分割手段と、
分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶するセグメント記憶手段と、
文書イメージデータが出力される表示領域の幅長さおよび前記分割された各セグメントのレイアウト情報に基づいて、セグメントを前記配列順序の順で、かつ、前記表示領域の幅長さより小さくなるように改行して配列した画面表示用のイメージデータを生成し、当該画面表示用のイメージデータを出力する結合イメージ出力手段と、
して機能させるためのプログラム。
【請求項１４】
画面表示用の文書イメージデータを生成するための文書イメージ生成装置であって、
行毎に分割された行イメージデータについて、テキストが配列されている方向に所定スリット幅のスリットを順次設定し、当該各スリット内に含まれる表示画素数を計数し、当該計数した表示画素数に基づいて算出される指標値が、当該第１のしきい値以下となる部分が所定幅を超えて存在する場合に、当該第１のしきい値以下となる部分が終了した位置の近傍において、行イメージデータを各セグメントに分割するセグメント分割手段と、
分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶するセグメント記憶手段と、
を備えた文書イメージ生成装置。
【請求項１５】
文書イメージを生成する装置をコンピュータによって実現するためのプログラムであって、
コンピュータを、
画面表示用の文書イメージデータを生成するための文書イメージ生成装置であって、
文書から取り込まれたイメージデータの入力を受けて、前記イメージデータのレイアウトを解析し、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割する行イメージ分割手段と、
各行イメージデータについて、テキストが配列されている方向に所定スリット幅のスリットを順次設定し、当該各スリット内に含まれる表示画素数を計数し、当該計数した表示画素数に基づいて算出される指標値が、当該第１のしきい値以下となる部分が所定幅を超えて存在する場合に、当該第１のしきい値以下となる部分が終了した位置の近傍において、行イメージデータを各セグメントに分割するセグメント分割手段と、
分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶するセグメント記憶手段と、
して機能させるためのプログラム。
【請求項１６】
文書イメージデータを表示するための表示装置であって、
文節または句読点にて分割されたセグメントを含む複数のセグメントと、当該セグメントの配列順序を含むレイアウト情報を受けとる手段と、
文書イメージデータが出力される表示領域の幅長さおよび前記分割された各セグメントのレイアウト情報に基づいて、セグメントを前記配列順序の順で、かつ、前記表示領域の幅長さより小さくなるように改行して配列し、表示するイメージ表示手段と、
を備えた表示装置。
【請求項１７】
文書イメージデータを表示するための表示装置をコンピュータによって実現するためのプログラムであって、
コンピュータを、
文節または句読点にて分割されたセグメントを含む複数のセグメントと、当該セグメントの配列順序を含むレイアウト情報を受けとる手段と、
文書イメージデータが出力される表示領域の幅長さおよび前記分割された各セグメントのレイアウト情報に基づいて、セグメントを前記配列順序の順で、かつ、前記表示領域の幅長さより小さくなるように改行して配列し、表示するイメージ表示手段と、
して機能させるためのプログラム。
【請求項１８】
コンピュータによって、画面表示用の文書イメージデータを生成するための文書イメージ生成方法であって、
前記コンピュータが。文書から取り込まれたイメージデータの入力を受けて、前記イメージデータのレイアウトを解析し、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割し、
前記コンピュータが、各行イメージデータについて、テキストが配列されている方向に所定スリット幅のスリットを順次設定し、当該各スリット内に含まれる表示画素数を計数し、当該計数した表示画素数に基づいて算出される指標値が、当該第１のしきい値以下となる部分が所定幅を超えて存在する場合に、当該第１のしきい値以下となる部分が終了した位置の近傍において、行イメージデータを各セグメントに分割し、
前記コンピュータが、分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶すること、
を備えた文書イメージ生成方法。
【請求項１９】
各行イメージデータについて配列されている方向に表示画素の密度の変化をテキストが得て、表示画素の密度が第１のしきい値より低い部分が所定幅以上連続した後、当該表示画素が前記第１のしきい値を超える位置の近傍にて、分割されたテキストのイメージデータを記録したテキストイメージデータ記録領域と、
当該分割されたテキストイメージデータに対応づけて、分割されたイメージデータの配列順序を記録した配列順序記録領域と、
を有する文書イメージデータ。
【請求項２０】
画面表示用の文書イメージデータを出力するための文書イメージ出力装置であって、
文書を示すイメージデータの入力を受けて、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割する行イメージ分割手段と、
各行イメージデータについて表示画素の密度をテキストが配列されている方向に得て、表示画素の密度が第１のしきい値より低い部分が所定幅以上連続した後、当該表示画素が前記第１のしきい値を超える位置の近傍にて、行イメージデータを各セグメントに分割するセグメント分割手段と、
分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶するセグメント記憶手段と、
セグメント記憶手段に記憶された各セグメントをそのまま、あるいは、出力先の表示画面の大きさに合致するように処理した後、出力する出力手段と、
を備えた文書イメージ出力装置。
【請求項２１】
画面表示用の文書イメージデータを出力するための文書イメージ出力装置をコンピュータによって実現するためのプログラムであって、
コンピュータを、
文書を示すイメージデータの入力を受けて、テキスト部分の範囲を行毎に特定し、各行の行イメージデータに分割する行イメージ分割手段と、
各行イメージデータについて表示画素の密度をテキストが配列されている方向に得て、表示画素の密度が第１のしきい値より低い部分が所定幅以上連続した後、当該表示画素が前記第１のしきい値を超える位置の近傍にて、行イメージデータを各セグメントに分割するセグメント分割手段と、
分割された前記セグメントの少なくとも配列順序を、レイアウト情報として各セグメントに関連づけて記憶するセグメント記憶手段と、
セグメント記憶手段に記憶された各セグメントをそのまま、あるいは、出力先の表示画面の大きさに合致するように処理した後、出力する出力手段と、
して機能させるためのプログラム。

【図１】