画像処理装置およびプログラム

【課題】複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理装置を提供する。
【解決手段】特徴文字列候補抽出部３２は、原稿に関する文字列である特徴文字列の候補を、頁ごとに１つずつ抽出する。頁情報算出部３４は、特徴文字列候補それぞれに関する頁に関する頁情報を頁ごとに算出する。特徴文字列決定部３６は、各頁から特徴文字列候補が算出されその特徴文字列候補に関する頁情報が算出されるごとに、その特徴文字列候補に関する頁情報に基づいて、原稿全体の特徴文字列を決定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置およびプログラムに関する。
【背景技術】
【０００２】
特許文献１は、タイトル文字列の近傍に記載されるキーワード文字列の位置及びキーワード文字列に対するタイトル文字列の相対的な位置に基づいてタイトル文字列の位置を取得し、そのタイトル文字列の位置に基づいてタイトル文字列のデータを出力するタイトル抽出装置を開示する。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００８−７７４５４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
本発明の目的は、複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理装置を提供することである。
【課題を解決するための手段】
【０００５】
請求項１にかかる本発明は、複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、前記係数算出手段によって１つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出手段によって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第１の基準値を超えた場合に、前記第１の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段とを有する画像処理装置である。
【０００６】
請求項２にかかる本発明は、前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段をさらに有し、前記時間算出手段によって１つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記特徴文字列決定手段は、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの前記係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する請求項１に記載の画像処理装置である。
【０００７】
請求項３にかかる本発明は、前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの前記係数のうちの最大の係数が前記第１の基準値よりも小さい第２の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する請求項２に記載の画像処理装置である。
【０００８】
請求項４にかかる本発明は、前記特徴文字列決定手段は、原稿の全ての頁について前記算出された係数が前記第１の基準値を超えなかった場合に、算出された係数のうちの最大の係数に関する特徴文字列の候補を前記原稿の特徴文字列として決定する請求項１に記載の画像処理装置である。
【０００９】
請求項５にかかる本発明は、前記特徴文字列決定手段は、原稿の全ての頁について前記係数が第１の基準値を超えなかった場合であって、算出済みの係数のうちの最大の係数が前記第１の基準値よりも小さい第２の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する請求項４に記載の画像処理装置である。
【００１０】
請求項６にかかる本発明は、複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段と、前記時間算出手段によって１つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの前記係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段とを有する画像処理装置である。
【００１１】
請求項７にかかる本発明は、前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの係数のうちの最大の係数が前記第１の基準値よりも小さい第２の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する請求項６に記載の画像処理装置である。
【００１２】
請求項８にかかる本発明は、複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出ステップと、前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出ステップにおいて頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出ステップと、前記係数算出手段によって１つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出ステップによって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第１の基準値を超えた場合に、前記第１の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定ステップとをコンピュータに実行させる画像処理プログラムである。
【発明の効果】
【００１３】
請求項１に係る本発明によれば、複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理装置を提供することができる。
【００１４】
請求項２に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、原稿の特徴文字列の決定に要する時間を、本構成を有していない場合と比較して削減することができる。
【００１５】
請求項３に係る本発明によれば、請求項２に係る本発明により得られる効果に加えて、原稿の特徴文字列として不適切な文字列が特徴文字列として決定されることを排除できる。
【００１６】
請求項４に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、全頁の処理後に原稿の特徴文字列を決定できる。
【００１７】
請求項５に係る本発明によれば、請求項４に係る本発明により得られる効果に加えて、原稿の特徴文字列として不適切な文字列が特徴文字列として決定されることを排除できる。
【００１８】
請求項６に係る本発明によれば、複数の頁から構成される原稿の特徴文字列の決定に要する時間を、本構成を有していない場合と比較して削減可能な画像処理装置を提供できる。
【００１９】
請求項７に係る本発明によれば、請求項６に係る本発明により得られる効果に加えて、原稿の特徴文字列として不適切な文字列が特徴文字列として決定されることを排除できる。
【００２０】
請求項８に係る本発明によれば、複数の頁から構成される原稿の特徴文字列を、本構成を有していない場合と比較して効率的に決定可能な画像処理プログラムを提供することができる。
【図面の簡単な説明】
【００２１】
【図１】本実施形態にかかる画像処理装置のハードウェア構成を例示する図である。
【図２】図１に示した画像処理装置において動作する処理プログラムである。
【図３】図２に示した特徴文字列候補抽出部の構成を示す図である。
【図４】図２に示した頁情報算出部の構成を示す図である。
【図５】図２に示した特徴文字列決定部の構成を示す図である。
【図６】位置配点基準情報と規模配点基準情報と頻度配点基準情報とを例示する図である。
【図７】処理プログラムの処理を示すフローチャートである。
【図８】本実施形態に係る画像処理装置の処理結果を例示する図である。
【発明を実施するための形態】
【００２２】
図１は、本実施形態にかかる画像処理装置２のハードウェア構成を例示する図である。
図１に例示するように、画像処理装置２は、ＣＰＵ等の演算部２１２及びメモリ等の記憶部２１４などを含む制御装置２１と、通信装置２２と、記録装置２４と、ユーザインターフェース装置（ＵＩ装置）２５と、印刷装置２６と、画像読取装置２７とから構成される。
【００２３】
ＵＩ装置２５は、ＬＣＤ（Liquid Crystal Display）表示装置あるいはＣＲＴ（Cathode Ray Tube）表示装置等の表示装置およびキーボード・タッチパネルなどを含む。
印刷装置２６は、例えばプリンタ等であって、文字データまたは画像データ等を用紙等の記録媒体に印刷する。
画像読取装置２７は、例えばスキャナ等であって、原稿等の記録媒体から画像等を読み取って、例えばビットマップ形式の読取情報に変換する。
つまり、画像処理装置２は、情報処理および他の画像処理装置又は端末との通信が可能なコンピュータとしてのハードウェア構成部分を有している。
また、以下の各図において、実質的に同じ構成部分および処理には同じ番号が付される。
なお、本実施形態において、画像処理装置２は印刷装置２６および画像読取装置２７を有するとしたが、画像処理装置は、印刷装置および画像読取装置を有さない例えばＰＣであってもよく、この場合、画像処理装置は、画像読取装置とＬＡＮ（Local Area Network）等を介して接続されていてもよい。
【００２４】
図２は、図１に示した画像処理装置２において動作する処理プログラム３の構成を示す図である。
図２に示すように、処理プログラム３は、原稿読取情報受付部３０２、原稿読取情報管理部３０４、配置解析部３０８、文字列抽出部３１０、特徴文字列候補抽出部３２、頁情報算出部３４、特徴文字列候補管理部３５８および特徴文字列決定部３６から構成される。
処理プログラム３は、たとえば、記憶媒体２４０（図１）を介して画像処理装置２に供給され、記憶部２１４にロードされ、画像処理装置２にインストールされたＯＳ（図示せず）上で、画像処理装置２のハードウェア資源を具体的に利用して実行される。
なお、本実施形態においては、処理プログラム３は、ソフトウェアで実現されるとしているが、処理プログラム３の全部又は一部は、例えばＦＰＧＡ（Field Programmable Gate Array）などのハードウェアで実現されてもよい。
【００２５】
図３は、図２に示した特徴文字列候補抽出部３２の構成を示す図である。
図３に示すように、特徴文字列候補抽出部３２は、文字列位置算出部３２２、文字列位置配点部３２４、文字列規模算出部３２６、文字列規模配点部３２８、文字列頻度算出部３３０、文字列頻度配点部３３２、配点合計部３３４、配点格納部３３６および特徴文字列候補判定部３３８から構成される。
図４は、図２に示した頁情報算出部３４の構成を示す図である。
図４に示すように、頁情報算出部３４は、配点抽出部３４２、候補係数算出部３４４、処理時間算出部３４６、累積処理時間算出部３４８および処理時間管理部３５０から構成される。
【００２６】
図５は、図２に示した特徴文字列決定部３６の構成を示す図である。
図５に示すように、特徴文字列決定部３６は、候補係数比較部３６２、累積処理時間比較部３６４、処理頁数判断部３６６および特徴文字列判定部３６８から構成される。
【００２７】
処理プログラム３（図２）において、原稿読取情報受付部３０２は、画像読取装置２７から得られた読取情報（原稿読取情報）を受け付け、受け付けた原稿読取情報を原稿読取情報管理部３０４に対して出力する。
原稿読取情報管理部３０４は、原稿読取情報受付部３０２からの原稿読取情報を記憶し、管理する。
また、原稿読取情報管理部３０４は、原稿が複数頁から構成される場合、特徴文字列決定部３６からの命令に応じて、配置解析部３０８および文字列抽出部３１０が頁ごとに処理を行うように制御する。
つまり、原稿読取情報管理部３０４は、１つの頁の処理が終了した後、特徴文字列決定部３６から次の頁の処理を行うことを示す命令を受け入れた場合のみに、配置解析部３０８および文字列抽出部３１０が頁ごとに処理を行うように制御する。
【００２８】
配置解析部３０８は、原稿読取情報を解析して、原稿に含まれる文字、表、写真等の自然画、ＣＧ（Computer Graphics）又は絵画等を分類（オブジェクト分類）し、それぞれについて位置情報を対応付ける。
さらに、配置解析部３０８は、解析結果を示す情報（配置情報）を、特徴文字列候補抽出部３２に対して出力する。
ここで、配置情報は、原稿読取情報に対応する原稿において、どの位置にどれだけの規模でどのオブジェクト（文字、表、写真等の自然画、ＣＧ又は絵画等）が含まれるかを示す情報である。
【００２９】
この配置情報は、例えば、各オブジェクトの位置を示す位置情報と、各オブジェクトの規模（寸法又は面積等）を示す規模情報とを含む。
ここで、位置情報は、例えば、位置座標等の絶対的な位置を示すものであってもよいし、他の文字列等との相対的な位置関係を示すものであってもよい。
同様に、規模情報は、例えば、フォントサイズ又は占有面積等の、そのオブジェクトの絶対的な規模を示すものであってもよいし、他のオブジェクトとの間の相対的な規模を示すものであってもよく、あるいは、オブジェクトの規模の平均値との差を示すものであってもよい。
また、上述した配置解析部３０８による分類は、例えば、原稿に含まれる各種の線、枠線、罫線又は色情報の検出と、エッジ検出と、パターンマッチングとによって行われる。しかし、これらの手法に限られない。
【００３０】
文字列抽出部３１０は、例えばＯＣＲ（Optical Character Recognition：光学文字認識）機能を使用することによって原稿読取情報を解析し、原稿に含まれる文字列を、例えば形態素解析によってその文字列単独で所定の語義を有する形式で抽出する。
ここで、文字認識とは、読み取って得られた文字の画像データを前もって記憶されたパターンと照合することによって、その文字を特定して、文字データ（文字列）を生成することをいう。
また、形態素解析とは、例えば、予め記憶されている文法の規則に関する情報と単語が登録された辞書とに基づいて、１つの文章を形態素（意味を持つ最小の言語単位）に分類し、分類された形態素の品詞を判別する処理をいう。
また、この形態素解析の処理において、文字列の言語が判別される（つまり、例えば、その文字列が日本語か英語かまたはその他の言語かが判別される）。
さらに、文字列抽出部３１０は、抽出された各文字列を、特徴文字列候補抽出部３２に対して出力する。
【００３１】
特徴文字列候補抽出部３２は、原稿に関する文字列である特徴文字列の候補（特徴文字列候補）を、頁ごとに１つずつ抽出して、特徴文字列候補管理部３５８に対して出力する。
ここで、特徴文字列とは、例えば原稿の題名（タイトル）等であって、人間が原稿を識別するための文字列である。
また、特徴文字列は、原稿読取情報を電子データ（電子ファイル）等に変換した場合に、その電子データまたはその電子データを保管するパスフォルダ（ディレクトリ）等の名前としてもよい。
また、特徴文字列候補とは、特徴文字列となりうる文字列であって、原稿を構成する頁ごとに判定される。
そして、後述する処理によって、ある特徴文字列候補が特徴文字列の条件を満たすと判定されれば、その特徴文字列候補が、その原稿全体についての特徴文字列として決定される。
【００３２】
特徴文字列候補抽出部３２において、文字列位置算出部３２２（図３）は、配置解析部３０８から、処理対象の頁についての配置情報を受け入れ、文字列抽出部３１０から、処理対象の頁における文字列を受け入れる。
また、文字列位置算出部３２２は、受け入れた配置情報に含まれる位置情報に基づいて、受け入れた各文字列について位置情報を算出し、各文字列とその位置情報とを関連付けて、文字列位置配点部３２４に対して出力する。
文字列規模算出部３２６は、配置解析部３０８から、処理対象の頁についての配置情報を受け入れ、文字列抽出部３１０から、処理対象の頁における文字列を受け入れる。
また、文字列規模算出部３２６は、受け入れた配置情報に含まれる規模情報に基づいて、受け入れた各文字列について規模情報を算出し、各文字列とその規模情報とを関連付けて、文字列規模配点部３２８に対して出力する。
文字列頻度算出部３３０は、文字列抽出部３１０から、処理対象の頁における文字列を受け入れる。
また、文字列頻度算出部３３０は、受け入れた文字列それぞれについて、処理対象における出現頻度を算出してその出現頻度を示す頻度情報を生成し、各文字列とその頻度情報とを関連付けて、文字列頻度配点部３３２に対して出力する。
【００３３】
文字列位置配点部３２４は、文字列の位置情報と文字列について算出される点数との関係を示す配点基準を示す情報（位置配点基準情報）を、予め記憶している。
文字列位置配点部３２４は、その位置配点基準情報に従って、各文字列について、点数（位置配点）を算出し、各文字列とその位置配点とを対応付けて、配点合計部３３４に対して出力する。
文字列規模配点部３２８は、文字列の規模情報と文字列について算出される点数との関係を示す配点基準を示す情報（規模配点基準情報）を、予め記憶している。
文字列規模配点部３２８は、その規模配点基準情報に従って、各文字列について、点数（規模配点）を算出し、各文字列とその規模配点とを対応付けて、配点合計部３３４に対して出力する。
文字列頻度配点部３３２は、文字列の頻度情報と文字列について算出される点数との関係を示す配点基準を示す情報（規模配点基準情報）を、予め記憶している。
文字列頻度配点部３３２は、その頻度配点基準情報に従って、各文字列について、点数（頻度配点）を算出し、各文字列とその頻度配点とを対応付けて、配点合計部３３４に対して出力する。
【００３４】
図６は、位置配点基準情報と規模配点基準情報と頻度配点基準情報とを例示する図であり、（Ａ）は位置配点基準情報を説明するための図であり、（Ｂ）は位置配点基準情報を例示し、（Ｃ）は規模配点基準情報を例示し、（Ｄ）は頻度配点基準情報を例示する。
図６（Ａ）に示すように、例えば、位置配点基準情報は、原稿頁の縦方向を、上端を０％、下端を１００％とする相対的な位置座標で表し、原稿頁の横方向を、左端を０％、右端を１００％とする相対的な位置座標で表す。
また、例えば、位置配点基準情報は、文字列の中央を、文字列の位置算出の基準点としている。
【００３５】
この場合、図６（Ｂ）に示した例においては、文字列位置配点部３２４は、位置配点基準情報に従って、文字列が縦方向２０％超（つまり、下側４／５）に存在する場合はその文字列について０．０点を算出し、文字列が縦方向２０％以下（つまり、上側１／５）に存在する場合はその文字列について０．１点を算出する。
また、図６（Ｂ）に示した例においては、文字列位置配点部３２４は、位置配点基準情報に従って、文字列が横方向４０％未満または６０％超に存在する場合はその文字列について０．０点を算出し、文字列が横方向４０％以上６０％以下に存在する場合はその文字列について０．１点を算出する。
例えば、図６（Ａ）に示した例においては、文字列位置配点部３２４は、文字列「著者富士太郎」について、０．０（縦方向）＋０．１（横方向）＝０．１点を算出する。
【００３６】
図６（Ｃ）に示した例においては、文字列規模配点部３２８は、規模配点基準情報に従って、例えば処理対象の文字列の規模（フォントサイズ等）が、処理対象の原稿頁の全ての文字列の規模の平均の２倍未満であれば、その文字列について０．０点を算出し、平均の２倍以上５倍未満であれば、その文字列について０．１点を算出し、平均の５倍以上であれば、その文字列について０．５点を算出する。
図６（Ｄ）に示した例においては、文字列頻度配点部３３２は、処理対象の原稿頁において処理対象の文字列の出現頻度（出現数）が１個以下であれば、その文字列について０．０点を算出し、出現頻度が２個以上４個以下であれば、その文字列について０．３点を算出し、出現頻度が５個以上であれば、その文字列について０．５点を算出する。
【００３７】
なお、処理対象の原稿頁に同じ文字列が複数存在する場合、文字列位置配点部３２４は、文字列が出現するごとに点数を算出して、算出された各点数を合計したものをその文字列に対応する位置配点としてもよいし、算出された各点数の最大値をその文字列に対応する位置配点としてもよい。
同様に、処理対象の原稿頁に同じ文字列が複数存在する場合、文字列規模配点部３２８は、文字列が出現するごとに点数を算出して、算出された各点数を合計したものをその文字列に対応する規模配点としてもよいし、算出された各点数の最大値をその文字列に対応する規模配点としてもよい。
【００３８】
配点合計部３３４（図３）は、互いに異なる各文字列それぞれについて、位置配点と、規模配点と、頻度配点とを合計し、その文字列にその合計点を付与し、文字列と付与された合計点（付与配点）とを対応付けて、配点管理部３３６に対して出力する。
配点管理部３３６は、文字列とその付与配点とを対応付けて、互いに異なる文字列ごとに記憶し、管理する。
なお、配点管理部３３６は、付与配点だけでなく、付与配点の内訳（つまり、位置配点、規模配点および頻度配点）を、文字列ごとに記憶してもよい。
【００３９】
特徴文字列候補判定部３３８は、原稿の各頁における全ての文字列について付与配点が算出された場合に、最大の付与配点に関する文字列を、その頁の特徴文字列候補として決定し、決定した特徴文字列候補を、特徴文字列候補管理部３５８および頁情報算出部３４に対して出力する。
特徴文字列候補管理部３５８（図２）は、特徴文字列候補抽出部３２によって決定された特徴文字列候補と、後述する頁情報とを、頁ごとに記憶し、管理する。
【００４０】
なお、本実施形態においては、配点合計部３３４は、位置配点と規模配点と頻度配点との全てを合計して付与配点を算出するとしたが、位置配点、規模配点および頻度配点の少なくとも１つを付与配点としても、任意の２つの合計を付与配点としてもよい。
この場合、付与配点を構成しない位置配点、規模配点または頻度配点については、算出の対象としなくてもよい。
つまり、例えば、付与配点が規模配点と頻度配点との合計である場合、文字列位置算出部３２２は、各文字列について位置情報を算出しなくともよく、文字列位置配点部３２４は、位置配点を算出しなくてもよい。
さらに、本実施形態においては、配点合計部３３４は、位置配点と規模配点と頻度配点との全てを合計して付与配点を算出するとしたが、その他の基準で配点を算出して付与配点に付加してもよい。
【００４１】
頁情報算出部３４（図２）は、特徴文字列候補それぞれに関する頁に関する情報（頁情報）を頁ごとに算出して、その頁情報を、特徴文字列候補管理部３５８に対して出力する。
ここで、頁情報とは、少なくとも、候補係数と処理時間とを含み、頁ごとに算出される。
候補係数とは、対応する特徴文字列候補の、その原稿全体の特徴文字列としての確からしさを示す指標（確度）であって、例えば、その特徴文字列候補の各頁における位置、規模および頻度等から算出される。
また、処理時間とは、少なくとも、各頁から特徴文字列候補が抽出されるのに要する期間をいう。
【００４２】
頁情報算出部３４において、配点抽出部３４２（図４）は、特徴文字列候補抽出部３２から特徴文字列候補を受け入れ、その特徴文字列候補に付与された付与配点を、特徴文字列候補抽出部３２の配点管理部３３６から抽出する。
また、配点抽出部３４２は、抽出された付与配点を、候補係数算出部３４４に対して出力する。
候補係数算出部３４４は、配点抽出部３４２からの付与配点に基づいて候補係数を算出する。
また、候補係数算出部３４４は、候補係数を、その候補係数に関する特徴文字列候補と対応付けて、特徴文字列候補管理部３５８に対して出力する。
【００４３】
なお、候補係数算出部３４４は、候補係数の算出に際し、付与配点をそのまま候補係数としてもよいが、処理された頁が進むにつれて、付与配点に対する重み付けが低くなるようにしてもよい。
つまり、［候補係数］＝ａ［付与配点］とした場合に、ａは全ての頁について１であってもよいし、処理された頁が進むにつれて、ａが小さくなるようにしてもよい。
【００４４】
例えば、１番目に処理された頁の特徴文字列候補＃１の付与配点がＳ１であり、２番目に処理された頁の特徴文字列候補＃２の付与配点がＳ２であり、３番目に処理された頁の特徴文字列候補＃３の付与配点がＳ３であるとする。
この場合、候補係数算出部３４４は、特徴文字列候補＃１に関する候補係数をＳ１とし、特徴文字列候補＃２に関する候補係数をＳ２×０．９とし、特徴文字列候補＃３に関する候補係数をＳ３×０．８として、候補係数を算出してもよい。
【００４５】
また、候補係数算出部３４４は、原稿の作成者に応じて、候補係数の重み付けを変更してもよい。
例えば、原稿の作成者が総務部門である場合には、帳票に関する文字列が特徴文字列候補であると判断されたときに、その特徴文字列候補の付与配点に対する重み付けを高くして候補係数が算出され、原稿の作成者が開発部門である場合には、図面に関する文字列が特徴文字列候補であると判断されたときに、その特徴文字列候補の付与配点に対する重み付けを高くして候補係数が算出されてもよい。
なお、原稿の作成者を特定する方法としては、例えば、使用者がＵＩ装置２５を操作して入力することによって特定する方法、または、原稿に記載された作成者に関する文字列を認識することによって特定する方法がある。しかしながら、これらの方法に限られない。
また、特徴文字列候補が作成者に関連する文字列であるか否かを判断する方法としては、例えば、作成者とその作成者に関連する文字列の対応表を記憶した辞書等を使用する方法がある。しかしながら、これらの方法に限られない。
【００４６】
なお、上記実施形態においては、配点抽出部３４２は、特徴文字列候補抽出部３２から抽出された付与配点に基づいて候補係数を算出するとしたが、付与配点に基づいて候補係数を算出しなくてもよい。
例えば、特徴文字列候補に関する位置配点、規模配点および頻度配点のうちの任意の１つ以上を合計してもよく、さらに、いずれかの重み付けを変更するようにしてもよい。
【００４７】
具体的には、例えば、
［式１］［候補係数］＝ａ×［位置配点］＋ｂ×［規模配点］＋ｃ×［頻度配点］
とする。
このとき、付与配点をそのまま候補係数とする場合は、式１においてａ＝ｂ＝ｃ＝１であるが、ａ≠ｂ、ｂ≠ｃ、ｃ≠ａとしてもよい。
また、上記式１において、ａ、ｂ、ｃの任意の１つまたは２つが０であってもよい。
【００４８】
さらに、頁情報算出部３４は、特徴文字列候補抽出部３２から何らかの情報を抽出しなくても、別途、各頁における文字列およびその配置等に基づいて、候補係数を算出してもよい。
この場合、特徴文字候補抽出部３２が使用した位置配点基準情報、規模配点基準情報および規模配点基準情報とは別の基準を使用して、候補係数を算出してもよい。
【００４９】
処理時間算出部３４６は、ある１つの頁から、少なくとも特徴文字列候補が抽出されるのに要する時間（処理時間）を算出する。
具体的には、処理時間算出部３４６は、原稿読取情報管理部３０４から、処理対象である頁について配置解析部３０８または文字列抽出部３１０のいずれか早い方が処理を開始した時刻を、その頁の処理の開始時刻として抽出する。
また、処理時間算出部３４６は、特徴文字列候補抽出部３２から、処理対象である頁について特徴文字列候補が抽出された時刻を、その頁の処理の終了時刻として抽出する。
さらに、処理時間算出部３４６は、終了時刻から開始時刻を減算することによって、処理時間を算出し、算出された処理時間を示す情報（処理時間情報）を、累積処理時間算出部３４８および処理時間管理部３５０に対して出力する。
【００５０】
なお、処理時間算出部３４６は、ある１つの頁から、特徴文字列候補が抽出されるのに要する時間と、配点抽出部３４２および候補係数算出部３４４の処理に要する時間との合計時間を、処理時間として算出してもよい。
この場合、処理時間算出部３４６は、候補係数算出部３４４から、候補係数が算出された時刻を、その頁の処理の終了時刻として抽出し、その終了時刻から開始時刻を減算することによって、処理時間を算出してもよい。
【００５１】
処理時間管理部３５０は、処理時間情報を記憶し、管理する。
累積処理時間算出部３４８は、処理時間算出部３４６からある頁に関する処理時間情報を受け入れた場合に、処理時間管理部３５０から、その頁についての処理以前に処理された全ての頁に関する処理時間情報を抽出する。
さらに、累積処理時間算出部３４８は、ある頁に関する処理時間情報が示す処理時間と、以前に処理された全ての頁についての処理時間情報が示す処理時間それぞれとを合計して、累積処理時間を算出する。
さらに、累積処理時間算出部３４８は、算出された累積処理時間を示す情報（累積処理時間情報）を、その頁に対応する特徴文字列候補に関する累積処理時間を示す情報として、特徴文字列候補管理部３５８に対して出力する。
【００５２】
特徴文字列候補管理部３５８（図２）は、頁ごとに、特徴文字列候補と、その特徴文字列候補に関する候補係数と、その特徴文字列候補に関する累積処理時間とを記憶し、管理する。
特徴文字列決定部３６は、各頁から特徴文字列候補が算出されその特徴文字列候補に関する頁情報（候補係数および累積処理時間）が算出されるごとに、その特徴文字列候補に関する頁情報（候補係数および累積処理時間）に基づいて、原稿全体の特徴文字列を決定する。
特徴文字列決定部３６において、候補係数比較部３６２（図５）は、各頁について候補係数が算出され特徴文字列候補管理部３５８に記憶された場合に、その都度、その候補係数を、特徴文字列候補管理部３５８から抽出する。
また、候補係数比較部３６２は、候補係数と所定の候補係数基準値とを比較し、その候補係数が、候補係数基準値を超えているか否か判断する。
候補係数が候補係数基準値を超えている場合、候補係数比較部３６２は、その旨を示す情報（候補係数基準値超過情報）を、特徴文字列判定部３６８に対して出力し、候補係数が候補係数基準値を超えていない場合、候補係数比較部３６２は、その旨を示す情報（候補係数基準値未超過情報）を、特徴文字列判定部３６８に対して出力する。
【００５３】
特徴文字列判定部３６８は、候補係数比較部３６２から候補係数基準値超過情報を受け入れた場合に、その候補係数に関する特徴文字列候補を特徴文字列候補管理部３５８から抽出し、その特徴文字列候補を原稿全体の特徴文字列として決定する。
さらに、特徴文字列判定部３６８は、決定した特徴文字列をＵＩ装置２５に出力してＵＩ装置２５に表示させる。
この場合、処理プログラム３は、処理されていない頁についての処理をすることなく、全ての処理を終了する。
つまり、候補係数基準値を超えた候補係数が存在する場合、たとえ未だ特徴文字列候補が抽出されていない頁があったとしても、その未処理の頁について処理はなされない。
【００５４】
累積処理時間比較部３６４は、各頁について累積処理時間が算出され特徴文字列候補管理部３５８に記憶された場合に、その都度、その累積処理時間を示す累積処理時間情報を、特徴文字列候補管理部３５８から抽出する。
また、累積処理時間比較部３６４は、累積処理時間情報が示す累積処理時間と所定の累積処理時間基準値とを比較し、その累積処理時間が、累積処理時間基準値を超えているか否か判断する。
累積処理時間が累積処理時間基準値を超えている場合、累積処理時間比較部３６４は、その旨を示す情報（累積処理時間基準値超過情報）を、特徴文字列判定部３６８に対して出力し、累積処理時間が累積処理時間基準値を超えていない場合、累積処理時間比較部３６４は、その旨を示す情報（累積処理時間基準値未超過情報）を、特徴文字列判定部３６８に対して出力する。
【００５５】
特徴文字列判定部３６８は、累積処理時間比較部３６４から累積処理時間基準値超過情報を受け入れた場合に、処理がなされた全ての頁に関する候補係数それぞれを、特徴文字列候補管理部３５８から抽出する。
また、特徴文字列判定部３６８は、抽出された候補係数のうち、最大の候補係数に関する特徴文字列候補を、特徴文字列候補管理部３５８から抽出し、その特徴文字列候補を原稿全体の特徴文字列として決定する。
さらに、特徴文字列判定部３６８は、決定した特徴文字列をＵＩ装置２５に出力してＵＩ装置２５に表示させる。
この場合、処理プログラム３は、処理されていない頁についての処理をすることなく、全ての処理を終了する。
つまり、累積処理時間が累積処理時間基準値を超えた場合、たとえ未だ特徴文字列候補が抽出されていない頁があったとしても、その未処理の頁について処理はなされない。
【００５６】
なお、特徴文字列判定部３６８は、抽出された候補係数のうち最大の候補係数が、所定の最低候補係数基準値以下である場合、その最大の候補係数に関する特徴文字列に関わらず、所定の情報に関する文字列を、特徴文字列として決定してもよい。
この最低候補係数基準値は、候補係数基準値よりも小さい値であって、特徴文字列候補が特徴文字列として妥当であるための最低の基準を示す。
つまり、候補係数が最低候補係数基準値以下である場合、その特徴文字列候補は、その頁における他の文字列よりも付与配点が高かったが、原稿全体の特徴文字列として決定される程の付与配点を付与されておらず、したがって、その特徴文字列候補を特徴文字列とすると、その特徴文字列が原稿の内容を表していないことがある。
よって、そのような場合に、特徴文字列判定部３６８は、所定の情報（例えば、日時に関する情報またはユーザＩＤ等）を、特徴文字列として決定する。
【００５７】
処理頁数判断部３６６は、原稿読取情報管理部３０４によって管理されている情報に基づいて、全ての頁について処理が終了したか（全ての頁について特徴文字列候補が抽出され、候補係数および累積処理時間が算出されたか）を判断する。
全ての頁について処理が終了した場合には、処理頁数判断部３６６は、その旨を示す情報（全頁終了情報）を、特徴文字列判定部３６８に対して出力し、全ての頁について処理が終了していない場合には、処理頁数判断部３６６は、その旨を示す情報（全頁未終了情報）を、特徴文字列判定部３６８に対して出力する。
【００５８】
特徴文字列判定部３６８は、処理頁数判断部３６６から全頁終了情報を受け入れた場合、処理がなされた全ての頁に関する候補係数それぞれを、特徴文字列候補管理部３５８から抽出する。
また、特徴文字列判定部３６８は、抽出された候補係数のうち、最大の候補係数に関する特徴文字列候補を、特徴文字列候補管理部３５８から抽出し、その特徴文字列候補を原稿全体の特徴文字列として決定する。
さらに、特徴文字列判定部３６８は、決定した特徴文字列をＵＩ装置２５に出力してＵＩ装置２５に表示させる。
なお、特徴文字列判定部３６８は、累積処理時間が累積処理時間基準値を超過した場合と同様に、抽出された候補係数のうち最大の候補係数が、所定の最低候補係数基準値以下である場合、その最大の候補係数に関する特徴文字列に関わらず、所定の情報に関する文字列を、特徴文字列として決定してもよい。
【００５９】
一方、特徴文字列判定部３６８は、候補係数比較部３６２から候補係数基準値未超過情報を受け入れ、累積処理時間比較部３６４から累積処理時間基準値未超過情報を受け入れ、かつ、処理頁数判断部３６６から全頁未終了情報を受け入れた場合、特徴文字列判定部３６８は、原稿読取情報管理部３０４に対し、次の頁について処理を実行する旨を示す命令を出力する。
これにより、原稿読取情報管理部３０４は、次の頁について、配置解析部３０８および文字列抽出部３１０が処理を行うように制御し、配置解析部３０８および文字列抽出部３１０が処理を行い、特徴文字列候補抽出部３２がその次の頁について特徴文字列候補を抽出する。
【００６０】
図７は、処理プログラム３の処理を示すフローチャート（Ｓ１０）である。
ステップ１００（Ｓ１００）において、原稿読取情報受付部３０２は、原稿を読み取って得られた原稿読取情報を受け付ける。
ステップ１０２（Ｓ１０２）において、原稿読取情報管理部３０４は、処理対象の頁を１頁目とする。
ステップ１０４（Ｓ１０４）において、原稿読取情報に基づいて、頁ごとに、配置解析部３０８が配置情報を生成し、文字列抽出部３１０が文字列を抽出する。
【００６１】
ステップ１０６（Ｓ１０６）において、特徴文字列候補抽出部３２は、頁ごとに、特徴文字列候補を抽出する。
ステップ１０８（Ｓ１０８）において、頁情報算出部３４は、候補係数を算出する。
ステップ１１０（Ｓ１１０）において、頁情報算出部３４は、累積処理時間を算出する。
【００６２】
ステップ１１２（Ｓ１１２）において、特徴文字列決定部３６は、累積処理時間が累積処理時間基準値を超過するか否か判断し、超過すると判断する場合は、処理はＳ１２２に進み、超過しないと判断する場合は、処理はＳ１１４に進む。
ステップ１１４（Ｓ１１４）において、特徴文字列決定部３６は、候補係数が候補係数基準値を超過するか否か判断し、超過すると判断する場合は、処理はＳ１２０に進み、超過しないと判断する場合は、処理はＳ１１６に進む。
ステップ１１６（Ｓ１１６）において、特徴文字列決定部３６は、全ての頁について処理が終了したか否か判断し、終了したと判断した場合は、処理はＳ１２２に進み、終了していないと判断した場合は、処理はＳ１１８に進む。
ステップ１１８（Ｓ１１８）において、原稿読取情報管理部３０４は、次の頁を処理対象とする。
【００６３】
ステップ１２０（Ｓ１２０）において、特徴文字列決定部３６は、候補係数基準値を超過した候補係数に関する特徴文字列候補を、原稿の特徴文字列として決定し、処理を終了する。
ステップ１２２（Ｓ１２２）において、特徴文字列決定部３６は、最大の候補係数が最低候補係数基準値を超過するか否か判断し、超過すると判断する場合は、処理はＳ１２４に進み、超過しないと判断する場合は、処理はＳ１２６に進む。
ステップ１２４（Ｓ１２４）において、特徴文字列決定部３６は、最大の候補係数に関する特徴文字列候補を、原稿の特徴文字列として決定し、処理を終了する。
ステップ１２６（Ｓ１２６）において、特徴文字列決定部３６は、所定の情報に関する文字列を、原稿の特徴文字列として決定し、処理を終了する。
なお、上述した本実施形態において、Ｓ１０２で最初の処理対象頁を１頁目とするとしたが、処理対象とする頁の順序は、原稿の頁の順序と同じでなくてもよい。
【００６４】
以下、本実施形態に係る画像処理装置２の処理を、具体的に例を挙げて説明する。
図８（Ａ），（Ｂ）は、本実施形態に係る画像処理装置２の処理結果を例示する図であり、（Ａ）は第１の例を示し、（Ｂ）は第２の例を示す。
図８（Ａ）に示した例においては、第１頁について、特徴文字列候補＃１「著者富士太郎」が抽出され、その特徴文字列候補＃１「著者富士太郎」の候補係数＃１は０．１５であり、第１頁についての処理時間＃１は２．０である。このとき、累積処理時間＃１は２．０である。
なお、処理時間および累積処理時間の単位は、例えば、ミリ秒、秒または分等であるが、これらに限られない。
【００６５】
また、第２頁について、特徴文字列候補＃２「はじめに」が抽出され、その特徴文字列候補＃２「はじめに」の候補係数＃２は０．４０であり、第２頁についての処理時間＃２は５．０である。このとき、累積処理時間＃２は７．０（＝２．０＋５．０）である。
また、第３頁について、特徴文字列候補＃３「日本の製造業白書」が抽出され、その特徴文字列候補＃３「日本の製造業白書」の候補係数＃３は０．８０であり、第３頁についての処理時間＃３は８．０である。このとき、累積処理時間＃３は１５．０（＝２．０＋５．０＋８．０）である。
【００６６】
ここで、候補係数基準値が０．７０であり、累積処理時間基準値が２０．０であり、最低候補係数基準値が０．１０である場合、特徴文字列候補＃３「日本の製造業白書」の候補係数＃３は候補係数基準値を超過している。
したがって、特徴文字列決定部３６は、特徴文字列候補＃３「日本の製造業白書」を、その原稿の特徴文字列として決定する。
この場合、たとえ第４頁以降の頁が存在しても、これらの頁について特徴文字列候補は抽出されない。
【００６７】
また、候補係数基準値が０．８５であり、累積処理時間基準値が１０．０であり、最低候補係数基準値が０．１０である場合、第２頁における累積処理時間＃２は累積処理時間基準値を超過していないが、第３頁における累積処理時間＃３は、累積処理時間基準値を超過している。
また、その時点において最大の候補係数である候補係数＃３は、最低候補係数基準値を超過している。
したがって、特徴文字列決定部３６は、その時点において最大の候補係数である候補係数＃３に関する特徴文字列候補＃３「日本の製造業白書」を、その原稿の特徴文字列として決定する。
この場合、たとえ第４頁以降の頁が存在しても、これらの頁について特徴文字列候補は抽出されない。
【００６８】
また、候補係数基準値が０．８５であり、累積処理時間基準値が２０．０であり、第３頁が最終頁である場合、特徴文字列決定部３６は、その時点において最大の候補係数である候補係数＃３に関する特徴文字列候補＃３「日本の製造業白書」を、その原稿の特徴文字列として決定する。
【００６９】
図８（Ｂ）に示した例においては、第１頁について、特徴文字列候補＃１「著者」が抽出され、その特徴文字列候補＃１「著者」の候補係数＃１は０．０５であり、第１頁についての処理時間＃１は２．０である。このとき、累積処理時間＃１は２．０である。
また、第２頁については、白紙等であったため、特徴文字列候補＃２は抽出されず、したがって、特徴文字列候補＃２の候補係数＃２は０．００である。また、第２頁についての処理時間＃２は５．０である。このとき、累積処理時間＃２は７．０（＝２．０＋５．０）である。
また、第３頁について、特徴文字列候補＃３「基準」が抽出され、その特徴文字列候補＃３「基準」の候補係数＃３は０．０６であり、第３頁についての処理時間＃３は８．０である。このとき、累積処理時間＃３は１５．０（＝２．０＋５．０＋８．０）である。
【００７０】
ここで、候補係数基準値が０．８５であり、累積処理時間基準値が１０．０であり、最低候補係数基準値が０．１０である場合、第２頁における累積処理時間＃２は累積処理時間基準値を超過していないが、第３頁における累積処理時間＃３は、累積処理時間基準値を超過している。
また、その時点において最大の候補係数である候補係数＃３は、最低候補係数基準値以下である。
したがって、特徴文字列決定部３６は、特徴文字列候補＃３「基準」に関わらず、所定の情報に関する文字列を、その原稿の特徴文字列として決定する。
この場合、たとえ第４頁以降の頁が存在しても、これらの頁について特徴文字列候補は抽出されない。
【符号の説明】
【００７１】
２・・・画像処理装置，
３・・・処理プログラム，
３０２・・・原稿読取情報受付部，
３０４・・・原稿読取情報管理部，
３０８・・・配置解析部，
３１０・・・文字列抽出部，
３２・・・特徴文字列候補抽出部，
３２２・・・文字列位置算出部，
３２４・・・文字列位置配点部，
３２６・・・文字列規模算出部，
３２８・・・文字列規模配点部，
３３０・・・文字列頻度算出部，
３３２・・・文字列頻度配点部，
３３４・・・配点合計部，
３３６・・・配点格納部，
３３８・・・特徴文字列候補判定部，
３４・・・頁情報算出部，
３４２・・・配点抽出部，
３４４・・・候補係数算出部，
３４６・・・処理時間算出部，
３４８・・・累積処理時間算出部，
３５０・・・処理時間管理部，
３５８・・・特徴文字列候補管理部，
３６・・・特徴文字列決定部，
３６２・・・候補係数比較部，
３６４・・・累積処理時間比較部，
３６６・・・処理頁数判断部，
３６８・・・特徴文字列判定部，

【特許請求の範囲】
【請求項１】
複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、
前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、
前記係数算出手段によって１つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出手段によって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第１の基準値を超えた場合に、前記第１の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段と
を有する画像処理装置。
【請求項２】
前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段
をさらに有し、
前記時間算出手段によって１つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記特徴文字列決定手段は、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの前記係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する
請求項１に記載の画像処理装置。
【請求項３】
前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの前記係数のうちの最大の係数が前記第１の基準値よりも小さい第２の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する
請求項２に記載の画像処理装置。
【請求項４】
前記特徴文字列決定手段は、原稿の全ての頁について前記算出された係数が前記第１の基準値を超えなかった場合に、算出された係数のうちの最大の係数に関する特徴文字列の候補を前記原稿の特徴文字列として決定する
請求項１に記載の画像処理装置。
【請求項５】
前記特徴文字列決定手段は、原稿の全ての頁について前記係数が第１の基準値を超えなかった場合であって、算出済みの前記係数のうちの最大の係数が前記第１の基準値よりも小さい第２の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する
請求項４に記載の画像処理装置。
【請求項６】
複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出手段と、
前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出手段によって頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出手段と、
前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、少なくとも前記候補抽出手段の処理に要する時間を頁ごとに算出する時間算出手段と、
前記時間算出手段によって１つの頁について前記候補抽出手段の処理に要する時間が算出されるごとに、前記時間算出手段によって算出された頁ごとの時間の累積時間が所定の基準時間を超えたか否かを判断し、前記累積時間が所定の基準時間を超えた場合に、算出済みの係数のうちの最大の係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定手段と
を有する画像処理装置。
【請求項７】
前記特徴文字列決定手段は、前記時間の累積時間が所定の基準時間を超えた場合であって、算出済みの前記係数のうちの最大の係数が前記第１の基準値よりも小さい第２の基準値以下であるとき、所定の情報に関する文字列を前記原稿の特徴文字列として決定する
請求項６に記載の画像処理装置。
【請求項８】
複数の頁から構成される原稿の各頁から原稿に関する文字列である特徴文字列の候補を頁ごとに抽出する候補抽出ステップと、
前記候補抽出手段によって１つの頁から特徴文字列の候補が抽出されるごとに、前記候補抽出ステップにおいて頁ごとに抽出された特徴文字列の候補それぞれについて、所定の条件に従って、その頁に関する情報に基づいて係数を算出する係数算出ステップと、
前記係数算出手段によって１つの頁から抽出された特徴文字列の候補について係数が算出されるごとに、前記係数算出ステップによって算出された係数が所定の基準値を超えているか否かを判断し、前記算出された係数が所定の第１の基準値を超えた場合に、前記第１の基準値を超えた係数に関する候補を前記原稿の特徴文字列として決定する特徴文字列決定ステップと
をコンピュータに実行させる画像処理プログラム。

【図１】