画像処理装置およびプログラム

【課題】原稿の内容を反映した特徴文字列を生成可能な画像処理装置を提供する。
【解決手段】出現頻度順候補抽出部３２は、文字列抽出部３１０によって抽出された文字列の、原稿における出現頻度の順に基づいて、特徴文字列を構成する構成文字列の候補を抽出する。配置順候補抽出部３４は、文字列抽出部３１０によって抽出された文字列の、原稿における配置に基づいて、特徴文字列を構成する構成文字列の候補を抽出する。特徴文字列抽生成部３６は、出現頻度順候補抽出部３２からの文字列順位情報と配置順候補抽出部３４からの配置順位情報とに基づいて、文字列順位情報又は配置順位情報の少なくとも一方に含まれる文字列の候補から２つ以上の文字列を選択してそれらを連結し、特徴文字列を生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置およびプログラムに関する。
【背景技術】
【０００２】
特許文献１は、入力された各インデックス情報の文字列間に所定の区切り文字を付加してファイル名を生成する情報処理装置を開示する。
特許文献２は、原稿画像を読み取り、読み取り画像から文字を認識して、認識結果から、出現頻度の高い文字列を原稿に対するファイル名とする画像読取り装置を開示する。
特許文献３は、文書形式毎のルールからなる知識を用い、対象文書のレイアウト情報、フォントサイズ情報および出現頻度情報を入力し、推論を実行するシステムを開示する。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平１０−２８９１３７号公報
【特許文献２】特開２００６−２１１２６１号公報
【特許文献３】特開２００６−３０９３４７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
本発明の目的は、原稿の内容を反映した特徴文字列を生成可能な画像処理装置を提供することである。
【課題を解決するための手段】
【０００５】
請求項１にかかる本発明は、原稿を読み取る読取手段によって得られた読取情報から複数の文字列を抽出する文字列抽出手段と、前記文字列抽出手段により抽出された文字列から、原稿における文字列の出現頻度に基づいて、原稿に関する特徴文字列を構成する文字列の第１の候補を１つ以上抽出する第１抽出手段と、前記文字列抽出手段により抽出された文字列から、原稿における文字列の配置に基づいて、前記特徴文字列を構成する文字列の第２の候補を１つ以上抽出する第２抽出手段と、前記第１抽出手段によって抽出された第１の候補および前記第２抽出手段によって抽出された第２の候補の少なくとも一方から２つ以上の文字列を選択して連結し、前記特徴文字列を生成する特徴文字列生成手段とを有する画像処理装置である。
【０００６】
請求項２にかかる本発明は、前記特徴文字列生成手段は、互いに意味が異なる２つ以上の文字列、又は、互いに意味が同じ語を含まない２つ以上の文字列を選択して、前記特徴文字列を生成する請求項１に記載の画像処理装置である。
【０００７】
請求項３にかかる本発明は、前記特徴文字列生成手段は、選択された２つ以上の文字列それぞれの属性に基づいて、選択された２つ以上の文字列を連結する順序を決定する請求項１に記載の画像処理装置である。
【０００８】
請求項４にかかる本発明は、前記特徴文字列生成手段は、前記特徴文字列の文字数が所定数以内となるように、２つ以上の文字列を選択して連結する請求項１に記載の画像処理装置である。
【０００９】
請求項５にかかる本発明は、前記第１抽出手段は、抽出された第１の候補について、複数の語から構成される文字列の重み付けを、１つの語から構成される文字列の重み付けよりも大きくするように重み付けし、前記特徴文字列生成手段は、前記第１抽出手段による重み付けが大きい第１の候補を優先的に選択する請求項１に記載の画像処理装置である。
【００１０】
請求項６にかかる本発明は、前記特徴文字列生成手段は、原稿の種類に基づいて、選択された文字列を連結する順序を決定する請求項１に記載の画像処理装置である。
【００１１】
請求項７にかかる本発明は、前記特徴文字列生成手段は、前記第１の候補および前記第２の候補のいずれもが、原稿の種類に関する文字列を含まない場合、この原稿の種類に関する文字列を含むように、前記特徴文字列を生成する請求項１に記載の画像処理装置である。
【００１２】
請求項８にかかる本発明は、原稿を読み取る読取手段によって得られた読取情報から複数の文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップにおいて抽出された文字列から、原稿における文字列の出現頻度に基づいて、原稿に関する特徴文字列を構成する文字列の第１の候補を１つ以上抽出する第１抽出ステップと、前記文字列抽出ステップにおいて抽出された文字列から、原稿における文字列の配置に基づいて、前記特徴文字列を構成する文字列の第２の候補を１つ以上抽出する第２抽出ステップと、前記第１抽出ステップにおいて抽出された第１の候補および前記第２抽出ステップにおいて抽出された第２の候補の少なくとも一方から２つ以上の文字列を選択して連結し、前記特徴文字列を生成する特徴文字列生成ステップとをコンピュータに実行させる画像処理プログラムである。
【発明の効果】
【００１３】
請求項１に係る本発明によれば、原稿の内容を反映した特徴文字列を生成可能な画像処理装置を提供することができる。
【００１４】
請求項２に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、同じ意味の語が重複した特徴文字列を生成しないようにすることができる。
【００１５】
請求項３に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、本構成を有していない場合と比較して、見栄えのよい特徴文字列を生成できる。
【００１６】
請求項４に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、本構成を有していない場合と比較して、見栄えのよい特徴文字列を生成できる。
【００１７】
請求項５に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、本構成を有していない場合と比較して、特徴文字列に複合語を含み易くすることができる。
【００１８】
請求項６に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、原稿の内容を反映した特徴文字列を生成できる。
【００１９】
請求項７に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、原稿の内容を反映した特徴文字列を生成できる。
【００２０】
請求項８に係る本発明によれば、原稿の内容を反映した特徴文字列を生成可能な画像処理プログラムを提供することができる。
【図面の簡単な説明】
【００２１】
【図１】本実施形態にかかる画像処理装置のハードウェア構成を例示する図である。
【図２】図１に示した画像処理装置において動作する処理プログラムである。
【図３】図２に示した出現頻度順候補抽出部の構成を示す図である。
【図４】図２に示した配置順候補抽出部の構成を示す図である。
【図５】図２に示した特徴文字列生成部の構成を示す図である。
【図６】分類基準情報を例示する図である。
【図７Ａ】処理プログラムの処理を示すフローチャートである。
【図７Ｂ】処理プログラムの処理を示すフローチャートである。
【図８】本実施形態に係る画像処理装置の処理対象である原稿の例を示す図である。
【発明を実施するための形態】
【００２２】
図１は、本実施形態にかかる画像処理装置２のハードウェア構成を例示する図である。
図１に例示するように、画像処理装置２は、ＣＰＵ等の演算部２１２およびメモリ等の記憶部２１４などを含む制御装置２１と、通信装置２２と、記録装置２４と、ユーザインターフェース装置（ＵＩ装置）２５と、印刷装置２６と、画像読取装置２７とから構成される。
【００２３】
ＵＩ装置２５は、ＬＣＤ（Liquid Crystal Display）表示装置あるいはＣＲＴ（Cathode Ray Tube）表示装置等の表示装置およびキーボード・タッチパネルなどを含む。
印刷装置２６は、例えばプリンタ等であって、文字データまたは画像データ等を用紙等の記録媒体に印刷する。
画像読取装置２７は、例えばスキャナ等であって、原稿等の記録媒体から画像等を読み取って、例えばビットマップ形式の読取情報に変換する。
つまり、画像処理装置２は、情報処理および他の画像処理装置又は端末との通信が可能なコンピュータとしてのハードウェア構成部分を有している。
また、以下の各図において、実質的に同じ構成部分および処理には同じ番号が付される。
なお、本実施形態において、画像処理装置２は印刷装置２６および画像読取装置２７を有するとしたが、画像処理装置は、印刷装置および画像読取装置を有さない例えばＰＣであってもよく、この場合、画像処理装置は、画像読取装置とＬＡＮ（Local Area Network）等を介して接続されていてもよい。
【００２４】
図２は、図１に示した画像処理装置２において動作する処理プログラム３の構成を示す図である。
図２に示すように、処理プログラム３は、原稿読取情報受付部３０２、自動生成要否指定部３０４、文字数設定部３０６、配置解析部３０８、文字列抽出部３１０、言語判定部３１２、原稿分類部３１４、分類基準格納部３１６、出現頻度順候補抽出部３２、配置順候補抽出部３４および特徴文字列抽生成部３６から構成される。
処理プログラム３は、たとえば、記憶媒体２４０（図１）を介して画像処理装置２に供給され、記憶部２１４にロードされ、画像処理装置２にインストールされたＯＳ（図示せず）上で、画像処理装置２のハードウェア資源を具体的に利用して実行される。
なお、本実施形態においては、処理プログラム３は、ソフトウェアで実現されるとしているが、処理プログラム３の全部又は一部は、例えばＦＰＧＡ（Field Programmable Gate Array）などのハードウェアで実現されてもよい。
【００２５】
図３は、図２に示した出現頻度順候補抽出部３２の構成を示す図である。
図３に示すように、出現頻度順候補抽出部３２は、頻度算出部３２２、複合文字列判断部３２４、文字列配置判断部３２６、文字列順位判定部３２８および順位基準格納部３３０から構成される。
図４は、図２に示した配置順候補抽出部３４の構成を示す図である。
図４に示すように、配置順候補抽出部３４は、文字列位置判定部３４２、文字列規模判定部３４４、配置順候補判定部３２６および配点基準格納部３４８から構成される。
【００２６】
図５は、図２に示した特徴文字列生成部３６の構成を示す図である。
図５に示すように、特徴文字列生成部３６は、配置順候補格納部３６０、出現頻度順候補格納部３６２、原稿種類文字列格納部３６４、配置順候補分割部３６６、配置順候補選択部３６８、出現頻度順候補選択部３７０、構成文字列決定部３７２、同義語辞書データベース（ＤＢ）３７４、文字列属性判定部３７６および文字列連結部３８２から構成される。
【００２７】
処理プログラム３（図２）において、原稿読取情報受付部３０２は、画像読取装置２７から得られた読取情報（原稿読取情報）を受け付け、受け付けた原稿読取情報を、配置解析部３０８および文字列抽出部３１０による処理のために提供可能に格納する。
自動生成要否指定部３０４は、原稿読取情報受付部３０２によって受け付けられた原稿読取情報に対応する原稿に関する特徴文字列を、画像処理装置２が自動的に生成するか、または、使用者が例えばＵＩ装置２５を操作することによって作成するかを指定する。
具体的には、画像処理装置２が特徴文字列を自動的に生成するか、または、使用者が特徴文字列を作成するかを、使用者がＵＩ装置２５を操作することによって指定し、使用者がＵＩ装置２５を操作することによって生成された情報（自動生成要否情報）を、自動生成要否指定部３０４が受け入れる。
そして、自動生成要否指定部３０４は、受け入れた自動生成要否情報を、特徴文字列生成部３６に対して出力する。
ここで、「特徴文字列」とは、人間が原稿を識別するための文字列であって、例えば、原稿を電子データ（電子ファイル）等に変換した場合に、その電子データまたはその電子データを保管するパスフォルダ（ディレクトリ）等の名前である。
【００２８】
文字数設定部３０６は、特徴文字列の文字数（長さ）を設定する。
具体的には、例えば、使用者が、ＵＩ装置２５を操作することによって設定される特徴文字列の文字数（設定文字数）を指定し、その操作によって生成された情報（文字数情報）を、文字数設定部３０６が受け入れる。
そして、文字数設定部３０６は、その文字数情報に対応する設定文字数を示す情報（設定文字数情報）を、特徴文字列生成部３６に対して出力する。
【００２９】
配置解析部３０８は、原稿読取情報を解析して、原稿に含まれる文字、表、写真等の自然画、ＣＧ（Computer Graphics）又は絵画等を分類（オブジェクト分類）し、それぞれについて位置情報を対応付ける。
さらに、配置解析部３０８は、解析結果を示す情報（配置情報）を、出現頻度順候補抽出部３２、配置順候補抽出部３４および原稿分類部３１４に対して出力する。
ここで、配置情報は、原稿読取情報に対応する原稿において、どの位置にどれだけの規模でどのオブジェクト（文字、表、写真等の自然画、ＣＧ又は絵画等）が含まれるかを示す情報である。
この「配置情報」は、例えば、各オブジェクトの位置を示す位置情報と、各オブジェクトの規模（寸法又は面積等）を示す規模情報とを含む。
【００３０】
ここで、位置情報は、例えば、位置座標等の絶対的な位置を示すものであってもよいし、他の文字列等との相対的な位置関係を示すものであってもよい。
同様に、規模情報は、例えば、フォント又は占有面積等の、そのオブジェクトの絶対的な規模を示すものであってもよいし、他のオブジェクトとの間の相対的な規模を示すものであってもよく、あるいは、オブジェクトの規模の平均値との差を示すものであってもよい。
また、上述した配置解析部３０８による分類は、例えば、原稿に含まれる各種の線、枠線、罫線又は色情報の検出と、エッジ検出と、パターンマッチングとによって行われる。しかし、これらの手法に限られない。
【００３１】
文字列抽出部３１０は、例えばＯＣＲ（Optical Character Recognition：光学文字認識）機能を使用することによって原稿読取情報を解析し、原稿に含まれる文字列を、例えば形態素解析によってその文字列単独で所定の語義を有する形式で抽出する。
ここで、文字認識とは、読み取って得られた文字の画像データを前もって記憶されたパターンと照合することによって、その文字を特定して、文字データ（文字列）を生成することをいう。
また、形態素解析とは、例えば、予め記憶されている文法の規則に関する情報と単語が登録された辞書とに基づいて、１つの文章を形態素（意味を持つ最小の言語単位）に分類し、分類された形態素の品詞を判別する処理をいう。
また、この形態素解析の処理において、文字列の言語も判別（例えば、その文字列が日本語か英語かまたはその他の言語かが判別）される。
さらに、文字列抽出部３１０は、抽出された各文字列を、出現頻度順候補抽出部３２、配置順候補抽出部３４および原稿分類部３１４に対して出力する。
【００３２】
言語判定部３１２は、文字列抽出部３１０によって抽出された文字列を解析して、原稿がどの言語で構成されているかを判定する。
具体的には、例えば、言語判定部３１２は、原稿内の各文字列において最も割合の多い言語（つまり、原稿内で最も多く出現する言語）を、その原稿の言語と判定し、判定結果を示す情報（言語情報）を、特徴文字列生成部３６に対して出力する。
なお、本実施形態では、言語判定部３１２は、文字列抽出部３１０によって抽出された文字列を解析することによって原稿の言語を判定するとしたが、例えば、使用者がＵＩ装置２５を操作して手動で入力し、またはリストから選択することによって、原稿の言語を判定するようにしてもよい。
【００３３】
原稿分類部３１４は、配置解析部３０８からの配置情報と文字列抽出部３１０からの情報とに基づいて、分類基準格納部３１６に格納された分類基準に関する情報（分類基準情報）に従って、原稿の種類を判定する。
さらに、原稿分類部３１４は、判定結果を示す情報（原稿種類情報）を生成し、特徴文字列生成部３６に対して出力する。
分類基準格納部３１６は、図６に例示する分類基準情報を格納する。
【００３４】
図６は、分類基準情報を例示する図である。
分類基準情報は、原稿の種類と、原稿の種類を判定するための条件との関係を示す情報（テーブル）であり、各条件に合致する場合に各原稿の種類に付与される点数が示されている。なお、各条件および各原稿の種類は、図６に例示されたものに限られない。
原稿分類部３１４（図２）は、配置解析部３０８からの情報と文字列抽出部３１０からの情報とに基づいて、各条件について判定し、合致した場合に、所定の点数を各原稿の種類に付与する。
そして、原稿分類部３１４は、その点数の合計が最も高い原稿の種類を、原稿読取情報に関する原稿の種類と判定する。
例えば、原稿の上部中央に文字列「申請書」が存在し、その規模（フォントサイズ等）が所定規模以上であり、さらに表が存在する場合について説明する。
この場合、図６に示された例においては、種類「申請書」については、合計点は３５点であり、種類「稟議書」については、合計点は５点であり、種類「設計図」については、合計点は５点である。
よって、原稿分類部３１４は、点数の最も高い「申請書」を、その原稿の種類と判定する。
【００３５】
なお、図６の例の「上方」、「中央」といった位置を示す情報は、位置座標等の絶対的な位置情報で表わされてもよいし、他の文字列等との相対的な位置関係を示すものであってもよい。
また、自動生成要否指定部３０４によって受け入れられた自動生成要否情報が、画像処理装置２によって特徴文字列を自動的に生成することを示していない場合（つまり、使用者が選択する場合）、原稿分類部３１４が処理を行わないように構成してもよい。
さらに、本実施形態においては、原稿分類部３１４が原稿の種類を判定するとしたが、使用者が原稿の種類を指定してもよい。
【００３６】
出現頻度順候補抽出部３２は、文字列抽出部３１０によって抽出された文字列の、原稿における出現頻度の順に基づいて、特徴文字列を構成する文字列（構成文字列）の候補を抽出する。なお、出現頻度順候補抽出部３２によって抽出される構成文字列の候補を、出現頻度順候補と称する。
出現頻度順候補抽出部３２において、頻度算出部３２２（図３）は、文字列抽出部３１０によって抽出された各文字列について、その出現数（出現頻度）を算出し、文字列とその文字列の出現頻度とを対応付けて文字列順位判定部３２８に対して出力する。
【００３７】
複合文字列判断部３２４は、文字列抽出部３１０によって抽出された各文字列が複合文字列であるか否かを、例えば形態素解析によって判断する。
さらに、複合文字列判断部３２４は、文字列が複合文字列であると判断された場合に、その文字列が複合文字列であることを示す情報（複合文字列情報）を、文字列順位判定部３２８に対して出力する。
ここで、「複合文字列」とは、複数の語から構成される文字列である。
例えば、文字列「市場規模」は、２つの語「市場」および「規模」を包含するので、複合文字列と判断される。
【００３８】
文字列配置判断部３２６は、配置情報に基づいて、文字列抽出部３１０によって抽出された各文字列が、所定のオブジェクトに含まれる文字列であるか否かを判断する。
そして、ある特定のオブジェクトに含まれる文字列であると判断された場合、文字列配置判断部３２６は、その旨を示す情報（特定配置文字列情報）を、文字列順位判定部３２８に対して出力する。
【００３９】
文字列順位判定部３２８は、頻度算出部３２２からの情報と複合文字列判断部３２４からの複合文字列情報とに基づいて、順位基準格納部３３０に格納された順位付けの基準に関する情報（順位基準情報）に従って、文字列の順位を判定する。
さらに、文字列順位判定部３２８は、判定結果を示す情報（文字列順位情報）を生成し、特徴文字列生成部３６に対して出力する。
順位基準格納部３３０に格納された順位基準情報は、例えば、各文字列について、出現頻度が高い程、高い点数を付与するような基準を示す。
また、順位基準情報は、ある文字列が複合文字列情報に関する文字列である場合に、その文字列に付与する点数を増加させることを示してもよい。
【００４０】
さらに、順位基準情報は、ある文字列が特定配置文字列情報に関する文字列である場合に、その文字列に付与する点数を減少させることを示してもよい。
例えば、文字列配置判断部３２６によってある文字列が原稿において表に含まれると判断された場合に、順位基準情報は、その文字列に付与する点数を０点とすることを示してもよい。
また、例えば、文字列配置判断部３２６によってある文字列が原稿において表に含まれると判断された場合に、順位基準情報は、頻度算出部３２２によって算出されたその文字列出現頻度から、表に含まれると判断されたその文字列の数を減算することを示してもよい。
【００４１】
文字列順位判定部３２８の処理と順位基準情報とについて、具体例を挙げて説明する。
例えば、順位基準情報が、出現頻度が１位の文字列に１０点を付与し、出現頻度が２位の文字列に８点を付与し、出現頻度が３位の文字列に４点を付与することを示し、出現頻度が４位の文字列に３点を付与することを示し、さらに、文字列が複合文字列である場合に付与する点数を５倍にすることを示すとする。
また、例えば、頻度算出部３２２の算出結果が、
「規模」：１０個、「市場」：８個、「市場規模」：４個、「規模拡大」：３個
であるとする。
【００４２】
この場合、出現頻度によって、各文字列の出現頻度の順位および点数は、
１位：「規模」（１０点）、２位：「市場」（８点）、３位：「市場規模」（４点）、４位：「規模拡大」（３点）
である。
ここで、文字列「市場規模」および「規模拡大」は、複合文字列判断部３２４によって複合文字列と判断されているので、文字列順位判定部３２８は、文字列「市場規模」および「規模拡大」に付与される点数を５倍にする。
よって、文字列順位判定部３２８は、
１位：「市場規模」（２０点）、２位：「規模拡大」（１５点）、３位：「規模」（１０点）、４位：「市場」（８点）
と判定する。
【００４３】
配置順候補抽出部３４（図２）は、文字列抽出部３１０によって抽出された文字列の、原稿における配置に基づいて、特徴文字列を構成する構成文字列の候補を抽出する。なお、配置順候補抽出部３４によって抽出される構成文字列の候補を、配置順候補と称する。
配置順候補抽出部３４において、文字列位置判定部３４２（図４）は、文字列抽出部３１０によって抽出された各文字列の位置を、配置解析部３０８からの配置情報に基づいて判定する。
さらに、文字列位置判定部３４２は、各文字列とその文字列に関する位置情報とを対応付けて、配置順候補判定部３２６に対して出力する。
【００４４】
文字列規模判定部３４４は、文字列抽出部３１０によって抽出された各文字列の規模を、配置解析部３０８からの配置情報に基づいて判断する。
さらに、文字列規模判定部３４４は、各文字列とその文字列に関する規模情報とを対応付けて、配置順候補判定部３２６に対して出力する。
【００４５】
配置順候補判定部３２６は、文字列位置判定部３４２からの情報と文字列規模判定部３４４からの情報とに基づいて、配点基準格納部３４８に格納された順位付けの基準に関する情報（配点基準情報）に従って、各文字列の、配置に基づく順位を判定する。
さらに、配置順候補判定部３２６は、判定結果を示す情報（配置順位情報）を生成し、特徴文字列生成部３６に対して出力する。
配点基準格納部３４８に格納された配点基準情報は、例えば、原稿において、各文字列の位置が相対的に上方にある場合および相対的に中央にある場合に、その文字列に付与する点数を高くすることを示す。
また、配点基準情報は、例えば、文字列のフォントが大きい等、原稿において、各文字列の規模が相対的に大きい場合に、その文字列に付与する点数を高くすることを示す。
【００４６】
配置順候補判定部３２６の処理と配点基準情報とについて、具体例を挙げて説明する。
例えば、配点基準情報が、原稿において所定の位置よりも上方にある文字列に１０点を付与し、原稿において所定の位置よりも横方向中央にある文字列に５点を付与することを示すとする。
また、例えば、配点基準情報が、原稿における文字列の規模の平均値の５倍以上である規模の文字列に１０点を付与し、文字列の規模の平均値の２倍以上５倍未満である規模の文字列に８点を付与することを示すとする。
また、例えば、原稿において文字列「見積書」の位置が所定の位置よりも上方且つ所定の位置よりも横方向中央にあり、さらに、この文字列「見積書」のフォントサイズが平均フォントサイズの５倍であるとする。
【００４７】
一方、例えば、原稿において文字列「市場」の位置が所定の位置よりも下方にあるが所定の位置よりも横方向中央にあり、さらに、この文字列「市場」のフォントサイズが平均フォントサイズの３倍であるとする。
この場合、文字列「見積書」に付与される点数は、１０＋５＋１０＝２５点であり、文字列「市場」に付与される点数は、０＋５＋８＝１３点である。
したがって、配置順候補判定部３２６は、
１位：「見積書」（２５点）、２位：「市場」（１３点）
と判定する。
【００４８】
特徴文字列抽生成部３６は、出現頻度順候補抽出部３２からの文字列順位情報と配置順候補抽出部３４からの配置順位情報とに基づいて、文字列順位情報又は配置順位情報の少なくとも一方に含まれる文字列の候補から２つ以上の文字列を選択してそれらを連結し、特徴文字列を生成する。
特徴文字列生成部３６において、配置順候補格納部３６０（図５）は、配置順候補抽出部３４からの配置順位情報を格納する。
出現頻度順候補格納部３６２、出現頻度順候補抽出部３２からの文字列順位情報を格納する。
原稿種類文字列格納部３６４は、原稿分類部３１４からの原稿種類情報に含まれる原稿の種類に対応する文字列（原稿種類文字列）を格納する。
【００４９】
配置順候補分割部３６６は、配置順候補格納部３６０に格納された配置順位情報に関する各文字列の内、文字数設定部３０６によって設定された文字数よりも長い文字数の文字列がある場合、その文字列を、例えば形態素解析によってその文字列単独で所定の語義を有する形式で分割する。
配置順候補選択部３６８は、配置順位情報に含まれる各文字列（配置順候補）のうち、順位の高いものから順に選択して、構成文字列決定部３７２に対して出力する。
出現頻度順候補選択部３７０は、文字列順位情報に含まれる各文字列（出現頻度順候補）のうち、順位の高いものから順に選択して、構成文字列決定部３７２に対して出力する。
【００５０】
なお、配置順候補選択部３６８は、自動生成要否指定部３０４から、使用者がＵＩ装置２５を操作することによって特徴文字列を作成する旨を示す自動生成要否情報を受け入れた場合に、配置順位情報に含まれる配置順候補が順位の高いものから並べられたリストを、表示装置等のＵＩ装置２５に対して送信してもよい。
同様に、出現頻度順候補選択部３７０は、自動生成要否指定部３０４から、使用者がＵＩ装置２５を操作することによって特徴文字列を作成する旨を示す自動生成要否情報を受け入れた場合に、文字列順位情報に含まれる出現頻度順候補が順位の高いものから並べられたリストを、表示装置等のＵＩ装置２５に対して送信してもよい。
ＵＩ装置２５は、配置順候補が順位の高いものから並べられたリストと出現頻度順候補が順位の高いものから並べられたリストとを表示する。
この場合、使用者がＵＩ装置２５を操作することにより、特徴文字列を構成する配置順候補および出現頻度順候補が選択される。
【００５１】
構成文字列決定部３７２は、配置順候補選択部３６８によって選択された配置順候補と、出現頻度順候補選択部３７０によって選択された出現頻度順候補を比較して、それぞれが原稿読取情報に対応する原稿に関する特徴文字列を構成する構成文字列として適当であるか否か判定する。具体的な処理については後述する。
同義語辞書ＤＢ３７４は、例えば同義語となる文字列の組み合わせのリストを含む同義語辞書を記憶する。
文字列属性判定部３７６は、例えば形態素解析により、文字列の属性を判定する。
ここで、文字列の属性とは、例えば、名詞、動詞又は形容詞等の品詞の種類を区別するものであってもよく、文字列が名詞の場合には、普通名詞又は固有名詞等を区別するものであってもよく、さらに、文字列が固有名詞である場合には、人名、法人名等の人間以外の特定のものを示す名称又は地名等を区別するものであってもよい。
また、属性が地名である場合、その属性は、国名又は地域名等を区別するものであってもよい。
【００５２】
構成文字列決定部３７２は、同義語辞書ＤＢ３７４に記憶された同義語辞書に基づいて、配置順候補選択部３６８によって選択された配置順候補と出現頻度順候補選択部３７０によって選択された出現頻度順候補とが、互いに同義語であるか否かを判断する（判断１−１）。
また、構成文字列決定部３７２は、同義語辞書ＤＢ３７４に記憶された同義語辞書に基づいて、配置順候補および出現頻度順候補の両方が同義語となる文字列を包含するか否かを判断する（判断１−２）。
さらに、構成文字列決定部３７２は、配置順候補又は出現頻度順候補が互いに同一の文字列であるか否か、配置順候補又は出現頻度順候補が同一の文字列を包含するか否か、および、配置順候補又は出現頻度順候補のいずれか一方の文字列が他方の文字列を包含するか否かを判断してもよい（判断１−３）。
【００５３】
構成文字列決定部３７２は、上記判断１−１〜１−３の内の少なくとも１つが正しいと判断された場合、配置順候補はそのまま構成文字列の候補として留め置きつつ、出現頻度順候補を破棄する。
そして、構成文字列決定部３７２は、新たな出現頻度順候補を選択するように、出現頻度順候補選択部３７０を制御する。
この場合、出現頻度順候補選択部３７０は、未選択の出現頻度順候補の内最も順位が高い出現頻度順候補を、出現頻度順候補格納部３６２に格納された文字列順位情報から選択し、構成文字列決定部３７２に対して出力する。
そして、構成文字列決定部３７２は、上記と同様に、留め置かれた配置順候補と新たに選択された出現頻度順候補とに対し、上記判断１−１〜１−３を行う。
【００５４】
構成文字列決定部３７２は、配置順候補と出現頻度順候補とを、文字列属性判定部３７６に対して出力する。
文字列属性判定部３７６は、配置順候補の属性と出現頻度順候補の属性とが同一であるか否かを判断し、判断結果を示す情報を構成文字列決定部３７２に対して出力する。
構成文字列決定部３７２は、文字列属性判定部３７６からの判断結果を示す情報に基づいて、配置順候補の属性と出現頻度順候補の属性とが同一であるか否かを判断する（判断２）。
【００５５】
構成文字列決定部３７２は、上記判断２が正しいと判断された場合、配置順候補はそのまま構成文字列の候補として留め置きつつ、出現頻度順候補を破棄する。
そして、構成文字列決定部３７２は、新たな出現頻度順候補を選択するように、出現頻度順候補選択部３７０を制御する。
この場合、出現頻度順候補選択部３７０は、未選択の出現頻度順候補の内最も順位が高い出現頻度順候補を、出現頻度順候補格納部３６２に格納された文字列順位情報から選択し、構成文字列決定部３７２に対して出力する。
そして、構成文字列決定部３７２は、上記と同様に、留め置かれた配置順候補と新たに選択された出現頻度順候補とに対し、上記判断２を行う。
【００５６】
構成文字列決定部３７２は、上記判断１−１〜１−３および上記判断２の全ての判断が否と判断された場合、これらの配置順候補および出現頻度順候補を、構成文字列として、文字列連結部３８２に対して出力する。
なお、構成文字列決定部３７２は、原稿種類文字列格納部３６４に格納された原稿種類文字列を、配置順候補および出現頻度順候補が包含するか否かを判断してもよい。
この場合、配置順候補および出現頻度順候補のいずれか一方が原稿種類文字列を包含すると判断されたときは、構成文字列決定部３７２は、上記判断１−１〜１−３および上記判断２に関わらず、その原稿種類文字列を包含する配置順候補又は出現頻度順候補を、構成文字列として文字列連結部３８２に対して出力してもよい。
また、配置順候補および出現頻度順候補のいずれもが原稿種類文字列を包含しないと判断されたときは、構成文字列決定部３７２は、配置順候補および出現頻度順候補の他に、原稿種類文字列を構成文字列として文字列連結部３８２に対して出力してもよい。
【００５７】
さらに、構成文字列決定部３７２は、原稿種類文字列に応じて、特定の属性の配置順候補又は出現頻度順候補を、構成文字列として決定してもよい。
例えば、原稿種類文字列が「申請書」の場合、属性が「人名」である配置順候補又はおよび出現頻度順候補を、上記判断１−１〜１−３および上記判断２に関わらず、構成文字列として文字列連結部３８２に対して出力してもよい。
さらに、構成文字列決定部３７２は、言語判定部３１２からの言語情報に基づいて、決定される構成文字列の判断基準を、適宜、変更するようにしてもよい。
【００５８】
なお、配置順候補抽出部３４によって配置順候補が抽出されなかった場合、構成文字列決定部３７２は、別の出現頻度順候補を選択するように、出現頻度順候補選択部３７０を制御する。
この場合、出現頻度順候補選択部３７０は、未選択の出現頻度順候補の内で最も順位が高い出現頻度順候補を、出現頻度順候補格納部３６２に格納された文字列順位情報から選択し、構成文字列決定部３７２に対して出力する。
そして、構成文字列決定部３７２は、上記と同様に、元の出現頻度順候補と新たに選択された出現頻度順候補とに対し、上記判断１−１〜１−３および上記判断２を行ってもよい。
なお、上記判断１−１〜１−３および上記判断２における判断に応じて、構成文字列決定部３７２が留め置くのは配置順候補としたが、出現頻度順候補が留め置かれ、配置順候補が新たに選択されるようにしてもよい。
【００５９】
文字列連結部３８２は、まず、特徴文字列を構成する構成文字列の数を決定する。
具体的には、文字列連結部３８２は、構成文字列決定部３７２から複数の構成文字列を受け入れ、これらの構成文字列の文字数の合計（合計文字数）を算出する。
また、文字列連結部３８２は、文字数設定部３０６から設定文字数情報を受け入れる。
そして、文字列連結部３８２は、構成文字列の合計文字数が、設定文字列が示す設定文字数以内か否か判断する。
構成文字列の合計文字数が設定文字数以内である場合、文字列連結部３８２は、さらに別の出現頻度順候補を選択するように、構成文字列決定部３７２および出現頻度順候補選択部３７０を制御する。
【００６０】
この場合、出現頻度順候補選択部３７０は、未選択の出現頻度順候補のうち最も順位が高い出現頻度順候補を、出現頻度順候補格納部３６２に格納された文字列順位情報から選択し、構成文字列決定部３７２に対して出力する。
そして、構成文字列決定部３７２は、文字列連結部３８２に出力済みの構成文字列と新たに選択された出現頻度順候補とに対し、上記判断１−１〜１−３および上記判断２を行い、新たに選択された出現頻度順候補を構成文字列と決定した場合には、その構成文字列（出現頻度順候補）を、文字列連結部３８２に対して出力する。
【００６１】
一方、構成文字列の合計文字数が設定文字数以内でない場合、文字列連結部３８２は、直前に構成文字列決定部３７２から受け入れた構成文字列を破棄する。
以上の処理により、特徴文字列を構成する構成文字列の数が決定される。
上記の処理について、例を挙げて具体的に説明する。
例えば、設定文字数が２０文字であり、配置順候補として「住所変更申請書」（７文字）が選択され、出現頻度順候補として、順に、出現頻度順候補＃１「横浜市西区」（５文字）、出現頻度順候補＃２「転居日」（３文字）、出現頻度順候補＃３「世帯主」（３文字）および出現頻度順候補＃４「同居者」（３文字）が選択されたとする。
この場合、配置順候補の文字数と出現頻度順候補＃１〜＃３の文字数の合計は１８文字であり、配置順候補の文字数と出現頻度順候補＃１〜＃４の文字数の合計は２１文字である。
【００６２】
したがって、この場合、文字列連結部３８２は、直前に構成文字列決定部３７２から受け入れた構成文字列（出現頻度順候補＃４）「同居者」を破棄し、配置順候補と出現頻度順候補＃１〜＃３とを、連結されるべき構成文字列として決定する。
よって、この場合、文字列連結部３８２は、特徴文字列を構成する構成文字列の数を、４つ（配置順候補および出現頻度順候補＃１〜＃３）と決定する。
【００６３】
なお、特徴文字列を生成する際、複数の構成文字列の間に「−（ハイフン）」又は「＿（アンダーバー）」等の区切り文字が挿入されてもよい。
この場合、文字列連結部３８２は、上記の合計文字数と設定文字数とを比較において、合計文字数に挿入記号の数を加算してもよい。
また、上記実施形態においては、合計文字数が設定文字数以内である場合に、文字列連結部３８２が、別の出現頻度順候補を選択するように、構成文字列決定部３７２および出現頻度順候補選択部３７０を制御するとしたが、文字列連結部３８２が、別の配置順候補を選択するように、構成文字列決定部３７２および配置順候補選択部３６８を制御するようにしてもよい。
【００６４】
次に、文字列連結部３８２は、複数の構成文字列を連結する際の順序を決定する。
文字列連結部３８２は、配置順候補である構成文字列を特徴文字列の先頭とし、その後ろに、出現頻度順候補である構成文字列を連結する。
ここで、出現頻度順候補が複数ある場合、文字列連結部３８２は、出現頻度の大きい出現頻度順候補がより前になるように連結する。
また、文字列連結部３８２は、配置順候補が構成文字列として決定されていない場合、出現頻度の大きい出現頻度順候補がより前になるように連結する。
【００６５】
以上の処理により、文字列連結部３８２は、複数の構成文字列を連結し、特徴文字列を生成する。
また、文字列連結部３８２は、生成した特徴文字列を、ＵＩ装置２５に対して送信し、ＵＩ装置２５に特徴文字列が表示される。
なお、文字列連結部３８２は、原稿分類文字列を構成文字列として受け入れた場合、その原稿分類文字列を特徴文字列の先頭としてもよい。
また、文字列連結部３８２は、原稿種類文字列を包含する配置順候補又は出現頻度順候補を構成文字列として受け入れた場合、その原稿種類文字列を包含する配置順候補又は出現頻度順候補を特徴文字列の先頭としてもよい。
【００６６】
また、文字列連結部３８２は、構成文字列が配置順候補であるか出現頻度順候補であるかに関わらず、構成文字列の属性に基づいて、構成文字列の連結順序を決定するようにしてもよい。
例えば、属性「地名」の構成文字列と属性「人名」の構成文字列とがある場合、属性「地名」の構成文字列を属性「人名」の構成文字列よりも前に連結するようにしてもよい。
また、文字列連結部３８２は、構成文字列が配置順候補であるか出現頻度順候補であるかに関わらず、原稿の言語に応じて連結順序を決定するようにしてもよい。
例えば、属性「国名」の構成文字列と属性「地域名」の構成文字列とがある場合、言語判定部３１２からの言語情報が「日本語」を示す場合、属性「国名」の構成文字列を属性「地域名」の構成文字列よりも前に連結し、言語情報が「英語」を示す場合、属性「地域名」の構成文字列を属性「国名」の構成文字列よりも前に連結するようにしてもよい。
また、文字列連結部３８２は、構成文字列が配置順候補であるか出現頻度順候補であるかに関わらず、原稿種類文字列に基づいて、構成文字列の連結順序を決定するようにしてもよい。
【００６７】
図７Ａ，図７Ｂは、処理プログラム３の処理を示すフローチャート（Ｓ１０）である。
ステップ１０２（Ｓ１０２）において、原稿読取情報受付部３０２は、原稿を読み取って得られた原稿読取情報を受け付ける。
ステップ１０４（Ｓ１０４）において、原稿読取情報に基づいて、配置解析部３０８が配置情報を生成し、文字列抽出部３１０が文字列を抽出する。
【００６８】
ステップ１０６（Ｓ１０６）において、出現頻度順候補抽出部３２は、原稿における出現頻度の順に基づいて、出現頻度順候補を抽出する。
ステップ１０８（Ｓ１０８）において、配置順候補抽出部３４は、原稿における文字列の配置に基づいて、配置順候補を抽出する。
ステップ１１０（Ｓ１１０）において、自動生成要否指定部３０４は、特徴文字列を、画像処理装置２が自動的に生成するか否かを判断し、自動的に生成する設定がなされていると判断した場合は、処理はＳ１２０に進み、そうでない場合（つまり使用者が例えばＵＩ装置２５を操作することによって作成する設定がなされている場合）は、処理はＳ１１２に進む。
ステップ１１２（Ｓ１１２）において、ＵＩ装置２５は、出現頻度順候補抽出部３２によって抽出された出現頻度順候補のリストと、配置順候補抽出部３４によって抽出された配置順候補とを表示する。
ステップ１１４（Ｓ１１４）において、使用者によって、出現頻度順候補および配置順候補が選択されることによって、特徴文字列が選択され、処理が終了する。
【００６９】
ステップ１２０（Ｓ１２０）において、原稿分類部３１４は、分類基準情報に従って、原稿の種類を判定する。
ステップ１２２（Ｓ１２２）において、特徴文字列生成部３６は、配置順候補の抽出数が０でないか否かを判断し、０でない場合は、処理はＳ１２６に進み、０である場合は、処理はＳ１２４に進む。
ステップ１２４（Ｓ１２４）において、特徴文字列生成部３６は、出現頻度順候補の抽出数が０でないか否かを判断し、０でない場合は、処理はＳ１３０に進み、０である場合は、処理が終了する。
【００７０】
ステップ１２６（Ｓ１２６）において、特徴文字列生成部３６の配置順候補選択部３６８は、配置順候補のうち、順位の高いものから順に選択する。
ステップ１２８（Ｓ１２８）において、特徴文字列生成部３６は、出現頻度順候補の抽出数が０でないか否かを判断し、０でない場合は、処理はＳ１３０に進み、０である場合は、処理が終了する。
ステップ１３０（Ｓ１３０）において、特徴文字列生成部３６の出現頻度順候補選択部３７０は、出現頻度順候補のうち、順位の高いものから順に選択する。
【００７１】
ステップ１４２（Ｓ１４２）において、特徴文字列生成部３６の構成文字列決定部３７２は、選択された配置順候補と出現頻度順候補とが互いに同義語であるか否かを判断し、同義語であると判断した場合は、処理はＳ１４６に進み、同義語でないと判断した場合は、処理はＳ１４２に進む。
ステップ１４４（Ｓ１４４）において、特徴文字列生成部３６の構成文字列決定部３７２は、配置順候補の属性と出現頻度順候補の属性とが同一であるか否かを判断し、属性が互いに同一であると判断した場合は、処理はＳ１４６に進み、同一でないと判断した場合は、処理はＳ１４８に進む。
ステップ１４６（Ｓ１４６）において、特徴文字列生成部３６は、処理対象であった出現頻度順候補を破棄する。
【００７２】
ステップ１４８（Ｓ１４８）において、特徴文字列生成部３６の文字列連結部３８２は、構成文字列の文字数の合計が、設定文字数以内か否か判断し、設定文字数以内であると判断した場合は、処理はＳ１３０に進み、そうでない場合は、処理はＳ１５０に進む。
ステップ１５０（Ｓ１５０）において、特徴文字列生成部３６の文字列連結部３８２は、直前に構成文字列決定部３７２から受け入れた構成文字列を破棄する。
ステップ１５２（Ｓ１５２）において、特徴文字列生成部３６の文字列連結部３８２は、複数の構成文字列を連結する際の順序を決定し、複数の構成文字列を連結して、処理を終了する。
【００７３】
以下、本実施形態に係る画像処理装置２の処理を、具体的に例を挙げて説明する。
図８は、本実施形態に係る画像処理装置２の処理対象である原稿の例を示す図である。
図８に例示した原稿において、上方中央に、他の文字列よりも大きなフォントで、文字列「申請書」と記載されており、その下の右側に、文字列「申請書」よりは小さいが本文の文字列よりは大きなフォントで、文字列「○○○市市長殿」と記載されている。
したがって、配置順候補抽出部３４は、順に、配置順候補＃１「申請書」および配置順候補＃２「○○○市市長殿」を抽出する。
また、出現頻度順候補抽出部３２は、出現頻度の高いものから順に、出現頻度順候補＃１「グラウンド利用」、出現頻度順候補＃２「申請者」、出現頻度順候補＃３「富士太郎」、出現頻度順候補＃４「○○○市」、出現頻度順候補＃５「申請書」、出現頻度順候補＃６「市長殿」を抽出する。
【００７４】
特徴文字列生成部３６は、まず、配置順候補＃１「申請書」を選択し、出現頻度順候補＃１「グラウンド利用」を選択する。
特徴文字列生成部３６は、配置順候補＃１「申請書」と出現頻度順候補＃１「グラウンド利用」とは、互いに同義語でなく、同じ同義語を包含せず、これらの属性も互いに異なると判断する。
したがって、特徴文字列生成部３６は、配置順候補＃１「申請書」および出現頻度順候補＃１「グラウンド利用」を、構成文字列として決定する。
【００７５】
設定文字数が１５文字である場合、配置順候補＃１「申請書」と出現頻度順候補＃１「グラウンド利用」との文字数の合計は１０文字であるので、さらに、特徴文字列生成部３６は、出現頻度順候補＃２「申請者」を選択する。
配置順候補＃１「申請書」および出現頻度順候補＃２「申請者」は、ともに文字列「申請」を含むので、特徴文字列生成部３６は、配置順候補＃１「申請書」と出現頻度順候補＃２「申請者」とは互いに同義語であると判断する。
したがって、出現頻度順候補＃２「申請者」は破棄される。
【００７６】
次に、特徴文字列生成部３６は、出現頻度順候補＃３「富士太郎」を選択する。
特徴文字列生成部３６は、既に決定されている配置順候補＃１「申請書」および出現頻度順候補＃１「グラウンド利用」と、出現頻度順候補＃３「富士太郎」とは、互いに同義語でなく、同じ同義語を包含せず、これらの属性も互いに異なると判断する。
したがって、特徴文字列生成部３６は、出現頻度順候補＃３「富士太郎」を、新たに構成文字列として決定する。
【００７７】
配置順候補＃１「申請書」と出現頻度順候補＃１「グラウンド利用」と出現頻度順候補＃３「富士太郎」との文字数の合計は１４文字であるので、さらに、特徴文字列生成部３６は、出現頻度順候補＃４「○○○市」を選択する。
特徴文字列生成部３６は、既に決定されている配置順候補＃１「申請書」，出現頻度順候補＃１「グラウンド利用」および出現頻度順候補＃３「富士太郎」と、出現頻度順候補＃４「○○○市」とは、互いに同義語でなく、同じ同義語を包含せず、これらの属性も互いに異なると判断する。
しかし、配置順候補＃１「申請書」と出現頻度順候補＃１「グラウンド利用」と出現頻度順候補＃３「富士太郎」と出現頻度順候補＃４「○○○市」との文字数の合計は１８文字となり、設定文字数を超える。
したがって、出現頻度順候補＃４「○○○市」は破棄され、配置順候補＃１「申請書」と出現頻度順候補＃１「グラウンド利用」と出現頻度順候補＃３「富士太郎」とが、構成文字列として決定される。
【００７８】
次に、特徴文字列生成部３６は、配置順候補＃１「申請書」を先頭とし、その後ろに、出現頻度順候補＃１「グラウンド利用」、出現頻度順候補＃３「富士太郎」の順に、これらの構成文字列を連結する。
よって、特徴文字列生成部３６は、特徴文字列「申請書グラウンド利用富士太郎」を生成する。
【符号の説明】
【００７９】
２・・・画像処理装置，
３・・・処理プログラム，
３０２・・・原稿読取情報受付部，
３０４・・・自動生成要否指定部，
３０６・・・文字数設定部，
３０８・・・配置解析部，
３１０・・・文字列抽出部，
３１２・・・言語判定部，
３１４・・・原稿分類部，
３１６・・・分類基準格納部，
３２・・・出現頻度順候補抽出部，
３２２・・・頻度算出部，
３２４・・・複合文字列判断部，
３２６・・・文字列配置判断部，
３２８・・・文字列順位判定部，
３３０・・・順位基準格納部，
３４・・・配置順候補抽出部，
３４２・・・文字列位置判定部，
３４４・・・文字列規模判定部，
３２６・・・配置順候補判定部，
３４８・・・配点基準格納部，
３６・・・特徴文字列抽生成部，
３６０・・・配置順候補格納部，
３６２・・・出現頻度順候補格納部，
３６４・・・原稿種類文字列格納部，
３６６・・・配置順候補分割部，
３６８・・・配置順候補選択部，
３７０・・・出現頻度順候補選択部，
３７２・・・構成文字列決定部，
３７４・・・同義語辞書ＤＢ，
３７６・・・文字列属性判定部，
３８２・・・文字列連結部，

【特許請求の範囲】
【請求項１】
原稿を読み取る読取手段によって得られた読取情報から複数の文字列を抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列から、原稿における文字列の出現頻度に基づいて、原稿に関する特徴文字列を構成する文字列の第１の候補を１つ以上抽出する第１抽出手段と、
前記文字列抽出手段により抽出された文字列から、原稿における文字列の配置に基づいて、前記特徴文字列を構成する文字列の第２の候補を１つ以上抽出する第２抽出手段と、
前記第１抽出手段によって抽出された第１の候補および前記第２抽出手段によって抽出された第２の候補の少なくとも一方から２つ以上の文字列を選択して連結し、前記特徴文字列を生成する特徴文字列生成手段と
を有する画像処理装置。
【請求項２】
前記特徴文字列生成手段は、互いに意味が異なる２つ以上の文字列、又は、互いに意味が同じ語を含まない２つ以上の文字列を選択して、前記特徴文字列を生成する
請求項１に記載の画像処理装置。
【請求項３】
前記特徴文字列生成手段は、選択された２つ以上の文字列それぞれの属性に基づいて、選択された２つ以上の文字列を連結する順序を決定する
請求項１に記載の画像処理装置。
【請求項４】
前記特徴文字列生成手段は、前記特徴文字列の文字数が所定数以内となるように、２つ以上の文字列を選択して連結する
請求項１に記載の画像処理装置。
【請求項５】
前記第１抽出手段は、抽出された第１の候補について、複数の語から構成される文字列の重み付けを、１つの語から構成される文字列の重み付けよりも大きくするように重み付けし、
前記特徴文字列生成手段は、前記第１抽出手段による重み付けが大きい第１の候補を優先的に選択する
請求項１に記載の画像処理装置。
【請求項６】
前記特徴文字列生成手段は、原稿の種類に基づいて、選択された文字列を連結する順序を決定する
請求項１に記載の画像処理装置。
【請求項７】
前記特徴文字列生成手段は、前記第１の候補および前記第２の候補のいずれもが、原稿の種類に関する文字列を含まない場合、この原稿の種類に関する文字列を含むように、前記特徴文字列を生成する
請求項１に記載の画像処理装置。
【請求項８】
原稿を読み取る読取手段によって得られた読取情報から複数の文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップにおいて抽出された文字列から、原稿における文字列の出現頻度に基づいて、原稿に関する特徴文字列を構成する文字列の第１の候補を１つ以上抽出する第１抽出ステップと、
前記文字列抽出ステップにおいて抽出された文字列から、原稿における文字列の配置に基づいて、前記特徴文字列を構成する文字列の第２の候補を１つ以上抽出する第２抽出ステップと、
前記第１抽出ステップにおいて抽出された第１の候補および前記第２抽出ステップにおいて抽出された第２の候補の少なくとも一方から２つ以上の文字列を選択して連結し、前記特徴文字列を生成する特徴文字列生成ステップと
をコンピュータに実行させる画像処理プログラム。

【図１】