説明

画像処理装置およびプログラム

【課題】原稿の内容を反映した特徴文字列を生成可能な画像処理装置を提供する。
【解決手段】出現頻度順候補抽出部32は、文字列抽出部310によって抽出された文字列の、原稿における出現頻度の順に基づいて、特徴文字列を構成する構成文字列の候補を抽出する。配置順候補抽出部34は、文字列抽出部310によって抽出された文字列の、原稿における配置に基づいて、特徴文字列を構成する構成文字列の候補を抽出する。特徴文字列抽生成部36は、出現頻度順候補抽出部32からの文字列順位情報と配置順候補抽出部34からの配置順位情報とに基づいて、文字列順位情報又は配置順位情報の少なくとも一方に含まれる文字列の候補から2つ以上の文字列を選択してそれらを連結し、特徴文字列を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置およびプログラムに関する。
【背景技術】
【0002】
特許文献1は、入力された各インデックス情報の文字列間に所定の区切り文字を付加してファイル名を生成する情報処理装置を開示する。
特許文献2は、原稿画像を読み取り、読み取り画像から文字を認識して、認識結果から、出現頻度の高い文字列を原稿に対するファイル名とする画像読取り装置を開示する。
特許文献3は、文書形式毎のルールからなる知識を用い、対象文書のレイアウト情報、フォントサイズ情報および出現頻度情報を入力し、推論を実行するシステムを開示する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平10−289137号公報
【特許文献2】特開2006−211261号公報
【特許文献3】特開2006−309347号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の目的は、原稿の内容を反映した特徴文字列を生成可能な画像処理装置を提供することである。
【課題を解決するための手段】
【0005】
請求項1にかかる本発明は、原稿を読み取る読取手段によって得られた読取情報から複数の文字列を抽出する文字列抽出手段と、前記文字列抽出手段により抽出された文字列から、原稿における文字列の出現頻度に基づいて、原稿に関する特徴文字列を構成する文字列の第1の候補を1つ以上抽出する第1抽出手段と、前記文字列抽出手段により抽出された文字列から、原稿における文字列の配置に基づいて、前記特徴文字列を構成する文字列の第2の候補を1つ以上抽出する第2抽出手段と、前記第1抽出手段によって抽出された第1の候補および前記第2抽出手段によって抽出された第2の候補の少なくとも一方から2つ以上の文字列を選択して連結し、前記特徴文字列を生成する特徴文字列生成手段とを有する画像処理装置である。
【0006】
請求項2にかかる本発明は、前記特徴文字列生成手段は、互いに意味が異なる2つ以上の文字列、又は、互いに意味が同じ語を含まない2つ以上の文字列を選択して、前記特徴文字列を生成する請求項1に記載の画像処理装置である。
【0007】
請求項3にかかる本発明は、前記特徴文字列生成手段は、選択された2つ以上の文字列それぞれの属性に基づいて、選択された2つ以上の文字列を連結する順序を決定する請求項1に記載の画像処理装置である。
【0008】
請求項4にかかる本発明は、前記特徴文字列生成手段は、前記特徴文字列の文字数が所定数以内となるように、2つ以上の文字列を選択して連結する請求項1に記載の画像処理装置である。
【0009】
請求項5にかかる本発明は、前記第1抽出手段は、抽出された第1の候補について、複数の語から構成される文字列の重み付けを、1つの語から構成される文字列の重み付けよりも大きくするように重み付けし、前記特徴文字列生成手段は、前記第1抽出手段による重み付けが大きい第1の候補を優先的に選択する請求項1に記載の画像処理装置である。
【0010】
請求項6にかかる本発明は、前記特徴文字列生成手段は、原稿の種類に基づいて、選択された文字列を連結する順序を決定する請求項1に記載の画像処理装置である。
【0011】
請求項7にかかる本発明は、前記特徴文字列生成手段は、前記第1の候補および前記第2の候補のいずれもが、原稿の種類に関する文字列を含まない場合、この原稿の種類に関する文字列を含むように、前記特徴文字列を生成する請求項1に記載の画像処理装置である。
【0012】
請求項8にかかる本発明は、原稿を読み取る読取手段によって得られた読取情報から複数の文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップにおいて抽出された文字列から、原稿における文字列の出現頻度に基づいて、原稿に関する特徴文字列を構成する文字列の第1の候補を1つ以上抽出する第1抽出ステップと、前記文字列抽出ステップにおいて抽出された文字列から、原稿における文字列の配置に基づいて、前記特徴文字列を構成する文字列の第2の候補を1つ以上抽出する第2抽出ステップと、前記第1抽出ステップにおいて抽出された第1の候補および前記第2抽出ステップにおいて抽出された第2の候補の少なくとも一方から2つ以上の文字列を選択して連結し、前記特徴文字列を生成する特徴文字列生成ステップとをコンピュータに実行させる画像処理プログラムである。
【発明の効果】
【0013】
請求項1に係る本発明によれば、原稿の内容を反映した特徴文字列を生成可能な画像処理装置を提供することができる。
【0014】
請求項2に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、同じ意味の語が重複した特徴文字列を生成しないようにすることができる。
【0015】
請求項3に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、本構成を有していない場合と比較して、見栄えのよい特徴文字列を生成できる。
【0016】
請求項4に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、本構成を有していない場合と比較して、見栄えのよい特徴文字列を生成できる。
【0017】
請求項5に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、本構成を有していない場合と比較して、特徴文字列に複合語を含み易くすることができる。
【0018】
請求項6に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、原稿の内容を反映した特徴文字列を生成できる。
【0019】
請求項7に係る本発明によれば、請求項1に係る本発明により得られる効果に加えて、原稿の内容を反映した特徴文字列を生成できる。
【0020】
請求項8に係る本発明によれば、原稿の内容を反映した特徴文字列を生成可能な画像処理プログラムを提供することができる。
【図面の簡単な説明】
【0021】
【図1】本実施形態にかかる画像処理装置のハードウェア構成を例示する図である。
【図2】図1に示した画像処理装置において動作する処理プログラムである。
【図3】図2に示した出現頻度順候補抽出部の構成を示す図である。
【図4】図2に示した配置順候補抽出部の構成を示す図である。
【図5】図2に示した特徴文字列生成部の構成を示す図である。
【図6】分類基準情報を例示する図である。
【図7A】処理プログラムの処理を示すフローチャートである。
【図7B】処理プログラムの処理を示すフローチャートである。
【図8】本実施形態に係る画像処理装置の処理対象である原稿の例を示す図である。
【発明を実施するための形態】
【0022】
図1は、本実施形態にかかる画像処理装置2のハードウェア構成を例示する図である。
図1に例示するように、画像処理装置2は、CPU等の演算部212およびメモリ等の記憶部214などを含む制御装置21と、通信装置22と、記録装置24と、ユーザインターフェース装置(UI装置)25と、印刷装置26と、画像読取装置27とから構成される。
【0023】
UI装置25は、LCD(Liquid Crystal Display)表示装置あるいはCRT(Cathode Ray Tube)表示装置等の表示装置およびキーボード・タッチパネルなどを含む。
印刷装置26は、例えばプリンタ等であって、文字データまたは画像データ等を用紙等の記録媒体に印刷する。
画像読取装置27は、例えばスキャナ等であって、原稿等の記録媒体から画像等を読み取って、例えばビットマップ形式の読取情報に変換する。
つまり、画像処理装置2は、情報処理および他の画像処理装置又は端末との通信が可能なコンピュータとしてのハードウェア構成部分を有している。
また、以下の各図において、実質的に同じ構成部分および処理には同じ番号が付される。
なお、本実施形態において、画像処理装置2は印刷装置26および画像読取装置27を有するとしたが、画像処理装置は、印刷装置および画像読取装置を有さない例えばPCであってもよく、この場合、画像処理装置は、画像読取装置とLAN(Local Area Network)等を介して接続されていてもよい。
【0024】
図2は、図1に示した画像処理装置2において動作する処理プログラム3の構成を示す図である。
図2に示すように、処理プログラム3は、原稿読取情報受付部302、自動生成要否指定部304、文字数設定部306、配置解析部308、文字列抽出部310、言語判定部312、原稿分類部314、分類基準格納部316、出現頻度順候補抽出部32、配置順候補抽出部34および特徴文字列抽生成部36から構成される。
処理プログラム3は、たとえば、記憶媒体240(図1)を介して画像処理装置2に供給され、記憶部214にロードされ、画像処理装置2にインストールされたOS(図示せず)上で、画像処理装置2のハードウェア資源を具体的に利用して実行される。
なお、本実施形態においては、処理プログラム3は、ソフトウェアで実現されるとしているが、処理プログラム3の全部又は一部は、例えばFPGA(Field Programmable Gate Array)などのハードウェアで実現されてもよい。
【0025】
図3は、図2に示した出現頻度順候補抽出部32の構成を示す図である。
図3に示すように、出現頻度順候補抽出部32は、頻度算出部322、複合文字列判断部324、文字列配置判断部326、文字列順位判定部328および順位基準格納部330から構成される。
図4は、図2に示した配置順候補抽出部34の構成を示す図である。
図4に示すように、配置順候補抽出部34は、文字列位置判定部342、文字列規模判定部344、配置順候補判定部326および配点基準格納部348から構成される。
【0026】
図5は、図2に示した特徴文字列生成部36の構成を示す図である。
図5に示すように、特徴文字列生成部36は、配置順候補格納部360、出現頻度順候補格納部362、原稿種類文字列格納部364、配置順候補分割部366、配置順候補選択部368、出現頻度順候補選択部370、構成文字列決定部372、同義語辞書データベース(DB)374、文字列属性判定部376および文字列連結部382から構成される。
【0027】
処理プログラム3(図2)において、原稿読取情報受付部302は、画像読取装置27から得られた読取情報(原稿読取情報)を受け付け、受け付けた原稿読取情報を、配置解析部308および文字列抽出部310による処理のために提供可能に格納する。
自動生成要否指定部304は、原稿読取情報受付部302によって受け付けられた原稿読取情報に対応する原稿に関する特徴文字列を、画像処理装置2が自動的に生成するか、または、使用者が例えばUI装置25を操作することによって作成するかを指定する。
具体的には、画像処理装置2が特徴文字列を自動的に生成するか、または、使用者が特徴文字列を作成するかを、使用者がUI装置25を操作することによって指定し、使用者がUI装置25を操作することによって生成された情報(自動生成要否情報)を、自動生成要否指定部304が受け入れる。
そして、自動生成要否指定部304は、受け入れた自動生成要否情報を、特徴文字列生成部36に対して出力する。
ここで、「特徴文字列」とは、人間が原稿を識別するための文字列であって、例えば、原稿を電子データ(電子ファイル)等に変換した場合に、その電子データまたはその電子データを保管するパスフォルダ(ディレクトリ)等の名前である。
【0028】
文字数設定部306は、特徴文字列の文字数(長さ)を設定する。
具体的には、例えば、使用者が、UI装置25を操作することによって設定される特徴文字列の文字数(設定文字数)を指定し、その操作によって生成された情報(文字数情報)を、文字数設定部306が受け入れる。
そして、文字数設定部306は、その文字数情報に対応する設定文字数を示す情報(設定文字数情報)を、特徴文字列生成部36に対して出力する。
【0029】
配置解析部308は、原稿読取情報を解析して、原稿に含まれる文字、表、写真等の自然画、CG(Computer Graphics)又は絵画等を分類(オブジェクト分類)し、それぞれについて位置情報を対応付ける。
さらに、配置解析部308は、解析結果を示す情報(配置情報)を、出現頻度順候補抽出部32、配置順候補抽出部34および原稿分類部314に対して出力する。
ここで、配置情報は、原稿読取情報に対応する原稿において、どの位置にどれだけの規模でどのオブジェクト(文字、表、写真等の自然画、CG又は絵画等)が含まれるかを示す情報である。
この「配置情報」は、例えば、各オブジェクトの位置を示す位置情報と、各オブジェクトの規模(寸法又は面積等)を示す規模情報とを含む。
【0030】
ここで、位置情報は、例えば、位置座標等の絶対的な位置を示すものであってもよいし、他の文字列等との相対的な位置関係を示すものであってもよい。
同様に、規模情報は、例えば、フォント又は占有面積等の、そのオブジェクトの絶対的な規模を示すものであってもよいし、他のオブジェクトとの間の相対的な規模を示すものであってもよく、あるいは、オブジェクトの規模の平均値との差を示すものであってもよい。
また、上述した配置解析部308による分類は、例えば、原稿に含まれる各種の線、枠線、罫線又は色情報の検出と、エッジ検出と、パターンマッチングとによって行われる。しかし、これらの手法に限られない。
【0031】
文字列抽出部310は、例えばOCR(Optical Character Recognition:光学文字認識)機能を使用することによって原稿読取情報を解析し、原稿に含まれる文字列を、例えば形態素解析によってその文字列単独で所定の語義を有する形式で抽出する。
ここで、文字認識とは、読み取って得られた文字の画像データを前もって記憶されたパターンと照合することによって、その文字を特定して、文字データ(文字列)を生成することをいう。
また、形態素解析とは、例えば、予め記憶されている文法の規則に関する情報と単語が登録された辞書とに基づいて、1つの文章を形態素(意味を持つ最小の言語単位)に分類し、分類された形態素の品詞を判別する処理をいう。
また、この形態素解析の処理において、文字列の言語も判別(例えば、その文字列が日本語か英語かまたはその他の言語かが判別)される。
さらに、文字列抽出部310は、抽出された各文字列を、出現頻度順候補抽出部32、配置順候補抽出部34および原稿分類部314に対して出力する。
【0032】
言語判定部312は、文字列抽出部310によって抽出された文字列を解析して、原稿がどの言語で構成されているかを判定する。
具体的には、例えば、言語判定部312は、原稿内の各文字列において最も割合の多い言語(つまり、原稿内で最も多く出現する言語)を、その原稿の言語と判定し、判定結果を示す情報(言語情報)を、特徴文字列生成部36に対して出力する。
なお、本実施形態では、言語判定部312は、文字列抽出部310によって抽出された文字列を解析することによって原稿の言語を判定するとしたが、例えば、使用者がUI装置25を操作して手動で入力し、またはリストから選択することによって、原稿の言語を判定するようにしてもよい。
【0033】
原稿分類部314は、配置解析部308からの配置情報と文字列抽出部310からの情報とに基づいて、分類基準格納部316に格納された分類基準に関する情報(分類基準情報)に従って、原稿の種類を判定する。
さらに、原稿分類部314は、判定結果を示す情報(原稿種類情報)を生成し、特徴文字列生成部36に対して出力する。
分類基準格納部316は、図6に例示する分類基準情報を格納する。
【0034】
図6は、分類基準情報を例示する図である。
分類基準情報は、原稿の種類と、原稿の種類を判定するための条件との関係を示す情報(テーブル)であり、各条件に合致する場合に各原稿の種類に付与される点数が示されている。なお、各条件および各原稿の種類は、図6に例示されたものに限られない。
原稿分類部314(図2)は、配置解析部308からの情報と文字列抽出部310からの情報とに基づいて、各条件について判定し、合致した場合に、所定の点数を各原稿の種類に付与する。
そして、原稿分類部314は、その点数の合計が最も高い原稿の種類を、原稿読取情報に関する原稿の種類と判定する。
例えば、原稿の上部中央に文字列「申請書」が存在し、その規模(フォントサイズ等)が所定規模以上であり、さらに表が存在する場合について説明する。
この場合、図6に示された例においては、種類「申請書」については、合計点は35点であり、種類「稟議書」については、合計点は5点であり、種類「設計図」については、合計点は5点である。
よって、原稿分類部314は、点数の最も高い「申請書」を、その原稿の種類と判定する。
【0035】
なお、図6の例の「上方」、「中央」といった位置を示す情報は、位置座標等の絶対的な位置情報で表わされてもよいし、他の文字列等との相対的な位置関係を示すものであってもよい。
また、自動生成要否指定部304によって受け入れられた自動生成要否情報が、画像処理装置2によって特徴文字列を自動的に生成することを示していない場合(つまり、使用者が選択する場合)、原稿分類部314が処理を行わないように構成してもよい。
さらに、本実施形態においては、原稿分類部314が原稿の種類を判定するとしたが、使用者が原稿の種類を指定してもよい。
【0036】
出現頻度順候補抽出部32は、文字列抽出部310によって抽出された文字列の、原稿における出現頻度の順に基づいて、特徴文字列を構成する文字列(構成文字列)の候補を抽出する。なお、出現頻度順候補抽出部32によって抽出される構成文字列の候補を、出現頻度順候補と称する。
出現頻度順候補抽出部32において、頻度算出部322(図3)は、文字列抽出部310によって抽出された各文字列について、その出現数(出現頻度)を算出し、文字列とその文字列の出現頻度とを対応付けて文字列順位判定部328に対して出力する。
【0037】
複合文字列判断部324は、文字列抽出部310によって抽出された各文字列が複合文字列であるか否かを、例えば形態素解析によって判断する。
さらに、複合文字列判断部324は、文字列が複合文字列であると判断された場合に、その文字列が複合文字列であることを示す情報(複合文字列情報)を、文字列順位判定部328に対して出力する。
ここで、「複合文字列」とは、複数の語から構成される文字列である。
例えば、文字列「市場規模」は、2つの語「市場」および「規模」を包含するので、複合文字列と判断される。
【0038】
文字列配置判断部326は、配置情報に基づいて、文字列抽出部310によって抽出された各文字列が、所定のオブジェクトに含まれる文字列であるか否かを判断する。
そして、ある特定のオブジェクトに含まれる文字列であると判断された場合、文字列配置判断部326は、その旨を示す情報(特定配置文字列情報)を、文字列順位判定部328に対して出力する。
【0039】
文字列順位判定部328は、頻度算出部322からの情報と複合文字列判断部324からの複合文字列情報とに基づいて、順位基準格納部330に格納された順位付けの基準に関する情報(順位基準情報)に従って、文字列の順位を判定する。
さらに、文字列順位判定部328は、判定結果を示す情報(文字列順位情報)を生成し、特徴文字列生成部36に対して出力する。
順位基準格納部330に格納された順位基準情報は、例えば、各文字列について、出現頻度が高い程、高い点数を付与するような基準を示す。
また、順位基準情報は、ある文字列が複合文字列情報に関する文字列である場合に、その文字列に付与する点数を増加させることを示してもよい。
【0040】
さらに、順位基準情報は、ある文字列が特定配置文字列情報に関する文字列である場合に、その文字列に付与する点数を減少させることを示してもよい。
例えば、文字列配置判断部326によってある文字列が原稿において表に含まれると判断された場合に、順位基準情報は、その文字列に付与する点数を0点とすることを示してもよい。
また、例えば、文字列配置判断部326によってある文字列が原稿において表に含まれると判断された場合に、順位基準情報は、頻度算出部322によって算出されたその文字列出現頻度から、表に含まれると判断されたその文字列の数を減算することを示してもよい。
【0041】
文字列順位判定部328の処理と順位基準情報とについて、具体例を挙げて説明する。
例えば、順位基準情報が、出現頻度が1位の文字列に10点を付与し、出現頻度が2位の文字列に8点を付与し、出現頻度が3位の文字列に4点を付与することを示し、出現頻度が4位の文字列に3点を付与することを示し、さらに、文字列が複合文字列である場合に付与する点数を5倍にすることを示すとする。
また、例えば、頻度算出部322の算出結果が、
「規模」:10個、「市場」:8個、「市場規模」:4個、「規模拡大」:3個
であるとする。
【0042】
この場合、出現頻度によって、各文字列の出現頻度の順位および点数は、
1位:「規模」(10点)、2位:「市場」(8点)、3位:「市場規模」(4点)、4位:「規模拡大」(3点)
である。
ここで、文字列「市場規模」および「規模拡大」は、複合文字列判断部324によって複合文字列と判断されているので、文字列順位判定部328は、文字列「市場規模」および「規模拡大」に付与される点数を5倍にする。
よって、文字列順位判定部328は、
1位:「市場規模」(20点)、2位:「規模拡大」(15点)、3位:「規模」(10点)、4位:「市場」(8点)
と判定する。
【0043】
配置順候補抽出部34(図2)は、文字列抽出部310によって抽出された文字列の、原稿における配置に基づいて、特徴文字列を構成する構成文字列の候補を抽出する。なお、配置順候補抽出部34によって抽出される構成文字列の候補を、配置順候補と称する。
配置順候補抽出部34において、文字列位置判定部342(図4)は、文字列抽出部310によって抽出された各文字列の位置を、配置解析部308からの配置情報に基づいて判定する。
さらに、文字列位置判定部342は、各文字列とその文字列に関する位置情報とを対応付けて、配置順候補判定部326に対して出力する。
【0044】
文字列規模判定部344は、文字列抽出部310によって抽出された各文字列の規模を、配置解析部308からの配置情報に基づいて判断する。
さらに、文字列規模判定部344は、各文字列とその文字列に関する規模情報とを対応付けて、配置順候補判定部326に対して出力する。
【0045】
配置順候補判定部326は、文字列位置判定部342からの情報と文字列規模判定部344からの情報とに基づいて、配点基準格納部348に格納された順位付けの基準に関する情報(配点基準情報)に従って、各文字列の、配置に基づく順位を判定する。
さらに、配置順候補判定部326は、判定結果を示す情報(配置順位情報)を生成し、特徴文字列生成部36に対して出力する。
配点基準格納部348に格納された配点基準情報は、例えば、原稿において、各文字列の位置が相対的に上方にある場合および相対的に中央にある場合に、その文字列に付与する点数を高くすることを示す。
また、配点基準情報は、例えば、文字列のフォントが大きい等、原稿において、各文字列の規模が相対的に大きい場合に、その文字列に付与する点数を高くすることを示す。
【0046】
配置順候補判定部326の処理と配点基準情報とについて、具体例を挙げて説明する。
例えば、配点基準情報が、原稿において所定の位置よりも上方にある文字列に10点を付与し、原稿において所定の位置よりも横方向中央にある文字列に5点を付与することを示すとする。
また、例えば、配点基準情報が、原稿における文字列の規模の平均値の5倍以上である規模の文字列に10点を付与し、文字列の規模の平均値の2倍以上5倍未満である規模の文字列に8点を付与することを示すとする。
また、例えば、原稿において文字列「見積書」の位置が所定の位置よりも上方且つ所定の位置よりも横方向中央にあり、さらに、この文字列「見積書」のフォントサイズが平均フォントサイズの5倍であるとする。
【0047】
一方、例えば、原稿において文字列「市場」の位置が所定の位置よりも下方にあるが所定の位置よりも横方向中央にあり、さらに、この文字列「市場」のフォントサイズが平均フォントサイズの3倍であるとする。
この場合、文字列「見積書」に付与される点数は、10+5+10=25点であり、文字列「市場」に付与される点数は、0+5+8=13点である。
したがって、配置順候補判定部326は、
1位:「見積書」(25点)、2位:「市場」(13点)
と判定する。
【0048】
特徴文字列抽生成部36は、出現頻度順候補抽出部32からの文字列順位情報と配置順候補抽出部34からの配置順位情報とに基づいて、文字列順位情報又は配置順位情報の少なくとも一方に含まれる文字列の候補から2つ以上の文字列を選択してそれらを連結し、特徴文字列を生成する。
特徴文字列生成部36において、配置順候補格納部360(図5)は、配置順候補抽出部34からの配置順位情報を格納する。
出現頻度順候補格納部362、出現頻度順候補抽出部32からの文字列順位情報を格納する。
原稿種類文字列格納部364は、原稿分類部314からの原稿種類情報に含まれる原稿の種類に対応する文字列(原稿種類文字列)を格納する。
【0049】
配置順候補分割部366は、配置順候補格納部360に格納された配置順位情報に関する各文字列の内、文字数設定部306によって設定された文字数よりも長い文字数の文字列がある場合、その文字列を、例えば形態素解析によってその文字列単独で所定の語義を有する形式で分割する。
配置順候補選択部368は、配置順位情報に含まれる各文字列(配置順候補)のうち、順位の高いものから順に選択して、構成文字列決定部372に対して出力する。
出現頻度順候補選択部370は、文字列順位情報に含まれる各文字列(出現頻度順候補)のうち、順位の高いものから順に選択して、構成文字列決定部372に対して出力する。
【0050】
なお、配置順候補選択部368は、自動生成要否指定部304から、使用者がUI装置25を操作することによって特徴文字列を作成する旨を示す自動生成要否情報を受け入れた場合に、配置順位情報に含まれる配置順候補が順位の高いものから並べられたリストを、表示装置等のUI装置25に対して送信してもよい。
同様に、出現頻度順候補選択部370は、自動生成要否指定部304から、使用者がUI装置25を操作することによって特徴文字列を作成する旨を示す自動生成要否情報を受け入れた場合に、文字列順位情報に含まれる出現頻度順候補が順位の高いものから並べられたリストを、表示装置等のUI装置25に対して送信してもよい。
UI装置25は、配置順候補が順位の高いものから並べられたリストと出現頻度順候補が順位の高いものから並べられたリストとを表示する。
この場合、使用者がUI装置25を操作することにより、特徴文字列を構成する配置順候補および出現頻度順候補が選択される。
【0051】
構成文字列決定部372は、配置順候補選択部368によって選択された配置順候補と、出現頻度順候補選択部370によって選択された出現頻度順候補を比較して、それぞれが原稿読取情報に対応する原稿に関する特徴文字列を構成する構成文字列として適当であるか否か判定する。具体的な処理については後述する。
同義語辞書DB374は、例えば同義語となる文字列の組み合わせのリストを含む同義語辞書を記憶する。
文字列属性判定部376は、例えば形態素解析により、文字列の属性を判定する。
ここで、文字列の属性とは、例えば、名詞、動詞又は形容詞等の品詞の種類を区別するものであってもよく、文字列が名詞の場合には、普通名詞又は固有名詞等を区別するものであってもよく、さらに、文字列が固有名詞である場合には、人名、法人名等の人間以外の特定のものを示す名称又は地名等を区別するものであってもよい。
また、属性が地名である場合、その属性は、国名又は地域名等を区別するものであってもよい。
【0052】
構成文字列決定部372は、同義語辞書DB374に記憶された同義語辞書に基づいて、配置順候補選択部368によって選択された配置順候補と出現頻度順候補選択部370によって選択された出現頻度順候補とが、互いに同義語であるか否かを判断する(判断1−1)。
また、構成文字列決定部372は、同義語辞書DB374に記憶された同義語辞書に基づいて、配置順候補および出現頻度順候補の両方が同義語となる文字列を包含するか否かを判断する(判断1−2)。
さらに、構成文字列決定部372は、配置順候補又は出現頻度順候補が互いに同一の文字列であるか否か、配置順候補又は出現頻度順候補が同一の文字列を包含するか否か、および、配置順候補又は出現頻度順候補のいずれか一方の文字列が他方の文字列を包含するか否かを判断してもよい(判断1−3)。
【0053】
構成文字列決定部372は、上記判断1−1〜1−3の内の少なくとも1つが正しいと判断された場合、配置順候補はそのまま構成文字列の候補として留め置きつつ、出現頻度順候補を破棄する。
そして、構成文字列決定部372は、新たな出現頻度順候補を選択するように、出現頻度順候補選択部370を制御する。
この場合、出現頻度順候補選択部370は、未選択の出現頻度順候補の内最も順位が高い出現頻度順候補を、出現頻度順候補格納部362に格納された文字列順位情報から選択し、構成文字列決定部372に対して出力する。
そして、構成文字列決定部372は、上記と同様に、留め置かれた配置順候補と新たに選択された出現頻度順候補とに対し、上記判断1−1〜1−3を行う。
【0054】
構成文字列決定部372は、配置順候補と出現頻度順候補とを、文字列属性判定部376に対して出力する。
文字列属性判定部376は、配置順候補の属性と出現頻度順候補の属性とが同一であるか否かを判断し、判断結果を示す情報を構成文字列決定部372に対して出力する。
構成文字列決定部372は、文字列属性判定部376からの判断結果を示す情報に基づいて、配置順候補の属性と出現頻度順候補の属性とが同一であるか否かを判断する(判断2)。
【0055】
構成文字列決定部372は、上記判断2が正しいと判断された場合、配置順候補はそのまま構成文字列の候補として留め置きつつ、出現頻度順候補を破棄する。
そして、構成文字列決定部372は、新たな出現頻度順候補を選択するように、出現頻度順候補選択部370を制御する。
この場合、出現頻度順候補選択部370は、未選択の出現頻度順候補の内最も順位が高い出現頻度順候補を、出現頻度順候補格納部362に格納された文字列順位情報から選択し、構成文字列決定部372に対して出力する。
そして、構成文字列決定部372は、上記と同様に、留め置かれた配置順候補と新たに選択された出現頻度順候補とに対し、上記判断2を行う。
【0056】
構成文字列決定部372は、上記判断1−1〜1−3および上記判断2の全ての判断が否と判断された場合、これらの配置順候補および出現頻度順候補を、構成文字列として、文字列連結部382に対して出力する。
なお、構成文字列決定部372は、原稿種類文字列格納部364に格納された原稿種類文字列を、配置順候補および出現頻度順候補が包含するか否かを判断してもよい。
この場合、配置順候補および出現頻度順候補のいずれか一方が原稿種類文字列を包含すると判断されたときは、構成文字列決定部372は、上記判断1−1〜1−3および上記判断2に関わらず、その原稿種類文字列を包含する配置順候補又は出現頻度順候補を、構成文字列として文字列連結部382に対して出力してもよい。
また、配置順候補および出現頻度順候補のいずれもが原稿種類文字列を包含しないと判断されたときは、構成文字列決定部372は、配置順候補および出現頻度順候補の他に、原稿種類文字列を構成文字列として文字列連結部382に対して出力してもよい。
【0057】
さらに、構成文字列決定部372は、原稿種類文字列に応じて、特定の属性の配置順候補又は出現頻度順候補を、構成文字列として決定してもよい。
例えば、原稿種類文字列が「申請書」の場合、属性が「人名」である配置順候補又はおよび出現頻度順候補を、上記判断1−1〜1−3および上記判断2に関わらず、構成文字列として文字列連結部382に対して出力してもよい。
さらに、構成文字列決定部372は、言語判定部312からの言語情報に基づいて、決定される構成文字列の判断基準を、適宜、変更するようにしてもよい。
【0058】
なお、配置順候補抽出部34によって配置順候補が抽出されなかった場合、構成文字列決定部372は、別の出現頻度順候補を選択するように、出現頻度順候補選択部370を制御する。
この場合、出現頻度順候補選択部370は、未選択の出現頻度順候補の内で最も順位が高い出現頻度順候補を、出現頻度順候補格納部362に格納された文字列順位情報から選択し、構成文字列決定部372に対して出力する。
そして、構成文字列決定部372は、上記と同様に、元の出現頻度順候補と新たに選択された出現頻度順候補とに対し、上記判断1−1〜1−3および上記判断2を行ってもよい。
なお、上記判断1−1〜1−3および上記判断2における判断に応じて、構成文字列決定部372が留め置くのは配置順候補としたが、出現頻度順候補が留め置かれ、配置順候補が新たに選択されるようにしてもよい。
【0059】
文字列連結部382は、まず、特徴文字列を構成する構成文字列の数を決定する。
具体的には、文字列連結部382は、構成文字列決定部372から複数の構成文字列を受け入れ、これらの構成文字列の文字数の合計(合計文字数)を算出する。
また、文字列連結部382は、文字数設定部306から設定文字数情報を受け入れる。
そして、文字列連結部382は、構成文字列の合計文字数が、設定文字列が示す設定文字数以内か否か判断する。
構成文字列の合計文字数が設定文字数以内である場合、文字列連結部382は、さらに別の出現頻度順候補を選択するように、構成文字列決定部372および出現頻度順候補選択部370を制御する。
【0060】
この場合、出現頻度順候補選択部370は、未選択の出現頻度順候補のうち最も順位が高い出現頻度順候補を、出現頻度順候補格納部362に格納された文字列順位情報から選択し、構成文字列決定部372に対して出力する。
そして、構成文字列決定部372は、文字列連結部382に出力済みの構成文字列と新たに選択された出現頻度順候補とに対し、上記判断1−1〜1−3および上記判断2を行い、新たに選択された出現頻度順候補を構成文字列と決定した場合には、その構成文字列(出現頻度順候補)を、文字列連結部382に対して出力する。
【0061】
一方、構成文字列の合計文字数が設定文字数以内でない場合、文字列連結部382は、直前に構成文字列決定部372から受け入れた構成文字列を破棄する。
以上の処理により、特徴文字列を構成する構成文字列の数が決定される。
上記の処理について、例を挙げて具体的に説明する。
例えば、設定文字数が20文字であり、配置順候補として「住所変更申請書」(7文字)が選択され、出現頻度順候補として、順に、出現頻度順候補#1「横浜市西区」(5文字)、出現頻度順候補#2「転居日」(3文字)、出現頻度順候補#3「世帯主」(3文字)および出現頻度順候補#4「同居者」(3文字)が選択されたとする。
この場合、配置順候補の文字数と出現頻度順候補#1〜#3の文字数の合計は18文字であり、配置順候補の文字数と出現頻度順候補#1〜#4の文字数の合計は21文字である。
【0062】
したがって、この場合、文字列連結部382は、直前に構成文字列決定部372から受け入れた構成文字列(出現頻度順候補#4)「同居者」を破棄し、配置順候補と出現頻度順候補#1〜#3とを、連結されるべき構成文字列として決定する。
よって、この場合、文字列連結部382は、特徴文字列を構成する構成文字列の数を、4つ(配置順候補および出現頻度順候補#1〜#3)と決定する。
【0063】
なお、特徴文字列を生成する際、複数の構成文字列の間に「−(ハイフン)」又は「_(アンダーバー)」等の区切り文字が挿入されてもよい。
この場合、文字列連結部382は、上記の合計文字数と設定文字数とを比較において、合計文字数に挿入記号の数を加算してもよい。
また、上記実施形態においては、合計文字数が設定文字数以内である場合に、文字列連結部382が、別の出現頻度順候補を選択するように、構成文字列決定部372および出現頻度順候補選択部370を制御するとしたが、文字列連結部382が、別の配置順候補を選択するように、構成文字列決定部372および配置順候補選択部368を制御するようにしてもよい。
【0064】
次に、文字列連結部382は、複数の構成文字列を連結する際の順序を決定する。
文字列連結部382は、配置順候補である構成文字列を特徴文字列の先頭とし、その後ろに、出現頻度順候補である構成文字列を連結する。
ここで、出現頻度順候補が複数ある場合、文字列連結部382は、出現頻度の大きい出現頻度順候補がより前になるように連結する。
また、文字列連結部382は、配置順候補が構成文字列として決定されていない場合、出現頻度の大きい出現頻度順候補がより前になるように連結する。
【0065】
以上の処理により、文字列連結部382は、複数の構成文字列を連結し、特徴文字列を生成する。
また、文字列連結部382は、生成した特徴文字列を、UI装置25に対して送信し、UI装置25に特徴文字列が表示される。
なお、文字列連結部382は、原稿分類文字列を構成文字列として受け入れた場合、その原稿分類文字列を特徴文字列の先頭としてもよい。
また、文字列連結部382は、原稿種類文字列を包含する配置順候補又は出現頻度順候補を構成文字列として受け入れた場合、その原稿種類文字列を包含する配置順候補又は出現頻度順候補を特徴文字列の先頭としてもよい。
【0066】
また、文字列連結部382は、構成文字列が配置順候補であるか出現頻度順候補であるかに関わらず、構成文字列の属性に基づいて、構成文字列の連結順序を決定するようにしてもよい。
例えば、属性「地名」の構成文字列と属性「人名」の構成文字列とがある場合、属性「地名」の構成文字列を属性「人名」の構成文字列よりも前に連結するようにしてもよい。
また、文字列連結部382は、構成文字列が配置順候補であるか出現頻度順候補であるかに関わらず、原稿の言語に応じて連結順序を決定するようにしてもよい。
例えば、属性「国名」の構成文字列と属性「地域名」の構成文字列とがある場合、言語判定部312からの言語情報が「日本語」を示す場合、属性「国名」の構成文字列を属性「地域名」の構成文字列よりも前に連結し、言語情報が「英語」を示す場合、属性「地域名」の構成文字列を属性「国名」の構成文字列よりも前に連結するようにしてもよい。
また、文字列連結部382は、構成文字列が配置順候補であるか出現頻度順候補であるかに関わらず、原稿種類文字列に基づいて、構成文字列の連結順序を決定するようにしてもよい。
【0067】
図7A,図7Bは、処理プログラム3の処理を示すフローチャート(S10)である。
ステップ102(S102)において、原稿読取情報受付部302は、原稿を読み取って得られた原稿読取情報を受け付ける。
ステップ104(S104)において、原稿読取情報に基づいて、配置解析部308が配置情報を生成し、文字列抽出部310が文字列を抽出する。
【0068】
ステップ106(S106)において、出現頻度順候補抽出部32は、原稿における出現頻度の順に基づいて、出現頻度順候補を抽出する。
ステップ108(S108)において、配置順候補抽出部34は、原稿における文字列の配置に基づいて、配置順候補を抽出する。
ステップ110(S110)において、自動生成要否指定部304は、特徴文字列を、画像処理装置2が自動的に生成するか否かを判断し、自動的に生成する設定がなされていると判断した場合は、処理はS120に進み、そうでない場合(つまり使用者が例えばUI装置25を操作することによって作成する設定がなされている場合)は、処理はS112に進む。
ステップ112(S112)において、UI装置25は、出現頻度順候補抽出部32によって抽出された出現頻度順候補のリストと、配置順候補抽出部34によって抽出された配置順候補とを表示する。
ステップ114(S114)において、使用者によって、出現頻度順候補および配置順候補が選択されることによって、特徴文字列が選択され、処理が終了する。
【0069】
ステップ120(S120)において、原稿分類部314は、分類基準情報に従って、原稿の種類を判定する。
ステップ122(S122)において、特徴文字列生成部36は、配置順候補の抽出数が0でないか否かを判断し、0でない場合は、処理はS126に進み、0である場合は、処理はS124に進む。
ステップ124(S124)において、特徴文字列生成部36は、出現頻度順候補の抽出数が0でないか否かを判断し、0でない場合は、処理はS130に進み、0である場合は、処理が終了する。
【0070】
ステップ126(S126)において、特徴文字列生成部36の配置順候補選択部368は、配置順候補のうち、順位の高いものから順に選択する。
ステップ128(S128)において、特徴文字列生成部36は、出現頻度順候補の抽出数が0でないか否かを判断し、0でない場合は、処理はS130に進み、0である場合は、処理が終了する。
ステップ130(S130)において、特徴文字列生成部36の出現頻度順候補選択部370は、出現頻度順候補のうち、順位の高いものから順に選択する。
【0071】
ステップ142(S142)において、特徴文字列生成部36の構成文字列決定部372は、選択された配置順候補と出現頻度順候補とが互いに同義語であるか否かを判断し、同義語であると判断した場合は、処理はS146に進み、同義語でないと判断した場合は、処理はS142に進む。
ステップ144(S144)において、特徴文字列生成部36の構成文字列決定部372は、配置順候補の属性と出現頻度順候補の属性とが同一であるか否かを判断し、属性が互いに同一であると判断した場合は、処理はS146に進み、同一でないと判断した場合は、処理はS148に進む。
ステップ146(S146)において、特徴文字列生成部36は、処理対象であった出現頻度順候補を破棄する。
【0072】
ステップ148(S148)において、特徴文字列生成部36の文字列連結部382は、構成文字列の文字数の合計が、設定文字数以内か否か判断し、設定文字数以内であると判断した場合は、処理はS130に進み、そうでない場合は、処理はS150に進む。
ステップ150(S150)において、特徴文字列生成部36の文字列連結部382は、直前に構成文字列決定部372から受け入れた構成文字列を破棄する。
ステップ152(S152)において、特徴文字列生成部36の文字列連結部382は、複数の構成文字列を連結する際の順序を決定し、複数の構成文字列を連結して、処理を終了する。
【0073】
以下、本実施形態に係る画像処理装置2の処理を、具体的に例を挙げて説明する。
図8は、本実施形態に係る画像処理装置2の処理対象である原稿の例を示す図である。
図8に例示した原稿において、上方中央に、他の文字列よりも大きなフォントで、文字列「申請書」と記載されており、その下の右側に、文字列「申請書」よりは小さいが本文の文字列よりは大きなフォントで、文字列「○○○市 市長殿」と記載されている。
したがって、配置順候補抽出部34は、順に、配置順候補#1「申請書」および配置順候補#2「○○○市 市長殿」を抽出する。
また、出現頻度順候補抽出部32は、出現頻度の高いものから順に、出現頻度順候補#1「グラウンド利用」、出現頻度順候補#2「申請者」、出現頻度順候補#3「富士太郎」、出現頻度順候補#4「○○○市」、出現頻度順候補#5「申請書」、出現頻度順候補#6「市長殿」を抽出する。
【0074】
特徴文字列生成部36は、まず、配置順候補#1「申請書」を選択し、出現頻度順候補#1「グラウンド利用」を選択する。
特徴文字列生成部36は、配置順候補#1「申請書」と出現頻度順候補#1「グラウンド利用」とは、互いに同義語でなく、同じ同義語を包含せず、これらの属性も互いに異なると判断する。
したがって、特徴文字列生成部36は、配置順候補#1「申請書」および出現頻度順候補#1「グラウンド利用」を、構成文字列として決定する。
【0075】
設定文字数が15文字である場合、配置順候補#1「申請書」と出現頻度順候補#1「グラウンド利用」との文字数の合計は10文字であるので、さらに、特徴文字列生成部36は、出現頻度順候補#2「申請者」を選択する。
配置順候補#1「申請書」および出現頻度順候補#2「申請者」は、ともに文字列「申請」を含むので、特徴文字列生成部36は、配置順候補#1「申請書」と出現頻度順候補#2「申請者」とは互いに同義語であると判断する。
したがって、出現頻度順候補#2「申請者」は破棄される。
【0076】
次に、特徴文字列生成部36は、出現頻度順候補#3「富士太郎」を選択する。
特徴文字列生成部36は、既に決定されている配置順候補#1「申請書」および出現頻度順候補#1「グラウンド利用」と、出現頻度順候補#3「富士太郎」とは、互いに同義語でなく、同じ同義語を包含せず、これらの属性も互いに異なると判断する。
したがって、特徴文字列生成部36は、出現頻度順候補#3「富士太郎」を、新たに構成文字列として決定する。
【0077】
配置順候補#1「申請書」と出現頻度順候補#1「グラウンド利用」と出現頻度順候補#3「富士太郎」との文字数の合計は14文字であるので、さらに、特徴文字列生成部36は、出現頻度順候補#4「○○○市」を選択する。
特徴文字列生成部36は、既に決定されている配置順候補#1「申請書」,出現頻度順候補#1「グラウンド利用」および出現頻度順候補#3「富士太郎」と、出現頻度順候補#4「○○○市」とは、互いに同義語でなく、同じ同義語を包含せず、これらの属性も互いに異なると判断する。
しかし、配置順候補#1「申請書」と出現頻度順候補#1「グラウンド利用」と出現頻度順候補#3「富士太郎」と出現頻度順候補#4「○○○市」との文字数の合計は18文字となり、設定文字数を超える。
したがって、出現頻度順候補#4「○○○市」は破棄され、配置順候補#1「申請書」と出現頻度順候補#1「グラウンド利用」と出現頻度順候補#3「富士太郎」とが、構成文字列として決定される。
【0078】
次に、特徴文字列生成部36は、配置順候補#1「申請書」を先頭とし、その後ろに、出現頻度順候補#1「グラウンド利用」、出現頻度順候補#3「富士太郎」の順に、これらの構成文字列を連結する。
よって、特徴文字列生成部36は、特徴文字列「申請書グラウンド利用富士太郎」を生成する。
【符号の説明】
【0079】
2・・・画像処理装置,
3・・・処理プログラム,
302・・・原稿読取情報受付部,
304・・・自動生成要否指定部,
306・・・文字数設定部,
308・・・配置解析部,
310・・・文字列抽出部,
312・・・言語判定部,
314・・・原稿分類部,
316・・・分類基準格納部,
32・・・出現頻度順候補抽出部,
322・・・頻度算出部,
324・・・複合文字列判断部,
326・・・文字列配置判断部,
328・・・文字列順位判定部,
330・・・順位基準格納部,
34・・・配置順候補抽出部,
342・・・文字列位置判定部,
344・・・文字列規模判定部,
326・・・配置順候補判定部,
348・・・配点基準格納部,
36・・・特徴文字列抽生成部,
360・・・配置順候補格納部,
362・・・出現頻度順候補格納部,
364・・・原稿種類文字列格納部,
366・・・配置順候補分割部,
368・・・配置順候補選択部,
370・・・出現頻度順候補選択部,
372・・・構成文字列決定部,
374・・・同義語辞書DB,
376・・・文字列属性判定部,
382・・・文字列連結部,

【特許請求の範囲】
【請求項1】
原稿を読み取る読取手段によって得られた読取情報から複数の文字列を抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列から、原稿における文字列の出現頻度に基づいて、原稿に関する特徴文字列を構成する文字列の第1の候補を1つ以上抽出する第1抽出手段と、
前記文字列抽出手段により抽出された文字列から、原稿における文字列の配置に基づいて、前記特徴文字列を構成する文字列の第2の候補を1つ以上抽出する第2抽出手段と、
前記第1抽出手段によって抽出された第1の候補および前記第2抽出手段によって抽出された第2の候補の少なくとも一方から2つ以上の文字列を選択して連結し、前記特徴文字列を生成する特徴文字列生成手段と
を有する画像処理装置。
【請求項2】
前記特徴文字列生成手段は、互いに意味が異なる2つ以上の文字列、又は、互いに意味が同じ語を含まない2つ以上の文字列を選択して、前記特徴文字列を生成する
請求項1に記載の画像処理装置。
【請求項3】
前記特徴文字列生成手段は、選択された2つ以上の文字列それぞれの属性に基づいて、選択された2つ以上の文字列を連結する順序を決定する
請求項1に記載の画像処理装置。
【請求項4】
前記特徴文字列生成手段は、前記特徴文字列の文字数が所定数以内となるように、2つ以上の文字列を選択して連結する
請求項1に記載の画像処理装置。
【請求項5】
前記第1抽出手段は、抽出された第1の候補について、複数の語から構成される文字列の重み付けを、1つの語から構成される文字列の重み付けよりも大きくするように重み付けし、
前記特徴文字列生成手段は、前記第1抽出手段による重み付けが大きい第1の候補を優先的に選択する
請求項1に記載の画像処理装置。
【請求項6】
前記特徴文字列生成手段は、原稿の種類に基づいて、選択された文字列を連結する順序を決定する
請求項1に記載の画像処理装置。
【請求項7】
前記特徴文字列生成手段は、前記第1の候補および前記第2の候補のいずれもが、原稿の種類に関する文字列を含まない場合、この原稿の種類に関する文字列を含むように、前記特徴文字列を生成する
請求項1に記載の画像処理装置。
【請求項8】
原稿を読み取る読取手段によって得られた読取情報から複数の文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップにおいて抽出された文字列から、原稿における文字列の出現頻度に基づいて、原稿に関する特徴文字列を構成する文字列の第1の候補を1つ以上抽出する第1抽出ステップと、
前記文字列抽出ステップにおいて抽出された文字列から、原稿における文字列の配置に基づいて、前記特徴文字列を構成する文字列の第2の候補を1つ以上抽出する第2抽出ステップと、
前記第1抽出ステップにおいて抽出された第1の候補および前記第2抽出ステップにおいて抽出された第2の候補の少なくとも一方から2つ以上の文字列を選択して連結し、前記特徴文字列を生成する特徴文字列生成ステップと
をコンピュータに実行させる画像処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7A】
image rotate

【図7B】
image rotate

【図8】
image rotate


【公開番号】特開2012−190313(P2012−190313A)
【公開日】平成24年10月4日(2012.10.4)
【国際特許分類】
【出願番号】特願2011−53975(P2011−53975)
【出願日】平成23年3月11日(2011.3.11)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】