説明

ファイル振り分け装置、同振り分け方法及びプログラム

【課題】OCRの精度等に依存することなく、新たなデータのBOXへの適正な振り分けが行えるファイル振り分け装置等を提供する。
【解決手段】記憶領域であるボックス61に新たに保存されるデータに対して、既にボックス内に保存されているデータを基に、振り分け基準を作成するためのデータをユーザの収集対象データの設定に基づいて収集するデータ収集手段1と、収集されたデータから特徴を抽出して振り分け基準を作成する振り分け基準作成手段1と、前記振り分け基準作成手段で作成された基準に基づいて、新たなデータに対してボックスへの振り分けを実行するファイル振り分け制御手段1を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、スキャンされた画像データを記憶領域であるボックス(以下、BOXともいう)に振り分けて保存するBOX機能を有する画像形成装置等に適用されるファイル振り分け装置、同装置で実行されるファイル振り分け方法及びファイル振り分けプログラムに関する。
【背景技術】
【0002】
一般に、コピー機能、プリント機能、ファクシミリ機能、スキャン機能等の複数の機能を有する多機能デジタル画像形成装置であるMFP(Multi Function Peripherals)等においては、文書をスキャンし、そのスキャンにより得られた画像データを識別情報(ID)別、日時別等に蓄積し、後で、その蓄積した画像データを印刷したりすることができるドキュメントボックスと称されるアプリケーションを備えている
また、スキャンした画像データを、予め指定したアドレス宛に電子メールで転送するアプリケーションを備えたものもある。
【0003】
また、従来、BOX機能において、スキャンされた画像データに対し、予め定められた認識対象領域に対して文字認識装置(OCR)により文字認識を行い、文字認識の結果、得られた文字列に対応するBOXに画像データを蓄積するようにした技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−234708号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、従来では、スキャンにより得られた画像データをID別、日時別等に蓄積するだけであるから、新たにスキャンされた画像データがデータ作成ユーザ等のBOXに的確に振り分けされないおそれがある。
【0006】
また、前記先行技術のものでは、データ作成ユーザが予めBOXの名前を登録した後に、スキャンされた画像データをBOXにファイルとして振り分けることができるものの、BOXの名前を登録するユーザが誰か分かっていない場合、振り分け基準の確実性が低くなる。また、前記振り分けもOCRの認識精度に依存するため、OCRの認識精度が低い場合、間違ったBOXに登録されることもある。
【0007】
たとえば、自動ファイル名生成機能を使用して、図10に示すように、「XXX.pdf」のファイル名のデータD0を名称「BOX XXX」のBOXに振り込むために、スキャンされた画像データに対して予め定められた認識対象領域で文字認識を行った場合、本来「XXX.pdf」というファイル名が付くところが、前記OCRの認識の失敗によって、「AAA.pdf」と誤ったファイル名が付いてしまうおそれがある。その場合、誤ったファイル名「AAA.pdf」のデータD0は、該ファイル名「AAA.pdf」によって名称「BOX AAA」のBOXに振り分けられてしまう。
【0008】
この発明は、上記実情に鑑みてなされたものであり、OCRの精度等に依存することなく、新たなデータのBOXへの適正な振り分けが行えるファイル振り分け装置、同装置で実行されるファイル振り分け方法及びファイル振り分けプログラムを提供することを課題としている。
【課題を解決するための手段】
【0009】
上記課題は以下の手段によって解決される。
(1)記憶領域であるボックスに新たに保存されるデータに対して、既にボックス内に保存されているデータを基に、振り分け基準を作成するためのデータをユーザの収集対象データの設定に基づいて収集するデータ収集手段と、前記データ収集手段により収集されたデータから特徴を抽出して振り分け基準を作成する振り分け基準作成手段と、前記振り分け基準作成手段で作成された基準に基づいて、新たなデータに対してボックスへの振り分けを実行するファイル振り分け制御手段と、を備えていることを特徴とするファイル振り分け装置。
(2)前記収集対象データは、ボックス管理権限を有するユーザの識別情報が付加されているデータである前項1に記載のファイル振り分け装置。
(3)前記収集対象データは、ボックス管理権限を有しないユーザの識別情報が付加されているデータである前項1に記載のファイル振り分け装置。
(4)前記収集対象データは、グループの識別情報が付加されているデータである前項1に記載のファイル振り分け装置。
(5)前記振り分け基準作成手段は、収集されたデータにファイル名が付いており、かつデータ内にファイル名の文字列が記載されている場合には、該文字列が記載されているテキストの位置、フォント種類およびフォントサイズを前記特徴として抽出する前項1ないしは4のいずれかに記載のファイル振り分け装置。
(6)前記振り分け基準作成手段は、収集されたデータの解像度から求められる白色画素の位置および個数を前記特徴として抽出する前項1ないしは5のいずれかに記載のファイル振り分け装置。
(7)前記振り分け基準作成手段は、前記解像度をさらに縮小した状態での白色画素の位置および個数を、白色画素が抽出されない解像度になるまで繰り返して求め、各解像度での白色画素の位置および個数を前記特徴として抽出する前項6に記載のファイル振り分け装置。
(8)前記振り分け基準作成手段は、収集されたデータ内に罫線が記載されている場合は、該罫線を前記特徴として抽出する前項1ないしは7のいずれかに記載のファイル振り分け装置。
(9)前記振り分け基準作成手段は、収集されたデータ内に図形が記載されている場合は、該図形を前記特徴として抽出する前項1ないしは7のいずれかに記載のファイル振り分け装置。
(10)記憶領域であるボックスに新たに保存されるデータに対して、既にボックス内に保存されているデータを基に、振り分け基準を作成するためのデータをユーザの収集対象データの設定に基づいて収集するデータ収集ステップと、前記データ収集ステップにおいて収集されたデータから特徴を抽出して振り分け基準を作成する振り分け基準作成ステップと、前記振り分け基準作成ステップにおいて決められた基準に基づいて、新たなデータに対してボックスへの振り分けを実行するファイル振り分け制御ステップと、を備えていることを特徴とするファイル振り分け装置で実行されるファイル振り分け方法。
(11)記憶領域であるボックスに新たに保存されるデータに対して、既にボックス内に保存されているデータを基に、振り分け基準を作成するためのデータをユーザの収集対象データの設定に基づいて収集するデータ収集ステップと、前記データ収集ステップにおいて収集されたデータから特徴を抽出して振り分け基準を作成する振り分け基準作成ステップと、前記振り分け基準作成ステップにおいて決められた基準に基づいて、新たなデータに対してボックスへの振り分けを実行するファイル振り分け制御ステップと、をファイル振り分け装置のコンピュータに実行させるためのファイル振り分けプログラム。
【発明の効果】
【0010】
前項(1)に記載の発明によれば、既にBOX内に保存されているデータを基に、新たにBOXに保存されるデータに対する振り分け基準を作成するためのデータが収集され、収集されたデータから特徴が抽出されて振り分け基準が作成されるので、その振り分け基準に基づいて新たなデータに対してBOXへの自動的な振り分けが実行される。しかも、収集対象のデータをユーザが設定できるので、的確な特徴を有する信頼性の高いデータを収集でき、適正なファイルの振り分けを行うことができる。
【0011】
前項(2)に記載の発明によれば、ボックス管理権限を有するユーザの識別情報が付加されているデータが収集されるので、きわめて信頼性の高いデータに基づいて振り分け基準を作成することができる。
【0012】
前項(3)に記載の発明によれば、ボックス管理権限を有しないユーザの識別情報が付加されているデータが収集されるので、信頼性の高いデータに基づいて振り分け基準を作成することができる。
【0013】
前項(4)に記載の発明によれば、グループの識別情報が付加されているデータが収集されるので、信頼性の高いデータに基づいて振り分け基準を作成することができる。
【0014】
前項(5)に記載の発明によれば、収集されたデータにファイル名が付いており、かつデータ内にファイル名の文字列が記載されている場合には、該文字列が記載されているテキストの位置、フォント種類およびフォントサイズが特徴として抽出されるので、BOXへのファイルの振り分けを的確に実行できる。
【0015】
前項(6)に記載の発明によれば、収集されたデータの解像度から求められる白色画素の位置および個数が特徴として抽出されるので、OCRに依存するテキスト情報等が振り分け対象のデータ内に存在しなくても、BOXへのファイルの振り分けを的確に実行できる。
【0016】
前項(7)に記載の発明によれば、解像度をさらに縮小した状態での白色画素の位置および個数が、白色画素が抽出されない解像度になるまで繰り返して求められ、各解像度での白色画素の位置および個数が特徴として抽出されるので、データから多くの特徴を抽出でき、一層確実にファイルを振り分けることが可能となる。
【0017】
前項(8)に記載の発明によれば、収集されたデータ内に罫線が記載されている場合は、該罫線が特徴として抽出されるので、例えば、罫線が多く含まれている帳票等のファイルの的確な振り分けが可能となる。
【0018】
前項(9)に記載の発明によれば、収集されたデータ内に図形が記載されている場合は、該図形が特徴として抽出されるので、データ内に図形を有するファイルの的確な振り分が可能となる。
【0019】
前項(10)に記載の発明によれば、作成された振り分け基準に基づいて新たなデータに対してBOXへの自動的な振り分けを実行できる。しかも、収集対象のデータをユーザが設定できるので、的確な特徴を有する信頼性の高いデータを収集でき、適正なファイルの振り分けを行うことができる。
【0020】
前項(11)に記載の発明によれば、既にBOX内に保存されているデータを基に、新たにBOXに保存されるデータに対する振り分け基準を作成するためのデータを収集し、収集したデータから特徴が抽出されて振り分け基準を作成し、その振り分け基準に基づいて新たなデータに対してBOXへの振り分ける処理を、ファイル振り分け装置のコンピュータに実行させることができる。
【図面の簡単な説明】
【0021】
【図1】この発明の一実施形態に係るファイル振り分け装置の電気的構成を示すブロック図である。
【図2】ファイル振り分け用データの収集処理の流れを示すフローチャートである。
【図3】ファイル振り分け用データを収集してファイル名が付加されている領域の特徴を抽出する処理の流れを示すフローチャートである。
【図4】振り分け基準作成用データから基準となる特徴量を抽出する処理の説明図である。
【図5】新たに入力されたスキャンデータの振り分け処理を説明するためのイメージ図である。
【図6】(A)は白色画素の検出方法の説明図、(B)は検出結果を示す図である。
【図7】モノクロ画像、2値画像のデータに対する特徴量の抽出処理の流れを示すフローチャートである。
【図8】振り分け対象のデータについての振り分け処理の流れを示すフローチャートである。
【図9】図形を特徴として抽出する場合の振り分け基準の作成例を示すフローチャトである。
【図10】データの振り分けに誤りが生じた場合の説明図である。
【発明を実施するための形態】
【0022】
以下、この発明の実施形態を図面に基づいて説明する。
【0023】
図1は、この発明の一実施形態に係るファイル振り分け装置としての画像形成装置の電気的構成を示すブロック図である。なお、この実施形態では、画像形成装置として前述したMFPが用いられている。
【0024】
図1において、このMFPは、CPU1と、ROM2と、RAM3と、スキャナ部4と、操作パネル部5と、記憶部6と、プリント部7と、外部インターフェース(I/F)部8とを備えており、これら各部はバス10に接続されている。
【0025】
前記CPU1は、MFPの全体の動作を統括制御する制御手段である。また、CPU1は、図4に示すようBOX内に格納されているデータD1〜D3、D11、D12の中から、ユーザにより設定された収集対象のデータを収集するデータ収集機能と、収集したデータから共通する特徴を抽出して振り分け基準を作成する振り分け基準作成機能と、前記振り分け基準作成機能で作成された基準に基づいて新たなデータに対していずれかのBOXへの振り分けを実行するファイル振り分け制御機能等を実行する。
【0026】
前記ROM2は、前記CPU1の動作プログラムが格納されたメモリである。
【0027】
前記RAM3は、前記CPU1が動作プログラムに従って動作を実行する際の作業領域を提供するメモリである。
【0028】
前記スキャナ部4は、文書や原稿の画像を読み取って、電子データである画像データを出力するものである。
【0029】
前記操作パネル部5は、ユーザがMFPの操作を行ったり、MFPの状態やユーザへのメッセージなどを表示するものであり、テンキー、スタートキー等の各種キーを含むキー部51と、タッチパネル式の液晶表示装置(LCD)等から構成された表示部52とを備えている。
【0030】
前記記憶部6は、例えばハードディスク装置(HDD)等からなり、各種のデータ、アプリケーション等を記憶する。この記憶部6には、画像データを例えばユーザ毎にあるいは種類毎に記憶可能な記憶領域である1つまたは2つ以上のボックス(BOX)61が形成されている。
【0031】
前記プリント部7は、所定のジョブに従って、スキャナ部4で読み取られた画像データ、BOX61に保存されている画像データ、外部から送信されてきたプリントデータ等を、指定されたモードで印刷する印刷エンジン部である。
【0032】
前記外部I/F部8は、外部機器との間でのデータの授受を司る通信手段として機能する。
【0033】
つぎに、ファイル振り分け方法の概要を説明する。
【0034】
まず、既にボックス内に保存されているデータを基に、振り分け基準を作成するためのデータをユーザの収集対象データの設定に基づいて収集するが、この実施形態では、収集対象データが3種類存在している例を示す。なお、収集するデータは1個でも複数個でも良い。
【0035】
収集対象データの1つ目は、BOX管理者として管理者権限を有するユーザaの識別情報であるIDaと、同じく管理者権限を持つユーザbの識別情報であるIDbを用い、これらIDa、IDbが付加されているデータ、換言すればユーザa,bが作成したデータを収集する。
【0036】
これらIDa、IDbが付加されている複数のデータAを基にファイル振り分け基準(BOX管理者基準)を作成する。
【0037】
収集対象データの2つ目は、BOXの管理者権限を有していないが、データ作成権限を有するユーザcの識別情報であるIDcを用いる。つまり、ある特定のユーザのIDcが付加されているデータ、換言すればユーザcが作成したデータを収集する。
【0038】
これらIDcが付加されている1個または複数のデータBを基にファイル振り分け基準(データ作成者基準)を作成する。
【0039】
収集対象データの3つ目は、データ作成権限を有するグループの識別情報であるIDを用いる。例えばユーザx,ユーザy、ユーザzがグループZに所属しているものとすると、ユーザx,ユーザy、ユーザzが作成したデータにはグループZのIDが付加されている。このように、あるグループのIDが付加されているデータ、換言すればそのグループに属するユーザが作成したデータを収集する。
【0040】
これらIDが付加されている1個または複数のデータCを基にファイル振り分け基準(グループ作成者基準)を作成する。
【0041】
上記3つの基準に当てはまらないデータは、収集されず、振り分け基準の作成には使用しない。
【0042】
図2は、ファイル振り分け用データを収集する処理の流れを示すフローチャートである。この処理及び図3以降のフローチャートで示される処理は、MFPのCPU1がROM2等の記録媒体に記録された動作プログラムに従って動作することにより実行される。
【0043】
図2において、ユーザが振り分け基準に使用するデータ、つまり収集対象のデータの種類、収集すべきBOXの範囲等を操作パネル部5等を用いて設定すると、ステップS1でこれを受け付ける。前述したように、この実施形態では3種類の収集対象データが設定される。
【0044】
ステップS2では、収集領域に存在するデータについて、設定されたユーザIDが付加されているか否かを判断し、ユーザIDが付加されていれば(ステップS2でYES)、ステップS3では、データ作成者基準を作成するためのデータとして登録したのち、ステップS4に進む。
【0045】
ステップS4では、付加されているユーザIDがBOX管理者のユーザIDか否かを判断し、BOX管理者のユーザIDであれば(ステップS4でYES)、ステップS5では、BOX管理者基準を作成するデータとして登録する。BOX管理者のユーザIDでなければ(ステップS4でNO)、ステップS6では、BOX管理者基準を作成するデータとして登録しないで、終了する。この場合はステップS3で登録されたデータ作成者基準を作成するデータとして使用される。
【0046】
ステップS2で、ユーザIDが付加されていない場合(ステップS2でNO)、ステップS7では、データに設定されたグループIDが付加されているか否かを判断し、設定されたグループIDが付加されていれば(ステップS7でYES)、ステップS8では、グループ作成者基準を作成するデータとして登録したのち、終了する。設定されたグループIDが付加されていなければ(ステップS7でNO)、ステップS9で、振り分け基準を作成するデータとして登録することなく、終了する。
【0047】
上記のようにして、すでにBOXに保存されているデータから、振り分け基準を作成するためのデータが収集される。
【0048】
これらのデータは、BOX管理権限を持ったユーザID、データ作成者であるユーザID、グループIDを付加されたものであるので、振り分け基準作成用のデータとして信頼性の高いものとなる。
【0049】
次に、振り分け基準の作成について説明する。
[第1の作成例]
この例は、収集されたデータにファイル名が付いており、かつデータ内にファイル名の文字列が記載されている場合には、該文字列が記載されているテキストの位置、フォント種類およびフォントサイズを前記特徴として抽出する場合を示すものである。
【0050】
即ち、上記の基準作成用データが収集されると、以下のように、ファイル名が記載されている領域をOCRで検出することにより、データの「特徴」を抽出する。
【0051】
図3は、ファイル名が記載されているデータの特徴を抽出する処理の流れを示すフローチャートである。
【0052】
図3において、ステップS11では、収集されたデータにファイル名が付けられている場合には、ファイル名が記載されている領域(図4の枠Eで囲まれた領域)をOCR処理することによりテキストデータ化する。
【0053】
ステップS12では、テキストデータ化された名称がそのファイルの名称と一致しているかどうかを判断し、一致する場合(ステップS12でYES)、ステップS13では、OCRテキスト結果と、書かれているテキストの位置(枠Eの頂点座標値4点:これらの座標値x,yを正解座標値という)と、フォントサイズ(正解フォントサイズという)と、文字数(正解文字数という)とを特徴量(正解特徴量ともいう)として記憶部6に記録する。この正解特徴量が、新たに入力されるデータの特徴量と比較される際の基準となり、このデータの特徴量が基準の正解特徴量と同じであれば、その新たなデータを正解特徴量のデータと同じボックスに振り分ける。
【0054】
一致しない場合(ステップS12でNO)、ステップS13で、このデータを基準作成用データとして使用しないものとする。
【0055】
収集されたデータが複数存在し、それぞれが異なるBOXに格納されていた場合、BOX毎に正解特徴量が用意される。
【0056】
図4は、振り分け基準作成用データから正解特徴量を抽出する処理の説明図である。
【0057】
図4に示す例では、「BOX AAA」には、3つのデータD1〜D3にそれぞれ対応するファイル「AAA.pdf」、「BBB.pdf」、「CCC.pdf」が格納されており、別の「BOX XXX」には、2つのデータD11,D12にそれぞれ対応するファイル「XXX.pdf」、「YYY.pdf」が格納されている。
【0058】
ここでは、「BOX AAA」における2つのデータD1,D2にそれぞれ対応する「ファイル「AAA.pdf」、「BBB.pdf」と、別の「BOX XXX」における2つのデータD11,D12にそれぞれ対応するファイル「XXX.pdf」、「YYY.pdf」が振り分け基準を作成するデータDとして使用される。
【0059】
図5は、新たに入力された振り分け対象のスキャンデータD0の振り分け処理を説明するための図である。
【0060】
図5において、新たに入力されたデータD0に対しては、振り分け基準作成に用いられたデータD1、D2、D11、D12における領域Eに対応する領域にOCR処理を行い、データD0の特徴量を抽出する。
【0061】
抽出した特徴量から以下の丸数字1の式により、評価値を求める。正解特徴量が複数用意されている場合は、全ての正解特徴量と比較を行い、評価値が最も小さいBOX、即ちデータD0の特徴量が最も近似している基準作成用データと同じBOXにデータD0を振り分ける。
【0062】
但し、評価値がしきい値よりも小さくならない場合は、新たなBOXに振り分ける。
【0063】
【数1】

【0064】
図5においては、新しく入力されたスキャンデータD0には、領域Eにファイル名「RRR」が記載されている。BOXとして、「BOX AAA」と「BOX XXX」とがあり、「BOX AAA」には、領域Eにファイル名「AAA」が記載されたファイル「AAA.pdf」のデータD1と、領域Eにファイル名「BBB」が記載された」ファイル「AAA.pdf」のデータD2とがある。
【0065】
また、「BOX XXX」には、領域Eにファイル名「XXX」が記載されたファイル「XXX.pdf」のデータD11と、領域Eにファイル名「YYY」が記載されたファイル「YYY.pdf」のデータD12とがある。
【0066】
評価の結果、新たなデータD0は、「BOX AAA]に振り分けられる。
【0067】
このように、既にBOX内に保存されているデータD1〜D3,D11,D12を基に、新たにBOXに保存されるデータD0に対する振り分け基準を作成するためのデータD(D1,D2,D11,D12)が収集され、これらのデータDから特徴量が抽出されて振り分け基準が作成されるので、その振り分け基準に基づいて、新たなデータDに対してBOXへの自動振り分けを行うことができる。
【0068】
とくに、収集対象のデータをユーザが設定できるので、的確な特徴を有する信頼性の高いデータを収集でき、適正なファイルの振り分けを行うことができる。
[第2の作成例]
つぎに、以下の丸数字2の式を用いて空白領域を特徴として抽出する場合の振り分け基準の作成例について説明する。
【0069】
【数2】

【0070】
上記の丸数字2の式において、I(x,y)は画素値を示す。また、上記の丸数字2の式は、モノクロ画像、2値画像の場合を示す。
【0071】
モノクロ画像の場合、1画素が8bit、256階調(0〜255)となり、画素値が255(最大値)のときに白色画素とする。2値画像の場合、1画素が2bit、2階調(0〜1)となり、画素値が1(最大値)のときに白色画素とする。
【0072】
カラー画像の場合は下記の丸数字3の式となる。
【0073】
【数3】

【0074】
ここで、IR(x,y)、IG(x,y)、IB(x,y)は、画素値を示す。
【0075】
カラー画像の場合、1画素が24bit、R(赤)成分の画素値IR(x,y)が256階調(0〜255)、G(緑)成分の画素値IG(x,y)が256階調(0〜255)、B(青)成分の画素値IB(x,y)が256階調(0〜255)となる。
【0076】
画素値がIR(x,y)=255、IG(x,y)=255、IB(x,y)=255のときに白色画素とする。
【0077】
図6は、振り分け基準作成用データについての白色画素(正解画素)の検出処理の説明図である。
【0078】
図6(A)における画像データに対して、例えば点線枠で示す領域毎に白色画素が存在するか否かを、矢印の順序でチェックする。この例では、チェックの結果、画像データに図6(B)の点線枠で示すような分布で白色画素の領域Wが存在していることが判定される。
【0079】
図7は、モノクロ画像または2値画像の振り分け基準作成用データに対する白色画素の抽出処理の流れを示すフローチャートである。この抽出処理は、振り分け基準として使用したい領域に対して行っても良い。
【0080】
図7において、ステップS21では、前述した丸数字1の式の値が最大値か否かを判断し、最大値であれば(ステップS21でYES)、ステップS22では、白色画素であると判定し、ステップS23では白色画素と判定された座標(x,y)、解像度(X,Y)を記録し、ステップS24に進む。丸数字1の式の値が最大値でなければ(ステップS21でNO)、ステップS32で、白色画素ではないと判定して、ステップS24に進む。
【0081】
ステツプS24ではx=x+1としたのち、ステップS25で、x≦X/2か否かを判断する。x≦X/2であれば(ステップS25でYES)、ステップS21に戻り、x≦X/2でなければ(ステップS25でNO)、ステップS26でy=y+1として、ステップS27に進む。
【0082】
ステップS27では、y≦Y/2か否かを判断し、y≦Y/2であれば(ステップS27でYES)、ステップS21に戻り、y≦Y/2でなければ(ステップS27でNO)、ステップS28では、白色画素と判定された個数をカウントして記録する。
【0083】
ステップS29では、ニアレストネイバー、またはバイリニアを使い、X方向、Y方向の解像度を半分にし、ステップS30では、X=X/2、Y=Y/2とする。
【0084】
次いでステップS31で、X>2、Y>2か否かを判断し、X>2、Y>2であれば(ステップS31でYES)、ステップS21に戻り、X>2、Y>2でなければ(ステップS31でNO)、処理を終了する。
【0085】
なお、カラー画像の場合は、丸数字1の式の代わりに丸数字2の式が適用される。
【0086】
また、図7において、解像度を半分にしたが、任意の大きさとしても良いし、終了条件を白色画素がなくなった場合としても良い。
【0087】
新たに入力された新たに入力された振り分け対象のスキャンデータについては、ユーザが振り分け基準として使用したい領域に対し、CPU11が図7のフローチャートの処理を実行し、各解像度で白色画素を抽出し、下記の丸数字4の式により評価値の計算を行う。
【0088】
丸数字4の式において、Nは、図7のフローチャートで登録された解像度の個数とする。評価値が最も大きいBOXに振り分けを行う。
【0089】
但し、評価値がしきい値よりも大きくならない場合は、新たにBOXを作成し、その新たなBOXに振り分ける。
【0090】
【数4】

【0091】
このように、この実施形態では、振り分け基準作成用データの解像度から求められる白色画素の位置および個数が特徴として抽出されるので、OCRに依存するテキスト情報等が振り分け対象のデータ内に存在しなくても、BOXへのファイルの振り分けを的確に実行できる。しかも、解像度をさらに縮小した状態での白色画素の位置および個数が、白色画素が抽出されない解像度になるまで繰り返して求められ、各解像度での白色画素の位置および個数が特徴として抽出されるので、データから多くの特徴を抽出でき、一層確実にファイルを振り分けることが可能となる。
[第3の作成例]
つぎに、罫線を特徴として抽出する場合の振り分け基準の作成例について説明する。
【0092】
例えばスキャナ部4で原稿画像が読み取られることにより得られた画像データは、記憶部6に格納されるともに、該画像から「罫線」がCPU1による抽出機能により抽出される。なお、抽出は、ユーザが振り分ける基準として使用したい領域について行っても良い。
【0093】
「罫線」の抽出方法としては、公知の技術を用いればよい。例えば画像をラン形式に変換し、所定のしきい値よりも大きなランのみを対象に連結矩形抽出を行い、抽出された連結矩形を罫線と判定するものがある。
【0094】
また、罫線について、部分的に欠落したり、あるいは追加されている場合には、周知のDP(Dynamic Pattern Alignment)マッチング処理方法(「パターンの認識と学習のアルゴリズム」上坂吉則、尾関和彦著、文一総合出版参照)を利用して修正可能である。
【0095】
こうして、振り分け基準作成用データについて、抽出した罫線を正解特徴量としてデータ毎に記憶部6に登録しておく。
【0096】
図8は、振り分け対象の新たなデータについての振り分け処理の流れを示すフローチャトである。この処理は、ユーザが振り分ける基準として使用したい領域について行っても良い。
【0097】
図8において、ステップS41では、新たに入力されたデータ(画像)から罫線を抽出し、ステップS42では登録されている罫線情報をDPマッチング処理し、ステップS43では、登録されている全ての振り分け基準作成用データとの間でDPマッチング処理が終了したか否かを判断し、登録されている全てのデータでDPマッチング処理が終了していなければ(ステップS43でNO)、ステップS42に戻り、登録されている全てのデータでDPマッチング処理が終了すれば(ステップS43でYES)、ステップS44に進む。
【0098】
ステップS44では、登録されている罫線情報と一致する罫線と、一致していない罫線とを抽出し、ステップS45では、登録されている罫線情報と一致していない罫線の本数をチェックする(登録されている各データ毎に算出する)。ステップS46では、一致していない抽出罫線の本数が最も少ない登録データを選択する。
【0099】
ステップS47では、選択された登録データが複数か否かを判断し、選択された登録データが単数であれば(ステップS47でNO)、そのまま終了する。この場合、選択された登録データと同じBOXに振り分けられる。
【0100】
選択された登録データが複数であれば(ステップS47でYES)、ステップS48では、一致している罫線と登録されている罫線の始点の距離値を評価値として算出し、最も小さい評価値を算出したデータを選択し、そのデータと同じBOXに振り分ける。
【0101】
但し、評価値がしきい値よりも小さくならない場合は、新たなBOXを作成し、新たなBOXに振り分ける。
【0102】
この例では、罫線が特徴として抽出されるので、例えば、罫線が多く含まれている帳票等のファイルの的確な振り分けが可能となる。
[第4の作成例]
つぎに、図形を特徴として抽出する場合の振り分け基準の作成例について、図9のフローチャートを参照して説明する。
【0103】
ステップS51では、振り分け基準作成用データにおいて抽出した図形領域が、記憶部6に既に登録されているか否かをパターンマッチッグによりチェックする。図形領域が、既に登録されている図形領域と一致する場合、換言すれば既に登録されている場合は(ステップS51でYES)、ステップS52で信頼度αiを+1とする。信頼度αiは、登録される図形領域毎にユーザが任意に用意できる。
【0104】
ステップS51において、図形領域が、既に登録されている図形領域と一致しない場合は(ステップS51でNO)、ステップS53では、その図形領域を新たな図形領域として記憶部6に登録する。
【0105】
こうして、振り分け基準作成用データについて、図形領域を正解特徴量として抽出する。
【0106】
新たに入力された振り分け対象のデータについては、ユーザが振り分ける基準として使用したい領域に対して、下記丸数字5の式で示される評価値を計算し、評価値が最も小さい図形領域、換言すれば入力されたデータの図形領域と最も近似している図形領域を有するデータと同じBOXに振り分けられる。
【0107】
【数5】

【0108】
上式において、I登録(x,y)は、登録された図形領域の画素値、I入力(x,y)は、入力された図形領域の画素値であり、Nは登録された図形の個数である。
【0109】
なお、丸数字5の式で算出される評価値が、しきい値よりも小さくならない場合は、新たなBOXを作成して、該BOXに振り分ける。
【0110】
このように、振り分け基準作成用データ内に図形が記載されている場合は、該図形が特徴として抽出されるので、データ内に図形を有するファイルの的確な振り分が可能となる。
【符号の説明】
【0111】
1 CPU
2 ROM
4 スキャナ部
5 操作パネル部
6 記憶部
61 BOX

【特許請求の範囲】
【請求項1】
記憶領域であるボックスに新たに保存されるデータに対して、既にボックス内に保存されているデータを基に、振り分け基準を作成するためのデータをユーザの収集対象データの設定に基づいて収集するデータ収集手段と、
前記データ収集手段により収集されたデータから特徴を抽出して振り分け基準を作成する振り分け基準作成手段と、
前記振り分け基準作成手段で作成された基準に基づいて、新たなデータに対してボックスへの振り分けを実行するファイル振り分け制御手段と、
を備えていることを特徴とするファイル振り分け装置。
【請求項2】
前記収集対象データは、ボックス管理権限を有するユーザの識別情報が付加されているデータである請求項1に記載のファイル振り分け装置。
【請求項3】
前記収集対象データは、ボックス管理権限を有しないユーザの識別情報が付加されているデータである請求項1に記載のファイル振り分け装置。
【請求項4】
前記収集対象データは、グループの識別情報が付加されているデータである請求項1に記載のファイル振り分け装置。
【請求項5】
前記振り分け基準作成手段は、収集されたデータにファイル名が付いており、かつデータ内にファイル名の文字列が記載されている場合には、該文字列が記載されているテキストの位置、フォント種類およびフォントサイズを前記特徴として抽出する請求項1ないしは4のいずれかに記載のファイル振り分け装置。
【請求項6】
前記振り分け基準作成手段は、収集されたデータの解像度から求められる白色画素の位置および個数を前記特徴として抽出する請求項1ないしは5のいずれかに記載のファイル振り分け装置。
【請求項7】
前記振り分け基準作成手段は、前記解像度をさらに縮小した状態での白色画素の位置および個数を、白色画素が抽出されない解像度になるまで繰り返して求め、各解像度での白色画素の位置および個数を前記特徴として抽出する請求項6に記載のファイル振り分け装置。
【請求項8】
前記振り分け基準作成手段は、収集されたデータ内に罫線が記載されている場合は、該罫線を前記特徴として抽出する請求項1ないしは7のいずれかに記載のファイル振り分け装置。
【請求項9】
前記振り分け基準作成手段は、収集されたデータ内に図形が記載されている場合は、該図形を前記特徴として抽出する請求項1ないしは7のいずれかに記載のファイル振り分け装置。
【請求項10】
記憶領域であるボックスに新たに保存されるデータに対して、既にボックス内に保存されているデータを基に、振り分け基準を作成するためのデータをユーザの収集対象データの設定に基づいて収集するデータ収集ステップと、
前記データ収集ステップにおいて収集されたデータから特徴を抽出して振り分け基準を作成する振り分け基準作成ステップと、
前記振り分け基準作成ステップにおいて決められた基準に基づいて、新たなデータに対してボックスへの振り分けを実行するファイル振り分け制御ステップと、
を備えていることを特徴とするファイル振り分け装置で実行されるファイル振り分け方法。
【請求項11】
記憶領域であるボックスに新たに保存されるデータに対して、既にボックス内に保存されているデータを基に、振り分け基準を作成するためのデータをユーザの収集対象データの設定に基づいて収集するデータ収集ステップと、
前記データ収集ステップにおいて収集されたデータから特徴を抽出して振り分け基準を作成する振り分け基準作成ステップと、
前記振り分け基準作成ステップにおいて決められた基準に基づいて、新たなデータに対してボックスへの振り分けを実行するファイル振り分け制御ステップと、
をファイル振り分け装置のコンピュータに実行させるためのファイル振り分けプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−50831(P2013−50831A)
【公開日】平成25年3月14日(2013.3.14)
【国際特許分類】
【出願番号】特願2011−188055(P2011−188055)
【出願日】平成23年8月30日(2011.8.30)
【出願人】(303000372)コニカミノルタビジネステクノロジーズ株式会社 (12,802)
【Fターム(参考)】