説明

情報取得に基づく文書順序復元による文書分離

【課題】スキャンされたページのバッチ内のジョブの間の分離を生成するためのシステムおよび方法を提供する。
【解決手段】ジョブの集合のそれぞれに対して、ジョブの代表的ページの画像を取得することを含んでいる。スキャンされたページの集合を生成するためにジョブの集合をバッチとしてスキャンすることを含んでいる。少なくとも1つの取得された画像に対して、取得された画像と一致するそれぞれのスキャンされたページを特定するために、取得された画像と、スキャンされたページの集合内のスキャンされたページとを比較する。一致しているスキャンされたページの場所に基づき、スキャンされたページの集合を分離するための少なくとも1つの分離器を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
例示的実施形態は文書処理に関する。この例示的実施形態は、スキャンされると、文書の分離を容易にするスキャンのために、ハードコピー文書のバッチを準備するためのシステムおよび方法に関連して特に適用される。
【背景技術】
【0002】
企業、政府機関、およびその種の他のものなどの大きな組織の郵便仕分け室は、開封しなければならない大量の郵便物を受け取り、さらに処理する前に文書を取り出してスキャンしなくてならない。文書準備は、ほとんどのデジタル郵便仕分け室において最も労働集約的な、したがって、費用のかかるステップのうちの1つである。処理量を向上させるために、文書をバッチでスキャンしてもよい。通常、郵便物を開くと、準備作業者は、大きなバッチで効率的にスキャンを実行できるように、スキャンの前に、同じ封筒またはフォルダから各ハードコピー文書または文書の各群の間に間紙を挿入する。ワークフローの後半で、これらの間紙は自動的に検出され、文書が分離される。間紙にはバーコードを印刷してもよい。間紙を印刷するコスト、および文書スタック内にそれらを挿入するのにかかる時間は、文書処理コストを大幅に増大させる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
例示的実施形態は、間紙を提供してスキャンする必要性を回避する文書処理のためのシステムおよび方法を提供する。
【課題を解決するための手段】
【0004】
例示的実施形態の一態様によれば、スキャンされたページのバッチ内のジョブの間の分離を生成するための方法は、ジョブの集合のそれぞれに対して、ジョブの代表的ページの画像を取得することを含む。したがって、方法は、スキャンされたページの集合を生成するためにジョブの集合をバッチとしてスキャンすることを含んでいる。取得された画像と、スキャンされたページの集合内のスキャンされたページとが比較され、少なくとも1つの(またはそれぞれの)取得された画像に対して、取得された画像と一致するスキャンされたページを特定する。一致しているスキャンされたページの場所に基づいて、スキャンされたページの集合を分離するための少なくとも1つの分離器が生成される。
【0005】
比較と分離器生成の一方または両方が、コンピュータプロセッサで実現されてもよい。
【0006】
上述の方法内のジョブは、少なくとも1つのページを含むハードコピー文書を含んでいてもよい。
【0007】
ハードコピー文書の一部は、複数のページをそれぞれ含んでいてもよい。
【0008】
方法は、ジョブ容器の、ジョブ容器のスタック上への載置と、ジョブ容器から取り出されたジョブの、ジョブスタックへ上の載置と、のうちの少なくとも1つを検出することと、この検出することに呼応してジョブの代表的ページの画像を取得することと、をさらに含んでいてもよい。
【0009】
方法では、各ジョブに対して、代表的ページはジョブの一番上のページであってもよく、取得することはジョブスタック上に設置されたカメラでジョブの一番上のページの画像を取得することを含んでいてもよい。
【0010】
検出することはジョブスタックの重量変化を検出することを含んでいてもよく、ジョブのスタックの閾値重量変化が検出されたときにジョブの代表的ページの画像の取得を実行してもよい。
【0011】
方法は、ジョブスタックに集合内の新しいジョブを追加するために人間の作業者に信号を提供することをさらに含んでいてもよい。
【0012】
検出することはジョブを取り出したジョブ容器のスタックの重量変化を検出することを含んでいてもよく、ジョブの代表的ページの画像の取得はジョブ容器のスタックの閾値重量変化の検出に呼応していてもよい。
【0013】
ジョブ容器は空の封筒を含んでいてもよい。
【0014】
検出することは、ジョブ容器の、ジョブ容器のスタック上への載置と、ジョブ容器から取り出されたジョブの、ジョブスタック上への載置と、を検出することを含んでいてもよい。
【0015】
各ジョブに対して、一実施形態では、ただ一枚の代表的ページだけを取得する。
【0016】
方法は、ジョブスタックが最大サイズに達したときに検出することと、最大サイズに達したことの検出に呼応してジョブのスタックをバッチとしてスキャンする要求を生成することと、をさらに含んでいてもよい。
【0017】
ジョブスタックが最大サイズに達したときに検出することは、ジョブのスタックの重量変化を検出することと、スタック内の多数のジョブを計算することと、のうちの少なくとも1つを含んでいてもよい。
【0018】
取得された画像とスキャンされたページとの比較は、取得された画像の最初と、連続してスキャンされたページとの類似点を、最初の一致が見つかるまで計算することと、取得された画像の2番目と、連続して新たにスキャンされたページとの類似点を、2番目の一致が見つかるまで計算することと、を含んでいてもよい。
【0019】
取得された画像とスキャンされたページとの比較は、取得された画像の表現を生成することと、取得された画像の表現とスキャンされたページの表現とを比較することと、を含んでいてもよい。
【0020】
少なくとも1つの分離器の生成は、一致するページの前にあるスキャンされたページの集合内にページがない場合を除き、それぞれの一致するページの前に分離器を挿入することを含んでいてもよい。
【0021】
持続性記録媒体を含むコンピュータプログラム製品は、コンピュータ上で実行されるとき、コンピュータに方法を実行させる命令を保存していてもよい。
【0022】
システムは、方法を実行するための命令を保存する持続性メモリと、命令を実行するためにメモリと通信するプロセッサと、を含んでいてもよい。
【0023】
他の態様によれば、スキャンされたページのバッチ内のジョブの間の分離を生成するためのシステムは、ジョブの集合のそれぞれに対して、ジョブの代表的ページの取得された画像を保存するメモリを含んでいる。また、メモリはジョブの集合をバッチとしてスキャンすることにより形成されたスキャンされたページの集合を保存する。それぞれの取得された画像に対して、取得された画像と一致するスキャンされたページを特定するために、取得された画像と、スキャンされたページの集合内のスキャンされたページとを比較するための命令がメモリ内に保存されている。一致しているスキャンされたページの場所に基づき、スキャンされたページの集合をジョブに分離するための少なくとも1つの分離器を生成するための命令を提供する。プロセッサは命令を実行する。
【0024】
システムは、スキャンする前にその上にジョブを積み重ねる第1の計量器と、ジョブのスタック内の閾値重量差が検出されたときに画像を取得するための命令と、をさらに含んでいてもよい。
【0025】
システムは、取得された画像を取得する画像取得装置と、ジョブのバッチをスキャンするスキャナと、をさらに含んでいてもよい。
【0026】
他の態様によれば、バッチとしてスキャンするために文書を準備するための方法は、a)封筒スタック上への封筒の載置と、b)ジョブスタック上の封筒から取り出されたハードコピー文書の載置と、のうちの少なくとも1つを検出することを含んでいる。検出することに呼応して、方法はジョブスタックの画像を取得することを含んでいる。方法は、ジョブスタックの最大サイズを検出するまで、検出することおよび取得することを繰り返すことをさらに含んでおり、これにより、ジョブスタックを後でバッチとしてスキャンするとき、取得された画像に基づいて個々のジョブを検出できる
【図面の簡単な説明】
【0027】
【図1】例示的実施形態の一態様の、ジョブ分離のためのシステムおよび方法の一部分の概要の説明図である。
【図2】例示的実施形態の他の態様の、図1のシステムの機能ブロック図である。
【図3】例示的実施形態の他の態様の、ジョブ分離のための方法の第1の部分を示すフローチャートである。
【図4】例示的実施形態の一態様の、図3に示す方法の第1の部分の図である。
【図5】例示的実施形態の他の態様の、図3のジョブ分離のための方法の第2の部分を示すフローチャートである。
【図6】図5に示す方法の第2の部分の態様を示す図である。
【発明を実施するための形態】
【0028】
例示的実施形態の態様は、ジョブ分離、特に、ハードコピー文書のスキャンされたバッチからの画像の分離を促進する方法およびシステムに関する。方法はデジタル郵便仕分け室との関連で説明され、文書は郵便仕分け室が受け取った封筒の中身であってもよい。しかしながら、方法は、大口でまとめてデジタル形式に変換される他の文書に適用する可能性があることを想定する。
【0029】
ジョブ分離のための例示的方法およびシステムは、間紙の使用を必要としない。もっと正確に言えば、文書をバッチスキャンする前に各文書のそれぞれのページの画像を取得することにより、取得された画像と、バッチのスキャンされたページとを連続して比較することで、スキャンされたバッチ内の適切な分離を特定できる。次の文書の開始ページと推定されるページを示す一致が見つかると、一致しているスキャンされたページの前に位置する分離器を生成する。画像取得を作動させるには、ハードコピー文書のスタックに新しい文書が追加されたときを検出するのに使用するデジタル式はかりなどの計量器を提供してもよい。
【0030】
「文書」は、本明細書では情報の電子(例えば、デジタル)記録、またはハードコピー(例えば、紙、プラスチック、または物理的形態の他の柔軟な媒体)記録を意味するのに使用される。文書の「バッチ」は複数の文書を含んでおり、これらの複数の文書は、ハードコピー文書の場合、いかなる分離器も有していない可能性がある。「ジョブ」は、現在処理中の1つの文書(または場合によっては複数の文書)を一般に示している。
【0031】
図1は、文書準備および文書分離のための方法およびシステム10の第1段階を図式的に示している。手短に言えば、図示の変更された郵便仕分け室準備プロセスでは、ユーザはただ封筒を開封して、封筒と、その中身を分離するだけである。封筒が1つのスタック上に置かれてもよく、つづいて他のスタック上に中身が置かれてもよい。ユーザが作業するときに、新しい封筒を受け取るべきときはいつなのか、封筒と、その中身とを、それらの対応するスタック上に置くべきときはいつなのか、およびバッチを完成すべきときはいつなのか、を示す簡単な手がかり(例えば、表示灯など)をユーザに必要に応じて与えることができる。
【0032】
封筒12、14、16を開封するとき、封筒12、14、16は中身(それぞれ、ハードコピー文書18、20、22)と分離されて、重さが(例えば、デジタル式はかり26などの第1の計量器を用いて)能動的にはかられているこのような封筒のスタック24上に置かれてもよい。新しい封筒16を検出すると(例えば、第1のはかりに対する重量閾値差を超えていることを検出することにより)、システム10は第1のユーザ信号装置(ランプ28、振動器、音源、またはその種の他のものなど)を作動させてもよい。その後、システムはユーザが中身22を上向きにしてジョブスタック30と呼ばれる別のスタック上に置くのを待つ。また、ジョブスタックの重さは(例えば、第1のはかり26と同じであっても、または別であってもよいデジタル式はかり32などの第2の計量器を用いて)能動的にはかられている。ジョブスタック30では、封筒12、14、16から文書を取り出す順番に対応する順序通りに文書を互いに次々に重ねて置いている。したがって、スタック30内の最も上のジョブ22は、それの封筒から取り出された最後の文書である。スタック30の現在の一番上のページ35の画像を取得するために文書スタック30およびはかり32の上方にカメラのような画像取得装置34を垂直に設置しており、この現在の一番上のページ35は通常一番上の文書22の第1面である。新しいジョブを検出すると(例えば、第2のはかり32に対する重量閾値差を超えていることを検出することにより)、カメラ34が文書22の一番上のページ35の写真を撮影し、文書カウンタが増加してもよい。カメラ34はビデオカメラであっても、または静止カメラであってもよく、カラーまたは白黒のデジタル画像を取得する。
【0033】
十分多くの数の封筒12、14、16を開封した時点で、文書スタック30全体を生産用スキャナ38上で単一のバッチとしてスキャンする。あるいは、ジョブスタック30が所定の重量に達するときに最大のバッチサイズを検出してもよく、そのことをランプ36、振動器、音源、またはその種の他のものなどの第2の信号装置が信号で伝えてもよい。図1には示していないプロセスの第2段階では、結果として得られるスキャンされた画像を、プロセスの第1段階で取得された基準となる一番上のページの画像と比較して、一致が見つかるとジョブ分離動作を始動させる。
【0034】
2つのはかり26、32に対する閾値重量差(すなわち、封筒または文書に相当すると判断される最小重量変化)は、通常遭遇する最も小さい封筒または文書よりも軽い約0.1グラム以下の閾値重量などの品目の検出を回避するために設定されている。これは、それぞれのスタック24、30上に生じる可能性がある一吹きの風、ほこり、および他の小さい品目の検出を回避する。
【0035】
理解されるように、特に、ジョブとして郵便物の場合、それぞれの封筒から取り出される各文書18、20、22は、使用される封筒および紙のサイズ、業種などに応じて、例えば、1ページから100ページ以上まで任意のページ数を有していてもよい。N個の文書およびp枚のページを含むスタックの場合、所与の文書は1ページから最大p−(N−1)ページまでを含むことができる。例示的実施形態では、文書の任意のスキャンされたバッチにおいて、一部の文書は複数のページを有するであろうとともに、これらの文書に対して、これらのすべてのページ数よりも少ないページ数をカメラで取得する。例示的実施形態では、各文書18、20、22に対して一番上のページなどのただ1枚の代表的ページ35だけを取得する。当然のことながら、N個の文書のバッチでは、各文書を次の文書と分離するのにN−1個の分離器だけが必要である。したがって、本明細書で各文書の画像を取得することについて言及する場合、および/またはそれぞれの開封された封筒に対して、これらの取得ステップのうちの1つを、スキャンの順番に応じて、例えば、最初または最後の文書などのバッチに対して省略してもよいことを理解されたい。
【0036】
それぞれの開封された封筒に対して、中身の1つの画像がカメラ34により取得されて保存される。封筒が2つ以上のジョブ(サブジョブ)を含む場合には、2つ以上の画像が取得され保存されてもよい。例えば、封筒はタイプライターで打った手紙と、記入された事前印刷用紙とを含んでいてもよく、これらはサブジョブとして扱われる。
【0037】
図2では、例示的システム10はデジタル文書分離のためのシステム42をホスティングする計算装置40を含んでいる。図示の計算装置40は、1つの(または複数の)データ/制御バス58で接続された外部装置、データメモリ52、メインメモリ54、およびデジタルプロセッサ56と通信するための1つ以上の入出力44、46、48、50を含んでいる。プロセッサ56はメインメモリ54内に保存された処理命令を実行することにより計算装置40の全体動作を制御する。例示的実施形態では、メモリ54は分離システム42の少なくとも一部分を、プロセッサ56により実行されるソフトウェア命令として保存する。
【0038】
はかり26および32は、それぞれのはかりへの封筒または文書の追加を代表する信号64、66を伝達するための1つ以上の有線リンクまたは無線リンク60、62により通信可能にシステム42に接続されている。システム42は、信号64、66を受信して、閾値を超える重量が検出されたときに信号を出力する重量変化検出器68を含んでいる。また、各スタック24、30の現在の重量をメモリ52内に保存してもよい。第1のはかり26からの信号については、重量変化検出器68の出力はランプ28のスイッチ72を作動させるユーザ信号コントローラ70によって受信されてもよい。第2のはかり32からの閾値重量変化を示す信号については、重量変化検出器はジョブ/バッチカウンタ76および/またはカメラコントローラ78に信号を送ってもよい。カメラコントローラは、スタック30の最も上の文書22の一番上のシート35(すなわち、露出しているシート)の画像80を取得するためにカメラ34を作動させる。画像80(または画像80から生成される画像署名)は、有線リンクまたは無線リンク82を介してシステム42により受信され、メモリ52内に保存される。画像80はジョブ/バッチカウンタ76により出力される文書番号に対応するタグによって必要に応じてタグ付けされる。
【0039】
ジョブ/バッチカウンタ76は現在のジョブカウントと所定の最大数とを比較して、最大数に達しているときにはランプ36のスイッチ86を作動させる信号コントローラ70に信号を送る。これにより、最大のジョブサイズに達していることを作業者に伝える。あるいは、または加えて、重量変化検出器は最大制限重量に達したことを検出してもよく、スイッチ86を作動させる信号コントローラ70に信号を送ってもよい。ユーザは重量変化検出器により検出されたハードコピー文書のバッチを取り除き、重量変化はゼロにリセットされる。また、ジョブカウントはゼロにリセットされ、カウンタ76がバッチ数を1だけ増加させる。ユーザがはかり32から光学スキャナ38まで文書のバッチを搬送し、この光学スキャナ38は各ページをスキャンして、スキャンされた画像88の集合を有線リンクまたは無線リンク89を介してシステムへ送信する。スキャンされた画像のファイルはメモリ52内に保存してもよく、必要に応じてジョブ/バッチカウンタによりバッチ番号出力を付けてもよい。
【0040】
より詳細に後述するように、はかり26、32の一方または両方を省略してもよい。その場合、重量変化検出器68もまた省略してもよい。
【0041】
また、システム42は、一致があるかどうかを判断するために画像80と、スキャンされたページ画像88とを比較する画像比較器90を含んでいる。一致が見つかると、1つの文書の最後のページと次の文書の最初のページとを分離するために、分離器が電子文書分離器92により自動的に生成される。このようにして分離された電子文書94を、システム42が、例えば、データ記憶装置またはディスプレイ画面96に出力してもよい。例えば、画面96上で文書を見ている文書処理担当者が操作しているネットワークコンピュータ100に送出するために、分離された(区分された)文書ページ94のバッチをネットワークサーバ98に送信してもよい。
【0042】
計算装置40はスキャナ38の一部分を形成してもよく、このスキャナ38は、スキャン機能、コピー機能、および必要に応じて印刷機能、ならびに/または他の機能を有する多機能装置(MFD)の一部分を形成してもよい。この実施形態では、コンピュータ40はMFDのデジタル・フロント・エンドであってもよく、また、印刷、コピー、スキャンなどのMFDの機能を制御してもよい。光学スキャナはスタック内の文書のすべてのページの画像を取得するが、他方、カメラは最初(または最後)のシートのような各文書の単一の代表的ページの画像だけを取得する。したがって、文書が複数のページを有する場合には、カメラ34が画像を取得していない各バッチ内に、通常多くのページがある。
【0043】
図3は例示的方法の第1段階を示している。封筒の集合に対する時系列を図4に示している。方法はS100で始まる。処理される予定の封筒の収集を提供する。
【0044】
S102で、第1の封筒12(または他の好適なジョブ容器)を、それの中身18と分離する。
【0045】
S104で、封筒12を封筒スタック24上に置く(当初は封筒スタック24上に封筒がない可能性もある)。
【0046】
S106で、設定で変えられる閾値を封筒スタック重量が超えているとき、封筒スタック24の重量差が、例えば、検出器68により記録される。このようにして、第1のはかり26上への封筒の載置を検出する。
【0047】
S108で、封筒12の中身18を第2のはかり32上に置くようにユーザに合図してもよい。例示的実施形態では、信号は第1の表示ランプ28を、例えば、緑色に点灯することを含んでいてもよい。
【0048】
S110で、中身18をジョブスタック32上に置く(当初はジョブスタック32が空である可能性がある)。
【0049】
S112で、設定で変えられる閾値をジョブスタック重量が超えているとき、例えば、検出器68によりジョブスタック32の重量差を記録する。このようにして、第2のはかり30上へのハードコピー文書18の載置を検出する。
【0050】
引き金となる事象に呼応して、S114で、ジョブスタックの第1の文書18の最初のページである一番上のページ35の画像(スナップ写真)80を取得する。引き金となる事象はS112でのジョブスタック32上へのジョブの載置の検出、または作業者によるボタンの押下である可能性がある。
【0051】
S116で、例えば、ジョブ/バッチカウンタ76がジョブカウンタを1だけ増加させる。取得された文書画像80は、メモリ52内で、その文書22の正味重量に対応するS112で検出されるジョブスタックの重量の増加、または全スタック重量、およびジョブカウンタ数と関連付けることができる。
【0052】
S118で、最大のバッチサイズに達しているとき、方法はS120に進む。そうではなく、より多くの封筒があるときには、方法はS102に戻り、追加の封筒14、16、およびそれらの中身20、22とともに連続的に繰り返す。スタック重量とジョブカウンタの一方または両方がそれぞれの所定の閾値を超えるとき、最大のバッチサイズに達している可能性がある。さらに、一致段階でのエラーの危険性を低減するためにジョブの最大数を確立してもよい。
【0053】
S120で、最大のバッチサイズに達したこと、すなわち、バッチを取り除く時間であることをユーザに合図してもよい。例えば、バッチ30がはかり32から取り除かれるまで、第2の表示ランプ36などの「山積み」表示器を、例えば、赤色などに点灯させる。
【0054】
S122で、ジョブスタック30を、文書の新しいバッチとして、はかり32から取り除く。
【0055】
S124で、はかり32上の重量の減少に基づき、システム42がバッチ30の取り除きを検出する。
【0056】
S126で、ジョブ/バッチカウンタ76がバッチカウンタを増加させる。また、バッチ内のジョブの総数および/または全重量をメモリ52内に記録してもよい。
【0057】
S128で、例えば、第2の表示ランプ36を消灯させることで、文書の次のバッチを処理できることをユーザに合図してもよい。
【0058】
S130で、スキャナ38上で文書のバッチをスキャンする。バッチスキャンでは、ジョブの間には分離器がなく、すなわち、ジョブは、例えば、スキャンされたページすべてを含むPDFファイルなどの単一ファイルとして連結されている。
【0059】
より多くの封筒があるときには、方法はステップS102に戻り、次のバッチを生成する。空っぽの入れ物は、はかりから取り除いて、捨ててもよい。
【0060】
方法の第1段階は、すべての封筒を処理し終わるまで、または任意の都合の良い数のバッチの間、続いてもよい。
【0061】
図4は方法の第1段階における事象の時系列を示しており、封筒および文書スタック24、30が増加するにつれて、2つのはかり26、32の重量指示値が大きくなる。文書のスナップ写真の取得は、はかり32上の次の文書の検出の直後に行われるように予定してもよい。または、他の実施形態では、ユーザがはかりの上に文書のすべてのページよりも少ないページ数を置いた場合も考慮して、コマ撮りである可能性がある
【0062】
バッチ30をスキャンし終えた時点で、システム42はメインメモリ54内に保存された照合アルゴリズムを使用して、各スキャンされた画像88と、準備段階の間に取得された正面画像80のうちの1つとを繰り返して比較してもよい。一致を獲得すると、システム42の比較器90は電子ジョブ分離動作を始動させて、その後、次の一致を探す。
【0063】
図5は方法のこの第2段階を示す。
【0064】
S200で、S114で取得されたスナップ写真80をシステム42が受け取って、処理中はデータメモリ52内に保存する。
【0065】
S202で、S130でスキャナにより生成されたバッチに対するスキャンされた(デジタルの)文書ページ88を含む電子ファイルを受け取って、データメモリ52内に保存する。この段階では、ファイル内の各デジタル文書がどこで始まり、どこで終わるのかについての目安はない。
【0066】
S204で、一致しているスキャンされたページを特定するために、スナップ写真80と、スキャンされたページ88とを比較する。これは連続的に実行してもよい。具体的には、一致があるかどうかを確認するために第1のスナップ写真80と、第1のデジタル文書ページ88とを比較する。これは、類似点の閾値を超えているかどうかを確認するためにスナップ写真80から抽出された縮小情報表現と、デジタル文書ページ88から抽出された縮小情報表現とを比較することを含んでいてもよい。一致がないとき、S208で、方法は続けて順序通り次の文書ページを特定し(S210)、1枚あるとき、S204へ戻る。S206で一致があるとき、方法はS212に進み、ファイル内のその文書ページ88の直前に分離器を挿入する。各分離器は1つのデジタル文書と他のデジタル文書とを区別する任意の情報である可能性がある。例えば、分離器は1つの文書がいつ終わるのか、または他の文書がいつ始まるのか、またはそれら両方のことを表示する。
【0067】
その後、方法はS214に進み、方法は続けて順序通り次のスナップ写真80を特定し(S216)、1枚あるとき、S204へ戻り、一致したページなどの後に、そのスナップ写真80と、次のスキャンされた文書ページ88とを順序通り比較する。
【0068】
分離の品質を確保するために、第1段階(図3)に基づくジョブ/サブジョブの予想数と、スキャンされたバッチ内のジョブの検出数とを比較できる(例えば、一致の個数など)。それらが一致しないとき、例外をもたらす可能性がある。一実施形態では、S208で、さらなるページがないとき、S218で、各スナップ写真80がそれぞれの文書ページ88と既に一致していることを確認するために詳しく調べる。一致していないスナップ写真があるとき、S220で、バッチがまだ適切に区分されていないことを作業者に注意喚起してもよい。いくつかの実施形態では、作業者に注意喚起する前に、少なくとも一致していないスナップ写真に対してそれほど厳しくない類似性要件でS204から方法を繰り返してもよい。
【0069】
S218で、各スナップ写真80がページ88と一致しているとき、区分されたバッチをS222で出力する。方法はS224で終了する。
【0070】
ここで例示的方法および提案された変更の詳細について説明する。
【0071】
準備プロセス内のどのステップが次に来るのかをユーザに示すために、さまざまな方法を使用してもよい。例えば、音、振動、光、またはそれらの組み合わせなどを使用してもよい。
【0072】
封筒の封筒スタック上への載置(S104)および/または封筒の存在の検出(S106)は任意である。封筒の検出は、いくつかの用途に役立つ可能性があるが、しかしながら、新しいジョブの存在を確立すること、ジョブスタック内のジョブの数を計算するため(各封筒が単一ジョブを含むと考えられる場合)、サブジョブとジョブ全体を関連付けるため、画像取得を開始するため、ユーザに指示して文書をジョブスタック上に置かせるのを確保するのに役立つため、およびその種の他のもの、のうちの1つ以上に役立つ可能性がある。
【0073】
準備段階で、例えば、S122などで、バッチ内の文書数(例えば、ジョブ/バッチカウンタ76からの出力など)の記録をメモリ52内に保存してもよい。バッチの処理が終了した時点で、例えば、S218などで、準備段階の間に取得された文書カウントと、文書の照合および分離段階で見つかった文書数とを比較してもよい。数値が一致しないときには、例外を引き起こす可能性がある。
【0074】
例えば、取り除く直前などのスタック30の収集された重量の記録はメモリ52内に記録してもよい。この情報は、例えば、保存された大体のページ重量に基づき、バッチが含むページ数rを推定するためにシステム42が使用してもよい。その後、バッチ内の文書数の記録を用いて、1文書あたりの平均ページ数を計算する可能性がある。この情報は、システムが一致するページを見つける際に支援するのに使用する可能性がある。その後、各文書の第1面の画像の大体の位置は、S112で記録される文書の正味重量と、バッチ内のすべての文書の全重量と、スキャナにより出力されるデジタルファイル内のページ総数と、から計算できる。システムは、このスキャンされた画像と、その文書番号に対する取得された画像とを比較して、一致がないときには、隣接する画像を一致が見つかるまで連続的に(前のおよび次の画像を)繰り返して調べる。この方法はページ数が比較的多い文書に特に適している可能性があるが、しかし、文書が通常3ページ以下であるときには有用性が低い可能性がある。
【0075】
システム42はスタック順序付けにおける変形を、使用されるスキャナとの関連で自動的に説明する可能性がある。例えば、生産用スキャナ38はスタックの上端部または下端部から供給してもよい。加えて、またはあるいは、文書準備作業者は、スタック30上に文書を置く前、または後に、スタック24上に封筒を置いてもよい。
【0076】
システム42は、S206での照合アルゴリズムのための検索スペースを制限するために、連続した順序付けを保持していると仮定してもよい。他の実施形態では、システムはバッチ内のすべてのページ画像88と、取得された画像80とを順序を考慮せずに比較してもよい。さらに他の実施形態では、連続した順序付けを保持している取得された画像に対してシステムが一致を見つけられない場合にだけ、システムは順序から離れて画像を再検討してもよい。
【0077】
文書はかり32による重量の少なくとも閾値増加の検出を、画像取得の引き金として使用してもよい。他の実施形態では、S106での封筒落下の検出を画像取得の引き金として使用する。例えば、はかり26上の重量の閾値増加を検出すると、これが引き金となって、はかり26またはシステム42がカメラ34に信号を送信して、スナップ写真画像80を取得させてもよい。この実施形態では、スナップ写真80は前の文書のもの、すなわち、前の封筒から取り出した文書の一番上のシートのものである可能性がある。封筒12、14、16をそれぞれの文書18、20、22の前または後に一貫した方法で落とすように作業者に指示してもよい。
【0078】
S114で取得された画像80の品質を評価して、それにより、許容できるか否かを確認できるようにする自動化された方法または手動の方法を提供してもよい。例えば、方法のS114は、作業者の手またはページを覆い隠す他の物体が絵の中に入っているかどうかを評価することを含んでいてもよい。このために、取得された画像が作業者の手を含んでいるかどうかを評価するために画像処理ソフトウェアを使用してもよく、もし取得された画像が作業者の手を含んでいる場合には、不具合がある画像を取り替えるために、そのページの他の画像が取得される前に、作業者に手をのけるように警告を発してもよい。取得された画像80は、例えば、画面上などに表示してもよい。これにより、取得された画像に不具合があるかどうかをユーザが判断でき、もし取得された画像に不具合がある場合には、ユーザは、ユーザ入力装置を介してその画像を新しい画像に取り替えるよう要求できる。ユーザは、タッチスクリーン、キーパッド、キーボード、カーソル制御装置、またはその種の他のもののようなユーザ入力装置を用いてこのような要求を行ってもよい。
【0079】
一実施形態では、システムは、例えば、1封筒あたり複数の文書などのサブジョブ分離器を生成する能力を提供する。作業者は、それぞれの間に短い時間間隔をあけてジョブスタック上に3組のページを落としてもよく、このジョブスタック上の3組のページは、1封筒(ジョブ)あたり3つの文書(サブジョブ)として自動的に追跡してもよい。カメラ34は3つの別々の画像80を取得する。他の実施形態では、作業者は特定の封筒に対するサブジョブの個数を選択するためにユーザ入力装置を使用してもよい。その後、システムは3つのサブジョブとジョブ全体を関連付ける。さらに他の実施形態では、単一封筒に対する複数のサブジョブの検出は自動であってもよい。例えば、画像取得は、文書/封筒落下と、比較される取得された画像80とに呼応してではなく、むしろ一定の間隔を置いて実行してもよい。2つの取得された画像を比較して(詳細に後述する、例えば、スナップ写真画像およびスキャンされた画像を比較するための同種の類似性尺度を用いて)、2つの取得された画像を同じハードコピー文書ページであると判断するとき、画像のうちの一方(例えば、最後の画像)を捨てる。このようにして、各サブジョブの単一画像を保有し、この単一画像は、封筒がそれのスタック上に落とされた時間に基づく特定のジョブに関連する可能性がある。さらに他の実施形態では、文書スタック30上で閾値重量変化があるたびに、画像80を取得してもよい。先の実施形態と同様に、封筒落下時間との関連で文書落下の時間に基づいて各サブジョブと、それぞれのジョブを関連付けてもよい。
【0080】
封筒12、14、16は新しいジョブの物理的指標として使用されるが、他の物理的ジョブ容器はファイルフォルダ、タブ、またはその種の他のもののようなジョブ分離器として使用してもよい。
【0081】
例示的実施形態では、ジョブの引き金は封筒または文書の重量であるが、他の実施形態では、重量をはかることをユーザ入力信号に置き換えてもよく、例えば、押しボタンの作動がS106および/またはS112に取って代る可能性があり、一方または両方のはかり26、32の必要性をなくす。
【0082】
計量器26、32の一方または両方を、文書スタック30の上端部の画像80を連続的に撮影することと、その後、新しい文書/ジョブの目安として画像変化を検出することと、に置き換えてもよい。カメラにより撮影された画像の連続内のページ画像の欠如は、作業者がバッチを取り除いたことの指標として使用してもよい。バッチが置かれる予定のバッチの位置の矩形には、スタック30内に文書18、20、22がないときには、取得された画像の検査からシステム42が容易に検出できる縦溝で印を付けてもよい。
【0083】
一実施形態では、例えば、S104の前に、および/またはS108において、次のプロセスステップをいつ実行すべきかを示すために、例えば、光、音、表示された指示、それらの組み合わせ、またはその種の他のものなどの合図をユーザに提供してもよい。この実施形態は当初は作業者訓練段階の間に使用され、その後、中止されたり、または変更されたりしてもよい。
【0084】
図3および/または図5に示す方法(例えば、S104、S110、およびS122、ならびに必要に応じてS130などの手動で実行されるステップ以外のステップ)は、コンピュータ上で実行してもよいコンピュータプログラム製品において実現してもよい。コンピュータプログラム製品は、その上に制御プログラムを記録しているディスク、ハードドライブ、またはその種の他のもののような持続性コンピュータ可読記録媒体を含んでいてもよい。
【0085】
または、方法は、制御プログラムを伝送媒体を用いてデータ信号として具体化する、伝送できる搬送波のような一時的媒体において実現してもよい。
【0086】
例示的方法は1台以上の汎用計算機上で、専用計算機上で、プログラムされたマイクロプロセッサ上で、もしくはマイクロコントローラおよび周辺集積回路要素上で、または有限状態機械を実現できる任意の装置上で、実現してもよく、この有限状態機械は図3および/または図5に示すフローチャートを実現できる。
【0087】
図6は、図4に示す取得されたスナップ写真80を用いる分離器102の挿入を示す。最後のスナップ写真に対応するスタック内の最後の文書が、例示的スキャナにより出力されるファイル内で最初に現れるため、スキャナからのファイル内で文書が登場する順番に合うように連続スナップ写真の順番が並べ換えられる。したがって、比較される予定の最初のスナップ写真は、スキャンされたファイル内の最初のページにぴったり合うスナップ写真Zである。この場合は前のページがないため、分離器は必要ない。
【0088】
照合される予定の次のスナップ写真はスナップ写真Yである。対応するスキャンされたページが見つかったときには、そのページの前に分離器102を挿入して、第1の文書22の終わりおよび第2の文書20の始まりを表示する。スナップ写真をページと照合し、分離器を挿入する方法は、すべてのスナップ写真を照合するまで(またはさらなる文書ページがなくなるまで)継続する。
【0089】
画像を照合する(S206)ための任意の適切な方法を使用できる。取得された画像80がスキャンされた画像88に対して異なる形式である、および/または異なる分解能である可能性があるため、サイズ変更、(暗い)背景のトリミング、スキューの除去、二値化(グレースケールまたはカラー画像を白黒に変換する)などの、比較を容易にするための取得された画像および/またはスキャンされた画像の何らかの前処理があってもよい。相関関係、ハッシング、特徴抽出、光学文字認識(OCR)、それらの組み合わせ、およびその種の他のものなどの既存技術を画像照合に使用してもよい。したがって、照合の間の計算時間を減少させるために各画像(取得された、およびスキャンされた画像)の表現を計算してもよい。当然のことながら、完全な一致は必要ない。特定の画像88および取得されたスナップ写真80を一致していると判断するとき、2つの画像88、80は同じ文書ページから得られた確率が高いことを確保する実験を通じて、一致のための閾値を確立できる。
【0090】
類似点を計算するためのこれらの方法の多くは、対応するバッチ内のスキャンされた画像から得られた表現と比較できるスナップ写真画像80の(一般に圧縮された)表現を導き出すことを含む。
【0091】
スキャナ38の出力はページ画像88の集合を含むファイルであってもよい。分離器102の挿入のために、任意の適切な方法または方法の組み合わせを使用できる。例えば、分離器102はXMLタグなどのタグの形式であってもよい。他の実施形態では、追加デジタルページはスキャンされた文書の間に挿入されてもよい。さらに他の実施形態では、分離器102が位置しているページのリストは、スキャンされたファイルに追加でき、もしくは別のファイルとして保存でき、またはスキャナにより出力されたスキャンされたファイルは、ファイルの集合、または、例えば、1ジョブ/文書あたり1つのディレクトリに分割されてもよい。

【特許請求の範囲】
【請求項1】
ジョブの集合のそれぞれに対して、前記ジョブの代表的ページの画像を取得することと、
その後、スキャンされたページの集合を生成するためにジョブの前記集合をバッチとしてスキャンすることと、
計算装置のプロセッサを用いて、少なくとも1つの取得された画像に対して、前記取得された画像と一致するスキャンされたページを特定するために、前記取得された画像と、スキャンされたページの前記集合内のスキャンされたページとを比較することと、
前記一致しているスキャンされたページの場所に基づき、スキャンされたページの前記集合を分離するための少なくとも1つの分離器を生成することと、を含む、スキャンされたページのバッチ内のジョブの間の分離を生成するための方法。
【請求項2】
前記ジョブが少なくとも1枚のページを含むハードコピー文書を含み、
任意に、一部の前記ハードコピー文書はそれぞれ複数のページを含む、請求項1に記載の方法。
【請求項3】
ジョブ容器の、ジョブ容器のスタック上への載置と、
前記ジョブ容器から取り出されたジョブの、ジョブスタック上への載置と、のうちの少なくとも1つを検出することと、
前記検出することに呼応して、前記ジョブの前記代表的ページの前記画像を取得することと、をさらに含む、請求項1に記載の方法。
【請求項4】
各ジョブに対して、前記代表的ページが前記ジョブの一番上のページであり、前記取得することと、前記ジョブスタック上に設置されたカメラで前記ジョブの前記一番上のページの画像を取得することと、を含む、請求項3に記載の方法。
【請求項5】
前記検出することが、
前記ジョブスタックの重量変化を検出することを含み、
前記ジョブの前記代表的ページの前記画像を前記取得することが、ジョブの前記スタックの閾値重量変化が検出されるときに実行される、請求項3に記載の方法。
【請求項6】
前記検出することが、
その中から前記ジョブを取り出したジョブ容器の前記スタックの前記重量変化を検出することを含み、
前記ジョブの前記代表的ページの前記画像を前記取得することが、ジョブ容器の前記スタックの閾値重量変化の検出に呼応している、請求項1に記載の方法。
【請求項7】
前記検出することが、
ジョブ容器の、ジョブ容器のスタック上への載置と、
前記ジョブ容器から取り出されたジョブのジョブスタック上への載置と、を検出することを含む、請求項3に記載の方法。
【請求項8】
各ジョブに対して、ただ一枚の代表的ページだけを取得する、請求項1に記載の方法。
【請求項9】
前記ジョブスタックの最大サイズにいつ達するかを検出することと、前記最大サイズに達したことの前記検出に呼応して、ジョブの前記スタックをバッチとしてスキャンする要求を出すことと、をさらに含む、請求項1に記載の方法。
【請求項10】
ジョブの集合のそれぞれに対して、前記ジョブの代表的ページの取得された画像を保存するメモリと、
ジョブの前記集合をバッチとしてスキャンすることにより形成される、スキャンされたページの集合を保存するメモリと、
各取得された画像に対して、前記取得された画像と一致するスキャンされたページを特定するために、前記取得された画像と、スキャンされたページの前記集合内のスキャンされたページとを比較するためにメモリ内に保存された命令と、
前記一致しているスキャンされたページの場所に基づき、スキャンされたページの前記集合をジョブに分離するための少なくとも1つの分離器を生成するための命令と、
前記命令を実行するためのプロセッサと、を含む、スキャンされたページのバッチ内のジョブの間の分離を生成するためのシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−110890(P2012−110890A)
【公開日】平成24年6月14日(2012.6.14)
【国際特許分類】
【出願番号】特願2011−243986(P2011−243986)
【出願日】平成23年11月7日(2011.11.7)
【出願人】(596170170)ゼロックス コーポレイション (1,961)
【氏名又は名称原語表記】XEROX CORPORATION
【Fターム(参考)】