説明

データ処理装置

【課題】文字又は図形と空白とを含むデータの位置決め精度を向上させること等が可能となる、データ処理装置を提供すること。
【解決手段】文字又は図形と空白とを含む処理対象データを処理するデータ分割装置10であって、処理対象データを複数の中間分割データに分割する中間分割部16aと、情報量に応じてデータサイズが異なる圧縮方法にて圧縮された複数の中間分割データの各々のデータサイズを取得し、当該取得したデータサイズに基づいて、処理対象データにおける空白位置を決定する空白位置決定部16bとを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文字又は図形と空白とを含む処理対象データを処理するデータ処理装置に関する。
【背景技術】
【0002】
従来、申込書や帳票の如き各種の書類に手書きで書き込まれた文字を、オペレータがキーボード入力することでテキストデータ化するデータ入力サービスが提案されている。このようなサービスとしては、書類のイメージデータをネットワークを介してセンター側から各オペレータ側に送信し、各オペレータによって入力されたテキストデータをネットワークを介してセンターが取得する、ネットワーク型のデータ入力サービスも提案されている。
【0003】
しかしながら、このようなデータ入力サービスにおいて、書類のイメージデータをそのままオペレータに送信したのでは、書類に書き込まれた情報がオペレータに知られることになり、個人情報保護や企業秘密保持の観点から問題が生じる可能性が生じる。特に、ネットワーク型のデータ入力サービスでは、専任ではない多数の登録オペレータを使用することも想定されており、この場合には、情報の機密性に対する懸念が高まる。
【0004】
このような問題に鑑みて、情報の機密性を高めること等を目的とした情報入力システムも提案されている(例えば、特許文献1参照)。この情報入力システムは、文字が書き込まれる書類の書式に基づいて、当該書類に含まれている各記入欄の位置座標を予め特定しておき、この位置座標に基づいて当該書類のイメージデータを各記入欄毎のイメージデータに分割し、分割した各記入欄毎のイメージデータを異なるオペレータに送信する。そして、各オペレータによって入力されたテキストデータを結合することで、元の書類のテキストデータを生成する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2004−5387号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記従来のシステムでは、書類のイメージデータを記入欄単位でしか分割することができず、一つの記入欄内に書き込まれた複数の文字をさらに分割することができなかった。このため、例えば、氏名の記入欄が、氏の記入欄と名の記入欄とに分かれておらず、氏名全体を一つの記入欄内の任意位置に記載させるフリーフォーマット形式の記入欄である場合には、氏名全体のイメージデータがオペレータに送信されることになり、氏名から個人を推定できる可能性が残る等、機密性の観点から依然として問題が生じる可能性がある。また、このような問題を解決する一つの方法として、一つの記入欄のイメージデータを単に中央位置やランダム位置で分割することも考えられるが、この方法では、例えば当該記入欄の一方の端部寄りに偏って氏名が記入されている場合には分割した一方のみに氏名全体が含まれてしまう等、問題が依然として解消されない可能性がある。
このような問題は、データ分割を目的とする場合以外にも同様に存在していた。例えば、各種の書類をスキャナを介してイメージデータ化する場合、書類に含まれる文字や図形の位置を上記と同様の理由により正確に特定することができないために、スキャン時の位置ずれ(用紙のずれ)を検知できず、その後の処理(例えば、記入欄毎の分割等)に支障をきたすという問題があった。
【0007】
本発明は、上記に鑑みてなされたものであって、文字又は図形と空白とを含むデータの位置決め精度を向上させること等が可能となる、データ処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、請求項1に記載のデータ処理装置は、処理対象データを複数の中間分割データに分割し、これら複数の中間分割データの各々データサイズに基づいて空白位置を決定する。
これにより、処理対象データにおける空白位置の位置決め精度を向上させ、この空白位置を基準として文字や図形の位置決め精度を向上させることができるので、例えば、各種の書類をスキャナを介してイメージデータ化する場合の位置ずれを解消でき、データサービスの品質を向上させること等が可能となる。
【0009】
請求項2に記載のデータ処理装置は、配列方向に沿って配列された複数の文字と空白とを含む処理対象データを、空白位置に基づいて複数の最終分割データに分割する。
これにより、複数の文字を含むデータを適切な位置で分割することができ、例えば、一つの記入欄に書き込まれた複数の文字についても適切な位置で分割することができるので、データ入力サービスにおける機密性を向上させること等が可能となる。
【0010】
また、請求項3に記載のデータ処理装置は、空白位置よりも所定幅だけ最終分割データのデータ幅を拡張する。
これにより、最終分割データのデータ幅を余裕を持った幅とすることができ、空白位置が仮にずれていた場合であっても、空白位置近傍の文字をオペレータが明確に判定することが可能になる。
【0011】
また、請求項4に記載のデータ処理装置は、空白位置を示す情報を、最終分割データに付加する。
これにより、最終分割データのいずれの側にデータ幅の余裕を持たせたのかをオペレータが容易かつ正確に判定することが可能になる。
【0012】
また、請求項5に記載のデータ処理装置は、処理対象データを分割する際の中間分割線の数、又は、処理対象データに対して決定する空白位置の数を、処理対象データの属性又は寸法のすくなくとも一方に基づいて決定する。
これにより、処理対象データの属性に応じた適切な数に処理対象データを分割することが可能になる。
【0013】
また、請求項6に記載のデータ処理装置は、複数の中間分割データのデータサイズの最小値及び最大値を取得し、各中間分割データのデータサイズの評価値を算定し、各中間分割データの評価値に基づいて空白位置を決定する。
これにより、各中間分割データのデータサイズの相違を明確化することができ、空白位置の決定精度を向上させることが可能になる。
【0014】
また、請求項7に記載のデータ処理装置は、処理対象データから、所定方向における端部又は所定方向に直交する方向における端部の少なくとも一方を削除する。
これにより、データサイズに基づく空白位置の決定精度を高めることができると共に、空白位置の決定処理等の各種のデータ処理の負荷を軽減することができる。
【発明の効果】
【0015】
本発明のデータ処理装置によれば、文字又は図形と空白とを含むデータの空白位置を決定することができ、データの位置決め精度を向上させること等が可能となる。
【図面の簡単な説明】
【0016】
【図1】本発明の実施の形態に係るデータ分割装置を含んだデータ入力サービスシステムを機能概念的に示すブロック図である。
【図2】データ入力サービスシステムで提供されるデータ入力サービスを概念的に説明する説明図である。
【図3】データ分割処理のフローチャートである。
【図4】データ分割処理による分割例を示す図である。
【図5】ノイズ部分の位置を例示する図である。
【図6】各属性毎の中間分割データのデータサイズとポイントの例を示す図である。
【図7】漢字氏名の中間分割データのポイントのグラフである。
【図8】住所の中間分割データのポイントのグラフである。
【図9】電話番号の中間分割データのポイントのグラフである。
【発明を実施するための形態】
【0017】
以下に添付図面を参照して、この発明に係るデータ処理装置の実施の形態を詳細に説明する。ただし、当該実施の形態によって本発明が限定されるものではない。以下では、データ処理装置を、上述したデータ入力サービス等に使用されるものであって、配列方向に沿って配列された複数の文字を含む分割対象データを、複数の最終分割データに分割する「データ分割装置」として構成した例について説明する。
【0018】
(構成)
図1は、本実施の形態に係るデータ分割装置を含んだデータ入力サービスシステム(以下、本システム)1を機能概念的に示すブロック図である。本システム1は、データ分割装置10と、入力端末20とを、ネットワーク30を介して通信可能に接続して構成されている。
【0019】
図2は、本システム1で提供されるデータ入力サービスを概念的に説明する説明図である(以下、「ステップ」を「S」と略記する)。このサービスでは、クライアントから依頼された書類であって、手書き文字を含む書類(以下、対象書類)をスキャナを介してイメージデータにし(SA1)、このイメージデータをデータ分割装置10に入力する。データ分割装置10は、このイメージデータを、書類に含まれる各記入欄毎の複数のイメージデータに分割し(SA2)、これら複数のイメージデータの各々をさらに複数のイメージデータに分割した上で(SA3)、ネットワーク30を介して異なるオペレータの入力端末20に送信する(SA4)。オペレータは、このイメージデータに含まれる文字を入力端末20に入力してテキストデータを作成し(SA5)、このテキストデータを入力端末20からネットワーク30を介してデータ分割装置10に送信する。データ分割装置10は、テキストデータを結合して各記入欄毎のテキストデータを生成し(SA6)、さらに各記入欄毎のテキストデータを結合してクライアントに納品する納品データ(例えば、対象書類ごとに結合されたテキストデータなど)を生成する(SA7)。そして、この納品データをクライアントに納品することで、データ入力サービスが完結する。このデータ入力サービスにおいて、データ分割装置10は、イメージデータの各分割時には、各イメージデータに識別番号を付与することで当該各イメージデータの関係性を保持し、各イメージデータの結合時には、この識別番号を参照することで、各イメージデータの関係性を特定して結合を行う。
【0020】
ここで、図2のSA1、SA2、及びSA7は、上記特許文献1に記載されているような公知技術を用いて行うことができるので、その詳細な説明は省略し、以下では、SA3〜SA6に関する構成及び方法を中心に説明する。また、以下では、各記入欄毎に分割されたイメージデータを「分割対象データ(処理対象データ)」、分割対象データからさらに複数に分割されたイメージデータを「最終分割データ」、分割対象データを最終分割データに分割するための中間的な分割データ(図2には図示せず)を「中間分割データ」と称する。また、ここでは、分割対象データには、一定の方向に沿って配列された複数の文字が含まれていることを前提としており、当該方向を「配列方向(所定方向)」、当該複数の文字を「分割対象文字」とそれぞれ称する。また、分割対象データ、中間分割データ、又は最終分割データに関して、配列方向に沿った方向の寸法を「幅」、配列方向に直交する方向に沿った方向の寸法を「高さ」、記入欄の開始側の端部(記入欄の配列方向に沿った両端部のうち、文字書き込みの開始位置に近い側の端部)を「始端」、記入欄の終了側の端部(記入欄の配列方向に沿った両端部のうち、文字書き込みの終了位置に近い側の端部)を「終端」、とそれぞれ称する。
【0021】
(構成−データ分割装置)
次に、図1の各部の構成について説明する。データ分割装置10は、配列方向に沿って配列された複数の文字を含む分割対象データを、複数の最終分割データに分割する装置であり、入力部11、出力部12、ネットワークインターフェース(以下、ネットワークIF)13、記憶部14、及び制御部15を備えて構成されている。
【0022】
入力部11は、データ分割装置10が実行する各種処理に必要な情報を当該データ分割装置10に入力する入力手段であり、ここでは、キーボード及びマウスとして構成されている。
【0023】
出力部12は、データ分割装置10からの情報を外部に出力する出力手段であり、ここでは、例えばモニタとして構成されている。
【0024】
ネットワークIF13は、ネットワーク30を介して通信を行うためのインタフェースであり、例えば、所定の通信規格(例えば、イーサネット(登録商標))にて通信を行うネットワークボードとして構成されている。
【0025】
記憶部14は、データ分割装置10の動作に必要なプログラム及び各種のデータを記憶する記憶手段であり、例えば、外部記憶装置としてのハードディスク(図示省略)を用いて構成されている。ただし、ハードディスクに代えてあるいはハードディスクと共に、磁気ディスクの如き磁気的記録媒体、又はDVDやブルーレイディスクの如き光学的記録媒体を含む、その他の任意の記録媒体を用いることができる。
この記憶部14には、構成情報データベース(以下、データベースをDBと表記する)14aと属性情報DB14bが設けられている。
【0026】
この構成情報DB14aは、分割対象データの構成に関する情報(以下、構成情報)を格納する構成情報格納手段であり、少なくとも、項目「分割対象データID」、「最終分割データID」、及び「オペレータID」を含む。「分割対象データID」は、分割対象データを一意に識別する分割対象データ識別情報である。「最終分割データID」は、分割対象データを構成する複数の最終分割データの各々を一意に識別する最終分割データ識別情報である。「オペレータID」は、最終分割データが送信されたオペレータを一意に識別するオペレータ識別情報である。この構成情報においては、後述するデータ結合処理において、分割対象データにおける最終分割データの配置位置を特定可能なように、分割対象データIDが、分割された位置に対応する順序で格納されている。この構成情報は、後述するデータ分割処理で自動的に格納される。
【0027】
属性情報DB14bは、分割対象データの属性と分割数との関係を特定するための情報(以下、属性情報)を格納する属性情報格納手段であり、少なくとも、項目「属性」、項目「中間分割数」、及び項目「最終分割数」を含む。「属性」は、分割対象データの属性であり、例えば、「漢字氏名」、「カナ氏名」、「住所」、「メールアドレス」、「電話番号」などである。「中間分割数」は、分割対象データを中間分割データに分割すべき分割数(ここでは、中間分割データの数)であり、例えば、「漢字氏名」、「カナ氏名」、「住所」、「メールアドレス」、「電話番号」のいずれに対しても「16」が設定されている。「最終分割数」は、分割対象データを最終分割データに分割すべき分割数(ここでは、最終分割データの数)であり、例えば、「漢字氏名」や「カナ氏名」に対しては「2」、「住所」に対しては「4」、「メールアドレス」に対しては「2」、「電話番号」に対しては「3」である。この属性情報は、データ分割装置10の管理者等により決定され予め格納される。
【0028】
また、本実施の形態においては属性情報DB14bに「分割位置情報」を含む。「分割位置情報」は、属性に応じて分割に適した位置をあらかじめ定めたものであり、例えば、漢字氏名やカナ氏名については分割対象データの「中央」の1箇所、住所については「中央」及び「終端から始端方向に1/3の位置」及び「同1/6の位置」の3箇所、電話番号については「中央」及び「終端から始端方向に1/4の位置」の2箇所、などである。
これは、氏名については中央で分割することで「氏」と「名」に分かれやすい傾向にあり、より個人情報を特定しづらい最終分割データが得られやすいためである。同様に、住所や電話番号は後半に番地・マンション名や、電話番号の下4桁があるため、後ろよりの分割位置とすることで、より個人情報を特定しづらい最終分割データとなる。
また、上記の住所における分割位置情報は「中央及び後半の2箇所」、電話番号は「中央及び後半の1箇所」のように定めてもよい。
なお、分割位置情報により最終分割数も判断可能であるため、属性情報DB14bに分割位置情報を設ける場合には、最終分割数については設けなくてもよい。
【0029】
制御部15は、データ分割装置10に関する計算処理を行う処理手段であり、具体的には、CPU、当該CPU上で解釈実行される各種のプログラム(OSなどの基本制御プログラムや、OS上で起動され特定機能を実現するアプリケーションプログラムを含む)、及び各種のプログラム(データ分割方法をデータ分割装置10により実行するためのデータ分割プログラムを含む)や各種のデータを格納するためのRAMの如き内部メモリを備えて構成されるコンピュータである。プログラムは、磁気的記録媒体や光学的記録媒体を含む任意の記録媒体に記録され、記憶部14にインストールされることで、制御部15の各部を実質的に構成する。
この制御部15は、機能概念的に、データ分割部16とデータ結合部17を備え、データ分割部16は、さらに中間分割部16a、空白位置決定部16b、及び最終分割部16cを備える。これら制御部15の各部の機能の詳細は後述する。
【0030】
(構成−入力端末)
入力端末20は、オペレータが利用する端末装置であり、オペレータはこの入力端末20を操作して、データ分割装置10から最終分割データを受信し、最終分割データに含まれる文字をテキストデータとして入力し、入力したテキストデータをデータ分割装置10に送信する。このデータ入力端末20は、例えば、公知のパーソナルコンピュータ、携帯電話、スマートフォンなどとして構成することができるので、その説明を省略する。
【0031】
(構成−ネットワーク)
ネットワーク30としては、WAN(Wide Area Network)であって、代表的にはインターネットであるが、専用通信線やLAN(Local Area Network)を含んでもよい。
【0032】
(処理)
次に、このように構成されたデータ分割装置10によって実行される処理について説明する。この処理は、主にデータ分割部16により実行されるデータ分割処理と、主にデータ結合部17により実行されるデータ結合処理に大別される。ただし、以下の説明においては、特記するタイミングを除いて任意のタイミングにて各処理が行われ、特記する主体を除いて制御部15にて処理が行われるものとする。
【0033】
(処理−データ分割処理)
最初に、データ分割処理について説明する。図3は、データ分割処理のフローチャート、図4は、データ分割処理による分割例(漢字氏名の記入欄に記入されたデータの場合の分割例)を示す図である。
【0034】
最初に、データ分割装置10のデータ分割部16は、図示しないスキャナにて生成された対象書類のイメージデータから、公知の方法で分割された各記入欄毎のイメージデータ(すなわち、分割対象データ。図4(a))を、2値化することでモノクロデータに変換する(SB1)。この変換を行うのは、後述するデータサイズに基づく空白位置の決定精度を高めるためであり、分割対象データ自体がモノクロデータである場合や、モノクロデータでなくとも空白位置の所望の決定精度が得られる場合には、この処理を省略してもよい。
【0035】
次いで、中間分割部16aは、モノクロデータに変換された分割対象データのうち、文字が含まれていないと想定される部分であって、ノイズ(記入欄同士の分割を完全に行うことができないために当該記入欄に含まれてしまった隣接する記入欄の一部や、文字以外の枠線等)が含まれている可能性が高いと想定される部分(以下、ノイズ部分)をカットする(SB2。図4(b))。ここでは、ノイズ部分として、図5に示すように、高さ方向の両端部であって、配列方向に沿った帯状部分をカットする。具体的には、分割対象データを高さ方向に3等分し、中央部分を除いた2つの端部の各々をさらに高さ方向に3等分し、当該3等分した各端部のそれぞれの端辺から3分の2の部分を、ノイズ部分としてカットする。このカットを行うのは、分割対象データからノイズを除去することで、後述するデータサイズに基づく空白位置の決定精度を高めると共に、空白位置の決定処理等の各種のデータ処理の負荷を軽減するためであり、この必要がない場合には、この処理を省略してもよい。また、カットを行う場合であっても、ノイズ部分の位置や範囲は変更可能であり、例えば、記入欄の属性に応じて位置や範囲を変えてもよい。
【0036】
次いで、中間分割部16aは、ノイズ部分がカットされた分割対象データを、配列方向に直交する方向に沿って均等間隔で設定された複数の中間分割線により、複数の中間分割データに分割する(SB3。図4(c))。具体的には、分割対象データに含まれる文字の配列方向は、対象書類の所定の書式データに基づいて分割対象データ毎に予め特定されており、この配列方向に直交する方向に沿うように、複数の中間分割線を設定する。この複数の中間分割線の相互間隔は、均等間隔になるように設定する。この際、分割対象データの分割数(上述の中間分割数であり、図4(c)の例では16)としては、予め特定された分割対象データの属性に対応する中間分割数を、記憶部14の属性情報DB14bから取得して使用するものとし、この中間分割数に基づいて、複数の中間分割線の相互間隔が決定される。この中間分割数の決定方法は任意であるが、1つの中間分割データの幅が、分割対象データに含まれる文字1つ分の幅と同じかそれ以下になるように、中間分割数を決定することが好ましい。ここでは、属性毎に最適な中間分割数を属性情報DB14bから取得して使用することで、属性毎に最適な分割数で分割対象データを中間分割データに分割することが可能となる。
【0037】
また、この中間分割数は例えば、次のように、分割対象データの寸法に基づいて決定してもよい。
(1)分割対象データの幅により決定する方法
あらかじめ、分割対象データの幅に応じた中間分割数を定めておくことにより、各分割対象データの中間分割数を決定する。これにより、記入欄の幅に対してより適切な中間分割数を決定することができる。
(2)分割対象データの高さにより決定する方法
あらかじめ、中間分割データの分割幅を、例えば(上記のノイズ部分がカットされた分割対象データの高さ):(中間分割幅)=1:xと定めておくことにより、各分割対象データの中間分割数を決定する。なお、経験的に、上記xは1未満が好ましい。
なお、上記いずれの中間分割数の決定方法においても、中間分割結果の良否等に応じて後で中間分割数を変更できるよう、画面等の入力手段を用意しておくとよい。
【0038】
その後、空白位置決定部16bは、複数の中間分割データの各々を所定の圧縮方法で圧縮する(SB4)。この圧縮方法は、圧縮データに含まれる情報の情報量(あるいは情報の複雑度)に応じて当該圧縮データのサイズ(バイト数)が異なる圧縮方法であればよく、JPEG、GIF、及びPNGなどを含む。例えば、JPEGの場合、同一寸法のイメージデータを圧縮して生成されたファイルのファイルサイズは、同色のみ(モノクロの場合、黒一色または白一色)のデータのサイズ<比較的少ない数の文字を含んだデータのサイズ<比較的多い数の文字を含んだデータのサイズとなり、情報量に応じて圧縮データのサイズが異なる。
【0039】
そして、空白位置決定部16bは、当該圧縮した各中間分割データからデータサイズを取得し、当該取得したデータサイズに基づいて、分割対象データにおける複数の文字の相互間の空白位置を決定する(SB5)。
【0040】
この空白位置の決定は、具体的には、以下のように行う。まず、各中間分割データのデータサイズに基づいて、複数の中間分割データのデータサイズの最小値及び最大値を取得する。次いで、各中間分割データのデータサイズの評価値(以下、ポイント)を、当該取得したデータサイズの最大値に対する、当該中間分割データのデータサイズから前記取得したデータサイズの最小値を減算した結果の比率として算定する。
【0041】
図6には、各属性毎の中間分割データのデータサイズとポイントの例を示す。この図6の一番上に示す「漢字氏名」の場合の例では、データサイズの最小値=766、データサイズの最大値=2、090であるため、データサイズ=1、046の中間分割データのポイントは、ポイント=(1、046−766)/2、090≒0.1(ここでは、少数点第2位以降は四捨五入)と算定され、他の中間分割データのポイントも同様に、同図のように算定される。このようにデータサイズに基づいてポイントを算定するのは、複数の中間分割データのデータサイズを最小値と最大値の範囲内の比率に変換することで、各中間分割データのデータサイズの相違を明確化するためであるが、このような必要性がない場合には、評価値を使用することなく、データサイズ自体を用いて空白位置を決定してもよい。あるいは、評価値を使用する場合であっても、ポイントに代えて他の評価値を使用してもよく、例えば、上記比率を百分率として算定してもよく、この場合には、例えば、ポイント=0.1に代えて、10%としてもよい。あるいは、評価値は各中間分割データのデータサイズを比較できるものであればよく、上記の算定方法に限られない。なお、上記においてポイントを小数点第1位までとするのは、その後の空白位置の判断を行いやすい精度であるためだが、例えば、より高い精度を必要とする場合には、小数点第2位まで等としてもよい。
【0042】
次いで、このように算定した各中間分割データのポイントに基づいて、空白位置を決定する。具体的には、各中間分割データのポイントの中で、最も始端側の中間分割データのポイントと最も終端側の中間分割データのポイントを除外する。これは、これらの中間分割データに文字間の空白位置が存在している可能性が低く、また、SB2と同様にノイズをカットするためである。なお、この最始端側と最終端側のノイズは、上述のSB2の処理の際に、SB2と同様の方法により(例えばSB2で求めたカット幅と同じ幅で)カットしておいてもよい。そして、残りの中間分割データのポイントに基づいて、文字書き込みの開始位置と、文字書き込みの終了位置を推定する。文字書き込みの開始位置は、例えば、相互に隣接する2つのポイントを順次比較し、始端側のポイントよりも終端側のポイントが所定数以上増えている2つのポイント(このような2つのポイントが複数組ある場合には、始端側に最も近い2つのポイント)を特定し、当該特定した2つのポイントの中の当該終端側のポイントを文字書き込みの開始位置に対応するポイントとすることで、推定する。文字書き込みの終了位置は、例えば、文字の書き出し位置に対応するポイントを除外した残りの中間分割データのポイントの中で、相互に隣接する2つのポイントを順次比較し、始端側のポイントよりも終端側のポイントが所定数以上減っている2つのポイント(このような2つのポイントが複数組ある場合には、終端側に最も近い2つのポイント)を特定し、当該特定した2つのポイントの中の始端側に近い方のポイントを文字書き込みの終了位置に対応するポイントとすることで、推定する。
【0043】
そして、文字書き込みの開始位置に対応するポイントと、文字書き込みの終了位置に対応するポイントとの相互間において、空白位置を推定する。空白位置は、文字書き込みの開始位置に対応するポイントと、文字書き込みの終了位置に対応するポイントとの相互間に存在するポイントの中から、ポイントが相対的に小さいポイントを抽出することで特定する。
【0044】
このような空白位置の推定ロジックを、グラフを用いて説明する。図7〜9には、各属性毎(ここでは、代表例として、漢字氏名、住所、電話番号)の中間分割データのポイントのグラフを示す。これら各グラフは、図6に例示したポイントに対応するものであり、横軸は分割対象データにおける各中間分割データの位置(中間分割数に対応する1から16)、縦軸はポイントである。特に、これら図7〜9には、図6に例示したJPEG使用時のポイントに加えて、GIF及びPNG使用時のポイントがプロットされており、いずれの圧縮方法を用いても同様の傾向のグラフが得られることを示している。
【0045】
空白位置は、ポイントが0または0に近い値である位置(図7〜9に示すグラフにおいては谷になっている位置)として推定できる。具体的には、各ポイントの中で最も小さいポイント(あるいは、所定のしきい値以下のポイント)の位置を空白位置として推定できる。
【0046】
例えば、図7の属性=漢字氏名のグラフ(図6においては「漢字氏名」の箇所)の場合、上記の文字書き込みの開始位置及び終了位置はそれぞれ、16分割の4の位置及び11の位置である。ここで、開始位置と終了位置との間の各ポイントにおいて、空白位置であると判断するためのしきい値を0.0とすると、16分割の8の位置が空白位置と推定される。しきい値以下(ここでは0.0)のポイントが見つからなかった場合は、当該しきい値を(ここでは0.1ずつ)上げて再度空白位置の推定を行う。なお、このようなグラフは実際に描画等する必要はなく、中間分割データのポイントの絶対値と相互の差分に基づいて公知のロジックを用いて空白位置を推定することができる。
【0047】
また、最終分割位置の基とするための空白位置を決定する際には、予め特定された分割対象データの属性に対応する最終分割数を、記憶部14の属性情報DB14bから取得して使用するものとし、この最終分割数に基づいて(最終分割数から1を減算することで)、空白位置の数が決定される。例えば、最終分割数=4の場合、空白位置の数=3となる。そして、上述した空白位置の推定を繰り返し、空白位置の可能性が高い位置(上記条件に合致する程度が高い位置)から順に、空白位置として確定し、確定した空白位置の数が、上記属性に基づいて決定した空白位置の数に等しくなった時点で、空白位置の決定を終了する。なお、空白位置の決定方法はこれに限られず、例えば、空白位置の条件に合致する程度に応じて優先順位を特定し、優先順位の高い順に、属性に応じた数になるまで空白位置を選択してもよい。また、文字書き込みの開始位置から終了位置までを最終分割数で等分し、その位置に最も近い空白位置を選択してもよい。
【0048】
本実施の形態においては、上述で推定した空白位置と、属性情報DB14bから得た最終分割数及び分割位置情報とを用いて、空白位置の決定を行うことができる。
図7の漢字氏名の場合を例として説明すると、上述したように、推定された空白位置は16分割の8の位置である。また、最終分割数は2であるため求めるべき空白位置の数は1である(なお、上述したように、分割位置情報からも最終分割数の判断は可能である)。また、分割位置情報は「中央」の1箇所であるため、文字書き込みの開始位置(4の位置)と終了位置(11の位置)の中央の位置、すなわち7と8の間の位置が、分割に適した位置となる。上記推定された空白位置が複数ある場合には、当該分割に適した位置に近いものを選択する。したがって、図7の例において決定される空白位置は、上記16分割の8の位置となる。
また、文章などの長い文字列を分割する場合には、あらかじめ最終分割数を決めず(または最小・最大の分割数のみを決め)、行単位に、例えば上記の方法で推定される空白位置の全てについて(または最小分割数以上最大分割数以下の数で)分割するようにしてもよい。
また、推定される空白位置がない場合には、分割位置情報に対応する位置をそのまま空白位置として決定するようにしてもよい。例えば、ある分割対象データについて求めたポイントが、各中間分割データにおいて一定またはほぼ一定である(グラフが横ばいとなる)場合には空白位置の推定はできないが、その分割対象データは空欄である(記入がない)と推定することができる。このような場合には、分割位置情報に対応する位置で分割し、オペレータにおいて空欄である旨を入力する(または何も入力しない)等の対応が可能である。
【0049】
その後、最終分割部16cは、空白位置決定部16bにて決定された空白位置に基づいて、分割対象データを配列方向に直交する方向に沿った最終分割線で分割することにより、分割対象データを複数の最終分割データに分割する(SB6)。この際、例えば空白位置における配列方向の中心位置自体を、最終分割線による分割位置としてもよいが、分割位置に何らかの原因による誤差がある可能性を考慮し、最終分割データの幅を若干広げてオペレータに提示すべく、空白位置の中心位置から少しずれた位置を、最終分割線による分割位置とする。具体的には、最終分割部16cは、空白位置決定部16bにて決定された空白位置よりも配列方向に沿って所定幅だけ最終分割データのデータ幅を拡張する位置を、最終分割線の位置とし、この最終分割線の位置において分割対象データを分割する。
【0050】
例えば、図4(c)に示すように空白位置を決定した場合、図4(d)に示すように、この空白位置における配列方向の中心に対し、当該中心より図示左方の最終分割データD1については、当該最終分割データD1を拡張する方向である図示右方に所定幅Wだけデータ幅を拡張する位置を、当該最終分割データの最終分割線の位置D1’とし、当該中心より図示右方の最終分割データD2については、当該最終分割データD2を拡張する方向である図示左方に所定幅Wだけデータ幅を拡張する位置を、当該最終分割データの最終分割線の位置D2’とする。この結果、図4(e)に示す2つの最終分割データが生成される。以下、このように拡張されたデータ幅を、「余裕幅」と称する。この余裕幅としては、例えば、分割対象データの高さの半分または任意の幅を設定する。ただし、余裕幅を省略し、空白位置の中心を最終分割線としてもよい。また、余裕幅を設ける場合であっても、余裕幅は変更可能であり、例えば、分割対象データの属性に応じて異なる幅で余裕幅を設定してもよい。また、空白位置前後や、最終分割線(分割位置)前後のポイントの変動の仕方により、余裕幅を決定するようにしてもよい。
【0051】
また、この分割対象データの分割の際、最終分割部16cは、データ入力者に自分が入力すべき範囲を判断させるために、空白位置における配列方向の中心位置を示す線であって、配列方向に直交する方向に沿った線を、分割対象データを付加する。以下、このように付加された線を、「補助線」と称する。
【0052】
次いで、データ分割部16は、分割対象データを分割して生成した複数の最終分割データを、相互に異なるオペレータの入力端末20にネットワーク30を介して送信する(SB6)。この際、分割対象データに分割対象データIDを付与すると共に、各最終分割データに最終分割データIDを付与し、これら分割対象データIDと最終分割データIDを、送信先の各オペレータに予め付与されているオペレータIDに関連付けて、新しい構成情報として構成情報DB14aに格納する。この際、後述のデータ結合処理において分割対象データにおける最終分割データの結合順を特定可能なように、各最終分割データIDの付与や格納を行うものとする。これにてデータ分割処理が終了する。
【0053】
その後、各オペレータは、データ分割装置10から自己に送信された最終分割データに含まれる文字を、入力端末20を介してキーボード入力してテキストデータ化する。この入力では、最終分割データの終端側に余裕幅がある場合において、補助線上に文字がある場合に、当該文字を含めて入力するものとし、最終分割データの始端側に余裕幅がある場合において、補助線上に文字がある場合には、当該文字は含めずに入力するものとする。なお、一つの最終分割データの始端側と終端側のそれぞれに余裕幅がある場合(例えば、分割対象データを3つ以上に分割した場合の端部以外の最終分割データの場合)には、終端側の補助線上に文字がある場合には、当該文字を含めて入力するものとし、始端側の補助線上に文字がある場合には、当該文字を含めずに入力する。なお、余裕幅が最終分割データのいずれの位置にあるのかの判定は、各オペレータが、最終分割データのいずれの位置に補助線があるかを目視で確認することで、行うことができる。そして、各オペレータは、このように作成したテキストデータを入力端末20を介してデータ分割装置10に送信する。これにてオペレータの入力作業が終了する。なお、上述とは逆の入力ルール(すなわち、終端側に余裕幅がある場合には補助線上の文字を入力せず、始端側に余裕幅がある場合に入力する)としてもよい。
【0054】
(処理−データ結合処理)
次に、データ結合処理について説明する。データ結合部17は、各オペレータの入力端末20から送信されたテキストデータを用いて、分割対象データのテキストデータを結合する。具体的には、テキストデータを送信したオペレータのオペレータIDを、通信時の送信元のIPアドレスに基づいて特定した、あるいは、オペレータによってテキストデータに付加されたデータとして取得する。また、テキストデータに対応する最終分割データの最終分割データIDを、オペレータによってテキストデータに付加されたデータとして取得する。そして、これら最終分割データIDとオペレータIDに基づいて、構成情報DB14aに格納された構成情報を参照することにより、テキストデータに対応する最終分割データの分割元になった分割対象データと、この分割対象データにおける最終分割データの結合順を特定し、当該結合順に最終分割データのテキストデータを結合することで、分割対象データのテキストデータを生成する。
【0055】
この際、データ結合部17は、結合部分に重合するテキストデータの有無を確認し、重合するテキストデータがある場合には、一方のテキストデータを削除する。このことにより、最終分割線上にある文字が入力されることによって生じ得る文字重複を解消することができる。そして、データ結合部17は、結合により生成された分割対象データから、クライアントに納品する納品データ(例えば対象書類ごとに結合したテキストデータや、データベース、帳票や一覧等の形式に編集してプリントアウトした紙媒体など)を生成する。これにてデータ結合処理が終了する。
【0056】
このように生成された納品データは、ネットワーク送信や記録媒体を介してクライアントに納品される。なお、データをより正確なものとするため、分割対象データのテキストデータや納品データを、確認者が対象書類と目視で対照し、必要に応じて修正を行うようにしてもよい。
【0057】
〔変形例〕
以上、本発明に係る実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した各発明の技術的思想の範囲内において、任意に改変及び改良することができる。
【0058】
(分散や統合について)
上述で図1を用いて説明した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成できる。例えば、データ処理装置の機能を複数のコンピュータやサーバに分散したり、クラウドコンピューティング技術を用いたネットワーク構成としてもよい。また、例えば、属性情報DB14bの各項目はデータベースとして格納するのでなく、各処理のロジック内に保持していてもよい。
【0059】
(データ処理の目的について)
上記実施の形態では、データ入力サービスを行うことを目的としてデータ分割を行う場合について説明したが、他の任意の目的のためにデータ分割を行うこともでき、例えば、データの秘密通信のための分割に適用してもよい。したがって、対象書類のテキストデータを記入欄毎のテキストデータに分割する処理等は省略してもよい。あるいは、各種の書類をスキャナを介してイメージデータ化する場合において、当該書類の位置決めや、スキャン時の用紙ずれの補正等を行うために適用することもでき、この場合には、最終分割に関する構成や処理は不要となる。
【0060】
(処理対象データについて)
上記実施の形態では、日本語による横書きの文字を含む処理対象データを分割する場合について説明したが、英語を含む任意の言語の文字であって、縦書きを含む任意の配列方向の文字を分割する場合にも、同様に本発明を適用できる。また、文字に限定されず、図形のみを含んだり、文字と図形の両方を含むデータを、処理対象データとしてもよい。この場合において、図形には、記入欄の枠線や、データの位置決め等のために付与された基準線又は基準点を含めてもよい。また、位置を決定すべき対象となる空白とは、同一行における文字や図形の相互間に設けられた空白以外にも、複数行の相互間に設けられた行間であってもよい。また、複数の文字の相互間に複数の空白が存在する場合において、位置を決定すべき対象となる空白とは、当該複数の空白の中の少なくとも一つの空白を意味し、必ずしも全ての空白の位置を決定する必要はない。
【0061】
(中間データの分割について)
上記実施の形態では、処理対象データを、文字の配列方向に対して直交する方向に沿った複数の中間分割線により分割する場合について説明したが、中間分割線の方向は、このような直交方向に限定されず、配列方向に沿った方向であってもよく、あるいは、配列方向に沿った中間分割線と直交方向に沿った中間分割線から構成される格子状の中間分割線による分割を行ってもよい。例えば、複数行を含む文章をスキャンする際の位置ずれを検出する場合、当該行に沿った方向の中間分割線を用いて分割を行うことで中間分割データを生成し、データサイズが少ない中間分割データの位置を、これら複数行の行間であると決定してもよい。
【0062】
(データの圧縮について)
上記実施の形態では、分割対象データを中間分割データに分割した後、各中間分割データを圧縮するものとして説明したが、これ以前のタイミングで圧縮してもよい。
【0063】
(データ入力サービスにおける納品物の例について)
上記実施の形態では、データ結合処理により作成されたテキストデータをクライアントへの納品物(最終的なアウトプット)として説明したが、納品物はこれに限られない。例えば、クライアントからの依頼物がCADの定型帳票である場合に、図面部分はそのままイメージデータ化し、文字部分は上記実施の形態によりテキストデータを作成し、当該テキストデータを埋め込んだPDFファイルを納品物とすることで、テキスト検索可能な電子帳票を納品することができる。
【0064】
1 データ入力サービスシステム
10 データ分割装置
14 記憶部
15 制御部
16 データ分割部
16a 中間分割部
16b 空白位置決定部
16c 最終分割部
17 データ結合部
20 入力端末
30 ネットワーク

【特許請求の範囲】
【請求項1】
文字又は図形と空白とを含む処理対象データを処理するデータ処理装置であって、
前記処理対象データを、所定方向に沿って均等間隔で設定された複数の中間分割線により、複数の中間分割データに分割する中間分割手段と、
前記中間分割手段にて分割された複数の中間分割データであって、圧縮データに含まれる情報量に応じて当該圧縮データのサイズが異なる圧縮方法にて圧縮された複数の中間分割データの各々のデータサイズを取得し、当該取得したデータサイズに基づいて、前記処理対象データにおける空白位置を決定する空白位置決定手段と、
を備えるデータ処理装置。
【請求項2】
前記処理対象データは、配列方向に沿って配列された複数の文字と空白とを含むデータであり、
前記中間分割手段は、前記処理対象データを、前記所定方向としての前記配列方向に対して直交する方向に沿って均等間隔で設定された前記複数の中間分割線により、前記複数の中間分割データに分割し、
前記空白位置決定手段は、前記取得したデータサイズに基づいて、前記処理対象データにおける前記複数の文字の相互間の空白位置を決定し、
前記空白位置決定手段にて決定された空白位置に基づいて、前記処理対象データを前記配列方向に直交する方向に沿った最終分割線で分割することにより、前記処理対象データを複数の最終分割データに分割する最終分割手段を備える、
請求項1に記載のデータ処理装置。
【請求項3】
前記最終分割手段は、前記空白位置決定手段にて決定された空白位置よりも前記配列方向に沿って所定幅だけ前記最終分割データのデータ幅を拡張する位置を、前記最終分割線の位置とする、
請求項2に記載のデータ処理装置。
【請求項4】
前記最終分割手段は、前記空白位置を示す情報を、前記最終分割データに付加する、
請求項3に記載のデータ処理装置。
【請求項5】
前記中間分割手段が前記処理対象データを分割する際の前記中間分割線の数、又は、前記空白位置決定手段が前記処理対象データに対して決定する前記空白位置の数を、前記処理対象データの属性又は寸法のすくなくとも一方に基づいて決定する、
請求項1から4のいずれか一項に記載のデータ処理装置。
【請求項6】
前記空白位置決定手段は、
前記取得したデータサイズに基づいて、前記複数の中間分割データのデータサイズの最小値及び最大値を取得し、
各中間分割データのデータサイズの評価値を、前記取得したデータサイズの最大値に対する、当該中間分割データのデータサイズから前記取得したデータサイズの最小値を減算した結果の比率として算定し、
前記算定した各中間分割データの評価値に基づいて、前記空白位置を決定する、
請求項1から5のいずれか一項に記載のデータ処理装置。
【請求項7】
前記中間分割手段は、前記処理対象データから、前記所定方向における端部又は前記配列方向に直交する方向における端部の少なくとも一方を削除し、当該削除後の前記処理対象データを対象として、前記中間分割線による分割を行う、
請求項1から6のいずれか一項に記載のデータ処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−120046(P2012−120046A)
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願番号】特願2010−269634(P2010−269634)
【出願日】平成22年12月2日(2010.12.2)
【特許番号】特許第4746711号(P4746711)
【特許公報発行日】平成23年8月10日(2011.8.10)
【出願人】(000131201)株式会社CSK (53)
【出願人】(510318826)株式会社CSKサービスウェア (2)
【Fターム(参考)】