説明

情報処理装置

【課題】画像データに対応するインデックスデータを作成する作業を簡略化できる情報処理装置を提供することを課題とする。
【解決手段】スキャナ部14は、紙文書を読み取り、文書画像データを作成する。OCR処理部111は、文書画像データに対してOCR処理を行い、テキストデータを作成する。キーワード記憶部112は、インデックスの属性名と各属性名に対応するキーワードとを対応付けたキーワードテーブルと、属性データの抽出条件がキーワードごとに登録された抽出条件テーブルとを記憶する。属性データ抽出部113は、キーワードテーブルを用いて、属性名に対応するキーワードの検索をテキストデータに対して行う。キーワードを検出した場合、属性データ抽出部113は、抽出条件テーブルに登録された抽出条件に基づいて属性データをテキストデータから抽出し、属性名と属性データとを対応付けたインデックスデータを作成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書を読み込んで作成した画像データからインデックスデータを作成する情報処理装置に関する。
【背景技術】
【0002】
近年、企業などにおいて、電子メール、Webページなどの電子データだけでなく、紙文書も電子データ化した上で管理する文書管理システムの利用が増加している。
【0003】
文書管理システムは非常に多くの電子データを管理するため、ユーザが電子データを容易に検索できることが文書管理システムに求められている。そのため、文書管理システムは、紙文書を読み込んで作成した画像データ(以下、文書画像データという)が登録される際に、検索用のインデックスとして、文書画像データごとにインデックスデータを作成する。
【0004】
具体的には、紙文書に記載された名前あるいは住所などの属性名に対応する文字データ(属性データ)が文書画像データから抽出される。そして、抽出された属性データと、属性名とを対応付けたインデックスデータが作成される。ユーザは、属性名と属性データとを指定することによって、所望の文書画像データを容易に検索することができる。
【0005】
たとえば、特許文献1に、文書画像データからインデックスデータを作成する情報処理装置が開示されている。特許文献1が開示する情報処理装置は、ユーザの操作に基づいて、文字認識を行う領域の情報とインデックス項目とを対応付けたインデックス抽出情報をフォーム画像データごとに作成する。インデックス抽出情報に基づいて2次元バーコードが作成され、フォーム画像データと2次元バーコードとが合成される。フォーム画像データを用いた文書を登録する場合、特許文献1が開示する情報処理装置は、2次元バーコードを解析して指定された領域の文字認識処理を行ってテキストデータを取得し、テキストデータをインデックス項目のデータとして登録する。
【0006】
【特許文献1】特開2006−209542号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
上述したように、特許文献1が開示する情報処理装置は、2次元バーコード付きのフォーム画像データを用いて作成された文書を文書登録する際に、インデックス項目のデータを自動的に登録する。しかし、2次元バーコード付きのフォーム画像データを用いた文書の作成元は、特許文献1が開示する情報処理装置を直接使用するユーザである場合が多い。
【0008】
つまり、受信したFAX文書あるいは郵送された文書などの外部文書については、2次元バーコード付きのフォーム画像データを用いて作成されるとは限らない。また、外部文書のフォーマットは様々である。このため、外部文書を文書管理システムに登録するたびに、ユーザはインデックス抽出情報の作成あるいは選択をしなければならないという問題があった。
【0009】
そこで、本発明は前記問題点に鑑み、画像データに対応するインデックスデータを作成する作業を簡略化できる情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決するため、請求項1記載の発明は、文書を読み取って画像データを形成するスキャナ部と、前記画像データに対して文字認識処理を行い、テキストデータを取得する文字認識処理部と、前記画像データのインデックスとして用いられるインデックスデータを作成するためのキーワードを、前記インデックスの属性名と対応付けて記憶するキーワード記憶部と、前記属性名に対応する属性データを、前記キーワードに基づいて前記テキストデータから抽出し、前記属性名と抽出した前記属性データとを対応付けて前記インデックスデータを作成する属性データ抽出部と、を備えることを特徴とする。
【0011】
請求項2記載の発明は、請求項1に記載の情報処理装置において、前記キーワード記憶部は、前記テキストデータから前記属性データを抽出するための抽出条件データを、前記キーワードと対応付けて記憶する抽出条件データ記憶部、を含み、前記属性データ抽出部は、前記キーワードと前記抽出条件データとに基づいて、前記テキストデータから前記属性データを抽出することを特徴とする。
【0012】
請求項3記載の発明は、請求項1または請求項2に記載の情報処理装置において、前記属性データ抽出部は、前記テキストデータが前記属性データとして抽出できる複数の文字列を含む場合、前記複数の文字列のうち前記テキストデータの先頭側に位置する文字列を前記属性データとして抽出することを特徴とする。
【0013】
請求項4記載の発明は、請求項1または請求項2に記載の情報処理装置において、前記属性データ抽出部は、前記テキストデータが前記属性データとして抽出できる複数の文字列を含む場合、各文字列を前記属性データとして抽出することを特徴とする。
【発明の効果】
【0014】
本発明に係る情報処理装置は、画像データの文字認識を行って得られたテキストデータから、属性名に対応するキーワードに基づいて属性データを抽出する。このように、本発明に係る情報処理装置は、文書のフォーマットに依存することなく画像データからインデックスデータを作成することができるため、文書登録時のユーザの作業を簡略化することができる。
【発明を実施するための最良の形態】
【0015】
以下、図面を参照しつつ本発明の一実施の形態について説明する。ここでは、本発明の情報処理装置の一例として、ネットワーク複合機を例にして説明する。図1は、本実施の形態に係るネットワーク複合機の構成を含む文書管理システムの構成図である。
【0016】
図1に示す文書管理システムは、ネットワーク複合機1と、パーソナルコンピュータ(PC)2と、ファイル管理サーバ3とが、ローカルエリアネットワーク(LAN)4に接続された構成となっている。LAN4には、インターネットあるいは他のLANに接続するためのルータ(図示省略)などが設置されている。
【0017】
ネットワーク複合機1は、紙文書を読み取って文書画像データを作成し、文書画像データに対応するインデックスデータを作成する。PC2は、文書画像データおよびインデックスデータを一時的に保存する。ファイル管理サーバ3は、文書画像データおよびインデックスデータをPC2から取得し、各データを管理する。
【0018】
まず、図1に示すネットワーク複合機1の構成について説明する。ネットワーク複合機1は、制御部11と、操作部12と、タッチパネル式ディスプレイ13と、スキャナ部14と、プリンタ部15と、通信部16とを備える。
【0019】
制御部11は、マイクロプロセッサ、メインメモリなどを含み、ネットワーク複合機1の全体制御を行う。また、制御部11は、光学文字認識(Optical Character Recognition:OCR)処理部111と、キーワード記憶部112と、属性データ抽出部113とを有する。
【0020】
操作部12は、ネットワーク複合機1に対する各種の指示を入力するためのハードウェアキーなどで構成される。タッチパネル式ディスプレイ13は、ネットワーク複合機1に関する情報、および各種の操作メニューを表示する。ユーザは、操作部12およびタッチパネル式ディスプレイ13(以下、「本体操作部」という)を利用して、ネットワーク複合機1の各種操作をすることが可能である。
【0021】
スキャナ部14は、オートドキュメントフィーダ(図示省略)等に載置された紙文書を読み取り、文書画像データとして出力する。プリンタ部15は、PC2から出力されたデータ、あるいはスキャナ部14から出力された文書画像データなどの印刷データを、各種の設定条件に応じて記録用紙に印刷する。なお、ネットワーク複合機1のコピー機能は、制御部11、スキャナ部14、およびプリンタ部15が協働することにより実現される。
【0022】
通信部16は、LAN4あるいはインターネットなどに接続された各コンピュータとの間で、TCP/IPなどのプロトコルを利用してデータの送受信を行う。
【0023】
次に、制御部11が有する各機能部について説明する。OCR処理部111は、スキャナ部14が出力した文書画像データに対してOCR処理を行い、テキストデータを作成する。
【0024】
キーワード記憶部112は、OCR処理部111が作成したテキストデータからインデックスデータを作成するためのキーワードテーブルと抽出条件テーブルとを記憶している。なお、インデックスデータは、インデックスの属性名と、属性データとによって構成される。属性名とは、「名前」あるいは「住所」などの属性の項目を指し、属性データとは、属性名に対応するデータを指す。
【0025】
図2に、キーワードテーブルの一例を示す。図2に示すように、キーワードテーブルは、属性名と、属性名に対応するキーワードとを対応付けたテーブルである。
【0026】
たとえば、図2に示すように、属性名「名前」に対応するキーワードとして、「殿」、「様」、「Mr」および「Mrs」が登録されている。また、属性名「日付」に対応するキーワードとして、「年」、「月」、「日」、および「平成」が登録されている。このように、各属性名に対応するキーワードには、属性データとともに使用される頻度の高い文字列、あるいは属性データに含まれる可能性が高い文字列が指定される。なお、各属性名に対応するキーワードには、属性データとしてそのまま用いられる文字列を指定してもよい。また、属性名に対応するキーワードの数は、複数に限られず、一つであってもよい。
【0027】
また、図3に、抽出条件テーブルの一例を示す。図3に示すように、抽出条件テーブルは、属性データを抽出する条件がキーワードごとに登録されているテーブルである。「抽出方向」は、属性データとして抽出すべき文字列が、キーワードの検出位置を基準として前方または後方のどちらに位置するかを示す。また、「キーワードの使用状態」は、抽出される属性データにキーワードが含まれるか否かを示す。具体的には、図3に示す「キーワードの使用状態」が「ON」の場合、キーワードが属性データに含まれることを示し、「OFF」の場合、キーワードが属性データに含まれないことを示す。
【0028】
たとえば、図3に示すように、キーワード「様」が検出された場合、検出位置の前方に位置する文字列が属性名「名前」の属性データとして抽出されることが分かる。また、キーワード「平成」が検出された場合、キーワード「平成」と、検出位置の後方に位置する文字列とが、属性名「日付」の属性データとして抽出されることがわかる。なお、抽出条件テーブルには、図3に示した抽出条件だけでなく、属性データとして抽出される文字列の範囲などが登録されていてもよい。
【0029】
属性データ抽出部113は、キーワード記憶部112に記憶されたキーワードテーブルおよび抽出条件テーブルに基づいて、OCR処理部111が作成したテキストデータから属性データを抽出する。属性データ抽出部113は、属性名と属性データとを対応付けたインデックスデータを、XML(eXtensible Markup Language)などを用いて記述する。
【0030】
次に、PC2について説明する。PC2には、ネットワーク複合機1およびファイル管理サーバ3がアクセス可能な共有フォルダ21が作成されている。共有フォルダ21は、ネットワーク複合機1が作成した文書画像データおよびインデックスデータを一時的に保存するためのフォルダである。
【0031】
次に、ファイル管理サーバ3について説明する。ファイル管理サーバ3は、図1に示す文書管理システムに登録された、文書画像データ、電子メール、あるいはWebページなどの文書データを管理する。ファイル管理サーバ3は、共有フォルダ監視部31と、ファイル管理DB32と、ファイル記憶部33とを備える。
【0032】
共有フォルダ監視部31は、PC2の共有フォルダ21を常時監視する。ファイル管理DB32は、共有フォルダ21に保存された文書画像データおよびインデックスデータを取得し、ハードディスク装置などで構成されるファイル記憶部33に記憶させる。また、ファイル管理DB32は、ファイル記憶部33に記憶された文書画像データおよびインデックスデータを管理する。
【0033】
以下、図1に示す文書管理システムの文書登録時の動作を説明する。はじめに、ネットワーク複合機1がインデックスデータを作成する際の動作について説明する。
【0034】
まず、ユーザが、本体操作部を操作して、キーワードテーブルおよび条件抽出テーブルを作成する。作成されたキーワードテーブルおよび条件抽出テーブルは、キーワード記憶部112に記憶される。キーワード記憶部112にキーワードテーブルおよび条件抽出テーブルが既に作成されている場合は、上述の処理を省略することができる。また、ユーザは、PC2を操作して、LAN4経由でキーワードテーブルおよび抽出条件テーブルを作成することができる。
【0035】
次に、ユーザがスキャナ部14のオートドキュメントフィーダ(図示省略)に紙文書をセットし、本体操作部を介してセットした紙文書の文書登録を制御部11に指示する。スキャナ部14は、文書登録の指示に基づいて、紙文書を読み取って文書画像データを作成する。OCR処理部111は、スキャナ部14が作成した文書画像データに対してOCR処理を実行し、テキストデータを作成する。図4に、OCR処理部111が作成したテキストデータの一例を示す。
【0036】
次に、属性データ抽出部113が、キーワードテーブルおよび抽出条件テーブルを用いて、OCR処理部111が作成したテキストデータから属性データを抽出する。
【0037】
ここで、図2〜図4を用いて、属性データを抽出する処理について詳しく説明する。属性データ抽出部113は、キーワードテーブルに登録された属性名ごとに、テキストデータに対するキーワード検索を実行する。このとき、属性名に対応する全てのキーワードを用いて、キーワード検索が行われる。属性データ抽出部113は、テキストデータからキーワードを検出した場合、キーワードの検出位置と抽出条件テーブルとに基づいてテキストデータから属性データを抽出する。
【0038】
たとえば、属性データ抽出部113は、図4に示すテキストデータ5に対して属性名「名前」に対応するキーワード検索を行った場合、キーワード「様」を検出する。図3に示すように、キーワード「様」の抽出条件は、抽出方向が前方であり、キーワードが属性データに含まれないことがわかる。このため、属性データ抽出部113は、領域52の文字列「山田 太郎」を属性データとして抽出する。
【0039】
また、属性データ抽出部113は、テキストデータ5に対して属性名「日付」に対応するキーワード検索を行った場合、キーワード「平成」を検出する。図3に示すように、キーワード「平成」の抽出条件は、抽出方向が後方であり、キーワードが属性データに含まれることがわかる。このため、属性データ抽出部113は、領域53の文字列「平成19年6月15日」を属性データとして抽出する。
【0040】
このように、属性データ抽出部113は、キーワードテーブルに登録された属性名ごとに上述の処理を行うことによって、各属性名に対応する属性データを抽出する。なお、図4において、領域51〜56で示す文字列は、図2に示すキーワードテーブルおよび図3に示す抽出条件テーブルに基づいて、属性データとして抽出される文字列を示す。
【0041】
図5は、属性名と、属性データ抽出部113が抽出した属性データとの対応関係の一例を示す図である。図5に示す属性データは、図4に示すテキストデータ5から抽出したものである。図5に示すように、属性データ抽出部113は、属性名「住所」に対応するキーワードを抽出していない。これは、属性データ抽出部113が属性名「住所」に対応するいずれのキーワードについても、テキストデータ5から検出できなかったためである。
【0042】
なお、OCR処理部111が作成したテキストデータに、属性データとして抽出できる複数の文字列が存在する場合がある。たとえば、テキストデータ5において、領域51に示す文字列「XYZ株式会社」と、領域54に示す文字列「ABC株式会社」とが、属性名「会社」に対応する属性データとしてテキストデータ5から抽出可能な文字列に該当する。
【0043】
このような場合、属性データ抽出部113は、テキストデータの先頭に近い場所に位置する文字列(領域51に示す文字列「XYZ株式会社」)を属性データとして抽出すればよい。あるいは、2番目に出現する文字列を属性データとして抽出する設定にしてもよい。また、属性データ抽出部113は、属性データとして抽出できる複数の文字列が存在する場合、それぞれの文字列を属性データとして抽出してもよい。
【0044】
属性データが抽出された後、属性データ抽出部113は、属性名と、抽出した属性データとを対応付けたインデックスデータを作成する。このとき、属性データ抽出部113は、文書画像データとインデックスデータとを対応付ける。たとえば、文書画像データのファイル名を「文書データ1.tiff」とし、インデックスデータのファイル名を「文書データ1.xml」とすればよい。このように、ファイル名における拡張子以外の文字列を一致させることによって、文書画像データとインデックスデータとを対応付けることができる。そして、属性データ抽出部113は、画像データとインデックスデータとを共有フォルダ21に保存する。
【0045】
次に、ファイル管理サーバ3の動作について説明する。ファイル管理サーバ3の共有フォルダ監視部31は、共有フォルダ21を常時監視している。共有フォルダ監視部31は、文書画像データおよびインデックスデータが共有フォルダ21に保存されたことを検出した場合、ファイル管理DB32に新たな文書画像データが保存されたことを通知する。ファイル管理DB32は、共有フォルダ21に保存された文書画像データおよびインデックスデータを取得して、ハードディスク装置などで構成されたファイル記憶部33に保存する。このとき、共有フォルダ21に保存された文書画像データおよびインデックスデータは削除される。このようにして、スキャナ部14で読み込まれた紙文書が、図1に示す文書管理システムに登録される。
【0046】
以上説明したように、本実施の形態に係るネットワーク複合機1は、文書画像データに対してOCR処理を行うことによってテキストデータを作成し、キーワードテーブルおよび抽出条件テーブルを用いてテキストデータから属性データを抽出する。つまり、ネットワーク複合機1は、紙文書のフォーマットに依存することなく文書画像データからインデックスデータを作成することができる。したがって、ユーザが文書登録時にフォーマットの確認などをする必要がないため、ネットワーク複合機1は、文書登録時のユーザの作業を簡略化することができる。
【0047】
なお、本実施の形態において、文書画像データおよびインデックスデータをPC2の共有フォルダ21に保存する場合を例にして説明したが、これに限られない。たとえば、ネットワーク複合機1がハードディスク装置などで構成される記憶部を備えてもよい。この場合、属性データ抽出部113は、ネットワーク複合機1の記憶部に作成された共有フォルダに、文書画像データおよびインデックスデータを保存すればよい。
【0048】
また、本実施の形態において、属性データ抽出部113は、属性名に対応する属性データを抽出できなかった場合、属性データがないと判断する場合を例として説明したが、これに限られない。たとえば、属性データ抽出部113は、属性データを抽出できない属性名があることを示すメッセージをタッチパネル式ディスプレイ13などに表示してもよい。また、属性データ抽出部113は、タッチパネル式ディスプレイ13などを介して、属性データをユーザに入力させてもよい。これは、OCR処理の際に文字を正確に認識されなかったために、属性データとして抽出されるべき文字列がテキストデータに反映されなかった場合などに有効である。
【図面の簡単な説明】
【0049】
【図1】本発明の一実施の形態に係るネットワーク複合機の構成を含む文書管理システムの構成図である。
【図2】キーワード記憶部が保持するキーワードテーブルの一例を示す図である。
【図3】キーワード記憶部が保持する抽出条件テーブルの一例を示す図である。
【図4】OCR処理部が作成したテキストデータの一例を示す図である。
【図5】属性名と属性データの対応関係の一例を示す図である。
【符号の説明】
【0050】
1 ネットワーク複合機
11 制御部
12 操作部
13 タッチパネル式ディスプレイ
14 スキャナ部
21 共有フォルダ
111 OCR処理部
112 キーワード記憶部
113 属性データ抽出部

【特許請求の範囲】
【請求項1】
文書を読み取って画像データを形成するスキャナ部と、
前記画像データに対して文字認識処理を行い、テキストデータを取得する文字認識処理部と、
前記画像データのインデックスとして用いられるインデックスデータを作成するためのキーワードを、前記インデックスの属性名と対応付けて記憶するキーワード記憶部と、
前記属性名に対応する属性データを、前記キーワードに基づいて前記テキストデータから抽出し、前記属性名と抽出した前記属性データとを対応付けて前記インデックスデータを作成する属性データ抽出部と、
を備えることを特徴とする情報処理装置。
【請求項2】
請求項1に記載の情報処理装置において、
前記キーワード記憶部は、
前記テキストデータから前記属性データを抽出するための抽出条件データを、前記キーワードと対応付けて記憶する抽出条件データ記憶部、
を含み、
前記属性データ抽出部は、
前記キーワードと前記抽出条件データとに基づいて、前記テキストデータから前記属性データを抽出することを特徴とする情報処理装置。
【請求項3】
請求項1または請求項2に記載の情報処理装置において、
前記属性データ抽出部は、
前記テキストデータが前記属性データとして抽出できる複数の文字列を含む場合、前記複数の文字列のうち前記テキストデータの先頭側に位置する文字列を前記属性データとして抽出することを特徴とする情報処理装置。
【請求項4】
請求項1または請求項2に記載の情報処理装置において、
前記属性データ抽出部は、
前記テキストデータが前記属性データとして抽出できる複数の文字列を含む場合、各文字列を前記属性データとして抽出することを特徴とする情報処理装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate