説明

情報検索装置、情報検索システム、情報検索装置の制御方法、及び制御プログラムを提供する媒体

【課題】 文章の類似性を判断する際に、OCRの誤認識の影響を最小化するため、予め類似文字群に区分しておき、各OCRエンジン特性に最適化されたOCRされた各文字を各文字群の代表文字にマッピングし、それに基づいて一致を判定するので、各OCRエンジン特性に基づく誤認識に対して耐性の高い類似性判定が可能であり、よりロバストな検索を実現できるので、ともに検索ノイズを減少でき、操作性の高い文字処理装置を提供する。
【解決手段】 情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、文書画像入力手段と、文字認識手段と、文字認識の確信度から正規化レベルを決定する手段と、前記正規化レベルに基づき代表文字に置き換える正規化手段と、前記情報保持手段中から類似したテキストを含む情報を検索する検索手段と、前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする情報検索装置。

【発明の詳細な説明】
【技術分野】
【0001】
文字列を含む複数の情報から所定の情報を検索する情報検索装置等に関し、特に、複数の正規化手段が存在する情報検索装置等に関する。
【背景技術】
【0002】
近年複写機は、単に紙をコピーする機能だけでなく、多機能化が進み、例えば、PCに接続してプリンタとして使用する機能、スキャンした原稿をFAX転送するFAX機能、メール転送するSEND機能なども提供されている。ドキュメントのデジタル化に伴って、文書管理と連携したドキュメント・ソリューションを実現するポータルとして位置付けられている。
【0003】
コンピュータ(PC)の普及に伴い、文書の作成は、文書作成ソフトなどのPC上のアプリケーションソフトを用いて行われるのが一般的となり、PC上で各種書類等を作成、編集、複写、検索等をすることが広く行われている。また、ネットワークの発展と普及に伴い、このようにPC上で作成された電子的な文書データ(電子文書データ)が、プリンタ等を用いて紙の方の文書(紙文書)として出力されずに、他のPC等からアクセスされ、電子メール等で送信・配布される、ということも行われるようになり、ペーパーレスの文書作成環境が進みつつある。
【0004】
このような電子文書データは、文書管理システムを構築してコンピュータによって体系的に管理されるようになってきたこともあり、共通化による情報量削減、文書間関連付けによるアクセスの容易性、多人数による情報の共有などにおいて極めて効果の高いものである。
【0005】
一方、紙文書にも、電子文書データと比較して、読みやすさ、扱いやすさ、持ち運びの利便性、直感的分かり易さ等において大きな利点がある。そのため、電子文書データを作成しても、プリンタ装置等を用いて紙文書に出力して利用するほうが効率的な場合も依然として多い。そこで紙文書と電子文書は、互いに補完的関係を築き、両者が併用されて流通しているのが現状である。
【0006】
紙文書は参照に関しては極めて便利なので、様々な局面で配布されるが、単に参照するだけでなく、その文書を再編集/再利用したいと思う場合も多い。従来は、このような場合、別途人手を介して電子ファイルを入手し編集するということが行われており、文書の再利用性を阻害する原因となっていた。
【0007】
例えば、記録用紙に記録されている文書をスキャナで読取ってデジタル化して文字認識し、更にユーザが文字認識された文字列から特徴的な文字列を検索範囲として指定し、内容および位置関係が一致する文書を検索するというものがある(例えば[特許文献1]参照)。この提案では、スキャンされ文字認識された文書からユーザが文字列を指定しなければならず、検索範囲の指定というわずらわしさが残るという欠点がある。もちろん、検索範囲として文書全体を指定することもできるが、その場合は文書全体の文字列とのマッチングを行うことになってしまう。文字認識にある程度の誤認識があることを考慮するとそのマッチングはあいまいマッチングとなり、比較の際には相当な処理負担がかかり、現実的応答時間が期待できない。紙文書から文字認識されたテキストをクエリとして検索するには、現実的応答性能を得るために、単純なマッチング処理では解決できない、もう一段の工夫が求められる。
【0008】
このような文字認識の誤認識のあいまい性を許容するためには、予め誤認識の余地が相当少なくなるレベルにまで、類似した文字をグループ化しておき、文字認識としては認識した文字がどのグループに属するかまでを出力し、その出力されたグループコードに基づいてマッチング処理するようにすればよい。
【0009】
このような類似文字グループへの認識としては、従来からスピードアップのための文字認識の内部処理として提案されており、例えば、文字認識の内部処理として類似する文字群の代表文字の認識方法が述べられている(例えば[特許文献2]参照)が、これは内部処理として行われており、次の段階で個々の文字への認識処理が行われており、最終的な文字認識処理としては、代表文字ではない個々の文字である。
【0010】
また、複数の文字認識エンジン(手書き用、活字用、A社製、B社製)が存在する場合、文字認識エンジンそれぞれに、誤認識する傾向(特性)が異なってするため、それらを網羅的に類似文字を代表文字に置き換えた場合、検索時にノイズの多い検索結果となってしまう。
【0011】
また同様に、キーボード入力された文書の類似文字を代表文字に置き換えると検索時にノイズの多い検索結果となってしまう。
【特許文献1】特開平3−263512号公報
【特許文献2】特開平08−180138号公報
【特許文献3】特開平10−260983号公報
【発明の開示】
【発明が解決しようとする課題】
【0012】
本発明は、上記述べた課題を解決しようというものである。
【0013】
すなわち、文字認識された文書とそうでない文書または異なった文字認識エンジンで文字認識された文書を現実的応答時間内で検索漏れの少なくかつノイズの少ないつまり精度の高い検索を実現する解決手段を提供しようというものである。
【課題を解決するための手段】
【0014】
上記目的を達成するために、請求項1記載の発明に係る情報検索装置では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、文書画像入力手段と、文字認識手段と、文字認識の確信度から正規化レベルを決定する手段と、前記正規化レベルに基づき代表文字に置き換える正規化手段と、前記情報保持手段中から類似したテキストを含む情報を検索する検索手段と、前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする。
【0015】
または、請求項2記載の発明に係る情報検索装置では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、複数のOCRエンジンで入力された文字列を取得する文字列取得手段と、誤入力しやすい文字と置き換えられる代表文字を対応付けた正規化テーブルを用いて代表文字に置き換える正規化手段と、各OCRエンジンごとに最適化された前記正規化テーブルを切り替える正規化テーブル切換手段と、前記情報保持手段中から類似した文字列を含む情報を検索する検索手段と、前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする。
【0016】
または、請求項3記載の発明に係る情報検索装置では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、スキャナ入力によるOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える文字認識用正規化手段と、キーボード入力の結果であれば、正規化を行わない正規化スキップ手段と、前記情報保持手段中から類似したテキストを含む情報を検索する検索手段と、前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする。
【0017】
または、請求項4記載の発明に係る情報検索装置では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、活字OCRの結果であれば、誤認識しやすい文字を代表文字に置き換える活字文字認識用正規化手段と、手書きOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える手書き文字認識用正規化手段と、前記情報保持手段中から類似したテキストを含む情報を検索する検索手段と、前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする。
【0018】
または、請求項5記載の発明に係る情報検索装置の制御方法では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、文書画像入力行程と、文字認識行程と、文字認識の確信度から正規化レベルを決定する行程と、前記正規化レベルに基づき代表文字に置き換える正規化行程と、前記情報保持手段中から類似したテキストを含む情報を検索する検索行程と、前記検索結果を出力する検索結果出力行程とを備えたことを特徴とする。
【0019】
または、請求項6記載の発明に係る情報検索装置の制御方法では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、複数のOCRエンジンで入力された文字列を取得する文字列取得行程と、誤入力しやすい文字と置き換えられる代表文字を対応付けた正規化テーブルを用いて代表文字に置き換える正規化行程と、各OCRエンジンごとに最適化された前記正規化テーブルを切り替える正規化テーブル切換行程と、前記情報保持手段中から類似した文字列を含む情報を検索する検索行程と、前記検索結果を出力する検索結果出力行程とを備えたことを特徴とする。
【0020】
または、請求項7記載の発明に係る情報検索装置の制御方法では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、スキャナ入力によるOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える文字認識用正規化行程と、キーボード入力の結果であれば、正規化を行わない正規化スキップ行程と、前記情報保持手段中から類似したテキストを含む情報を検索する検索行程と、前記検索結果を出力する検索結果出力行程とを備えたことを特徴とする。
【0021】
または、請求項8記載の発明に係る情報検索装置の制御方法では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、活字OCRの結果であれば、誤認識しやすい文字を代表文字に置き換える活字文字認識用正規化行程と、手書きOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える手書き文字認識用正規化行程と、前記情報保持手段中から類似したテキストを含む情報を検索する検索行程と、前記検索結果を出力する検索結果出力行程とを備えたことを特徴とする。
【0022】
または、請求項9記載の発明に係る制御プログラムを提供する媒体では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムを提供する媒体であって、前記制御プログラムは、文書画像入力ステップと、文字認識ステップと、文字認識の確信度から正規化レベルを決定するステップと、前記正規化レベルに基づき代表文字に置き換える正規化ステップと、前記情報保持手段中から類似したテキストを含む情報を検索する検索ステップと、前記検索結果を出力する検索結果出力ステップとを備えたことを特徴とする。
【0023】
または、請求項10記載の発明に係る制御プログラムを提供する媒体では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムを提供する媒体であって、前記制御プログラムは、複数のOCRエンジンで入力された文字列を取得する文字列取得ステップと、誤入力しやすい文字と置き換えられる代表文字を対応付けた正規化テーブルを用いて代表文字に置き換える正規化ステップと、各OCRエンジンごとに最適化された前記正規化テーブルを切り替える正規化テーブル切換ステップと、前記情報保持手段中から類似した文字列を含む情報を検索する検索ステップと、前記検索結果を出力する検索結果出力ステップとを備えたことを特徴とする。
【0024】
または、請求項11記載の発明に係る制御プログラムを提供する媒体では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムを提供する媒体であって、前記制御プログラムは、スキャナ入力によるOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える文字認識用正規化ステップと、キーボード入力の結果であれば、正規化を行わない正規化スキップステップと、前記情報保持手段中から類似したテキストを含む情報を検索する検索ステップと、前記検索結果を出力する検索結果出力ステップとを備えたことを特徴とする。
【0025】
または、請求項12記載の発明に係る制御プログラムを提供する媒体では、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムを提供する媒体であって、前記制御プログラムは、活字OCRの結果であれば、誤認識しやすい文字を代表文字に置き換える活字文字認識用正規化ステップと、手書きOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える手書き文字認識用正規化ステップと、前記情報保持手段中から類似したテキストを含む情報を検索する検索ステップと、前記検索結果を出力する検索結果出力ステップとを備えたことを特徴とする。
【発明の効果】
【0026】
以上の説明から明らかなように、本発明によれば、文章の類似性を判断する際に、OCRの誤認識の影響を最小化するため、予め類似文字群に区分しておき、各OCRエンジン特性に最適化されたOCRされた各文字を各文字群の代表文字にマッピングし、それに基づいて一致を判定するので、各OCRエンジン特性に基づく誤認識に対して耐性の高い類似性判定が可能であり、よりロバストな検索を実現できるので、ともに検索ノイズを減少でき、操作性の高い文字処理装置を提供できる。
【発明を実施するための最良の形態】
【0027】
以下、図面を参照して本発明の実施の形態を説明する。
【0028】
<第1実施形態>
図1は、本発明の第1実施形態に係る情報検索装置の構成を示すブロック図である。
【0029】
この情報検索装置は、プログラムに従って処理を実行する中央処理装置1と、検索対象となる文書やアノテーション付き画像等のほか、プログラムやテーブルの納まっているデータベース等の記憶装置2と、処理を操作するキーボードやマウス等の入力装置3と、検索結果を表示する表示装置4と、FD(フレキシブルディスク)、CD−ROM、ROM及び磁気テープ等の記録媒体に記憶されたプログラムやデータ等を記憶装置2に読み取る記憶媒体読取装置5と、画像をスキャンし、画像を取得するスキャナー等の画像読取装置6とで構成されている。
【0030】
図17は本発明における操作の流れの例を示した図である。本発明装置は、文書管理索引中に検索のための索引、セキュリティ管理のための情報を予め格納しておく。紙文書のコピー、あるいはFAX、あるいはSENDが指示されると文書をスキャンしスキャンイメージを得る。スキャンイメージに基づいて文書管理索引を検索することにより元文書が求められ、文書IDと文書操作可否等の文書管理情報を取得する。文書操作可否に応じて操作許可であれば、スキャンイメージをそのまま出力する等の通常の印刷(コピー)処理、あるいはFAX、あるいはSENDが行われる。文書操作不可の場合は、コピー、FAX、SEND等の文書操作動作が抑制され、同時に、文書操作抑制の解除をセキュリティ管理者等に依頼する場合に備えて、元文書の文書IDが表示される。
【0031】
図4は本発明において行われるブロック解析の例を説明した図である。4−1はスキャンイメージであり、紙文書がスキャナによって読み取られデジタル化された文書イメージである。ブロック解析は、この文書イメージに対してブロックの性質に応じた矩形ブロックに分割する処理である。図の場合、ブロック解析の結果、3つのブロックに分割されている。1つのブロック(4−2)は、内部に文章(テキスト)が含まれるためテキストブロックとなり、残りの2つのブロック(4−3、4−4)は、テキスト以外の情報(グラフ、写真など)が含まれるため画像ブロックとなる。テキストブロックに対しては、文字認識がかけられテキストが抽出されるが、画像ブロックからはテキスト情報は抽出されない。
【0032】
図5はテキストブロックから抽出されるOCRテキスト情報、及び抽出されるテキスト特徴を説明したものである。スキャナ画像のテキストブロックに対して文字認識処理がかけられ、OCRテキスト情報としてテキストデータが抽出される。文字認識処理であるため100%正確な認識が行われるとは限らず、一定の誤認識データが含まれることになる。図中“F-90”となるべき文字列は“Fー90”、“BZシリーズ”となるべき文字列は“8Zシリーズ”、“超写真画質”となるべき文字列は“超写真直質”となってしまっている。このような誤認識文字はマッチングが取れないことになる。もちろん、OCRの改良により誤認識が発生しないようにできるだけ正確に認識すべきであるが、“-”(マイナス)と“ー”(長音記号)のように認識し分けることに無理があるものも多い。誤認識があるとマッチングがとれなくなるので、本発明においてはできるだけ誤認識とならないように、“B”と“8”、“画”と“直”のような誤認識しやすい文字は予めグループ化しておき、そのグループの代表としての文字コードが出力される。これは、スキャナ用代表文字テーブルを用いて変換する。
【0033】
なお、このように類似文字群をグループ化しておいたとしてもやはり誤認識は発生するが、より少数に押さえ込めるので、全体としては類似した文章の検出率が向上する。
【0034】
またこれを文字認識の確信度の平均に基づき高確信度用代表文字テーブルと低確信度用代表文字テーブルを用意し、高確信度の場合は、誤認識が確率が少ないため代表文字に置き換えるパターンを少なく、低確信どの場合は、誤認識の確率が高いため、代表文字に置き換えるパターンを増やし、インデキシングを行う。これにより文書の検出率を高めるとともに、検索ノイズを抑えることが可能となる。
【0035】
図6は元文書を検索しセキュリティ情報を取得するための文書管理索引の構成を示した図である。文書管理索引には「文書ID」「レイアウト特徴量」「文章内容特徴量」「画像内容特徴量」「文書制御情報」が格納される。「文書ID」には、その文書をユニークに特定できる識別情報である。
【0036】
「画像内容特徴量」は各画像ブロックの類似性を計るためのインデックス情報である。例えば、各ブロックを印刷した場合のビットマップイメージを縦n個、横m個の矩形に分割し、各矩形の平均の輝度情報と色情報を記憶した画像特徴量などが考えられる。類似検索を行うための画像特徴量の例については、例えば、特許文献3においても提案されている。
【0037】
1つの文書に複数の画像ブロックが存在する場合は、各画像ブロックごとに画像内容特徴量が抽出され、処理される。
【0038】
画像内容の類似性を求める際は、クエリの各画像ブロックの画像内容特徴量に対して、ブロックごとにここに記憶される各文書の画像内容特徴量が比較され、各一致率が調整されて1つの画像内容類似度が計算される。
【0039】
「レイアウト特徴量」は、レイアウトに基づく類似検索を行うためのインデックス情報である。レイアウト全体としての類似性を判定するための情報であり、例えば、1ページ全体を1つの画像としてみた場合の画像特徴量とすることもできる。別の例としては各テキスト、画像ブロックの位置(座標)及びブロックの大きさ(面積、文字数など)に基づく量が考えられる。電子文書のレイアウト特徴量は、PC等からの印刷時に作成されるラスタイメージ、あるいはコピー・FAX・SEND時のスキャンされデジタル化されたスキャンイメージをベースに加工して作成される。
【0040】
レイアウト類似性を求める際は、クエリのレイアウト特徴量に対して、ここに記憶される各文書のレイアウト特徴量が比較され、レイアウト類似度が計算される。
【0041】
「文章内容特徴量」「文書制御情報」については図7、図8において詳述する。
【0042】
図7は文章内容特徴量の構成を示した図である。文章内容特徴量は、文章内容の類似性に基づく類似検索を行うためのインデックス情報である。文書IDで識別される各文書に対応して、文章内容に応じた文書ベクトルが記憶される。ここでは、文書ベクトルの次元を文字とし、文書ベクトルの各次元の値をその文字の出現度数とする。ただし、1つ文字を正確に1次元とせず、予め形態的に類似した文字はグループ化されており、この類似文字グループを1つの次元として文書ベクトルを構成する。例えば図では、次元2に対して“8”、“B”の2つの文字が対応している。各文字に対してその文書に含まれる出現度数が記憶される。
【0043】
1つの文書に複数のテキストブロックが存在する場合は、複数のテキストブロックから抽出されるテキスト特徴データがすべてのテキストブロックについてまとめて集計され、1つの文書ベクトルが作成される。
【0044】
元文書の検索を行う際には、検索クエリとなるスキャンされた文書からも、ここに格納される文書ベクトルと同じ形式のベクトルデータ(クエリベクトル)が作成され、各文書の文書ベクトルに対して1件ずつ文章内容類似度が計算されるのである。
【0045】
図9は文字重要度テーブルである。文章内容の類似性を判定する上での、各文字の重要度を示すテーブルである。このテーブルにおいては、全文書に対して各文字の出現する度数を記憶する。
【0046】
各文字の重要度は、この度数の逆数で算出される。ただし、度数が0の場合は文字の重要度は0とする。これはどの文書にも出現しない文字は類似性判定には役に立たないことからである。重要度が度数の逆数をとる理由は、多くの文書に出現するようなありふれた文字は文章内容の類似性を判定する上では相対的に重要性が低いからである。
【0047】
図10は本発明における文書の類似性判定を行う際の類似度算出の式を示した図である。
【0048】
文章内容類似度は、比較する2つの文書について、すべての文字(k=1からk=nまで)の出現度数の差の絶対値にその文字の重要度を乗じたものを積算し、そのマイナスの値で表現する。マイナスにするので、出現度数の差が小さいほど文章内容類似度の値が大きくなり、文章内容類似度の値が大きいほど類似性が高いと判定できる。なお、レイアウト類似度についても、同様に類似度の値が大きいほど類似性が高いように設定される。
【0049】
総合類似度は基本的にはレイアウト類似度と文章内容類似度と画像内容類似度を加算したものであるが、それぞれの類似度算出の重要性に応じて、重みα、β、γが乗じて加算される。αはレイアウト情報に対する重み、βは文章内容情報に対する重み、γは画像内容情報に対する重みである。α、β、γの値は可変であり、セキュリティ管理の視点に応じて変更可能である。レイアウトや画像に機密性がなく、文章内容のみチェックすればよいのであれば、レイアウト類似度、画像内容類似度の重みα、γの値を小さくする。例えば、レイアウトを一切無視するのであれば、α=0にすればよい。他方、紙幣・有価証券のようにレイアウトについても一定のセキュリティ上の考慮を払い、文章内容と等しく重視したいのであれば、α=1、β=1、γ=1などと設定する。
【0050】
上述の動作をフローチャートに従って説明する。
【0051】
図11は本発明文字処理装置の動作、より具体的な処理手順を示すフローチャートである。ステップS11-1はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップS11-2はタッチパネル等の入力装置、あるいは直接接続・ネットワーク接続されている機器・デバイスからのリクエストなど、何らかのイベントが発生するのを待つ処理である。イベントが発生すると、ステップS11-3においてこのイベントを判別し、イベントの種類に応じて各種の処理に分岐する。各種イベントに対応した分岐先の複数の処理をステップS11-4という形でまとめて表現している。図12の文書登録処理、図14の文書管理情報設定処理、図15の文書操作処理(コピー処理、FAX処理、SEND処理)がこの分岐先の一部となる。他の処理としては、詳細は記述されないが、コピー枚数を設定する処理、FAXやSEND先を指定する処理など通常の複写機の処理がある。ステップS11-5は上記の各処理の処理終了を表示する表示処理である。エラーがあった場合のエラー表示、正常終了の場合の表示処理など通常広く行われる処理である。
【0052】
図12はステップS11-4の一部である文書登録処理を詳細化したフローチャートである。新規文書を登録する際に実行される。新規文書の登録は通常の文書操作処理と同時に行われる。ステップ12-1において通常の文書操作処理、例えば、印刷、コピー、FAX、SENDなどの処理が行われる。この文書操作処理の過程において、コピー・FAX・SENDであればスキャンによって、印刷であればラスタイメージの作成によって、文書のビットマップイメージが取得される。ステップS12-2において、図13に詳述されるように前記取得されたビットマップイメージがブロック解析等され、レイアウト特徴、文章内容特徴、画像内容特徴等の文書特徴量が抽出される。ステップS12-3において、前記取得された文書特徴量が文書特徴量情報に登録される。ステップS12-4において、前記登録された文書内容特徴量を反映して文字重要度テーブルが更新される。
【0053】
図13はステップS12-2の文書解析処理を詳細化したフローチャートである。ステップS13-1において、ビットマップイメージをブロック解析し、テキストブロック、画像ブロック等に分離する。ステップS13-2においてテキストブロック中の文字に対して文字認識処理を行い、OCRテキスト情報を抽出する。ステップ13-3において、該抽出されたOCRテキスト情報の各文字に対して予め定められた類似文字グループの代表文字に変換される。ステップS16-3において、ブロック解析されたブロック構造から各ブロックの座標、大きさ(画像ブロックであれば面積、テキストブロックであれば文字数)などのレイアウト特徴が抽出される。ステップS13-5において、代表文字に変換されたテキスト情報から文字の統計データを抽出し、文章内容特徴量である文書ベクトルを生成する。ステップS13-6において、各画像ブロックに対して画像内容特徴量を抽出する。
【0054】
図14はステップS11-4の一部である文書管理情報設定処理を詳細化したフローチャートである。まず、ステップS14-1において、画面3-5に示す如く、セキュリティ管理者のログイン名・パスワード(ユーザ認証に使用)、及び各文書に設定すべきセキュリティ情報を、ユーザに入力させ、設定ボタンを指示させる。ステップ14-2において入力されたログイン名・パスワードに基づいてユーザ認証が行われる。ステップ14-3において、ユーザ認証が成功したか、すなわち、ユーザ認証によりセキュリティ情報が変更できる権限が認められたかどうかが判定され、ユーザ認証に失敗すれば、情報が変更されずリターンする。ユーザ認証に成功すれば、ステップ14-4において、入力された情報に従って文書のセキュリティ情報が文書管理索引に反映される。
【0055】
図15はステップS11-4の一部である文書操作処理を詳細化したフローチャートである。文書操作にはコピー、FAX、SENDなどの処理がある。まず、ステップS15-1において、現在ログインしているユーザのユーザIDを一時変数の参照により取得する。ステップS15-2において、対象となる文書操作の操作ID(コピー、FAX、SENDなど)を取得する。ステップS15-3において紙文書をスキャナで読み取り、ビットマップイメージ化する。ステップS15-4において、図13に詳述した文書解析処理を行い、ビットマップイメージをブロック解析して文書特徴量(レイアウト特徴量、文章内容特徴量、画像内容特徴量)を抽出する。ステップS18-5において、図16に詳述するように、文書操作制御処理を行い、各権限に従って文書操作を行う。
【0056】
図16はステップS15-5を詳細化した文書操作制御処理である。ステップS16-1において、抽出された特徴量に対して文書管理索引をサーチし、図10に示すようにレイアウト類似度、文章内容類似度、画像内容類似度から総合類似度を算出する。ステップS16-2において、総合類似度に従ってランキングし、元文書の文書IDを決定する。ステップS16-3において、元文書のセキュリティ情報を文書管理索引から抽出する。ステップS16-4において、セキュリティ情報に従って該当文書操作が抑制対象であるかどうかを判定し、特に抑制すべき操作でない場合はステップS16-5に分岐し、通常の文書操作処理を実行しリターンする。分析の結果、抑制対象である場合は、ステップS16-6に分岐し、文書操作を抑制すると共に、決定された元文書の文書ID情報を含むエラーメッセージを表示し、リターンする。
【0057】
<実施形態2>
図1は、本発明の第2実施形態に係る情報検索装置の構成を示すブロック図である。第1実施形態に係る情報検索装置の構成と同様である。
【0058】
図20はテキストブロックから抽出されるOCRテキスト情報、及び抽出されるテキスト特徴を説明したものである。
【0059】
スキャナ画像のテキストブロックに対して文字認識処理がかけられ、OCRテキスト情報としてテキストデータが抽出される。文字認識処理であるため100%正確な認識が行われるとは限らず、一定の誤認識データが含まれることになる。図中“F-90”となるべき文字列は“Fー90”、“BZシリーズ”となるべき文字列は“8Zシリーズ”、“超写真画質”となるべき文字列は“超写真直質”となってしまっている。このような誤認識文字はマッチングが取れないことになる。もちろん、OCRの改良により誤認識が発生しないようにできるだけ正確に認識すべきであるが、“-”(マイナス)と“ー”(長音記号)のように認識し分けることに無理があるものも多い。誤認識があるとマッチングがとれなくなるので、本発明においてはできるだけ誤認識とならないように、“B”と“8”、“画”と“直”のような誤認識しやすい文字は予めグループ化しておき、そのグループの代表としての文字コードが出力される。これは、スキャナ用代表文字テーブルを用いて変換する。
【0060】
なお、このように類似文字群をグループ化しておいたとしてもやはり誤認識は発生するが、より少数に押さえ込めるので、全体としては類似した文章の検出率が向上する。
【0061】
また文字認識のエンジンの特性に基づき活字OCR用代表文字テーブルと手書きOCR用代表文字テーブルを用意し、代表文字に置き換えインデキシングを行う。これにより文書の検出率を高めるとともに、検索ノイズを抑えることが可能となる。
【0062】
また、図23も同様に文字認識のエンジンの特性に基づきA社OCRエンジン用代表文字テーブルとB社OCR用代表文字テーブルを用意し、代表文字に置き換えインデキシングを行う。これにより文書の検出率を高めるとともに、検索ノイズを抑えることが可能となる。
【0063】
また図24も同様にキーボード入力の場合は、OCR、代表文字に変換を行わないで、インデキシングを行う。これによりOCR文書の検出率を高めるとともに、OCRなしの場合検索ノイズを抑えることが可能となる。
【0064】
図18、図19は図20と図24の例を組み合わせた例での本発明情報処理装置の動作のより具体的な処理手順を示すフローチャートである。
【0065】
図18は情報処理装置の登録フローチャートである。
【0066】
まず、ステップ1801ではテキストはOCR結果であるか否かの判定を行う。次にステップ1801でOCRの結果ではなくキーボード入力の場合、ステップ1803でテキストをそのまま代表文字変換なし用テキストDBに登録する。ステップ1801でテキストがOCRの結果である場合、ステップ1802でOCRの結果が高確信度であるか否かを判定する。高確信度である場合、ステップ1804で高確信度用代表文字テーブルで代表文字に変換する。次にステップ1805ではステップ1804で変換されたテキストを高確信度用テキストDBに登録する。ステップ1802で低確信度の場合、ステップ1806で低確信度用代表文字テーブルで代表文字に変換する。次にステップ1806では、ステップ1805で変換されたテキストを低確信度用テキストDBに登録する。
【0067】
図19は情報処理装置の検索フローチャートである。まず、ステップ1901では図21のような入力画面から検索クエリーを取得する。次にステップ1902では、代表文字変換なしDBを検索する。次にステップ1903では、ステップ1901で取得したクエリーを高確信度用代表文字テーブルで代表文字に変換する。次にステップ1904でステップ1903で変換したクエリーで高確信度用DBを検索する。次にステップ1905ではステップ1801で取得した検索クエリーを低確信度用代表文字テーブルで代表文字に変換する。次にステップ1806では、ステップ1805で変換されたクエリーで低確信度用テキストDBを検索する。次にステップ1902とステップ1904とステップ1906で検索された結果をマージやソートを行い図22のような検索結果を表示装置に表示する。または記憶装置に出力する。
【0068】
<実施形態3>
なお、本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。上述の実施形態においては、類似文字グループの代表文字を求める際に、まず、通常の文字認識を行ってから、テーブルを参照するなどして代表文字を求めているが、文字認識処理において、いきなり、代表文字を求め、出力するように構成することもできる。この場合、本来の目的の文字認識とは異なる別種の文字認識処理をこの原本検索の機構に組み入れることになる。このようにすることで、文字認識処理の処理時間負荷の軽減にもつながり、全体的な処理速度の向上というメリットが得られることになる。
【0069】
また、類似文字グループの代表文字は通常の文字コードであるとしているが、文字コードとはせず、文字グループを表現する特別なコード体系にマッピングすることもできる。このようにすることでコードセットのサイズが小さくなり、コードを表現するビット数がより少なくて済み、必要なメモリサイズを少なくすることができ、よりコンパクトな装置を実現することができる。
【0070】
上記以外にも、本発明の趣旨を逸脱しない限りにおいて、構成を適宜変更することが可能である。
【0071】
また、本発明は、上述した実施形態の装置に限定されず、図2、図3のような複数の機器から構成されるシステムに適用しても、1つの機器から成る装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。
【0072】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0073】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPUなどが処理を行って実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【図面の簡単な説明】
【0074】
【図1】本発明の第1実施形態に係る情報検索装置の構成を示すブロック図である。
【図2】情報検索装置の適用構成を示すブロック図である。
【図3】情報検索装置のインターネットでの適用を示すブロック図である。
【図4】ブロック解析の例を示した図である。
【図5】OCRテキストからのテキスト特徴抽出の例を示した図である。
【図6】本実施例の文字処理装置における文書管理索引の構成を示した図である。
【図7】本実施例の文字処理装置における文章内容特徴量の構成を示した図である。
【図8】本実施例の文字処理装置における文書制御情報の構成を示した図である。
【図9】本実施例の文字処理装置における文字重要度テーブルの構成を示した図である。
【図10】本実施例の文字処理装置における類似度の算出方法を示した図である。
【図11】本実施例の文字処理装置全体の処理手順の一例を示すフローチャートである。
【図12】文書登録処理の処理手順の一例を示すフローチャートである。
【図13】文書解析処理の処理手順の一例を示すフローチャートである。
【図14】文書管理情報設定処理の処理手順の一例を示すフローチャートである。
【図15】文書操作処理の処理手順の一例を示すフローチャートである。
【図16】文書操作制御処理の処理手順の一例を示すフローチャートである。
【図17】本実施例の文字処理装置における操作例を示した図である。
【図18】第2実施形態に係る情報登録手順を示すフローチャートである。
【図19】第2実施形態に係る情報検索手順を示すフローチャートである。
【図20】第2実施形態に係るOCRテキストからのテキスト特徴抽出の例を示した図である。
【図21】第2実施形態に係る情報検索の入力画面の例を示した図である。
【図22】第2実施形態に係る情報検索の検索結果画面の例を示した図である。
【図23】第2実施形態に係るOCRテキストからのテキスト特徴抽出の例を示した図である。
【図24】第2実施形態に係るOCRテキストからのテキスト特徴抽出の例を示した図である。
【符号の説明】
【0075】
1 中央処理装置
2 記憶装置
3 入力装置
4 表示装置
5 記憶媒体読取装置
6 画像読取装置

【特許請求の範囲】
【請求項1】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
文書画像入力手段と、
文字認識手段と、
文字認識の確信度から正規化レベルを決定する手段と、
前記正規化レベルに基づき代表文字に置き換える正規化手段と、
前記情報保持手段中から類似したテキストを含む情報を検索する検索手段と、
前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする情報検索装置。
【請求項2】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
複数のOCRエンジンで入力された文字列を取得する文字列取得手段と、
誤入力しやすい文字と置き換えられる代表文字を対応付けた正規化テーブルを用いて代表文字に置き換える正規化手段と、
各OCRエンジンごとに最適化された前記正規化テーブルを切り替える正規化テーブル切換手段と、
前記情報保持手段中から類似した文字列を含む情報を検索する検索手段と、
前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする情報検索装置。
【請求項3】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
スキャナ入力によるOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える文字認識用正規化手段と、
キーボード入力の結果であれば、正規化を行わない正規化スキップ手段と、
前記情報保持手段中から類似したテキストを含む情報を検索する検索手段と、
前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする情報検索装置。
【請求項4】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
活字OCRの結果であれば、誤認識しやすい文字を代表文字に置き換える活字文字認識用正規化手段と、
手書きOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える手書き文字認識用正規化手段と、
前記情報保持手段中から類似したテキストを含む情報を検索する検索手段と、
前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする情報検索装置。
【請求項5】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
文書画像入力行程と、
文字認識行程と、
文字認識の確信度から正規化レベルを決定する行程と、
前記正規化レベルに基づき代表文字に置き換える正規化行程と、
前記情報保持手段中から類似したテキストを含む情報を検索する検索行程と、
前記検索結果を出力する検索結果出力行程とを備えたことを特徴とする情報検索装置の制御方法。
【請求項6】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
複数のOCRエンジンで入力された文字列を取得する文字列取得行程と、
誤入力しやすい文字と置き換えられる代表文字を対応付けた正規化テーブルを用いて代表文字に置き換える正規化行程と、
各OCRエンジンごとに最適化された前記正規化テーブルを切り替える正規化テーブル切換行程と、
前記情報保持手段中から類似した文字列を含む情報を検索する検索行程と、
前記検索結果を出力する検索結果出力行程とを備えたことを特徴とする情報検索装置の制御方法。
【請求項7】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
スキャナ入力によるOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える文字認識用正規化行程と、
キーボード入力の結果であれば、正規化を行わない正規化スキップ行程と、
前記情報保持手段中から類似したテキストを含む情報を検索する検索行程と、
前記検索結果を出力する検索結果出力行程とを備えたことを特徴とする情報検索装置の制御方法。
【請求項8】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
活字OCRの結果であれば、誤認識しやすい文字を代表文字に置き換える活字文字認識用正規化行程と、
手書きOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える手書き文字認識用正規化行程と、
前記情報保持手段中から類似したテキストを含む情報を検索する検索行程と、
前記検索結果を出力する検索結果出力行程とを備えたことを特徴とする情報検索装置の制御方法。
【請求項9】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムを提供する媒体であって、
前記制御プログラムは、
文書画像入力ステップと、
文字認識ステップと、
文字認識の確信度から正規化レベルを決定するステップと、
前記正規化レベルに基づき代表文字に置き換える正規化ステップと、
前記情報保持手段中から類似したテキストを含む情報を検索する検索ステップと、
前記検索結果を出力する検索結果出力ステップとを備えたことを特徴とする制御プログラムを提供する媒体。
【請求項10】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムを提供する媒体であって、
前記制御プログラムは、
複数のOCRエンジンで入力された文字列を取得する文字列取得ステップと、
誤入力しやすい文字と置き換えられる代表文字を対応付けた正規化テーブルを用いて代表文字に置き換える正規化ステップと、
各OCRエンジンごとに最適化された前記正規化テーブルを切り替える正規化テーブル切換ステップと、
前記情報保持手段中から類似した文字列を含む情報を検索する検索ステップと、
前記検索結果を出力する検索結果出力ステップとを備えたことを特徴とする制御プログラムを提供する媒体。
【請求項11】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムを提供する媒体であって、
前記制御プログラムは、
スキャナ入力によるOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える文字認識用正規化ステップと、
キーボード入力の結果であれば、正規化を行わない正規化スキップステップと、
前記情報保持手段中から類似したテキストを含む情報を検索する検索ステップと、
前記検索結果を出力する検索結果出力ステップとを備えたことを特徴とする制御プログラムを提供する媒体。
【請求項12】
情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムを提供する媒体であって、
前記制御プログラムは、
活字OCRの結果であれば、誤認識しやすい文字を代表文字に置き換える活字文字認識用正規化ステップと、
手書きOCRの結果であれば、誤認識しやすい文字を代表文字に置き換える手書き文字認識用正規化ステップと、
前記情報保持手段中から類似したテキストを含む情報を検索する検索ステップと、
前記検索結果を出力する検索結果出力ステップとを備えたことを特徴とする制御プログラムを提供する媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2007−323415(P2007−323415A)
【公開日】平成19年12月13日(2007.12.13)
【国際特許分類】
【出願番号】特願2006−153582(P2006−153582)
【出願日】平成18年6月1日(2006.6.1)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】