文書画像検索装置および文書画像検索方法

【課題】属性の異なる各画像領域の論理的構造を解析することで、文書画像中の所望のオブジェクトを高速にかつ精度良く検索する。
【解決手段】領域識別部１０３は抽出された領域の属性（領域の位置、大きさ、形状など）を識別する。論理構造解析処理部１０４は領域の属性情報を基に文書の論理構造を解析し、オブジュクトを抽出し、類似度算出部１０８は、抽出された各オブジュクトと格納部１０７内の各オブジュクトとの類似度を求め、対象画像を検索する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書画像中のオブジェクトを検索する文書画像検索装置および文書画像検索方法に関する
。
【背景技術】
【０００２】
従来から、バインダー等で蓄積された紙文書や配布資料等をスキャナなどの読取装置で読み取り、読み取られた画像データとディスクに記憶された画像データとを比較し、両画像データの一致をみることにより、元の文書画像を検索する装置が提案されている（例えば、特許文献１を参照）。通常、文書画像を構成する紙面内容としてはテキストや、挿絵や図表、写真といった様々なものが含まれる。従来の検索手法の多くはこれらレイアウトされている全ての画像を一律に扱うため、文書画像の内容によっては検索効率が低下し、検索精度が悪化する。
【０００３】
そこで、文書画像中の各画像属性ごとに領域を切り分け、各領域における画像の一致度を総合的に判断する検索手法が提案されている（例えば、特許文献２を参照）。これは、テキスト、写真などの属性ごとの特徴量を基に、テキストの一致度、写真画の一致度、及びレイアウトの一致度といった複数の一致度を検索時に総合的に判断する手法であり、レイアウトの大きく異なる文書に対する検索精度が向上する。
【０００４】
【特許文献１】特許第３０１７８５１号公報
【特許文献２】特開２００４−３４８７０６号公報
【特許文献３】特開２０００−２５９１４２号公報
【特許文献４】特開２０００−１４８７８８号公報
【特許文献５】特開平１１−６６１９６号公報
【非特許文献１】布田寿康、大町真一郎、阿曽弘具；連結成分追跡による文書画像中の折線グラフの認識電子情報通信学会論文誌Ｄ−ＩＩｖｏｌ．Ｊ８６−ＩＩ、Ｎｏ．６、ｐｐ８２５〜８３５（２００３）
【非特許文献２】横倉直子、渡邉豊英；レイアウト構造知識を用いた棒グラフの認識情報処理学会誌ｖｏｌ．４０、Ｎｏ．７、ｐ２９５４〜２９６６（１９９９）
【発明の開示】
【発明が解決しようとする課題】
【０００５】
上記したように、文書画像を属性の異なる領域ごとに切り分ける場合、テキストデータについてＯＣＲ処理を施し、辞書との一致度を基に検索処理を行う場合が多い。しかしながら、文字のつぶれやかすれ等に起因するＯＣＲの文字識別誤りや、文字パターン境界の曖昧性に起因するＯＣＲの文字行抽出誤りが生じ、これに対処することが困難である。さらにＯＣＲの誤認識による後処理への悪影響を避けられず、検索精度が低下してしまう。また、オフィスで使用されるテキスト属性の多い文書を検索対象とする場合、上記のようなＯＣＲ処理による類似画像検索は処理負荷が重くなるという問題もある。
【０００６】
本発明は上記課題に鑑みてなされたものであり、
本発明の目的は、属性の異なる各画像領域の論理的構造を解析することで、文書画像中
の所望のオブジェクトを高速にかつ精度良く検索する文書画像検索装置および文書画像検索方法を提供することにある。
【課題を解決するための手段】
【０００７】
本発明は、文書画像に類似する画像データを検索するための文書画像検索装置であって、前記文書画像から関連するひとまとまりの領域を抽出する領域抽出手段と、前記領域抽出手段により抽出された領域の属性情報を取得する領域識別手段と、前記領域識別手段で取得した属性情報に基づき文書画像の論理構造を解析し、該解析結果に基づき前記領域をオブジェクトに分類する論理構造解析手段と、前記領域識別手段で取得した属性情報と前記論理構造解析結果とに基づき類似度を算出する類似度算出手段とを有することを最も主要な特徴とする。
【発明の効果】
【０００８】
本発明によれば、文書画像の論理的構造を解析することで、より高精度な画像検索が可能になる。例えば文字領域について、タイトル、サブタイトル、本文などの文章構成を理解する手段を有することで、文書データの中の特に重要な情報を特定し、検索対象の効率的な絞込みを行うことも可能になる。
【０００９】
請求項１；入力された文書画像に類似する文書画像データを、その論理構造を解析した上で意味的要素であるオブジェクトを抽出し、各オブジェクトの類似度を利用して検索を行う。そのため、文字画像が大半を占める文書画像データを検索する際、従来の手法では、ＯＣＲ読取の結果であるテキストファイルに対して検索を行っていたが、本発明のように論理構造情報から得られるオブジェクトの画像特徴量により類似度を測ることで、より高速に検索でき、かつ、ＯＣＲの誤認識による検索精度の低下が防止される。また、検索対象が図やグラフや写真など、属性の異なる要素の混在した画像であっても、同様に各領域の属性や論理構造を解析する検索手法を用いることで、様々な種類の文書画像データの検索処理を効率的に行うことができる。
【００１０】
請求項２；領域識別処理により“文字領域”または“図形領域”といった文書画像の各領域における属性情報を取得し、論理構造解析手段により体、章、節のタイトルや、ヘッダ・フッタ、図やグラフのキャプション等を識別する処理を行う。そのため特に、検索対象の文書画像群が属性の互いに似通ったデータである場合、従来手法のように画像としての特徴量や属性情報からは検索が困難と予想される場合でも、タイトルオブジェクトやキャプションオブジェクトといった論理構造情報を付加して検索を行うことで、検索対象を絞り込むことができる。
【００１１】
請求項３；類似度算出処理において特に、論理構造解析手段から得られる情報を基に文書全体の構成を考慮して検索時に類似度を算出するオブジェクトを選択する検索用オブジェクト選択手段を備えることを特徴とする。例えば、文字領域が大半を占めるような文書データに関してはタイトル、サブタイトルの類似度を計算し、また、図形領域が大半を占めるような文書データに関しては、図のキャプションの類似度を計算することで、ある程度の検索精度が保証される。この際、注目オブジェクトを限定すれば、それらの注目オブジェクトに対して文字認識、グラフ認識など処理負荷が比較的重い類似性判定処理を施しても全体としての検索処理は従来手法よりもその負荷は軽い。このように文書データの全体的構成を考慮した結果から注目するオブジェクトを決定することで検索処理が効率化され、また、その精度も向上する。
【００１２】
請求項４；論理構造解析処理によって得られるオブジェクトに対してその重要度を判定する処理を含み、総合的な類似度をオブジェクトの重要度によるウェイトを持たせて算出することを特徴とする。例えば、一般に文書の内容を特徴付ける重要な内容を多く含むタイトルオブジェクトや図のキャプションなどの類似性に特に注目して類似度を算出することが可能になる。また、雑音領域などの余分なオブジェクトに関する重要度を低く設定できるため、結果的に検索精度が向上する。
【発明を実施するための最良の形態】
【００１３】
以下、発明の実施の形態について図面により詳細に説明する。
【００１４】
実施例１（タイトル同士を比較して検索）
図１は、本発明の実施例１に係る文書画像検索装置の構成を示す。画像入力部１００は、入力された文書画像から画像データを生成する。画像データ登録処理部１０１は、画像入力部１００から出力された画像データと、後述する各処理１０２〜１０５から出力される構造情報及び属性情報とを対応付けて登録処理を行う。領域抽出部１０２は、画像入力部１００から出力された画像データから、類似する特徴をもつ画素により構成される領域を抽出する。本実施例では、文字や図形など、物理的にあるいは論理的に連結されている単位を１つの領域として抽出する方法を説明するが、領域抽出処理に関しては、これに限らない。
【００１５】
図３は、領域抽出部１０２の処理手順（ａ）とその構成（ｂ）を示す。領域抽出部１０２は、２値化手段３０１と、ラベリング処理手段３０２と、連結処理手段３０３とを有する。２値化手段は、入力された画像データ（画像入力部１００から出力された１画面分（１頁分）の画像データ）の全画素について２値化処理を行なう（ステップ１）。２値化処理は、たとえば、２値化の閾値Ｔを予め設定し、この閾値Ｔ以下の画素値を有する画素を“１”、それ以外の画素を“０”とする処理を行う。すなわち、文書画像上の黒い部分を“１”とし、それ以外を“０”とする処理を行う。
【００１６】
次に、ラベリング処理手段３０２では、２値化処理手段３０１から出力された２値化処理後の画素値が“１”である画素に対してラベリング処理を行う（ステップ２）。この処理は画素値“１”の画素が互いに隣り合っている、あるいは、連結している画素を一纏まりにする処理であり、その纏まり（連結成分と呼ぶ）毎に違う値を持つように画素値を変換する。
【００１７】
次いで、連結処理手段３０３では、ラベリング処理手段３０２から出力されたラベリングされた画像に対して、２個以上の連結成分をさらに連結し、１つの連結成分として融合する連結処理を行う（ステップ３）。本実施例では、抽出された連結成分から任意の２個を取り出し、それらの間の距離を計測する。２つの連結成分間の距離は画素間の最小距離とし、この計測された距離が予め設定された閾値Ｄよりも小さい場合に、１つの連結成分として連結する。
【００１８】
領域抽出部１０２は以上の処理により、抽出された各連結成分を領域データとして領域識別部１０３に出力する。
【００１９】
領域識別部１０３は、領域抽出部１０２から出力された領域に関して、その属性情報を取得する。図４は、領域識別部１０３の処理手順を示す。本実施例では、領域識別部１０３において各領域の画像上の位置、大きさ、形状、構造、濃度分布などの特徴量を計測する。領域識別処理手法はこれに限られるものではなく、例えば、各属性情報に基づいて予め決められたルールに従って領域の種類あるいは文書上の重要度を識別する処理を備えていても良い。
【００２０】
領域抽出部１０２から領域データが入力されると、領域識別部１０３では、この入力された全領域データのそれぞれに対して特徴量を計測する処理を行う（ステップ１１）。特徴量の計測は、“画像上の位置”、“領域の大きさ”、“領域の形状”、“領域画素の構造”、“領域の濃度分布”などを対象とするが、文書画像の論理的構造を把握するために必要な属性情報を取得し、さらに文書画像としての類似性を判定する項目を取得することを目的としており、特徴量の種類はこれらに限られるものではない。
【００２１】
以下、上記特徴量の計測方法の一例を説明すると、“画像上の位置”は、個々の領域の中心位置あるいは重心の計測によって求める。どちらも縦横の方向の座標値によって与えることができる。“領域の大きさ”は、縦横両方向の幅を計測することで求める。そして、縦横の幅を掛合わせることで大きさが求まる。縦方向の幅は、領域内で最も上に位置する画素の座標と最も下に位置する画素の座標との差によって求める。また、横方向の幅は、領域内で最も左に位置する画素の座標と最も右に位置する画素の座標との差によって求める。“領域の形状”は、例えば縦方向の幅と横方向の幅の割合によって求めることができる。これにより、縦長の領域あるいは横長の領域、正方形に近い領域などの特徴が得られる。“領域の濃度分布”は、領域内の画素の濃度値ヒストグラムをとることによって計測する。この場合は２値化前の画像データを参照して計測する。以上の処理手法で特徴量を計測することができる。
【００２２】
各領域の種類を判定するためには、例えば、予め“文字領域”のルール、“表領域”のルール、“線図領域”のルール、“写真領域”のルール、“グラフ領域”のルールなどを設定しておき、これを参照して各領域の種類を決定しても良い。特徴量の計測が終了したら、前述のルールを適応して“文字領域”、“表領域”、“線図領域”、“写真領域”、“グラフ領域”などの各種領域の種類のうち、いずれの種類であるかを判定する（ステップ１２）。
【００２３】
上記ルールは、各領域の種類毎に“位置”、“大きさ”、“形状”、“濃度分布”などの特徴量の範囲あるいは値が設定されているとする。例えば、“グラフ領域”を決定するルールについては、“形状”は方形に近く、“領域画素の構造”が文字領域や表領域に比べて変化が大きいなどの条件を満たしていれば、“グラフ領域”と決定する。
【００２４】
グラフ領域に関して、例えば非特許文献１、２に記載されている手法を用いて、折線グラフや棒グラフの識別といった更に細かい情報を取得することもできる。
【００２５】
また、“文字領域”を決定するルールについては、“画像上の位置”、“形状”、“領域画素の構造”“濃度分布”に関してはどんな値をとっても構わないが、“大きさ”については縦方向の幅がある値Ａ、Ｂについて、Ａよりも大きく、Ｂよりも小さく、画素構造は均等である”という条件を満たしていれば、“文字領域”を意味するなど、設定されている。
【００２６】
ここで、特に文字領域に関して、以下のような手法を用いて文字サイズや文字数を取得することもできる。文字サイズを認識するためには、例えば特許文献３に記載の方法を用いると良い。具体的には、１文字が占める四角形部分の大きさを取得し、その四角形の対角線の長さを検出する方法や、文字が示す四角形部分の縦および横の長さを検出するなどの方法により文字サイズを取得する。また、予め取得されている文字領域のサイズと得られた文字サイズから文字数に関する情報も取得することが出来る。
【００２７】
図１に戻り、構造解析処理部１０５は、領域抽出部１０２から出力された領域画像データと、領域識別部１０３から出力された属性情報（“画像上の位置”、“領域の大きさ”、“領域の形状”、“領域画素の構造”、“領域の濃度分布”、文字領域に関しては“文字の大きさ”を取得）の組１０４を受け取り、これらの情報をもとに文書画像データの構造情報を取得する。
【００２８】
本発明における論理的構造情報とは、文書画像内にレイアウトされた、各オブジェクトの論理構成、相互関係に関するものであり、例えば、体、章、節のタイトルや、ヘッダ・フッタ等の書誌的事項、文書の要約文等である。また、文書中の図等を基準として、図や写真の説明として用いられるキャプションを構成する文字列や、図番を含むセンテンス、このセンテンスを含むパラグラフおよびページ単位の文字列をキーテキストとして抽出しても良い。本実施例ではタイトル、ヘッダ・フッタ、サブタイトル、キャプションなどの構造情報の解析手法について説明するが、本発明における論理的構造情報は上記した事項に限定されず、各オブジェクトの論理構成、相互関係に関する情報であれば何でもよい。また、論理構造情報の取得方法に関しては、従来の手法を用いても良いが、例えば特許文献４、５に記載の方法を用いてもよい。
【００２９】
論理的構造情報の取得；
文書画像のタイトルは、一般的に本文の文字とはサイズや行ピッチが異なり、存在する位置も本文とは若干離れていることから、領域抽出部１０２、領域識別処理１０３で取得した領域の位置に関する属性情報及び/又は文字サイズ、文字数に関する識別結果を用いて、タイトル部を検出することができる。
【００３０】
さらに、ヘッダ・フッタは、文書画像の上下に存在するため、該当する行をヘッダ・フッタとして検出する。具体的には、例えば、領域識別・領域抽出部でシングルコラムと識別された場合、センタリング行より上の行をヘッダ部と判定することができる。また、新聞などに利用されるマルチコラムと識別された場合、段に属しない上下の行がヘッダ・フッタ部となる。
【００３１】
サブタイトルは、本文の文字と文字サイズがほぼ等しい場合も多く、本文に近接した場所に位置することから、本文と同一の領域に存在していることも多い。そこで、各文字領域の先頭行の文字サイズが同一の文字領域中の他の文字のものと異なる場合や、罫線や枠が挿入されている場合に、先頭行を小見出し行と判定する。
【００３２】
また、キャプション（写真や図の説明）は、図、表、写真等の画像に付与されたものであり、一般的に画像領域の近傍で、本文とは離れた位置に存在することなどから、これらの条件を満たす行をキャプションと判定する。
【００３３】
以上の処理により、論理構造解析処理部１０５は文書画像の論理的構造を解析し、その意味的要素の単位（オブジェクト）と構造情報、及び前述の各処理により得られる属性情報との組１０６を構造情報格納部１０７と類似度算出部１０８とに出力する。
【００３４】
構造情報格納部１０７は、領域識別部１０３から出力された属性情報と論理構造解析処理部１０５から出力されたオブジェクト（意味的要素の単位）と、各オブジェクトの属性情報（種類、位置、大きさ、形状など）を、各文書画像ごとに記憶する。
【００３５】
類似度算出部１０８では、論理構造の解析結果に基づいて切り分けられた各オブジェクトについて画像の類似度を算出する。この際、例えば、文書画像中の特に重要な情報を保持している可能性の高いタイトルオブジェクトについて画像上での位置や文字サイズなどの情報を比較し、類似する画像を抽出することもできる。各オブジェクトについて画像の類似度を算出し、類似度が予め設定した閾値よりも高い場合は、候補として比較対象画像を類似画像蓄積部１０９に保存する。
【００３６】
図２は、図１の機能を実現するためのハードウェアの構成を示す図である。スキャナ２００から画像を取り込み、取り込んだ画像データは入力Ｉ／Ｆ２０６へ渡される。ＣＰＵ２０１は、装置全体の制御をするプログラムが格納されるＲＯＭ２０２と、各種データ及びプログラムが格納されるＲＡＭ２０４とをデータバスを介して接続している。
【００３７】
実施例２：
実施例１では、論理構造解析処理部１０５により論理的構造情報が付加された論理オブジェクト（例ではタイトルオブジェクト）に対して一律に検索処理を行ったが、処理能力の低いＣＰＵで検索処理を行う場合などでは、文書の論理構造情報の結果を利用して、検索対象を文書画像中で特に重要な情報を含むオブジェクトに限定して検索を行うと効率が良い。
【００３８】
例えば、文字領域を多く含む文書画像については、構造解析処理によって切り分けられたタイトルオブジェクトの一致度を基に検索を行うことで、検索精度を保ちつつ検索処理量を低減できる。また、図／表／グラフなどを多く含む文書画像については、キャプションオブジェクトの一致度をもとに検索する方法が効率的である。
【００３９】
さらに、一般には入力される文書画像を属性の異なる領域へ切り分けを行う場合、テキストデータに関しては一律にＯＣＲ処理を施し、その一致度を基に検索処理を行う場合が多い。しかしながら、オフィスで使用されるテキスト属性の多い文書を検索対象とする場合、ＯＣＲ処理による類似画像検索は、ＯＣＲの誤認識による後処理への悪影響を避けられず、また処理量も多くなる。
【００４０】
しかし、例えば上記のように、文字サイズが比較的大きく文字数の少ないタイトルオブジェクト、キャプションオブジェクトなどに対してはＯＣＲ処理を施してそのテキストデータの一致度を比較しても良い。また、この時、その他のオブジェクトに対しては、実施例１と同様に画像の特徴量の類似度を算出し、最終的な類似度を求めても良い。
【００４１】
図５は、実施例２の検索用オブジェクト抽出処理の構成例を示す。本実施例では、文書画像中の各種領域の占有率に従って検索用オブジェクトを選択する構成を採っているが、選択基準はこれに限られるものではなく、ユーザーによって予め設定できる構成でも良い。
【００４２】
図５に示す通り、文字領域と図形領域が大半を占める文書画像においては、それぞれタイトルオブジェクトとキャプションオブジェクトを抽出し、ＯＣＲ処理を施し、グラフ領域の占有率の高い文書画像に対しては、グラフ認識（前掲した非特許文献１、２を参照）により、グラフの種類やデータ数値などのグラフ要素を比較することで、類似度を算出する。
【００４３】
実施例３：
本実施例では、前記論理構造解析処理により判別されたオブジェクトの種類により、各オブジェクトの“重要度”を点数化し、より精度の高い検索を行う。
【００４４】
例えば“文字領域”であれば重要度は“８”、“タイトル領域”であれば重要度は“１０”、“下線・線領域”であれば重要度は“５”というように、目的対応に適宜設定する。ここで重要度は点数が高いほど重要であるとする。同じ種類の領域と判断されても、領域の大きさなどの特徴量で重要度を変化させることも可能である。
【００４５】
また、オブジェクトに重要度を割り振ることで、“雑音領域”のオブジェクトは、重要度として低い点数を割り当て、領域が持つ特徴量によりその点数を“０”〜“４”に割り当てる。例えば、画像の位置が隅にあるものは重要度“１”、大きさが所定の閾値以下の小さいものは重要度“０”に設定する。
【００４６】
ただし、オブジェクトの“重要度”は絶対的な値ではなく、検索対象となる文書画像データの種類や検索項目などによって変化するので、ユーザー側が自由に設定できる手段を備えるようにしてもよい。
【００４７】
図６は、実施例３の構成を示す。図１におけるオブジェクトと属性情報と構造情報の組１０６に対し、実施例２で説明したように、検索用オブジェクトを抽出１１０する。上記したオブジェクトの点数化のルールはオブジェクト重要度記憶メモリ１１２に格納されている。このルールの決め方は文書画像全体の構成から自動的に判断しても良く、または予めユーザーにより設定してもよい。前記オブジェクト重要度記憶メモリ１１２を参照して、重要度の点数化処理１１１を行い、その点数に基づいて、類似度算出部１０８では各オブジェクトに対してブロック位置、サイズ、属性、構造情報の類似度を算出し、更に各類似度に構造情報の“重要度”による重み係数を付与し、総合類似度を算出する。
【００４８】
今、オブジェクト毎の類似度がＤ１、Ｄ２、・・・と算出されたとする。このときファイル全体の総合類似度Ｎは、以下の式で表される。
Ｎ＝ｗ１×Ｄ１＋ｗ２×Ｄ２＋・・・＋・・・＋ｗｋ×Ｄｋ
ここで、ｗ１、ｗ２、・・・は、各オブジェクトの類似度を評価する重み係数であり、文書内の論理構造情報から、オブジェクトの重要性を判断して求める。重み付けは、例えば、注目オブジェクトが文書全体のタイトルであるとすると、そのオブジェクトには文書の内容を特徴付ける、特に重要な情報が含まれていると判断されるため、大きな重み係数ｗが設定される。このような、構造情報を用いた重み付け処理により、文書内で情報として重要な内容を持つオブジェクトの類似度が文書全体の総合類似度に反映される。そして検索の結果、類似度が閾値Ｔよりも高い場合に、候補として類似画像蓄積部１０８に保存される。
【図面の簡単な説明】
【００４９】
【図１】本発明の実施例１に係る文書画像検索装置の構成を示す。
【図２】図１の機能を実現するためのハードウェアの構成を示す。
【図３】領域抽出部の処理手順とその構成を示す。
【図４】領域識別部の処理手順を示す。
【図５】本発明の実施例２に係る検索用オブジェクト抽出処理の構成例を示す。
【図６】本発明の実施例３の構成を示す。
【符号の説明】
【００５０】
１００画像入力部
１０１画像データ登録処理部
１０２領域抽出部
１０３領域識別部
１０４領域画像データ、属性情報
１０５論理構造解析処理部
１０６オブジェクト、属性情報、構造情報
１０７構造情報格納部
１０８類似度算出部
１０９類似画像蓄積部

【特許請求の範囲】
【請求項１】
文書画像に類似する画像データを検索するための文書画像検索装置であって、前記文書画像から関連するひとまとまりの領域を抽出する領域抽出手段と、前記領域抽出手段により抽出された領域の属性情報を取得する領域識別手段と、前記領域識別手段で取得した属性情報に基づき文書画像の論理構造を解析し、該解析結果に基づき前記領域をオブジェクトに分類する論理構造解析手段と、前記領域識別手段で取得した属性情報と前記論理構造解析結果とに基づき類似度を算出する類似度算出手段とを有することを特徴とする文書画像検索装置。
【請求項２】
前記領域識別手段は、前記領域抽出手段で抽出された領域の特徴量を計測する手段と、前記特徴量を基に、文字領域、図形領域、グラフ領域を含む各領域における属性情報を取得する手段を有し、前記論理構造解析手段は、前記属性情報を基に、タイトル、ヘッダ・フッタを含む書誌的事項、図、グラフのキャプションを識別する処理手段を有し、前記類似度算出手段は、前記属性情報と前記論理構造情報を総合的に判断して類似度を算出することを特徴とする請求項１記載の文書画像検索装置。
【請求項３】
前記類似度算出手段は、前記論理構造解析手段から得られる情報を基に、検索用オブジェクトを選択する検索用オブジェクト選択手段を有することを特徴とする請求項１または２記載の文書画像検索装置。
【請求項４】
前記論理構造解析手段は、論理構造解析処理によって得られるオブジェクトに対し、その重要度を判定する手段を有し、前記類似度算出手段は、オブジェクトの重要度によってウェイトを持たせた総合類似度算出処理を有することを特徴とする請求項１乃至３のいずれか１項に記載の文書画像検索装置。
【請求項５】
文書画像に類似する画像データを検索するための文書画像検索方法であって、前記文書画像から関連するひとまとまりの領域を抽出する領域抽出工程と、前記領域抽出工程により抽出された領域の属性情報を取得する領域識別工程と、前記領域識別工程で取得した属性情報に基づき文書画像の論理構造を解析し、該解析結果に基づき前記領域をオブジェクトに分類する論理構造解析工程と、前記領域識別工程で取得した属性情報と前記論理構造解析結果とに基づき類似度を算出する類似度算出工程とを有することを特徴とする文書画像検索方法。
【請求項６】
前記領域識別工程は、前記領域抽出工程で抽出された領域の特徴量を計測する工程と、前記特徴量を基に、文字領域、図形領域、グラフ領域を含む各領域における属性情報を取得する工程を有し、前記論理構造解析工程は、前記属性情報を基に、タイトル、ヘッダ・フッタを含む書誌的事項、図、グラフのキャプションを識別する処理工程を有し、前記類似度算出工程は、前記属性情報と前記論理構造情報を総合的に判断して類似度を算出するすることを特徴とする請求項５記載の文書画像検索方法。
【請求項７】
前記類似度算出工程は、前記論理構造解析工程から得られる情報を基に、検索用オブジェクトを選択する検索用オブジェクト選択工程を有することを特徴とする請求項５または６記載の文書画像検索方法。
【請求項８】
前記論理構造解析工程は、論理構造解析処理によって得られるオブジェクトに対し、その重要度を判定する工程を有し、前記類似度算出工程は、オブジェクトの重要度によってウェイトを持たせた総合類似度算出処理を有することを特徴とする請求項５乃至７のいずれか１項に記載の文書画像検索方法。

【図１】