情報処理装置、その制御方法、及びプログラム
【課題】文書中の、重要度が高く検索対象となる頻度も高い非テキスト情報を簡単、かつ迅速に検索し得る情報処理装置、その制御方法、及びプログラムを提供する。
【解決手段】文書データの中から非テキスト情報に関連する言語表現を抽出し、その言語表現に基づいて非テキスト情報を検索するためのメタデータを作成し、その作成されたメタデータを非テキスト情報と関連付けて記憶媒体に登録し、入力に係る検索条件と、登録されたメタデータとを比較して非テキスト情報を検索する。この際、文書データから非テキスト情報に関する強調表現を抽出し、その強調表現がなされた旨を示す強調情報をメタデータに付加する。
【解決手段】文書データの中から非テキスト情報に関連する言語表現を抽出し、その言語表現に基づいて非テキスト情報を検索するためのメタデータを作成し、その作成されたメタデータを非テキスト情報と関連付けて記憶媒体に登録し、入力に係る検索条件と、登録されたメタデータとを比較して非テキスト情報を検索する。この際、文書データから非テキスト情報に関する強調表現を抽出し、その強調表現がなされた旨を示す強調情報をメタデータに付加する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書中の図表等の非テキスト情報を検索するのに好適な情報処理装置、その制御方法、及びプログラムに関する。
【背景技術】
【0002】
近年、保存スペースの削減,遠隔地からの取得の利便性から、膨大な量の電子文書が氾濫している。このため、所望の電子文書の検索に長時間を要するようになってきている。
【0003】
特に、カタログ、論文、電子機器の取り扱い説明書等に係る電子文書には、テキスト情報だけでなく、画像、図、表などの非テキスト情報が多数含まれている。これら非テキスト情報は、利用頻度が高い情報でもある。
【0004】
しかしながら、これら非テキスト情報は、それ自体は文字情報を持たないか、持っていても断片的な文字情報であるため、所望の非テキスト情報の検索は困難である。そこで、文書又は文書中の画像情報にメタデータ(テキスト情報)を関連付け、このメタデータを用いて文書又は画像情報を検索する技術が開発されている(例えば、特許文献1参照)。
【特許文献1】特開2003−30243号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、従来は、非テキスト情報、その構成要素の関係、非テキスト情報の構造等を解析して検索用のメタデータを抽出することはできず、文書中の非テキスト情報、又はその構成要素を精度よく検索することはできなかった。
【0006】
本発明は、このような背景の下になされたもので、その目的は、文書中の重要度が高く検索対象となる頻度も高い非テキスト情報を簡単、かつ迅速に検索し得る情報処理装置、その制御方法、及びプログラムを提供する。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明は、文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置であって、前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出手段と、前記抽出手段により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成手段と、前記作成手段により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録手段と、入力に係る検索条件と、前記登録手段により登録された前記メタデータとを比較して非テキスト情報を検索する検索手段とを有し、前記抽出手段は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成手段は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする。
【発明の効果】
【0008】
本発明では、強調情報が付加されたメタデータを用いて非テキスト情報を検索することができる。この強調情報は、一般に、重要度が高く検索対象となる頻度も高い言語表現に係るメタデータであることを意味する。
【0009】
従って、本発明によれば、上記の特性を有する強調情報が付加されたメタデータを用いて非テキスト情報を検索することにより、文書中の重要度が高く検索対象となる頻度も高い非テキスト情報を簡単、かつ迅速に検索し得る情報処理装置、その制御方法、及びプログラムを提供することが可能となる。
【発明を実施するための最良の形態】
【0010】
[第1の実施の形態]
図1は、本発明の第1〜第3の実施の形態に係る情報処理装置の基本構成を示すブロック図である。この情報処理装置は、マルチメディア文書データから所望の画像、図、表等の非テキスト情報又はその構成要素を高精度に検索できるようにしたものであり、パーソナルコンピュータ(PC)上に構築されている。
【0011】
図1において、CPU101は、本情報処理装置における各種の処理を制御するコントローラ(処理ユニット)である。その制御は、後述するROM102、外部記憶装置105等に格納されたプログラムに基づいて実行される。また、CPU101は、複数のプログラムを並列に実行可能である。
【0012】
このCPU101は、バス110を介して、ROM102、RAM103、入力部104、外部記憶装置105、表示器106、通信部107等の各種デバイスと相互に通信可能に接続されている。ROM102には、ブートプログラム等のプログラム、およびデータ等が格納されている。RAM103は、CPU101が実際に処理を実行する際に、その処理に係るプログラムをROM102あるいは外部記憶装置105等からロードして展開する等、ワークエリアとして利用される。
【0013】
入力部104は、キーボード等により構成され、アルファベットキー、ひらがなキー、カタカナキー等の文字入力キー、及びカーソル移動キー等の各種の機能キーを有している。なお、入力部104は、マウスのようなポインティングデバイスを搭載することもできる。
【0014】
外部記装置105には、OS、アプリケーションプログラム等の各種のプログラム、文書データ等の各種のデータが格納される。この外部記憶装置105は、ハードディスク、不揮発性の半導体メモリ等の記憶媒体からなる。また、外部記憶装置105がハードディスクの場合、当該記憶媒体を駆動してデータを記録するドライブを有する。なお、外部記装置105には、図5、図11のフローチャートに係る処理を行なうためのアプリケーションプログラムも記憶されている。
【0015】
表示器106は、液晶ディスプレイなどで構成され、入力部104により入力されたデータ、CPU101での処理内容等を表示する。通信部107は、LAN108、コネクタ109を介して他の情報処理装置、プリンタ等と通信するための制御を行う。この通信部107による通信制御により、第1〜3の実施の形態に係るアプリケーションプログラムやデータを他の情報処理装置と共有することが可能になる。
【0016】
通信部107による通信は、RS232CやUSB、IEEE1394、P1284、SCSI、モデム、Ethernet(登録商標)などの有線通信、Bluetooth、赤外線通信、IEEE802.11b等の無線通信の何れの通信方式を採ってもよい。なお、通信部107は、コネクタ109を介して記憶装置、スキャナ、プリンタ等と接続されている。
【0017】
本情報処理装置は、外部記憶装置105、或いは外部のコンピュータにマルチメディア文書(以下、文書という)を格納する際に、この文書中の非テキスト情報又はその構成要素を検索するためのメタデータを抽出している。
【0018】
図2は、1ページ分の文書データ201を例示したものである。この文書データ201は、本文(テキスト情報)202、見出し(テキスト情報)203、および見出しに続く文章(テキスト情報)204を有している。
【0019】
また、図2の文書データは、図表要素(非テキスト情報)205、図表要素205のキャプション(説明文:テキスト情報)206、図表要素207、図表要素207のキャプション(説明文:テキスト情報)208、図表要素209、図表要素209のキャプション(説明文:テキスト情報)210を有している。なお、キャプションとは、対応する図の説明文(テキスト情報)を意味する。
【0020】
更に、図2の文書データは、3つの図表要素205,207,209で構成された図表領域全体に対するキャプション211と、ページ番号(テキスト情報)212を有している。なお、個別の図表要素205,207,209のキャプション206,208,210は、図表領域全体のキャプション211に対し、サブキャプションとも呼ばれる。
【0021】
図3は、図2の文書データ201の解析結果を示す構造化文書データを示したものである。なお、図3は、レイアウト解析結果の基本部分を抜粋したものである。図3において、(3−1)〜(3−32)は、レイアウト解析結果をXML形式で記述したものである。このうち、(3−1)は図2のページの開始を示すものであり、ページ番号が「11」であることが記述されている。また、(3−32)は当該ページの終了を示している。
【0022】
(3−2)〜(3−4)は、図2のページの大きさを示す記述部分である。(3−3)に示したページの大きさ(600 900)は、ページ左上を原点とし、Y軸をページ下方向に正方向とし、X軸をページ右方向に正方向とするXY座標系におけるX,Y座標値を示すものである。すなわち、当該ページがX方向に600、Y方向に900の大きさであることが記述されている。以下、同様に、位置や大きさなどの情報は、ページ左上を原点とし、Y軸をページ下方向に正方向とし、X軸をページ右方向に正方向とするするXY座標系で示される。
【0023】
(3−5)〜(3−31)は、図2のページ内の文書情報の構成要素(領域)を列挙したものであり、各構成要素がブロック(Block)という単位で表現されている。このうち、(3−6)〜(3−21)は、図2の文章202,203,204の領域のブロックを表現した記述である。(3−6)は、レイアウト解析において割り当てたブロック識別番号が「1101」であり、文章を記述したテキスト領域のブロックであることを示す記述がされている。
【0024】
また、(3−7)〜(3−9)には、当該ブロックのページ内での位置を示す情報として、上記のXY座標系での当該ブロックの左上の位置座標を示す記述がされている。また、(3−10)〜(3−12)は、上記のXY座標系での当該ブロックのサイズを示す記述がされている。このサイズは、当該ブロックの左上の位置座標からのX,Y方向の距離で示されている。
【0025】
(3−13)〜(3−20)は、当該ブロック中に記述されている内容を示しており、テキスト領域のブロックなので、図2の本文202,見出し203,見出し203に続く文章204がそのまま記述されている。これらの文章(テキスト情報)は、紙媒体などからスキャンした場合には、文字認識などの技術を用いることで、画像情報からテキスト情報に変換して得られる。
【0026】
(3−15)では、図2の見出し203の部分が記述されており、見出しの番号が「5」で、見出しのタイトルが「家具A」という内容であったことを示すテキスト情報が付加されている。また、(3−18)では、図2の文章204中の「脚部の接地部分」という部分にアンダーラインが付与されていたことが、文章204の文字列に加えて記述されている。
【0027】
(3−22)〜(3−31)では、図2の図表要素205等の当該ページ内の他の構成要素について記述されている。(3−22)では、図2の図表要素205に対してレイアウト解析において割り当てたブロック識別番号が「1102」であり、グラフィック形式のブロックであることが記述されている。また、(3−23)〜(3−25)では、図表要素205に係るブロックのページ内の位置を示す情報として、上記のXY座標系での図表要素205に係るブロックの左上の位置座標が記述されている。また、(3−26)〜(3−28)では、上記のXY座標系での図表要素205に係るブロックのサイズが記述されている。さらに、図示省略したが、(3―30)以下には、図表要素205自体が記述されている。
【0028】
本実施の形態では、図1の外部記憶装置105等に保存された文書データ中の画像、図、表といった非テキスト情報を検索するために、まず、文書データに対して予めレイアウト解析が行われ、そのレイアウト解析結果が図3のようなXML形式で記述される。
【0029】
そして、このレイアウト解析結果に基づいて非テキスト情報の領域、その構成要素、すなわち非テキスト情報の領域内の個々の非テキスト情報について相互の関係を解析する処理が実行される。その関係解析結果に基づいて非テキスト情報、その構成要素を検索するための検索用メタデータを抽出して登録する処理が実行される。
【0030】
例えば、CPU101は、レイアウト解析によりブロック分割を行うことによってそれぞれの図表要素あるいは文章が記述されたブロックの位置を求める。そして、CPU101は、図2に示した図表要素205、図表要素207、図表要素209の近傍に配置された1〜2行程度の文字列を認識する。次に、CPU101は、これらの文字列を、図表要素205、図表要素207の説明文(キャプション)206、208であると認定する。
【0031】
なお、着目している図表要素の近傍に1〜2行程度の文字列が配置されていない場合は、CPU101は、その図表要素のキャプションは存在しないものと判断する。また、着目している図表要素の近傍に1〜2行程度の文字列が配置されているが、その文字列よりも他の図表要素の方が当該図表要素から近い位置に配置されている場合も、CPU101は、その図表要素のキャプションは存在しないものと判断する。
【0032】
図2の例では、図表要素205と図表要素207と図表要素209とは並列の関係にあり、キャプション206は図表要素205に対応し、キャプション208は図表要素207に対応し、キャプション210は図表要素209に対応しているものと認定することができる。そして、CPU101は、これらキャプション206,208,210を、それぞれ図表要素205,207,209を検索するための検索用メタデータとして抽出し、それぞれ図表要素205,207,209と関連付けて外部記憶装置105等に登録する。
【0033】
そして、検索処理の際には、CPU101は、例えばメタデータとしてのキャプション206を検索することにより、そのメタデータ(キャプション206)に関連付けられた非テキスト情報としての図表要素205を読出し、検索結果として表示器106に表示させる。
【0034】
これにより、画像、図、表等の各種の非テキスト情報のフォーマットに依存することなく、各種の非テキスト情報を検索することができるようになる。また、検索時には、検索用のメタデータを検索するだけで目的の非テキスト情報を検索することができ、検索所要時間を短縮することが可能となる。
【0035】
図4は、図2の文書に対するレイアウト解析の解析結果を示す概念図である。このレイアウト解析結果は、本実施の形態では、実際には図3に示したようにXMLデータで記述されるが、図4では理解し易いように、概念図で示している。
【0036】
なお、図表要素205、図表要素205のキャプション206、図表要素207、図表要素207のキャプション208、図表要素209、図表要素209のキャプション210が配置される領域を全体図表領域とする。すなわち、全体図表領域には、テキスト情報としてのキャプション、及びサブキャプションが含まれている。図2に示す図表領域は、図表要素が密集している状態である。すなわち、本実施の形態では、「全体図表領域」という用語は、純粋な図表だけでなくテキスト情報を含む場合がある図表領域を指すものとして用いている。
【0037】
図4に示したキャプション等は、図2の文書データのレイアウト解析を行なって得られたものである。図2に示したように、「11」という数字は、当該ページの最下行に孤立状態で存在するものであるので、CPU101は、ページ番号と判断する。仮に、前後のページが存在し、それらの同位置にも「11」に連続する「10」、「12」という数字が存在する場合、CPU101は、図2の数字「11」は、「ページ番号」であると判断してもよい。図4において、レイアウト解析結果により得られたテキスト情報である数字「11」は、符号401で示したようにページ番号と判断され、「ページNo.11」としている。図4に示した符号402,404は、図2に示した文章202,204に相当するものである。
【0038】
また、図2の文書データにおいて、「5.家具A」という短い文字列は、比較的長い文章202と文章204の間に孤立状態で配置されている。さらに、図2の文書データの前のページの文章の間には「5」に連続する「4」、「6」という数字が短い文字列と共に記載されている(図示省略)。この場合、CPU101は、図2の「家具A」という文字列を「タイトル」として判断し、「5.」をセクション番号であると判断する。よって、図4のレイアウト解析結果において符号403で示したように、「文章(セクション)番号=”5”、タイトル=”家具A”」としている。
【0039】
すなわち、本実施の形態において、CPU101は、レイアウト解析によってブロック分割を行う。その結果として、ある領域中に「数字」,「1行程度の文字列」の記述を認識した場合、その認識された記述が前の領域(上側の領域)から所定距離以上離れて配置されているか否かを判断する。そして。所定距離以上離れて配置されていると判断した場合、CPU101は「数字」を文章(セクション)番号とみなし、「1行程度の文字列」をタイトルと判断する。なお、「数字」,「1行程度の文字列」の字体(フォント)が他の領域のものと異なっている場合や、文字サイズが他の領域のものより大きい場合に、セクション番号、或いはタイトルと推定するようにしてもよい。
【0040】
また、図2の文書データにおいて、「商品No.100 家具A」という比較的短い文字列は、全体図表領域の最下行に孤立状態で記載されている。また、全体図表領域の他の3個の文字列「側面図」、「脚部の拡大図」、「全体図」は、3個の図とそれぞれ1対1に対応する形で図の真下に記載されている。従って、「商品No.100 家具A」という文字列は、全体図表領域(図表領域全体)のキャプションであり、他の3個の文字列は、その真上の図のキャプション(この場合はサブキャプション)であると推定できる。従って、図4のレイアウト解析結果では、符号405〜408に示したように、これらの文字列をキャプションとしている。
【0041】
すなわち、全体図表領域では、次のようにしてキャプションを登録する。まず、CPU101は、文書データのレイアウト解析を行い、ブロック分割処理を実行する。そして、上述したとおり、CPU101は、認識されたある図表要素(205,207,209)の領域に最も近傍する文字列(206,208,210)をその図表要素のキャプションとして当該図表要素と関連付けて外部記憶装置105に登録する。
【0042】
そして、CPU101は、或る図表要素の領域の上下左右の領域端から所定距離以内に他の図表要素の領域が存在するか否かを判断する。他の図表要素の領域が存在する場合、CPU101は、それらの領域が包含される領域全体を全体図表領域として外部記憶装置105に登録する。
【0043】
さらに、CPU101は、全体図表領域から所定距離以内に図表要素に関連付けられていない1〜2行程度の文字列の領域が存在するか否かを判断する。このような文字列(211)の領域が存在する場合、CPU101は、その文字列を全体図表領域のキャプションとして外部記憶装置105に登録する。
【0044】
このように、第1の実施の形態では、レイアウト解析を行い、そのレイアウト解析によりテキスト情報(キャプション)と非テキスト情報(図表)を識別し、これらの位置関係等に基づいてキャプションと図表との対応関係、キャプション同士の関係等を認定している。
【0045】
なお、レイアウト解析を行なった後、或いはレイアウト解析と並行して、図表等の非テキスト情報それ自体の構造、属性等の特徴を解析して、当該非テキスト情報要素を検索するための検索用メタデータを抽出することも可能である。例えば、円グラフ、図面等それ自体の中に記述されている文字列を探索する。そして、その文字列を当該円グラフ、図面等の周辺の文字ブロックの中から探索し、その文字列を含む文章を解析して当該円グラフ、図面等の特徴、属性等を認識する。解析された文章の一部の文字列等を当該円グラフ、図面等の検索用メタデータとして抽出するように構成してもよい。
【0046】
次に、文書データ中の個別図表領域群によって構成される全体図表領域、及び個別図表領域を構成する図表要素(個別の図表、画像情報)を検索するための検索用メタデータを抽出・登録する処理を、図5のフローチャートに基づいて説明する。なお、この検索用メタデータの抽出・登録処理を行うに先立って、前述のレイアウト解析処理、外部記憶装置105への図表要素、キャプション等の登録処理がなされているものとする。
【0047】
まず、CPU101は、文書データのレイアウトの解析結果に基づいて、1つの全体図表領域を外部記憶装置105から取得する(ステップS501)。ここでは、図2の1ページ分の文書データがレイアウト解析された結果、図4に示すように、図2の下半分の全体図表領域が取得されたものとして説明する。
【0048】
次に、CPU101は、取得した全体図表領域のキャプション情報を抽出する(ステップS502)。ここで、CPU101は、全体図表領域の近傍にあってサブキャプション情報として登録されていない1〜2行程度のテキスト情報を全体図表領域のキャプション情報と判断する。図2,4では、図2の「商品No.100 家具A」211という文字列が、全体図表領域のキャプション情報として抽出される。
【0049】
次に、CPU101は、ステップS501で抽出した全体図表領域、及びステップS502で抽出したキャプション情報について、強調表現がなされている場合には、その強調表現を示す強調情報を抽出する(ステップS503)。なお、図2の下半分の全体図表領域、その全体図表領域のキャプション情報については、強調表現がなされていないので、ステップS503では、強調情報が抽出されることはない。
【0050】
ここで、強調表現の形態としては、特殊な種類の文字(フォント)、文字サイズ、文字修飾、文字の色や文字の背景の色など、文字や領域それ自体に対する強調表現の他に、囲み枠、矢印などの記号により間接的に強調表現する形態が含まれる。
【0051】
そして、CPU101は、抽出した全体図表領域のキャプション情報を、当該全体図表領域を検索するための検索用メタデータとして外部記憶装置105に登録する(ステップS504)。この場合、ステップS503で強調情報を抽出した場合は、その強調情報もキャプション情報と対応付けて外部記憶装置105に登録する。
【0052】
ここで、登録する強調情報は、文書データ中で強調表現されたオリジナルの強調表現の形態そのままの情報であってもよい。しかし、メモリ容量の低減化を図るべく、例えば「太字」、「赤色」、「太枠」、「強調枠」等、強調表現の種別を示す情報を強調情報として登録するのが望ましい(後述のステップS511も同様)。更には、後述するように、強調の種別を示すことなく、全ての強調の種別に対して単に「強調」という文字を登録することも可能である。
【0053】
なお、強調表現は、一般に、重要度が高く検索対象となる頻度も高い部分に対してなされるものである。
【0054】
次に、CPU101は、ステップS501で取得した全体図表領域中の全ての個別の図表領域に対する後述のステップS506〜510の処理が完了したか否かを判別する(ステップS505)。その結果、全ての個別の図表領域に対する後述のステップS505〜510の処理が完了した場合は、CPU101は、本キャプション情報等の登録処理を終了する。
【0055】
一方、全ての個別の図表領域に対する後述のステップS506〜510の処理が未だ完了していない場合は、CPU101は、当該処理を未だ行っていない個別の図表領域を1つだけ取り出して、その個別の図表領域の図表要素のキャプション(サブキャプション)情報を抽出する(ステップS506)。
【0056】
なお、図2の例では、個別の図表要素として図表要素205,207,209が存在し、それらのサブキャプション情報として、符号206で示した「側面図」、符号208で示した「脚部の拡大図」、符号210で示した「全体図」が存在する。このうち、「脚部の拡大図」というサブキャプションについては、「脚部」という文字列の文字サイズが他の文字列の文字サイズより大きくなっており、強調表現されている。また、符号207で示した個別の図表要素については、他の個別の図表要素よりも太い枠線で囲まれており、強調表現されている。
【0057】
次に、CPU101は、ステップS506で取得した個別の図表領域、又はそのサブキャプション情報について、強調表現がなされている場合には、その強調表現を示す強調情報を抽出する(ステップS507)。
【0058】
ここで、前述のように、図2に示した個別の図表領域205,209、それら図表領域のキャプション情報206,210については、強調表現がなされていないので、ステップS506でこれら個別の図表領域205,209、そのサブキャプションを取得した場合は、ステップS507では、強調情報が抽出されることはない。一方、図2に示した個別の図表領域207、その図表領域207のキャプション情報208については、前述のように強調表現がなされている。従って、ステップS506で個別の図表要素207とそのキャプション情報208を取得した場合は、CPU101は、ステップS507で、その強調表現を示す強調情報を抽出する。
【0059】
次に、CPU101は、ステップS506で取得した個別の図表要素のステップS501で取得した全体図表領域に対する役割、関係を推定する(ステップS508)。この推定処理では、レイアウト解析しか行わない場合には、例えば、当該全体図表領域における当該個別の図表要素の位置、占有面積などの関係から、当該個別の図表要素が当該全体図表領域の一部であるものと推定することができる。
【0060】
なお、論理的な解析まで行うことにより、より正確な個別の図表要素間の関係や役割、全体図表領域と個別の図表要素の関係や役割を把握して、個別の図表要素の全体図表用領域に対するより正確な役割、関係を推定するようにしてもよい。
【0061】
次に、CPU101は、ステップS506で抽出した個別の図表要素のサブキャプションのステップS502で取得した全体図表領域のキャプションに対する役割、関係を解析する(ステップS509)。ここでは、例えば、全体図表領域のキャプションである「商品No.100家具」と個別の図表要素205のサブキャプションである「側面図」の関係が、自然言語の単語間の一番簡単な関係である修飾関係にあることが解析される。
【0062】
次に、CPU101は、当該全体図表領域のキャプションと当該個別の図表要素のサブキャプションとの関係等の特徴情報を、当該図表要素を検索するための検索用メタデータとして外部記憶装置105等の記憶媒体に登録する(ステップS510)。
【0063】
すなわち、CPU101は、キャプションとサブキャプションが修飾関係にある旨の情報も登録する。さらに、CPU101は、検索用メタデータと、その検索用メタデータで検索されるべき図表要素、及びキャプション(サブキャプションを含む)とを関連付けて外部記憶装置105に登録する。更に、CPU101は、ステップS507で強調情報を抽出した場合は、その強調情報もサブキャプション情報と対応付けて外部記憶装置105に登録する。
【0064】
そして、CPU101は、ステップS505に戻ることにより、ステップS506〜510の処理を施していない個別の図表要素が残っている場合には、その個別の図表要素についてステップS506〜510の処理を行なう。なお、図5の登録処理は、文書の各ページの各全体図表領域(個別の図表要素)に対して実行される。
【0065】
図6は、CPU101が図2の文書データに対してレイアウト解析を行い、図4のレイアウト解析結果を得た後、図5の検索用メタデータの登録処理を行なったときの概念図である。番号601が全体図表領域とそのキャプションを示している。また、番号602〜604は、個別の図表要素とそのキャプション(サブキャプション)を示している。
【0066】
図6に示したように、図2の文書データの全体図表領域を検索するための検索用メタデータとしては、当該文書データ中の全てのキャプション、サブキャプションである「商品No.100 家具A」、「側面図」、「脚部の拡大図」、「全体図」が登録されている。また、図2の文書データの個別の図表要素205を検索するための検索用メタデータとしては、図2の文書データの全体図表領域のキャプション「商品No.100家具A」と共に、図表要素205のサブキャプションである「側面図」が登録されている。また、キャプション「商品No.100家具A」とサブキャプション「側面図」は、「修飾」の関係にあることも登録されている。
【0067】
また、図2の文書データの図表要素207を検索するための検索用メタデータとしては、図2の文書データのキャプション「商品No.100 家具A」と共に、図表要素207のサブキャプションである「脚部の拡大図」が登録されている。また、キャプション「商品No.100家具A」とサブキャプション「脚部の拡大図」は、「修飾」の関係にあることも登録されている。
【0068】
更に、サブキャプション「脚部の拡大図」中の文字列「脚部」の文字サイズが他の文字列「の拡大」等より大きく、「脚部」が強調表現されているので、その旨の強調情報(強調)が当該サブキャプションを構成する単語「脚部」に付加されている。また、個別の図表要素である脚部の拡大図それ自体は、太い枠線で囲まれて、当該脚部の拡大図が強調表現されているので、当該「脚部の拡大図」というサブキャプション全体に対してその旨の強調情報(強調)が付加されている。この検索用メタデータに付加された強調情報は、後述するように、文書データ中の所望の図表を的確かつ迅速に検索するために利用される。
【0069】
同様に、図2の文書データの図表要素209を検索するための検索用メタデータとしては、図2の文書データのキャプション「商品No.100家具A」と共に、図表要素209のサブキャプションである「全体図」が登録されている。また、キャプション「商品No.100 家具A」とサブキャプション「全体図」は、「修飾」の関係にあることも登録されている。
【0070】
なお、例えば、『商品No.100 家具A―(修飾)―側面図』という検索用メタデータと、『商品No.100 家具A―(修飾)―全体図』という検索用メタデータとは、間接的に、「側面図」と「全体図」との間に関係があることを示している。従って、個々の非テキスト情報同士の関係、すなわちサブキャプション同士の関係を検索用メタデータとして用いることも可能である。
【0071】
次に、検索処理について説明する。文書データ中の図表等の非テキスト情報を検索する場合は、ユーザにより入力された検索条件としての文字列と類似する検索用メタデータが用いられる。
【0072】
例えば、検索条件として「イスAの脚部図」という文字列が入力されたものとする。なお、上記の検索条件としての文字列のうち、「イスA」は、肉太の文字列として入力されたものとする。この場合、CPU101は、図7に示したように、検索条件である「イスAの脚部図」という文字列を形態素解析して単語に分解し、その単語の品詞や分類別に検索指示情報としての重要度を決める。
【0073】
この際、「イスA」は、肉太の文字列として入力されているので、CPU101は、この「イスA」については、検索指示情報としての重要度を高めに設定する。すなわち、図7に示したように、肉太でない通常の形態の文字列で入力された名詞「脚部」、接尾語「図」の重要度としては「80」が設定されている。これに対し、肉太の形態の文字列で入力された名詞「イス」の重要度としては、通常形態の「80」より高い「90」が設定されている。また、肉太の形態の文字列で入力された名詞のうち、固有名詞「A」の重要度は、更に高い「100」が設定されている。なお、助詞「の」の重要度としては、「0」が設定されている。
【0074】
また、CPU101は、「A」と「脚部」の間に修飾関係が存在することを認定する。
さらに、図示省略したが、CPU101は、検索用メタデータについても、検索条件と同様に重要度を決定する。この場合の重要度の決定方法は、検索条件の場合と同様の方法を用いることができる。
【0075】
そして、CPU101は、検索条件と検索用メタデータの重要度を用いて、両者の類似度を評価する。
【0076】
すなわち、CPU101は、検索条件に係る単語と意味が似ている単語を含む検索用メタデータを探し、それら単語同士の意味の類似度を検索条件と当該検索用メタデータの類似度とする。また、CPU101は、検索条件に係る単語と意味が類似する単語を検索用メタデータが多く含むほど、その検索用メタデータの検索条件に対する類似度を高く評価する。
【0077】
さらに、CPU101は、検索条件中の類似に係る単語同士の修飾関係と、検索用メタデータ中の類似に係る単語同士の修飾関係とが類似している場合は、その検索用メタデータの検索条件に対する類似度をより一層高く評価する。
【0078】
なお、上記のように、検索条件、及び検索用メタデータにおいて、強調表現に係る単語等には高い重要度が設定される。従って、検索条件と検索用メタデータを比較して両者の類似度を評価する場合、意味が同一又は類似の単語について、検索条件、又は検索用メタデータの何れか一方が強調表現されているときは、通常よりも類似度が高く評価される。また、意味が同一又は類似の単語について、検索条件と検索用メタデータの双方で強調表現されているときは、より一層、類似度が高く評価される。
【0079】
そして、CPU101は、検索条件と類似する検索用メタデータと関連付けられた図表等の非テキスト情報を、検索結果として表示器106に表示する。この場合、CPU101は、検索条件との類似度が高く評価された検索用メタデータの順に検索処理を行なうと共に、その検索順に、当該検索用メタデータに関連付けられた非テキスト情報を配列して表示器106に表示させる。
【0080】
例えば、上記の「イスAの脚部図(イスAは肉太で強調)」を検索条件とした場合、この検索条件に対する図2の非テキスト情報の類似度の順番は、図6に示す番号603,601,603,604の順番となり、この順番に検索結果として表示される。
【0081】
また、「商品No.家具A」を検索条件とした場合、最も評価の高い非テキスト情報は、番号601となり、続いて番号602〜604が同じ類似度となる。従って、検索結果として番号601が先頭に表示され、番号602〜604が順不同に表示される。
【0082】
以上説明したように、非テキスト情報の領域と個別の非テキスト情報との関係を加味した検索用データを用いて非テキスト情報の領域、個別の非テキスト情報を検索できるので、文書中の所望の非テキスト情報の領域、個別の非テキスト情報を高精度に検索することが可能となる。
【0083】
また、強調表現された検索条件、検索用メタデータについては、類似度評価に用いる重要度を高く設定するので、重要な非テキスト情報を簡単、かつ迅速に検索することが可能となる。
【0084】
なお、非テキスト情報を検索するための検索用メタデータは、当該非テキスト情報が属する領域だけでなく、その近傍のテキスト領域から抽出することも可能である。また、レイアウト解析だけでなく、キャプションの形態素解析、非テキスト情報の構造や関係の論理的な解析を行なうことにより、より詳細な検索用データの関係を得ることも可能である。この場合は、より一層、高精度に非テキスト情報等を高精度に検索できるようになる。
【0085】
次に、実際の検索画面を図8に基づいて説明する。ユーザが入力部104の操作により文書検索処理を指示すると、CPU101は、図8に示した文書検索ウィンドウ801を表示器106の画面上に表示させる。
【0086】
この文書検索ウィンドウ801には、タイトルバー802が形成されている。このタイトルバー801には、当該ウィンドウのタイトルとして「文書検索」が表示されている。
【0087】
また、文書検索ウィンドウ801には、検索用のウィンドウ803が形成され、このウィンドウ803には、検索条件を入力するための検索条件入力ボックス804と、検索結果を表示するための検索結果表示ボックス805が形成されている。
【0088】
検索条件入力ボックス804には、単純な単語だけでなく、単語間、又は文節間の関係情報を持つ自然言語における文章などの形式で、検索条件を入力することができる。図8の例では、検索条件入力ボックス804には、「イスAの脚部図」という文字列が、検索条件として表示されている。また、「イスA」という文字列は、肉太の文字列で強調されている。このような検索条件入力ボックス804に対する検索条件の入力は、図1の入力部104等を用いて行なうことができる。
【0089】
まず、ユーザは、検索条件入力ボックス804に検索条件を入力した状態で所定のボタンを操作する。すると、CPU101は、その入力操作の検出に応じて、入力に係る検索条件と類似性のある検索用メタデータを外部記憶装置105上で検索する。そして、CPU101は、この検索用メタデータに関連付けられた非テキスト情報の領域である全体図表領域、非テキスト情報である個々の図表要素等を読出して、検索結果として検索結果表示ボックス805に表示する。この際、CPU101は、検索結果表示ボックス805には、検索結果(図8の符号806,808,809参照)を類似度の高い順に表示するだけでなく、検索結果の検索用メタデータと関係性のあるメタデータを選択可能に表示する。
【0090】
すなわち、検索条件が「イスAの脚部図(イスAは肉太で強調)」の場合、この検索条件の文字列の中で、「脚部図」という文字列と全く同一の文字列が、図6に示したように、番号603に係る検索用メタデータ「商品No.100家具A−(修飾)―“”脚部“<強調>の拡大図”<強調>」の中に含まれている。さらに、この番号603に係る検索用メタデータには、上記のように、検索条件の文字列の中の「A」という文字も含まれている。
【0091】
しかも、「A」は、検索条件、及び検索用メタデータの双方において強調表現されている。また、「脚部」は、検索用メタデータにおいて、大きな文字サイズの形態で強調表現されている。
【0092】
従って、CPU101は、検索条件との類似性が一番高い検索用メタデータは、「商品No.100家具A−(修飾)―“”脚部“<強調>の拡大図”<強調>」であると認定する。そして、CPU101は、検索用メタデータと関連付けられた「脚部の拡大図」(図2の図面207)を、検索結果806として検索結果表示ボックス805の1番上に表示する。
【0093】
また、この検索結果806の検索用メタデータ「脚部の拡大図」には、上記のように、「商品No.100家具A」という検索用メタデータと「修飾」の関係性がある旨の情報が付与されている。そこで、CPU101は、検索結果806に対して、「商品No.100家具A(図全体)」という検索用メタデータを、該当部分のビュー選択として表示器106の画面上に表示させている(図8の符号807参照)。
【0094】
また、該当部分のビュー選択として表示した検索用メタデータには、「○」印で示したチェックボックスが配備されている。このチェックボックスにチェックマークを入れて所定のボタンを操作すると、CPU101は、このチェックボックスに対応する検索用メタデータに関連付けられた情報を、検索結果として現在表示されている検索結果に代えて表示する。
【0095】
例えば、ユーザは、符号807の「商品No.100家具A(図全体)」に対応するチェックボックスにチェックマークを入れて当該図表領域全体を選択し、所定のボタンを操作して当該選択を確定したとする。この操作に応じてCPU101が検索結果を表示処理すると、検索結果806の表示エリアの表示内容は、「脚部の拡大図」から「家具Aの図全体」に変化する。このように、現在表示中の検索結果と関係のある他の情報簡単に表示させることができるので、所望の情報を的確に検索して再利用することが可能となる。
【0096】
図8では、「○」印の中の黒色がチェックマークを示している。このチェックマークは、検索結果を最初に表示する場合は、その検索結果に係る検索用メタデータに対してデフォルトで入れられている。
【0097】
CPU101は、最初に表示器106に検索結果を表示させる場合は、検索条件に係る文字列(言語表現)と類似度の高かった検索用メタデータの順に、当該検索用メタデータと関連付けられた非テキスト情報を検索結果として表示する。ただし、非テキスト情報の領域(図表領域全体)に係る検索用メタデータより高い類似度の検索用メタデータを持つ非テキスト情報(個々の図表要素等)が1つでも存在する場合は、それを包含する非テキスト情報(図表領域全体)は、最初の検索結果としては表示しないように構成されている。
【0098】
その理由は、前述のような最初に検索結果として表示した個々の図表要素に対する該当部分のビュー選択操作により、相対的に低い類似度に係る図表領域全体を漏れなく表示できるからである。これにより、限られた面積の表示画面を有効に利用して1つの表示画面により多くの検索結果を表示することができるので、所望の図表等を迅速に見つけることが可能となって、利便性が向上する。
【0099】
また、検索条件に対する類似度において、図表要素に係る検索用メタデータの類似度が一番高い場合は、CPU101は、図表要素も最初の検索結果として表示する。この場合、CPU101は、その検索結果(非テキスト情報の領域)に対応するビュー選択に係る検索用メタデータとしては、当該領域内の全ての個々の非テキスト情報の検索用メタデータを表示する。
【0100】
なお、上記の説明では、検索用メタデータの関係性として、図表領域全体と個々の図表要素(全体と部分)のような修飾関係だけを例示しているが、例えば上位概念と下位概念等の他の関係性を利用してもよい。また、所望の検索結果をより一層的確に選択して再利用できるようにするため、表示する各検索用メタデータに対して、検索条件との類似度を付加して表示することも可能である。この場合、一般的には数字で類似度を表示することが考えられるが、一瞥して類似度を認識できるように、グラフ等で類似度を表示することも可能である。
【0101】
[第2の実施の形態]
第1の実施の形態では、非テキスト情報が「図面」の場合を例示したが、非テキスト情報が「表」の場合にも、第1の実施の形態とほぼ同様の手法で検索用メタデータの作成処理等を行うことが可能である。この場合は、表それ自体の構造を解析して項目名を認定し、その項目名を検索用メタデータとして、その項目名に係る項目値と関連付けて登録すればよい。また、検索結果を表示する際には、その検索結果に対応する項目名が例えば表の横の列の項目名である場合は、縦の列の項目名と、表全体を上記のビュー選択の検索用メタデータとして表示するように構成すればよい。
【0102】
なお、表中の項目名は表の構成要素であり、サブキャプション(図表要素の説明)としての性格を有する。この表に対して、表の名称等が付与されていれば、表の名称等がキャプションとして機能する。また、表の場合には、横の列の項目名(構成要素)と縦の列の項目名(構成要素)との関係を検索用メタデータとして用いることにより、1つの項目値を直接検索することができる。
【0103】
以下、図9の文書を用いて、表に対する検索用メタデータの作成処理等を説明する。図9に示した1ページ分の文書データ901は、本文902(テキスト情報)、見出し(テキスト情報)903、見出し903に続く文章904の文章を有している。
【0104】
また、当該ページの下半分には、表905が記載されている。この表905は、表の縦の列の見出し(項目名)906、表の横の列の見出し(項目名)907を有している。この表905は、「商品別年間売上」というキャプション910が示すように、商品別の年間売上を記録したものである。従って、縦の列の見出し906としては年度が記載され、横の列の見出し907としては商品名が記載されている。そして、表905の項目値領域には、各商品の年度別売上げ個数908,909が記録されている。また、当該ページの下方には、符号911で示したページ番号「11」が記載されている。
【0105】
このような表905に第1の実施の形態を適用する場合は、表905の見出し906,907を図表要素のキャプション(サブキャプション)と同様に扱えばよい。また、表905の外部の下側に記載された文字列「商品別年間売上」を当該表905のキャプションとして扱えばよい。さらに、2001年度の商品Bの売上個数909は、網掛けが施されて強調されている。従って、この2001年度の商品Bの売上個数909に係る検索用メタデータの重要度を高く設定すればよい。
【0106】
すなわち、図9の文書データ901の下半分の表領域に対して、第1の実施の形態と同様の手法で検索用メタデータを抽出すると、図10のようになる。図10において、番号1001が表領域全体とそのキャプションを示している。また、番号1002,1003は、それぞれ、「商品B」の2000年度、2001年度の売上個数とそのキャプション(サブキャプション)を示している。
【0107】
図10に示したように、図9の文書データの下半分の表領域全体を検索するための検索用メタデータとしては、当該表領域中の全てのキャプション、サブキャプションである「商品別年間売上」、「2000年」、「2001年」等の年度、「商品A」、「商品B」、「商品C」等の商品名が登録されている。
【0108】
また、図9の表905の「商品B」の図表要素(売上個数)908を検索するための検索用メタデータとしては、番号1002に示したように、「100個」、当該表領域全体のキャプション「商品別年間売上」と、図表要素908のサブキャプションである「2000年」と「商品B」が登録されている。また、キャプション「商品別年間売上」とサブキャプション「2000年」との間、及びサブキャプション「2000年」とサブキャプション「商品B」との間に「修飾」の関係があることも登録されている。
【0109】
さらに、図9の表905の「商品B」の図表要素(売上個数)909を検索するための検索用メタデータは、番号1003に示したように登録されている。すなわち、「1234個」、当該表領域全体のキャプション「商品別年間売上」と、図表要素909のサブキャプションである「2001年」と「商品B」が登録されている。また、キャプション「商品別年間売上」とサブキャプション「2001年」との間、及びサブキャプション「2001年」とサブキャプション「商品B」との間に「修飾」の関係があることも登録されている。
【0110】
また、「商品B」の「2001年度」の売り上げ個数「1234個」は、網掛けの形態で強調表現されている。その旨の強調情報(強調)が当該サブキャプションを構成する単語「2001年」と「商品B」に付加され、更にそれらサブキャプションの項目値である「1234個」にも強調情報(強調)が付加されている。
【0111】
このような「表」に係る検索用メタデータと入力に係る検索条件とを比較して両者の類似度を評価することにより、「表全体」、及び「表」に記載されたデータについても検索することが可能となる。また、検索処理においては、強調表現されたデータは、検索条件との類似度が高く計算されて優先的に検索結果として表示される。従って、強調表現された重要事項を簡単、かつ迅速に検索することが可能となる。
【0112】
[第3の実施の形態]
第1、第2の実施の形態では、図表領域それ自他の中から、当該図表領域、或いは当該図表領域内の個別の図表要素を検索するための検索用メタデータを抽出していた。
【0113】
これに対し、図表領域の近傍の領域のテキスト情報からも検索用メタデータを抽出することも可能である。これは、図表の近傍のテキスト情報には、当該図表について説明した部分が存在する可能性が高いという文書の特性を考慮したものである。
【0114】
図表領域の近傍の領域のテキスト情報から検索用メタデータを抽出する手法は、第1、第2の実施の形態と同様の手法を援用することができる。例えば、第1、第2の実施の形態と同様に、図表領域全体のキャプションと、その中の個別の図表要素のキャプション(サブキャプション)との間の言語表現的な関係を推定する。そして、その言語表現的な関係に類似する文言を、当該図表領域の近傍のテキスト情報の中から抽出し、当該図表領域、又はその図表要素を検索するための検索用メタデータとして追加登録する。
【0115】
このような第3の実施の形態における検索用メタデータの抽出処理を、図11のフローチャートに基づいて説明する。なお、図11におけるステップS1101〜S1110の処理は、図5のステップS501〜S510と全く同様であり、その詳細な説明は省略する。
【0116】
CPU101は、ステップS1101〜S1110の処理により、ステップS1101で取り出した図表領域の中から当該図表領域、又はその図表要素を検索するための検索用メタデータを抽出して登録する。
【0117】
次に、CPU101は、当該図表領域の近傍のテキスト情報の中から、ステップS1109にて抽出した図形領域(全体図表領域)のキャプションと図形要素のキャプション(サブキャプション)との間の言語表現的な関係に類似する文言(言語表現)を探索する(ステップS1111)。
【0118】
なお、図表領域の近傍のテキスト情報は、必ずしも当該図表領域と同一のページのテキスト情報である必要はない。例えば、ページの先頭部分、或いは最終部分に図表が存在する場合は、当該図表の前のページ、又は次のページのテキスト情報の中から検索用メタデータを抽出することができる。
【0119】
また、近傍の程度(範囲)は、任意であり、この近傍の程度をユーザが文書の種類、特性等に応じて設定できるようにしてもよい。
【0120】
さらに、近傍は、例えば行単位、ページ単位等の物理的な離間距離だけでなく、文書の「節」単位等の文書の構成単位で設定することも可能である。
【0121】
次に、CPU101は、上記の類似する言語表現が図表領域の近傍のテキスト情報の中に存在していたか否かを判別し(ステップS1112)、存在していなかった場合は、ステップS1105に戻る。
【0122】
一方、類似する言語表現が図表領域の近傍のテキスト情報の中に存在していた場合は、その類似する言語表現の中に強調表現が有れば、その強調表現を抽出する(ステップS1113)。
【0123】
次に、CPU101は、ステップS1111,S1113で得られた類似する言語表現、強調表現を、当該図表領域、その図表要素を検索するための検索用メタデータとして外部記憶装置105に追加登録する(ステップS1114)。この場合、類似する言語表現、強調表現は、そのままの形で登録されることなく、図6、図10のように形態素解析された状態で、かつキャプションとサブキャプションの関係・役割を明示した状態で登録される。
【0124】
次に、上記の処理を図2の文書の例で説明する。図2の図表領域の場合は、テキスト情報204の中から「ここでは、家庭用の家具として、床を傷つけないように脚部の接地部分に工夫を施した家具Aについて・・・。」といった言語表現が、類似する言語表現として見つかる。また、アンダーラインが付された「脚部の接地部分」は、強調表現されていることが認定される。
【0125】
そして、図6のように、この類似する言語表現を形態素解析して語彙単位にしたものが、強調表現がなされていた旨の情報が付加されて、検索用のメタデータとして登録される。
【0126】
また、図9の表については、909の項目値に関して、テキスト情報904の中から「特筆すべきは商品Bの売り上げ個数の2001年の急速な拡大であり、・・・。」といった言語表現が見つかる。また、アンダーラインが付された「商品Bの売上個数の、2001年の急速な拡大」は、強調表現されていることが認定される。
【0127】
そして、図10のように、この類似する言語表現を形態素解析して語彙単位にしたものが、強調表現がなされていた旨の情報が付加されて、検索用のメタデータとして登録される。
【0128】
なお、図表領域内の図表要素のキャプションに対してのみ類似関係が発生している検索用メタデータは、その図表要素を検索するための検索用メタデータとして登録する。また、図表領域全体のキャプションとその図表要素のキャプションとの双方に対して類似関係が発生している検索用メタデータは、全体図表領域、及び図表要素を検索するための検索用メタデータとして登録する。
【0129】
また、本発明の目的は、前述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。
【0130】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した各実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0131】
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW等の光ディスク、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。
【0132】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施の形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。
【0133】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。
【図面の簡単な説明】
【0134】
【図1】本発明の第1〜第3の実施の形態に係る情報処理装置の基本構成を示すブロック図である。
【図2】第1の実施の形態を説明するための文書例を示す図である。
【図3】図2の文書のレイアウト解析の解析結果をXMLで記述した図である。
【図4】図2の文書のレイアウト解析の解析結果を示す概念図である。
【図5】第1,第2の実施の形態における検索用メタデータの抽出処理を示すフローチャートである。
【図6】図2の文書に対して図5の処理を行なった場合の検索用メタデータの登録状態を示す概念図である。
【図7】検索処理を行なう場合の検索条件に係る文字列の解析例を示す概念図である。
【図8】第1の実施の形態に係る検索結果の表示例を示す図である。
【図9】第2の実施の形態を説明するための文書例を示す図である。
【図10】図9の文書に対して図5の処理を行なった場合の検索用メタデータの登録状態を示す概念図である。
【図11】第3の実施の形態における検索用メタデータの抽出処理を示すフローチャートである。
【符号の説明】
【0135】
101…CPU
102…ROM
103…RAM
104…入力部
105…外部記憶装置
106…表示器
805…検索結果表示ボックス
【技術分野】
【0001】
本発明は、文書中の図表等の非テキスト情報を検索するのに好適な情報処理装置、その制御方法、及びプログラムに関する。
【背景技術】
【0002】
近年、保存スペースの削減,遠隔地からの取得の利便性から、膨大な量の電子文書が氾濫している。このため、所望の電子文書の検索に長時間を要するようになってきている。
【0003】
特に、カタログ、論文、電子機器の取り扱い説明書等に係る電子文書には、テキスト情報だけでなく、画像、図、表などの非テキスト情報が多数含まれている。これら非テキスト情報は、利用頻度が高い情報でもある。
【0004】
しかしながら、これら非テキスト情報は、それ自体は文字情報を持たないか、持っていても断片的な文字情報であるため、所望の非テキスト情報の検索は困難である。そこで、文書又は文書中の画像情報にメタデータ(テキスト情報)を関連付け、このメタデータを用いて文書又は画像情報を検索する技術が開発されている(例えば、特許文献1参照)。
【特許文献1】特開2003−30243号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、従来は、非テキスト情報、その構成要素の関係、非テキスト情報の構造等を解析して検索用のメタデータを抽出することはできず、文書中の非テキスト情報、又はその構成要素を精度よく検索することはできなかった。
【0006】
本発明は、このような背景の下になされたもので、その目的は、文書中の重要度が高く検索対象となる頻度も高い非テキスト情報を簡単、かつ迅速に検索し得る情報処理装置、その制御方法、及びプログラムを提供する。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明は、文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置であって、前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出手段と、前記抽出手段により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成手段と、前記作成手段により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録手段と、入力に係る検索条件と、前記登録手段により登録された前記メタデータとを比較して非テキスト情報を検索する検索手段とを有し、前記抽出手段は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成手段は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする。
【発明の効果】
【0008】
本発明では、強調情報が付加されたメタデータを用いて非テキスト情報を検索することができる。この強調情報は、一般に、重要度が高く検索対象となる頻度も高い言語表現に係るメタデータであることを意味する。
【0009】
従って、本発明によれば、上記の特性を有する強調情報が付加されたメタデータを用いて非テキスト情報を検索することにより、文書中の重要度が高く検索対象となる頻度も高い非テキスト情報を簡単、かつ迅速に検索し得る情報処理装置、その制御方法、及びプログラムを提供することが可能となる。
【発明を実施するための最良の形態】
【0010】
[第1の実施の形態]
図1は、本発明の第1〜第3の実施の形態に係る情報処理装置の基本構成を示すブロック図である。この情報処理装置は、マルチメディア文書データから所望の画像、図、表等の非テキスト情報又はその構成要素を高精度に検索できるようにしたものであり、パーソナルコンピュータ(PC)上に構築されている。
【0011】
図1において、CPU101は、本情報処理装置における各種の処理を制御するコントローラ(処理ユニット)である。その制御は、後述するROM102、外部記憶装置105等に格納されたプログラムに基づいて実行される。また、CPU101は、複数のプログラムを並列に実行可能である。
【0012】
このCPU101は、バス110を介して、ROM102、RAM103、入力部104、外部記憶装置105、表示器106、通信部107等の各種デバイスと相互に通信可能に接続されている。ROM102には、ブートプログラム等のプログラム、およびデータ等が格納されている。RAM103は、CPU101が実際に処理を実行する際に、その処理に係るプログラムをROM102あるいは外部記憶装置105等からロードして展開する等、ワークエリアとして利用される。
【0013】
入力部104は、キーボード等により構成され、アルファベットキー、ひらがなキー、カタカナキー等の文字入力キー、及びカーソル移動キー等の各種の機能キーを有している。なお、入力部104は、マウスのようなポインティングデバイスを搭載することもできる。
【0014】
外部記装置105には、OS、アプリケーションプログラム等の各種のプログラム、文書データ等の各種のデータが格納される。この外部記憶装置105は、ハードディスク、不揮発性の半導体メモリ等の記憶媒体からなる。また、外部記憶装置105がハードディスクの場合、当該記憶媒体を駆動してデータを記録するドライブを有する。なお、外部記装置105には、図5、図11のフローチャートに係る処理を行なうためのアプリケーションプログラムも記憶されている。
【0015】
表示器106は、液晶ディスプレイなどで構成され、入力部104により入力されたデータ、CPU101での処理内容等を表示する。通信部107は、LAN108、コネクタ109を介して他の情報処理装置、プリンタ等と通信するための制御を行う。この通信部107による通信制御により、第1〜3の実施の形態に係るアプリケーションプログラムやデータを他の情報処理装置と共有することが可能になる。
【0016】
通信部107による通信は、RS232CやUSB、IEEE1394、P1284、SCSI、モデム、Ethernet(登録商標)などの有線通信、Bluetooth、赤外線通信、IEEE802.11b等の無線通信の何れの通信方式を採ってもよい。なお、通信部107は、コネクタ109を介して記憶装置、スキャナ、プリンタ等と接続されている。
【0017】
本情報処理装置は、外部記憶装置105、或いは外部のコンピュータにマルチメディア文書(以下、文書という)を格納する際に、この文書中の非テキスト情報又はその構成要素を検索するためのメタデータを抽出している。
【0018】
図2は、1ページ分の文書データ201を例示したものである。この文書データ201は、本文(テキスト情報)202、見出し(テキスト情報)203、および見出しに続く文章(テキスト情報)204を有している。
【0019】
また、図2の文書データは、図表要素(非テキスト情報)205、図表要素205のキャプション(説明文:テキスト情報)206、図表要素207、図表要素207のキャプション(説明文:テキスト情報)208、図表要素209、図表要素209のキャプション(説明文:テキスト情報)210を有している。なお、キャプションとは、対応する図の説明文(テキスト情報)を意味する。
【0020】
更に、図2の文書データは、3つの図表要素205,207,209で構成された図表領域全体に対するキャプション211と、ページ番号(テキスト情報)212を有している。なお、個別の図表要素205,207,209のキャプション206,208,210は、図表領域全体のキャプション211に対し、サブキャプションとも呼ばれる。
【0021】
図3は、図2の文書データ201の解析結果を示す構造化文書データを示したものである。なお、図3は、レイアウト解析結果の基本部分を抜粋したものである。図3において、(3−1)〜(3−32)は、レイアウト解析結果をXML形式で記述したものである。このうち、(3−1)は図2のページの開始を示すものであり、ページ番号が「11」であることが記述されている。また、(3−32)は当該ページの終了を示している。
【0022】
(3−2)〜(3−4)は、図2のページの大きさを示す記述部分である。(3−3)に示したページの大きさ(600 900)は、ページ左上を原点とし、Y軸をページ下方向に正方向とし、X軸をページ右方向に正方向とするXY座標系におけるX,Y座標値を示すものである。すなわち、当該ページがX方向に600、Y方向に900の大きさであることが記述されている。以下、同様に、位置や大きさなどの情報は、ページ左上を原点とし、Y軸をページ下方向に正方向とし、X軸をページ右方向に正方向とするするXY座標系で示される。
【0023】
(3−5)〜(3−31)は、図2のページ内の文書情報の構成要素(領域)を列挙したものであり、各構成要素がブロック(Block)という単位で表現されている。このうち、(3−6)〜(3−21)は、図2の文章202,203,204の領域のブロックを表現した記述である。(3−6)は、レイアウト解析において割り当てたブロック識別番号が「1101」であり、文章を記述したテキスト領域のブロックであることを示す記述がされている。
【0024】
また、(3−7)〜(3−9)には、当該ブロックのページ内での位置を示す情報として、上記のXY座標系での当該ブロックの左上の位置座標を示す記述がされている。また、(3−10)〜(3−12)は、上記のXY座標系での当該ブロックのサイズを示す記述がされている。このサイズは、当該ブロックの左上の位置座標からのX,Y方向の距離で示されている。
【0025】
(3−13)〜(3−20)は、当該ブロック中に記述されている内容を示しており、テキスト領域のブロックなので、図2の本文202,見出し203,見出し203に続く文章204がそのまま記述されている。これらの文章(テキスト情報)は、紙媒体などからスキャンした場合には、文字認識などの技術を用いることで、画像情報からテキスト情報に変換して得られる。
【0026】
(3−15)では、図2の見出し203の部分が記述されており、見出しの番号が「5」で、見出しのタイトルが「家具A」という内容であったことを示すテキスト情報が付加されている。また、(3−18)では、図2の文章204中の「脚部の接地部分」という部分にアンダーラインが付与されていたことが、文章204の文字列に加えて記述されている。
【0027】
(3−22)〜(3−31)では、図2の図表要素205等の当該ページ内の他の構成要素について記述されている。(3−22)では、図2の図表要素205に対してレイアウト解析において割り当てたブロック識別番号が「1102」であり、グラフィック形式のブロックであることが記述されている。また、(3−23)〜(3−25)では、図表要素205に係るブロックのページ内の位置を示す情報として、上記のXY座標系での図表要素205に係るブロックの左上の位置座標が記述されている。また、(3−26)〜(3−28)では、上記のXY座標系での図表要素205に係るブロックのサイズが記述されている。さらに、図示省略したが、(3―30)以下には、図表要素205自体が記述されている。
【0028】
本実施の形態では、図1の外部記憶装置105等に保存された文書データ中の画像、図、表といった非テキスト情報を検索するために、まず、文書データに対して予めレイアウト解析が行われ、そのレイアウト解析結果が図3のようなXML形式で記述される。
【0029】
そして、このレイアウト解析結果に基づいて非テキスト情報の領域、その構成要素、すなわち非テキスト情報の領域内の個々の非テキスト情報について相互の関係を解析する処理が実行される。その関係解析結果に基づいて非テキスト情報、その構成要素を検索するための検索用メタデータを抽出して登録する処理が実行される。
【0030】
例えば、CPU101は、レイアウト解析によりブロック分割を行うことによってそれぞれの図表要素あるいは文章が記述されたブロックの位置を求める。そして、CPU101は、図2に示した図表要素205、図表要素207、図表要素209の近傍に配置された1〜2行程度の文字列を認識する。次に、CPU101は、これらの文字列を、図表要素205、図表要素207の説明文(キャプション)206、208であると認定する。
【0031】
なお、着目している図表要素の近傍に1〜2行程度の文字列が配置されていない場合は、CPU101は、その図表要素のキャプションは存在しないものと判断する。また、着目している図表要素の近傍に1〜2行程度の文字列が配置されているが、その文字列よりも他の図表要素の方が当該図表要素から近い位置に配置されている場合も、CPU101は、その図表要素のキャプションは存在しないものと判断する。
【0032】
図2の例では、図表要素205と図表要素207と図表要素209とは並列の関係にあり、キャプション206は図表要素205に対応し、キャプション208は図表要素207に対応し、キャプション210は図表要素209に対応しているものと認定することができる。そして、CPU101は、これらキャプション206,208,210を、それぞれ図表要素205,207,209を検索するための検索用メタデータとして抽出し、それぞれ図表要素205,207,209と関連付けて外部記憶装置105等に登録する。
【0033】
そして、検索処理の際には、CPU101は、例えばメタデータとしてのキャプション206を検索することにより、そのメタデータ(キャプション206)に関連付けられた非テキスト情報としての図表要素205を読出し、検索結果として表示器106に表示させる。
【0034】
これにより、画像、図、表等の各種の非テキスト情報のフォーマットに依存することなく、各種の非テキスト情報を検索することができるようになる。また、検索時には、検索用のメタデータを検索するだけで目的の非テキスト情報を検索することができ、検索所要時間を短縮することが可能となる。
【0035】
図4は、図2の文書に対するレイアウト解析の解析結果を示す概念図である。このレイアウト解析結果は、本実施の形態では、実際には図3に示したようにXMLデータで記述されるが、図4では理解し易いように、概念図で示している。
【0036】
なお、図表要素205、図表要素205のキャプション206、図表要素207、図表要素207のキャプション208、図表要素209、図表要素209のキャプション210が配置される領域を全体図表領域とする。すなわち、全体図表領域には、テキスト情報としてのキャプション、及びサブキャプションが含まれている。図2に示す図表領域は、図表要素が密集している状態である。すなわち、本実施の形態では、「全体図表領域」という用語は、純粋な図表だけでなくテキスト情報を含む場合がある図表領域を指すものとして用いている。
【0037】
図4に示したキャプション等は、図2の文書データのレイアウト解析を行なって得られたものである。図2に示したように、「11」という数字は、当該ページの最下行に孤立状態で存在するものであるので、CPU101は、ページ番号と判断する。仮に、前後のページが存在し、それらの同位置にも「11」に連続する「10」、「12」という数字が存在する場合、CPU101は、図2の数字「11」は、「ページ番号」であると判断してもよい。図4において、レイアウト解析結果により得られたテキスト情報である数字「11」は、符号401で示したようにページ番号と判断され、「ページNo.11」としている。図4に示した符号402,404は、図2に示した文章202,204に相当するものである。
【0038】
また、図2の文書データにおいて、「5.家具A」という短い文字列は、比較的長い文章202と文章204の間に孤立状態で配置されている。さらに、図2の文書データの前のページの文章の間には「5」に連続する「4」、「6」という数字が短い文字列と共に記載されている(図示省略)。この場合、CPU101は、図2の「家具A」という文字列を「タイトル」として判断し、「5.」をセクション番号であると判断する。よって、図4のレイアウト解析結果において符号403で示したように、「文章(セクション)番号=”5”、タイトル=”家具A”」としている。
【0039】
すなわち、本実施の形態において、CPU101は、レイアウト解析によってブロック分割を行う。その結果として、ある領域中に「数字」,「1行程度の文字列」の記述を認識した場合、その認識された記述が前の領域(上側の領域)から所定距離以上離れて配置されているか否かを判断する。そして。所定距離以上離れて配置されていると判断した場合、CPU101は「数字」を文章(セクション)番号とみなし、「1行程度の文字列」をタイトルと判断する。なお、「数字」,「1行程度の文字列」の字体(フォント)が他の領域のものと異なっている場合や、文字サイズが他の領域のものより大きい場合に、セクション番号、或いはタイトルと推定するようにしてもよい。
【0040】
また、図2の文書データにおいて、「商品No.100 家具A」という比較的短い文字列は、全体図表領域の最下行に孤立状態で記載されている。また、全体図表領域の他の3個の文字列「側面図」、「脚部の拡大図」、「全体図」は、3個の図とそれぞれ1対1に対応する形で図の真下に記載されている。従って、「商品No.100 家具A」という文字列は、全体図表領域(図表領域全体)のキャプションであり、他の3個の文字列は、その真上の図のキャプション(この場合はサブキャプション)であると推定できる。従って、図4のレイアウト解析結果では、符号405〜408に示したように、これらの文字列をキャプションとしている。
【0041】
すなわち、全体図表領域では、次のようにしてキャプションを登録する。まず、CPU101は、文書データのレイアウト解析を行い、ブロック分割処理を実行する。そして、上述したとおり、CPU101は、認識されたある図表要素(205,207,209)の領域に最も近傍する文字列(206,208,210)をその図表要素のキャプションとして当該図表要素と関連付けて外部記憶装置105に登録する。
【0042】
そして、CPU101は、或る図表要素の領域の上下左右の領域端から所定距離以内に他の図表要素の領域が存在するか否かを判断する。他の図表要素の領域が存在する場合、CPU101は、それらの領域が包含される領域全体を全体図表領域として外部記憶装置105に登録する。
【0043】
さらに、CPU101は、全体図表領域から所定距離以内に図表要素に関連付けられていない1〜2行程度の文字列の領域が存在するか否かを判断する。このような文字列(211)の領域が存在する場合、CPU101は、その文字列を全体図表領域のキャプションとして外部記憶装置105に登録する。
【0044】
このように、第1の実施の形態では、レイアウト解析を行い、そのレイアウト解析によりテキスト情報(キャプション)と非テキスト情報(図表)を識別し、これらの位置関係等に基づいてキャプションと図表との対応関係、キャプション同士の関係等を認定している。
【0045】
なお、レイアウト解析を行なった後、或いはレイアウト解析と並行して、図表等の非テキスト情報それ自体の構造、属性等の特徴を解析して、当該非テキスト情報要素を検索するための検索用メタデータを抽出することも可能である。例えば、円グラフ、図面等それ自体の中に記述されている文字列を探索する。そして、その文字列を当該円グラフ、図面等の周辺の文字ブロックの中から探索し、その文字列を含む文章を解析して当該円グラフ、図面等の特徴、属性等を認識する。解析された文章の一部の文字列等を当該円グラフ、図面等の検索用メタデータとして抽出するように構成してもよい。
【0046】
次に、文書データ中の個別図表領域群によって構成される全体図表領域、及び個別図表領域を構成する図表要素(個別の図表、画像情報)を検索するための検索用メタデータを抽出・登録する処理を、図5のフローチャートに基づいて説明する。なお、この検索用メタデータの抽出・登録処理を行うに先立って、前述のレイアウト解析処理、外部記憶装置105への図表要素、キャプション等の登録処理がなされているものとする。
【0047】
まず、CPU101は、文書データのレイアウトの解析結果に基づいて、1つの全体図表領域を外部記憶装置105から取得する(ステップS501)。ここでは、図2の1ページ分の文書データがレイアウト解析された結果、図4に示すように、図2の下半分の全体図表領域が取得されたものとして説明する。
【0048】
次に、CPU101は、取得した全体図表領域のキャプション情報を抽出する(ステップS502)。ここで、CPU101は、全体図表領域の近傍にあってサブキャプション情報として登録されていない1〜2行程度のテキスト情報を全体図表領域のキャプション情報と判断する。図2,4では、図2の「商品No.100 家具A」211という文字列が、全体図表領域のキャプション情報として抽出される。
【0049】
次に、CPU101は、ステップS501で抽出した全体図表領域、及びステップS502で抽出したキャプション情報について、強調表現がなされている場合には、その強調表現を示す強調情報を抽出する(ステップS503)。なお、図2の下半分の全体図表領域、その全体図表領域のキャプション情報については、強調表現がなされていないので、ステップS503では、強調情報が抽出されることはない。
【0050】
ここで、強調表現の形態としては、特殊な種類の文字(フォント)、文字サイズ、文字修飾、文字の色や文字の背景の色など、文字や領域それ自体に対する強調表現の他に、囲み枠、矢印などの記号により間接的に強調表現する形態が含まれる。
【0051】
そして、CPU101は、抽出した全体図表領域のキャプション情報を、当該全体図表領域を検索するための検索用メタデータとして外部記憶装置105に登録する(ステップS504)。この場合、ステップS503で強調情報を抽出した場合は、その強調情報もキャプション情報と対応付けて外部記憶装置105に登録する。
【0052】
ここで、登録する強調情報は、文書データ中で強調表現されたオリジナルの強調表現の形態そのままの情報であってもよい。しかし、メモリ容量の低減化を図るべく、例えば「太字」、「赤色」、「太枠」、「強調枠」等、強調表現の種別を示す情報を強調情報として登録するのが望ましい(後述のステップS511も同様)。更には、後述するように、強調の種別を示すことなく、全ての強調の種別に対して単に「強調」という文字を登録することも可能である。
【0053】
なお、強調表現は、一般に、重要度が高く検索対象となる頻度も高い部分に対してなされるものである。
【0054】
次に、CPU101は、ステップS501で取得した全体図表領域中の全ての個別の図表領域に対する後述のステップS506〜510の処理が完了したか否かを判別する(ステップS505)。その結果、全ての個別の図表領域に対する後述のステップS505〜510の処理が完了した場合は、CPU101は、本キャプション情報等の登録処理を終了する。
【0055】
一方、全ての個別の図表領域に対する後述のステップS506〜510の処理が未だ完了していない場合は、CPU101は、当該処理を未だ行っていない個別の図表領域を1つだけ取り出して、その個別の図表領域の図表要素のキャプション(サブキャプション)情報を抽出する(ステップS506)。
【0056】
なお、図2の例では、個別の図表要素として図表要素205,207,209が存在し、それらのサブキャプション情報として、符号206で示した「側面図」、符号208で示した「脚部の拡大図」、符号210で示した「全体図」が存在する。このうち、「脚部の拡大図」というサブキャプションについては、「脚部」という文字列の文字サイズが他の文字列の文字サイズより大きくなっており、強調表現されている。また、符号207で示した個別の図表要素については、他の個別の図表要素よりも太い枠線で囲まれており、強調表現されている。
【0057】
次に、CPU101は、ステップS506で取得した個別の図表領域、又はそのサブキャプション情報について、強調表現がなされている場合には、その強調表現を示す強調情報を抽出する(ステップS507)。
【0058】
ここで、前述のように、図2に示した個別の図表領域205,209、それら図表領域のキャプション情報206,210については、強調表現がなされていないので、ステップS506でこれら個別の図表領域205,209、そのサブキャプションを取得した場合は、ステップS507では、強調情報が抽出されることはない。一方、図2に示した個別の図表領域207、その図表領域207のキャプション情報208については、前述のように強調表現がなされている。従って、ステップS506で個別の図表要素207とそのキャプション情報208を取得した場合は、CPU101は、ステップS507で、その強調表現を示す強調情報を抽出する。
【0059】
次に、CPU101は、ステップS506で取得した個別の図表要素のステップS501で取得した全体図表領域に対する役割、関係を推定する(ステップS508)。この推定処理では、レイアウト解析しか行わない場合には、例えば、当該全体図表領域における当該個別の図表要素の位置、占有面積などの関係から、当該個別の図表要素が当該全体図表領域の一部であるものと推定することができる。
【0060】
なお、論理的な解析まで行うことにより、より正確な個別の図表要素間の関係や役割、全体図表領域と個別の図表要素の関係や役割を把握して、個別の図表要素の全体図表用領域に対するより正確な役割、関係を推定するようにしてもよい。
【0061】
次に、CPU101は、ステップS506で抽出した個別の図表要素のサブキャプションのステップS502で取得した全体図表領域のキャプションに対する役割、関係を解析する(ステップS509)。ここでは、例えば、全体図表領域のキャプションである「商品No.100家具」と個別の図表要素205のサブキャプションである「側面図」の関係が、自然言語の単語間の一番簡単な関係である修飾関係にあることが解析される。
【0062】
次に、CPU101は、当該全体図表領域のキャプションと当該個別の図表要素のサブキャプションとの関係等の特徴情報を、当該図表要素を検索するための検索用メタデータとして外部記憶装置105等の記憶媒体に登録する(ステップS510)。
【0063】
すなわち、CPU101は、キャプションとサブキャプションが修飾関係にある旨の情報も登録する。さらに、CPU101は、検索用メタデータと、その検索用メタデータで検索されるべき図表要素、及びキャプション(サブキャプションを含む)とを関連付けて外部記憶装置105に登録する。更に、CPU101は、ステップS507で強調情報を抽出した場合は、その強調情報もサブキャプション情報と対応付けて外部記憶装置105に登録する。
【0064】
そして、CPU101は、ステップS505に戻ることにより、ステップS506〜510の処理を施していない個別の図表要素が残っている場合には、その個別の図表要素についてステップS506〜510の処理を行なう。なお、図5の登録処理は、文書の各ページの各全体図表領域(個別の図表要素)に対して実行される。
【0065】
図6は、CPU101が図2の文書データに対してレイアウト解析を行い、図4のレイアウト解析結果を得た後、図5の検索用メタデータの登録処理を行なったときの概念図である。番号601が全体図表領域とそのキャプションを示している。また、番号602〜604は、個別の図表要素とそのキャプション(サブキャプション)を示している。
【0066】
図6に示したように、図2の文書データの全体図表領域を検索するための検索用メタデータとしては、当該文書データ中の全てのキャプション、サブキャプションである「商品No.100 家具A」、「側面図」、「脚部の拡大図」、「全体図」が登録されている。また、図2の文書データの個別の図表要素205を検索するための検索用メタデータとしては、図2の文書データの全体図表領域のキャプション「商品No.100家具A」と共に、図表要素205のサブキャプションである「側面図」が登録されている。また、キャプション「商品No.100家具A」とサブキャプション「側面図」は、「修飾」の関係にあることも登録されている。
【0067】
また、図2の文書データの図表要素207を検索するための検索用メタデータとしては、図2の文書データのキャプション「商品No.100 家具A」と共に、図表要素207のサブキャプションである「脚部の拡大図」が登録されている。また、キャプション「商品No.100家具A」とサブキャプション「脚部の拡大図」は、「修飾」の関係にあることも登録されている。
【0068】
更に、サブキャプション「脚部の拡大図」中の文字列「脚部」の文字サイズが他の文字列「の拡大」等より大きく、「脚部」が強調表現されているので、その旨の強調情報(強調)が当該サブキャプションを構成する単語「脚部」に付加されている。また、個別の図表要素である脚部の拡大図それ自体は、太い枠線で囲まれて、当該脚部の拡大図が強調表現されているので、当該「脚部の拡大図」というサブキャプション全体に対してその旨の強調情報(強調)が付加されている。この検索用メタデータに付加された強調情報は、後述するように、文書データ中の所望の図表を的確かつ迅速に検索するために利用される。
【0069】
同様に、図2の文書データの図表要素209を検索するための検索用メタデータとしては、図2の文書データのキャプション「商品No.100家具A」と共に、図表要素209のサブキャプションである「全体図」が登録されている。また、キャプション「商品No.100 家具A」とサブキャプション「全体図」は、「修飾」の関係にあることも登録されている。
【0070】
なお、例えば、『商品No.100 家具A―(修飾)―側面図』という検索用メタデータと、『商品No.100 家具A―(修飾)―全体図』という検索用メタデータとは、間接的に、「側面図」と「全体図」との間に関係があることを示している。従って、個々の非テキスト情報同士の関係、すなわちサブキャプション同士の関係を検索用メタデータとして用いることも可能である。
【0071】
次に、検索処理について説明する。文書データ中の図表等の非テキスト情報を検索する場合は、ユーザにより入力された検索条件としての文字列と類似する検索用メタデータが用いられる。
【0072】
例えば、検索条件として「イスAの脚部図」という文字列が入力されたものとする。なお、上記の検索条件としての文字列のうち、「イスA」は、肉太の文字列として入力されたものとする。この場合、CPU101は、図7に示したように、検索条件である「イスAの脚部図」という文字列を形態素解析して単語に分解し、その単語の品詞や分類別に検索指示情報としての重要度を決める。
【0073】
この際、「イスA」は、肉太の文字列として入力されているので、CPU101は、この「イスA」については、検索指示情報としての重要度を高めに設定する。すなわち、図7に示したように、肉太でない通常の形態の文字列で入力された名詞「脚部」、接尾語「図」の重要度としては「80」が設定されている。これに対し、肉太の形態の文字列で入力された名詞「イス」の重要度としては、通常形態の「80」より高い「90」が設定されている。また、肉太の形態の文字列で入力された名詞のうち、固有名詞「A」の重要度は、更に高い「100」が設定されている。なお、助詞「の」の重要度としては、「0」が設定されている。
【0074】
また、CPU101は、「A」と「脚部」の間に修飾関係が存在することを認定する。
さらに、図示省略したが、CPU101は、検索用メタデータについても、検索条件と同様に重要度を決定する。この場合の重要度の決定方法は、検索条件の場合と同様の方法を用いることができる。
【0075】
そして、CPU101は、検索条件と検索用メタデータの重要度を用いて、両者の類似度を評価する。
【0076】
すなわち、CPU101は、検索条件に係る単語と意味が似ている単語を含む検索用メタデータを探し、それら単語同士の意味の類似度を検索条件と当該検索用メタデータの類似度とする。また、CPU101は、検索条件に係る単語と意味が類似する単語を検索用メタデータが多く含むほど、その検索用メタデータの検索条件に対する類似度を高く評価する。
【0077】
さらに、CPU101は、検索条件中の類似に係る単語同士の修飾関係と、検索用メタデータ中の類似に係る単語同士の修飾関係とが類似している場合は、その検索用メタデータの検索条件に対する類似度をより一層高く評価する。
【0078】
なお、上記のように、検索条件、及び検索用メタデータにおいて、強調表現に係る単語等には高い重要度が設定される。従って、検索条件と検索用メタデータを比較して両者の類似度を評価する場合、意味が同一又は類似の単語について、検索条件、又は検索用メタデータの何れか一方が強調表現されているときは、通常よりも類似度が高く評価される。また、意味が同一又は類似の単語について、検索条件と検索用メタデータの双方で強調表現されているときは、より一層、類似度が高く評価される。
【0079】
そして、CPU101は、検索条件と類似する検索用メタデータと関連付けられた図表等の非テキスト情報を、検索結果として表示器106に表示する。この場合、CPU101は、検索条件との類似度が高く評価された検索用メタデータの順に検索処理を行なうと共に、その検索順に、当該検索用メタデータに関連付けられた非テキスト情報を配列して表示器106に表示させる。
【0080】
例えば、上記の「イスAの脚部図(イスAは肉太で強調)」を検索条件とした場合、この検索条件に対する図2の非テキスト情報の類似度の順番は、図6に示す番号603,601,603,604の順番となり、この順番に検索結果として表示される。
【0081】
また、「商品No.家具A」を検索条件とした場合、最も評価の高い非テキスト情報は、番号601となり、続いて番号602〜604が同じ類似度となる。従って、検索結果として番号601が先頭に表示され、番号602〜604が順不同に表示される。
【0082】
以上説明したように、非テキスト情報の領域と個別の非テキスト情報との関係を加味した検索用データを用いて非テキスト情報の領域、個別の非テキスト情報を検索できるので、文書中の所望の非テキスト情報の領域、個別の非テキスト情報を高精度に検索することが可能となる。
【0083】
また、強調表現された検索条件、検索用メタデータについては、類似度評価に用いる重要度を高く設定するので、重要な非テキスト情報を簡単、かつ迅速に検索することが可能となる。
【0084】
なお、非テキスト情報を検索するための検索用メタデータは、当該非テキスト情報が属する領域だけでなく、その近傍のテキスト領域から抽出することも可能である。また、レイアウト解析だけでなく、キャプションの形態素解析、非テキスト情報の構造や関係の論理的な解析を行なうことにより、より詳細な検索用データの関係を得ることも可能である。この場合は、より一層、高精度に非テキスト情報等を高精度に検索できるようになる。
【0085】
次に、実際の検索画面を図8に基づいて説明する。ユーザが入力部104の操作により文書検索処理を指示すると、CPU101は、図8に示した文書検索ウィンドウ801を表示器106の画面上に表示させる。
【0086】
この文書検索ウィンドウ801には、タイトルバー802が形成されている。このタイトルバー801には、当該ウィンドウのタイトルとして「文書検索」が表示されている。
【0087】
また、文書検索ウィンドウ801には、検索用のウィンドウ803が形成され、このウィンドウ803には、検索条件を入力するための検索条件入力ボックス804と、検索結果を表示するための検索結果表示ボックス805が形成されている。
【0088】
検索条件入力ボックス804には、単純な単語だけでなく、単語間、又は文節間の関係情報を持つ自然言語における文章などの形式で、検索条件を入力することができる。図8の例では、検索条件入力ボックス804には、「イスAの脚部図」という文字列が、検索条件として表示されている。また、「イスA」という文字列は、肉太の文字列で強調されている。このような検索条件入力ボックス804に対する検索条件の入力は、図1の入力部104等を用いて行なうことができる。
【0089】
まず、ユーザは、検索条件入力ボックス804に検索条件を入力した状態で所定のボタンを操作する。すると、CPU101は、その入力操作の検出に応じて、入力に係る検索条件と類似性のある検索用メタデータを外部記憶装置105上で検索する。そして、CPU101は、この検索用メタデータに関連付けられた非テキスト情報の領域である全体図表領域、非テキスト情報である個々の図表要素等を読出して、検索結果として検索結果表示ボックス805に表示する。この際、CPU101は、検索結果表示ボックス805には、検索結果(図8の符号806,808,809参照)を類似度の高い順に表示するだけでなく、検索結果の検索用メタデータと関係性のあるメタデータを選択可能に表示する。
【0090】
すなわち、検索条件が「イスAの脚部図(イスAは肉太で強調)」の場合、この検索条件の文字列の中で、「脚部図」という文字列と全く同一の文字列が、図6に示したように、番号603に係る検索用メタデータ「商品No.100家具A−(修飾)―“”脚部“<強調>の拡大図”<強調>」の中に含まれている。さらに、この番号603に係る検索用メタデータには、上記のように、検索条件の文字列の中の「A」という文字も含まれている。
【0091】
しかも、「A」は、検索条件、及び検索用メタデータの双方において強調表現されている。また、「脚部」は、検索用メタデータにおいて、大きな文字サイズの形態で強調表現されている。
【0092】
従って、CPU101は、検索条件との類似性が一番高い検索用メタデータは、「商品No.100家具A−(修飾)―“”脚部“<強調>の拡大図”<強調>」であると認定する。そして、CPU101は、検索用メタデータと関連付けられた「脚部の拡大図」(図2の図面207)を、検索結果806として検索結果表示ボックス805の1番上に表示する。
【0093】
また、この検索結果806の検索用メタデータ「脚部の拡大図」には、上記のように、「商品No.100家具A」という検索用メタデータと「修飾」の関係性がある旨の情報が付与されている。そこで、CPU101は、検索結果806に対して、「商品No.100家具A(図全体)」という検索用メタデータを、該当部分のビュー選択として表示器106の画面上に表示させている(図8の符号807参照)。
【0094】
また、該当部分のビュー選択として表示した検索用メタデータには、「○」印で示したチェックボックスが配備されている。このチェックボックスにチェックマークを入れて所定のボタンを操作すると、CPU101は、このチェックボックスに対応する検索用メタデータに関連付けられた情報を、検索結果として現在表示されている検索結果に代えて表示する。
【0095】
例えば、ユーザは、符号807の「商品No.100家具A(図全体)」に対応するチェックボックスにチェックマークを入れて当該図表領域全体を選択し、所定のボタンを操作して当該選択を確定したとする。この操作に応じてCPU101が検索結果を表示処理すると、検索結果806の表示エリアの表示内容は、「脚部の拡大図」から「家具Aの図全体」に変化する。このように、現在表示中の検索結果と関係のある他の情報簡単に表示させることができるので、所望の情報を的確に検索して再利用することが可能となる。
【0096】
図8では、「○」印の中の黒色がチェックマークを示している。このチェックマークは、検索結果を最初に表示する場合は、その検索結果に係る検索用メタデータに対してデフォルトで入れられている。
【0097】
CPU101は、最初に表示器106に検索結果を表示させる場合は、検索条件に係る文字列(言語表現)と類似度の高かった検索用メタデータの順に、当該検索用メタデータと関連付けられた非テキスト情報を検索結果として表示する。ただし、非テキスト情報の領域(図表領域全体)に係る検索用メタデータより高い類似度の検索用メタデータを持つ非テキスト情報(個々の図表要素等)が1つでも存在する場合は、それを包含する非テキスト情報(図表領域全体)は、最初の検索結果としては表示しないように構成されている。
【0098】
その理由は、前述のような最初に検索結果として表示した個々の図表要素に対する該当部分のビュー選択操作により、相対的に低い類似度に係る図表領域全体を漏れなく表示できるからである。これにより、限られた面積の表示画面を有効に利用して1つの表示画面により多くの検索結果を表示することができるので、所望の図表等を迅速に見つけることが可能となって、利便性が向上する。
【0099】
また、検索条件に対する類似度において、図表要素に係る検索用メタデータの類似度が一番高い場合は、CPU101は、図表要素も最初の検索結果として表示する。この場合、CPU101は、その検索結果(非テキスト情報の領域)に対応するビュー選択に係る検索用メタデータとしては、当該領域内の全ての個々の非テキスト情報の検索用メタデータを表示する。
【0100】
なお、上記の説明では、検索用メタデータの関係性として、図表領域全体と個々の図表要素(全体と部分)のような修飾関係だけを例示しているが、例えば上位概念と下位概念等の他の関係性を利用してもよい。また、所望の検索結果をより一層的確に選択して再利用できるようにするため、表示する各検索用メタデータに対して、検索条件との類似度を付加して表示することも可能である。この場合、一般的には数字で類似度を表示することが考えられるが、一瞥して類似度を認識できるように、グラフ等で類似度を表示することも可能である。
【0101】
[第2の実施の形態]
第1の実施の形態では、非テキスト情報が「図面」の場合を例示したが、非テキスト情報が「表」の場合にも、第1の実施の形態とほぼ同様の手法で検索用メタデータの作成処理等を行うことが可能である。この場合は、表それ自体の構造を解析して項目名を認定し、その項目名を検索用メタデータとして、その項目名に係る項目値と関連付けて登録すればよい。また、検索結果を表示する際には、その検索結果に対応する項目名が例えば表の横の列の項目名である場合は、縦の列の項目名と、表全体を上記のビュー選択の検索用メタデータとして表示するように構成すればよい。
【0102】
なお、表中の項目名は表の構成要素であり、サブキャプション(図表要素の説明)としての性格を有する。この表に対して、表の名称等が付与されていれば、表の名称等がキャプションとして機能する。また、表の場合には、横の列の項目名(構成要素)と縦の列の項目名(構成要素)との関係を検索用メタデータとして用いることにより、1つの項目値を直接検索することができる。
【0103】
以下、図9の文書を用いて、表に対する検索用メタデータの作成処理等を説明する。図9に示した1ページ分の文書データ901は、本文902(テキスト情報)、見出し(テキスト情報)903、見出し903に続く文章904の文章を有している。
【0104】
また、当該ページの下半分には、表905が記載されている。この表905は、表の縦の列の見出し(項目名)906、表の横の列の見出し(項目名)907を有している。この表905は、「商品別年間売上」というキャプション910が示すように、商品別の年間売上を記録したものである。従って、縦の列の見出し906としては年度が記載され、横の列の見出し907としては商品名が記載されている。そして、表905の項目値領域には、各商品の年度別売上げ個数908,909が記録されている。また、当該ページの下方には、符号911で示したページ番号「11」が記載されている。
【0105】
このような表905に第1の実施の形態を適用する場合は、表905の見出し906,907を図表要素のキャプション(サブキャプション)と同様に扱えばよい。また、表905の外部の下側に記載された文字列「商品別年間売上」を当該表905のキャプションとして扱えばよい。さらに、2001年度の商品Bの売上個数909は、網掛けが施されて強調されている。従って、この2001年度の商品Bの売上個数909に係る検索用メタデータの重要度を高く設定すればよい。
【0106】
すなわち、図9の文書データ901の下半分の表領域に対して、第1の実施の形態と同様の手法で検索用メタデータを抽出すると、図10のようになる。図10において、番号1001が表領域全体とそのキャプションを示している。また、番号1002,1003は、それぞれ、「商品B」の2000年度、2001年度の売上個数とそのキャプション(サブキャプション)を示している。
【0107】
図10に示したように、図9の文書データの下半分の表領域全体を検索するための検索用メタデータとしては、当該表領域中の全てのキャプション、サブキャプションである「商品別年間売上」、「2000年」、「2001年」等の年度、「商品A」、「商品B」、「商品C」等の商品名が登録されている。
【0108】
また、図9の表905の「商品B」の図表要素(売上個数)908を検索するための検索用メタデータとしては、番号1002に示したように、「100個」、当該表領域全体のキャプション「商品別年間売上」と、図表要素908のサブキャプションである「2000年」と「商品B」が登録されている。また、キャプション「商品別年間売上」とサブキャプション「2000年」との間、及びサブキャプション「2000年」とサブキャプション「商品B」との間に「修飾」の関係があることも登録されている。
【0109】
さらに、図9の表905の「商品B」の図表要素(売上個数)909を検索するための検索用メタデータは、番号1003に示したように登録されている。すなわち、「1234個」、当該表領域全体のキャプション「商品別年間売上」と、図表要素909のサブキャプションである「2001年」と「商品B」が登録されている。また、キャプション「商品別年間売上」とサブキャプション「2001年」との間、及びサブキャプション「2001年」とサブキャプション「商品B」との間に「修飾」の関係があることも登録されている。
【0110】
また、「商品B」の「2001年度」の売り上げ個数「1234個」は、網掛けの形態で強調表現されている。その旨の強調情報(強調)が当該サブキャプションを構成する単語「2001年」と「商品B」に付加され、更にそれらサブキャプションの項目値である「1234個」にも強調情報(強調)が付加されている。
【0111】
このような「表」に係る検索用メタデータと入力に係る検索条件とを比較して両者の類似度を評価することにより、「表全体」、及び「表」に記載されたデータについても検索することが可能となる。また、検索処理においては、強調表現されたデータは、検索条件との類似度が高く計算されて優先的に検索結果として表示される。従って、強調表現された重要事項を簡単、かつ迅速に検索することが可能となる。
【0112】
[第3の実施の形態]
第1、第2の実施の形態では、図表領域それ自他の中から、当該図表領域、或いは当該図表領域内の個別の図表要素を検索するための検索用メタデータを抽出していた。
【0113】
これに対し、図表領域の近傍の領域のテキスト情報からも検索用メタデータを抽出することも可能である。これは、図表の近傍のテキスト情報には、当該図表について説明した部分が存在する可能性が高いという文書の特性を考慮したものである。
【0114】
図表領域の近傍の領域のテキスト情報から検索用メタデータを抽出する手法は、第1、第2の実施の形態と同様の手法を援用することができる。例えば、第1、第2の実施の形態と同様に、図表領域全体のキャプションと、その中の個別の図表要素のキャプション(サブキャプション)との間の言語表現的な関係を推定する。そして、その言語表現的な関係に類似する文言を、当該図表領域の近傍のテキスト情報の中から抽出し、当該図表領域、又はその図表要素を検索するための検索用メタデータとして追加登録する。
【0115】
このような第3の実施の形態における検索用メタデータの抽出処理を、図11のフローチャートに基づいて説明する。なお、図11におけるステップS1101〜S1110の処理は、図5のステップS501〜S510と全く同様であり、その詳細な説明は省略する。
【0116】
CPU101は、ステップS1101〜S1110の処理により、ステップS1101で取り出した図表領域の中から当該図表領域、又はその図表要素を検索するための検索用メタデータを抽出して登録する。
【0117】
次に、CPU101は、当該図表領域の近傍のテキスト情報の中から、ステップS1109にて抽出した図形領域(全体図表領域)のキャプションと図形要素のキャプション(サブキャプション)との間の言語表現的な関係に類似する文言(言語表現)を探索する(ステップS1111)。
【0118】
なお、図表領域の近傍のテキスト情報は、必ずしも当該図表領域と同一のページのテキスト情報である必要はない。例えば、ページの先頭部分、或いは最終部分に図表が存在する場合は、当該図表の前のページ、又は次のページのテキスト情報の中から検索用メタデータを抽出することができる。
【0119】
また、近傍の程度(範囲)は、任意であり、この近傍の程度をユーザが文書の種類、特性等に応じて設定できるようにしてもよい。
【0120】
さらに、近傍は、例えば行単位、ページ単位等の物理的な離間距離だけでなく、文書の「節」単位等の文書の構成単位で設定することも可能である。
【0121】
次に、CPU101は、上記の類似する言語表現が図表領域の近傍のテキスト情報の中に存在していたか否かを判別し(ステップS1112)、存在していなかった場合は、ステップS1105に戻る。
【0122】
一方、類似する言語表現が図表領域の近傍のテキスト情報の中に存在していた場合は、その類似する言語表現の中に強調表現が有れば、その強調表現を抽出する(ステップS1113)。
【0123】
次に、CPU101は、ステップS1111,S1113で得られた類似する言語表現、強調表現を、当該図表領域、その図表要素を検索するための検索用メタデータとして外部記憶装置105に追加登録する(ステップS1114)。この場合、類似する言語表現、強調表現は、そのままの形で登録されることなく、図6、図10のように形態素解析された状態で、かつキャプションとサブキャプションの関係・役割を明示した状態で登録される。
【0124】
次に、上記の処理を図2の文書の例で説明する。図2の図表領域の場合は、テキスト情報204の中から「ここでは、家庭用の家具として、床を傷つけないように脚部の接地部分に工夫を施した家具Aについて・・・。」といった言語表現が、類似する言語表現として見つかる。また、アンダーラインが付された「脚部の接地部分」は、強調表現されていることが認定される。
【0125】
そして、図6のように、この類似する言語表現を形態素解析して語彙単位にしたものが、強調表現がなされていた旨の情報が付加されて、検索用のメタデータとして登録される。
【0126】
また、図9の表については、909の項目値に関して、テキスト情報904の中から「特筆すべきは商品Bの売り上げ個数の2001年の急速な拡大であり、・・・。」といった言語表現が見つかる。また、アンダーラインが付された「商品Bの売上個数の、2001年の急速な拡大」は、強調表現されていることが認定される。
【0127】
そして、図10のように、この類似する言語表現を形態素解析して語彙単位にしたものが、強調表現がなされていた旨の情報が付加されて、検索用のメタデータとして登録される。
【0128】
なお、図表領域内の図表要素のキャプションに対してのみ類似関係が発生している検索用メタデータは、その図表要素を検索するための検索用メタデータとして登録する。また、図表領域全体のキャプションとその図表要素のキャプションとの双方に対して類似関係が発生している検索用メタデータは、全体図表領域、及び図表要素を検索するための検索用メタデータとして登録する。
【0129】
また、本発明の目的は、前述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。
【0130】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した各実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0131】
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW等の光ディスク、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。
【0132】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施の形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。
【0133】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。
【図面の簡単な説明】
【0134】
【図1】本発明の第1〜第3の実施の形態に係る情報処理装置の基本構成を示すブロック図である。
【図2】第1の実施の形態を説明するための文書例を示す図である。
【図3】図2の文書のレイアウト解析の解析結果をXMLで記述した図である。
【図4】図2の文書のレイアウト解析の解析結果を示す概念図である。
【図5】第1,第2の実施の形態における検索用メタデータの抽出処理を示すフローチャートである。
【図6】図2の文書に対して図5の処理を行なった場合の検索用メタデータの登録状態を示す概念図である。
【図7】検索処理を行なう場合の検索条件に係る文字列の解析例を示す概念図である。
【図8】第1の実施の形態に係る検索結果の表示例を示す図である。
【図9】第2の実施の形態を説明するための文書例を示す図である。
【図10】図9の文書に対して図5の処理を行なった場合の検索用メタデータの登録状態を示す概念図である。
【図11】第3の実施の形態における検索用メタデータの抽出処理を示すフローチャートである。
【符号の説明】
【0135】
101…CPU
102…ROM
103…RAM
104…入力部
105…外部記憶装置
106…表示器
805…検索結果表示ボックス
【特許請求の範囲】
【請求項1】
文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置であって、
前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出手段と、
前記抽出手段により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成手段と、
前記作成手段により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録手段と、
入力に係る検索条件と、前記登録手段により登録された前記メタデータとを比較して非テキスト情報を検索する検索手段とを有し、
前記抽出手段は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成手段は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする情報処理装置。
【請求項2】
前記抽出手段は、非テキスト情報が存在する所定範囲の領域の中から当該非テキスト情報に関連する言語表現を抽出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記抽出手段は、非テキスト情報が存在する所定範囲の領域の近傍のテキスト情報の領域の中から当該非テキスト情報に関連する言語表現を抽出することを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記検索手段は、入力に係る検索条件と前記登録手段により登録された前記メタデータとを比較することにより両者の類似度を評価し、類似度の高い順に当該メタデータに関連付けられた非テキスト情報を前記記憶媒体から読み出して検索結果として表示することを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記検索手段は、前記強調情報が付加されたメタデータについては、類似度を高く評価することを特徴とする請求項1に記載の情報処理装置。
【請求項6】
文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置の制御方法であって、
前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出工程と、
前記抽出工程により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成工程と、
前記作成工程により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録工程と、
入力に係る検索条件と、前記登録工程により登録された前記メタデータとを比較して非テキスト情報を検索する検索工程とを有し、
前記抽出工程は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成工程は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする情報処理装置の制御方法。
【請求項7】
請求項6に記載の制御方法を実行するプログラム。
【請求項1】
文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置であって、
前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出手段と、
前記抽出手段により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成手段と、
前記作成手段により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録手段と、
入力に係る検索条件と、前記登録手段により登録された前記メタデータとを比較して非テキスト情報を検索する検索手段とを有し、
前記抽出手段は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成手段は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする情報処理装置。
【請求項2】
前記抽出手段は、非テキスト情報が存在する所定範囲の領域の中から当該非テキスト情報に関連する言語表現を抽出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記抽出手段は、非テキスト情報が存在する所定範囲の領域の近傍のテキスト情報の領域の中から当該非テキスト情報に関連する言語表現を抽出することを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記検索手段は、入力に係る検索条件と前記登録手段により登録された前記メタデータとを比較することにより両者の類似度を評価し、類似度の高い順に当該メタデータに関連付けられた非テキスト情報を前記記憶媒体から読み出して検索結果として表示することを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記検索手段は、前記強調情報が付加されたメタデータについては、類似度を高く評価することを特徴とする請求項1に記載の情報処理装置。
【請求項6】
文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置の制御方法であって、
前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出工程と、
前記抽出工程により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成工程と、
前記作成工程により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録工程と、
入力に係る検索条件と、前記登録工程により登録された前記メタデータとを比較して非テキスト情報を検索する検索工程とを有し、
前記抽出工程は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成工程は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする情報処理装置の制御方法。
【請求項7】
請求項6に記載の制御方法を実行するプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2008−134954(P2008−134954A)
【公開日】平成20年6月12日(2008.6.12)
【国際特許分類】
【出願番号】特願2006−322156(P2006−322156)
【出願日】平成18年11月29日(2006.11.29)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成20年6月12日(2008.6.12)
【国際特許分類】
【出願日】平成18年11月29日(2006.11.29)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]