情報収集方法、装置及びプログラム

【課題】Ｗｅｂ文書に含まれるタグに基づいて、項目、属性及び属性値の関係を有する情報を抽出することにより、項目に関する情報をＷｅｂ文書から自動的に収集する。
【解決手段】情報収集装置１は、通信ネットワークＮを介してアクセス可能なＷｅｂ文書から、Ｗｅｂ文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段１２と、抽出した表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶する属性関係抽出手段１３と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、Ｗｅｂ文書に記載された情報を収集する情報収集方法、装置及びプログラムに関する。
【背景技術】
【０００２】
従来、ある特定の項目に関しＷｅｂ文書から情報を得たい場合、Ｗｅｂ文書を一つ一つ閲覧し、情報を収集しなければならなかった。
【０００３】
そこで、パソコンに関する情報を調べたい場合には、非特許文献１に記載の技術によれば、一覧表等で表示する情報に基づいて、ユーザは、様々なメーカー、販売会社毎にパソコンに関するを情報を探索することができるようになっている。
【非特許文献１】［ｏｎｌｉｎｅ］、［平成２０年６月１８日検索］、インターネット〈ＵＲＬ：ｈｔｔｐ：／／ｋａｋａｋｕ．ｃｏｍ／ｐｃ／ｄｅｓｋｔｏｐ−ｐｃ／〉
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、非特許文献１に記載の技術によっても、パソコンに関する情報を人手により収集、蓄積して再編集しているために、その作業に要する時間と労力は膨大なものとなる。また、非特許文献１に記載の技術は、特定の商品について提供されるものであり、取り扱いのない商品や、商品以外のものについて調べようとすると、蓄積情報のカバレッジの面で限界がある。
【０００５】
そこで、本発明は、このような事情を考慮して提案されるものであり、Ｗｅｂページ上に分散して存在している共通の項目やその属性および属性値の関係にある情報を自動的に収集する情報収集方法、装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
上記目的を達成するために、本発明者は、項目に関する情報を複数のＷｅｂ文書から自動的に収集する仕組みを見出し、本発明を想到するに至った。
【０００７】
本発明に係る情報収集方法は、Ｗｅｂ文書に含まれるタグに基づいて、項目、属性及び属性値の関係を有する情報を抽出することにより、項目に関する情報をＷｅｂ文書から自動的に収集するものである。
【０００８】
（１）情報収集装置が、通信ネットワークを介してアクセス可能なＷｅｂ文書から、前記Ｗｅｂ文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出するステップと、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出するステップと、
抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶するステップと、を少なくとも実行することを特徴とする情報収集方法。
【０００９】
（１）に記載の発明の構成によれば、Ｗｅｂ文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出し、抽出した表形式あるいはデータベース形式の情報から、タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び当該属性の内容を示す属性値の関係を有する情報を抽出する。
【００１０】
このことにより、項目、属性及び属性値の関係を有する情報を複数のＷｅｂ文書から自動的に収集することが可能となる。
【００１１】
ここで、前記表形式の情報とは、カンマ区切り、スペース区切りなどにより表と同等の表現がされた平文により示された情報も含む。
【００１２】
また、所定の項目に対して、より多くのＷｅｂ文書において共通して従属する情報を、より大きなウェイトを掛けて属性及び属性値として抽出してもよい。また、所定の項目に対して、所定の閾値を超える数のＷｅｂ文書において共通して従属することがない情報は、当該属性及び属性値として抽出しないこととしてもよい。
【００１３】
ここで、抽出して記憶した属性及び属性値は、項目に関するＷｅｂ文書を検索する際の検索クエリーの示唆等に活用することができる。
【００１４】
（２）前記抽出するステップは、前記表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出する（１）に記載の方法。
【００１５】
（２）に記載の発明の構成によれば、表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出する。
【００１６】
このことにより、Ｗｅｂ文書において表形式の情報のタイトルが表示されることが多い位置に位置する情報を当該表形式の情報に対する項目として抽出することができる。
【００１７】
ここで、上述の様に、当該関係を有する頻度に応じて、ウェイトを掛けたり、当該頻度が所定の閾値に達するまで、当該抽出を行なわないこととして、精度を上げてもよい。
【００１８】
（３）前記抽出するステップは、前記表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出する（１）または（２）に記載の方法。
【００１９】
（３）に記載の発明の構成によれば、前記表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出する。
【００２０】
このことにより、Ｗｅｂ文書において表形式の情報の属性が表示されることが多い位置に位置する情報を属性として、その属性の内容が表示されることが多い位置に位置する情報を属性値として抽出することができる。
【００２１】
ここで、上述の様に、当該関係を有する頻度に応じて、ウェイトを掛けたり、当該頻度が所定の閾値に達するまで、当該抽出を行なわないこととして、精度を上げてもよい。
【００２２】
（４）前記抽出するステップは、前記データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出する（１）から（３）のいずれかに記載の方法。
【００２３】
（４）に記載の発明の構成によれば、データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出する。
【００２４】
このことにより、Ｗｅｂ文書においてデータベース形式の情報の属性が表示されることが多い位置に位置する情報を属性として、その属性の内容が表示されることが多いデータベース形式の情報を属性値として抽出することができる。
【００２５】
ここで、上述の様に、当該関係を有する頻度に応じて、ウェイトを掛けたり、当該頻度が所定の閾値に達するまで、当該抽出を行なわないこととして、精度を上げてもよい。
【００２６】
（５）前記表形式あるいはデータベース形式の情報を抽出する際に基づく前記タグが、プルダウンリストを形成するＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）タグ、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）文書に含まれるタグ又はＨＴＭＬのテーブルタグである（１）から（４）のいずれかに記載の方法。
【００２７】
（５）に記載の発明の構成によれば、プルダウンリストを形成するＨＴＭＬタグ、ＸＭＬ文書に含まれるタグ又はＨＴＭＬのテーブルタグに基づいて表形式あるいはデータベース形式の情報と判断するので、Ｗｅｂ文書に含まれるタグの一致を判定することにより自動的に表形式あるいはデータベース形式の情報を抽出することができる。
【００２８】
（６）（１）から（５）のいずれかに記載の方法をコンピュータに実行させることを特徴としたプログラム。
【００２９】
（７）通信ネットワークを介してアクセス可能なＷｅｂ文書から、前記Ｗｅｂ文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段と、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶する属性関係抽出手段と、を備えたことを特徴とする情報収集装置。
【発明の効果】
【００３０】
この発明によれば、Ｗｅｂ文書に含まれるタグに基づいて、項目、属性及び属性値の関係を有する情報を抽出することにより、Ｗｅｂページ上に分散して存在している共通の項目やその属性および属性値の関係にある情報を自動的に収集することができる。
【発明を実施するための最良の形態】
【００３１】
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
［情報収集装置と関連要素の全体構成］
【００３２】
図１において、情報収集装置１は、通信ネットワークとしてのインターネットＮを通じて複数のＷｅｂサーバ装置２に接続される。インターネットＮとの接続は、有線であるか無線であるかを問わない。
【００３３】
情報収集装置１は、複数のＷｅｂサーバ装置２からＷｅｂ文書を取得する。各Ｗｅｂサーバ装置２は、情報収集装置１からのリクエストに応じて種々のＷｅｂ文書を提供する。
［情報収集装置の機能構成］
【００３４】
図２は、本実施形態に係る情報収集装置１の機能構成の概要を示す図である。情報収集装置１は、Ｗｅｂ文書蓄積手段１１、情報群抽出手段１２及び属性関係抽出手段１３を備えている。また、Ｗｅｂ文書ＤＢ１５、情報群記憶部１６及び属性関係ＤＢ１７を有する（ＤＢはデータベースの略）。
【００３５】
Ｗｅｂ文書蓄積手段１１は、Ｗｅｂサーバ装置２からＷｅｂ文書を取得しＷｅｂ文書ＤＢ１５に格納する。情報群抽出手段１２は、Ｗｅｂ文書ＤＢ１５に蓄積されたＷｅｂ文書を読み出し、読み出した当該Ｗｅｂ文書に含まれるタグに基づき、表形式又はデータベース形式の情報を抽出し情報群記憶部１６に格納する。属性関係抽出手段１３は、情報群記憶部１６に格納された表形式又はデータベース形式の情報を読み出し、読み出した当該情報に含まれるタグに基づき、当該情報に含まれる項目、属性及び属性値の関係を有する情報を抽出し、抽出した当該情報を属性関係ＤＢ１７に登録する。Ｗｅｂ文書蓄積手段１１、情報群抽出手段１２及び属性関係抽出手段１３は、コンピュータがプログラムを実行することによって実現される。
【００３６】
また、Ｗｅｂ文書ＤＢ１５、情報群記憶部１６及び属性関係ＤＢ１７は、後述のハードウェアに含まれる記憶装置４１０の一領域に設けられている。
［各種データベースと関連要素の構成］
【００３７】
図３は、Ｗｅｂ文書ＤＢ１５、情報群記憶部１６及び属性関係ＤＢ１７と関連要素の構成の概要を示す図である。
【００３８】
図３（ａ）に示すように、Ｗｅｂ文書ＤＢ１５は、文書ＩＤと、通信ネットワーク上で配信されているＷｅｂ文書のＵＲＬ等のネットワーク上のアドレス及びこのＷｅｂ文書の記述であるソースコードと、をそれぞれ対応付けて記憶している。
【００３９】
図３（ｂ）及び（ｃ）に示すように、情報群記憶部１６には、Ｗｅｂ文書のソースコードから抽出された表形式又はデータベース形式の情報が当該表形式又はデータベース形式を構成するタグと共に格納される。
【００４０】
図３（ｅ）に示すように、属性関係ＤＢには、表形式又はデータベース形式の情報から抽出された項目、属性及び属性値の関係を有する情報が格納される。
【００４１】
図３（ｄ）に示すように、本実施形態では、表形式又はデータベース形式の情報から項目、属性及び属性値の関係を有する情報を抽出する際に利用する属性辞書１４を備えている。
【００４２】
図３（ｂ）及び（ｃ）は、Ｗｅｂ文書から抽出される表形式又はデータベース形式の情報の例である。例えば、ＰＣ販売会社ＡのＷｅｂページ（Ｗｅｂ文書）が、図３（ｂ）に示す表形式又はデータベース形式の情報を含んでおり、ＰＣ販売会社ＢのＷｅｂページ（Ｗｅｂ文書）が、図３（ｃ）に示す表形式又はデータベース形式の情報を含んでいるものとする。
【００４３】
当該情報は、プルダウンリストを形成する一群のＨＴＭＬとして記述されている場合、ＸＭＬ文書として記述されている場合、テーブルタグにより表を形成する一群のＨＴＭＬとして記述されている場合など、種々考えられる。
【００４４】
プルダウンリストを形成する一群のＨＴＭＬとして記載されている場合は、例えば＜Ｓｅｌｅｃｔ＞タグの開始タグと終了タグを判定し、当該開始タグおよび終了タグとその間にある要素の内容とを抽出することが考えられる。
【００４５】
また、ＸＭＬ文書として記載されている場合は、ＸＭＬインスタンスが情報の階層構造を持つので、例えば、ＸＭＬインスタンスの最上位の開始タグと終了タグとの間にある要素の内容を抽出することが考えられる。
【００４６】
また、テーブルタグにより表を形成する一群のＨＴＭＬとして記述されている場合は、例えば、＜Ｔａｂｌｅ＞タグの開始タグと終了タグを判定し、当該開始タグおよび終了タグとその間にある要素の内容とを抽出することが考えられる。
【００４７】
本実施形態において、図３（ｂ）の情報は、テーブルタグにより、１列目に項目「ノートＰＣ」が記述され、１行目にノートＰＣの属性として「ＣＰＵ」、「クロック」が記述され、「ＣＰＵｘｘｘ」、「ＣＰＵｙｙｙ」が属性「ＣＰＵ」の属性値として記述され、「１．５ＧＨｚ」、「２．０ＧＨｚ」が属性「クロック」の属性値として記述されているものとする。
【００４８】
なお、項目、属性及び属性値の関係がこれらのＷｅｂ文書の基礎となるデータを格納しているデータベースサーバ等に蓄積され、ＣＧＩ等のプログラムを用いて取得する構造となっている場合には、これらのＣＧＩ等のプログラムを実行することにより、これらの関係を有する情報を収集する。
【００４９】
また、本実施形態において、図３（ｃ）の情報は、テーブルタグにより形成されているものとし、＜Ｔａｂｌｅ＞タグの要素内容として記述された＜Ｃａｐｔｉｏｎ＞タグの要素内容の一部に、項目「ノートパソコン」が記述され、その直後の表の１行目に、項目「ノートパソコン」の属性として「ＣＰＵ」、「クロック」が記述され、以降、属性「ＣＰＵ」の属性値として、「ＣＰＵｚｚｚ」、「ＣＰＵｐｐｐ」が記述され、属性「クロック」の属性値として、「８００ＭＨｚ」、「３．２ＧＨｚ」が記述されているものとする。
【００５０】
図３（ｄ）は、属性関係抽出手段が利用する属性辞書１４の例である。属性辞書１４は、後述のハードウェアに含まれる記憶装置４１０に格納されている。本実施形態において、属性辞書１４は、項目と属性とを関連付けている。例えば、項目には「ノートパソコン」のほか、その類義語である「ノートＰＣ」等が登録されている。一方、項目に関連する属性として「ＣＰＵ」「ＨＤＤ」「バッテリ」「価格」等が登録されている。更に、属性（属性１）に関する下位の属性（属性２）が登録されている。例えば、属性１「ＣＰＵ」に関し、属性２「クロック」「キャッシュ」等が登録されている。
【００５１】
図３（ｅ）は、属性関係ＤＢに格納される項目、属性及び属性値の関係を有する情報の例を示している。ユニークな番号である属性関係ＩＤごとに、項目、属性及び属性値を関連付けて保存している。例えば、ある項目「ノートパソコン」は、属性１「ＣＰＵ」の属性値が「ＣＰＵｘｘｘ」であり、かつ、属性２「クロック」の属性値が「１．５ＧＨｚ」であるとして保存される。
［情報収集装置のハードウェア構成図］
【００５２】
図４は、本実施形態に係る情報収集装置１のハードウェア構成を示す図である。
情報収集装置１は、制御部３００を構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３１０（マルチプロセッサ構成ではＣＰＵ３２０等複数のＣＰＵが追加されてもよい）、バスライン２００、通信Ｉ／Ｆ（Ｉ／Ｆ：インタフェース）３３０、メインメモリ３４０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）３５０、Ｉ／Ｏコントローラ３６０、ハードディスク３７０、光ディスクドライブ３８０、並びに半導体メモリ３９０を備える。尚、ハードディスク３７０、光ディスクドライブ３８０、並びに、半導体メモリ３９０はまとめて記憶装置４１０と呼ばれる。
【００５３】
制御部３００は、情報収集装置１を統括的に制御する部分であり、ハードディスク３７０（後述）に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【００５４】
通信Ｉ／Ｆ３３０は、情報収集装置１が、インターネットＮ（図１）を介してＷｅｂサーバ装置２（＃１）〜２（＃Ｎ）等（図１）と情報を送受信する場合のネットワーク・アダプタである。通信Ｉ／Ｆ３３０は、モデム、ケーブル・モデム及びイーサネット（登録商標）・アダプタを含んでよい。
【００５５】
ＢＩＯＳ３５０は、情報収集装置１の起動時にＣＰＵ３１０が実行するブートプログラムや、情報収集装置１がハードウェアに依存するプログラム等を記録する。
【００５６】
Ｉ／Ｏコントローラ３６０には、ハードディスク３７０、光ディスクドライブ３８０、及び半導体メモリ３９０等の記憶装置４１０を接続することができる。
【００５７】
ハードディスク３７０は、本ハードウェアを情報収集装置１として機能させるための各種プログラム、本発明の機能を実行するプログラム及び前述の各ＤＢ１５，１７、情報群記憶部１６及び属性辞書１４を記憶する。なお、情報収集装置１は、外部に別途設けたハードディスク（図示せず）を外部記憶装置として利用することもできる。
【００５８】
光ディスクドライブ３８０としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この場合は各ドライブに対応した光ディスク４００を使用する。光ディスク４００から光ディスクドライブ３８０によりプログラムまたはデータを読み取り、Ｉ／Ｏコントローラ３６０を介してメインメモリ３４０またはハードディスク３７０に提供することもできる。
【００５９】
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、情報収集装置１は、記憶装置４１０、制御部３００等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
［Ｗｅｂサーバ装置のハードウェア構成］
【００６０】
Ｗｅｂサーバ装置２も、上述の情報収集装置１と同様なハードウェア構成を持つ。
［本発明の実施形態に係るフローチャート］
【００６１】
図５は、本発明の実施形態に係る情報収集処理のフローチャートを示している。
【００６２】
Ｓ１：Ｗｅｂ文書蓄積手段１１は、ネットワークＮ上に配信されているＷｅｂ文書を任意のＷｅｂサーバ装置２からダウンロードし、このＷｅｂ文書のＵＲＬをネットワーク上のアドレスとして、自動生成した文書ＩＤとこの通信アドレスとを対応付けてＷｅｂ文書ＤＢ１５に記憶する。また、Ｗｅｂ文書蓄積手段１１は、このＷｅｂ文書の文書ＩＤと、このＷｅｂ文書の記述であるソースコードとを関連付けて記憶する。
【００６３】
Ｓ２：情報群抽出手段１２は、Ｗｅｂ文書ＤＢ１５に蓄積されたＷｅｂ文書のソースコードを解析し、当該ソースコードに含まれるタグの記述に基づいて表形式又はデータベース形式の情報の存在を判定し、表形式又はデータベース形式の情報を見つけた場合は当該情報を抽出して情報群記憶部１６に格納する。
【００６４】
表形式又はデータベース形式の情報をタグに基づいて判定する方法としては、前述したように、プルダウンリストを構成するタグを見つける方法、ＸＭＬ宣言を判定する方法、テーブルタグを見つける方法等が考えられる。
【００６５】
本実施形態においては、例えば、図３（ｂ）に示すＰＣ販売会社ＡのＷｅｂページに掲載されていた情報と、図３（ｃ）に示すＰＣ販売会社ＢのＷｅｂページに掲載されていた情報とを抽出できたとする。図３（ｂ）及び（ｃ）の情報は、前述したようにテーブルタグによって構成されているものとする。
【００６６】
Ｓ３：属性関係抽出手段１３は、情報群記憶部１６に格納された表形式又はデータベース形式の情報を解析し、当該情報に含まれる項目、属性及び属性値の関係にある情報を抽出する。
【００６７】
抽出にあたり、属性関係抽出手段１３は、項目、属性及び属性値の関係にある情報の所在を推定する。推定の方法は幾つか考えられる。
（１）表形式又はデータベース形式の情報が、＜Ｓｅｌｅｃｔ＞タグによりプルダウンリストを形成している場合、例えば＜Ｓｅｌｅｃｔ＞タグのｎａｍｅ属性の値を項目であると推定し、同＜Ｓｅｌｅｃｔ＞タグの要素内容に列記された＜Ｏｐｔｉｏｎ＞タグの要素内容を当該項目に関する属性及び属性値であると推定することが可能である。例えば、
＜ｓｅｌｅｃｔｎａｍｅ＝”ノートＰＣ”＞
＜ｏｐｔｉｏｎ＞ＣＰＵｘｘｘ１．５ＧＨｚ＜／ｏｐｔｉｏｎ＞
＜ｏｐｔｉｏｎ＞ＣＰＵｙｙｙ２．０ＧＨｚ＜／ｏｐｔｉｏｎ＞
＜／ｓｅｌｅｃｔ＞
上記において、項目「ノートＰＣ」、属性「ＣＰＵ」の属性値「ＣＰＵｘｘｘ」と推定することができる。また、属性「ＣＰＵ」に続く属性は「クロック」と推定し、属性「クロック」の属性値「１．５ＧＨｚ」と推定することができる。同様に、項目「ノートパソコン」、属性「ＣＰＵ」の属性値「ＣＰＵｙｙｙ」、属性「クロック」の属性値「２．０ＧＨｚ」と推定することができる。
（２）表形式又はデータベース形式の情報が、ＸＭＬインスタンスの場合、階層構造を成している上位のタグ要素名を「項目」と推定し、その一つ下位のタグ要素名を「属性」と推定し、当該「属性」を示すタグ要素名の属性又は要素内容を「属性値」と推定することが可能である。例えば、
＜ノートパソコン＞
＜ＣＰＵｔｙｐｅ＝”ＣＰＵｚｚｚ”＞
＜クロック＞１．１ＧＨｚ＜／クロック＞
＜／ＣＰＵ＞
＜ＣＰＵｔｙｐｅ＝”ＣＰＵｐｐｐ”＞
＜クロック＞３．２ＧＨｚ＜／クロック＞
＜／ＣＰＵ＞
＜／ノートパソコン＞
上記において、項目「ノートパソコン」、属性「ＣＰＵ」の属性値「ＣＰＵｚｚｚ」、属性「クロック」の属性値「１．１ＧＨｚ」を推定することができる。同様に、項目「ノートパソコン」、属性「ＣＰＵ」の属性値「ＣＰＵｐｐｐ」、属性「クロック」の属性値「３．２ＧＨｚ」を推定することができる。
（３）表形式又はデータベース形式の情報がテーブルタグによって構成されている場合、例えば、表のタイトルを「項目」と推定し、１行目にある要素の列を各「属性」と推定し、２行目以降にある要素を同列の属性に対応する「属性値」と推定することが考えられる。例えば、
＜ｔａｂｌｅ＞
＜ｃａｐｔｉｏｎ＞ノートパソコン＜／ｃａｐｔｉｏｎ＞
＜ｔｒ＞
＜ｔｄ＞ＣＰＵ＜／ｔｄ＞
＜ｔｄ＞クロック＜／ｔｄ＞
＜／ｔｒ＞
＜ｔｒ＞
＜ｔｄ＞ＣＰＵｚｚｚ＜／ｔｄ＞
＜ｔｄ＞１．１ＧＨｚ＜／ｔｄ＞
＜／ｔｒ＞
＜ｔｒ＞
＜ｔｄ＞ＣＰＵｐｐｐ＜／ｔｄ＞
＜ｔｄ＞３．２ＧＨｚ＜／ｔｄ＞
＜／ｔｒ＞
＜／ｔａｂｌｅ＞
上記において、項目「ノートパソコン」、属性「ＣＰＵ」の属性値「ＣＰＵｚｚｚ」、属性「クロック」の属性値「１．１ＧＨｚ」を推定することができる。同様に、項目「ノートパソコン」、属性「ＣＰＵ」の属性値「ＣＰＵｐｐｐ」、属性「クロック」の属性値「３．２ＧＨｚ」を推定することができる。
【００６８】
（４）属性辞書１４を利用する方法も考えられる。属性関係抽出手段１３は、属性辞書１４に登録された項目を参照し、情報群記憶部１６に格納された情報Ａに同一の項目が含まれているか判定する。同一の項目が含まれていたら、属性辞書１４においてその項目に関連付けられている属性を参照し、同一の属性が情報Ａに含まれているか判定する。同一の属性が含まれていたら、情報Ａにおいて当該属性の例えば直後にある要素内容を当該属性についての属性値であると推定する。属性辞書１４を利用すると、項目や属性を表すテキストが不要な語句を一部に含んでいても、当該不要な語句を無視して項目名や属性名を取得することができる。
【００６９】
なお、属性関係抽出手段１３は、表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出してもよい。また、表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出してもよい。さらに、前記データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出してもよい。
【００７０】
Ｓ４：属性関係抽出手段１３は、Ｓ３において抽出した項目、属性及び属性値の関係を有する情報を属性関係ＤＢ１７に登録する。本実施形態において、属性関係抽出手段１３は、この登録の際に属性辞書１４を参照し、項目の類義語を１種類に統一する。例えば、図３（ｂ）に示す情報から得た項目「ノートＰＣ」は、図３（ｄ）に示した属性辞書の項目を参照し「ノートパソコン」に統一して属性関係ＤＢ１７に登録する。このようにすると、項目が統一されることによって、生成された属性関係ＤＢ１７の情報を活用しやすくなる。もっとも、属性辞書１４とは別に類義語辞書を備え、この類義語辞書を参照することにより、項目や属性の類義語を統一してもよい。図３に示した情報の例によると、図３（ｂ）及び（ｃ）に示した表形式又はデータベース形式の情報から、図３（ｅ）に示した属性関係ＤＢを生成することができる。
【００７１】
以上説明したように、情報群抽出手段１２及び属性関係抽出手段１３が、Ｗｅｂ文書に含まれるタグに基づいて、項目、属性及び属性値の関係を有する情報を抽出するので、項目に関する情報をサイトの異なる複数のＷｅｂ文書から自動的に収集し、属性ごとに整理された情報として取得することができる。
【００７２】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。例えば、「項目」は本実施形態の例示に限られず、「属性」及び「属性値」を伴うものはすべて「項目」になり得る。また、表形式データベース形式の情報を抽出する方法及び当該情報から項目、属性及び属性値の関係を有する情報を抽出する方法は、本実施形態の例示に限られるものではない。また、図６に示した各ステップは、１つのＷｅｂ文書を蓄積するごとに全てのステップを一通り実行する必要はない。各ステップが非同期でバッチ処理を行なってもよい。
【００７３】
また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
【図面の簡単な説明】
【００７４】
【図１】本実施形態に係る情報収集装置と関連要素の全体構成を示す図である。
【図２】本実施形態に係る情報収集装置の機能構成の概要を示す図である。
【図３】本実施形態に係るＷｅｂ文書データベース、情報群抽出手段及び属性関係データベースと関連要素の構成の概要を示す図である。
【図４】本実施形態に係る情報収集装置のハードウェア構成を示す図である。
【図５】本発明の実施形態に係る情報収集処理のフローチャートを示している。
【符号の説明】
【００７５】
１情報収集装置
２Ｗｅｂサーバ装置
１１Ｗｅｂ文書蓄積手段
１２情報群抽出手段
１３属性関係抽出手段
１４属性辞書
１５Ｗｅｂ文書ＤＢ
１６情報群記憶部
１７属性関係ＤＢ

【特許請求の範囲】
【請求項１】
情報収集装置が、通信ネットワークを介してアクセス可能なＷｅｂ文書から、前記Ｗｅｂ文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出するステップと、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出するステップと、
抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶するステップと、を少なくとも実行することを特徴とする情報収集方法。
【請求項２】
前記抽出するステップは、前記表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出する請求項１に記載の方法。
【請求項３】
前記抽出するステップは、前記表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出する請求項１または請求項２に記載の方法。
【請求項４】
前記抽出するステップは、前記データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出する請求項１から請求項３のいずれかに記載の方法。
【請求項５】
前記表形式あるいはデータベース形式の情報を抽出する際に基づく前記タグが、プルダウンリストを形成するＨＴＭＬタグ、ＸＭＬ文書に含まれるタグ又はＨＴＭＬのテーブルタグである請求項１から請求項４のいずれかに記載の方法。
【請求項６】
請求項１から請求項５のいずれかに記載の方法をコンピュータに実行させることを特徴としたプログラム。
【請求項７】
通信ネットワークを介してアクセス可能なＷｅｂ文書から、前記Ｗｅｂ文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段と、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶する属性関係抽出手段と、を備えたことを特徴とする情報収集装置。

【図１】