説明

情報収集方法、装置及びプログラム

【課題】Web文書に含まれるタグに基づいて、項目、属性及び属性値の関係を有する情報を抽出することにより、項目に関する情報をWeb文書から自動的に収集する。
【解決手段】情報収集装置1は、通信ネットワークNを介してアクセス可能なWeb文書から、Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段12と、抽出した表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶する属性関係抽出手段13と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Web文書に記載された情報を収集する情報収集方法、装置及びプログラムに関する。
【背景技術】
【0002】
従来、ある特定の項目に関しWeb文書から情報を得たい場合、Web文書を一つ一つ閲覧し、情報を収集しなければならなかった。
【0003】
そこで、パソコンに関する情報を調べたい場合には、非特許文献1に記載の技術によれば、一覧表等で表示する情報に基づいて、ユーザは、様々なメーカー、販売会社毎にパソコンに関するを情報を探索することができるようになっている。
【非特許文献1】[online]、[平成20年6月18日検索]、インターネット〈URL:http://kakaku.com/pc/desktop−pc/〉
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、非特許文献1に記載の技術によっても、パソコンに関する情報を人手により収集、蓄積して再編集しているために、その作業に要する時間と労力は膨大なものとなる。また、非特許文献1に記載の技術は、特定の商品について提供されるものであり、取り扱いのない商品や、商品以外のものについて調べようとすると、蓄積情報のカバレッジの面で限界がある。
【0005】
そこで、本発明は、このような事情を考慮して提案されるものであり、Webページ上に分散して存在している共通の項目やその属性および属性値の関係にある情報を自動的に収集する情報収集方法、装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明者は、項目に関する情報を複数のWeb文書から自動的に収集する仕組みを見出し、本発明を想到するに至った。
【0007】
本発明に係る情報収集方法は、Web文書に含まれるタグに基づいて、項目、属性及び属性値の関係を有する情報を抽出することにより、項目に関する情報をWeb文書から自動的に収集するものである。
【0008】
(1) 情報収集装置が、通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出するステップと、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出するステップと、
抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶するステップと、を少なくとも実行することを特徴とする情報収集方法。
【0009】
(1)に記載の発明の構成によれば、Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出し、抽出した表形式あるいはデータベース形式の情報から、タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び当該属性の内容を示す属性値の関係を有する情報を抽出する。
【0010】
このことにより、項目、属性及び属性値の関係を有する情報を複数のWeb文書から自動的に収集することが可能となる。
【0011】
ここで、前記表形式の情報とは、カンマ区切り、スペース区切りなどにより表と同等の表現がされた平文により示された情報も含む。
【0012】
また、所定の項目に対して、より多くのWeb文書において共通して従属する情報を、より大きなウェイトを掛けて属性及び属性値として抽出してもよい。また、所定の項目に対して、所定の閾値を超える数のWeb文書において共通して従属することがない情報は、当該属性及び属性値として抽出しないこととしてもよい。
【0013】
ここで、抽出して記憶した属性及び属性値は、項目に関するWeb文書を検索する際の検索クエリーの示唆等に活用することができる。
【0014】
(2) 前記抽出するステップは、前記表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出する(1)に記載の方法。
【0015】
(2)に記載の発明の構成によれば、表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出する。
【0016】
このことにより、Web文書において表形式の情報のタイトルが表示されることが多い位置に位置する情報を当該表形式の情報に対する項目として抽出することができる。
【0017】
ここで、上述の様に、当該関係を有する頻度に応じて、ウェイトを掛けたり、当該頻度が所定の閾値に達するまで、当該抽出を行なわないこととして、精度を上げてもよい。
【0018】
(3) 前記抽出するステップは、前記表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出する(1)または(2)に記載の方法。
【0019】
(3)に記載の発明の構成によれば、前記表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出する。
【0020】
このことにより、Web文書において表形式の情報の属性が表示されることが多い位置に位置する情報を属性として、その属性の内容が表示されることが多い位置に位置する情報を属性値として抽出することができる。
【0021】
ここで、上述の様に、当該関係を有する頻度に応じて、ウェイトを掛けたり、当該頻度が所定の閾値に達するまで、当該抽出を行なわないこととして、精度を上げてもよい。
【0022】
(4) 前記抽出するステップは、前記データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出する(1)から(3)のいずれかに記載の方法。
【0023】
(4)に記載の発明の構成によれば、データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出する。
【0024】
このことにより、Web文書においてデータベース形式の情報の属性が表示されることが多い位置に位置する情報を属性として、その属性の内容が表示されることが多いデータベース形式の情報を属性値として抽出することができる。
【0025】
ここで、上述の様に、当該関係を有する頻度に応じて、ウェイトを掛けたり、当該頻度が所定の閾値に達するまで、当該抽出を行なわないこととして、精度を上げてもよい。
【0026】
(5) 前記表形式あるいはデータベース形式の情報を抽出する際に基づく前記タグが、プルダウンリストを形成するHTML(HyperText Markup Language)タグ、XML(Extensible Markup Language)文書に含まれるタグ又はHTMLのテーブルタグである(1)から(4)のいずれかに記載の方法。
【0027】
(5)に記載の発明の構成によれば、プルダウンリストを形成するHTMLタグ、XML文書に含まれるタグ又はHTMLのテーブルタグに基づいて表形式あるいはデータベース形式の情報と判断するので、Web文書に含まれるタグの一致を判定することにより自動的に表形式あるいはデータベース形式の情報を抽出することができる。
【0028】
(6) (1)から(5)のいずれかに記載の方法をコンピュータに実行させることを特徴としたプログラム。
【0029】
(7) 通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段と、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶する属性関係抽出手段と、を備えたことを特徴とする情報収集装置。
【発明の効果】
【0030】
この発明によれば、Web文書に含まれるタグに基づいて、項目、属性及び属性値の関係を有する情報を抽出することにより、Webページ上に分散して存在している共通の項目やその属性および属性値の関係にある情報を自動的に収集することができる。
【発明を実施するための最良の形態】
【0031】
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[情報収集装置と関連要素の全体構成]
【0032】
図1において、情報収集装置1は、通信ネットワークとしてのインターネットNを通じて複数のWebサーバ装置2に接続される。インターネットNとの接続は、有線であるか無線であるかを問わない。
【0033】
情報収集装置1は、複数のWebサーバ装置2からWeb文書を取得する。各Webサーバ装置2は、情報収集装置1からのリクエストに応じて種々のWeb文書を提供する。
[情報収集装置の機能構成]
【0034】
図2は、本実施形態に係る情報収集装置1の機能構成の概要を示す図である。情報収集装置1は、Web文書蓄積手段11、情報群抽出手段12及び属性関係抽出手段13を備えている。また、Web文書DB15、情報群記憶部16及び属性関係DB17を有する(DBはデータベースの略)。
【0035】
Web文書蓄積手段11は、Webサーバ装置2からWeb文書を取得しWeb文書DB15に格納する。情報群抽出手段12は、Web文書DB15に蓄積されたWeb文書を読み出し、読み出した当該Web文書に含まれるタグに基づき、表形式又はデータベース形式の情報を抽出し情報群記憶部16に格納する。属性関係抽出手段13は、情報群記憶部16に格納された表形式又はデータベース形式の情報を読み出し、読み出した当該情報に含まれるタグに基づき、当該情報に含まれる項目、属性及び属性値の関係を有する情報を抽出し、抽出した当該情報を属性関係DB17に登録する。Web文書蓄積手段11、情報群抽出手段12及び属性関係抽出手段13は、コンピュータがプログラムを実行することによって実現される。
【0036】
また、Web文書DB15、情報群記憶部16及び属性関係DB17は、後述のハードウェアに含まれる記憶装置410の一領域に設けられている。
[各種データベースと関連要素の構成]
【0037】
図3は、Web文書DB15、情報群記憶部16及び属性関係DB17と関連要素の構成の概要を示す図である。
【0038】
図3(a)に示すように、Web文書DB15は、文書IDと、通信ネットワーク上で配信されているWeb文書のURL等のネットワーク上のアドレス及びこのWeb文書の記述であるソースコードと、をそれぞれ対応付けて記憶している。
【0039】
図3(b)及び(c)に示すように、情報群記憶部16には、Web文書のソースコードから抽出された表形式又はデータベース形式の情報が当該表形式又はデータベース形式を構成するタグと共に格納される。
【0040】
図3(e)に示すように、属性関係DBには、表形式又はデータベース形式の情報から抽出された項目、属性及び属性値の関係を有する情報が格納される。
【0041】
図3(d)に示すように、本実施形態では、表形式又はデータベース形式の情報から項目、属性及び属性値の関係を有する情報を抽出する際に利用する属性辞書14を備えている。
【0042】
図3(b)及び(c)は、Web文書から抽出される表形式又はデータベース形式の情報の例である。例えば、PC販売会社AのWebページ(Web文書)が、図3(b)に示す表形式又はデータベース形式の情報を含んでおり、PC販売会社BのWebページ(Web文書)が、図3(c)に示す表形式又はデータベース形式の情報を含んでいるものとする。
【0043】
当該情報は、プルダウンリストを形成する一群のHTMLとして記述されている場合、XML文書として記述されている場合、テーブルタグにより表を形成する一群のHTMLとして記述されている場合など、種々考えられる。
【0044】
プルダウンリストを形成する一群のHTMLとして記載されている場合は、例えば<Select>タグの開始タグと終了タグを判定し、当該開始タグおよび終了タグとその間にある要素の内容とを抽出することが考えられる。
【0045】
また、XML文書として記載されている場合は、XMLインスタンスが情報の階層構造を持つので、例えば、XMLインスタンスの最上位の開始タグと終了タグとの間にある要素の内容を抽出することが考えられる。
【0046】
また、テーブルタグにより表を形成する一群のHTMLとして記述されている場合は、例えば、<Table>タグの開始タグと終了タグを判定し、当該開始タグおよび終了タグとその間にある要素の内容とを抽出することが考えられる。
【0047】
本実施形態において、図3(b)の情報は、テーブルタグにより、1列目に項目「ノートPC」が記述され、1行目にノートPCの属性として「CPU」、「クロック」が記述され、「CPU xxx」、「CPU yyy」が属性「CPU」の属性値として記述され、「1.5GHz」、「2.0GHz」が属性「クロック」の属性値として記述されているものとする。
【0048】
なお、項目、属性及び属性値の関係がこれらのWeb文書の基礎となるデータを格納しているデータベースサーバ等に蓄積され、CGI等のプログラムを用いて取得する構造となっている場合には、これらのCGI等のプログラムを実行することにより、これらの関係を有する情報を収集する。
【0049】
また、本実施形態において、図3(c)の情報は、テーブルタグにより形成されているものとし、<Table>タグの要素内容として記述された<Caption>タグの要素内容の一部に、項目「ノートパソコン」が記述され、その直後の表の1行目に、項目「ノートパソコン」の属性として「CPU」、「クロック」が記述され、以降、属性「CPU」の属性値として、「CPU zzz」、「CPU ppp」が記述され、属性「クロック」の属性値として、「800MHz」、「3.2GHz」が記述されているものとする。
【0050】
図3(d)は、属性関係抽出手段が利用する属性辞書14の例である。属性辞書14は、後述のハードウェアに含まれる記憶装置410に格納されている。本実施形態において、属性辞書14は、項目と属性とを関連付けている。例えば、項目には「ノートパソコン」のほか、その類義語である「ノートPC」等が登録されている。一方、項目に関連する属性として「CPU」「HDD」「バッテリ」「価格」等が登録されている。更に、属性(属性1)に関する下位の属性(属性2)が登録されている。例えば、属性1「CPU」に関し、属性2「クロック」「キャッシュ」等が登録されている。
【0051】
図3(e)は、属性関係DBに格納される項目、属性及び属性値の関係を有する情報の例を示している。ユニークな番号である属性関係IDごとに、項目、属性及び属性値を関連付けて保存している。例えば、ある項目「ノートパソコン」は、属性1「CPU」の属性値が「CPU xxx」であり、かつ、属性2「クロック」の属性値が「1.5GHz」であるとして保存される。
[情報収集装置のハードウェア構成図]
【0052】
図4は、本実施形態に係る情報収集装置1のハードウェア構成を示す図である。
情報収集装置1は、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもよい)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380、並びに半導体メモリ390を備える。尚、ハードディスク370、光ディスクドライブ380、並びに、半導体メモリ390はまとめて記憶装置410と呼ばれる。
【0053】
制御部300は、情報収集装置1を統括的に制御する部分であり、ハードディスク370(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【0054】
通信I/F330は、情報収集装置1が、インターネットN(図1)を介してWebサーバ装置2(#1)〜2(#N)等(図1)と情報を送受信する場合のネットワーク・アダプタである。通信I/F330は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
【0055】
BIOS350は、情報収集装置1の起動時にCPU310が実行するブートプログラムや、情報収集装置1がハードウェアに依存するプログラム等を記録する。
【0056】
I/Oコントローラ360には、ハードディスク370、光ディスクドライブ380、及び半導体メモリ390等の記憶装置410を接続することができる。
【0057】
ハードディスク370は、本ハードウェアを情報収集装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び前述の各DB15,17、情報群記憶部16及び属性辞書14を記憶する。なお、情報収集装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
【0058】
光ディスクドライブ380としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク400を使用する。光ディスク400から光ディスクドライブ380によりプログラムまたはデータを読み取り、I/Oコントローラ360を介してメインメモリ340またはハードディスク370に提供することもできる。
【0059】
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、情報収集装置1は、記憶装置410、制御部300等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
[Webサーバ装置のハードウェア構成]
【0060】
Webサーバ装置2も、上述の情報収集装置1と同様なハードウェア構成を持つ。
[本発明の実施形態に係るフローチャート]
【0061】
図5は、本発明の実施形態に係る情報収集処理のフローチャートを示している。
【0062】
S1:Web文書蓄積手段11は、ネットワークN上に配信されているWeb文書を任意のWebサーバ装置2からダウンロードし、このWeb文書のURLをネットワーク上のアドレスとして、自動生成した文書IDとこの通信アドレスとを対応付けてWeb文書DB15に記憶する。また、Web文書蓄積手段11は、このWeb文書の文書IDと、このWeb文書の記述であるソースコードとを関連付けて記憶する。
【0063】
S2:情報群抽出手段12は、Web文書DB15に蓄積されたWeb文書のソースコードを解析し、当該ソースコードに含まれるタグの記述に基づいて表形式又はデータベース形式の情報の存在を判定し、表形式又はデータベース形式の情報を見つけた場合は当該情報を抽出して情報群記憶部16に格納する。
【0064】
表形式又はデータベース形式の情報をタグに基づいて判定する方法としては、前述したように、プルダウンリストを構成するタグを見つける方法、XML宣言を判定する方法、テーブルタグを見つける方法等が考えられる。
【0065】
本実施形態においては、例えば、図3(b)に示すPC販売会社AのWebページに掲載されていた情報と、図3(c)に示すPC販売会社BのWebページに掲載されていた情報とを抽出できたとする。図3(b)及び(c)の情報は、前述したようにテーブルタグによって構成されているものとする。
【0066】
S3:属性関係抽出手段13は、情報群記憶部16に格納された表形式又はデータベース形式の情報を解析し、当該情報に含まれる項目、属性及び属性値の関係にある情報を抽出する。
【0067】
抽出にあたり、属性関係抽出手段13は、項目、属性及び属性値の関係にある情報の所在を推定する。推定の方法は幾つか考えられる。
(1)表形式又はデータベース形式の情報が、<Select>タグによりプルダウンリストを形成している場合、例えば<Select>タグのname属性の値を項目であると推定し、同<Select>タグの要素内容に列記された<Option>タグの要素内容を当該項目に関する属性及び属性値であると推定することが可能である。例えば、
<select name=”ノートPC”>
<option>CPU xxx 1.5GHz</option>
<option>CPU yyy 2.0GHz</option>
</select>
上記において、項目「ノートPC」、属性「CPU」の属性値「CPU xxx」と推定することができる。また、属性「CPU」に続く属性は「クロック」と推定し、属性「クロック」の属性値「1.5GHz」と推定することができる。同様に、項目「ノートパソコン」、属性「CPU」の属性値「CPU yyy」、属性「クロック」の属性値「2.0GHz」と推定することができる。
(2)表形式又はデータベース形式の情報が、XMLインスタンスの場合、階層構造を成している上位のタグ要素名を「項目」と推定し、その一つ下位のタグ要素名を「属性」と推定し、当該「属性」を示すタグ要素名の属性又は要素内容を「属性値」と推定することが可能である。例えば、
<ノートパソコン>
<CPU type=”CPU zzz”>
<クロック>1.1GHz</クロック>
</CPU>
<CPU type=”CPU ppp”>
<クロック>3.2GHz</クロック>
</CPU>
</ノートパソコン>
上記において、項目「ノートパソコン」、属性「CPU」の属性値「CPU zzz」、属性「クロック」の属性値「1.1GHz」を推定することができる。同様に、項目「ノートパソコン」、属性「CPU」の属性値「CPU ppp」、属性「クロック」の属性値「3.2GHz」を推定することができる。
(3)表形式又はデータベース形式の情報がテーブルタグによって構成されている場合、例えば、表のタイトルを「項目」と推定し、1行目にある要素の列を各「属性」と推定し、2行目以降にある要素を同列の属性に対応する「属性値」と推定することが考えられる。例えば、
<table>
<caption>ノートパソコン</caption>
<tr>
<td>CPU</td>
<td>クロック</td>
</tr>
<tr>
<td>CPU zzz</td>
<td>1.1GHz</td>
</tr>
<tr>
<td>CPU ppp</td>
<td>3.2GHz</td>
</tr>
</table>
上記において、項目「ノートパソコン」、属性「CPU」の属性値「CPU zzz」、属性「クロック」の属性値「1.1GHz」を推定することができる。同様に、項目「ノートパソコン」、属性「CPU」の属性値「CPU ppp」、属性「クロック」の属性値「3.2GHz」を推定することができる。
【0068】
(4)属性辞書14を利用する方法も考えられる。属性関係抽出手段13は、属性辞書14に登録された項目を参照し、情報群記憶部16に格納された情報Aに同一の項目が含まれているか判定する。同一の項目が含まれていたら、属性辞書14においてその項目に関連付けられている属性を参照し、同一の属性が情報Aに含まれているか判定する。同一の属性が含まれていたら、情報Aにおいて当該属性の例えば直後にある要素内容を当該属性についての属性値であると推定する。属性辞書14を利用すると、項目や属性を表すテキストが不要な語句を一部に含んでいても、当該不要な語句を無視して項目名や属性名を取得することができる。
【0069】
なお、属性関係抽出手段13は、表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出してもよい。また、表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出してもよい。さらに、前記データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出してもよい。
【0070】
S4:属性関係抽出手段13は、S3において抽出した項目、属性及び属性値の関係を有する情報を属性関係DB17に登録する。本実施形態において、属性関係抽出手段13は、この登録の際に属性辞書14を参照し、項目の類義語を1種類に統一する。例えば、図3(b)に示す情報から得た項目「ノートPC」は、図3(d)に示した属性辞書の項目を参照し「ノートパソコン」に統一して属性関係DB17に登録する。このようにすると、項目が統一されることによって、生成された属性関係DB17の情報を活用しやすくなる。もっとも、属性辞書14とは別に類義語辞書を備え、この類義語辞書を参照することにより、項目や属性の類義語を統一してもよい。図3に示した情報の例によると、図3(b)及び(c)に示した表形式又はデータベース形式の情報から、図3(e)に示した属性関係DBを生成することができる。
【0071】
以上説明したように、情報群抽出手段12及び属性関係抽出手段13が、Web文書に含まれるタグに基づいて、項目、属性及び属性値の関係を有する情報を抽出するので、項目に関する情報をサイトの異なる複数のWeb文書から自動的に収集し、属性ごとに整理された情報として取得することができる。
【0072】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。例えば、「項目」は本実施形態の例示に限られず、「属性」及び「属性値」を伴うものはすべて「項目」になり得る。また、表形式データベース形式の情報を抽出する方法及び当該情報から項目、属性及び属性値の関係を有する情報を抽出する方法は、本実施形態の例示に限られるものではない。また、図6に示した各ステップは、1つのWeb文書を蓄積するごとに全てのステップを一通り実行する必要はない。各ステップが非同期でバッチ処理を行なってもよい。
【0073】
また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
【図面の簡単な説明】
【0074】
【図1】本実施形態に係る情報収集装置と関連要素の全体構成を示す図である。
【図2】本実施形態に係る情報収集装置の機能構成の概要を示す図である。
【図3】本実施形態に係るWeb文書データベース、情報群抽出手段及び属性関係データベースと関連要素の構成の概要を示す図である。
【図4】本実施形態に係る情報収集装置のハードウェア構成を示す図である。
【図5】本発明の実施形態に係る情報収集処理のフローチャートを示している。
【符号の説明】
【0075】
1 情報収集装置
2 Webサーバ装置
11 Web文書蓄積手段
12 情報群抽出手段
13 属性関係抽出手段
14 属性辞書
15 Web文書DB
16 情報群記憶部
17 属性関係DB

【特許請求の範囲】
【請求項1】
情報収集装置が、通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出するステップと、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出するステップと、
抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶するステップと、を少なくとも実行することを特徴とする情報収集方法。
【請求項2】
前記抽出するステップは、前記表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出する請求項1に記載の方法。
【請求項3】
前記抽出するステップは、前記表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出する請求項1または請求項2に記載の方法。
【請求項4】
前記抽出するステップは、前記データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出する請求項1から請求項3のいずれかに記載の方法。
【請求項5】
前記表形式あるいはデータベース形式の情報を抽出する際に基づく前記タグが、プルダウンリストを形成するHTMLタグ、XML文書に含まれるタグ又はHTMLのテーブルタグである請求項1から請求項4のいずれかに記載の方法。
【請求項6】
請求項1から請求項5のいずれかに記載の方法をコンピュータに実行させることを特徴としたプログラム。
【請求項7】
通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段と、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶する属性関係抽出手段と、を備えたことを特徴とする情報収集装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−15202(P2010−15202A)
【公開日】平成22年1月21日(2010.1.21)
【国際特許分類】
【出願番号】特願2008−171883(P2008−171883)
【出願日】平成20年6月30日(2008.6.30)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】