スキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体

【課題】実世界に存在する「もの」の特性の定義（スキーマ）を一元的に管理することができる情報処理装置を提供する。
【解決手段】情報処理装置１は、複数の属性名Ａ及び属性名Ｂをクエリとして文書データＤ１を取得し、取得した文書データＤ１内で属性名Ａ及び属性名Ｂを抽出するためのテンプレートを属性名Ａ及び属性名Ｂ夫々の前後の共通するテキストパターンから作成し、作成したテンプレートを文書データＤ１内に適用して属性名Ａ、属性名Ｂ及び属性名ＣをスキーマＳｃ１として抽出する。新たに抽出した属性名Ｃを選択して属性名Ａ及び属性名Ｃをクエリとし、文書データＤ２を取得し、取得した文書データ内でテンプレートを作成し、作成したテンプレートを文書データＤ２に適用して属性名Ａ、属性名Ｃ及び属性名ＤをスキーマＳｃ２として抽出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ネットワーク上に存在する文書データから所定の条件を満たすテキストデータを取得してデータベースに記憶する情報処理装置に関する。特に、ネットワーク上の文書データから実世界に存在するオブジェクトの特性の定義を一元的に管理することができる情報処理装置、スキーマ抽出方法、コンピュータを前記情報処理装置として機能させるコンピュータプログラム及び前記コンピュータプログラムが記録された記録媒体に関する。
【背景技術】
【０００２】
ＷｏｒｌｄＷｉｄｅＷｅｂ（以下Ｗｅｂという）の普及により、様々な目的で情報を提供するために文書データが公開され、Ｗｅｂ上には膨大な量の文書データが存在するようになってきている。ユーザは、Ｗｅｂ上の文書データから実世界上に存在するあらゆるオブジェクトの情報を取得することができる。
【０００３】
Ｗｅｂ上の文書データの量は膨大であるがために、ユーザが有用な情報のみを探索することは非常に困難である。そこで、コンピュータ装置を用いてユーザにとって有用な情報を自動的に抽出、評価する技術、情報間の関係性を自動的に解析するデータマイニング（ＫＤＤ：knowledge-discovery in database）、Ｗｅｂマイニング、テキストマイニング等の情報処理技術の開発・研究が行われている。
【０００４】
さらに、Ｗｅｂ上の膨大な量の文書データを人類の知識源とみなし、コンピュータ装置を用いて知識を自動的に抽出するための研究がなされている（非特許文献１、非特許文献２、非特許文献３）。Ｗｅｂ上に公開されているあらゆるオブジェクトの情報、具体的にはオブジェクトが有する複数の属性（名）と各属性に対応する具体的な属性値との組をデータベース化することができた場合、実世界上に存在するオブジェクトの分類、特定が可能になり、情報検索、人工知能の分野における研究活動のみならず経済活動等の人間の社会活動全般に有用な情報になると考えられる。
【０００５】
なお、ここでは、辞書に掲載されているような一般的な「もの」を指し示す言葉（考え方）を概念と呼び、概念を具体化した実世界上に存在するものをオブジェクトと呼ぶ。
【０００６】
例えば、「ノートパソコン」という概念に対し、実体のノートパソコン夫々の「機種」をオブジェクトとして捉えることができる。この場合、「機種」が「Ｘ」である「ノートパソコンＸ」、「機種」が「Ｙ」である「ノートパソコンＹ」のように、「機種」によってオブジェクトを一意に特定することができる。また、個人が所有する物理的に一つ一つのノートパソコンをオブジェクトとして捉えることもできる。この場合、「製品番号」が「Ｘ００００１」である「ノートパソコン」、「製品番号」が「Ｙ００００２」である「ノートパソコン」のように、「製品番号」によってオブジェクトを一意に特定することができる。このように、何をオブジェクトとして捉えるかによって具体化のレベルが異なる。上述の例では「ノートパソコン」を概念とし、「ノートパソコン」の機種又は一つ一つの「ノートパソコン」をオブジェクトとして捉えるようにしたが、概念として捉える対象、及び概念を具体化するレベルは任意である。なお、オブジェクトを一意に特定し得る一又は複数の単語からなる語を「キー」と呼ぶ。上述の例では「Ｘ」及び「Ｙ」、「Ｘ００００１」及び「Ｙ００００２」が「キー」に相当する。
【０００７】
また、オブジェクトの特性を表わす属性は、オブジェクトの捉え方によって異なる。上述のように「ノートパソコン」の「機種」をオブジェクトとした場合、そのオブジェクトの特性を表わす属性（名）の例として例えば「メモリ（の大きさ）」、「ＣＰＵ（の種類）」等が挙げられる。「ノートパソコン」は各「機種」即ちオブジェクト毎に、「メモリ」、「ＣＰＵ」という属性名に対応する属性値が異なる。Ｗｅｂ上の文書データからオブジェクトが有する各属性に対応する属性値を取得することができた場合、ユーザが一の属性に対応する所望の属性値を具体的に入力することにより、その条件を満たすオブジェクトを特定することができる。「ノートパソコン」の「機種」をオブジェクトとして捉えた場合であれば、『「メモリ」が「××ＧＢ」であり「ＣＰＵ」が「ｙ」である「ノートパソコン」』とすることにより「ノートパソコン」の「機種」（オブジェクト）を特定することができる。
【０００８】
さらに、「ノートパソコン」の「機種」をオブジェクトとした場合の特性を表わす属性名は、オブジェクトの捉えられ方でその組み合わせが異なる。「ノートパソコン」の「機種」を各構成部の機能的な特徴を基準に捉えた場合、上述のように属性名として「メモリ」、「ＣＰＵ」、「ＤＶＤドライブの有無」等が挙げられる。しかし、「ノートパソコン」の各「機種」を、購入する際の判断基準に照らして捉えた場合、属性名として「価格」、「販売店」、「在庫数」等が挙げられる。さらに、「ノートパソコン」の各「機種」を性能によって捉えた場合、「軽さ」、「拡張性」、「処理速度」等が属性名として挙げられる。
【０００９】
属性（名）はこのように、具体化されたオブジェクトの捉えられ方に応じて異なる複数の組で構成され、その組み合わせにオブジェクトの捉えられ方が表わされている。したがって、属性名を個々に抽出するのではなく、属性名の組み合わせを抽出することが重要である。このような、オブジェクトの特性を表わす属性名の組をスキーマと呼ぶ。
【００１０】
コンピュータ装置にオブジェクトの各属性に対応する属性値を抽出させる場合、コンピュータ装置に予めオブジェクトのスキーマを与えておく。上述のようにオブジェクトのスキーマを予め認識することができた場合、オブジェクトを特定する各属性名に対応する具体的な属性値を抽出することができる。コンピュータ装置は、文書データからスキーマに含まれる属性名に相当する文字列を認識し、それらが文書データ中に現れるパターンに基づいて対応する属性値を抽出することができるからである。上述のように「ノートパソコン」の「機種」というオブジェクトの特性を表わす属性名「メモリ」、「ＣＰＵ」を認識することができた場合、「メモリ」、「ＣＰＵ」に相当する属性値「××ＧＢ」、「ｙ」等を抽出することが容易になる。
【００１１】
これまで、コンピュータ装置にオブジェクトの各属性に対応する属性値を抽出させる際に与えるスキーマの定義は、人手により行われてきた。スキーマの定義は、構造、形式、関連性、整合性の制約が考慮されることが望ましいからである。
【００１２】
Ｗｅｂ上の文書データからオブジェクトの各属性に対応する属性値を取得する際に、オブジェクトのスキーマを人手により定義した場合、スキーマを定義した人のオブジェクトに対する主観により、抽出することができる属性値が偏る可能性がある。多種多様な人間によって提供されたＷｅｂ上の文書データを人類の知識源とみなしたにも拘わらず、抽出することができる属性値が偏ったものではデータベース化の目的から反れてしまう。そこで、Ｗｅｂ上の文書データから多種多様な人間によって定義されたオブジェクトのスキーマの定義を自動的に取得することが必要になる。
【００１３】
ところで、コンピュータ装置がオブジェクトの各属性名と、その各属性に対応する属性値とを抽出する場合、文書データ中から属性名及び属性値を認識できなければならない。しかしながら、Ｗｅｂ上の文書データに含まれるオブジェクトの情報は、オブジェクトの属性名と属性値との関係が明確に整形されて記載されているとは限らない。したがって、コンピュータ装置が自動的に文書データから属性名と属性値とを取得しようとする場合、文書データ中のテキストデータのいずれの部分が属性名に相当し、いずれの部分が対応する属性値に相当するのかを判定することは困難である。
【００１４】
これに対し、Ｗｅｂ上に存在する文書データから、オブジェクトの属性名と属性値との組を抽出する技術についての研究が複数行われている（非特許文献１、非特許文献２、非特許文献３）。非特許文献１乃至３の技術による場合、属性値を抽出するための属性値前後のテキストからなるテンプレートと属性値とを、夫々交互に繰り返し学習し、多数の属性値を取得するブートストラッピングの手法が採用されている。具体的には、コンピュータ装置に、少数の属性値がシード（種）として与えられ、コンピュータ装置は、与えられた属性値を文書データから抽出するためのテンプレートを学習し、そのテンプレートを他の文書データでも適用することにより他の属性値を抽出し、抽出する際にテンプレートを学習することによって更に他の属性値を抽出する処理を繰り返す。
【００１５】
特に非特許文献１には、Ｗｅｂ上に存在する文書データから書籍名とその著者との組を例に、特定の関係にある語を抽出する技術が開示されている。非特許文献１に開示されている技術による場合、コンピュータ装置には、具体的な著者名がシードとして与えられ、コンピュータ装置は、シードを含み書籍名が記載された文書データを取得する。コンピュータ装置は、取得した文書データから書籍名と著者名とが現れているパターン（テンプレート）を特定し、その特定したパターンを他の文書データにも当てはめ、更に他の書籍名と著者名とを抽出する。このように非特許文献１に開示されている技術は、Ｗｅｂ上に存在する文書データから、実世界上に存在する書籍名と著者名との組のような特定の関係にある多数の語を抽出しようとするものである。
【非特許文献１】S.Brin：Extracting patterns and relations from the world wide web（World Wide Webからのパターンと関係の抽出）, Proceedings of SIGMOD Workshop on Databases and the Web, pp.172-183, 1998.
【非特許文献２】E.Riloff, and R.Jones：Learning dictionaries for information extraction by multi-level bootstrapping（多重ブートストラッピングによる情報抽出のための辞書学習）,Proceedings of the 16th National Conference on Artificial Intelligence, pp.474-479, 1999.
【非特許文献３】E.Agichtein, and L.Gravano：Snowball: Extracting relations from large plain-text collections（Snowball: 大規模プレーンテキスト集合からの関係抽出）, Proceedings of the 5th ACM International Conference on Digital Libraries, pp.85-94, 2000.
【発明の開示】
【発明が解決しようとする課題】
【００１６】
非特許文献１に開示されている技術により、書籍名と属性名との組のような特定の関係にある語をＷｅｂ上の文書データから抽出することができる。したがって、この技術を応用することにより、コンピュータ装置によって属性名と、対応する属性値との関係にある語を抽出することが可能になる。
【００１７】
そこで、Ｗｅｂ上の文書データから多種多様な人間によって定義されたあらゆるオブジェクトのスキーマの定義を自動的に抽出するためにも、属性名に対応する属性値を抽出する非特許文献１乃至３の技術が適用できるとも考えられる。しかしながら、これらの技術をオブジェクトのスキーマの取得に適用することは以下の問題により困難である。
【００１８】
属性値を抽出する際には、属性値の前後のテキストをテンプレートとし、そのテンプレートを他の文書データにも適用することにより他の属性値を抽出する。属性値の前後には、一般的な語である属性名が存在することが多いので、テンプレートが他の文書データにも適合する確率が高く、多様な属性値を取得することができる。しかしながら、属性名を抽出する際に属性名の前後のテキストをテンプレートとした場合、属性名の前後に存在する属性値がテンプレートに含まれる。属性値は固有名詞又は数値等、限定的な語であることが多いので、属性値を含むテンプレートが他の文書データで適合する確率は低く、多様な属性名を抽出することは困難である。
【００１９】
例えば、購入する際の判断基準に照らして捉えた「ノートパソコン」の各機種をオブジェクトとした場合に、属性値を抽出するために与えられた属性名が「ショップ名」であるとき、コンピュータ装置は、属性名に対応する属性値を例えば以下のように抽出することができる。コンピュータ装置が「ショップ名」を含む文書データを取得し、その文書データには「ショップ名：『ショップＡ』」というテキストが含まれていた場合を考える。この場合、属性値を抽出するためのテンプレートを「ショップ名：（属性値）」とすることにより、コンピュータ装置は、Ｗｅｂ上の文書データから「ショップ名：」を含む文書データを検索し、検索された文書データから「ショップ名：」に続く文字列を属性値として抽出することができる。この方法によって多様な属性値を抽出することが可能である。
【００２０】
一方、上述の例において属性名の抽出を試みるために、「ショップ名」という属性名を抽出するためのテンプレートを「：『ショップＡ』」とした場合、『ショップＡ』は固有名詞である。したがって、テキスト「：『ショップＡ』」を他の文書データ中から認識することができる確率が低下する。これにより、「ショップ名」以外の多様なスキーマを抽出することが困難になる。このように、オブジェクトの属性名の近傍に存在する属性値は、固有名詞又は数値を含む場合が多いので、属性名の抽出を属性値の抽出と同様の手法により実現することは難しい。
【００２１】
本発明は斯かる事情に鑑みてなされたものであり、与えられた少数の語から同様に使用される語を自動的に多数取得するブートストラッピングの手法を用い、少数の属性名から実世界上に存在するオブジェクトの多数のスキーマを抽出する構成とすることにより、オブジェクトの特性を一元的にコンピュータ装置で管理することができるスキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体を提供することを目的とする。
【００２２】
本発明の他の目的は、属性名群を抽出する文書データを、一又は複数の単語からなり、オブジェクトを一意に特定し得るキーを含む文書データに限定する構成とすることにより、スキーマを抽出するために適切でない文書データに対し、テンプレートの作成処理、属性名の抽出処理の無駄を回避することができるスキーマ抽出方法を提供することにある。
【００２３】
本発明の他の目的は、少数の属性名群から多数の属性名群を抽出する処理と同様に、少数のキーから多数のキー群を抽出し、属性名群の抽出とキー群の抽出とを夫々実行し、夫々で抽出された属性名及びキーを使用して多様な文書データを取得する構成とすることにより、多様なスキーマを抽出することができるスキーマ抽出方法を提供することにある。
【００２４】
本発明の他の目的は、作成されたテンプレートを適用して属性名群を抽出する範囲を、文書データの内で所定範囲に限定して属性名群を抽出する構成とすることにより、取得された文書データが多量のテキストを含む文書データである場合も、ノイズとなる語の抽出を低減させることができるスキーマ抽出方法を提供することにある。
【００２５】
また、本発明の他の目的は、抽出した属性名、キー、及び作成したテンプレートの内のいずれか又は全てについて、有効性を評価するための評価値を算出し、評価値が高いものを優先的に使用する構成により、ノイズとなる語の抽出を低減させることができるスキーマ抽出方法を提供することにある。
【課題を解決するための手段】
【００２６】
第１発明に係るスキーマ抽出方法は、複数の文書データを含む文書集合から文書データを取得し、取得した文書データからオブジェクトの特性を表わす属性名群であるスキーマを抽出するスキーマ抽出方法であって、複数の属性名を含む文書データを取得する第１ステップと、前記文書データから、前記複数の属性名に共通する前後のテキストパターンを特定し、属性名群を抽出するためのテンプレートを作成する第２ステップと、前記文書データの内から、前記テンプレートを適用して他の属性名群を抽出する第３ステップと、前記第３ステップで抽出された属性名群から属性名を選択する第４ステップとを含み、第４ステップで選択された属性名を含む文書データを前記第１ステップで取得するにようにして第１ステップから前記第４ステップまでの処理を繰り返し実行し、オブジェクトのスキーマを抽出することを特徴とする。
【００２７】
第２発明に係るスキーマ抽出方法は、前記第１ステップは、オブジェクトを一意に特定する一又は複数の単語であるキーを更に含む文書データを取得することを特徴とする。
【００２８】
第３発明に係るスキーマ抽出方法は、前記キーを含む文書データを取得する第５ステップと、前記文書データから、前記キーを抽出するためのテンプレートを作成する第６ステップと、前記文書データの内から、前記テンプレートを適用してキー群を抽出する第７ステップと、該第７ステップで抽出したキー群からキーを選択する第８ステップとを含み、前記第８ステップで選択されたキーを含む文書データを前記第１ステップ及び前記第６ステップで取得するようにして前記第１ステップから前記第４ステップまでの処理及び前記第５ステップから前記第８ステップまでの処理を実行することを特徴とする。
【００２９】
第４発明に係るスキーマ抽出方法は、前記第３ステップは、前記文書データの内の前記複数の属性名が含まれている所定範囲、又は、前記複数の属性名及び前記キーが含まれている所定範囲の内から、作成されたテンプレートに基づいて属性名を抽出することを特徴とする。
【００３０】
第５発明に係るスキーマ抽出方法は、文書データを構成する言語単位の木構造を解析するステップと、前記複数の属性名夫々に相当する前記言語単位を含む部分木を特定するステップとを含み、前記文書データの内の、特定した部分木の所定階層上の節以下に相当する部分を前記所定範囲とすることを特徴とする。
【００３１】
第６発明に係るスキーマ抽出方法は、前記木構造は、ＤＯＭ（Document Object Model）に基づくものであることを特徴とする。
【００３２】
第７発明に係るスキーマ抽出方法は、前記第３ステップで抽出した属性名の評価値を算出する属性名評価ステップと、前記属性名を前記評価値と対応付けて記憶するステップとを更に含み、前記値の高い順に属性名を選択することを特徴とする。
【００３３】
第８発明に係るスキーマ抽出方法は、前記第７ステップで抽出したキーの評価値を算出するキー評価ステップと、前記キーを前記評価値と対応付けて記憶するステップとを含み、前記値の高い順にキーを選択することを特徴とする。
【００３４】
第９発明に係るスキーマ抽出方法は、前記第６ステップで作成したテンプレートの評価値を算出するテンプレート評価ステップを含み、前記第７ステップは、前記評価値が所定値以上であるテンプレートに基づいてキー群を抽出することを特徴とする。
【００３５】
第１０発明に係るスキーマ抽出方法は、前記第６ステップで作成したテンプレートの評価値を算出するテンプレート評価ステップと、前記第２ステップ及び第５ステップで作成したテンプレートを、前記テンプレート評価ステップで算出された評価値と対応付けて記憶するステップとを更に含み、前記属性名評価ステップ及び／又は前記キー評価ステップは、属性名又はキーを抽出する際に適用された、記憶してあるテンプレートを含むテンプレートの評価値に基づいて属性名及び／又はキーの評価値を算出することを特徴とする。
【００３６】
第１１発明に係る情報処理装置は、複数の文書データを含む文書集合から複数の属性名を含む文書データを取得する取得手段を備え、取得した文書データからオブジェクトの特性を表わす属性名群であるスキーマを抽出するようにしてある情報処理装置であって、前記取得手段により取得された文書データから、前記複数の属性名について共通する前後のテキストパターンを特定し、属性名群を抽出するためのテンプレートを作成する手段と、前記文書データの内から、前記テンプレートに基づいて属性名群を抽出する抽出手段と、抽出された属性名群から属性名を選択する手段とを備え、選択された属性名を含む文書データの前記取得手段による取得及び前記抽出手段による属性名群の抽出を繰り返すようにしてあることを特徴とする。
【００３７】
第１２発明に係る情報処理装置は、前記文書集合から一又は複数の単語からなるキーを含む文書データを取得する手段と、前記キーを抽出するためのテンプレートを作成する手段と、前記文書データに前記テンプレートを適用してキー群を抽出する手段と、抽出されたキー群からキーを選択する手段とを更に備え、選択されたキーを含む文書データの取得及びキーの抽出を繰り返すようにしてあり、前記取得手段は、抽出されたキー群中のキーを更に含む文書データを取得するようにしてあることを特徴とする。
【００３８】
第１３発明に係るコンピュータプログラムは、ネットワークに接続されているコンピュータに、複数の文書データを含む文書集合から複数の属性名を含む文書データを取得する第１ステップを実行させ、取得した文書データからオブジェクトの特性を表わす属性名群であるスキーマを抽出するようにしてあるコンピュータプログラムであって、コンピュータに、前記第１ステップにより取得した文書データから、前記複数の属性名に共通する前後のテキストパターンを特定し、属性名群を抽出するためのテンプレートを作成する第２ステップ、前記文書データの内から、前記テンプレートを適用して属性名群を抽出する第３ステップ、及び、前記第３ステップで抽出された属性名群から属性名を選択する第４ステップを実行させ、第１ステップで第４ステップにより選択された属性名を含む文書データを取得させるようにして第１ステップから第４ステップまでの処理を繰り返し実行させるようにしてあることを特徴とする。
【００３９】
第１４発明に係るコンピュータプログラムは、前記文書集合から一又は複数の単語からなるキーを含む文書データを取得する第５ステップ、前記文書データから、前記キーを抽出するためのテンプレートを作成する第６ステップ、前記文書データの内から、前記テンプレートを適用してキー群を抽出する第７ステップ、及び該７ステップで抽出したキー群からキーを選択する第８ステップを更に実行させ、前記第５ステップで第８ステップにより選択されたキーを含む文書データを取得させるようにして第５ステップから第８ステップまでの処理を繰り返し実行させるようにしてあり、前記第１ステップで、第７ステップにより抽出されたキー群中のキーを更に含む文書データを取得させるようにしてあることを特徴とする。
【００４０】
第１５発明に係るコンピュータが読み取り可能な記録媒体は、第１３又は第１４発明に係るコンピュータプログラムが記録されていることを特徴とする。
【００４１】
第１発明、第１１発明、第１３発明及び第１５発明では、複数の属性名が含まれる文書データが取得され、取得された文書データ内の複数の属性名夫々の前後のテキストパターンから属性名を抽出するためのテンプレートが作成され、取得された文書データ内でテンプレートが適用されて属性名群が抽出される。抽出された属性名群から再度、属性名が選択され、選択された属性名を元に他の属性名群がさらに抽出される処理が繰り返される。
【００４２】
第２発明では、複数の属性名のみならず、オブジェクトを一意に特定する一又は複数の単語であるキーをも含む文書データから他の属性名群が抽出される。したがって、属性名が単に記述されているのみの文書データを取得することが防止される。
【００４３】
第３発明、第１２発明及び第１４発明では、属性名群のみならず、キーについても少数のキーを元に、他のキー群を取得する処理が行なわれ、多数多様なキーが取得される。
【００４４】
第４発明では、取得された文書データの内の、複数の属性名が含まれている限定的な範囲内又は複数の属性名及びキーが含まれている限定的な範囲内でテンプレートが適用されて他の属性名が抽出される。スキーマとなるような、属性名がまとめて記述されている範囲内で属性名群が抽出される。
【００４５】
第５発明では、取得された文書データが木構造で解析されるので、複数の属性名に相当する語、文字列等の言語単位の構成の規則性を、コンピュータ装置が容易に認識することが可能となる。複数の属性名同士で、属性名に相当する言語単位を含む部分木が特定され、夫々の部分木の所定階層上以下に相当する文書データ中の部分にテンプレートが適用される。多様な形式であっても属性名群がリストにされている場合は、ある程度可読性が良いように属性名群が整理されて記述されている可能性が高いので、部分木の所定階層上以下には、複数の属性名の言語単位を含む部分木間で構成の規則性が共通する部分が含まれる可能性が高い。これにより、属性名が散在するのみで構成の規則がない部分からは属性名が抽出されない。
【００４６】
第６発明では、文書データの木構造の解析は、Ｗｅｂ上の文書データのＨＴＭＬ形式に適したＤＯＭに基づいて行われる。
【００４７】
第７発明では、抽出された各属性名について評価値が算出され、評価値がより高い属性名が再度他の属性名及び／又はキーを抽出するために選択される。
【００４８】
第８発明では、抽出された各キーについて評価値が算出され、評価値がより高いキーが属性名及び／又は再度他のキーを抽出するために選択される。
【００４９】
第９発明では、作成されたテンプレートについて評価値が算出され、評価値が所定値以上であるテンプレートがキー群を抽出する際に適用される。
【００５０】
第１０発明では、抽出された属性名及び／又はキーについての評価値が算出される際、それらの属性名及び／又はキーが抽出されたときに適用されたテンプレートの評価値に基づいて評価値が算出される。
【発明の効果】
【００５１】
本発明による場合、与えられた複数の属性名を含む文書データから他の属性名群が抽出され、抽出された属性名が含まれる他の文書データから更に属性名が抽出されるというブートストラッピングの手法により、少数の属性名から多様な属性名が自動的に抽出される。これにより、人手によらずに実世界上に存在するオブジェクトの特性を表わす多数のスキーマを一元的にコンピュータ装置で管理することが可能になる。
【００５２】
なお、文書データから属性名を抽出する際のテンプレートは、属性値よりも多様性が低い属性名を取得するために、属性値を抽出する際のテンプレートよりも汎用性が高くなる可能性が高いが、テンプレートを適用する対象を与えられた属性名が含まれる文書データ内に限ることにより、属性名でないノイズとなる語を抽出してしまうことを回避することができる。
【００５３】
本発明による場合、複数の属性名が含まれる文書データを、オブジェクトを一意に特定し得る一又は複数の単語からなるキーを更に含む文書データに限定することにより、属性名が単に記述されているような文書データを除去し、オブジェクトの特性を表わす情報（オブジェクトについてのレコードとなり得る情報）を含む文書データから属性名を抽出することができる。これにより、スキーマを抽出するためには適切でない文書データに対して処理を実行する無駄を回避することができる。
【００５４】
本発明による場合、属性名のみならずキーについてもブートストラッピングの手法により多様なキーを抽出して使用することにより、特定のキーが含まれている文書データに抽出対象の文書データが限定されて抽出される属性名の多様性が低下してしまうことを回避して、多様な属性名群、つまり多様なスキーマを抽出することができる。
【００５５】
本発明による場合、作成したテンプレートを適用して属性名を抽出する範囲を所定の範囲に限定することにより、属性名を抽出するためのテンプレートが高い汎用性を有することにより文書データ中のあらゆる部分に当てはまり、属性名でない語が抽出されてしまうことを回避することができる。したがって、多量のテキストを含む文書データ内でもノイズとなるスキーマとして適切でない語を属性名として抽出してしまうことを防止することができる。
【００５６】
さらに、本発明による場合、評価値がより高い属性名及び／又はキーが優先的に使用されて属性名群が抽出されるので、ノイズとなる語を属性名として抽出してしまうことを低減させることができる。
【００５７】
また、本発明による場合、評価値がより高いテンプレートが適用されて属性名、キーが抽出され、さらに他の属性名を取得するために使用されるので、ノイズとなる語の抽出を低減させることができる。
【発明を実施するための最良の形態】
【００５８】
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
【００５９】
図１は、本発明に係るスキーマ抽出方法の概要を示す説明図である。図１中の楕円形Ｒ内に示された「オブジェクトＡ１」、「オブジェクトＡ２」、「オブジェクトＡ３」、…は、実世界上に存在するオブジェクトを表わす。「オブジェクトＡ１」、「オブジェクトＡ２」、「オブジェクトＡ３」は夫々を特定するための名称である。これに対し、「ものＡ」は、「オブジェクトＡ１」、「オブジェクトＡ２」、「オブジェクトＡ３」、…の一般的な概念を表わす名称である。
【００６０】
例えば、図１中の楕円形Ｒ内の各オブジェクトがノートパソコンの実体である場合、一般名称「ノートパソコン」が「ものＡ」に相当する。また、「オブジェクトＡ１」、「オブジェクトＡ２」、「オブジェクトＡ３」は、「ノートパソコン」の各ブランド名、シリーズ名、機種名等、各ノートパソコンを一意に特定し得る名称、即ちキーに相当する。
【００６１】
図１中のＮはＷｅｂを構成するネットワークを表わしており、図１中の１００は、Ｗｅｂ上に存在する文書データＤ１，Ｄ２，…からなる文書データ集合を示している。また、文書データ集合中には、前述の「ものＡ」の「オブジェクトＡ１」、「オブジェクトＡ２」、「オブジェクトＡ３」についての情報を含む文書データがあることが示されている。
【００６２】
また、文書データＤ１，Ｄ２，…中のＳｃ１，Ｓｃ２は「ものＡ」に関するスキーマである。スキーマＳｃ１，Ｓｃ２は、「ものＡ」の内の「オブジェクトＡ１」、「オブジェクトＡ３」の特性を夫々表わす属性名の組である。スキーマＳｃ１の属性名Ａ、属性名Ｂ、属性名Ｃ夫々に対応する属性値ａ１、ｂ１、ｃ１により、「オブジェクトＡ１」が特定され、スキーマＳｃ２の属性名Ａ、属性名Ｃ、属性名Ｄ夫々に対応する属性値ａ２，ｃ２，ｄ１により、「オブジェクトＡ３」が特定される。
【００６３】
上述のノートパソコンの例に従う場合、例えば文書データ集合１００中の文書データＤ１には、「ノートパソコン」の１つである「オブジェクトＡ１」の仕様の説明が箇条書きで記載されている。仕様を示すための各項目は属性名であり、スキーマＳｃ１を構成する。また、文書データ集合１００中の文書データＤ２には、「ノートパソコン」の１つである「オブジェクトＡ３」に対する評価（レビュー）が表組みで記載されている。評価項目は属性名であり、スキーマＳｃ２を構成する。
【００６４】
図１中の１は、本発明のスキーマ抽出方法を実施する情報処理装置である。情報処理装置１は、Ｗｅｂに接続されており、Ｗｅｂ上の文書データ集合から文書データＤ１，Ｄ２，…を取得することが可能である。情報処理装置１が有する記憶部１１には、抽出されるスキーマＳｃ１及びＳｃ２が記憶される。
【００６５】
Ｗｅｂ上の文書データは、あるオブジェクトについての属性名が自然言語で羅列して記載されている場合、文書データＤ１のように箇条書きで記載されている場合、文書データＤ２のようにタグ付けされた表組みで記載されている場合等、構成が多様である。さらに、属性値に関しては、属性名が与えられた場合に対応する多様な属性値を取得することが可能である一方、属性名に関しては属性値が与えられた場合に取得できる属性名は限られるという問題がある。本発明のスキーマ抽出方法は、このような困難を克服して情報処理装置１がＷｅｂ上に存在する文書データＤ１，Ｄ２，…から、「オブジェクトＡ１」，「オブジェクトＡ３」，…の特性を表わすスキーマＳｃ１，Ｓｃ２，…を自動的に抽出して記憶することを目的としている。
【００６６】
このようなオブジェクトの特性を表わすためのスキーマＳｃ１，Ｓｃ２，…を予め管理可能に記憶しておくことにより、例えば、検索サービスを実現する際又は質問応答システムを実現する際、ユーザから入力されたキーワードから検索、質問の対象となるオブジェクトと、オブジェクトに対応するスキーマとを特定し、特定したスキーマに対応する属性値を有する文書データを検索することが可能になり、ユーザの検索の要求に適した検索結果、応答結果を出力することが可能になる。
【００６７】
以下に説明する実施の形態１乃至３では、本発明に係るスキーマ抽出方法を情報処理装置１に実施させるために必要なハードウェア構成について、情報処理装置１による属性名群（スキーマ）を取得するための各処理について説明し、さらに具体例に当てはめた場合について説明する。なお、実施の形態１乃至３では、情報処理装置１はＰＣ（Personal Computer）である構成とする。
【００６８】
（実施の形態１）
図２は、実施の形態１における本発明のスキーマ抽出方法を実施する情報処理装置１の構成を示すブロック図である。情報処理装置１はＰＣで構成され、ＣＰＵ等である制御部１０と、ハードディスク等である記憶部１１と、メモリ等である一時記憶領域１２と、Ｗｅｂに接続するためのネットワークカード等である通信部１３と、ＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体１４を用いる補助記憶部１５とを備えている。
【００６９】
記憶部１１には、補助記憶部１５を介してＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体１４から取得した、ＰＣが本発明に係るスキーマ抽出方法を実施するための制御プログラム１Ｐが記憶されている。制御部１０は、制御プログラム１Ｐを記憶部１１から読み出して実行すると共に、各種ハードウェアを制御する。
【００７０】
また、記憶部１１には、各オブジェクトの属性名群の属性名リスト１１１、オブジェクトを一意に特定することができるキー群のキーリスト１１２が記憶されている。なお、本発明に係るスキーマ抽出方法が実施される前の初期状態の属性名リスト１１１及びキーリスト１１２には、一のオブジェクトについて少なくとも二つの属性名、一のキーが夫々含まれている。
【００７１】
情報処理装置１の制御部１０は、属性名リスト１１１及びキーリスト１１２に記憶してある属性名とキーとから、文書データを検索するためのクエリを作成する。記憶部１１には、制御部１０により作成されたクエリがクエリリストとして記憶してある。本発明に係るスキーマ抽出方法が実施される前の初期状態のクエリリストには、記憶部１１に記憶してある二つの属性名及び一のキーに基づいて、制御部１０によりクエリが作成されて記憶してある。
【００７２】
さらに記憶部１１には、属性名を抽出するために作成された属性名用テンプレート及びキーを抽出するために作成されたキー用テンプレートがテンプレートリストに夫々記憶される。テンプレートリストに記憶されているキー用テンプレート夫々には、テンプレートの有用性を表わす評価値が対応付けて記憶されている。
【００７３】
一時記憶領域１２には、制御部１０の演算処理によって一時的に発生する情報が記憶される。
【００７４】
通信部１３はネットワークＮに接続されている。制御部１０は、通信部１３によりＷｅｂ上に存在する図示しないＷＷＷ（World Wide Web）サーバと接続し、ＷＷＷサーバ上に存在する文書データＤ１，Ｄ２，…を取得することが可能である。
【００７５】
制御部１０は、通信部１３を介して取得した文書データＤ１，Ｄ２，…を文書データ集合１１３として記憶部１１に記憶する。なお、文書データ集合１１３は、属性名及びキーの抽出が行われていない新規文書データの集合と、属性名及びキーの抽出が行われた既存文書データの集合とを区別できるようにしてある。このとき制御部１０は、取得した文書データＤ１，Ｄ２，…夫々についての属性名及びキーの抽出処理が夫々終了しているか否かを判断するためのキー抽出済みマークと属性名抽出済みマークとを記憶部１１に対応付けて記憶する。制御部１０は、新規に取得した文書データについては、キー抽出済みマーク及び属性名抽出済みマークをオフにリセットしておく。
【００７６】
上述のように構成される情報処理装置１の制御部１０が実行する各処理について以下に説明する。
【００７７】
図３は、実施の形態１における情報処理装置１の制御部１０がスキーマを抽出する処理手順の概略を示すフローチャートである。
【００７８】
情報処理装置１の制御部１０は、まず記憶部１１に記憶してある属性名リスト１１１及びキーリスト１１２に基づくクエリをクエリリストから選択し、選択したクエリ（属性名及びキー）に基づいて通信部１３を介して文書データを取得する（ステップＳ１１）。このとき制御部１０は、文書データの取得のために使用したクエリを、クエリリストでの記憶から消去する。
【００７９】
情報処理装置１の制御部１０は、ステップＳ１１で取得した文書データに対し、以下に示すステップＳ１２からステップＳ１４までのキーを抽出する処理と、ステップＳ１５からステップＳ１７までの属性名を抽出する処理とを夫々実行する。この場合、情報処理装置１の制御部１０は、キーを抽出する処理と属性名を抽出する処理とを夫々同時に平行して実行させる構成でもよいし、キーを抽出する処理を実行させてから属性名を抽出する処理を実行させる構成でもよい。なお、実施の形態１では、キーを抽出する処理と属性名を抽出する処理を夫々平行して実行させる構成について説明する。
【００８０】
情報処理装置１の制御部１０は、ステップＳ１１で取得した文書データ内において選択されたキーが記述されている箇所を特定し、近傍のテキストパターンからキー用テンプレートを作成する（ステップＳ１２）。情報処理装置１の制御部１０は、取得した文書データにキー用テンプレートを適用してキーを抽出する（ステップＳ１３）。なお、ステップＳ１３において制御部１０は、キーを抽出する場合は、当該キーをクエリとしてステップＳ１１で取得した文書データのみならず、他のキーをクエリとして取得した他の文書データについても、ステップＳ１２で作成したキー用テンプレートを適用して新たなキーを抽出する。次に情報処理装置１の制御部１０は、抽出したキーをキーリスト１１２に記憶し（ステップＳ１４）、属性名を抽出する処理が終了するのを待ってステップＳ１１に処理を戻し、次の文書データを取得する処理（Ｓ１１）を実行する。
【００８１】
一方、情報処理装置１の制御部１０は、ステップＳ１１で取得した文書データ内において、選択された複数の属性名が記述されている箇所を特定し、複数の属性名夫々の前後のテキストパターンを比較し、共通するパターンを属性名用テンプレートとして作成する（ステップＳ１５）。情報処理装置１の制御部１０は、ステップＳ１１で取得した文書データに、作成した属性名用テンプレートを適用して属性名を抽出する（ステップＳ１６）。なお、ステップＳ１６において制御部１０は、属性名を抽出する場合はキーを抽出する場合と異なり、ステップＳ１１で取得した文書データに、ステップＳ１５で作成した属性名用テンプレートを適用して属性名を抽出する。情報処理装置１の制御部１０は、抽出した属性名を属性名リスト１１１に記憶し（ステップＳ１７）、キーを抽出する処理が終了するのを待ってステップＳ１１に処理を戻して次の文書データを取得する処理（Ｓ１１）を実行する。
【００８２】
情報処理装置１の制御部１０は、上述の処理を例えばネットワークＮ上の全文書データを取得するまで繰り返す。また、所定回数繰り返した場合は全処理を終了する構成でもよい。これにより、一のオブジェクトに対して最初に属性名リスト１１１に記憶してあった少数の属性名から多数の属性名が抽出されて記憶される。
【００８３】
次に、図３のフローチャートに示した情報処理装置１の制御部１０による各処理を詳細に説明する。
【００８４】
まず、ステップＳ１１において、情報処理装置１の制御部１０が文書データを取得する処理について詳細を説明する。図４は、実施の形態１における情報処理装置１の制御部１０がスキーマを抽出する際に、文書データを取得する処理の詳細を示すフローチャートである。図４のフローチャートに示す処理手順は、図３のフローチャートに示した処理手順の内のステップＳ１１の処理に対応する。
【００８５】
情報処理装置１の制御部１０は、記憶部１１に記憶してあるクエリリストから、属性名のペアとキーとからなるクエリを選択する（ステップＳ２１）。
【００８６】
制御部１０は、選択したクエリに基づいて通信部１３を介してネットワークＮ上に存在する文書データを検索し複数の文書データを取得する（ステップＳ２２）。このとき制御部１０は、取得した文書データのファイルそのものをダウンロードすることにより記憶部１１の文書データ集合１１３に記憶する構成でもよいし、取得した文書データのＵＲＬ（Uniform Resource Locator）のみを記憶部１１の文書データ集合１１３に記憶する構成でもよい。
【００８７】
制御部１０は、ステップＳ２２で取得した複数の文書データの内から、既に以前の処理によって記憶部１１の文書データ集合１１３に記憶されていない文書データを抽出する（ステップＳ２３）。制御部１０は、抽出された文書データを文書データ集合１１３の内の新規文書データの集合に記憶し（ステップＳ２４）、記憶した文書データ夫々について以降の属性名の抽出及びキーの抽出の処理を行なう。したがって、制御部１０はその後、処理を図３のステップＳ１２又はステップＳ１５へ戻す。
【００８８】
本発明による場合、取得した複数の文書データから属性名を抽出する際に、与えられたオブジェクトの特定を表わす属性名を含む文書データを更に、キーを含む文書データに限定する。これにより、属性名が単に記述されているような文書データを除去して属性名の抽出処理の無駄を回避し、オブジェクトについての特性を表わす情報（オブジェクトについてのレコードとなり得る情報）を含む文書データから属性名を抽出することができる。
【００８９】
次に、情報処理装置１の制御部１０がキーを抽出する処理について説明する。図５は、実施の形態１における情報処理装置１の制御部１０がキーを抽出する処理手順を示すフローチャートである。図５のフローチャートに示す処理手順は、図３のフローチャートに示した処理手順の内のステップＳ１２からステップＳ１４までの処理に対応する。
【００９０】
情報処理装置１の制御部１０は、記憶部１１に記憶されている文書データ集合１１３の内の新規文書データの集合から、キー抽出済みマークがオフである文書データを取得する（ステップＳ３１）。制御部１０は、ステップＳ３１で取得した文書データにおけるキー用の新規テンプレートを作成する（ステップＳ３２）。テンプレートの作成についての詳細は後述する。
【００９１】
制御部１０は、ステップＳ３２で作成した新規キー用テンプレートと、記憶部１１に記憶してあるテンプレートリスト中の既存キー用テンプレートとを、ステップＳ３１で取得した文書データに適用してキーを抽出する（ステップＳ３３）。
【００９２】
ステップＳ３３において制御部１０は、新規キー用テンプレートを、記憶部１１にある文書データ集合１１３の新規文書データの集合中の文書データと、既存文書データの集合中の文書データとに夫々適用してキーを抽出する。また、既存キー用テンプレートを、ステップＳ３１で取得して新規文書データの集合中に記憶してある文書データに適用してキーを抽出する。さらに、このとき制御部１０は、新規キー用テンプレートを用いて通信部１３を介して取得できる文書データからキーを検索、抽出する構成でもよい。なお、このとき制御部１０に作成されるキー用テンプレートは、ＨＴＭＬタグを含む可能性が高いので、制御部１０には、ソースレベルで文書データを検索するエンジンが必要になる。
【００９３】
制御部１０は、ステップＳ３３で使用した新規キー用テンプレート及び既存キー用テンプレートに対する評価値を算出し（ステップＳ３４）、新規キー用テンプレート及び既存キー用テンプレートの内、算出した評価値が所定値以上であるキー用テンプレートを記憶部１１のテンプレートリストに記憶する（ステップＳ３５）。テンプレートについての評価値の算出方法の詳細については後述する。
【００９４】
制御部１０は、ステップＳ３３で抽出したキーを記憶部１１のキーリスト１１２に記憶する（ステップＳ３６）。このとき制御部１０は、ステップＳ３３で抽出したキーの内、記憶部１１のキーリスト１１２に記憶されていない新規キーについては記憶するが（Ｓ３６）、記憶部１１のキーリスト１１２に記憶してある既存キーと同一のキーについては、記憶しないか又は既に記憶してある既存キーを置き換える。
【００９５】
また、制御部１０はステップＳ３６において、ステップＳ３３で取得した新規キーについてキーリスト１１２に記憶すると共に新規キーに基づいたクエリを作成し、クエリリストに記憶する。制御部１０は、記憶部１１の属性名リスト１１１に記憶してある属性名のペアと新規キーとに基づいてクエリを作成し、クエリリストに追加する。
【００９６】
制御部１０は、ステップＳ３１で取得した文書データのキー抽出済みマークをオンにセットし（ステップＳ３７）、新規文書データの集合中の全文書データのキー抽出済みマークがオンにセットされているか否かを判断する（ステップＳ３８）。制御部１０は、新規文書データの集合中の全文書データのキー抽出済みマークが未だオンにセットされていないと判断した場合（Ｓ３８：ＮＯ）、処理をステップＳ３１へ戻してキー抽出済みマークがオフである文書データを取得し（Ｓ３１）、ステップＳ３２以降の処理を実行する。
【００９７】
制御部１０は、新規文書データの集合中の全文書データのキー抽出済みマークがオンにセットされていると判断した場合（Ｓ３８：ＹＥＳ）、キーを抽出する処理を終了し、後述する属性名の抽出処理が終了するのを待って処理を図３のフローチャートに示したステップＳ１１へ戻す。
【００９８】
なお、図５のフローチャートに示した処理手順の内、ステップＳ３４の評価値の算出及び付与の処理については省略する構成でもよい。この場合、情報処理装置１の制御部１０は、全ての新規テンプレート及び既存テンプレートをテンプレートリストへ記憶する（Ｓ３５）。ステップＳ３４における処理を行なうのは、評価値が所定値以上であるテンプレートのみに絞り込むことにより、無闇にテンプレートを適用してキーを抽出するのではなく、属性名の抽出に有用性の高いキーを抽出するようにすることができるからである。
【００９９】
図５のフローチャートに示した制御部１０による各処理の内、ステップＳ３２におけるキー用テンプレートの作成処理及びステップＳ３４におけるテンプレートの評価値の算出処理について夫々、詳細を以下に説明する。
【０１００】
まず、ステップＳ３２におけるキー用テンプレートの作成処理について詳細を説明する。情報処理装置１の制御部１０は、文書データ中のキーの前後任意ｎ個の単語、又は文字をキー用テンプレートとする。ここでｎは任意の自然数である。
【０１０１】
図６は、キーを抽出する際のキー用テンプレートの例を示す説明図である。図６（ａ）は、一の文書データで作成されるキー用テンプレートの例を示している。図６（ｂ）は、図６（ａ）に示したキー用テンプレートで他のキーが抽出される例を示している。図６（ａ）、図６（ｂ）において、文書データ上の破線で描かれた単語を囲う各矩形は、キー用テンプレートを構成する単語を夫々区別している。図６の説明図に示した例は、キーとして「シリーズＡ１」が与えられた場合に、制御部１０がキーの前後夫々３個の単語をキー用テンプレートとして作成する例である。
【０１０２】
図６（ａ）の破線の矩形内によって示すように、キー「シリーズＡ１」の前後夫々３個の単語は、前の「製品シリーズ」「：」及び「＜／Ｂ＞」の３単語、並びに後ろの「＜ＬＩ＞」「＜Ｂ＞」「タイプ」の３単語である。なお、ここではＨＴＭＬで記述されている文書データではＨＴＭＬタグも１単語とする。したがって情報処理装置１の制御部１０は、図６（ａ）に示した文書データでは、キー「シリーズＡ１」に基づいて、『製品シリーズ：＜／Ｂ＞（キー）＜ＬＩ＞＜Ｂ＞タイプ』というキー用テンプレートを作成する。
【０１０３】
情報処理装置１の制御部１０は、上述のように作成したキー用テンプレートを、当該文書データの他の部分及び他の文書データに適用してキーを取得する。図６（ｂ）に示すように、文書データの他の部分に『製品シリーズ：＜／Ｂ＞（キー）＜ＬＩ＞＜Ｂ＞タイプ』のキー用テンプレートを適用することにより、キー「シリーズＡ２」及び「シリーズＡ３」を抽出することができる。
【０１０４】
なお、図６（ａ）に示した文書データについて、キー「シリーズＡ１」が与えられた場合に、前後８文字をキー用テンプレートとして作成するときは、キー用テンプレートは『リーズ：＜／Ｂ＞（キー）＜ＬＩ＞＜Ｂ＞タ』となる。
【０１０５】
本実施の形態では更に、キー用テンプレートの作成にＤＯＭ（Document Object Model）構造に対するＵＳＰ（Upper-Level Semantic text Portion）の概念を導入する。制御部１０は、前後ｎ個の単語又は文字のみならず、キーに対するＵＳＰとなるテキストを特定し、前後ｎ個の単語又は文字と、ＵＳＰとなるテキストとをテンプレートとして作成する。制御部１０は、このＵＳＰが導入されたキー用テンプレートを適用する場合、前後ｎ個の単語又は文字が前後に現れる文字列を抽出し、且つその文字列のＵＳＰとなるテキストが同一である場合にその文字列をキーとして抽出する。
【０１０６】
ＤＯＭとは、ＸＭＬ、ＨＴＭＬ等のタグ付けされた半構造化文書の論理構造を定義し、ソフトウェアによって半構造化文書を解析するためのモデルである（http://www.w3.org/DOM/参照）。実施の形態１における情報処理装置１の制御部１０は、取得した文書データのＤＯＭ構造を解析することができるように構成されたプログラムを実行することによりＤＯＭ構造を認識することができる。
【０１０７】
ここでＵＳＰとは、ある語に対しＤＯＭ構造上でその語と意味的に関連する可能性が高いテキスト部分を呼ぶ。図７は、ＵＳＰの内容例を示す説明図である。図７には、ＨＴＭＬの文書データ内に表わされる論理構造が明確な典型例として、表、箇条書きによる記述形式を示している。なお、図７に示した記述形式は、文書データがＷｅｂブラウザで読み込まれて表示された場合の例を示している。図７（ａ）に示す例は、情報が表形式で記述されている第１の例である。図７（ｂ）に示す例は、情報が表形式で記述されている第２の例である。図７（ｃ）に示す例は、情報が箇条書き形式で記述されている例である。
【０１０８】
図８、図９及び図１０は、ＵＳＰを特定するためのルールの例を示す表図である。図８、図９及び図１０は、図７（ａ）、図７（ｂ）、図７（ｃ）夫々に示した３つの記述形式に対応するＵＳＰのテキストを特定するためのルールの例を示している。ルール夫々には、ある語（キー）がそのルールを適用する記述形式に当てはまるか否かを判定するための判定条件を有している。情報処理装置１の制御部１０は、夫々の判定条件に従ったプログラムを実行することにより、与えられたキーの近傍のＤＯＭ構造の解析結果に基づき、キーの近傍の構造がいずれの記述形式に当てはまるかを判定する。
【０１０９】
図７（ａ）に示すように、与えられたキー「Ａ１」が表形式で記述されている場合について説明する。情報処理装置１の制御部１０は、ＤＯＭ構造を解析してキー「Ａ１」の文書データ中の場所及び階層を認識する。制御部１０は、キー「Ａ１」のＤＯＭ構造に基づいて、図８、図９及び図１０に示した各ルールの判定条件から、図７（ａ）に示した記述形式に当てはまると判定する。この場合、制御部１０は、ルールに従ったプログラムを実行することにより、キー「Ａ１」と表内の同列一行目のセル内に記述されているテキストをＵＳＰに相当するテキストであると特定する。
【０１１０】
これにより、図７（ａ）に示した例の場合は、「項目Ａ」がＵＳＰとして特定される。なお、「項目Ａ」はキーを属性値とした場合の属性名に対応する語である可能性が高い。制御部１０は、キー「Ａ１」の前後のｔａｂｌｅタグ内に記述されるｔｈタグ、ｔｄタグ、ｔｒタグ等の単語のみならず、「項目Ａ」がＵＳＰとして特定されることをキー用テンプレートとする。これにより、例えば図７（ａ）に示すような文書データに対してキー「Ａ１」が与えられた場合、制御部１０は、キー用テンプレートを適用して前後のテキストパターン（ｎ個の単語又は文字列）が共通し、同一のＵＳＰ「項目Ａ」を有する「Ａ２」をキーとして抽出することができる。
【０１１１】
同様に、図７（ｂ）に示すように表形式で記述されている場合は、制御部１０は図９の判定条件に適合すると判断し、「項目Ａ」をＵＳＰとして特定し、特定したＵＳＰをキー用テンプレートに含める。図７（ｃ）に示すように箇条書き形式で記述されている場合は、判制御部１０は図１０の判定条件に適合すると判断し「項目Ａ」をＵＳＰと特定し、特定したＵＳＰをキー用テンプレートに含める。
【０１１２】
次に、図５のフローチャートに示した制御部１０による処理手順の内のステップＳ３４におけるテンプレートの評価値の算出処理について説明する。
【０１１３】
キーを抽出する際に適用したキー用テンプレートの評価値は、Yangarberらによる確信度の算出方法を適用して算出する。（参考文献R.Yangarber, and L.R.Grishman：Unsupervised learning of generalized names, Proceedings of the 19th International Conference on Computational Linguistics, Vol.1, pp.474-479, 2002.）
【０１１４】
Yangarberらによる確信度の算出方法を適用する場合、まず情報処理装置１の制御部１０は、テンプレートｔ_iに対する確信度Ｃtemplate（ｔ_i）と、抽出した語ｗ_e（ここではキーとなる属性値）に対する確信度Ｃword（ｗ_e）を以下に示す式（１）及び式（２）に基づいて算出する。
【０１１５】
【数１】

【０１１６】
なお、式（１）及び式（２）におけるＰｒｏｂ（ｔ_i）は、テンプレートｔ_iが適用されることによりこれまでに抽出された全ての語（ここではキー）の内、正しい語として既に記憶部１１に記憶されている語の割合を示す。また、ｐｏｓ（ｔ_i）は、テンプレートｔ_iにより抽出された語の内、正しい語として既に記憶部１１に記憶してある語の数を示す。さらにＭ_tは、語ｗ_eを抽出したテンプレートの集合である。
【０１１７】
式（１）は、より正確により多くの正しい語を抽出することができたテンプレートに高い評価値を付与するための式である。一方、式（２）は、集合Ｍ_tに含まれる全てのテンプレートが間違って語を抽出している場合、その集合Ｍ_tに含まれるテンプレートに適合することによって抽出された語ｗ_eは正しくないことに基づく式である。即ち、集合Ｍ_tに含まれるテンプレートが間違って語を抽出する場合を除いた、正しい事象が起こる確率を確信度として定義している。
【０１１８】
制御部１０は、上述の式（１）によって得られる値を、作成したテンプレートの評価値としてもよい。また他に、式（１）からｌｏｇ｜ｐｏｓ（ｔ_i）｜を除いた値、式（１）からＰｒｏｂ（ｔ_i）を除いた値を、作成したテンプレートの評価値とする構成でもよい。さらに、テンプレートｔ_kが適用されることにより抽出された語の評価値の平均、又はそれまでに抽出された語の評価値の合計を、作成したテンプレートの評価値とする構成でもよい。
【０１１９】
また、作成したテンプレートが適用されて抽出された語の評価値は、式（２）の値としてもよい。さらに、抽出された語を抽出することができた他のテンプレートの数、他のテンプレートの評価値の平均又は合計を評価値としてもよい。
【０１２０】
上述の図３から図５までのフローチャートに示したキーの抽出処理に対し、属性名を抽出する処理について次に説明する。
【０１２１】
図１１は、実施の形態１における情報処理装置１の制御部１０が属性名を抽出する処理手順を示すフローチャートである。図１１は、図３のフローチャートに示した処理手順のうちのステップＳ１５からステップＳ１７までの処理に対応し、図５のフローチャートに示した処理手順と独立に平行して実行される。
【０１２２】
情報処理装置１の制御部１０は、記憶部１１に記憶されている文書データ集合１１３のうちの新規文書データの集合から、属性名抽出済みマークがオフである文書データを取得する（ステップＳ４１）。制御部１０は、ステップＳ４１で取得した文書データにおける属性名用のテンプレートを作成する（ステップＳ４２）。
【０１２３】
制御部１０は、ステップＳ４２で作成した属性名用テンプレートを適用する範囲を特定する（ステップＳ４３）。ステップＳ４３における属性名用テンプレートの適用範囲の特定処理については詳細を後述する。
【０１２４】
制御部１０は、ステップＳ４１で取得した文書データに対して特定した範囲内においてステップＳ４２で作成した属性名用テンプレートを適用して属性名を抽出し、抽出した属性名の組をスキーマとして記憶する（ステップＳ４４）。このとき、制御部１０が、特定した範囲内のテキストに属性名用テンプレートを適用して抽出された属性名の組をスキーマとして記憶することにより、当該テキストにおけるオブジェクトの捉え方に応じたスキーマを記憶することが可能になる。
【０１２５】
さらに、制御部１０は、抽出した属性名を属性名リスト１１１に記憶する（ステップＳ４５）。制御部１０はステップＳ４５において、抽出した属性名を属性名リスト１１１に記憶するが、その際、既に抽出済みの属性名と重複する属性名については記憶しないようにしても良い。そして制御部１０は、抽出したキー（図５参照）及び既にキーリスト１１２に記憶してある既存キー夫々と抽出した属性名とに基づいてクエリを作成し、クエリリストに記憶する（ステップＳ４６）。
【０１２６】
制御部１０は、ステップＳ４１で取得した文書データの属性名抽出済みマークをオンにセットし（ステップＳ４７）、新規文書データの集合中の全文書データの属性名抽出済みマークがオンにセットされているか否かを判断する（ステップＳ４８）。制御部１０は、新規文書データの集合中の全文書データの属性名抽出済みマークが未だオンにセットされていないと判断した場合（Ｓ４８：ＮＯ）、処理をステップＳ４１へ戻して属性名抽出済みマークがオフである文書データを取得し、さらにステップＳ４２以降の処理を実行する。
【０１２７】
制御部１０は、新規文書データの集合中の全文書データの属性名抽出済みマークがオンにセットされていると判断した場合（Ｓ４８：ＹＥＳ）、属性名を抽出する処理を終了し、キーを抽出する処理が終了するのを待って処理を図３のフローチャートに示したステップＳ１１へ戻す。
【０１２８】
なお、制御部１０はステップＳ４８において全文書データの属性名抽出済みマークがオンにセットされていると判断した場合、全文書データのキー抽出済みマークがオンにセットされているか否かを判断する。制御部１０は、新規文書データの集合中の全文書データの属性名抽出済みマーク及びキー抽出済みマークのいずれもがオンにセットされていると判断した場合、新規文書データの集合の文書データを既存文書データの集合として記憶し直す。
【０１２９】
制御部１０は上述に示すように、ステップＳ４２において作成した属性名用テンプレートを、ステップＳ４１で取得した文書データのみに適用し、更にステップＳ４３で特定した範囲のみに適用して属性名を抽出する。これにより、多様な属性名を抽出するための汎用的なテンプレートを作成することができると共に、各文書データ夫々のみで有効なテンプレートで抽出することにより、文書データ夫々で異なる多様な記述形式に対応させることができる。
【０１３０】
また、キーを含む文書データから属性名を抽出する構成とすることにより、オブジェクトの情報が記述されていないような文書データに対するテンプレートの作成処理、属性名抽出処理等の処理の無駄を回避することができる。
【０１３１】
なお、制御部１０はステップＳ４５において属性名を記憶する際、抽出した属性名群をまとめてスキーマとして記憶部１１に記憶する。このとき、既に抽出した属性名と重複する属性名があっても、一の文書データにおいて抽出した属性名が属性名群（スキーマ）として記憶されることに意味がある。論理構造に基づく範囲内に共に抽出される属性名は相互に、オブジェクトの特性を表わすために共通する目的を有して定義されたものであると考えられるからである。
【０１３２】
図１１のフローチャートに示した制御部１０による各処理の内、ステップＳ４２における属性名用テンプレートの作成処理、及びステップＳ４３における適用範囲の特定処理について夫々、詳細を以下に説明する。
【０１３３】
まず、ステップＳ４２における属性名用テンプレートの作成処理について説明する。図１２は、実施の形態１における情報処理装置１の制御部１０が属性名用テンプレートを作成する処理手順を示すフローチャートである。情報処理装置１の制御部１０は、与えられた複数の属性名の前後で共通するテキストパターンを特定し、テンプレートとする。図１２のフローチャートに示す処理は、図１１のフローチャートに示した処理手順の内のステップＳ４２の処理の詳細に対応する。
【０１３４】
情報処理装置１の制御部１０は、ステップＳ４１により取得された文書データ内において、クエリに含まれている属性名ペアが出現する位置を特定し、記憶する（ステップＳ５０１）。このとき制御部１０は、属性名ペアが出現する位置を、属性名夫々の始点Ｓと終点Ｅとにより記憶する（始点Ｓ１，Ｓ２及び終点Ｅ１，Ｅ２）。なお、クエリに含まれている属性名が二つではなく、３以上である場合は夫々の始点Ｓ及び終点Ｅを記憶する。
【０１３５】
制御部１０は、まず属性名夫々の手前のテキストパターンについて共通するパターンを特定するために以下の処理を行なう。
【０１３６】
制御部１０は、文字の読み出し位置Ｒｆを属性名ペア夫々の始点Ｓにセットする（ステップＳ５０２）。制御部１０は、読み出し位置Ｒｆから一文字ずつ前方向に戻って一文字を読み出し（ステップＳ５０３）、全ての属性名（ここでは属性名ペア）に対する読み出し位置Ｒｆから読み出した夫々の一文字が一致するか否かを判断する（ステップＳ５０４）。
【０１３７】
制御部１０は、読み出した一文字が一致すると判断した場合（Ｓ５０４：ＹＥＳ）、共通するテキストパターンが未だ前方に続く可能性が高いので、処理をステップＳ５０３に戻して読み出し位置Ｒｆを前方向に戻って（Ｒｆ＝Ｒｆ−１）一文字を読み出す（Ｓ５０３）。その後再度、読み出した文字が一致するか否かの判断（Ｓ５０４）の処理を実行し、全ての属性名に対する前方向のテキストパターンにおいて一文字ずつ一致するか否かの判断を実行し、一致しない（Ｓ５０４：ＮＯ）と判断するまで処理（Ｓ５０３及びＳ５０４）を繰り返す。
【０１３８】
制御部１０は、読み出した一文字が一致しないと判断した場合（Ｓ５０４：ＮＯ）、属性名ペアの一方に対する読み出し位置Ｒｆの一文字分後方に進んだ位置（Ｒｆ＋１）から、属性名の始点Ｓまでの文字列をテンプレートの文字列の内の前半部（Ｔｓｔｒｆ）として記憶する（ステップＳ５０５）。
【０１３９】
次に制御部１０は、属性名夫々の後方のテキストパターンについて共通するパターンを特定するために以下の処理を行なう。
【０１４０】
制御部１０は、文字の読み出し位置Ｒｂを属性名ペア夫々の終点Ｅ（Ｅ１，Ｅ２）にセットする（ステップＳ５０６）。制御部１０は、読み出し位置Ｒｂから一文字ずつ後方向に進んで（Ｒｂ＝Ｒｂ＋１）一文字を読み出し（ステップＳ５０７）、全ての属性名（ここでは属性名ペア）に対する読み出し位置Ｒｂから読み出した夫々の一文字が一致するか否かを判断する（ステップＳ５０８）。
【０１４１】
制御部１０は、読み出した一文字が一致すると判断した場合（Ｓ５０８：ＹＥＳ）、共通するテキストパターンが未だ後方に続く可能性が高いので、処理をステップＳ５０７に戻して読み出し位置Ｒｂを後方向に進んで一文字を読み出す（Ｓ５０７）。その後再度、読み出した文字が一致するか否かの判断（Ｓ５０７）の処理を実行し、全ての属性名に対する後方向のテキストパターンにおいて一文字ずつ一致するか否かの判断を実行し、一致しない（Ｓ５０８：ＮＯ）と判断するまで処理（Ｓ５０７及びＳ５０８）を繰り返す。
【０１４２】
制御部１０は、読み出した一文字が一致しないと判断した場合（Ｓ５０８：ＮＯ）、属性名の終点Ｅから、属性名ペアの一方に対する読み出し位置Ｒｂの一文字分手前に戻った位置（Ｒｂ−１）までの文字列をテンプレートの文字列の内の後半部（Ｔｓｔｒｂ）として記憶する（ステップＳ５０９）。
【０１４３】
制御部１０は、ステップＳ５０５で記憶したテンプレートの前半部（Ｔｓｔｒｆ）及び後半部（Ｔｓｔｒｂ）の２種類の文字列を属性名テンプレートとする（ステップＳ５１０）。制御部１０は、属性名用テンプレートの作成処理を終了し、図１１のフローチャートに示した処理手順の内のステップＳ４２へ処理を戻す。
【０１４４】
上述のように示した処理手順により、複数の属性名の前後のテキストから共通するパターンが特定され、属性名用テンプレートが作成される。なお、上述の処理手順の内のステップＳ５０４ステップＳ５０８の処理で一致するか否かを判断する処理においては、ステップＳ５０３及びステップＳ５０７夫々で一文字ずつ読み出して比較する構成とした。しかしながら、本発明はこれに限らず、読み出す単位を一文字ではなく一単語ずつ読み出して一致するか否かを判断する構成でもよい。このとき単語には、ＨＴＭＬ、ＸＭＬタグが含まれる。
【０１４５】
このように、属性名用テンプレートを複数の属性名の前後テキストの完全一致部分から作成する構成とすることにより、属性名に関する部分の記述形式の多様性に対応させることができ、より多様なスキーマを抽出することができる。
【０１４６】
次に、制御部１０によるステップＳ４３における適用範囲の特定処理について説明する。図１３は、実施の形態１における情報処理装置１の制御部１０が属性名用テンプレートの適用範囲を特定する処理手順を示すフローチャートである。
【０１４７】
情報処理装置１の制御部１０はまず、適用範囲を特定するために文書データのＤＯＭ構造に基づく木構造を解析する（ステップＳ６１）。なお、ＤＯＭ構造に基づく木構造の解析は、ステップＳ６０１のタイミングに限らず、図１１のフローチャートに示した処理手順の内のステップＳ４１で文書データを取得した後に解析しておいてもよい。ＤＯＭ構造の解析のタイミングは他に、制御部１０が属性名用テンプレートを作成した（Ｓ４２）後でもよく、さらには図４のフローチャートに示した処理手順のステップＳ２４で、新規文書データの集合に記憶する際にＤＯＭ構造を解析しておくようにしてもよい。
【０１４８】
次に、制御部１０は、ＤＯＭ構造に基づく木構造から、属性名ペアの各属性名を含む属性名用テンプレートに対応する部分木を夫々特定する（ステップＳ６２）。なお、ステップＳ６２で特定する部分木は、属性名用テンプレートに相当するテキストを含む最小の部分木である。制御部１０は、属性名ペア夫々について特定した部分木が一致するか否かを判断する（ステップＳ６３）。
【０１４９】
制御部１０は、部分木が一致すると判断した場合（Ｓ６３：ＹＥＳ）、その一致する部分木自身又はその部分木からｎ階層上のノード以下を属性名用テンプレートの適用範囲として特定する（ステップＳ６４）。
【０１５０】
制御部１０は、部分木が一致しないと判断した場合（Ｓ６３：ＮＯ）、夫々の部分木からｎ階層上のノード以下を属性名用テンプレートの適用範囲として特定する（ステップＳ６５）。
【０１５１】
制御部１０は、ステップＳ６４及びステップＳ６５において属性名用テンプレートの適用範囲を特定した後は、図１１のフローチャートに示した処理手順の内のステップＳ４３へ処理を戻す。
【０１５２】
図１４は、取得された文書データの一例を示す説明図である。図１５は、取得された文書データについて解析されて得られたＤＯＭ構造に基づく木構造を示す説明図である。図１５に示した木構造は、図１４の説明図に示した文書データに対し、図１３のフローチャートに示した処理手順の内のステップＳ６２の処理を行った結果に対応する。図１５に示す破線内は、作成された属性名用テンプレートに対応する部分木を示している。
【０１５３】
図１４の説明図に示した文書データについて、属性名ペアとして「ＣＰＵ」及び「メモリ」が与えられていた場合、情報処理装置１の制御部１０は、図１２のフローチャートに示した処理手順を実行することにより、「ＣＰＵ」及び「メモリ」夫々の前後テキストの完全一致部分を属性名用テンプレートとして作成する。この場合に作成される属性名用テンプレートは、『＜ＬＩ＞＜Ｂ＞（属性名）：＜／Ｂ＞』である。これに対し、情報処理装置１の制御部１０は、図１３のフローチャートに示したステップＳ６２を実行することにより、図１５に示すＤＯＭ構造に基づく木構造において、作成された属性名用テンプレート『＜ＬＩ＞＜Ｂ＞（属性名）：＜／Ｂ＞』を含む部分木を破線で示すように作成する。「商品名Ｂ」と「１ＧＢ」は、リストタグの階層よりも下層に相当するため、夫々部分木に含まれる。
【０１５４】
情報処理装置１の制御部１０は、図１３のフローチャートのステップＳ６３に示したように、作成した部分木が一致するか否かを判断する。図１５の説明図に示した例では、情報処理装置１の制御部１０は、部分木が一致しないと判断する。したがって、制御部１０は、部分木から１階層上以下を適用範囲とする場合、属性名ペア「ＣＰＵ」及び「メモリ」の内の一方である「ＣＰＵ」から１階層（ｎ＝１）上のＵＬタグ以下（一点鎖線内）を適用範囲とする。なお、「メモリ」から１階層上以下の範囲は、「ＣＰＵ」から１階層上以下の範囲と同じＵＬタグ以下であり一致する。したがって、「メモリ」から特定する適用範囲は考慮しなくても良い。
【０１５５】
一方例えば、属性名ペア夫々に対して特定した部分木が破線内ではなく上位の層のＵＬタグ以下も含んだ一点鎖線で示した部分木である場合は、制御部１０は部分木は一致すると判断する。
【０１５６】
情報処理装置１の制御部１０は、上述のように特定した適用範囲内に属性名用テンプレートを適用し、属性名群を抽出する。図１４及び図１５に示した例では、一点鎖線内で属性名用テンプレートが適用され、スキーマとして「メーカー型番」、「製品シリーズ」、「タイプ」、「ＣＰＵ」、「メモリ」及び「ＨＤＤ」の属性名の組が抽出される。
【０１５７】
このように、作成した属性名用テンプレートを適用する範囲を限定することにより、テンプレートが汎用的になって文書データ中のあらゆる箇所からノイズとなる語が抽出されてしまうことを防ぐことができる。
【０１５８】
制御部１０による、文書データの取得処理、キーの抽出処理及び属性名の抽出処理と、夫々の処理において使用又は抽出されるキー、属性名、クエリ及び文書データとの関係に注目し、本発明のブートストラッピングによる属性名の抽出処理を説明する。図１６は、実施の形態１における情報処理装置１の制御部１０が実行する処理を概念的に表わす説明図である。なお、図１６の説明図に示す処理の流れの概略は図３のフローチャートに示した処理手順に対応し、夫々の処理の詳細は図４、図５、図１１、図１２及び図１３のフローチャートに示した処理手順に対応する。なお、図１６中の白矢印は、処理の流れを表わしている。
【０１５９】
図１６（ａ）は、実施の形態１における本発明のスキーマ抽出方法が実施される前の初期状態で予め与えられるキー及び属性名ペアである。図１６（ｂ）は、キーリスト１１２及び属性名リスト１１１を示しており、既存キーのリスト及び属性名のリスト、新規キーのリスト及び属性名のリストに区別されていることが表わされている。図１６（ｃ）は、図１６（ｂ）のキーリスト１１２及び属性名リスト１１１に基づいて作成されるクエリリストを示している。なお、図１６（ｂ）の既存キーのリスト及び新規属性名のリスト間、新規キーのリスト及び既存属性名のリスト間、新規キーのリスト及び新規属性名のリスト間の実線は、それらの間でクエリが作成されることを表わしている。
【０１６０】
図１６（ｄ）は、図１６（ｃ）のクエリリストに基づいて検索され、取得される複数の文書データを示している。図１６（ｅ）は、図１６（ｄ）に示される文書データに基づいて抽出されたキー及び属性名のリストを示している。図１６（ｅ）に示したキー及び属性名のリストは、図１６（ｂ）の新規キーのリスト及び属性名のリストとして記憶される。
【０１６１】
図１６に示すように、実施の形態１における情報処理装置１の制御部１０は、初期状態で与えられる少数のキー及び属性名（図１６（ａ）、（ｂ））に基づいてクエリを作成し（図１６（ｃ））、クエリから複数の文書データを取得し（図１６（ｄ））、取得した文書データからキー及び属性名を夫々抽出し（図１６（ｅ））、抽出したキー及び属性名を記憶して（図１６（ｂ））、更にそれらからクエリを作成し、文書データを所得するという処理を繰り返す（図１６（ａ）→（ｂ）→（ｃ）→（ｄ）→（ｅ）→（ｂ）→（ｃ）→（ｄ）→（ｅ）→（ｂ）…）。これにより、多様多数の属性名を抽出することができる。このような方法はブートストラッピングと呼ばれている。
【０１６２】
上述の処理を図１の具体例に当てはめて属性名を抽出する処理について説明する。情報処理装置１の記憶部１１の属性名リスト１１１には初期状態において、「オブジェクトＡ」に対する属性名「Ａ」と属性名「Ｂ」とが記憶されている。キーリスト１１２には、「オブジェクトＡ」の内の一を一意に特定し得る語である名称「オブジェクトＡ１」がキーとして記憶されている。
【０１６３】
情報処理装置１の制御部１０は、図３に示したステップＳ１１の処理において記憶部１１の属性名リスト１１１から属性名「Ａ」と属性名「Ｂ」と、キーリスト１１２からキー「オブジェクトＡ１」とにより作成されたクエリを選択する。情報処理装置１の制御部１０は、属性名「Ａ」と属性名「Ｂ」とキー「オブジェクトＡ１」を含む文書データＤ１を取得する。
【０１６４】
情報処理装置１の制御部１０は、文書データＤ１内の属性名「Ａ」及び属性名「Ｂ」それぞれの前後のテキストを比較して属性名を抽出する属性名用テンプレートを作成し、作成したテンプレートを文書データＤ１内に適用し、属性名「Ａ」及び「Ｂ」に加えて属性名「Ｃ」を抽出する。これにより、情報処理装置１は文書データＤ１から、属性名「Ａ」、属性名「Ｂ」、属性名「Ｃ」からなるスキーマＳｃ１を抽出することができる。
【０１６５】
次に情報処理装置１は、文書データＤ１で得られた新たな属性名「Ｃ」を使用し、キー「オブジェクトＡ１」、属性名「Ａ」、属性名「Ｃ」からなるクエリに基づいて文書データＤ２を取得し、文書データＤ２から「オブジェクトＡ」の属性名「Ａ」、属性名「Ｃ」、属性名「Ｄ」からなるスキーマＳｃ２を抽出することができる。さらに、新たに得られた属性名「Ｄ」を使用して更に文書データを検索することにより、「オブジェクトＡ」の特性を表わすスキーマが多数抽出される。
【０１６６】
このように本発明に係るスキーマ抽出方法を実施する情報処理装置１は、ブートストラッピングの手法により、Ｗｅｂ上から実世界上に存在する概念も含めた広義の「もの」を特定するための属性名を取得することができる。つまり、情報処理装置１の記憶部１１には、例えば、「ノートパソコン」の実体夫々を特定するための情報として、属性名「Ａ」、属性名「Ｂ」、属性名「Ｃ」、…が存在することが記憶される。さらに「ノートパソコン」は、その捉え方によってその特性を属性名「Ａ」、属性名「Ｃ」及び属性名「Ｄ」の組により表現される場合、更に例えば属性名「Ｃ」、属性名「Ｅ」、属性名「Ｆ」、…の組により表現される場合があることが記憶される。
【０１６７】
本発明により、オブジェクトに対して定義された属性名群であるスキーマの集合が一元的に管理可能になる。オブジェクトに対するあらゆるスキーマが記憶してあるので、各オブジェクトについて多様な捉え方によって定義された属性名に対する属性値を予めデータベース化しておくことができる。オブジェクトを特定するための属性値を取得することが容易になるからである。これにより例えば、検索サービスを実現する際又は質問応答システムを実現する際、ユーザから入力されたキーワードから検索、質問の対象となるオブジェクトとスキーマとを特定し、スキーマに含まれる属性名に対応する属性値が含まれる文書データを検索することができ、ユーザの検索の要求に適した検索結果、応答結果を出力することが可能になる。
【０１６８】
なお、実施の形態１においては、抽出したキー及び属性名については特に処理を行なわずに新規に抽出されたキー及び属性名を記憶するように構成した。クエリリストについても、作成したクエリリストからクエリを選択する方法については特に言及せず、クエリリストからリスト順に選択し、選択したクエリについてはクエリリストから削除する構成とした。しかしながら、本発明はこれに限らず、より効果的、効率的にスキーマを抽出するため、抽出したキー及び属性名、さらにそれらから作成するクエリについて有用性を表わす評価値を与えて夫々のリストに対応付けて記憶しておく構成でもよい。
【０１６９】
この場合、制御部１０はキーリスト１１２のキー夫々について有用性を表わす評価値を算出してキーに対応付けて記憶しておき、さらに、属性名についても評価値を算出して属性名と対応付けて記憶しておく。制御部１０は属性名リスト１１１の評価値付きの属性名と、キーリスト１１２の評価値付きのキーとを選択してクエリを作成し、記憶部１１にクエリリストとして記憶しておく。作成されたクエリには、含まれる属性名及びキーの評価値に基づいて算出されるクエリの評価値を対応付けて記憶しておく。これにより、制御部１０は、クエリリストからクエリの評価値が高い順にクエリを記憶部１１から読み出して使用することで効率的にスキーマを抽出することができる。
【０１７０】
（実施の形態２）
実施の形態１では、図３のフローチャートに示した文書データの取得処理後、取得した文書について、キーの抽出処理及び属性名の抽出処理を夫々独立平行して実行させる構成とした。また、実施の形態１では、抽出したキー及び属性名、並びにクエリについては単にリストに記憶する構成とした。
【０１７１】
これに対し、実施の形態２では、図３のフローチャートに示した文書データの取得処理を、キーの抽出処理及び属性名の抽出処理夫々に対して行う。さらに実施の形態２では、キーの抽出処理と属性名の抽出処理とを平行に実行させずに、キーの抽出処理の実行後に属性名の抽出処理を実行させる。さらに、実施の形態２では、抽出したキー及び属性名、クエリ夫々に有用性を表わす評価値を付与し、評価値が高い順に優先的に使用する構成とする。
【０１７２】
実施の形態２における情報処理装置１のハードウェア構成は、実施の形態１と同様であるので詳細な説明を省略し、同一の符号を用いて説明する。
【０１７３】
なお、実施の形態２における情報処理装置１の記憶部１１に記憶されているキーリスト１１２、属性名リスト１１１には、キー及び属性名夫々について算出された評価値が対応付けられて記憶される。また、実施の形態２でも、キーの選択及び属性名の選択においては、予めクエリリストを作成しておき、クエリリストからクエリを選択する。しかし、実施の形態２では、情報処理装置１の制御部１０は、実施の形態１のようにキー及び属性名ペアからなるクエリによって文書データを取得しておき、取得された文書データから夫々キーの抽出及び属性名の抽出の処理を実行するのではなく、キーを含む文書データを取得して予めキーを抽出しておき、取得した文書データから属性名ペアを含む文書データを取得して属性名を抽出する。つまり、情報処理装置１の制御部１０は文書データの取得の処理を２回に分けて実行するので、情報処理装置１の記憶部１１に記憶されるクエリリストは、キーをクエリとするキーの抽出のためのクエリ（キー）リストと、属性名ペアをクエリとする属性名の抽出のためのクエリ（属性名ペア）リストとに分けて予め記憶してあり、さらに後述する処理によって作成されて追加される。また、作成される各クエリには評価値が更に対応付けられて記憶される。キーを抽出するためのクエリはキーであるので、キーについて算出された評価値が対応付けられ、属性名を抽出するためのクエリは属性名ペアであるので、ペアとなる属性名夫々について算出された評価値に基づいて更に算出される評価値（後述）が対応付けられる。
【０１７４】
実施の形態２における情報処理装置１の制御部１０の処理手順の概略は、実施の形態１において図３のフローチャートに示した処理手順と同様である。実施の形態２における情報処理装置１の制御部１０は、図３のフローチャートにおけるステップＳ１１からステップＳ１４までの処理をｍ回実行してキーを複数抽出し、その後、ステップＳ１１及びステップＳ１５からステップＳ１７までの処理をｎ回実行して属性名を抽出する（ｍ及びｎは任意の自然数である）。なお、情報処理装置１の制御部１０は、キーの抽出の際のステップＳ１１において、キーをクエリとして一又は複数選択し、クエリに基づいて文書データを取得する。一方、情報処理装置１の制御部１０は、属性名の抽出の際のステップＳ１１においては、キーをクエリとして取得された文書データから更に、属性名ペアをクエリとして選択してクエリに基づいて文書データを取得する。
【０１７５】
組み合わせられたキーと属性名ペアとの両方を含む文書データのみならず、キーのみを含む文書データに基づいても更にキーを抽出することにより多様なキーを抽出することができ、これにより多様な文書データが取得され、したがって多様なスキーマが抽出されることが期待される。さらに、より多様な組み合わせの属性名ペアを含む文書データを取得して属性名を抽出することにより多様なスキーマが抽出されることが期待される。
【０１７６】
次に、実施の形態２における情報処理装置１の制御部１０によるキーの抽出の処理及び属性名の抽出の処理の詳細について以下に夫々説明する。
【０１７７】
図１７及び図１８は、実施の形態２における情報処理装置１の制御部１０がキーを抽出する処理手順を示すフローチャートである。図１７及び図１８のフローチャートに示す処理手順は、図３のフローチャートに示した処理手順の内のステップＳ１１からステップＳ１４までの処理に対応する。
【０１７８】
情報処理装置１の制御部１０は、記憶部１１に記憶してあるキー抽出処理におけるクエリ（キー）リストから、クエリを選択する（ステップＳ７０１）。
【０１７９】
ステップＳ７０１において制御部１０は、クエリ（キー）リストに記憶してある評価値が高い順に選択するようにする。
【０１８０】
次に、制御部１０は、選択したクエリ（キー）に基づいて通信部１３を介してネットワークＮ上に存在する文書データを検索し、複数の文書データを取得する（ステップＳ７０２）。このとき制御部１０は、取得した文書データのファイルそのものをダウンロードすることにより記憶部１１の文書データ集合１１３に記憶する構成でもよいし、取得した文書データのＵＲＬのみを記憶部１１の文書データ集合１１３に記憶する構成でもよい。また、ステップＳ７０２において文書データの取得に用いたキーはクエリリストから削除する。
【０１８１】
制御部１０は、ステップＳ７０２で取得した複数の文書データの内から、既に以前の処理によって記憶部１１の文書データ集合１１３に記憶されていない文書データを抽出する（ステップＳ７０３）。制御部１０は、抽出された文書データを文書データ集合１１３の内の新規文書データの集合に記憶する（ステップＳ７０４）。
【０１８２】
制御部１０は、記憶部１１に記憶された文書データ集合１１３の内の新規文書データの集合から、キー抽出済みマークがオフである文書データを取得する（ステップＳ７０５）。制御部１０は、ステップＳ７０５で取得した文書データにおけるキー用の新規テンプレートを作成する（ステップＳ７０６）。このとき制御部１０は、ステップＳ７０５で取得した文書データのキー抽出済みマークをオンにセットする。キー用テンプレートの作成処理の詳細は、実施の形態１における処理と同様であるので、詳細な説明を省略する。
【０１８３】
制御部１０は、ステップＳ７０６で作成した新規キー用テンプレートと、記憶部１１に記憶してあるテンプレートリスト中の既存キー用テンプレートとを、取得した文書データに適用してキーを抽出する（ステップＳ７０７）。ステップＳ７０７におけるキーの抽出処理については、実施の形態１における図５のフローチャートに示した処理手順の内のステップＳ３３における処理と同様である。つまり、ステップＳ７０５で取得した文書データのみならず既存文書データの集合中の文書データにも新規キー用テンプレートを適用し、ステップＳ７０５で取得した文書データには、既存キー用テンプレートを適用してキーを抽出する。
【０１８４】
制御部１０は、ステップＳ７０７で使用した新規キー用テンプレートと既存キー用テンプレートとに対する評価値を算出し（ステップＳ７０８）、新規キー用テンプレート及び既存キー用テンプレートの内、算出した評価値が所定値以上であるキー用テンプレートのみを記憶部１１のテンプレートリストに記憶する（ステップＳ７０９）。ステップＳ７０９におけるテンプレートに対する評価値の算出処理については、実施の形態１における評価値の算出と同様であるので詳細な説明を省略する。
【０１８５】
制御部１０は更に、ステップＳ７０７で抽出したキーに対する評価値を算出する（ステップＳ７１０）。制御部１０は、ステップＳ７０７で抽出したキー夫々について算出した評価値を付与し（ステップＳ７１１）、記憶部１１のキーリスト１１２に記憶する（ステップＳ７１２）。このとき制御部１０は、ステップＳ７０７で抽出したキーの内、記憶部１１のキーリスト１１２に記憶していないキーについては、そのまま評価値を付与して記憶するが（Ｓ７１２）、記憶部１１のキーリスト１１２に記憶してあるキーと同一のキーについては、付与してある評価値をステップＳ７１０で算出された評価値に置き換えるようにする。この処理により、その後再度ステップＳ７０１において制御部１０がクエリを選択する際は、評価値が高い順にキーがクエリとして選択される。なお、キーに対する評価値の算出方法の詳細については後述する。なお、既にクエリとして使用したキーについては記憶しないようにする。
【０１８６】
また、制御部１０は、抽出したキーをキーリスト１１２に記憶するが、キーに算出した評価値を対応付けてクエリリストに記憶する。
【０１８７】
制御部１０は、ステップＳ７０５で取得した文書データのキー抽出済みマークをオンにセットし（ステップＳ７１３）、新規文書データの集合中の全文書データのキー抽出済みマークがオンにセットされているか否かを判断する（ステップＳ７１４）。制御部１０は、新規文書データの集合中の全文書データのキー抽出済みマークが未だオンにセットされていないと判断した場合（Ｓ７１４：ＮＯ）、処理をステップＳ７０５に戻してキー抽出済みマークがオフである文書データを取得し、ステップＳ７０６以降の処理を実行する。
【０１８８】
制御部１０は、新規文書データの集合中の全文書データのキー抽出済みマークがオンにセットされていると判断した場合（Ｓ７１４：ＹＥＳ）、キーを抽出する処理をｍ回実行したか否かを判断する（ステップＳ７１５）。制御部１０は、キーを抽出する処理をｍ回実行していないと判断した場合（Ｓ７１５：ＮＯ）、処理をステップＳ７０１へ戻して残数回処理を繰り返す。制御部１０は、キーを抽出する処理をｍ回実行したと判断した場合（Ｓ７１５：ＹＥＳ）、処理を図３のフローチャートに示したステップＳ１１へ戻し、次はステップＳ１１及びステップＳ１５からステップＳ１７までの以下に示す属性名の抽出処理を実行する。
【０１８９】
次に、情報処理装置１の制御部１０による属性名の抽出処理について説明する。図１９は、実施の形態２における情報処理装置１の制御部１０が属性名を抽出する処理手順を示すフローチャートである。図１９のフローチャートに示す処理手順は、図１７及び図１８のフローチャートに示した処理手順を実行した後に行われる。
【０１９０】
情報処理装置１の制御部１０は、記憶部１１に記憶してあるクエリ（属性名ペア）リストから、クエリを選択する（ステップＳ８０１）。
【０１９１】
ステップＳ８０１において制御部１０は、クエリ（属性名ペア）リストに記憶してある評価値が高い順に選択するようにする。
【０１９２】
制御部１０は、選択したクエリ（属性名ペア）に基づいて、上述のキーの抽出の処理で使用されたキー抽出済みの文書データ（図１７及び図１８のフローチャートにおけるステップＳ７０２でｍ回取得された文書データの集合）から、文書データを検索して取得する（ステップＳ８０２）。
【０１９３】
制御部１０は、ステップＳ８０２で取得した文書データ夫々における属性名用のテンプレートを作成する（ステップＳ８０３）。ステップＳ８０３における属性名用テンプレートの作成処理は、実施の形態１における処理手順と同様であるので詳細な説明を省略する（図１２参照）。
【０１９４】
制御部１０は、ステップＳ８０３で作成した属性名用テンプレートを適用する範囲を特定する（ステップＳ８０４）。ステップＳ８０４における属性名用テンプレートの適用範囲の特定処理は、実施の形態１における処理手順と同様であるので説明を省略する（図１３参照）。
【０１９５】
制御部１０は、ステップＳ８０２で取得した文書データ夫々に対して特定した範囲内においてステップＳ８０３で作成した属性名用テンプレートを適用して属性名を抽出し、抽出した属性名の組をスキーマとして記憶する（ステップＳ８０５）。このとき、制御部１０が、特定した範囲内のテキストに属性名用テンプレートを適用して抽出された属性名の組をスキーマとして記憶することにより、当該テキストにおけるオブジェクトの捉え方に応じたスキーマを記憶することが可能になる。
【０１９６】
さらに制御部１０は、抽出した属性名に対する評価値を算出し（ステップＳ８０６）、ステップＳ８０５で抽出した属性名に算出した評価値を付与し（ステップＳ８０７）、属性名を属性名リスト１１１に記憶する（ステップＳ８０８）。属性名に対する評価値の算出の詳細については後述する。
【０１９７】
また、制御部１０はステップＳ８０８において抽出した属性名を属性名リスト１１１に記憶するが、その際、既に属性名リスト１１１に記憶してある属性名については算出した評価値を付与し直して記憶し、新規に抽出された属性名は算出された評価値と対応付けて記憶する。そして制御部１０は、抽出した属性名と既に属性名リスト１１１に記憶してある属性名との全組み合わせからなる属性名ペア、及び抽出した属性名同士の全組み合わせからなる属性名ペアをクエリとして作成し、属性名抽出処理のためのクエリリストに記憶する（ステップＳ８０９）。
【０１９８】
制御部１０は、上記ステップＳ８０１からステップＳ８０８までの属性名を抽出する処理を任意の自然数ｎ回実行したか否かを判断する（ステップＳ８１０）。制御部１０は、属性名を抽出する処理をｎ回実行していないと判断した場合は（Ｓ８１０：ＮＯ）、処理をステップＳ８０１へ戻して残数回処理を繰り返す。制御部１０は、属性名を抽出する処理をｎ回実行したと判断した場合は（Ｓ８１０：ＹＥＳ）、処理を図３のフローチャートに示したステップＳ１１へ、即ち図１７及び図１８のフローチャートに示したステップＳ７０１の処理へ戻してキーの抽出処理を再び実行する。
【０１９９】
このように制御部１０は、図１７及び図１８のフローチャートに示したキーの抽出の処理をｍ回実行した後、図１９のフローチャートに示した属性名の抽出の処理をｎ回実行する。これにより、偏った属性名から取得される文書データではなく、多様なキーから取得した文書データに基づいて、より多様なスキーマを抽出することができる。
【０２００】
次に、上述の処理手順の内の、キー及び属性名に対する評価値の算出方法について説明する（図１７及び図１８のフローチャートにおけるステップＳ７１０、及び図１９のフローチャートにおけるステップＳ８０６の処理）。
【０２０１】
キーについての評価値としては、（ａ）出現回数、（ｂ）出現する文書データの数、（ｃ）共起する属性名の種類の数、（ｄ）キーリスト１１２又は属性名リスト１１１に記憶された順序（より先に記憶されたものほど高い値を持つ）、（ｅ）乱数、又は（ｆ）人手で付ける重要度を算出して付与する。
【０２０２】
キーについての評価値の算出は更に、実施の形態１において示した式（２）に基づいて算出してもよい。この場合、評価値の算出にはそのキーを抽出する際に適用したテンプレートについての評価値を使用する。この場合、情報処理装置１の制御部１０は、キー用テンプレートについてはキーを抽出した際に評価値を算出するので（図１７及び図１８におけるステップＳ７０８）、その値と評価値が対応付けられているテンプレートリストを使用して式（２）に基づいて算出することができる。
【０２０３】
属性名についての評価値としては、（ａ）出現回数、（ｂ）出現する文書データの数、（ｃ）共起する（同一の文書データから共に抽出される）属性名の数、（ｄ）共起する属性名の種類の数、（ｅ）キーリスト１１２又は属性名リスト１１１に記憶された順序（より先に記憶された者ほど高い値を持つ）、（ｆ）乱数、又は（ｇ）人手で付ける重要度を算出して付与する。
【０２０４】
属性名についての評価値については、実施の形態２では属性名ペアをクエリとする。したがって、属性名夫々についての評価値ではなく、属性名ペアについての評価値を算出するようにしてもよい。この場合、ペアとなる属性名が共起する回数、又は属性名夫々と共起するキーの種類の数を評価値として算出するようにしてもよい。また、クエリとなる属性名ペアについての評価値は、属性名夫々について上述の（ａ）から（ｇ）までのいずれかの方法で算出された評価値を更に相互に乗算して算出した値（クエリ評価値＝属性名評価値×属性名評価値）を付与してもよい。
【０２０５】
属性名のついての評価値の算出についても、実施の形態１において示した式（２）に基づいて算出してもよい。この場合は、情報処理装置１の制御部１０は、属性名用テンプレートについては各文書データ内のみで適用し他の文書データに対しては適用しないが、テンプレートリストとして記憶するようにし、同様に式（２）に基づいて評価値を算出するようにしてもよい。
【０２０６】
実施の形態２における制御部１０による、文書データの取得処理、キーの抽出処理及び属性名の抽出処理と、夫々の処理において使用又は抽出されるキー、属性名、クエリ及び文書データとの関係に注目し、本発明のブートストラッピングによる属性名の抽出処理を説明する。図２０は、実施の形態２における情報処理装置１の制御部１０が実行する処理を概念的に表わす説明図である。なお、図２０の説明図に示す処理の流れの概略は図３のフローチャートに示した処理手順に対応し、夫々の処理の詳細は図１７、図１８、図１９、図１２及び図１３のフローチャートに示した処理手順に対応する。なお、図２０中の白矢印は、処理の流れを表わしている。
【０２０７】
図２０（ａ）は、実施の形態２における本発明のスキーマ抽出方法が実施される前の初期状態で予め与えられるキー及び属性名ペアである。図２０（ｂ）は、キーリスト１１２を示しており、キーリスト１１２は同時にキー抽出処理におけるクエリリストでもある。図２０（ｂ）の各キーの横に示された数字は、各キーについて算出されて付与された評価値である。図２０（ｃ）は、図２０（ｂ）のクエリリストに基づいて検索され、取得される複数の文書データを示している。図２０（ｄ）は、図２０（ｃ）に示される文書データに基づいて新規に抽出されたキーのリストを示している。図２０（ｄ）のリストの各キーは夫々評価値が算出され、図２０（ｂ）のキーリスト１１２に追加される。また、キーリスト１１２の既存キーと重複するキーについては算出された評価値に更新される。
【０２０８】
図２０（ｅ）は、属性名リスト１１１を示している。図２０（ｅ）の各属性名の横に示された数字は夫々、各属性名について算出されて付与された評価値である。図２０（ｆ）は、属性名リスト１１１に基づいて作成される属性名ペアからなるクエリリストを示している。図２０（ｆ）の各クエリの横に示された数字は、各クエリについて算出されて付与された評価値である。図２０（ｇ）は、図２０（ｃ）に示されるキーを含む文書データから更に、属性名ペアからなるクエリに基づいて検索され取得される文書データを示している。図２０（ｈ）は、図２０（ｇ）に示される文書データに基づいて抽出された属性名のリストを示している。図２０（ｈ）に示したリストの各属性名は夫々評価値が算出され、図２０（ｅ）の属性名リスト１１１に追加される。また、属性名リスト１１１の既存の属性名を重複する属性名については算出された評価値に更新される。
【０２０９】
図２０に示すように、実施の形態２における情報処理装置１の制御部１０は、初期状態で与えられる少数のキー（図２０（ａ））に基づいてクエリとし（図２０（ｂ））、クエリから複数の文書データを取得し（図２０（ｃ））、取得した文書データからキーを抽出し（図２０（ｄ））、さらに抽出したキーに評価値を付与してクエリとし（図２０（ｂ））、文書データを取得するというキー抽出の処理をｍ回繰り返す（図２０（ａ）→（ｂ）→（ｃ）→（ｄ）→（ｂ）→（ｃ）→（ｄ）→（ｂ）→…）。
【０２１０】
次に情報処理装置１の制御部１０は、初期状態で与えられる少数の属性名（図２０（ａ））と属性名リスト１１１（図２０（ｅ））に基づいてクエリを作成し（図２０（ｆ））、キー抽出の際に取得された複数の文書データ（図２０（ｃ））から属性名ペアを含む文書データを取得し（図２０（ｇ））、取得した文書データから属性名を抽出し（図２０（ｈ））、さらに抽出した属性名に評価値を付与して属性名リスト１１１に記憶し（図２０（ｅ））、更にそれらからクエリを作成し、文書データを取得するという処理をｎ回繰り返す（図２０（ｅ）→（ｆ）→（ｇ）→（ｈ）→（ｅ）→（ｆ）→（ｇ）→（ｈ）→（ｅ）→…）。これにより、多様多数の属性名を抽出することができる。
【０２１１】
本発明により、オブジェクトに対して定義された属性名群であるスキーマの集合が一元的に管理可能になる。実施の形態２においては、制御部１０により抽出されて次にクエリとして用いるキー、属性名について、評価値が算出されて付与される構成とした。情報処理装置１の制御部１０は、テンプレート作成時においてキー又は属性名である可能性が高い語を優先的に使用することにより、ノイズとなる語の抽出の低減、及び他の多くのキー又は属性名と共起する語の抽出を実現することができる。
【０２１２】
なお、実施の形態２では、抽出したキー及び属性名に対して評価値を算出して付与する構成とした。しかしながら、本発明はこれに限らず、実施の形態１と同様に、抽出されたキー及び属性名に評価値を付与せずに、後の属性名の抽出の際に同等に用いるようにキーリスト１１２、属性名リスト１１１に記憶する構成でもよい。この場合、情報処理装置１の制御部１０は、抽出したキーを記憶する際、キーリスト１１２に記憶されているキーと重複しないキーのみをキーリスト１１２に追加する。抽出した属性名を記憶する際も同様の処理を行なう。
【０２１３】
（実施の形態３）
実施の形態２では、図３のフローチャートに示した文書データの取得処理を、キーの抽出処理及び属性名の抽出処理夫々に対して行い更に、キーの抽出処理の実行後に、キーの抽出処理で取得された文書データから属性名を抽出する処理を実行する構成とした。
【０２１４】
これに対し、実施の形態３では、実施の形態２のようにキーの抽出処理と属性名の抽出処理とを順次行う構成とせず、独立して平行に実行させる。したがって、文書データの取得処理については、キーの抽出処理と属性名の抽出処理とにおいて実施の形態２と同様に夫々実行するが、キーの抽出処理において取得した文書データから属性名を含む文書データを抽出するのではなく、属性名を抽出する前に再度クエリを選択してネットワークＮ上から文書データを検索する構成とする。これにより、キーと属性名ペアとの組み合わせからなるクエリが更に多様になり、より多様なスキーマを抽出することが期待される。
【０２１５】
実施の形態３における情報処理装置１のハードウェア構成は、実施の形態１と同様であるので詳細な説明を省略し、同一の符号を用いて説明する。
【０２１６】
なお、実施の形態３における情報処理装置１の記憶部１１に記憶されているキーリスト１１２、属性名リスト１１１には、実施の形態２と同様に、キー及び属性名夫々について算出された評価値が対応付けて記憶される。また、実施の形態３でも、実施の形態１と同様に、キーの選択及び属性名の選択においては、予めクエリリストを作成しておき、クエリリストからクエリを選択する。実施の形態３では、キーを抽出する処理と属性名を抽出する処理とで夫々独立して文書データを検索して取得する処理を実行するので、情報処理装置１の記憶部１１に記憶されるクエリリストは、キーをクエリとするキーの抽出のためのクエリ（キー）リストと、キーと属性名ペアとをクエリとする属性名の抽出のためのクエリ（キー＋属性名ペア）リストとに分けて予め記憶してある。また、作成される各クエリには評価値が更に対応付けて記憶される。キーを抽出するためのクエリはキーであるので、キーについて算出された評価値が対応付けられ、属性名を抽出するためのクエリはキー及び属性名ペアであるので、キーとペアとなる属性名夫々とについて算出された評価値に基づいて更に算出される評価値（後述）が対応付けられる。
【０２１７】
実施の形態２における情報処理装置１の制御部１０の処理手順の概略は、実施の形態１において図３のフローチャートに示した処理手順と同様である。実施の形態３における情報処理装置１の制御部１０は、図３のフローチャートにおけるステップＳ１１からステップＳ１４までの処理と、ステップＳ１１及びステップＳ１５からステップＳ１７までの処理とを夫々任意の回数実行して属性名を抽出する。
【０２１８】
キーの抽出処理及び属性名の抽出処理においてキーリスト１１２と属性名リスト１１１とを共有し、相互に新規に抽出されたキー及び属性名を順次を更に利用してキー及び属性名を抽出することにより、さらに多様な文書データの取得が期待され、したがって多様な属性名群（スキーマ）が抽出されることが期待される。
【０２１９】
次に、実施の形態３における情報処理装置１の制御部１０によるキーの抽出及び属性名の抽出の処理の詳細について以下に夫々説明する。
【０２２０】
図２１及び図２２は、実施の形態３における情報処理装置１の制御部１０がキーを抽出する処理手順を示すフローチャートである。図２１及び図２２は、図３のフローチャートに示した処理手順の内のステップＳ１１からステップＳ１４までの処理に対応する。ただし、図２１及び図２２のフローチャート実施の形態３における情報処理装置１の制御部１０がキーを抽出する処理手順は、実施の形態２におけるキーを抽出する処理手順と一部を除いて同様である。したがって、同様の処理について同一のステップ番号を付し、詳細な説明を省略する。
【０２２１】
図２１及び図２２に示すように、実施の形態３では、図１７及び図１８のフローチャートに示したステップＳ７１５の処理が存在しない。実施の形態３では、情報処理装置１の制御部１０は、選択したクエリ（キー）に基づいて取得した全文書データからキーを抽出し、全文書データからキーを抽出した場合（全文書データのキー抽出済みマークがオンにセットされていると判断した場合（Ｓ７１４：ＹＥＳ））は、処理をステップＳ１１に戻し、即ちステップＳ７０１に戻してクエリ（キー）を選択し、処理を繰り返す。
【０２２２】
なお、実施の形態３では、ステップＳ７１２においてキーリスト１１２に記憶する場合、既にキーリスト１１２に記憶してあるキーと同一でないキーについては、新規キーのリストとして記憶し、既存キーと新規キーとを区別して記憶する。ステップＳ７１４の処理において全文書データからキーを抽出したと判断し（Ｓ７１４：ＹＥＳ）、次のキーを選択してキーを抽出する処理を開始する前に、キーリスト１１２の内の新規キーのリストに記憶してあるキーを既存キーのリストに記憶し直す。
【０２２３】
情報処理装置１の制御部１０はその後、処理を図３のフローチャートに示したステップＳ１１へ即ちステップＳ７０１へ処理を戻して属性名の抽出処理を続行する。
【０２２４】
情報処理装置１の制御部１０は、図２１及び図２２のフローチャートに示した処理を任意の回数繰り返す。したがって、属性名を含む文書データのみならず多様な文書データから多様なキーが抽出される。
【０２２５】
図２３は、実施の形態３における情報処理装置１の制御部１０が属性名を抽出する処理手順を示すフローチャートである。実施の形態３においては、図２３のフローチャートに示す処理は図２１及び図２２のフローチャートに示した処理と独立して平行に実行される。
【０２２６】
情報処理装置１の制御部１０は、記憶部１１に記憶してあるクエリ（キー＋属性名ペア）リストから、クエリを選択する（ステップＳ９１）。
【０２２７】
ステップＳ９１において制御部１０は、クエリ（キー＋属性名ペア）リストに記憶してある評価値が高い順に選択するようにする。
【０２２８】
制御部１０は、選択したクエリ（キー＋属性名ペア）に基づいて通信部１３を介してネットワークＮ上に存在する文書データを検索し、複数の文書データを取得する（ステップＳ９２）。このとき制御部１０は、取得した文書データのファイルそのものをダウンロードすることにより記憶部１１の文書データ集合１１３に記憶する構成でもよいし、取得した文書データのＵＲＬのみを記憶部１１の文書データ集合１１３に記憶する構成でもよい。また、ステップＳ９２において文書データの取得に用いたクエリ（キー＋属性名ペア）はクエリリストから削除する。
【０２２９】
制御部１０は、ステップＳ９２で取得した文書データ夫々における属性名用のテンプレートを作成する（ステップＳ９３）。ステップＳ９３における属性名用テンプレートの作成処理は、実施の形態１における処理手順と同様であるので詳細な説明を省略する（図１２参照）。
【０２３０】
制御部１０は、ステップＳ９３で作成した属性名用テンプレートを適用する範囲を特定する（ステップＳ９４）。ステップＳ９４における属性名用テンプレートの適用範囲の特定処理は、実施の形態１における処理手順と同様であるので説明を省略する（図１３参照）。
【０２３１】
制御部１０は、ステップＳ９２で取得した文書データ夫々に対して特定した範囲内においてステップＳ９３で作成した属性名用テンプレートを適用して属性名を抽出し、抽出した属性名の組をスキーマとして記憶する（ステップＳ９５）。このとき、制御部１０が、特定した範囲内のテキストに属性名用テンプレートを適用して抽出された属性名の組をスキーマとして記憶することにより、当該テキストにおけるオブジェクトの捉え方に応じたスキーマを記憶することが可能になる。
【０２３２】
さらに制御部１０は、抽出した属性名に対する評価値を算出し（ステップＳ９６）、ステップＳ９５で抽出した属性名に算出した評価値を付与し（ステップＳ９７）、属性名を属性名リスト１１１に記憶する（ステップＳ９８）。属性名に対する評価値の算出の詳細については、実施の形態２における評価値の算出と同様であるため、詳細な説明を省略する。
【０２３３】
また、制御部１０はステップＳ９８において抽出した属性名を属性名リスト１１１に記憶するが、その際、既に属性名リスト１１１に記憶してある属性名については算出した評価値を付与し直して記憶し、新規に抽出された属性名は算出された評価値と対応付けて新規属性名のリストとして区別して記憶する。
【０２３４】
そして制御部１０は、抽出した属性名と、キー抽出処理によって抽出されたキーに基づいてキーと属性名ペアとからなるクエリを作成し、記憶する（ステップＳ９９）。制御部１０は、キーリスト１１２の内の既存キーのリストに記憶してあるキーと、属性名リスト１１１の内の新規属性名のリストに記憶してある属性名の全組み合わせからなる属性名ペアとを組み合わせたクエリをまず作成する。次に、新規キーのリストに記憶してあるキーと、既存属性名のリストに記憶してある属性名の全組み合わせからなる属性名ペアとを組み合わせたクエリを作成し、更に、新規キーのリストに記憶してあるキーと、新規属性名のリストに記憶してある属性名の全組み合わせからなる属性名ペアとを組み合わせたクエリを作成する。
【０２３５】
また制御部１０は、ステップＳ９９において作成したクエリに対して評価値を算出して記憶しておく。評価値は、クエリに含まれるキー及び属性名夫々について算出された評価値に基づいて算出される。情報処理装置１の制御部１０は例えば、クエリ評価値＝（キー評価値）×(属性名評価値)×（属性名評価値）・・・（３）又はクエリ評価値＝α×(キー評価値)＋（１−α）（属性名評価値＋属性名評価値）（ただしα∈（０，１））・・・（４）の式夫々に基づいて算出する。
【０２３６】
制御部１０は、クエリを作成して記憶した後（Ｓ９９）、処理を図３のフローチャートに示したステップＳ１１へ、即ちステップＳ９１へ処理を戻して属性名の抽出処理を続行する。
【０２３７】
情報処理装置１の制御部１０は、図２３のフローチャートに示した属性名抽出の処理手順を任意の回数繰り返す。したがって、多様なクエリ（キー＋属性名ペア）から取得される文書データから多様な属性名が抽出される。
【０２３８】
実施の形態３における制御部１０による、文書データの取得処理、キーの抽出処理及び属性名の抽出処理と、夫々の処理において使用又は抽出されるキー、属性名、クエリ及び文書データとの関係に注目し、本発明のブートストラッピングによる属性名の抽出処理を説明する。図２４は、実施の形態３における情報処理装置１の制御部１０が実行する処理を概念的に表わす説明図である。なお、図２４の説明図に示す処理の流れの概略は図３のフローチャートに示した処理手順に対応し、夫々の処理の詳細は図２１、図２２、図２３、図１２及び図１３のフローチャートに示した処理手順に対応する。なお、図２４中の白矢印は、処理の流れを表わしている。
【０２３９】
図２４（ａ）は、実施の形態３における本発明のスキーマ抽出方法が実施される前の初期状態で予め与えられるキー及び属性名ペアである。図２４（ｂ）は、キーリスト１１２及び属性名リスト１１１を示しており、既存キーのリスト及び属性名のリスト、新規キーのリスト及び属性名のリストに区別されていることが表わされている。また、図２４（ｂ）の各キー及び各属性名の横に示された数字は夫々、各キー及び属性名について算出されて付与された評価値である。
【０２４０】
図２４（ｃ）は、キーの抽出処理におけるクエリリストを示している。各クエリであるキーの横に示されている数字は、各キーについて算出された評価値を示している。図２４（ｄ）は、図２４（ｃ）の各クエリに基づいて取得される文書データを示している。図２４（ｅ）は、図２４（ｃ）の各文書データから抽出されるキーのリストを示している。図２４（ｅ）に示したリストの各キーは夫々評価値が算出され、図２４（ｂ）の新規キーのリストに夫々追加される。また、既存キーと重複するキーについては算出された評価値に更新される。
【０２４１】
図２４（ｆ）は、図２４（ｂ）のキーリスト１１２及び属性名リスト１１１に基づいて作成されるクエリリストを示している。なお、図２４（ｂ）の既存キーのリスト及び新規属性名のリスト間、新規キーのリスト及び既存属性名のリスト間、新規キーのリスト及び新規属性名のリスト間の実線は、それらの間で属性名を抽出するためのクエリが作成されることを表わしている。
【０２４２】
図２４（ｇ）は、図２４（ｆ）のクエリリストに基づいて検索され、取得される文書データを示している。図２４（ｈ）は、図２４（ｇ）に示される文書データに基づいて抽出された属性名のリストを示している。図２４（ｈ）に示したリストの属性名について夫々評価値が算出され、各属性名は図２４（ｂ）の新規属性名のリストに追加される。また、既存キーと重複するキーについては算出された評価値に更新される。
【０２４３】
図２４に示すように、実施の形態３における情報処理装置１の制御部１０は、初期状態で与えられる少数のキー及び属性名（図２４（ａ））を含むキー及び属性名（図２４（ｂ））に基づいてキーを抽出するためのクエリリスト（図２４（ｃ））及び属性名を抽出するためのクエリリスト（図２４（ｆ））を夫々作成する。
【０２４４】
キーを抽出する処理について情報処理装置１の制御部１０は、作成したクエリリスト（図２４（ｃ））から選択したクエリに基づいて文書データを取得し（図２４（ｄ））、取得した文書データからキーを抽出し（図２４（ｅ））、抽出したキーに評価値を付与してキーリスト１１２に追加し（図２４（ｂ））、更にそれらからクエリを作成し、文書データを取得するという処理を継続する（図２４（ａ）→（ｂ）→（ｃ）→（ｄ）→（ｅ）→（ｂ）→（ｃ）→（ｄ）→（ｅ）→（ｂ）→…）。これにより、多様多数のキーを抽出することができる。
【０２４５】
一方で属性名を抽出する処理について情報処理装置１の制御部１０は、キーリスト１１２及び属性名リスト１１１（図２４（ｂ））に基づいて作成したクエリリスト（図２４（ｆ））からクエリを選択し、選択したクエリに基づいて文書データを取得し（図２４（ｇ））、取得した文書データから属性名を抽出し（図２４（ｈ））、抽出した属性名に評価値を付与して属性名リスト１１１に追加し（図２４（ｂ））、更にそれらの属性名及びキーからクエリを作成し（図２４（ｆ））、文書データを取得するという処理を継続する（図２４（ａ）→（ｂ）→（ｆ）→（ｇ）→（ｈ）→（ｂ）→（ｆ）→（ｇ）→（ｈ）→（ｂ）→…）。これにより多様なスキーマを抽出することができる。
【０２４６】
本発明により、オブジェクトに対して定義された属性名群であるスキーマの多様な集合が一元的に管理可能になる。実施の形態３においては、制御部１０により抽出されて次にクエリとして用いるキー、属性名について、評価値が算出されて付与される構成とした。情報処理装置１の制御部１０は、テンプレート作成時においてキー又は属性名である可能性が高い語を優先的に使用することにより、ノイズとなる語の抽出の低減、及び他の多くのキー又は属性名と共起する語の抽出を実現することができる。さらに、キーの抽出と属性名の抽出とを、キーリスト１１２及び属性名リスト１１１を共有して夫々独立して実行させることにより、より多様なキーと属性名との組み合わせに基づいて文書データが取得される。これにより、より多様なスキーマが取得される。
【０２４７】
なお、実施の形態１乃至３におけるネットワークＮは、インターネットのみならず、例えば社内ネットワークでもよい。この場合、社内ネットワーク内上の各文書データに記述されたあらゆる情報をデータベース化し、後にデータベースを応用することができる。
【図面の簡単な説明】
【０２４８】
【図１】本発明に係るスキーマ抽出方法の概要を示す説明図である。
【図２】実施の形態１における本発明のスキーマ抽出方法を実施する情報処理装置の構成を示すブロック図である。
【図３】実施の形態１における情報処理装置の制御部がスキーマを抽出する処理手順の概略を示すフローチャートである。
【図４】実施の形態１における情報処理装置の制御部がスキーマを抽出する際に、文書データを取得する処理の詳細を示すフローチャートである。
【図５】図５は、実施の形態１における情報処理装置の制御部がキーを抽出する処理手順を示すフローチャートである。
【図６】キーを抽出する際のキー用テンプレートの例を示す説明図である。
【図７】ＵＳＰの内容例を示す説明図である。
【図８】ＵＳＰを特定するためのルールの例を示す表図である。
【図９】ＵＳＰを特定するためのルールの例を示す表図である。
【図１０】ＵＳＰを特定するためのルールの例を示す表図である。
【図１１】実施の形態１における情報処理装置の制御部が属性名を抽出する処理手順を示すフローチャートである。
【図１２】実施の形態１における情報処理装置の制御部が属性名用テンプレートを作成する処理手順を示すフローチャートである。
【図１３】実施の形態１における情報処理装置の制御部が属性名用テンプレートの適用範囲を特定する処理手順を示すフローチャートである。
【図１４】取得された文書データの一例を示す説明図である。
【図１５】取得された文書データについて解析されて得られたＤＯＭ構造に基づく木構造を示す説明図である。
【図１６】実施の形態１における情報処理装置の制御部が実行する処理を概念的に表わす説明図である。
【図１７】実施の形態２における情報処理装置の制御部がキーを抽出する処理手順を示すフローチャートである。
【図１８】実施の形態２における情報処理装置の制御部がキーを抽出する処理手順を示すフローチャートである。
【図１９】実施の形態２における情報処理装置の制御部が属性名を抽出する処理手順を示すフローチャートである。
【図２０】実施の形態２における情報処理装置の制御部が実行する処理を概念的に表わす説明図である。
【図２１】実施の形態３における情報処理装置の制御部がキーを抽出する処理手順を示すフローチャートである。
【図２２】実施の形態３における情報処理装置の制御部がキーを抽出する処理手順を示すフローチャートである。
【図２３】実施の形態３における情報処理装置の制御部が属性名を抽出する処理手順を示すフローチャートである。
【図２４】実施の形態３における情報処理装置の制御部が実行する処理を概念的に表わす説明図である。
【符号の説明】
【０２４９】
１情報処理装置
１０制御部
１１記憶部
１１１属性名リスト
１１２キーリスト
１１３文書データ集合
１Ｐ制御プログラム
１３通信部
１４可搬型記録媒体
Ｎネットワーク

【特許請求の範囲】
【請求項１】
複数の文書データを含む文書集合から文書データを取得し、取得した文書データからオブジェクトの特性を表わす属性名群であるスキーマを抽出するスキーマ抽出方法であって、
複数の属性名を含む文書データを取得する第１ステップと、
前記文書データから、前記複数の属性名に共通する前後のテキストパターンを特定し、属性名群を抽出するためのテンプレートを作成する第２ステップと、
前記文書データの内から、前記テンプレートを適用して他の属性名群を抽出する第３ステップと、
前記第３ステップで抽出された属性名群から属性名を選択する第４ステップと
を含み、
第４ステップで選択された属性名を含む文書データを前記第１ステップで取得するにようにして第１ステップから前記第４ステップまでの処理を繰り返し実行し、オブジェクトのスキーマを抽出する
ことを特徴とするスキーマ抽出方法。
【請求項２】
前記第１ステップは、オブジェクトを一意に特定する一又は複数の単語であるキーを更に含む文書データを取得する
ことを特徴とする請求項１に記載のスキーマ抽出方法。
【請求項３】
前記キーを含む文書データを取得する第５ステップと、
前記文書データから、前記キーを抽出するためのテンプレートを作成する第６ステップと、
前記文書データの内から、前記テンプレートを適用してキー群を抽出する第７ステップと、
該第７ステップで抽出したキー群からキーを選択する第８ステップと
を含み、
前記第８ステップで選択されたキーを含む文書データを前記第１ステップ及び前記第６ステップで取得するようにして前記第１ステップから前記第４ステップまでの処理及び前記第５ステップから前記第８ステップまでの処理を実行する
ことを特徴とする請求項２に記載のスキーマ抽出方法。
【請求項４】
前記第３ステップは、前記文書データの内の前記複数の属性名が含まれている所定範囲、又は、前記複数の属性名及び前記キーが含まれている所定範囲の内から、作成されたテンプレートに基づいて属性名を抽出する
ことを特徴とする請求項１乃至３のいずれかに記載のスキーマ抽出方法。
【請求項５】
文書データを構成する言語単位の木構造を解析するステップと、
前記複数の属性名夫々に相当する前記言語単位を含む部分木を特定するステップと
を含み、
前記文書データの内の、特定した部分木の所定階層上の節以下に相当する部分を前記所定範囲とする
ことを特徴とする請求項４に記載のスキーマ抽出方法。
【請求項６】
前記木構造は、ＤＯＭ（Document Object Model）に基づくものであること
を特徴とする請求項５に記載のスキーマ抽出方法。
【請求項７】
前記第３ステップで抽出した属性名の評価値を算出する属性名評価ステップと、
前記属性名を前記評価値と対応付けて記憶するステップと
を更に含み、
前記値の高い順に属性名を選択する
ことを特徴とする請求項１乃至６のいずれかに記載のスキーマ抽出方法。
【請求項８】
前記第７ステップで抽出したキーの評価値を算出するキー評価ステップと、
前記キーを前記評価値と対応付けて記憶するステップと
を含み、
前記値の高い順にキーを選択する
ことを特徴とする請求項３乃至７のいずれかに記載のスキーマ抽出方法。
【請求項９】
前記第６ステップで作成したテンプレートの評価値を算出するテンプレート評価ステップを含み、
前記第７ステップは、前記評価値が所定値以上であるテンプレートに基づいてキー群を抽出する
ことを特徴とする請求項３乃至８のいずれかに記載のスキーマ抽出方法。
【請求項１０】
前記第６ステップで作成したテンプレートの評価値を算出するテンプレート評価ステップと、
前記第２ステップ及び第５ステップで作成したテンプレートを、前記テンプレート評価ステップで算出された評価値と対応付けて記憶するステップと
を更に含み、
前記属性名評価ステップ及び／又は前記キー評価ステップは、属性名又はキーを抽出する際に適用された、記憶してあるテンプレートを含むテンプレートの評価値に基づいて属性名及び／又はキーの評価値を算出する
ことを特徴とする請求項９に記載のスキーマ抽出方法。
【請求項１１】
複数の文書データを含む文書集合から複数の属性名を含む文書データを取得する取得手段を備え、取得した文書データからオブジェクトの特性を表わす属性名群であるスキーマを抽出するようにしてある情報処理装置であって、
前記取得手段により取得された文書データから、前記複数の属性名について共通する前後のテキストパターンを特定し、属性名群を抽出するためのテンプレートを作成する手段と、
前記文書データの内から、前記テンプレートに基づいて属性名群を抽出する抽出手段と、
抽出された属性名群から属性名を選択する手段と
を備え、
選択された属性名を含む文書データの前記取得手段による取得及び前記抽出手段による属性名群の抽出を繰り返すようにしてあること
を特徴とする情報処理装置。
【請求項１２】
前記文書集合から一又は複数の単語からなるキーを含む文書データを取得する手段と、
前記キーを抽出するためのテンプレートを作成する手段と、
前記文書データに前記テンプレートを適用してキー群を抽出する手段と、
抽出されたキー群からキーを選択する手段と
を更に備え、
選択されたキーを含む文書データの取得及びキーの抽出を繰り返すようにしてあり、
前記取得手段は、抽出されたキー群中のキーを更に含む文書データを取得するようにしてあること
を特徴とする請求項１１に記載の情報処理装置。
【請求項１３】
ネットワークに接続されているコンピュータに、複数の文書データを含む文書集合から複数の属性名を含む文書データを取得する第１ステップを実行させ、取得した文書データからオブジェクトの特性を表わす属性名群であるスキーマを抽出するようにしてあるコンピュータプログラムであって、
コンピュータに、
前記第１ステップにより取得した文書データから、前記複数の属性名に共通する前後のテキストパターンを特定し、属性名群を抽出するためのテンプレートを作成する第２ステップ、
前記文書データの内から、前記テンプレートを適用して属性名群を抽出する第３ステップ、及び、
前記第３ステップで抽出された属性名群から属性名を選択する第４ステップ
を実行させ、
第１ステップで第４ステップにより選択された属性名を含む文書データを取得させるようにして第１ステップから第４ステップまでの処理を繰り返し実行させるようにしてあること
を特徴とするコンピュータプログラム。
【請求項１４】
前記文書集合から一又は複数の単語からなるキーを含む文書データを取得する第５ステップ、
前記文書データから、前記キーを抽出するためのテンプレートを作成する第６ステップ、
前記文書データの内から、前記テンプレートを適用してキー群を抽出する第７ステップ、及び
該７ステップで抽出したキー群からキーを選択する第８ステップ
を更に実行させ、
前記第５ステップで第８ステップにより選択されたキーを含む文書データを取得させるようにして第５ステップから第８ステップまでの処理を繰り返し実行させるようにしてあり、
前記第１ステップで、第７ステップにより抽出されたキー群中のキーを更に含む文書データを取得させるようにしてあること
を特徴とする請求項１３に記載のコンピュータプログラム。
【請求項１５】
請求項１３又は１４に記載のコンピュータプログラムを記録した、コンピュータで読み取り可能な記録媒体。

【図１】