抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法

【課題】ＨＴＭＬ文書内で出現頻度の低い種類のタグを用いてＨＴＭＬ文書から適切かつ容易に文字列を抽出する。
【解決手段】抽出対象とする文字列の始点と終点とが指定されているＨＴＭＬ文書から、始点よりも前で、始点から最も近くに記述されているコメントタグとタグが始点タグとして抽出され、ＨＴＭＬ文書内の複数のタグから、終点よりも後ろで、終点から最も近くに記述されているコメントタグとタグが終点タグとして抽出される。そして、ＨＴＭＬ文書１０３から始点タグ１０１と終点タグ１０２が検索される。検索された始点タグ１０１よりも後ろから終点タグ１０２よりも前までの文字列が抽出される。

【発明の詳細な説明】
【技術分野】
【０００１】
本開示技術は、文書内から情報を抽出する抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法に関する。
【背景技術】
【０００２】
従来より、インターネット上で公開されているＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）文書から自動的に必要な文字列だけを抽出する技術が知られている（たとえば、下記特許文献１を参照。）。必要な文字列とは、たとえば、ニュースサイトであれば記事の文字列である。
【０００３】
具体的には、利用者が、対象とするサイトのＨＴＭＬ文書から当該ＨＴＭＬ文書内に含まれ、かつ抽出対象である文字列の前後にあるＨＴＭＬ文書内のタグを指定する。これにより、指定されたＨＴＭＬ文書のタグに基づいて対象とするサイトの他のＨＴＭＬ文書から必要な文字列だけを抽出することができる。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００８−１２３４２５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上述した自動的に必要な文字列だけを抽出する技術では、利用者がＨＴＭＬ文書内に複数あるタグを指定した場合、誤った文字列が抽出されるか、ＨＴＭＬ文書内から必要な文字列が特定できないという問題点があった。したがって、利用者が複数あるＨＴＭＬのタグから適切なＨＴＭＬのタグを指定しなければならず、抽出するべき文字列を特定するのが困難であるという問題点があった。
【０００６】
本開示技術は、上述した従来技術による問題点を解消するため、ＨＴＭＬ文書内で出現頻度の低い所定の種類のタグを用いることで、ＨＴＭＬ文書から容易かつ適切に文字列を抽出することができる抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法を提供することを目的とする。
【課題を解決するための手段】
【０００７】
上述した課題を解決し、目的を達成するため、本開示技術は、タグを用いて記述され、抽出対象とする文字列の始点と終点とが指定されている文書を取得する取得手段と、取得された文書内のタグの変数を、ワイルドカードに置換する置換手段、タグの変数が置換された文書内の複数のタグから、始点よりも前で、始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第１の抽出手段と、タグの変数が置換された文書内の複数のタグから、終点よりも後ろで、終点から最も近くに記述されている所定の種類のタグを終点タグとして抽出する第２の抽出手段と、第１および２の抽出手段により抽出された始点タグと終点タグを抽出条件として生成する生成手段とを備えることを特徴とする。
【発明の効果】
【０００８】
本抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法によれば、ＨＴＭＬ文書内で出現頻度の低い所定の種類のタグを用いることでＨＴＭＬ文書から容易かつ適切に文字列を抽出することができるという効果を奏する。
【図面の簡単な説明】
【０００９】
【図１】本実施の形態の概要を示す説明図である。
【図２】始点および終点が指定されたＨＴＭＬ文書を示す説明図である。
【図３】出現不可のタグリストを示す説明図である。
【図４】実施の形態にかかる抽出条件生成装置のハードウェア構成を示すブロック図である。
【図５】抽出条件生成装置の機能的構成を示すブロック図である。
【図６】置換結果を示す説明図である。
【図７−１】ＨＴＭＬ文書６００内のコメントタグを示す説明図である。
【図７−２】ＨＴＭＬ文書６００内の始点から終点までのタグの出現回数を示す説明図である。
【図８−１】始点よりも前で始点から最も近くに記述されているコメントタグを示す説明図である。
【図８−２】新たに抽出された始点タグを示す説明図である。
【図８−３】終点よりも後ろで終点から最も近くに記述されているコメントタグを示す説明図である。
【図８−４】新たに抽出された終点タグを示す説明図である。
【図８−５】始点タグと終点タグの出力結果を示す説明図である。
【図９−１】複数のテンプレートを示す説明図である。
【図９−２】複数のＨＴＭＬ文書を示す説明図である。
【図９−３】ＵＲＬに基づいてテンプレートが決定されている例を示す説明図である。
【図１０−１】ＨＴＭＬ文書１０３から抽出された文字列内のタグの出現回数を示す説明図である。
【図１０−２】ＨＴＭＬ文書１０３内のコメントタグを示す説明図である。
【図１１】判断結果を示す説明図である。
【図１２】ＨＴＭＬ文書１０３から抽出された文字列の出力例を示す説明図である。
【図１３】本実施の形態にかかる抽出条件生成装置５００の抽出条件生成処理手順を示すフローチャート（その１）である。
【図１４】本実施の形態にかかる抽出条件生成装置５００の抽出条件生成処理手順を示すフローチャート（その２）である。
【図１５】始点タグおよび終点タグの抽出処理の抽出処理手順を示すフローチャートである。
【図１６】適合判断処理の適合判断処理手順を示すフローチャートである。
【図１７】コメントタグの判断処理の判断処理手順を示す説明図である。
【発明を実施するための形態】
【００１０】
以下に添付図面を参照して、本願発明にかかる抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法の好適な実施の形態を詳細に説明する。図１にて実施の形態の概要を示す。
【００１１】
（実施の形態）
図１は、本実施の形態の概要を示す説明図である。テンプレート１００は、始点タグ１０１と終点タグ１０２とを含む構成である。テンプレート１００は、ニュースサイトの社会記事用のテンプレートである。「＜」から「＞」により含まれている文字列がタグを示している。テンプレート１００は、自動で生成される。
【００１２】
つぎに、ＨＴＭＬ文書１０３は、ニュースサイトの記事である。そして、本実施の形態では、テンプレート１００を用いてＨＴＭＬ文書１０３から文字列が抽出される。抽出される文字列とは、具体的な記事内容である。たとえば、ＨＴＭＬ文書１０３から始点タグ１０１および終点タグ１０２が検索される。ＨＴＭＬ文書１０３は、始点タグ１０１と終点タグ１０２（太線で囲われた箇所）を含んでいる。したがって、ＨＴＭＬ文書１０３から始点タグ１０１より後ろから終点タグ１０２よりも前までの文字列が抽出される。ＨＴＭＬ文書１０３が、抽出対象文書である。なお、ＨＴＭＬ文書１０３は、記憶装置またはアクセス可能な外部のコンピュータの記憶装置に記憶されている。
【００１３】
（ＨＴＭＬ文書）
図２は、始点および終点が指定されたＨＴＭＬ文書を示す説明図である。ＨＴＭＬ文書２００は、テンプレート１００を作成するためのＨＴＭＬ文書である。利用者によりあらかじめテキスト情報の始点および終点が指定されている。なお、ＨＴＭＬ文書２００は、記憶装置またはアクセス可能な外部のコンピュータの記憶装置に記憶されている。
【００１４】
（出現不可のタグリスト）
図３は、出現不可のタグリストを示す説明図である。出現不可のタグリスト３００には、適切にＨＴＭＬ文書から文字列が抽出された場合、当該文字列内に含まれている可能性のないタグが含まれている。たとえば、出現不可のタグリスト３００内の「＜ｔａｂｌｅ」は、ＨＴＭＬの表示を構成するためのタグである。
【００１５】
したがって、テンプレート１００を用いてＨＴＭＬ文書から抽出される文字列内に「＜ｔａｂｌｅ」が含まれている場合、テンプレート１００が当該ＨＴＭＬ文書に適さないと判断される。または、ＨＴＭＬ文書内の構成が、テンプレート１００の作成時から変化していると判断される。なお、出現不可のタグリスト３００は、記憶装置またはアクセス可能な外部のコンピュータの記憶装置に記憶されている。
【００１６】
（抽出条件生成装置のハードウェア構成）
図４は、実施の形態にかかる抽出条件生成装置のハードウェア構成を示すブロック図である。図４において、抽出条件生成装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４０１と、ＲＯＭ（Ｒｅａｄ‐ＯｎｌｙＭｅｍｏｒｙ）４０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４０３と、磁気ディスクドライブ４０４と、磁気ディスク４０５と、光ディスクドライブ４０６と、光ディスク４０７と、ディスプレイ４０８と、Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）４０９と、キーボード４１０と、マウス４１１と、スキャナ４１２と、プリンタ４１３と、を備えている。また、各構成部はバス４００によってそれぞれ接続されている。
【００１７】
ここで、ＣＰＵ４０１は、抽出条件生成装置の全体の制御を司る。ＲＯＭ４０２は、ブートプログラムや抽出条件生成プログラムなどのプログラムを記憶している。ＲＡＭ４０３は、ＣＰＵ４０１のワークエリアとして使用される。磁気ディスクドライブ４０４は、ＣＰＵ４０１の制御にしたがって磁気ディスク４０５に対するデータのリード／ライトを制御する。磁気ディスク４０５は、磁気ディスクドライブ４０４の制御で書き込まれたデータを記憶する。
【００１８】
光ディスクドライブ４０６は、ＣＰＵ４０１の制御にしたがって光ディスク４０７に対するデータのリード／ライトを制御する。光ディスク４０７は、光ディスクドライブ４０６の制御で書き込まれたデータを記憶したり、光ディスク４０７に記憶されたデータをコンピュータに読み取らせたりする。
【００１９】
ディスプレイ４０８は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ４０８は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【００２０】
Ｉ／Ｆ４０９は、通信回線を通じてＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク４１４に接続され、このネットワーク４１４を介して他の装置に接続される。そして、Ｉ／Ｆ４０９は、ネットワーク４１４と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。Ｉ／Ｆ４０９には、たとえばモデムやＬＡＮアダプタなどを採用することができる。
【００２１】
キーボード４１０は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス４１１は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
【００２２】
スキャナ４１２は、画像を光学的に読み取り、抽出条件生成装置内に画像データを取り込む。なお、スキャナ４１２は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）機能を持たせてもよい。また、プリンタ４１３は、画像データや文書データを印刷する。プリンタ４１３には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
【００２３】
（抽出条件生成装置の機能的構成）
つぎに、抽出条件生成装置の機能的構成について説明する。図５は、抽出条件生成装置の機能的構成を示すブロック図である。抽出条件生成装置５００は、取得部５０１と、受付部５０２と、置換部５０３と、第１の抽出部５０４と、第２の抽出部５０５と、第１の検索部５０６と、第２の検索部５０７と、文字列抽出部５０８と、算出部５０９と、文字数判断部５１０と、タグ検索部５１１と、異同判断部５１２と、比較部５１３と、削除部５１４と、生成部５１５と、を含む構成である。
【００２４】
抽出条件生成装置５００の制御部となる機能（取得部５０１〜生成部５１５）は、具体的には、たとえば、図４に示したＲＯＭ４０２、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶されたプログラムをＣＰＵ４０１に実行させることにより、または、Ｉ／Ｆ４０９により、その機能を実現する。
【００２５】
まず、取得部５０１は、タグを用いて記述され、複数の文字列の中から抽出対象とする文字列の始点と終点とがあらかじめ指定されている文書を取得する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスしてＨＴＭＬ文書２００を取得する。なお、取得部５０１は、タグを用いて記述され、始点および終点が指定されていない文書を取得し、取得した文書を表示する機能を有している。
【００２６】
つぎに、受付部５０２は、取得部５０１により取得されたＨＴＭＬ文書における、抽出対象とする文字列の始点と終点の指定を受け付ける機能を有する。たとえば、利用者がディスプレイ４０８などに表示されているＨＴＭＬ文書２００へ始点および終点を入力する。そして、具体的には、たとえば、始点および終点が入力されると、ＣＰＵ４０１が、ＨＴＭＬ文書２００へ始点および終点の情報を付してＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶する。
【００２７】
つぎに、置換部５０３は、取得部５０１により取得されたＨＴＭＬ文書（始点および終点が指定されているＨＴＭＬ文書）内のタグの変数を、ワイルドカードに置換する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、ＨＴＭＬ文書２００からタグを検索する。そして、検索されたタグの中で「“」と「”」により囲まれている文字列を検索する。つぎに、検索された「“」と「”」により囲まれている文字列を、正規表現でワイルドカードを示す「．＊？」に置換する。なお、置換結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図６にて置換結果を示す。
【００２８】
図６は、置換結果を示す説明図である。ＨＴＭＬ文書６００では、タグの変数にワイルドカードが記述されている。たとえば、ＨＴＭＬ文書２００では、「＜ｄｉｖｉｄ＝“ｒｅｃｔ−ｌ”」と記述されているが、ＨＴＭＬ文書６００では、「＜ｄｉｖｉｄ＝“．＊？”」と記述されている。「“ｒｅｃｔ−ｌ”」が、「＜ｄｉｖｉｄ」の変数であるため、ワイルドカードに置換されている。
【００２９】
図５に戻って、つぎに、抽出条件生成装置５００では、ＨＴＭＬ文書６００内に含まれている所定の種類のタグが抽出される。本実施の形態では所定の種類のタグとしてコメントタグを用いて説明する。所定の種類のタグは、ＨＴＭＬ文書内でコメントタグのように出現頻度の低いタグであり、コメントタグに限らない。具体的には、たとえば、ＣＰＵ４０１により、記憶装置にアクセスしてＨＴＭＬ文書６００を読み出す。そして、ＨＴＭＬ文書６００からすべてのコメントタグを抽出する。なお、抽出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図７−１にコメントタグの抽出結果を示す。
【００３０】
図７−１は、ＨＴＭＬ文書６００内のコメントタグを示す説明図である。テーブル７００では、ＨＴＭＬ文書６００内のコメントタグを示している。テーブル７００は、ＨＴＭＬ文書６００内での出現順であるＮｏ．７０１と、コメントタグ７０２とを含む構成である。ＨＴＭＬ文書６００内で３番目に出現するコメントタグは、「＜！――／／ｄａｔａ＿ｓｔａｒｔ／／――＞」である。
【００３１】
図５に戻って、つぎに、抽出条件生成装置５００では、ＨＴＭＬ文書６００内の始点から終点までに含まれている各タグの出現回数が算出される。具体的には、たとえば、ＣＰＵ４０１により、記憶装置にアクセスしてＨＴＭＬ文書６００を読み出す。そして、ＨＴＭＬ文書６００内の始点から終点までの文字列を抽出する。そして、文字列内のすべてのタグを抽出する。つぎに、抽出されたタグを、タグの種類ごとに分類する。そして、タグの種類ごとに、ＨＴＭＬ文書６００内の始点から終点までに含まれているタグの数を算出する。なお、算出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図７−２に算出結果を示す。
【００３２】
図７−２は、ＨＴＭＬ文書６００内の始点から終点までのタグの出現回数を示す説明図である。テーブル７０３は、タグ７０４と、回数７０５とを含む構成である。たとえば、ＣＰＵ４０１が、テーブル７０３を読み出すことによりＨＴＭＬ文書６００内に「＜ｐ＞」が３回出現していることが分かる。
【００３３】
図５に戻って、第１の抽出部５０４は、置換部５０３によりタグの変数がワイルドカードに置換されたＨＴＭＬ文書内の複数のタグから始点よりも前で、始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する。具体的には、たとえば、ＣＰＵ４０１が、ＨＴＭＬ文書６００からコメントタグを検索する。コメントタグとは、ブラウザの表示に関係なくコメントを入れることである。「＜！――」から「――＞」までに記述されている文字列はブラウザに表示されない。
【００３４】
そして、たとえば、ＣＰＵ４０１が、検索されたコメントタグの中から、始点よりも前で、始点から最も近くに記述されているコメントタグを始点タグとして抽出する。なお、抽出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図８−１に抽出結果を示す。
【００３５】
図８−１は、始点よりも前で始点から最も近くに記述されているコメントタグを示す説明図である。テンプレート８０２は、始点タグ８０１を含む構成である。始点タグ８０１は、「＜！――／／ｒｅｃｔａｎｇｌｅ＿ｅｎｄ／／――＞」である。これにより、ＨＴＭＬ文書内で出現頻度の低いコメントタグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。
【００３６】
図５に戻って、また、第１の抽出部５０４は、ＨＴＭＬ文書内の複数のタグの中から、すでに抽出された始点タグを除いて始点よりも前で、最も近くに記述されているタグとすでに抽出されたえ始点タグをあらたに始点タグとして抽出する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、ＨＴＭＬ文書６００からすでに抽出されたコメントタグを除いて始点よりも前で、始点に最も近く記述されているタグを抽出する。なお、抽出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図８−２に抽出結果を示す。
【００３７】
図８−２は、新たに抽出された始点タグを示す説明図である。テンプレート８０３は、始点タグ１０１を含む構成である。したがって、始点タグ１０１は、「＜！――／／ｒｅｃｔａｎｇｌｅ＿ｅｎｄ――＞」とさらに「＜ｐｃｌａｓｓ＝“．＊？”＞」である。
【００３８】
これにより、出現頻度の低いタグとさらにその他のタグとを始点タグとすることで、ＨＴＭＬ文書内でさらに出現頻度の低い始点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。
【００３９】
図５に戻って、つぎに、第１の検索部５０６は、第１の抽出部５０４により抽出された始点タグを、ＨＴＭＬ文書内から検索する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、ＨＴＭＬ文書６００から始点タグ１０１を検索する。なお、検索結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【００４０】
また、第１の抽出部５０４は、第１の検索部５０６により始点タグが複数検索された場合、ＨＴＭＬ文書内の複数のタグから、すでに抽出された始点タグを除いて始点よりも前で、最も近くに記述されているタグとすでに抽出された始点タグとをあらたに始点タグとして抽出する機能を有する。
【００４１】
具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして検索結果を読み出す。そして、ＨＴＭＬ文書６００から始点タグ１０１が複数検索された場合、ＨＴＭＬ文書６００内の複数のタグから、すでに抽出された始点タグ１０１を除いて始点よりも前で、最も近くに記述されているタグを抽出する。つぎに、すでに抽出された始点タグ１０１とあらたに抽出されたタグとをあらたに始点タグとする。
【００４２】
なお、抽出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。これにより、ＨＴＭＬ文書内で一度しか出現しない始点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。なお、本実施の形態では、ＨＴＭＬ文書６００から始点タグ１０１が複数検索されないため、さらに、あらたに始点タグが抽出されない。
【００４３】
つぎに、第２の抽出部５０５は、置換部５０３によりタグの変数が置換されたＨＴＭＬ文書内の複数のタグから、終点よりも後ろで、終点から最も近くに記述されている所定の種類のタグを終点タグとして抽出する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、ＨＴＭＬ文書６００からコメントタグを検索する。
【００４４】
そして、たとえば、ＣＰＵ４０１が、検索されたコメントタグの中から、終点よりも後ろで、終点から最も近くに記述されているコメントタグを終点タグとして抽出する。なお、抽出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図８−３に抽出結果を示す。
【００４５】
図８−３は、終点よりも後ろで終点から最も近くに記述されているコメントタグを示す説明図である。テンプレート８０４は、始点タグ１０１と、終点タグ８０５とを含む構成である。終点タグ８０５は、「＜！――／／ｄａｔａ＿ｓｔａｒｔ／／――＞」である。これにより、ＨＴＭＬ文書内で出現頻度の低いコメントタグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。
【００４６】
図５に戻って、また、第２の抽出部５０５は、ＨＴＭＬ文書内の複数のタグから、抽出された終点タグを除いて終点タグよりも後ろで、最も近くに記述されているタグとすでに抽出された終点タグとをあらたに終点タグとして抽出する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、ＨＴＭＬ文書６００からすでに抽出されたコメントタグを除いて終点よりも後ろで、終点に最も近く記述されているタグを抽出する。なお、抽出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図８−４に抽出結果を示す。
【００４７】
図８−４は、新たに抽出された終点タグを示す説明図である。テンプレート８０６は、始点タグ１０１と、終点タグ８０７とを含む構成である。終点タグ８０７は、「＜！――／／ｄａｔａ＿ｓｔａｒｔ／／――＞」とさらに「＜／ｐ＞」である。なお、「＜／ｐ＞」と「＜！――／／ｄａｔａ＿ｓｔａｒｔ／／――＞」の間には複数の文字列およびタグが含まれているため終点タグ８０７内に「．＊？」が記述されている。
【００４８】
これにより、出現頻度の低いタグとさらにその他のタグとを始点タグとすることで、ＨＴＭＬ文書内でさらに出現頻度の低い終点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。
【００４９】
図５に戻って、つぎに、第２の検索部５０７は、第２の抽出部５０５により抽出された終点タグを、ＨＴＭＬ文書内から検索する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、ＨＴＭＬ文書６００から終点タグ８０７を検索する。なお、検索結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【００５０】
また、第２の抽出部５０５は、第２の検索部５０７により終点タグが複数検索された場合、ＨＴＭＬ文書内の複数のタグから、すでに抽出された終点タグを除いて終点よりも後ろで、最も近くに記述されているタグとすでに抽出された終点タグとをあらたに終点タグとして抽出する機能を有する。
【００５１】
具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして検索結果を読み出す。そして、ＨＴＭＬ文書６００から終点タグ８０７が複数検索された場合、ＨＴＭＬ文書６００内の複数のタグからすでに抽出された終点タグ８０７を除いて終点よりも後ろで、最も近くに記述されているタグを抽出する。つぎに、抽出されたタグとすでに抽出された終点タグ８０７とをあらたに終点タグ１０２とする。なお、抽出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【００５２】
つぎに、生成部５１５は、第１の抽出部５０４および第２の抽出部５０５により抽出された始点タグと終点タグとを抽出条件として生成する機能を有する。具体的には、たとえば、ＣＰＵ４０１が抽出結果を読み出し、始点タグと終点タグとをテンプレートとして生成して出力する。出力形式としては、たとえば、ディスプレイ４０８への表示、プリンタ４１３への印刷出力、Ｉ／Ｆ４０９による外部装置への送信がある。また、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶することとしてもよい。図８−５に出力結果を示す。
【００５３】
図８−５は、始点タグと終点タグの出力結果を示す説明図である。テンプレート１００は、始点タグ１０１と終点タグ１０２を含む構成である。終点タグ１０２は、「＜／ｐ＞」と、「＜ｄｉｖｃｌａｓｓ＝“．＊？”＞」と「＜！――／／ｄａｔａ＿ｓｔａｒｔ――＞」である。なお、「＜ｄｉｖｃｌａｓｓ＝“．＊？”＞」と「＜！――／／ｄａｔａ＿ｓｔａｒｔ――＞」の間には複数の文字列のみが含まれているため終点タグ１０２内に「［＾＜］＊？」が記述されている。「［＾＜］」は、正規表現であり「＜」が含まれないことを示している。これにより、ＨＴＭＬ文書内で一度しか出現しないタグの組み合わせを終点タグとして自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。
【００５４】
上述したように取得部５０１と、置換部５０３と、第１の抽出部５０４と、第２の抽出部５０５と、第１の検索部５０６と、第２の検索部５０７と、生成部５１５によりテンプレート１００が自動で生成される。
【００５５】
これにより、ＨＴＭＬ文書内で出現頻度の低いまたは一度しか出現しないタグの組み合わせを始点タグおよび終点タグとして自動で抽出することができ、テンプレートの作成を容易化できる。さらに、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。
【００５６】
つぎに、自動で作成されたテンプレート１００に基づいて、ＨＴＭＬ文書からテキスト情報を自動で抽出する例を示す。たとえば、テンプレートは、複数作成される。図９−１〜図９−３にて複数のテンプレートの例を示す。
【００５７】
図９−１は、複数のテンプレートを示す説明図である。図９−１では、たとえば、ニュースサイト内の記事に対応した複数のテンプレートを示している。各種テンプレートは、社会検索用テンプレートと、スポーツ用テンプレートと、経済用テンプレートなどのニュースサイトに応じて複数のテンプレートを含んでいる。図９−２にて複数のＨＴＭＬ文書を示す。
【００５８】
図９−２は、複数のＨＴＭＬ文書を示す説明図である。たとえば、ニュースサイトである「ｈｔｔｐ：／／ｗｗｗ．○○○．ｃｏ．ｊｐ」は、複数のＨＴＭＬ文書により構成されている。たとえば、ｈｔｍｌ文書Ａ〜ｈｔｍｌ文書Ｚまでが含まれている。たとえば、「ｓｈａｋａｉ／」には、社会の記事が含まれている。そして、「ｓｐｏｒｔ／」には、スポーツの記事が含まれている。「ｋｅｉｚａｉ／」には、経済の記事が含まれている。図９−３にてＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）に基づいてテンプレートが決定されている例を示す。
【００５９】
図９−３は、ＵＲＬに基づいてテンプレートが決定されている例を示す説明図である。テーブル９００は、ＨＴＭＬ文書名９０１と、テンプレート名９０２を示す説明図である。ＨＴＭＬ文書名９０１には、ｈｔｍｌ文書Ａ〜ｈｔｍｌ文書Ｚが記述されている。そして、各ＨＴＭＬ文章に応じてテンプレート名９０２が記述されている。テンプレートは、たとえば、ＵＲＬ名により決定されている。たとえば、ｈｔｍｌ文書Ａは、ＵＲＬ内に「ｓｈａｋａｉ／」を含んでいるため、社会検索用テンプレートに決定されている。
【００６０】
本実施の形態では、上述したようにＨＴＭＬ文書１０３からテンプレート１００を用いて必要な文字列を抽出する。たとえば、ＨＴＭＬ文書１０３がｈｔｍｌ文書Ａであるとする。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスしてテーブル９００を読み出す。そして、ＨＴＭＬ文書名９０１からｈｔｍｌ文書Ａを検索する。つぎに、ｈｔｍｌ文書Ａが検索されると、ｈｔｍｌ文書Ａに対応したテンプレート名９０２を読み出す。したがって、社会検索用テンプレートを用いてｈｔｍｌ文書Ａから文字列が抽出されることがわかる。つぎに、決定されたテンプレートに基づいてＨＴＭＬ文書からのテキスト情報の抽出について説明する。
【００６１】
図５に戻って、また、取得部５０１は、タグで記述されている抽出対象文書を取得する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスしてＨＴＭＬ文書１０３を取得する。
【００６２】
つぎに、第１の検索部５０６は、取得部５０１により抽出された抽出対象文書内の複数のタグから、第１の抽出部５０４により抽出された始点タグを検索する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして始点タグ１０１を読み出す。そして、ＨＴＭＬ文書１０３から始点タグ１０１を検索する。なお、検索結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【００６３】
つぎに、第２の検索部５０７は、取得部５０１により抽出された抽出対象文書内の複数のタグから、第２の抽出部５０５により抽出された終点タグを検索する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして終点タグ１０２を読み出す。そして、ＨＴＭＬ文書１０３から終点タグ１０２を検索する。なお、検索結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【００６４】
なお、図１が、ＨＴＭＬ文書１０３から第１の検索部５０６および第２の検索部５０７により始点タグ１０１および終点タグ１０２が検索された例を示している。
【００６５】
図５に戻って、そして、文字列抽出部５０８は、第１の検索部５０６および第２の検索部５０７により始点タグおよび終点タグが検索された場合、始点タグより後に記述されている文字から終点タグより前に記述されている文字までの文字列を抽出する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして検索結果を読み出す。
【００６６】
そして、たとえば、ＣＰＵ４０１が、始点タグ１０１および終点タグ１０２を検索した場合、始点タグ１０１より後ろに記述されている文字から終点タグ１０２より前に記述されている文字までの文字列を抽出する。なお、抽出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。これにより、出現頻度の低いタグをテンプレートとして用いて抽出対象文書から必要な文字列を自動で抽出することができる。したがって、ＨＴＭＬ文書から文字列を適切かつ容易に抽出することができる。
【００６７】
つぎに、文字列抽出部５０８により文字列が抽出された場合、適切な文字列が抽出されているか否かが検査される例について説明する。算出部５０９と、文字数判断部５１０と、タグ検索部５１１と、異同判断部５１２により、適切な文字列が抽出されているか否かが検査される。
【００６８】
まず、算出部５０９は、文字列抽出部５０８により抽出された文字列の文字数を算出する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして抽出結果を読み出す。そして、抽出された文字列の文字数を算出する。なお、算出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。なお、ＨＴＭＬ文書１０３から抽出された文字列の文字数は５６０文字である。
【００６９】
つぎに、文字数判断部５１０は、算出部５０９により算出された文字数があらかじめ利用者により指定された文字数以上であるか否かを判断する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして算出結果を読み出す。算出結果が、指定された文字数以上であるか否かを判断する。
【００７０】
たとえば、あらかじめ利用者により指定された文字数が２００文字とする。上述したようにＨＴＭＬ文書１０３から抽出された文字列の文字数は５６０文字である。したがって、抽出された文字列の文字数は指定された文字数以上であると判断される。
【００７１】
生成部５１５は、文字数判断部５１０により抽出された文字列内の文字数が指定された文字数以上でないと判断された場合、抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、指定された文字数未満であると判断された場合、ＣＰＵ４０１が、テンプレート１００によりＨＴＭＬ文書１０３から文字列が抽出されないことを出力する。出力形式としては、たとえば、ディスプレイ４０８への表示、プリンタ４１３への印刷出力、Ｉ／Ｆ４０９による外部装置への送信がある。また、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶することとしてもよい。
【００７２】
これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを抽出された文字列の文字数を算出することにより自動で判断することができ、抽出の容易化を図ることができる。なお、上述したようにＨＴＭＬ文書１０３から抽出された文字列の文字数は、指定された文字数以上であると判断されたため、本実施の形態では、出力例の説明を省略する。
【００７３】
つぎに、抽出条件生成装置５００では、文字列抽出部５０８によりＨＴＭＬ文書１０３から抽出された文字列内に含まれている各タグの出現回数が算出される。具体的には、たとえば、ＣＰＵ４０１により、記憶装置にアクセスして抽出された文字列を読み出す。そして、抽出された文字列からすべてのタグを抽出する。つぎに、抽出されたタグを、タグの種類ごとに分類する。そして、タグの種類ごとに、抽出された文字列内のタグの数を算出する。なお、算出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図１０−１に算出結果を示す。
【００７４】
図１０−１は、ＨＴＭＬ文書１０３から抽出された文字列内のタグの出現回数を示す説明図である。テーブル１０００は、タグ／コメントタグ１００１と、回数１００２とを含む構成である。たとえば、ＣＰＵ４０１が、テーブル１０００を読み出すことによりＨＴＭＬ文書１０３から抽出された文字列内に「＜ｐ＞」が３回出現していることが分かる。
【００７５】
図５に戻って、つぎに、タグ検索部５１１は、文字列抽出部５０８により抽出された文字列から、出現不可に指定されている種類のタグを検索する機能を有する。出現不可に指定されている種類のタグとは、適切な文字列が抽出された場合に当該文字列内に含まれている可能性のないタグである。たとえば、出現不可に指定されている種類のタグとは、出現不可のタグリスト３００内のタグである。
【００７６】
具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして文字列が抽出された抽出結果と出現不可のタグリスト３００を読み出す。つぎに、抽出結果から読み出された出現不可のタグリスト３００内のタグを順次検索する。なお、検索結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【００７７】
また、具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスしてテーブル１０００と出現不可のタグリスト３００を読み出す。つぎに、テーブル１０００内のタグ／コメントタグ１００１内から出現不可のタグリスト３００内のタグを順次検索する。なお、検索結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【００７８】
テーブル１０００内のタグ／コメントタグ１００１には、「＜ｐ＞」と「＜／ｐ＞」のみが記述されている。したがって、タグ／コメントタグ１００１から出現不可のタグリスト３００内のタグは検索されない。ＨＴＭＬ文書１０３から抽出された文字列内には、出現不可に指定されている種類のタグが含まれていない。
【００７９】
生成部５１５は、タグ検索部５１１により出現不可に指定されている種類のタグが検索された場合、抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして検索結果を読み出し、出現不可に指定されている種類のタグが検索されたか否かを判断する。
【００８０】
そして、たとえば、ＣＰＵ４０１が、出現不可に指定されている種類のタグが検索されたと判断された場合、テンプレート１００によりＨＴＭＬ文書１０３から文字列が抽出されないことを出力する。出力形式としては、たとえば、ディスプレイ４０８への表示、プリンタ４１３への印刷出力、Ｉ／Ｆ４０９による外部装置への送信がある。
【００８１】
また、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶することとしてもよい。これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、出現不可に指定されている種類のタグが含まれているか否かに基づいて自動で判断でき、抽出の容易化を図ることができる。
【００８２】
なお、上述したようにＨＴＭＬ文書１０３から抽出された文字列内には、出現不可に指定されている種類のタグが含まれていないため、本実施の形態では、出力例の説明を省略する。
【００８３】
つぎに、比較部５１３は、ＨＴＭＬ文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数と文字列抽出部５０８により抽出された文字列内に含まれているタグの種類数を比較する機能を有する。
【００８４】
たとえば、ＨＴＭＬ文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数が、過去にテンプレート１００を用いて抽出された文字列内のタグの種類数であってもよい。本実施の形態では、ＨＴＭＬ文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数を、上述したテーブル７０３内のタグ７０４に記述されているタグの種類数とする。なお、ここでは、ＨＴＭＬ文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数をＱとする。
【００８５】
具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスしてテーブル７０３とテーブル１０００を読み出す。そして、テーブル７０３内のタグ７０４のタグ数とテーブル１０００内のタグ／コメントタグ１００１のタグ数とを比較する。たとえば、タグ７０４には「＜ｐ＞」と「＜／ｐ＞」が記述されているため、タグ７０４に記述されているタグの種類数は、２種類である。
【００８６】
そして、タグ／コメントタグ１００１には「＜ｐ＞」と「＜／ｐ＞」が記述されているため、タグ／コメントタグ１００１に記述されているタグの種類数は、２種類である。なお、ここでは、抽出された文字列内に含まれているタグの種類数をＲとする。そして、たとえば、ＣＰＵ４０１が、下記式（１）によりＳを算出する。
【００８７】
Ｓ＝｜Ｑ／Ｒ−１｜
・・・（１）
【００８８】
そして、たとえば、ＣＰＵ４０１が、算出結果（Ｓ）と利用者により指定されている閾値とを比較する。なお、比較結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【００８９】
つぎに、生成部５１５は、比較部５１３により比較された比較結果に基づいて、抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして比較結果を読み出す。そして、比較結果が、算出結果（Ｓ）があらかじめ指定されている閾値未満である場合、テンプレート１００によりＨＴＭＬ文書１０３から文字列が抽出されないことを出力する。出力形式としては、たとえば、ディスプレイ４０８への表示、プリンタ４１３への印刷出力、Ｉ／Ｆ４０９による外部装置への送信がある。
【００９０】
また、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶することとしてもよい。これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、文字列内に含まれているタグの種類数に基づいて自動で判断でき、抽出の容易化を図ることができる。
【００９１】
なお、上述したようにＨＴＭＬ文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数と過去にテンプレート１００を用いて抽出された文字列内のタグの種類数は同じであるため、本実施の形態では、出力例の説明を省略する。
【００９２】
つぎに、比較部５１３は、文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数と始点から終点までの文字数との割合と、文字列抽出部５０８により抽出された文字列内に最も多く含まれているタグの種類の出現回数と算出部５０９により算出された文字数との割合を比較する機能を有する。なお、本実施の形態では、文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数と始点から終点までの文字数との割合をＮとし、抽出された文字列内に最も多く含まれているタグの種類の出現回数と文字数との割合をＭとする。
【００９３】
文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数は、過去にテンプレート１００を用いて抽出された文字列内で最も多く含まれているタグの種類の出現回数であってもよい。本実施の形態では、文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数をテーブル７０３内の回数７０５で最も大きい値にする。
【００９４】
具体的には、たとえば、ＣＰＵ４０１が、記憶装置からテーブル７０３を読み出して回数７０５が最も大きい値である３回が読み出される。したがって、タグの種類の出現回数は、３回である。そして、本実施の形態では、文書の種類に応じて用意されている始点から終点までの文字数をＨＴＭＬ文書６００内の文字数とする。具体的には、たとえば、ＣＰＵ４０１が、Ｎを３４３／３とする。
【００９５】
一方、文字列抽出部５０８により抽出された文字列内に最も多く含まれているタグの種類の出現回数は、テーブル１０００内の回数１００２で最も大きい値である。具体的には、たとえば、ＣＰＵ４０１が、記憶装置からテーブル１０００を読み出して回数１００２が最も大きい値である３回が読み出される。つぎに、記憶装置から算出結果である５６０文字を読み出す。そして、Ｍを５６０／３とする。そして、具体的には、たとえば、ＣＰＵ４０１が、下記式（２）を算出する。
【００９６】
Ｌ＝｜Ｎ／Ｍ−１｜
・・・（２）
【００９７】
そして、たとえば、ＣＰＵ４０１が、算出結果（Ｌ）と利用者により指定された閾値を比較する。なお、比較結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【００９８】
つぎに、生成部５１５は、比較部５１３により比較された比較結果に基づいて抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして比較結果を読み出す。そして、比較結果が、算出結果（Ｌ）が指定されている閾値未満である場合、テンプレート１００によりＨＴＭＬ文書１０３から文字列が抽出されないことを出力する。
【００９９】
出力形式としては、たとえば、ディスプレイ４０８への表示、プリンタ４１３への印刷出力、Ｉ／Ｆ４０９による外部装置への送信がある。また、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶することとしてもよい。これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出された文字列内のタグの種類の出現回数と文字数の割合に基づいて自動で判断でき、抽出の容易化を図ることができる。なお、本実施の形態では、比較結果が指定されている閾値以上であるとして、出力例の説明を省略する。
【０１００】
つぎに、抽出条件生成装置５００では、抽出対象文書から所定の種類のタグが抽出される。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスしてＨＴＭＬ文書１０３を読み出す。そして、ＨＴＭＬ文書１０３からすべてのコメントタグを抽出する。なお、抽出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図１０−２に抽出結果を示す。
【０１０１】
図１０−２は、ＨＴＭＬ文書１０３内のコメントタグを示す説明図である。テーブル１００３では、ＨＴＭＬ文書１０３内のコメントタグを示している。テーブル１００３は、出現順であるＮｏ．１００４と、コメントタグ１００５とを含む構成である。ＨＴＭＬ文書１０３内で３番目に出現するコメントタグは、「＜！――／／ｄａｔａ＿ｓｔａｒｔ／／――＞」である。
【０１０２】
図５に戻って、比較部５１３は、文書の種類に応じて用意されているコメントタグの種類数と抽出対象文書内のコメントタグの種類数とを比較する機能を有する。文書の種類に応じて用意されているコメントタグの種類数とは、テーブル７００内のコメントタグ７０２の数である。そして、つぎに、抽出対象文書内のコメントタグの種類数とは、テーブル１００３内のコメントタグ１００５の数である。
【０１０３】
具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスしてテーブル７００内のコメントタグ７０２とテーブル１００３内のコメントタグ１００５を読み出す。そして、読み出されたコメントタグ７０２およびコメントタグ１００５に記述されているコメントタグの数を、それぞれ算出する。たとえば、ＣＰＵ４０１が、下記式（３）を算出する。
【０１０４】
Ｔ＝｜コメントタグ７０２内のコメントタグ数／コメントタグ１００５内のコメントタグ数−１｜
・・・（３）
【０１０５】
そして、たとえば、ＣＰＵ４０１が、算出結果（Ｔ）と利用者により指定された閾値を比較する。なお、比較結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。
【０１０６】
つぎに、生成部５１５は、比較部５１３により比較された比較結果に基づいて抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして比較結果を読み出す。そして、比較結果が、算出結果（Ｔ）が指定されている閾値未満である場合、テンプレート１００によりＨＴＭＬ文書１０３から文字列が抽出されないことを出力する。
【０１０７】
出力形式としては、たとえば、ディスプレイ４０８への表示、プリンタ４１３への印刷出力、Ｉ／Ｆ４０９による外部装置への送信がある。また、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶することとしてもよい。これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出対象文書内のコメントタグの種類に基づいて自動で判断でき、抽出の容易化を図ることができる。なお、本実施の形態では、比較結果が指定されている閾値以上であるとする。
【０１０８】
つぎに、異同判断部５１２は、文書の種類に応じて用意されているコメントタグと抽出対象文書内のコメントタグとの異同を判断する。文書の種類に応じて用意されているコメントタグとは、たとえば、上述したテーブル７００内のコメントタグ７０２である。抽出対象文書内のコメントタグとは、上述したテーブル１００３内のコメントタグ１００５である。
【０１０９】
具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスしてテーブル７００とテーブル１００３を読み出す。たとえば、１番目のコメントタグ７０２が、コメントタグ１００５に含まれているか否かを順次判断する。つぎに、２番目のコメントタグ７０２が、コメントタグ１００５に含まれているか否かを順次判断する。そして、６番目のコメントタグ７０２まで順次、コメントタグ１００５に含まれているか否かを判断する。なお、判断結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。図１１に判断結果を示す。
【０１１０】
図１１は、判断結果を示す説明図である。判断結果１１００は、テーブル７００とテーブル１００３との異同の判断結果である。Ｘ軸方向の１から６までがテーブル７００内のＮｏ．７０１に対応している。そして、Ｙ軸方向の１から６までがテーブル１００３内のＮｏ．１００４に対応している。そして、●印が、同一のコメントタグであることを示している。そして、下記式（４）によりＨＴＭＬ文書１０３内のコメントタグと文書の種類に応じて用意されているコメントタグとの異同の割合が算出される。
【０１１１】
ＳＥＱ＝ｍａｔｃｈ／（文書の種類に応じて用意されているコメントタグの数−１）―１
・・・（４）
ただし、ＳＥＱは異同の割合であり、ｍａｔｃｈは判断結果１１００の●印の数である。
【０１１２】
なお、算出結果は、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶される。そして、算出結果（ＳＥＱ）が利用者により指定されている閾値未満であるか否かを判断する。
【０１１３】
つぎに、生成部５１５は、異同判断部５１２により判断された異同の数に基づいて、抽出対象文書から文字列が抽出できないことを出力する機能を有する。本実施の形態では、異同の数を、異同の割合として説明する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして判断結果を読み出す。そして、判断結果が、算出結果（ＳＥＱ）が指定されている閾値未満である場合、テンプレート１００によりＨＴＭＬ文書１０３から文字列が抽出されないことを出力する。
【０１１４】
出力形式としては、たとえば、ディスプレイ４０８への表示、プリンタ４１３への印刷出力、Ｉ／Ｆ４０９による外部装置への送信がある。また、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶することとしてもよい。
【０１１５】
これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、文字列内に含まれているコメントタグの種類に基づいて自動で判断でき、抽出の容易化を図ることができる。
【０１１６】
そして、つぎに、削除部５１４は、文字列抽出部５０８により抽出された文字列からタグを削除する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、記憶装置にアクセスして抽出結果を読み出す。そして、抽出結果からタグを検索する。そして、検索されたタグをすべて削除する。
【０１１７】
つぎに、生成部５１５は、削除部５１４によりすべての文字列が削除された文字列を出力する機能を有する。具体的には、たとえば、ＣＰＵ４０１が、削除結果を出力する。出力形式としては、たとえば、ディスプレイ４０８への表示、プリンタ４１３への印刷出力、Ｉ／Ｆ４０９による外部装置への送信がある。また、ＲＡＭ４０３、磁気ディスク４０５、光ディスク４０７などの記憶装置に記憶することとしてもよい。図１２にて出力例を示す。
【０１１８】
図１２は、ＨＴＭＬ文書１０３から抽出された文字列の出力例を示す説明図である。抽出文字列１２００は、ＨＴＭＬ文書１０３から抽出された文字列である。文字列内に含まれていた「＜ｐ＞」および「＜／ｐ＞」が削除されて出力されている。これにより、出現頻度の低いタグを用いて抽出対象文書から文字列のみを自動で抽出することができ、ＨＴＭＬ文書から適切な文字列を抽出することを容易化できる。
【０１１９】
（抽出条件生成装置５００の抽出条件生成処理手順）
実施の形態にかかる抽出条件生成装置５００の抽出条件生成処理手順について説明する。図１３および図１４にて抽出条件生成装置５００の抽出条件生成処理手順を示す。図１３にて上述したＨＴＭＬ文書２００からテンプレート１００が自動で作成される処理手順を示す。つぎに、図１４にて上述したテンプレート１００を用いてＨＴＭＬ文書１０３から文字列が自動で抽出される処理手順を示す。なお、本実施の形態では、あらかじめ始点と終点とが指定されている文書が取得されることとする。
【０１２０】
図１３は、本実施の形態にかかる抽出条件生成装置５００の抽出条件生成処理手順を示すフローチャート（その１）である。まず、文書に応じてテンプレートが作成されたか否かを判断する（ステップＳ１３０１）。そして、文書に応じてテンプレートが作成されていないと判断された場合（ステップＳ１３０１：Ｎｏ）、取得部５０１により、始点と終点とが指定された文書を取得する（ステップＳ１３０２）。たとえば、ＨＴＭＬ文書２００が取得される。
【０１２１】
つぎに、置換部５０３により、タグの変数を置換し（ステップＳ１３０３）、コメントタグをすべて抽出し（ステップＳ１３０４）、抽出結果を出力する（ステップＳ１３０５）。なお、抽出結果が、テーブル７００である。たとえば、ＨＴＭＬ文書２００からタグの変数が置換された置換結果が、ＨＴＭＬ文書６００である。そして、抽出結果が、テーブル７００である。つぎに、始点から終点までの文字列内のタグの種類ごとに、タグの出現回数を算出し（ステップＳ１３０６）、算出結果を出力する（ステップＳ１３０７）。なお、算出結果が、テーブル７０３である。
【０１２２】
そして、第１の抽出部５０４と、第２の抽出部５０５と、第１の検索部５０６と、第２の検索部５０７により、始点タグおよび終点タグの抽出処理を実行し（ステップＳ１３０８）、生成部５１５により、始点タグおよび終点タグを抽出条件として出力し（ステップＳ１３０９）、ステップＳ１３０１へ戻る。なお、出力結果が、テンプレート１００である。一方、文書に応じてテンプレートが作成されたと判断された場合（ステップＳ１３０１：Ｙｅｓ）、つぎの処理へ移行する。つぎの処理を図１４にて示す（Ａで示されている箇所）。
【０１２３】
図１４は、本実施の形態にかかる抽出条件生成装置５００の抽出条件生成処理手順を示すフローチャート（その２）である。まず、取得部５０１により、抽出対象文書を取得し（ステップＳ１４０１）、ＵＲＬに基づいてテンプレートを決定する（ステップＳ１４０２）。たとえば、ＨＴＭＬ文書１０３が取得され、ＨＴＭＬ文書１０３のテンプレートとしてテンプレート１００が決定される。
【０１２４】
つぎに、第１の検索部５０６により、抽出対象文書から始点タグを検索し、始点タグがあるか否かを判断する（ステップＳ１４０３）。始点タグがあると判断された場合（ステップＳ１４０３：Ｙｅｓ）、文字列抽出部５０８により、始点タグより後ろの文字列をすべて抽出する（ステップＳ１４０４）。つぎに、第２の検索部５０７により、抽出対象文書から終点タグを検索し終点タグがあるか否かを判断する（ステップＳ１４０５）。そして、終点タグがあると判断された場合（ステップＳ１４０５：Ｙｅｓ）、文字列抽出部５０８により、抽出された文字列から終点タグよりも前の文字列をすべて抽出する（ステップＳ１４０６）。
【０１２５】
つぎに、算出部５０９と、文字数判断部５１０と、タグ検索部５１１と、異同判断部５１２と、比較部５１３により、適合判断処理が実行される（ステップＳ１４０７）。そして、テンプレートが抽出対象文書に適合している場合、抽出された文字列内にタグが含まれているか否かを判断する（ステップＳ１４０８）。抽出された文字列内にタグが含まれていると判断された場合（ステップＳ１４０８：Ｙｅｓ）、削除部５１４により、タグをすべて削除し（ステップＳ１４０９）、タグを削除後の文字列を出力し（ステップＳ１４１０）、一連の処理を終了する。一方、タグが含まれていないと判断された場合（ステップＳ１４０８：Ｎｏ）、ステップＳ１４１０へ移行する。なお、文字列の出力結果が、抽出文字列１２００である。
【０１２６】
一方、始点タグがないと判断された場合（ステップＳ１４０３：Ｎｏ）、または終点タグがないと判断された場合（ステップＳ１４０５：Ｎｏ）、テンプレートと一致しないことを出力し（ステップＳ１４１１）、一連の処理を終了する。
【０１２７】
つぎに、上述した始点タグおよび終点タグの抽出処理（ステップＳ１３０８）を説明する。図１５は、始点タグおよび終点タグの抽出処理の抽出処理手順を示すフローチャートである。まず、第１の抽出部５０４により、始点よりも前で最も近いコメントタグを抽出し（ステップＳ１５０１）、第１の抽出部５０４により、始点よりも前で最も近いタグを抽出する（ステップＳ１５０２）。つぎに、抽出されたコメントタグとタグを始点タグに設定する（ステップＳ１５０３）。
【０１２８】
そして、第１の検索部５０６により、抽出対象文書内から始点タグを検索し、始点タグが文書内に複数あるか否かを判断する（ステップＳ１５０４）。始点タグが文書内に複数あると判断された場合（ステップＳ１５０４：Ｙｅｓ）、第１の抽出部５０４により、つぎに始点に近いタグを抽出する（ステップＳ１５０５）。そして、さらに始点タグに設定し（ステップＳ１５０６）、ステップＳ１５０４へ戻る。
【０１２９】
一方、始点タグが文書内に複数ないと判断された場合（ステップＳ１５０４：Ｎｏ）、第２の抽出部５０５により、終点よりも後ろで最も近いコメントタグを抽出する（ステップＳ１５０７）。つぎに、第２の抽出部５０５により、終点よりも後ろで最も近いタグを抽出し（ステップＳ１５０８）、抽出されたコメントタグとタグを終点タグに設定する（ステップＳ１５０９）。そして、第２の検索部５０７により、抽出対象文書内から終点タグを検索し、終点タグが文書内に複数あるか否かを判断する（ステップＳ１５１０）。
【０１３０】
まず、終点タグが文書内に複数あると判断された場合（ステップＳ１５１０：Ｙｅｓ）、第２の抽出部５０５により、つぎに終点に近いタグを抽出し（ステップＳ１５１１）、さらに終点タグに設定し（ステップＳ１５１２）、ステップＳ１５１０へ戻る。一方、終点タグが文書内に複数ないと判断された場合（ステップＳ１５１０：Ｎｏ）、ステップＳ１３０９へ移行する。
【０１３１】
つぎに、上述した適合判断処理（ステップＳ１４０７）を説明する。図１６は、適合判断処理の適合判断処理手順を示すフローチャートである。まず、算出部５０９により、抽出された文字列内の文字数を算出し（ステップＳ１６０１）、文字数判断部５１０により、指定された文字数以上であるか否かを判断する（ステップＳ１６０２）。指定された文字数以上であると判断された場合（ステップＳ１６０２：Ｙｅｓ）、タグ検索部５１１により、出現不可のタグを抽出された文字列内から検索し、抽出された文字列内に出現不可のタグはないかあるかを判断する（ステップＳ１６０３）。なお、出現不可のタグとは、上述した出現不可のタグリスト３００内のタグである。
【０１３２】
そして、抽出された文字列内に出現不可のタグはないと判断された場合（ステップＳ１６０３：Ｙｅｓ）、抽出された文字列内のタグの種類を判別し（ステップＳ１６０４）、タグの種類ごとに、抽出された文字列内の出現回数を算出する（ステップＳ１６０５）。
【０１３３】
つぎに、比較部５１３により、指定された閾値＜＝｜過去の平均タグ種類数／タグの種類数−１｜であるか否かを判断する（ステップＳ１６０６）。指定された閾値＜＝｜過去の平均タグ種類数／タグの種類数−１｜であると判断された場合（ステップＳ１６０６：Ｙｅｓ）、Ｍ＝文字数／最多出現回数とする（ステップＳ１６０７）。Ｎ＝過去の平均文字数／過去の平均最多出現回数とし（ステップＳ１６０８）、比較部５１３により、指定された閾値＜＝｜Ｎ／Ｍ−１｜であるか否かを判断する（ステップＳ１６０９）。
【０１３４】
指定された閾値＜＝｜Ｎ／Ｍ−１｜であると判断された場合（ステップＳ１６０９：Ｙｅｓ）、抽出対象文書内のコメントタグの種類を判別する（ステップＳ１６１０）。そして、比較部５１３により、指定された閾値＜＝｜過去のコメントタグの種類数／コメントタグの種類数−１｜であるか否かを判断する（ステップＳ１６１１）。指定された閾値＜＝｜過去のコメントタグの種類数／コメントタグの種類数−１｜であると判断された場合（ステップＳ１６１１：Ｙｅｓ）、異同判断部５１２により、コメントタグの判断処理を実行し（ステップＳ１６１２）、ステップＳ１４０８へ移行する。
【０１３５】
指定された文字数以上でないと判断された場合（ステップＳ１６０２：Ｎｏ）、生成部５１５により、テンプレートが適さないことを出力し（ステップＳ１６１３）、一連の処理を終了する。そして、抽出された文字列内に出現不可のタグはあると判断された場合（ステップＳ１６０３：Ｎｏ）、または、指定された閾値＜＝｜過去の平均タグ種類数／タグの種類数−１｜でないと判断された場合（ステップＳ１６０６：Ｎｏ）、ステップＳ１６１３へ移行する。さらに、指定された閾値＜＝｜Ｎ／Ｍ−１｜でないと判断された場合（ステップＳ１６０９：Ｎｏ）、または、指定された閾値＜＝｜過去のタグの種類数／タグの種類数−１｜でないと判断された場合（ステップＳ１６１１：Ｎｏ）、ステップＳ１６１３へ移行する。
【０１３６】
つぎに、上述したコメントタグの判断処理（ステップＳ１６１２）について説明する。図１７は、コメントタグの判断処理の判断処理手順を示す説明図である。まず、ｉ＝１、ｍａｔｃｈ＝０とし（ステップＳ１７０１）、ｉ＜＝テンプレート用文書内のコメントタグ数であるか否かを判断する（ステップＳ１７０２）。テンプレート用文書とは、テンプレート作成時に使用されたＨＴＭＬ文書である。本実施の形態では、ＨＴＭＬ文書２００である。
【０１３７】
ｉ＜＝テンプレート用文書内のコメントタグ数であると判断された場合（ステップＳ１７０２：Ｙｅｓ）、ｊ＝１とし（ステップＳ１７０３）、ｊ＜＝抽出対象文書内のコメントタグ数であるか否かを判断する（ステップＳ１７０４）。ｊ＜＝抽出対象文書内のコメントタグ数であると判断された場合（ステップＳ１７０４：Ｙｅｓ）、抽出対象文書内のｊ番目のコメントタグとテンプレート用文書内のｉ番目のコメントタグが同一か否かを判断する（ステップＳ１７０５）。
【０１３８】
抽出対象文書内のｊ番目のコメントタグとテンプレート用文書内のｉ番目のコメントタグが同一であると判断された場合（ステップＳ１７０５：Ｙｅｓ）、ｍａｔｃｈ＝ｍａｔｃｈ＋１とする（ステップＳ１７０６）。つづいて、ｊ＝ｊ＋１とし（ステップＳ１７０７）、ステップＳ１７０４へ戻る。
【０１３９】
一方、抽出対象文書内のｊ番目のコメントタグとテンプレート用文書内のｉ番目のコメントタグが同一でないと判断された場合（ステップＳ１７０５：Ｎｏ）、ステップＳ１７０７へ移行する。そして、一方、ｊ＜＝抽出対象文書内のコメントタグ数でないと判断された場合（ステップＳ１７０４：Ｎｏ）、ｉ＝ｉ＋１とし（ステップＳ１７０８）、ステップＳ１７０２へ戻る。
【０１４０】
一方、ｉ＜＝テンプレート用文書内のコメントタグ数でないと判断された場合（ステップＳ１７０２：Ｎｏ）、ＳＥＱ＝ｍａｔｃｈ／（テンプレート用文書内のコメントタグ数−１）−１（ステップＳ１７０９）、指定された閾値＜＝ＳＥＱであるか否かを判断する（ステップＳ１７１０）。指定された閾値＜＝ＳＥＱであると判断された場合（ステップＳ１７１０：Ｙｅｓ）、ステップＳ１４０８へ移行する。一方、指定された閾値＜＝ＳＥＱでないと判断された場合（ステップＳ１７１０：Ｎｏ）、ステップＳ１６１３へ移行する。
【０１４１】
以上説明したように、抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法によれば、利用者により始点と終点が指定されたＨＴＭＬ文書から、始点より前で始点に最も近いコメントタグを始点タグとし、終点より後ろで終点に最も近いコメントタグを終点タグとして自動で抽出する。これにより、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。
【０１４２】
また、出現頻度の低いタグとさらにその他のタグとを始点タグとすることで、ＨＴＭＬ文書内でさらに出現頻度の低い終点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。
【０１４３】
また、抽出された始点タグおよび終点タグが、ＨＴＭＬ文書内に複数あると判断された場合、さらに始点および終点にそれぞれ最も近いタグとすでに抽出された始点タグおよび終点タグとをあらたに始点タグおよび終点タグとして抽出する。これにより、ＨＴＭＬ文書内で一度しか出現しない始点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、ＨＴＭＬ文書内で出現頻度の低いコメントタグを用いてＨＴＭＬ文書から必要な文字列を適切かつ容易に抽出することができる。
【０１４４】
また、抽出された出現頻度の低いタグをテンプレートとして用いて抽出対象文書から必要な文字列を適切かつ容易に抽出することができる。
【０１４５】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出された文字列の文字数を算出することにより自動で判断することで、文字列の抽出の容易化を図ることができる。
【０１４６】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、出現不可に指定されている種類のタグが含まれているか否かに基づいて自動で判断することで、抽出の容易化を図ることができる。
【０１４７】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、文字列内に含まれているタグの種類数に基づいて自動で判断することで、抽出の容易化を図ることができる。
【０１４８】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出された文字列内のタグの種類の出現回数と文字数の割合に基づいて自動で判断することで、抽出の容易化を図ることができる。
【０１４９】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出対象文書内に含まれているタグの種類数に基づいて自動で判断することで、抽出の容易化を図ることができる。
【０１５０】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出対象文書内のコメントタグの種類に基づいて自動で判断することで、抽出の容易化を図ることができる。
【０１５１】
なお、本実施の形態で説明した抽出条件生成方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本抽出条件生成プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本抽出条件生成プログラムは、インターネット等のネットワークを介して配布してもよい。
【０１５２】
また、本実施の形態で説明した抽出条件生成装置５００は、スタンダードセルやストラクチャードＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの特定用途向けＩＣ（以下、単に「ＡＳＩＣ」と称す。）やＦＰＧＡなどのＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）によっても実現することができる。具体的には、たとえば、上述した抽出条件生成装置５００の機能（取得部５０１〜生成部５１５）をＨＤＬ記述によって機能定義し、そのＨＤＬ記述を論理合成してＡＳＩＣやＰＬＤに与えることにより、抽出条件生成装置５００を製造することができる。
【０１５３】
上述した実施の形態に関し、さらに以下の付記を開示する。
【０１５４】
（付記１）コンピュータを、
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成するシステムとして機能させる抽出条件生成プログラムであって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付手段、
前記一の文書内の複数のタグから、前記受付手段により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第１の抽出手段、
前記一の文書内の複数のタグから、前記受付手段により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第２の抽出手段、
前記第１および２の抽出手段により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成手段、
として機能させることを特徴とする抽出条件生成プログラム。
【０１５５】
（付記２）前記第１の抽出手段は、
前記一の文書内の複数のタグから、前記始点タグを除いて前記始点よりも前で、最も近くに記述されているタグと前記始点タグとをあらたに始点タグとして抽出し、
前記第２の抽出手段は、
前記一の文書内の複数のタグから、前記終点タグを除いて前記終点よりも後ろで、最も近くに記述されているタグと前記終点タグとをあらたに終点タグとして抽出し、
前記生成手段は、
前記第１および２の抽出手段により抽出された始点タグと終点タグを前記抽出条件として生成することを特徴とする付記１に記載の抽出条件生成プログラム。
【０１５６】
（付記３）前記コンピュータを、
前記第１の抽出手段により抽出された始点タグを、前記一の文書内から検索する第１の検索手段、
前記第２の抽出手段により抽出された終点タグを、前記一の文書内から検索する第２の検索手段、として機能させ、
前記第１の検索手段により前記始点タグが複数検索された場合、前記一の文書内の複数のタグから、前記始点タグを除いて前記始点よりも前で、最も近くに記述されているタグと前記始点タグとをあらたに始点タグとして抽出し、
前記第２の検索手段により前記終点タグが複数検索された場合、前記一の文書内の複数のタグから、前記終点タグを除いて前記終点タグよりも前で、最も近くに記述されているタグと前記終点タグとをあらたに終点タグとして抽出し、
前記生成手段は、
前記第１および２の抽出手段により抽出された始点タグと終点タグを前記抽出条件として生成することを特徴とする付記１または２のいずれか１つに記載の抽出条件生成プログラム。
【０１５７】
（付記４）前記コンピュータを、
前記コンピュータを、
タグにより記述されている抽出対象文書を取得する取得手段、
前記始点タグより後に記述されている文字から前記終点タグより前に記述されている文字までの文字列を抽出する文字列抽出手段、
前記文字列抽出手段により抽出された文字列からすべてのタグを削除する削除手段、として機能させ、
前記第１の検索手段は、
前記取得手段により取得された抽出対象文書内の複数のタグから、前記第１の抽出手段により抽出された始点タグを検索し、
前記第２の検索手段は、
前記取得手段により取得された抽出対象文書内の複数のタグから、前記第２の抽出手段により抽出された終点タグを検索し、
前記文字列抽出手段は、
前記第１および２の検索手段により前記始点タグおよび前記終点タグが検索された場合、前記抽出対象文書の中から前記始点タグより後に記述されている文字から前記終点タグより前に記述されている文字までの文字列を抽出し、
前記生成手段は、
前記削除手段により前記すべてのタグが削除された文字列を出力することを特徴とする付記１〜３のいずれか１つに記載の抽出条件生成プログラム。
【０１５８】
（付記５）前記コンピュータを、
前記文字列抽出手段により抽出された文字列の文字数を算出する算出手段、
前記算出手段により算出された文字数が、指定された文字数以上であるか否かを判断する文字数判断手段、として機能させ、
前記生成手段は、
前記文字数判断手段により指定された文字数以上でないと判断された場合、前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記１〜４のいずれか１つに記載の抽出条件生成プログラム。
【０１５９】
（付記６）前記コンピュータを、
前記文字列抽出手段により抽出された文字列から、出現不可に指定されている種類のタグを検索するタグ検索手段、として機能させ、
前記生成手段は、
前記タグ検索手段により前記指定されている種類のタグが検索された場合、前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記１〜５のいずれか１つに記載の抽出条件生成プログラム。
【０１６０】
（付記７）前記コンピュータを、
文書の種類に応じて用意されている前記始点から前記終点までに含まれるタグの種類数と前記文字列抽出手段により抽出された文字列内に含まれているタグの種類数とを比較する比較手段、として機能させ、
前記生成手段は、
前記比較手段により比較された比較結果に基づいて前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記１〜６のいずれか１つに記載の抽出条件生成プログラム。
【０１６１】
（付記８）前記比較手段は、
文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数と始点から終点までの文字数との割合と、前記文字列抽出手段により抽出された文字列内に最も多く含まれているタグの種類の出現回数と前記算出手段により算出された文字数との割合を比較し、
前記生成手段は、
前記比較手段により比較された比較結果に基づいて前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記１〜７のいずれか１つに記載の抽出条件生成プログラム。
【０１６２】
（付記９）前記比較手段は、
文書の種類に応じて用意されているコメントタグの種類数と前記抽出対象文書内のコメントタグの種類数とを比較し、
前記生成手段は、
前記比較手段により比較された比較結果に基づいて前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記１〜８のいずれか１つに記載の抽出条件生成プログラム。
【０１６３】
（付記１０）前記コンピュータを、
文書の種類に応じて用意されているコメントタグと前記抽出対象文書内のコメントタグとの異同を判断する異同判断手段、として機能させ、
前記生成手段は、
前記異同判断手段により判断された異同の数に基づいて、前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記１〜９のいずれか１つに記載の抽出条件生成プログラム。
【０１６４】
（付記１１）複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成する抽出条件生成装置であって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付手段と、
前記一の文書内の複数のタグから、前記受付手段により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第１の抽出手段と、
前記一の文書内の複数のタグから、前記受付手段により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第２の抽出手段と、
前記第１および２の抽出手段により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成手段と、
を備えることを特徴とする抽出条件生成装置。
【０１６５】
（付記１２）コンピュータが、
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成する機能を実行する抽出条件生成方法であって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付工程、
前記一の文書内の複数のタグから、前記受付工程により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第１の抽出工程、
前記一の文書内の複数のタグから、前記受付工程により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第２の抽出工程、
前記第１および２の抽出工程により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成工程、
を実行することを特徴とする抽出条件生成方法。
【符号の説明】
【０１６６】
１０３，２００ＨＴＭＬ文書
５０１取得部
５０２受付部
５０４第１の抽出部
５０５第２の抽出部
５０６第１の検索部
５０７第２の検索部
５０８文字列抽出部
５０９算出部
５１０文字数判断部
５１１タグ検索部
５１４削除部
５１５生成部
７０２，１００５コメントタグ
１０１，８０１始点タグ
１０２，８０５，８０７終点タグ

【特許請求の範囲】
【請求項１】
コンピュータを、
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成するシステムとして機能させる抽出条件生成プログラムであって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付手段、
前記一の文書内の複数のタグから、前記受付手段により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第１の抽出手段、
前記一の文書内の複数のタグから、前記受付手段により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第２の抽出手段、
前記第１および２の抽出手段により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成手段、
として機能させることを特徴とする抽出条件生成プログラム。
【請求項２】
前記第１の抽出手段は、
前記一の文書内の複数のタグから、前記始点タグを除いて前記始点よりも前で、最も近くに記述されているタグと前記始点タグとをあらたに始点タグとして抽出し、
前記第２の抽出手段は、
前記一の文書内の複数のタグから、前記終点タグを除いて前記終点よりも後ろで、最も近くに記述されているタグと前記終点タグとをあらたに終点タグとして抽出し、
前記生成手段は、
前記第１および２の抽出手段により抽出された始点タグと終点タグを前記抽出条件として生成することを特徴とする請求項１に記載の抽出条件生成プログラム。
【請求項３】
前記コンピュータを、
前記第１の抽出手段により抽出された始点タグを、前記一の文書内から検索する第１の検索手段、
前記第２の抽出手段により抽出された終点タグを、前記一の文書内から検索する第２の検索手段、として機能させ、
前記第１の検索手段により前記始点タグが複数検索された場合、前記一の文書内の複数のタグから、前記始点タグを除いて前記始点よりも前で、最も近くに記述されているタグと前記始点タグとをあらたに始点タグとして抽出し、
前記第２の検索手段により前記終点タグが複数検索された場合、前記一の文書内の複数のタグから、前記終点タグを除いて前記終点タグよりも前で、最も近くに記述されているタグと前記終点タグとをあらたに終点タグとして抽出し、
前記生成手段は、
前記第１および２の抽出手段により抽出された始点タグと終点タグを前記抽出条件として生成することを特徴とする請求項１または２のいずれか１つに記載の抽出条件生成プログラム。
【請求項４】
前記コンピュータを、
タグにより記述されている抽出対象文書を取得する取得手段、
前記始点タグより後に記述されている文字から前記終点タグより前に記述されている文字までの文字列を抽出する文字列抽出手段、
前記文字列抽出手段により抽出された文字列からすべてのタグを削除する削除手段、として機能させ、
前記第１の検索手段は、
前記取得手段により取得された抽出対象文書内の複数のタグから、前記第１の抽出手段により抽出された始点タグを検索し、
前記第２の検索手段は、
前記取得手段により取得された抽出対象文書内の複数のタグから、前記第２の抽出手段により抽出された終点タグを検索し、
前記文字列抽出手段は、
前記第１および２の検索手段により前記始点タグおよび前記終点タグが検索された場合、前記抽出対象文書の中から前記始点タグより後に記述されている文字から前記終点タグより前に記述されている文字までの文字列を抽出し、
前記生成手段は、
前記削除手段により前記すべてのタグが削除された文字列を出力することを特徴とする請求項１〜３のいずれか１つに記載の抽出条件生成プログラム。
【請求項５】
前記コンピュータを、
前記文字列抽出手段により抽出された文字列の文字数を算出する算出手段、
前記算出手段により算出された文字数が、指定された文字数以上であるか否かを判断する文字数判断手段、として機能させ、
前記生成手段は、
前記文字数判断手段により指定された文字数以上でないと判断された場合、前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする請求項１〜４のいずれか１つに記載の抽出条件生成プログラム。
【請求項６】
前記コンピュータを、
前記文字列抽出手段により抽出された文字列から、出現不可に指定されている種類のタグを検索するタグ検索手段、として機能させ、
前記生成手段は、
前記タグ検索手段により前記指定されている種類のタグが検索された場合、前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする請求項１〜５のいずれか１つに記載の抽出条件生成プログラム。
【請求項７】
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成する抽出条件生成装置であって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付手段と、
前記一の文書内の複数のタグから、前記受付手段により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第１の抽出手段と、
前記一の文書内の複数のタグから、前記受付手段により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第２の抽出手段と、
前記第１および２の抽出手段により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成手段と、
を備えることを特徴とする抽出条件生成装置。
【請求項８】
コンピュータが、
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成する機能を実行する抽出条件生成方法であって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付工程、
前記一の文書内の複数のタグから、前記受付工程により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第１の抽出工程、
前記一の文書内の複数のタグから、前記受付工程により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第２の抽出工程、
前記第１および２の抽出工程により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成工程、
を実行することを特徴とする抽出条件生成方法。

【図１】