説明

抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法

【課題】HTML文書内で出現頻度の低い種類のタグを用いてHTML文書から適切かつ容易に文字列を抽出する。
【解決手段】抽出対象とする文字列の始点と終点とが指定されているHTML文書から、始点よりも前で、始点から最も近くに記述されているコメントタグとタグが始点タグとして抽出され、HTML文書内の複数のタグから、終点よりも後ろで、終点から最も近くに記述されているコメントタグとタグが終点タグとして抽出される。そして、HTML文書103から始点タグ101と終点タグ102が検索される。検索された始点タグ101よりも後ろから終点タグ102よりも前までの文字列が抽出される。

【発明の詳細な説明】
【技術分野】
【0001】
本開示技術は、文書内から情報を抽出する抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法に関する。
【背景技術】
【0002】
従来より、インターネット上で公開されているHTML(Hyper Text Markup Language)文書から自動的に必要な文字列だけを抽出する技術が知られている(たとえば、下記特許文献1を参照。)。必要な文字列とは、たとえば、ニュースサイトであれば記事の文字列である。
【0003】
具体的には、利用者が、対象とするサイトのHTML文書から当該HTML文書内に含まれ、かつ抽出対象である文字列の前後にあるHTML文書内のタグを指定する。これにより、指定されたHTML文書のタグに基づいて対象とするサイトの他のHTML文書から必要な文字列だけを抽出することができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−123425号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した自動的に必要な文字列だけを抽出する技術では、利用者がHTML文書内に複数あるタグを指定した場合、誤った文字列が抽出されるか、HTML文書内から必要な文字列が特定できないという問題点があった。したがって、利用者が複数あるHTMLのタグから適切なHTMLのタグを指定しなければならず、抽出するべき文字列を特定するのが困難であるという問題点があった。
【0006】
本開示技術は、上述した従来技術による問題点を解消するため、HTML文書内で出現頻度の低い所定の種類のタグを用いることで、HTML文書から容易かつ適切に文字列を抽出することができる抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するため、本開示技術は、タグを用いて記述され、抽出対象とする文字列の始点と終点とが指定されている文書を取得する取得手段と、取得された文書内のタグの変数を、ワイルドカードに置換する置換手段、タグの変数が置換された文書内の複数のタグから、始点よりも前で、始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第1の抽出手段と、タグの変数が置換された文書内の複数のタグから、終点よりも後ろで、終点から最も近くに記述されている所定の種類のタグを終点タグとして抽出する第2の抽出手段と、第1および2の抽出手段により抽出された始点タグと終点タグを抽出条件として生成する生成手段とを備えることを特徴とする。
【発明の効果】
【0008】
本抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法によれば、HTML文書内で出現頻度の低い所定の種類のタグを用いることでHTML文書から容易かつ適切に文字列を抽出することができるという効果を奏する。
【図面の簡単な説明】
【0009】
【図1】本実施の形態の概要を示す説明図である。
【図2】始点および終点が指定されたHTML文書を示す説明図である。
【図3】出現不可のタグリストを示す説明図である。
【図4】実施の形態にかかる抽出条件生成装置のハードウェア構成を示すブロック図である。
【図5】抽出条件生成装置の機能的構成を示すブロック図である。
【図6】置換結果を示す説明図である。
【図7−1】HTML文書600内のコメントタグを示す説明図である。
【図7−2】HTML文書600内の始点から終点までのタグの出現回数を示す説明図である。
【図8−1】始点よりも前で始点から最も近くに記述されているコメントタグを示す説明図である。
【図8−2】新たに抽出された始点タグを示す説明図である。
【図8−3】終点よりも後ろで終点から最も近くに記述されているコメントタグを示す説明図である。
【図8−4】新たに抽出された終点タグを示す説明図である。
【図8−5】始点タグと終点タグの出力結果を示す説明図である。
【図9−1】複数のテンプレートを示す説明図である。
【図9−2】複数のHTML文書を示す説明図である。
【図9−3】URLに基づいてテンプレートが決定されている例を示す説明図である。
【図10−1】HTML文書103から抽出された文字列内のタグの出現回数を示す説明図である。
【図10−2】HTML文書103内のコメントタグを示す説明図である。
【図11】判断結果を示す説明図である。
【図12】HTML文書103から抽出された文字列の出力例を示す説明図である。
【図13】本実施の形態にかかる抽出条件生成装置500の抽出条件生成処理手順を示すフローチャート(その1)である。
【図14】本実施の形態にかかる抽出条件生成装置500の抽出条件生成処理手順を示すフローチャート(その2)である。
【図15】始点タグおよび終点タグの抽出処理の抽出処理手順を示すフローチャートである。
【図16】適合判断処理の適合判断処理手順を示すフローチャートである。
【図17】コメントタグの判断処理の判断処理手順を示す説明図である。
【発明を実施するための形態】
【0010】
以下に添付図面を参照して、本願発明にかかる抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法の好適な実施の形態を詳細に説明する。図1にて実施の形態の概要を示す。
【0011】
(実施の形態)
図1は、本実施の形態の概要を示す説明図である。テンプレート100は、始点タグ101と終点タグ102とを含む構成である。テンプレート100は、ニュースサイトの社会記事用のテンプレートである。「<」から「>」により含まれている文字列がタグを示している。テンプレート100は、自動で生成される。
【0012】
つぎに、HTML文書103は、ニュースサイトの記事である。そして、本実施の形態では、テンプレート100を用いてHTML文書103から文字列が抽出される。抽出される文字列とは、具体的な記事内容である。たとえば、HTML文書103から始点タグ101および終点タグ102が検索される。HTML文書103は、始点タグ101と終点タグ102(太線で囲われた箇所)を含んでいる。したがって、HTML文書103から始点タグ101より後ろから終点タグ102よりも前までの文字列が抽出される。HTML文書103が、抽出対象文書である。なお、HTML文書103は、記憶装置またはアクセス可能な外部のコンピュータの記憶装置に記憶されている。
【0013】
(HTML文書)
図2は、始点および終点が指定されたHTML文書を示す説明図である。HTML文書200は、テンプレート100を作成するためのHTML文書である。利用者によりあらかじめテキスト情報の始点および終点が指定されている。なお、HTML文書200は、記憶装置またはアクセス可能な外部のコンピュータの記憶装置に記憶されている。
【0014】
(出現不可のタグリスト)
図3は、出現不可のタグリストを示す説明図である。出現不可のタグリスト300には、適切にHTML文書から文字列が抽出された場合、当該文字列内に含まれている可能性のないタグが含まれている。たとえば、出現不可のタグリスト300内の「<table」は、HTMLの表示を構成するためのタグである。
【0015】
したがって、テンプレート100を用いてHTML文書から抽出される文字列内に「<table」が含まれている場合、テンプレート100が当該HTML文書に適さないと判断される。または、HTML文書内の構成が、テンプレート100の作成時から変化していると判断される。なお、出現不可のタグリスト300は、記憶装置またはアクセス可能な外部のコンピュータの記憶装置に記憶されている。
【0016】
(抽出条件生成装置のハードウェア構成)
図4は、実施の形態にかかる抽出条件生成装置のハードウェア構成を示すブロック図である。図4において、抽出条件生成装置は、CPU(Central Processing Unit)401と、ROM(Read‐Only Memory)402と、RAM(Random Access Memory)403と、磁気ディスクドライブ404と、磁気ディスク405と、光ディスクドライブ406と、光ディスク407と、ディスプレイ408と、I/F(Interface)409と、キーボード410と、マウス411と、スキャナ412と、プリンタ413と、を備えている。また、各構成部はバス400によってそれぞれ接続されている。
【0017】
ここで、CPU401は、抽出条件生成装置の全体の制御を司る。ROM402は、ブートプログラムや抽出条件生成プログラムなどのプログラムを記憶している。RAM403は、CPU401のワークエリアとして使用される。磁気ディスクドライブ404は、CPU401の制御にしたがって磁気ディスク405に対するデータのリード/ライトを制御する。磁気ディスク405は、磁気ディスクドライブ404の制御で書き込まれたデータを記憶する。
【0018】
光ディスクドライブ406は、CPU401の制御にしたがって光ディスク407に対するデータのリード/ライトを制御する。光ディスク407は、光ディスクドライブ406の制御で書き込まれたデータを記憶したり、光ディスク407に記憶されたデータをコンピュータに読み取らせたりする。
【0019】
ディスプレイ408は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ408は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【0020】
I/F409は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワーク414に接続され、このネットワーク414を介して他の装置に接続される。そして、I/F409は、ネットワーク414と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F409には、たとえばモデムやLANアダプタなどを採用することができる。
【0021】
キーボード410は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス411は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
【0022】
スキャナ412は、画像を光学的に読み取り、抽出条件生成装置内に画像データを取り込む。なお、スキャナ412は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ413は、画像データや文書データを印刷する。プリンタ413には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
【0023】
(抽出条件生成装置の機能的構成)
つぎに、抽出条件生成装置の機能的構成について説明する。図5は、抽出条件生成装置の機能的構成を示すブロック図である。抽出条件生成装置500は、取得部501と、受付部502と、置換部503と、第1の抽出部504と、第2の抽出部505と、第1の検索部506と、第2の検索部507と、文字列抽出部508と、算出部509と、文字数判断部510と、タグ検索部511と、異同判断部512と、比較部513と、削除部514と、生成部515と、を含む構成である。
【0024】
抽出条件生成装置500の制御部となる機能(取得部501〜生成部515)は、具体的には、たとえば、図4に示したROM402、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶されたプログラムをCPU401に実行させることにより、または、I/F409により、その機能を実現する。
【0025】
まず、取得部501は、タグを用いて記述され、複数の文字列の中から抽出対象とする文字列の始点と終点とがあらかじめ指定されている文書を取得する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスしてHTML文書200を取得する。なお、取得部501は、タグを用いて記述され、始点および終点が指定されていない文書を取得し、取得した文書を表示する機能を有している。
【0026】
つぎに、受付部502は、取得部501により取得されたHTML文書における、抽出対象とする文字列の始点と終点の指定を受け付ける機能を有する。たとえば、利用者がディスプレイ408などに表示されているHTML文書200へ始点および終点を入力する。そして、具体的には、たとえば、始点および終点が入力されると、CPU401が、HTML文書200へ始点および終点の情報を付してRAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶する。
【0027】
つぎに、置換部503は、取得部501により取得されたHTML文書(始点および終点が指定されているHTML文書)内のタグの変数を、ワイルドカードに置換する機能を有する。具体的には、たとえば、CPU401が、HTML文書200からタグを検索する。そして、検索されたタグの中で「“」と「”」により囲まれている文字列を検索する。つぎに、検索された「“」と「”」により囲まれている文字列を、正規表現でワイルドカードを示す「.*?」に置換する。なお、置換結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図6にて置換結果を示す。
【0028】
図6は、置換結果を示す説明図である。HTML文書600では、タグの変数にワイルドカードが記述されている。たとえば、HTML文書200では、「<div id=“rect−l”」と記述されているが、HTML文書600では、「<div id=“.*?”」と記述されている。「“rect−l”」が、「<div id」の変数であるため、ワイルドカードに置換されている。
【0029】
図5に戻って、つぎに、抽出条件生成装置500では、HTML文書600内に含まれている所定の種類のタグが抽出される。本実施の形態では所定の種類のタグとしてコメントタグを用いて説明する。所定の種類のタグは、HTML文書内でコメントタグのように出現頻度の低いタグであり、コメントタグに限らない。具体的には、たとえば、CPU401により、記憶装置にアクセスしてHTML文書600を読み出す。そして、HTML文書600からすべてのコメントタグを抽出する。なお、抽出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図7−1にコメントタグの抽出結果を示す。
【0030】
図7−1は、HTML文書600内のコメントタグを示す説明図である。テーブル700では、HTML文書600内のコメントタグを示している。テーブル700は、HTML文書600内での出現順であるNo.701と、コメントタグ702とを含む構成である。HTML文書600内で3番目に出現するコメントタグは、「<!――//data_start//――>」である。
【0031】
図5に戻って、つぎに、抽出条件生成装置500では、HTML文書600内の始点から終点までに含まれている各タグの出現回数が算出される。具体的には、たとえば、CPU401により、記憶装置にアクセスしてHTML文書600を読み出す。そして、HTML文書600内の始点から終点までの文字列を抽出する。そして、文字列内のすべてのタグを抽出する。つぎに、抽出されたタグを、タグの種類ごとに分類する。そして、タグの種類ごとに、HTML文書600内の始点から終点までに含まれているタグの数を算出する。なお、算出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図7−2に算出結果を示す。
【0032】
図7−2は、HTML文書600内の始点から終点までのタグの出現回数を示す説明図である。テーブル703は、タグ704と、回数705とを含む構成である。たとえば、CPU401が、テーブル703を読み出すことによりHTML文書600内に「<p>」が3回出現していることが分かる。
【0033】
図5に戻って、第1の抽出部504は、置換部503によりタグの変数がワイルドカードに置換されたHTML文書内の複数のタグから始点よりも前で、始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する。具体的には、たとえば、CPU401が、HTML文書600からコメントタグを検索する。コメントタグとは、ブラウザの表示に関係なくコメントを入れることである。「<!――」から「――>」までに記述されている文字列はブラウザに表示されない。
【0034】
そして、たとえば、CPU401が、検索されたコメントタグの中から、始点よりも前で、始点から最も近くに記述されているコメントタグを始点タグとして抽出する。なお、抽出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図8−1に抽出結果を示す。
【0035】
図8−1は、始点よりも前で始点から最も近くに記述されているコメントタグを示す説明図である。テンプレート802は、始点タグ801を含む構成である。始点タグ801は、「<!――//rectangle_end//――>」である。これにより、HTML文書内で出現頻度の低いコメントタグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。
【0036】
図5に戻って、また、第1の抽出部504は、HTML文書内の複数のタグの中から、すでに抽出された始点タグを除いて始点よりも前で、最も近くに記述されているタグとすでに抽出されたえ始点タグをあらたに始点タグとして抽出する機能を有する。具体的には、たとえば、CPU401が、HTML文書600からすでに抽出されたコメントタグを除いて始点よりも前で、始点に最も近く記述されているタグを抽出する。なお、抽出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図8−2に抽出結果を示す。
【0037】
図8−2は、新たに抽出された始点タグを示す説明図である。テンプレート803は、始点タグ101を含む構成である。したがって、始点タグ101は、「<!――//rectangle_end――>」とさらに「<p class=“.*?”>」である。
【0038】
これにより、出現頻度の低いタグとさらにその他のタグとを始点タグとすることで、HTML文書内でさらに出現頻度の低い始点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。
【0039】
図5に戻って、つぎに、第1の検索部506は、第1の抽出部504により抽出された始点タグを、HTML文書内から検索する機能を有する。具体的には、たとえば、CPU401が、HTML文書600から始点タグ101を検索する。なお、検索結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0040】
また、第1の抽出部504は、第1の検索部506により始点タグが複数検索された場合、HTML文書内の複数のタグから、すでに抽出された始点タグを除いて始点よりも前で、最も近くに記述されているタグとすでに抽出された始点タグとをあらたに始点タグとして抽出する機能を有する。
【0041】
具体的には、たとえば、CPU401が、記憶装置にアクセスして検索結果を読み出す。そして、HTML文書600から始点タグ101が複数検索された場合、HTML文書600内の複数のタグから、すでに抽出された始点タグ101を除いて始点よりも前で、最も近くに記述されているタグを抽出する。つぎに、すでに抽出された始点タグ101とあらたに抽出されたタグとをあらたに始点タグとする。
【0042】
なお、抽出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。これにより、HTML文書内で一度しか出現しない始点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。なお、本実施の形態では、HTML文書600から始点タグ101が複数検索されないため、さらに、あらたに始点タグが抽出されない。
【0043】
つぎに、第2の抽出部505は、置換部503によりタグの変数が置換されたHTML文書内の複数のタグから、終点よりも後ろで、終点から最も近くに記述されている所定の種類のタグを終点タグとして抽出する機能を有する。具体的には、たとえば、CPU401が、HTML文書600からコメントタグを検索する。
【0044】
そして、たとえば、CPU401が、検索されたコメントタグの中から、終点よりも後ろで、終点から最も近くに記述されているコメントタグを終点タグとして抽出する。なお、抽出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図8−3に抽出結果を示す。
【0045】
図8−3は、終点よりも後ろで終点から最も近くに記述されているコメントタグを示す説明図である。テンプレート804は、始点タグ101と、終点タグ805とを含む構成である。終点タグ805は、「<!――//data_start//――>」である。これにより、HTML文書内で出現頻度の低いコメントタグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。
【0046】
図5に戻って、また、第2の抽出部505は、HTML文書内の複数のタグから、抽出された終点タグを除いて終点タグよりも後ろで、最も近くに記述されているタグとすでに抽出された終点タグとをあらたに終点タグとして抽出する機能を有する。具体的には、たとえば、CPU401が、HTML文書600からすでに抽出されたコメントタグを除いて終点よりも後ろで、終点に最も近く記述されているタグを抽出する。なお、抽出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図8−4に抽出結果を示す。
【0047】
図8−4は、新たに抽出された終点タグを示す説明図である。テンプレート806は、始点タグ101と、終点タグ807とを含む構成である。終点タグ807は、「<!――//data_start//――>」とさらに「</p>」である。なお、「</p>」と「<!――//data_start//――>」の間には複数の文字列およびタグが含まれているため終点タグ807内に「.*?」が記述されている。
【0048】
これにより、出現頻度の低いタグとさらにその他のタグとを始点タグとすることで、HTML文書内でさらに出現頻度の低い終点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。
【0049】
図5に戻って、つぎに、第2の検索部507は、第2の抽出部505により抽出された終点タグを、HTML文書内から検索する機能を有する。具体的には、たとえば、CPU401が、HTML文書600から終点タグ807を検索する。なお、検索結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0050】
また、第2の抽出部505は、第2の検索部507により終点タグが複数検索された場合、HTML文書内の複数のタグから、すでに抽出された終点タグを除いて終点よりも後ろで、最も近くに記述されているタグとすでに抽出された終点タグとをあらたに終点タグとして抽出する機能を有する。
【0051】
具体的には、たとえば、CPU401が、記憶装置にアクセスして検索結果を読み出す。そして、HTML文書600から終点タグ807が複数検索された場合、HTML文書600内の複数のタグからすでに抽出された終点タグ807を除いて終点よりも後ろで、最も近くに記述されているタグを抽出する。つぎに、抽出されたタグとすでに抽出された終点タグ807とをあらたに終点タグ102とする。なお、抽出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0052】
つぎに、生成部515は、第1の抽出部504および第2の抽出部505により抽出された始点タグと終点タグとを抽出条件として生成する機能を有する。具体的には、たとえば、CPU401が抽出結果を読み出し、始点タグと終点タグとをテンプレートとして生成して出力する。出力形式としては、たとえば、ディスプレイ408への表示、プリンタ413への印刷出力、I/F409による外部装置への送信がある。また、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶することとしてもよい。図8−5に出力結果を示す。
【0053】
図8−5は、始点タグと終点タグの出力結果を示す説明図である。テンプレート100は、始点タグ101と終点タグ102を含む構成である。終点タグ102は、「</p>」と、「<div class=“.*?”>」と「<!――//data_start――>」である。なお、「<div class=“.*?”>」と「<!――//data_start――>」の間には複数の文字列のみが含まれているため終点タグ102内に「[^<]*?」が記述されている。「[^<]」は、正規表現であり「<」が含まれないことを示している。これにより、HTML文書内で一度しか出現しないタグの組み合わせを終点タグとして自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。
【0054】
上述したように取得部501と、置換部503と、第1の抽出部504と、第2の抽出部505と、第1の検索部506と、第2の検索部507と、生成部515によりテンプレート100が自動で生成される。
【0055】
これにより、HTML文書内で出現頻度の低いまたは一度しか出現しないタグの組み合わせを始点タグおよび終点タグとして自動で抽出することができ、テンプレートの作成を容易化できる。さらに、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。
【0056】
つぎに、自動で作成されたテンプレート100に基づいて、HTML文書からテキスト情報を自動で抽出する例を示す。たとえば、テンプレートは、複数作成される。図9−1〜図9−3にて複数のテンプレートの例を示す。
【0057】
図9−1は、複数のテンプレートを示す説明図である。図9−1では、たとえば、ニュースサイト内の記事に対応した複数のテンプレートを示している。各種テンプレートは、社会検索用テンプレートと、スポーツ用テンプレートと、経済用テンプレートなどのニュースサイトに応じて複数のテンプレートを含んでいる。図9−2にて複数のHTML文書を示す。
【0058】
図9−2は、複数のHTML文書を示す説明図である。たとえば、ニュースサイトである「http://www.○○○.co.jp」は、複数のHTML文書により構成されている。たとえば、html文書A〜html文書Zまでが含まれている。たとえば、「shakai/」には、社会の記事が含まれている。そして、「sport/」には、スポーツの記事が含まれている。「keizai/」には、経済の記事が含まれている。図9−3にてURL(Uniform Resource Locator)に基づいてテンプレートが決定されている例を示す。
【0059】
図9−3は、URLに基づいてテンプレートが決定されている例を示す説明図である。テーブル900は、HTML文書名901と、テンプレート名902を示す説明図である。HTML文書名901には、html文書A〜html文書Zが記述されている。そして、各HTML文章に応じてテンプレート名902が記述されている。テンプレートは、たとえば、URL名により決定されている。たとえば、html文書Aは、URL内に「shakai/」を含んでいるため、社会検索用テンプレートに決定されている。
【0060】
本実施の形態では、上述したようにHTML文書103からテンプレート100を用いて必要な文字列を抽出する。たとえば、HTML文書103がhtml文書Aであるとする。具体的には、たとえば、CPU401が、記憶装置にアクセスしてテーブル900を読み出す。そして、HTML文書名901からhtml文書Aを検索する。つぎに、html文書Aが検索されると、html文書Aに対応したテンプレート名902を読み出す。したがって、社会検索用テンプレートを用いてhtml文書Aから文字列が抽出されることがわかる。つぎに、決定されたテンプレートに基づいてHTML文書からのテキスト情報の抽出について説明する。
【0061】
図5に戻って、また、取得部501は、タグで記述されている抽出対象文書を取得する。具体的には、たとえば、CPU401が、記憶装置にアクセスしてHTML文書103を取得する。
【0062】
つぎに、第1の検索部506は、取得部501により抽出された抽出対象文書内の複数のタグから、第1の抽出部504により抽出された始点タグを検索する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスして始点タグ101を読み出す。そして、HTML文書103から始点タグ101を検索する。なお、検索結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0063】
つぎに、第2の検索部507は、取得部501により抽出された抽出対象文書内の複数のタグから、第2の抽出部505により抽出された終点タグを検索する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスして終点タグ102を読み出す。そして、HTML文書103から終点タグ102を検索する。なお、検索結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0064】
なお、図1が、HTML文書103から第1の検索部506および第2の検索部507により始点タグ101および終点タグ102が検索された例を示している。
【0065】
図5に戻って、そして、文字列抽出部508は、第1の検索部506および第2の検索部507により始点タグおよび終点タグが検索された場合、始点タグより後に記述されている文字から終点タグより前に記述されている文字までの文字列を抽出する。具体的には、たとえば、CPU401が、記憶装置にアクセスして検索結果を読み出す。
【0066】
そして、たとえば、CPU401が、始点タグ101および終点タグ102を検索した場合、始点タグ101より後ろに記述されている文字から終点タグ102より前に記述されている文字までの文字列を抽出する。なお、抽出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。これにより、出現頻度の低いタグをテンプレートとして用いて抽出対象文書から必要な文字列を自動で抽出することができる。したがって、HTML文書から文字列を適切かつ容易に抽出することができる。
【0067】
つぎに、文字列抽出部508により文字列が抽出された場合、適切な文字列が抽出されているか否かが検査される例について説明する。算出部509と、文字数判断部510と、タグ検索部511と、異同判断部512により、適切な文字列が抽出されているか否かが検査される。
【0068】
まず、算出部509は、文字列抽出部508により抽出された文字列の文字数を算出する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスして抽出結果を読み出す。そして、抽出された文字列の文字数を算出する。なお、算出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。なお、HTML文書103から抽出された文字列の文字数は560文字である。
【0069】
つぎに、文字数判断部510は、算出部509により算出された文字数があらかじめ利用者により指定された文字数以上であるか否かを判断する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスして算出結果を読み出す。算出結果が、指定された文字数以上であるか否かを判断する。
【0070】
たとえば、あらかじめ利用者により指定された文字数が200文字とする。上述したようにHTML文書103から抽出された文字列の文字数は560文字である。したがって、抽出された文字列の文字数は指定された文字数以上であると判断される。
【0071】
生成部515は、文字数判断部510により抽出された文字列内の文字数が指定された文字数以上でないと判断された場合、抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、指定された文字数未満であると判断された場合、CPU401が、テンプレート100によりHTML文書103から文字列が抽出されないことを出力する。出力形式としては、たとえば、ディスプレイ408への表示、プリンタ413への印刷出力、I/F409による外部装置への送信がある。また、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶することとしてもよい。
【0072】
これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを抽出された文字列の文字数を算出することにより自動で判断することができ、抽出の容易化を図ることができる。なお、上述したようにHTML文書103から抽出された文字列の文字数は、指定された文字数以上であると判断されたため、本実施の形態では、出力例の説明を省略する。
【0073】
つぎに、抽出条件生成装置500では、文字列抽出部508によりHTML文書103から抽出された文字列内に含まれている各タグの出現回数が算出される。具体的には、たとえば、CPU401により、記憶装置にアクセスして抽出された文字列を読み出す。そして、抽出された文字列からすべてのタグを抽出する。つぎに、抽出されたタグを、タグの種類ごとに分類する。そして、タグの種類ごとに、抽出された文字列内のタグの数を算出する。なお、算出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図10−1に算出結果を示す。
【0074】
図10−1は、HTML文書103から抽出された文字列内のタグの出現回数を示す説明図である。テーブル1000は、タグ/コメントタグ1001と、回数1002とを含む構成である。たとえば、CPU401が、テーブル1000を読み出すことによりHTML文書103から抽出された文字列内に「<p>」が3回出現していることが分かる。
【0075】
図5に戻って、つぎに、タグ検索部511は、文字列抽出部508により抽出された文字列から、出現不可に指定されている種類のタグを検索する機能を有する。出現不可に指定されている種類のタグとは、適切な文字列が抽出された場合に当該文字列内に含まれている可能性のないタグである。たとえば、出現不可に指定されている種類のタグとは、出現不可のタグリスト300内のタグである。
【0076】
具体的には、たとえば、CPU401が、記憶装置にアクセスして文字列が抽出された抽出結果と出現不可のタグリスト300を読み出す。つぎに、抽出結果から読み出された出現不可のタグリスト300内のタグを順次検索する。なお、検索結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0077】
また、具体的には、たとえば、CPU401が、記憶装置にアクセスしてテーブル1000と出現不可のタグリスト300を読み出す。つぎに、テーブル1000内のタグ/コメントタグ1001内から出現不可のタグリスト300内のタグを順次検索する。なお、検索結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0078】
テーブル1000内のタグ/コメントタグ1001には、「<p>」と「</p>」のみが記述されている。したがって、タグ/コメントタグ1001から出現不可のタグリスト300内のタグは検索されない。HTML文書103から抽出された文字列内には、出現不可に指定されている種類のタグが含まれていない。
【0079】
生成部515は、タグ検索部511により出現不可に指定されている種類のタグが検索された場合、抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスして検索結果を読み出し、出現不可に指定されている種類のタグが検索されたか否かを判断する。
【0080】
そして、たとえば、CPU401が、出現不可に指定されている種類のタグが検索されたと判断された場合、テンプレート100によりHTML文書103から文字列が抽出されないことを出力する。出力形式としては、たとえば、ディスプレイ408への表示、プリンタ413への印刷出力、I/F409による外部装置への送信がある。
【0081】
また、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶することとしてもよい。これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、出現不可に指定されている種類のタグが含まれているか否かに基づいて自動で判断でき、抽出の容易化を図ることができる。
【0082】
なお、上述したようにHTML文書103から抽出された文字列内には、出現不可に指定されている種類のタグが含まれていないため、本実施の形態では、出力例の説明を省略する。
【0083】
つぎに、比較部513は、HTML文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数と文字列抽出部508により抽出された文字列内に含まれているタグの種類数を比較する機能を有する。
【0084】
たとえば、HTML文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数が、過去にテンプレート100を用いて抽出された文字列内のタグの種類数であってもよい。本実施の形態では、HTML文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数を、上述したテーブル703内のタグ704に記述されているタグの種類数とする。なお、ここでは、HTML文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数をQとする。
【0085】
具体的には、たとえば、CPU401が、記憶装置にアクセスしてテーブル703とテーブル1000を読み出す。そして、テーブル703内のタグ704のタグ数とテーブル1000内のタグ/コメントタグ1001のタグ数とを比較する。たとえば、タグ704には「<p>」と「</p>」が記述されているため、タグ704に記述されているタグの種類数は、2種類である。
【0086】
そして、タグ/コメントタグ1001には「<p>」と「</p>」が記述されているため、タグ/コメントタグ1001に記述されているタグの種類数は、2種類である。なお、ここでは、抽出された文字列内に含まれているタグの種類数をRとする。そして、たとえば、CPU401が、下記式(1)によりSを算出する。
【0087】
S=|Q/R−1|
・・・(1)
【0088】
そして、たとえば、CPU401が、算出結果(S)と利用者により指定されている閾値とを比較する。なお、比較結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0089】
つぎに、生成部515は、比較部513により比較された比較結果に基づいて、抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスして比較結果を読み出す。そして、比較結果が、算出結果(S)があらかじめ指定されている閾値未満である場合、テンプレート100によりHTML文書103から文字列が抽出されないことを出力する。出力形式としては、たとえば、ディスプレイ408への表示、プリンタ413への印刷出力、I/F409による外部装置への送信がある。
【0090】
また、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶することとしてもよい。これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、文字列内に含まれているタグの種類数に基づいて自動で判断でき、抽出の容易化を図ることができる。
【0091】
なお、上述したようにHTML文書の種類に応じて用意されている始点から終点までに含まれるタグの種類数と過去にテンプレート100を用いて抽出された文字列内のタグの種類数は同じであるため、本実施の形態では、出力例の説明を省略する。
【0092】
つぎに、比較部513は、文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数と始点から終点までの文字数との割合と、文字列抽出部508により抽出された文字列内に最も多く含まれているタグの種類の出現回数と算出部509により算出された文字数との割合を比較する機能を有する。なお、本実施の形態では、文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数と始点から終点までの文字数との割合をNとし、抽出された文字列内に最も多く含まれているタグの種類の出現回数と文字数との割合をMとする。
【0093】
文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数は、過去にテンプレート100を用いて抽出された文字列内で最も多く含まれているタグの種類の出現回数であってもよい。本実施の形態では、文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数をテーブル703内の回数705で最も大きい値にする。
【0094】
具体的には、たとえば、CPU401が、記憶装置からテーブル703を読み出して回数705が最も大きい値である3回が読み出される。したがって、タグの種類の出現回数は、3回である。そして、本実施の形態では、文書の種類に応じて用意されている始点から終点までの文字数をHTML文書600内の文字数とする。具体的には、たとえば、CPU401が、Nを343/3とする。
【0095】
一方、文字列抽出部508により抽出された文字列内に最も多く含まれているタグの種類の出現回数は、テーブル1000内の回数1002で最も大きい値である。具体的には、たとえば、CPU401が、記憶装置からテーブル1000を読み出して回数1002が最も大きい値である3回が読み出される。つぎに、記憶装置から算出結果である560文字を読み出す。そして、Mを560/3とする。そして、具体的には、たとえば、CPU401が、下記式(2)を算出する。
【0096】
L=|N/M−1|
・・・(2)
【0097】
そして、たとえば、CPU401が、算出結果(L)と利用者により指定された閾値を比較する。なお、比較結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0098】
つぎに、生成部515は、比較部513により比較された比較結果に基づいて抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスして比較結果を読み出す。そして、比較結果が、算出結果(L)が指定されている閾値未満である場合、テンプレート100によりHTML文書103から文字列が抽出されないことを出力する。
【0099】
出力形式としては、たとえば、ディスプレイ408への表示、プリンタ413への印刷出力、I/F409による外部装置への送信がある。また、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶することとしてもよい。これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出された文字列内のタグの種類の出現回数と文字数の割合に基づいて自動で判断でき、抽出の容易化を図ることができる。なお、本実施の形態では、比較結果が指定されている閾値以上であるとして、出力例の説明を省略する。
【0100】
つぎに、抽出条件生成装置500では、抽出対象文書から所定の種類のタグが抽出される。具体的には、たとえば、CPU401が、記憶装置にアクセスしてHTML文書103を読み出す。そして、HTML文書103からすべてのコメントタグを抽出する。なお、抽出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図10−2に抽出結果を示す。
【0101】
図10−2は、HTML文書103内のコメントタグを示す説明図である。テーブル1003では、HTML文書103内のコメントタグを示している。テーブル1003は、出現順であるNo.1004と、コメントタグ1005とを含む構成である。HTML文書103内で3番目に出現するコメントタグは、「<!――//data_start//――>」である。
【0102】
図5に戻って、比較部513は、文書の種類に応じて用意されているコメントタグの種類数と抽出対象文書内のコメントタグの種類数とを比較する機能を有する。文書の種類に応じて用意されているコメントタグの種類数とは、テーブル700内のコメントタグ702の数である。そして、つぎに、抽出対象文書内のコメントタグの種類数とは、テーブル1003内のコメントタグ1005の数である。
【0103】
具体的には、たとえば、CPU401が、記憶装置にアクセスしてテーブル700内のコメントタグ702とテーブル1003内のコメントタグ1005を読み出す。そして、読み出されたコメントタグ702およびコメントタグ1005に記述されているコメントタグの数を、それぞれ算出する。たとえば、CPU401が、下記式(3)を算出する。
【0104】
T=|コメントタグ702内のコメントタグ数/コメントタグ1005内のコメントタグ数−1|
・・・(3)
【0105】
そして、たとえば、CPU401が、算出結果(T)と利用者により指定された閾値を比較する。なお、比較結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。
【0106】
つぎに、生成部515は、比較部513により比較された比較結果に基づいて抽出対象文書から文字列が抽出できないことを出力する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスして比較結果を読み出す。そして、比較結果が、算出結果(T)が指定されている閾値未満である場合、テンプレート100によりHTML文書103から文字列が抽出されないことを出力する。
【0107】
出力形式としては、たとえば、ディスプレイ408への表示、プリンタ413への印刷出力、I/F409による外部装置への送信がある。また、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶することとしてもよい。これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出対象文書内のコメントタグの種類に基づいて自動で判断でき、抽出の容易化を図ることができる。なお、本実施の形態では、比較結果が指定されている閾値以上であるとする。
【0108】
つぎに、異同判断部512は、文書の種類に応じて用意されているコメントタグと抽出対象文書内のコメントタグとの異同を判断する。文書の種類に応じて用意されているコメントタグとは、たとえば、上述したテーブル700内のコメントタグ702である。抽出対象文書内のコメントタグとは、上述したテーブル1003内のコメントタグ1005である。
【0109】
具体的には、たとえば、CPU401が、記憶装置にアクセスしてテーブル700とテーブル1003を読み出す。たとえば、1番目のコメントタグ702が、コメントタグ1005に含まれているか否かを順次判断する。つぎに、2番目のコメントタグ702が、コメントタグ1005に含まれているか否かを順次判断する。そして、6番目のコメントタグ702まで順次、コメントタグ1005に含まれているか否かを判断する。なお、判断結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。図11に判断結果を示す。
【0110】
図11は、判断結果を示す説明図である。判断結果1100は、テーブル700とテーブル1003との異同の判断結果である。X軸方向の1から6までがテーブル700内のNo.701に対応している。そして、Y軸方向の1から6までがテーブル1003内のNo.1004に対応している。そして、●印が、同一のコメントタグであることを示している。そして、下記式(4)によりHTML文書103内のコメントタグと文書の種類に応じて用意されているコメントタグとの異同の割合が算出される。
【0111】
SEQ=match/(文書の種類に応じて用意されているコメントタグの数−1)―1
・・・(4)
ただし、SEQは異同の割合であり、matchは判断結果1100の●印の数である。
【0112】
なお、算出結果は、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶される。そして、算出結果(SEQ)が利用者により指定されている閾値未満であるか否かを判断する。
【0113】
つぎに、生成部515は、異同判断部512により判断された異同の数に基づいて、抽出対象文書から文字列が抽出できないことを出力する機能を有する。本実施の形態では、異同の数を、異同の割合として説明する。具体的には、たとえば、CPU401が、記憶装置にアクセスして判断結果を読み出す。そして、判断結果が、算出結果(SEQ)が指定されている閾値未満である場合、テンプレート100によりHTML文書103から文字列が抽出されないことを出力する。
【0114】
出力形式としては、たとえば、ディスプレイ408への表示、プリンタ413への印刷出力、I/F409による外部装置への送信がある。また、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶することとしてもよい。
【0115】
これにより、出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、文字列内に含まれているコメントタグの種類に基づいて自動で判断でき、抽出の容易化を図ることができる。
【0116】
そして、つぎに、削除部514は、文字列抽出部508により抽出された文字列からタグを削除する機能を有する。具体的には、たとえば、CPU401が、記憶装置にアクセスして抽出結果を読み出す。そして、抽出結果からタグを検索する。そして、検索されたタグをすべて削除する。
【0117】
つぎに、生成部515は、削除部514によりすべての文字列が削除された文字列を出力する機能を有する。具体的には、たとえば、CPU401が、削除結果を出力する。出力形式としては、たとえば、ディスプレイ408への表示、プリンタ413への印刷出力、I/F409による外部装置への送信がある。また、RAM403、磁気ディスク405、光ディスク407などの記憶装置に記憶することとしてもよい。図12にて出力例を示す。
【0118】
図12は、HTML文書103から抽出された文字列の出力例を示す説明図である。抽出文字列1200は、HTML文書103から抽出された文字列である。文字列内に含まれていた「<p>」および「</p>」が削除されて出力されている。これにより、出現頻度の低いタグを用いて抽出対象文書から文字列のみを自動で抽出することができ、HTML文書から適切な文字列を抽出することを容易化できる。
【0119】
(抽出条件生成装置500の抽出条件生成処理手順)
実施の形態にかかる抽出条件生成装置500の抽出条件生成処理手順について説明する。図13および図14にて抽出条件生成装置500の抽出条件生成処理手順を示す。図13にて上述したHTML文書200からテンプレート100が自動で作成される処理手順を示す。つぎに、図14にて上述したテンプレート100を用いてHTML文書103から文字列が自動で抽出される処理手順を示す。なお、本実施の形態では、あらかじめ始点と終点とが指定されている文書が取得されることとする。
【0120】
図13は、本実施の形態にかかる抽出条件生成装置500の抽出条件生成処理手順を示すフローチャート(その1)である。まず、文書に応じてテンプレートが作成されたか否かを判断する(ステップS1301)。そして、文書に応じてテンプレートが作成されていないと判断された場合(ステップS1301:No)、取得部501により、始点と終点とが指定された文書を取得する(ステップS1302)。たとえば、HTML文書200が取得される。
【0121】
つぎに、置換部503により、タグの変数を置換し(ステップS1303)、コメントタグをすべて抽出し(ステップS1304)、抽出結果を出力する(ステップS1305)。なお、抽出結果が、テーブル700である。たとえば、HTML文書200からタグの変数が置換された置換結果が、HTML文書600である。そして、抽出結果が、テーブル700である。つぎに、始点から終点までの文字列内のタグの種類ごとに、タグの出現回数を算出し(ステップS1306)、算出結果を出力する(ステップS1307)。なお、算出結果が、テーブル703である。
【0122】
そして、第1の抽出部504と、第2の抽出部505と、第1の検索部506と、第2の検索部507により、始点タグおよび終点タグの抽出処理を実行し(ステップS1308)、生成部515により、始点タグおよび終点タグを抽出条件として出力し(ステップS1309)、ステップS1301へ戻る。なお、出力結果が、テンプレート100である。一方、文書に応じてテンプレートが作成されたと判断された場合(ステップS1301:Yes)、つぎの処理へ移行する。つぎの処理を図14にて示す(Aで示されている箇所)。
【0123】
図14は、本実施の形態にかかる抽出条件生成装置500の抽出条件生成処理手順を示すフローチャート(その2)である。まず、取得部501により、抽出対象文書を取得し(ステップS1401)、URLに基づいてテンプレートを決定する(ステップS1402)。たとえば、HTML文書103が取得され、HTML文書103のテンプレートとしてテンプレート100が決定される。
【0124】
つぎに、第1の検索部506により、抽出対象文書から始点タグを検索し、始点タグがあるか否かを判断する(ステップS1403)。始点タグがあると判断された場合(ステップS1403:Yes)、文字列抽出部508により、始点タグより後ろの文字列をすべて抽出する(ステップS1404)。つぎに、第2の検索部507により、抽出対象文書から終点タグを検索し終点タグがあるか否かを判断する(ステップS1405)。そして、終点タグがあると判断された場合(ステップS1405:Yes)、文字列抽出部508により、抽出された文字列から終点タグよりも前の文字列をすべて抽出する(ステップS1406)。
【0125】
つぎに、算出部509と、文字数判断部510と、タグ検索部511と、異同判断部512と、比較部513により、適合判断処理が実行される(ステップS1407)。そして、テンプレートが抽出対象文書に適合している場合、抽出された文字列内にタグが含まれているか否かを判断する(ステップS1408)。抽出された文字列内にタグが含まれていると判断された場合(ステップS1408:Yes)、削除部514により、タグをすべて削除し(ステップS1409)、タグを削除後の文字列を出力し(ステップS1410)、一連の処理を終了する。一方、タグが含まれていないと判断された場合(ステップS1408:No)、ステップS1410へ移行する。なお、文字列の出力結果が、抽出文字列1200である。
【0126】
一方、始点タグがないと判断された場合(ステップS1403:No)、または終点タグがないと判断された場合(ステップS1405:No)、テンプレートと一致しないことを出力し(ステップS1411)、一連の処理を終了する。
【0127】
つぎに、上述した始点タグおよび終点タグの抽出処理(ステップS1308)を説明する。図15は、始点タグおよび終点タグの抽出処理の抽出処理手順を示すフローチャートである。まず、第1の抽出部504により、始点よりも前で最も近いコメントタグを抽出し(ステップS1501)、第1の抽出部504により、始点よりも前で最も近いタグを抽出する(ステップS1502)。つぎに、抽出されたコメントタグとタグを始点タグに設定する(ステップS1503)。
【0128】
そして、第1の検索部506により、抽出対象文書内から始点タグを検索し、始点タグが文書内に複数あるか否かを判断する(ステップS1504)。始点タグが文書内に複数あると判断された場合(ステップS1504:Yes)、第1の抽出部504により、つぎに始点に近いタグを抽出する(ステップS1505)。そして、さらに始点タグに設定し(ステップS1506)、ステップS1504へ戻る。
【0129】
一方、始点タグが文書内に複数ないと判断された場合(ステップS1504:No)、第2の抽出部505により、終点よりも後ろで最も近いコメントタグを抽出する(ステップS1507)。つぎに、第2の抽出部505により、終点よりも後ろで最も近いタグを抽出し(ステップS1508)、抽出されたコメントタグとタグを終点タグに設定する(ステップS1509)。そして、第2の検索部507により、抽出対象文書内から終点タグを検索し、終点タグが文書内に複数あるか否かを判断する(ステップS1510)。
【0130】
まず、終点タグが文書内に複数あると判断された場合(ステップS1510:Yes)、第2の抽出部505により、つぎに終点に近いタグを抽出し(ステップS1511)、さらに終点タグに設定し(ステップS1512)、ステップS1510へ戻る。一方、終点タグが文書内に複数ないと判断された場合(ステップS1510:No)、ステップS1309へ移行する。
【0131】
つぎに、上述した適合判断処理(ステップS1407)を説明する。図16は、適合判断処理の適合判断処理手順を示すフローチャートである。まず、算出部509により、抽出された文字列内の文字数を算出し(ステップS1601)、文字数判断部510により、指定された文字数以上であるか否かを判断する(ステップS1602)。指定された文字数以上であると判断された場合(ステップS1602:Yes)、タグ検索部511により、出現不可のタグを抽出された文字列内から検索し、抽出された文字列内に出現不可のタグはないかあるかを判断する(ステップS1603)。なお、出現不可のタグとは、上述した出現不可のタグリスト300内のタグである。
【0132】
そして、抽出された文字列内に出現不可のタグはないと判断された場合(ステップS1603:Yes)、抽出された文字列内のタグの種類を判別し(ステップS1604)、タグの種類ごとに、抽出された文字列内の出現回数を算出する(ステップS1605)。
【0133】
つぎに、比較部513により、指定された閾値<=|過去の平均タグ種類数/タグの種類数−1|であるか否かを判断する(ステップS1606)。指定された閾値<=|過去の平均タグ種類数/タグの種類数−1|であると判断された場合(ステップS1606:Yes)、M=文字数/最多出現回数とする(ステップS1607)。N=過去の平均文字数/過去の平均最多出現回数とし(ステップS1608)、比較部513により、指定された閾値<=|N/M−1|であるか否かを判断する(ステップS1609)。
【0134】
指定された閾値<=|N/M−1|であると判断された場合(ステップS1609:Yes)、抽出対象文書内のコメントタグの種類を判別する(ステップS1610)。そして、比較部513により、指定された閾値<=|過去のコメントタグの種類数/コメントタグの種類数−1|であるか否かを判断する(ステップS1611)。指定された閾値<=|過去のコメントタグの種類数/コメントタグの種類数−1|であると判断された場合(ステップS1611:Yes)、異同判断部512により、コメントタグの判断処理を実行し(ステップS1612)、ステップS1408へ移行する。
【0135】
指定された文字数以上でないと判断された場合(ステップS1602:No)、生成部515により、テンプレートが適さないことを出力し(ステップS1613)、一連の処理を終了する。そして、抽出された文字列内に出現不可のタグはあると判断された場合(ステップS1603:No)、または、指定された閾値<=|過去の平均タグ種類数/タグの種類数−1|でないと判断された場合(ステップS1606:No)、ステップS1613へ移行する。さらに、指定された閾値<=|N/M−1|でないと判断された場合(ステップS1609:No)、または、指定された閾値<=|過去のタグの種類数/タグの種類数−1|でないと判断された場合(ステップS1611:No)、ステップS1613へ移行する。
【0136】
つぎに、上述したコメントタグの判断処理(ステップS1612)について説明する。図17は、コメントタグの判断処理の判断処理手順を示す説明図である。まず、i=1、match=0とし(ステップS1701)、i<=テンプレート用文書内のコメントタグ数であるか否かを判断する(ステップS1702)。テンプレート用文書とは、テンプレート作成時に使用されたHTML文書である。本実施の形態では、HTML文書200である。
【0137】
i<=テンプレート用文書内のコメントタグ数であると判断された場合(ステップS1702:Yes)、j=1とし(ステップS1703)、j<=抽出対象文書内のコメントタグ数であるか否かを判断する(ステップS1704)。j<=抽出対象文書内のコメントタグ数であると判断された場合(ステップS1704:Yes)、抽出対象文書内のj番目のコメントタグとテンプレート用文書内のi番目のコメントタグが同一か否かを判断する(ステップS1705)。
【0138】
抽出対象文書内のj番目のコメントタグとテンプレート用文書内のi番目のコメントタグが同一であると判断された場合(ステップS1705:Yes)、match=match+1とする(ステップS1706)。つづいて、j=j+1とし(ステップS1707)、ステップS1704へ戻る。
【0139】
一方、抽出対象文書内のj番目のコメントタグとテンプレート用文書内のi番目のコメントタグが同一でないと判断された場合(ステップS1705:No)、ステップS1707へ移行する。そして、一方、j<=抽出対象文書内のコメントタグ数でないと判断された場合(ステップS1704:No)、i=i+1とし(ステップS1708)、ステップS1702へ戻る。
【0140】
一方、i<=テンプレート用文書内のコメントタグ数でないと判断された場合(ステップS1702:No)、SEQ=match/(テンプレート用文書内のコメントタグ数−1)−1(ステップS1709)、指定された閾値<=SEQであるか否かを判断する(ステップS1710)。指定された閾値<=SEQであると判断された場合(ステップS1710:Yes)、ステップS1408へ移行する。一方、指定された閾値<=SEQでないと判断された場合(ステップS1710:No)、ステップS1613へ移行する。
【0141】
以上説明したように、抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法によれば、利用者により始点と終点が指定されたHTML文書から、始点より前で始点に最も近いコメントタグを始点タグとし、終点より後ろで終点に最も近いコメントタグを終点タグとして自動で抽出する。これにより、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。
【0142】
また、出現頻度の低いタグとさらにその他のタグとを始点タグとすることで、HTML文書内でさらに出現頻度の低い終点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。
【0143】
また、抽出された始点タグおよび終点タグが、HTML文書内に複数あると判断された場合、さらに始点および終点にそれぞれ最も近いタグとすでに抽出された始点タグおよび終点タグとをあらたに始点タグおよび終点タグとして抽出する。これにより、HTML文書内で一度しか出現しない始点タグを自動で抽出することができる。したがって、テンプレートの作成を容易化できる。さらに、利用者が、HTML文書内で出現頻度の低いコメントタグを用いてHTML文書から必要な文字列を適切かつ容易に抽出することができる。
【0144】
また、抽出された出現頻度の低いタグをテンプレートとして用いて抽出対象文書から必要な文字列を適切かつ容易に抽出することができる。
【0145】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出された文字列の文字数を算出することにより自動で判断することで、文字列の抽出の容易化を図ることができる。
【0146】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、出現不可に指定されている種類のタグが含まれているか否かに基づいて自動で判断することで、抽出の容易化を図ることができる。
【0147】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、文字列内に含まれているタグの種類数に基づいて自動で判断することで、抽出の容易化を図ることができる。
【0148】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出された文字列内のタグの種類の出現回数と文字数の割合に基づいて自動で判断することで、抽出の容易化を図ることができる。
【0149】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出対象文書内に含まれているタグの種類数に基づいて自動で判断することで、抽出の容易化を図ることができる。
【0150】
また、抽出された出現頻度の低いタグを用いて抽出対象文書から適切な文字列が抽出されているか否かを、抽出対象文書内のコメントタグの種類に基づいて自動で判断することで、抽出の容易化を図ることができる。
【0151】
なお、本実施の形態で説明した抽出条件生成方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本抽出条件生成プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本抽出条件生成プログラムは、インターネット等のネットワークを介して配布してもよい。
【0152】
また、本実施の形態で説明した抽出条件生成装置500は、スタンダードセルやストラクチャードASIC(Application Specific Integrated Circuit)などの特定用途向けIC(以下、単に「ASIC」と称す。)やFPGAなどのPLD(Programmable Logic Device)によっても実現することができる。具体的には、たとえば、上述した抽出条件生成装置500の機能(取得部501〜生成部515)をHDL記述によって機能定義し、そのHDL記述を論理合成してASICやPLDに与えることにより、抽出条件生成装置500を製造することができる。
【0153】
上述した実施の形態に関し、さらに以下の付記を開示する。
【0154】
(付記1)コンピュータを、
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成するシステムとして機能させる抽出条件生成プログラムであって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付手段、
前記一の文書内の複数のタグから、前記受付手段により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第1の抽出手段、
前記一の文書内の複数のタグから、前記受付手段により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第2の抽出手段、
前記第1および2の抽出手段により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成手段、
として機能させることを特徴とする抽出条件生成プログラム。
【0155】
(付記2)前記第1の抽出手段は、
前記一の文書内の複数のタグから、前記始点タグを除いて前記始点よりも前で、最も近くに記述されているタグと前記始点タグとをあらたに始点タグとして抽出し、
前記第2の抽出手段は、
前記一の文書内の複数のタグから、前記終点タグを除いて前記終点よりも後ろで、最も近くに記述されているタグと前記終点タグとをあらたに終点タグとして抽出し、
前記生成手段は、
前記第1および2の抽出手段により抽出された始点タグと終点タグを前記抽出条件として生成することを特徴とする付記1に記載の抽出条件生成プログラム。
【0156】
(付記3)前記コンピュータを、
前記第1の抽出手段により抽出された始点タグを、前記一の文書内から検索する第1の検索手段、
前記第2の抽出手段により抽出された終点タグを、前記一の文書内から検索する第2の検索手段、として機能させ、
前記第1の検索手段により前記始点タグが複数検索された場合、前記一の文書内の複数のタグから、前記始点タグを除いて前記始点よりも前で、最も近くに記述されているタグと前記始点タグとをあらたに始点タグとして抽出し、
前記第2の検索手段により前記終点タグが複数検索された場合、前記一の文書内の複数のタグから、前記終点タグを除いて前記終点タグよりも前で、最も近くに記述されているタグと前記終点タグとをあらたに終点タグとして抽出し、
前記生成手段は、
前記第1および2の抽出手段により抽出された始点タグと終点タグを前記抽出条件として生成することを特徴とする付記1または2のいずれか1つに記載の抽出条件生成プログラム。
【0157】
(付記4)前記コンピュータを、
前記コンピュータを、
タグにより記述されている抽出対象文書を取得する取得手段、
前記始点タグより後に記述されている文字から前記終点タグより前に記述されている文字までの文字列を抽出する文字列抽出手段、
前記文字列抽出手段により抽出された文字列からすべてのタグを削除する削除手段、として機能させ、
前記第1の検索手段は、
前記取得手段により取得された抽出対象文書内の複数のタグから、前記第1の抽出手段により抽出された始点タグを検索し、
前記第2の検索手段は、
前記取得手段により取得された抽出対象文書内の複数のタグから、前記第2の抽出手段により抽出された終点タグを検索し、
前記文字列抽出手段は、
前記第1および2の検索手段により前記始点タグおよび前記終点タグが検索された場合、前記抽出対象文書の中から前記始点タグより後に記述されている文字から前記終点タグより前に記述されている文字までの文字列を抽出し、
前記生成手段は、
前記削除手段により前記すべてのタグが削除された文字列を出力することを特徴とする付記1〜3のいずれか1つに記載の抽出条件生成プログラム。
【0158】
(付記5)前記コンピュータを、
前記文字列抽出手段により抽出された文字列の文字数を算出する算出手段、
前記算出手段により算出された文字数が、指定された文字数以上であるか否かを判断する文字数判断手段、として機能させ、
前記生成手段は、
前記文字数判断手段により指定された文字数以上でないと判断された場合、前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記1〜4のいずれか1つに記載の抽出条件生成プログラム。
【0159】
(付記6)前記コンピュータを、
前記文字列抽出手段により抽出された文字列から、出現不可に指定されている種類のタグを検索するタグ検索手段、として機能させ、
前記生成手段は、
前記タグ検索手段により前記指定されている種類のタグが検索された場合、前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記1〜5のいずれか1つに記載の抽出条件生成プログラム。
【0160】
(付記7)前記コンピュータを、
文書の種類に応じて用意されている前記始点から前記終点までに含まれるタグの種類数と前記文字列抽出手段により抽出された文字列内に含まれているタグの種類数とを比較する比較手段、として機能させ、
前記生成手段は、
前記比較手段により比較された比較結果に基づいて前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記1〜6のいずれか1つに記載の抽出条件生成プログラム。
【0161】
(付記8)前記比較手段は、
文書の種類に応じて用意されている始点から終点に最も多く含まれるタグの種類の出現回数と始点から終点までの文字数との割合と、前記文字列抽出手段により抽出された文字列内に最も多く含まれているタグの種類の出現回数と前記算出手段により算出された文字数との割合を比較し、
前記生成手段は、
前記比較手段により比較された比較結果に基づいて前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記1〜7のいずれか1つに記載の抽出条件生成プログラム。
【0162】
(付記9)前記比較手段は、
文書の種類に応じて用意されているコメントタグの種類数と前記抽出対象文書内のコメントタグの種類数とを比較し、
前記生成手段は、
前記比較手段により比較された比較結果に基づいて前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記1〜8のいずれか1つに記載の抽出条件生成プログラム。
【0163】
(付記10)前記コンピュータを、
文書の種類に応じて用意されているコメントタグと前記抽出対象文書内のコメントタグとの異同を判断する異同判断手段、として機能させ、
前記生成手段は、
前記異同判断手段により判断された異同の数に基づいて、前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする付記1〜9のいずれか1つに記載の抽出条件生成プログラム。
【0164】
(付記11)複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成する抽出条件生成装置であって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付手段と、
前記一の文書内の複数のタグから、前記受付手段により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第1の抽出手段と、
前記一の文書内の複数のタグから、前記受付手段により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第2の抽出手段と、
前記第1および2の抽出手段により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成手段と、
を備えることを特徴とする抽出条件生成装置。
【0165】
(付記12)コンピュータが、
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成する機能を実行する抽出条件生成方法であって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付工程、
前記一の文書内の複数のタグから、前記受付工程により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第1の抽出工程、
前記一の文書内の複数のタグから、前記受付工程により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第2の抽出工程、
前記第1および2の抽出工程により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成工程、
を実行することを特徴とする抽出条件生成方法。
【符号の説明】
【0166】
103,200 HTML文書
501 取得部
502 受付部
504 第1の抽出部
505 第2の抽出部
506 第1の検索部
507 第2の検索部
508 文字列抽出部
509 算出部
510 文字数判断部
511 タグ検索部
514 削除部
515 生成部
702,1005 コメントタグ
101,801 始点タグ
102,805,807 終点タグ

【特許請求の範囲】
【請求項1】
コンピュータを、
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成するシステムとして機能させる抽出条件生成プログラムであって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付手段、
前記一の文書内の複数のタグから、前記受付手段により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第1の抽出手段、
前記一の文書内の複数のタグから、前記受付手段により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第2の抽出手段、
前記第1および2の抽出手段により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成手段、
として機能させることを特徴とする抽出条件生成プログラム。
【請求項2】
前記第1の抽出手段は、
前記一の文書内の複数のタグから、前記始点タグを除いて前記始点よりも前で、最も近くに記述されているタグと前記始点タグとをあらたに始点タグとして抽出し、
前記第2の抽出手段は、
前記一の文書内の複数のタグから、前記終点タグを除いて前記終点よりも後ろで、最も近くに記述されているタグと前記終点タグとをあらたに終点タグとして抽出し、
前記生成手段は、
前記第1および2の抽出手段により抽出された始点タグと終点タグを前記抽出条件として生成することを特徴とする請求項1に記載の抽出条件生成プログラム。
【請求項3】
前記コンピュータを、
前記第1の抽出手段により抽出された始点タグを、前記一の文書内から検索する第1の検索手段、
前記第2の抽出手段により抽出された終点タグを、前記一の文書内から検索する第2の検索手段、として機能させ、
前記第1の検索手段により前記始点タグが複数検索された場合、前記一の文書内の複数のタグから、前記始点タグを除いて前記始点よりも前で、最も近くに記述されているタグと前記始点タグとをあらたに始点タグとして抽出し、
前記第2の検索手段により前記終点タグが複数検索された場合、前記一の文書内の複数のタグから、前記終点タグを除いて前記終点タグよりも前で、最も近くに記述されているタグと前記終点タグとをあらたに終点タグとして抽出し、
前記生成手段は、
前記第1および2の抽出手段により抽出された始点タグと終点タグを前記抽出条件として生成することを特徴とする請求項1または2のいずれか1つに記載の抽出条件生成プログラム。
【請求項4】
前記コンピュータを、
タグにより記述されている抽出対象文書を取得する取得手段、
前記始点タグより後に記述されている文字から前記終点タグより前に記述されている文字までの文字列を抽出する文字列抽出手段、
前記文字列抽出手段により抽出された文字列からすべてのタグを削除する削除手段、として機能させ、
前記第1の検索手段は、
前記取得手段により取得された抽出対象文書内の複数のタグから、前記第1の抽出手段により抽出された始点タグを検索し、
前記第2の検索手段は、
前記取得手段により取得された抽出対象文書内の複数のタグから、前記第2の抽出手段により抽出された終点タグを検索し、
前記文字列抽出手段は、
前記第1および2の検索手段により前記始点タグおよび前記終点タグが検索された場合、前記抽出対象文書の中から前記始点タグより後に記述されている文字から前記終点タグより前に記述されている文字までの文字列を抽出し、
前記生成手段は、
前記削除手段により前記すべてのタグが削除された文字列を出力することを特徴とする請求項1〜3のいずれか1つに記載の抽出条件生成プログラム。
【請求項5】
前記コンピュータを、
前記文字列抽出手段により抽出された文字列の文字数を算出する算出手段、
前記算出手段により算出された文字数が、指定された文字数以上であるか否かを判断する文字数判断手段、として機能させ、
前記生成手段は、
前記文字数判断手段により指定された文字数以上でないと判断された場合、前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする請求項1〜4のいずれか1つに記載の抽出条件生成プログラム。
【請求項6】
前記コンピュータを、
前記文字列抽出手段により抽出された文字列から、出現不可に指定されている種類のタグを検索するタグ検索手段、として機能させ、
前記生成手段は、
前記タグ検索手段により前記指定されている種類のタグが検索された場合、前記始点タグおよび前記終点タグにより前記抽出対象文書から文字列が抽出できないことを出力することを特徴とする請求項1〜5のいずれか1つに記載の抽出条件生成プログラム。
【請求項7】
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成する抽出条件生成装置であって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付手段と、
前記一の文書内の複数のタグから、前記受付手段により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第1の抽出手段と、
前記一の文書内の複数のタグから、前記受付手段により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第2の抽出手段と、
前記第1および2の抽出手段により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成手段と、
を備えることを特徴とする抽出条件生成装置。
【請求項8】
コンピュータが、
複数の文書の各々から利用者が必要とするテキスト情報を抽出するための抽出条件を生成する機能を実行する抽出条件生成方法であって、
タグを用いて記述された一の文書における、抽出対象とする文字列の始点と終点の指定を受け付ける受付工程、
前記一の文書内の複数のタグから、前記受付工程により受け付けた始点よりも前で、前記始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する第1の抽出工程、
前記一の文書内の複数のタグから、前記受付工程により受け付けた終点よりも後ろで、前記終点から最も近くに記述されている前記所定の種類のタグを終点タグとして抽出する第2の抽出工程、
前記第1および2の抽出工程により抽出された始点タグと終点タグとの組合せを前記抽出条件として生成する生成工程、
を実行することを特徴とする抽出条件生成方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7−1】
image rotate

【図7−2】
image rotate

【図8−1】
image rotate

【図8−2】
image rotate

【図8−3】
image rotate

【図8−4】
image rotate

【図8−5】
image rotate

【図9−1】
image rotate

【図9−2】
image rotate

【図9−3】
image rotate

【図10−1】
image rotate

【図10−2】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2010−238125(P2010−238125A)
【公開日】平成22年10月21日(2010.10.21)
【国際特許分類】
【出願番号】特願2009−87638(P2009−87638)
【出願日】平成21年3月31日(2009.3.31)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】