説明

抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム

【課題】ユーザが欲する情報を抽出するための規則を効率よく作成する抽出規則作成システムを提供する。
【解決手段】抽出規則作成手段82は、タグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則を作成する。適合文位置情報抽出手段83は、タグ付きテキスト記憶手段81に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する。評価値算出手段84は、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書から情報を抽出するための抽出規則を作成する抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラムに関する。
【背景技術】
【0002】
ある文書の中から必要な情報を抽出する場合、ユーザが、何らかの規則(パターン)に合致する情報を抽出したいと考える場合がある。抽出したい情報のパターンが分かれば、そのパターンを用いて他の文書からも情報を抽出することが可能になる。
【0003】
例えば、ユーザが、文書内から人名を抽出する場合について考える。仮に、ユーザが、
人名の中から容疑者名を集めたいと考えている場合、ユーザが抽出したい情報のパターンは「「人名」+容疑者」であると推測できる。また、ユーザが、姓が「ab(abは、姓を表す漢字2文字)」である人名を集めたいと考えている場合、ユーザが抽出したい情報のパターンは「ab+「名詞」」であると推測できる。このように、ユーザが抽出した情報のパターンが分かれば、そのパターンに合致する情報を他の文書からも抽出できるようになる。
【0004】
特許文献1には、訓練用コーパスから情報抽出規則を簡易に生成する情報抽出規則生成装置が記載されている。特許文献1に記載された情報抽出規則生成装置は、木構造表示部が表示部に構文木を表示させる。作業者は、表示部に表示された構文木を参照しながら、マウス操作やキーボード操作に基づいてアノテーションを入力する。木構造正規表現抽出部は、木構造及びアノテーションをもとに、対応する規則を表示する木構造表現を抽出する。
【0005】
また、非特許文献1には、ルールの自動生成と対話的選択に基づく情報抽出ルール作成支援方法が記載されている。非特許文献1に記載された方法では、1つの事例から予め複数の抽出規則を自動作成し、各抽出規則に基づいて抽出処理を実行する。そして、抽出結果をユーザに提示した後、ユーザはその抽出結果に対する正否を対話的に入力することで、適切な抽出規則を絞り込む。これにより、ユーザは抽出結果の正否を入力するのみで、適切な抽出規則を作成することができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2004−318809号(段落0028〜0032)
【非特許文献】
【0007】
【非特許文献1】河合剛巨、安藤真一、「ルールの自動生成と対話的選択に基づく情報抽出ルール作成支援の提案」、言語処理学会第13回年次大会論文集、言語処理学会、D3−1、2007年3月
【発明の概要】
【発明が解決しようとする課題】
【0008】
ユーザが文書内から人名を抽出する場合、ユーザは、人名に関連する何らかのパターンに合致する情報を欲していると考えられる。しかし、上述の例のように、ユーザが文書内から人名を抽出する場合、ユーザが抽出したい情報を表すパターンは複数推測できる。例えば、ユーザが人名の中から容疑者名を集めたい場合、ユーザが抽出したい情報のパターンは、「「人名」+容疑者」になる。また、ユーザが、姓が「ab(abは、姓を表す漢字2文字)」である人名を集めたいと考えている場合には、ユーザが抽出したい情報のパターンは、「ab+「名詞」」になる。このように、「文書内から人名を抽出する」という情報だけでは、ユーザが欲する情報を抽出するためのパターンは複数推測されるため、情報を抽出するためのパターンを効率よく作成することは困難である場合が多い。
【0009】
特許文献1に記載された情報抽出規則生成装置では、ユーザが、表示部に表示された構文木をもとに複雑な抽出規則を記述しなければならない。そのため、特許文献1に記載された装置を使って抽出規則を作成するためには、多くの時間を要してしまうという課題がある。また、特許文献1に記載された装置では、入力方法が複雑なため、ユーザが操作方法を理解しなければならないという課題がある。
【0010】
また、非特許文献1に記載された方法では、適切な抽出規則を作成するために、ユーザは抽出結果に対する正否を入力するのみでよい。しかし、適切な抽出結果が得られるまで、ユーザは繰り返し抽出結果の正否を入力する必要がある。そのため、抽出規則を生成するためには、依然としてユーザの手間が大きいという問題がある。
【0011】
そこで、本発明は、ユーザが欲する情報を抽出するための規則を効率よく作成することができる抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明による抽出規則作成システムは、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段と、タグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成手段と、タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出手段と、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出手段とを備え、評価値算出手段が、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出することを特徴とする。
【0013】
本発明による抽出規則作成方法は、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成ステップと、タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出ステップと、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出ステップとを含み、評価値算出ステップで、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出することを特徴とする。
【0014】
本発明による抽出規則作成プログラムは、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段を備えたコンピュータに適用される抽出規則作成プログラムであって、コンピュータに、タグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成処理、タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出処理、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出処理を実行させ、評価値算出処理で、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出させることを特徴とする。
【発明の効果】
【0015】
本発明によれば、ユーザが欲する情報を抽出するための規則を効率よく作成することができる。
【図面の簡単な説明】
【0016】
【図1】タグ付きテキストの例を示す説明図である。
【図2】抽出規則を表現した構文の例を示す説明図である。
【図3】本発明による抽出規則作成システムの一実施形態を示すブロック図である。
【図4】対象文書記憶部11内のデータ形式の例を示す説明図である。
【図5】パターン合成部12によって作成されたパターンの例を示す説明図である。
【図6】パターン評価部13が算出した評価値の例を示す説明図である。
【図7】合成ステップの例を示すフローチャートである。
【図8】パターンを選び出す方法の例を示す状態遷移図である。
【図9】ステップS10におけるアルゴリズムの例を示すフローチャートである。
【図10】ステップS40におけるアルゴリズムの例を示すフローチャートである。
【図11】評価ステップの例を示すフローチャートである。
【図12】検索処理の例を示すフローチャートである。
【図13】ステップS52における判定処理の例を示すフローチャートである。
【図14】ステップS10〜S30で作成したパターンの例を示す説明図である。
【図15】本発明の最小構成を示すブロック図である。
【発明を実施するための形態】
【0017】
以下、本発明の説明で使用する用語について定義する。タグ付きテキストとは、少なくとも、文字列の集合である本文と、文字列中の任意の位置に付加されたタグの集合を含む文書である。図1は、タグ付きテキストの例を示す説明図である。図1に例示するタグ付きテキストは、「奈良県警は14日、abcd容疑者(20)を強盗殺人の容疑で逮捕したと発表。」という本文(ただし、abは姓を表す漢字2文字、cdは名を表す漢字2文字)と、本文中の各文字列に対して付加されたタグの集合を含んでいることを示す。
【0018】
タグとは、単語の属性を表す文字列(以下、タグ名と記す。)と、タグを付加する文字列の本文中の位置(開始位置及び終了位置)を含む情報である。開始位置及び終了位置は、タグが付加された文字列の本文中の位置を、例えば、文頭を「0」とし、文字間を数えた数で表現する。図1に例示するタグ付きテキストでは、「abcd」に付加されたタグを、タグ名「人名」、開始位置「9」、終了位置「13」とするタグを用いて表現できる。また、以下の説明では、タグ名をTとするタグを「Tタグ」と記すこともある。
【0019】
指定抽出位置とは、ユーザ又は外部のプログラム等が抽出しようとする文字列を指定するタグ付きテキスト中の文字列の位置であり、開始位置及び終了位置によって表される情報である。例えば、図1に例示するタグ付きテキストに対し、ユーザが指定抽出位置として、開始位置9文字目、終了位置13文字目を指定した場合、そのユーザは、文字列「abcd」を抽出したいと考えていることが分かる。
【0020】
事例とは、一つのタグ付きテキストと、そのタグ付きテキストに対して指定する指定抽出位置の組を表す情報であり、ユーザ又は外部のプログラム等により作成される。
【0021】
抽出規則とは、タグ付きテキストから情報を抽出するための規則である。この抽出規則を適切に作成することにより、ユーザが欲する情報をタグ付きテキストから抽出できるようになる。抽出規則は、少なくとも、文字列、タグ名及びワイルドカードの組み合わせ(テンプレートと記すこともある。)で表現され、そのテンプレート中には、指定抽出位置を示す情報を含む。
【0022】
図2は、本発明における抽出規則を表現した構文の例を示す説明図である。図2に例示する構文では、抽出規則Rが、フレーズPHと抽出位置パターンEPとからなる列を一つ以上含む文字列で定義されていることを示す。フレーズPHとは、一つ以上の条件KEYからなる文字列である。また、条件KEYは、文字列そのもの、”[”と”]”で囲まれたタグ名、ワイルドカード(*)、又は空文字(φ)のいずれかにより表現される。なお、抽出規則を表現した構文のことを、抽出するパターン(もしくは、単にパターン)と記すこともある。
【0023】
抽出位置パターンEPは、指定抽出位置におけるタグ付きテキストの構成要素を組み合わせたパターンである。具体的には、抽出位置パターンEPは、一つ以上タグを含み、文字列とタグからなるパターンである。図2に例示する構文では、抽出位置パターンEPが、構成要素EPHの前後を記号「$」で囲んだ文字列として定義されていることを示す。構成要素EPHは、タグと条件EKEYとからなる列を一つ以上含む文字列、又は、構成要素EPH自身に、条件EKEYを結合した文字列である。また、条件EKEYは、文字列そのもの、又は、”[”と”]”で囲まれたタグ名、又は空文字(φ)のいずれかにより表現される。
【0024】
抽出規則Rの例として、「$[人名]$容疑者」という規則が挙げられる。この抽出規則は、人名タグと、「容疑者」という文字列が隣接している部分から、人名タグが付加されている部分の文字列を抽出する、という規則であることを示す。
【0025】
また、別の例として、「奈良*$ab[名詞]$」(ただし、abは、姓を表す漢字2文字)という規則が挙げられる。この抽出規則は、「奈良」という文字列の後ろに任意の文字列(*)が存在し、その後ろに「ab」という文字列が存在し、さらにその直後に名詞タグが隣接している文から、「ab」と名詞タグ部分の文字列とを合わせて抽出する、という規則であることを示す。
【0026】
なお、以下の説明では、タグ付きテキストの集合と一つ以上の事例とをもとに抽出規則を作成する問題を抽出規則作成問題と呼ぶことがある。
【0027】
以下、本発明の実施形態を図面を参照して説明する。
【0028】
図3は、本発明による抽出規則作成システムの一実施形態を示すブロック図である。本発明における抽出規則作成システムは、対象文書記憶部11と、パターン合成部12と、パターン評価部13と、文書検索部14とを備えている。
【0029】
対象文書記憶部11は、抽出対象のタグ付きテキストの集合を記憶する記憶装置である。対象文書記憶部11は、図1に例示したタグ付きテキストを任意の形式で保持する。図4は、対象文書記憶部11がタグ付きテキストを記憶する形式の例を示す説明図である。図4に示す例では、対象文書記憶部11が、本文テーブルとタグテーブルの二つのテーブルに分けて図1に例示したタグ付きテキストを記憶していることを示す。
【0030】
本文テーブルは、タグ付きテキストを文ごとに記憶するテーブルである。本文テーブルは、タグ付きテキストのユニークな識別子である文書IDと、文のユニークな識別子である文IDとを、本文の文字列と対応付けて記憶する。
【0031】
また、タグテーブルは、あるタグ付きテキストに付加されたすべてのタグを記憶するテーブルである。タグテーブルは、あるタグのタグ名と、本文の開始位置及び終了位置と、タグが付加された文書の文書IDと、タグが付加された文の文IDとを対応付けて記憶する。
【0032】
タグ付きテキストは、例えば、管理者によって予め対象文書記憶部11に登録されていてもよく、また、後述の文書検索部14によって対象文書記憶部11に登録されてもよい。
【0033】
パターン合成部12は、後述する方法により、一つ以上の事例(すなわち、タグ付きテキストと、そのタグ付きテキストに対して指定する指定抽出位置の組)が与えられたときに、指定抽出位置のタグ付きテキストの単語又はタグと、その単語又はタグの前後の単語又はタグとをもとに抽出規則の候補を合成(作成)する。図5は、パターン合成部12によって作成されたパターンの例を示す説明図である。例えば、図1に例示するタグ付きテキストと、そのタグ付きテキストの9文字目から13文字目を指定抽出位置とする事例が与えられると、パターン合成部12は、その事例及びその指定抽出位置付近の単語又はタグとをもとに、図5に例示するパターンを作成する。
【0034】
パターン評価部13は、パターン合成部12が作成したパターンが対象文書記憶部11に記憶されたタグ付きテキスト内に発生する位置、及びその発生頻度の分布を調べ、この分布をもとに評価値を算出する。すなわち、パターン評価部13は、対象文書記憶部11に記憶されたタグ付きテキストごとに、パターン合成部12が作成したパターンに適合する単語又はタグを含む文の位置を抽出し、その位置をもとに評価値を算出する。具体的には、パターン評価部13は、対象文書記憶部11に記憶されたタグ付きテキストごとに、パターン合成部12が作成した抽出規則(パターン)に適合する単語又はタグを含む文の位置を抽出する。以下、抽出規則に適合する単語又はタグを含む文を適合文と記す。そして、パターン評価部13は、1つのタグ付きテキスト内に現れる適合文がより少ないほどその抽出規則の評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほどその抽出規則の評価値を高く算出する。
【0035】
例えば、対象文書記憶部11内のタグ付きテキスト内にパターンpが登場した総数(すなわち、適合するパターンが含まれる数)をpf(p)、対象文書記憶部11内のタグ付きテキスト内にパターンpが登場した回数(すなわち、適合するパターンが含まれる文書の種類)をdf(p)とするとき、評価値ipfdf(p)は次の式1で算出できる。
【0036】
【数1】

【0037】
以下の説明では、パターン評価部13が式1を用いて評価値を算出する場合について説明する。なお、評価値の算出方法は、1つのタグ付きテキスト内に現れる適合文がより少ないほどその抽出規則の評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほどその抽出規則の評価値を高く算出するような他の式を用いて算出してもよい。
【0038】
図6は、パターン評価部13が算出した評価値の例を示す説明図である。パターン評価部13は、例えば、図5に例示するパターンごとに、対象文書記憶部11に記憶されたタグ付きテキスト内に発生する位置及びその発生頻度の分布を調べ、その分布をもとに評価値を算出する。
【0039】
文書検索部14は、ユーザもしくは外部のプログラム等が検索クエリとして抽出条件(抽出対象のキーワード)を指定すると、その条件に該当するタグ付きテキストを抽出する。文書検索部14は、例えば、指定した条件に該当するタグ付きテキストを抽出する文書検索システムなどにより実現される。抽出対象のタグ付きテキストは、文書検索部14内の記憶部(図示せず)に、例えば、図4に例示するフォーマットで予め記憶されている。文書検索部14は、その記憶部(図示せず)から条件を満たす文書ID及び文IDのリストを抽出し、各文書IDが示すタグ付きテキストを読み込み、そのタグ付きテキストを対象文書記憶部11に登録してもよい。なお、対象文書記憶部11にタグ付きテキストを登録するとは、対象文書記憶部11にタグ付きテキストを記憶させることを意味する。
【0040】
また、上記記憶部に記憶されたフォーマットが、図4に例示するフォーマットと異なる場合、文書検索部14は、抽出条件に該当するタグ付きテキストを、図4に例示するフォーマットに変換して、対象文書記憶部11に登録してもよい。
【0041】
上記内容により、文書検索部14は、キーワードで表現された検索クエリを元に、抽出対象のタグ付きテキストの集合を選択的に収集し、対象文書記憶部11内に挿入する処理を行うと言うことができる。
【0042】
このように、文書検索部14が、ユーザもしくは外部のプログラム等が指定した検索クエリをもとにタグ付きテキストを抽出し、抽出したタグ付きテキストを対象文書記憶部11に登録することにより、対象文書記憶部11内のタグ付きテキストの集合を変化させることができる。抽出対象のタグ付きテキストを変化させることにより、ユーザが欲するパターンの評価値をより高くできるため、効率よく抽出規則を取り出すことができる。
【0043】
パターン合成部12と、パターン評価部13と、文書検索部14とは、プログラム(抽出規則作成プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、パターン合成部12、パターン評価部13及び文書検索部14を含む装置が備える記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、パターン合成部12、パターン評価部13及び文書検索部14として動作してもよい。また、パターン合成部12と、パターン評価部13と、文書検索部14とは、それぞれが専用のハードウェアで実現されていてもよい。
【0044】
次に、動作について説明する。以下の説明では、まず、パターン合成部12が、入力された事例をもとにパターンを合成(作成)し、パターン評価部13が、パターン合成部12が作成した各パターンを評価する処理(以下、これらの処理をまとめて、事例入力プロセスと記すこともある。)について説明する。その後、文書検索部14が、内部の記憶部(図示せず)に記憶するタグ付きテキストの中から、キーワードを本文に含むタグ付きテキストの集合を作成する処理(以下、この処理を、検索プロセスと記すこともある。)について説明する。
【0045】
なお、以下の説明では、パターン合成部12が、入力された事例をもとにパターンを合成(作成)する処理を、合成ステップと記し、パターン評価部13が、パターン合成部12が作成した各パターンを評価する処理を、評価ステップと記す。
【0046】
初めに、事例入力プロセスについて説明する。事例入力プロセスは、ユーザもしくは外部のプログラムがパターン合成部12に事例を入力することにより処理を開始する。
【0047】
図7は、合成ステップの例を示すフローチャートである。パターン合成部12は、ある事例(すなわち、タグ付きテキストと指定抽出位置を含む情報)が入力されると、まず、タグ付きテキストから指定抽出位置の文字列とタグをすべて取り出し、タグを一つ以上含むすべての組み合わせを抽出してパターンを作成する(ステップS10)。
【0048】
図8は、パターン合成部12がパターンを選び出す方法の例を示す状態遷移図である。図8に示す例では、事例として、図1に例示するタグ付きテキストと、指定抽出位置「9文字目から13文字目」とが入力された場合について説明する。パターン合成部12は、図1に例示するタグ付きテキストから、図8に例示する状態遷移のすべてのパターンを調べ、「abcd」,「ab[名詞]」,「[名詞]cd」,「[名詞][名詞]」,「[人名]」という5つのパターンを取り出す。このうち、タグを一つ以上含む組合せとして、「ab[名詞]」,「[名詞]cd」,「[名詞][名詞]」,「[人名]」の4つのパターンを抽出する。
【0049】
タグを含まないパターンは、特定の文字列(たとえば、「abcd」という文字列)しか収集できず、抽出規則としては効果が小さい。そのため、タグを一つ以上含む組合せを抽出することにより、無駄なパターンを予め省き、以後の計算量を小さくすることができる。
【0050】
ステップS10における処理(アルゴリズム)について、図9を用いて説明する。図9は、ステップS10におけるアルゴリズムの例を示すフローチャートである。図9に例示するアルゴリズムは、メソッド(generate)を再帰的に呼び出すことによってパターンを作成する。ここで、generateメソッドは、generateメソッドが呼び出された時点で作成されているパターンnowと、その時点の位置posと、終了位置endという3つの引数を持つ。
【0051】
初めに、パターン合成部12は、generateメソッドの引数として、now=””(空)、pos=指定抽出位置の開始位置、end=指定抽出位置の終了位置、を受け取り、generateメソッドが示す処理を開始する。generateメソッドにおいて、パターン合成部12は、位置posが終了位置endより大きいかどうかを調べる(ステップS11)。位置posが終了位置endより大きい場合(ステップS11におけるYES)、パターン合成部12は、処理を終了する(ステップS12)。位置posが終了位置endより大きくなく(ステップS11におけるNO)、位置posが終了位置endと等しい場合(ステップS13におけるYES)、パターン合成部12は、状態遷移の終了位置に到達したと判定し、その時点のパターンnowを調べる。パターンnowにタグが一つでも含まれていれば、パターンnowの値をパターンとして抽出し、処理を終了する(ステップS14)。
【0052】
一方、位置posが終了位置endと等しくない場合(ステップS13におけるNO)、パターン合成部12は、位置posを開始位置とするタグTをすべて取り出し、それらのタグTを現在のパターンに追加する。また、パターン合成部12は、現在の位置posをタグTの終了位置に更新した情報でgenerateメソッドを呼び出す(ステップS15)。さらに、パターン合成部12は、現在の位置posの次の文字cを取り出す(ステップS16)。そして、パターン合成部12は、パターンnowにその文字cを追加し、現在の位置posに1を加算した情報でgenerateメソッドを呼び出す(ステップS17)。
【0053】
generateメソッドは、上記内容を実行するための処理である。すなわち、generateメソッドは、指定抽出位置を右に移動させながらパターンを作成する処理であると言える。
【0054】
次に、パターン合成部12は、指定抽出位置の右側R文字の文字列とタグとを組み合わせたパターン、及び、指定抽出位置の左側L文字の文字列とタグとを組み合わせたパターンを作成する(図7におけるステップS20)。RとLの値は、例えば、予めユーザや開発者によって指定される任意の整数である。
【0055】
指定抽出位置の右側R文字(左側L文字)の文字列とタグを組み合わせたパターンは、図9に例示するアルゴリズムと同様のアルゴリズムによって作成できるため、詳細な説明は省略する。すなわち、指定抽出位置の右側R文字のパターンを作成する場合、パターン合成部12は、generateメソッドの引数を、now=””(空)、pos=指定抽出位置の終了位置、end=指定抽出位置の終了位置+Rとして処理を行えばよい。また、指定抽出位置の左側L文字のパターンを作成する場合、パターン合成部12は、generateメソッドの引数を、now=””(空)、pos=指定抽出位置の開始位置−L、end=指定抽出位置の開始位置として処理を行えばよい。
【0056】
なお、指定抽出位置の右側R文字(左側L文字)には、タグが含まれていなくてもよいため、この場合、パターン合成部12は、ステップS14において、パターンnowにタグが含まれているか否か判断してなくてよい。
【0057】
次に、パターン合成部12は、名詞タグを元にパターンを作成する(図7におけるステップS30)。具体的には、パターン合成部12は、指定抽出位置、指定抽出位置の左側L文字、及び指定抽出位置の右側R文字以外に登場する名詞をすべて取り出す。そして、パターン合成部12は、これらの名詞のうち、指定抽出位置に対して左側にある名詞を左パターン語Plw、指定抽出位置に対して右側にある名詞を右パターン語Prwとして抽出する。
【0058】
なお、以下の説明では、パターン合成部12が名詞タグをもとにパターンを作成(すなわち、本文中から名詞を取り出す)場合について説明するが、パターン合成部12がパターンを作成する対象とするタグは、名詞タグに限られない。例えば、名詞以外の動詞、形容詞、形容動詞などの自立語であってもよい。このような語を利用してパターンを作成することにより、助詞のように一般的で無意味な語をパターンから排除することができる。
【0059】
パターン合成部12は、ステップS10において作成されたパターンの一覧(以下、リストAと記す。)と、ステップS20において作成された右パターンの一覧(以下、リストRPと記す。)及び左パターンの一覧(以下、リストLPと記す。)と、ステップS30において作成された左パターン語の一覧(以下、リストLWと記す。)及び右パターン語の一覧(以下、リストRWと記す。)とを合成して、抽出規則の候補を作成する(ステップS40)。
【0060】
ステップS40における処理(アルゴリズム)について、図10を用いて説明する。図10は、ステップS40におけるアルゴリズムの例を示すフローチャートである。図10に例示するアルゴリズムでは、まずパターン合成部12は、リストRP、リストLP、リストLW及びリストRWに対して、空文字””を追加する(ステップS41)。この空文字””は、そのリストに含まれるパターンを利用しないことを意味するものである。パターン合成部12は、各リスト(すなわち、リストA、リストRP、リストLP、リストLW及びリストRW)からそれぞれ一つのパターンを取り出し、取り出した各リストのパターンのすべての組合せに対して以下のステップS42〜S47に示す処理を行う。
【0061】
パターン合成部12は、リストAから取り出したパターンに指定抽出位置を示す記号である「$」を追加したパターンRを作成する(ステップS42)。次に、パターン合成部12は、リストRPから取り出したパターンPrを、パターンRの右側に追加する(ステップS43)。同様に、パターン合成部12は、リストLPから取り出したパターンPlを、パターンRの左側に追加する(ステップS44)。次に、パターン合成部12は、リストRWから取り出したパターンPrwの左側にワイルドカード「*」を付加したパターンを、パターンRの右側に追加する(ステップS45)。同様に、パターン合成部12は、リストLWから取り出したパターンPlwの右側にワイルドカード「*」を付加したパターンを、パターンRの左側に追加する(ステップS46)。最後に、パターン合成部12は、作成したパターンRをパターン評価部13に通知する(ステップS47)。このように、パターン合成部12は、与えられた事例をもとに作成したパターンをパターン評価部13に通知する。
【0062】
次に、評価ステップの動作について説明する。図11は、評価ステップの例を示すフローチャートである。パターン評価部13は、パターン合成部12から各パターンを受け取ると、パターンに適合する文を探し、適合する文の文書IDと文IDの組を抽出する(ステップS50)。そして、パターン評価部13は、抽出した文書ID及び文IDから、受け取ったパターンの評価値を算出する(ステップS60)。なお、以下の説明では、ステップS50における処理を検索処理、ステップS60における処理を、評価値算出処理と記す。
【0063】
検索処理について、図12を用いて説明する。図12は、検索処理の例を示すフローチャートである。パターン評価部13は、対象文書記憶部11に記憶された本文テーブル内の各レコードを順に読み込み、各レコードの文書ID及び文IDに対応するタグをタグテーブルから読み込む(ステップS51)。次にパターン評価部13は、各文及び各タグと入力されたパターンとを比較し(ステップS52)、両者の間にマッチングが成立(すなわち、パターンに適合する文、又はタグが存在)したときに、その文の文書IDと文IDとを抽出する(ステップS53)。
【0064】
なお、検索処理を行う方法は、上記方法に限定されない。パターン合成部12が作成したパターンに適合する文の位置を抽出できる方法であれば、他の方法であってもよい。
【0065】
ステップS52において、両者の間にマッチングが成立したか否か判定する処理について、図13を用いて説明する。図13は、ステップS52における判定処理の例を示すフローチャートである。パターン評価部13は、パターン合成部12から受け取ったパターンPと、ステップS51で読み込んだ文S及びその文Sに付加されたタグの集合TListをもとに、以下のステップS71〜S85の処理を行う。
【0066】
パターン評価部13は、予め定められた構文(”[”, ”]”,”*”,”$”の記号)に基づき、パターンPを、タグ名、文字列及びワイルドカードの各条件に区切り、区切った条件の一覧(以下、条件列リストListと記す。)を作成する(ステップS71)。例えば、「$[人名]$容疑者*逮捕」というパターンの場合、パターン評価部13は、「[人名]」、「容疑者」、「*」、「逮捕」という4つの条件に区切ることができる。パターン評価部13は、区切った条件を、パターンの先頭から順に条件列リストListに格納する。
【0067】
次に、パターン評価部13は、文中の位置を表す変数iを0に、ワイルドカードの有無を表す変数flagを1にそれぞれ初期化する(ステップS72)。そして、パターン評価部13は、条件列リスListから先頭の条件Cを取り出す(ステップS73)。取り出した条件Cがタグ名の場合(ステップS74におけるYES)、パターン評価部13は、変数flagが1であるか否か調べる(ステップS75)。変数flagが1の場合(ステップS75におけるYES)、この状態は、ワイルドカードが有効であるか、パターンの先頭であるかのいずれかであると言える。この場合、パターン評価部13は、タグの集合TListの中から、開始位置が変数iより大きく、条件Cで指定されたタグTが存在するか否か調べる(ステップS76)。条件Cで指定されたタグTがタグの集合TListに存在する場合(ステップS76におけるYES)、パターン評価部13は、タグTが条件Cに一致したと判断して、変数iにタグTの終了位置を代入する(ステップS78)。
【0068】
一方、ステップS76において、条件Cで指定されたタグTがタグの集合TListに存在しない場合(ステップS76におけるNO)、パターン評価部13は、パターンが不一致である旨の情報を出力し、処理を終了する。
【0069】
また、ステップS75において、変数flagが1でない場合(ステップS75におけるNO)、ワイルドカードは有効でないことが分かる。この場合、パターン評価部13は、タグの集合TListの中から、開始位置が変数iと等しく、条件Cで指定されたタグTが存在するか否か調べる(ステップS77)。条件Cで指定されたタグTがタグの集合TListに存在する場合(ステップS77におけるYES)、パターン評価部13は、タグTが条件Cに一致したと判断して、変数iにタグTの終了位置を代入する(ステップS78)。一方、ステップS77において、条件Cで指定されたタグTがタグの集合TListに存在しない場合(ステップS77におけるNO)、パターン評価部13は、パターンが不一致である旨の情報を出力し、処理を終了する。
【0070】
ステップS74において、パターン評価部13が取り出した条件がタグ名でない場合(ステップS74におけるNO)、パターン評価部13は、条件Cが文字列か否か調べる(ステップS79)。条件Cが文字列の場合(ステップS79におけるYES)、パターン評価部13は、変数flagが1であるか否か調べる(ステップS80)。変数flagが1の場合(ステップS80におけるYES)、ワイルドカードは有効であることが分かる。この場合、パターン評価部13は、読み込んだ文Sのi文字目以降に条件Cとして指定された文字列Wが存在するか否か調べる(ステップS81)。文字列Wが存在する場合(ステップS81におけるYES)、パターン評価部13は、文字列Wが条件Cに一致したと判断して、変数iに文字列Wの文字数を加算する(ステップS83)。一方、ステップS81において、文字列Wが存在しない場合(ステップS81におけるNO)、パターン評価部13は、パターンが不一致である旨の情報を出力し、処理を終了する。
【0071】
また、ステップS80において、変数flagが1でない場合(ステップS80におけるNO)、ワイルドカードは有効でないことが分かる。この場合、パターン評価部13は、読み込んだ文Sのi文字目に条件Cとして指定された文字列Wが存在するか否か調べる(ステップS82)。文字列Wが存在する場合(ステップS82におけるYES)、パターン評価部13は、文字列Wが条件Cに一致したと判断して、変数iに文字列Wの文字数を加算する(ステップS83)。一方、ステップS82において、文字列Wが存在しない場合(ステップS82におけるNO)、パターン評価部13は、パターンが不一致である旨の情報を出力し、処理を終了する。
【0072】
ステップS78で、変数iにタグTの終了位置を代入した後、又は、ステップS83で、変数iに文字列Wの文字数を加算した後、パターン評価部13は、条件リストListが空か否か(すなわち、条件Cの取り出しが完了したか否か)判断する(ステップS84)。条件リストListが空である場合(ステップS84におけるYES)、パターン評価部13は、すべての条件Cが満たされたと判断し、パターンが一致した旨の情報を出力し、処理を終了する。一方、条件リストListが空でない場合(ステップS84におけるNO)、パターン評価部13は、変数flagに0を代入して(ステップS85)、ステップS73以降の処理を繰り返す。
【0073】
また、ステップS79において、条件Cが文字列でない場合(ステップS79におけるNO)、条件Cはワイルドカードである。よって、パターン評価部13は、flagに1を代入して(ステップS86)、ステップS73以降の処理を繰り返す。
【0074】
このようにして、パターン評価部13は、パターン合成部12から受け取ったパターンPが、ステップS51で読み込んだ文S及びその文Sに付加されたタグの集合TListと一致するか否かを示す情報を出力できる。
【0075】
次に、評価値算出処理について説明する。評価値算出処理では、パターン評価部13は、検索処理において抽出された文書IDと文IDの組から、pf(p)とdf(p)とを算出する。パターン評価部13は、例えば、pf(p)の値を、文書IDと文IDの組の数を数えることで算出し、df(p)の値を、文書IDと文IDの組のうち、文書IDの種類数を数えることで算出する。パターン評価部13は、例えば、式1で示した式に基づき評価値を算出する。
【0076】
なお、パターン合成部12及びパターン評価部13は、各処理の論理的前後関係が変わらない限り、事例入力プロセス内の処理を任意の順序で行ってもよい。
【0077】
次に、検索プロセスについて説明する。検索プロセスは、ユーザもしくは外部のプログラムが文書検索部14にクエリ(すなわち、条件)を入力することにより処理を開始する。
【0078】
文書検索部14は、クエリとして抽出対象のキーワードが指定されると、文書検索部14内の記憶部(図示せず)に記憶されたタグ付きテキストの中から、指定されたキーワードを本文に含むタグ付きテキストの集合を作成する。次に、文書検索部14は、対象文書記憶部11内のデータをすべていったん空にした上で、作成したタグ付きテキストの集合を、例えば、図4に例示するフォーマットで対象文書記憶部11に登録する。
【0079】
なお、事例入力プロセスが処理済みである場合(すなわち、抽出規則であるパターンが既に作成されている場合)、パターン評価部13は、文書検索部14が対象文書記憶部11にタグ付きテキストの集合を登録した直後に、評価ステップの処理を開始しても良い。これにより、対象文書記憶部11内のタグ付きテキスト集合の変化に伴う評価値の変化を即座に反映させることができる。
【0080】
本発明によれば、パターン合成部12が、タグ付きテキスト及び抽出位置情報が与えられたときに、抽出位置情報の単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて抽出規則を作成する。そして、パターン評価部13は、対象文書記憶部11に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む文(適合文)の文書ID及び文IDを抽出し、その文書ID及び文IDをもとに評価値を算出する。このとき、パターン評価部13は、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出する。そのため、ユーザが欲する情報を抽出するための規則(抽出規則)を効率よく作成することができる。
【0081】
例えば、事例として、図1に例示するタグ付きテキストと、9文字目から13文字目の「abcd」が指定抽出位置として入力された場合を考える。例えば、ユーザが単に人名を集めたいと考えていると推測した場合には、抽出規則を「$[人名]$」にすべきである。また、ユーザが容疑者名を集めたいと考えていると推測した場合には、抽出規則を「$[人名]$容疑者」にすべきである。さらに、ユーザが姓「ab」を持つ人名を集めたいと考えていると推測した場合には、抽出規則を「$ab[名詞]$」にすべきである。このように、単に事例のみが入力された場合、上記のようにユーザが何を欲しているかによって決定すべき抽出規則は異なる。
【0082】
一般的に、抽出規則作成問題の難しさは、ユーザもしくは外部のプログラムがどのような情報を抽出したいかを入力される事例から推測しなければならない点にあるといえる。しかし、本発明によれば、タグ付きテキストの集合と一つ以上の事例とをもとに、抽出規則を作成し、さらにその抽出規則ごとに評価値を算出する。よって、ユーザの手間を減らしつつユーザの抽出要求に応じた抽出規則を作成することができる。
【0083】
また、文書検索部14が、指定された条件に該当するタグ付きテキストを抽出して対象文書記憶部11に登録し、パターン評価部13が、対象文書記憶部11に登録されたタグ付きテキストごとに適合文の文書ID及び文IDを抽出してもよい。この場合、パターン評価部13が抽出するタグ付きテキストを変化させることにより、ユーザが欲するパターンの評価値をカスタマイズできるため、ユーザの欲する情報に合わせた抽出規則を効率よく取り出すことができる。
【0084】
また、パターン合成部12が、作成した抽出規則のうち、タグを一つ以上含む組合せのパターンを選択してもよい。この場合、無駄なパターンが予め省かれるため、以後の計算量を小さくすることができる。
【0085】
また、パターン合成部12が、抽出位置情報が示す位置に対応する単語又はタグの前後の単語又はタグのうち、予め定められた種類の自立語(名詞など)を組み合わせて抽出規則を作成してもよい。この場合、助詞のように一般的で無意味な語をパターンから排除することができる。
【実施例】
【0086】
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。以下の説明では、図1に例示する新聞記事データがタグ付きテキストとして文書検索部14に記憶されている場合に、ユーザが殺人事件の容疑者名のリストを作成したいと考えている場合を例に挙げて説明する。
【0087】
検索プロセスにおいて、例えば、ユーザが「殺人 容疑者」といったキーワードを指定すると、文書検索部14は内部に記憶するタグ付きテキストの中から、殺人事件の逮捕情報に関するタグ付きテキストの集合を作成し、対象文書記憶部11に登録する。これにより、殺人事件に関するタグ付きテキストが対象文書記憶部11に記憶される。
【0088】
次に、事例入力プロセスにおいて、例えば、ユーザが図1に例示するタグ付きテキストと、9文字目から13文字目という指定抽出位置をパターン合成部12に入力すると、パターン合成部12は、合成ステップを開始する。ここでは、ステップS10,S20,S30の処理で、図14に例示するリストA、リストRP、リストLP、リストRW、リストLWが作成されるものとする。さらに、ステップS40において、パターン合成部12は、これらのパターンを組み合わせ、図5に例示するパターンを作成し、パターン評価部13に通知する。
【0089】
次に、評価ステップにおいて、パターン評価部13は、通知を受けた各パターンに対して、検索処理及び評価値算出処理を行い、図5に例示するパターン及び図6に例示する評価値を算出する。本実施例においては、対象文書記憶部11内に「殺人 容疑者」というキーワードを元に作成したタグ付きテキストの集合が記憶されているため、殺人事件の逮捕情報に関する文章が多いと考えられる。そのため、「$[人名]$容疑者」や「$[人名]$容疑者*殺人」や「$[人名]$容疑者*殺害」などのパターンにおける評価値が高くなる。
【0090】
本発明における評価値は、より多くの文書に多く登場し、より頻度の低いパターンが高くなる値である。このため、対象文書記憶部11内のすべてのタグ付きテキストに対して各1回登場するようなパターンが高く評価されることを意味する。このため、「奈良」や「ab(ただし、abは姓を表す漢字2文字)」など、特定の事件に特化したキーワードは、より多くの文書に多く登場するとは言えないため、評価値は低くなる。さらに、「$[人名]$」のように、任意の人名に適合するパターンは、容疑者名だけでなく被害者名などにまで適合して頻度が高くなるため、評価値は低くなる。「$[人名]$容疑者」や「$[人名]$容疑者*殺人」や「$[人名]$容疑者*殺害」などのパターンにおける評価値が高くなるのは、このためである。
【0091】
他にも、本発明はテキストからユーザの欲しい情報を語句単位でリストアップして出力するリストアップ型の検索を実現する検索システムとして利用できる。また、取り出した値をグラフなどで可視化するテキストマイニングシステムとしても利用できる。
【0092】
次に、本発明の最小構成を説明する。図15は、本発明の最小構成を示すブロック図である。本発明による抽出規則作成システムは、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報(例えば、開始位置及び終了位置)と、その位置に対応する単語の属性を示す属性情報(例えば、名詞、人名など)とを表す情報であるタグの集合とを含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段81(例えば、対象文書記憶部11)と、タグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報(例えば、抽出位置情報)が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則(例えば、パターン)を作成する抽出規則作成手段82(例えば、パターン合成部12)と、タグ付きテキスト記憶手段81に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報(例えば、文書ID及び文ID)を抽出する適合文位置情報抽出手段83(例えば、パターン評価部13)と、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出手段84(例えば、パターン評価部13)とを備えている。
【0093】
評価値算出手段84は、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出する(例えば、式1に基づいて評価値を算出する)。
【0094】
そのような構成により、ユーザが欲する情報を抽出するための規則を効率よく作成することができる。
【0095】
また、上記の実施形態には、以下に示す構成の抽出規則作成システムが開示されている。
【0096】
(1)文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報(例えば、開始位置及び終了位置)と、その位置に対応する単語の属性を示す属性情報(例えば、名詞、人名など)とを表す情報であるタグの集合とを含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段(例えば、対象文書記憶部11)と、タグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報(例えば、抽出位置情報)が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則(例えば、パターン)を作成する抽出規則作成手段(例えば、パターン合成部12)と、タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報(例えば、文書ID及び文ID)を抽出する適合文位置情報抽出手段(例えば、パターン評価部13)と、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出手段(例えば、パターン評価部13)とを備え、評価値算出手段が、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出する(例えば、式1に基づいて評価値を算出する)抽出規則作成システム。
【0097】
(2)複数のタグ付きテキストの中から、指定された条件に該当するタグ付きテキストを抽出し、そのタグ付きテキスト抽出手段が抽出したタグ付きテキストをタグ付きテキスト記憶手段に登録するタグ付きテキスト登録手段(例えば、文書検索部14)を備え、適合文位置情報抽出手段が、タグ付きテキスト登録手段が登録したタグ付きテキストごとに適合文位置情報を抽出する抽出規則作成システム。
【0098】
(3)抽出規則作成手段が、作成した抽出規則のうち、タグを一つ以上含む組合せを選択する抽出規則作成システム。
【0099】
(4)抽出規則作成手段が、文字列位置情報が示す位置に対応する単語又はタグの前後の単語又はタグのうち、予め定められた種類の自立語(例えば、名詞)を組み合わせて抽出規則を作成する抽出規則作成システム。
【0100】
(5)抽出規則作成手段が、文字列位置情報が示す位置に対応する単語又はタグと予め定められた種類の自立語との間にワイルドカード(例えば、「*」)を組み合わせて抽出規則を作成する抽出規則作成システム。
【産業上の利用可能性】
【0101】
本発明は、文書から情報を抽出するための抽出規則を作成する抽出規則作成システムに好適に適用される。
【符号の説明】
【0102】
11 対象文書記憶部
12 パターン合成部
13 パターン評価部
14 文書検索部

【特許請求の範囲】
【請求項1】
文字列中の任意の位置に付加された情報であって、当該情報が付加された文字列の位置を示す位置情報と、当該位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段と、
前記タグ付きテキスト及び当該タグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、当該文字列位置情報が示す位置に対応する単語又はタグと、当該単語又はタグの前後の単語又はタグとを組み合わせて、前記タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成手段と、
前記タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、前記抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出手段と、
前記適合文位置情報をもとに、前記抽出規則を評価した値である評価値を算出する評価値算出手段とを備え、
前記評価値算出手段は、1つのタグ付きテキスト内に現れる適合文がより少ないほど前記評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど前記評価値を高く算出する
ことを特徴とする抽出規則作成システム。
【請求項2】
複数のタグ付きテキストの中から、指定された条件に該当するタグ付きテキストを抽出し、当該タグ付きテキストをタグ付きテキスト記憶手段に登録するタグ付きテキスト登録手段を備え、
適合文位置情報抽出手段は、前記タグ付きテキスト登録手段が登録したタグ付きテキストごとに適合文位置情報を抽出する
請求項1記載の抽出規則作成システム。
【請求項3】
抽出規則作成手段は、作成した抽出規則のうち、タグを一つ以上含む組合せを選択する
請求項1または請求項2に記載の抽出規則作成システム。
【請求項4】
抽出規則作成手段は、文字列位置情報が示す位置に対応する単語又はタグの前後の単語又はタグのうち、予め定められた種類の自立語を組み合わせて抽出規則を作成する
請求項1から請求項3のうちのいずれか1項に記載の抽出規則作成システム。
【請求項5】
抽出規則作成手段は、文字列位置情報が示す位置に対応する単語又はタグと予め定められた種類の自立語との間にワイルドカードを組み合わせて抽出規則を作成する
請求項4記載の抽出規則作成システム。
【請求項6】
文字列中の任意の位置に付加された情報であって、当該情報が付加された文字列の位置を示す位置情報と、当該位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキスト及び当該タグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、当該文字列位置情報が示す位置に対応する単語又はタグと、当該単語又はタグの前後の単語又はタグとを組み合わせて、前記タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成ステップと、
タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、前記抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出ステップと、
前記適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出ステップとを含み、
前記評価値算出ステップで、1つのタグ付きテキスト内に現れる適合文がより少ないほど前記評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど前記評価値を高く算出する
ことを特徴とする抽出規則作成方法。
【請求項7】
複数のタグ付きテキストの中から、指定された条件に該当するタグ付きテキストを抽出し、当該タグ付きテキストをタグ付きテキスト記憶手段に登録するタグ付きテキスト登録ステップを含み、
適合文位置情報抽出ステップで、前記テキスト登録ステップで登録したタグ付きテキストごとに適合文位置情報を抽出する
請求項6記載の抽出規則作成方法。
【請求項8】
文字列中の任意の位置に付加された情報であって、当該情報が付加された文字列の位置を示す位置情報と、当該位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段を備えたコンピュータに適用される抽出規則作成プログラムであって、
前記コンピュータに、
前記タグ付きテキスト及び当該タグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、当該文字列位置情報が示す位置に対応する単語又はタグと、当該単語又はタグの前後の単語又はタグとを組み合わせて、前記タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成処理、
前記タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、前記抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出処理、
前記適合文位置情報をもとに、前記抽出規則を評価した値である評価値を算出する評価値算出処理を実行させ、
前記評価値算出処理で、1つのタグ付きテキスト内に現れる適合文がより少ないほど前記評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど前記評価値を高く算出させる
ための抽出規則作成プログラム。
【請求項9】
コンピュータに、
複数のタグ付きテキストの中から、指定された条件に該当するタグ付きテキストを抽出し、当該タグ付きテキストをタグ付きテキスト記憶手段に登録するタグ付きテキスト登録処理を実行させ、
適合文位置情報抽出処理で、前記テキスト登録処理で登録したタグ付きテキストごとに適合文位置情報を抽出させる
請求項8記載の抽出規則作成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2010−262332(P2010−262332A)
【公開日】平成22年11月18日(2010.11.18)
【国際特許分類】
【出願番号】特願2009−110435(P2009−110435)
【出願日】平成21年4月30日(2009.4.30)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】