説明

抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム

【課題】指定された位置に対応する情報と同等の概念を有する情報を効率よく抽出可能な抽出規則を作成できる抽出規則作成システムを提供する。
【解決手段】組合せ位置情報作成手段81は、タグ付きテキストと、文字列またはタグの位置を示す3個以上の位置情報と、キー情報とをもとに組合せ位置情報を作成する。単語タグ文字列作成手段82は、その組合せ位置情報に含まれる位置情報が示す位置の単語またはタグを組み合わせた単語タグ文字列をその組合せ位置情報ごとに作成する。単語タグ文字列選択手段83は、評価値を算出して単語タグ文字列を選択する。付属文字列抽出手段84は、タグ付きテキストを文節ごとに分割した単語のうち、位置情報が示す位置の文字列を含む文節分割単語を抽出し、その文節分割単語から、位置情報が示す位置に含まれない付属文字列を抽出する。抽出規則作成手段85は、単語タグ文字列と付属文字列とをもとに抽出規則を作成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書から情報を抽出するための抽出規則を作成する抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラムに関する。
【背景技術】
【0002】
ある文書の中から情報を抽出する場合、指定した位置の情報と同等の概念をもつ他の情報も抽出したいと考える場合がある。抽出したい情報のパターンが分かれば、そのパターンに該当する他の情報も併せて抽出することができるため、より多くの情報を抽出することが可能になる。
【0003】
以下の説明では、少なくとも、文字列の集合である本文と、文字列中の任意の位置に付加されたタグの集合を含む文書(以下、タグ付きテキストと記す。)から、より多くの情報を抽出するための抽出規則を作成する場合について説明する。ここで、タグとは、単語の属性を表す文字列(以下、タグ名と記す。)と、タグを付加する文字列の本文中の位置(開始位置及び終了位置)を含む情報である。
【0004】
例えば、ユーザが、あるタグ付きテキストの中から複数の位置を指定したときに、そのタグ付きテキストと指定した位置を示す情報とをもとに、より多くの情報を抽出するための抽出規則を作成する方法として、以下のような方法が考えられる。すなわち、このような抽出規則を作成する方法の一つとして、指定した位置の文字列をすべて含む文章を取り出し、タグが付加された文字列をその付加されたタグに置き換える方法が考えられる。このように、指定した位置の文字列を、その文字列の属性を表わすタグに置き換えた抽出規則(以下、タグ置換抽出規則と記す。)を作成することにより、指定した位置の情報だけでなく、置き換えた属性に適合する情報も抽出することができる。
【0005】
特許文献1には、多数の技術文書から多種類のファクトデータを自動的に抽出し、データベースを構築するファクトデータの抽出装置が記載されている。特許文献1に記載された抽出装置は、抽出パターンマッチテンプレート作成処理部(以下、作成処理部と記す。)が、ファクトデータ(抽出情報)を抽出するためのテンプレートを作成する。まず、作成処理部は、テンプレートに変換する文を単語(抽出情報)に切り分ける。そして、作成処理部は、切り分けた文中の単語(抽出情報)を抽出項目(タグの内容を表すラベル)に置換して、テンプレートを作成する。なお、文を単語に切り分ける手法(構文解析手法)については非特許文献1等に記載されている。
【0006】
特許文献2には、関連性のある単語をキーワードとして追加して検索精度を向上させるとともに、出現頻度が高い一般的なキーワードを抑制して検索精度の低下を抑制する文書検索方法が記載されている。特許文献1に記載された文書検索方法は、関連語データベースから入力キーワードに対応する関連キーワードの候補を抽出する。そして、その候補の中から入力キーワードと同じコンテクスト情報を持ち、かつ出現頻度の高い単語を関連キーワードとして選択する。また、入力キーワードの出現頻度が閾値よりも高い場合には、関連キーワードを展開しないことで、キーワードが増え過ぎることによる検索精度の低下を抑制する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2003−330947号(段落0052〜0064)
【特許文献2】特開平10−149370号(段落0024〜0025,0045〜0047)
【非特許文献】
【0008】
【非特許文献1】工藤拓、松本祐治、「チャンキングの段階適用による日本語係り受け解析」、IPSJ SIG Notes、情報処理学会、2001年3月5日、Vol.2001、No.20、p.97−104
【発明の概要】
【発明が解決しようとする課題】
【0009】
上述のタグ置換抽出規則を使用してタグ付きテキストから情報を抽出しようとする場合、タグに置き換えた位置に対応する文字列と、タグに置き換えた付近の文字列が完全に一致しなければ他の情報を抽出できない。すなわち、同等の概念を有する他の情報を抽出しようとしても、タグに置き換えた位置に対応する文字列と、タグに置き換えた付近の文字列が完全に一致しなければその情報を抽出できないため、抽出の効率が悪いという課題がある。
【0010】
また、特許文献1に記載された抽出装置も、切り分けた文中の単語(抽出情報)を抽出項目(タグの内容を表すラベル)に置換してテンプレートを作成する。そのため、特許文献1に記載されたテンプレートでは、ラベルに置き換えた位置に対応する文字列と、ラベルに置き換えた付近の文字列が完全一致しなければファクトデータを抽出できないため、抽出の効率が悪いという課題がある。
【0011】
特許文献2に記載された文書検索方法では、入力キーワードに近い言葉も検索できるため、指定した文字列以外の情報も抽出できる。しかし、指定した文字列以外の情報を抽出するためには、抽出したい単語を含む類義語辞書や関連語辞書、シソーラス辞書などを予め関連語データベースに準備しなくてはならないという課題がある。
【0012】
そこで、本発明は、指定された位置に対応する情報と同等の概念を有する情報を効率よく抽出可能な抽出規則を作成できる抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明による抽出規則作成システムは、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストと、そのタグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報と、その位置情報が示す位置に対応する文字列ごとに定められ、その文字列が各文字列の組合せを識別するキー文字列に該当するか否かを示すキー情報とをもとに、文字列の組合せにおけるキー文字列の位置情報と、その組合せにおけるキー文字列以外の文字列の位置情報との組合せである組合せ位置情報を作成する組合せ位置情報作成手段と、タグ付きテキストと組合せ位置情報が与えられたときに、その組合せ位置情報に含まれる位置情報が示す位置に対応する単語またはタグを組み合わせた単語タグ文字列をその組合せ位置情報ごとに作成する単語タグ文字列作成手段と、単語タグ文字列を選択する基準となる評価値を算出し、その評価値を用いて単語タグ文字列の中から一の単語タグ文字列を選択する単語タグ文字列選択手段と、タグ付きテキストを文節ごとに分割した単語のうち、位置情報が示す位置の文字列を含む単語である文節分割単語を抽出し、その文節分割単語における文字列のうち、位置情報が示す位置に含まれない文字列である付属文字列を抽出する付属文字列抽出手段と、単語タグ文字列選択手段が選択した単語タグ文字列と付属文字列とをもとに、タグ付きテキストから文字列を抽出するための規則である抽出規則を作成する抽出規則作成手段とを備えたことを特徴とする。
【0014】
本発明による抽出規則作成方法は、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストと、そのタグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報と、その位置情報が示す位置に対応する文字列ごとに定められ、その文字列が各文字列の組合せを識別するキー文字列に該当するか否かを示すキー情報とをもとに、文字列の組合せにおけるキー文字列の位置情報と、その組合せにおけるキー文字列以外の文字列の位置情報との組合せである組合せ位置情報を作成する組合せ位置情報作成ステップと、タグ付きテキストと組合せ位置情報が与えられたときに、その組合せ位置情報に含まれる位置情報が示す位置に対応する単語またはタグを組み合わせた単語タグ文字列をその組合せ位置情報ごとに作成する単語タグ文字列作成ステップと、単語タグ文字列を選択する基準となる評価値を算出し、その評価値を用いて単語タグ文字列の中から一の単語タグ文字列を選択する単語タグ文字列選択ステップと、タグ付きテキストを文節ごとに分割した単語のうち、位置情報が示す位置の文字列を含む単語である文節分割単語を抽出し、その文節分割単語における文字列のうち、位置情報が示す位置に含まれない文字列である付属文字列を抽出する付属文字列抽出ステップと、単語タグ文字列選択ステップで選択した単語タグ文字列と付属文字列とをもとに、タグ付きテキストから文字列を抽出するための規則である抽出規則を作成する抽出規則作成ステップとを含むことを特徴とする。
【0015】
本発明による抽出規則作成プログラムは、コンピュータに、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストと、そのタグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報と、その位置情報が示す位置に対応する文字列ごとに定められ、その文字列が各文字列の組合せを識別するキー文字列に該当するか否かを示すキー情報とをもとに、文字列の組合せにおけるキー文字列の位置情報と、その組合せにおけるキー文字列以外の文字列の位置情報との組合せである組合せ位置情報を作成する組合せ位置情報作成処理、タグ付きテキストと組合せ位置情報が与えられたときに、その組合せ位置情報に含まれる位置情報が示す位置に対応する単語またはタグを組み合わせた単語タグ文字列をその組合せ位置情報ごとに作成する単語タグ文字列作成処理、単語タグ文字列を選択する基準となる評価値を算出し、その評価値を用いて単語タグ文字列の中から一の単語タグ文字列を選択する単語タグ文字列選択処理、タグ付きテキストを文節ごとに分割した単語のうち、位置情報が示す位置の文字列を含む単語である文節分割単語を抽出し、その文節分割単語における文字列のうち、位置情報が示す位置に含まれない文字列である付属文字列を抽出する付属文字列抽出処理、および、単語タグ文字列選択処理で選択した単語タグ文字列と付属文字列とをもとに、タグ付きテキストから文字列を抽出するための規則である抽出規則を作成する抽出規則作成処理を実行させることを特徴とする。
【発明の効果】
【0016】
本発明によれば、指定された位置に対応する情報と同等の概念を有する情報を効率よく抽出可能な抽出規則を作成できる。
【図面の簡単な説明】
【0017】
【図1】タグ付きテキストの例を示す説明図である。
【図2】指定抽出位置の例を示す説明図である。
【図3】抽出規則を表現した構文の例を示す説明図である。
【図4】本発明による抽出規則作成システムの一実施形態を示すブロック図である。
【図5】タグ付きテキストを記憶する形式の例を示す説明図である。
【図6】キー付き指定抽出位置リストの例を示す説明図である
【図7】指定抽出位置リストの例を示す説明図である。
【図8】本発明における抽出規則作成処理の例を示すフローチャートである。
【図9】キー指定抽出位置を特定する処理の例を示すフローチャートである。
【図10】キー付き指定抽出位置リストを複数の指定抽出位置リストに分割する処理の例を示すフローチャートである。
【図11】抽出規則を作成する処理の例を示すフローチャートである。
【図12】指定抽出位置の情報をもとに、適切なパターンを特定する処理の例を示すフローチャートである。
【図13】パターンを選び出す方法の例を示す状態遷移図である。
【図14】文字列の組合せのパターンを列挙する処理の例を示すフローチャートである。
【図15】指定抽出位置付近の文字列を取り出す処理の例を示すフローチャートである。
【図16】抽出規則を作成するための情報の一覧を示す説明図である。
【図17】抽出規則を作成する処理の例を示す説明図である。
【図18】分割レコードリストの例を示す説明図である。
【図19】複数の分割レコードリストを統合し、一つのレコードのリストを作成する処理の例を示すフローチャートである。
【図20】分割レコードリストを統合したレコードの例を示す説明図である。
【図21】本発明の最小構成を示す説明図である。
【発明を実施するための形態】
【0018】
以下、本発明の説明で使用する用語について定義する。タグ付きテキストとは、少なくとも、文字列の集合である本文と、文字列中の任意の位置に付加されたタグの集合を含む文書である。図1は、タグ付きテキストの例を示す説明図である。図1に例示するタグ付きテキストは、「奈良県警は14日、abcd容疑者(20)を強盗殺人の容疑で逮捕したと発表。」という本文(ただし、abは姓を表す漢字2文字、cdは名を表す漢字2文字)と、本文中の各文字列に対して付加されたタグの集合を含んでいることを示す。
【0019】
タグとは、単語の属性を表す文字列(以下、タグ名と記す。)と、タグを付加する文字列の本文中の位置(開始位置及び終了位置)を含む情報である。開始位置及び終了位置は、タグが付加された文字列の本文中の位置を、例えば、文頭を「0」とし、文字間を数えた数で表現する。図1に例示するタグ付きテキストでは、「abcd」に付加されたタグを、タグ名「人名」、開始位置「9」、終了位置「13」とするタグを用いて表現できる。また、以下の説明では、タグ名をTとするタグを「Tタグ」と記すこともある。
【0020】
指定抽出位置とは、ユーザ又は外部のプログラム等が後述する抽出規則を作成するために指定するタグ付きテキスト中の文字列の位置であり、開始位置及び終了位置によって表される情報である。図2は、図1に例示するタグ付きテキストに対する指定抽出位置の例を示す説明図である。図2に示す例では、図1に例示するタグ付きテキストの9文字目から13文字目(「abcd」)(ただし、「ab」は、姓を表す漢字2文字、「cd」は、名を表す漢字2文字)、17文字目から19文字目(「20」)、21文字目から25文字目(「強盗殺人」)の3つの指定抽出位置を示している。この場合、例えば、ユーザが、容疑者名と年齢と逮捕容疑という3つの値を1つの組として抽出したいと考えていると推測できる。
【0021】
フィールドとは、各指定抽出位置に対応する概念(属性)のことと定義する。フィールドの例として、例えば、「容疑者名」や「年齢」、「逮捕容疑」などが挙げられる。また、フィールドの値とは、フィールドの内容を示す具体的内容である。例えば、フィールドが「容疑者名」であれば、具体的な氏名などを表す。
【0022】
レコードとは、複数のフィールドの値によって構成される情報である。例えば、図2に例示する3つの指定抽出位置に対応するフィールドが、(「容疑者名」、「年齢」、「逮捕容疑」)の場合、図1に例示するタグ付きテキストにおけるレコードは、(「abcd」、「20」、「強盗殺人」)になる。
【0023】
キーフィールドとは、タグ付きテキストの集合から複数のレコードを取り出した場合に、各レコードを識別するためのユニークな値(キー)を持つと想定される一つ以上のフィールドを指す。なお、この用語は関係データベースの分野でも用いられ、その分野ではレコードを一意に識別するための、厳密にユニークな値を持つフィールド、と定義されることがある。本発明の説明では、厳密にユニークな値でなくともユニークな値(キー)を持つことが多いフィールド、として定義する。
【0024】
例えば、新聞の逮捕情報を集めた記事の集合から、容疑者名、年齢、逮捕容疑という3つのフィールドの情報を取り出す場合、容疑者名がキーフィールドになると考えられる。これは、新聞の逮捕情報を想定した場合、年齢や逮捕容疑を指定しても特定のレコードを選び出すことができないが、容疑者名を指定することで、特定のレコードを選び出すことができるためである。
【0025】
ただし、容疑者名を指定しても、同姓同名の人物が存在する場合や、同一人物が複数の容疑で逮捕される場合がある。そのため、このようなフィールドは、RDB(Relational Database )の分野で定義されるキーフィールドとは言えない場合がある。しかし、多くの場合、容疑者名でレコードを特定できるため、本発明ではこのようなフィールドもキーフィールドと定義する。なお、以下の説明では、あるフィールドFがキーフィールドであることを、「Fがキーである」と記すこともある。
【0026】
キー指定抽出位置とは、指定抽出位置のうち、キーフィールドに対応する指定抽出位置である。以下の説明では、ある指定抽出位置Sがキー指定抽出位置であることを、「Sがキーである」と記すこともある。
【0027】
事例とは、一つのタグ付きテキストと、そのタグ付きテキストに対して指定する指定抽出位置の組を表す情報であり、ユーザ又は外部のプログラム等により作成される。
【0028】
抽出規則とは、タグ付きテキストから情報を抽出するための規則である。この抽出規則を適切に作成することにより、ユーザが欲する情報をタグ付きテキストから抽出できるようになる。抽出規則は、少なくとも、文字列、タグ名及びワイルドカードの組み合わせ(テンプレートと記すこともある。)で表現され、そのテンプレート中には、指定抽出位置を示す情報を含む。
【0029】
図3は、本発明における抽出規則を表現した構文の例を示す説明図である。図3に例示する構文では、抽出規則Rが、フレーズPHと抽出位置パターンEPとからなる列を一つ以上含む文字列で定義されていることを示す。フレーズPHとは、一つ以上の条件KEYからなる文字列である。また、条件KEYは、文字列そのもの、”[”と”]”で囲まれたタグ名、ワイルドカード(*)、又は空文字(φ)のいずれかにより表現される。なお、抽出規則を表現した構文のことを、抽出するパターン(もしくは、単にパターン)と記すこともある。
【0030】
抽出位置パターンEPは、指定抽出位置におけるタグ付きテキストの構成要素を組み合わせたパターンである。具体的には、抽出位置パターンEPは、一つ以上タグを含み、文字列とタグからなるパターンである。図3に例示する構文では、抽出位置パターンEPが、構成要素EPHの前後を記号「$」で囲んだ文字列として定義されていることを示す。構成要素EPHは、タグと条件EKEYとからなる列を一つ以上含む文字列、又は、構成要素EPH自身に、条件EKEYを結合した文字列である。また、条件EKEYは、文字列そのもの、又は、”[”と”]”で囲まれたタグ名、又は空文字(φ)のいずれかにより表現される。
【0031】
抽出規則Rの例として、「$[人名]$容疑者」という規則が挙げられる。この抽出規則は、人名タグと、「容疑者」という文字列が隣接している部分から、人名タグが付加されている部分の文字列を抽出する、という規則であることを示す。
【0032】
また、別の例として、「奈良*$ab[名詞]$」(ただし、abは、姓を表す漢字2文字)という規則が挙げられる。この抽出規則は、「奈良」という文字列の後ろに任意の文字列(*)が存在し、その後ろに「ab」という文字列が存在し、さらにその直後に名詞タグが隣接している文から、「ab」と名詞タグ部分の文字列とを合わせて抽出する、という規則であることを示す。
【0033】
なお、以下の説明では、抽出対象のタグ付きテキストの集合がある場合に、二つ以上の指定抽出位置を持つ事例からレコードを抽出する規則を作成する問題をレコード抽出規則作成問題と呼ぶことがある。
【0034】
図4は、本発明による抽出規則作成システムの一実施形態を示すブロック図である。本発明における抽出規則作成システムは、対象文書記憶部11と、主キー特定部12と、関係分割部13と、抽出規則作成部14と、抽出実行部15と、レコード統合部16とを備えている。
【0035】
対象文書記憶部11は、抽出対象のタグ付きテキストの集合を記憶する記憶装置である。対象文書記憶部11は、図1に例示したタグ付きテキストを任意の形式で保持する。タグ付きテキストは、例えば、管理者によって予め対象文書記憶部11に登録される。図5は、対象文書記憶部11がタグ付きテキストを記憶する形式の例を示す説明図である。図5に示す例では、対象文書記憶部11が、本文テーブルとタグテーブルの二つのテーブルに分けて図1に例示したタグ付きテキストを記憶していることを示す。
【0036】
本文テーブルは、タグ付きテキストを文ごとに記憶するテーブルである。本文テーブルは、タグ付きテキストのユニークな識別子である文書IDと、文のユニークな識別子である文IDとを、本文の文字列と対応付けて記憶する。
【0037】
また、タグテーブルは、あるタグ付きテキストに付加されたすべてのタグを記憶するテーブルである。タグテーブルは、あるタグのタグ名と、本文の開始位置及び終了位置と、タグが付加された文書の文書IDと、タグが付加された文の文IDとを対応付けて記憶する。
【0038】
主キー特定部12は、ユーザもしくは外部のプログラムが指定した指定抽出位置の中から、キー指定抽出位置を特定し、各指定抽出位置に対応するフィールドがキーフィールドか否かを表す情報(以下、キー情報と記す。)を作成する。
【0039】
主キー特定部12は、ユーザもしくは外部のプログラムが対象文書記憶部11に記憶された、あるタグ付きテキスト(以下、指定タグ付きテキストと記すこともある。)に対して指定抽出位置を指定したときに、その指定抽出位置に対応する文字列を取り出す。そして、主キー特定部12は、取り出した文字列から選択した一つ以上の文字列の組み合わせ(文字列群)がすべて含まれるタグ付きテキスト数(以下、文字列包含テキスト数と記す。)を算出する。なお、文字列包含テキスト数から、指定タグ付きテキストの数を除いてもよい。また、タグ付きテキストにすべて含まれる文字列の数を、包含文字列数と記す。主キー特定部12は、例えば、包含文字列数がより小さい文字列の組合せであって、その文字列の組合せにおける文字列包含テキスト数が、予め定められた閾値よりも小さい場合に、その組み合わせをキーとして特定する。
【0040】
主キー特定部12は、キー指定抽出位置を特定すると、その情報をもとにキー情報を作成する。本実施形態において、キー情報の「1」は抽出指定位置のフィールドがキーであることを表し、キー情報の「0」は抽出指定位置のフィールドがキーでないことを表す。すなわち、以下の説明では、抽出指定位置のフィールドがキーの場合、主キー特定部12がキー情報に「1」を設定し、指定位置のフィールドがキーでない場合、主キー特定部12がキー情報に「0」を設定する場合について説明する。また、キー情報と指定抽出位置とを併せた情報を、キー付き指定抽出位置リストと記す。
【0041】
図6は、キー付き指定抽出位置リストの例を示す説明図である。図6に示す例は、図2に例示した3つの指定抽出位置に対して、それぞれキー情報を追加したことを示す。具体的には、図1に例示したタグ付きテキストに対して図2に例示した指定抽出位置が指定された場合に、主キー特定部12が、9文字目から13文字目の「人名」にあたるフィールド(図6の表に例示する1行目)をキーフィールドと特定し、そのフィールドを「1」に設定したキー情報を作成したことを示す。
【0042】
関係分割部13は、キー付き指定抽出位置リストを元に、キーとなる指定抽出位置と、キーでない一つの指定抽出位置の組に分割する処理を行う。すなわち、関係分割部13は、キー付き指定抽出位置リストを元に、キー指定抽出位置の文字列と、キー指定抽出位置でない一つの指定抽出位置の文字列との組み合わせ(以下、指定抽出位置リストと記す。)を作成する。
【0043】
図7は、関係分割部13が作成した指定抽出位置リストの例を示す説明図である。図7に示す例では、関係分割部13が図6に例示するキー付き指定抽出位置リストを、2つの指定抽出位置リストに分解したことを示す。具体的には、図6に例示するキー付き指定抽出位置リストは、「abcd」、「20」、「強盗殺人」を示す3つの指定抽出位置から成る情報である。関係分割部13は、これを二つに分割し、図7(A)に例示する「abcd」と「20」、図7(B)に例示する「abcd」と「強盗殺人」(B)という二つの指定抽出位置リストを作成する。
【0044】
関係分割部13は、分割した各指定抽出位置リストと、指定タグ付きテキストとを、後述の抽出規則作成部14に通知する。例えば、図7に例示する指定抽出位置リスト(A),(B)が作成された場合、関係分割部13は、指定抽出位置リスト(A)と図1に例示するタグ付きテキスト、及び、指定抽出位置リスト(B)と図1に例示するタグ付きテキストをそれぞれ抽出規則作成部14に通知する。
【0045】
抽出規則作成部14は、関係分割部13から受け取った指定抽出位置リストとタグ付きテキストとをもとに、抽出規則を作成する。
【0046】
抽出規則作成部14は、指定抽出位置リストと指定タグ付きテキストとを関係分割部13から受け取ると、指定抽出位置リストに含まれる指定抽出位置ごとに、指定抽出位置の単語又はタグを組み合わせた文字列(以下、単語タグ文字列と記す。)を作成する。
【0047】
抽出規則作成部14は、作成した単語タグ文字列と、対象文書記憶部11に記憶されたタグ付きテキストとをもとに、その単語タグ文字列の評価値を算出し、最も評価値が高い単語タグ文字列を特定する。例えば、抽出規則作成部14は、単語タグ文字列が1つのタグ付きテキスト内で適合する箇所がより少ないほど評価値を高く算出し、単語タグ文字列がより多くのタグ付きテキスト内で適合するほど評価値を高く算出する。
【0048】
例えば、対象文書記憶部11内のタグ付きテキスト内にパターンpが登場した総数(すなわち、適合するパターンが含まれる数)をpf(p)、対象文書記憶部11内のタグ付きテキスト内にパターンpが登場した回数(すなわち、適合するパターンが含まれる文書の種類)をdf(p)とするとき、評価値ipfdf(p)は次の式1で算出できる。
【0049】
【数1】

【0050】
なお、評価値の算出方法は、単語タグ文字列が1つのタグ付きテキスト内で適合する箇所がより少ないほど評価値を高く算出し、単語タグ文字列がより多くのタグ付きテキスト内に適合するほど評価値を高く算出するような他の式を用いて算出してもよい。
【0051】
次に、抽出規則作成部14は、指定タグ付きリストを文節ごとに分割した単語のうち、指定抽出位置が示す位置の情報を含む単語(以下、文節分割単語と記す。)を抽出する。そして、抽出規則作成部14は、その文節分割単語における文字列のうち、指定抽出位置が示す位置に含まれない文字列と、その文字列の位置情報を含む情報(以下、付属文字列情報と記す。)を抽出する。抽出規則作成部14は、特定した単語タグ文字列及び付属文字列をもとに、抽出規則を作成する。
【0052】
抽出実行部15は、抽出規則作成部14によって作成された抽出規則ごとに、対象文書記憶部11内のタグ付きテキストと比較し、適合する部分を探索する。適合する部分が発見できた場合、抽出実行部15は、抽出規則に適合する文字列を抽出指定位置ごとに組み合わせたレコードのリスト(以下、文字列抽出リスト、又は、分割レコードリストと記すこともある。)を抽出する。抽出処理は、タグ付きテキストの中から条件に該当する情報を検索する検索システムなどにより実現される。検索システムは、例えば、XML(Extensible Markup Language)文書内から条件に該当する情報を抽出するXMLデータベースを備えた検索システムなどにより実現されるが、検索システムの態様は、上記態様に限定されない。
【0053】
レコード統合部16は、抽出実行部15が抽出した各文字列抽出リストのレコードを、キーフィールドをもとに統合する。レコード統合部16は、抽出実行部15によって抽出されたレコード同士を比較し、キーフィールドが等しい複数のレコード同士を一つのレコードにまとめて(結合して)出力する。
【0054】
主キー特定部12と、関係分割部13と、抽出規則作成部14と、抽出実行部15と、レコード統合部16とは、プログラム(抽出規則作成プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、主キー特定部12、関係分割部13、抽出規則作成部14、抽出実行部15及びレコード統合部16とを含む装置が備える記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、主キー特定部12、関係分割部13、抽出規則作成部14、抽出実行部15及びレコード統合部16として動作してもよい。また、主キー特定部12と、関係分割部13と、抽出規則作成部14と、抽出実行部15と、レコード統合部16とは、それぞれが専用のハードウェアで実現されていてもよい。
【0055】
次に、動作について説明する。図8は、本発明における抽出規則作成処理の例を示すフローチャートである。以下の説明では、ユーザもしくは外部のプログラムが、対象文書記憶部11内の少なくとも一つのタグ付きテキストT1と、そのタグ付きテキストに対する指定抽出位置の集合とを入力することにより処理を開始する場合について説明する。
【0056】
主キー特定部12は、入力された各指定抽出位置がキーかどうかを判定する(ステップS10)。主キー特定部12は、入力されたn個の指定抽出位置の中から、k個の指定抽出位置をキーとして選択する。ここでは、主キー特定部12は、kの値がより小さく、取り出したk個の語をすべて含むタグ付きテキストの数がより小さいものを選択する。すなわち、主キー特定部12は、より包含文字列数(k)が小さく、より文字列包含テキスト数(k個の語をすべて含むタグ付きテキストの数)が小さい1つ以上(k個)の文字列に対応する指定抽出位置をキー指定抽出位置として特定する。
【0057】
ステップS10における処理について、図9を用いて説明する。図9は、キー指定抽出位置を特定する処理の例を示すフローチャートである。ある事例(すなわち、タグ付きテキストT1と、そのタグ付きテキストに対して指定するn個の指定抽出位置を表す情報)が入力されると、主キー特定部12は、タグ付きテキストT1からn個の指定抽出位置にある文字列を取り出す(ステップS11)。例えば、図1及び図2に例示するタグ付きテキスト及び指定抽出位置が入力されると、主キー特定部12は、「abcd」、「20」、「強盗殺人」の3つの語を取り出す。
【0058】
次に、主キー特定部12は、変数K=1とし、n個の語からK個の語を取り出した場合のすべての組み合わせを作成し、K個の語の組合せをすべて含むタグ付きテキストの数(すなわち、文字列包含テキスト数)を算出する(ステップS12)。主キー特定部12は、例えば、対象文書記憶部11内のタグ付きテキストを一つずつ読み込み、そのタグ付きテキストにK個の語がすべて含まれるか否かを順に調べ、文字列包含テキスト数を数えてもよい。
【0059】
主キー特定部12は、文字列包含テキスト数が最小となるK語の組を取り出し、その文字列包含テキスト数が、予め定められた閾値θより小さいか否かを判定する(ステップS13)。文字列包含テキスト数が閾値θよりも小さい場合(ステップS13におけるYES)、主キー特定部12は、処理を終了し、そのK語の文字列に対応する指定抽出位置をキーとして特定する。そして、キーとして特定した指定抽出位置のキー情報に「1」を設定し、その結果を出力する(ステップS14)。一方、文字列包含テキスト数が閾値θ以上の場合(ステップS13におけるNO)、Kに1を加算して、ステップS12以降の処理を繰り返す。キー指定抽出位置が特定されたときの変数Kの値が、包含文字列数kの値に該当する。
【0060】
文字列包含テキスト数が閾値θよりも小さい場合に、そのk語の文字列に対応する指定抽出位置をキーとして特定する理由について、以下、キーが1つの場合と、複数の場合を例に挙げて詳述する。
【0061】
キーが1つになる場合の例として、例えば、新聞記事から、「犯罪者名」、「年齢」、「犯罪」の3つの組を取り出す場合を考える。この場合、「犯罪者名」が決まると、(同姓同名者が存在する場合を除き、)レコードが特定されるため、「犯罪者名」がキーになる。この場合、3つの組は、関係分割部13によって、「犯罪者名」とその「年齢」、「犯罪者名」とその「犯罪」の2つの組に分解でき、抽出規則作成部14が2つの抽出規則を作成することができる。
【0062】
一方、キーが複数になる場合の例として、例えば、新聞記事から、「企業名」、「決算年度」、「赤字/黒字」の2つの組を取り出す場合を考える。この場合、企業は毎年決算を行っているので、「企業名」のみではレコードが特定されない。よって、「企業名」と「決算年度」の2つでキーになる。この場合、関係分割部13は、結果として「企業名」、「決算年度」、「赤字/黒字」の組を作成し、抽出規則作成部14が1つの抽出規則を作成することになる。
【0063】
このように、キーが複数設定されると、関係を分解しにくくなってしまう(すなわち、分解効率が下がってしまう)。このため、関係を分解しやすくするため(すなわち、分解効率をあげるため)、主キー特定部12は、よりkが小さく、閾値θを下回るk語の組を選択する。
【0064】
主キー特定部12は、出力したキー情報と指定抽出位置とを併せた情報(キー付き指定抽出位置リスト)を、関係分割部13に通知する。主キー特定部12は、例えば、図6に例示するキー付き指定抽出位置リストを、関係分割部13に通知する。
【0065】
次に、関係分割部13は、主キー特定部12から受け取ったキー付き指定抽出位置リスト(すなわち、指定抽出位置とキー情報のリスト)を複数の指定抽出位置リストに分割する(図8におけるステップS20)。
【0066】
ステップS20における処理について、図10を用いて説明する。図10は、キー付き指定抽出位置リストを複数の指定抽出位置リストに分割する処理の例を示すフローチャートである。関係分割部13は、受け取った指定抽出位置とキー情報のうち、キー情報が「0」であるすべての指定抽出位置に対して、以下のステップS21〜S23の処理を行う。以下の説明では、キー情報が「0」である指定抽出位置をNKと記す。
【0067】
まず、関係分割部13は、入力された指定抽出位置のリストの中から、キー指定抽出位置をすべて読み込んだリストLを作成する(ステップS21)。次に、関係分割部13は、リストLにNKを追加する(ステップS22)。最後に、関係分割部13は、リストLを指定抽出位置リストとして出力する(ステップS23)。
【0068】
関係分割部13は、ステップS20において作成された複数の指定抽出位置リストと、タグ付きテキストT1を抽出規則作成部14に通知する。
【0069】
次に、抽出規則作成部14は、関係分割部13から受け取った指定抽出位置リストごとに抽出規則を作成する(図8におけるステップS30)。
【0070】
ステップS30における処理について、図11を用いて説明する。図11は、抽出規則を作成する処理の例を示すフローチャートである。抽出規則作成部14は、指定抽出位置の情報をもとに、タグと文字列の組合せの中から適切なパターンを特定する(ステップS60)。
【0071】
ステップS60における処理について、図12及び図13を用いて詳述する。図12は、ステップS60における処理の例を示すフローチャートである。抽出規則作成部14は、指定抽出位置が指定されると、その指定抽出位置におけるタグと文字列の組合せのパターンを列挙する(ステップS61)。図13は、抽出規則作成部14がパターンを選び出す方法の例を示す状態遷移図である。図13に示す例では、事例として、図1に例示するタグ付きテキストと、指定抽出位置「9文字目から13文字目」とが入力された場合について説明する。抽出規則作成部14は、図1に例示するタグ付きテキストから、図13に例示する状態遷移のすべてのパターンを調べ、「abcd」,「ab[名詞]」,「[名詞]cd」,「[名詞][名詞]」,「[人名]」という5つのパターンを取り出す。このうち、タグを一つ以上含む組合せとして、「ab[名詞]」,「[名詞]cd」,「[名詞][名詞]」,「[人名]」の4つのパターンを抽出する。
【0072】
タグを含まないパターンは、特定の文字列(たとえば、「abcd」という文字列)しか収集できず、抽出規則としては効果が小さい。そのため、タグを一つ以上含む組合せを抽出することにより、無駄なパターンを予め省き、以後の計算量を小さくすることができる。
【0073】
ステップS61における処理(アルゴリズム)について、図14を用いて説明する。図14は、ステップS61におけるアルゴリズムの例を示すフローチャートである。図14に例示するアルゴリズムは、メソッド(generate)を再帰的に呼び出すことによってパターンを作成する。ここで、generateメソッドは、generateメソッドが呼び出された時点で作成されているパターンnowと、その時点の位置posと、終了位置endという3つの引数を持つ。
【0074】
初めに、抽出規則作成部14は、generateメソッドの引数として、now=””(空)、pos=指定抽出位置の開始位置、end=指定抽出位置の終了位置、を受け取り、generateメソッドが示す処理を開始する。generateメソッドにおいて、抽出規則作成部14は、位置posが終了位置endより大きいかどうかを調べる(ステップS611)。位置posが終了位置endより大きい場合(ステップS611におけるYES)、抽出規則作成部14は、処理を終了する(ステップS612)。位置posが終了位置endより大きくなく(ステップS611におけるNO)、位置posが終了位置endと等しい場合(ステップS613におけるYES)、抽出規則作成部14は、状態遷移の終了位置に到達したと判定し、その時点のパターンnowを調べる。パターンnowにタグが一つでも含まれていれば、抽出規則作成部14は、パターンnowの値をパターンとして抽出し、処理を終了する(ステップS614)。
【0075】
一方、位置posが終了位置endと等しくない場合(ステップS613におけるNO)、抽出規則作成部14は、位置posを開始位置とするタグTをすべて取り出し、それらのタグTを現在のパターンに追加する。また、抽出規則作成部14は、現在の位置posをタグTの終了位置に更新した情報でgenerateメソッドを呼び出す(ステップS615)。さらに、抽出規則作成部14は、現在の位置posの次の文字cを取り出す(ステップS616)。そして、抽出規則作成部14は、パターンnowにその文字cを追加し、現在の位置posに1を加算した情報でgenerateメソッドを呼び出す(ステップS617)。
【0076】
generateメソッドは、上記内容を実行するための処理である。すなわち、generateメソッドは、指定抽出位置を右に移動させながらパターンを作成する処理であると言える。
【0077】
次に、抽出規則作成部14は、抽出した複数のパターンごとに評価値を算出し、評価値が最も高いパターンを一つ選択する(図12におけるステップS62)。抽出規則作成部14は、例えば、式1を用いて、単語タグ文字列が1つのタグ付きテキスト内で適合する箇所がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合するほど評価値を高く算出する。
【0078】
例えば、対象文書記憶部11内に逮捕情報が含まれている場合、パターン「ab[名詞]」及び「[名詞]cd」に適合するするタグ付きテキストの数は少なくなると考えられるため、評価値は低くなる。また、「[名詞][名詞]」と「[人名]」という二つのパターンを比較した場合、「[名詞][名詞]」は任意の複合名詞に適合するパターンであり、一つのタグ付きテキスト内に何度も登場する。そのため、パターンに適合する箇所は多くなると考えられるため、評価値は低くなる。また、「[人名]」というパターンは、ほぼすべてのタグ付きテキストに登場するものの、各タグ付きテキストに、数回(多くの場合1回から2回)しか登場しないと考えられるため、評価値は高くなる。
【0079】
次に、抽出規則作成部14は、指定抽出位置付近の文字列(すなわち、付属文字列情報)を取り出す(図11におけるステップS70)。以下、ステップS70における処理について、図15を用いて詳述する。
【0080】
図15は、ステップS70における処理の例を示すフローチャートである。抽出規則作成部14は、まず、タグ付きテキストの本文に対して構文解析を行い、本文を文節に分割する(ステップS71)。例えば、図1に例示するタグ付きテキストの場合、抽出規則作成部14は、本文を、「奈良県警は」,「14日、」,「abcd容疑者」,「(20)を」,「強盗殺人の」,「容疑で」,「逮捕したと」,「発表」という文節に分割できる。次に、抽出規則作成部14は、指定抽出位置を含む文節(すなわち、文節分割単語)の中から、付属文字列情報を取り出す(ステップS72)。例えば、指定抽出位置リストが図7(B)に示す例の場合、抽出規則作成部14は、「abcd容疑者」という文節のうち「容疑者」(開始位置:13、終了位置17)を、「強盗殺人の」という文節のうち「の」(開始位置:25、終了位置:26)をそれぞれ付属文字列情報として抽出する。
【0081】
次に、抽出規則作成部14は、ステップS60において特定したパターンと、ステップS70において取り出した付属文字列情報とを合成して、抽出規則を作成する(図11におけるステップS80)。まず、抽出規則作成部14は、ステップS60において特定したパターンに、指定抽出位置の情報であることを示す識別子(以下、抽出位置識別子と記す。)を付与する。
【0082】
図16は、ステップS60において特定したパターンと、そのパターンの開始位置及び終了位置、ステップS70において取り出した文字列と、その文字列の開始位置及び終了位置、さらに、ステップS60において特定したパターンに抽出位置識別子を付与した情報の一覧を示す説明図である。図16に示す例では、例えば、図7(B)に例示する指定抽出位置のパターンとして選択された[人名]及び[犯罪]に抽出位置識別子「1(抽出対象位置である)」が付与され、それらの付属文字列情報に抽出位置識別子「0(抽出対象位置でない)」が付与されていることを示す。すなわち、図16に例示する「抽出位置」とは、その位置が指定抽出位置である(1)か否(0)か、すなわち、ステップS60で作成されたパターンである(1)か否(0)かを表す2値の情報であるといえる。
【0083】
次に、抽出規則作成部14は、ステップS60において特定したパターンと、ステップS70において取り出した付属文字列情報の中から、開始位置が小さいものから順に読み込み、読み込んだ文字列を結合して抽出規則を作成する。すなわち、抽出規則作成部14は、ステップS60において特定したパターンに含まれる単語またはタグと、付属文字列を、その単語またはタグ及び付属文字列の開始位置が小さい順に結合して抽出規則を作成する。以下、抽出規則を作成する方法について、図16及び図17を用いて詳述する。図17は、抽出規則を作成する処理の例を示す説明図である。
【0084】
まず、抽出規則作成部14は、出力すべき抽出規則Rを初期化する(ステップS81)。すなわち、抽出規則作成部14は、抽出規則Rの内容を示す文字列が何も含まない状態にする。次に、抽出規則作成部14は、次に行が存在するか否かを調べる(ステップS82)。行が存在する場合(ステップS82におけるYES)、抽出規則作成部14は、その行を読み込み(ステップS83)、その行の開始位置と直前に読み込んだ行の終了位置とが等しいか否かを調べる(ステップS84)。直前に読み込んだ行が存在し、且つ、現在の行の開始位置が直前に読み込んだ行の終了位置を一致しない場合(ステップS84におけるNO)、抽出規則作成部14は、Rにワイルドカード記号「*」を追加する(ステップS85)。
【0085】
一方、既に読み込んでいる行が存在しない場合、又は、現在の行の開始位置が直前に読み込んだ行の終了位置と一致する場合(ステップS84におけるYES)、抽出規則作成部14は、その行が指定抽出位置か否かを判断する(ステップS86)。例えば、抽出規則作成部14は、抽出位置識別子が「1」か否かを判断する。読み込んだ行が指定抽出位置の場合(ステップS86におけるYES)、抽出規則作成部14は、抽出位置であることを示す記号「$」によってパターンを挟み、その文字列をRに追加する(ステップS87)。
【0086】
一方、読み込んだ行が指定抽出位置でない場合(ステップS86におけるNO)、抽出規則作成部14は、読み込んだ文字列をそのままRに追加する(ステップS87)。ステップS87又はS88における処理が完了すると、抽出規則作成部14は、ステップS82以降の処理を繰り返す。ステップS32において、次の行が存在しない場合、抽出規則作成部14は、Rを抽出規則として出力して(ステップS39)、処理を完了する。
【0087】
なお、抽出規則に適合する情報が広く抽出できるように、ステップS39の処理で、付属文字列が抽出規則の最後の文字列に該当する場合、抽出規則作成部14は、その文字を取り除いてもよい。
【0088】
以上の処理により、抽出規則作成部14は、指定抽出位置リストそれぞれに対して抽出規則を作成する。抽出規則作成部14は、例えば、図7(A)に対して「$[人名]$容疑者($[数値]$)」という抽出規則を作成し、図7(B)に対して「$[人名]$容疑者*$[犯罪]$」という抽出規則を作成する。
【0089】
次に、抽出実行部15は、抽出規則作成部14が作成した指定抽出位置リストごとの抽出規則を用いて、抽出処理を実行する(図8におけるステップS40)。抽出実行部15は、対象文書記憶部11内のタグ付きテキストの中から、抽出規則ごとに適合する部分を取り出したレコードのリスト(すなわち、文字列抽出リスト、又は、分割レコードリスト)を抽出する。
【0090】
図18は、分割レコードリストの例を示す説明図である。図18(A)は、図7(A)に例示する指定抽出位置リストに対して作成された抽出規則「$[人名]$容疑者($[数値]$)」を用いて抽出された分割レコードリストの例を示す。また、図18(B)は、図7(B)に例示する指定抽出位置リストに対して作成された抽出規則「$[人名]$容疑者*$[犯罪]$」を用いて抽出された分割レコードリストの例を示す。それぞれの抽出結果(分割レコードリスト)は、指定抽出位置リストの各位置に適合する値と、抽出元のタグ付きテキスト(すなわち、抽出規則に適合する文字列を検索したタグ付きテキスト)の文書番号とを示す。なお、図18に示す例では、「ab」,「ef」,「hi」が、それぞれ姓を表す漢字2文字、「cd」,「jk」が、それぞれ名を表す漢字2文字、「g」が、名を表す漢字1文字である。
【0091】
最後に、レコード統合部16は、複数の分割レコードリストを統合し、一つのレコードのリストを作成する(図8におけるステップS50)。以下、ステップS50における処理について、図19を用いて詳述する。
【0092】
図19は、ステップS50における処理の例を示すフローチャートである。以下、レコード統合部16が、n個の分割レコードリストR[1]、R[2]、…、R[n]をもとに一つのレコードのリストを作成する場合について説明する。レコード統合部16は、分割レコードリストR[1]内の各レコードrに対し、後述のステップS51〜S54の処理を行う。
【0093】
レコード統合部16は、まず、一時的な変数であるレコード配列RLにR[1]から読み出したレコードrを登録する(ステップS51)。次に、レコード統合部16は、レコードr内から、キー指定抽出位置の値vを取り出す(ステップS52)。レコード統合部16は、R[1]以外の各分割レコードリストのキー指定抽出位置の値がステップS52における値vと等しいレコードを選択し、選択したレコードをレコード配列RLに追加する(ステップS53)。レコード統合部16は、レコード配列RL内のレコードをすべて連結して一つのレコードにし、そのレコードの中から重複する値を削除したレコードを出力する(ステップS54)。
【0094】
なお、ステップS53において、多義語などの問題により、値vに対して複数のレコードが選択される場合がある。このとき、レコード統合部16は、レコードを選択するための他の方法を用いてもよい。
【0095】
レコード統合部16がレコードを選択するための他の方法を、図18を用いて説明する。レコード統合部16は、図18(A)に例示する分割レコードリストの3行目のレコードにおけるキー指定抽出位置の値v「abcd」と等しいレコードを図18(B)に例示する分割レコードリストから選択する。このとき、レコード統合部16は、図18(B)に例示する分割レコードリストから、値v「abcd」と等しいレコードとして、3行目の「abcd、窃盗」と、4行目の「abcd、収賄」という二つのレコードを取り出すことができる。
【0096】
このとき、レコード統合部16は、それぞれのレコードが含まれるタグ付きテキスト同士の類似度を算出し、類似度の高い方のレコードを選択する。ここで、類似度とは、2つのタグ付きテキストに共通の単語が含まれる程度を示す値であり、例えば、次の式2で算出できる。
【0097】
【数2】

【0098】
例えば、同じ事件やイベントについての記事であれば、共通の単語が多く登場すると考えられるため、類似度は高くなる。
【0099】
図18に例示する分割レコードリストが存在する場合、レコード統合部16は、分割レコードリスト(A)の3行目「abcd、22」を取り出した文書456と、分割レコードリスト(B)の3行目の「abcd、窃盗」を取り出した文書556の間の類似度を算出する。同様に、レコード統合部16は、分割レコードリスト(A)の3行目「abcd、22」を取り出した文書456と、分割レコードリスト(B)の4行目の「abcd、収賄」を取り出した文書983の間の類似度を算出する。レコード統合部16は、これらの類似度に基づいて値vに対するレコードを選択する。例えば、レコード統合部16は、算出した類似度が最も高い組み合わせを値vに対するレコードとして選択してもよい。もしくは、レコード統合部16は、算出した類似度が高い上位n個の組合せを値vに対するレコードとして選択してもよい。
【0100】
上記説明では、ユーザもしくは外部のプログラムが、対象文書記憶部11内の少なくとも一つのタグ付きテキストT1と、そのタグ付きテキストに対する指定抽出位置の集合とを入力することにより処理を開始する場合について説明した。ユーザもしくは外部のプログラムが、タグ付きテキストT1及び指定抽出位置の集合に加え、指定抽出位置のキー情報を入力する場合であれば、主キー特定部12は、キー情報を作成しなくてもよい。
【0101】
本発明によれば、関係分割部13が、タグ付きテキストと、3個以上の指定位置情報と、その抽出位置情報が示す位置に対応するレコードのキー情報とをもとに、指定抽出位置リストを作成する。次に、抽出規則作成部14が、タグ付きテキストと指定抽出位置リストが与えられたときに、その指定抽出位置リストに含まれる指定抽出位置が示す位置に対応する単語またはタグを組み合わせた単語タグ文字列を指定抽出位置リストごとに作成する。そして、抽出規則作成部14は、単語タグ文字列を選択する基準となる評価値を算出し、その評価値を用いて単語タグ文字列の中から一の単語タグ文字列を選択する。また、抽出規則作成部14は、タグ付きテキストを文節ごとに分割した単語のうち、指定位置情報が示す位置の文字列を含む文節分割単語を抽出し、その文節分割単語における文字列のうち、位置情報が示す位置に含まれない文字列である付属文字列を抽出する。そして、抽出規則作成部14は、選択した単語タグ文字列と付属文字列とをもとに抽出規則を作成する。
【0102】
よって、指定された位置に対応する情報と同等の概念を有する情報を効率よく抽出可能な抽出規則を作成できる。すなわち、指定抽出位置が3つ以上あるレコード抽出規則作成問題においても、効率の良い抽出規則を作成することができる。これは、レコード抽出規則作成問題を、より小さい複数の問題に分割することによって、効率の良い抽出規則を作成していると言える。
【0103】
例えば、ユーザが入力する教師データが少数であっても、その入力をもとに即座に抽出規則を作成できるため、該当の情報をオンデマンドでユーザに提供することができる。
【0104】
また、本発明によれば、主キー特定部12が、タグ付きテキストと、3個以上の指定位置情報が指定されたときに、対象文書記憶部11に記憶されたタグ付きテキストの中から、指定位置情報が示す位置に対応する文字列の中から選択されたに文字列の組合せがすべて含まれるタグ付きテキストの数(すなわち、文字列包含テキスト数)を算出する。そして、主キー特定部12は、文字列包含テキスト数と包含文字列数とをもとに、文字列の組合せがキー文字列か否かを判断して、キー情報を作成してもよい。この場合、関係分割部13は、主キー特定部12が生成したキー情報と抽出位置情報(すなわち、キー付き指定抽出位置リスト)及びタグ付きテキストをもとに文字列抽出リストを生成する。また、主キー特定部12は、文字列数がより小さい文字列の組合せであって、その文字列の組合せにおける文字列包含テキスト数が、予め定められた閾値よりも小さい場合に、その組み合わせをキー文字列として特定する。
【0105】
この場合、ユーザもしくは外部のプログラムからキーを受け取る必要がなくなる。そのため、効率の良い抽出規則をより多く作成することができる。
【0106】
また、抽出実行部15が抽出規則に適合するレコードをタグ付きテキストから抽出し、レコード統合部16が、抽出した一つのレコードに対して、キー文字列が等しい他のレコードを結合させてもよい。この場合、ユーザもしくは外部のプログラムは、該当する情報を効率よく得ることができる。
【0107】
例えば、事例として、図1に例示するタグ付きテキストと、図2に例示する指定抽出位置が入力された場合を考える。上述のタグ置換抽出規則によれば、抽出規則を「$[人名]$容疑者($[数値]$)を$[犯罪]$」と作成することができる。しかし、この規則では、3つのタグとその付近の文字列が完全一致しなければならず、抽出の効率が悪い。例えば、この規則では、「abcd容疑者(34)を逮捕。abcd容疑者は強盗殺人の容疑で…」のように、人名と年齢、人名と逮捕容疑が複数の文に分かれているような場合や、それぞれの関係が複数の文書に分かれて記述される場合に対応できない。
【0108】
一方、本発明によれば、複数の指定抽出位置が与えられたときに、主キー特定部12及び関係分割部13が、キーとなる指定抽出位置と、キーでない指定抽出位置との関係に分割する。そして、例えば、図1に例示するタグ付きテキストと、図2に例示する指定抽出位置が入力された場合、抽出規則作成部14が、人名とその年齢の関係を取り出す抽出規則である「$[人名]$容疑者($[数値]$)」を作成する。同様に、抽出規則作成部14が、人名と逮捕容疑との関係を取り出す抽出規則である「$[人名]$容疑者*を$[犯罪]$」を作成する。よって、「abcd容疑者(34)を逮捕。abcd容疑者は強盗殺人の容疑で…」のように、それぞれの関係が離れたタグ付きテキストが与えられた場合でも、抽出実行部15が二つの抽出規則を使用することにより情報を抽出できる。そして、レコード統合部16が、抽出結果として得られたそれぞれの情報を、[人名]をもとに結合するため、これらの情報を一つのレコードとして取り出すことができる。
【実施例】
【0109】
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。以下の説明では、対象文書記憶部11に逮捕情報に関する新聞記事が数千記事登録されており、図1に例示するタグ付きテキストと、図2に例示する指定抽出位置の集合が入力される場合を例に挙げて説明する。
【0110】
図1に例示するタグ付きテキスト及び図2に例示する指定抽出位置の集合が入力されると、主キー特定部12は、各指定抽出位置内の文字列が対象文書記憶部11内に登場した総数(例えば、包含文字列数)を調べる。ここでは、「abcd」、「20」、「強盗殺人」のうち、「abcd」が2回、「20」が280回、「強盗殺人」が450回登場したとする。対象文書記憶部11内に逮捕情報に関する新聞記事が含まれていることを加味すると、この仮定は妥当であると考えられる。このとき、主キー特定部12は、「abcd」という文字列に相当する指定抽出位置である「9文字目から13文字目」をキー指定抽出位置とし、図6に例示したキー付き指定抽出位置リストを出力する。
【0111】
次に、関係分割部13は、このキー付き指定抽出位置リストを元に、「abcd」と「20」、「abcd」と「強盗殺人」という関係に分割し、図7に例示する二つの指定抽出位置リスト(A),(B)を作成する。抽出規則作成部14は、図7に例示する指定抽出位置リスト(A),(B)をもとに、「$[人名]$容疑者($[数値]$)」という抽出規則と、「$[人名]$容疑者*$[犯罪]$」という二つの抽出規則を作成する。
【0112】
抽出実行部15は、作成された抽出規則ごとに、対象文書記憶部11内のタグ付きテキストと比較し、適合する文字列を組み合わせた図18に例示する分割レコードリストを抽出する。レコード統合部16は、図18に例示する二つの分割レコードリストを統合して、図20に例示するレコードを作成する。
【0113】
他にも、本発明は、テキストマイニングなど、大量のテキストから特定の情報に注目して情報を収集、抽出、分析するアプリケーションなどにも適用可能である。
【0114】
次に、本発明の最小構成を説明する。図21は、本発明の最小構成を示す説明図(ブロック図)である。本発明による抽出規則作成システムは、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストと、そのタグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報(例えば、指定抽出位置)と、その位置情報が示す位置に対応する文字列ごとに定められ、その文字列が各文字列の組合せを識別するキー文字列(例えば、キー指定抽出位置の文字列)に該当するか否かを示すキー情報とをもとに、文字列の組合せにおけるキー文字列の位置情報と、その組合せにおけるキー文字列以外の文字列の位置情報との組合せである組合せ位置情報(例えば、指定抽出位置リスト)を作成する組合せ位置情報作成手段81(例えば、関係分割部13)と、タグ付きテキストと組合せ位置情報が与えられたときに、その組合せ位置情報に含まれる位置情報が示す位置に対応する単語またはタグを組み合わせた単語タグ文字列をその組合せ位置情報ごとに作成する単語タグ文字列作成手段82(例えば、抽出規則作成部14)と、単語タグ文字列を選択する基準となる評価値を算出し、その評価値を用いて単語タグ文字列の中から一の単語タグ文字列を選択する単語タグ文字列選択手段83(例えば、抽出規則作成部14)と、タグ付きテキストを文節ごとに分割した単語のうち、位置情報が示す位置の文字列を含む単語である文節分割単語を抽出し、その文節分割単語における文字列のうち、位置情報が示す位置に含まれない文字列である付属文字列(例えば、付属文字列情報)を抽出する付属文字列抽出手段84(例えば、抽出規則作成部14)と、単語タグ文字列選択手段83が選択した単語タグ文字列と付属文字列とをもとにタグ付きテキストから文字列を抽出するための規則である抽出規則を作成する抽出規則作成手段85(例えば、抽出規則作成部14)とを備えている。
【0115】
そのような構成により、指定された位置に対応する情報と同等の概念を有する情報を効率よく抽出可能な抽出規則を作成できる。
【0116】
また、上記の実施形態には、以下に示す構成の抽出規則作成システムが開示されている。
【0117】
(1)文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストと、そのタグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報(例えば、指定抽出位置)と、その位置情報が示す位置に対応する文字列ごとに定められ、その文字列が各文字列の組合せを識別するキー文字列(例えば、キー指定抽出位置の文字列)に該当するか否かを示すキー情報とをもとに、文字列の組合せにおけるキー文字列の位置情報と、その組合せにおけるキー文字列以外の文字列の位置情報との組合せである組合せ位置情報(例えば、指定抽出位置リスト)を作成する組合せ位置情報作成手段(例えば、関係分割部13)と、タグ付きテキストと組合せ位置情報が与えられたときに、その組合せ位置情報に含まれる位置情報が示す位置に対応する単語またはタグを組み合わせた単語タグ文字列をその組合せ位置情報ごとに作成する単語タグ文字列作成手段(例えば、抽出規則作成部14)と、単語タグ文字列を選択する基準となる評価値を算出し、その評価値を用いて単語タグ文字列の中から一の単語タグ文字列を選択する単語タグ文字列選択手段(例えば、抽出規則作成部14)と、タグ付きテキストを文節ごとに分割した単語のうち、位置情報が示す位置の文字列を含む単語である文節分割単語を抽出し、その文節分割単語における文字列のうち、位置情報が示す位置に含まれない文字列である付属文字列(例えば、付属文字列情報)を抽出する付属文字列抽出手段(例えば、抽出規則作成部14)と、単語タグ文字列選択手段が選択した単語タグ文字列と付属文字列とをもとにタグ付きテキストから文字列を抽出するための規則である抽出規則を作成する抽出規則作成手段(例えば、抽出規則作成部14)とを備えた抽出規則作成システム。
【0118】
(2)タグ付きテキストと、そのタグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報(例えば、指定抽出位置)が指定されたときに、位置情報が示す位置に対応する一つ以上の文字列を組み合わせた文字列群がすべて含まれるタグ付きテキスト数をタグ付きテキスト記憶手段(例えば、対象文書記憶部11)に記憶されたタグ付きテキストの中から算出するテキスト数算出手段(例えば、主キー特定部12)と、テキスト数算出手段が算出したタグ付きテキスト数と文字列群に含まれる文字列数(例えば、包含文字列数)とをもとに、文字列群がキー文字列か否かを判断して、キー情報を作成するキー情報作成手段とを備え、組合せ位置情報作成手段が、キー情報作成手段が作成したキー情報と位置情報(例えば、キー付き指定抽出位置リスト)及びタグ付きテキストをもとに組合せ位置情報を作成し、キー情報作成手段が、文字列数がより小さい文字列の組合せであって、その文字列の組合せにおけるタグ付きテキスト数が、予め定められた閾値(例えば、閾値θ)よりも小さい場合に、その組み合わせをキー文字列と判断してキー情報を作成する抽出規則作成システム。
【0119】
(3)抽出規則に適合する文字列の組合せ(例えば、レコード)をタグ付きテキストから抽出する文字列抽出手段(例えば、抽出実行部15)と、文字列抽出手段が抽出した一の文字列の組合せに対して、キー文字列が等しい他の文字列の組合せを結合させる文字列結合手段(例えば、レコード統合部16)とを備えた抽出規則作成システム。
【0120】
(4)文字列結合手段が、一の文字列の組合せに結合させる他の文字列の組合せが複数存在する場合に、一の文字列の組合せを含むタグ付きテキストと他の文字列の組合せを含むタグ付きテキストとの類似度を算出し、その類似度に基づいて決定したタグ付きテキストに含まれる他の文字列の組合せを一の文字列の組合せに対して結合させる抽出規則作成システム。
【0121】
(5)単語タグ文字列選択手段が、単語タグ文字列が1つのタグ付きテキスト内で適合する箇所がより少ないほど評価値を高く算出し、単語タグ文字列がより多くのタグ付きテキスト内で適合するほど評価値を高く算出する(例えば、式1を用いて算出する)抽出規則作成システム。
【0122】
(6)単語タグ文字列作成手段が、作成した単語タグ文字列のうち、タグを一つ以上含む単語タグ文字列を選択する抽出規則作成システム。
【0123】
(7)抽出規則作成手段が、単語タグ文字列に含まれる単語またはタグ及び付属文字列を、その単語またはタグ及び付属文字列の開始位置が小さい順に結合して抽出規則を作成する抽出規則作成システム。
【0124】
(8)組合せ位置情報作成手段が、キー文字列と、キー文字列以外の文字列とを組み合わせて組合せ位置情報を作成する抽出規則作成システム。
【産業上の利用可能性】
【0125】
本発明は、文書から情報を抽出するための抽出規則を作成する抽出規則作成システムに好適に適用される。
【符号の説明】
【0126】
11 対象文書記憶部
12 主キー特定部
13 関係分割部
14 抽出規則作成部
15 抽出実行部
16 レコード統合部

【特許請求の範囲】
【請求項1】
文字列中の任意の位置に付加された情報であって、当該情報が付加された文字列の位置を示す位置情報と、当該位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストと、当該タグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報と、当該位置情報が示す位置に対応する文字列ごとに定められ、当該文字列が前記各文字列の組合せを識別するキー文字列に該当するか否かを示すキー情報とをもとに、前記文字列の組合せにおけるキー文字列の位置情報と、当該組合せにおけるキー文字列以外の文字列の位置情報との組合せである組合せ位置情報を作成する組合せ位置情報作成手段と、
前記タグ付きテキストと前記組合せ位置情報が与えられたときに、当該組合せ位置情報に含まれる位置情報が示す位置に対応する単語またはタグを組み合わせた単語タグ文字列を当該組合せ位置情報ごとに作成する単語タグ文字列作成手段と、
前記単語タグ文字列を選択する基準となる評価値を算出し、当該評価値を用いて前記単語タグ文字列の中から一の単語タグ文字列を選択する単語タグ文字列選択手段と、
前記タグ付きテキストを文節ごとに分割した単語のうち、前記位置情報が示す位置の文字列を含む単語である文節分割単語を抽出し、当該文節分割単語における文字列のうち、前記位置情報が示す位置に含まれない文字列である付属文字列を抽出する付属文字列抽出手段と、
前記単語タグ文字列選択手段が選択した単語タグ文字列と前記付属文字列とをもとに、前記タグ付きテキストから文字列を抽出するための規則である抽出規則を作成する抽出規則作成手段とを備えた
ことを特徴とする抽出規則作成システム。
【請求項2】
タグ付きテキストと、当該タグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報が指定されたときに、前記位置情報が示す位置に対応する一つ以上の文字列を組み合わせた文字列群がすべて含まれるタグ付きテキスト数をタグ付きテキスト記憶手段に記憶されたタグ付きテキストの中から算出するテキスト数算出手段と、
前記テキスト数算出手段が算出したタグ付きテキスト数と前記文字列群に含まれる文字列数とをもとに、前記文字列群がキー文字列か否かを判断して、キー情報を作成するキー情報作成手段とを備え、
組合せ位置情報作成手段は、前記キー情報作成手段が作成したキー情報と位置情報及びタグ付きテキストをもとに組合せ位置情報を作成し、
前記キー情報作成手段は、前記文字列数がより小さい文字列の組合せであって、当該文字列の組合せにおける前記タグ付きテキスト数が、予め定められた閾値よりも小さい場合に、その組み合わせをキー文字列と判断してキー情報を作成する
請求項1記載の抽出規則作成システム。
【請求項3】
抽出規則に適合する文字列の組合せをタグ付きテキストから抽出する文字列抽出手段と、
前記文字列抽出手段が抽出した一の文字列の組合せに対して、キー文字列が等しい他の文字列の組合せを結合させる文字列結合手段とを備えた
請求項1または請求項2に記載の抽出規則作成システム。
【請求項4】
文字列結合手段は、一の文字列の組合せに結合させる他の文字列の組合せが複数存在する場合に、一の文字列の組合せを含むタグ付きテキストと他の文字列の組合せを含むタグ付きテキストとの類似度を算出し、当該類似度に基づいて決定したタグ付きテキストに含まれる他の文字列の組合せを一の文字列の組合せに対して結合させる
請求項3記載の抽出規則作成システム。
【請求項5】
単語タグ文字列選択手段は、単語タグ文字列が1つのタグ付きテキスト内で適合する箇所がより少ないほど評価値を高く算出し、単語タグ文字列がより多くのタグ付きテキスト内で適合するほど評価値を高く算出する。
請求項1から請求項4のうちのいずれか1項に記載の抽出規則作成システム。
【請求項6】
単語タグ文字列作成手段は、作成した単語タグ文字列のうち、タグを一つ以上含む単語タグ文字列を選択する
請求項1から請求項5のうちのいずれか1項に記載の抽出規則作成システム。
【請求項7】
抽出規則作成手段は、単語タグ文字列に含まれる単語またはタグ及び付属文字列を、当該単語またはタグ及び付属文字列の開始位置が小さい順に結合して抽出規則を作成する
請求項1から請求項6のうちのいずれか1項に記載の抽出規則作成システム。
【請求項8】
組合せ位置情報作成手段は、キー文字列と、キー文字列以外の文字列とを組み合わせて組合せ位置情報を作成する
請求項1から請求項7のうちのいずれか1項に記載の抽出規則作成システム。
【請求項9】
文字列中の任意の位置に付加された情報であって、当該情報が付加された文字列の位置を示す位置情報と、当該位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストと、当該タグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報と、当該位置情報が示す位置に対応する文字列ごとに定められ、当該文字列が前記各文字列の組合せを識別するキー文字列に該当するか否かを示すキー情報とをもとに、前記文字列の組合せにおけるキー文字列の位置情報と、当該組合せにおけるキー文字列以外の文字列の位置情報との組合せである組合せ位置情報を作成する組合せ位置情報作成ステップと、
前記タグ付きテキストと前記組合せ位置情報が与えられたときに、当該組合せ位置情報に含まれる位置情報が示す位置に対応する単語またはタグを組み合わせた単語タグ文字列を当該組合せ位置情報ごとに作成する単語タグ文字列作成ステップと、
前記単語タグ文字列を選択する基準となる評価値を算出し、当該評価値を用いて前記単語タグ文字列の中から一の単語タグ文字列を選択する単語タグ文字列選択ステップと、
前記タグ付きテキストを文節ごとに分割した単語のうち、前記位置情報が示す位置の文字列を含む単語である文節分割単語を抽出し、当該文節分割単語における文字列のうち、前記位置情報が示す位置に含まれない文字列である付属文字列を抽出する付属文字列抽出ステップと、
前記単語タグ文字列選択ステップで選択した単語タグ文字列と前記付属文字列とをもとに、前記タグ付きテキストから文字列を抽出するための規則である抽出規則を作成する抽出規則作成ステップとを含む
ことを特徴とする抽出規則作成方法。
【請求項10】
タグ付きテキストと、当該タグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報が指定されたときに、前記位置情報が示す位置に対応する一つ以上の文字列を組み合わせた文字列群がすべて含まれるタグ付きテキスト数をタグ付きテキスト記憶手段に記憶されたタグ付きテキストの中から算出するテキスト数算出ステップと、
前記テキスト数算出ステップで算出したタグ付きテキスト数と前記文字列群に含まれる文字列数とをもとに、前記文字列群がキー文字列か否かを判断して、キー情報を作成するキー情報作成ステップとを含み、
組合せ位置情報作成ステップで、前記キー情報作成ステップで作成したキー情報と位置情報及びタグ付きテキストをもとに組合せ位置情報を作成し、
前記キー情報作成ステップで、前記文字列数がより小さい文字列の組合せであって、当該文字列の組合せにおける前記タグ付きテキスト数が、予め定められた閾値よりも小さい場合に、その組み合わせをキー文字列と判断してキー情報を作成する
請求項9記載の抽出規則作成方法。
【請求項11】
抽出規則に適合する文字列の組合せをタグ付きテキストから抽出する文字列抽出ステップと、
前記文字列抽出ステップで抽出した一の文字列の組合せに対して、キー文字列が等しい他の文字列の組合せを結合させる文字列結合ステップとを含む
請求項9または請求項10に記載の抽出規則作成方法。
【請求項12】
コンピュータに、
文字列中の任意の位置に付加された情報であって、当該情報が付加された文字列の位置を示す位置情報と、当該位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストと、当該タグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報と、当該位置情報が示す位置に対応する文字列ごとに定められ、当該文字列が前記各文字列の組合せを識別するキー文字列に該当するか否かを示すキー情報とをもとに、前記文字列の組合せにおけるキー文字列の位置情報と、当該組合せにおけるキー文字列以外の文字列の位置情報との組合せである組合せ位置情報を作成する組合せ位置情報作成処理、
前記タグ付きテキストと前記組合せ位置情報が与えられたときに、当該組合せ位置情報に含まれる位置情報が示す位置に対応する単語またはタグを組み合わせた単語タグ文字列を当該組合せ位置情報ごとに作成する単語タグ文字列作成処理、
前記単語タグ文字列を選択する基準となる評価値を算出し、当該評価値を用いて前記単語タグ文字列の中から一の単語タグ文字列を選択する単語タグ文字列選択処理、
前記タグ付きテキストを文節ごとに分割した単語のうち、前記位置情報が示す位置の文字列を含む単語である文節分割単語を抽出し、当該文節分割単語における文字列のうち、前記位置情報が示す位置に含まれない文字列である付属文字列を抽出する付属文字列抽出処理、および、
前記単語タグ文字列選択処理で選択した単語タグ文字列と前記付属文字列とをもとに、前記タグ付きテキストから文字列を抽出するための規則である抽出規則を作成する抽出規則作成処理を実行させる
ための抽出規則作成プログラム。
【請求項13】
コンピュータに、
タグ付きテキストと、当該タグ付きテキストに含まれる文字列またはタグの位置を示す3個以上の位置情報が指定されたときに、前記位置情報が示す位置に対応する一つ以上の文字列を組み合わせた文字列群がすべて含まれるタグ付きテキスト数をタグ付きテキスト記憶手段に記憶されたタグ付きテキストの中から算出するテキスト数算出処理、および、
前記テキスト数算出処理で算出したタグ付きテキスト数と前記文字列群に含まれる文字列数とをもとに、前記文字列群がキー文字列か否かを判断して、キー情報を作成するキー情報作成処理を実行させ、
組合せ位置情報作成処理で、前記キー情報作成処理で作成したキー情報と位置情報及びタグ付きテキストをもとに組合せ位置情報を作成させ、
前記キー情報作成処理で、前記文字列数がより小さい文字列の組合せであって、当該文字列の組合せにおける前記タグ付きテキスト数が、予め定められた閾値よりも小さい場合に、その組み合わせをキー文字列と判断してキー情報を作成させる
請求項12記載の抽出規則作成プログラム。
【請求項14】
コンピュータに、
抽出規則に適合する文字列の組合せをタグ付きテキストから抽出する文字列抽出処理、および、
前記文字列抽出処理で抽出した一の文字列の組合せに対して、キー文字列が等しい他の文字列の組合せを結合させる文字列結合処理を実行させる
請求項12または請求項13に記載の抽出規則作成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate


【公開番号】特開2010−262577(P2010−262577A)
【公開日】平成22年11月18日(2010.11.18)
【国際特許分類】
【出願番号】特願2009−114543(P2009−114543)
【出願日】平成21年5月11日(2009.5.11)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】