説明

概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体

【課題】 結果として、充分な精度を持つ概念情報データベースを得ることが容易である概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体を提供することを目的とするものである。

【解決手段】 与えられた文書集合を解析し、上記与えられた文書集合中に存在している語を抽出し、上記与えられた文書集合中に存在している語連鎖を抽出し、上記語のそれぞれと上記語連鎖のそれぞれとの共起回数を検出し、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語の概念情報を、定量化し、上記得られた上記語の概念情報を、データベースとする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、語または語連鎖の持つ概念情報を定量化してデータベース化する装置および方法に係り、特に、与えられた文書中に現れる語または語連鎖の概念情報を、上記与えられた文書中に現れる語または語連鎖と、上記語または語連鎖との共起度に基づいて、定量化する概念情報データベース作成装置および方法に関する。
【背景技術】
【0002】
従来、単語間の類似性判別や、文書検索の高精度化を目的として、単語の概念情報をデータベース化する装置・方法が提案されている。つまり、単語間の類似性判別を目的として、単語を要素とした多次元空間を用意し、この多次元空間中に、各単語をベクトルとして配置するデータベースの作成手法が提案されている(たとえば、非特許文献1、非特許文献2参照)。
【0003】
また、文中の「語」の概念を定量化する場合、構文解析を用いて、「語」と文法上の組を形成する関係にある「関係語」を取り出し、それらの間の「結合度」を用いる手法が提案されている(たとえば、特許文献1参照)。
【0004】
非特許文献1、非被特許文献2記載の従来例は、ある単語の概念を、共起する複数の単語で構成される多次元空間で表現する。これに対して、特許文献1記載の従来例は、共起だけではなく、ある単語と文法的に関係(たとえば主語と述語との関係)がある複数の単語で構成される多次元空間で表現するという点が大きく異なる。
【非特許文献1】Schuetze, H., “Dimensions of Meaning”, in Proceedings of Supercomputing '92, pp.787-796, 1992
【非特許文献2】笠原,松澤,石川、「国語辞書を利用した日常語の類似性判別」、情報処理学会論文誌、Vol.38、No.7、pp.1272-1284、1997年
【特許文献1】特開平9−134360号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1、非特許文献2記載の従来例では、文法的・意味的な関係を考慮せずに共起頻度を算出するので、単語間の類似性を判別する場合や文書検索を高精度化する場合に利用するには、充分ではないという問題がある。
【0006】
また、特許文献1記載の従来例では、文法的・意味的な関係を捉えるために、構文解析を行うが、現在の技術では、文法的・意味的な関係を完全に捉えることは難しいという問題がある。
【0007】
すなわち、上記従来例では、結果として、充分な精度を持つ概念情報データベースを得ることが困難であるという問題がある。
【0008】
本発明は、結果として、充分な精度を持つ概念情報データベースを得ることが容易である概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体を提供することを目的とするものである。
【課題を解決するための手段】
【0009】
本発明は、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語を抽出し、記憶装置に記憶する語抽出手段と、上記与えられた文書集合中に存在している語連鎖を抽出し、記憶装置に記憶する語連鎖抽出手段と、上記語のそれぞれと上記語連鎖のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出手段と、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語の概念情報を、定量化し、記憶装置に記憶する概念情報定量化手段と、上記概念情報定量化手段で得られた上記語の概念情報を、データベースとする概念情報データベース作成手段とを有する概念情報データベース作成装置である。
【0010】
また、本発明は、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語連鎖を抽出するか、または、語連鎖と語とを抽出し、記憶装置に記憶する抽出手段と、上記語連鎖のそれぞれと上記語連鎖または語のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出手段と、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語連鎖の概念情報を、定量化し、記憶装置に記憶する概念情報定量化手段と、上記概念情報定量化手段で得られた上記語連鎖の概念情報を、データベースとする概念情報データベース作成手段とを有する概念情報データベース作成装置である。
【発明の効果】
【0011】
本発明によれば、語連鎖との共起を用いるので、構文解析を行うことなく間接的に文法的・意味的な関係を捉えることができ、単語間の類似性を判別する場合や文書検索を高精度化する場合に、充分な精度で概念情報データベースを作成することができるという効果を奏する。
【発明を実施するための最良の形態】
【0012】
発明を実施するための最良の形態は、以下の実施例である。
【実施例1】
【0013】
図1は、本発明の実施例1である概念情報データベース作成装置10の基本構成を示すブロック図である。
【0014】
概念情報データベース作成装置10は、概念情報データベースを作成する元となる大量の文書集合20を入力し、概念情報データベース30を出力し、文書解析部11と、語抽出部12、語連鎖抽出部13、共起回数検出部14と、概念情報定量化部15と、概念情報データベース作成部16とを有する。
【0015】
文書解析部11は、文書集合20に含まれている全ての文に対して形態素解析を行い、単語に分割するとともに、各単語に品詞を付与する。
【0016】
語抽出部12は、文書集合20に含まれている語を抽出し、記憶装置に記憶する。
【0017】
語連鎖抽出部13は、文書集合20に含まれている語連鎖を抽出し、記憶装置に記憶する。
【0018】
共起回数検出部14は、文書解析部11が行った解析結果に基づいて、ある語または語連鎖に対して共起する語または語連鎖を、抽出し、共起回数をカウントし、記憶装置に記憶する。
【0019】
上記「語連鎖」は、文書中で連続するn単語の連鎖(nは2以上の整数)である。
【0020】
概念情報定量化部15は、共起回数検出部14でカウントされた共起回数に基づいて、着目している語または語連鎖と、語または語連鎖との共起度を計算し、着目している語または語連鎖に対する概念情報を定量化する。なお、上記定量化については、後述する。
【0021】
概念情報データベース作成部16は、語または語連鎖をキーとして、概念情報定量化部15で定量化された概念情報を検索できるようにデータベース化する。
【0022】
図2は、概念情報データベース作成装置10の概略動作を示すフローチャートである。
【0023】
S1では、文書解析部11が、文書集合20から1つの文書を抽出する。
【0024】
S2では、文書解析部11が、S1で取り出された文書中から1つの文を抽出する。
【0025】
S3では、文書解析部11が、S2で取り出された1文に対して形態素解析を行い、単語単位に分割し、単語に分割するとともに、各単語に品詞を付与する。
【0026】
S4では、取り出された文書中の全文を処理したかどうかを判断する。未処理の文が存在する場合、S5に進み、未処理の文が存在しない場合(全ての文を処理済の場合)、S6に進む。
【0027】
S5では、次の文を処理対象として、S2〜S5の処理を繰り返す。
【0028】
S6では、文書集合20に含まれている全文書を処理したかどうかを判断する。未処理の文書が存在する場合、S7に進み、未処理の文書が存在しない場合(全ての文書を処理済の場合)、文書集合20中の全文書の形態素解析結果を語抽出部12、語連鎖抽出部13に送り、S8に進む。
【0029】
S7では、文書集合20中の次の文書を処理対象として、S1〜S6の処理を繰り返す。
【0030】
S8では、語抽出部12、語連鎖抽出部13が、形態素解析結果から、全ての語または語連鎖(2単語連鎖以上の連鎖)を抽出し、記憶装置に記憶する。
【0031】
S9では、共起回数検出部14が、抽出された自立語(名詞、代名詞、動詞、形容詞、副詞)または語連鎖のそれぞれに対して、共起する自立語または語連鎖を抽出し、出現回数をカウントし、このカウント結果を、概念情報定量化部15に送る。
【0032】
なお、実施例において、出現回数をカウントする場合、次の3つの類型がある。すなわち、
(1)文書集合20から語(自立語)と、語連鎖とを抽出し、所定の文書範囲に存在している上記抽出された語のそれぞれと、上記所定の文書範囲に存在している語連鎖のそれぞれとの共起回数をカウントする類型。
(2)文書集合20から、語連鎖を抽出し、所定の文書範囲に存在している上記抽出された第1の語連鎖のそれぞれと、上記所定の文書範囲に存在している第2の語連鎖のそれぞれとの共起回数をカウントする類型。
(3)文書集合20から、語連鎖と語(独立語)とを抽出し、所定の文書範囲に存在している上記抽出された語連鎖のそれぞれと、上記所定の文書範囲に存在している語のそれぞれとの共起回数をカウントする類型。
がある。
【0033】
なお、上記「所定の文書範囲」は、共起回数をカウントする文書範囲であり、たとえば、上記与えられた文書集合の部分集合、上記文書に含まれている少なくとも1つの段落、上記1つの段落に含まれている少なくとも1つの文のうちの1つである。
【0034】
S10では、共起回数検出部14がカウントした結果に基づいて、概念情報定量化部15が、抽出された語または語連鎖のそれぞれについて、語または語連鎖のそれぞれとの共起度を計算する。
【0035】
S11では、上記計算された共起度に基づいて、概念情報定量化部15が、それぞれの語または語連鎖の概念情報を定量化し、この定量化した結果を、概念情報データベース作成部16に送る。
【0036】
ここで、上記「概念情報」は、語または語連鎖を行とし、共起する対象として調べる語または語連鎖を列とし、共起度を値とする行列として定量化される。すなわち、語または語連鎖の概念情報は、語または語連鎖の共起度を要素とする行ベクトルとして表現される。
【0037】
この場合、行列の行、列のそれぞれの個数を、語または語連鎖の頻度に応じて設定するようにしてもよい。
【0038】
さらに、共起度が0であるものが多く存在する場合、図8に示すように、文書集合20から抽出した語連鎖の数を、選択的に少なくするようにしてもよい。また、共起度が0のものが多く存在する場合における語連鎖を構成する語の数を少なくした語連鎖(たとえば、3単語連鎖に対する2単語連鎖(単語bigram)や、1単語連鎖(単語unigram))の共起頻度を求め、この求めた共起度を使用して、概念情報を補完するようにしてもよい。また、特異値分解によって、列数を縮退するようにしてもよい。なお、ここでは、上記共起度を補完する方法については、特に限定しない。
【0039】
S12では、概念情報データベース作成部16が、語または語連鎖をキーとして、上記語または語連鎖の概念情報を検索できるように概念情報データベース30を作成する。そして、概念情報データベース作成処理を終了する。
【0040】
次に、具体例を用いて、概念情報データベース作成装置10の動作を説明する。
【0041】
図3は、実施例の具体例で使用する文書集合20の内容例を示す図である。
【0042】
文書集合20は、n個(nは整数)の文書によって構成されている。
【0043】
第1文書21、第2文書22、……、第n文書2nは、文書集合20に含まれている文書であり、第1文書21、第2文書22、……、第n文書2nの順で、文書集合を構成し、第n文書2nは、文書集合20に含まれている最終文書である。
【0044】
[具体例1](単語対単語trigramの例)
具体例1では、図3に示す文書集合20を対象として、概念情報データベース30を作成する。第1文書21から抽出した語は、自立語であり、この抽出された自立語と共起する回数を調べる対象としての語連鎖は、3単語連鎖(単語trigram)である。
【0045】
また、具体例として、共起回数をカウントする文書範囲が、同一文書内である例を示す。つまり、たとえば、第1文書21に含まれている自立語については、第1文書21のみに含まれている3単語連鎖との共起をカウントする。
【0046】
文書解析部11が、図3に示す文書集合20から第1文書21を抽出する(S1)。次に、文書解析部11が、S1で取り出された第1文書21中から第1文を抽出する(S2)。第1文書21は、図3に示す文書であり、第1文として、「我々は検索システムの研究開発を進めている。」が抽出される。さらに、文書解析部11が、この第1文に対して形態素解析を行い、記憶装置に記憶し、単語単位で分割し、各単語に品詞を表す識別子を付与し、記憶装置に記憶する(S3)。
【0047】
単語境界を「/」で示すと、上記形態素解析の結果は、以下のようになる。なお、記号[ ]は、品詞等を示す。
【0048】
第1文書:第1段落:第1文:我々[代名詞]/は[副助詞]/検索システム[複合名詞]/の[格助詞]/研究[サ変名詞]/開発[サ変名詞]/を[格助詞]/進める[動詞]/て[接続助詞]/いる[補助動詞]/。[記号]/
次に、取り出された第1文書21中の全文を処理したかどうかを判断し(S4)、まだ処理していない文が残っているので、次の第2文として、「PB電話機からの入力を簡単なものとするために、新しい日本語入力方式を採用している。」を処理対象とする(S5)。上記第2文についても、上記第1文における処理と同様に、形態素解析と識別子付与とを行い、記憶装置に記憶する(S3)。
【0049】
第1文書21に含まれている全ての文が処理されると(S4)、文書集合20に含まれている全文書を処理したかどうかを判断する(S6)。文書集合20は、図3に示す集合であるので、第2文書22を、次の処理対象とする(S7)。
【0050】
第2文書22の全文も処理され(S4)、文書集合20の全文書が処理され、つまり、第n文書2nまで処理が済むと(S6)、文書解析部2は、文書集合20中の全文書の形態素解析結果を、語抽出部12、語連鎖抽出部13に送る(S7)。
【0051】
語抽出部12、語連鎖抽出部13が、形態素解析結果から、全ての語または語連鎖を抽出し、記憶装置に記憶する(S8)。ここで、具体例1では、抽出する語は、自立語であるので、第1文書21の第1文の形態素解析結果からは、「我々」、「検索システム」、「研究」、「開発」、「進める」の5つの自立語が抽出される。同様に、第2文以降、文書集合20に含まれている全文の形態素解析結果から、全ての自立語を抽出する。
【0052】
さらに、共起回数検出部14が、抽出された自立語のそれぞれに対して、語連鎖(3単語連鎖)を抽出し、上記抽出された自立語と上記3単語連鎖との共起回数をカウントし、このカウントされた結果を、概念情報定量化部15に送る(S9)。
【0053】
図4は、具体例1において、「文書集合20から抽出した語(自立語)」のそれぞれと、「文書集合20から抽出した語連鎖(3単語連鎖)」のそれぞれとの共起回数の例を示す図である。
【0054】
図4において、まず、たとえば、第1文書21の範囲で、自立語「我々」と語連鎖「検索システムの研究」との共起回数をカウントし、次に、第2文書22の範囲で、自立語「我々」と語連鎖「検索システムの研究」との共起回数をカウントし、……、最後に、第n文書2nの範囲で、自立語「我々」と語連鎖「検索システムの研究」との共起回数をカウントし、これらカウントした共起回数の合計値が、図4に示すように、56回である。
【0055】
また、自立語「我々」と、語連鎖「検索システムの研究」との共起回数をカウントする場合、同一文書中であれば、自立語「我々」と、語連鎖「検索システムの研究」との間に、どのような語が存在してもカウントし、また、自立語「我々」と、語連鎖「検索システムの研究」との間に存在する語の数がいくつであってもカウントする。さらに、同一文書中で、語連鎖「検索システムの研究」が自立語「我々」よりも先に出現する場合でもカウントする。
【0056】
これと同様に、たとえば、自立語「研究」に着目した場合、この自立語「研究」と語連鎖「ている。」との共起回数を、文書ごとにカウントし、このカウントした共起回数の合計値が、図4に示すように、76回である。
【0057】
具体例1では、共起する語連鎖は、3単語連鎖(単語trigram)であるので、第1文書21の第1文の形態素解析結果からは、「★★我々」、「★我々は」、「我々は検索システム」、「は検索システムの」、「検索システムの研究」、「の研究開発」、「研究開発を」、「開発を進める」、「を進めるて」、「進めるている」、「ている。」、「いる。本」、「。本システム」が、抽出される。なお、最初の2つの語連鎖に含まれている★印は、空単語を表す。また、最後の2つの3単語連鎖には、第2文の文頭の語である「本」、「システム」が含まれている。
【0058】
上記と同様にして、文書集合20に含まれている全文から、全ての3単語連鎖(単語trigram)を抽出する。
【0059】
図4において、「語連鎖」は、3単語であるが、2単語連鎖であってもよく、4単語以上が連鎖した語連鎖であってもよい。
【0060】
次に、共起回数検出部14がカウントした結果に基づいて、第1文書21から抽出した自立語のそれぞれについて、概念情報定量化部15が、3単語連鎖(単語trigram)との共起度を計算する(S10)。
【0061】
ここで、共起度として正規化した値を用い、上記正規化した値として、着目している自立語に関する3単語連鎖の全ての出現回数に対する個々の3単語連鎖の出現回数の割合を使用する。
【0062】
たとえば、図4において、自立語「我々」に関する3単語連鎖の出現回数の合計が1000であったとすると、個々の3単語連鎖の出現回数の割合は、図4における自立語「我々」に関するカウント値を1000で割った値が、正規化した値である。
【0063】
図5は、具体例1において、図4に示す場合において、「自立語」と、「語連鎖」との共起度の例を示す図である。
【0064】
さらに、概念情報定量化部15は、共起度に基づいて、それぞれの自立語の概念情報を定量化した後に、この定量化した結果を、概念情報データベース作成部16に送る(S11)。
【0065】
また、図5に示す場合において、自立語を行とし、3単語連鎖を列とし、共起度をそのまま値として行列をつくり、この行列が、概念情報を定量化するものであるとすれば、図5に示す共起度計算結果例が、そのまま概念情報定量化結果例となる。
【0066】
概念情報の定量化結果を受け取った概念情報データベース作成部16は、自立語をキーとして、この自立語の概念情報を検索できるように、概念情報データベース30を作成し、概念情報データベース作成処理を終了する(S12)。
【0067】
以上の動作によって、文書集合20から、3単語連鎖(単語trigram)の共起度を要素とする行ベクトルによって、自立語の概念情報が表現された概念情報データベース30を作成することができる。
【0068】
[具体例2](単語trigram対単語trigramの例)
具体例2においても、図3に示す文書集合20を対象に、概念情報データベース30を作成する。具体例1における自立語の代わりに、3単語連鎖(単語trigram)を使用し、具体例1における語連鎖は、同じく語連鎖を使用し、語連鎖同士で共起回数をカウントし、語連鎖として、3単語連鎖(単語trigram)を使用する。また、共起回数をカウントする文書範囲は、同一文書内(第1文書21に含まれている3単語連鎖に対して第1文書21内に含まれる3単語連鎖のみをカウントする等)とする。
【0069】
図2に示すS1〜S7に対応する動作は、具体例1と同じであるので、その説明を省略する。
【0070】
次に、語連鎖抽出部13は、形態素解析結果から、全ての語連鎖を抽出する(S8)。ここで、具体例2では、抽出する語連鎖は、3単語連鎖(単語trigram)であるので、第1文書21の第1文の形態素解析結果からは、「★★我々」、「★我々は」、「我々は検索システム」、「は検索システムの」、「検索システムの研究」、「の研究開発」、「研究開発を」、「開発を進める」、「を進めるて」、「進めるている」、「ている。」、「いる。本」、「。本システム」の13個の3単語連鎖(単語trigram)が抽出される。なお、最初の2つに含まれる★印は空単語を表す。また、最後の2つに3単語連鎖に含まれる「本」と「システム」は、第2文の単語である。
【0071】
上記と同様に、第2文以降、文書集合20に含まれる全文の形態素解析結果から、全ての3単語連鎖(単語trigram)を抽出する。
【0072】
さらに、共起回数検出部14は、抽出された3単語連鎖(単語trigram)のそれぞれに対して、共起する語連鎖を抽出し、共起回数をカウントし、このカウント結果を概念情報定量化部15に送る(S9)。
【0073】
具体例2では、抽出した語連鎖は、3単語連鎖(単語trigram)であるので、第1文書21の第1文の形態素解析結果から、上記13個の3単語連鎖(単語trigram)が抽出される。これと同様にして、文書集合20に含まれている全文から、全ての3単語連鎖(単語trigram)を抽出する。
【0074】
図6は、具体例2において、文書集合20から抽出した語連鎖同士の共起回数の例を示す図である。
【0075】
次に、共起回数検出部14がカウントした結果をもとに、3単語連鎖(単語trigram)のそれぞれについて、概念情報定量化部15が、同一文書内に共起する3単語連鎖(単語trigram)との共起度を計算する(S10)。
【0076】
ここで、共起度として、正規化した値を用い、正規化した値として、着目している自立語に関する3単語連鎖の全ての出現回数に対する個々の3単語連鎖の出現回数の割合を使用する。
【0077】
たとえぱ、図6において、3単語連鎖(単語trigram)「★★我々」に関する3単語連鎖の全ての出現回数(3単語連鎖「★★我々」について、3単語連鎖との共起回数の合計)が、200であったとすると、個々の共起する3単語連鎖の出現回数の割合は、図6の3単語連鎖(単語trigram)「★★我々」に関する計数値のそれぞれを、200で割った値が、正規化した値である。
【0078】
図7は、具体例2において、図6に示す場合において、語連鎖同士の共起度の例を示す図である。
【0079】
さらに、概念情報定量化部15は、共起度に基づいて、それぞれの3単語連鎖(単語trigram)の概念情報を定量化した後に、この結果を概念情報データベース作成部16に送る(S11)。
【0080】
3単語連鎖(単語trigram)を行とし、共起する3単語連鎖(単語trigram)を列とする。
【0081】
図8は、具体例2において、共起回数を調べる2つの語連鎖のうちの一方の語連鎖の数を減らした場合における語連鎖同士の共起度の例を示す図である。
【0082】
図7に示す例において、文書集合20から抽出した語連鎖の全部を使用するのではなく、いくつかを選択し、つまり、一方の3単語連鎖として、「我々は検索システム」、「は検索システムの」、「検索システムの研究」、「の研究開発」、「研究開発を」、「やWebを」、「を利用するた」の7個に限定した場合における概念情報定量化結果例を、図8に示してある。
【0083】
なお、上記一方の3単語連鎖の数を、7個以外に限定するようにしてもよい。
【0084】
このように、上記一方の3単語連鎖を、少ない個数に限定すると、計算が容易になる。
【0085】
ここで、上記一方の3単語連鎖を限定し、この限定された3単語連鎖との共起回数によって、共起度を再計算するようにしてもよい。
【0086】
概念情報データベース作成部16は、概念情報の定量化結果を受け取ると、3単語連鎖(単語trigram)をキーとして、該3単語連鎖(単語trigram)の概念情報を検索可能なように概念情報データベース30を作成し、概念情報データベース作成処理を終了する(S12)。
【0087】
なお、キーとして、3単語連鎖(単語trigram)だけではなく、各3単語連鎖に含まれている単語を副次キーとして使用するようにしてもよい。つまり、単語を副次キーとし、この単語からも、当該3単語連鎖を検索できるようにしてもよく、また、自立語を副次キーとしてもよく、ここでは、副次キーについては限定しない。
【0088】
つまり、具体例2において、概念情報定量化手段は、第1の語連鎖のそれぞれと第2の語連鎖のそれぞれとの共起回収に基づいて共起度を求め、この求めた共起度に基づいて、上記語連鎖の概念情報を、定量化し、記憶装置に記憶する手段であり、上記第1の語連鎖は、文書中で連続するn単語の連鎖(nは2以上の整数)であり、上記第2の語連鎖は、文書中で連続するm単語の連鎖(mは2以上の整数)である。
【0089】
以上の動作によって、文書集合20から、3単語連鎖(単語trigram)の共起度を要素とする行ベクトルによって、3単語連鎖(単語trigram)の概念情報が表現された概念情報データベース30を作成することができる。
【0090】
[具体例3]
具体例3は、第1文書21から抽出した「語連鎖」と、「語」との共起回数をカウントし、このカウントされた共起回数に基づいて、上記と同様に、上記語連鎖の概念情報を、定量化し、共起度を求める例である。
【0091】
つまり、具体例3は、図4に示す行と列とを転置させて、共起回数を求め、共起度を求める例である。
【0092】
上記実施例によれば、与えられた文書を単語ごとに分割し、品詞等の文法情報を付与し(文書解析)、上記文書中に現れる語または語連鎖と一定の文書範囲内(同一の文書中、同一の段落中、または同一の文中等)に現れる語または語連鎖を抽出し、上記語または語連鎖の概念情報を、上記語または語連鎖のそれぞれの共起度に基づいて定量化し、この定量化して得られた全ての語または語連鎖の概念情報をデータベースとして作成するので、与えられた文書中に現れる語または語連鎖の概念情報を、それと共起する語または語連鎖との共起度に基づいて定量化することができる。
【0093】
つまり、上記実施例例は、語と語連鎖との組み合わせによって、データベースを作る実施例であり、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語を抽出し、記憶装置に記憶する語抽出手段と、上記与えられた文書集合中に存在している語連鎖を抽出し、記憶装置に記憶する語連鎖抽出手段と、上記語のそれぞれと上記語連鎖のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出手段と、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語の概念情報を、定量化し、記憶装置に記憶する概念情報定量化手段と、上記概念情報定量化手段で得られた上記語の概念情報を、データベースとする概念情報データベース作成手段とを有する概念情報データベース作成装置の例である。
【0094】
この場合、上記共起度は、上記語のうちで、着目している語に関する上記語連鎖のそれぞれの出現回数を正規化した値である。また、上記正規化した値は、上記着目している語に関する上記語連鎖の出現回数の合計に対する個々の上記語連鎖の出現回数の割合である。さらに、上記正規化した値は、上記着目している語に関する上記語連鎖の出現回数の中で、最大の出現回数に対する個々の上記語連鎖の出現回数の割合である。そして、上記語は、自立語であり、上記語連鎖は、文書中で連続するn単語の連鎖(nは2以上の整数)である。また、上記概念情報定量化手段は、上記文書集合における共起回数をカウントする文書範囲に存在している上記語と、上記語連鎖との共起度に基づいて、上記語の概念情報を定量化し、記憶装置に記憶する手段であり、上記共起回数をカウントする文書範囲は、上記与えられた文書集合の部分集合、上記文書に含まれている少なくとも1つの段落、上記1つの段落に含まれている少なくとも1つの文のうちの1つである。
【0095】
また、上記実施例は、語連鎖と語連鎖または語との組み合わせによって、データベースを作る実施例であり、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語連鎖を抽出するか、または、語連鎖と語とを抽出し、記憶装置に記憶する抽出手段と、上記語連鎖のそれぞれと上記語連鎖または語のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出手段と、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語連鎖の概念情報を、定量化し、記憶装置に記憶する概念情報定量化手段と、上記概念情報定量化手段で得られた上記語連鎖の概念情報を、データベースとする概念情報データベース作成手段とを有する概念情報データベース作成装置の例である。
【0096】
この場合、上記共起度は、上記語連鎖のうちで、着目している語連鎖に関する上記語連鎖または上記語のそれぞれの出現回数を正規化した値である。また、上記正規化した値は、上記着目している語連鎖に関する上記語連鎖または上記語の出現回数の合計に対する個々の上記語連鎖または上記語の出現回数の割合である。さらに、上記正規化した値は、上記着目している語連鎖に関する上記語連鎖または上記語の出現回数の中で、最大の出現回数に対する個々の上記語連鎖または上記語の出現回数の割合である。そして、上記語は、自立語であり、上記語連鎖は、文書中で連続するn単語の連鎖(nは2以上の整数)であるまた、上記概念情報定量化手段は、上記文書集合における共起回数をカウントする文書範囲に存在している上記語連鎖と、上記語または語連鎖との共起度に基づいて、上記語の概念情報を定量化し、記憶装置に記憶する手段であり、上記共起回数をカウントする文書範囲は、上記与えられた文書集合の部分集合、上記文書に含まれている少なくとも1つの段落、上記1つの段落に含まれている少なくとも1つの文のうちの1つである。さらに、上記概念情報定量化手段は、第1の語連鎖のそれぞれと第2の語連鎖のそれぞれとの共起度に基づいて、上記語連鎖の概念情報を、定量化し、記憶装置に記憶する手段であり、上記第1の語連鎖は、文書中で連続するn単語の連鎖(nは2以上の整数)であり、上記第2の語連鎖は、文書中で連続するm単語の連鎖(mは2以上の整数)である。
【0097】
また、上記実施例は、方法の実施例として把握することができ、与えられた文書集合を解析する文書解析段階と、上記与えられた文書集合中に存在している語を抽出し、記憶装置に記憶する語抽出段階と、上記与えられた文書集合中に存在している語連鎖を抽出し、記憶装置に記憶する語連鎖抽出段階と、上記語のそれぞれと上記語連鎖のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出段階と、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語の概念情報を、定量化し、記憶装置に記憶する概念情報定量化段階と、上記概念情報定量化段階で得られた上記語の概念情報を、データベースとする概念情報データベース作成段階とを有する概念情報データベース作成方法の例である。
【0098】
さらに、上記実施例は、方法の別の実施例として把握することができ、与えられた文書集合を解析する文書解析段階と、上記与えられた文書集合中に存在している語連鎖を抽出するか、または、語連鎖と語とを抽出し、記憶装置に記憶する抽出段階と、上記語連鎖のそれぞれと上記語連鎖または語のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出段階と、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語連鎖の概念情報を、定量化し、記憶装置に記憶する概念情報定量化段階と、上記概念情報定量化段階で得られた上記語連鎖の概念情報を、データベースとする概念情報データベース作成段階とを有する概念情報データベース作成方法の例である。
【0099】
そして、上記実施例は、上記両概念情報データベース作成方法のそれぞれにおける上記各段階をコンピュータに実行させるプログラムの例である。
【0100】
また、上記プログラムを、CD、DVD、半導体メモリ等の記録媒体に記録するようにしてもよい。つまり、上記実施例は、上記両概念情報データベース作成方法のそれぞれにおける上記各段階をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の例である。
【図面の簡単な説明】
【0101】
【図1】本発明の実施例1である概念情報データベース作成装置10の基本構成を示すブロック図である。
【図2】概念情報データベース作成装置10の概略動作を示すフローチャートである。
【図3】実施例の具体例で使用する文書集合20の内容例を示す図である。
【図4】具体例1において、「文書集合20から抽出した語(自立語)」のそれぞれと、「文書集合20から抽出した語連鎖(3単語連鎖)」のそれぞれとの共起回数の例を示す図である。
【図5】具体例1において、図4に示す場合において、「自立語」と、「語連鎖」との共起度の例を示す図である。
【図6】具体例2において、文書集合20から抽出した語連鎖同士の共起回数の例を示す図である。
【図7】具体例2において、図6に示す場合において、語連鎖同士の共起度の例を示す図である。
【図8】具体例2において、共起回数を調べる2つの語連鎖のうちの一方の語連鎖の数を減らした場合における語連鎖同士の共起度の例を示す図である。
【符号の説明】
【0102】
10…概念情報データベース作成装置、
11…文書解析部、
12…語抽出部、
13…語連鎖抽出部、
14…共起回数検出部、
15…概念情報定量化部、
16…概念情報データベース作成部、
20…文書集合、
30…概念情報データベース、
21…第1文書、
22…第2文書、
2n…第n文書(最終文書)。

【特許請求の範囲】
【請求項1】
与えられた文書集合を解析する文書解析手段と;
上記与えられた文書集合中に存在している語を抽出し、記憶装置に記憶する語抽出手段と;
上記与えられた文書集合中に存在している語連鎖を抽出し、記憶装置に記憶する語連鎖抽出手段と;
上記語のそれぞれと上記語連鎖のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出手段と;
上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語の概念情報を、定量化し、記憶装置に記憶する概念情報定量化手段と;
上記概念情報定量化手段で得られた上記語の概念情報を、データベースとする概念情報データベース作成手段と;
を有することを特徴とする概念情報データベース作成装置。
【請求項2】
請求項1において、
上記共起度は、上記語のうちで、着目している語に関する上記語連鎖のそれぞれの出現回数を正規化した値であることを特徴とする概念情報データベース作成装置。
【請求項3】
請求項2において、
上記正規化した値は、上記着目している語に関する上記語連鎖の出現回数の合計に対する個々の上記語連鎖の出現回数の割合であることを特徴とする概念情報データベース作成装置。
【請求項4】
請求項2において、
上記正規化した値は、上記着目している語に関する上記語連鎖の出現回数の中で、最大の出現回数に対する個々の上記語連鎖の出現回数の割合であることを特徴とする概念情報データベース作成装置。
【請求項5】
請求項1〜請求項4のいずれか1項において、
上記語は、自立語であり、
上記語連鎖は、文書中で連続するn単語の連鎖(nは2以上の整数)であることを特徴とする概念情報データベース作成装置。
【請求項6】
請求項1において、
上記概念情報定量化手段は、上記文書集合における共起回数をカウントする文書範囲に存在している上記語と、上記語連鎖との共起度に基づいて、上記語の概念情報を定量化し、記憶装置に記憶する手段であり、
上記共起回数をカウントする文書範囲は、上記与えられた文書集合の部分集合、上記文書に含まれている少なくとも1つの段落、上記1つの段落に含まれている少なくとも1つの文のうちの1つであることを特徴とする概念情報データベース作成装置。
【請求項7】
与えられた文書集合を解析する文書解析手段と;
上記与えられた文書集合中に存在している語連鎖を抽出するか、または、語連鎖と語とを抽出し、記憶装置に記憶する抽出手段と;
上記語連鎖のそれぞれと上記語連鎖または語のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出手段と;
上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語連鎖の概念情報を、定量化し、記憶装置に記憶する概念情報定量化手段と;
上記概念情報定量化手段で得られた上記語連鎖の概念情報を、データベースとする概念情報データベース作成手段と;
を有することを特徴とする概念情報データベース作成装置。
【請求項8】
請求項7において、
上記共起度は、上記語連鎖のうちで、着目している語連鎖に関する上記語連鎖または上記語のそれぞれの出現回数を正規化した値であることを特徴とする概念情報データベース作成装置。
【請求項9】
請求項8において、
上記正規化した値は、上記着目している語連鎖に関する上記語連鎖または上記語の出現回数の合計に対する個々の上記語連鎖または上記語の出現回数の割合であることを特徴とする概念情報データベース作成装置。
【請求項10】
請求項8において、
上記正規化した値は、上記着目している語連鎖に関する上記語連鎖または上記語の出現回数の中で、最大の出現回数に対する個々の上記語連鎖または上記語の出現回数の割合であることを特徴とする概念情報データベース作成装置。
【請求項11】
請求項7〜請求項10のいずれか1項において、
上記語は、自立語であり、
上記語連鎖は、文書中で連続するn単語の連鎖(nは2以上の整数)であることを特徴とする概念情報データベース作成装置。
【請求項12】
請求項7において、
上記概念情報定量化手段は、上記文書集合における共起回数をカウントする文書範囲に存在している上記語連鎖と、上記語または語連鎖との共起度に基づいて、上記語の概念情報を定量化し、記憶装置に記憶する手段であり、
上記共起回数をカウントする文書範囲は、上記与えられた文書集合の部分集合、上記文書に含まれている少なくとも1つの段落、上記1つの段落に含まれている少なくとも1つの文のうちの1つであることを特徴とする概念情報データベース作成装置。
【請求項13】
請求項7〜請求項10のいずれか1項において、
上記概念情報定量化手段は、第1の語連鎖のそれぞれと第2の語連鎖のそれぞれとの共起度に基づいて、上記語連鎖の概念情報を、定量化し、記憶装置に記憶する手段であり、
上記第1の語連鎖は、文書中で連続するn単語の連鎖(nは2以上の整数)であり、
上記第2の語連鎖は、文書中で連続するm単語の連鎖(mは2以上の整数)であることを特徴とする概念情報データベース作成装置。
【請求項14】
与えられた文書集合を解析する文書解析段階と;
上記与えられた文書集合中に存在している語を抽出し、記憶装置に記憶する語抽出段階と;
上記与えられた文書集合中に存在している語連鎖を抽出し、記憶装置に記憶する語連鎖抽出段階と;
上記語のそれぞれと上記語連鎖のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出段階と;
上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語の概念情報を、定量化し、記憶装置に記憶する概念情報定量化段階と;
上記概念情報定量化段階で得られた上記語の概念情報を、データベースとする概念情報データベース作成段階と;
を有することを特徴とする概念情報データベース作成方法。
【請求項15】
与えられた文書集合を解析する文書解析段階と;
上記与えられた文書集合中に存在している語連鎖を抽出するか、または、語連鎖と語とを抽出し、記憶装置に記憶する抽出段階と;
上記語連鎖のそれぞれと上記語連鎖または語のそれぞれとの共起回数を検出し、記憶装置に記憶する共起回数検出段階と;
上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語連鎖の概念情報を、定量化し、記憶装置に記憶する概念情報定量化段階と;
上記概念情報定量化段階で得られた上記語連鎖の概念情報を、データベースとする概念情報データベース作成段階と;
を有することを特徴とする概念情報データベース作成方法。
【請求項16】
請求項14または請求項15に記載のデータベース作成方法における上記各段階をコンピュータに実行させるプログラム。
【請求項17】
請求項14または請求項15に記載のデータベース作成方法における上記各段階をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−215850(P2006−215850A)
【公開日】平成18年8月17日(2006.8.17)
【国際特許分類】
【出願番号】特願2005−28555(P2005−28555)
【出願日】平成17年2月4日(2005.2.4)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】