説明

単語の文書関連度スコアおよびグラフ構造に基づく文書のキーワード抽出方法および装置

【課題】単語の文書関連度スコアおよび関連する単語間の伝達スコアに基づいて文書のキーワードを抽出する方法および装置が提供される。
【解決手段】本発明の文書のキーワード抽出方法によれば、文書は形態素解析され、解析された結果を用いて単語グラフが生成される。単語の文書関連度スコアは、生成された単語グラフと併合されて単語の重要度を示すキーワードスコアが算出される。算出されたキーワードスコアに応じて単語のうち文書のキーワードが選択される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は文書の集合が与えられたとき、当該文書の集合に含まれる各文書のキーワードを抽出する方法および装置に関する。
【背景技術】
【0002】
ウェブ(Web)で収集された文書、ニュース記事、または学術誌に発表された論文のような文書の集合が与えられた場合、各文書のキーワードを抽出する必要がある。
【0003】
文書のキーワードを抽出する方法は、大きく学習法と非学習法とに分類することができる。
【0004】
学習法とは、語彙および単語の意味に基づいてキーワードを認識するように予め学習したキーワード抽出システムが、学習した結果に基づいて文書のキーワードを抽出する方法である。
【0005】
非学習法とは、キーワード抽出システムによる学習過程を経ないで、単語が用いられた順序や回数などを利用してキーワードを抽出する方法である。
【0006】
非学習法は、キーワード抽出システムによる学習が要求されないため簡単に用いることができる。また、非学習法のキーワード抽出精度は学習法のキーワード抽出精度に類似するものと認識されている。
【0007】
情報検索分野において、クエリに類似する文書を検索するために各単語の文書関連度スコアが算出される。各単語の文書関連度スコアを算出するために、文書に含まれる各単語の文書中での使用頻度(Term Frequency;TF)および各単語が用いられた文書の数などの情報が用いられる。
【0008】
各文書を構成している単語のうち、当該文書で多く用いられる単語と、他の文書では用いられないが当該文書のみで用いられる単語は、当該文書において重要な単語であると、みなしてもよい。文書の観点から見ると、関連度スコアの高い単語が文書を適切に表現する単語であるとみなしてもよい。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2002−269115号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明の目的は、単語の文書関連度スコアおよび関連する単語間の伝達スコアに基づいて文書のキーワードを抽出する方法および装置を提供することにある。
【0011】
本発明の他の目的は、文書を形態素解析することによって生成された単語グラフおよび単語の文書関連度スコアを併合する非学習法に基づくキーワードスコア生成方法および装置を提供することにある。
【課題を解決するための手段】
【0012】
本発明の一実施形態によると、文書のキーワードを抽出する方法であって、1つ以上の単語の各々について文書に対する関連度スコアを算出し、1つ以上の単語の各々に伝達される1つ以上の伝達スコアを算出し、1つ以上の伝達スコアおよび関連度スコアに基づいて1つ以上の単語の各々のキーワードスコアを算出することを含み、1つ以上の伝達スコアは関連度スコアに基づいて生成され、1つ以上の単語のうち相互の距離が特定の値以下である2つの単語によって伝達される文書のキーワード抽出方法が提供される。
【0013】
文書のキーワード抽出方法は、文書を形態素解析して単語単位に分割することによって、1つ以上の単語を生成することをさらに含んでもよい。
【0014】
1つ以上の単語は、文書中の単語のうち特定の品詞に属する単語であってもよく、距離は特定の品詞に属する単語に基づいて算出されてもよい。
【0015】
関連度スコアは、文書の集合のうち単語が用いられた文書の数および単語の文書中での使用頻度のうち1つ以上の情報に基づいて算出されてもよい。
【0016】
文書のキーワード抽出方法は、1つ以上のノードおよび1つ以上のリンクを含む単語グラフを生成することをさらに含み、1つ以上のノードの各々は、1つ以上の単語の1つの単語に対応し、1つ以上のリンクの各々は、相互の距離が特定の値以下である2つの単語に各々対応する2つのノードを接続してもよい。
【0017】
伝達スコアは、単語グラフ中の経路の開始ノードに対応する第1単語から経路の最後のノードに対応する第2単語に伝達されてもよく、経路は1つ以上のリンクのうち1つ以上の接続されたリンクであってもよい。
【0018】
第1単語から第2単語への伝達スコアは、第1単語の関連度スコアおよび第1単語から第2単語への伝達スコア比率に基づいて算出されてもよい。
【0019】
第1単語から第1単語と特定の距離内にある1つ以上の第3単語の各々への伝達スコア比率は、1つ以上の第3単語の各々の関連度スコアおよび第1単語に対応するノードから第3単語の各々に対応するノードへのリンク数の積に比例してもよい。
【0020】
第1単語から第2単語への伝達スコア比率は、1つ以上の接続されたリンクの各々に対応する伝達スコア比率に基づいて算出され、リンクに対応する伝達スコア比率は、リンクが接続する2つのノードに各々対応する2つの単語間の伝達スコア比率であってもよい。
【0021】
上述の文書のキーワード抽出方法は、1つ以上の単語の一部をキーワードスコアの降順にキーワードとして選択することをさらに含んでもよい。
【0022】
本発明の他の一実施形態によると、文書のキーワードを抽出する装置において、1つ以上の単語の各々の文書に対する関連度スコアを算出する関連度スコア算出部と、1つ以上の単語の各々に伝達される1つ以上の伝達スコアを算出する伝達スコア算出部と、1つ以上の伝達スコアおよび関連度スコアに基づいて1つ以上の単語の各々のキーワードスコアを算出するキーワードスコア算出部とを備え、伝達スコア算出部は、関連度スコアに基づいて1つ以上の伝達スコアを生成し、1つ以上の単語のうち相互の距離が特定の値以下である2つの単語によって1つ以上の伝達スコアの各々を伝達する文書のキーワード抽出装置が提供される。
【発明の効果】
【0023】
本発明は、単語の文書関連度スコアおよび関連する単語間の伝達スコアに基づいて文書のキーワードを抽出する方法および装置を提供する。
【0024】
また、本発明は、文書を形態素解析することによって生成された単語グラフおよび単語の文書関連度スコアを併合する非学習法に基づくキーワードスコア生成方法および装置を提供する。
【図面の簡単な説明】
【0025】
【図1】本発明の一実施形態に係る文書のキーワード抽出方法及び装置における単語で構成されたグラフを示す図である。
【図2】本発明の一実施形態に係る文書のキーワード抽出方法及び装置における単語のキーワードスコア算出方法を説明する図である。
【図3】本発明の一実施形態に係る文書のキーワード抽出方法及び装置における長さが1段階である経路の伝達スコア比率の算出方法を示す図である。
【図4】本発明の一実施形態に係る文書のキーワード抽出方法及び装置における伝達スコア算出方法を示す図である。
【図5】本発明の一実施形態に係る文書のキーワード抽出方法を示すフローチャートである。
【図6】本発明の一実施形態に係る文書のキーワード抽出装置の構造図である。
【発明を実施するための形態】
【0026】
以下、本発明の一実施形態を添付の図面を参照しながら詳しく説明する。しかし、本発明が実施形態によって制限されたり限定されたりすることはない。各図面に提示された同一の参照符号は同一の部材を示す。
【0027】
図1は、本発明の一実施形態に係る文書のキーワード抽出方法及び装置における単語で構成されたグラフを示す。
【0028】
与えられた文書110は形態素解析されて単語単位に分割される。形態素解析によって生成された単語および単語の品詞は下記の表1の通りである。
【表1】






【0029】
生成された単語のうち特定の品詞(例えば、名詞、形容詞または動詞)に属する単語のみで単語グラフを構成してもよい。
【0030】
表1の単語のうち名詞は下記の表2の通りである。
【表2】



【0031】
表2の25個の名詞のうち重複する単語を除外すると14個の単語が残る。したがって、14個の単語に各々対応する14個のノードを有する単語グラフ120が生成されてもよい。
【0032】
単語グラフ120は1つ以上のノードを含み、1つ以上のリンクを含んでもよい。
【0033】
1つ以上のノードの各々は文書中の1つ以上の単語の1つの単語に対応する。
【0034】
文書中で、隣接する2つの単語に各々対応する2つのノード間にリンクが生成される。
【0035】
隣接する2つの単語とは、相互の距離が特定の値以下である2つの単語を意味する。すなわち、1つ以上のリンクの各々は、相互の距離が特定の値以下である2つの単語に各々対応する2つのノード間を接続する。
【0036】
単語間の距離は特定の品詞に属する単語に基づいて算出されてもよい。例えば、表2において羅列された名詞のうち、直接連続する場合のみを隣接する場合とみなす場合、「文書」−「形態素」、「形態素」−「解析」、「解析」−「後」などが隣接する単語の対である。単語間の距離が2段階離れている場合も隣接する場合とみなす場合、「文書」−「形態素」、「文書」−「解析」、「形態素」−「解析」、「形態素」−「後」などが隣接する単語に該当する。
【0037】
図1に示すグラフ120は、直接連続する2つの単語を隣接する単語とみなし、表2に羅列された名詞を用いて生成されたものである。
【0038】
文書中で特定の単語対が1回以上隣接する場合、単語対に相当するノード対は1つ以上のリンクで接続される。例えば、表2において「単語」および「該当」は3回隣接する(相互の距離が1段階離れている2つの単語を隣接するものとみなす場合。)。したがって、「単語」に対応するノード122および「該当」に対応するノード124は、3つのリンクで互いに接続される。
【0039】
図2は、本発明の一実施形態に係る文書のキーワード抽出方法及び装置における単語のキーワードスコア算出方法を説明するものである。
【0040】
図2において、4個のノード(210、230、250および270)が図示され、各ノード(210、230、250および270)は各々単語

(212、232、252および272)に対応する。
【0041】
図2において、開始ノード210と最後のノード270とはd個のリンクを介して接続されている。d個の接続されたリンクはd+1個のノードを接続しているが、図2では、そのうち最初のノード210、2番目のノード230、d番目のノード250、およびd+1番目のノード270を図示し、残りのノードは省略する。
【0042】
ノード210とノード270との間の経路290はd個の接続されたリンクを含む。そのうち最初のリンク292、2番目のリンク294、d−1番目のリンク296、およびd番目のリンク298が図示されている。
【0043】
単語「t」272のキーワードスコア「KS(t)」280は、単語「t」272の文書に対する関連度スコア(以下、単に「関連度スコア」と省略する。)「R(t)」282および単語「t」272(または単語「t」272に対応するノード270)に伝達された1つ以上の伝達スコア284に基づいて算出される。
【0044】
例えば、キーワードスコア「KS(t)」280は、関連度スコア「R(t)」282および伝達スコア284の加重値が付与された和であってもよい。
【0045】
関連度スコアは単語の文書に対する関連度を意味する。関連度スコアは、文書の集合のうち単語が用いられた文書の数を示す逆文書頻度(Inverse Document Frequency;IDF)および単語の文書中の使用頻度(Term Frequency;TF)に基づいて算出されてもよい。関連度スコアはBM25モデルおよび言語モデルなどの方法を用いて算出されてもよい。
【0046】
伝達スコアは特定の単語に伝達されるスコアを意味し、文書中の他の単語から特定の単語に伝達される。
【0047】
伝達スコアは相互に隣接する2つの単語によって伝達される。これは、単語グラフの観点からは、伝達スコアがリンクに接続された2つのノードによって伝達されることを意味する。
【0048】
すなわち、伝達スコアは、単語グラフ中の経路の開始ノード(または、開始ノードに対応する最初の単語)から経路の最後のノード(または、最後のノードに対応する最後の単語)に伝達される。
【0049】
図示された経路290を介して最初のノード210(単語「t」212)からd+1番目のノード270(単語「t」272)に伝達スコアが伝達される。
【0050】
経路の最後の単語(例えば、「t」272)が経路の最初の単語(例えば、「t」212)から伝達されたスコアを第1スコアとし、経路の最初の単語の関連度スコアを第2スコアとするとき、第1スコアと第2スコアとの間の比率を「伝達スコア比率」と称する。「伝達スコア係数」および「伝達係数」も同じ意味をもつ。
【0051】
長さがdである経路290において、経路290の最後の単語「t」272が経路の最初の単語「t」212から伝達された伝達スコアを単語「t」212の関連度スコア「R(t)」222と比較したとき、その伝達スコア比率を「α(t、t)」に表す。
【0052】
伝達スコア比率が与えられた場合に経路の最後の単語が経路の最初の単語から伝達される伝達スコアは、最初の単語の関連度スコアおよび最初の単語から最後の単語への伝達スコア比率に基づいて算出されてもよい。すなわち、伝達スコアは、最初の単語の関連度スコアおよび最初の単語から最後の単語への伝達スコア比率の積であってもよい。
【0053】
2つのノード間の伝達スコア比率は、2つのノードを接続する経路の伝達スコア比率であるとみなしてもよい。
【0054】
長さがdである経路の伝達スコア比率は、経路を構成する長さが1段階である経路(すなわち、リンク)の伝達スコア比率の積であるとみなしてもよい。
【0055】
すなわち、伝達スコア比率α(t、t)に対して下記の数1が成立する。
【0056】
【数1】

【0057】
ここで、

は最初のノード210から2番目のノード230への伝達スコア比率である。これは最初のリンク292の伝達スコア比率とみなしてもよい。
【0058】

は2番目のノード230からD番目のノード250への伝達スコア比率である。これは2番目のリンク294からD−1番目のリンク296の伝達スコア比率を乗算した値である。
【0059】

はD番目のノード250からD+1番目のノード270への伝達スコア比率である。
【0060】
前述したように、伝達スコア比率は、経路を構成する1つ以上の接続されたリンクの各々に対応する伝達スコア比率に基づいて算出されてもよく、リンクに対応する伝達スコア比率は、リンクが接続する2つのノードに各々対応する2つの単語間のスコア伝達比率であってもよい。
【0061】
一般に、2つの単語は相互に関連するものであり、1つの単語が一方的に他の単語を参照することはない。したがって、単語グラフのリンクは双方向リンクであるとみなしてもよい。したがって、長さが1段階であるリンクに対応する伝達スコア比率は各方向ごとに2つである。例えば、単語「t」と単語「t」が相互関連する場合、「t」から「t」への伝達スコア比率

および「t」から「t」への伝達スコア比率

が各々算出され、両値

および

は互いに異なってもよい。
【0062】
最初のノード210からd+1番目のノード270に伝達される伝達スコアは、最初のノード210の関連度スコア「R(t)」222がd個のリンク292、294、296および298を経てd+1番目のノード270に伝達されながら、関連度スコア「R(t)」222にd個のリンク各々のスコア伝達比率が順に乗算した値であるとみなしてもよい。
【0063】
したがって、伝達スコアは特定の単語tの関連度スコアに基づいて生成され、生成された伝達スコアはリンクによって伝達されるものとみなしてもよい。リンクは、相互の距離が特定の値以下である2つの単語に各々対応する2つのノードを接続するものである。したがって、伝達スコアは、相互の距離が特定の値以下である2つの単語によって伝達されるものとみなしてもよい。伝達スコアが1つ以上のリンクによって伝達されながら、リンクに対応する伝達スコア比率が1つ以上のリンクによって伝達されている伝達スコアに乗算される。
【0064】
また、第1単語に対応する第1ノードおよび第2単語に対応する第2ノードが1つ以上のリンクに接続されたとき、第1単語から第2単語への伝達スコア比率は、1つ以上のリンク各々に対応する伝達スコア比率に基づいて算出されてもよい。各々のリンクに対応する伝達スコア比率は、リンクが接続する2つのノードに各々対応する2つの単語間の伝達スコア比率であってもよい。
【0065】
リンクによって伝達スコアが伝達されつつ伝達スコアにリンクの伝達スコア比率が乗算されることによって、伝達スコアの値は次第に小さくなる。伝達中である伝達スコアが特定の閾値以下になると、伝達スコアはこれを伝達しなくてもよい。これにより、キーワードスコアを算出するには意味のないほど小さな値が継続的に伝達されることを防止し、伝達スコアまたはキーワードスコアを算出するシステムに過度の負荷を与えることを防止する。
【0066】
特定の単語「t」に対応するノードは1つ以上の経路の最後のノードであってもよい。したがって、特定のノードに対応する単語「t」に伝達される伝達スコアは1つ以上であってもよい。このような1つ以上の経路は経路の長さに応じて分類されてもよい。
【0067】
一般に、1つ以上の経路はサイクル(cycle)を含んでもよい。但し、実施形態に係る1つ以上の経路はサイクルを含んでいないものだけで限定されてもよい。
【0068】
したがって、単語「t」に伝達される伝達スコアの総和「T()」は下記の数2によって算出されてもよい。
【0069】
【数2】

【0070】
ここで、「path(t、d)」の長さがdであり、単語「t」が最後の単語(すなわち、単語「t」に対応するノードが最後のノード)である1つ以上の経路を示す。「start(l)」は経路lの最初の単語(すなわち、最初の単語に対応する開始ノード)を示す。
【0071】
dは最大径路の長さであってもよい。すなわち、伝達スコアは長さがd以下である経路を介してのみ伝達されるものと制限されてもよい。dは単語「t」に対応するノードが最後のノードの1つ以上の経路の各々の長さの最大値であってもよい。実施形態に係る1つ以上の経路はサイクルを含まないものと限定してもよく、サイクルを含むものも許容されてもよい。
【0072】
前述したように、単語「t」のキーワードスコア「KS(t)」は単語「t」の関連度スコア「R(t)」および単語「t」への伝達スコアの総和「T(t)」の加重値が付与された和であってもよい。関連度スコア「R(t)」に対する加重値を「λ」(0≦λ≦1)とし、伝達スコアに対する加重値を(1−λ)とするとき、キーワードスコア「KS(t)」は下記の数3によって算出されてもよい。
【0073】
【数3】

【0074】
図3は、本発明の一実施形態に係る文書のキーワード抽出方法及び装置における長さが1段階である経路の伝達スコア比率の算出方法を示す。
【0075】
図3において、ノード310からこのノード310に隣接する1つ以上の他のノード330、350および370各々への伝達スコア比率322、342および362を算出する方法を示す。すなわち、単語「t」312に対応するノード310が開始ノードであり、ノード310にリンク320、340または360に接続された他のノード330、350および370が最後のノードである場合、開始ノードおよび最後のノードを各々接続するリンク320、340および360の伝達スコア比率322、342および362が算出される。
【0076】
開始ノード310は、n個のノード(330、350および370)の各々とリンク(320、340および360)で接続される。すなわち、単語「t」312は、単語「t」から「t」(332、352および372)と一定の距離内にある。接続されたn個のノードのうち最初のノード330、2番目のノード350およびn番目のノード370を図示し、3番目のノードからn−1番目のノードは省略する。
【0077】
一般に、単語グラフ中のリンクは双方向リンクであるが、図3では開始ノード310から他のノード(330、350および370)の各々への単方向リンク(320、340および360)のみが図示されている。
【0078】
単語「t」312の関連度スコアは「R(t)」314であり、単語「t」から「t」(332、352および372)の関連度スコアは各々「R(t)」から「R(t)」(334、354および374)である。
【0079】
リンクの伝達スコア比率は、リンクの開始ノードの関連度スコア(例えば、「R(t)」314)および開始ノードのアウトリンクが表すノードの関連度スコア(例えば、

)の和(例えば、

)に反比例してもよい。ここで、特定のノードが2つ以上のリンクに接続された場合、上記のノードに対応する単語の関連度スコアは、リンク数のみが繰り返し加えられてもよい。
【0080】
リンクの伝達スコア比率はリンクの最後のノードの関連度スコア(例えば、「R(t)」334、「R(t)」354または「R(t)」374に比例してもよい。
【0081】
前述した開始ノードの関連度スコアおよび開始ノードとリンクで接続されたノードの関連度スコアの和は、すべての最後のノードと共通する値である。したがって、リンク320,340,360の伝達スコア比率322、342および362は、リンク320,340,および360が示すノード330、350および370の関連度スコア334、354および374に比例してもよい。
【0082】
したがって、特定の2つの単語間のリンクが1個以下であると仮定すると、特定の第1単語から第1単語と特定の距離内にある1つ以上の第2単語の各々への伝達スコア比率は、1つ以上の第2単語の各々の関連度スコアに比例してもよい。
【0083】
特定の第1単語と特定の第3単語とが1つ以上のリンクで接続された場合、各々のリンクは別の伝達スコア比率を有する(但し、この場合の1つ以上のリンクの伝達スコア比率は同じである。)。したがって、特定の第1単語から第1単語と特定の距離内にある1つ以上の第2単語の各々への伝達スコア比率は、1つ以上の第2単語の各々の関連度スコアおよび第1単語に対応するノードから第2単語の各々に対応するノードへのリンク数の積に比例してもよい。
【0084】
前述したように、単語「t」から単語「t」へのリンクの伝達スコア比率「α(t、t)」は下記の数4によって算出されてもよい。
【0085】
【数4】

【0086】
ここで、「アウトリンク(t)」は単語「ts」に対応するノードのアウトリンク(すなわち、単語「ts」に対応するノードから始まって長さが1段階である経路をいう。)の集合であり、「end(l)」は、アウトリンクlに接続されたノードに対応する単語(すなわち、長さが1段階である経路lの最後のノードに対応する単語をいう。)である。
【0087】
図4に、本発明の一実施形態に係る文書のキーワード抽出方法及び装置における伝達スコア算出方法を示す。
【0088】
図4において、文書400は、4個の単語「A」412、「B」422、「C」432および「D」442から構成される。文書400に基づいて単語グラフ402が生成される。本発明の一実施形態において、相互の距離が1である2つの単語を、互いに隣接する単語であるとみなす。
【0089】
単語グラフ402は、4個のノード410、420、430および440(以下、各々を「ノードA」、「ノードB」、「ノードC」および「ノードD」という。)およびノード410、420、430および440間のリンク450、452、454、456、458および460を含む。リンクは双方向リンクである。
【0090】
ノードAからノードD(410、420、430および440)は、各々単語Aから単語D(412、422、432および442)に対応する。単語Aから単語D(412、422、432および442)は、各々関連度スコア(414、424、434または444)を有する。
【0091】
伝達スコアはステップごとに伝達されてもよい。
【0092】
一つのステップにおいて、伝達スコアは一つのアウトリンクを経て伝達される。第1単語と第2単語とが、長さ3段階の経路を介して接続される場合、第1単語から第2単語への伝達スコアが伝達されるためには3つのステップが要求される。
【0093】
本発明の一実施形態において、伝達スコアが伝達される経路はサイクルを含んでもよい。
【0094】
特定のステップにおいて、第1単語に伝達された伝達スコアは、その次のステップで第1単語が示すノードのアウトリンクについて第1単語に隣接する第2単語に再伝達される。前述したように、アウトリンクによって再伝達される値は、前のステップで第1単語に伝達された伝達スコアの和およびリンクの伝達スコア比率の積であってもよい。
【0095】
単語のキーワードスコアは、単語の関連度スコアおよび特定のステップで単語に伝達されたスコアに基づいて算出されてもよい。
【0096】
以下ではアウトリンクに接続された単語に伝達スコアを伝達する過程について説明する。
【0097】
まず、単語(412、422、432および442)の関連度スコア(414、424、434および444)と、前述した数4を用いて、リンク(450、452、454、456、458および460)の各々の伝達スコア比率が算出される。
【0098】
単語「A」412に対応する「ノードA」410のアウトリンクは、各々「ノードB」420、「ノードC」430および「ノードD」440を示す。
【0099】
したがって、「ノードA」410から「ノードB」420への伝達スコア比率は、0.6/(0.4+0.6+0.8+1.0=3/14である。「ノードA」410から「ノードC」430への伝達スコア比率は、0.8/(0.4+0.6+0.8+1.0=2/7である。「ノードA」410から「ノードD」440への伝達スコア比率は1.0/(0.4+0.6+0.8+1.0=5/14である。
【0100】
同じ方法に基づいて「ノードB」420から他のノード410、430および440への伝達スコア比率が算出される。但し、「ノードB」420および「ノードC」430は、2つのリンク456および458に接続されているため、伝達スコア比率の算出において単語「C」432の関連度スコア434は2回含まれることになる。したがって、「ノードB」420から「ノードC」430へのリンク456および458各々の伝達スコア比率は0.8/(0.6+0.4+0.8+0.8+1.0=2/9である。
【0101】
下記の表3は、開始ノード(行)と最後のノード(列)との間のリンクの伝達スコア比率を示す。2つのノードの間に2つ以上のリンクがある場合、2つ以上のリンク各々の伝達スコア比率を示す。
【0102】
以下、「ノードAから」を「A→」のように省略し、「ノードAに」を「→A」のように省略する。すなわち、「A→B」は「ノードAからノードBに」を意味する。
【表3】




次に、最初のステップにおいて、アウトリンクに接続されたノード(すなわち、ノードに対応する単語)に伝達スコアが伝達される過程を説明する。
【0103】
最初のステップにおいて、各ノードがアウトリンクに接続された単語に伝達するスコアは、ノードが示す単語の関連度スコアおよびアウトリンクの伝達スコア比率の積であってもよい。
【0104】
例えば、A410→B420で伝達されるスコアは、単語「A」412の関連度スコア0.4(414)およびA410→B420の伝達スコア比率3/14を乗算した値である0.4×3/14=3/35である。B420→C430で伝達されるスコアは両ノード420および430間のアウトリンクが2つであるため、B422の関連度スコア0.6(424)、B420→C430の伝達スコア比率2/9およびリンク数2を乗算した値である0.6×2/9×2=4/15である。
【0105】
下記の表4は、最初のスコア伝達ステップにおいて各単語が他の単語に伝達したスコアを示す。
【表4】



【0106】
流入総和は、単語の各々と流入した伝達スコアの総和を表す。
【0107】
キーワードスコアは、スコア伝達ステップが行われた後に算出された単語各々のキーワードスコアである。単語のキーワードスコアは、数2に示すように単語の関連度スコアおよび単語に伝達された伝達スコアの加重値が付与された和であってもよい。
【0108】
λ=0.8である場合、単語A412のキーワードスコアは、1)0.8(λ)に0.4(関連度スコア414)を乗算した値、および、2)0.2(1−λ)に2/5(単語Aへの流入総和)を乗算した値の和である。すなわち、表4で表示したように、単語「A」412のキーワードスコアは0.8×0.4+0.2×2/5=2/5である。
【0109】
次に、第2のステップにおいてアウトリンクに接続されたノード(すなわち、ノードに対応する単語)に伝達スコアが伝達される過程を説明する。第2のステップからは、単語の関連度スコアではない単語の各々が前のステップに伝達したスコア(すなわち、以前ステップの流入総和)を用いて伝達スコアが算出される。
【0110】
例えば、単語「A」412から単語「B」422に伝達されるスコアは、単語「A」412が直前のステップで伝達された伝達スコアの流入総和およびA410→B420のアウトリンク450の伝達スコア比率を乗算した値(すなわち、2/5×3/14=3/35)である。
【0111】
また、単語「B」422において、単語「C」432に伝達されるスコアは、単語「B」422が直前のステップで伝達された伝達スコアの流入総和、B420→C430のアウトリンク456および458の伝達スコア比率、およびB420→C430のアウトリンク456および458の数を乗算した値(すなわち、11/14×2/9×2=22/63)である。
【0112】
下記の表5は、スコア伝達の第2のステップで各単語が他の単語に伝達したスコアを表示する。
【表5】




【0113】
第2ステップの後は同じ過程を繰り返す。
【0114】
下記の表6は、同じスコアの伝達ステップがもう1回繰り返された場合のスコアの流れおよび単語各々のキーワードスコアを表示する。
【表6】




上記のようなスコア伝達ステップが繰り返されて、伝達されるスコアが閾値以下になる場合、スコア伝達が中断されてもよい。
【0115】
上記のようなスコア伝達ステップが一定の回数だけ実行されると、スコア伝達が中断されてもよい。例えば、スコア伝達ステップが3回繰り返されて中断されると、単語412、422、432および442の各々の最終キーワードスコアは表6に示すキーワードスコアとなる。
【0116】
表6に示す結果によると、単語の各々のキーワードスコアは「B」422>「A」412>「C」432>「D」442の順である。したがって、1つのキーワードが抽出される場合には単語「B」422がキーワードとして指定され、2つのキーワードが抽出される場合には単語「B」422および単語「C」432がキーワードとして指定される。
【0117】
図5は、本発明の一実施形態に係る文書のキーワード抽出方法のフローチャートである。
【0118】
文書のキーワード抽出方法は、単語グラフ生成ステップ(S510からS532)、伝達スコア算出ステップ(S540からS570)、およびキーワード指定ステップ(S580からS590)に区分されてもよい。
【0119】
単語グラフ生成ステップ(S510からS532)では文書の単語グラフが生成される。
【0120】
伝達スコア算出ステップ(S540からS570)では1つ以上の単語の各々が伝達したスコアが算出される。
【0121】
キーワード指定ステップ(S580からS590)では文書のキーワードが指定される。
【0122】
まず、単語グラフ生成ステップS510からS532について説明する。本ステップS510からS532において、1つ以上のノードおよび1つ以上のリンクを含む単語グラフが生成される。
【0123】
ステップS510において、形態素解析によって文書が単語単位に分割される。
【0124】
ステップS520において、分割された単語のうち使用したい特定の品詞の単語が選択され、1つ以上の単語から構成された単語リストが生成される。
【0125】
ステップS530において、1つ以上の単語のうち重複する単語が削除されて残った1つ以上の単語の各々が単語グラフのノードとして割り当てられる。
【0126】
ステップS532において、単語リスト中の互いに隣接する2つの単語が検索される。検索された2つの単語に各々対応する2つのノードがリンクで接続される。互いに隣接する2つの単語は、単語リストのうち相互の距離が特定の値以下である2つの単語であってもよい。単語リストは特定品詞の単語のみを含んでもよいため、文書に基づいて距離を算定する場合、距離は特定品詞の単語に基づいて算出されてもよい。
【0127】
次に、伝達スコア算出ステップS540からS570について説明する。
【0128】
ステップS540において、1つ以上の単語の各々の関連度スコアが算出される。
【0129】
関連度スコアは、文書の集合のうち単語が用いられた文書の数および単語の文書中の使用頻度のうち1つ以上の情報に基づいて算出されてもよく、BM25等の方法を用いて算出されてもよい。
【0130】
ステップS542において、1つ以上の単語の関連度スコアに基づいて1つ以上のリンクの各々の伝達スコア比率が算出される。ここで、第1単語および第2単語を接続するリンクの伝達スコア比率は、第1単語から第2単語への伝達スコア比率および第2単語から第1単語への伝達スコア比率が各々算出される。
【0131】
第1単語から第1単語と特定の距離内にある1つ以上の第3単語の各々への伝達スコア比率は、1つ以上の第3単語の各々の関連度スコアおよび第1単語に対応するノードから第3単語の各々に対応するノードへのリンク数の積に比例してもよい。
【0132】
ステップS544において、1つ以上の単語の各々に対して、伝達された伝達スコアの累積値が0に初期化される。
【0133】
ステップS550において、関連度スコアに基づいて1つ以上の単語の各々に伝達される1つ以上の伝達スコアが算出される。1つ以上の伝達スコアの各々はリンクによって伝達される。
【0134】
伝達スコアは、伝達スコアを伝達するノードに対応する単語の関連度スコアおよび伝達スコアを伝達するリンクの伝達スコア比率の積であってもよい。
【0135】
すなわち、第1単語から第2単語への伝達スコアは、第1単語の関連度スコアおよび第1単語から第2単語へのリンクの伝達スコア比率に基づいて算出されてもよい。
【0136】
ステップS560において、算出された伝達スコアがリンクによって1つ以上の単語の各々に伝達される。
【0137】
ステップS562において、1つ以上の単語の各々は伝達された伝達スコアを自身の累積値に加える。
【0138】
ステップS564において、単語に伝達された伝達スコアに基づいて1つ以上の単語の各々に伝達される1つ以上の伝達スコアが算出される。1つ以上の伝達スコアの各々はリンクによって伝達される。
【0139】
伝達スコアは、伝達スコアを伝達するノードに対応する単語が伝達した伝達スコアと、伝達スコアを伝達するリンクの伝達スコアとの比率の積であってもよい。
【0140】
特定リンクに伝達される伝達スコアが与えられた閾値よりも小さい場合、伝達スコアは0とみなしてもよい。
【0141】
ステップS570において、隣接する単語に伝達する伝達スコアがあるか否かが検査される。
【0142】
1つ以上のリンクの各々によって伝達される伝達スコアが全て0であれば、これ以上隣接する単語に伝達する伝達スコアがないものとみなしてもよい。
【0143】
または、1つ以上の単語の各々に伝達スコアが伝達された回数(すなわち、ステップS560が繰り返された回数)が与えられた閾値を超過した場合、これ以上隣接する単語に伝達する伝達スコアがないものとみなしてもよい。
【0144】
隣接する単語に伝達する伝達スコアがさらにある場合はステップS560が再び実行され、そうではない場合はキーワード指定ステップS580からS590が実行される。
【0145】
次に、キーワード指定ステップS580からS590について説明する。
【0146】
ステップS580において、1つ以上の単語の各々のキーワードスコアが算出される。
【0147】
単語のキーワードスコアは、単語に伝達された1つ以上の伝達スコアおよび単語の関連度スコアに基づいて算出されてもよい。
【0148】
単語のキーワードスコアは、単語に伝達された1つ以上の伝達スコアおよび単語の関連度スコアの加重値が付与された和であってもよい。
【0149】
ステップS590において、1つ以上の単語の中からキーワードが指定される。
【0150】
キーワードは、1つ以上の単語の中の一部がキーワードスコアの降順に選択されたものであってもよい。
【0151】
前述した図1から図4を参照して説明された本発明の一実施形態に係る技術内容が本実施形態にもそのまま適用されてもよい。したがって、さらに詳細な説明は以下省略する。
【0152】
図6は、本発明の一実施形態に係る文書のキーワード抽出装置の構造図である。
【0153】
文書のキーワード抽出装置600は、格納部610、単語生成部620、単語グラフ生成部630、関連度スコア算出部640、伝達スコア算出部650、キーワードスコア算出部660、およびキーワード抽出部670を備えてもよい。
【0154】
格納部610は、本発明の装置で用いられるデータ構造(例えば、文書、単語、ノード、リンク、単語リスト、関連度スコア、伝達スコア、伝達スコア比率、キーワードスコア、および抽出されたキーワードを示すためのデータ構造またはオブジェクト)を格納し、他の構成要素620から670に提供する。
【0155】
上記のデータ構造は、格納部610を経由することなく他の構成要素620から670間に直接的に提供されてもよい。
【0156】
単語生成部620は、文書を形態素解析して単語単位に分割することによって1つ以上の単語を生成する。
【0157】
単語グラフ生成部630は、1つ以上のノードおよび1つ以上のリンクを含む単語グラフを生成する。
【0158】
単語グラフ生成部630は、1つ以上の単語の各々に対応する1つ以上のノードを生成してもよく、相互の距離が特定の値以下である2つの単語に各々対応する2つのノードを接続する1つ以上のリンクを生成してもよい。
【0159】
関連度スコア算出部640は、1つ以上の単語の各々の文書に対する関連度スコアを算出する。
【0160】
関連度スコア算出部640は、文書の集合のうち単語が用いられた文書の数および単語の文書中の使用頻度のうち1つ以上の情報に基づいて関連度スコアを算出してもよい。
【0161】
伝達スコア算出部650は、1つ以上の単語の各々に伝達される1つ以上の伝達スコアを算出する。
【0162】
伝達スコア算出部650は、関連度スコアに基づいて1つ以上の伝達スコアを生成してもよく、1つ以上の単語のうち相互の距離が特定の値以下である2つの単語によって1つ以上の伝達スコアの各々を伝達してもよい。
【0163】
伝達スコア算出部650は、単語グラフ中の経路の開始ノードに対応する第1単語から経路の最後のノードに対応する第2単語に伝達スコアを伝達してもよく、経路は1つ以上のリンクのうち1つ以上の接続されたリンクであってもよい。
【0164】
伝達スコア算出部650は、第1単語の関連度スコアおよび第1単語から第2単語への伝達スコア比率に基づいて第1単語から第2単語への伝達スコアを算出してもよい。
【0165】
伝達スコア算出部650は、第1単語と特定の距離内にある1つ以上の第3単語の各々の関連度スコアおよび第1単語に対応するノードから第3単語の各々に対応するノードへのリンク数の積に比例するように、第1単語から1つ以上の第3単語の各々への伝達スコア比率を算出してもよい。
【0166】
伝達スコア算出部650は、1つ以上の接続されたリンクの各々に対応する伝達スコア比率に基づいて第1単語から第2単語への伝達スコア比率を算出してもよい。この場合、リンクに対応する伝達スコア比率は、リンクが接続する2つのノードに各々対応する2つの単語間の伝達スコア比率であってもよい。
【0167】
単語生成部620は、文書中の単語のうち特定の品詞に属する単語を1つ以上の単語として生成してもよく、伝達スコア算出部650は特定の品詞に属する単語に基づいて単語間の距離を算出してもよい。
【0168】
キーワードスコア算出部660は、1つ以上の伝達スコアおよび関連度スコアに基づいて1つ以上の単語の各々のキーワードスコアを算出する。
【0169】
キーワード抽出部670は、1つ以上の単語の一部をキーワードスコアの降順にキーワードとして選択する。
【0170】
上記の図1から図5を参照して説明した本発明の一実施形態に係る技術内容が、本実施形態にそのまま適用されてもよい。したがって、この点に関する詳細な説明は以下省略する。
【0171】
構成要素620から670の機能は、単一の制御部(図示せず)によって行われてもよい。ここで、制御部は、単一または複数のプロセッサであってもよい。構成要素620から670は、制御部で行われるサービス、プロセス、スレッド、またはモジュールであってもよい。
【0172】
本発明の一実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組み合わせを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例としては、コンパイラによって生成されるような機械語コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアのレイヤで動作するように構成されてもよい。
【0173】
上述のように本発明を限定された実施形態と図面に基づいて説明したが、本発明は、上述の実施形態に限定されることなく、本発明の属する分野における通常の知識を有する者であれば、上述のような実施形態から多様な修正及び変形が可能である。
【0174】
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
【符号の説明】
【0175】
600 文書のキーワード抽出装置
620 単語生成部
630 単語グラフ生成部
640 関連度スコア算出部
650 伝達スコア算出部
660 キーワードスコア算出部
670 キーワード抽出部

【特許請求の範囲】
【請求項1】
文書のキーワードを抽出する方法であって、
1つ以上の単語の各々の前記文書に対する関連度スコアを算出し、
前記1つ以上の単語の各々に伝達される1つ以上の伝達スコアを算出し、
前記1つ以上の伝達スコアおよび前記関連度スコアに基づいて前記1つ以上の単語の各々のキーワードスコアを算出すること、を含み、
前記1つ以上の伝達スコアは、前記関連度スコアに基づいて生成され、前記1つ以上の単語のうち相互の距離が特定の値以下である2つの単語によって伝達されることを特徴とする文書のキーワード抽出方法。
【請求項2】
前記文書を形態素解析して単語単位に分割することによって、前記1つ以上の単語を生成することをさらに含むことを特徴とする請求項1に記載の文書のキーワード抽出方法。
【請求項3】
前記1つ以上の単語は、前記文書中の単語のうち特定の品詞に属する単語であり、前記距離は、前記特定の品詞に属する単語に基づいて算出されることを特徴とする請求項1または請求項2に記載の文書のキーワード抽出方法。
【請求項4】
前記関連度スコアは、文書の集合のうち単語が用いられた文書の数および前記単語の前記文書中での使用頻度のうち1つ以上の情報に基づいて算出されることを特徴とする請求項1から請求項3のいずれか1項に記載の文書のキーワード抽出方法。
【請求項5】
1つ以上のノードおよび1つ以上のリンクを含む単語グラフを生成することをさらに含み、
前記1つ以上のノードの各々は、前記1つ以上の単語の1つの単語に対応し、前記1つ以上のリンクの各々は、相互の距離が特定の値以下である2つの単語に各々対応する2つのノードを接続することを特徴とする請求項1から請求項4のいずれか1項に記載の文書のキーワード抽出方法。
【請求項6】
前記伝達スコアは、前記単語グラフ中の経路の開始ノードに対応する第1単語から前記経路の最後のノードに対応する第2単語に伝達され、前記経路は、前記1つ以上のリンクのうちの1つ以上の接続されたリンクであることを特徴とする請求項5に記載の文書のキーワード抽出方法。
【請求項7】
前記経路はサイクルを含まないことを特徴とする請求項6に記載の文書のキーワード抽出方法。
【請求項8】
前記第1単語から前記第2単語への前記伝達スコアは、前記第1単語の前記関連度スコアおよび前記第1単語から前記第2単語への伝達スコア比率に基づいて算出されることを特徴とする請求項6または請求項7に記載の文書のキーワード抽出方法。
【請求項9】
前記第1単語から前記第1単語と特定の距離内にある1つ以上の第3単語の各々への前記伝達スコア比率は、前記1つ以上の第3単語の各々の前記関連度スコアおよび前記第1単語に対応するノードから前記第3単語の各々に対応するノードへのリンク数の積に比例することを特徴とする請求項8に記載の文書のキーワード抽出方法。
【請求項10】
前記第1単語から前記第2単語への伝達スコア比率は、前記1つ以上の接続されたリンクの各々に対応する伝達スコア比率に基づいて算出され、前記リンクに対応する伝達スコア比率は、前記リンクが接続する2つのノードに各々対応する2つの単語間の伝達スコア比率であることを特徴とする請求項8または請求項9に記載の文書のキーワード抽出方法。
【請求項11】
前記1つ以上の単語の一部をキーワードスコアの降順にキーワードとして選択することをさらに含むことを特徴とする請求項1から請求項10のいずれか1項に記載の文書のキーワード抽出方法。
【請求項12】
請求項1から請求項11のうちいずれか1項に記載の文書のキーワード抽出方法を行うプログラムを収録したコンピュータで読み出し可能な記録媒体。
【請求項13】
文書のキーワードを抽出する装置において、
1つ以上の単語の各々の前記文書に対する関連度スコアを算出する関連度スコア算出部と、
前記1つ以上の単語各々に伝達される1つ以上の伝達スコアを算出する伝達スコア算出部と、
前記1つ以上の伝達スコアおよび前記関連度スコアに基づいて前記1つ以上の単語各々のキーワードスコアを算出するキーワードスコア算出部と、
を備え、
前記伝達スコア算出部は、前記関連度スコアに基づいて前記1つ以上の伝達スコアを生成し、前記1つ以上の単語のうち相互の距離が特定の値以下である2つの単語によって前記1つ以上の伝達スコアの各々を伝達することを特徴とする文書のキーワード抽出装置。
【請求項14】
前記文書を形態素解析して単語単位に分割することによって前記1つ以上の単語を生成する単語生成部をさらに備えることを特徴とする請求項13に記載の文書のキーワード抽出装置。
【請求項15】
前記単語生成部は、前記文書中の単語のうち特定の品詞に属する単語を前記1つ以上の単語として生成し、
前記伝達スコア算出部は、前記特定の品詞に属する単語に基づいて前記距離を算出することを特徴とする請求項13に記載の文書のキーワード抽出装置。
【請求項16】
前記関連度スコア算出部は、文書の集合のうち単語が用いられた文書の数および前記単語の前記文書中の使用頻度のうち1つ以上の情報に基づいて前記関連度スコアを算出することを特徴とする請求項13から請求項15のいずれか1項に記載の文書のキーワード抽出装置。
【請求項17】
1つ以上のノードおよび1つ以上のリンクを含む単語グラフを生成する単語グラフ生成部をさらに備え、
前記単語グラフ生成部は、前記1つ以上の単語の各々に対応する前記1つ以上のノードを生成し、相互の距離が特定の値以下である2つの単語に各々対応する2つのノードを接続する1つ以上のリンクを生成することを特徴とする請求項13から請求項16のいずれか1項に記載の文書のキーワード抽出装置。
【請求項18】
前記伝達スコア算出部は、前記単語グラフ中の経路の開始ノードに対応する第1単語から前記経路の最後のノードに対応する第2単語に伝達スコアを伝達し、前記経路は前記1つ以上のリンクのうち1つ以上の接続されたリンクであることを特徴とする請求項17に記載の文書のキーワード抽出装置。
【請求項19】
前記経路はサイクルを含まないことを特徴とする請求項18に記載の文書のキーワード抽出装置。
【請求項20】
前記伝達スコア算出部は、前記第1単語の前記関連度スコアおよび前記第1単語から前記第2単語への伝達スコア比率に基づいて前記第1単語から前記第2単語への前記伝達スコアを算出することを特徴とする請求項18または請求項19に記載の文書のキーワード抽出装置。
【請求項21】
前記伝達スコア算出部は、前記第1単語と特定の距離内にある1つ以上の第3単語の各々の前記関連度スコアおよび前記第1単語に対応するノードから前記第3単語各々に対応するノードへのリンク数の積に比例するように、前記第1単語から前記1つ以上の第3単語の各々への前記伝達スコア比率を算出することを特徴とする請求項20に記載の文書のキーワード抽出装置。
【請求項22】
前記伝達スコア算出部は、前記1つ以上の接続されたリンクの各々に対応する伝達スコア比率に基づいて、前記第1単語から前記第2単語への伝達スコア比率を算出し、前記リンクに対応する伝達スコア比率は前記リンクが接続する2つのノードに各々対応する2つの単語間の伝達スコア比率であることを特徴とする請求項20または請求項21に記載の文書のキーワード抽出装置。
【請求項23】
前記1つ以上の単語の中の一部をキーワードスコアの降順にキーワードとして選択するキーワード抽出部をさらに備えることを特徴とする請求項13から請求項22のいずれか1項に記載の文書のキーワード抽出装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−79309(P2012−79309A)
【公開日】平成24年4月19日(2012.4.19)
【国際特許分類】
【出願番号】特願2011−215297(P2011−215297)
【出願日】平成23年9月29日(2011.9.29)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)
【Fターム(参考)】