説明

代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

【課題】文書に適切に特徴付ける代表語を複数抽出することが可能で、また、多数の単語から構成される文書においても適切な代表語を抽出することを可能にする。
【解決手段】本発明は、文書概念ベクトルを取得し、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納し、距離記憶手段に格納されている距離に基づいて代表語を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、単語、新聞記事、ウェブ等の文書を対象として文書を特徴付ける代表語を抽出するための代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【0002】
単語間の類似性を判定し、類義語を検索し、また、関連文書を検索するためのデータベースの一つとして概念ベースが用いられている。
【0003】
この「概念ベース」は、単語とその単語に対応する概念ベクトルとの組からなるデータベースである。概念ベースとして、国語辞典の語義文から作成される辞書概念ベース(例えば、特許文献1参照)と、新聞記事等の文書を大量に集めたコーパスから作成されるコーパス概念ベース(例えば、非特許文献1参照)と、が知られている。
【0004】
また、所定の単語の「概念ベクトル」は、上記所定の単語が属する範囲(例えば、文)内で、予め決められた複数の共起語のそれぞれと共起する頻度に応じて算出される。
【0005】
概念ベースにおける共起語として、単語を辞書引きして得られる語義文中に出現する単語が用いられ、コーパス概念ベースにおける共起語として、コーパス中に高頻度で出現する単語が用いられる。各単語を行とし、共起語を列とし、単語と共起語との共起頻度を行列の成分とする共起行列を作成する。
【0006】
概念ベースの場合、上記共起行列における各行の行ベクトルが単語概念ベクトルであり、通常は語義文中に含まれる単語について、孫引きすることによって得られる語義文等を用いて概念ベクトルの精錬が行われる。
【0007】
コーパス概念ベースにおいて、特異値分解によって共起行列の列の次元を圧縮した行列を作成し、この圧縮した行列の行ベクトルが概念ベクトルである。このようにして作成された概念ベースは、単語間の類似性が高い程、単語の概念ベクトル間の距離が近いという性質を持つので、単語間の類似性を判定する場合に有効である。つまり、2つの単語間の概念ベクトルの距離が近い程、上記2つの単語間の類似性が高いと判断できる。
【0008】
文書の概念ベクトルは、文書を形態素解析して抽出される単語の概念ベクトルの平均として定義される。文書の概念ベクトルは、単語の概念ベクトルと全く同様に取り扱うことができ、各概念ベクトル間の距離に基づいて、文書間、単語−文書間の類似性を判定することができる。
【0009】
概念ベクトル間の距離を測定する測度として、Euclid距離やKullback-Leibler距離が用いられる。検索ベクトルをp→=(p,…,p)、被検索ベクトルをq→=(q,…,q)(『→』はベクトルを表す)とするとき、Euclid距離D(p→,q→)は、
【0010】
【数1】

Kullback-Leibler距離DKL(p→,r→)は、
【0011】
【数2】

でそれぞれ定義される。
【0012】
与えられた文書概念ベクトルを上記検索ベクトルとし、被検索ベクトルとなる各単語概要念ベクトルとの距離を全ての求め、最小距離に対応する単語をこの文書を特徴付ける代表語として定める事ができる。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】特許第3379603号公報
【非特許文献】
【0014】
【非特許文献1】H. Schutze, "Dimensions of meaning", Proceedings of Supercomputing '92, pp.787-796, 1992年
【発明の概要】
【発明が解決しようとする課題】
【0015】
しかしながら、文書概念ベクトルと単語概念ベクトルとの距離に基づいて、文書を特徴付ける代表語を求める方法では、一つの代表語を定める事ができるだけであり、文書をよりよく特徴付ける複数の代表語を抽出することができない。
【0016】
また、特に多数の単語から構成される文書においては、代表語との関連が弱い単語の影響によって文書概念ベクトルが"鈍る"ために適切な代表語を抽出できない。
【0017】
本発明は、上記の点に鑑みなされたもので、文書に適切に特徴付ける代表語を複数抽出することが可能で、また、多数の単語から構成される文書においても適切な代表語を抽出することが可能な代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0018】
図1は、本発明の原理を説明するための図である。
【0019】
本発明(請求項1)は、文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出方法であって、
文書概念ベクトル入力手段が、文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル取得ステップ(ステップ1)と、
距離計算手段が、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から該単語概念ベクトルを取得し(ステップ2)、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し(ステップ3)、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する(ステップ4)距離計算ステップと、
代表語出力手段が、距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力ステップ(ステップ5)と、を行う。
【0020】
また、本発明(請求項2)は、距離計算ステップにおいて、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを代表語概念ベクトルのひとつとして距離計算を行う。
【0021】
図2は、本発明の原理構成図である。
【0022】
本発明(請求項3)は、文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出装置であって、
単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段102と、
決定された代表語及び該代表語の概念ベクトルを蓄積する代表語概念ベクトル蓄積手段105と、
文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル入力手段101と、
単語概念ベクトル蓄積手段102から取得した該単語概念ベクトルと、代表語概念ベクトル蓄積手段105から代表語概念ベクトルを取得し、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段107に格納する距離計算手段103と、
距離記憶手段107に格納されている距離に基づいて、代表語を出力する代表語出力手段106と、を有する。
【0023】
また、本発明(請求項4)は、距離計算手段103において、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを代表語概念ベクトルのひとつとして距離計算を行う手段を含む。
【0024】
本発明(請求項5)は、請求項1または2に記載の代表語抽出方法の各ステップを実行するコンピュータを機能させるための代表語抽出プログラムである。
【0025】
本発明(請求項6)は、請求項5記載の代表語抽出プログラムを格納したコンピュータ読取可能な記録媒体である。
【発明の効果】
【0026】
本発明では、文書概念ベクトルと単語概念ベクトルとの距離に基づいて、文書を特徴付ける一つ目の代表語を定め、代表語概念ベクトルと各単語概念ベクトルがなす線分と、文書概念ベクトルとの距離に基づいて、二つ目の代表語を定める。同様の処理を繰り返すことによって、文書をより良く特徴付ける複数の代表語を抽出することができる。
【0027】
また、予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを用意しておき、これと各単語概念ベクトルがなす線分と、文書概念ベクトルとの距離に基づいて一つ目の代表語を定めることによって、多数の単語から構成される文書においても精度良く代表語を抽出することができる。
【図面の簡単な説明】
【0028】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における代表語抽出装置の構成図である。
【図4】本発明の一実施の形態における動作のフローチャートである。
【図5】本発明の一実施の形態における距離計算処理のフローチャートである。
【図6】従来技術による文書概念ベクトルと単語概念ベクトルとの距離計算を示す図である。
【図7】本発明の一実施の形態における文書ベクトルと単語概念ベクトル及び代表語概念ベクトルとの距離計算方法を示す図である。
【図8】本発明の一実施の形態における文書概念ベクトルと単語概念ベクトル及び二つの代表語概念ベクトルとの距離計算方法を示す図である。
【図9】本発明の一実施の形態における代表語抽出に用いる例文である。
【図10】本発明の一実施の形態における例文から抽出された内容語の例である。
【図11】従来技術の距離計算方法による例文からの代表語抽出結果である。
【図12】本発明の距離計算方法による例文からの第一代表語抽出結果である。
【図13】本発明の距離計算方法による例文からの第二代表語抽出結果である。
【図14】本発明の距離計算方法による例文からの第三代表語抽出結果である。
【図15】本発明の距離計算方法による例文からの第四代表語抽出結果である。
【発明を実施するための形態】
【0029】
以下、図面と共に本発明の実施の形態を説明する。
【0030】
図3は、本発明の一実施の形態における代表語抽出装置の構成を示す。
【0031】
同図に示す代表語抽出装置は、文書概念ベクトル入力部101、単語概念ベクトル蓄積部102、距離計算部103、代表語決定部104、代表語概念ベクトル蓄積部105、代表語出力部106、距離記憶部107から構成される。このうち、単語概念ベクトル蓄積部102、代表語概念ベクトル蓄積部105、距離記憶部107は、ハードディスク等の記憶媒体である。
【0032】
文書概念ベクトル入力部101は、文書概念ベクトルを入力する。具体的には、端末からキーボード等により入力された単語や文書を概念ベクトルに変換し、距離計算部103に出力する。
【0033】
距離計算部103は、単語概念ベクトル蓄積部102から単語概念ベクトルを読み出し、また、決定済みの代表語概念ベクトルが代表語概念ベクトル蓄積部105に格納されている場合には、当該代表語概念ベクトルを読み出す。その上で、文書概念ベクトル入力部101から入力された文書概念ベクトルと単語概念ベクトル及び代表語概念ベクトルがなす空間との距離を、全ての単語概念ベクトルについて計算し、距離記憶部107に格納する。
【0034】
代表語概念決定部104は、距離記憶部107に格納されている距離を昇順にソートし、最小の距離に対応する単語を代表語とし、当該代表語と代表語の概念ベクトルを代表語概念ベクトル蓄積部105に格納する。
【0035】
代表語出力部106は、最小距離が所定の閾値より小さい場合には、ここまで代表概念ベクトル蓄積部105に蓄積されている代表語を代表語抽出結果として出力する。
【0036】
以下に、上記の構成の動作を説明する。
【0037】
図4は、本発明の一実施の形態における動作のフローチャートである。
【0038】
まず、文書概念ベクトル入力部101から入力される(ステップ201)。より具体的には、端末からキーボードを用いて入力された文書が、概念ベクトルに変換される、もしくは、文書ファイルを読み込み、これを概念ベクトルに変換する。
【0039】
次に、距離計算部103は、文書概念ベクトル101から入力された文書概念ベクトルと、単語概念ベクトル蓄積部102から読み出した単語概念ベクトル及び代表語概念ベクトル蓄積部105から読み出した代表語概念ベクトルがなす空間との距離を、全ての単語概念ベクトルについて計算し、距離記憶部107に格納する(ステップ202)。具体的な距離計算の方法については後述する。
【0040】
その後、代表語決定部104は、距離記憶部107に格納されている距離を昇順にソートして(ステップ203)、最小の距離に対応する単語を代表語とし(ステップ204)、代表語と代表語の概念ベクトルを代表語概念ベクトル蓄積部105に記憶する(ステップ205)。最小距離が予め定めた閾値よりも小さい場合は(ステップ206)、代表語出力部106は、代表語概念ベクトル蓄積部105に格納されているここまでに決定されている代表語を、距離が小さい順に優先順位を付与して代表語抽出結果として出力する(ステップ207)。
【0041】
なお、上記のステップ206では、最小距離が所定の閾値より小さい場合を示しているが、所定回数(例えば100回)繰り返した時点における代表語を出力するようにしても良い。
【0042】
上記のステップ202の距離計算部103における距離計算の方法について詳しく説明する。図5は、本発明の一実施の形態における距離計算処理のフローチャートである。
【0043】
ステップ301) 距離計算部103は、単語概念ベクトル蓄積部102から一つの単語概念ベクトルを取得する。
【0044】
ステップ302) ステップ301で選択された単語概念ベクトルと入力された文書概念ベクトルとの距離を計算する。
【0045】
ステップ303) 代表語概念ベクトル蓄積部105から代表語概念ベクトルを読み出して、代表語が1つ以上ある場合は、ステップ306に移行し、ない場合はステップ304に移行する。
【0046】
ステップ304) 代表語概念ベクトル蓄積部105から代表語概念ベクトルが取得できなかった場合は、文書概念ベクトルと単語概念ベクトルとの距離を計算する。
【0047】
ステップ305) 求められた距離を距離記憶部107の配列に格納し、ステップ308に移行する。
【0048】
ステップ306) ステップ305で代表語概念ベクトル蓄積部105から代表語概念ベクトルが取得できた場合は、全ての代表語概念ベクトルと文書概念ベクトルとの線形結合について、単語概念ベクトルとの距離が最小となる線形結合係数を求める。
【0049】
ステップ307) ステップ306で求められた線形結合と単語概念ベクトルとの距離を計算し、ステップ305に移行する。
【0050】
ステップ308) 単語概念ベクトル蓄積部102に次の単語概念ベクトルがある場合はステップ309に移行し、ない場合は当該距離計算を終了する。
【0051】
ステップ309) 次の単語概念ベクトルを選択し、ステップ302に戻る。
【0052】
なお、以下の説明において、各概念ベクトルは、各要素pについて以下の条件を満足するように予め正規化されているものとする。
【0053】
【数3】

まず、距離計算部103は、一つ目の単語概念ベクトルを選択し(ステップ301)、選択された単語概念ベクトルと文書概念ベクトルとの距離計算を開始する(ステップ302)。
最初は、代表語が決定されていないので(ステップ303、N)、選択された一つ目の単語概念ベクトルと文書概念ベクトルとの距離を計算し、距離記憶部107に格納する(ステップ304,305)。具体的には、図6に示す従来の距離計算方法を用いて、選択された単語概念ベクトルと文書概念ベクトルとの距離を計算する。従来の距離計算は、概念ベクトルOP→=(p,…p)(「→」はベクトルを示す)と、各単語概念ベクトルOQ→=(q,…,q)との距離は、点Pと点QとのEuclid距離もしくはKullback-Leibler距離として計算される。この方法により、単語概念ベクトルと文書概念ベクトルから1つ目の代表語を決定することができる。この一つ目の代表語の概念ベクトルを代表語概念ベクトル蓄積部105に格納する。
【0054】
一つ目の代表語概念ベクトルとしては、予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルとして計算し、これを代表語概念ベクトル蓄積部105に格納してもよい。これによって、各文書に共通して現われる(代表語としては不適切な)単語の影響を事前に取り除くことができる。
【0055】
次の単語概念ベクトルがある場合(ステップ308、Y)は、次の単語概念ベクトルを選択し(ステップ309)、以下の処理を行う。図7は、本発明の一実施の形態における文書概念ベクトルと単語概念ベクトル及び代表語概念ベクトルとの距離計算方法を示す。
【0056】
上記に示す方法により求められ、代表語概念ベクトル蓄積部105に格納されている決定済みの代表概念ベクトルをOV→とする。
【0057】
単語概念ベクトル蓄積部102の単語概念ベクトルで与えられる概念と、代表語概念ベクトルで与えられる概念の混合概念に対応する混合概念ベクトルOS→=(s,…,s)を、混合度μとして、
OS→=μOS→+(1−μ)OQ→
で定義し、距離測度Dの下での、単語概念ベクトルOQ→と、文書概念ベクトルOP→及び代表語概念ベクトルOV→との距離を、
【0058】
【数4】

で定義する。ここで、
【0059】
【数5】

である。これによって、単語概念ベクトルOQ→から、決定済みの代表語概念ベクトルOV→の成分を除いて、文書概念ベクトルとの距離を求めることができる。
【0060】
距離測度Dを、Euclid距離とした場合は、
【0061】
【数6】

Kullback-Leiber距離とした場合は、
【0062】
【数7】

または、
【0063】
【数8】

から最適なμを求めて、混合概念ベクトルOS→と文書概念ベクトルOP→との距離
【0064】
【数9】

を取得し(ステップ306、307)、距離記憶部107に格納する(ステップ305)。
【0065】
また、代表語概念ベクトル蓄積部105から読み出された代表語概念ベクトルが複数ある場合は(ステップ303、Y)、
【0066】
【数10】

として、上記のD(OP→,OS→)または、DKL(OP→,OS→)に代入し、最適なμ,…,μMを求めることにより、距離D(OP→,OSM→)を得ることができる(ステップ306,307)。求められた距離を距離記憶部107の配列に格納する(ステップ305)。
【0067】
図8は、代表語概念ベクトル2つ(M=2)ある場合の例を示す。同図では、文書概念ベクトルPを複数の代表語概念ベクトルV,Vの線形結合で近似する例を示している。図7に示す距離計算がPS=点Pと直接V,Qとの距離であったのに対し、図8では、PS=点Pと三角形V,V,Qの距離が算出される。代表語概念ベクトルの数が増すごとに、近似の精度は向上する(距離は単調減少する)。
【0068】
次に、図9に示す例文について、実際に代表語抽出を行った例を示す。
【0069】
図9の例文を形態素解析して、図10に示す内容語を抽出し、各内容語の単語概念ベクトルの平均として文書概念ベクトルOP→が生成される。図6に示す従来の距離計算方法により、文書概念ベクトルOP→と、各単語概念ベクトルOQ→のKullback-Leibler距離に基づいて代表語を求める。その例を図11に示す。この例では「ただす」が例文を特徴付ける代表語として抽出されている。
【0070】
一方、本発明に基づく代表語の抽出結果は、図12〜図15のようになる。距離測度としてKullback-Leibler距離を採用した。これによれば、「標準時」、「サービス」、「時報」、「閏秒」が例文を特徴付ける代表語として抽出されている。なお、図12〜図15には、距離計算時に求められた最適なμ,…,μMを合わせて示している。
【0071】
上記の代表語抽出装置における代表語の抽出方法の各処理をプログラムとして構築し、代表語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0072】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0073】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0074】
本発明は、入力された文書を特徴付ける代表語を抽出する技術に適用可能である。
【符号の説明】
【0075】
101 概念ベクトル入力手段、概念ベクトル入力部
102 単語概念ベクトル蓄積手段、単語概念ベクトル蓄積部
103 距離計算手段、距離計算部
104 代表語決定手段、代表語決定部
105 代表語概念ベクトル蓄積手段、代表語概念ベクトル蓄積部
106 代表語出力手段、代表語出力部
107 距離記憶手段、距離記憶部

【特許請求の範囲】
【請求項1】
文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出方法であって、
文書概念ベクトル入力手段が、文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル取得ステップと、
距離計算手段が、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、前記文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する距離計算ステップと、
代表語出力手段が、前記距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力ステップと、
を行うことを特徴とする代表語抽出方法。
【請求項2】
前記距離計算ステップにおいて、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを前記代表語概念ベクトルのひとつとして距離計算を行う
請求項1記載の代表語抽出方法。
【請求項3】
文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出装置であって、
単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段と、
決定された代表語及び該代表語の概念ベクトルを蓄積する代表語概念ベクトル蓄積手段と、
文書の概念ベクトル(文書概念ベクトル)を取得する文書概念ベクトル入力手段と、
前記単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、前記代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、前記文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する距離計算手段と、
前記距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力手段と、
を有することを特徴とする代表語抽出装置。
【請求項4】
前記距離計算手段は、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを前記代表語概念ベクトルのひとつとして距離計算を行う手段を含む
請求項3記載の代表語抽出装置。
【請求項5】
請求項1または2に記載の代表語抽出方法の各ステップを実行するコンピュータを機能させるための代表語抽出プログラム。
【請求項6】
請求項5記載の代表語抽出プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2010−186349(P2010−186349A)
【公開日】平成22年8月26日(2010.8.26)
【国際特許分類】
【出願番号】特願2009−30461(P2009−30461)
【出願日】平成21年2月12日(2009.2.12)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】