代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

【課題】文書に適切に特徴付ける代表語を複数抽出することが可能で、また、多数の単語から構成される文書においても適切な代表語を抽出することを可能にする。
【解決手段】本発明は、文書概念ベクトルを取得し、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納し、距離記憶手段に格納されている距離に基づいて代表語を出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、単語、新聞記事、ウェブ等の文書を対象として文書を特徴付ける代表語を抽出するための代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【０００２】
単語間の類似性を判定し、類義語を検索し、また、関連文書を検索するためのデータベースの一つとして概念ベースが用いられている。
【０００３】
この「概念ベース」は、単語とその単語に対応する概念ベクトルとの組からなるデータベースである。概念ベースとして、国語辞典の語義文から作成される辞書概念ベース（例えば、特許文献１参照）と、新聞記事等の文書を大量に集めたコーパスから作成されるコーパス概念ベース（例えば、非特許文献１参照）と、が知られている。
【０００４】
また、所定の単語の「概念ベクトル」は、上記所定の単語が属する範囲（例えば、文）内で、予め決められた複数の共起語のそれぞれと共起する頻度に応じて算出される。
【０００５】
概念ベースにおける共起語として、単語を辞書引きして得られる語義文中に出現する単語が用いられ、コーパス概念ベースにおける共起語として、コーパス中に高頻度で出現する単語が用いられる。各単語を行とし、共起語を列とし、単語と共起語との共起頻度を行列の成分とする共起行列を作成する。
【０００６】
概念ベースの場合、上記共起行列における各行の行ベクトルが単語概念ベクトルであり、通常は語義文中に含まれる単語について、孫引きすることによって得られる語義文等を用いて概念ベクトルの精錬が行われる。
【０００７】
コーパス概念ベースにおいて、特異値分解によって共起行列の列の次元を圧縮した行列を作成し、この圧縮した行列の行ベクトルが概念ベクトルである。このようにして作成された概念ベースは、単語間の類似性が高い程、単語の概念ベクトル間の距離が近いという性質を持つので、単語間の類似性を判定する場合に有効である。つまり、２つの単語間の概念ベクトルの距離が近い程、上記２つの単語間の類似性が高いと判断できる。
【０００８】
文書の概念ベクトルは、文書を形態素解析して抽出される単語の概念ベクトルの平均として定義される。文書の概念ベクトルは、単語の概念ベクトルと全く同様に取り扱うことができ、各概念ベクトル間の距離に基づいて、文書間、単語−文書間の類似性を判定することができる。
【０００９】
概念ベクトル間の距離を測定する測度として、Euclid距離やKullback-Leibler距離が用いられる。検索ベクトルをｐ→＝（ｐ_１，…，ｐ_Ｎ）、被検索ベクトルをｑ→＝（ｑ_１，…，ｑ_Ｎ）（『→』はベクトルを表す）とするとき、Euclid距離Ｄ_Ｅ（ｐ→，ｑ→）は、
【００１０】
【数１】

Kullback-Leibler距離Ｄ_KL（ｐ→，ｒ→）は、
【００１１】
【数２】

でそれぞれ定義される。
【００１２】
与えられた文書概念ベクトルを上記検索ベクトルとし、被検索ベクトルとなる各単語概要念ベクトルとの距離を全ての求め、最小距離に対応する単語をこの文書を特徴付ける代表語として定める事ができる。
【先行技術文献】
【特許文献】
【００１３】
【特許文献１】特許第３３７９６０３号公報
【非特許文献】
【００１４】
【非特許文献１】H. Schutze, "Dimensions of meaning", Proceedings of Supercomputing '92, pp.787-796, 1992年
【発明の概要】
【発明が解決しようとする課題】
【００１５】
しかしながら、文書概念ベクトルと単語概念ベクトルとの距離に基づいて、文書を特徴付ける代表語を求める方法では、一つの代表語を定める事ができるだけであり、文書をよりよく特徴付ける複数の代表語を抽出することができない。
【００１６】
また、特に多数の単語から構成される文書においては、代表語との関連が弱い単語の影響によって文書概念ベクトルが"鈍る"ために適切な代表語を抽出できない。
【００１７】
本発明は、上記の点に鑑みなされたもので、文書に適切に特徴付ける代表語を複数抽出することが可能で、また、多数の単語から構成される文書においても適切な代表語を抽出することが可能な代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【００１８】
図１は、本発明の原理を説明するための図である。
【００１９】
本発明（請求項１）は、文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出方法であって、
文書概念ベクトル入力手段が、文書の概念ベクトル（文書概念ベクトル）を取得する文書概念ベクトル取得ステップ（ステップ１）と、
距離計算手段が、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から該単語概念ベクトルを取得し（ステップ２）、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し（ステップ３）、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する（ステップ４）距離計算ステップと、
代表語出力手段が、距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力ステップ（ステップ５）と、を行う。
【００２０】
また、本発明（請求項２）は、距離計算ステップにおいて、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを代表語概念ベクトルのひとつとして距離計算を行う。
【００２１】
図２は、本発明の原理構成図である。
【００２２】
本発明（請求項３）は、文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出装置であって、
単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段１０２と、
決定された代表語及び該代表語の概念ベクトルを蓄積する代表語概念ベクトル蓄積手段１０５と、
文書の概念ベクトル（文書概念ベクトル）を取得する文書概念ベクトル入力手段１０１と、
単語概念ベクトル蓄積手段１０２から取得した該単語概念ベクトルと、代表語概念ベクトル蓄積手段１０５から代表語概念ベクトルを取得し、文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段１０７に格納する距離計算手段１０３と、
距離記憶手段１０７に格納されている距離に基づいて、代表語を出力する代表語出力手段１０６と、を有する。
【００２３】
また、本発明（請求項４）は、距離計算手段１０３において、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを代表語概念ベクトルのひとつとして距離計算を行う手段を含む。
【００２４】
本発明（請求項５）は、請求項１または２に記載の代表語抽出方法の各ステップを実行するコンピュータを機能させるための代表語抽出プログラムである。
【００２５】
本発明（請求項６）は、請求項５記載の代表語抽出プログラムを格納したコンピュータ読取可能な記録媒体である。
【発明の効果】
【００２６】
本発明では、文書概念ベクトルと単語概念ベクトルとの距離に基づいて、文書を特徴付ける一つ目の代表語を定め、代表語概念ベクトルと各単語概念ベクトルがなす線分と、文書概念ベクトルとの距離に基づいて、二つ目の代表語を定める。同様の処理を繰り返すことによって、文書をより良く特徴付ける複数の代表語を抽出することができる。
【００２７】
また、予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを用意しておき、これと各単語概念ベクトルがなす線分と、文書概念ベクトルとの距離に基づいて一つ目の代表語を定めることによって、多数の単語から構成される文書においても精度良く代表語を抽出することができる。
【図面の簡単な説明】
【００２８】
【図１】本発明の原理を説明するための図である。
【図２】本発明の原理構成図である。
【図３】本発明の一実施の形態における代表語抽出装置の構成図である。
【図４】本発明の一実施の形態における動作のフローチャートである。
【図５】本発明の一実施の形態における距離計算処理のフローチャートである。
【図６】従来技術による文書概念ベクトルと単語概念ベクトルとの距離計算を示す図である。
【図７】本発明の一実施の形態における文書ベクトルと単語概念ベクトル及び代表語概念ベクトルとの距離計算方法を示す図である。
【図８】本発明の一実施の形態における文書概念ベクトルと単語概念ベクトル及び二つの代表語概念ベクトルとの距離計算方法を示す図である。
【図９】本発明の一実施の形態における代表語抽出に用いる例文である。
【図１０】本発明の一実施の形態における例文から抽出された内容語の例である。
【図１１】従来技術の距離計算方法による例文からの代表語抽出結果である。
【図１２】本発明の距離計算方法による例文からの第一代表語抽出結果である。
【図１３】本発明の距離計算方法による例文からの第二代表語抽出結果である。
【図１４】本発明の距離計算方法による例文からの第三代表語抽出結果である。
【図１５】本発明の距離計算方法による例文からの第四代表語抽出結果である。
【発明を実施するための形態】
【００２９】
以下、図面と共に本発明の実施の形態を説明する。
【００３０】
図３は、本発明の一実施の形態における代表語抽出装置の構成を示す。
【００３１】
同図に示す代表語抽出装置は、文書概念ベクトル入力部１０１、単語概念ベクトル蓄積部１０２、距離計算部１０３、代表語決定部１０４、代表語概念ベクトル蓄積部１０５、代表語出力部１０６、距離記憶部１０７から構成される。このうち、単語概念ベクトル蓄積部１０２、代表語概念ベクトル蓄積部１０５、距離記憶部１０７は、ハードディスク等の記憶媒体である。
【００３２】
文書概念ベクトル入力部１０１は、文書概念ベクトルを入力する。具体的には、端末からキーボード等により入力された単語や文書を概念ベクトルに変換し、距離計算部１０３に出力する。
【００３３】
距離計算部１０３は、単語概念ベクトル蓄積部１０２から単語概念ベクトルを読み出し、また、決定済みの代表語概念ベクトルが代表語概念ベクトル蓄積部１０５に格納されている場合には、当該代表語概念ベクトルを読み出す。その上で、文書概念ベクトル入力部１０１から入力された文書概念ベクトルと単語概念ベクトル及び代表語概念ベクトルがなす空間との距離を、全ての単語概念ベクトルについて計算し、距離記憶部１０７に格納する。
【００３４】
代表語概念決定部１０４は、距離記憶部１０７に格納されている距離を昇順にソートし、最小の距離に対応する単語を代表語とし、当該代表語と代表語の概念ベクトルを代表語概念ベクトル蓄積部１０５に格納する。
【００３５】
代表語出力部１０６は、最小距離が所定の閾値より小さい場合には、ここまで代表概念ベクトル蓄積部１０５に蓄積されている代表語を代表語抽出結果として出力する。
【００３６】
以下に、上記の構成の動作を説明する。
【００３７】
図４は、本発明の一実施の形態における動作のフローチャートである。
【００３８】
まず、文書概念ベクトル入力部１０１から入力される（ステップ２０１）。より具体的には、端末からキーボードを用いて入力された文書が、概念ベクトルに変換される、もしくは、文書ファイルを読み込み、これを概念ベクトルに変換する。
【００３９】
次に、距離計算部１０３は、文書概念ベクトル１０１から入力された文書概念ベクトルと、単語概念ベクトル蓄積部１０２から読み出した単語概念ベクトル及び代表語概念ベクトル蓄積部１０５から読み出した代表語概念ベクトルがなす空間との距離を、全ての単語概念ベクトルについて計算し、距離記憶部１０７に格納する（ステップ２０２）。具体的な距離計算の方法については後述する。
【００４０】
その後、代表語決定部１０４は、距離記憶部１０７に格納されている距離を昇順にソートして（ステップ２０３）、最小の距離に対応する単語を代表語とし（ステップ２０４）、代表語と代表語の概念ベクトルを代表語概念ベクトル蓄積部１０５に記憶する（ステップ２０５）。最小距離が予め定めた閾値よりも小さい場合は（ステップ２０６）、代表語出力部１０６は、代表語概念ベクトル蓄積部1０５に格納されているここまでに決定されている代表語を、距離が小さい順に優先順位を付与して代表語抽出結果として出力する（ステップ２０７）。
【００４１】
なお、上記のステップ２０６では、最小距離が所定の閾値より小さい場合を示しているが、所定回数（例えば１００回）繰り返した時点における代表語を出力するようにしても良い。
【００４２】
上記のステップ２０２の距離計算部１０３における距離計算の方法について詳しく説明する。図５は、本発明の一実施の形態における距離計算処理のフローチャートである。
【００４３】
ステップ３０１）距離計算部１０３は、単語概念ベクトル蓄積部１０２から一つの単語概念ベクトルを取得する。
【００４４】
ステップ３０２）ステップ３０１で選択された単語概念ベクトルと入力された文書概念ベクトルとの距離を計算する。
【００４５】
ステップ３０３）代表語概念ベクトル蓄積部１０５から代表語概念ベクトルを読み出して、代表語が１つ以上ある場合は、ステップ３０６に移行し、ない場合はステップ３０４に移行する。
【００４６】
ステップ３０４）代表語概念ベクトル蓄積部１０５から代表語概念ベクトルが取得できなかった場合は、文書概念ベクトルと単語概念ベクトルとの距離を計算する。
【００４７】
ステップ３０５）求められた距離を距離記憶部１０７の配列に格納し、ステップ３０８に移行する。
【００４８】
ステップ３０６）ステップ３０５で代表語概念ベクトル蓄積部１０５から代表語概念ベクトルが取得できた場合は、全ての代表語概念ベクトルと文書概念ベクトルとの線形結合について、単語概念ベクトルとの距離が最小となる線形結合係数を求める。
【００４９】
ステップ３０７）ステップ３０６で求められた線形結合と単語概念ベクトルとの距離を計算し、ステップ３０５に移行する。
【００５０】
ステップ３０８）単語概念ベクトル蓄積部１０２に次の単語概念ベクトルがある場合はステップ３０９に移行し、ない場合は当該距離計算を終了する。
【００５１】
ステップ３０９）次の単語概念ベクトルを選択し、ステップ３０２に戻る。
【００５２】
なお、以下の説明において、各概念ベクトルは、各要素ｐ_ｉについて以下の条件を満足するように予め正規化されているものとする。
【００５３】
【数３】

まず、距離計算部１０３は、一つ目の単語概念ベクトルを選択し（ステップ３０１）、選択された単語概念ベクトルと文書概念ベクトルとの距離計算を開始する（ステップ３０２）。
最初は、代表語が決定されていないので（ステップ３０３、N）、選択された一つ目の単語概念ベクトルと文書概念ベクトルとの距離を計算し、距離記憶部１０７に格納する（ステップ３０４，３０５）。具体的には、図６に示す従来の距離計算方法を用いて、選択された単語概念ベクトルと文書概念ベクトルとの距離を計算する。従来の距離計算は、概念ベクトルＯＰ→＝（ｐ_１，…ｐ_Ｎ）（「→」はベクトルを示す）と、各単語概念ベクトルＯＱ→＝（ｑ_１，…，ｑ_Ｎ）との距離は、点Ｐと点ＱとのEuclid距離もしくはKullback-Leibler距離として計算される。この方法により、単語概念ベクトルと文書概念ベクトルから１つ目の代表語を決定することができる。この一つ目の代表語の概念ベクトルを代表語概念ベクトル蓄積部１０５に格納する。
【００５４】
一つ目の代表語概念ベクトルとしては、予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルとして計算し、これを代表語概念ベクトル蓄積部１０５に格納してもよい。これによって、各文書に共通して現われる（代表語としては不適切な）単語の影響を事前に取り除くことができる。
【００５５】
次の単語概念ベクトルがある場合（ステップ３０８、Ｙ）は、次の単語概念ベクトルを選択し（ステップ３０９）、以下の処理を行う。図７は、本発明の一実施の形態における文書概念ベクトルと単語概念ベクトル及び代表語概念ベクトルとの距離計算方法を示す。
【００５６】
上記に示す方法により求められ、代表語概念ベクトル蓄積部１０５に格納されている決定済みの代表概念ベクトルをＯＶ_１→とする。
【００５７】
単語概念ベクトル蓄積部１０２の単語概念ベクトルで与えられる概念と、代表語概念ベクトルで与えられる概念の混合概念に対応する混合概念ベクトルＯＳ→＝（ｓ_１，…，ｓ_Ｎ）を、混合度μとして、
ＯＳ→＝μＯＳ_１→＋（１−μ）ＯＱ→
で定義し、距離測度Ｄの下での、単語概念ベクトルＯＱ→と、文書概念ベクトルＯＰ→及び代表語概念ベクトルＯＶ_１→との距離を、
【００５８】
【数４】

で定義する。ここで、
【００５９】
【数５】

である。これによって、単語概念ベクトルＯＱ→から、決定済みの代表語概念ベクトルＯＶ_１→の成分を除いて、文書概念ベクトルとの距離を求めることができる。
【００６０】
距離測度Ｄを、Euclid距離とした場合は、
【００６１】
【数６】

Kullback-Leiber距離とした場合は、
【００６２】
【数７】

または、
【００６３】
【数８】

から最適なμを求めて、混合概念ベクトルＯＳ→と文書概念ベクトルＯＰ→との距離
【００６４】
【数９】

を取得し（ステップ３０６、３０７）、距離記憶部１０７に格納する（ステップ３０５）。
【００６５】
また、代表語概念ベクトル蓄積部１０５から読み出された代表語概念ベクトルが複数ある場合は（ステップ３０３、Ｙ）、
【００６６】
【数１０】

として、上記のＤ_Ｅ（ＯＰ→，ＯＳ→）または、Ｄ_KL（ＯＰ→，ＯＳ→）に代入し、最適なμ_１，…，μ_Mを求めることにより、距離Ｄ（ＯＰ→，ＯＳ_M→）を得ることができる（ステップ３０６，３０７）。求められた距離を距離記憶部１０７の配列に格納する（ステップ３０５）。
【００６７】
図８は、代表語概念ベクトル２つ（Ｍ＝２）ある場合の例を示す。同図では、文書概念ベクトルＰを複数の代表語概念ベクトルＶ_１，Ｖ_２の線形結合で近似する例を示している。図７に示す距離計算がＰＳ_１＝点Ｐと直接Ｖ_１，Ｑとの距離であったのに対し、図８では、ＰＳ_２＝点Ｐと三角形Ｖ_１，Ｖ_２，Ｑの距離が算出される。代表語概念ベクトルの数が増すごとに、近似の精度は向上する（距離は単調減少する）。
【００６８】
次に、図９に示す例文について、実際に代表語抽出を行った例を示す。
【００６９】
図９の例文を形態素解析して、図１０に示す内容語を抽出し、各内容語の単語概念ベクトルの平均として文書概念ベクトルＯＰ→が生成される。図６に示す従来の距離計算方法により、文書概念ベクトルＯＰ→と、各単語概念ベクトルＯＱ→のKullback-Leibler距離に基づいて代表語を求める。その例を図１１に示す。この例では「ただす」が例文を特徴付ける代表語として抽出されている。
【００７０】
一方、本発明に基づく代表語の抽出結果は、図１２〜図１５のようになる。距離測度としてKullback-Leibler距離を採用した。これによれば、「標準時」、「サービス」、「時報」、「閏秒」が例文を特徴付ける代表語として抽出されている。なお、図１２〜図１５には、距離計算時に求められた最適なμ_１，…，μ_Mを合わせて示している。
【００７１】
上記の代表語抽出装置における代表語の抽出方法の各処理をプログラムとして構築し、代表語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【００７２】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【００７３】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【００７４】
本発明は、入力された文書を特徴付ける代表語を抽出する技術に適用可能である。
【符号の説明】
【００７５】
１０１概念ベクトル入力手段、概念ベクトル入力部
１０２単語概念ベクトル蓄積手段、単語概念ベクトル蓄積部
１０３距離計算手段、距離計算部
１０４代表語決定手段、代表語決定部
１０５代表語概念ベクトル蓄積手段、代表語概念ベクトル蓄積部
１０６代表語出力手段、代表語出力部
１０７距離記憶手段、距離記憶部

【特許請求の範囲】
【請求項１】
文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出方法であって、
文書概念ベクトル入力手段が、文書の概念ベクトル（文書概念ベクトル）を取得する文書概念ベクトル取得ステップと、
距離計算手段が、単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、決定済みの代表語概念ベクトルが蓄積されている代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、前記文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する距離計算ステップと、
代表語出力手段が、前記距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力ステップと、
を行うことを特徴とする代表語抽出方法。
【請求項２】
前記距離計算ステップにおいて、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを前記代表語概念ベクトルのひとつとして距離計算を行う
請求項１記載の代表語抽出方法。
【請求項３】
文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、この文書を特徴付ける代表語を抽出する代表語抽出装置であって、
単語及び該単語の概念ベクトルが蓄積されている単語概念ベクトル蓄積手段と、
決定された代表語及び該代表語の概念ベクトルを蓄積する代表語概念ベクトル蓄積手段と、
文書の概念ベクトル（文書概念ベクトル）を取得する文書概念ベクトル入力手段と、
前記単語概念ベクトル蓄積手段から取得した該単語概念ベクトルと、前記代表語概念ベクトル蓄積手段から代表語概念ベクトルを取得し、前記文書概念ベクトルと、該単語概念ベクトルと該代表語概念ベクトルとがなす空間の距離を、全ての単語概念ベクトルについて計算し、距離記憶手段に格納する距離計算手段と、
前記距離記憶手段に格納されている距離に基づいて、代表語を出力する代表語出力手段と、
を有することを特徴とする代表語抽出装置。
【請求項４】
前記距離計算手段は、
予め用意された大量の文書集合について各文書の文書概念ベクトルの平均ベクトルを計算し、該平均ベクトルを前記代表語概念ベクトルのひとつとして距離計算を行う手段を含む
請求項３記載の代表語抽出装置。
【請求項５】
請求項１または２に記載の代表語抽出方法の各ステップを実行するコンピュータを機能させるための代表語抽出プログラム。
【請求項６】
請求項５記載の代表語抽出プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。

【図１】