入力情報分析装置

【課題】入力情報の自動分類結果を容易に理解することができる表示技術を提供する。
【解決手段】入力情報解析手段１０ｂは、複数の入力情報に含まれている単語情報と複数の入力情報それぞれとの対応関係を解析する。クラスタ帰属度判別手段１０ｃおよびクラスタラベル語判別手段１０ｄは、単語情報と入力情報との対応関係と、入力手段３０から入力されたクラスタ数に基づいて、各入力情報が各分類に属する度合いを示す入力情報の帰属度および各クラスタの特徴を示すクラスタラベル語を判別する。クラスタシンボル座標情報算出手段１０ｅは、各クラスタを示すクラスタシンボル情報を、２次元平面上の円または楕円に沿って配置するためのクラスタシンボル座標情報を算出する。入力シンボル座標情報算出手段１０ｆは、各入力情報を示す入力シンボル情報を、クラスタを座標軸とする２次元平面上に配置するための入力シンボル座標情報を算出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力情報分析技術に関し、特に、入力情報の自動分析結果を容易に理解することができるように表示する技術に関する。
【背景技術】
【０００２】
これまで、アンケートや電話受付等のテキストを入力情報として様々な分析を行い、全体傾向の把握やデータ間の相関関係を見出す入力情報分析装置（テキストマイニング）の開発が行われている。
テキストマイニング技術の一つとして、予めカテゴリ（分類）を定めない文書分類技術（文書クラスタリング）が提案されている。例えば、特許文献１に記載されているような文書クラスタリングが知られている。この特許文献１に記載されている文書クラスタリングは、（１）分析対象のテキスト集合に応じて適切なクラスタ数（分類数）を推定する、（２）生成されたクラスタ（分類）に対し意味内容を示すクラスタラベル語を付与する、（３）文書データを階層構造に分類する階層化クラスタリング等を特徴としている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００２−１８３１７１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
一般に、クラスタリング技術を用いることによって、各種分類手法に応じた分類結果を得ることができるが、分類結果の解釈は難解であるため、分類結果の出力手法に工夫を要する。特許文献１においても、文書クラスタリング手法については開示されているが、クラスタリング結果の解釈を容易にするための出力手法については言及されていない。また、特許文献１には、生成されたクラスタの意味内容を示すクラスラベル語の抽出手法については言及されているが、クラスタラベル語の具体的な出力手法については言及されていない。
本発明は、このような点に鑑みて創案されたものであり、文書等の入力情報を分析する入力情報分析装置において、分析結果（クラスタリング結果）を容易に理解することができる技術を提供することを目的とする。
【課題を解決するための手段】
【０００５】
本発明の入力情報分析装置は、メールで送られてくるデジタルの文書情報、電話で送られてくる音声情報、葉書に記入されているアナログの文書情報等を分析することができる。なお、好適には、音声情報やアナログの文書情報等は、デジタルの文書情報に変換されたものが用いられる。また、本発明の入力情報分析装置は、入力情報を所与のカテゴリに分類するものではなく、入力情報を、入力手段から入力された分類数（クラスタ数）に分類する手法（「クラスタリング」と呼ばれている）を用いている。分類数としては、適宜の正の整数を設定することができる。勿論、記憶手段に予め記憶されている分類数を用いることもできる。
本発明の入力情報分析装置は、入力手段、管理手段、入力情報解析手段、分類帰属度判別手段、分類特徴情報判別手段、分類シンボル座標情報算出手段、入力シンボル座標情報算出手段、出力手段を備えている。入力手段としては、テンキー、マウス、記憶媒体に記憶されている情報を読み取る読取手段等の種々の公知の入力手段が用いられる。出力手段としては、表示手段や印刷手段等の公知の種々の出力手段が用いられる。
入力情報解析手段は、入力手段から入力された複数の入力情報に含まれている複数の単語情報（変化形を考慮した、互いに異なる単語情報）を抽出し、抽出した各単語情報と各入力情報との対応関係を解析する。各単語情報と各入力情報との対応関係は、例えば、ｎ行（ｎ個の異なる単語情報）×ｍ列（ｍ個の入力情報）の単語・入力情報行列として判別することができる。
分類帰属度判別手段は、入力情報解析手段によって解析された、各単語情報と各入力情報との対応関係と分類数に基づいて、入力情報が分類に属する度合いを示す、入力情報の分類に対する帰属度を、各入力情報について、分類数の各分類に対して判別する。
分類特徴情報判別手段は、入力情報解析手段によって解析された、各単語情報と各入力情報との対応関係と分類数に基づいて、単語情報が分類に属する度合いを示す、単語情報の分類に対する帰属度を、各単語情報について、各分類に対して判別する。そして、判別した各単語情報の各分類に対する帰属度に基づいて、各分類に対して、複数の単語情報の中から、入力手段から入力された分類特徴情報数の単語情報を選択し、各分類の特徴を示す分類特徴情報として判別する。分類特徴情報数としては、適宜の正の整数を設定することができる。
分類帰属度判別手段により各入力情報の各分類に対する帰属度を判別する手法や、分類特徴情報判別手段により各単語情報の各分類に対する帰属度を判別する手法としては、公知の種々の手法を用いることができる。例えば、後述するＮＭＦ法を用いることができる。ＮＭＦ法を用いる場合には、各入力情報の各分類に対する帰属度と各単語情報の各分類に対する帰属度を同時に判別することができる。
分類シンボル座標情報算出手段は、分類帰属度判別手段によって判別された、各入力情報の各分類に対する帰属度に基づいて、各分類を示す分類シンボル情報を、類似している分類を示す分類シンボル情報が隣接するように２次元平面上に配置するための分類シンボル座標情報を算出する。分類シンボル情報としては、記号や文字等の種々の情報を用いることができる。
入力シンボル座標情報算出手段は、各入力情報を示す入力シンボル情報を、分類シンボル情報が配置された、分類を座標軸とする２次元平面上に配置するための入力シンボル座標情報を算出する。入力シンボル情報としては、分類シンボル情報と識別可能な、記号や文字等の種々の情報を用いることができる。
管理手段は、分類シンボル座標情報算出手段によって算出された分類シンボル座標情報および入力シンボル座標情報算出手段によって算出された入力シンボル座標情報に基づいて、分類シンボル情報および入力シンボル情報を出力手段から出力する。
本発明では、類似している分類の分類シンボル情報が２次元平面上に配置されるため、類似している分類が存在するか否かを容易に把握することができる。また、どの分類に属する入力情報の数が多いかを容易に把握することができる。
【０００６】
本発明の異なる形態では、分類シンボル座標情報算出手段は、分類シンボル情報が、２次元平面上の円または楕円に沿った位置に配置されるように分類シンボル座標情報を算出する。
円または楕円に沿った位置は、厳密に円または楕円の外周に沿っていなくてもよい。
なお、円又は楕円に沿って配置する場合には、円または楕円の外周線が閉じているため、隣接して配置されている分類シンボル情報で示される分類が類似していない箇所が存在することがある。例えば、類似している分類を示す分類シンボル情報を一方向に沿って順に配置する場合（第１番目の分類を示す第１番目の分類シンボル情報を配置し、第１番目の分類に類似している第２番目の分類を示す第２番目の分類シンボル情報を第１番目の分類シンボル情報に対して時計回り方向に配置する場合）には、最後の分類シンボル情報で示される分類と第１番目の分類シンボル情報で示される分類が類似していないことがある。本形態では、このような配置態様も、「類似している分類を示す分類シンボル情報が隣接するように２次元平面上に配置する」構成に包含される。
本形態では、閉じている線に沿って分類シンボル情報が配置されるため、類似している分類をより容易に把握することができる。
【０００７】
本発明の他の異なる形態では、分類シンボル座標情報算出手段は、さらに、分類シンボル座標情報で示される位置を中心とする円または楕円に沿った位置に、当該分類シンボル座標位置に配置される分類シンボル情報で示される分類の分類特徴情報を配置するための分類特徴座標情報を算出する。そして、管理手段は、分類シンボル座標情報算出手段によって算出された分類特徴座標情報に基づいて、分類特徴情報を出力手段から出力する。
円または楕円に沿った位置は、厳密に円または楕円の外周に沿っていなくてもよい。
本形態では、２次元平面上に分類シンボル情報とともに、分類シンボル情報で示される分類の分類特徴情報も配置されるため、各分類の内容を容易に理解することができる。さらに、各分類の分類特徴情報が、各分類を示す分類シンボル情報の周りに配置されるため、各分類の内容をより容易に把握することができる。
【０００８】
本発明のさらに他の異なる形態では、管理手段は、分類シンボル情報、入力シンボル情報および分類特徴情報を出力手段から出力している状態で、いずれかの分類特徴情報を指示する分類特徴指示信号が入力手段から入力されると、入力された分類特徴指示信号で指示されている分類特徴情報を含む入力情報を示す入力シンボル情報を、他の入力シンボル情報と異なる出力態様で出力する。
異なる出力態様としては、指示されている分類特徴情報を含む入力情報を示す入力シンボル情報と他の入力シンボル情報を識別可能な種々の出力態様を用いることができる。例えば、色、形、大きさ等が異なる出力態様が用いられる。
なお、分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報も出力可能に構成するのが好ましい。例えば、入力された分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報を示す入力シンボル情報を、他の入力シンボル情報と異なる出力態様で出力するとともに、当該分類特徴情報を含む入力情報の一覧を出力するように構成する。あるいは、入力された分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報を示す入力シンボル情報を、他の入力シンボル情報と異なる出力態様で出力し、この状態で、入力情報出力要求信号（例えば、入力された分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報を示す入力シンボル情報のいずれかを指示する入力情報出力要求信号）が入力手段から入力されると、当該分類特徴情報を含む入力情報の一覧を出力する。
本形態では、分類特徴情報と入力情報との対応関係、同じ分類特徴情報を含む入力情報の数や分布状態を容易に把握することができる。
【０００９】
本発明の他の発明は、コンピュータに、前記した管理手段、入力情報解析手段、分類帰属度判別手段、分類特徴情報判別手段、分類シンボル座標情報算出手段、入力シンボル座標情報算出手段の処理を実行させるためのプログラムあるいはプログラムが記憶された記憶媒体である。
本発明のプログラムあるいは記憶媒体を用いることにより、前述した効果を得ることができる。
【発明の効果】
【００１０】
本発明では、文書等の入力情報を分析する入力情報分析装置において、分析結果（クラスタリング結果）を容易に視覚によって把握することができる。
【図面の簡単な説明】
【００１１】
【図１】本発明の入力情報分析装置の一実施の形態の概略構成図である。
【図２】本発明の入力情報分析装置の一実施の形態の動作を説明する図である。
【図３】文書のクラスタ帰属度の1例を示す図である。
【図４】単語のクラスタ帰属度の1例を示す図である。
【図５】クラスタシンボル情報を対応分析により２次元平面上に算出（射影）した図の１例である。
【図６】クラスタシンボル情報を円周上に射影した図の１例である。
【図７】クラスタを座標軸とする２次元平面上に文書シンボル情報を配置した状態を示す図の１例である。
【図８】クラスタを座標軸とする２次元平面上にクラスタラベル語を配置した状態を示す図の１例である。
【図９】クラスタを座標軸とする２次元平面上にクラスタラベル語を配置した状態を示す図の他の例である。
【図１０】階層状に出力する例を示す図である。
【図１１】表示手段の表示画面の1例である。
【発明を実施するための形態】
【００１２】
以下に本発明の実施の形態を、図面を参照して説明する。
本実施の形態の入力情報分析装置の概略構成が図１に示されている。
本実施の形態の入力情報分析装置は、処理手段１０、記憶手段２０、入力手段３０、出力手段４０等により構成される。
記憶手段２０としては、ＲＯＭやＲＡＭ等の種々の記憶手段を用いることができる。記憶手段２０は、入力された複数の入力情報が記憶される入力情報データベース２０ａを有している。記憶手段２０の配設位置は、処理手段１０がアクセス可能な範囲内で適宜設定可能である。
記憶手段２０が本発明の「記憶手段」に対応する。
入力手段３０としては、入力情報や各種の指示信号等を入力可能な、キーボード、表示手段の表示部に設けられているタッチパネル、マウス、記憶媒体に記憶されている情報を読み取る情報読取手段等の種々の入力手段を用いることができる。
入力手段３０が本発明の「入力手段」に対応する。
出力手段４０としては、表示手段や印刷手段等の出力情報を視覚で確認することができる出力手段を用いることができる。なお、遠方の端末装置と通信可能に構成される場合には、遠方の端末装置の入力手段や出力手段が、本発明の入力手段や出力手段に対応する。
出力手段４０が本発明の「出力手段」に対応する。
【００１３】
処理手段１０は、管理手段１０ａ、入力情報解析手段１０ｂ、クラスタ帰属度判別手段１０ｃ、クラスタラベル語判別手段１０ｄ、クラスタシンボル座標情報算出手段１０ｅ、入力シンボル座標情報算出手段１０ｆを有している。処理手段１０は、各手段１０ａ〜１０ｆの処理を実行する１つのＣＰＵによって構成することもできるし、複数の処理手段の処理を実行する個別のＣＰＵによって構成することもできる。
管理手段１０ａが本発明の「管理手段」に対応し、入力情報解析手段１０ｂが本発明の「入力情報解析手段」に対応し、クラスタ帰属度判別手段１０ｃが本発明の「分類帰属度判別手段」に対応し、クラスタラベル語判別手段１０ｄが本発明の「分類特徴情報判別手段」に対応し、クラスタシンボル座標情報算出手段１０ｅが本発明の「分類シンボル座標情報算出手段」に対応し、入力シンボル座標情報算出手段１０ｆが本発明の「入力シンボル座標情報算出手段」に対応する。
【００１４】
管理手段１０ａは、入力情報分析装置全体の処理を管理する。例えば、入力手段３０からの入力情報や指示信号等の入力処理、クラスタシンボル情報、クラスタラベル語や入力シンボル情報の出力手段（表示手段や印刷手段）４０への出力処理、各手段１０ｂ〜１０ｆによる処理の実行等を管理する。なお、管理手段１０ａの処理を入力情報解析手段１０ｂ、クラスタ帰属度判別手段１０ｃ、クラスタラベル語判別手段１０ｄ、クラスタシンボル座標情報算出手段１０ｅ、入力シンボル座標情報算出手段１０ｆにより実行するように構成することもできる。管理手段１０ａによる出力態様については後述する。
【００１５】
入力情報解析手段１０ｂは、入力手段３０から入力されて記憶手段２０の入力情報データベース２０ａに記憶されている入力情報を分割し、入力情報を構成している単語情報を抽出する。入力情報を構成している単語情報を抽出する手法としては、例えば、入力情報を形態素に分解する形態素解析手法が用いられる。形態素解析手法としては、種々の手法が知られている。例えば、最長一致法、分割数最小法等が知られている。なお、入力情報を形態素に分解する際に用いられる辞書が記憶手段２０に記憶されている。
また、抽出した各単語情報（変化形を考慮した異なる単語情報）と各入力情報との対応関係を解析する。各単語情報と各入力情報との対応関係は、例えば、ｎ個の単語情報×ｍ個の入力情報から成る行列の形態で解析することができる。
入力情報データベース２０ａに記憶されている入力情報は、入力手段３０から入力されて記憶される。したがって、入力情報データベース２０ａに記憶されている入力情報は、入力手段３０から入力された入力情報に包含される。
【００１６】
クラスタ帰属度判別手段１０ｃは、入力情報解析手段１０ｂにより解析された、各単語情報と各入力情報との対応関係と、入力手段３０から入力されたクラスタ数（分類数）ｋに基づいて、入力情報がクラスタ（分類）に属する度合いを示す入力情報の帰属度を、各入力情報について、クラスタ数ｋの各クラスタに対して判別する。すなわち、各入力情報の各クラスタ（分類）に対する帰属度を判別する。
ここで、複数の入力情報をクラスタリングする（分類する）手法としては、種々の手法が知られている。
例えば、入力情報が属するクラスタ（分類）を一つに決定するハードクラスタリングが知られている。代表的なアルゴリズムとしては、例えば、ｋ−ｍｅａｎｓ法、スペクトルクラスタリングが知られている。
また、入力情報が複数のクラスタ（分類）に属することを許容するソフトクラスタリングが知られている。代表的なアルゴリズムとしては、例えば、ＮＭＦ（Ｎｏｎ−ｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ：非負値行列因子分解)、ｐＬＳＩ、混合分布モデルが知られている。
ＮＭＦは、特異値分解と異なり、非負の行列に分解する次元縮約を利用したクラスタリング手法であり、文書以外にも画像、音声等のデータも取り扱うことができる。この手法により、文書データのクラスタリングと同時に、生成されたクラスタの特徴を表すクラスタラベル語（分類特徴語）を抽出することができる。
本実施の形態では、入力情報のクラスタリング手法としてＮＭＦを用いている。
【００１７】
ＮＭＦは、例えば、Ｄ．Ｄ．ＬｅｅａｎｄＨ．Ｓ．Ｓｅｕｎｇ“Ａｌｇｏｒｉｔｈｍｆｏｒｎｏｎ−ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ”（ｉｎＰｒｏｃ．ＮＩＰＳ，ｐｐ．５５６−５６２，２０００）等に詳述されているが、要約すると以下のような手法である。
以下の［式１］に示すように、ｎ×ｍの単語文書行列Ｘを、想定するクラスタ数ｋの次元に縮約するために、ｎ×ｋの行列Ｕと、ｋ×ｍの行列Ｖ^Ｔに分解する。Ｖ^Ｔは、Ｖの転置行列である。なお、ｎは、異なり単語数（入力された複数の文章中に出現する異なる単語の数）であり、ｍは、文書数であり、ｋは、クラスタ数（分類数）である。行列Ｘの要素としては、単語情報を用いることもできるし、［１］あるいは［０］を用いることもできるし、単語情報重要度評価値（ＴＦ−ＩＤＦ）を用いることもできる。単語情報重要度評価値（ＴＦ−ＩＤＦ）は、（ＴＦ−ＩＤＦ）＝ＴＦ×ｌｏｇ（Ｎ／ＤＦ）によって求めることができる。ここで、ＴＦは、文書毎の単語情報出現回数であり、Ｎは、文書の数であり、ＤＦは、ある単語情報を含む文書の数である。
Ｘ＝Ｕ×Ｖ^Ｔ〔式１〕
［式１］で分解された行列Ｕは、単語がクラスタに属する度合い（単語のクラスタに対する帰属度）を示し、行列Ｖは、文書がクラスタに属する度合い（文書のクラスタに対する帰属度）を示す。また、複数の単語のうち、クラスタに属する度合い（単語のクラスタに対する帰属度）の高い単語は、そのクラスタの特徴語（クラスタの内容を示すクラスタラベル語）として抽出することができる。
ここで、ＮＭＦは、縮約後の各軸をトピック（話題）と解釈することができ、その軸へ射影した値が関連度の大きさを表していると考える。ＮＭＦでは、縮約後の各軸は、ＬＳＩ（潜在的意味インデキシング）のように直交していないが、縮約後の各軸を文書の構成要素であるトピックと捉えることによって、より意味的に適切なクラスタリングを行うことができる。
ＮＭＦを用いたクラスタリングでは、与えられた単語文書行列Ｘとクラスタ数ｋから、行列ＶとＵを以下の［式２］の繰り返し計算から求める。
【数１】

［式２］
なお、ＵとＶの初期値は適当な乱数が与えられる。
繰り返し計算によって||Ｘ−ＵＶ^Ｔ||の値（分解の誤差）は単調に減少するが、解の最適性を保証するものではない（初期値に依存して局所最適解に収束）。
【００１８】
クラスタラベル語判別手段１０ｄは、入力情報解析手段１０ｂにより解析された、各単語情報と各入力情報との対応関係と、入力手段３０から入力されたクラスタ数（分類数）ｋに基づいて、単語情報がクラスタに属する度合いを示す単語情報の帰属度を、各単語情報について、クラスタ数ｋの各クラスタに対して判別する。すなわち、各単語情報の各クラスタ（分類）に対する帰属度を判別する。
そして、判別した各単語情報の各クラスタに対する帰属度に基づいて、各クラスタに対して、複数の単語情報の中からクラスタラベル数（分類特徴情報数）の単語情報を選択し、選択した単語情報を各クラスタのクラスタラベル語（分類特徴情報）として判別する。クラスタラベル数は、入力手段３０から適宜入力することができる。勿論、記憶手段２０に予め記憶されているクラスタラベル数を用いることもできる。また、各単語情報の各クラスタに対する帰属度に基づいて、クラスタラベル数の単語情報を選択する方法としては、例えば、各単語情報の該当クラスタに対する帰属度を比較し、該当クラスタに対する帰属度が高いクラスタラベル数の単語情報を選択する方法が用いられる。
【００１９】
本実施の形態では、クラスタ帰属度判別手段１０ｃによる、入力情報のクラスタに対する帰属度の判別、クラスタラベル語判別手段１０ｄによる、単語情報のクラスタに対する帰属度の判別は、同時に行われる。すなわち、前述したように、ＮＭＦでは、ｎ個の単語情報×ｍ個の入力情報の単語文書行列Ｘを、単語情報のクラスタに対する帰属度を示す、ｎ個の単語情報×ｋ個のクラスタの行列Ｕと、入力情報のクラスタに対する帰属度を示す、ｋ個のクラスタ×ｍ個の入力情報の行列Ｖ^Ｔに分解し、行列ＵとＶを同時に計算している。
なお、クラスタ帰属度判別手段１０ｃによる、入力情報のクラスタに対する帰属度の判別方法や、クラスタラベル語判別手段１０ｄによる、単語情報のクラスタに対する帰属度の判別方法はこれに限定されない。
【００２０】
クラスタシンボル座標情報算出手段１０ｅは、クラスタ帰属度判別手段１０ｃによって判別された各入力情報の各クラスタに対する帰属度に基づいて、各クラスタを示すクラスタシンボル情報を２次元平面上に配置するためのクラスタシンボル座標情報を算出する。本実施の形態では、クラスタシンボル座標情報算出手段１０ｅは、各入力情報の各クラスタに対する帰属度に基づいて、多変量解析の一手法である対応分析により、クラスタ間の相関を表す２次元座標情報を算出する。さらに、各クラスタシンボル情報を、類似しているクラスタを示すクラスタシンボル情報が隣接するように２次元平面上に配置するためのクラスタシンボル座標情報を算出する。クラスタが類似しているか否かは、例えば、クラスタに属する１つまたは複数の入力情報に同じ単語情報が含まれている度合い、クラスタに属する１つまたは複数の入力情報における同じ単語情報の出現回数等により判別することができる。
また、後述する入力情報を示す入力シンボル情報とクラスタシンボル情報との関係や入力情報の分布状態の判別を容易にするために、対応分析により算出した座標情報を、円（例えば、表示手段の表示エリアの内接円）または楕円に射影し、射影した位置を、クラスタシンボル情報を配置するクラスタシンボル座標情報として用いている。
クラスタシンボル情報を、円または楕円等の閉じている線に沿って、類似しているクラスタを示すクラスタシンボル情報が隣接するように配置する方法としては適宜の方法を用いることができる。例えば、一方向（時計回り方向あるいは反時計回り方向）に、類似しているクラスタが隣接するように各クラスタを示すクラスタシンボル情報を配置する方法を用いることができる。
クラスタシンボル情報を２次元平面上の円または楕円に沿って（閉じている線に沿って）配置することにより、類似したクラスタをより容易に把握することができる。勿論、クラスタシンボル情報の配置態様は、これに限定されず、適宜設定可能である。
【００２１】
また、クラスタシンボル座標情報算出手段１０ｃは、各クラスタのクラスタラベル語を、クラスタシンボル情報が配置された２次元平面上のクラスタシンボル情報が配置されている箇所の周り（例えば、クラスタシンボル情報が配置されている箇所を中心とする円または楕円に沿って）配置するためのクラスタラベル語座標情報を算出する。クラスタラベル語をクラスタシンボル情報の周りに配置する方法については後述する。
このように、クラスタシンボル情報の周りに、当該クラスタシンボル情報で示されるクラスタのクラスタラベル語が配置されていることにより、クラスタの内容を容易に把握することができる。
本実施の形態では、クラスタシンボル座標情報算出手段１０ｅによってクラスタシンボル座標情報およびクラスタラベル語座標情報を算出したが、クラスタシンボル座標情報算出手段１０ｅに代えて、クラスタシンボル座標情報算出手段とクラスタラベル語座標情報算出手段を設け、クラスタシンボル座標情報算出手段により、前述した方法でクラスタシンボル座標情報を算出し、クラスタラベル語座標情報算出手段により、前述した方法でクラスタラベル語座標情報を算出してもよい。
【００２２】
入力シンボル座標情報算出手段１０ｅは、入力情報を示す入力シンボル情報を、クラスタシンボル情報が配置された２次元平面上に配置するための入力シンボル座標情報を算出する。なお、クラスタシンボル情報が配置された２次元平面は、クラスタを座標軸とする２次元平面に対応する。
【００２３】
管理手段１０ａは、クラスタシンボル座標情報算出手段１０ｅで算出されたクラスタシンボル座標情報およびクラスタラベル語座標情報、入力シンボル座標情報算出手段１０ｆで算出された入力シンボル座標情報に基づいて、クラスタシンボル情報およびクラスタラベル語、入力シンボル情報を出力手段（例えば、表示手段）４０に出力する。
クラスタシンボル情報、入力シンボル情報としては、記号、文字や線等の種々の情報を用いることができる。また、クラスタラベル語としては、通常、文字情報が用いられる。
【００２４】
次に、本実施の形態の動作を図２に示すフローチャートを用いて説明する。
図２に示されている処理は、例えば、入力情報分析処理の開始を指示する入力情報分析処理開始信号が入力手段３０から入力されることによって開始される。
【００２５】
ステップＡ１では、入力手段３０から入力されたｍ個の文書（入力情報）Ｄｉ（ｉ：１，２，…，ｍ）を記憶手段２０の入力情報データベース２０ａに記憶する。なお、文書（入力情報）Ｄｉは、予め入力情報データベース２０ａに記憶させておいてもよい。
ステップＡ２では、入力手段３０からクラスタ数（分類数）ｋ、クラスタラベル語数（分類特徴情報数）ｕが入力される。なお、クラスタ数ｋおよびクラスタラベル語数ｕは、予め入力し、記憶手段２０に記憶させておいてもよい。
ステップＡ３では、入力されたｍ個の文書からｎ個の単語情報Ｗｔ（ｔ：１，２，…，ｎ）を抽出する。そして、抽出した各単語情報Ｗｔと各文書Ｄｉとの対応関係を判別する。ステップＡ３の処理は、入力情報解析手段１０ｂによって実行される。
【００２６】
ステップＡ４では、ステップＡ３で判別した、各単語情報Ｗｔと各文書Ｄｉとの対応関係と、ステップＡ２で入力されたクラスタ数ｋに基づいて、各文書Ｄｉの、クラスタ数ｋの各クラスタＣｊ（ｊ：１，２，…，ｋ）に対する帰属度（文書の帰属度）Ｒｉｊ（ｉ：１，２，…，ｍ、ｊ：１，２，…ｋ）を判別する。ステップＡ４の処理は、クラスタ帰属度判別手段１０ｃによって実行される。各文書Ｄｉの各クラスタＣｊに対する帰属度を判別した１例が、図３に示されている（図３では、クラスタ数ｋが１０に設定されている）。
【００２７】
ステップＡ５では、ステップＡ３で判別した、各単語情報Ｗｔと各文書Ｄｉとの対応関係と、ステップＡ２で入力されたクラスタ数ｋに基づいて、各単語情報Ｗｔの、クラスタ数ｋの各クラスタＣｊ（ｊ：１，２，…，ｋ）に対する帰属度（単語情報の帰属度）を判別する。各単語情報Ｗｔの各クラスタＣｊに対する帰属度を判別した１例が、図４に示されている（図４では、クラスタ数ｋが１０に設定されている）。
そして、判別した、各単語情報Ｗｔの各クラスタＣｊに対する帰属度に基づいて、各クラスタＣｊに対して、複数の単語情報Ｗｔの中から、ステップＡ２で入力されたクラスタラベル語数ｕの単語情報を選択し、選択したクラスタラベル語数ｕの単語情報を各クラスタＣｊのクラスタラベル語Ｓｊｒ（ｊ：１，２，…，ｋ、ｒ：１，２，…，ｕ）として判別する。ステップＡ５の処理は、クラスタラベル語判別手段１０ｄによって実行される。
【００２８】
ステップＡ６では、ステップＡ４で判別された、各文書Ｄｉの各クラスタＣｊに対する帰属度Ｒｉｊに基づいて、各クラスタＣｊを示すクラスタシンボル情報ＳＣｊを２次元平面上に配置するためのクラスタシンボル座標情報ＳＣｊ（ｘｊ，ｙｊ）を算出する。
本実施の形態では、まず、各文書Ｄｉの各クラスタＣｊに対する帰属度Ｒｉｊに基づいて、対応分析により、図５に示されているように、クラスタＣｊ間の相関を表す２次元座標情報を算出する。この時、類似しているクラスタＣｊを示すクラスタシンボル情報が隣接するように２次元座標情報が算出される。
そして、図６に示されているように、算出した２次元座標情報を、表示手段の表示画面に内接する円または楕円に射影した位置を示す２次元座標情報を、各クラスタＣｊを示すクラスタシンボル情報ＳＣｊのクラスタシンボル座標情報ＳＣｊ（ｘｊ，ｙｊ）とする。ステップＡ６の処理は、クラスタシンボル座標情報算出手段１０ｅによって実行される。
【００２９】
ステップＡ７では、ステップＡ５で判別した、各クラスタＣｊのクラスタラベル語Ｓｊｒを、２次元平面上に配置するためのクラスタラベル語座標情報Ｓｊｒ（ｘｊｒ，ｙｊｒ）を算出する。本実施の形態では、クラスタラベル語Ｓｊｒが、クラスタＣｊを示すクラスタシンボル情報ＳＣｊが配置される箇所を中心とする円または楕円に沿って配置されるようにクラスタラベル語座標情報Ｓｊｒ（ｘｊｒ，ｙｊｒ）を算出する。
図８に、クラスタＣ１を示すクラスタシンボル情報が配置されている箇所を中心とする円に沿ってクラスタＣ１のクラスタラベル語Ｗ１０〜Ｗ１９が配置されている１例が示されている。クラスタラベル語Ｗ１０〜Ｗ１９は、クラスタシンボル情報の周りに同じ表示態様で配置されていてもよいが、クラスタラベル語の重要度等に応じて配置位置や表示態様を変えて配置するのが好ましい。
図８では、クラスタラベル語Ｗ１０〜Ｗ１９の文書内での共起関係に基づいてグループ分けし、グループ毎に配置している。文書内での共起関係は、例えば、クラスタラベル語が該当クラスタに分類された同一文書に出現しているか否かによって判別する方法等を用いることができる。図８の例では、クラスタラベル語Ｗ１０、Ｗ１１およびＷ１２が同じ文書内に出現していることから共起関係がある（相関が高い）と見なされ、{Ｗ１０、Ｗ１１、Ｗ１２}を含むグループができる。同様に、共起関係から、{Ｗ１３、Ｗ１４}、{Ｗ１５、Ｗ１６、Ｗ１７}、{Ｗ１８、Ｗ１９}を含むグループができる。
クラスタラベル語座標情報の算出方法については、共起関係によりグループ化を行い、得られたグループ数を判別する。次に、クラスタシンボル情報が配置されている箇所を中心とする円周を前記判別したグループ数で等分し、クラスタラベル語の各グループを円周上に配置する起点となる座標を算出する。図８では、円周をグループ数４で等分した箇所を、各グループの起点として算出している。そして、算出したクラスタラベル語の各グループの起点となる座標から一方向（時計方向あるいは反時計方向）に各グループのクラスタラベル語を順に配置する。これにより、クラスタの内容を示す各クラスタラベル語の相関を容易に把握することができる。
なお、各グループのクラスタラベル語を配置する際の配置順序は、各クラスタラベル語の重要度の順等を用いることができる。クラスタラベル語の重要度は、各単語の単語情報重要度評価値（ＴＦ−ＩＤＦ）や、各単語のクラスタに対する帰属度を用いて判別することができる。
また、図８では、各クラスタラベル語Ｗ１０〜Ｗ１９の重要度に応じて各クラスタラベル語Ｗ１０〜Ｗ１９のフォントサイズを変更している。これにより、各クラスタラベル語Ｗ１０〜Ｗ１９の重要度を容易に把握することができる。なお、各クラスタラベル語Ｗ１０〜Ｗ１９の重要度を識別可能に表示する方法としては、フォントサイズを変更する方法以外にも、例えば、色を変更する方法等を用いることもできる。
クラスタラベル語の配置方法や表示方法（フォントサイズ、色等）は、前述した方法に限定されず種々の方法を用いることができる。
また、ステップＡ７の処理は、クラスタシンボル座標情報算出手段１０ｅによって実行される。
【００３０】
ステップＡ８では、各文書Ｄｉを示す文書シンボル情報（入力シンボル情報）ＳＤｉを、クラスタシンボル情報ＳＣｊが配置された２次元平面上に配置するための文書シンボル座標情報（入力シンボル座標情報）ＳＤｉ（ｘｉ，ｙｉ）を算出する。文書シンボル座標情報ＳＤｉ（ｘｉ，ｙｉ）は、クラスタシンボル情報ＳＣｊのクラスタシンボル座標情報ＳＣｊ（ｘｊ，ｙｊ）と、各文書Ｄｉの各クラスタＣｊに対する帰属度Ｒｉｊにより一義的に定まる。
図７には、クラスタシンボル情報ＳＣｊと文書シンボル情報ＳＤｉが表示された１例が示されている。図７に示されている例は、文書Ｄ５のクラスタＣ１に対する帰属度が０．７、クラスタＣ４に対する帰属度が０．８、クラスタＣ２およびＣ３に対する帰属度が０の場合のものである。この場合、クラスタＣ１に対する帰属度０．７の長さを有するクラスタＣ１方向のベクトルと、クラスタＣ４に対する帰属度０．８の長さを有するクラスタＣ４方向のベクトルを合成した合成ベクトルが文書Ｄ５のベクトルを表している。これにより、文書Ｄ５を示す文書シンボル情報の文書シンボル座標情報が決定される。なお、各文書のベクトルの長さは、正規化することもできる。
ステップＡ８の処理は、入力シンボル座標情報算出手段１０ｆによって実行される。
【００３１】
ステップＡ９では、ステップＡ６で算出されたクラスタシンボル座標情報ＳＣｊ（ｘｊ，ｙｊ）、ステップＡ７で算出されたクラスタラベル語座標情報Ｓｊｒ（ｘｊｒ．ｙｊｒ）、ステップＡ８で算出された文書シンボル座標情報ＳＤｉ（ｘｉ，ｙｉ）に基づいて、クラスタシンボル情報ＳＣｊ、クラスタラベル語Ｓｊｒ、文書シンボル情報ＳＤｉを出力手段４０から出力する。
ステップＡ９の処理は、管理手段１０ａによって実行される。
【００３２】
表示手段の表示画面にクラスタシンボル情報（分類シンボル情報）、クラスタラベル語（分類特徴情報）、文書シンボル情報（入力シンボル情報）が表示された１例が図１１に示されている。
本実施の形態では、各クラスタを示すクラスタシンボル情報が、２次元平面上の円に沿って、類似しているクラスタ（分類）を示すクラスタシンボル情報が隣接するように配置されている。また、各クラスタの内容を示すクラスタラベル語が、クラスタシンボル情報を中心とする円に沿って、重要度や共起関係に基づいた配置位置や表示態様で配置されている。そして、文書シンボル情報が、各クラスタに対する帰属度に対応する位置に配置されている。
これにより、入力情報にどのような話題のグループ（クラスタ）があるかを把握することができる。また、類似しているクラスタを容易に把握することができる。また、クラスタラベル語により、クラスタの内容をある程度理解することができる。また、クラスタシンボル情報の位置と文書シンボル情報の位置によって、文書の話題間の相関をある程度把握することができる。
【００３３】
クラスタラベル語の表示方法として、前記した方法に限定されない。例えば、異なるクラスタのクラスタラベル語のうち、共通するクラスタラベル語を線で結ぶように表示することもできる。図９では、クラスタＣ１のクラスタラベル語とクラスタＣ３のクラスタラベル語のうち、共通するクラスタラベル語Ｗ１４を線で結んでいる。これにより、クラスタラベル語を介して、クラスタ間の意味的な関連性を把握することができる。
【００３４】
また、図１０に示されているように、階層状にクラスタリングすることもできる。図１０では、第１階層では、ｍ個の文書を４個のクラスタＣ１〜Ｃ４でクラスタリングした状態が示されている。この状態で、クラスタＣ２を示すクラスタシンボル情報が指示されて、クラスタＣ２を指示するクラスタ指示信号（分類Ｃ２を指示する分類指示信号）が入力手段３０から入力されると、ｍ個の文書のうち、クラスタＣ２に分類された文書を更に４個のクラスタＣ２１〜Ｃ２４でクラスタリングした状態が示される。また、第１階層が表示されている状態で、クラスタＣ１を示すクラスタシンボル情報が指示されて、クラスタＣ１を指示するクラスタ指示信号（分類Ｃ１を指示する分類指示信号）が入力手段３０から入力されると、ｍ個の文書のうち、クラスタＣ１に分類された文書を更に４個のクラスタＣ１１〜Ｃ１４でクラスタリングした状態が示される。
なお、現在の表示状態がどの階層にあるかを把握することができるようにするために、階層状態を示す階層ナビゲーションを設けるのが好ましい。階層ナビゲーションウィンドウは、階層状にクラスタリングが可能なクラスタを指示するために使用することもできる。各階層のクラスタ数は、同じであってもよいし、入力手段３０から異なるクラスタ数を設定することができるようにしてもよい。また、下位のクラスタリングが必要な場合に、クラスタ数を設定することができるようにしてもよい。
階層状のクラスタリングを可能とすることにより、より詳細に入力文書の分析を行うことができる。
【００３５】
また、任意のクラスタラベル語を含む文書を表示させることもできる。
例えば、図１１に示されているように、クラスタシンボル情報、クラスタラベル語、文書シンボル情報が表示画面に表示されている状態で、任意のクラスタラベル語（例えば、「太陽光発電」）が指示されて、クラスタラベル語を指示するクラスタラベル語指示信号（分類特徴情報を指示する分類特徴情報指示信号）が入力手段３０から入力されると、クラスタラベル語指示信号で指示されているクラスタラベル語を含む文書（例えば、「太陽光発電」を含む文書）を示す文書シンボル情報が他の文書シンボル情報と識別可能な出力態様で出力される。他の文書シンボル情報と識別可能な出力態様としては、例えば、色、形、大きさ等が異なる出力態様を用いることができる。
なお、クラスタラベル語指示信号で指示されているクラスタラベル語を含む文書（入力情報）も出力可能に構成するのが好ましい。例えば、入力されたクラスタラベル語報指示信号で指示されているクラスタラベル語を含む文書を示す文書シンボル情報を、他の文書シンボル情報と異なる出力態様で出力するとともに、当該クラスタラベル語を含む文書の一覧を出力するように構成する。あるいは、入力されたクラスタラベル語指示信号で指示されているクラスタラベル語を含む文書を示す文書シンボル情報を、他の文書シンボル情報と異なる出力態様で出力し、この状態で、文書出力要求信号（入力情報出力要求信号）が入力手段３０から入力されると、当該クラスタラベル語を含む入力情報の一覧を出力する。文書出力要求信号（入力情報出力要求信号）の入力方法としては、例えば、入力されたクラスタラベル語指示信号で指示されているクラスタラベル語を含む文書を示す文書シンボル情報（分類特徴情報を含む入力情報を示す入力シンボル情報）のいずれかを指示する方法等を用いることができる。
これにより、クラスタラベル語（分類特徴情報）と文書（入力情報）との対応関係、同じクラスタラベル語（分類特徴情報）を含む文書（入力情報）の数や分布状態を容易に把握することができる。
【００３６】
本発明は、コンピュータに、前述した管理手段、入力情報解析手段、分類帰属度判別手段、分類特徴情報判別手段、分類シンボル座標情報算出手段と、入力シンボル座標情報算出手段の処理を実行させるためのプログラムあるいはプログラムが記憶された記憶媒体として構成することもできる。
【００３７】
本発明は、実施の形態で説明した構成に限定されず、種々の変更、追加、削除が可能である。
例えば、クラスタシンボル情報（分類シンボル情報）を円または楕円に沿って配置したが、クラスタシンボル情報（分離シンボル情報）の配置態様は適宜変更可能である。また、クラスタシンボル情報（分類シンボル情報）の表示態様も適宜変更可能である。
クラスタラベル語（分類特徴情報）をクラスタシンボル情報（分類シンボル情報）を中心とする円または楕円に沿って配置したが、クラスタラベル語（分類特徴情報）の配置態様はこれに限定されない。また、クラスタラベル語（分類特徴情報）の出力は省略することもできる。
各文書（入力情報）の各クラスタ（分類)に対する帰属度や、各単語情報の各クラスタ（分類）に対する帰属度を判別する方法としては、ＮＭＦ以外の種々の方法を用いることができる。
【符号の説明】
【００３８】
１０処理手段
１０ａ管理手段
１０ｂ入力情報解析手段
１０ｃクラスタ帰属度判別手段（分類帰属度判別手段）
１０ｄクラスタラベル語判別手段（分類特徴情報判別手段）
１０ｅクラスタシンボル座標情報算出手段（分類シンボル座標情報算出手段）
１０ｆ入力シンボル座標情報算出手段
２０記憶手段
２０ａ入力情報データベース
３０入力手段
４０出力手段

【特許請求の範囲】
【請求項１】
入力情報を分析する入力情報分析装置であって、
入力手段と、管理手段と、入力情報解析手段と、分類帰属度判別手段と、分類特徴情報判別手段と、分類シンボル座標情報算出手段と、入力シンボル座標情報算出手段と、出力手段を備え、
前記入力情報解析手段は、前記入力手段から入力された複数の入力情報に含まれている複数の単語情報を抽出し、抽出した前記各単語情報と前記各入力情報との対応関係を解析し、
前記分類帰属度判別手段は、前記入力情報解析手段によって解析された、前記各単語情報と前記各入力情報との対応関係と、前記入力手段から入力された分類数に基づいて、入力情報が分類に属する度合いを示す入力情報の帰属度を、前記各入力情報について、前記分類数の各分類に対して判別し、
前記分類特徴情報判別手段は、
前記入力情報解析手段によって判別された、前記各単語情報と前記各入力情報との対応関係と、前記入力手段から入力された前記分類数に基づいて、単語情報が分類に属する度合いを示す単語情報の帰属度を、前記各単語情報について、前記各分類に対して判別し、
前記判別した各単語情報の帰属度に基づいて、前記各分類に対して、前記複数の単語情報の中から、前記入力手段から入力された分類特徴情報数の単語情報を選択し、前記各分類の特徴を示す分類特徴情報として判別し、
前記分類シンボル座標情報算出手段は、前記分類帰属度判別手段によって判別された前記各入力情報の帰属度に基づいて、前記各分類を示す分類シンボル情報を、類似している分類を示す分類シンボル情報が隣接するように２次元平面上に配置するための分類シンボル座標情報を算出し、
前記入力シンボル座標情報算出手段は、前記各入力情報を示す入力シンボル情報を、前記分類シンボル情報が配置された、前記分類を座標軸とする２次元平面上に配置するための入力シンボル座標情報を算出し、
前記管理手段は、前記分類シンボル座標情報算出手段によって算出された分類シンボル座標情報および前記入力シンボル座標情報算出手段によって算出された入力シンボル座標情報に基づいて、前記分類シンボル情報および前記入力シンボル情報を前記出力手段から出力することを特徴とする入力情報分析装置。
【請求項２】
請求項１に記載の入力情報分析装置であって、
前記分類シンボル座標情報算出手段は、前記分類シンボル情報が、２次元平面上の円または楕円に沿った位置に配置されるように、前記分類シンボル座標情報を算出することを特徴とする入力情報分析装置。
【請求項３】
請求項１または２に記載の入力情報分析装置であって、
前記分類シンボル座標情報算出手段は、さらに、前記算出した分類シンボル座標情報で示される位置を中心とする円または楕円に沿った位置に、当該分類シンボル座標位置に配置される分類シンボル情報で示される分類の分類特徴情報を配置するための分類特徴座標情報を算出し、
前記管理手段は、前記分類シンボル座標情報算出手段によって算出された分類特徴座標情報に基づいて、前記分類特徴情報を前記出力手段から出力することを特徴とする入力情報分析装置。
【請求項４】
請求項３に記載の入力情報分析装置であって、
前記管理手段は、前記分類シンボル情報、前記入力シンボル情報および前記分類特徴情報を前記出力手段から出力している状態で、いずれかの分類特徴情報を指示する分類特徴情報指示信号が前記入力手段から入力されると、前記入力された分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報を示す入力シンボル情報を、他の入力シンボル情報と異なる出力態様で出力することを特徴とする入力情報分析装置。
【請求項５】
コンピュータに請求項１〜４のいずれかに記載の前記管理手段と、前記入力情報解析手段と、前記分類帰属度判別手段と、前記分類特徴情報判別手段と、前記分類シンボル座標情報算出手段と、前記入力シンボル座標情報算出手段の処理を実行させるためのプログラム。
【請求項６】
コンピュータに請求項１〜４のいずれかに記載の前記管理手段と、前記入力情報解析手段と、前記分類帰属度判別手段と、前記分類特徴情報判別手段と、前記分類シンボル座標情報算出手段と、前記入力シンボル座標情報算出手段の処理を実行させるためのプログラムが記録された記憶媒体。

【図１】