情報表示装置および情報表示方法
【課題】文書データから必要な情報を取得するのは容易でない。
【解決手段】情報表示装置は、文書集合をユーザが設定した第1、第2の分類手法で分類する。情報表示装置に表示するマトリクス50は、第1、第2の分類手法で分類した際の分類項目をそれぞれ表示する列の分類項目欄52および行の分類項目欄54、分類された行と列の文書集合の積集合に係る数値を2次元マトリクス上のドットの色で表す図形表示欄56を含む。設定された分類手法がクラスタリングであった場合は、クラスタリングの実施に際し各文書から抽出した語句から所定の基準により選択した代表語句を分類項目として表示する。
【解決手段】情報表示装置は、文書集合をユーザが設定した第1、第2の分類手法で分類する。情報表示装置に表示するマトリクス50は、第1、第2の分類手法で分類した際の分類項目をそれぞれ表示する列の分類項目欄52および行の分類項目欄54、分類された行と列の文書集合の積集合に係る数値を2次元マトリクス上のドットの色で表す図形表示欄56を含む。設定された分類手法がクラスタリングであった場合は、クラスタリングの実施に際し各文書から抽出した語句から所定の基準により選択した代表語句を分類項目として表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は情報表示技術に関し、特に蓄積された文書データから得られる情報を視覚化して表示する情報表示技術およびそれに適用される情報表示方法に関する。
【背景技術】
【0002】
コンピュータやネットワークなどの情報処理分野における技術環境は近年、劇的な進歩を遂げてきた。それにともない多量かつ多様なデータを記憶装置に保存したり、ネットワークや記録媒体を介して入手したりすることが容易に行われるようになってきた。そのため情報化社会における課題の重点は、情報をいかに入手するかという点から、膨大な情報からいかに必要な情報を効率よく取捨選択するかという点へと移行しつつある。
【0003】
このような課題に対して、様々なデータベースから必要なデータを絞り込むための様々な技術が開発されてきた。例えば特許出願の公開公報などにおいて、入力された検索式にヒットした公報についてキーワードや特許分類などに基づく集計を行いマトリクスマップを表示することにより、データの絞込みを行う技術が提案されている(例えば特許文献1)。またナレッジマネジメントシステムにおいて、コミュニティや専門分野ごとの投稿数または評価値の度合いを2次元表示することにより、取得する投稿記事の絞込みを行う技術も提案されている(例えば特許文献2)。
【特許文献1】特開2005−165858号公報
【特許文献2】特開2005−85017号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記のような技術は、検索を前提としてあらかじめ分類や属性が付加されているデータを対象としているため、そのようなデータ構造に合わせてシステムを構築することにより初めて実現が可能となる。ところがこのような場合、当該システムを別のデータ構造を有するデータや別の用途に用いることはできず、上記技術におけるシステムの場合は公開公報の検索、または投稿記事の検索、といった使用目的に限定される。
【0005】
本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザが所望とする多様な情報を容易かつ直感的に取得できる技術を提供することにある。
【課題を解決するための手段】
【0006】
本発明のある態様は、情報表示装置に関する。この情報表示装置は、複数の文書を記憶する記憶部と、記憶部が記憶した複数の文書を、第1の分類手法および第2の分類手法で分類することにより2系列の文書集合群を形成する分類処理部と、分類処理部が実施した第1の分類手法および第2の分類手法による分類結果の相関関係を、2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、を備えたことを特徴とする。
【0007】
ここで「第1の分類手法」と「第2の分類手法」は同一の分類手法であってもよい。したがって「2系列の文書集合群」は同一の文書集合群であってもよい。また「図形で表現した」とは円、多角形、線などの幾何形状のいずれかに色、模様、大きさなどのいずれかまたはその組み合わせによって変化を持たせたものである。あるいは幾何形状自体を変化させたり、幾何形状を組み合わせたりしてもよい。
【0008】
本発明の別の態様も、情報表示装置に関する。この情報表示装置は、複数の文書を記憶する記憶部と、記憶部が記憶した複数の文書を所定の分類手法で分類することにより複数の文書集合を形成する分類処理部と、分類処理部が分類した各文書集合から抽出された語句の出現数に基づき当該語句に係る数値情報を算出し、分類処理部が実施した分類の結果と語句に係る数値情報との相関関係を、語句に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、を備えたことを特徴とする。
【0009】
本発明の別の態様は、情報表示方法に関する。この情報表示方法は、複数の文書を分類する第1の分類手法および第2の分類手法の選択入力をユーザより受け付けるステップと、選択された第1の分類手法および第2の分類手法で複数の文書を分類し、2系列の文書集合群を形成するステップと、第1の分類手法および第2の分類手法による分類結果の相関関係を、2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するステップと、を含むことを特徴とする
【0010】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0011】
本発明によれば、ユーザは文書データから所望の情報を容易かつ直感的に取得することができる。
【発明を実施するための最良の形態】
【0012】
図1は本実施の形態における情報表示装置の構成を示している。情報表示装置10は、ユーザが表示にかかる指示入力を行う入力部20、文書データなどを記憶した記憶部12、文書データを所定の分類手法で分類する分類処理部14、2つの系列の分類項目を行、および列に割り当て、それぞれの要素を構成する数値を図形化して2次元マトリクスで表示するマトリクス表示部22を含む。マトリクス表示部22は、分類された文書データに基づく数値データを取得し、マトリクスの表示データを生成するマトリクス生成部16と、当該マトリクスを表示する表示部18を含む。以上の構成要素はバス24を介して接続されており、相互にデータを送受する。
【0013】
図1において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メモリ、その他のLSIで構成することができ、ソフトウェア的には、言語処理機能のあるプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
【0014】
入力部20はキーボード、マウス、トラックボール、トラックパッドなど一般的に用いられる入力装置のいずれか、またはその組み合わせでよい。入力部20によりユーザは、記憶部12に記憶された文書データから処理対象の文書集合を指定したり、表示部18に表示したマトリクス表示画面上で、マトリクスの行および列を構成する分類項目の種類や表示するデータの種類を選択したり、表示されたマトリクス上の所望の領域を選択したりする。
【0015】
記憶部12は、ハードディスクやメモリ、DVD(Digital Versatile Disk)、CD(Compact Disk)などの記録媒体の読取装置などのいずれか、またはそれらの組み合わせでもよく、データ量や検索処理の形態に応じたハードウェアから適宜選択する。したがってその数は限定されない。また記憶部12の一部は、ネットワーク(図示せず)を介してバス24と接続していてもよい。この場合、他の機能ブロックはネットワークに接続されたサーバ(図示せず)を介して当該記憶部12とデータの送受を行ってよい。
【0016】
記憶部12に記憶された文書データは、例えば文書本体であるテキストデータと、作成日、作成者、分類コードなど、文書を特徴づける属性とを関連付けたデータであってもよいし、文書本体であるテキストデータのみであってもよい。ここで文書とは新聞記事や特許公開公報など長文で構成されるものでも、1文、あるいは1単語で構成されるものでもよく、その長短は問わない。また記憶部12には文書データの他、表示する画像のテンプレートデータやマトリクス上に表示する図形に係るデータ、図形で表される数値を算出するためのパラメータなど、マトリクス表示において必要となるデータも記憶される。
【0017】
分類処理部14は、ユーザが入力部20において指定した文書集合のデータを記憶部12から読み出し、ユーザが選択した、マトリクスの行および列を構成する分類項目の種類に従い、対応する分類手法で分類を行う。分類手法としては、あらかじめ各文書に関連づけて記憶された属性ごとに分類する手法、あらかじめ用意した語句集合のいずれかに、所定の基準によって各文書を振り分けていく手法、特定の分類項目を持たず文書同士の類似性により分類していく手法(以後、クラスタリングと呼ぶ)などのいずれの手法でもよい。分類された文書集合は、文書ごとに与えられた識別情報に基づき各分類項目と関連付けて記憶部12のメモリなどに保存される。
【0018】
本実施の形態では、分類した結果をマトリクス形式で表示するが、分類処理部14が行う分類手法は2つとは限らない。すなわち、1つの分類手法で分類した結果を行および列に同様に表示することもある。ユーザは分類項目の種類を選択することにより、文書集合が含有する多様な情報から所望のものを効率よく取得することができる。分類項目や対応する分類手法、およびマトリクス表示により得られる情報の具体例については後に説明する。
【0019】
マトリクス表示部22のマトリクス生成部16は、分類処理部14が分類した結果をユーザが入力部20において選択した分類項目に従い、行または列に配置していき、2次元マトリクスの表示データを生成する。例えば記憶部12から読み出した処理対象の文書集合の分類項目ごとの文書数を表示させたい場合を考える。このときマトリクス生成部16はまず、行および列として選択された分類項目に分類した結果である、2系列の文書集合群同士の各組み合わせの積集合を要素とする行列を生成する。すなわち、行をなす文書集合群が{M1,M2,・・・,Mm}(mは項目数)、列をなす文書集合群が{N1,N2,・・・,Nn}(nは項目数)だとすると、式1のような行列を生成する。そして各積集合に属する文書の識別情報と、対応する行および列の2つの分類項目の組み合わせとを関連づけてメモリなどに保存する。
【0020】
【数1】
【0021】
次にマトリクス生成部16は、マトリクスの各要素である積集合について、ユーザが入力部20において選択した、表示するデータの種類に応じた演算を行い、行列を数値化する。上記の例では、積集合に属する文書の数をカウントして最終的な数値行列を求める。
【0022】
さらにマトリクス生成部16は、当該数値行列の各要素を図形として視覚化して表す。これによりユーザは、たとえ分類項目が多くても数値分布や傾向などをより直感的に把握することができる。マトリクス生成部16は後述するように、自動またはユーザによる指示により、マトリクスの行や列の並び替えを行ったり、表示させる分類項目の絞込みを行ったりする。そのためユーザは全体的な傾向把握に加えて局所的な情報を取得するためのデータの絞込みを効率よく行うことができる。
【0023】
表示するデータの種類によっては、マトリクス生成部16は、分類処理部14が分類した文書集合から抽出された印象表現語を含むフレーズや、名詞句、形容詞句、動詞句などの語句の出現数を、文書集合ごとにカウントする。また必要に応じて、出現数などに基づいたアフェクト度の計算も行う。語句の抽出処理自体は外部の処理装置が行ってもよく、その場合は抽出された語句と各文書とを対応づけたデータが記憶部12に記憶されている。マトリクス生成部16は当該データを参照することにより語句の出現数をカウントする。具体的な抽出語句の種類と表示データの種類については後に詳述する。
【0024】
表示部18は、マトリクス生成部16の制御のもと、生成されたマトリクスの表示データを画面に表示するとともに、ユーザが入力部20において処理対象の文書集合を指定したり、分類項目の種類を選択したりする際の受付画面を表示する。マトリクスの表示画面と受付画面とは同一の画面に共に表示してよい。表示部18はさらに、表示したマトリクス上で移動する縦、横の2本のガイド線も表示する。ユーザは入力部20により当該ガイド線の交点を移動させることにより、マトリクス上の領域を選択することができる。マトリクス上の領域が選択されたら、マトリクス生成部16は、表示部18に当該領域に存在する図形が表す数値情報やその図形が属する分類項目に係る情報を表示させる。
【0025】
表示部18はさらに、ユーザが選択したマトリクス上の領域に存在する図形に対応する文書集合の本文を表示する。文書集合の本文はマトリクスを表示するウィンドウに重畳させた別のウィンドウ上に表示してもよいし、マトリクスの表示領域にマトリクスと切替えて表示してもよい。
【0026】
図2は表示部18に表示されるマトリクスの例を示している。マトリクス50は列の分類項目欄52、行の分類項目欄54、および図形表示欄56を含む。図2の例では、列の分類項目欄52と行の分類項目欄54のいずれも、「カメラ」、「ケース」、「サイズ」、「シャッター」、「レンズ」、「バッテリー」、・・・、「電池」、なる分類項目が表示されている。例えば、カメラ関係の投稿記事の文書集合を、2つの分類手法、または2つの分類器で、あらかじめ設定したこれらの分類項目に主題に応じて分類した際の、分類結果の相関関係、あるいは分類手法や分類器の傾向などを把握する場合などには図2のような表示が有用となる。
【0027】
図形表示欄56には、マトリクスの各要素の数値を表す図形としてドットが表示されている。以後、数値はドットで表すとして説明するが、別の形状を有する図形でも同様である。図2においてドットは全て同一の大きさで、数値に応じて色を異ならせている。ただしここでは、表示の便宜上、色の変化は模様の変化で表しており、例えば模様が密なほど値が高いとする。またドットが表示されていない要素は数値が0、または数値が算出されない場合などである。
【0028】
図2では、マトリクスの対角線を構成する要素、すなわち(「カメラ」,「カメラ」)、(「ケース」,「ケース」)といった同一の分類項目の組み合わせにおいて数値が高いことがわかる。さらにこの例では、分類項目「レンズ」の列が、他の列よりドットの数が多い。この結果を上記のように、2つの分類手法で同じ分類項目への分類を行い、それぞれの分類項目に属する文書数を表示させた場合に当てはめると、当該2つの分類手法でも分類傾向にはおよそ差がないことや、列を構成する分類手法で「レンズ」に分類された文書は、行を構成する分類手法では分類が分散することなどが把握できる。
【0029】
図3は表示部18に表示されるマトリクスの別の例を示している。この例におけるマトリクス50では、列の分類項目欄52に「2004年」、「2005年」、「2006年」という分類項目が、行の分類項目欄54に「カメラ」、「携帯電話」という分類項目が表示されている。図2の例では図形表示欄56に表示されたドットが同一の大きさであったが、図3ではドットの大きさが異なる。さらにドットの色も異なるが、図2と同様、便宜上模様を異ならせて表現している。すなわち図3の例では、1つのドットの大きさおよび色によって2つの数値を表している。
【0030】
図3は例えば、「カメラ」または「携帯電話」に関する文書数の、作成年に対する推移をドットの大きさで表すとともに、2004年からの文書数の変化率をドットの色で表した場合のマトリクスである。このとき「カメラ」に関する文書数は「携帯電話」に関する文書数より全期間に渡り少ないが、その増加率は「カメラ」に関する文書の方が多いことが把握できる。
【0031】
次に以上の構成による情報表示装置10の動作を説明する。図4は情報表示装置10によるマトリクス表示の処理手順を示すフローチャートである。まずユーザは入力部20により、処理対象の文書集合を指定する(S10)。例えば、表示部18に入力を行うための受付画面、すなわち記憶部12中に記憶された様々な文書集合から選択を行うための画面を表示させ、その中からユーザが選択入力する。あるいは文書集合を記憶したCD−ROMなどの記録媒体を記憶部12に読み込ませたり、ネットワークを介したサーバから記憶部12へのダウンロード指示を行ったりしてもよい。
【0032】
次にユーザは、マトリクスの行および列を構成する分類項目の種類およびマトリクスとして表示させるデータの種類を選択する(S14)。このステップも、S10において選択された文書集合に対して選択可能な分類項目を表示部18に表示させることにより、ユーザが選択入力してよい。このとき、文書の属性により分類する場合は「性別」、「作成日」など属性の種類を、あらかじめ用意した語句集合を分類項目とする場合は当該語句集合につけた名前を選択項目として表示する。一方、クラスタリングを行った結果を表示させたい場合は、分類項目が未知のため「クラスタリング」といった選択項目を表示する。同様に、抽出した語句ごとに数値を表したい場合も、抽出される語句が未知のため、語句の種類を選択項目として表示する。データの種類については、例えば「文書数」や「文書数割合」など、計算可能な数値の名前を選択項目として表示する。必要に応じて各選択項目についての詳細な設定を受け付ける画面を表示してもよい。
【0033】
分類処理部14は、S10で指定された文書集合を記憶部12から読み出し、S14で選択された分類項目の種類に基づき分類を実行する(S16)。読み出した文書集合が記憶部12においてすでに分類されており、ユーザがその分類手法のみを選択している場合は、S16の処理をスキップする。
【0034】
マトリクス表示部22のマトリクス生成部16は、上述のとおり行、列を構成する2系列の文書集合の積集合を各項目の組み合わせごとに形成していき、S14で選択された表示データの種類に基づき、各積集合に関する数値を算出する。あるいは分類処理部14が分類した文書集合ごとにS14で選択された語句の種類に応じた語句を抽出し、出現数または出現数に基づく数値を算出する。そして当該数値に基づきマトリクスに表示するドットの色や大きさを決定し、当該ドットと行および列の分類項目とからなるマトリクスデータを生成する(S18)。表示部18はマトリクスデータを画面上に出力する(S20)。
【0035】
このとき表示部18は、マトリクスの他に分類項目の種類や表示データの種類を選択入力するための受付画面を常時表示しておく。そしてマトリクスを表示している間にユーザが新たな分類項目の種類を選択する入力を行った場合(S22のY)、分類処理部14は当該分類項目の種類に基づき新たな分類を行い(S16)、マトリクス生成部16はマトリクスデータを生成し直す(S18)。またユーザが新たな表示データの種類を選択する入力を行った場合(S24のY)、マトリクス生成部16は当該表示データの種類に基づき新たな数値を算出してマトリクスデータを生成し直す(S18)。これらの処理により、表示部18は、ユーザが選択した分類項目の種類、または表示データの種類に従った新たなマトリクスを表示する(S20)。
【0036】
以上の処理を、マトリクス表示の終了指示をユーザが入力するまで行い(S26のN)、終了指示の入力によりマトリクス表示を終了する(S26のY)。
【0037】
図5は表示部18に表示される画面の構成例を示している。マトリクス表示画面60は文書集合指定領域66、マトリクス表示領域51、分類項目選択領域62、凡例表示領域64、ソート指示ボタン67、および絞込み指示ボタン68を含む。図4のS10においてユーザは、記憶部12における記憶場所および文書集合名を文書集合指定領域66に対して入力することにより、処理対象の文書集合を指定する。一般的な文書指定手法のように、記憶部12のツリー構造を参照できるようにしてそこから選択するようにしてもよい。
【0038】
マトリクス表示領域51は列の分類項目表示領域53、行の分類項目表示領域55、および図形表示領域57を含む。また分類項目選択領域62には、マトリクスとして表示できる行の分類項目や列の分類項目の種類、および表示データの種類の候補が表示される。同図では、行または列の分類項目の種類として「クラスタ名」、「地域」、「職業」が、表示するデータの種類として「数量」、「割合」、「本文」が候補として表示されている。ここで「本文」は、本実施の形態の機能として、ドットで表されたある文書集合をユーザが指定した場合に、当該文書集合に属する文書の本体をテキストデータとして表示する場合に選択される。
【0039】
図4のS14においてユーザは、分類項目選択領域62からマトリクスの行および列に表示させたい分類項目の種類を選択し、入力部20であるポインティングデバイスなどによりその項目を列の分類項目表示領域53や行の分類項目表示領域55にそれぞれドラッグアンドドロップ操作することにより、分類項目の種類を確定する。同様に、分類項目選択領域62からデータの種類を選択し、図形表示領域57にドラッグアンドドロップ操作することにより表示データの種類を確定する。マトリクス生成部16は、図4のS18においてマトリクスデータを生成する際、算出した各要素の数値の範囲に応じてドットの色や大きさを決定し、凡例表示領域64に凡例を表示する。
【0040】
ソート指示ボタン67および絞込み指示ボタン68はそれぞれ、所定の基準により、マトリクス表示領域51に表示されたマトリクスの行または列を入れ替えたり表示数を減縮したりする際にユーザによって選択される。これらの機能については後に説明する。
【0041】
以上のような画面構成とすることにより、ユーザは視覚的、直感的に条件設定を行うことができ、多様な形態の文書や色々な分類手法があっても容易に所望の情報を得ることができる。なお図5に示した画面は例示であり、本実施の形態はこれに限られない。例えば分類項目の種類や表示データの種類によっては、さらに詳細な設定を必要とする場合もある。このときは必要に応じて別のウィンドウを重ねて表示したり、分類項目選択領域62に選択肢を追加したりすることによって設定を行う。いずれの場合も、ポインティングデバイスを使用して直感的に選択できるような画面構成が望ましい。
【0042】
ここで分類項目の種類を選択する際の態様のひとつを説明する。図6は行の分類項目が階層構造を有するときにマトリクス表示領域51に表示されるマトリクスの例を示している。この例はカメラに関する記事を、そこに含まれる「ケース」、「サイズ」、「レンズ」などの被修飾名詞句で分類し、さらにそれらの句を修飾する「しっかりする」、「重い」、「丈夫」などの形容詞句でさらに細分化して分類した場合について示している。すなわちこのときの分類項目は、被修飾名詞句が上位層、形容詞句が下位層の階層構造を有する。一方、列の分類項目は「機種A」、「機種B」、「機種C」など、機種ごとに分類する単層構造を有している。
【0043】
このような状況においては、分類項目選択領域62には例えば「カメラ語句(上位/下位)」、「カメラ語句(上位)」、「カメラ語句(下位)」といった候補を表示する。ここで「カメラ語句」とはあらかじめ用意された分類項目列、この場合は階層構造を有する分類項目の集合につけられた名前である。なお「名詞句/形容詞句」などの表示でもよい。クラスタリングを行うときは「クラスタリング(上位/下位)」などでもよい。
【0044】
そして「カメラ語句(上位/下位)」を行の分類項目表示領域55にドラッグアンドドロップ操作したときは、マトリクス表示領域51には図6(a)に示すように上位層および下位層の分類項目が階層構造のまま表示される。したがってドットが表す数値は、例えば「ケース」に属する文書集合のうち「重い」に属するものと、「機種A」に属する文書集合との積集合に係る数値である。この例では、各機種に対して「何(被修飾名詞句)」が「どう(形容詞句)」であるという内容の記事が多いのか、などを把握することができる。
【0045】
一方、「カメラ語句(上位)」を選択した場合、マトリクス表示領域51には図6(b)に示すように、上位層の分類項目が表示される。このときドットが表す数値は、例えば「ケース」に属する文書集合と「機種A」に属する文書集合との積集合に係る数値である。これにより、各機種の「何(被修飾名詞句)に係る記事が多いのか、などを把握することができる。同様に、「カメラ語句(下位)」を選択した場合、図6(c)に示すように下位層の分類項目が表示される。このときは上位層の分類項目に関わらず「重い」なる下位層の分類項目に属する文書を集計して文書集合とし、それと「機種A」に属する文書集合との積集合に係る数値を表示する。これにより「何(被修飾名詞句)」に関わらずどのような形容をされた記事が多いのかを機種ごとに把握できる。
【0046】
分類項目の階層は図6の例では2層であったが、3層以上でも同様に表示の切替えを行う。このようにポインティングデバイスのみによって表示データを切替えることができるため、分類項目が階層構造を有していても、全体的な傾向の把握から詳細な分析までを効率よく行える。また階層の違いによる結果を容易に比較することができる。
【0047】
マトリクス生成部16は、ユーザがソート指示ボタン67を押下することにより、マトリクス表示領域51に表示されるマトリクスの行や列を入れ替え、ソートを行ったマトリクスデータを生成する。分類項目によっては、列のソート、行のソート、列および行のソートを選択するサブメニューをさらに表示させてもよい。また、どのような基準によってソートを行うかをサブメニューによって選択するようにしてもよい。ソートの基準としては分類項目の種類や表示データの種類などによって、(1)分類項目名によるソート、(2)合計値によるソート、(3)割合によるソート、(4)分散度によるソート、(5)対角化ソート、などから選択できるようにする。
【0048】
分類項目名によるソートは、分類項目の文字列の文字コードに基づき、例えばあいうえお順などでソートを行う。合計値によるソートは、各列や各行を構成する要素の数値の合計値に基づき、例えば降順でソートを行う。割合によるソートは、各列や各行を構成する要素の数値の合計値に対する各要素の数値の割合に基づきソートを行う。分散度によるソートは、より多くの分類項目に値が分散しているか否かに基づきソートを行う。分散度には例えば、「ある行(または列)において値(ドット)が存在する分類項目数/その行(または列)に属する分類項目数」などの定義を用いる。
【0049】
対角化ソートは、マトリクスの対角線にある要素の値に着目し、行または列のどちらか一方のみをソートする場合と、行と列の双方をソートする場合とを用意する。図7は対角化ソートを行う様子を模式的に示している。図7(a)は、行の分類項目欄54に表示された分類項目の順番は固定とし、対角線の領域70にある要素の値が最も大きくなるように列の分類項目欄52に表示された分類項目の表示順を入れ替え、ソートを行った例である。対角線の領域70に着目してソートを行うことにより、行および列の分類項目の並び順を比較するだけで傾向を把握できる場合がある。
【0050】
対角化ソートにおいて行、または列の一方のみをソートする手法としては、次のような上位優先片側対角化ソートのアルゴリズムが考えられる。なおここでは行を固定し列をソートする場合について述べるが、列を固定し行をソートする場合も「行」と「列」を読み替えることによって同様に実現できる。
(1)n行n列の正方行列Tについて、i=1行目から処理を開始
(2)Tの行ベクトルtiの要素ti1,・・・,tinのうち、i≦j≦nかつ最大の値を有するtijを求める
(3)i≠jの場合はTのi列目とj列目を入れ替える
(4)i<nの場合はi=i+1として(2)から処理を繰り返す
【0051】
しかし上記アルゴリズムでは、上位の行で決定された列の位置を下位の行で変更できないため、下位の行では最大要素が対角線に位置しない場合もある。そこで以下のような、正方行列Tの中で最大の値を有する要素から順に対角化を行う、最大値優先片側対角化ソートのアルゴリズムを採用してもよい。
(1)決定済みの行列番号を格納するリストL={}を用意する
(2)L中の全ての行列番号lkについてi≠lkかつj≠lkが成り立つTの最大要素tijを求める
(3)i≠jの場合はTのi列目とj列目を入れ替える
(4)|L|<nの場合はL=L∪{i}として(2)から処理を繰り返す
【0052】
図7(b)は、対角線の領域70にある要素の値が最も大きくなり、かつ対角線の領域70の左上から右下に向けて値が降順となるように、行の分類項目欄54に表示された分類項目および列の分類項目欄52に表示された分類項目の双方についてソートを行った例である。このようなソートを実現するアルゴリズムとしては以下に示す両側対角化ソートがある。
(1)n行n列の正方行列Tについてk=1から処理を開始
(2)k≦iかつk≦jが成立する全てのTの要素の中で最大の値を有する要素tijを求める
(3)k≠iの場合はTのk行目とi行目を入れ替える
(4)k≠jの場合はTのk列目とj列目を入れ替える
(5)k<nの場合はk=k+1として(2)から処理を繰り返す
【0053】
ユーザが絞込み指示ボタン68を押下した際、マトリクス生成部16は、マトリクス表示領域51に表示する分類項目を絞込んだマトリクスデータを生成する。絞り込んだ結果表示される分類項目の数は、固定値としてもよいし、ソートにおいて算出された数値にしきい値を設けて自動的に決定してもよい。また、ユーザがポインティングデバイスで数を設定できるゲージなどを表示することにより、ユーザが指定できるようにしてもよい。
【0054】
ソート指示ボタン67と同様に、サブメニューにてどのような手法で絞込みを行うかをユーザが選択できるようにしてもよい。絞込みには上述したようなソートのアルゴリズムを利用してもよい。例えばサブメニューにて「分散度(昇順)」なる絞込み手法を選択した場合は、上述の分散度を各行(または列)に対して算出し、その値が下位となる所定数の行(または列)のみを表示する。表示すべきドットがない、すなわち文書集合が存在しない行や列を削除するようにしてもよい。
【0055】
マトリクス生成部16は、図5に示したマトリクス表示画面60におけるマトリクス表示領域51に、マトリクス上の各ドットが表す文書集合に係る具体的な情報を表すテキストデータを追加して表示する。図8はドットが表す文書集合に係る情報を表示した際のマトリクス表示画面60を示している。マトリクス表示領域51にマトリクスが表示されている状態で、ポインティングデバイスによりあるドット83の領域を指示すると、そのドットで交差する横方向ガイド線80および縦方向ガイド線82が表示されるようにする。これらのガイド線によってユーザは、指示したドットがどの分類項目に属しているのかを把握できる。
【0056】
さらに横方向ガイド線80の近傍に横方向情報表示領域86を、縦方向ガイド線82の近傍に縦方向情報表示領域84をポップアップウィンドウなどで表示する。横方向情報表示領域86には、指示したドットが属する行の分類項目名、当該ドットが表す具体的な数値、当該分類項目に属する要素の数値の合計値などを表示する。図8の例では、分類項目名が「カメラ」、ドットが表す数値として「文書数」が「6」、合計値として文書数が「21」と表示されている。縦方向情報表示領域84にも同様の情報を表示する。「文書数」は表示するデータの種類によって割合や語句の出現数などに置き換えられる。
【0057】
このような画面構成とすることにより、分類項目が多数ありマトリクス50が煩雑な図となっても、各ドットがどの分類項目を表しているのかを即座に知ることができる。また、ドットで全体的な傾向を把握しながらも、容易な操作で局所的な数値を取得することができる。なおドットの領域を指示した場合と同様に、各分類項目を指示することにより、当該分類項目についての情報、例えば当該分類項目に属する全文書の数や、分類処理において得られた情報などを表示するようにしてもよい。
【0058】
あるドット83の領域を選択した状態で、ユーザが分類項目選択領域62に表示された「本文」62aなる候補をさらに選択することにより、当該ドット83が表す文書集合の本文を表示させる。本文の表示例については後に示す。このときマトリクス生成部16は、マトリクス生成時にメモリなどに保存した、当該積集合に属する文書の識別情報を分類項目に基づき特定する。そして別に用意した表示用のテンプレートデータに、識別情報を基に記憶部12から読み出した本文のデータを貼り付けたり、リンクを張ったりすることにより本文表示のためのデータを生成する。該当する文書が多数ある場合などは適宜スクロールやページングのための機能を提供する。ドットを選択する代わりに各分類項目を選択することにより、当該分類項目に属する全ての文書の本文を表示するようにしてもよい。
【0059】
さらに本文を表示した後、そのデータを例えばcsv形式で保存できるようにする。保存の指示入力および保存の手順についてはデータ保存のための一般的な手法を用いることができる。このように所望の文書集合の本文を表示したり保存したりすることにより、ユーザは分類結果の数値的な側面ばかりでなく、文書の実態を確認することができる。膨大なデータベースに含まれる文書でも、最初に分類してその傾向をドットで確認してから最終的には所望の文書本体を入手する、という段階を踏むことにより、検索クエリによる検索を繰り返す場合に比べ、格段に効率よく所望の文書に行き着くことができる。
【0060】
次に本実施の形態における情報表示装置10が提供する分類手法と、それをマトリクスとして表示することによって得られる情報について例示する。分類手法としては上述したように、元々文書に関連づけられた属性が存在する場合にその属性ごとに分類する手法、所定の分類項目に所定の方法によって文書を振り分ける手法、および文書同士の類似性により文書のまとまり(クラスタ)を生成していくクラスタリングが挙げられる。ここでは所定の分類項目への分類手法、およびクラスタリング手法について簡単に説明する。ただし、本実施の形態における分類手法はここで説明するものに限られず、一般的に提案されている手法のいずれを選択してもよい。
【0061】
(所定の分類項目への分類)
この分類手法は、あらかじめ分類項目(以後、カテゴリと呼ぶ)とそれに関連する語句群(以後、プロファイルと呼ぶ)を用意し、各文書から抽出した語句群とプロファイルとによって、文書とカテゴリとの類似度を判定し、類似度の高いカテゴリに文書を振り分ける手法である。例えば新聞記事を「政治」、「経済」、「スポーツ」というカテゴリに分類したい場合、「スポーツ」に関連する「野球」、「サッカー」、「試合」といった語句で構成するプロファイルを用意する。プロファイルを構成する各語句はその重要度などによって重み付けされている。
【0062】
具体的な手法は以下のとおりである。すなわち、まず処理対象文書から語句を形態素解析により抽出する。そして同一内容で表記の異なる語句の表記を統一する。次にそれらの語句の重みベクトルと、その並び順に対応したプロファイルの重みベクトルとに基づき、ベクトル空間法を用いて処理対象文書と各カテゴリとの類似度を計算していく。前者の重みベクトルをA={w_a1,w_a2,w_a3,・・・,w_aN}、後者の重みベクトルをB={w_b1,w_b2,w_b3,・・・,w_bN}とする。ここでNは処理対象文書から抽出された語句の数、wはTF−IDF(Term Frequency - Inverse Document Frequency)法などにより導出された語句の重要度である。このとき類似度sim(B,A)は以下のようになる。
【0063】
【数2】
【0064】
類似度sim(B,A)をカテゴリごとに算出していき、最も類似度の高かったカテゴリに処理対象文書を分類する。
【0065】
(クラスタリングによる分類)
クラスタリングは所定の分類項目を用意せずに文書同士の類似性によって文書のクラスタを形成する手法である。クラスタはトピック、すなわち話題ととらえることもできる。この場合も文書ごとに形態素解析により語句を抽出し、同一内容の語句の表記を統一する。そして全文書について語句の重みベクトルを対応する順序で生成し、文書の組み合わせごとに類似度を計算していく。この類似度も式2で与えられた値を用いてよい。その後、例えば類似度があるしきい値を超えた場合にそれらの文書は類似しているとみなし、同一のクラスタを生成する。
【0066】
文書から抽出された語句のうち、クラスタを特徴づける語句をクラスタの代表語句として抽出しておく。また代表語句のうち最も特徴的な語句をクラスタ名として決定する。例えば、各語句についてクラスタとの相互情報量を算出し、その値が上位である数個の語句を代表語句、その値が最も高い語句をクラスタ名とする。語句tとクラスタCとの相互情報量MI(t,C)は次の式で表される。
【0067】
【数3】
【0068】
ここでP(t)は語句tを含む文書が現れる確率であり、(語句tを含む文書数/全文書数)で定義される。P(C)はクラスタCに属する文書が現れる確率であり、(クラスタCに属する文書数/全文書数)で定義される。またP(t,C)は語句tを含むクラスタCに属する文書が現れる確率であり、(語句tを含むクラスタCの文書数/全文書数)で定義される。図2におけるマトリクス50の列の分類項目欄52や行の分類項目欄54にはこのようにして決定したクラスタ名を表示する。
【0069】
次に各分類手法をマトリクス50の表示形式に適用した具体例と効果について述べる。なお各例の説明においてはマトリクスを表で表し、図示を簡便化するが、表における各数値はマトリクス上のドットで表現されるものとする。また各表においてマトリクスを構成する行および列の数は簡単のために2ないし3とするが、それに限定されるものではない。
【0070】
(クラスタリングを利用したプロファイル診断)
表1は行の分類項目を、用意されたカテゴリである「カテゴリ1」、「カテゴリ2」とし、列の分類項目をクラスタリングの結果得られたクラスタ名である「クラスタA」、「クラスタB」とした場合のマトリクスである。このマトリクス表示の目的は、適正なプロファイルとカテゴリの関係が設定されているかを確認する点にある。すなわち、プロファイルとカテゴリを用意する際に元となった文書のカテゴリの付与基準を精査したり、類似した文書に異なるカテゴリが付与されていないかをチェックしたりする。
【0071】
【表1】
【0072】
このとき行われるクラスタリングは、カテゴリの数と同一に設定する。このようなマトリクスにおいて数値1〜数値4をドットで表す。例えば数値1として、カテゴリを用意する際の全元文書を対象としてクラスタリングを実行した結果、「カテゴリ1」の文書のうち「クラスタA」に分類された文書集合の文書数nA_1を表示する。数値2〜4も同様に表示する。または、カテゴリ1に属する全文書集合の文書数n1のうち、クラスタAに属する文書集合の文書数nA_1の割合、すなわちnA_1/n1を数値1としてもよい。
【0073】
このようなマトリクスを表示することにより、類似した文書にも関わらず別カテゴリに分類されたものを発見でき、カテゴリの付与基準に内在する問題を洗い出すことができる。
【0074】
(構成する語句群を利用したプロファイル診断)
表2は行の分類項目および列の分類項目のいずれも、複数のカテゴリにそれぞれ対応して用意された複数のプロファイルである「プロファイル1」、「プロファイル2」、「プロファイル3」とした場合のマトリクスである。このマトリクス表示の目的は、カテゴリ間の類似性をチェックする点にある。例えば「充電」と「電池」というカテゴリがあり、それらのカテゴリのプロファイルが類似している場合、「充電」カテゴリに分類したい文書が「電池」に分類される可能性がある。このような場合に、類似しているプロファイルを統合するなどのプロファイルチューニングを行うことにより、分類精度を向上させることができる。
【0075】
【表2】
【0076】
このようなマトリクスにおいて数値1〜9をドットで表す。例えば数値2として、「プロファイル1」と「プロファイル2」の類似度を表示する。類似度を表す指標として例えば単語共有率を算出する。
【0077】
単語共有率strは、プロファイルCとDの間で正の重みを持つ単語を共有する割合として以下で定義される値である。
【0078】
【数4】
【0079】
ここでstr(C,D)=str(D,C)は必ずしも成立しない。また同一のプロファイルの組み合わせ、すなわち数値1、5、9に表される単語共有率は1である。式4において単語iの重みの与え方を変えることにより、単語共有率の観点を変化させることができる。一般に重みベクトルの要素wiは−1から1の実数値を取ることが可能である。一方、wiに語句の出現の有無を1および0の2値で与えると、strは共有する単語の割合を表す指標となる。また、wiに単語の出現頻度を与えると、strは共有する単語の出現頻度の割合を示す指標となる。
【0080】
類似度を表す指標として、単語共有率strの他に、コサイン類似度や結束度などを採用してもよい。コサイン類似度は、2つのプロファイルの重みベクトルを式2に適用することによって得られる。結束度relは、プロファイルp1とプロファイルp2を構成する語句の数により以下のように定義される値である。
【0081】
【数5】
【0082】
ここでaはプロファイルp1を構成する語句の数、bはプロファイルp2を構成する語句の数、cはプロファイルp1とプロファイルp2とで共通に存在する語句の数である。
【0083】
なおコサイン類似度および結束度は、同じプロファイルの組み合わせでは同じ値となるため、三角行列である表3のようなマトリクスとする。ここで「−」で表される要素はドットを表示しない。この場合も、同一のプロファイルの組み合わせ、すなわち数値3、5、7に表されるコサイン類似度および単語共有率は1である。
【0084】
【表3】
【0085】
(正解カテゴリと分類カテゴリの関係把握)
表4は行の分類項目および列の分類項目ともに、用意されたカテゴリである「カテゴリ1」、「カテゴリ2」としているが、行の分類項目は目視などにより正しく分類した場合であり、列の分類項目は分類器などによって機械的に分類した場合である。前者を「カテゴリ1(正解)」、後者を「カテゴリ1(分類)」などと表記している。このマトリクス表示の目的は、機械的に行った分類と正解との関係を視覚化する点にある。
【0086】
【表4】
【0087】
表4において行および列の分類項目は同一である。このようなマトリクスにおいて数値1〜4をドットで表す。例えば数値1として、「カテゴリ1(正解)」に分類された文書集合の文書数n1(正解)のうち、「カテゴリ1(分類)」に分類された文書集合の文書数n1(分類)_(正解)の割合、n1(分類)_(正解)/n1(正解)なる値を表示する。同様に数値2〜4の値を表示する。このとき数値1および数値4は正解に対する分類器の再現率と考えることができる。
【0088】
あるいは数値1として、「カテゴリ1(分類)」に分類された文書の文書数n1(分類)のうち、「カテゴリ1(正解)」に分類された文書の文書数n1(正解)_(分類)の割合、n1(正解)_(分類)/n1(分類)を表示してもよい。数値2〜4も同様の値を表示する。このとき数値1および数値4は分類器による分類の正解に対する適合率と考えることができる。
【0089】
ドットによって再現率を表すマトリクスを表示させた状態で、ユーザが入力部20であるポインティングデバイスでマトリクス表示領域51をクリックすると、適合率を表すマトリクスへと表示が切替わるようにしてもよい。適合率から再現率への切替えも同様に行ってよい。このようなマトリクスを表示することにより、分類器による誤分類の多いカテゴリについて、どのカテゴリに誤分類されているのかを視覚的に把握することができ、プロファイルの調整方針を立てるうえでの知見を得ることができる。
【0090】
(分類結果の時系列分析)
表5は行の分類項目を、用意されたカテゴリである「カテゴリ1」、「カテゴリ2」とし、列の分類項目を文書に関連付けて記憶された作成日、登録日などの時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。時系列単位とは例えば、2006年、2007年・・・や、上半期、下半期など、ある期間を指す名前である。このマトリクスの目的は、文書の経時的な変化をカテゴリごとに把握する点にある。
【0091】
【表5】
【0092】
この場合は数値1として、「カテゴリ1」に分類された文書集合の文書数n1のうち、「時系列単位A」に属する文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この値を表示することにより、あるカテゴリについて出現割合の高い時期を把握することができる。あるいは数値1として、「時系列単位A」に属する文書集合の文書数nAのうち、「カテゴリ1」に分類された文書集合の文書数n1_Aの割合、すなわちn1_A/nAなる値を表示してもよい。数値2〜4も同様である。この値を表示することにより、ある期間について出現割合の高いカテゴリを把握することができる。このときも上述同様、ユーザがマトリクス表示領域51をクリックすることによりマトリクスを切替えて表示するようにしてよい。
【0093】
このようなマトリクスを表示することにより、例えばある時期に急激に増加した話題を容易に把握でき、当該文書集合のみをテキストマイニングなどで分析することにより、注目されている話題に絞り込んだ解析を効率よく行うことができる。また、広告を出すなどのイベントが行われた時期と比較することにより、イベントが話題に与える影響などを把握することができる。さらにいずれのカテゴリにも分類されなかった文書数の変化を追うことができ、その傾向によって新たにプロファイル調整を行う時期を検討したり、その文書を確認して新製品の提案に繋がる意見を発掘したりすることができる。
【0094】
表5のマトリクスを社内で活用する場合、あらかじめ各カテゴリを社内の部門に割り当て、ユーザが行の分類項目表示領域55をクリックした際に、各カテゴリが属する部門別に集計し直したマトリクスを表示するようにしてもよい。これにより部門ごとの文書数割合の経時変化を確認でき、例えば苦情数の傾向などを部門ごとに把握することができる。
【0095】
表5と同様にして、作成した人の性別、職業などあらゆる属性で分類した結果を表示できる。例えば割合の高くなり易い属性や、属性ごとの割合が似たような分布となり易いカテゴリなどについて傾向を把握することができる。
【0096】
(クラスタリング結果の把握)
表6は行の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とし、列の分類項目をクラスタ名である「クラスタA」、「クラスタB」とした場合のマトリクスである。ここで行の分類項目を生じさせるクラスタリング手法と列の分類項目を生じさせるクラスタリング手法とは異なる手法とする。このマトリクスの目的は、異なるクラスタリング手法におけるクラスタリング結果を比較する点にある。
【0097】
【表6】
【0098】
ここではクラスタ数の設定が大きい場合と小さい場合との結果を比較したり、文書単位でのクラスタリング結果と、外部の話題分割器を利用してより小さな話題単位に分けてからクラスタリングを行った結果などを比較する。この場合は数値1として例えば、ある手法によって「クラスタ1」に分類された文書集合の文書数n1のうち、別の手法によって「クラスタA」に分類された文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。
【0099】
このようなマトリクスを表示することにより、例えば設定するクラスタ数を増加させたとき、多くのクラスタに分散するクラスタや、あまり分散しないクラスタなど、各クラスタの変動を視覚的に把握することができる。このとき、設定するクラスタ数を増加させても文書集合に変化がないクラスタは、ドットをグレーで表示するなどして目立たなくさせてもよい。これにより文書集合に変化があったクラスタの分散のみを容易に把握することができる。
【0100】
また、1つの文書に複数の話題を含む場合に、その話題の分散具合を確認できる。処理対象文書が顧客からの問い合わせ文であった場合などに、どのような話題が同時に問い合わせられることが多いのか、あるいはどのような話題の連続性で問い合わせが行われるのか、などを把握することができる。
【0101】
(クラスタの代表語句を利用した話題の関連性把握)
表7は行の分類項目を、各クラスタの代表語句である「クラスタ1の代表語句」、「クラスタ2の代表語句」とし、列の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とした場合のマトリクスである。クラスタの代表語句は例えば最大5語と設定する。また表示スペースなどに鑑み、マトリクス上の表記は行の分類項目においてもクラスタ名のみを表示するようにしてもよい。
【0102】
上述のクラスタリング結果の把握が「クラスタ1」と「クラスタA」に共通に属する“文書”を表示することによって行われたのに対し、この場合はクラスタの“代表語句”を介して話題の関連性を把握することを目的とする。例えば、クラスタ2に属する文書のうちクラスタ1の代表語句を含む文書集合の割合などを算出する。このような文書集合は、主にクラスタ2という話題について述べながらも、クラスタ1に関する話題にも触れている文書ということになる。すなわち、このような文書が多いということは、クラスタ1とクラスタ2は関連性の強い話題である、と考えられる。これは前述したとおり、クラスタの代表語句はクラスタを特徴づける語句であるため、本来は他のクラスタに属する文書に多く出現することはない、という性質を利用している。
【0103】
【表7】
【0104】
表7のマトリクスにおいて数値1は、「クラスタ1」の代表語句を少なくとも1語含む文書集合の文書数n1(語句)のうち、「クラスタ1」に分類された文書集合の文書数n1(クラスタ)_(語句)の割合、すなわちn1(クラスタ)_(語句)/n1(語句)なる値を表示する。数値2〜4も同様である。
【0105】
このようなマトリクスを用いた場合の実用例を次に挙げる。例えばクラスタ1のクラスタ名が「ファインダー」、その代表語句が「ファインダー/動き/屋外」であり、クラスタ2のクラスタ名が「液晶」、その代表語句が「液晶/画面/モニター」であったとする。このとき、「クラスタ1の代表語句」を分類項目とする行の各要素のうち、クラスタ1自身の値である数値1以外に数値2で高い値を示していたとする。これはすなわち、クラスタ1「ファインダー」の代表語句がクラスタ2「液晶」に属する文書に比較的多く出現している状態である。
【0106】
そこで数値2を表すドットの領域を選択し、上述のように当該文書集合の本文を表示させると、例えば「“屋外”で液晶が見にくいのでアナログカメラのように目で覗いて撮影する。」、「“動き”のあるものを撮影するときは、液晶よりファインダーの方が適している。」などといった文章を得ることができる。すなわち、クラスタ1「ファインダー」の代表語句である「ファインダー/動き/屋外」が、「ファインダー」の話題を表すものと想定し、その語句の分布を見ることで、主に「液晶」について述べながら「ファインダー」の話題にも触れている文書を確認することができる。
【0107】
図9は表7のマトリクス構成において文書の本文を表示させたときの表示部18における画面の構成例を示している。本文表示画面98は凡例表示領域90、本文表示領域92、強調表示領域94、および文書情報表示領域96を含む。この表示は例えばクラスタ1「携帯」に分類され、かつクラスタ2「大き」の代表語句を含む文書集合を現す、数値3のドットを選択して本文を表示させた場合である。このとき本文表示画面98は、本文のどの語句がどのクラスタの代表語句であるかを色別に強調表示する。
【0108】
まず凡例表示領域90には各クラスタを強調するための枠の色の凡例を表示する。同図ではクラスタ「携帯」の代表語句には白色の枠90a、クラスタ「大き」の代表語句には黒色の枠90bを用いている。当然それ以外の色でもよい。本文表示領域92には本文を表示し、強調表示領域94には当該本文に含まれる代表語句に強調のための白色の枠90a、黒色の枠90bを施した文を表示する。同図の文ではクラスタ「大き」の代表語句として「大きさ」が黒色の枠90bで、クラスタ「携帯」の代表語句として「重さ」および「携帯性」が白色の枠90aで囲まれて表示されている。文書情報表示領域96には表示させた文書と関連づけて記憶されている情報、すなわち当該文書を含むファイル名、作成者の性別、年代、職業、作成日などを表示する。表示すべき文書が複数ある場合はページを切替えられるようにして複数ページに渡って表示させてもよい。
【0109】
以上のような構成とすることにより、特定の話題のみと強く関連する話題や、複数の話題と広く関連する話題を把握することができる。そして「話題1」と「話題2」という2つの観点から書かれた点に共通性を有する文書を絞り込み、確認することができる。また数値を示すドットによって、「話題1」と「話題2」が関連して述べられているという傾向を把握することができる。
【0110】
(クラスタの固有表現分析)
表8は行の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とし、列の分類項目を固有表現のカテゴリ名である「固有表現カテゴリA」、「固有表現カテゴリB」とした場合のマトリクスである。ここで固有表現とは、商品名、組織名、地名、人名などの固有名詞や、日時、期間、金額、数量、URL(Uniform Resource Locator)、メールアドレス、電話番号など、物や数を識別する情報である。したがって「固有表現カテゴリA」などは、具体的な固有名詞など、またはその集合になる。例えば、「山田」、「田中」といった固有名詞のほか、それらを包含する集合として「人名」としてもよい。このマトリクスの目的は、各クラスタにどのように固有表現が分布しているかを把握する点にある。
【0111】
【表8】
【0112】
ここで数値1として例えば、「クラスタ1」に分類された文書集合の文書数n1のうち、「固有表現カテゴリA」が抽出された文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。このようなマトリクスを表示することにより、話題と固有表現とをクロス分析することができ、地域や人物、組織名等に密接に関連する話題や、それ以外の話題について容易に知見を得ることができる。
【0113】
(語句の時系列分析)
表9は行の分類項目を、文書から抽出された語句である「語句1」、「語句2」とし、列の分類項目を文書に関連付けて記憶された作成日、登録日などの時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。文書から語句を抽出する処理は、情報表示装置10の外部の装置が行ってよく、このとき情報表示装置10の記憶部12には抽出された語句と各文書とが関連付けて記憶されている。また時系列単位は(分類結果の時系列分析)において説明したのと同様の分類項目である。このマトリクスの目的は、文書中に出現する語句を時系列分析する点にある。
【0114】
【表9】
【0115】
抽出された語句のうち、表9のマトリクスの行の分類項目に表示する語句の数、すなわち行の数はあらかじめ設定しておく。例えば頻度が上位の20語句などとする。ここで数値1として例えば、「語句1」を含む文書集合の文書数n1のうち、「時系列単位A」に属する文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。
【0116】
処理対象の文書が商品に関する顧客の問い合わせや苦情などである場合、文書の本文が例えば「印刷でエラーが発生した」であると「印刷」、「エラー」、「発生」という語句が抽出され、行の分類項目となる。表9のマトリクスはこれらの語句を含む文書数の経時変化を表示する。これにより、例えばある時期に急激に増加した語句に着目して分析を行うことが容易になり、顧客の声の変化や問題点の迅速な把握が可能になる。
【0117】
(フレーズによる意見傾向分析)
表10は行の分類項目を文書より抽出された名詞句である「名詞句1」、「名詞句2」とし、列の分類項目を文書より抽出された形容詞句である「形容詞句A」、「形容詞句B」とした場合のマトリクスである。列の分類項目は形容詞句に代わり動詞句、あるいは形容詞句と動詞句の組み合わせでもよい。(語句の時系列分析)と同様、文書から名詞句、形容詞句、動詞句を抽出する処理は、情報表示装置10の外部の装置が行ってよい。このマトリクスの目的は、抽出された名詞句と、形容詞句あるいは動詞句との係り受けの関係、すなわちフレーズの一覧を文書数とともに視覚化する点にある。
【0118】
【表10】
【0119】
ここで数値1として例えば、形容詞句と係り受けをなす「名詞句1」の出現数n1に対する、「名詞句1」と「形容詞句A」による係り受けの出現数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。列の分類項目を動詞句や形容詞句と動詞句の組み合わせとした場合も同様の数値を表示する。表示切替ボタンを表示させることで、それらのマトリクスを切替えて表示できるようにする。また行の分類項目である、形容詞句などと係り受けをなす名詞句の数が多い場合は、出現数n1が上位である名詞句のみを表示するよう、あらかじめ表示する名詞句の数の上限を設定しておく。
【0120】
このようなマトリクスを表示することにより、文書中に出現する係り受けを一覧表示でき、何がどう書かれているか、といった文書のポイントの傾向を容易に把握することができる。例えば処理対象の文書が商品に関するアンケートの回答文などである場合、名詞句「液晶」について、「見にくい」、「大きい」、「小さい」などの形容詞句との係り受け関係が抽出され、各分類項目として表示される。また出現頻度の大小が視覚的に示される。これにより「液晶」についての印象や評価を容易に確認することができる。
【0121】
(クラスタとフレーズによる意見傾向分析)
表11は行の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とし、列の分類項目を文書から抽出されたフレーズである「フレーズA」、「フレーズB」とした場合のマトリクスである。このマトリクスの目的は、クラスタとフレーズの関係を把握する点にある。
【0122】
【表11】
【0123】
ここで数値1として例えば、「クラスタ1」に属する文書集合の文書数n1に対する、当該文書集合に含まれる「フレーズA」の出現数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。列の分類項目であるフレーズは階層構造を有することができる。この場合は上述したように、階層を切替えてマトリクスを表示できるようにする。例えば被修飾名詞句や形容詞句ごとに集計したものを表示したり、階層構造を展開して被修飾名詞句と形容詞句を列の分類項目として共に表示したりする。また異なるフレーズの数が多い場合は、出現数が上位であるフレーズのみを表示するよう、あらかじめ表示するフレーズの数の上限を設定しておく。
【0124】
このようなマトリクスを表示することにより、あるクラスタにはどのようなフレーズが頻出するか、など、クラスタとフレーズとの関係を取得でき、どの話題について何がどう書かれているか、といった文書のポイントの傾向をより的確に把握することができる。例えば処理対象の文書がカメラに関するアンケートの回答文などである場合、クラスタ1「本体」に属する文書集合に、フレーズA「ほこり−つきやすい」、フレーズB「ほこり−入りやすい」といったフレーズの出現数が多ければ、カメラの本体にほこりがつきやすいという問題があることが容易に把握される。
【0125】
(フレーズを利用した属性分析)
表12は行の分類項目を文書から抽出されたフレーズである「フレーズ1」、「フレーズ2」とし、列の分類項目を文書に関連付けて記憶された属性の値である「属性A」、「属性B」とした場合のマトリクスである。このマトリクスの目的は、フレーズと属性の関係を把握する点にある。
【0126】
【表12】
【0127】
ここで数値1として例えば、処理対象の文書集合における「フレーズ1」の出現数n1に対する、「属性A」に属する文書集合における「フレーズ1」の出現数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この数値によって、あるフレーズについて出現割合の高い属性を把握することができる。あるいは数値1として「属性A」に属する文書集合におけるフレーズの出現数nAに対する、「属性A」に属する文書集合における「フレーズ1」の出現数nA_1の割合、すなわちnA_1/nAなる値を表示してもよい。この数値によって、ある属性の値について、出現割合の高いフレーズを把握することができる。
【0128】
また、列の分類項目表示領域53のいずれかの分類項目、すなわち属性の値を選択して本文表示を行うと、当該属性に属する文書集合の本文が表示されるようにする。一方、行の分類項目表示領域55のいずれかの分類項目、すなわちフレーズを選択して本文表示を行うと、当該フレーズを含む文書集合の本文が表示されるようにする。また、図形表示領域57のあるドットの領域を選択して本文表示を行うと、対応するフレーズを含み、対応する属性に属する文書集合の本文が表示されるようにする。
【0129】
行の分類項目であるフレーズは(クラスタとフレーズによる意見傾向分析)と同様、階層構造を有していてよく、この場合は上述したように階層を切替えてマトリクスを表示できるようにする。また異なるフレーズの数が多い場合は、出現数が上位であるフレーズのみを表示するよう、あらかじめ表示するフレーズの数の上限を設定しておく。さらに行の分類項目は、フレーズに代わり共起頻度上位タームペアとしてもよい。共起頻度上位タームペアとは、一文中に出現する語句のペアを頻度順に並べてその上位を取得したものである。
【0130】
このようなマトリクスを表示することにより、何がどうである、何をどうして欲しいといった、文書のポイントを把握できるフレーズの出現度合いを、文書に対応する属性と関連づけて取得することができる。これにより、例えば処理対象の文書が顧客の意見であった場合に、顧客の性別ごとに何をどうして欲しいかの傾向を把握したり、時系列単位で何がどうであるかの推移を容易に把握することができる。
【0131】
(アフェクト度時系列分析)
表13は行の分類項目を評価フレーズに含まれる名詞句である「評価フレーズの名詞句1」、「評価フレーズの名詞句2」とし、列の分類項目を文書に関連付けて記憶された作成日、登録日などの時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。ここで評価フレーズとは文書から抽出されたフレーズのうち、評価に係るフレーズのことであり、例えば、被修飾名詞句「画質」と形容詞句「悪い」のような係り受けである。このマトリクスの目的は、アフェクト度の経時変化を把握する点にある。
【0132】
【表13】
【0133】
ここで数値1として例えば、「時系列単位A」に属する文書集合における「評価フレーズの名詞句1」のアフェクト度を表示する。数値2〜4も同様である。ここでアフェクト度は評価の度合いを数値化したものであり次のように定義される。
印象表現のアフェクト度=程度副詞の程度値×印象表現語のアフェクト度
被修飾名詞句のアフェクト度=Σ(印象表現のアフェクト度×印象表現語を含む印象表現の頻度)/(アフェクト度が得られた印象表現語の頻度)
【0134】
ここでΣは算出結果の合計である。アフェクト度の算出に先立ち、あらかじめ印象表現語とその印象表現語が表すアフェクト度とを関連付けて記憶部12に記憶させておく。また程度副詞が印象表現語をどの程度強調するかを表す程度値を、各程度副詞と関連付けて記憶部12に記憶させておく。これにより上記の定義を用いて印象表現のアフェクト度が得られる。また被修飾名詞句のアフェクト度は定義のとおり、同じ名詞句を有する印象表現について、頻度を考慮したそれぞれの印象表現のアフェクト度を足し合わせ、さらにアフェクト度が得られた印象表現の数で割ることによって得られる。この数値は名詞句の印象表現あたりのアフェクト度であり、被修飾名詞句が表している対象に対する情動性を表している。
【0135】
例えばある文書集合において、被修飾名詞句「ボディー」に係る形容詞句として「キュート」が2回、「頑丈」が2回、「アンバランス」1回が出現した場合を考える。それらの形容詞句のアフェクト度がそれぞれ「3」、「3」、「−1」であるとき、「ボディー」のアフェクト度は(3×2+3×2+(−3×1))/5=1.8と算出できる。
【0136】
表13のマトリクスにさらに、アフェクト度の平均を表す行および列を追加して表示してもよい。例えばマトリクスの右側に列を追加し、全期間における「評価フレーズの名詞句1」の平均アフェクト度などをドットで表示したり、マトリクスの下側に行を追加し、「時系列単位A」における全名詞句の平均アフェクト度などをドットで表示してもよい。
【0137】
アフェクト度は正、負の実数値を取りうるため、ドットの色で正負を表し、ドットの大きさで絶対値を表してもよい。例えばアフェクト度が正の場合は青、負の場合は赤、0の場合はグレーというように3色で表示し、絶対値によって大きさを決定する。このような構成とすることにより、1つの画面内でアフェクト度の推移を名詞句ごとに追うことができ、比較や分析が容易になる。
【0138】
また、列の分類項目表示領域53のいずれかの分類項目、すなわち時系列単位を選択して本文表示を行うと、当該時系列単位に属する文書集合のうち評価フレーズの名詞句を含む文書集合の本文が表示されるようにする。一方、行の分類項目表示領域55のいずれかの分類項目、すなわち評価フレーズの名詞句を選択して本文表示を行うと、当該評価フレーズの名詞句を含む文書集合の本文が表示されるようにする。また、図形表示領域57のあるドットの領域を選択して本文表示を行うと、対応する評価フレーズの名詞句を含む文書集合のうち、対応する時系列単位に属する文書集合の本文が表示されるようにする。この際、本文に含まれる評価フレーズを属性として抜き出して表示する。
【0139】
図10は表13のマトリクス構成において文書の本文を表示させたときの表示部18における画面の構成例を示している。本文表示画面108は文書データ表示領域110を含む。文書データ表示領域110は、被修飾名詞句表示領域112、形容詞句表示領域114、本文表示領域116、および属性表示領域118を含む。同図は例えば、商品であるカメラに関する顧客の感想文などを処理対象としており、評価フレーズの名詞句として「撮影」を含む文書集合を選択して本文を表示させた場合の画面である。そのため被修飾名詞句表示領域112には全ての文において「撮影」と記載されている。
【0140】
また、各文書に含まれる評価フレーズの形容詞句が本文から抜き出され、形容詞句表示領域114に記載されている。これにより、本文表示領域116に記載されている各文書の評価のポイントを一見して確認することができる。属性表示領域118には文書を作成した人の性別や年代などの属性が記載されている。これにより、どのような顧客層がどのような評価をしているかの傾向を把握しながら、場合によって本文を参照し具体的な内容を確認する、といったことが一画面で行え、集計や分析を効率的に行うことができる。
【0141】
図11および図12は、同じく表13のマトリクス構成において文書の本文を表示させたときの表示部18における画面構成の別の例を示している。この例では2段階の処理により本文を表示する。まず1段階目として選択した名詞句を含む文書集合における、当該名詞句を含む評価フレーズの出現数およびアフェクト度を一覧表示する。図11はその際の画面構成例を示している。評価フレーズカウント表示画面128は、被修飾名詞句表示領域120および形容詞句表示領域122を含む。被修飾名詞句表示領域120には、表13のマトリクス表示において選択されたドットに対応する、評価フレーズの名詞句およびその出現数が表示される。同図では名詞句「撮影」および出現数「37」が表示されている。
【0142】
形容詞句表示領域122には、選択されたドットに対応する名詞句と係り受けをなす形容詞句およびその出現数とアフェクト度が表示される。同図では形容詞句として「不向き」、「よい」、「〜安定」が表示され、それぞれの出現数が「7」、「3」、「2」、アフェクト度が「不評 中」、「好評 中」、「不評 低」と表示されている。ここでアフェクト度の表示は、各形容詞句のアフェクト度を言葉によって表現している。すなわち、アフェクト度が正の値であれば好評、負の値であれば不評であり、さらにその程度を高、中、低の3段階で表している。例えばアフェクト度が−3の形容詞句は「不評 中」、アフェクト度が4.5の形容詞句は「好評 高」などと表示する。それらの対応関係はあらかじめ設定して記憶部12に記憶させておく。
【0143】
評価フレーズカウント表示画面128において形容詞句選択チェックボックス124がチェックされたら、本文表示の2段階目として、形容詞句のいずれかを含む文書集合、すなわち表13のマトリクスで選択したドットに対応した文書集合の本文を表示する。図12はその際の画面構成例を示している。なお、評価フレーズカウント表示画面128において個々の形容詞句の先頭にあるチェックボックスがチェックされた場合は、各形容詞句を含む文書集合の本文のみを表示する。
【0144】
図12における本文表示画面130は、全文表示指示領域132、形容詞句表示領域136、本文表示領域138、クラスタ名表示領域140、属性表示領域142を含む。形容詞句表示領域136には、評価フレーズカウント表示画面128に表示した形容詞句を表示し、本文表示領域138には各形容詞句を含む文書のうち、該当箇所を含む所定長の文を表示する。同図では例えば、形容詞句「不向き」を含む7件の文書の本文が、上から順に表示され、次の形容詞句「よい」を含む3件の文書の本文が、その次に表示されている。本文表示では着目する名詞句および形容詞句を枠で囲ったり色付けを行うなどして強調表示する。
【0145】
クラスタ名表示領域140には各文書が属するクラスタのクラスタ名、例えば「大き」、「室内」、「動画」などを表示する。これにより表示している文書が主に何を話題にしたものであるかが容易に把握できる。属性表示領域142には図10の画面例と同様、文書を作成した人の性別や年代などが記載される。また、各行の先頭に表示した全文表示指示領域132がクリックされた場合は、選択された行の文書の全文をさらに表示する。
【0146】
本文表示を2段階にすることにより、アフェクト度や出現数などを確認したうえで本文を表示させることができ、文書集合が多数となった場合でも効率よく絞り込みが行える。またアフェクト度、出現数、クラスタ名、本文といった多角的なデータを容易に関連付けて理解することができる。
【0147】
(アフェクト度属性分析)
表14は行の分類項目を文書集合に含まれる印象表現語句である「印象表現語句1」、「印象表現語句2」とし、列の分類項目を文書に関連付けて記憶された属性の名前である「属性A」、「属性B」とした場合のマトリクスである。このマトリクスの目的は、用いられる印象表現と属性との関係をアフェクト度を利用して把握する点にある。
【0148】
【表14】
【0149】
ここで数値1として例えば、「属性A」に属する文書集合における「印象表現語句1」の頻度を考慮したアフェクト度を表示する。数値2〜4も同様である。例えば「印象表現語句1」が「キュート」、「印象表現語句2」が「アンバランス」なる語句であり、「属性A」が「男性」、「属性B」が「女性」であったとする。「キュート」の固有のアフェクト度が3、「男性」および「女性」が作成した文書における「キュート」の頻度がそれぞれ2、および10であるとする。また、「アンバランス」の固有のアフェクト度が−3、「男性」および「女性」が作成した文書における「アンバランス」の頻度がそれぞれ12、および4であるとする。このとき頻度を考慮した各語句のアフェクト度は固有のアフェクト度に頻度を乗算して得られるため、数値1は6、数値2は30、数値3は−36、数値4は−12となる。
【0150】
図13はこのデータをドットで表した場合のマトリクスを示している。同図のマトリクス50において列の分類項目欄52には「男性」、「女性」なる属性名が表示され、行の分類項目欄54には「キュート」、「アンバランス」なる印象表現語句が表示されている。図形表示欄56にはドットの大きさおよび色で、各印象表現語句のアフェクト度が属性ごとに表示されている。ここでは表示の便宜上、白色および黒色でアフェクト度の正および負を表している。
【0151】
このようなマトリクスを表示することにより、例えば「女性」はアフェクト度が正の表現、すなわち好評の評価をする際に「キュート」という語句を多く用いる、不評の評価をする際、「アンバランス」という語句はどちらかといえば「男性」が多く用いる、といった、印象表現と属性との関係を傾向として把握することができる。
【0152】
(FAQ作成支援)
表15は行の分類項目を顧客からの問合せ文をクラスタリングした際のクラスタ名である「クラスタ1(問合せ)」、「クラスタ2(問合せ)」とし、列の分類項目を問合せ文に対する回答文をクラスタリングした際のクラスタ名である「クラスタA(回答)」、「クラスタB(回答)」とした場合のマトリクスである。問合せ文および回答文は、電子メールや葉書に記載された文章や、電話における音声を文書化したものなどである。行および列に表示させるクラスタの数は同一としてよい。このマトリクスの目的は問合せに対する回答のばらつきや、回答に対する問合せのばらつきを把握する点にある。
【0153】
【表15】
【0154】
ここで数値1として例えば、「クラスタ1(問合せ)」に属する文書集合の文書数n1のうち、「クラスタA(回答)」に属する文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この値は問合せの内容に対する回答の内容のばらつきを表す。一方、数値1として例えば「クラスタA(回答)」に属する文書集合の文書数nAのうち、「クラスタ1(問合せ)」に属する文書集合の文書数nA_1の割合、すなわちnA_1/nAなる値を表示してもよい。この値は回答の内容に対する問合せの内容のばらつきを表す。なおユーザがマトリクス表示領域51をクリックすることによりこれらの数値を切替えて表示するようにしてもよい。
【0155】
例えばある問合せに対して回答の内容のばらつきが大きい場合、そのような問合せに対する回答基準を明確化する必要がある。このように問合せの内容に対する回答の内容のばらつきをマトリクス表示することにより、回答する側の改善点を把握することができる。また、回答の内容に対する問合せの内容のばらつきをマトリクス表示することにより、問合せ者と回答者の用いる用語のばらつきを把握したり、よくある回答からFAQを作成するために回答の類似性を把握したりすることができる。
【0156】
(FAQ検索文時系列分析)
表16は行の分類項目をFAQ検索において質問者が入力した検索文である「検索文1」、「検索文2」とし、列の分類項目を入力された時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。ここで検索文とは目的のドキュメントを検索するためにFAQ検索システムにおいて入力された、「郵便番号」といった検索文字列、あるいは「7桁の郵便番号について知りたい」といった文章のことである。表16に表示する検索文は頻度が上位のものとし、表示させる数はあらかじめ設定しておく。このマトリクスの目的は、FAQ検索において入力された検索文の経時変化を把握する点にある。
【0157】
【表16】
【0158】
ここで数値1として例えば、全期間における「検索文1」の入力件数n1に対する、「時系列単位A」に入力された「検索文1」の入力件数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この数値により、ある検索文の入力頻度が高い時期などを特定できる。一方、数値1として例えば「時系列単位A」に入力された検索文の入力件数nAにおける「検索文1」の入力件数nA_1の割合、すなわちnA_1/nAなる値を表示してもよい。この数値により、ある期間において入力件数の多い検索文などを特定できる。なおユーザがマトリクス表示領域51をクリックすることによりこれらの数値を切替えて表示するようにしてもよい。
【0159】
また行の分類項目は検索文そのものでもよいし、検索文から抽出した語句別に分類項目としてもよい。このようなマトリクスを表示することにより、例えば問合せが増加している検索文について把握でき、当該問合せに対応するコンテンツを拡充させたり商品の問題点を抽出したり、といった改善に向けた対策を迅速に立てることができる。
【0160】
行の分類項目を質問文から抽出された語句として同様のマトリクスを表示してもよい。ここで質問文とはFAQに含まれる質問、すなわち“よくある質問”のことであり、例えば「印刷でエラーが発生した」といった文章である。このような文章に対し語句抽出処理を行い抽出された語句によって分類を行う。上記の文章では例えば「印刷」、「エラー」、「発生」という語句が抽出される。語句の抽出処理は情報表示装置10の外部の装置が行ってもよく、その場合は抽出された語句を文書および属性と関連づけて記憶部12に記憶しておく。行の分類項目を質問文から抽出された語句とした場合も、検索文と同様の効果を得ることができる。
【0161】
(FAQ検索文のカテゴリ分析)
表17は行の分類項目をFAQ検索において質問者が入力した検索文である「検索文1」、「検索文2」とし、列の分類項目を検索文に対応するカテゴリ名である「カテゴリA」、「カテゴリB」とした場合のマトリクスである。このマトリクスの目的は、FAQ検索において入力された検索文をカテゴリごとの割合として把握する点にある。カテゴリは、作成されたFAQに付与される項目についての情報であり、例えばプリンタについてのFAQであれば「用紙設定・印刷」や「はがき」などである。検索文の入力時にカテゴリの指定を行うことにより、検索文とカテゴリとを関連付けて記憶しておくこともできる。
【0162】
【表17】
【0163】
ここで数値1として例えば、「検索文1」の全入力件数n1のうち、「カテゴリA」に属する「検索文1」の入力件数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。また行の分類項目は検索文そのものでもよいし、検索文から抽出した語句別に分類項目としてもよい。このようなマトリクスを表示することにより、同じ検索文でも分類される割合の高くなりやすいカテゴリを特定したり、複数のカテゴリに対する分布が類似する検索文を特定したりできる。例えばコンピュータに関する検索において複数のカテゴリで用いられる「ドライバ」なる検索文が、「機種」や「OS」といったカテゴリのうちどのカテゴリで検索されることが多いか、などの傾向を把握することができる。
【0164】
なお(分類結果の時系列分析)と同様、あらかじめ各カテゴリを社内の部門に割り当て、ユーザが行の分類項目表示領域55をクリックした際に、各カテゴリが属する部門別に集計し直したマトリクスを表示するようにしてもよい。
【0165】
(FAQ質問文語句のカテゴリ分布把握)
表18は行の分類項目をFAQの質問文から抽出された語句である「質問文の語句1」、「質問文の語句2」とし、列の分類項目を質問文に対応するカテゴリ名である「カテゴリA」、「カテゴリB」とした場合のマトリクスである。このマトリクスの目的は、質問文に含まれる語句がどのようなカテゴリに分布しているかを把握する点にある。
【0166】
【表18】
【0167】
ここで数値1として例えば、「質問文の語句1」を含む質問文の数n1のうち、「カテゴリA」に属する質問文の数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。このようなマトリクスを表示することにより、質問文に含まれる語句のカテゴリに対する分布を把握することができる。例えばあるカテゴリにのみ属している質問文の語句は、カテゴリを特徴づける語句である可能性が高い。したがってFAQの作成する際、当該語句を含む質問文に付与するカテゴリの決定に有用な情報となる。
【0168】
また2、3個のカテゴリに分布し、そのうち1つのカテゴリに属する割合が極端に高い語句があった場合、分布割合の低いカテゴリに属する質問文は、誤ったカテゴリが付与されている可能性がある。またカテゴリの内容と直接関係ないにも関わらずその語句を使用している質問文である可能性もある。このような観点からこのマトリクス表示は、作成済みのFAQにおいて付与されているカテゴリが正確かどうかを判断するための材料となる。
【0169】
さらに複数のカテゴリに比較的均等に分布し、かつカテゴリ名にもなっている語句がある場合は、作成済みのFAQにおいてカテゴリの構成に問題がある可能性が考えられる。例えば質問文「印刷時にエラーが出ます」が「印刷」カテゴリに属し、質問文「アップグレード時にエラーが出ます」が「アップグレード」カテゴリに属し、質問文「予期せぬエラーが発生しました、といわれる」が「エラー」カテゴリに属している場合、複数のカテゴリで「エラー」なる語句が使用されているにも関わらず、「エラー」というカテゴリが存在している。このような場合はカテゴリの構成に問題がある可能性が高い。マトリクスを表示することにより以上述べたような問題点の洗い出しを容易に行うことができる。
【0170】
(FAQカテゴリ数の時系列分析)
表19は行の分類項目をFAQの質問文に対応するカテゴリ名である「カテゴリ1」、「カテゴリ2」とし、列の分類項目を、質問文を作成した時系列単位である「時系列単位A」、「時系列単位B」、「時系列単位C」とした場合のマトリクスである。このマトリクスの目的は、質問文の数の経時変化をカテゴリごとに把握する点にある。
【0171】
【表19】
【0172】
ここで数値1として例えば、「カテゴリ1」に属する質問文のうち「時系列単位A」に作成された質問文の数nA_1を表示する。数値2〜6も同様である。あるいは、時系列単位Bに作成された質問文に関する数値2および5、および時系列単位Cに作成された質問文に関する数値3および6を、時系列単位Aに作成された質問文の数である数値1および4からの変化量または変化の割合としてもよい。例えば「カテゴリ1」に属する質問文のうち「時系列単位A」に作成された質問文の数をnA_1、「時系列単位B」に作成された質問文の数をnB_1とすると、数値2を変化量nB_1−nA_1あるいは変化の割合nB_1/nA_1とする。図3に示したマトリクスのように、ドットの色と大きさによって変化の割合と絶対値とを同時に表示するようにしてもよい。
【0173】
このようなマトリクスを表示することにより、あるカテゴリに属するFAQの件数が急に増加したなどの変化を容易に把握することができ、問題が起こっているカテゴリを発見したりカテゴリ間のバランス調整の必要性を認識したり、というように問題の発生を即座に認識することができる。このような効果をより確実に得るために、変化量や変化の割合にあらかじめしきい値を設定しておき、当該しきい値を超えた時点でユーザに通知を行う機能を設けてもよい。通知は画面にその旨の警告を表示してもよいし、問題となっているカテゴリについてユーザが設定したアドレスに電子メールを自動送信してもよい。
【0174】
(専門知識分析)
表20は行の分類項目を、文書に含まれる専門用語である「専門用語1」、「専門用語2」とし、列の分類項目を、文書を作成した担当者である「担当者A」、「担当者B」とした場合のマトリクスである。ここで専門用語に関する情報は、あらかじめ外部辞書などから記憶部12に記憶させておく。このマトリクスの目的は、問合せに対する回答文や営業日報などで使用している専門用語を、作成者ごとに把握する点にある。
【0175】
【表20】
【0176】
ここで数値1として例えば、全担当者が「専門用語1」を使用した回数n1に対する、「担当者A」が「専門用語1」を使用した回数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。このようなマトリクスを表示することにより、各担当者が有する専門知識のレベルや得意分野、苦手分野を把握でき、担当者教育や担当変更などを効率的に行うことができる。
【0177】
以上のべた本実施の形態によれば、文書集合をユーザが指定した様々な手法で分類し、分類結果に関する情報をマトリクス上のドットで表示することにより視覚化する。これにより、高度な分類手法を用いた場合でも、分類結果の相関関係を1つの画面で直感的に把握することができる。またマトリクスの行や列をなす分類項目は、一覧表示からのドラッグアンドドロップなどの簡単な操作で設定するため、異なる分類項目によるマトリクスを次々表示させて傾向を比較することによる知見を得ることができる。1つのマトリクスは2次元の情報であるが、複数のマトリクスを比較していくことができると多次元解析が実現され、得られる情報量が格段に増加する。
【0178】
さらに膨大なデータベースを処理対象としても、文書に適した分類項目を選択することができるため、効率のよい分類処理が可能となり、最終的に所望の文書を取得するまでの絞込みを効率よく行える。また文書の属性の有無や形式などに関わらずどのような文書でも処理が可能なため、文書の検索や商品の分析などに幅広く利用できるほか、分類処理自体の妥当性をチェックするなどシステム自身の調整も行うことができる。各用途において得られる多様な効果は上述したとおりである。
【0179】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【図面の簡単な説明】
【0180】
【図1】本実施の形態における検索システムの全体的な構成を示す図である。
【図2】本実施の形態において表示部に表示されるマトリクスの例を示す図である。
【図3】本実施の形態において表示部に表示されるマトリクスの別の例を示す図である。
【図4】本実施の形態における情報表示装置によるマトリクス表示の処理手順を示すフローチャートである。
【図5】本実施の形態において表示部に表示される画面の構成例を示す図である。
【図6】本実施の形態において行の分類項目が階層構造を有するときにマトリクス表示領域に表示されるマトリクスの例を示す図である。
【図7】本実施の形態において対角化ソートを行う様子を模式的に示す図である。
【図8】本実施の形態において文書集合に係る情報を表示した際の画面の構成例を示す図である。
【図9】本実施の形態において文書の本文を表示した際の画面の構成例を示す図である。
【図10】本実施の形態のアフェクト度時系列分析において文書の本文を表示した際の画面の構成例を示す図である。
【図11】本実施の形態のアフェクト度時系列分析において選択した名詞句を含む評価フレーズの出現数およびアフェクト度を一覧表示した際の画面の構成例を示す図である。
【図12】本実施の形態のアフェクト度時系列分析において文書の本文を表示した際の画面の構成例を示す図である。
【図13】本実施の形態のアフェクト度属性分析において表示されるマトリクスの例を示す図である。
【符号の説明】
【0181】
10 情報表示装置、 12 記憶部、 14 分類処理部、 16 マトリクス生成部、 18 表示部、 20 入力部、 22 マトリクス表示部、 50 マトリクス、 51 マトリクス表示領域、 52 列の分類項目欄、 54 行の分類項目欄、 56 図形表示欄、60 マトリクス表示画面、 62 分類項目選択領域、 66 文書集合指定領域、 67 ソート指示ボタン、 68 絞込み指示ボタン、 80 横方向ガイド線、 82 縦方向ガイド線、 84 縦方向情報表示領域、 86 横方向情報表示領域。
【技術分野】
【0001】
本発明は情報表示技術に関し、特に蓄積された文書データから得られる情報を視覚化して表示する情報表示技術およびそれに適用される情報表示方法に関する。
【背景技術】
【0002】
コンピュータやネットワークなどの情報処理分野における技術環境は近年、劇的な進歩を遂げてきた。それにともない多量かつ多様なデータを記憶装置に保存したり、ネットワークや記録媒体を介して入手したりすることが容易に行われるようになってきた。そのため情報化社会における課題の重点は、情報をいかに入手するかという点から、膨大な情報からいかに必要な情報を効率よく取捨選択するかという点へと移行しつつある。
【0003】
このような課題に対して、様々なデータベースから必要なデータを絞り込むための様々な技術が開発されてきた。例えば特許出願の公開公報などにおいて、入力された検索式にヒットした公報についてキーワードや特許分類などに基づく集計を行いマトリクスマップを表示することにより、データの絞込みを行う技術が提案されている(例えば特許文献1)。またナレッジマネジメントシステムにおいて、コミュニティや専門分野ごとの投稿数または評価値の度合いを2次元表示することにより、取得する投稿記事の絞込みを行う技術も提案されている(例えば特許文献2)。
【特許文献1】特開2005−165858号公報
【特許文献2】特開2005−85017号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記のような技術は、検索を前提としてあらかじめ分類や属性が付加されているデータを対象としているため、そのようなデータ構造に合わせてシステムを構築することにより初めて実現が可能となる。ところがこのような場合、当該システムを別のデータ構造を有するデータや別の用途に用いることはできず、上記技術におけるシステムの場合は公開公報の検索、または投稿記事の検索、といった使用目的に限定される。
【0005】
本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザが所望とする多様な情報を容易かつ直感的に取得できる技術を提供することにある。
【課題を解決するための手段】
【0006】
本発明のある態様は、情報表示装置に関する。この情報表示装置は、複数の文書を記憶する記憶部と、記憶部が記憶した複数の文書を、第1の分類手法および第2の分類手法で分類することにより2系列の文書集合群を形成する分類処理部と、分類処理部が実施した第1の分類手法および第2の分類手法による分類結果の相関関係を、2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、を備えたことを特徴とする。
【0007】
ここで「第1の分類手法」と「第2の分類手法」は同一の分類手法であってもよい。したがって「2系列の文書集合群」は同一の文書集合群であってもよい。また「図形で表現した」とは円、多角形、線などの幾何形状のいずれかに色、模様、大きさなどのいずれかまたはその組み合わせによって変化を持たせたものである。あるいは幾何形状自体を変化させたり、幾何形状を組み合わせたりしてもよい。
【0008】
本発明の別の態様も、情報表示装置に関する。この情報表示装置は、複数の文書を記憶する記憶部と、記憶部が記憶した複数の文書を所定の分類手法で分類することにより複数の文書集合を形成する分類処理部と、分類処理部が分類した各文書集合から抽出された語句の出現数に基づき当該語句に係る数値情報を算出し、分類処理部が実施した分類の結果と語句に係る数値情報との相関関係を、語句に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、を備えたことを特徴とする。
【0009】
本発明の別の態様は、情報表示方法に関する。この情報表示方法は、複数の文書を分類する第1の分類手法および第2の分類手法の選択入力をユーザより受け付けるステップと、選択された第1の分類手法および第2の分類手法で複数の文書を分類し、2系列の文書集合群を形成するステップと、第1の分類手法および第2の分類手法による分類結果の相関関係を、2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するステップと、を含むことを特徴とする
【0010】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0011】
本発明によれば、ユーザは文書データから所望の情報を容易かつ直感的に取得することができる。
【発明を実施するための最良の形態】
【0012】
図1は本実施の形態における情報表示装置の構成を示している。情報表示装置10は、ユーザが表示にかかる指示入力を行う入力部20、文書データなどを記憶した記憶部12、文書データを所定の分類手法で分類する分類処理部14、2つの系列の分類項目を行、および列に割り当て、それぞれの要素を構成する数値を図形化して2次元マトリクスで表示するマトリクス表示部22を含む。マトリクス表示部22は、分類された文書データに基づく数値データを取得し、マトリクスの表示データを生成するマトリクス生成部16と、当該マトリクスを表示する表示部18を含む。以上の構成要素はバス24を介して接続されており、相互にデータを送受する。
【0013】
図1において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メモリ、その他のLSIで構成することができ、ソフトウェア的には、言語処理機能のあるプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
【0014】
入力部20はキーボード、マウス、トラックボール、トラックパッドなど一般的に用いられる入力装置のいずれか、またはその組み合わせでよい。入力部20によりユーザは、記憶部12に記憶された文書データから処理対象の文書集合を指定したり、表示部18に表示したマトリクス表示画面上で、マトリクスの行および列を構成する分類項目の種類や表示するデータの種類を選択したり、表示されたマトリクス上の所望の領域を選択したりする。
【0015】
記憶部12は、ハードディスクやメモリ、DVD(Digital Versatile Disk)、CD(Compact Disk)などの記録媒体の読取装置などのいずれか、またはそれらの組み合わせでもよく、データ量や検索処理の形態に応じたハードウェアから適宜選択する。したがってその数は限定されない。また記憶部12の一部は、ネットワーク(図示せず)を介してバス24と接続していてもよい。この場合、他の機能ブロックはネットワークに接続されたサーバ(図示せず)を介して当該記憶部12とデータの送受を行ってよい。
【0016】
記憶部12に記憶された文書データは、例えば文書本体であるテキストデータと、作成日、作成者、分類コードなど、文書を特徴づける属性とを関連付けたデータであってもよいし、文書本体であるテキストデータのみであってもよい。ここで文書とは新聞記事や特許公開公報など長文で構成されるものでも、1文、あるいは1単語で構成されるものでもよく、その長短は問わない。また記憶部12には文書データの他、表示する画像のテンプレートデータやマトリクス上に表示する図形に係るデータ、図形で表される数値を算出するためのパラメータなど、マトリクス表示において必要となるデータも記憶される。
【0017】
分類処理部14は、ユーザが入力部20において指定した文書集合のデータを記憶部12から読み出し、ユーザが選択した、マトリクスの行および列を構成する分類項目の種類に従い、対応する分類手法で分類を行う。分類手法としては、あらかじめ各文書に関連づけて記憶された属性ごとに分類する手法、あらかじめ用意した語句集合のいずれかに、所定の基準によって各文書を振り分けていく手法、特定の分類項目を持たず文書同士の類似性により分類していく手法(以後、クラスタリングと呼ぶ)などのいずれの手法でもよい。分類された文書集合は、文書ごとに与えられた識別情報に基づき各分類項目と関連付けて記憶部12のメモリなどに保存される。
【0018】
本実施の形態では、分類した結果をマトリクス形式で表示するが、分類処理部14が行う分類手法は2つとは限らない。すなわち、1つの分類手法で分類した結果を行および列に同様に表示することもある。ユーザは分類項目の種類を選択することにより、文書集合が含有する多様な情報から所望のものを効率よく取得することができる。分類項目や対応する分類手法、およびマトリクス表示により得られる情報の具体例については後に説明する。
【0019】
マトリクス表示部22のマトリクス生成部16は、分類処理部14が分類した結果をユーザが入力部20において選択した分類項目に従い、行または列に配置していき、2次元マトリクスの表示データを生成する。例えば記憶部12から読み出した処理対象の文書集合の分類項目ごとの文書数を表示させたい場合を考える。このときマトリクス生成部16はまず、行および列として選択された分類項目に分類した結果である、2系列の文書集合群同士の各組み合わせの積集合を要素とする行列を生成する。すなわち、行をなす文書集合群が{M1,M2,・・・,Mm}(mは項目数)、列をなす文書集合群が{N1,N2,・・・,Nn}(nは項目数)だとすると、式1のような行列を生成する。そして各積集合に属する文書の識別情報と、対応する行および列の2つの分類項目の組み合わせとを関連づけてメモリなどに保存する。
【0020】
【数1】
【0021】
次にマトリクス生成部16は、マトリクスの各要素である積集合について、ユーザが入力部20において選択した、表示するデータの種類に応じた演算を行い、行列を数値化する。上記の例では、積集合に属する文書の数をカウントして最終的な数値行列を求める。
【0022】
さらにマトリクス生成部16は、当該数値行列の各要素を図形として視覚化して表す。これによりユーザは、たとえ分類項目が多くても数値分布や傾向などをより直感的に把握することができる。マトリクス生成部16は後述するように、自動またはユーザによる指示により、マトリクスの行や列の並び替えを行ったり、表示させる分類項目の絞込みを行ったりする。そのためユーザは全体的な傾向把握に加えて局所的な情報を取得するためのデータの絞込みを効率よく行うことができる。
【0023】
表示するデータの種類によっては、マトリクス生成部16は、分類処理部14が分類した文書集合から抽出された印象表現語を含むフレーズや、名詞句、形容詞句、動詞句などの語句の出現数を、文書集合ごとにカウントする。また必要に応じて、出現数などに基づいたアフェクト度の計算も行う。語句の抽出処理自体は外部の処理装置が行ってもよく、その場合は抽出された語句と各文書とを対応づけたデータが記憶部12に記憶されている。マトリクス生成部16は当該データを参照することにより語句の出現数をカウントする。具体的な抽出語句の種類と表示データの種類については後に詳述する。
【0024】
表示部18は、マトリクス生成部16の制御のもと、生成されたマトリクスの表示データを画面に表示するとともに、ユーザが入力部20において処理対象の文書集合を指定したり、分類項目の種類を選択したりする際の受付画面を表示する。マトリクスの表示画面と受付画面とは同一の画面に共に表示してよい。表示部18はさらに、表示したマトリクス上で移動する縦、横の2本のガイド線も表示する。ユーザは入力部20により当該ガイド線の交点を移動させることにより、マトリクス上の領域を選択することができる。マトリクス上の領域が選択されたら、マトリクス生成部16は、表示部18に当該領域に存在する図形が表す数値情報やその図形が属する分類項目に係る情報を表示させる。
【0025】
表示部18はさらに、ユーザが選択したマトリクス上の領域に存在する図形に対応する文書集合の本文を表示する。文書集合の本文はマトリクスを表示するウィンドウに重畳させた別のウィンドウ上に表示してもよいし、マトリクスの表示領域にマトリクスと切替えて表示してもよい。
【0026】
図2は表示部18に表示されるマトリクスの例を示している。マトリクス50は列の分類項目欄52、行の分類項目欄54、および図形表示欄56を含む。図2の例では、列の分類項目欄52と行の分類項目欄54のいずれも、「カメラ」、「ケース」、「サイズ」、「シャッター」、「レンズ」、「バッテリー」、・・・、「電池」、なる分類項目が表示されている。例えば、カメラ関係の投稿記事の文書集合を、2つの分類手法、または2つの分類器で、あらかじめ設定したこれらの分類項目に主題に応じて分類した際の、分類結果の相関関係、あるいは分類手法や分類器の傾向などを把握する場合などには図2のような表示が有用となる。
【0027】
図形表示欄56には、マトリクスの各要素の数値を表す図形としてドットが表示されている。以後、数値はドットで表すとして説明するが、別の形状を有する図形でも同様である。図2においてドットは全て同一の大きさで、数値に応じて色を異ならせている。ただしここでは、表示の便宜上、色の変化は模様の変化で表しており、例えば模様が密なほど値が高いとする。またドットが表示されていない要素は数値が0、または数値が算出されない場合などである。
【0028】
図2では、マトリクスの対角線を構成する要素、すなわち(「カメラ」,「カメラ」)、(「ケース」,「ケース」)といった同一の分類項目の組み合わせにおいて数値が高いことがわかる。さらにこの例では、分類項目「レンズ」の列が、他の列よりドットの数が多い。この結果を上記のように、2つの分類手法で同じ分類項目への分類を行い、それぞれの分類項目に属する文書数を表示させた場合に当てはめると、当該2つの分類手法でも分類傾向にはおよそ差がないことや、列を構成する分類手法で「レンズ」に分類された文書は、行を構成する分類手法では分類が分散することなどが把握できる。
【0029】
図3は表示部18に表示されるマトリクスの別の例を示している。この例におけるマトリクス50では、列の分類項目欄52に「2004年」、「2005年」、「2006年」という分類項目が、行の分類項目欄54に「カメラ」、「携帯電話」という分類項目が表示されている。図2の例では図形表示欄56に表示されたドットが同一の大きさであったが、図3ではドットの大きさが異なる。さらにドットの色も異なるが、図2と同様、便宜上模様を異ならせて表現している。すなわち図3の例では、1つのドットの大きさおよび色によって2つの数値を表している。
【0030】
図3は例えば、「カメラ」または「携帯電話」に関する文書数の、作成年に対する推移をドットの大きさで表すとともに、2004年からの文書数の変化率をドットの色で表した場合のマトリクスである。このとき「カメラ」に関する文書数は「携帯電話」に関する文書数より全期間に渡り少ないが、その増加率は「カメラ」に関する文書の方が多いことが把握できる。
【0031】
次に以上の構成による情報表示装置10の動作を説明する。図4は情報表示装置10によるマトリクス表示の処理手順を示すフローチャートである。まずユーザは入力部20により、処理対象の文書集合を指定する(S10)。例えば、表示部18に入力を行うための受付画面、すなわち記憶部12中に記憶された様々な文書集合から選択を行うための画面を表示させ、その中からユーザが選択入力する。あるいは文書集合を記憶したCD−ROMなどの記録媒体を記憶部12に読み込ませたり、ネットワークを介したサーバから記憶部12へのダウンロード指示を行ったりしてもよい。
【0032】
次にユーザは、マトリクスの行および列を構成する分類項目の種類およびマトリクスとして表示させるデータの種類を選択する(S14)。このステップも、S10において選択された文書集合に対して選択可能な分類項目を表示部18に表示させることにより、ユーザが選択入力してよい。このとき、文書の属性により分類する場合は「性別」、「作成日」など属性の種類を、あらかじめ用意した語句集合を分類項目とする場合は当該語句集合につけた名前を選択項目として表示する。一方、クラスタリングを行った結果を表示させたい場合は、分類項目が未知のため「クラスタリング」といった選択項目を表示する。同様に、抽出した語句ごとに数値を表したい場合も、抽出される語句が未知のため、語句の種類を選択項目として表示する。データの種類については、例えば「文書数」や「文書数割合」など、計算可能な数値の名前を選択項目として表示する。必要に応じて各選択項目についての詳細な設定を受け付ける画面を表示してもよい。
【0033】
分類処理部14は、S10で指定された文書集合を記憶部12から読み出し、S14で選択された分類項目の種類に基づき分類を実行する(S16)。読み出した文書集合が記憶部12においてすでに分類されており、ユーザがその分類手法のみを選択している場合は、S16の処理をスキップする。
【0034】
マトリクス表示部22のマトリクス生成部16は、上述のとおり行、列を構成する2系列の文書集合の積集合を各項目の組み合わせごとに形成していき、S14で選択された表示データの種類に基づき、各積集合に関する数値を算出する。あるいは分類処理部14が分類した文書集合ごとにS14で選択された語句の種類に応じた語句を抽出し、出現数または出現数に基づく数値を算出する。そして当該数値に基づきマトリクスに表示するドットの色や大きさを決定し、当該ドットと行および列の分類項目とからなるマトリクスデータを生成する(S18)。表示部18はマトリクスデータを画面上に出力する(S20)。
【0035】
このとき表示部18は、マトリクスの他に分類項目の種類や表示データの種類を選択入力するための受付画面を常時表示しておく。そしてマトリクスを表示している間にユーザが新たな分類項目の種類を選択する入力を行った場合(S22のY)、分類処理部14は当該分類項目の種類に基づき新たな分類を行い(S16)、マトリクス生成部16はマトリクスデータを生成し直す(S18)。またユーザが新たな表示データの種類を選択する入力を行った場合(S24のY)、マトリクス生成部16は当該表示データの種類に基づき新たな数値を算出してマトリクスデータを生成し直す(S18)。これらの処理により、表示部18は、ユーザが選択した分類項目の種類、または表示データの種類に従った新たなマトリクスを表示する(S20)。
【0036】
以上の処理を、マトリクス表示の終了指示をユーザが入力するまで行い(S26のN)、終了指示の入力によりマトリクス表示を終了する(S26のY)。
【0037】
図5は表示部18に表示される画面の構成例を示している。マトリクス表示画面60は文書集合指定領域66、マトリクス表示領域51、分類項目選択領域62、凡例表示領域64、ソート指示ボタン67、および絞込み指示ボタン68を含む。図4のS10においてユーザは、記憶部12における記憶場所および文書集合名を文書集合指定領域66に対して入力することにより、処理対象の文書集合を指定する。一般的な文書指定手法のように、記憶部12のツリー構造を参照できるようにしてそこから選択するようにしてもよい。
【0038】
マトリクス表示領域51は列の分類項目表示領域53、行の分類項目表示領域55、および図形表示領域57を含む。また分類項目選択領域62には、マトリクスとして表示できる行の分類項目や列の分類項目の種類、および表示データの種類の候補が表示される。同図では、行または列の分類項目の種類として「クラスタ名」、「地域」、「職業」が、表示するデータの種類として「数量」、「割合」、「本文」が候補として表示されている。ここで「本文」は、本実施の形態の機能として、ドットで表されたある文書集合をユーザが指定した場合に、当該文書集合に属する文書の本体をテキストデータとして表示する場合に選択される。
【0039】
図4のS14においてユーザは、分類項目選択領域62からマトリクスの行および列に表示させたい分類項目の種類を選択し、入力部20であるポインティングデバイスなどによりその項目を列の分類項目表示領域53や行の分類項目表示領域55にそれぞれドラッグアンドドロップ操作することにより、分類項目の種類を確定する。同様に、分類項目選択領域62からデータの種類を選択し、図形表示領域57にドラッグアンドドロップ操作することにより表示データの種類を確定する。マトリクス生成部16は、図4のS18においてマトリクスデータを生成する際、算出した各要素の数値の範囲に応じてドットの色や大きさを決定し、凡例表示領域64に凡例を表示する。
【0040】
ソート指示ボタン67および絞込み指示ボタン68はそれぞれ、所定の基準により、マトリクス表示領域51に表示されたマトリクスの行または列を入れ替えたり表示数を減縮したりする際にユーザによって選択される。これらの機能については後に説明する。
【0041】
以上のような画面構成とすることにより、ユーザは視覚的、直感的に条件設定を行うことができ、多様な形態の文書や色々な分類手法があっても容易に所望の情報を得ることができる。なお図5に示した画面は例示であり、本実施の形態はこれに限られない。例えば分類項目の種類や表示データの種類によっては、さらに詳細な設定を必要とする場合もある。このときは必要に応じて別のウィンドウを重ねて表示したり、分類項目選択領域62に選択肢を追加したりすることによって設定を行う。いずれの場合も、ポインティングデバイスを使用して直感的に選択できるような画面構成が望ましい。
【0042】
ここで分類項目の種類を選択する際の態様のひとつを説明する。図6は行の分類項目が階層構造を有するときにマトリクス表示領域51に表示されるマトリクスの例を示している。この例はカメラに関する記事を、そこに含まれる「ケース」、「サイズ」、「レンズ」などの被修飾名詞句で分類し、さらにそれらの句を修飾する「しっかりする」、「重い」、「丈夫」などの形容詞句でさらに細分化して分類した場合について示している。すなわちこのときの分類項目は、被修飾名詞句が上位層、形容詞句が下位層の階層構造を有する。一方、列の分類項目は「機種A」、「機種B」、「機種C」など、機種ごとに分類する単層構造を有している。
【0043】
このような状況においては、分類項目選択領域62には例えば「カメラ語句(上位/下位)」、「カメラ語句(上位)」、「カメラ語句(下位)」といった候補を表示する。ここで「カメラ語句」とはあらかじめ用意された分類項目列、この場合は階層構造を有する分類項目の集合につけられた名前である。なお「名詞句/形容詞句」などの表示でもよい。クラスタリングを行うときは「クラスタリング(上位/下位)」などでもよい。
【0044】
そして「カメラ語句(上位/下位)」を行の分類項目表示領域55にドラッグアンドドロップ操作したときは、マトリクス表示領域51には図6(a)に示すように上位層および下位層の分類項目が階層構造のまま表示される。したがってドットが表す数値は、例えば「ケース」に属する文書集合のうち「重い」に属するものと、「機種A」に属する文書集合との積集合に係る数値である。この例では、各機種に対して「何(被修飾名詞句)」が「どう(形容詞句)」であるという内容の記事が多いのか、などを把握することができる。
【0045】
一方、「カメラ語句(上位)」を選択した場合、マトリクス表示領域51には図6(b)に示すように、上位層の分類項目が表示される。このときドットが表す数値は、例えば「ケース」に属する文書集合と「機種A」に属する文書集合との積集合に係る数値である。これにより、各機種の「何(被修飾名詞句)に係る記事が多いのか、などを把握することができる。同様に、「カメラ語句(下位)」を選択した場合、図6(c)に示すように下位層の分類項目が表示される。このときは上位層の分類項目に関わらず「重い」なる下位層の分類項目に属する文書を集計して文書集合とし、それと「機種A」に属する文書集合との積集合に係る数値を表示する。これにより「何(被修飾名詞句)」に関わらずどのような形容をされた記事が多いのかを機種ごとに把握できる。
【0046】
分類項目の階層は図6の例では2層であったが、3層以上でも同様に表示の切替えを行う。このようにポインティングデバイスのみによって表示データを切替えることができるため、分類項目が階層構造を有していても、全体的な傾向の把握から詳細な分析までを効率よく行える。また階層の違いによる結果を容易に比較することができる。
【0047】
マトリクス生成部16は、ユーザがソート指示ボタン67を押下することにより、マトリクス表示領域51に表示されるマトリクスの行や列を入れ替え、ソートを行ったマトリクスデータを生成する。分類項目によっては、列のソート、行のソート、列および行のソートを選択するサブメニューをさらに表示させてもよい。また、どのような基準によってソートを行うかをサブメニューによって選択するようにしてもよい。ソートの基準としては分類項目の種類や表示データの種類などによって、(1)分類項目名によるソート、(2)合計値によるソート、(3)割合によるソート、(4)分散度によるソート、(5)対角化ソート、などから選択できるようにする。
【0048】
分類項目名によるソートは、分類項目の文字列の文字コードに基づき、例えばあいうえお順などでソートを行う。合計値によるソートは、各列や各行を構成する要素の数値の合計値に基づき、例えば降順でソートを行う。割合によるソートは、各列や各行を構成する要素の数値の合計値に対する各要素の数値の割合に基づきソートを行う。分散度によるソートは、より多くの分類項目に値が分散しているか否かに基づきソートを行う。分散度には例えば、「ある行(または列)において値(ドット)が存在する分類項目数/その行(または列)に属する分類項目数」などの定義を用いる。
【0049】
対角化ソートは、マトリクスの対角線にある要素の値に着目し、行または列のどちらか一方のみをソートする場合と、行と列の双方をソートする場合とを用意する。図7は対角化ソートを行う様子を模式的に示している。図7(a)は、行の分類項目欄54に表示された分類項目の順番は固定とし、対角線の領域70にある要素の値が最も大きくなるように列の分類項目欄52に表示された分類項目の表示順を入れ替え、ソートを行った例である。対角線の領域70に着目してソートを行うことにより、行および列の分類項目の並び順を比較するだけで傾向を把握できる場合がある。
【0050】
対角化ソートにおいて行、または列の一方のみをソートする手法としては、次のような上位優先片側対角化ソートのアルゴリズムが考えられる。なおここでは行を固定し列をソートする場合について述べるが、列を固定し行をソートする場合も「行」と「列」を読み替えることによって同様に実現できる。
(1)n行n列の正方行列Tについて、i=1行目から処理を開始
(2)Tの行ベクトルtiの要素ti1,・・・,tinのうち、i≦j≦nかつ最大の値を有するtijを求める
(3)i≠jの場合はTのi列目とj列目を入れ替える
(4)i<nの場合はi=i+1として(2)から処理を繰り返す
【0051】
しかし上記アルゴリズムでは、上位の行で決定された列の位置を下位の行で変更できないため、下位の行では最大要素が対角線に位置しない場合もある。そこで以下のような、正方行列Tの中で最大の値を有する要素から順に対角化を行う、最大値優先片側対角化ソートのアルゴリズムを採用してもよい。
(1)決定済みの行列番号を格納するリストL={}を用意する
(2)L中の全ての行列番号lkについてi≠lkかつj≠lkが成り立つTの最大要素tijを求める
(3)i≠jの場合はTのi列目とj列目を入れ替える
(4)|L|<nの場合はL=L∪{i}として(2)から処理を繰り返す
【0052】
図7(b)は、対角線の領域70にある要素の値が最も大きくなり、かつ対角線の領域70の左上から右下に向けて値が降順となるように、行の分類項目欄54に表示された分類項目および列の分類項目欄52に表示された分類項目の双方についてソートを行った例である。このようなソートを実現するアルゴリズムとしては以下に示す両側対角化ソートがある。
(1)n行n列の正方行列Tについてk=1から処理を開始
(2)k≦iかつk≦jが成立する全てのTの要素の中で最大の値を有する要素tijを求める
(3)k≠iの場合はTのk行目とi行目を入れ替える
(4)k≠jの場合はTのk列目とj列目を入れ替える
(5)k<nの場合はk=k+1として(2)から処理を繰り返す
【0053】
ユーザが絞込み指示ボタン68を押下した際、マトリクス生成部16は、マトリクス表示領域51に表示する分類項目を絞込んだマトリクスデータを生成する。絞り込んだ結果表示される分類項目の数は、固定値としてもよいし、ソートにおいて算出された数値にしきい値を設けて自動的に決定してもよい。また、ユーザがポインティングデバイスで数を設定できるゲージなどを表示することにより、ユーザが指定できるようにしてもよい。
【0054】
ソート指示ボタン67と同様に、サブメニューにてどのような手法で絞込みを行うかをユーザが選択できるようにしてもよい。絞込みには上述したようなソートのアルゴリズムを利用してもよい。例えばサブメニューにて「分散度(昇順)」なる絞込み手法を選択した場合は、上述の分散度を各行(または列)に対して算出し、その値が下位となる所定数の行(または列)のみを表示する。表示すべきドットがない、すなわち文書集合が存在しない行や列を削除するようにしてもよい。
【0055】
マトリクス生成部16は、図5に示したマトリクス表示画面60におけるマトリクス表示領域51に、マトリクス上の各ドットが表す文書集合に係る具体的な情報を表すテキストデータを追加して表示する。図8はドットが表す文書集合に係る情報を表示した際のマトリクス表示画面60を示している。マトリクス表示領域51にマトリクスが表示されている状態で、ポインティングデバイスによりあるドット83の領域を指示すると、そのドットで交差する横方向ガイド線80および縦方向ガイド線82が表示されるようにする。これらのガイド線によってユーザは、指示したドットがどの分類項目に属しているのかを把握できる。
【0056】
さらに横方向ガイド線80の近傍に横方向情報表示領域86を、縦方向ガイド線82の近傍に縦方向情報表示領域84をポップアップウィンドウなどで表示する。横方向情報表示領域86には、指示したドットが属する行の分類項目名、当該ドットが表す具体的な数値、当該分類項目に属する要素の数値の合計値などを表示する。図8の例では、分類項目名が「カメラ」、ドットが表す数値として「文書数」が「6」、合計値として文書数が「21」と表示されている。縦方向情報表示領域84にも同様の情報を表示する。「文書数」は表示するデータの種類によって割合や語句の出現数などに置き換えられる。
【0057】
このような画面構成とすることにより、分類項目が多数ありマトリクス50が煩雑な図となっても、各ドットがどの分類項目を表しているのかを即座に知ることができる。また、ドットで全体的な傾向を把握しながらも、容易な操作で局所的な数値を取得することができる。なおドットの領域を指示した場合と同様に、各分類項目を指示することにより、当該分類項目についての情報、例えば当該分類項目に属する全文書の数や、分類処理において得られた情報などを表示するようにしてもよい。
【0058】
あるドット83の領域を選択した状態で、ユーザが分類項目選択領域62に表示された「本文」62aなる候補をさらに選択することにより、当該ドット83が表す文書集合の本文を表示させる。本文の表示例については後に示す。このときマトリクス生成部16は、マトリクス生成時にメモリなどに保存した、当該積集合に属する文書の識別情報を分類項目に基づき特定する。そして別に用意した表示用のテンプレートデータに、識別情報を基に記憶部12から読み出した本文のデータを貼り付けたり、リンクを張ったりすることにより本文表示のためのデータを生成する。該当する文書が多数ある場合などは適宜スクロールやページングのための機能を提供する。ドットを選択する代わりに各分類項目を選択することにより、当該分類項目に属する全ての文書の本文を表示するようにしてもよい。
【0059】
さらに本文を表示した後、そのデータを例えばcsv形式で保存できるようにする。保存の指示入力および保存の手順についてはデータ保存のための一般的な手法を用いることができる。このように所望の文書集合の本文を表示したり保存したりすることにより、ユーザは分類結果の数値的な側面ばかりでなく、文書の実態を確認することができる。膨大なデータベースに含まれる文書でも、最初に分類してその傾向をドットで確認してから最終的には所望の文書本体を入手する、という段階を踏むことにより、検索クエリによる検索を繰り返す場合に比べ、格段に効率よく所望の文書に行き着くことができる。
【0060】
次に本実施の形態における情報表示装置10が提供する分類手法と、それをマトリクスとして表示することによって得られる情報について例示する。分類手法としては上述したように、元々文書に関連づけられた属性が存在する場合にその属性ごとに分類する手法、所定の分類項目に所定の方法によって文書を振り分ける手法、および文書同士の類似性により文書のまとまり(クラスタ)を生成していくクラスタリングが挙げられる。ここでは所定の分類項目への分類手法、およびクラスタリング手法について簡単に説明する。ただし、本実施の形態における分類手法はここで説明するものに限られず、一般的に提案されている手法のいずれを選択してもよい。
【0061】
(所定の分類項目への分類)
この分類手法は、あらかじめ分類項目(以後、カテゴリと呼ぶ)とそれに関連する語句群(以後、プロファイルと呼ぶ)を用意し、各文書から抽出した語句群とプロファイルとによって、文書とカテゴリとの類似度を判定し、類似度の高いカテゴリに文書を振り分ける手法である。例えば新聞記事を「政治」、「経済」、「スポーツ」というカテゴリに分類したい場合、「スポーツ」に関連する「野球」、「サッカー」、「試合」といった語句で構成するプロファイルを用意する。プロファイルを構成する各語句はその重要度などによって重み付けされている。
【0062】
具体的な手法は以下のとおりである。すなわち、まず処理対象文書から語句を形態素解析により抽出する。そして同一内容で表記の異なる語句の表記を統一する。次にそれらの語句の重みベクトルと、その並び順に対応したプロファイルの重みベクトルとに基づき、ベクトル空間法を用いて処理対象文書と各カテゴリとの類似度を計算していく。前者の重みベクトルをA={w_a1,w_a2,w_a3,・・・,w_aN}、後者の重みベクトルをB={w_b1,w_b2,w_b3,・・・,w_bN}とする。ここでNは処理対象文書から抽出された語句の数、wはTF−IDF(Term Frequency - Inverse Document Frequency)法などにより導出された語句の重要度である。このとき類似度sim(B,A)は以下のようになる。
【0063】
【数2】
【0064】
類似度sim(B,A)をカテゴリごとに算出していき、最も類似度の高かったカテゴリに処理対象文書を分類する。
【0065】
(クラスタリングによる分類)
クラスタリングは所定の分類項目を用意せずに文書同士の類似性によって文書のクラスタを形成する手法である。クラスタはトピック、すなわち話題ととらえることもできる。この場合も文書ごとに形態素解析により語句を抽出し、同一内容の語句の表記を統一する。そして全文書について語句の重みベクトルを対応する順序で生成し、文書の組み合わせごとに類似度を計算していく。この類似度も式2で与えられた値を用いてよい。その後、例えば類似度があるしきい値を超えた場合にそれらの文書は類似しているとみなし、同一のクラスタを生成する。
【0066】
文書から抽出された語句のうち、クラスタを特徴づける語句をクラスタの代表語句として抽出しておく。また代表語句のうち最も特徴的な語句をクラスタ名として決定する。例えば、各語句についてクラスタとの相互情報量を算出し、その値が上位である数個の語句を代表語句、その値が最も高い語句をクラスタ名とする。語句tとクラスタCとの相互情報量MI(t,C)は次の式で表される。
【0067】
【数3】
【0068】
ここでP(t)は語句tを含む文書が現れる確率であり、(語句tを含む文書数/全文書数)で定義される。P(C)はクラスタCに属する文書が現れる確率であり、(クラスタCに属する文書数/全文書数)で定義される。またP(t,C)は語句tを含むクラスタCに属する文書が現れる確率であり、(語句tを含むクラスタCの文書数/全文書数)で定義される。図2におけるマトリクス50の列の分類項目欄52や行の分類項目欄54にはこのようにして決定したクラスタ名を表示する。
【0069】
次に各分類手法をマトリクス50の表示形式に適用した具体例と効果について述べる。なお各例の説明においてはマトリクスを表で表し、図示を簡便化するが、表における各数値はマトリクス上のドットで表現されるものとする。また各表においてマトリクスを構成する行および列の数は簡単のために2ないし3とするが、それに限定されるものではない。
【0070】
(クラスタリングを利用したプロファイル診断)
表1は行の分類項目を、用意されたカテゴリである「カテゴリ1」、「カテゴリ2」とし、列の分類項目をクラスタリングの結果得られたクラスタ名である「クラスタA」、「クラスタB」とした場合のマトリクスである。このマトリクス表示の目的は、適正なプロファイルとカテゴリの関係が設定されているかを確認する点にある。すなわち、プロファイルとカテゴリを用意する際に元となった文書のカテゴリの付与基準を精査したり、類似した文書に異なるカテゴリが付与されていないかをチェックしたりする。
【0071】
【表1】
【0072】
このとき行われるクラスタリングは、カテゴリの数と同一に設定する。このようなマトリクスにおいて数値1〜数値4をドットで表す。例えば数値1として、カテゴリを用意する際の全元文書を対象としてクラスタリングを実行した結果、「カテゴリ1」の文書のうち「クラスタA」に分類された文書集合の文書数nA_1を表示する。数値2〜4も同様に表示する。または、カテゴリ1に属する全文書集合の文書数n1のうち、クラスタAに属する文書集合の文書数nA_1の割合、すなわちnA_1/n1を数値1としてもよい。
【0073】
このようなマトリクスを表示することにより、類似した文書にも関わらず別カテゴリに分類されたものを発見でき、カテゴリの付与基準に内在する問題を洗い出すことができる。
【0074】
(構成する語句群を利用したプロファイル診断)
表2は行の分類項目および列の分類項目のいずれも、複数のカテゴリにそれぞれ対応して用意された複数のプロファイルである「プロファイル1」、「プロファイル2」、「プロファイル3」とした場合のマトリクスである。このマトリクス表示の目的は、カテゴリ間の類似性をチェックする点にある。例えば「充電」と「電池」というカテゴリがあり、それらのカテゴリのプロファイルが類似している場合、「充電」カテゴリに分類したい文書が「電池」に分類される可能性がある。このような場合に、類似しているプロファイルを統合するなどのプロファイルチューニングを行うことにより、分類精度を向上させることができる。
【0075】
【表2】
【0076】
このようなマトリクスにおいて数値1〜9をドットで表す。例えば数値2として、「プロファイル1」と「プロファイル2」の類似度を表示する。類似度を表す指標として例えば単語共有率を算出する。
【0077】
単語共有率strは、プロファイルCとDの間で正の重みを持つ単語を共有する割合として以下で定義される値である。
【0078】
【数4】
【0079】
ここでstr(C,D)=str(D,C)は必ずしも成立しない。また同一のプロファイルの組み合わせ、すなわち数値1、5、9に表される単語共有率は1である。式4において単語iの重みの与え方を変えることにより、単語共有率の観点を変化させることができる。一般に重みベクトルの要素wiは−1から1の実数値を取ることが可能である。一方、wiに語句の出現の有無を1および0の2値で与えると、strは共有する単語の割合を表す指標となる。また、wiに単語の出現頻度を与えると、strは共有する単語の出現頻度の割合を示す指標となる。
【0080】
類似度を表す指標として、単語共有率strの他に、コサイン類似度や結束度などを採用してもよい。コサイン類似度は、2つのプロファイルの重みベクトルを式2に適用することによって得られる。結束度relは、プロファイルp1とプロファイルp2を構成する語句の数により以下のように定義される値である。
【0081】
【数5】
【0082】
ここでaはプロファイルp1を構成する語句の数、bはプロファイルp2を構成する語句の数、cはプロファイルp1とプロファイルp2とで共通に存在する語句の数である。
【0083】
なおコサイン類似度および結束度は、同じプロファイルの組み合わせでは同じ値となるため、三角行列である表3のようなマトリクスとする。ここで「−」で表される要素はドットを表示しない。この場合も、同一のプロファイルの組み合わせ、すなわち数値3、5、7に表されるコサイン類似度および単語共有率は1である。
【0084】
【表3】
【0085】
(正解カテゴリと分類カテゴリの関係把握)
表4は行の分類項目および列の分類項目ともに、用意されたカテゴリである「カテゴリ1」、「カテゴリ2」としているが、行の分類項目は目視などにより正しく分類した場合であり、列の分類項目は分類器などによって機械的に分類した場合である。前者を「カテゴリ1(正解)」、後者を「カテゴリ1(分類)」などと表記している。このマトリクス表示の目的は、機械的に行った分類と正解との関係を視覚化する点にある。
【0086】
【表4】
【0087】
表4において行および列の分類項目は同一である。このようなマトリクスにおいて数値1〜4をドットで表す。例えば数値1として、「カテゴリ1(正解)」に分類された文書集合の文書数n1(正解)のうち、「カテゴリ1(分類)」に分類された文書集合の文書数n1(分類)_(正解)の割合、n1(分類)_(正解)/n1(正解)なる値を表示する。同様に数値2〜4の値を表示する。このとき数値1および数値4は正解に対する分類器の再現率と考えることができる。
【0088】
あるいは数値1として、「カテゴリ1(分類)」に分類された文書の文書数n1(分類)のうち、「カテゴリ1(正解)」に分類された文書の文書数n1(正解)_(分類)の割合、n1(正解)_(分類)/n1(分類)を表示してもよい。数値2〜4も同様の値を表示する。このとき数値1および数値4は分類器による分類の正解に対する適合率と考えることができる。
【0089】
ドットによって再現率を表すマトリクスを表示させた状態で、ユーザが入力部20であるポインティングデバイスでマトリクス表示領域51をクリックすると、適合率を表すマトリクスへと表示が切替わるようにしてもよい。適合率から再現率への切替えも同様に行ってよい。このようなマトリクスを表示することにより、分類器による誤分類の多いカテゴリについて、どのカテゴリに誤分類されているのかを視覚的に把握することができ、プロファイルの調整方針を立てるうえでの知見を得ることができる。
【0090】
(分類結果の時系列分析)
表5は行の分類項目を、用意されたカテゴリである「カテゴリ1」、「カテゴリ2」とし、列の分類項目を文書に関連付けて記憶された作成日、登録日などの時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。時系列単位とは例えば、2006年、2007年・・・や、上半期、下半期など、ある期間を指す名前である。このマトリクスの目的は、文書の経時的な変化をカテゴリごとに把握する点にある。
【0091】
【表5】
【0092】
この場合は数値1として、「カテゴリ1」に分類された文書集合の文書数n1のうち、「時系列単位A」に属する文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この値を表示することにより、あるカテゴリについて出現割合の高い時期を把握することができる。あるいは数値1として、「時系列単位A」に属する文書集合の文書数nAのうち、「カテゴリ1」に分類された文書集合の文書数n1_Aの割合、すなわちn1_A/nAなる値を表示してもよい。数値2〜4も同様である。この値を表示することにより、ある期間について出現割合の高いカテゴリを把握することができる。このときも上述同様、ユーザがマトリクス表示領域51をクリックすることによりマトリクスを切替えて表示するようにしてよい。
【0093】
このようなマトリクスを表示することにより、例えばある時期に急激に増加した話題を容易に把握でき、当該文書集合のみをテキストマイニングなどで分析することにより、注目されている話題に絞り込んだ解析を効率よく行うことができる。また、広告を出すなどのイベントが行われた時期と比較することにより、イベントが話題に与える影響などを把握することができる。さらにいずれのカテゴリにも分類されなかった文書数の変化を追うことができ、その傾向によって新たにプロファイル調整を行う時期を検討したり、その文書を確認して新製品の提案に繋がる意見を発掘したりすることができる。
【0094】
表5のマトリクスを社内で活用する場合、あらかじめ各カテゴリを社内の部門に割り当て、ユーザが行の分類項目表示領域55をクリックした際に、各カテゴリが属する部門別に集計し直したマトリクスを表示するようにしてもよい。これにより部門ごとの文書数割合の経時変化を確認でき、例えば苦情数の傾向などを部門ごとに把握することができる。
【0095】
表5と同様にして、作成した人の性別、職業などあらゆる属性で分類した結果を表示できる。例えば割合の高くなり易い属性や、属性ごとの割合が似たような分布となり易いカテゴリなどについて傾向を把握することができる。
【0096】
(クラスタリング結果の把握)
表6は行の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とし、列の分類項目をクラスタ名である「クラスタA」、「クラスタB」とした場合のマトリクスである。ここで行の分類項目を生じさせるクラスタリング手法と列の分類項目を生じさせるクラスタリング手法とは異なる手法とする。このマトリクスの目的は、異なるクラスタリング手法におけるクラスタリング結果を比較する点にある。
【0097】
【表6】
【0098】
ここではクラスタ数の設定が大きい場合と小さい場合との結果を比較したり、文書単位でのクラスタリング結果と、外部の話題分割器を利用してより小さな話題単位に分けてからクラスタリングを行った結果などを比較する。この場合は数値1として例えば、ある手法によって「クラスタ1」に分類された文書集合の文書数n1のうち、別の手法によって「クラスタA」に分類された文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。
【0099】
このようなマトリクスを表示することにより、例えば設定するクラスタ数を増加させたとき、多くのクラスタに分散するクラスタや、あまり分散しないクラスタなど、各クラスタの変動を視覚的に把握することができる。このとき、設定するクラスタ数を増加させても文書集合に変化がないクラスタは、ドットをグレーで表示するなどして目立たなくさせてもよい。これにより文書集合に変化があったクラスタの分散のみを容易に把握することができる。
【0100】
また、1つの文書に複数の話題を含む場合に、その話題の分散具合を確認できる。処理対象文書が顧客からの問い合わせ文であった場合などに、どのような話題が同時に問い合わせられることが多いのか、あるいはどのような話題の連続性で問い合わせが行われるのか、などを把握することができる。
【0101】
(クラスタの代表語句を利用した話題の関連性把握)
表7は行の分類項目を、各クラスタの代表語句である「クラスタ1の代表語句」、「クラスタ2の代表語句」とし、列の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とした場合のマトリクスである。クラスタの代表語句は例えば最大5語と設定する。また表示スペースなどに鑑み、マトリクス上の表記は行の分類項目においてもクラスタ名のみを表示するようにしてもよい。
【0102】
上述のクラスタリング結果の把握が「クラスタ1」と「クラスタA」に共通に属する“文書”を表示することによって行われたのに対し、この場合はクラスタの“代表語句”を介して話題の関連性を把握することを目的とする。例えば、クラスタ2に属する文書のうちクラスタ1の代表語句を含む文書集合の割合などを算出する。このような文書集合は、主にクラスタ2という話題について述べながらも、クラスタ1に関する話題にも触れている文書ということになる。すなわち、このような文書が多いということは、クラスタ1とクラスタ2は関連性の強い話題である、と考えられる。これは前述したとおり、クラスタの代表語句はクラスタを特徴づける語句であるため、本来は他のクラスタに属する文書に多く出現することはない、という性質を利用している。
【0103】
【表7】
【0104】
表7のマトリクスにおいて数値1は、「クラスタ1」の代表語句を少なくとも1語含む文書集合の文書数n1(語句)のうち、「クラスタ1」に分類された文書集合の文書数n1(クラスタ)_(語句)の割合、すなわちn1(クラスタ)_(語句)/n1(語句)なる値を表示する。数値2〜4も同様である。
【0105】
このようなマトリクスを用いた場合の実用例を次に挙げる。例えばクラスタ1のクラスタ名が「ファインダー」、その代表語句が「ファインダー/動き/屋外」であり、クラスタ2のクラスタ名が「液晶」、その代表語句が「液晶/画面/モニター」であったとする。このとき、「クラスタ1の代表語句」を分類項目とする行の各要素のうち、クラスタ1自身の値である数値1以外に数値2で高い値を示していたとする。これはすなわち、クラスタ1「ファインダー」の代表語句がクラスタ2「液晶」に属する文書に比較的多く出現している状態である。
【0106】
そこで数値2を表すドットの領域を選択し、上述のように当該文書集合の本文を表示させると、例えば「“屋外”で液晶が見にくいのでアナログカメラのように目で覗いて撮影する。」、「“動き”のあるものを撮影するときは、液晶よりファインダーの方が適している。」などといった文章を得ることができる。すなわち、クラスタ1「ファインダー」の代表語句である「ファインダー/動き/屋外」が、「ファインダー」の話題を表すものと想定し、その語句の分布を見ることで、主に「液晶」について述べながら「ファインダー」の話題にも触れている文書を確認することができる。
【0107】
図9は表7のマトリクス構成において文書の本文を表示させたときの表示部18における画面の構成例を示している。本文表示画面98は凡例表示領域90、本文表示領域92、強調表示領域94、および文書情報表示領域96を含む。この表示は例えばクラスタ1「携帯」に分類され、かつクラスタ2「大き」の代表語句を含む文書集合を現す、数値3のドットを選択して本文を表示させた場合である。このとき本文表示画面98は、本文のどの語句がどのクラスタの代表語句であるかを色別に強調表示する。
【0108】
まず凡例表示領域90には各クラスタを強調するための枠の色の凡例を表示する。同図ではクラスタ「携帯」の代表語句には白色の枠90a、クラスタ「大き」の代表語句には黒色の枠90bを用いている。当然それ以外の色でもよい。本文表示領域92には本文を表示し、強調表示領域94には当該本文に含まれる代表語句に強調のための白色の枠90a、黒色の枠90bを施した文を表示する。同図の文ではクラスタ「大き」の代表語句として「大きさ」が黒色の枠90bで、クラスタ「携帯」の代表語句として「重さ」および「携帯性」が白色の枠90aで囲まれて表示されている。文書情報表示領域96には表示させた文書と関連づけて記憶されている情報、すなわち当該文書を含むファイル名、作成者の性別、年代、職業、作成日などを表示する。表示すべき文書が複数ある場合はページを切替えられるようにして複数ページに渡って表示させてもよい。
【0109】
以上のような構成とすることにより、特定の話題のみと強く関連する話題や、複数の話題と広く関連する話題を把握することができる。そして「話題1」と「話題2」という2つの観点から書かれた点に共通性を有する文書を絞り込み、確認することができる。また数値を示すドットによって、「話題1」と「話題2」が関連して述べられているという傾向を把握することができる。
【0110】
(クラスタの固有表現分析)
表8は行の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とし、列の分類項目を固有表現のカテゴリ名である「固有表現カテゴリA」、「固有表現カテゴリB」とした場合のマトリクスである。ここで固有表現とは、商品名、組織名、地名、人名などの固有名詞や、日時、期間、金額、数量、URL(Uniform Resource Locator)、メールアドレス、電話番号など、物や数を識別する情報である。したがって「固有表現カテゴリA」などは、具体的な固有名詞など、またはその集合になる。例えば、「山田」、「田中」といった固有名詞のほか、それらを包含する集合として「人名」としてもよい。このマトリクスの目的は、各クラスタにどのように固有表現が分布しているかを把握する点にある。
【0111】
【表8】
【0112】
ここで数値1として例えば、「クラスタ1」に分類された文書集合の文書数n1のうち、「固有表現カテゴリA」が抽出された文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。このようなマトリクスを表示することにより、話題と固有表現とをクロス分析することができ、地域や人物、組織名等に密接に関連する話題や、それ以外の話題について容易に知見を得ることができる。
【0113】
(語句の時系列分析)
表9は行の分類項目を、文書から抽出された語句である「語句1」、「語句2」とし、列の分類項目を文書に関連付けて記憶された作成日、登録日などの時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。文書から語句を抽出する処理は、情報表示装置10の外部の装置が行ってよく、このとき情報表示装置10の記憶部12には抽出された語句と各文書とが関連付けて記憶されている。また時系列単位は(分類結果の時系列分析)において説明したのと同様の分類項目である。このマトリクスの目的は、文書中に出現する語句を時系列分析する点にある。
【0114】
【表9】
【0115】
抽出された語句のうち、表9のマトリクスの行の分類項目に表示する語句の数、すなわち行の数はあらかじめ設定しておく。例えば頻度が上位の20語句などとする。ここで数値1として例えば、「語句1」を含む文書集合の文書数n1のうち、「時系列単位A」に属する文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。
【0116】
処理対象の文書が商品に関する顧客の問い合わせや苦情などである場合、文書の本文が例えば「印刷でエラーが発生した」であると「印刷」、「エラー」、「発生」という語句が抽出され、行の分類項目となる。表9のマトリクスはこれらの語句を含む文書数の経時変化を表示する。これにより、例えばある時期に急激に増加した語句に着目して分析を行うことが容易になり、顧客の声の変化や問題点の迅速な把握が可能になる。
【0117】
(フレーズによる意見傾向分析)
表10は行の分類項目を文書より抽出された名詞句である「名詞句1」、「名詞句2」とし、列の分類項目を文書より抽出された形容詞句である「形容詞句A」、「形容詞句B」とした場合のマトリクスである。列の分類項目は形容詞句に代わり動詞句、あるいは形容詞句と動詞句の組み合わせでもよい。(語句の時系列分析)と同様、文書から名詞句、形容詞句、動詞句を抽出する処理は、情報表示装置10の外部の装置が行ってよい。このマトリクスの目的は、抽出された名詞句と、形容詞句あるいは動詞句との係り受けの関係、すなわちフレーズの一覧を文書数とともに視覚化する点にある。
【0118】
【表10】
【0119】
ここで数値1として例えば、形容詞句と係り受けをなす「名詞句1」の出現数n1に対する、「名詞句1」と「形容詞句A」による係り受けの出現数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。列の分類項目を動詞句や形容詞句と動詞句の組み合わせとした場合も同様の数値を表示する。表示切替ボタンを表示させることで、それらのマトリクスを切替えて表示できるようにする。また行の分類項目である、形容詞句などと係り受けをなす名詞句の数が多い場合は、出現数n1が上位である名詞句のみを表示するよう、あらかじめ表示する名詞句の数の上限を設定しておく。
【0120】
このようなマトリクスを表示することにより、文書中に出現する係り受けを一覧表示でき、何がどう書かれているか、といった文書のポイントの傾向を容易に把握することができる。例えば処理対象の文書が商品に関するアンケートの回答文などである場合、名詞句「液晶」について、「見にくい」、「大きい」、「小さい」などの形容詞句との係り受け関係が抽出され、各分類項目として表示される。また出現頻度の大小が視覚的に示される。これにより「液晶」についての印象や評価を容易に確認することができる。
【0121】
(クラスタとフレーズによる意見傾向分析)
表11は行の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とし、列の分類項目を文書から抽出されたフレーズである「フレーズA」、「フレーズB」とした場合のマトリクスである。このマトリクスの目的は、クラスタとフレーズの関係を把握する点にある。
【0122】
【表11】
【0123】
ここで数値1として例えば、「クラスタ1」に属する文書集合の文書数n1に対する、当該文書集合に含まれる「フレーズA」の出現数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。列の分類項目であるフレーズは階層構造を有することができる。この場合は上述したように、階層を切替えてマトリクスを表示できるようにする。例えば被修飾名詞句や形容詞句ごとに集計したものを表示したり、階層構造を展開して被修飾名詞句と形容詞句を列の分類項目として共に表示したりする。また異なるフレーズの数が多い場合は、出現数が上位であるフレーズのみを表示するよう、あらかじめ表示するフレーズの数の上限を設定しておく。
【0124】
このようなマトリクスを表示することにより、あるクラスタにはどのようなフレーズが頻出するか、など、クラスタとフレーズとの関係を取得でき、どの話題について何がどう書かれているか、といった文書のポイントの傾向をより的確に把握することができる。例えば処理対象の文書がカメラに関するアンケートの回答文などである場合、クラスタ1「本体」に属する文書集合に、フレーズA「ほこり−つきやすい」、フレーズB「ほこり−入りやすい」といったフレーズの出現数が多ければ、カメラの本体にほこりがつきやすいという問題があることが容易に把握される。
【0125】
(フレーズを利用した属性分析)
表12は行の分類項目を文書から抽出されたフレーズである「フレーズ1」、「フレーズ2」とし、列の分類項目を文書に関連付けて記憶された属性の値である「属性A」、「属性B」とした場合のマトリクスである。このマトリクスの目的は、フレーズと属性の関係を把握する点にある。
【0126】
【表12】
【0127】
ここで数値1として例えば、処理対象の文書集合における「フレーズ1」の出現数n1に対する、「属性A」に属する文書集合における「フレーズ1」の出現数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この数値によって、あるフレーズについて出現割合の高い属性を把握することができる。あるいは数値1として「属性A」に属する文書集合におけるフレーズの出現数nAに対する、「属性A」に属する文書集合における「フレーズ1」の出現数nA_1の割合、すなわちnA_1/nAなる値を表示してもよい。この数値によって、ある属性の値について、出現割合の高いフレーズを把握することができる。
【0128】
また、列の分類項目表示領域53のいずれかの分類項目、すなわち属性の値を選択して本文表示を行うと、当該属性に属する文書集合の本文が表示されるようにする。一方、行の分類項目表示領域55のいずれかの分類項目、すなわちフレーズを選択して本文表示を行うと、当該フレーズを含む文書集合の本文が表示されるようにする。また、図形表示領域57のあるドットの領域を選択して本文表示を行うと、対応するフレーズを含み、対応する属性に属する文書集合の本文が表示されるようにする。
【0129】
行の分類項目であるフレーズは(クラスタとフレーズによる意見傾向分析)と同様、階層構造を有していてよく、この場合は上述したように階層を切替えてマトリクスを表示できるようにする。また異なるフレーズの数が多い場合は、出現数が上位であるフレーズのみを表示するよう、あらかじめ表示するフレーズの数の上限を設定しておく。さらに行の分類項目は、フレーズに代わり共起頻度上位タームペアとしてもよい。共起頻度上位タームペアとは、一文中に出現する語句のペアを頻度順に並べてその上位を取得したものである。
【0130】
このようなマトリクスを表示することにより、何がどうである、何をどうして欲しいといった、文書のポイントを把握できるフレーズの出現度合いを、文書に対応する属性と関連づけて取得することができる。これにより、例えば処理対象の文書が顧客の意見であった場合に、顧客の性別ごとに何をどうして欲しいかの傾向を把握したり、時系列単位で何がどうであるかの推移を容易に把握することができる。
【0131】
(アフェクト度時系列分析)
表13は行の分類項目を評価フレーズに含まれる名詞句である「評価フレーズの名詞句1」、「評価フレーズの名詞句2」とし、列の分類項目を文書に関連付けて記憶された作成日、登録日などの時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。ここで評価フレーズとは文書から抽出されたフレーズのうち、評価に係るフレーズのことであり、例えば、被修飾名詞句「画質」と形容詞句「悪い」のような係り受けである。このマトリクスの目的は、アフェクト度の経時変化を把握する点にある。
【0132】
【表13】
【0133】
ここで数値1として例えば、「時系列単位A」に属する文書集合における「評価フレーズの名詞句1」のアフェクト度を表示する。数値2〜4も同様である。ここでアフェクト度は評価の度合いを数値化したものであり次のように定義される。
印象表現のアフェクト度=程度副詞の程度値×印象表現語のアフェクト度
被修飾名詞句のアフェクト度=Σ(印象表現のアフェクト度×印象表現語を含む印象表現の頻度)/(アフェクト度が得られた印象表現語の頻度)
【0134】
ここでΣは算出結果の合計である。アフェクト度の算出に先立ち、あらかじめ印象表現語とその印象表現語が表すアフェクト度とを関連付けて記憶部12に記憶させておく。また程度副詞が印象表現語をどの程度強調するかを表す程度値を、各程度副詞と関連付けて記憶部12に記憶させておく。これにより上記の定義を用いて印象表現のアフェクト度が得られる。また被修飾名詞句のアフェクト度は定義のとおり、同じ名詞句を有する印象表現について、頻度を考慮したそれぞれの印象表現のアフェクト度を足し合わせ、さらにアフェクト度が得られた印象表現の数で割ることによって得られる。この数値は名詞句の印象表現あたりのアフェクト度であり、被修飾名詞句が表している対象に対する情動性を表している。
【0135】
例えばある文書集合において、被修飾名詞句「ボディー」に係る形容詞句として「キュート」が2回、「頑丈」が2回、「アンバランス」1回が出現した場合を考える。それらの形容詞句のアフェクト度がそれぞれ「3」、「3」、「−1」であるとき、「ボディー」のアフェクト度は(3×2+3×2+(−3×1))/5=1.8と算出できる。
【0136】
表13のマトリクスにさらに、アフェクト度の平均を表す行および列を追加して表示してもよい。例えばマトリクスの右側に列を追加し、全期間における「評価フレーズの名詞句1」の平均アフェクト度などをドットで表示したり、マトリクスの下側に行を追加し、「時系列単位A」における全名詞句の平均アフェクト度などをドットで表示してもよい。
【0137】
アフェクト度は正、負の実数値を取りうるため、ドットの色で正負を表し、ドットの大きさで絶対値を表してもよい。例えばアフェクト度が正の場合は青、負の場合は赤、0の場合はグレーというように3色で表示し、絶対値によって大きさを決定する。このような構成とすることにより、1つの画面内でアフェクト度の推移を名詞句ごとに追うことができ、比較や分析が容易になる。
【0138】
また、列の分類項目表示領域53のいずれかの分類項目、すなわち時系列単位を選択して本文表示を行うと、当該時系列単位に属する文書集合のうち評価フレーズの名詞句を含む文書集合の本文が表示されるようにする。一方、行の分類項目表示領域55のいずれかの分類項目、すなわち評価フレーズの名詞句を選択して本文表示を行うと、当該評価フレーズの名詞句を含む文書集合の本文が表示されるようにする。また、図形表示領域57のあるドットの領域を選択して本文表示を行うと、対応する評価フレーズの名詞句を含む文書集合のうち、対応する時系列単位に属する文書集合の本文が表示されるようにする。この際、本文に含まれる評価フレーズを属性として抜き出して表示する。
【0139】
図10は表13のマトリクス構成において文書の本文を表示させたときの表示部18における画面の構成例を示している。本文表示画面108は文書データ表示領域110を含む。文書データ表示領域110は、被修飾名詞句表示領域112、形容詞句表示領域114、本文表示領域116、および属性表示領域118を含む。同図は例えば、商品であるカメラに関する顧客の感想文などを処理対象としており、評価フレーズの名詞句として「撮影」を含む文書集合を選択して本文を表示させた場合の画面である。そのため被修飾名詞句表示領域112には全ての文において「撮影」と記載されている。
【0140】
また、各文書に含まれる評価フレーズの形容詞句が本文から抜き出され、形容詞句表示領域114に記載されている。これにより、本文表示領域116に記載されている各文書の評価のポイントを一見して確認することができる。属性表示領域118には文書を作成した人の性別や年代などの属性が記載されている。これにより、どのような顧客層がどのような評価をしているかの傾向を把握しながら、場合によって本文を参照し具体的な内容を確認する、といったことが一画面で行え、集計や分析を効率的に行うことができる。
【0141】
図11および図12は、同じく表13のマトリクス構成において文書の本文を表示させたときの表示部18における画面構成の別の例を示している。この例では2段階の処理により本文を表示する。まず1段階目として選択した名詞句を含む文書集合における、当該名詞句を含む評価フレーズの出現数およびアフェクト度を一覧表示する。図11はその際の画面構成例を示している。評価フレーズカウント表示画面128は、被修飾名詞句表示領域120および形容詞句表示領域122を含む。被修飾名詞句表示領域120には、表13のマトリクス表示において選択されたドットに対応する、評価フレーズの名詞句およびその出現数が表示される。同図では名詞句「撮影」および出現数「37」が表示されている。
【0142】
形容詞句表示領域122には、選択されたドットに対応する名詞句と係り受けをなす形容詞句およびその出現数とアフェクト度が表示される。同図では形容詞句として「不向き」、「よい」、「〜安定」が表示され、それぞれの出現数が「7」、「3」、「2」、アフェクト度が「不評 中」、「好評 中」、「不評 低」と表示されている。ここでアフェクト度の表示は、各形容詞句のアフェクト度を言葉によって表現している。すなわち、アフェクト度が正の値であれば好評、負の値であれば不評であり、さらにその程度を高、中、低の3段階で表している。例えばアフェクト度が−3の形容詞句は「不評 中」、アフェクト度が4.5の形容詞句は「好評 高」などと表示する。それらの対応関係はあらかじめ設定して記憶部12に記憶させておく。
【0143】
評価フレーズカウント表示画面128において形容詞句選択チェックボックス124がチェックされたら、本文表示の2段階目として、形容詞句のいずれかを含む文書集合、すなわち表13のマトリクスで選択したドットに対応した文書集合の本文を表示する。図12はその際の画面構成例を示している。なお、評価フレーズカウント表示画面128において個々の形容詞句の先頭にあるチェックボックスがチェックされた場合は、各形容詞句を含む文書集合の本文のみを表示する。
【0144】
図12における本文表示画面130は、全文表示指示領域132、形容詞句表示領域136、本文表示領域138、クラスタ名表示領域140、属性表示領域142を含む。形容詞句表示領域136には、評価フレーズカウント表示画面128に表示した形容詞句を表示し、本文表示領域138には各形容詞句を含む文書のうち、該当箇所を含む所定長の文を表示する。同図では例えば、形容詞句「不向き」を含む7件の文書の本文が、上から順に表示され、次の形容詞句「よい」を含む3件の文書の本文が、その次に表示されている。本文表示では着目する名詞句および形容詞句を枠で囲ったり色付けを行うなどして強調表示する。
【0145】
クラスタ名表示領域140には各文書が属するクラスタのクラスタ名、例えば「大き」、「室内」、「動画」などを表示する。これにより表示している文書が主に何を話題にしたものであるかが容易に把握できる。属性表示領域142には図10の画面例と同様、文書を作成した人の性別や年代などが記載される。また、各行の先頭に表示した全文表示指示領域132がクリックされた場合は、選択された行の文書の全文をさらに表示する。
【0146】
本文表示を2段階にすることにより、アフェクト度や出現数などを確認したうえで本文を表示させることができ、文書集合が多数となった場合でも効率よく絞り込みが行える。またアフェクト度、出現数、クラスタ名、本文といった多角的なデータを容易に関連付けて理解することができる。
【0147】
(アフェクト度属性分析)
表14は行の分類項目を文書集合に含まれる印象表現語句である「印象表現語句1」、「印象表現語句2」とし、列の分類項目を文書に関連付けて記憶された属性の名前である「属性A」、「属性B」とした場合のマトリクスである。このマトリクスの目的は、用いられる印象表現と属性との関係をアフェクト度を利用して把握する点にある。
【0148】
【表14】
【0149】
ここで数値1として例えば、「属性A」に属する文書集合における「印象表現語句1」の頻度を考慮したアフェクト度を表示する。数値2〜4も同様である。例えば「印象表現語句1」が「キュート」、「印象表現語句2」が「アンバランス」なる語句であり、「属性A」が「男性」、「属性B」が「女性」であったとする。「キュート」の固有のアフェクト度が3、「男性」および「女性」が作成した文書における「キュート」の頻度がそれぞれ2、および10であるとする。また、「アンバランス」の固有のアフェクト度が−3、「男性」および「女性」が作成した文書における「アンバランス」の頻度がそれぞれ12、および4であるとする。このとき頻度を考慮した各語句のアフェクト度は固有のアフェクト度に頻度を乗算して得られるため、数値1は6、数値2は30、数値3は−36、数値4は−12となる。
【0150】
図13はこのデータをドットで表した場合のマトリクスを示している。同図のマトリクス50において列の分類項目欄52には「男性」、「女性」なる属性名が表示され、行の分類項目欄54には「キュート」、「アンバランス」なる印象表現語句が表示されている。図形表示欄56にはドットの大きさおよび色で、各印象表現語句のアフェクト度が属性ごとに表示されている。ここでは表示の便宜上、白色および黒色でアフェクト度の正および負を表している。
【0151】
このようなマトリクスを表示することにより、例えば「女性」はアフェクト度が正の表現、すなわち好評の評価をする際に「キュート」という語句を多く用いる、不評の評価をする際、「アンバランス」という語句はどちらかといえば「男性」が多く用いる、といった、印象表現と属性との関係を傾向として把握することができる。
【0152】
(FAQ作成支援)
表15は行の分類項目を顧客からの問合せ文をクラスタリングした際のクラスタ名である「クラスタ1(問合せ)」、「クラスタ2(問合せ)」とし、列の分類項目を問合せ文に対する回答文をクラスタリングした際のクラスタ名である「クラスタA(回答)」、「クラスタB(回答)」とした場合のマトリクスである。問合せ文および回答文は、電子メールや葉書に記載された文章や、電話における音声を文書化したものなどである。行および列に表示させるクラスタの数は同一としてよい。このマトリクスの目的は問合せに対する回答のばらつきや、回答に対する問合せのばらつきを把握する点にある。
【0153】
【表15】
【0154】
ここで数値1として例えば、「クラスタ1(問合せ)」に属する文書集合の文書数n1のうち、「クラスタA(回答)」に属する文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この値は問合せの内容に対する回答の内容のばらつきを表す。一方、数値1として例えば「クラスタA(回答)」に属する文書集合の文書数nAのうち、「クラスタ1(問合せ)」に属する文書集合の文書数nA_1の割合、すなわちnA_1/nAなる値を表示してもよい。この値は回答の内容に対する問合せの内容のばらつきを表す。なおユーザがマトリクス表示領域51をクリックすることによりこれらの数値を切替えて表示するようにしてもよい。
【0155】
例えばある問合せに対して回答の内容のばらつきが大きい場合、そのような問合せに対する回答基準を明確化する必要がある。このように問合せの内容に対する回答の内容のばらつきをマトリクス表示することにより、回答する側の改善点を把握することができる。また、回答の内容に対する問合せの内容のばらつきをマトリクス表示することにより、問合せ者と回答者の用いる用語のばらつきを把握したり、よくある回答からFAQを作成するために回答の類似性を把握したりすることができる。
【0156】
(FAQ検索文時系列分析)
表16は行の分類項目をFAQ検索において質問者が入力した検索文である「検索文1」、「検索文2」とし、列の分類項目を入力された時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。ここで検索文とは目的のドキュメントを検索するためにFAQ検索システムにおいて入力された、「郵便番号」といった検索文字列、あるいは「7桁の郵便番号について知りたい」といった文章のことである。表16に表示する検索文は頻度が上位のものとし、表示させる数はあらかじめ設定しておく。このマトリクスの目的は、FAQ検索において入力された検索文の経時変化を把握する点にある。
【0157】
【表16】
【0158】
ここで数値1として例えば、全期間における「検索文1」の入力件数n1に対する、「時系列単位A」に入力された「検索文1」の入力件数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この数値により、ある検索文の入力頻度が高い時期などを特定できる。一方、数値1として例えば「時系列単位A」に入力された検索文の入力件数nAにおける「検索文1」の入力件数nA_1の割合、すなわちnA_1/nAなる値を表示してもよい。この数値により、ある期間において入力件数の多い検索文などを特定できる。なおユーザがマトリクス表示領域51をクリックすることによりこれらの数値を切替えて表示するようにしてもよい。
【0159】
また行の分類項目は検索文そのものでもよいし、検索文から抽出した語句別に分類項目としてもよい。このようなマトリクスを表示することにより、例えば問合せが増加している検索文について把握でき、当該問合せに対応するコンテンツを拡充させたり商品の問題点を抽出したり、といった改善に向けた対策を迅速に立てることができる。
【0160】
行の分類項目を質問文から抽出された語句として同様のマトリクスを表示してもよい。ここで質問文とはFAQに含まれる質問、すなわち“よくある質問”のことであり、例えば「印刷でエラーが発生した」といった文章である。このような文章に対し語句抽出処理を行い抽出された語句によって分類を行う。上記の文章では例えば「印刷」、「エラー」、「発生」という語句が抽出される。語句の抽出処理は情報表示装置10の外部の装置が行ってもよく、その場合は抽出された語句を文書および属性と関連づけて記憶部12に記憶しておく。行の分類項目を質問文から抽出された語句とした場合も、検索文と同様の効果を得ることができる。
【0161】
(FAQ検索文のカテゴリ分析)
表17は行の分類項目をFAQ検索において質問者が入力した検索文である「検索文1」、「検索文2」とし、列の分類項目を検索文に対応するカテゴリ名である「カテゴリA」、「カテゴリB」とした場合のマトリクスである。このマトリクスの目的は、FAQ検索において入力された検索文をカテゴリごとの割合として把握する点にある。カテゴリは、作成されたFAQに付与される項目についての情報であり、例えばプリンタについてのFAQであれば「用紙設定・印刷」や「はがき」などである。検索文の入力時にカテゴリの指定を行うことにより、検索文とカテゴリとを関連付けて記憶しておくこともできる。
【0162】
【表17】
【0163】
ここで数値1として例えば、「検索文1」の全入力件数n1のうち、「カテゴリA」に属する「検索文1」の入力件数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。また行の分類項目は検索文そのものでもよいし、検索文から抽出した語句別に分類項目としてもよい。このようなマトリクスを表示することにより、同じ検索文でも分類される割合の高くなりやすいカテゴリを特定したり、複数のカテゴリに対する分布が類似する検索文を特定したりできる。例えばコンピュータに関する検索において複数のカテゴリで用いられる「ドライバ」なる検索文が、「機種」や「OS」といったカテゴリのうちどのカテゴリで検索されることが多いか、などの傾向を把握することができる。
【0164】
なお(分類結果の時系列分析)と同様、あらかじめ各カテゴリを社内の部門に割り当て、ユーザが行の分類項目表示領域55をクリックした際に、各カテゴリが属する部門別に集計し直したマトリクスを表示するようにしてもよい。
【0165】
(FAQ質問文語句のカテゴリ分布把握)
表18は行の分類項目をFAQの質問文から抽出された語句である「質問文の語句1」、「質問文の語句2」とし、列の分類項目を質問文に対応するカテゴリ名である「カテゴリA」、「カテゴリB」とした場合のマトリクスである。このマトリクスの目的は、質問文に含まれる語句がどのようなカテゴリに分布しているかを把握する点にある。
【0166】
【表18】
【0167】
ここで数値1として例えば、「質問文の語句1」を含む質問文の数n1のうち、「カテゴリA」に属する質問文の数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。このようなマトリクスを表示することにより、質問文に含まれる語句のカテゴリに対する分布を把握することができる。例えばあるカテゴリにのみ属している質問文の語句は、カテゴリを特徴づける語句である可能性が高い。したがってFAQの作成する際、当該語句を含む質問文に付与するカテゴリの決定に有用な情報となる。
【0168】
また2、3個のカテゴリに分布し、そのうち1つのカテゴリに属する割合が極端に高い語句があった場合、分布割合の低いカテゴリに属する質問文は、誤ったカテゴリが付与されている可能性がある。またカテゴリの内容と直接関係ないにも関わらずその語句を使用している質問文である可能性もある。このような観点からこのマトリクス表示は、作成済みのFAQにおいて付与されているカテゴリが正確かどうかを判断するための材料となる。
【0169】
さらに複数のカテゴリに比較的均等に分布し、かつカテゴリ名にもなっている語句がある場合は、作成済みのFAQにおいてカテゴリの構成に問題がある可能性が考えられる。例えば質問文「印刷時にエラーが出ます」が「印刷」カテゴリに属し、質問文「アップグレード時にエラーが出ます」が「アップグレード」カテゴリに属し、質問文「予期せぬエラーが発生しました、といわれる」が「エラー」カテゴリに属している場合、複数のカテゴリで「エラー」なる語句が使用されているにも関わらず、「エラー」というカテゴリが存在している。このような場合はカテゴリの構成に問題がある可能性が高い。マトリクスを表示することにより以上述べたような問題点の洗い出しを容易に行うことができる。
【0170】
(FAQカテゴリ数の時系列分析)
表19は行の分類項目をFAQの質問文に対応するカテゴリ名である「カテゴリ1」、「カテゴリ2」とし、列の分類項目を、質問文を作成した時系列単位である「時系列単位A」、「時系列単位B」、「時系列単位C」とした場合のマトリクスである。このマトリクスの目的は、質問文の数の経時変化をカテゴリごとに把握する点にある。
【0171】
【表19】
【0172】
ここで数値1として例えば、「カテゴリ1」に属する質問文のうち「時系列単位A」に作成された質問文の数nA_1を表示する。数値2〜6も同様である。あるいは、時系列単位Bに作成された質問文に関する数値2および5、および時系列単位Cに作成された質問文に関する数値3および6を、時系列単位Aに作成された質問文の数である数値1および4からの変化量または変化の割合としてもよい。例えば「カテゴリ1」に属する質問文のうち「時系列単位A」に作成された質問文の数をnA_1、「時系列単位B」に作成された質問文の数をnB_1とすると、数値2を変化量nB_1−nA_1あるいは変化の割合nB_1/nA_1とする。図3に示したマトリクスのように、ドットの色と大きさによって変化の割合と絶対値とを同時に表示するようにしてもよい。
【0173】
このようなマトリクスを表示することにより、あるカテゴリに属するFAQの件数が急に増加したなどの変化を容易に把握することができ、問題が起こっているカテゴリを発見したりカテゴリ間のバランス調整の必要性を認識したり、というように問題の発生を即座に認識することができる。このような効果をより確実に得るために、変化量や変化の割合にあらかじめしきい値を設定しておき、当該しきい値を超えた時点でユーザに通知を行う機能を設けてもよい。通知は画面にその旨の警告を表示してもよいし、問題となっているカテゴリについてユーザが設定したアドレスに電子メールを自動送信してもよい。
【0174】
(専門知識分析)
表20は行の分類項目を、文書に含まれる専門用語である「専門用語1」、「専門用語2」とし、列の分類項目を、文書を作成した担当者である「担当者A」、「担当者B」とした場合のマトリクスである。ここで専門用語に関する情報は、あらかじめ外部辞書などから記憶部12に記憶させておく。このマトリクスの目的は、問合せに対する回答文や営業日報などで使用している専門用語を、作成者ごとに把握する点にある。
【0175】
【表20】
【0176】
ここで数値1として例えば、全担当者が「専門用語1」を使用した回数n1に対する、「担当者A」が「専門用語1」を使用した回数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。このようなマトリクスを表示することにより、各担当者が有する専門知識のレベルや得意分野、苦手分野を把握でき、担当者教育や担当変更などを効率的に行うことができる。
【0177】
以上のべた本実施の形態によれば、文書集合をユーザが指定した様々な手法で分類し、分類結果に関する情報をマトリクス上のドットで表示することにより視覚化する。これにより、高度な分類手法を用いた場合でも、分類結果の相関関係を1つの画面で直感的に把握することができる。またマトリクスの行や列をなす分類項目は、一覧表示からのドラッグアンドドロップなどの簡単な操作で設定するため、異なる分類項目によるマトリクスを次々表示させて傾向を比較することによる知見を得ることができる。1つのマトリクスは2次元の情報であるが、複数のマトリクスを比較していくことができると多次元解析が実現され、得られる情報量が格段に増加する。
【0178】
さらに膨大なデータベースを処理対象としても、文書に適した分類項目を選択することができるため、効率のよい分類処理が可能となり、最終的に所望の文書を取得するまでの絞込みを効率よく行える。また文書の属性の有無や形式などに関わらずどのような文書でも処理が可能なため、文書の検索や商品の分析などに幅広く利用できるほか、分類処理自体の妥当性をチェックするなどシステム自身の調整も行うことができる。各用途において得られる多様な効果は上述したとおりである。
【0179】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【図面の簡単な説明】
【0180】
【図1】本実施の形態における検索システムの全体的な構成を示す図である。
【図2】本実施の形態において表示部に表示されるマトリクスの例を示す図である。
【図3】本実施の形態において表示部に表示されるマトリクスの別の例を示す図である。
【図4】本実施の形態における情報表示装置によるマトリクス表示の処理手順を示すフローチャートである。
【図5】本実施の形態において表示部に表示される画面の構成例を示す図である。
【図6】本実施の形態において行の分類項目が階層構造を有するときにマトリクス表示領域に表示されるマトリクスの例を示す図である。
【図7】本実施の形態において対角化ソートを行う様子を模式的に示す図である。
【図8】本実施の形態において文書集合に係る情報を表示した際の画面の構成例を示す図である。
【図9】本実施の形態において文書の本文を表示した際の画面の構成例を示す図である。
【図10】本実施の形態のアフェクト度時系列分析において文書の本文を表示した際の画面の構成例を示す図である。
【図11】本実施の形態のアフェクト度時系列分析において選択した名詞句を含む評価フレーズの出現数およびアフェクト度を一覧表示した際の画面の構成例を示す図である。
【図12】本実施の形態のアフェクト度時系列分析において文書の本文を表示した際の画面の構成例を示す図である。
【図13】本実施の形態のアフェクト度属性分析において表示されるマトリクスの例を示す図である。
【符号の説明】
【0181】
10 情報表示装置、 12 記憶部、 14 分類処理部、 16 マトリクス生成部、 18 表示部、 20 入力部、 22 マトリクス表示部、 50 マトリクス、 51 マトリクス表示領域、 52 列の分類項目欄、 54 行の分類項目欄、 56 図形表示欄、60 マトリクス表示画面、 62 分類項目選択領域、 66 文書集合指定領域、 67 ソート指示ボタン、 68 絞込み指示ボタン、 80 横方向ガイド線、 82 縦方向ガイド線、 84 縦方向情報表示領域、 86 横方向情報表示領域。
【特許請求の範囲】
【請求項1】
複数の文書を記憶する記憶部と、
前記記憶部が記憶した複数の文書を、第1の分類手法および第2の分類手法で分類することにより2系列の文書集合群を形成する分類処理部と、
前記分類処理部が実施した前記第1の分類手法および第2の分類手法による分類結果の相関関係を、前記2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、
を備えたことを特徴とする情報表示装置。
【請求項2】
複数の分類手法の一覧を表示し、当該一覧から前記第1の分類手法および第2の分類手法を選択するユーザからの入力を受け付ける表示部をさらに備えたことを特徴とする請求項1に記載の情報表示装置。
【請求項3】
前記マトリクス表示部は、前記積集合に含まれる文書の数、および当該文書の数の割合のいずれかを、前記図形の色の変化によって表現することを特徴とする請求項1または2に記載の情報表示装置。
【請求項4】
前記マトリクス表示部は、前記積集合のうち、所定の列に属する各積集合に含まれる文書の数を基準としたときの、各行に属する積集合に含まれる文書の数の変化量に係る数値を前記図形の色の変化によって表現することを特徴とする請求項1または2に記載の情報表示装置。
【請求項5】
前記分類処理部は、文書に含まれる語句の類似性に基づく所定のクラスタリング手法に則り前記記憶部が記憶した複数の文書を分類し、
前記第1の分類手法および前記第2の分類手法の少なくともいずれかは前記分類処理部が実施したクラスタリング手法であり、
前記マトリクス表示部は、前記分類処理部がクラスタリングの実施に際し各文書から抽出した語句から所定の基準により選択した代表語句を分類項目として前記2次元マトリクスの見出しに表示することを特徴とする請求項1または2に記載の情報表示装置。
【請求項6】
前記第1の分類手法と前記第2の分類手法はいずれも、前記分類処理部が実施した同一のクラスタリング手法であり、
前記マトリクス表示部は、ある分類項目に属する文書集合から抽出した語句から所定の基準により選択した代表語句を少なくとも1つ含む、別の分類項目に属する文書集合の割合を、前記図形で表現することを特徴とする請求項5に記載の情報表示装置。
【請求項7】
前記記憶部は、あらかじめ設定された固定分類項目をさらに記憶し、
前記分類処理部は前記記憶部が記憶した前記複数の文書を、前記固定分類項目へ分類し、
前記第1の分類手法および前記第2の分類手法はいずれも、前記分類処理部が実施した前記固定分類項目への分類であり、
前記マトリクス表示部は、各固定分類項目に属する文書集合から抽出された語句を用いて算出した、前記固定分類項目の組み合わせごとの類似度を前記図形で表現することを特徴とする請求項1または2に記載の情報表示装置。
【請求項8】
前記第1の分類手法および第2の分類手法のうちいずれかは分類項目が階層構造をなす分類手法であり、
前記分類処理部は前記分類項目の各階層に対応した分類を実施し、
前記マトリクス表示部は、ユーザの選択指示により前記分類項目の階層に対応した分類結果を表す前記2次元マトリクスを切替えて表示することを特徴とする請求項1または2に記載の情報表示装置。
【請求項9】
前記マトリクス表示部は、前記積集合に係る数値が前記2次元マトリクスの対角線において最大となるように、前記2次元マトリクスにおける各分類項目の表示順を決定することを特徴とする請求項1または2に記載の情報表示装置。
【請求項10】
前記マトリクス表示部は、ユーザにより選択された前記2次元マトリクス上の領域に表示された図形が表す数値情報、および前記領域の行および列に対応する分類項目に係る情報の少なくとも1つをテキスト形式でさらに表示することを特徴とする請求項1または2に記載の情報表示装置。
【請求項11】
前記マトリクス表示部は、ユーザにより選択された前記2次元マトリクス上の領域に表示された図形に対応する前記積集合に含まれる文書をテキスト形式でさらに表示することを特徴とする請求項1または2に記載の情報表示装置。
【請求項12】
複数の文書を記憶する記憶部と、
前記記憶部が記憶した複数の文書を所定の分類手法で分類することにより複数の文書集合を形成する分類処理部と、
前記分類処理部が分類した各文書集合から抽出された語句の出現数、または語句の組み合わせの出現数に基づき当該語句に係る数値情報を算出し、前記分類処理部が実施した分類の結果と前記語句に係る数値情報との相関関係を、前記語句に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、
を備えたことを特徴とする情報表示装置。
【請求項13】
前記記憶部は、所定の印象表現語と各印象表現語が表す評価の度合いを示す数値とを関連付けたデータをさらに記憶し、
前記マトリクス表示部は、各文書集合から抽出された前記印象表現語を含むフレーズに含まれる被修飾名詞句ごとに、当該被修飾名詞句に対する評価の度合いを前記データに基づき算出して前記所定の図形で表現することを特徴とする請求項12に記載の情報表示装置。
【請求項14】
複数の文書を分類する第1の分類手法および第2の分類手法の選択入力をユーザより受け付けるステップと、
選択された第1の分類手法および第2の分類手法で前記複数の文書を分類し、2系列の文書集合群を形成するステップと、
前記第1の分類手法および第2の分類手法による分類結果の相関関係を、前記2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するステップと、
を含むことを特徴とする情報表示方法。
【請求項15】
前記数値情報の種類の選択入力をユーザより受け付けるステップをさらに含むことを特徴とする請求項14に記載の情報表示方法。
【請求項16】
前記表示するステップの後、前記第1の分類手法および第2の分類手法、および前記数値情報の種類のいずれかの選択入力を新たに受け付けた際、当該選択入力に応じた2次元マトリクスへ表示を切替えるステップをさらに含むことを特徴とする請求項15に記載の情報表示方法。
【請求項17】
複数の文書を分類する第1の分類手法および第2の分類手法の選択入力をユーザより受け付ける機能と、
選択された第1の分類手法および第2の分類手法で前記複数の文書を分類し、2系列の文書集合群を形成する機能と、
前記第1の分類手法および第2の分類手法による分類結果の相関関係を、前記2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
【請求項1】
複数の文書を記憶する記憶部と、
前記記憶部が記憶した複数の文書を、第1の分類手法および第2の分類手法で分類することにより2系列の文書集合群を形成する分類処理部と、
前記分類処理部が実施した前記第1の分類手法および第2の分類手法による分類結果の相関関係を、前記2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、
を備えたことを特徴とする情報表示装置。
【請求項2】
複数の分類手法の一覧を表示し、当該一覧から前記第1の分類手法および第2の分類手法を選択するユーザからの入力を受け付ける表示部をさらに備えたことを特徴とする請求項1に記載の情報表示装置。
【請求項3】
前記マトリクス表示部は、前記積集合に含まれる文書の数、および当該文書の数の割合のいずれかを、前記図形の色の変化によって表現することを特徴とする請求項1または2に記載の情報表示装置。
【請求項4】
前記マトリクス表示部は、前記積集合のうち、所定の列に属する各積集合に含まれる文書の数を基準としたときの、各行に属する積集合に含まれる文書の数の変化量に係る数値を前記図形の色の変化によって表現することを特徴とする請求項1または2に記載の情報表示装置。
【請求項5】
前記分類処理部は、文書に含まれる語句の類似性に基づく所定のクラスタリング手法に則り前記記憶部が記憶した複数の文書を分類し、
前記第1の分類手法および前記第2の分類手法の少なくともいずれかは前記分類処理部が実施したクラスタリング手法であり、
前記マトリクス表示部は、前記分類処理部がクラスタリングの実施に際し各文書から抽出した語句から所定の基準により選択した代表語句を分類項目として前記2次元マトリクスの見出しに表示することを特徴とする請求項1または2に記載の情報表示装置。
【請求項6】
前記第1の分類手法と前記第2の分類手法はいずれも、前記分類処理部が実施した同一のクラスタリング手法であり、
前記マトリクス表示部は、ある分類項目に属する文書集合から抽出した語句から所定の基準により選択した代表語句を少なくとも1つ含む、別の分類項目に属する文書集合の割合を、前記図形で表現することを特徴とする請求項5に記載の情報表示装置。
【請求項7】
前記記憶部は、あらかじめ設定された固定分類項目をさらに記憶し、
前記分類処理部は前記記憶部が記憶した前記複数の文書を、前記固定分類項目へ分類し、
前記第1の分類手法および前記第2の分類手法はいずれも、前記分類処理部が実施した前記固定分類項目への分類であり、
前記マトリクス表示部は、各固定分類項目に属する文書集合から抽出された語句を用いて算出した、前記固定分類項目の組み合わせごとの類似度を前記図形で表現することを特徴とする請求項1または2に記載の情報表示装置。
【請求項8】
前記第1の分類手法および第2の分類手法のうちいずれかは分類項目が階層構造をなす分類手法であり、
前記分類処理部は前記分類項目の各階層に対応した分類を実施し、
前記マトリクス表示部は、ユーザの選択指示により前記分類項目の階層に対応した分類結果を表す前記2次元マトリクスを切替えて表示することを特徴とする請求項1または2に記載の情報表示装置。
【請求項9】
前記マトリクス表示部は、前記積集合に係る数値が前記2次元マトリクスの対角線において最大となるように、前記2次元マトリクスにおける各分類項目の表示順を決定することを特徴とする請求項1または2に記載の情報表示装置。
【請求項10】
前記マトリクス表示部は、ユーザにより選択された前記2次元マトリクス上の領域に表示された図形が表す数値情報、および前記領域の行および列に対応する分類項目に係る情報の少なくとも1つをテキスト形式でさらに表示することを特徴とする請求項1または2に記載の情報表示装置。
【請求項11】
前記マトリクス表示部は、ユーザにより選択された前記2次元マトリクス上の領域に表示された図形に対応する前記積集合に含まれる文書をテキスト形式でさらに表示することを特徴とする請求項1または2に記載の情報表示装置。
【請求項12】
複数の文書を記憶する記憶部と、
前記記憶部が記憶した複数の文書を所定の分類手法で分類することにより複数の文書集合を形成する分類処理部と、
前記分類処理部が分類した各文書集合から抽出された語句の出現数、または語句の組み合わせの出現数に基づき当該語句に係る数値情報を算出し、前記分類処理部が実施した分類の結果と前記語句に係る数値情報との相関関係を、前記語句に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、
を備えたことを特徴とする情報表示装置。
【請求項13】
前記記憶部は、所定の印象表現語と各印象表現語が表す評価の度合いを示す数値とを関連付けたデータをさらに記憶し、
前記マトリクス表示部は、各文書集合から抽出された前記印象表現語を含むフレーズに含まれる被修飾名詞句ごとに、当該被修飾名詞句に対する評価の度合いを前記データに基づき算出して前記所定の図形で表現することを特徴とする請求項12に記載の情報表示装置。
【請求項14】
複数の文書を分類する第1の分類手法および第2の分類手法の選択入力をユーザより受け付けるステップと、
選択された第1の分類手法および第2の分類手法で前記複数の文書を分類し、2系列の文書集合群を形成するステップと、
前記第1の分類手法および第2の分類手法による分類結果の相関関係を、前記2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するステップと、
を含むことを特徴とする情報表示方法。
【請求項15】
前記数値情報の種類の選択入力をユーザより受け付けるステップをさらに含むことを特徴とする請求項14に記載の情報表示方法。
【請求項16】
前記表示するステップの後、前記第1の分類手法および第2の分類手法、および前記数値情報の種類のいずれかの選択入力を新たに受け付けた際、当該選択入力に応じた2次元マトリクスへ表示を切替えるステップをさらに含むことを特徴とする請求項15に記載の情報表示方法。
【請求項17】
複数の文書を分類する第1の分類手法および第2の分類手法の選択入力をユーザより受け付ける機能と、
選択された第1の分類手法および第2の分類手法で前記複数の文書を分類し、2系列の文書集合群を形成する機能と、
前記第1の分類手法および第2の分類手法による分類結果の相関関係を、前記2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2008−84151(P2008−84151A)
【公開日】平成20年4月10日(2008.4.10)
【国際特許分類】
【出願番号】特願2006−265319(P2006−265319)
【出願日】平成18年9月28日(2006.9.28)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】
【公開日】平成20年4月10日(2008.4.10)
【国際特許分類】
【出願日】平成18年9月28日(2006.9.28)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】
[ Back to top ]