文書分析装置およびプログラム
【課題】着目すべき分類軸や分類項目を容易に選択可能にする。
【解決手段】一つの実施形態の文書分析装置は、クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する分類軸候補生成部4と、クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する分類項目候補生成部5とを具備する。
【解決手段】一つの実施形態の文書分析装置は、クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する分類軸候補生成部4と、クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する分類項目候補生成部5とを具備する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文書分析装置およびプログラムに関する。
【背景技術】
【0002】
近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された文書が計算機システムに大量に記憶管理されて利用可能になっている。ここでいう文書とは、例えば、帳票、企画書、設計書、議事録といった業務文書や、学会論文、製品マニュアル、特許などの技術文書、さらには、ニュース記事、電子メール、ウェブページといった、ネットワーク上で共有されている文書などを指す。
【0003】
このような大量の文書を未整理の状態で計算機のファイルシステムやデータベースに記憶した場合、文書の内容と記憶場所が不明となり、文書内の情報が利用できなくなる可能性が生じてしまう。このため、計算機システムにおいては、文書を内容や用途に応じて分類・整理することにより、情報の有効活用や共有の促進が図られている。また、分類した大量の文書を分析・調査して、内容の傾向を把握し、新たな知見を得るための文書分析技術が開発されている。
【0004】
このような文書分析技術としては、例えば、クロス集計が知られている。クロス集計においては、2つの分類軸を選び、各分類軸の分類項目である各カテゴリに属する文書の積集合(すなわち両カテゴリに分類されている文書集合)を求め、積集合の文書数をマトリックス状に表示する。このようなクロス集計によれば、文書集合の傾向を把握し、各カテゴリの相関関係などの知見を得ることが可能となる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2003−345811号公報
【特許文献2】特開2004−86350号公報
【特許文献3】特開2008−84151号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら以上のような文書分析技術は、クロス集計で選択可能な分類軸が多数ある場合や、各分類軸の分類項目の個数や段数が多い場合には、有用な知見が得られるような着目すべき分類軸や分類項目を選択することが困難となってしまう。
【0007】
これに対し、試行錯誤的に全ての分類軸と分類項目の組み合わせを表示するとしても、時間と労力がかかる上、重要な情報を見落とす可能性がある。
【0008】
本発明の実施形態は、着目すべき分類軸や分類項目を容易に選択し得る文書分析装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
実施形態の文書分析装置は、文書記憶部、カテゴリ記憶部、カテゴリ表示操作部、分類軸候補生成部、分類項目補生成部およびクロス集計部を具備している。
【0010】
文書記憶部は、複数の文書を記憶している。
【0011】
カテゴリ記憶部は、文書を分類する複数のカテゴリおよびその階層構造を記憶している。
【0012】
カテゴリ表示操作部は、カテゴリおよびその階層構造をユーザに提示し、かつ、カテゴリに対するユーザの操作を受け付ける。
【0013】
クロス集計部は、第1分類軸および第2分類軸の各分類項目である複数のカテゴリを対象として、第1分類軸の分類項目のカテゴリと、第2分類軸の分類項目のカテゴリの、両方に分類されている文書の個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行する。
【0014】
分類軸候補生成部は、クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する。
【0015】
分類項目候補生成部は、クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する。
【0016】
このような文書分析装置は、カテゴリ表示操作部を用いてユーザが選択した1つのカテゴリを、クロス集計の対象の第1分類軸とし、当該第1分類軸のカテゴリに対して分類軸候補生成部を用いて生成した第2分類軸の候補のうち、カテゴリ表示操作部を用いてユーザが選択したカテゴリを第2分類軸とし、当該第1分類軸および第2分類軸のカテゴリに対して分類項目候補生成部を用いて生成した分類項目の候補のうち、カテゴリ表示操作部を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、クロス集計部を用いてクロス集計を実行し、その結果を、カテゴリ表示操作部を用いてユーザに提示する。
【図面の簡単な説明】
【0017】
【図1】実施形態に係る文書分析装置の構成を表すブロック図である。
【図2】同実施形態における文書記憶部内の文書の例を表す模式図である。
【図3】同実施形態におけるカテゴリ記憶部内のカテゴリの例を表す模式図である。
【図4】同実施形態における動作を説明するためのフローチャートである。
【図5】同実施形態における動作を説明するためのフローチャートである。
【図6】同実施形態におけるステップS9の動作を説明するためのフローチャートである。
【図7】同実施形態におけるステップS13の動作を説明するためのフローチャートである。
【図8】同実施形態におけるステップS13の動作を説明するためのフローチャートである。
【図9】同実施形態におけるステップS15の動作を説明するためのフローチャートである。
【図10】同実施形態におけるカテゴリの階層構造と分類軸の候補の表示例を表す模式図である。
【図11】同実施形態におけるカテゴリの階層構造と分類項目の候補の表示例、および、クロス集計の結果の表示例を表す模式図である。
【図12】同実施形態におけるカテゴリの階層構造と分類項目の候補の表示例、および、クロス集計の結果の表示例を表す模式図である。
【図13】同実施形態における文書分析装置の変形構成を表すブロック図である。
【発明を実施するための形態】
【0018】
以下、図面を参照して、実施形態について説明する。
図1は実施形態に係る文書分析装置の構成を表すブロック図である。この文書分析装置は、文書記憶部1、カテゴリ記憶部2、カテゴリ表示操作部3、分類軸候補生成部4、分類項目候補生成部5およびクロス集計部6を具備している。なお、文書分析装置は、ハードウェア構成、または各記憶部1,2やCPU等のハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワークまたは記憶媒体から文書分析装置のコンピュータにインストールされ、各部3〜6の機能を実現させるためのプログラムが用いられる。
【0019】
ここで、文書記憶部1は、文書分析装置が分析の対象とする複数の文書のデータを記憶する手段である。本実施形態の場合、文書は、階層構造に構成された複数のカテゴリによって分類されており、文書分析装置では、このカテゴリを対象にクロス集計を行う。各文書は、図2に特許文書の例を示すように、文書番号21、文書名22、本文23、出願人24および出願日25といったデータをもっている。文書番号21は、文書分析装置が文書を特定するためのユニークなデータである。文書名22および本文23は、文書毎に記述されたテキストデータである。出願人24および出願日25は、特許文書の例における属性データである。また、文書記憶部1は、文書全体を記憶する場合に限らず、文書の一部の情報や、文書データベースにアクセスするためのポインタ、インデックス情報、URLを記憶する記憶部として実現してもよく、また、文書を一時的に記憶するバッファのような記憶部として実現してもよい。
【0020】
カテゴリ記憶部2は、文書を分類する複数のカテゴリとその階層構造のデータを記憶する手段である。文書記憶部1およびカテゴリ記憶部2としては、例えば、一般的な計算機の記憶手段であるファイルシステムやデータベースなどを用いて実現可能となっている。
【0021】
ここで、カテゴリ記憶部2に記憶される各カテゴリについて図3の例により具体的に説明する。図3(a)から図3(f)は、後述する図10で示したカテゴリの階層構造を構成する複数のカテゴリの一部を示している。
【0022】
各カテゴリは、文書分析装置がカテゴリを特定するためのユニークなデータである、カテゴリ番号301を持つ。また、各カテゴリは、カテゴリの階層構造を表現するためのデータとして、親カテゴリのデータを持つ。図3(a)に示すカテゴリは、階層構造の最上位(ルート)に位置するカテゴリのため、その親カテゴリ302は「(なし)」となる。
【0023】
図3(b)に示すカテゴリ(カテゴリ番号「c02」)の親カテゴリ312は、カテゴリ番号「c01」のカテゴリ(すなわち図3(a)に示したカテゴリ)である。言い換えれば、図3(a)に示したカテゴリ(カテゴリ番号「c01」)の子カテゴリの1つが、図3(b)に示したカテゴリ(カテゴリ番号「c02」)である。
【0024】
以下の説明では、あるカテゴリの直接の親に位置するカテゴリを親カテゴリと呼び、直接の子に位置するカテゴリを子カテゴリと呼ぶ。あるカテゴリの直接または間接の親(祖先)に位置するカテゴリを、総じて上位カテゴリと呼び、逆に、あるカテゴリの直接または間接の子(子孫)に位置するカテゴリを、総じて下位カテゴリと呼ぶこととする。
【0025】
各カテゴリは、その内容をユーザに示すためのデータとして、カテゴリ名(「出願人別」313や「A社」323等)を持つ。また、各カテゴリは、当該各カテゴリに分類されている文書を表すためのデータとして、文書324に示したように、複数の文書番号を列挙している。
【0026】
但し、カテゴリの目的や内容によっては、文書番号を明示的に列挙するという方法をとらずに、当該カテゴリに分類される文書が満たすべき条件として、例えば「出願人=“A社”」325といった条件を記述するようにしてもよい。このような条件により、例えば図2に示した文書番号「d23」、すなわち、「出願人」が「A社」24である文書が、図3(c)のカテゴリ(カテゴリ番号「c04」)に分類されることとなる。
【0027】
なお、図3(a)、図3(b)および図3(d)などでは、カテゴリに分類されている文書は「(なし)」となっている。この「(なし)」は、当該カテゴリに直接分類されている文書がないという意味であり、下位カテゴリを介して間接的に分類されている文書は存在し得る。例えば、図3(a)のカテゴリに間接的に分類されている文書は、その全ての下位カテゴリに分類されている文書の和集合となる。
【0028】
カテゴリ表示操作部3は、カテゴリ記憶部2に記憶されているカテゴリおよびその階層構造をユーザに提示するとともに、これに対するユーザの操作を受け付ける手段であり、例えば、従来のソフトウェアにおいてグラフィカル・ユーザ・インタフェースと称される技術によって実現してもよい。このカテゴリ表示操作部3により、後述する図10のようなカテゴリの階層構造が表示されるとともに、この表示上でユーザによる選択操作が行われる。
【0029】
分類軸候補生成部4は、クロス集計部6の対象とすべき2つの分類軸として適切なカテゴリの候補を自動的に生成する手段であって、具体的には、クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する手段である。
【0030】
分類項目候補生成部5は、2つの分類軸における各分類項目として適切なカテゴリの候補を自動的に生成する手段であって、具体的には、クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する手段である。
【0031】
なお、後述する図11(b)は、クロス集計の結果を表す図であるが、このような分析結果を得るためには、まず、クロス集計の対象として、2つの分類軸(図11(b)の例では、「出願人別」1110と「機械翻訳」1111の分類軸)を選択し、さらに、各分類軸の分類項目(図11(b)の例では、「A社」1112等と、「辞書/シソーラス」1116等の分類項目)を選択する必要がある。これら分類軸候補生成部4および分類項目候補生成部5は、ともに、ユーザが、有用な分析結果を容易に得ることができるように支援する手段である。
【0032】
クロス集計部6は、2つの分類軸と分類項目を対象として、実際にクロス集計を実行する手段であり、その結果は、カテゴリ表示操作部3によってユーザに提示される。具体的には、クロス集計部6は、第1分類軸および第2分類軸の各分類項目である複数のカテゴリを対象として、第1分類軸の分類項目のカテゴリと、第2分類軸の分類項目のカテゴリの、両方に分類されている文書の個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行する手段である。
【0033】
次に、以上のように構成された文書分析装置の動作を図4乃至図12を参照しながら説明する。図4および図5は、文書分析装置と、これを操作するユーザによって行われる、クロス集計の対象の選択と、クロス集計の実行の全体動作を説明するためのフローチャートである。図6乃至図9は全体動作の一部を詳細に説明するためのフローチャートである。
【0034】
一方、図10、図11、図12は、ユーザに提示される画面の例を示す模式図である。図10、図11(a)、図12(a)は、分析の対象であるカテゴリの階層構造を表示し、かつ、これに対するユーザの操作を受け付ける画面例を示し、図11(b)と図12(b)には、クロス集計の結果の画面例を示している。
【0035】
始めに、図4および図5のフローチャートに沿って文書分析装置の動作を、図10、図11、図12で示した画面例を参照しながら説明し、続いて、全体動作の一部を図6乃至図9を用いて詳細に説明する。
【0036】
文書分析装置においては、クロス集計の対象とする分類軸を2つとした場合、分類軸候補生成部4および分類項目候補生成部5の初期状態として、分類軸の一方である第1分類軸のカテゴリをp1=(なし)とし、当該第1分類軸の分類項目のカテゴリ集合をC1=(空)とする。同様に、他方の第2分類軸のカテゴリをp2=(なし)とし、当該第2分類軸の分類項目のカテゴリ集合をC2=(空)とする(ステップS1)。以下、文書分析装置は、これらp1、C1、p2、C2を決定する処理を、ステップS2からS13までの処理で行う。
【0037】
カテゴリ表示操作部3は、ユーザの操作によって第1分類軸に相当するカテゴリp1が選択されると(ステップS2−YES)、次に、カテゴリp1の下位カテゴリのうち、第1分類軸の分類項目とするカテゴリ集合C1の選択をユーザより受け付ける(ステップS3−YES)。ステップS2にて、ユーザによってカテゴリp1が選択されない場合(ステップS2−NOの場合)には、クロス集計を行わずに処理を終了する。
【0038】
ステップS3の後、カテゴリ表示操作部3は、ユーザの操作に従い、カテゴリ集合C1のカテゴリの追加または削除を行う(ステップS4)。この段階では、ユーザは、カテゴリ集合C1の全てのカテゴリを選択する必要はなく、1つのカテゴリも選択されない状態(C1が空集合)であってもよい。また、ステップS4で追加されたカテゴリは、第1分類軸の仮の分類項目と呼んでもよい。
【0039】
ユーザによるカテゴリの選択は、カテゴリ表示操作部3を用いて行われ、例えば、図10の画面例は、第1分類軸に相当するカテゴリp1として「出願人別」1001が選択され、この第1分類軸の分類項目に相当するカテゴリ集合に含めるべきカテゴリの1つとして「A社」1002が、ユーザによって選択されている。
【0040】
この場合のユーザの意図は、文書を「出願人」の観点で分類した結果に着目して、特に「A社」と「A社」以外の出願人とを比較分析することであり、「A社」のカテゴリをクロス集計の対象に含めることが要求されている。なお、図10、図11、図12では、分類軸もしくはその候補のカテゴリを、二重線で囲った矩形とし、分類項目またはその候補のカテゴリを、太線で囲った矩形とする。網掛した矩形は、分類項目または分類軸として、ユーザが明示的に選択したカテゴリを示す。クロス分析の対象の一方の分類軸である第2分類軸についても、第1分類軸と同様にユーザの操作により選択してもよい。
【0041】
すなわち、カテゴリ表示操作部3は、ユーザの操作によって第2分類軸に相当するカテゴリp2が選択されると(ステップS5−YES)、次に、カテゴリp2の下位カテゴリのうち、第2分類軸の分類項目とするカテゴリ集合C2の選択をユーザより受け付ける(ステップS6−YES)。しかる後、カテゴリ表示操作部3は、ユーザの操作に従い、カテゴリ集合C2のカテゴリの追加または削除を行う(ステップS7)。このステップS7で追加されたカテゴリは、第2分類軸の仮の分類項目と呼んでもよい。
【0042】
一方、ステップS5でカテゴリp2の選択が行われず(S5−NO)、カテゴリp2の候補を生成するようにユーザが要求した場合(ステップS8−YES)には、分類軸候補生成部4は、後述する図6の処理によって、第2分類軸のカテゴリとして適切な候補を生成し、カテゴリ表示操作部3によりユーザに提示する(ステップS9)。ユーザはこの提示を受けて、第2分類軸とするカテゴリを再度ステップS5で選択することができる。
【0043】
図10に示したカテゴリ「機械翻訳」1004、「辞書」1005、「情報検索」1006は、分類軸候補生成部4によって提示された候補のカテゴリの例である。カテゴリ表示操作部3は、ユーザが各候補のカテゴリのいずれかを第2分類軸として選択すると、前述のユーザの意図にあったクロス集計を実行できる旨を提示する。具体的には、文書を「技術別」に分類した結果のうち、例えば「機械翻訳」1004に着目してこれを分類軸とし、その下位カテゴリを分類項目としてクロス集計を行うと、「A社」と「A社」以外の出願人について有用な比較分析が行えることをカテゴリ表示操作部3が提示する。
【0044】
図10の画面例で示した提示を受けて、ステップS5にて、ユーザが図10のカテゴリ「機械翻訳」1004を選択した結果の画面例を図11に示す。図11では、「機械翻訳」1106(図10の1004と同じカテゴリ)が第2分類軸として選択されている例を示している。なお、ステップS8において、第2分類軸であるカテゴリp2の候補を生成しない場合、文書分析装置は、ステップS2に戻って第1分類軸の選択から受け付けしなおすことができる。
【0045】
以上の処理によって第1分類軸と第2分類軸が選択されると、次に、カテゴリ表示操作部3は、ユーザの操作に応じて各分類軸の分類項目の選択を受け付ける処理を行う。
【0046】
カテゴリ表示操作部3は、図5に示すように、ユーザの操作により、第1分類軸および第2分類軸のそれぞれの分類項目であるカテゴリ集合C1およびC2とすべきカテゴリが選択されると(ステップS10−YES)、ユーザの操作に従い、カテゴリ集合C1またはC2のカテゴリの追加または削除を行う(ステップS11)。
【0047】
ここで、ユーザがカテゴリ表示操作部3の操作により、分類項目のカテゴリ集合C1またはC2の候補を生成するように要求した場合(ステップS12−YES)、分類項目候補生成部5は、後述する図7および図8の処理によって、各分類軸の分類項目のカテゴリとして適切な候補を生成して、ユーザに提示する(ステップS13)。
【0048】
ここで、図11のカテゴリ「C社」1103、「D社」1104、「X社」1105は、第1分類軸「出願人別」の分類項目C1の候補として提示されたカテゴリである。一方、図11のカテゴリ「シソーラス」1107、「ユーザ辞書」1108、「コーパス」1109は、第2分類軸「機械翻訳」の分類項目C2の候補として提示されたカテゴリである。
【0049】
各分類軸の下にある分類項目(本実施形態の場合は下位カテゴリ)の個数が多く、例えば数百個、数千個といったカテゴリが存在する場合には、全ての分類項目を対象にクロス集計を行っても、ユーザが所望する知見が得られるとは限らない上、クロス集計に多大な計算処理を必要とするとともに、クロス集計の結果が巨大なマトリクスとなってユーザが閲覧し切れなくなる。
【0050】
従って、クロス集計の対象とするカテゴリを適切に取捨選択できるようにすべきであるが、どの分類項目を選択してクロス集計を行えば、有用な知見が得られるかについて、ユーザは知らないことがほとんどである。
【0051】
本実施形態によれば、ユーザは、図11の表示例のような分類項目の候補の提示を受け、この候補をそのまま選択してクロス集計を実行してもよく、必要に応じてステップS10に戻って、再度、カテゴリ集合C1またはC2のカテゴリを選択しなおしてもよい。
【0052】
いずれにしても、クロス集計の対象とするp1、C1、p2、C2のカテゴリがそれぞれ選択され、ユーザの操作によってカテゴリ表示操作部3からクロス集計の実行が要求されると(ステップS14−YES)、クロス集計部6は、これらp1、C1、p2、C2を対象として、後述する図9の処理によって、クロス集計を実行する(ステップS15)。
【0053】
しかる後、カテゴリ表示操作部3は、クロス集計の実行結果をユーザに提示する。
【0054】
例えば、図11(a)で選択された分類軸と、提示された分類項目の候補を、そのまま対象としたクロス集計の実行結果の例を図11(b)に示している。図11(a)の分類軸「出願人別」1101は、図11(b)の横軸「出願人別」1110に対応し、同様に、図11(a)の分類軸「機械翻訳」1106は、図11(b)の縦軸「機械翻訳」1111に対応する。
【0055】
図11(a)の分類項目「A社」1102は、図11(b)の横軸の分類項目「A社」1113に対応し、同様に、図11(a)の分類項目「シソーラス」1107は、図11(b)の縦軸の分類項目「辞書/シソーラス」1116に対応する。
【0056】
このクロス集計の画面例では、バブルチャートを用いて集計結果の文書番号の個数を表現しており、例えば図11(b)の1119は、第1分類軸の分類項目「X社」1115と、第2分類軸の分類項目「コーパス」1118の、両方のカテゴリに分類されている文書の文書番号の個数を、バブル(円)の面積で表したものである。
【0057】
このように、図11(b)で例示したクロス集計の結果を用いることで、ユーザは、「A社」と「A社」以外の出願人同士で比較分析するには、「機械翻訳」の下の「シソーラス」や「コーパス」などの技術に着目すると有用であり、さらにこの場合には、「A社」に加え、「C社」、「D社」、「X社」などの出願人同士で比較すべきである、といった知見が得られる。
【0058】
なお、ステップS14でクロス集計を行わない場合(S14−NO)や、S15にてクロス集計を実行した後は、ステップS2もしくはそれ以降のステップに戻って分類軸および分類項目を選択しなおすこともできる。
【0059】
例えば図12(a)は、図4および図5に示すステップS10にて、第2分類軸の分類項目として、カテゴリ「ルール」1208を選択した場合の画面例を示す。このように分類項目すなわち、カテゴリ集合C1またはC2の一部をユーザが明示的に選択しなおした後、これをもとにステップS13にて再度、カテゴリ集合C1およびC2の候補を生成しなおすことが可能である。
【0060】
図12の例では、カテゴリ「ルール」1208がユーザによって選択され、これを含めるように分類項目の候補を生成した結果、第1分類軸「出願人別」1201に対しては、分類項目「B社」1203が新たな候補として追加され、逆に分類項目「C社」1204は候補から除去される。同様の処理は第2分類軸「機械翻訳」1207に対しても行われ、ユーザが明示的に追加した分類項目「ルール」1208以外にも、分類項目「対訳辞書」1209が新たな候補として追加され、分類項目「ユーザ辞書」1211が候補から除外される。
【0061】
この結果を用いてクロス集計を行った結果を図12(b)に示す。ユーザは、分類項目に対するカテゴリの追加や削除が反映されたクロス集計結果を容易に得ることができる。
【0062】
以上が本実施形態における文書分析装置の動作の説明である。続いて、動作の説明の一部である分類軸候補の生成動作を示すステップS9について図6のフローチャートを用いて詳細に説明する。
【0063】
ステップS9の処理の前提としては、ステップS8以前の処理により、第1分類軸とその分類項目の一部が選択されている。このため、分類軸候補生成部4は、初期状態として、第1分類軸のカテゴリをp1とし、p1の分類項目として現段階で選択されているカテゴリ集合をC1とする。また、カテゴリp1の全ての下位カテゴリをA1とする。ここで、カテゴリ集合C1はA1の部分集合である。さらに、第2分類軸の候補のカテゴリ集合をP2=(空)とする(ステップS9−1)。
【0064】
この第2分類軸の候補のカテゴリ集合P2を求めることがステップS9の処理の目的である。また、第2分類軸として採用され得る全てのカテゴリ集合A2を、カテゴリp1の上位カテゴリまたは下位カテゴリでないカテゴリの集合とする。図10の例では、カテゴリ「出願人別」1001がカテゴリp1であるので、この場合のカテゴリ集合A2は、カテゴリ「技術別」1003およびその全ての下位カテゴリとなる。
【0065】
次に、分類軸候補生成部4は、ステップS9−3の処理を、カテゴリ集合A2中の各カテゴリp2について繰り返し実行する(ステップS9−2)。
【0066】
ステップS9−3においては、分類軸候補生成部4は、(1)式および(2)式に示すように、第1分類軸のカテゴリp1と分類項目の候補のカテゴリ集合C1のもとでの、カテゴリp2のスコアsp(p1,C1,p2)を求める。また、分類軸候補生成部4は、(1)式および(3)式に示すように、第1分類軸のカテゴリp1と分類項目の全候補のカテゴリ集合A1のもとでの、カテゴリp2のスコアsp(p1,A1,p2)を求める。
【数1】
【0067】
スコアの計算式は(1)式乃至(3)式に従うものであり、(1)式にて定義した、上位カテゴリp1とp2のもとでの、カテゴリc1とc2の相互情報量mi(p1,c1,p2,c2)を、カテゴリ集合C1またはA1と、カテゴリp2の全ての下位カテゴリの集合Sub(p2)について加算したものとする。
【0068】
このスコアsp(p1,C1,p2)またはsp(p1,A1,p2)の値が大きいほど、カテゴリp2は、カテゴリp1の下位カテゴリとの相関が大きい下位カテゴリを多く持つとみなすことができ、クロス分析によって有用な知見が得られる可能性の高い分類軸となり得る。逆に、このスコアの値が0に近いほど、カテゴリp1とp2の間の相関は小さく、カテゴリp1の分類項目同士を比較する目的ではカテゴリp2はあまり適切でない。
【0069】
なお、本実施形態ではこのように相互情報量に基づいて分類軸の候補の選定を行うものであるが、この方法に限定せず、分類軸同士の相関の大小を判定できるものであれば、相互情報量以外の統計量を用いることができる。
【0070】
また、相互情報量を用いる場合にも、前述した(1)式を用いる方法の他に、例えば、(1a)式や(1b)式を用いる方法がある。
【数2】
【0071】
なお、前述した(1)式は、カテゴリc1とc2とで重複する文書集合にのみ着目して両カテゴリの相関の大小を判定する数式であった。
【0072】
これに対し(1a)式は、カテゴリc1に属さない文書集合やカテゴリc2に属さない文書集合などにも着目した4つの項を用いて、両カテゴリの相関の大小を判定する数式である。
【0073】
また、(1b)式は、(1)式の対数の項のみを用いて簡略化した数式の例である。一方、相互情報量を用いずに、例えば、T検定の考え方に基づいて求めた量(Tスコア)を用いる方法や、分散分析の考え方に基づいて求めた量を用いる方法もある。
【0074】
例えば、以下の(1c)式にはTスコアを用いる場合の数式の例を示している。このTスコアts(p1,c1,p2,c2)の値を、前述の相互情報量mi(p1,c1,p2,c2)に代えて用い、(2’)式および(3’)式に示すように、前述した(2)式と(3)式の値を計算してもよい。
【数3】
【0075】
なお、(1)式に代えて、(1a)式、(1b)式または(1c)式を用いてもよいことは、後述する(4)式乃至(7)式でも同様である。また、いずれにしても、相関の大きさを算出できる式であれば、任意の式が使用可能となっている。これは、分類軸の候補の生成に限らず、分類項目の候補の生成についても同様である。
【0076】
次に、分類軸候補生成部4は、スコアsp(p1,C1,p2)が0より大きいカテゴリp2を、このスコアが大きい順に最大N個選び、第2分類軸の候補のカテゴリ集合P2に追加する(ステップS9−4)。このステップS9−4により、ユーザによってすでに選択された第1分類軸の分類項目C1に対して適切な第2分類軸の候補が、まず優先的に、最大N個求められる。ここでNは、第2分類軸の候補として採用するカテゴリの個数の上限である。
【0077】
次に、分類軸候補生成部4は、第2分類軸の候補の個数|P2|が上限の個数Nより少なければ(ステップS9−5)、スコアsp(p1,A1,p2)が大きい順に最大N−|P2|個の候補を選択してカテゴリ集合P2に追加し(ステップS9−6)、ステップS9−5で求めた候補と併せて最大N個の候補とする。
【0078】
スコアsp(p1,A1,p2) が大きい分類軸p2は、現在選択されている分類項目のカテゴリ集合C1に関わらず、第1分類軸の下位カテゴリ全体に対して相関の大きい分類軸となる。このようにしてステップS9−4およびS9−6で選択されたカテゴリ集合P2が、第2分類軸の候補として、カテゴリ表示操作部3により、ユーザに提示される。
【0079】
以上が分類軸候補の生成動作を示すステップS9の詳細説明である。続いて、動作の説明の一部である分類項目の候補の生成動作を示すステップS13について図7および図8のフローチャートを用いて詳細に説明する。
【0080】
ステップS13の処理の前提としては、ステップS12以前の処理で、第1分類軸および第2分類軸と、その各々の分類項目の一部が選択されている。このため、分類項目候補生成部5は、初期状態として、第1分類軸のカテゴリをp1とし、p1の分類項目として現段階で選択されているカテゴリ集合をC1とする。同様に、第2分類軸のカテゴリをp2とし、p2の分類項目として現段階で選択されているカテゴリ集合をC2とする。また、カテゴリp1の全ての下位カテゴリの集合をA1とし、同様に、カテゴリp2の全ての下位カテゴリの集合をA2とする(ステップS13−1)。
【0081】
ここで、カテゴリ集合C1はA1の部分集合であり、カテゴリ集合C2はA2の部分集合である。このカテゴリ集合C1とC2を求めることがステップS13の処理の目的である。
【0082】
次に、分類項目候補生成部5は、ステップS13−3の処理をカテゴリ集合A1中の各カテゴリc1について繰り返し実行する(ステップS13−2)。
【0083】
ステップS13−3においては、分類項目候補生成部5は、カテゴリc1のスコアsc(p1,c1,p2,A2)を求める。このスコアの計算式は(1)式および(4)式に従うものであり、(1)式にて定義した、上位カテゴリp1とp2のもとでの、カテゴリc1とc2の相互情報量mi(p1,c1,p2,c2)を、カテゴリ集合A2について加算したものとする。
【数4】
【0084】
このスコアsc(p1,c1,p2,A2)が大きいほど、カテゴリc1は、第2分類軸のカテゴリp2の下位カテゴリとの相関が大きいカテゴリであるとみなすことができ、クロス分析によって有用な知見が得られる可能性の高い分類項目となり得る。
【0085】
次に、分類項目候補生成部5は、ステップS13−2およびS13−3と同様に、(1)式および(5)式に従い、カテゴリ集合A2中の各カテゴリc2について、そのスコアsc(p2,c2,p1,A1)を求める(ステップS13−4,S13−5)。
【数5】
【0086】
次に、分類項目候補生成部5は、カテゴリ集合C1またはC2に、各分類軸の分類項目の候補としてカテゴリを追加することが可能な限り、ステップS13−7からS13−18までの処理を繰り返す(ステップS13−6)。
【0087】
分類項目の候補を追加できなくなる場合とは、カテゴリ集合A1およびA2のカテゴリを全て、カテゴリ集合C1およびC2に追加した場合か、あるいは、カテゴリ集合C1およびC2の個数が、所定の上限に達した場合か、あるいは、分類項目としての適切さ(すなわちスコア)が、所定の値より大きいカテゴリが存在しなくなった場合である。
【0088】
ステップS13−7では、分類項目候補生成部5は、ステップS13−8の処理をカテゴリ集合A1中の各カテゴリc1(ただしすでにカテゴリ集合C1に追加したカテゴリは除く)について繰り返し実行する。
【0089】
ステップS13−8では、分類項目候補生成部5は、(6)式に示すように、カテゴリc1のスコアsc(p1,c1,p2,C2)を求める。
【数6】
【0090】
ステップS13−8の処理は、前述したS13−5と同様の処理であるが、相関を求める第2分類軸の分類項目として、カテゴリ集合A2でなく、現時点で選択されているカテゴリ集合C2を用いる点が異なる。
【0091】
次に、ステップS13−9では、分類項目候補生成部5は、カテゴリ集合C1に含まれず、かつ、スコアsc(p1,c1,p2,C2)が0より大きいカテゴリc1が存在するか否かを判定する。この判定の結果、このようなカテゴリc1が存在する場合、分類項目候補生成部5は、このスコアsc(p1,c1,p2,C2)が最大のカテゴリc1をカテゴリ集合C1に追加する(ステップS13−10)。
【0092】
ステップS13−9の判定の結果、否の場合、分類項目候補生成部5は、カテゴリ集合C1に含まれず、かつ、スコアsc(p1,c1,p2,A2)が0より大きいカテゴリc1が存在するか否かを判定する(ステップS13−11)。この判定の結果、このようなカテゴリc1が存在する場合、分類項目候補生成部5は、このスコアsc(p1,c1,p2,A2)が最大のカテゴリc1をカテゴリ集合C1に追加する(ステップS13−12)。
【0093】
このようなステップS13−7からS13−12までの処理により、第1分類軸の分類項目としてより適切なカテゴリc1が優先的に、カテゴリ集合C1に追加される。
【0094】
以降のS13−13からS13−18までの処理は、前述したステップS13−7からS13−12までの処理と同様の処理を、第2分類軸について行うものである。
【0095】
すなわち、ステップS13−13では、分類項目候補生成部5は、ステップS13−14の処理をカテゴリ集合A2中の各カテゴリc2(ただしすでにカテゴリ集合C2に追加したカテゴリは除く)について繰り返し実行する。
【0096】
ステップS13−14では、分類項目候補生成部5は、(7)式に示すように、カテゴリc2のスコアsc(p2,c2,p1,C1)を求める。
【数7】
【0097】
ステップS13−14の処理は、前述したS13−5と同様の処理であるが、相関を求める第1分類軸の分類項目として、カテゴリ集合A1でなく、現時点で選択されているカテゴリ集合C1を用いる点が異なる。
【0098】
次に、ステップS13−15では、分類項目候補生成部5は、カテゴリ集合C2に含まれず、かつ、スコアsc(p1,c1,p2,C1)が0より大きいカテゴリc2が存在するか否かを判定する。この判定の結果、このようなカテゴリc2が存在する場合、分類項目候補生成部5は、このスコアsc(p1,c1,p2,C1)が最大のカテゴリc2をカテゴリ集合C2に追加する(ステップS13−16)。
【0099】
ステップS13−15の判定の結果、否の場合、分類項目候補生成部5は、カテゴリ集合C2に含まれず、かつ、スコアsc(p1,c1,p2,A1)が0より大きいカテゴリc2が存在するか否かを判定する(ステップS13−17)。この判定の結果、このようなカテゴリc2が存在する場合、分類項目候補生成部5は、このスコアsc(p1,c1,p2,A1)が最大のカテゴリc2をカテゴリ集合C2に追加する(ステップS13−18)。
【0100】
このようなステップS13−13からS13−18までの処理により、第2分類軸の分類項目としてより適切なカテゴリc2が優先的に、カテゴリ集合C2に追加される。
【0101】
以上の処理により、一方の第1分類軸の分類項目の候補として最も適切なカテゴリc1が選択され、それに応じて、他方の第2分類軸の分類項目の候補として最も適切なカテゴリc2が選択されるといった処理が繰り返され、その結果、適切な分類項目の候補が両分類軸について得られる。
【0102】
以上が分類項目の候補の生成動作を示すステップS13の詳細説明である。続いて、動作の一部であるクロス集計の動作を示すステップS15について図9のフローチャートを用いて詳細に説明する。ステップS15の処理は、一般的なクロス集計の技術によって実現してもよい。
【0103】
ステップS15の処理の前提としては、ステップS14以前の処理により、クロス集計の対象とする第1分類軸およびその分類項目と、第2分類軸およびその分類項目が選択されている。このため、クロス集計部6は、初期状態として、クロス集計の対象とする第1分類軸のカテゴリをp1とし、その分類項目のカテゴリ集合をC1とする。同様に、第2分類軸のカテゴリをp2とし、その分類項目のカテゴリ集合をC2とする(ステップS15−1)。
【0104】
次に、クロス集計部6は、ステップS15−3からS15−5までの処理をカテゴリ集合C1中の各カテゴリc1iについて繰り返し実行する(ステップS15−2)。
【0105】
ステップS15−3においては、クロス集計部6は、ステップS15−4からS15−5までの処理をカテゴリ集合C2の各カテゴリc2jについて繰り返し実行する。
【0106】
ステップS15−4においては、クロス集計部6は、カテゴリc1iとc2jの両方に分類されている文書集合Dijを求める。
【0107】
次に、ステップS15−5においては、クロス集計部6は、クロス集計結果のi行j列目の値を、この文書集合Dijの要素数すなわち文書数|Dij|とする。
【0108】
なお、第1分類軸を表示上の縦軸とし、第2分類軸を表示上の横軸とする場合には、|Dij|をi行j列目の値とする。第1分類軸を横軸、第2分類軸を縦軸とする場合には、|Dij|をj行i列目の値とする。表示上の縦軸と横軸の交換は容易に実行できる。
【0109】
以上の処理によって、図11(b)や図12(b)で例示したクロス集計の結果が得られる。
【0110】
上述したように本実施形態によれば、大量の文書が複数の異なる観点で分類されている場合でも、ユーザの大まかな意図に応じて、クロス集計の対象として選択すべき分類軸と分類項目の組み合わせが自動的に提示される。これにより、クロス集計の対象として選択し得る分類軸が多数ある場合や、各分類軸を構成する分類項目の個数や段数が多い場合であっても、着目すべき分類軸や分類項目を容易に選択できるとともに、有用な知見が得られる可能性の高いクロス集計を容易に効率よく実行できる。従って、例えば、文書について知識がないユーザであっても、着目すべき分類軸や分類項目を見落とすことがなくなる。
【0111】
補足すると、文書を分析する作業では、例えば、A社が出願した特許に対し、A社と競合関係にある企業とその注力技術についての知見を得たいというように、ユーザに大まかな意図がある場合に用いられることが多い。このような場合、従来の技術においては、ユーザは、1つの分類軸(会社)と分類項目(A社)については容易に選択できるが、この分類軸の他の分類項目(B社、C社、…)や他方の分類軸(技術分野、Fターム、出願日、…)と分類項目(機械翻訳、情報検索、文書要約、…)を選択することが困難となっている。一方、本実施形態では、ユーザに大まかな意図がある場合でも、着目すべき分類軸や分類項目を容易に選択することができる。
【0112】
なお、本実施形態は、クロス集計の対象とする分類軸を2つ、すなわち、表示上の縦軸と横軸とした場合について説明したが、分類軸を2つに限定するものではない。分類軸を3つ以上として、その各々の分類軸の候補および分類項目の候補を生成するように変形した実施形態も容易に実現可能である。同様に、クロス集計の結果の表示の形態も図11(b)や図12(b)に示したような2次元のバブルチャートに限定せず、2つ以上の軸(すなわち2次元以上)を対象としたクロス集計の結果を可視化する方法であれば、どのような方法でもよい。可視化する方法としては、例えば、色変え表示または棒グラフ表示といった方式が使用可能となっている。
【0113】
また、本実施形態の文書分析装置は、図13に示すように、文書を分類するカテゴリを手動または自動で作成し、文書を所定のカテゴリに自動的に分類するためのカテゴリ生成部/文書分類部7を更に備えた構成に変形してもよい。このカテゴリ生成部/文書分類部7は、例えば、特願2009−119024号に記載の技術によって実現可能となっている。
【0114】
また、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
【0115】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0116】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0117】
さらに、上記実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0118】
また、記憶媒体は1つに限らず、複数の媒体から上記実施形態における処理が実行される場合も実施形態における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0119】
なお、上記実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0120】
また、上記実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって上記実施形態の機能を実現することが可能な機器、装置を総称している。
【0121】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の変形例を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
【符号の説明】
【0122】
1…文書記憶部、2…カテゴリ記憶部、3…カテゴリ表示操作部、4…分類軸候補生成部、5…分類項目候補生成部、6…クロス集計部。
【技術分野】
【0001】
本発明の実施形態は、文書分析装置およびプログラムに関する。
【背景技術】
【0002】
近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された文書が計算機システムに大量に記憶管理されて利用可能になっている。ここでいう文書とは、例えば、帳票、企画書、設計書、議事録といった業務文書や、学会論文、製品マニュアル、特許などの技術文書、さらには、ニュース記事、電子メール、ウェブページといった、ネットワーク上で共有されている文書などを指す。
【0003】
このような大量の文書を未整理の状態で計算機のファイルシステムやデータベースに記憶した場合、文書の内容と記憶場所が不明となり、文書内の情報が利用できなくなる可能性が生じてしまう。このため、計算機システムにおいては、文書を内容や用途に応じて分類・整理することにより、情報の有効活用や共有の促進が図られている。また、分類した大量の文書を分析・調査して、内容の傾向を把握し、新たな知見を得るための文書分析技術が開発されている。
【0004】
このような文書分析技術としては、例えば、クロス集計が知られている。クロス集計においては、2つの分類軸を選び、各分類軸の分類項目である各カテゴリに属する文書の積集合(すなわち両カテゴリに分類されている文書集合)を求め、積集合の文書数をマトリックス状に表示する。このようなクロス集計によれば、文書集合の傾向を把握し、各カテゴリの相関関係などの知見を得ることが可能となる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2003−345811号公報
【特許文献2】特開2004−86350号公報
【特許文献3】特開2008−84151号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら以上のような文書分析技術は、クロス集計で選択可能な分類軸が多数ある場合や、各分類軸の分類項目の個数や段数が多い場合には、有用な知見が得られるような着目すべき分類軸や分類項目を選択することが困難となってしまう。
【0007】
これに対し、試行錯誤的に全ての分類軸と分類項目の組み合わせを表示するとしても、時間と労力がかかる上、重要な情報を見落とす可能性がある。
【0008】
本発明の実施形態は、着目すべき分類軸や分類項目を容易に選択し得る文書分析装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
実施形態の文書分析装置は、文書記憶部、カテゴリ記憶部、カテゴリ表示操作部、分類軸候補生成部、分類項目補生成部およびクロス集計部を具備している。
【0010】
文書記憶部は、複数の文書を記憶している。
【0011】
カテゴリ記憶部は、文書を分類する複数のカテゴリおよびその階層構造を記憶している。
【0012】
カテゴリ表示操作部は、カテゴリおよびその階層構造をユーザに提示し、かつ、カテゴリに対するユーザの操作を受け付ける。
【0013】
クロス集計部は、第1分類軸および第2分類軸の各分類項目である複数のカテゴリを対象として、第1分類軸の分類項目のカテゴリと、第2分類軸の分類項目のカテゴリの、両方に分類されている文書の個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行する。
【0014】
分類軸候補生成部は、クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する。
【0015】
分類項目候補生成部は、クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する。
【0016】
このような文書分析装置は、カテゴリ表示操作部を用いてユーザが選択した1つのカテゴリを、クロス集計の対象の第1分類軸とし、当該第1分類軸のカテゴリに対して分類軸候補生成部を用いて生成した第2分類軸の候補のうち、カテゴリ表示操作部を用いてユーザが選択したカテゴリを第2分類軸とし、当該第1分類軸および第2分類軸のカテゴリに対して分類項目候補生成部を用いて生成した分類項目の候補のうち、カテゴリ表示操作部を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、クロス集計部を用いてクロス集計を実行し、その結果を、カテゴリ表示操作部を用いてユーザに提示する。
【図面の簡単な説明】
【0017】
【図1】実施形態に係る文書分析装置の構成を表すブロック図である。
【図2】同実施形態における文書記憶部内の文書の例を表す模式図である。
【図3】同実施形態におけるカテゴリ記憶部内のカテゴリの例を表す模式図である。
【図4】同実施形態における動作を説明するためのフローチャートである。
【図5】同実施形態における動作を説明するためのフローチャートである。
【図6】同実施形態におけるステップS9の動作を説明するためのフローチャートである。
【図7】同実施形態におけるステップS13の動作を説明するためのフローチャートである。
【図8】同実施形態におけるステップS13の動作を説明するためのフローチャートである。
【図9】同実施形態におけるステップS15の動作を説明するためのフローチャートである。
【図10】同実施形態におけるカテゴリの階層構造と分類軸の候補の表示例を表す模式図である。
【図11】同実施形態におけるカテゴリの階層構造と分類項目の候補の表示例、および、クロス集計の結果の表示例を表す模式図である。
【図12】同実施形態におけるカテゴリの階層構造と分類項目の候補の表示例、および、クロス集計の結果の表示例を表す模式図である。
【図13】同実施形態における文書分析装置の変形構成を表すブロック図である。
【発明を実施するための形態】
【0018】
以下、図面を参照して、実施形態について説明する。
図1は実施形態に係る文書分析装置の構成を表すブロック図である。この文書分析装置は、文書記憶部1、カテゴリ記憶部2、カテゴリ表示操作部3、分類軸候補生成部4、分類項目候補生成部5およびクロス集計部6を具備している。なお、文書分析装置は、ハードウェア構成、または各記憶部1,2やCPU等のハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワークまたは記憶媒体から文書分析装置のコンピュータにインストールされ、各部3〜6の機能を実現させるためのプログラムが用いられる。
【0019】
ここで、文書記憶部1は、文書分析装置が分析の対象とする複数の文書のデータを記憶する手段である。本実施形態の場合、文書は、階層構造に構成された複数のカテゴリによって分類されており、文書分析装置では、このカテゴリを対象にクロス集計を行う。各文書は、図2に特許文書の例を示すように、文書番号21、文書名22、本文23、出願人24および出願日25といったデータをもっている。文書番号21は、文書分析装置が文書を特定するためのユニークなデータである。文書名22および本文23は、文書毎に記述されたテキストデータである。出願人24および出願日25は、特許文書の例における属性データである。また、文書記憶部1は、文書全体を記憶する場合に限らず、文書の一部の情報や、文書データベースにアクセスするためのポインタ、インデックス情報、URLを記憶する記憶部として実現してもよく、また、文書を一時的に記憶するバッファのような記憶部として実現してもよい。
【0020】
カテゴリ記憶部2は、文書を分類する複数のカテゴリとその階層構造のデータを記憶する手段である。文書記憶部1およびカテゴリ記憶部2としては、例えば、一般的な計算機の記憶手段であるファイルシステムやデータベースなどを用いて実現可能となっている。
【0021】
ここで、カテゴリ記憶部2に記憶される各カテゴリについて図3の例により具体的に説明する。図3(a)から図3(f)は、後述する図10で示したカテゴリの階層構造を構成する複数のカテゴリの一部を示している。
【0022】
各カテゴリは、文書分析装置がカテゴリを特定するためのユニークなデータである、カテゴリ番号301を持つ。また、各カテゴリは、カテゴリの階層構造を表現するためのデータとして、親カテゴリのデータを持つ。図3(a)に示すカテゴリは、階層構造の最上位(ルート)に位置するカテゴリのため、その親カテゴリ302は「(なし)」となる。
【0023】
図3(b)に示すカテゴリ(カテゴリ番号「c02」)の親カテゴリ312は、カテゴリ番号「c01」のカテゴリ(すなわち図3(a)に示したカテゴリ)である。言い換えれば、図3(a)に示したカテゴリ(カテゴリ番号「c01」)の子カテゴリの1つが、図3(b)に示したカテゴリ(カテゴリ番号「c02」)である。
【0024】
以下の説明では、あるカテゴリの直接の親に位置するカテゴリを親カテゴリと呼び、直接の子に位置するカテゴリを子カテゴリと呼ぶ。あるカテゴリの直接または間接の親(祖先)に位置するカテゴリを、総じて上位カテゴリと呼び、逆に、あるカテゴリの直接または間接の子(子孫)に位置するカテゴリを、総じて下位カテゴリと呼ぶこととする。
【0025】
各カテゴリは、その内容をユーザに示すためのデータとして、カテゴリ名(「出願人別」313や「A社」323等)を持つ。また、各カテゴリは、当該各カテゴリに分類されている文書を表すためのデータとして、文書324に示したように、複数の文書番号を列挙している。
【0026】
但し、カテゴリの目的や内容によっては、文書番号を明示的に列挙するという方法をとらずに、当該カテゴリに分類される文書が満たすべき条件として、例えば「出願人=“A社”」325といった条件を記述するようにしてもよい。このような条件により、例えば図2に示した文書番号「d23」、すなわち、「出願人」が「A社」24である文書が、図3(c)のカテゴリ(カテゴリ番号「c04」)に分類されることとなる。
【0027】
なお、図3(a)、図3(b)および図3(d)などでは、カテゴリに分類されている文書は「(なし)」となっている。この「(なし)」は、当該カテゴリに直接分類されている文書がないという意味であり、下位カテゴリを介して間接的に分類されている文書は存在し得る。例えば、図3(a)のカテゴリに間接的に分類されている文書は、その全ての下位カテゴリに分類されている文書の和集合となる。
【0028】
カテゴリ表示操作部3は、カテゴリ記憶部2に記憶されているカテゴリおよびその階層構造をユーザに提示するとともに、これに対するユーザの操作を受け付ける手段であり、例えば、従来のソフトウェアにおいてグラフィカル・ユーザ・インタフェースと称される技術によって実現してもよい。このカテゴリ表示操作部3により、後述する図10のようなカテゴリの階層構造が表示されるとともに、この表示上でユーザによる選択操作が行われる。
【0029】
分類軸候補生成部4は、クロス集計部6の対象とすべき2つの分類軸として適切なカテゴリの候補を自動的に生成する手段であって、具体的には、クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する手段である。
【0030】
分類項目候補生成部5は、2つの分類軸における各分類項目として適切なカテゴリの候補を自動的に生成する手段であって、具体的には、クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する手段である。
【0031】
なお、後述する図11(b)は、クロス集計の結果を表す図であるが、このような分析結果を得るためには、まず、クロス集計の対象として、2つの分類軸(図11(b)の例では、「出願人別」1110と「機械翻訳」1111の分類軸)を選択し、さらに、各分類軸の分類項目(図11(b)の例では、「A社」1112等と、「辞書/シソーラス」1116等の分類項目)を選択する必要がある。これら分類軸候補生成部4および分類項目候補生成部5は、ともに、ユーザが、有用な分析結果を容易に得ることができるように支援する手段である。
【0032】
クロス集計部6は、2つの分類軸と分類項目を対象として、実際にクロス集計を実行する手段であり、その結果は、カテゴリ表示操作部3によってユーザに提示される。具体的には、クロス集計部6は、第1分類軸および第2分類軸の各分類項目である複数のカテゴリを対象として、第1分類軸の分類項目のカテゴリと、第2分類軸の分類項目のカテゴリの、両方に分類されている文書の個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行する手段である。
【0033】
次に、以上のように構成された文書分析装置の動作を図4乃至図12を参照しながら説明する。図4および図5は、文書分析装置と、これを操作するユーザによって行われる、クロス集計の対象の選択と、クロス集計の実行の全体動作を説明するためのフローチャートである。図6乃至図9は全体動作の一部を詳細に説明するためのフローチャートである。
【0034】
一方、図10、図11、図12は、ユーザに提示される画面の例を示す模式図である。図10、図11(a)、図12(a)は、分析の対象であるカテゴリの階層構造を表示し、かつ、これに対するユーザの操作を受け付ける画面例を示し、図11(b)と図12(b)には、クロス集計の結果の画面例を示している。
【0035】
始めに、図4および図5のフローチャートに沿って文書分析装置の動作を、図10、図11、図12で示した画面例を参照しながら説明し、続いて、全体動作の一部を図6乃至図9を用いて詳細に説明する。
【0036】
文書分析装置においては、クロス集計の対象とする分類軸を2つとした場合、分類軸候補生成部4および分類項目候補生成部5の初期状態として、分類軸の一方である第1分類軸のカテゴリをp1=(なし)とし、当該第1分類軸の分類項目のカテゴリ集合をC1=(空)とする。同様に、他方の第2分類軸のカテゴリをp2=(なし)とし、当該第2分類軸の分類項目のカテゴリ集合をC2=(空)とする(ステップS1)。以下、文書分析装置は、これらp1、C1、p2、C2を決定する処理を、ステップS2からS13までの処理で行う。
【0037】
カテゴリ表示操作部3は、ユーザの操作によって第1分類軸に相当するカテゴリp1が選択されると(ステップS2−YES)、次に、カテゴリp1の下位カテゴリのうち、第1分類軸の分類項目とするカテゴリ集合C1の選択をユーザより受け付ける(ステップS3−YES)。ステップS2にて、ユーザによってカテゴリp1が選択されない場合(ステップS2−NOの場合)には、クロス集計を行わずに処理を終了する。
【0038】
ステップS3の後、カテゴリ表示操作部3は、ユーザの操作に従い、カテゴリ集合C1のカテゴリの追加または削除を行う(ステップS4)。この段階では、ユーザは、カテゴリ集合C1の全てのカテゴリを選択する必要はなく、1つのカテゴリも選択されない状態(C1が空集合)であってもよい。また、ステップS4で追加されたカテゴリは、第1分類軸の仮の分類項目と呼んでもよい。
【0039】
ユーザによるカテゴリの選択は、カテゴリ表示操作部3を用いて行われ、例えば、図10の画面例は、第1分類軸に相当するカテゴリp1として「出願人別」1001が選択され、この第1分類軸の分類項目に相当するカテゴリ集合に含めるべきカテゴリの1つとして「A社」1002が、ユーザによって選択されている。
【0040】
この場合のユーザの意図は、文書を「出願人」の観点で分類した結果に着目して、特に「A社」と「A社」以外の出願人とを比較分析することであり、「A社」のカテゴリをクロス集計の対象に含めることが要求されている。なお、図10、図11、図12では、分類軸もしくはその候補のカテゴリを、二重線で囲った矩形とし、分類項目またはその候補のカテゴリを、太線で囲った矩形とする。網掛した矩形は、分類項目または分類軸として、ユーザが明示的に選択したカテゴリを示す。クロス分析の対象の一方の分類軸である第2分類軸についても、第1分類軸と同様にユーザの操作により選択してもよい。
【0041】
すなわち、カテゴリ表示操作部3は、ユーザの操作によって第2分類軸に相当するカテゴリp2が選択されると(ステップS5−YES)、次に、カテゴリp2の下位カテゴリのうち、第2分類軸の分類項目とするカテゴリ集合C2の選択をユーザより受け付ける(ステップS6−YES)。しかる後、カテゴリ表示操作部3は、ユーザの操作に従い、カテゴリ集合C2のカテゴリの追加または削除を行う(ステップS7)。このステップS7で追加されたカテゴリは、第2分類軸の仮の分類項目と呼んでもよい。
【0042】
一方、ステップS5でカテゴリp2の選択が行われず(S5−NO)、カテゴリp2の候補を生成するようにユーザが要求した場合(ステップS8−YES)には、分類軸候補生成部4は、後述する図6の処理によって、第2分類軸のカテゴリとして適切な候補を生成し、カテゴリ表示操作部3によりユーザに提示する(ステップS9)。ユーザはこの提示を受けて、第2分類軸とするカテゴリを再度ステップS5で選択することができる。
【0043】
図10に示したカテゴリ「機械翻訳」1004、「辞書」1005、「情報検索」1006は、分類軸候補生成部4によって提示された候補のカテゴリの例である。カテゴリ表示操作部3は、ユーザが各候補のカテゴリのいずれかを第2分類軸として選択すると、前述のユーザの意図にあったクロス集計を実行できる旨を提示する。具体的には、文書を「技術別」に分類した結果のうち、例えば「機械翻訳」1004に着目してこれを分類軸とし、その下位カテゴリを分類項目としてクロス集計を行うと、「A社」と「A社」以外の出願人について有用な比較分析が行えることをカテゴリ表示操作部3が提示する。
【0044】
図10の画面例で示した提示を受けて、ステップS5にて、ユーザが図10のカテゴリ「機械翻訳」1004を選択した結果の画面例を図11に示す。図11では、「機械翻訳」1106(図10の1004と同じカテゴリ)が第2分類軸として選択されている例を示している。なお、ステップS8において、第2分類軸であるカテゴリp2の候補を生成しない場合、文書分析装置は、ステップS2に戻って第1分類軸の選択から受け付けしなおすことができる。
【0045】
以上の処理によって第1分類軸と第2分類軸が選択されると、次に、カテゴリ表示操作部3は、ユーザの操作に応じて各分類軸の分類項目の選択を受け付ける処理を行う。
【0046】
カテゴリ表示操作部3は、図5に示すように、ユーザの操作により、第1分類軸および第2分類軸のそれぞれの分類項目であるカテゴリ集合C1およびC2とすべきカテゴリが選択されると(ステップS10−YES)、ユーザの操作に従い、カテゴリ集合C1またはC2のカテゴリの追加または削除を行う(ステップS11)。
【0047】
ここで、ユーザがカテゴリ表示操作部3の操作により、分類項目のカテゴリ集合C1またはC2の候補を生成するように要求した場合(ステップS12−YES)、分類項目候補生成部5は、後述する図7および図8の処理によって、各分類軸の分類項目のカテゴリとして適切な候補を生成して、ユーザに提示する(ステップS13)。
【0048】
ここで、図11のカテゴリ「C社」1103、「D社」1104、「X社」1105は、第1分類軸「出願人別」の分類項目C1の候補として提示されたカテゴリである。一方、図11のカテゴリ「シソーラス」1107、「ユーザ辞書」1108、「コーパス」1109は、第2分類軸「機械翻訳」の分類項目C2の候補として提示されたカテゴリである。
【0049】
各分類軸の下にある分類項目(本実施形態の場合は下位カテゴリ)の個数が多く、例えば数百個、数千個といったカテゴリが存在する場合には、全ての分類項目を対象にクロス集計を行っても、ユーザが所望する知見が得られるとは限らない上、クロス集計に多大な計算処理を必要とするとともに、クロス集計の結果が巨大なマトリクスとなってユーザが閲覧し切れなくなる。
【0050】
従って、クロス集計の対象とするカテゴリを適切に取捨選択できるようにすべきであるが、どの分類項目を選択してクロス集計を行えば、有用な知見が得られるかについて、ユーザは知らないことがほとんどである。
【0051】
本実施形態によれば、ユーザは、図11の表示例のような分類項目の候補の提示を受け、この候補をそのまま選択してクロス集計を実行してもよく、必要に応じてステップS10に戻って、再度、カテゴリ集合C1またはC2のカテゴリを選択しなおしてもよい。
【0052】
いずれにしても、クロス集計の対象とするp1、C1、p2、C2のカテゴリがそれぞれ選択され、ユーザの操作によってカテゴリ表示操作部3からクロス集計の実行が要求されると(ステップS14−YES)、クロス集計部6は、これらp1、C1、p2、C2を対象として、後述する図9の処理によって、クロス集計を実行する(ステップS15)。
【0053】
しかる後、カテゴリ表示操作部3は、クロス集計の実行結果をユーザに提示する。
【0054】
例えば、図11(a)で選択された分類軸と、提示された分類項目の候補を、そのまま対象としたクロス集計の実行結果の例を図11(b)に示している。図11(a)の分類軸「出願人別」1101は、図11(b)の横軸「出願人別」1110に対応し、同様に、図11(a)の分類軸「機械翻訳」1106は、図11(b)の縦軸「機械翻訳」1111に対応する。
【0055】
図11(a)の分類項目「A社」1102は、図11(b)の横軸の分類項目「A社」1113に対応し、同様に、図11(a)の分類項目「シソーラス」1107は、図11(b)の縦軸の分類項目「辞書/シソーラス」1116に対応する。
【0056】
このクロス集計の画面例では、バブルチャートを用いて集計結果の文書番号の個数を表現しており、例えば図11(b)の1119は、第1分類軸の分類項目「X社」1115と、第2分類軸の分類項目「コーパス」1118の、両方のカテゴリに分類されている文書の文書番号の個数を、バブル(円)の面積で表したものである。
【0057】
このように、図11(b)で例示したクロス集計の結果を用いることで、ユーザは、「A社」と「A社」以外の出願人同士で比較分析するには、「機械翻訳」の下の「シソーラス」や「コーパス」などの技術に着目すると有用であり、さらにこの場合には、「A社」に加え、「C社」、「D社」、「X社」などの出願人同士で比較すべきである、といった知見が得られる。
【0058】
なお、ステップS14でクロス集計を行わない場合(S14−NO)や、S15にてクロス集計を実行した後は、ステップS2もしくはそれ以降のステップに戻って分類軸および分類項目を選択しなおすこともできる。
【0059】
例えば図12(a)は、図4および図5に示すステップS10にて、第2分類軸の分類項目として、カテゴリ「ルール」1208を選択した場合の画面例を示す。このように分類項目すなわち、カテゴリ集合C1またはC2の一部をユーザが明示的に選択しなおした後、これをもとにステップS13にて再度、カテゴリ集合C1およびC2の候補を生成しなおすことが可能である。
【0060】
図12の例では、カテゴリ「ルール」1208がユーザによって選択され、これを含めるように分類項目の候補を生成した結果、第1分類軸「出願人別」1201に対しては、分類項目「B社」1203が新たな候補として追加され、逆に分類項目「C社」1204は候補から除去される。同様の処理は第2分類軸「機械翻訳」1207に対しても行われ、ユーザが明示的に追加した分類項目「ルール」1208以外にも、分類項目「対訳辞書」1209が新たな候補として追加され、分類項目「ユーザ辞書」1211が候補から除外される。
【0061】
この結果を用いてクロス集計を行った結果を図12(b)に示す。ユーザは、分類項目に対するカテゴリの追加や削除が反映されたクロス集計結果を容易に得ることができる。
【0062】
以上が本実施形態における文書分析装置の動作の説明である。続いて、動作の説明の一部である分類軸候補の生成動作を示すステップS9について図6のフローチャートを用いて詳細に説明する。
【0063】
ステップS9の処理の前提としては、ステップS8以前の処理により、第1分類軸とその分類項目の一部が選択されている。このため、分類軸候補生成部4は、初期状態として、第1分類軸のカテゴリをp1とし、p1の分類項目として現段階で選択されているカテゴリ集合をC1とする。また、カテゴリp1の全ての下位カテゴリをA1とする。ここで、カテゴリ集合C1はA1の部分集合である。さらに、第2分類軸の候補のカテゴリ集合をP2=(空)とする(ステップS9−1)。
【0064】
この第2分類軸の候補のカテゴリ集合P2を求めることがステップS9の処理の目的である。また、第2分類軸として採用され得る全てのカテゴリ集合A2を、カテゴリp1の上位カテゴリまたは下位カテゴリでないカテゴリの集合とする。図10の例では、カテゴリ「出願人別」1001がカテゴリp1であるので、この場合のカテゴリ集合A2は、カテゴリ「技術別」1003およびその全ての下位カテゴリとなる。
【0065】
次に、分類軸候補生成部4は、ステップS9−3の処理を、カテゴリ集合A2中の各カテゴリp2について繰り返し実行する(ステップS9−2)。
【0066】
ステップS9−3においては、分類軸候補生成部4は、(1)式および(2)式に示すように、第1分類軸のカテゴリp1と分類項目の候補のカテゴリ集合C1のもとでの、カテゴリp2のスコアsp(p1,C1,p2)を求める。また、分類軸候補生成部4は、(1)式および(3)式に示すように、第1分類軸のカテゴリp1と分類項目の全候補のカテゴリ集合A1のもとでの、カテゴリp2のスコアsp(p1,A1,p2)を求める。
【数1】
【0067】
スコアの計算式は(1)式乃至(3)式に従うものであり、(1)式にて定義した、上位カテゴリp1とp2のもとでの、カテゴリc1とc2の相互情報量mi(p1,c1,p2,c2)を、カテゴリ集合C1またはA1と、カテゴリp2の全ての下位カテゴリの集合Sub(p2)について加算したものとする。
【0068】
このスコアsp(p1,C1,p2)またはsp(p1,A1,p2)の値が大きいほど、カテゴリp2は、カテゴリp1の下位カテゴリとの相関が大きい下位カテゴリを多く持つとみなすことができ、クロス分析によって有用な知見が得られる可能性の高い分類軸となり得る。逆に、このスコアの値が0に近いほど、カテゴリp1とp2の間の相関は小さく、カテゴリp1の分類項目同士を比較する目的ではカテゴリp2はあまり適切でない。
【0069】
なお、本実施形態ではこのように相互情報量に基づいて分類軸の候補の選定を行うものであるが、この方法に限定せず、分類軸同士の相関の大小を判定できるものであれば、相互情報量以外の統計量を用いることができる。
【0070】
また、相互情報量を用いる場合にも、前述した(1)式を用いる方法の他に、例えば、(1a)式や(1b)式を用いる方法がある。
【数2】
【0071】
なお、前述した(1)式は、カテゴリc1とc2とで重複する文書集合にのみ着目して両カテゴリの相関の大小を判定する数式であった。
【0072】
これに対し(1a)式は、カテゴリc1に属さない文書集合やカテゴリc2に属さない文書集合などにも着目した4つの項を用いて、両カテゴリの相関の大小を判定する数式である。
【0073】
また、(1b)式は、(1)式の対数の項のみを用いて簡略化した数式の例である。一方、相互情報量を用いずに、例えば、T検定の考え方に基づいて求めた量(Tスコア)を用いる方法や、分散分析の考え方に基づいて求めた量を用いる方法もある。
【0074】
例えば、以下の(1c)式にはTスコアを用いる場合の数式の例を示している。このTスコアts(p1,c1,p2,c2)の値を、前述の相互情報量mi(p1,c1,p2,c2)に代えて用い、(2’)式および(3’)式に示すように、前述した(2)式と(3)式の値を計算してもよい。
【数3】
【0075】
なお、(1)式に代えて、(1a)式、(1b)式または(1c)式を用いてもよいことは、後述する(4)式乃至(7)式でも同様である。また、いずれにしても、相関の大きさを算出できる式であれば、任意の式が使用可能となっている。これは、分類軸の候補の生成に限らず、分類項目の候補の生成についても同様である。
【0076】
次に、分類軸候補生成部4は、スコアsp(p1,C1,p2)が0より大きいカテゴリp2を、このスコアが大きい順に最大N個選び、第2分類軸の候補のカテゴリ集合P2に追加する(ステップS9−4)。このステップS9−4により、ユーザによってすでに選択された第1分類軸の分類項目C1に対して適切な第2分類軸の候補が、まず優先的に、最大N個求められる。ここでNは、第2分類軸の候補として採用するカテゴリの個数の上限である。
【0077】
次に、分類軸候補生成部4は、第2分類軸の候補の個数|P2|が上限の個数Nより少なければ(ステップS9−5)、スコアsp(p1,A1,p2)が大きい順に最大N−|P2|個の候補を選択してカテゴリ集合P2に追加し(ステップS9−6)、ステップS9−5で求めた候補と併せて最大N個の候補とする。
【0078】
スコアsp(p1,A1,p2) が大きい分類軸p2は、現在選択されている分類項目のカテゴリ集合C1に関わらず、第1分類軸の下位カテゴリ全体に対して相関の大きい分類軸となる。このようにしてステップS9−4およびS9−6で選択されたカテゴリ集合P2が、第2分類軸の候補として、カテゴリ表示操作部3により、ユーザに提示される。
【0079】
以上が分類軸候補の生成動作を示すステップS9の詳細説明である。続いて、動作の説明の一部である分類項目の候補の生成動作を示すステップS13について図7および図8のフローチャートを用いて詳細に説明する。
【0080】
ステップS13の処理の前提としては、ステップS12以前の処理で、第1分類軸および第2分類軸と、その各々の分類項目の一部が選択されている。このため、分類項目候補生成部5は、初期状態として、第1分類軸のカテゴリをp1とし、p1の分類項目として現段階で選択されているカテゴリ集合をC1とする。同様に、第2分類軸のカテゴリをp2とし、p2の分類項目として現段階で選択されているカテゴリ集合をC2とする。また、カテゴリp1の全ての下位カテゴリの集合をA1とし、同様に、カテゴリp2の全ての下位カテゴリの集合をA2とする(ステップS13−1)。
【0081】
ここで、カテゴリ集合C1はA1の部分集合であり、カテゴリ集合C2はA2の部分集合である。このカテゴリ集合C1とC2を求めることがステップS13の処理の目的である。
【0082】
次に、分類項目候補生成部5は、ステップS13−3の処理をカテゴリ集合A1中の各カテゴリc1について繰り返し実行する(ステップS13−2)。
【0083】
ステップS13−3においては、分類項目候補生成部5は、カテゴリc1のスコアsc(p1,c1,p2,A2)を求める。このスコアの計算式は(1)式および(4)式に従うものであり、(1)式にて定義した、上位カテゴリp1とp2のもとでの、カテゴリc1とc2の相互情報量mi(p1,c1,p2,c2)を、カテゴリ集合A2について加算したものとする。
【数4】
【0084】
このスコアsc(p1,c1,p2,A2)が大きいほど、カテゴリc1は、第2分類軸のカテゴリp2の下位カテゴリとの相関が大きいカテゴリであるとみなすことができ、クロス分析によって有用な知見が得られる可能性の高い分類項目となり得る。
【0085】
次に、分類項目候補生成部5は、ステップS13−2およびS13−3と同様に、(1)式および(5)式に従い、カテゴリ集合A2中の各カテゴリc2について、そのスコアsc(p2,c2,p1,A1)を求める(ステップS13−4,S13−5)。
【数5】
【0086】
次に、分類項目候補生成部5は、カテゴリ集合C1またはC2に、各分類軸の分類項目の候補としてカテゴリを追加することが可能な限り、ステップS13−7からS13−18までの処理を繰り返す(ステップS13−6)。
【0087】
分類項目の候補を追加できなくなる場合とは、カテゴリ集合A1およびA2のカテゴリを全て、カテゴリ集合C1およびC2に追加した場合か、あるいは、カテゴリ集合C1およびC2の個数が、所定の上限に達した場合か、あるいは、分類項目としての適切さ(すなわちスコア)が、所定の値より大きいカテゴリが存在しなくなった場合である。
【0088】
ステップS13−7では、分類項目候補生成部5は、ステップS13−8の処理をカテゴリ集合A1中の各カテゴリc1(ただしすでにカテゴリ集合C1に追加したカテゴリは除く)について繰り返し実行する。
【0089】
ステップS13−8では、分類項目候補生成部5は、(6)式に示すように、カテゴリc1のスコアsc(p1,c1,p2,C2)を求める。
【数6】
【0090】
ステップS13−8の処理は、前述したS13−5と同様の処理であるが、相関を求める第2分類軸の分類項目として、カテゴリ集合A2でなく、現時点で選択されているカテゴリ集合C2を用いる点が異なる。
【0091】
次に、ステップS13−9では、分類項目候補生成部5は、カテゴリ集合C1に含まれず、かつ、スコアsc(p1,c1,p2,C2)が0より大きいカテゴリc1が存在するか否かを判定する。この判定の結果、このようなカテゴリc1が存在する場合、分類項目候補生成部5は、このスコアsc(p1,c1,p2,C2)が最大のカテゴリc1をカテゴリ集合C1に追加する(ステップS13−10)。
【0092】
ステップS13−9の判定の結果、否の場合、分類項目候補生成部5は、カテゴリ集合C1に含まれず、かつ、スコアsc(p1,c1,p2,A2)が0より大きいカテゴリc1が存在するか否かを判定する(ステップS13−11)。この判定の結果、このようなカテゴリc1が存在する場合、分類項目候補生成部5は、このスコアsc(p1,c1,p2,A2)が最大のカテゴリc1をカテゴリ集合C1に追加する(ステップS13−12)。
【0093】
このようなステップS13−7からS13−12までの処理により、第1分類軸の分類項目としてより適切なカテゴリc1が優先的に、カテゴリ集合C1に追加される。
【0094】
以降のS13−13からS13−18までの処理は、前述したステップS13−7からS13−12までの処理と同様の処理を、第2分類軸について行うものである。
【0095】
すなわち、ステップS13−13では、分類項目候補生成部5は、ステップS13−14の処理をカテゴリ集合A2中の各カテゴリc2(ただしすでにカテゴリ集合C2に追加したカテゴリは除く)について繰り返し実行する。
【0096】
ステップS13−14では、分類項目候補生成部5は、(7)式に示すように、カテゴリc2のスコアsc(p2,c2,p1,C1)を求める。
【数7】
【0097】
ステップS13−14の処理は、前述したS13−5と同様の処理であるが、相関を求める第1分類軸の分類項目として、カテゴリ集合A1でなく、現時点で選択されているカテゴリ集合C1を用いる点が異なる。
【0098】
次に、ステップS13−15では、分類項目候補生成部5は、カテゴリ集合C2に含まれず、かつ、スコアsc(p1,c1,p2,C1)が0より大きいカテゴリc2が存在するか否かを判定する。この判定の結果、このようなカテゴリc2が存在する場合、分類項目候補生成部5は、このスコアsc(p1,c1,p2,C1)が最大のカテゴリc2をカテゴリ集合C2に追加する(ステップS13−16)。
【0099】
ステップS13−15の判定の結果、否の場合、分類項目候補生成部5は、カテゴリ集合C2に含まれず、かつ、スコアsc(p1,c1,p2,A1)が0より大きいカテゴリc2が存在するか否かを判定する(ステップS13−17)。この判定の結果、このようなカテゴリc2が存在する場合、分類項目候補生成部5は、このスコアsc(p1,c1,p2,A1)が最大のカテゴリc2をカテゴリ集合C2に追加する(ステップS13−18)。
【0100】
このようなステップS13−13からS13−18までの処理により、第2分類軸の分類項目としてより適切なカテゴリc2が優先的に、カテゴリ集合C2に追加される。
【0101】
以上の処理により、一方の第1分類軸の分類項目の候補として最も適切なカテゴリc1が選択され、それに応じて、他方の第2分類軸の分類項目の候補として最も適切なカテゴリc2が選択されるといった処理が繰り返され、その結果、適切な分類項目の候補が両分類軸について得られる。
【0102】
以上が分類項目の候補の生成動作を示すステップS13の詳細説明である。続いて、動作の一部であるクロス集計の動作を示すステップS15について図9のフローチャートを用いて詳細に説明する。ステップS15の処理は、一般的なクロス集計の技術によって実現してもよい。
【0103】
ステップS15の処理の前提としては、ステップS14以前の処理により、クロス集計の対象とする第1分類軸およびその分類項目と、第2分類軸およびその分類項目が選択されている。このため、クロス集計部6は、初期状態として、クロス集計の対象とする第1分類軸のカテゴリをp1とし、その分類項目のカテゴリ集合をC1とする。同様に、第2分類軸のカテゴリをp2とし、その分類項目のカテゴリ集合をC2とする(ステップS15−1)。
【0104】
次に、クロス集計部6は、ステップS15−3からS15−5までの処理をカテゴリ集合C1中の各カテゴリc1iについて繰り返し実行する(ステップS15−2)。
【0105】
ステップS15−3においては、クロス集計部6は、ステップS15−4からS15−5までの処理をカテゴリ集合C2の各カテゴリc2jについて繰り返し実行する。
【0106】
ステップS15−4においては、クロス集計部6は、カテゴリc1iとc2jの両方に分類されている文書集合Dijを求める。
【0107】
次に、ステップS15−5においては、クロス集計部6は、クロス集計結果のi行j列目の値を、この文書集合Dijの要素数すなわち文書数|Dij|とする。
【0108】
なお、第1分類軸を表示上の縦軸とし、第2分類軸を表示上の横軸とする場合には、|Dij|をi行j列目の値とする。第1分類軸を横軸、第2分類軸を縦軸とする場合には、|Dij|をj行i列目の値とする。表示上の縦軸と横軸の交換は容易に実行できる。
【0109】
以上の処理によって、図11(b)や図12(b)で例示したクロス集計の結果が得られる。
【0110】
上述したように本実施形態によれば、大量の文書が複数の異なる観点で分類されている場合でも、ユーザの大まかな意図に応じて、クロス集計の対象として選択すべき分類軸と分類項目の組み合わせが自動的に提示される。これにより、クロス集計の対象として選択し得る分類軸が多数ある場合や、各分類軸を構成する分類項目の個数や段数が多い場合であっても、着目すべき分類軸や分類項目を容易に選択できるとともに、有用な知見が得られる可能性の高いクロス集計を容易に効率よく実行できる。従って、例えば、文書について知識がないユーザであっても、着目すべき分類軸や分類項目を見落とすことがなくなる。
【0111】
補足すると、文書を分析する作業では、例えば、A社が出願した特許に対し、A社と競合関係にある企業とその注力技術についての知見を得たいというように、ユーザに大まかな意図がある場合に用いられることが多い。このような場合、従来の技術においては、ユーザは、1つの分類軸(会社)と分類項目(A社)については容易に選択できるが、この分類軸の他の分類項目(B社、C社、…)や他方の分類軸(技術分野、Fターム、出願日、…)と分類項目(機械翻訳、情報検索、文書要約、…)を選択することが困難となっている。一方、本実施形態では、ユーザに大まかな意図がある場合でも、着目すべき分類軸や分類項目を容易に選択することができる。
【0112】
なお、本実施形態は、クロス集計の対象とする分類軸を2つ、すなわち、表示上の縦軸と横軸とした場合について説明したが、分類軸を2つに限定するものではない。分類軸を3つ以上として、その各々の分類軸の候補および分類項目の候補を生成するように変形した実施形態も容易に実現可能である。同様に、クロス集計の結果の表示の形態も図11(b)や図12(b)に示したような2次元のバブルチャートに限定せず、2つ以上の軸(すなわち2次元以上)を対象としたクロス集計の結果を可視化する方法であれば、どのような方法でもよい。可視化する方法としては、例えば、色変え表示または棒グラフ表示といった方式が使用可能となっている。
【0113】
また、本実施形態の文書分析装置は、図13に示すように、文書を分類するカテゴリを手動または自動で作成し、文書を所定のカテゴリに自動的に分類するためのカテゴリ生成部/文書分類部7を更に備えた構成に変形してもよい。このカテゴリ生成部/文書分類部7は、例えば、特願2009−119024号に記載の技術によって実現可能となっている。
【0114】
また、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
【0115】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0116】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0117】
さらに、上記実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0118】
また、記憶媒体は1つに限らず、複数の媒体から上記実施形態における処理が実行される場合も実施形態における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0119】
なお、上記実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0120】
また、上記実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって上記実施形態の機能を実現することが可能な機器、装置を総称している。
【0121】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の変形例を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
【符号の説明】
【0122】
1…文書記憶部、2…カテゴリ記憶部、3…カテゴリ表示操作部、4…分類軸候補生成部、5…分類項目候補生成部、6…クロス集計部。
【特許請求の範囲】
【請求項1】
複数の文書を記憶する文書記憶手段と、
前記文書を分類する複数のカテゴリおよびその階層構造を記憶するカテゴリ記憶手段と、
前記カテゴリおよびその階層構造をユーザに提示し、かつ、カテゴリに対するユーザの操作を受け付けるカテゴリ表示操作手段と、
第1分類軸および第2分類軸の各分類項目である複数のカテゴリを対象として、第1分類軸の分類項目のカテゴリと、第2分類軸の分類項目のカテゴリの、両方に分類されている文書の個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行する、クロス集計手段と、
クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する分類軸候補生成手段と、
クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する分類項目候補生成手段と、
を具備し、
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第1分類軸とし、
当該第1分類軸のカテゴリに対して前記分類軸候補生成手段を用いて生成した第2分類軸の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを第2分類軸とし、
当該第1分類軸および第2分類軸のカテゴリに対して分類項目候補生成手段を用いて生成した分類項目の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、
前記クロス集計手段を用いてクロス集計を実行し、その結果を、前記カテゴリ表示操作手段を用いてユーザに提示する
ことを特徴とする、文書分析装置。
【請求項2】
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第1分類軸とし、
当該第1分類軸のカテゴリの下位カテゴリから、前記カテゴリ表示操作手段を用いてユーザが選択した複数のカテゴリを、前記クロス集計の対象の第1分類軸の仮の分類項目とし、
当該第1分類軸およびその仮の分類項目のカテゴリに対して、前記分類軸候補生成手段を用いて生成した第2分類軸の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを第2分類軸とし、
当該第1分類軸およびその仮の分類項目のカテゴリと、当該第2分類軸のカテゴリに対して、前記分類項目候補生成手段を用いて生成した分類項目の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、
前記クロス集計手段を用いてクロス集計を実行し、その結果を、前記カテゴリ表示操作手段を用いてユーザに提示する
ことを特徴とする、請求項1に記載の文書分析装置。
【請求項3】
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第1分類軸とし、
当該第1分類軸のカテゴリの下位カテゴリから、前記カテゴリ表示操作手段を用いてユーザが選択した複数のカテゴリを、前記クロス集計の対象の第1分類軸の仮の分類項目とし、
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第2分類軸とし、
当該第2分類軸のカテゴリの下位カテゴリから、前記カテゴリ表示操作手段を用いてユーザが選択した複数のカテゴリを、前記クロス集計の対象の第2分類軸の仮の分類項目とし、
当該第1分類軸およびその仮の分類項目のカテゴリと、当該第2分類軸およびその仮の分類項目のカテゴリに対して、前記分類項目候補生成手段を用いて生成した分類項目の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、
前記クロス集計手段を用いてクロス集計を実行し、その結果を、前記カテゴリ表示操作手段を用いてユーザに提示する
ことを特徴とする、請求項1または2に記載の文書分析装置。
【請求項4】
複数の文書を記憶する文書記憶手段と、前記文書を分類する複数のカテゴリおよびその階層構造を記憶するカテゴリ記憶手段とを具備した文書分析装置に用いられるプログラムであって、
前記文書分析装置を、
前記カテゴリおよびその階層構造をユーザに提示し、かつ、カテゴリに対するユーザの操作を受け付けるカテゴリ表示操作手段、
第1分類軸および第2分類軸の各分類項目である複数のカテゴリを対象として、第1分類軸の分類項目のカテゴリと、第2分類軸の分類項目のカテゴリの、両方に分類されている文書の個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行する、クロス集計手段、
クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する分類軸候補生成手段、
クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する分類項目候補生成手段、
として機能させ、
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第1分類軸とし、
当該第1分類軸のカテゴリに対して前記分類軸候補生成手段を用いて生成した第2分類軸の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを第2分類軸とし、
当該第1分類軸および第2分類軸のカテゴリに対して分類項目候補生成手段を用いて生成した分類項目の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、
前記クロス集計手段を用いてクロス集計を実行し、その結果を、前記カテゴリ表示操作手段を用いてユーザに提示する
ことを特徴とする、プログラム。
【請求項1】
複数の文書を記憶する文書記憶手段と、
前記文書を分類する複数のカテゴリおよびその階層構造を記憶するカテゴリ記憶手段と、
前記カテゴリおよびその階層構造をユーザに提示し、かつ、カテゴリに対するユーザの操作を受け付けるカテゴリ表示操作手段と、
第1分類軸および第2分類軸の各分類項目である複数のカテゴリを対象として、第1分類軸の分類項目のカテゴリと、第2分類軸の分類項目のカテゴリの、両方に分類されている文書の個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行する、クロス集計手段と、
クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する分類軸候補生成手段と、
クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する分類項目候補生成手段と、
を具備し、
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第1分類軸とし、
当該第1分類軸のカテゴリに対して前記分類軸候補生成手段を用いて生成した第2分類軸の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを第2分類軸とし、
当該第1分類軸および第2分類軸のカテゴリに対して分類項目候補生成手段を用いて生成した分類項目の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、
前記クロス集計手段を用いてクロス集計を実行し、その結果を、前記カテゴリ表示操作手段を用いてユーザに提示する
ことを特徴とする、文書分析装置。
【請求項2】
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第1分類軸とし、
当該第1分類軸のカテゴリの下位カテゴリから、前記カテゴリ表示操作手段を用いてユーザが選択した複数のカテゴリを、前記クロス集計の対象の第1分類軸の仮の分類項目とし、
当該第1分類軸およびその仮の分類項目のカテゴリに対して、前記分類軸候補生成手段を用いて生成した第2分類軸の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを第2分類軸とし、
当該第1分類軸およびその仮の分類項目のカテゴリと、当該第2分類軸のカテゴリに対して、前記分類項目候補生成手段を用いて生成した分類項目の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、
前記クロス集計手段を用いてクロス集計を実行し、その結果を、前記カテゴリ表示操作手段を用いてユーザに提示する
ことを特徴とする、請求項1に記載の文書分析装置。
【請求項3】
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第1分類軸とし、
当該第1分類軸のカテゴリの下位カテゴリから、前記カテゴリ表示操作手段を用いてユーザが選択した複数のカテゴリを、前記クロス集計の対象の第1分類軸の仮の分類項目とし、
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第2分類軸とし、
当該第2分類軸のカテゴリの下位カテゴリから、前記カテゴリ表示操作手段を用いてユーザが選択した複数のカテゴリを、前記クロス集計の対象の第2分類軸の仮の分類項目とし、
当該第1分類軸およびその仮の分類項目のカテゴリと、当該第2分類軸およびその仮の分類項目のカテゴリに対して、前記分類項目候補生成手段を用いて生成した分類項目の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、
前記クロス集計手段を用いてクロス集計を実行し、その結果を、前記カテゴリ表示操作手段を用いてユーザに提示する
ことを特徴とする、請求項1または2に記載の文書分析装置。
【請求項4】
複数の文書を記憶する文書記憶手段と、前記文書を分類する複数のカテゴリおよびその階層構造を記憶するカテゴリ記憶手段とを具備した文書分析装置に用いられるプログラムであって、
前記文書分析装置を、
前記カテゴリおよびその階層構造をユーザに提示し、かつ、カテゴリに対するユーザの操作を受け付けるカテゴリ表示操作手段、
第1分類軸および第2分類軸の各分類項目である複数のカテゴリを対象として、第1分類軸の分類項目のカテゴリと、第2分類軸の分類項目のカテゴリの、両方に分類されている文書の個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行する、クロス集計手段、
クロス集計の一方の対象である第1分類軸として選択されたカテゴリに対し、当該カテゴリの複数の下位カテゴリとの相関の大きさに基づき、クロス集計の対象の他方の分類軸である第2分類軸とすべきカテゴリの候補を自動的に生成する分類軸候補生成手段、
クロス集計の一方の対象である第1分類軸および他方の対象である第2分類軸としてそれぞれ選択されたカテゴリに対し、当該第1分類軸のカテゴリの複数の下位カテゴリと、当該第2分類軸のカテゴリの複数の下位カテゴリとの、相関の大きさに基づき、第1分類軸および第2分類軸のそれぞれの分類項目とするカテゴリの候補を自動的に生成する分類項目候補生成手段、
として機能させ、
前記カテゴリ表示操作手段を用いてユーザが選択した1つのカテゴリを、前記クロス集計の対象の第1分類軸とし、
当該第1分類軸のカテゴリに対して前記分類軸候補生成手段を用いて生成した第2分類軸の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを第2分類軸とし、
当該第1分類軸および第2分類軸のカテゴリに対して分類項目候補生成手段を用いて生成した分類項目の候補のうち、前記カテゴリ表示操作手段を用いてユーザが選択したカテゴリを、当該第1分類軸および第2分類軸の分類項目として、
前記クロス集計手段を用いてクロス集計を実行し、その結果を、前記カテゴリ表示操作手段を用いてユーザに提示する
ことを特徴とする、プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2011−253449(P2011−253449A)
【公開日】平成23年12月15日(2011.12.15)
【国際特許分類】
【出願番号】特願2010−128187(P2010−128187)
【出願日】平成22年6月3日(2010.6.3)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成23年12月15日(2011.12.15)
【国際特許分類】
【出願日】平成22年6月3日(2010.6.3)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]