文書分析装置およびプログラム

【課題】複数のカテゴリの内容を相互に比較するのに好適な特徴語を抽出することが可能な文書分析装置およびプログラムを提供することにある。
【解決手段】単語抽出手段は、カテゴリ情報格納手段に格納されているカテゴリ情報によって示される第１のカテゴリに属する複数の文書に含まれる単語を抽出する。文書数算出手段は、抽出された単語が第１のカテゴリに属する複数の文書において出現する文書の数を示す第１の文書数および第１のカテゴリの下位に位置する第２のカテゴリに属する複数の文書において出現する文書の数を示す第２の文書数を算出する。特徴度算出手段は、第１のカテゴリに属する文書の数、第２のカテゴリに属する文書の数、第２のカテゴリの数、第１および第２の文書数に基づいて、前記抽出された単語の特徴度を算出する。特徴語抽出手段は、特徴度に基づいて前記第１のカテゴリに対する特徴語を抽出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、電子化された大量の文書を分析する文書分析装置およびプログラムに関する。
【背景技術】
【０００２】
近年では、計算機の高性能化、記憶媒体の大容量化および計算機ネットワークの普及等に伴い、電子化された大量の文書を計算機システムで記憶管理して種々の目的のために利用することができる。ここで、文書とは、例えば帳票、企画書、設計書または議事録のような業務文書や、学会論文、製品マニュアル、特許文献等の技術文書、更には、ニュース記事、電子メール、ウェブページのようなネットワーク上で共有されている文書等をいう。
【０００３】
しかしながら、このような大量の文書を未整理のまま例えばファイルシステムまたはデータベースに記憶するだけでは、どこにどのような情報（文書）が存在するかが分からなくなり、計算機システムにおいて記憶管理されている当該大量の文書を有効に利用することはできない。
【０００４】
したがって、情報の有効活用や共有の促進を図るためには、大量の文書を内容または用途に応じて分類（整理）しておくことが好ましい。
【０００５】
また、このように分類された大量の文書を分析または調査することによって、当該文書の内容の傾向を把握したり、新たな知見を得たりするための技術の開発も行われている。
【０００６】
なお、上記したように大量の文書が分類された結果として同じ分類とされた文書集合、例えば各文書に含まれる属性（文書が例えば特許文献等である場合には「出願人」または「出願日」等の情報）を分類基準として分類された文書集合または各文書の内容の類似性によって文書を分類する文書クラスタリングによって生成された文書集合は、カテゴリと呼ばれる。
【０００７】
ところで、上記したように大量の文書が分類された場合には、その全体像や各カテゴリ（に属する文書集合）の特徴を知りたいというニーズがある。具体的には、例えば特許調査の分野において、出願人（企業）別の技術傾向（出願傾向）を調査する場合には、当該各出願人のカテゴリの特徴を知りたいというニーズがあると考えられる。また、出願年毎の技術の移り変わりを把握したい場合には、各出願年のカテゴリの特徴を知りたいというニーズがあると考えられる。更に、新聞記事等において、ある事件に関連する話題の遷移を知りたい場合には、当該事件に関連する話題のカテゴリの特徴を知りたいというニーズがあると考えられる。
【０００８】
このようなニーズに応えるために、例えば分析の対象となる文書集合（カテゴリ）において特徴的な単語（以下、特徴語と表記）を抽出する技術（以下、特徴語抽出技術と表記）が知られている。この特徴語抽出技術によれば、カテゴリに分類された文書集合の特徴語を抽出し、当該特徴語を提示することによって、ユーザは、当該カテゴリの特徴（当該カテゴリに分類された文書集合の内容）を容易に理解することができる。
【先行技術文献】
【特許文献】
【０００９】
【特許文献１】特開２００５−１２８９７８号公報
【特許文献２】特開２００６−３０２１０７号公報
【特許文献３】特開２００５−３２６８９７号公報
【発明の概要】
【発明が解決しようとする課題】
【００１０】
しかしながら、上記した特徴語抽出技術によって抽出されるカテゴリの特徴語は、異なるカテゴリ間の比較をするには不十分である。
【００１１】
上記した特徴語抽出技術によって抽出される特徴語は、当該カテゴリまたは当該カテゴリに分類された文書集合全体から抽出される。このため、異なるカテゴリの特徴語を利用して当該カテゴリ間の比較をするような場合に、当該各カテゴリから抽出されたどの特徴語に着目して当該カテゴリを比較すべきかをユーザが判断することは難しい。特に、比較するカテゴリの数および当該カテゴリの各々から抽出される特徴語の数が多くなれば、その難易度は更に上がる。つまり、単にカテゴリ毎に特徴語を抽出した場合には、例えば各カテゴリにおける当該特徴語を含む文書数等をユーザに提示することによって、当該ユーザは各カテゴリの特徴を把握することはできるが、当該カテゴリ間における共通点または相違点という複数のカテゴリ間の特徴を把握することは困難である。
【００１２】
また、カテゴリ（に分類された文書集合全体）から抽出された特徴語では、他の各カテゴリ等の傾向（例えば、単語の出現傾向等）を考慮していない。このため、このように抽出された特徴語を利用して例えばクロス集計等をしたとしても、全体的に一様なマップになったり、極端に疎らなマップになったりする場合があり、カテゴリ同士を比較するのには適さない。つまり、上記した特徴語抽出技術によって抽出された特徴語には、カテゴリ間の比較に適さない単語が混在している場合がある。
【００１３】
そこで、本発明が解決しようとする課題は、複数のカテゴリの内容を相互に比較するのに好適な特徴語を抽出することが可能な文書分析装置およびプログラムを提供することにある。
【課題を解決するための手段】
【００１４】
実施形態に係る文書分析装置は、文書格納手段と、カテゴリ格納手段と、単語抽出手段と、文書数算出手段と、特徴度算出手段と、特徴語抽出手段とを具備する。
【００１５】
文書格納手段は、階層構造を構成する複数のカテゴリに属する単語を含む複数の文書を格納する。
【００１６】
カテゴリ格納手段は、前記階層構造を構成するカテゴリ毎に、当該カテゴリに属する文書を示すカテゴリ情報を格納する。
【００１７】
単語抽出手段は、前記カテゴリ情報格納手段に格納されているカテゴリ情報によって示されるユーザによって指定された第１のカテゴリに属する複数の文書に含まれる単語を、前記文書格納手段に格納されている当該複数の文書から抽出する。
【００１８】
文書数算出手段は、前記カテゴリ格納手段に格納されているカテゴリ情報に基づいて、前記第１のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第１の文書数および前記階層構造において前記第１のカテゴリの下位に位置する第２のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第２の文書数を算出する。
【００１９】
特徴度算出手段は、前記第１のカテゴリに属する文書の数、前記第２のカテゴリに属する文書の数、前記第２のカテゴリの数、前記算出された第１および第２の文書数に基づいて、前記第１のカテゴリに対する前記抽出された単語の特徴度を算出する。
【００２０】
特徴語抽出手段は、前記特徴度算出手段によって算出された特徴度に基づいて、前記抽出された単語を前記第１のカテゴリに対する特徴語として抽出する。
【図面の簡単な説明】
【００２１】
【図１】第１の実施形態に係る文書分析装置のハードウェア構成を示すブロック図。
【図２】図１に示す文書分析装置３０の主として機能構成を示すブロック図。
【図３】図２に示す文書格納部２２に格納されている文書のデータ構造の一例を示す図。
【図４】ＸＭＬ形式で記述された文書の一例を示す図。
【図５】図２に示すカテゴリ格納部２３に格納されているカテゴリ情報のデータ構造の一例を示す図。
【図６】図２に示すカテゴリ格納部２３に格納されているカテゴリ情報のデータ構造の一例を示す図。
【図７】図２に示すカテゴリ格納部２３に格納されているカテゴリ情報のデータ構造の一例を示す図。
【図８】図２に示すカテゴリ格納部２３に格納されているカテゴリ情報のデータ構造の一例を示す図。
【図９】図２に示すカテゴリ格納部２３に格納されているカテゴリ情報のデータ構造の一例を示す図。
【図１０】本実施形態に係る文書分析装置３０の処理手順を示すフローチャート。
【図１１】カテゴリ提示部３１１によってカテゴリの階層構造が提示された場合のカテゴリ階層構造提示画面の一例を示す図。
【図１２】特徴語抽出要求画面の一例を示す図。
【図１３】単語抽出部３２１によって実行される単語抽出処理の処理手順を示すフローチャート。
【図１４】単語抽出処理が実行された後の単語データ格納部のデータ構造の一例を示す図。
【図１５】特徴語抽出部３２２によって実行される特徴語抽出処理の処理手順を示すフローチャート。
【図１６】単語データ中の単語毎に算出されたカテゴリ集合ＣＳに対する特徴度が格納された後の単語データ格納部のデータ構造の一例を示す図。
【図１７】第２の実施形態に係る文書分析装置の主として機能構成を示すブロック図。
【図１８】本実施形態に係る文書分析装置５０の処理手順を示すフローチャート。
【図１９】カテゴリ提示部３１１によってカテゴリの階層構造が提示された場合のカテゴリ階層構造提示画面の一例を示す図。
【図２０】クロス集計要求画面の一例を示す図。
【図２１】特徴語特性算出部５２１によって実行される特徴語特性算出処理の処理手順を示すフローチャート。
【図２２】特徴語毎に算出されたカテゴリ集合ＣＳに対する共通度が格納された後の単語データ格納部のデータ構造の一例を示す図。
【図２３】特徴語カテゴリ生成部５２２によって実行される特徴語カテゴリ生成処理の処理手順を示すフローチャート。
【図２４】中間カテゴリＣｐに関するカテゴリ情報のデータ構造の一例を示す図。
【図２５】特徴語「表示」を用いて生成された特徴語カテゴリに関するカテゴリ情報のデータ構造の一例を示す図。
【図２６】特徴語「操作」を用いて生成された特徴語カテゴリに関するカテゴリ情報のデータ構造の一例を示す図。
【図２７】クロス集計部５１１によって実行されるクロス集計処理の処理手順を示すフローチャート。
【図２８】ユーザインタフェース部５１によってユーザに提示されたクロス集計結果の一例を示す図。
【発明を実施するための形態】
【００２２】
以下、図面を参照して、各実施形態について説明する。
【００２３】
（第１の実施形態）
まず、図１および図２を参照して、第１の実施形態について説明する。図１は、本実施形態に係る文書分析装置のハードウェア構成を示すブロック図である。図１に示すように、コンピュータ１０は、例えばハードディスクドライブ（ＨＤＤ：Hard Disk Drive）のような外部記憶装置２０と接続されている。この外部記憶装置２０は、コンピュータ１０によって実行されるプログラム２１を格納する。コンピュータ１０および外部記憶装置２０は、文書分析装置３０を構成する。
【００２４】
図２は、図１に示す文書分析装置３０の主として機能構成を示すブロック図である。図２に示すように、文書分析装置３０は、ユーザインタフェース部３１および分析軸生成部３２を含む。本実施形態において、これらの各部３１および３２は、図１に示すコンピュータ１０が外部記憶装置２０に格納されているプログラム２１を実行することにより実現されるものとする。このプログラム２１は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム２１が、例えばネットワークを介してコンピュータ１０にダウンロードされても構わない。
【００２５】
また、文書分析装置３０は、文書格納部２２およびカテゴリ格納部２３を含む。本実施形態において、文書格納部２２およびカテゴリ格納部２３は、例えば外部記憶装置２０に格納される。
【００２６】
文書格納部２２には、文書分析装置３０による分析の対象となる複数の文書（データ）が格納される。文書格納部２２に格納される文書の各々は、例えば単語（文字列）を含み、階層構造を構成するカテゴリに属している（分類されている）。
【００２７】
カテゴリ格納部２３には、文書が属する階層構造を構成するカテゴリ毎に、当該カテゴリに関する情報（カテゴリ情報）が格納される。カテゴリに関するカテゴリ情報には、例えば階層構造において当該カテゴリの上位に位置するカテゴリ（上位カテゴリ）、当該カテゴリに属する文書および当該カテゴリのカテゴリ名等を示す情報が含まれる。
【００２８】
なお、文書格納部２２およびカテゴリ格納部２３は、ファイルシステムまたは文書データベース等によって実現されるが、例えば計算機ネットワークによって接続された複数の格納部（図示せず）によって構成されても構わない。
【００２９】
ユーザインタフェース部３１は、カテゴリ提示部３１１を含む。カテゴリ提示部３１１は、例えばカテゴリ格納部２３に格納されているカテゴリ情報を用いて、カテゴリの階層構造をユーザに対して提示する。なお、ユーザは、カテゴリ提示部３１１によって提示されたカテゴリの中から分析の対象（分析軸）となるカテゴリを指定することができる。
【００３０】
分析軸生成部３２は、階層構造においてユーザによって指定されたカテゴリ（第１のカテゴリ）の下位に位置するカテゴリ（第２のカテゴリ）の内容を相互に比較するための特徴語を抽出する機能を有する。分析軸生成部３２は、単語抽出部３２１および特徴語抽出部３２２を含む。以下の説明においては、ユーザによって指定されたカテゴリを分析軸カテゴリＣｔｇｔと称する。
【００３１】
単語抽出部３２１は、カテゴリ格納部２３に格納されているカテゴリ情報を参照して、文書格納部２２に格納されている分析軸カテゴリＣｔｇｔに属する複数の文書を例えば形態素解析する。これにより、単語抽出部３２１は、分析軸カテゴリＣｔｇｔに属する複数の文書に含まれる単語を、当該複数の文書から抽出する。
【００３２】
単語抽出部３２１は、抽出された単語が分析軸カテゴリＣｔｇｔに属する複数の文書において出現する文書の数（第１の文書数）を、文書格納部２２およびカテゴリ格納部２３を参照して算出する。
【００３３】
また、単語抽出部３２１は、抽出された単語が階層構造において分析軸カテゴリＣｔｇｔの下位に位置するカテゴリに属する複数の文書において出現する文書の数（第２の文書数）を、文書格納部２２およびカテゴリ格納部２３を参照して算出する。
【００３４】
特徴語抽出部３２２は、分析軸カテゴリＣｔｇｔに属する文書の数、階層構造において分析軸カテゴリＣｔｇｔの下位に位置するカテゴリに属する文書の数、当該カテゴリの数、単語抽出部３２１によって算出された文書数（第１および第２の文書数）に基づいて、分析軸カテゴリＣｔｇｔに対する単語抽出部３２１によって抽出された単語の特徴度を算出する。
【００３５】
特徴語抽出部３２２は、算出された単語の特徴度に基づいて、単語抽出部３２１によって抽出された単語を分析軸カテゴリＣｔｇｔに対する特徴語として抽出する。
【００３６】
なお、特徴語抽出部３２２によって抽出された特徴語は、例えばユーザインタフェース部３１を介してユーザに提示される。
【００３７】
図３は、図２に示す文書格納部２２に格納されている文書のデータ構造の一例を示す。図２に示す文書２２１は、特許に関する情報が記述された文書（特許文書）であるものとする。
【００３８】
図３に示すように、文書２２１には、当該文書２２１を一意に識別するための識別子である文書番号が含まれる。また、文書２２１には、当該文書２２１に関するテキスト、すなわち、例えば自然言語で記述された文書名および本文が含まれる。更に、文書２２１には、当該文書２２１の目的または形式に従った属性情報が含まれる。図３に示す文書２２１には、属性情報として、特許出願に係る出願日および当該特許出願をした出願人が含まれる。
【００３９】
なお、図４に示すように、文書格納部２２に格納される文書２２１は、例えばＸＭＬ（eXtensible Markup Language）形式で記述して管理することも可能である。この場合、文書２２１に含まれるテキスト（文書名および本文）および属性情報（出願日および出願人）は、ＸＭＬの要素（タグ）等を用いて記述される。
【００４０】
図５〜図９は、図２に示すカテゴリ格納部２３に格納されているカテゴリ情報のデータ構造の一例を示す。カテゴリ情報は、階層構造を構成するカテゴリ毎にカテゴリ格納部２３に格納されている。
【００４１】
図５〜図９に示すように、カテゴリ情報には、カテゴリ番号、上位カテゴリ番号、カテゴリ名および分類ルールが含まれる。
【００４２】
カテゴリ番号は、カテゴリを一意に識別するための識別子である。上位カテゴリ番号は、階層構造においてカテゴリ番号によって識別されるカテゴリの上位に位置するカテゴリ（上位カテゴリ）を識別するためのカテゴリ番号を示す。カテゴリ名は、カテゴリ番号によって識別されるカテゴリの名称を示す。分類ルールは、カテゴリ番号によって識別されるカテゴリに属する文書を示す。
【００４３】
図５は、カテゴリの階層構造におけるルートのカテゴリ（以下、ルートカテゴリと表記）に関するカテゴリ情報のデータ構造の一例を示す。
【００４４】
図５に示す例では、カテゴリ情報２３１には、カテゴリ番号「Ｃ０００」、カテゴリ名「ルート」および分類ルール「ｔｒｕｅ（恒真）」が含まれている。これによれば、カテゴリ番号「Ｃ０００」によって識別されるルートカテゴリのカテゴリ名が「ルート」であることが示されている。ここで、分類ルール「ｔｒｕｅ（恒真）」は、全ての文書が条件を満足することを表す。すなわち、カテゴリ情報２３１に含まれるカテゴリ番号「Ｃ０００」によって識別されるカテゴリ（ルートカテゴリ）には、文書格納部２２に格納されている全ての文書が属することが示されている。なお、カテゴリ番号「Ｃ０００」によって識別されるカテゴリはルートカテゴリであり、階層構造において当該カテゴリの上位カテゴリは存在しないため、カテゴリ情報２３１に含まれる上位カテゴリ番号は「（なし）」とされている。
【００４５】
図６は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリに関するカテゴリ情報のデータ構造の一例を示す。
【００４６】
図６に示す例では、カテゴリ情報２３２には、カテゴリ番号「Ｃ００１」、上位カテゴリ番号「Ｃ０００」、カテゴリ名「出願人別」および分類ルール「ｔｒｕｅ（恒真）」が含まれている。これによれば、カテゴリ番号「Ｃ００１」によって識別されるカテゴリの上位カテゴリが上位カテゴリ番号「Ｃ０００」によって識別されるカテゴリ（つまり、ルートカテゴリ）であることが示されている。また、カテゴリ番号「Ｃ００１」によって識別されるカテゴリのカテゴリ名が「出願人別」であり、当該カテゴリには文書格納部２２に格納されている全ての文書が属することが示されている。
【００４７】
図７は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリに関するカテゴリ情報のデータ構造の一例を示す。
【００４８】
図７に示す例では、カテゴリ情報２３３には、カテゴリ番号「Ｃ００２」、上位カテゴリ番号「Ｃ０００」、カテゴリ名「出願年別」および分類ルール「ｔｒｕｅ（恒真）」が含まれている。これによれば、カテゴリ番号「Ｃ００２」によって識別されるカテゴリの上位カテゴリが上位カテゴリ番号「Ｃ０００」によって識別されるカテゴリ（つまり、ルートカテゴリ）であることが示されている。また、カテゴリ番号「Ｃ００２」によって識別されるカテゴリのカテゴリ名が「出願年別」であり、当該カテゴリには文書格納部２２に格納されている全ての文書が属することが示されている。
【００４９】
図８は、カテゴリの階層構造において図６に示すカテゴリ情報２３２に含まれるカテゴリ番号「Ｃ００１」によって識別されるカテゴリの下位に位置するカテゴリに関するカテゴリ情報のデータ構造の一例を示す。
【００５０】
図８に示す例では、カテゴリ情報２３４には、カテゴリ番号「Ｃ１０１」、上位カテゴリ番号「Ｃ００１」、カテゴリ名「Ａ社」および分類ルール「./出願人=”Ａ社”」が含まれている。これによれば、カテゴリ番号「Ｃ１０１」によって識別されるカテゴリの上位カテゴリが上位カテゴリ番号「Ｃ００１」によって識別されるカテゴリであることが示されている。また、カテゴリ番号「Ｃ１０１」によって識別されるカテゴリのカテゴリ名が「Ａ社」であることが示されている。
【００５１】
ここで、カテゴリ情報２３４に含まれている分類ルール「./出願人=”Ａ社”」は、文書に含まれる属性情報である出願人がＡ社であることを条件とするルールである。つまり、この分類ルール「./出願人=”Ａ社”」によれば、カテゴリ番号「Ｃ１０１」によって識別されるカテゴリには、出願人がＡ社である文書（つまり、属性情報として出願人「Ａ社」を含む文書）が属することが示されている。
【００５２】
なお、この分類ルール「./出願人=”Ａ社”」は、上記したＸＭＬ形式で記述された文書についての条件が記述された例である。ここでは、ＸＱｕｅｒｙ（またはＸＰａｔｈ）と呼ばれる問合せ言語を用いて記述されている。
【００５３】
図９は、カテゴリの階層構造において図７に示すカテゴリ情報２３３に含まれるカテゴリ番号「Ｃ００２」によって識別されるカテゴリの下位に位置するカテゴリに関するカテゴリ情報のデータ構造の一例を示す。
【００５４】
図９に示す例では、カテゴリ情報２３５には、カテゴリ番号「Ｃ２０６」、上位カテゴリ番号「Ｃ００２」、カテゴリ名「２００８年」および分類ルール「./出願日>=”2008/01/01” and ./出願日<=”2008/12/31”」が含まれている。これによれば、カテゴリ番号「Ｃ２０６」によって識別されるカテゴリの上位カテゴリが上位カテゴリ番号「Ｃ００２」によって識別されるカテゴリであることが示されている。また、カテゴリ番号「Ｃ２０６」によって識別されるカテゴリのカテゴリ名が「２００８年」であることが示されている。
【００５５】
ここで、カテゴリ情報２３５に含まれている分類ルール「./出願日>=”2008/01/01” and ./出願日<=”2008/12/31”」は、文書に含まれる属性情報である出願日が２００８年（つまり、２００８年１月１日〜２００８年１２月３１）であることを条件とするルールである。つまり、この分類ルール「./出願日>=”2008/01/01” and ./出願日<=”2008/12/31”」によれば、カテゴリ番号「Ｃ２０６」によって識別されるカテゴリには、出願日が２００８年である文書（つまり、属性情報として出願日「２００８／０１／０１」〜「２００８／１２／３１」を含む文書）が属することが示されている。なお、この分類ルール「./出願日>=”2008/01/01” and ./出願日<=”2008/12/31”」は、上記したＸＱｕｅｒｙと呼ばれる問合せ言語を用いて記述されている。
【００５６】
ここで、例えば図７に示すカテゴリ情報２３５がカテゴリ番号「Ｃ１０１」によって識別されるカテゴリの下位に位置するカテゴリに関するカテゴリ情報である場合、つまり、カテゴリ情報２３５に含まれる上位カテゴリ番号が「Ｃ１０１」である場合を想定する。この場合、カテゴリ情報２３５に含まれるカテゴリ番号「Ｃ２０６」によって識別されるカテゴリには、出願人がＡ社であり、かつ、出願日が２００８年である文書が属する。つまり、階層構造において下位の位置にあるカテゴリには、当該カテゴリに関するカテゴリ情報に含まれる分類ルールと、当該カテゴリの上位カテゴリに関するカテゴリ情報に含まれる分類ルールとのＡＮＤ条件に合致する文書が属する。換言すれば、カテゴリ情報に含まれる分類ルールは、カテゴリの階層構造に対してＡＮＤ条件として作用する。これによれば、階層構造において下位の位置にあるカテゴリには、当該カテゴリの上位に位置するカテゴリに属する文書が属することになる。
【００５７】
なお、上記した図８および図９に示すカテゴリ情報２３４および２３５に含まれる分類ルールはＸＱｕｅｒｙと呼ばれる問合せ言語を用いて記述されるものとして説明したが、当該分類ルールの記述形式は、上述した文書格納部２２の実現方法または当該文書格納部２２に格納される文書のデータ形式に応じて定めればよく、例えばＳＱＬ等が用いられても構わない。
【００５８】
次に、図１０のフローチャートを参照して、本実施形態に係る文書分析装置３０の処理手順について説明する。
【００５９】
まず、ユーザインタフェース部３１に含まれるカテゴリ提示部３１１は、カテゴリ格納部２３に格納されているカテゴリ情報を取得する（ステップＳ１）。
【００６０】
次に、カテゴリ提示部３１１は、取得されたカテゴリ情報に含まれるカテゴリ番号、上位カテゴリ番号およびカテゴリ名に基づいて、カテゴリの階層構造をユーザに提示（表示）する（ステップＳ２）。
【００６１】
ここで、図１１は、カテゴリ提示部３１１によってカテゴリの階層構造が提示された場合の画面（以下、カテゴリ階層構造提示画面と表記）の一例を示す。
【００６２】
図１１に示すように、カテゴリ階層構造提示画面１００には、階層構造を構成するカテゴリのカテゴリ名がツリー状（カテゴリツリー）で表示される。以下、例えばカテゴリ名が出願人別であるカテゴリを単にカテゴリ「出願人別」と称する。なお、他のカテゴリについても同様とする。
【００６３】
図１１に示すカテゴリ階層構造提示画面１００おいては、カテゴリ「出願人別」がルートカテゴリの下位に位置するカテゴリであることが示されている。また、カテゴリ階層構造提示画面１００においては、カテゴリ「Ａ社」、「Ｂ社」、「Ｃ社」、…、「Ｊ社」がカテゴリ「出願人別」の下位に位置するカテゴリであることが示されている。
【００６４】
同様に、カテゴリ階層構造提示画面１００においては、カテゴリ「出願年別」がルートカテゴリの下位に位置するカテゴリであることが示されている。また、カテゴリ階層構造提示画面１００においては、カテゴリ「２００４年」、「２００５年」、「２００６年」、「２００７年」および「２００８年」がカテゴリ「出願年別」の下位に位置するカテゴリであることが示されている。
【００６５】
なお、図１１に示すカテゴリ階層構造提示画面１００において、「ルート（３０００件）」が表示されているが、当該「３０００件」は、ルートカテゴリに属する文書（つまり、文書格納部２２に格納されている文書）の数を表す。
【００６６】
ここで、上記したカテゴリ階層構造提示画面１００がカテゴリ提示部３１１によって提示されると、ユーザは、当該カテゴリ階層構造提示画面１００を参照することによって、当該カテゴリ階層構造提示画面１００に表示されている複数のカテゴリの中から分析の対象（分析軸）となるカテゴリ（以下、分析軸カテゴリＣｔｇｔと表記）を指定することができる。
【００６７】
カテゴリ階層構造提示画面１００において分析軸カテゴリＣｔｇｔとして例えばカテゴリ「出願人別」が指定されたものとすると、図１２に示すような画面（以下、特徴語抽出要求画面と表記）１１０が表示される。
【００６８】
図１２に示すように、特徴語抽出要求画面１１０には、カテゴリの階層構造に加えてサブ画面１１１が表示されている。このサブ画面１１１には、例えば「カテゴリ「出願人別」を分析軸として特徴語を抽出します。」が表示されている。
【００６９】
また、このサブ画面１１１には、実行ボタン１１１ａおよびキャンセルボタン１１１ｂが設けられている。
【００７０】
文書分析装置３０に対するユーザの操作に応じてサブ画面１１１に設けられている実行ボタン１１１ａが選択されると、分析軸カテゴリＣｔｇｔ（ここでは、カテゴリ「出願人別」）に対する特徴語の抽出が文書分析装置３０に対して要求される。
【００７１】
一方、文書分析装置３０に対するユーザの操作に応じてサブ画面１１１に設けられているキャンセルボタン１１１ｂが選択されると、分析軸カテゴリＣｔｇｔを選択し直すための画面として例えば図１１に示すカテゴリ階層構造提示画面１００が表示される。
【００７２】
なお、サブ画面１１１には、抽出される特徴語の数を設定する欄１１１ｃが設けられており、この欄１１１ｃに対してユーザは所望の数値を入力することができる。
【００７３】
再び図１０に戻ると、ユーザの操作に応じて上記した特徴語の抽出が要求されたか否かが判定される（ステップＳ３）。
【００７４】
特徴語の抽出が要求されたと判定された場合（ステップＳ３のＹＥＳ）、分析軸生成部３２に含まれる単語抽出部３２１は、分析軸カテゴリＣｔｇｔ（の下位に位置するカテゴリの集合）に属する文書に含まれる単語を抽出し、当該抽出された単語の出現頻度等を算出する処理（以下、単語抽出処理と表記）を実行する。なお、単語抽出処理の詳細については後述する。
【００７５】
次に、特徴語抽出部３２２は、単語抽出部３２１によって抽出された単語の中から分析軸カテゴリＣｔｇｔ（の下位に位置するカテゴリの集合）に対する特徴語を抽出する処理（以下、特徴語抽出処理と表記）を実行する（ステップＳ５）。この特徴語抽出処理においては、単語抽出部３２１によって算出された単語の出現頻度等に基づいて当該単語抽出部３２１によって抽出された単語の特徴度が算出され、当該特徴度に基づいて特徴語が抽出される。なお、特徴語抽出処理の詳細については後述する。
【００７６】
ユーザインタフェース部３１（に含まれるカテゴリ提示部３１１）は、特徴語抽出部３２２によって抽出された特徴語をユーザに対して提示する（ステップＳ６）。
【００７７】
これにより、階層構造において分析軸カテゴリＣｔｇｔの下位に位置するカテゴリの内容を相互に比較するのに適した特徴語をユーザに対して提示することができる。
【００７８】
次に、図１３のフローチャートを参照して、上述した単語抽出部３２１によって実行される単語抽出処理（図１０に示すステップＳ４の処理）の処理手順について説明する。
【００７９】
まず、単語抽出部３２１は、階層構造においてユーザによって指定された分析軸カテゴリＣｔｇｔの下位に位置するカテゴリ（当該分析軸カテゴリＣｔｇｔを上位カテゴリとするカテゴリ）の集合（以下、カテゴリ集合ＣＳと表記）を特定する（ステップＳ１１）。つまり、このカテゴリ集合ＣＳには、階層構造において分析軸カテゴリＣｔｇｔの下位に位置するカテゴリが含まれる。
【００８０】
なお、カテゴリ集合ＣＳに含まれるカテゴリ（分析軸カテゴリＣｔｇｔを上位カテゴリとするカテゴリ）は、分析軸カテゴリＣｔｇｔを識別するためのカテゴリ番号を上位カテゴリ番号として含むカテゴリ情報のカテゴリ番号によって識別されるカテゴリである。
【００８１】
ここで、単語抽出部３２１によって特定されたカテゴリ集合ＣＳには、カテゴリＣ１、Ｃ２、…、Ｃａのａ個のカテゴリが含まれているものとする。
【００８２】
単語抽出部３２１は、以下の処理において用いられる空の文書集合Ｄａｌｌを用意する（ステップＳ１２）。
【００８３】
次に、単語抽出部３２１は、カテゴリ集合ＣＳに含まれるカテゴリＣｉ（ｉ＝１、２、…、ａ）について以下のステップＳ１３およびＳ１４の処理を実行する。
【００８４】
単語抽出部３２１は、カテゴリＣｉに関するカテゴリ情報をカテゴリ格納部２３から取得する。ここで、単語抽出部３２１は、カテゴリＣｉを識別するためのカテゴリ番号を含むカテゴリ情報を取得する。
【００８５】
単語抽出部３２１は、取得されたカテゴリ情報に基づいて、カテゴリＣｉに属する文書の集合（以下、文書集合Ｄｉと表記）を文書格納部２２から取得する（ステップＳ１３）。この場合、単語抽出部３２１は、取得されたカテゴリ情報に含まれる分類ルールによって示される条件に合致する文書の集合を文書集合Ｄｉとして取得する。
【００８６】
単語抽出部３２１は、取得された文書集合Ｄｉおよび文書集合Ｄａｌｌの和集合を後の処理における文書集合Ｄａｌｌとする（ステップＳ１４）。
【００８７】
次に、単語抽出部３２１は、カテゴリ集合ＣＳに含まれる全てのカテゴリ（つまり、カテゴリＣ１、Ｃ２、…、Ｃａ）についてステップＳ１３およびＳ１４の処理が実行されたか否かを判定する（ステップＳ１５）。
【００８８】
全てのカテゴリについて処理が実行されていないと判定された場合（ステップＳ１５のＮＯ）、上記したステップＳ１３に戻って処理が繰り返される。
【００８９】
このようにカテゴリ集合ＣＳに含まれる全てのカテゴリについてステップＳ１３およびＳ１４の処理が繰り返されることによって、単語抽出部３２１は、当該カテゴリ集合ＣＳに属する全ての文書を含む文書集合Ｄａｌｌを取得する。
【００９０】
ステップＳ１５において全てのカテゴリについて処理が実行されたと判定された場合、単語抽出部３２１は、取得された文書集合Ｄａｌｌに含まれる全ての文書のテキスト情報（当該文書に含まれる文書名および本文）を形態素解析する（ステップＳ１６）。これにより、単語抽出部３２１は、文書集合Ｄａｌｌに含まれる文書の各々に含まれる単語（形態素）を抽出する。
【００９１】
次に、単語抽出部３２１は、抽出された単語の各々について以下のステップＳ１７〜Ｓ２１の処理を実行する。このステップＳ１７〜Ｓ２１の処理の対象となる単語を単語ｔと称する。
【００９２】
この場合、単語抽出部３２１は、文書集合Ｄａｌｌにおいて出現する単語ｔの数（当該文書集合Ｄａｌｌにおける当該単語ｔの単語頻度）を示すｔｆ（ｔ，Ｄａｌｌ）および当該文書集合Ｄａｌｌにおいて単語ｔが出現する文書の数（当該文書集合Ｄａｌｌにおける当該単語ｔの文書頻度）を示すｄｆ（ｔ，Ｄａｌｌ）を算出する（ステップＳ１７）。
【００９３】
単語抽出部３２１は、算出されたｔｆ（ｔ，Ｄａｌｌ）およびｄｆ（ｔ，Ｄａｌｌ）を例えば分析軸生成部３２の内部の図示しない格納部（以下、単語データ格納部と表記）に格納する（ステップＳ１８）。
【００９４】
次に、単語抽出部３２１は、カテゴリ集合ＣＳに含まれるカテゴリＣｉについて以下のステップＳ１９およびＳ２０の処理を実行する。
【００９５】
この場合、単語抽出部３２１は、文書集合Ｄｉ（カテゴリＣｉに属する文書集合）において出現する単語ｔの数（当該文書集合Ｄｉにおける単語ｔの単語頻度）を示すｔｆ（ｔ，Ｄｉ）および当該文書集合Ｄｉにおいて単語ｔが出現する文書の数（当該文書集合Ｄｉにおける当該単語ｔの文書頻度）を示すｄｆ（ｔ，Ｄｉ）を算出する（ステップＳ１９）。
【００９６】
単語抽出部３２１は、算出されたｔｆ（ｔ，Ｄｉ）およびｄｆ（ｔ，Ｄｉ）を単語データ格納部に格納する（ステップＳ２０）。
【００９７】
次に、単語抽出部３２１は、カテゴリ集合ＣＳに含まれる全てのカテゴリ（つまり、カテゴリＣ１、Ｃ２、…、Ｃａ）についてステップＳ１９およびＳ２０の処理が実行されたか否かを判定する（ステップＳ２１）。
【００９８】
全てのカテゴリについて処理が実行されていないと判定された場合（ステップＳ２１のＮＯ）、上記したステップＳ１９に戻って処理が繰り返される。
【００９９】
一方、全てのカテゴリについて処理が実行されたと判定された場合（ステップＳ２１のＹＥＳ）、単語抽出部３２１は、抽出された全ての単語についてステップＳ１７〜ステップＳ２１の処理が実行されたか否かを判定する（ステップＳ２２）。
【０１００】
全ての単語について処理が実行されていないと判定された場合（ステップＳ２２のＮＯ）、上記したステップＳ１７に戻って処理が繰り返される。この場合、ステップＳ１７〜ステップＳ２１の処理が実行されていない単語を単語ｔとして処理が実行される。
【０１０１】
一方、全ての単語について処理が実行されたと判定された場合（ステップＳ２２のＹＥＳ）、単語抽出処理は終了される。
【０１０２】
このように単語抽出処理が実行されると、単語データ格納部には、単語抽出部３２１によって抽出された単語ｔおよびカテゴリ集合ＣＳに含まれるカテゴリＣｉ（の組）毎に、当該カテゴリＣｉに属する文書集合Ｄｉにおける当該単語ｔの単語頻度ＴＦ（ｔｆ（ｔ，Ｄｉ））および文書頻度ＤＦ（ｄｆ（ｔ，Ｄｉ））が格納される。また、単語データ格納部には、単語抽出部３２１によって抽出された単語ｔ毎に、当該カテゴリ集合ＣＳに属する文書集合Ｄａｌｌにおける当該単語ｔの単語頻度ＴＦ（ｔｆ（ｔ，Ｄａｌｌ））および文書頻度ＤＦ（ｄｆ（ｔ，Ｄａｌｌ））が格納される。
【０１０３】
なお、図１３に示す単語抽出処理においては、単語抽出部３２１によって抽出された全ての単語についてステップＳ１７〜Ｓ２１の処理が実行されるものとして説明したが、例えば所定の品詞の単語のみを当該処理の対象とする、または、当該抽出された単語から不要語を除くことによって、当該処理の対象となる単語の絞り込みを行っても構わない。具体的には、品詞がサ変名詞および固有名詞を含む名詞である単語のみを対象とし、接続詞および副詞等は処理の対象としない構成であってもよい。また、文書格納部２２に格納されている文書が特許文書である場合には、例えば「装置」および「手段」のような単語は文書の特徴を表さないため、不要語として除去しても構わない。
【０１０４】
ここで、図１４は、単語抽出処理が実行された後の単語データ格納部のデータ構造の一例を示す。
【０１０５】
図１４に示すように、単語データ格納部には、単語抽出部３２１によって抽出された単語およびカテゴリ集合ＣＳに含まれるカテゴリ（の組）に対応づけて当該単語の文書頻度ＤＦおよび単語頻度ＴＦが格納されている。なお、図１４に示す例では、便宜的に、単語抽出部３２１によって抽出された単語として「操作」、「通信」、「パネル」、「レンジ」、「フィルム」および「表示」のみが示されており、カテゴリ集合ＣＳに含まれるカテゴリとしてカテゴリ「Ａ社」、「Ｂ社」、「Ｃ社」および「Ｄ社」のみが示されている。
【０１０６】
具体的には、単語データ格納部には、単語「操作」およびカテゴリ「Ａ社」に対応づけて文書頻度ＤＦ（当該単語「操作」が単語ｔであり、カテゴリ「Ａ社」に属する文書集合が文書集合Ｄｉである場合のｄｆ（ｔ，Ｄｉ））として「３４」が格納されている。これによれば、単語「操作」は、カテゴリ「Ａ社」に属する文書集合において３４の文書に出現することが示されている。
【０１０７】
同様に、単語データ格納部には、単語「操作」およびカテゴリ「Ａ社」に対応づけて単語頻度ＴＦ（当該単語「操作」が単語ｔであり、「Ａ社」カテゴリに属する文書集合が文書集合Ｄｉである場合のｔｆ（ｔ，Ｄｉ））として「１１７」が格納されている。これによれば、単語「操作」は、カテゴリ「Ａ社」に属する文書集合において１１７回出現することが示されている。
【０１０８】
ここでは、単語「操作」およびカテゴリ「Ａ社」に対応づけて単語データ格納部に格納されている文書頻度ＤＦおよび単語頻度ＴＦについてのみ説明したが、他の文書頻度ＤＦおよび単語頻度ＴＦについても同様であるため、その詳しい説明を省略する。
【０１０９】
また、単語データ格納部には、単語抽出部３２１によって抽出された各単語の全文書（カテゴリ集合ＣＳに属する文書集合Ｄａｌｌ）における文書頻度ＤＦおよび単語頻度ＴＦが格納されている。
【０１１０】
図１４に示す例では、単語データ格納部には、全文書における単語「操作」の文書頻度ＤＦ（当該単語「操作」が単語ｔである場合のｄｆ（ｔ，Ｄａｌｌ））として「１６９」が格納されている。これによれば、単語「操作」は、カテゴリ集合ＣＳに属する文書集合Ｄａｌｌにおいて１６９の文書に出現することが示されている。
【０１１１】
同様に、単語データ格納部には、全文書における単語「操作」の単語頻度ＴＦ（当該単語「操作」が単語ｔである場合のｔｆ（ｔ，Ｄａｌｌ））として「５２５」が格納されている。これによれば、単語「操作」は、カテゴリ集合ＣＳに属する文書集合Ｄａｌｌにおいて５２５回出現することが示されている。
【０１１２】
なお、図１４においては図示されていないが、単語データ格納部には、カテゴリ集合ＣＳに含まれるカテゴリ毎に当該カテゴリに属する文書の数（つまり、カテゴリＣｉに属する文書集合Ｄｉに含まれる文書の数）および当該カテゴリ集合ＣＳに属する文書の数（つまり、カテゴリ集合ＣＳに属する文書集合Ｄａｌｌに含まれる文書の数）等の情報が格納されている。
【０１１３】
次に、図１５のフローチャートを参照して、上述した特徴語抽出部３２２によって実行される特徴語抽出処理（図１０に示すステップＳ５の処理）の処理手順について説明する。なお、上記した単語データ格納部に格納されている情報を、便宜的に単語データと称する。
【０１１４】
まず、特徴語抽出部３２２は、上記した単語データ格納部に格納されている単語データを取得する（ステップＳ３１）。
【０１１５】
次に、特徴語抽出部３２２は、取得された単語データ中の単語の各々について以下のステップＳ３２およびＳ３３の処理を実行する。このステップＳ３２およびＳ３３の処理の対象となる単語を単語ｔと称する。
【０１１６】
特徴語抽出部３２２は、取得された単語データを用いて、分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）に対する単語ｔの特徴度を算出する（ステップＳ３２）。
【０１１７】
ここで、分析軸カテゴリＣｔｇｔに対する単語ｔの特徴度の算出について詳細に説明する。以下の説明においては、カテゴリ集合ＣＳ（分析軸カテゴリＣｔｇｔ）に属する全ての文書の集合を上記したように文書集合Ｄａｌｌとする。また、カテゴリ集合ＣＳにはカテゴリＣ１、Ｃ２、…、Ｃａが含まれるものとし、当該カテゴリ集合ＣＳに含まれるカテゴリの数をａとする。更に、カテゴリ集合ＣＳに含まれるカテゴリのうちのｉ番目のカテゴリをカテゴリＣｉ（ｉ＝１，２，…，ａ）とする。また、カテゴリＣｉに属する文書の集合を文書集合Ｄｉとする。また、文書集合Ｄａｌｌに含まれる文書の数を文書数｜Ｄａｌｌ｜とし、文書集合Ｄｉに含まれる文書の数を文書数｜Ｄｉ｜とする。
【０１１８】
まず、特徴語抽出部３２２は、文書数｜Ｄａｌｌ｜および文書集合Ｄａｌｌにおける単語ｔの文書頻度ＤＦ（つまり、ｄｆ（ｔ，Ｄａｌｌ））に基づいて、当該文書集合Ｄａｌｌにおける単語ｔの出現確率に対する当該文書毎の偏りｓ_ｔおよび当該偏りｓ_ｔの自由度φ_ｔを算出する。具体的には、偏りｓ_ｔおよび自由度φ_ｔは、以下の式（１）および（２）により算出される。
【数１】

【０１１９】
【数２】

【０１２０】
また、特徴語抽出部３２２は、カテゴリ集合ＣＳに含まれるカテゴリの数ａ、文書数｜Ｄｉ｜および文書集合Ｄｉにおける単語ｔの文書頻度ＤＦ（つまり、ｄｆ（ｔ，Ｄｉ））に基づいて、文書集合Ｄａｌｌにおける単語ｔの出現確率に対するカテゴリ毎の偏りｓ_ａおよび当該偏りｓ_ａの自由度φ_ａを算出する。具体的には、偏りｓ_ａおよび自由度φ_ａは、以下の式（３）および（４）により算出される。
【数３】

【０１２１】
【数４】

【０１２２】
次に、特徴語抽出部３２２は、上記したように算出された偏りｓ_ｔ、偏りｓ_ａ、文書数｜Ｄａｌｌ｜およびカテゴリ集合ＣＳに含まれるカテゴリの数ａに基づいて、当該カテゴリ毎の平均に対する偏りｓ_ｅおよび当該偏りｓ_ｅの自由度φ_ｅを算出する。具体的には、偏りｓ_ｅおよび自由度φ_ｅは、以下の式（５）および（６）により算出される。
【数５】

【０１２３】
【数６】

【０１２４】
更に、特徴語抽出部３２２は、上記したように算出された偏りｓ_ａ、自由度φ_ａ、偏りｓ_ｅおよび自由度φ_ｅに基づいて、カテゴリ集合ＣＳに含まれるカテゴリ間の分散ｖ_ａおよび誤差の分散ｖ_ｅを算出する。具体的には、カテゴリ間の分散ｖ_ａおよび誤差の分散ｖ_ｅは、以下の式（７）および（８）により算出される。
【数７】

【０１２５】
【数８】

【０１２６】
最後に、特徴語抽出部３２２は、上記したように算出されたカテゴリ間の分散ｖ_ａおよび誤差の分散ｖ_ｅに基づいて、カテゴリ集合ＣＳに対する単語ｔの特徴度ｓｃｏｒｅ（ｔ，ＣＳ）を算出する。具体的には、特徴度ｓｃｏｒｅ（ｔ，ＣＳ）は、以下の式（９）により算出される。
【数９】

【０１２７】
カテゴリ集合ＣＳに含まれるカテゴリを比較する上では、当該比較するカテゴリ集合ＣＳの中で特定のカテゴリに偏って出現する単語が重要となる。このため、特徴語抽出部３２２では、上記したように分散分析手法を応用し、カテゴリ集合ＣＳ（分析軸カテゴリＣｔｇｔ）についてカテゴリ間での出現確率の偏りの有意性が単語ｔの特徴度として算出される。
【０１２８】
ステップＳ３２の処理が実行されると、特徴語抽出部３２２は、算出された単語ｔの特徴度を単語データ格納部に格納する（ステップＳ３３）。
【０１２９】
次に、特徴語抽出部３２２は、単語データ中の全ての単語についてステップＳ３２およびＳ３３の処理が実行されたか否かを判定する（ステップＳ３４）。
【０１３０】
全ての単語について処理が実行されていないと判定された場合（ステップＳ３４のＮＯ）、上記したステップＳ３２に戻って処理が繰り返される。この場合、ステップＳ３２およびＳ３３の処理が実行されていない単語を単語ｔとして処理が実行される。
【０１３１】
このように単語データ中の全ての単語についてステップＳ３２およびＳ３３の処理が繰り返されることによって、当該単語の各々について特徴度が算出され、当該特徴度が当該単語毎に単語データ格納部に格納される。
【０１３２】
ここで、図１６は、単語データ中の単語毎に算出された特徴度が格納された後の単語データ格納部のデータ構造の一例を示す。
【０１３３】
図１６に示すように、単語データ格納部には、単語データ中の単語毎に特徴度が格納されている。
【０１３４】
図１６に示す例では、単語データ格納部には、例えば単語「操作」の特徴度として「１．５０」が格納されている。
【０１３５】
ここでは、単語「操作」について説明したが、単語データ格納部には他の単語についても同様に特徴度が格納されている。
【０１３６】
ステップＳ３４において全ての単語について処理が実行されたと判定された場合、特徴語抽出部３２２は、単語データ格納部に単語毎に格納された特徴度を参照して、単語データ中の単語の中から分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）に対する特徴語を抽出する（ステップＳ２５）。
【０１３７】
この場合、特徴語抽出部３２２は、例えば単語データ中の単語のうち特徴度が上位ｎ位までの単語を特徴語として抽出する。ここで、ｎは、例えば図１２に示す特徴語抽出要求画面１１０のサブ画面１１１に設けられている欄１１１ｃにおいてユーザによって指定された数である。なお、ｎは、例えば文書分析装置３０の内部で予め設定されていても構わない。
【０１３８】
また、特徴語抽出部３２２は、特徴度が予め定められた値（閾値）以上である単語を特徴語として抽出する構成であっても構わない。
【０１３９】
このように特徴語抽出部３２２によって抽出されたカテゴリ集合ＣＳに対する特徴語は、上述したようにユーザに対して提示される。この場合、特徴語抽出部３２２によって抽出された特徴語に加えて、カテゴリ集合ＣＳに含まれる各カテゴリ（つまり、階層構造において分析軸カテゴリＣｔｇｔの下位に位置するカテゴリ）に属する文書集合における当該特徴語の文書頻度ＤＦ等がともに提示されても構わない。
【０１４０】
上記したように本実施形態においては、ユーザによって指定された分析軸カテゴリＣｔｇｔ（の下位に位置するカテゴリを含むカテゴリ集合ＣＳ）に属する文書集合から単語を抽出し、当該文書集合において当該単語が出現する文書の数を示す文書頻度（第１の文書数）および階層構造において分析軸カテゴリＣｔｇｔの下位に位置するカテゴリに属する文書集合において当該単語が出現する文書の数を示す文書頻度（第２の文書数）を算出し、当該分析軸カテゴリＣｔｇｔに属する文書集合に含まれる文書の数、当該分析軸カテゴリＣｔｇｔの下位に位置するカテゴリの数、当該算出された文書頻度（第１および第２の文書数）に基づいて分析軸カテゴリＣｔｇｔに対する当該単語の特徴度を算出し、当該算出された単語の特徴度に基づいて当該単語を分析軸カテゴリＣｔｇｔに対する特徴語として抽出する。
【０１４１】
このように本実施形態においては、分散分析の手法を応用し、分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）について各単語のカテゴリ間での出現確率の偏りの有意性を単語の特徴度として算出し、当該算出された特徴度に基づいて当該分析軸カテゴリＣｔｇｔに対する特徴語を抽出するため、階層構造において当該分析軸カテゴリＣｔｇｔの下位に位置する複数のカテゴリ（カテゴリ集合ＣＳに含まれる複数のカテゴリ）の内容を相互に比較するのに好適な特徴語を抽出することが可能となる。
【０１４２】
（第２の実施形態）
次に、図１７を参照して、第２の実施形態について説明する。図１７は、本実施形態に係る文書分析装置の主として機能構成を示すブロック図である。なお、前述した図２と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図２と異なる部分について主に述べる。
【０１４３】
また、本実施形態に係る文書分析装置のハードウェア構成は前述した第１の実施形態にと同様であるため、適宜図１を用いて説明する。
【０１４４】
本実施形態においては、前述した第１の実施形態において説明した処理によって抽出された特徴語を用いて文書が属するカテゴリ（以下、特徴語カテゴリと表記）を生成し、階層構造においてユーザによって指定されたカテゴリ（分析軸カテゴリＣｔｇｔ）の下位に位置するカテゴリと当該特徴語カテゴリとでクロス集計を行う点が、前述した第１の実施形態とは異なる。
【０１４５】
図１７に示すように、本実施形態に係る文書分析装置５０は、ユーザインタフェース部５１および分析軸生成部５２を含む。本実施形態において、これらの各部５１および５２は、図１に示すコンピュータ１０が外部記憶装置２０に格納されているプログラム２１を実行することにより実現されるものとする。
【０１４６】
ユーザインタフェース部５１は、クロス集計部５１１を含む。クロス集計部５１２は、分析軸カテゴリＣｔｇｔと特徴語カテゴリとをクロス集計する。なお、特徴語カテゴリとは、後述するように分析軸カテゴリＣｔｇｔに対する特徴語を用いて生成されたカテゴリである。
【０１４７】
クロス集計部５１１によるクロス集計結果は、ユーザインタフェース部５１によってユーザに提示される。なお、クロス集計結果には、階層構造において分析軸カテゴリＣｔｇｔの下位に位置するカテゴリ（分析軸カテゴリＣｔｇｔを上位カテゴリとするカテゴリ）および特徴語カテゴリの両方に属する文書の数（第３の文書数）が含まれる。
【０１４８】
分析軸生成部５２は、特徴語特性算出部５２１および特徴語カテゴリ生成部５２２を含む。
【０１４９】
特徴語特性算出部５２１は、分析軸カテゴリＣｔｇｔ（階層構造において当該分析対象カテゴリＣｔｇｔの下位に位置するカテゴリを含むカテゴリ集合ＣＳ）に対する特徴語抽出部３２２によって抽出された特徴語の共通度を算出する。この分析軸カテゴリＣｔｇｔに対する特徴語の共通度は、例えば分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）での共通点／相違点を表す尺度として用いられる。分析軸カテゴリＣｔｇｔに対する特徴語の共通度は、カテゴリ集合ＣＳに属する文書の数、カテゴリ集合ＣＳに含まれる各カテゴリに属する文書の数、カテゴリ集合ＣＳに属する文書集合における当該特徴語の文書頻度（第１の文書数）およびカテゴリ集合ＣＳに含まれるカテゴリに属する文書集合における当該特徴語の文書頻度（第２の文書数）に基づいて算出される。
【０１５０】
特徴語カテゴリ生成部５２２は、特徴語抽出部３２２によって抽出された特徴語を用いて当該特徴語をカテゴリ名とするカテゴリ（特徴語カテゴリ）を生成する。この特徴語を用いて生成された特徴語カテゴリには、当該特徴語を含む文書が属する。この場合、特徴語カテゴリ生成部５２２は、例えば特徴語特性算出部５２１によって算出された特徴語の共通度が高い順に特徴語を用いて特徴語カテゴリを生成する。なお、特徴語カテゴリ生成部５２２は、生成された特徴語カテゴリに関するカテゴリ情報をカテゴリ格納部２３に格納する。
【０１５１】
次に、図１８のフローチャートを参照して、本実施形態に係る文書分析装置５０の処理手順について説明する。
【０１５２】
まず、前述した図１０に示すステップＳ１〜Ｓ６の処理に相当するステップＳ４１〜Ｓ４６の処理が実行される。
【０１５３】
次に、分析部生成部５２に含まれる特徴語特性算出部５２１は、特徴語抽出部３２２によって抽出された特徴語について、分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）での共通点／相違点を表す尺度として共通度を算出する処理（以下、特徴語特性算出処理と表記）を実行する（ステップＳ４７）。この特徴語特性算出処理は、前述した単語データ格納部に格納されている単語データに基づいて実行される。なお、特徴語特性算出処理の詳細については後述する。
【０１５４】
特徴語特性算出処理が実行されると、特徴語カテゴリ生成部５２２は、特徴語抽出部３２２によって抽出された特徴語の各々を用いて特徴語カテゴリ（当該特徴語のカテゴリ）を生成する処理（以下、特徴語カテゴリ生成処理と表記）を実行する（ステップＳ４８）。この特徴語カテゴリ生成処理においては、例えば特徴語特性算出部５２１によって算出された特徴語の共通度が高い順に当該特徴語をカテゴリ名とするカテゴリ（つまり、特徴語カテゴリ）が生成される。なお、特徴語カテゴリ生成部５２２によって生成された特徴語カテゴリは、後述するように階層構造において便宜上配置された中間カテゴリの下位に位置するカテゴリとする。
【０１５５】
特徴語カテゴリ生成部５２２によって生成された特徴語カテゴリに関するカテゴリ情報は、カテゴリ格納部２３に格納される。なお、特徴語カテゴリ生成処理の詳細については後述する。
【０１５６】
特徴語カテゴリ生成処理が実行されると、例えばユーザインタフェース部５１に含まれるカテゴリ提示部３１１は、カテゴリ格納部２３に格納されているカテゴリ情報に基づいて、当該特徴語カテゴリが追加されたカテゴリの階層構造をユーザに提示（表示）する。
【０１５７】
ここで、図１９は、カテゴリ提示部３１１によってカテゴリの階層構造が提示された場合の画面（カテゴリ階層構造提示画面）の一例を示す。
【０１５８】
図１９に示すように、カテゴリ階層構造提示画面２００には、階層構造を構成するカテゴリのカテゴリ名がツリー上（カテゴリツリー）で表示される。
【０１５９】
図１９に示すカテゴリ階層構造提示画面２００においては、前述した図１１に示すカテゴリ階層構造提示画面１００に表示されているカテゴリと比較して、特徴語カテゴリが追加されている。
【０１６０】
具体的には、カテゴリ階層構造提示画面２００においては、カテゴリ「『出願人』分析軸」がルートカテゴリの下位に位置するカテゴリであることが示されている。また、カテゴリ階層構造提示画面２００においては、カテゴリ「表示」、「操作」、「調理」、「システム」および「通信」を含む複数のカテゴリがカテゴリ「『出願人』分析軸」の下位に位置するカテゴリであることが示されている。
【０１６１】
なお、カテゴリ階層構造提示画面２００におけるカテゴリ「表示」、「操作」、「調理」、「システム」および「通信」を含む複数のカテゴリが特徴語カテゴリ生成部５２２によって生成された特徴語カテゴリである。このカテゴリ「表示」、「操作」、「調理」、「システム」および「通信」は、特徴語抽出部３２２によって抽出された特徴語「表示」、「操作」、「調理」、「システム」および「通信」を用いて生成された特徴語カテゴリである。
【０１６２】
ここで、上記したカテゴリ階層構造提示画面２００がカテゴリ提示部３１１によって提示されると、ユーザは、当該カテゴリ階層構造提示画面２００を参照することによって、当該カテゴリ階層構造提示画面２００に表示されている複数のカテゴリの中からクロス集計の対象（分析軸）となる２つのカテゴリ（以下、クロス集計対象カテゴリＣｔｇｔ１および２と表記）を指定することができる。ここでは、クロス集計対象カテゴリＣｔｇｔ１および２として、前述した分析軸カテゴリＣｔｇｔおよび階層構造において特徴語カテゴリの上位に位置するカテゴリ（中間カテゴリ）が指定されるものとする。
【０１６３】
カテゴリ階層構造提示画面２００においてクロス集計対象カテゴリＣｔｇｔ１および２として例えばカテゴリ「出願人別」および「『出願人』分析軸」が指定されたものとすると、図２０に示すような画面（以下、クロス集計要求画面と表記）２１０が表示される。
【０１６４】
図２０に示すように、クロス集計要求画面２１０には、カテゴリの階層構造に加えてサブ画面２１１が表示されている。このサブ画面２１１には、例えば「カテゴリ「出願人別」と「『出願人』分析軸」で２軸マップを表示します。縦軸とするカテゴリを選択して下さい。」が表示されている。ユーザは、このようなサブ画面２１１を確認することによって、指定されたカテゴリ「出願人別」および「『出願人』分析軸」のうちクロス集計において縦軸とするカテゴリを選択することができる。
【０１６５】
また、このサブ画面２１１には、実行ボタン２１１ａおよびキャンセルボタン２１１ｂが設けられている。
【０１６６】
文書分析装置５０に対するユーザの操作に応じてサブ画面２１１に設けられている実行ボタン２１１ａが選択されると、クロス集計対象カテゴリＣｔｇｔ１および２（ここでは、カテゴリ「出願人別」および「『出願人』分析軸」）のクロス集計が文書分析装置５０に対して要求される。
【０１６７】
一方、文書分析装置５０に対するユーザの操作に応じてサブ画面２１１に設けられているキャンセルボタン２１１ｂが選択されると、クロス集計対象カテゴリＣｔｇｔ１および２を選択し直すための画面として例えば図１９に示すカテゴリ階層構造提示画面２００が表示される。
【０１６８】
再び図１８に戻ると、ユーザの操作に応じて上記したクロス集計が要求されたか否かが判定される（ステップＳ４９）。
【０１６９】
クロス集計が要求されたと判定された場合（ステップＳ４９のＹＥＳ）、ユーザインタフェース部５１に含まれるクロス集計部５１１は、上記したカテゴリ階層構造提示画面２００においてユーザによって指定されたクロス集計対象カテゴリＣｔｇｔ１および２に対するクロス集計処理を実行する（ステップＳ５０）。このクロス集計処理においては、例えばクロス集計対象カテゴリＣｔｇｔ１を縦軸、クロス集計対象カテゴリＣｔｇｔ２を横軸とする２軸マップ（クロス集計結果）が生成（取得）される。このクロス集計結果には、階層構造においてクロス集計対象カテゴリＣｔｇｔ１の下位に位置するカテゴリ（カテゴリ集合ＣＳに含まれるカテゴリ）およびクロス集計対象カテゴリＣｔｇｔ２の下位に位置するカテゴリ（特徴語カテゴリ）の両方に属する文書の数が含まれる。なお、クロス集計処理およびクロス集計結果の詳細については後述する。
【０１７０】
クロス集計処理が実行されると、ユーザインタフェース部５１は、クロス集計部５１１によって生成（取得）されたクロス集計結果をユーザに提示する（ステップＳ５１）。
【０１７１】
上記したようにクロス集計対象カテゴリＣｔｇｔ１および２として、分析対象カテゴリＣｔｇｔおよび特徴語カテゴリ生成部５２２によって生成された特徴語カテゴリの１階層上位のカテゴリが指定されることによって、当該分析対象カテゴリＣｔｇｔに対して特徴語の共通性と相違性が明確になるようなクロス集計結果をユーザに対して提示することができる。
【０１７２】
次に、図２１のフローチャートを参照して、上述した特徴語特性算出部５２１によって実行される特徴語特性算出処理（図１８に示すステップＳ４７の処理）の処理手順について説明する。
【０１７３】
ここで、特徴語抽出部３２２によって抽出された特徴語は、分析軸カテゴリＣｔｇｔ（の下位に位置するカテゴリを含むカテゴリ集合ＣＳ）に対して有意な単語であるものの、当該分析軸カテゴリＣｔｇｔにおいて共通点を表す特徴語と相違点を表す特徴語とが混在している。したがって、特徴語特性算出処理においては、分析軸カテゴリＣｔｇｔでの共通点／相違点を表す尺度として共通度という指標が算出される。
【０１７４】
なお、分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）において共通点を表す特徴語とは、当該カテゴリ集合ＣＳに含まれる複数のカテゴリにおいて出現確率が有意に高い特徴語である。具体的には、特許文書において分析軸カテゴリＣｔｇｔがカテゴリ「出願人」である場合、当該出願人である例えば企業（つまり、分析軸カテゴリＣｔｇｔの下位に位置するカテゴリ「Ａ社」、「Ｂ社」等）の共通点（つまり、当該企業が共通して取り組んでいる共通の技術）を表す特徴語が当該分析軸カテゴリＣｔｇｔにおいて共通点を表す特徴語である。
【０１７５】
一方、分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）において相違点を表す特徴語とは、当該カテゴリ集合ＣＳに含まれる特定のカテゴリ（１つまたは少数のカテゴリ）において出現確率が有意に高い特徴語である。具体的には、上記したように特許文書において分析軸カテゴリＣｔｇｔがカテゴリ「出願人」である場合、当該出願人である企業（分析軸カテゴリＣｔｇｔの下位に位置するカテゴリ「Ａ社」、「Ｂ社」等）の相違点（つまり、特定の企業のみが集中的に取り組んでいる技術）を表す特徴語が当該分析軸カテゴリＣｔｇｔにおいて相違点を表す特徴語である。
【０１７６】
まず、特徴語特性算出部５２１は、特徴語抽出部３２２によって抽出された特徴語を含む特徴語集合（以下、特徴語集合ＫＳと表記）を取得する（ステップＳ６１）。
【０１７７】
次に、特徴語特性算出部５２１は、取得された特徴語集合ＫＳに含まれる特徴語の各々について以下のステップＳ６２およびＳ６３の処理を実行する。このステップＳ６２およびＳ６３の処理の対象となる特徴語を特徴語ｋと称する。
【０１７８】
特徴語特性算出部５２１は、分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）に対する特徴語ｋの共通度を算出する（ステップＳ６２）。この特徴語ｋの共通度は、上記したように分析軸カテゴリＣｔｇｔでの共通点／相違点を表す尺度として用いられる。
【０１７９】
ここで、特徴語ｋの共通度は、カテゴリ集合ＣＳに属する文書の数、カテゴリ集合ＣＳに含まれる各カテゴリに属する文書の数、カテゴリ集合ＣＳに属する文書集合において特徴語ｋが出現する文書の数およびカテゴリ集合ＣＳに含まれる各カテゴリに属する文書集合において特徴語ｋが出現する文書の数に基づいて算出される。具体的には、特徴語ｋの共通度は、以下の式（１０）により算出される。
【０１８０】
なお、以下の説明において、カテゴリ集合ＣＳに属する文書の集合を文書集合Ｄａｌｌとする。また、カテゴリ集合ＣＳに含まれるカテゴリの数をａ、当該カテゴリ集合ＣＳに含まれるカテゴリのうちのｉ番目のカテゴリをカテゴリＣｉ（ｉ＝１，２，…ａ）、当該カテゴリＣｉに属する文書の集合を文書集合Ｄｉとする。
【数１０】

【０１８１】
なお、式（１０）におけるｃ（ｋ、Ｄｉ，Ｄａｌｌ）は、以下の式（１１）のように定義される。
【数１１】

【０１８２】
この式（１１）におけるｄｆ（ｋ，Ｄｉ）は、カテゴリ集合ＣＳに含まれるカテゴリＣｉ（ｉ＝１，２，…，ａ）に属する文書集合Ｄｉ（ｉ＝１，２，…，ａ）において特徴語ｋが出現する文書の数（つまり、文書集合Ｄｉにおける特徴語ｋの文書頻度）である。また、ｄｆ（ｋ，Ｄａｌｌ）は、カテゴリ集合ＣＳに属する文書集合Ｄａｌｌにおいて特徴語ｋが出現する文書の数（つまり、文書集合Ｄａｌｌにおける特徴語ｋの文書頻度）である。なお、ｄｆ（ｋ，Ｄｉ）およびｄｆ（ｋ，Ｄａｌｌ）は、前述したように単語データ格納部に格納されている単語データから取得される。
【０１８３】
また、式（１１）における｜Ｄｉ｜は、文書集合Ｄｉに含まれる文書の数（つまり、カテゴリＣｉに属する文書の数）である。同様に、｜Ｄａｌｌ｜は、文書集合Ｄａｌｌに含まれる文書の数（つまり、カテゴリＣＳに属する文書の数）である。
【０１８４】
また、式（１１）におけるγは、特徴語ｋの共通度を算出する上での閾値であり、文書集合Ｄａｌｌ全体における出現確率との倍率として指定される。なお、このγ（の値）は、文書分析装置５０内で予め設定されていてもよいし、特徴語特性算出処理の度にユーザによって指定されても構わない。
【０１８５】
上記したように算出される特徴語ｋの共通度が大きいほど、当該特徴語ｋが分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）において共通点をよく表す特徴語であることを表す。一方、特徴語ｋの共通度が小さいほど、当該特徴語ｋが当該分析軸カテゴリＣｔｇｔ（カテゴリ集合ＣＳ）において相違点をよく表す特徴語であることを表す。
【０１８６】
ステップＳ６２の処理が実行されると、特徴語特性算出部５２１は、算出された特徴語ｋの共通度を単語データ格納部に格納する（ステップＳ６３）。
【０１８７】
次に、特徴語特性算出部３２１は、特徴語集合ＫＳに含まれる全ての特徴語についてステップＳ６２およびステップＳ６３の処理が実行されたか否かを判定する（ステップＳ６４）。
【０１８８】
全ての特徴語について処理が実行されていないと判定された場合（ステップＳ６４のＮＯ）、上記したステップＳ６２に戻って処理が繰り返される。この場合、ステップＳ６２およびＳ６３の処理が実行されていない特徴語を特徴語ｋとして処理が実行される。
【０１８９】
このように特徴語集合ＫＳに含まれる全ての特徴語についてステップＳ６２およびＳ６３の処理が繰り返されることによって、当該特徴語の各々について共通度が算出され、当該特徴度が当該特徴語毎に単語データ格納部に格納される。
【０１９０】
ここで、図２２は、特徴語毎に算出された共通度が格納された後の単語データ格納部のデータ構造の一例を示す。ここでは、単語データ格納部に格納されている単語データ中の単語のうちの「操作」、「通信」、「パネル」、「フィルム」および「表示」が特徴語であるものとする。
【０１９１】
図２２に示すように、単語データ格納部には、特徴語毎に共通度が格納されている。図２２に示す例では、単語データ格納部には、例えば特徴語「操作」の共通度として「６」が格納されている。なお、単語データ格納部には、他の特徴語についても同様に共通度が格納されている。
【０１９２】
また、上記したように共通度は特徴語について算出されるため、例えば特徴語として抽出されていない単語「レンジ」については、カテゴリ集合ＣＳに対する共通度は格納（算出）されない。したがって、図２２に示すように、「レンジ」の共通度の項目は空である。
【０１９３】
ステップＳ６４において全ての特徴語について処理が実行されたと判定された場合、特徴語特性算出部５２１は、単語データ格納部に格納されている単語データ（特徴語毎の共通度）を参照して、当該共通度（降順）で特徴語集合ＫＳに含まれる特徴語をソートする（ステップＳ６５）。例えば上記した図２２に示す例では、特徴語集合ＫＳに含まれる特徴語は、特徴語「表示」、「操作」、「通信」、「フィルム」および「パネル」の順にソートされる。
【０１９４】
ステップＳ６５の処理が実行されると、特徴語特性算出処理は終了される。この際、特徴語特性算出部５２１は、共通度でソートされた特徴語を含む特徴語集合ＫＳを特徴語カテゴリ生成部５２２に渡す。
【０１９５】
なお、特徴語カテゴリ生成部５２２に渡された特徴語集合ＫＳに含まれる特徴語は、共通度について降順でソートされているため、上位であるほど共通点をよく表す特徴語であり、下位であるほど相違点をよく表す特徴語である。
【０１９６】
次に、図２３のフローチャートを参照して、上述した特徴語カテゴリ生成部５２２によって実行される特徴語カテゴリ生成処理（図１８に示すステップＳ４８の処理）の処理手順について説明する。この特徴語カテゴリ生成処理においては、上記した共通度でソートされた特徴語を用いて特徴語カテゴリが生成される。
【０１９７】
まず、特徴語カテゴリ生成部５２２は、特徴語特性算出部５２１から渡された特徴語集合ＫＳを取得する（ステップＳ７１）。なお、この特徴語集合ＫＳには、上述した共通度でソートされた特徴語（つまり、当該共通度順の特徴語）が含まれる。
【０１９８】
次に、特徴語カテゴリ生成部５２２は、階層構造において特徴語カテゴリ生成処理において生成される特徴語カテゴリの上位に位置するカテゴリ（以下、中間カテゴリＣｐと表記）を生成する（ステップＳ７２）。なお、ここで生成される中間カテゴリＣｐは、階層構造において特徴語カテゴリを便宜上配置し、上述したようにクロス集計処理のために当該特徴語カテゴリを指定するための中間カテゴリである。この中間カテゴリＣｐは、階層構造においてルートカテゴリの下位に位置するカテゴリであるものとする。
【０１９９】
特徴語カテゴリ生成部５２２は、生成された中間カテゴリＣｐに関するカテゴリ情報をカテゴリ格納部２３に格納する（ステップＳ７３）。この場合、特徴語カテゴリ生成部５２２は、中間カテゴリＣｐを識別するためのカテゴリ番号、中間カテゴリＣｐの上位に位置するルートカテゴリを識別するための上位カテゴリ番号、中間カテゴリＣｐのカテゴリ名および中間カテゴリＣｐに属する文書を示す分類ルールを含むカテゴリ情報をカテゴリ格納部２３に格納する。
【０２００】
ここで、図２４は、中間カテゴリＣｐに関するカテゴリ情報のデータ構造の一例を示す。図２４に示すように、カテゴリ情報２３６には、カテゴリ番号「Ｃ００３」、上位カテゴリ番号「Ｃ０００」、カテゴリ名「『出願人』分類軸」および分類ルール「ｔｒｕｅ（恒真）」が含まれる。
【０２０１】
カテゴリ番号「Ｃ００３」は、中間カテゴリＣｐを一意に識別するための識別子であり、例えば特徴語カテゴリ生成部５２２によって中間カテゴリＣｐが生成される際に自動的に発行される。
【０２０２】
上位カテゴリ番号「Ｃ０００」は、階層構造において中間カテゴリＣｐの上位に位置するルートカテゴリを識別するためのカテゴリ番号である。
【０２０３】
カテゴリ名「『出願人』分類軸」は、中間カテゴリＣｐのカテゴリ名である。なお、中間カテゴリＣｐのカテゴリ名は、例えば分析対象カテゴリＣｔｇｔのカテゴリ名（例えば、カテゴリ名「出願人」）等に基づいて自動的に決定されてもよいし、ユーザによって指定されても構わない。
【０２０４】
また、分類ルール「ｔｒｕｅ（恒真）」は、中間カテゴリＣｐに属する文書（の条件）を示す。この分類ルール「ｔｒｕｅ（恒真）」によれば、前述したように全ての文書が条件を満足することが示されている。なお、中間カテゴリＣｐに属する文書を示す分類ルールは、例えば分析対象カテゴリＣｔｇｔに関するカテゴリ情報に含まれる分類ルールと同様の分類ルールが自動的に設定されてもよい。
【０２０５】
ここでは、中間カテゴリＣｐがルートカテゴリの下位に位置するカテゴリであるものとして説明したが、当該中間カテゴリＣｐは、例えば分析対象カテゴリＣｔｇｔの下位に位置するカテゴリとしても構わない。
【０２０６】
再び図２３に戻ると、特徴語カテゴリ生成部５２２は、取得された特徴語集合ＫＳに含まれる特徴語の各々について以下のステップＳ７４およびＳ７５の処理を実行する。なお、特徴語カテゴリ生成部５２２は、特徴語集合ＫＳに含まれる特徴語の順（つまり共通度で降順にソートされた順）に処理する。このステップＳ７４およびＳ７５の処理の対象となる特徴語を特徴語ｋと称する。
【０２０７】
この場合、特徴語カテゴリ生成部５２２は、特徴語ｋを用いて特徴語カテゴリ（以下、特徴語カテゴリＫＣと表記）を生成する（ステップＳ７４）。なお、この特徴語カテゴリＫＣは、階層構造において上記した中間カテゴリＣｐの下位に位置するカテゴリである。
【０２０８】
次に、特徴語カテゴリ生成部５２２は、生成された特徴語カテゴリＫＣに関するカテゴリ情報をカテゴリ格納部２３に格納する（ステップＳ７５）。この場合、特徴語カテゴリ生成部５２２は、特徴語カテゴリＫＣを識別するためのカテゴリ番号、特徴語カテゴリＫＣの上位に位置する中間カテゴリＣｐを識別するための上位カテゴリ番号、特徴語カテゴリＫＣのカテゴリ名および特徴語カテゴリＫＣに属する文書を示す分類ルールを含むカテゴリ情報をカテゴリ格納部２３に格納する。
【０２０９】
なお、特徴語カテゴリＫＣのカテゴリ名は、例えば特徴語ｋとする。また、特徴語カテゴリＫＣに属する文書を示す分類ルールは、特徴語ｋを含む文書を示す分類ルール、つまり、特徴語ｋを含むことを条件とした分類ルールとする。換言すれば、特徴語カテゴリ生成部５２２によって生成された特徴語カテゴリＫＣは、特徴語ｋをテキスト（例えば、本文）に含む文書が属する（分類される）カテゴリである。
【０２１０】
次に、特徴語カテゴリ生成部５２２は、上記したように共通度で降順にソートされた順に処理が実行された結果、特徴語集合ＫＳに含まれる最後の特徴語までステップＳ７４およびＳ７５の処理が実行されたか否かを判定する（ステップＳ７６）。つまり、特徴語カテゴリ生成部５２２は、特徴語集合ＫＳに含まれる特徴語のうち共通度が最も小さい特徴語まで処理が実行されたか否かを判定する。
【０２１１】
最後の特徴語まで処理が実行されていないと判定されると（ステップＳ７６のＮＯ）、上記したステップＳ７４に戻って処理が繰り返される。この場合、共通度でソートされた特徴語において、ステップＳ７３およびＳ７４の処理が実行された特徴語ｋの次の特徴語（次に共通度が高い特徴語）を特徴語ｋとして処理が実行される。
【０２１２】
このように特徴語集合ＫＳに含まれる共通度でソートされた最後の特徴語までステップＳ７４およびＳ７５の処理が実行されると、特徴語の共通度順に生成された特徴語カテゴリに関するカテゴリ情報がカテゴリ格納部２３に格納された状態となる。
【０２１３】
なお、ステップＳ７６において最後の特徴語について処理が実行されたと判定された場合、特徴語カテゴリ生成処理は終了される。
【０２１４】
このように特徴語カテゴリ生成処理が実行されることによって、後述するクロス集計処理においてユーザによって指定された分析軸（分析軸カテゴリＣｔｇｔ）のカテゴリ間を比較するのに好適な他方の分析軸となるカテゴリを生成することができる。
【０２１５】
ここで、図２５および図２６を参照して、カテゴリ格納部２３に格納された特徴語カテゴリに関するカテゴリ情報について具体的に説明する。
【０２１６】
図２５は、例えば特徴語「表示」を用いて生成された特徴語カテゴリ（以下、特徴語カテゴリ１と表記）に関するカテゴリ情報のデータ構造の一例を示す。
【０２１７】
図２５に示すように、カテゴリ情報２３７には、カテゴリ番号「Ｃ３０１」、上位カテゴリ番号「Ｃ００３」、カテゴリ名「表示」および分類ルール「contains(./本文,”表示”)」が含まれる。
【０２１８】
カテゴリ情報２３７に含まれるカテゴリ番号「Ｃ３０１」は、特徴語カテゴリ１を一意に識別するための識別子であり、例えば特徴語カテゴリ生成部５２２によって特徴語カテゴリ１が生成される際に自動的に発行される。
【０２１９】
カテゴリ情報２３７に含まれる上位カテゴリ番号「Ｃ００３」は、特徴語カテゴリ１の上位に位置する中間カテゴリＣｐ（図２３に示すステップＳ７２において生成された中間カテゴリ）を識別するためのカテゴリ番号である。
【０２２０】
カテゴリ情報２３７に含まれるカテゴリ名「表示」は、特徴語カテゴリ１のカテゴリ名である。なお、上記したように特徴語カテゴリ１のカテゴリ名には特徴語「表示」が用いられる。
【０２２１】
また、カテゴリ情報２３７に含まれる分類ルール「contains(./本文,”表示”)」は、特徴語カテゴリ１に属する文書（の条件）を示す。この分類ルール「contains(./本文,”表示”)」によれば、特徴語カテゴリ１には本文に特徴語「表示」が含まれる文書が属することが示されている。
【０２２２】
図２６は、例えば特徴語「操作」を用いて生成された特徴語カテゴリ（以下、特徴語カテゴリ２と表記）に関するカテゴリ情報のデータ構造の一例を示す。
【０２２３】
図２６に示すように、カテゴリ情報２３８には、カテゴリ番号「Ｃ３０２」、上位カテゴリ番号「Ｃ００３」、カテゴリ名「操作」および分類ルール「contains(./本文,”操作”)」が含まれる。
【０２２４】
カテゴリ情報２３８に含まれるカテゴリ番号「Ｃ３０２」は、特徴語カテゴリ２を一意に識別するための識別子であり、例えば特徴語カテゴリ生成部５２２によって特徴語カテゴリ２が生成される際に自動的に発行される。
【０２２５】
カテゴリ情報２３８に含まれる上位カテゴリ番号「Ｃ００３」は、特徴語カテゴリ２の上位に位置する中間カテゴリＣｐを識別するためのカテゴリ番号である。
【０２２６】
カテゴリ情報２３８に含まれるカテゴリ名「操作」は、特徴語カテゴリＫＣ２のカテゴリ名である。なお、上記したように特徴語カテゴリ２のカテゴリ名には特徴語「操作」が用いられる。
【０２２７】
また、カテゴリ情報２３８に含まれる分類ルール「contains(./本文,”操作”)」は、特徴語カテゴリ２に属する文書（の条件）を示す。この分類ルール「contains(./本文,”表示”)」によれば、特徴語カテゴリ２には本文に特徴語「操作」が含まれる文書が属することが示されている。
【０２２８】
次に、図２７のフローチャートを参照して、上述したクロス集計部５１１によって実行されるクロス集計処理（図１８に示すステップＳ５０の処理）の処理手順について説明する。
【０２２９】
ここでは、上述したようにユーザによって指定されたクロス集計（処理）の対象となる２つのカテゴリをクロス集計対象カテゴリＣｔｇｔ１および２と称する。なお、クロス集計対象カテゴリＣｔｇｔ１は前述した分析対象カテゴリＣｔｇｔ（例えば、カテゴリ「出願人別」）であり、クロス集計対象カテゴリＣｔｇｔ２は上述した特徴語カテゴリ生成処理において生成された特徴語カテゴリの上位に位置する中間カテゴリＣｐ（例えば、カテゴリ「『出願人』分類軸」）であるものとする。また、上述した図２０に示すクロス集計要求画面２１０のサブ画面２１１においてクロス集計対象カテゴリＣｔｇｔ１が縦軸として選択されているものとする。
【０２３０】
まず、クロス集計部５１１は、階層構造においてクロス集計対象カテゴリＣｔｇｔ１の下位に位置するカテゴリ（クロス集計対象カテゴリＣｔｇｔ１を上位カテゴリとするカテゴリ）を含むカテゴリ集合（以下、カテゴリ集合ＣＳ１と表記）およびクロス集計対象カテゴリＣｔｇｔ２の下位に位置するカテゴリ（クロス集計対象カテゴリＣｔｇｔ２を上位カテゴリとするカテゴリ）を含むカテゴリ集合（以下、カテゴリ集合ＣＳ２と表記）を特定する（ステップＳ８１）。
【０２３１】
なお、カテゴリ集合ＣＳ１に含まれるカテゴリ（クロス集計対象カテゴリＣｔｇｔ１の下位に位置するカテゴリ）は、当該クロス集計対象カテゴリＣｔｇｔ１を識別するためのカテゴリ番号を上位カテゴリ番号として含むカテゴリ情報に含まれるカテゴリ番号によって識別されるカテゴリである。同様に、カテゴリ集合ＣＳ２に含まれるカテゴリ（クロス集計対象カテゴリＣｔｇｔ２の下位に位置するカテゴリ）は、当該クロス集計対象カテゴリＣｔｇｔ２を識別するためのカテゴリ番号を上位カテゴリ番号として含むカテゴリ情報のカテゴリ番号によって識別されるカテゴリである。
【０２３２】
ここで、カテゴリ集合ＣＳ１には、カテゴリＣ１１、Ｃ１２、…、Ｃ１ａのａ個のカテゴリが含まれているものとする。また、カテゴリ集合ＣＳ２には、カテゴリＣ２１、Ｃ２２、…、Ｃ２ｂのｂ個のカテゴリが含まれているものとする。
【０２３３】
次に、クロス集計部５１１は、特定されたカテゴリ集合ＣＳ１に含まれるカテゴリＣ１ｉ（ｉ＝１，２，…，ａ）について以下のステップＳ８２〜Ｓ８６の処理を実行する。
【０２３４】
この場合、クロス集計部５１１は、カテゴリＣ１ｉに関するカテゴリ情報を取得する（ステップＳ８２）。
【０２３５】
次に、クロス集計部５１１は、特定されたカテゴリ集合ＣＳ２に含まれるカテゴリＣ２ｊ（ｊ＝１，２，…，ｂ）について以下のステップＳ８３〜Ｓ８５の処理を実行する。なお、カテゴリ集合ＣＳ２に含まれるカテゴリＣ２１〜Ｃ２ｂは、例えば上述した特徴語カテゴリ生成部５２２によって生成された順（つまり、共通度順）で処理されるものとする。
【０２３６】
この場合、クロス集計部５１１は、カテゴリＣ２ｊに関するカテゴリ情報を取得する（ステップＳ８３）。
【０２３７】
クロス集計部５１１は、取得されたカテゴリＣ１ｉに関するカテゴリ情報およびカテゴリＣ２ｊに関するカテゴリ情報に含まれる分類ルールに基づいて、当該カテゴリＣ１ｉおよびＣ２ｊの両方に属する文書を含む文書集合Ｄｃｍｎ（Ｃ１ｉ，Ｃ２ｊ）を取得する（ステップＳ８４）。
【０２３８】
クロス集計部５１１は、クロス集計結果のｉ行ｊ列（のセル）の値を、文書集合Ｄｃｍｎ（Ｃ１ｉ，Ｃ２ｊ）に含まれる文書の数（以下、文書数｜Ｄｃｍｎ（Ｃ１ｉ，Ｃ２ｊ）｜と表記）とする（ステップＳ８５）。
【０２３９】
次に、クロス集計部５１１は、カテゴリ集合ＣＳ２に含まれる全てのカテゴリ（つまり、カテゴリＣ２１、Ｃ２２、…、Ｃ２ｂ）について処理が実行されたか否かを判定する（ステップＳ８６）。
【０２４０】
カテゴリ集合ＣＳ２に含まれる全てのカテゴリについて処理が実行されていないと判定された場合（ステップＳ８６のＮＯ）、上記したステップＳ８３に戻って処理が繰り返される。
【０２４１】
一方、カテゴリ集合ＣＳ２に含まれる全てのカテゴリについて処理が実行されたと判定された場合（ステップＳ８６のＹＥＳ）、クロス集計部５１１は、カテゴリ集合ＣＳ１に含まれる全てのカテゴリ（つまり、カテゴリＣ１１、Ｃ１２、…、Ｃ１ａ）について処理が実行されたか否かを判定する（ステップＳ８７）。
【０２４２】
カテゴリ集合ＣＳ１に含まれる全てのカテゴリについて処理が実行されていないと判定された場合（ステップＳ８７のＮＯ）、上記したステップＳ８２に戻って処理が繰り返される。
【０２４３】
一方、カテゴリ集合ＣＳ１に含まれる全てのカテゴリについて処理が実行されたと判定された場合（ステップＳ８７のＹＥＳ）、クロス集計処理は終了される。
【０２４４】
このようにクロス集計処理が実行されることによって、カテゴリ集合ＣＳ１に含まれるカテゴリ（Ｃ１ｉ）およびカテゴリ集合ＣＳ２に含まれるカテゴリ（Ｃ２ｊ）の両方に属する文書の数（文書数｜Ｄｃｍｎ（Ｃ１ｉ，Ｃ２ｊ）｜）を含むクロス集計結果を得ることができる。
【０２４５】
クロス集計処理によって得られたクロス集計結果は、ユーザインタフェース部５１によってユーザに提示される。
【０２４６】
ここで、図２８は、ユーザインタフェース部５１によってユーザに提示されたクロス集計結果の一例を示す。ここでは、上記したようにクロス集計対象カテゴリＣｔｇｔ１はカテゴリ「出願人別」（つまり、カテゴリ集合ＣＳ１は当該カテゴリ「出願人別」の下位に位置するカテゴリ「Ａ社」〜「Ｊ社」の集合）であるものとし、クロス集計対象カテゴリＣｔｇｔ２はカテゴリ「『出願人』分類軸」（つまり、カテゴリ集合ＣＳ２の下位に位置するカテゴリ「表示」、「操作」、「システム」、「通信」、「樹脂」、「フィルム」、「可塑」、「パネル」、「液晶」、「組成」、「光学」、「重合」、「包装」、「偏光」および「セル」の集合）であるものとする。
【０２４７】
図２８に示すように、クロス集計結果においては、カテゴリ集合ＣＳ１に含まれるカテゴリ（Ｃ１ｉ）およびカテゴリＣＳ２に含まれるカテゴリ（Ｃ２ｊ）に対応づけられているセルの値（つまり、当該カテゴリＣ１ｉおよびカテゴリＣ２ｊの両方に属する文書の数｜Ｄｃｍｎ（Ｃ１ｉ，Ｃ２ｊ）｜）に応じた大きさのバブル（円）が表示されている。
【０２４８】
なお、クロス集計結果において、クロス集計対象カテゴリＣｔｇｔ２であるカテゴリ「『出願人』分類軸」の下位に位置するカテゴリ集合（ＣＳ２）に含まれる各カテゴリ（Ｃ２ｊ）は、共通度順（特徴語生成カテゴリ部５２２によって生成された順）に表示される。つまり、クロス集計結果は、クロス集計対象カテゴリＣｔｇｔ１（ユーザによって指定されたカテゴリ）に対する共通度に応じて提示される。
【０２４９】
このようなクロス集計結果がユーザに提示されることによって、クロス集計の対象となるカテゴリの下位に位置するカテゴリ間の共通点または相違点を可視化することができるため、ユーザは、当該カテゴリ間の共通点および相違点を容易に把握することができる。
【０２５０】
また、図２８に示すクロス集計結果においては横軸の特徴語カテゴリ（カテゴリ「『出願人』分析軸」の下位に位置するカテゴリ）のカテゴリ名（つまり、特徴語）が共通度順に並べられているため、横軸において左側に多くの出願人（企業）で扱われる共通性の高い技術に関する特徴語「表示」、「操作」および「システム」等が提示されており、右側に特定の出願人によって集中的に扱われている独自性の高い技術に関する特徴語「包装」、「偏光」および「セル」等が提示されている。
【０２５１】
したがって、このようなクロス集計結果により、ユーザは、例えば「出願人別」という分析軸（カテゴリ）を見たときに、より具体的にその技術傾向を把握することができる。
【０２５２】
なお、図２８においてはクロス集計結果がバブルチャートとして提示されるものとして説明したが、クロス集計結果として例えば各セルの値自身が提示されてもよいし、または棒グラフ等が提示されても構わない。
【０２５３】
上記したように本実施形態においては、特徴語抽出部３２２によって抽出された特徴語を用いて特徴語カテゴリが生成され、ユーザによって指定されたカテゴリの下位に位置するカテゴリおよび当該生成された特徴語カテゴリの両方に属する文書の数を含むクロス集計結果がユーザに提示される。また、本実施形態においては、ユーザによって指定されたカテゴリ（分析軸カテゴリＣｔｇｔ）に対する特徴語の共通度が算出され、当該算出された特徴語の共通度に基づいて特徴語カテゴリが並べられたクロス集計結果が提示される。
【０２５４】
これにより、本実施形態においては、ユーザが着目する分析軸（ユーザによって指定されたカテゴリ）に対して特徴語の共通点および相違点が明確になるようなクロス集計結果（集計マップ）を提示することができるため、ユーザは、当該分析軸について効率的に適切な分析を行うことができる。つまり、本実施形態においては、特徴語の共通度に基づいてクロス集計結果を提示することによってユーザが指定した分析軸での共通点または相違点を明確にし、ユーザのカテゴリ間の比較を支援することができる。
【０２５５】
なお、本実施形態においては上述した図１８に示すように処理が実行されるものとして説明したが、例えば既に特徴語カテゴリが生成されているような場合等においては、ステップＳ４２においてカテゴリの階層構造が提示された後に、特徴語の抽出が要求されることなくクロス集計が要求されても構わない。
【０２５６】
以上説明した少なくとも１つの実施形態によれば、複数のカテゴリの内容を相互に比較するのに好適な特徴語を抽出することができる文書分析装置を提供することができる。
【０２５７】
なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
【符号の説明】
【０２５８】
１０…コンピュータ、２０…外部記憶装置、２２…文書格納部、２３…カテゴリ格納部、３０…文書分析装置、３１，５１…ユーザインタフェース部、３２，５２…分析軸生成部、３１１…カテゴリ提示部、３２１…単語抽出部、３２２…特徴語抽出部、５１１…クロス集計部、５２１…特徴語特性算出部、５２２…特徴語カテゴリ生成部。

【特許請求の範囲】
【請求項１】
階層構造を構成する複数のカテゴリに属する単語を含む複数の文書を格納する文書格納手段と、
前記階層構造を構成するカテゴリ毎に、当該カテゴリに属する文書を示すカテゴリ情報を格納するカテゴリ格納手段と、
前記カテゴリ情報格納手段に格納されているカテゴリ情報によって示されるユーザによって指定された第１のカテゴリに属する複数の文書に含まれる単語を、前記文書格納手段に格納されている当該複数の文書から抽出する単語抽出手段と、
前記カテゴリ格納手段に格納されているカテゴリ情報に基づいて、前記第１のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第１の文書数および前記階層構造において前記第１のカテゴリの下位に位置する第２のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第２の文書数を算出する文書数算出手段と、
前記第１のカテゴリに属する文書の数、前記第２のカテゴリに属する文書の数、前記第２のカテゴリの数、前記算出された第１および第２の文書数に基づいて、前記第１のカテゴリに対する前記抽出された単語の特徴度を算出する特徴度算出手段と、
前記特徴度算出手段によって算出された特徴度に基づいて、前記抽出された単語を前記第１のカテゴリに対する特徴語として抽出する特徴語抽出手段と
を具備することを特徴とする文書分析装置。
【請求項２】
前記第１のカテゴリに属する複数の文書のうち前記特徴語抽出手段によって抽出された特徴語を含む文書が属する特徴語カテゴリを生成するカテゴリ生成手段と、
前記カテゴリ生成手段によって生成された特徴語カテゴリに属する文書を示すカテゴリ情報を前記カテゴリ格納手段に格納する格納処理手段と、
前記カテゴリ格納手段に格納されているカテゴリ情報に基づいて、前記第２のカテゴリおよび前記特徴語カテゴリの両方に属する文書の数を示す第３の文書数を含む集計結果を前記ユーザに提示する提示手段と
を更に具備する請求項１記載の文書分析装置。
【請求項３】
前記第１のカテゴリに属する文書の数、前記第２のカテゴリに属する文書の数、前記文書数算出手段によって算出された前記第１のカテゴリに属する複数の文書において前記特徴語抽出手段によって抽出された特徴語が出現する文書の数を示す第１の文書数および前記第２のカテゴリに属する複数の文書において当該特徴語が出現する文書の数を示す第２の文書数に基づいて、前記第１のカテゴリに対する当該特徴語の共通度を算出する共通度算出手段を更に具備し、
前記提示手段は、前記共通度算出手段によって算出された特徴語の共通度に基づいて、前記集計結果を提示する
ことを特徴とする請求項２記載の文書分析装置。
【請求項４】
前記特徴度算出手段は、
前記第１のカテゴリに属する文書の数および前記文書数算出手段によって算出された第１の文書数に基づいて、当該複数の文書における前記単語抽出手段によって抽出された単語の出現確率に対する当該文書毎の偏りおよび当該偏りの自由度を算出する第１の算出手段と、
前記第２のカテゴリの数、前記第２のカテゴリに属する文書の数および前記文書数算出手段によって算出された第２の文書数に基づいて、前記第１のカテゴリに属する複数の文書における前記単語抽出手段によって抽出された単語の出現確率に対する前記カテゴリ毎の偏りおよび当該偏りの自由度を算出する第２の算出手段と、
前記第１のカテゴリに属する文書の数と、前記第２のカテゴリの数と、前記第１の算出手段によって算出された偏りおよび当該偏りの自由度と、前記第２の算出手段によって算出された偏りおよび当該偏りの自由度とに基づいて、前記カテゴリ毎の平均に対する偏りおよび当該偏りの自由度を算出する第３の算出手段と、
前記第２の算出手段によって算出された偏りおよび当該偏りの自由度と、前記第３の算出手段によって算出された偏りおよび当該偏りの自由度に基づいて、前記カテゴリ間の分散および誤差の分散を算出する第４の算出手段と、
前記第４の算出手段によって算出されたカテゴリ間の分散および誤差の分散に基づいて、前記第１のカテゴリに対する前記単語抽出手段によって抽出された単語の特徴度を算出する第５の算出手段と
を含む
ことを特徴とする請求項１記載の文書分析装置。
【請求項５】
階層構造を構成する複数のカテゴリに属する単語を含む複数の文書を格納する文書格納手段と、前記階層構造を構成するカテゴリ毎に、当該カテゴリに属する文書を示すカテゴリ情報を格納するカテゴリ格納手段とを有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書分析装置において、前記コンピュータによって実行されるプログラムであって、
前記コンピュータに、
前記カテゴリ情報格納手段に格納されているカテゴリ情報によって示されるユーザによって指定された第１のカテゴリに属する複数の文書に含まれる単語を、前記文書格納手段に格納されている当該複数の文書から抽出するステップと、
前記カテゴリ格納手段に格納されているカテゴリ情報に基づいて、前記第１のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第１の文書数および前記階層構造において前記第１のカテゴリの下位に位置する第２のカテゴリに属する複数の文書において前記抽出された単語が出現する文書の数を示す第２の文書数を算出するステップと、
前記第１のカテゴリに属する文書の数、前記第２のカテゴリの数、前記算出された第１および第２の文書数に基づいて、前記第１のカテゴリに対する前記抽出された単語の特徴度を算出するステップと、
前記算出された特徴度に基づいて、前記抽出された単語を前記第１のカテゴリに対する特徴語として抽出するステップと
を実行させるためのプログラム。

【図１】