文書を時系列に配置した文書相関図の作成装置

【課題】特許文書をはじめ技術的文書やその他の文書は日々新しく生み出され、膨大な数になっている。文書相互の関係をわかり易い形で提示、分野ごとの時間的発展を適切に表す文書相関図作成装置を提供する。
【解決手段】文書相関図作成装置は、１つ又は複数の文書からなる文書要素Ｅの内容データ及び時間データを、複数の文書要素につき抽出する抽出手段２０、３０と、前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段５０と、前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段７０と、前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段９０と、を備える。これにより、分野ごとの時間的発展を適切に表す樹状図を自動作成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書相互の関係を示すとともに文書の時間的順序を反映した文書相関図を自動作成する技術に係り、特にこのような文書相関図の作成装置、作成方法及び作成プログラムに関する。
【背景技術】
【０００２】
特許文書をはじめ技術的文書やその他の文書は日々新しく生み出され、膨大な数になっている。これらの文書相互の関係をわかり易い形で提示するには、関連する内容ごとにその時間的発展を整理することが望ましい。従って、文書の内容による関連付けと時間順による配列とを両立させた文書相関図を自動作成することが望まれる。
【０００３】
日本国特開平１１−５３３８７号公報「文書の関連付け方法及びそのシステム」（特許文献１）は、時系列に順序付けられた文書を関連付ける方法を開示している。具体的には、文書間の単語の一致度に基づき文書間の類似度を計算し、前記類似度から、時間制約を用いて類似度行列を作成する。この類似度行列を、所定の閾値以上の類似度を持つ行列要素を１とし残りは０とする隣接行列に変換する。この隣接行列をもとに、文書の関連図である有向グラフを作成する。
【０００４】
【特許文献１】特開平１１−５３３８７号公報「文書の関連付け方法及びそのシステム」
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかし、上記特開平１１−５３３８７号公報（特許文献１）に記載の技術では、ある文書から類似文書へ、更にその類似文書へと順次辿って行くうちにずれの累積が生じ、やがてはまったく異なる文書に辿り着いてしまう可能性がある。また、ある文書から分岐した複数の流れが最終的に１つの文書に辿り着くことも生じ、分岐の意味が不明確になる可能性もある。従って、上記特開平１１−５３３８７号公報（特許文献１）に記載の技術では、分野ごとの時間的発展を適切に表すことができないという問題がある。
【０００６】
本発明の課題は、分野ごとの時間的発展を適切に表すことのできる文書相関図作成装置、作成方法及び作成プログラムを提供することである。
【課題を解決するための手段】
【０００７】
（１）上記の課題を解決するため、本発明の文書相関図作成装置は、１つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段と、前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を備えている。
本発明によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
【０００８】
（２）上記の文書相関図作成装置において、前記クラスタリング手段が前記樹状図を切断する前記所定の規則は、連関規則分析により導出されたものであることが望ましい。連関規則分析により導出された切断規則を採用することにより、種々の樹状図に適用可能な（汎用性の高い）切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。
【０００９】
（３）この文書相関図作成装置において、前記所定の規則は、前記樹状図の形状パラメータに基づき導出されたものであることが望ましい。
樹状図の形状パラメータに基づいて導出された切断規則を採用することにより、樹状図形状に即した適切な切断位置を決定可能な、信頼性の高い切断規則を用いることができる。
また、解析対象樹状図の形状パラメータを読み取り、これに連関規則を適用することで切断位置を決定できるので、切断位置の決定を少ない計算量で済ませることができる。
樹状図を切断する回数は１回のみでも良いし（固定ＢＣ法；後述）、１回の切断で得られた親クラスタの形状パラメータに基づいて切断規則を再度導出して当該親クラスタを切断し、子孫クラスタを抽出するようにしても良い（可変ＢＣ法；後述）。可変ＢＣ法によれば、要素数の多い親クラスタが生成されても、これを更に子孫クラスタに分離することができる。
【００１０】
（４）上記の各文書相関図作成装置において、前記所定の規則は、前記樹状図の各ノードで結合される複数の文書要素のベクトル次元数に基づき導出されたものであってもよい。
ベクトル次元数を加味して導出された切断規則を採用することにより、より適切な分岐を得ることができる。
上記複数の文書要素のベクトル次元数は、当該複数の文書要素のベクトル総和の次元数から、これら文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分の次元数を除いた次元数であることが望ましい。これにより、より適切な切断規則を用いることができる。
【００１１】
（５）この文書相関図作成装置において、前記クラスタリング手段は、前記各ノードで結合される複数の文書要素のベクトル次元数が一定値以上であるか否かを前記ノードごとに判定し、前記判定の結果に基づいて前記一定値以上のノードを個別に切断することが望ましい。ノードごとに切断基準の判定を行い、判定結果に基づいて各ノードを個別に切断することにより、より適切な分岐を得ることができる。
【００１２】
（６）上記の文書相関図作成装置において、前記クラスタリング手段は、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書要素の内容データに基づいて前記親クラスタに属する文書要素群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出することが望ましい。
親クラスタの抽出後に、各親クラスタを再分析して作成した部分樹状図により子クラスタを抽出することにより、子クラスタの誤分類を改善し適切な分類を得ることができる。
【００１３】
（７）この文書相関図作成装置において、前記クラスタリング手段は、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書要素ベクトルから除去することが望ましい。
親クラスタの抽出後に、各親クラスタに属する文書要素間での偏差が小さい値をとるベクトル成分を除去することにより、親クラスタの抽出観点とは異なった観点から子クラスタの抽出を行い、適切な分類を得ることができる。
文書要素のベクトル成分は、例えば、当該文書内の個々の索引語についての、全文書ＩＤＦ重み付けＴＦ値（ＴＦ＊ＩＤＦ（Ｐ）値；後述）である。偏差が小さいか否かの判定は、例えば、親クラスタに属するすべての文書要素について、各索引語のＴＦ＊ＩＤＦ（Ｐ）値を算出し、親クラスタに属する文書要素間でのこれらの平均に対する標準偏差の比が所定範囲内に収まるか否かによることができる。
【００１４】
（８）上記の文書相関図作成装置において、前記樹状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記樹状図を作成し、前記クラスタリング手段は、前記樹状図の２箇所以上の所定の高さで切断して前記クラスタを抽出することが望ましい。
予め決められた複数の切断高さで切断することにより、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
切断後の結線構造については、各切断位置で切断される枝線の数に基づいて分岐構造を決定することが望ましい。これにより、樹状図の階層構造を程よく簡略化しつつ、当初の樹状図の階層構造を反映させた文書相関図を作成することができる。更に、複数の切断位置での切断により親子クラスタを生成する際に、親クラスタに属する文書要素の部分樹状図を再作成しなくても子クラスタを生成できるので、少ない計算手数で親子クラスタを生成することができる。
【００１５】
（９）上記の各文書相関図作成装置において、前記樹状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記樹状図を作成し、前記クラスタリング手段は、前記樹状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で切断して前記クラスタを抽出することが望ましい。
結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて切断するので、様々な樹状図形状に幅広く対応でき、複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数は、特に、少なくとも平均値を変数として含む関数であることが好ましく、平均値と偏差の両方を変数として含む関数であることがより好ましい。例えば、結合高さｄの平均値＜ｄ＞及び標準偏差σ_ｄを用いて、＜ｄ＞＋δσ_ｄ（但し−３≦δ≦３）とするのが好ましい。なお、結合高さｄの偏差を変数として含み、且つ結合高さｄの平均値＜ｄ＞を変数として含まない関数としては、例えば、結合高さｄの標準偏差σ_ｄと、中点距離ｍ（後述）とを使って、ｍ＋εσ_ｄ（但し−３≦ε≦３）とすることが考えられる。また、偏差は標準偏差σ_ｄに限らず平均偏差でも良い。
【００１６】
（１０）上記の各文書相関図作成装置において、前記樹状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記樹状図を作成し、前記クラスタリング手段は、前記樹状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該樹状図を切断して親クラスタを抽出し、当該親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該親クラスタを切断して子孫クラスタを抽出することが望ましい。
親クラスタの抽出を、樹状図に属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行い、子クラスタの抽出を、各親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、要素数Ｎが多くても（例えばＮ＞２０）適切な親子クラスタを得ることができる。また、クラスタの抽出を文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、樹状図に属する文書要素群の類似度が高い場合など様々な樹状図形状に幅広く対応でき、適切な親子クラスタを得ることができる。
結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数は、特に、少なくとも平均値を変数として含む関数であることが好ましく、平均値と偏差の両方を変数として含む関数であることがより好ましい。例えば、結合高さｄの平均値＜ｄ＞及び標準偏差σ_ｄを用いて、＜ｄ＞＋δσ_ｄ（但し−３≦δ≦３）とするのが好ましい。なお、結合高さｄの偏差を変数として含み、且つ結合高さｄの平均値＜ｄ＞を変数として含まない関数としては、例えば、結合高さｄの標準偏差σ_ｄと、中点距離ｍ（後述）とを使って、ｍ＋εσ_ｄ（但し−３≦ε≦３）とすることが考えられる。また、偏差は標準偏差σ_ｄに限らず平均偏差でも良い。
【００１７】
（１１）上記の各文書相関図作成装置において、前記文書要素の内容データに基づいて、特定の属性を有する文書要素に対して他の文書要素と区別する表示を付加する区別表示付加手段を更に備えていても良い。
これにより、特定の属性を有する文書要素が、他の文書要素との関係で内容的及び時間的にどのように位置づけられるのかを知ることができる。
更に、時間軸を表示し、その時間軸に合わせて各文書要素を配置することが望ましい。これにより、当該技術分野の発展系統上における自社技術の位置付けを把握することができる。
また、区別表示のために用いる内容データとしては、例えば特許文書の出願人のデータを用いる。これによってある出願人による特許文書群が、他社との関係でどのように位置付けられるのかを知ることができる。
例えば、類似度に基づいて比較的多い件数の類似文書群を抽出し、当該類似文書群について分析した場合には、比較的多方面の技術分野にわたる類似文書群の中での自社の位置付けを知ることができる。従って、上記の効果に加え、自社があまり目をつけていなかった類似技術を発見でき、自社技術の他分野への適用の可能性を見出すことができるとともに、他社の技術が内容的及び時間的にどのように発展してきたのかを知ることもできる。
更に上記比較的多い件数の類似文書群を母集団として再度類似度を算出し、比較的少ない件数の類似文書群について分析した場合には、更に絞り込んだ技術分野での、特に他社との競合関係のより詳細な比較ができる。
【００１８】
（１２）上記の各文書相関図作成装置において、前記クラスタ内配列手段は、前記クラスタ内に属する文書要素群で構成される樹状図において、結合された文書要素のどちらがより古いかについて、最下位ノードから順に比較を行い、下位ノードでより古いと判定された文書要素を上位ノードでの比較対象として、最上位ノードまで比較して結果を記録し、最上位ノードでの比較の結果決定された最古要素を当該クラスタの先頭に配置し、当該最古要素と直接比較された文書要素の数だけ、当該最古要素からの分岐を作成し、これら比較された文書要素を上記各分岐に接続し、配列を決定することが望ましい。
これにより、クラスタ内配列を決める際に、時間順による配列を確実に実現するとともに、当該クラスタ内の分岐構造もある程度反映させることができる。
上記最古要素と直接比較された文書要素（最古要素の対戦相手）が、より下位のノードで他の文書要素と比較されていた場合は、上記最古要素の対戦相手を上記各分岐における最古要素として同様の処理を繰り返すことが望ましい。
【００１９】
（１３）上記の各文書相関図作成装置において、前記クラスタ内配列手段は、当該クラスタ内の最古要素を１つ又は複数抽出して先頭に配置し、前記最古要素を除いた残りの文書要素について、これら文書要素を定義する分類ごとに時間順配列を形成し、前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在する時間順配列については、当該同分類の最古要素と結線し、前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在しない時間順配列については、当該時間順配列のうちの最古要素と最も類似度合いの高い文書要素を当該クラスタ内から選出し、当該最も類似度合いの高い文書要素と結線して、当該クラスタ内の配列を決定することが望ましい。
このように、同時刻要素が生じる場合でも、要素定義が分類に基づく場合にはその分類情報を加味してクラスタ内配列を決定することで、当該同時刻要素を処理することができる。
【００２０】
（１４）上記の各文書相関図作成装置において、時間スライス分類手段と、時間スライス間結線手段とを更に備え、前記時間スライス分類手段は、前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類し、前記樹状図作成手段は、各時間スライスに属する文書要素群の相関を示す樹状図を作成し、前記クラスタリング手段は、前記各時間スライスの樹状図を所定の規則に基づき切断してクラスタを抽出し、前記時間スライス間結線手段は、異なる時間スライスに属するクラスタ同士を結線することが望ましい。
このように時間スライスによる切り分けを最初に行うことにより、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。
上記時間スライス間結線手段によるクラスタ同士の結線は、クラスタ間の類似度合いを群間距離、最古要素と時間前方群の最短距離要素の要素間距離などにより計算し、類似度合いの高いクラスタ同士を結線することが望ましい。
また、上記時間スライス間結線手段によるクラスタ同士の結線は、結線される双方のクラスタに属する要素間（時間後方群の最古要素と時間前方群の最新要素との間、或いは時間後方群の最古要素と時間前方群の最短距離要素との間など）での結線とすることが望ましい。
【００２１】
（１５）また本発明の他の文書相関図作成装置は、１つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類する時間スライス分類手段と、前記各時間スライスに属する各文書要素の内容データに基づき、前記各時間スライスからクラスタを抽出するクラスタリング手段と、異なる時間スライスに属するクラスタ同士を結線する時間スライス間結線手段と、を備えている。
このように、クラスタ抽出と時間データに基づく分類とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、時間スライスによる切り分けを最初に行うことにより、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。
上記クラスタリング手段によるクラスタの抽出は、樹状図切断の方法によるのが好ましいが、これに限られるものではなく、公知のｋ−平均法などを用いたクラスタ抽出でもよい。
また、各クラスタ内における文書要素の配列は、文書要素の時間データに基づいて行っても良いし、時間データに基づかずに例えば単なる並列配置としてもよい。
上記時間スライス間結線手段によるクラスタ同士の結線は、クラスタ間の類似度合いを群間距離、最古要素と時間前方群の最短距離要素の要素間距離などにより計算し、類似度合いの高いクラスタ同士を結線することが望ましい。
また、上記時間スライス間結線手段によるクラスタ同士の結線は、結線される双方のクラスタに属する要素間（時間後方群の最古要素と時間前方群の最新要素との間、或いは時間後方群の最古要素と時間前方群の最短距離要素との間など）での結線とすることが望ましい。
【００２２】
（１６）また本発明は、上記各装置によって実行される方法と同じ工程を備えた文書相関図作成方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実行させることのできる文書相関図作成プログラムである。このプログラムは、ＦＤ、ＣＤＲＯＭ、ＤＶＤなどの記録媒体に記録されたものでもよく、ネットワークで送受信されるものでもよい。
【発明の効果】
【００２３】
本発明によれば、分野ごとの時間的発展を適切に表す文書相関図を自動作成することができる。
【図面の簡単な説明】
【００２４】
【図１】本発明の一実施形態に係る文書相関図作成装置のハードウェア構成を示す図。
【図２】上記の文書相関図作成装置における構成と機能を、特に処理装置１と記録装置３につき詳細に説明する図。
【図３】上記の文書相関図作成装置における処理装置１の動作手順を示すフローチャート。
【図４】実施例１（均衡切断法；ＢＣ法）で行う連関規則分析に用いるパラメータの説明図。
【図５】実施例１におけるクラスタ抽出過程を説明するフローチャート。
【図６】実施例１におけるクラスタ抽出過程での樹状図配置例を示す図。
【図７】実施例１の方法により生成された文書相関図の具体例を示す図。
【図８】実施例２（余次元降下法；ＣＲ法）におけるクラスタ抽出過程を説明するフローチャート。
【図９】実施例２におけるクラスタ抽出過程での樹状図配置例を示す図。
【図１０】実施例２の方法により生成された文書相関図の具体例を示す図。
【図１１】実施例３（細胞分裂法；ＣＤ法）におけるクラスタ抽出過程を説明するフローチャート。
【図１２】実施例３におけるクラスタ抽出過程での樹状図配置例を示す図。
【図１３】実施例３の方法により生成された文書相関図の具体例を示す図。
【図１４】実施例３の方法により生成された文書相関図の他の具体例を示す図。
【図１５】実施例４（段階的切断法；ＳＣ法）におけるクラスタ抽出過程を説明するフローチャート。
【図１６】実施例４におけるクラスタ抽出過程での樹状図配置例を示す図。
【図１７】実施例４の方法により生成された文書相関図（標準化あり）の具体例を示す図。
【図１８】実施例４の方法により生成された文書相関図（標準化なし）の具体例を示す図。
【図１９】実施例５（可変複合法；ＦＣ法）におけるクラスタ抽出過程を説明するフローチャート。
【図２０】実施例５におけるクラスタ抽出過程での樹状図配置例の一部を示す図。
【図２１】実施例５の方法により生成された文書相関図（ｇ固定）の具体例を示す図。
【図２２】実施例５の方法により生成された文書相関図（ｇ非設定）の具体例を示す図。
【図２３】実施例５の方法により生成された文書相関図の他の具体例を示す図。
【図２４】実施例５の変形例１による方法で生成された文書相関図の具体例を示す図。
【図２５】実施例５の変形例２による文書相関図の作成過程を示す図。
【図２６】実施例５の変形例２による方法で生成された文書相関図の具体例（文書３０００件）を示す図。
【図２７】実施例５の変形例２による方法で生成された文書相関図の具体例（文書３００件）を示す図。
【図２８】図２６の文書相関図における別の表示例の一部を示す図。
【図２９】図２６の文書相関図における更に別の表示例の一部を示す図。
【図３０】実施例６（一本釣り配列；ＰＬＡ）におけるクラスタ内配列過程を説明するフローチャート。
【図３１】実施例６におけるクラスタ内配列過程での樹状図配置例を示す図。
【図３２】実施例７（群時系順序；ＧＴＯ）におけるクラスタ内配列過程を説明するフローチャート。
【図３３】実施例７におけるクラスタ内配列過程での樹状図配置例の一部を示す図。
【図３４】実施例８（時断面分析；ＴＳＡ）の文書相関図作成装置における構成と機能を、更に詳細に説明する図。
【図３５】実施例８における文書相関図作成過程を説明するフローチャート。
【図３６】実施例８における文書相関図作成過程での樹状図配置例を示す図。
【図３７】実施例８の方法により生成された文書相関図の第１の具体例及びその生成過程を示す図。
【図３８】実施例８の方法により生成された文書相関図の第２の具体例及びその生成過程を示す図。
【図３９】実施例８の方法により生成された文書相関図の第３の具体例及びその生成過程を示す図。
【図４０】実施例８の方法により生成された文書相関図の第４の具体例及びその生成過程を示す図。
【符号の説明】
【００２５】
１：処理装置、２：入力装置、３：記録装置、４：出力装置、
２０：時間データ抽出部（抽出手段）、２５：時間スライス分類部（時間スライス分類手段）、３０：索引語データ抽出部（抽出手段）、５０：樹状図作成部（樹状図作成手段）、７０：クラスタ抽出部（クラスタリング手段）、７５：時間スライス間結線部（時間スライス間結線手段）、９０：クラスタ内要素配置部（クラスタ内配列手段）、
Ｅ：文書要素、α：切断高さ、ｃ：ノード（結節点）、ｎ：スライス番号、Ｇ：グループ
【発明を実施するための最良の形態】
【００２６】
以下、本発明の実施の形態を、図面を参照して詳細に説明する。
【００２７】
＜１．語彙の説明等＞
本明細書の中で使用する語彙を説明する。
文書要素Ｅ又はＥ_１〜Ｅ_Ｎ：分析対象となる文書集団を構成し、本発明による分析の単位となる個々の要素。各文書要素は１つ又は複数の文書からなる。文書要素群というときは、複数の文書要素を指すものとする。
類似度合い：比較される文書要素と文書要素、文書要素と文書要素群、又は文書要素群と文書要素群の、類似度又は非類似度。比較される文書要素又は文書要素群をベクトル表現し、ベクトル間の余弦乃至Tanimoto相関（類似度の一例）などベクトル成分間の積の関数を用いて表現する方法、ベクトル間の距離（非類似度の一例）などベクトル成分間の差の関数を用いて表現する方法がある。
樹状図：分析対象である文書集団を構成する各文書要素を樹状に結線した図。
デンドログラム：階層的クラスタ分析によって生成される樹状図。作成原理を簡単に説明すると、まず、分析対象である文書集団を構成する各文書要素間の非類似度（類似度）に基づいて、非類似度が最小（類似度が最大）の文書要素同士を結合させて結合体を生成する。更に結合体と他の文書要素、或いは結合体と結合体を、これらの非類似度の小さい順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現される。
索引語：文書の全部或いは一部から切り出される単語。単語の切り出し方に特段の制約はなく、従来から知られている方法や、例えば日本語文書であれば市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でもよいし、又索引語の辞書（シソーラス）のデータベースを事前に保持し該データベースから得られる索引語を利用する方法でもよい。
【００２８】
以降の説明を簡素にするため、略号を決める。
ｄ：樹状図における文書要素と文書要素、文書要素群と文書要素群、或いは文書要素と文書要素群、の結合位置の高さ（結合距離）。類似度を文書ベクトル（又は文書群ベクトル）間の余弦cosθで定義した場合、ｄ＝ａ−ｂcosθ（例えばａ＝ｂ＝１）とすることが望ましい。
α ：樹状図の切断位置の高さ。
α^＊：＜ｄ＞＋δσ_ｄ（但し−３≦δ≦３）で算出される樹状図の切断高さ。ここで＜ｄ＞は当該樹状図における全結合高ｄの平均値であり、σ_ｄは当該樹状図における全結合高ｄの標準偏差である。
Ｎ：分析対象の文書要素数。
ｔ：文書要素の時間データ。例えば特許文献であれば出願日、公開日、設定登録日、優先権主張日などの何れかとすることができる。特許文献の出願番号、公開番号等が出願順、公開順等に従っているならば、これら出願番号、公開番号等を時間データとすることもできる。文書要素が複数の文書からなる場合は、文書要素を構成する各文書の時間データの平均値、中央値などを求め、これを文書要素の時間データとする。
【００２９】
ＴＦ（Ｅ）：文書要素Ｅの索引語による、当該文書要素Ｅの中での出現頻度（索引語頻度；Term Frequency）。
ＤＦ（Ｐ）：文書要素Ｅの索引語による、母集団である全文書Ｐの中での文書頻度（Document Frequency）。文書頻度とは、ある索引語で、複数文書から検索したときのヒット文書数をいう。母集団である全文書Ｐとしては、特許文献についての分析であれば、例えば日本国内で過去１０年間に発行されたすべての公開特許公報又は登録実用新案公報約４００万件を用いる。
ＴＦ＊ＩＤＦ（Ｐ）：ＴＦ（Ｅ）と、"ＤＦ（Ｐ）の逆数×母集団である全文書数"の対数との積。文書の索引語ごとに演算される。なお、文書要素Ｅが複数の文書からなる場合には、ＧＦ（Ｅ）＊ＩＤＦ（Ｐ）と等価である。
ＧＦ（Ｅ）：文書要素Ｅが複数の文書からなる場合に、当該文書要素Ｅを構成する各文書の索引語による、当該文書要素Ｅの中での出現頻度（大域的頻度；Global Frequency）。
ＤＦ（Ｅ）：文書要素Ｅが複数の文書からなる場合に、当該文書要素Ｅを構成する各文書の索引語による、当該文書要素Ｅの中での文書頻度。
ＧＦＩＤＦ（Ｅ）：文書要素Ｅが複数の文書からなる場合に、ＧＦ（Ｅ）／ＤＦ（Ｅ）。文書の索引語ごとに演算される。

【００３０】
＜２．文書相関図作成装置の構成＞
図１は本発明の一実施形態に係る文書相関図作成装置のハードウェア構成を示す図である。同図に示すように、本実施形態の文書相関図作成装置は、ＣＰＵ（中央演算装置）およびメモリ（記録装置）などから構成される処理装置１、キーボード（手入力器具）などの入力手段である入力装置２、文書データや条件や処理装置１による作業結果などを格納する記録手段である記録装置３、および作成された文書相関図を表示又は印刷等する出力手段である出力装置４から構成される。
【００３１】
図２は上記の文書相関図作成装置における構成と機能を、特に処理装置１と記録装置３につき詳細に説明する図である。
処理装置１は、文書読み出し部１０、時間データ抽出部２０、索引語データ抽出部３０、類似度演算部４０、樹状図作成部５０、切断条件読み出し部６０、クラスタ抽出部７０、配置条件読み出し部８０、クラスタ内要素配置部９０、を備えている。
記録装置３は、条件記録部３１０、作業結果格納部３２０、文書格納部３３０などから構成される。文書格納部３３０は外部データベースや内部データベースを含んでいる。外部データベースとは、例えば日本国特許庁でサービスしている特許電子図書館のＩＰＤＬや、株式会社パトリスでサービスしているＰＡＴＯＬＩＳなどの文書データベースを意味する。又内部データベースとは、販売されている例えば特許ＪＰ−ＲＯＭなどのデータを自前で格納したデータベース、文書を格納したＦＤ（フレキシブルディスク）、ＣＤ（コンパクトディスク）ＲＯＭ、ＭＯ（光磁気ディスク）、ＤＶＤ（デジタルビデオディスク）などの媒体から読み出す装置、紙などに出力された或いは手書きされた文書を読み込むＯＣＲ（光学的情報読み取り装置）などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。
【００３２】
図１及び図２において、処理装置１、入力装置２、記録装置３、および出力装置４の間で信号やデータをやり取りする通信手段としては、ＵＳＢ（ユニバーサルシステムバス）ケーブルなどで直接接続してもよいし、ＬＡＮ（ローカルエリヤネットワーク）などのネットワークを介して送受信してもよいし、文書を格納したＦＤ、ＣＤＲＯＭ、ＭＯ、ＤＶＤなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。
【００３３】
＜２−１．入力装置２の詳細＞
次に、図２により上記の文書相関図作成装置における構成と機能を詳しく説明する。
入力装置２では、文書要素群の読み出し条件、樹状図の作成条件、樹状図の切断によるクラスタの抽出条件、クラスタ内要素の配置条件などの入力を受け付ける。これら入力された条件は、記録装置３の条件記録部３１０へ送られて格納される。
【００３４】
＜２−２．処理装置１の詳細＞
文書読み出し部１０は、入力装置２で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置３の文書格納部３３０から読み出す。読み出された文書要素群のデータは、時間データ抽出部２０及び索引語データ抽出部３０に直接送られて各々での処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。
なお、文書読み出し部１０から時間データ抽出部２０及び索引語データ抽出部３０或いは作業結果格納部３２０に送られるデータは、読み出された文書要素群の時間データ及び内容データを含むすべてのデータであっても良い。また、これら文書要素群の各々を特定する書誌データ（例えば特許文献であれば出願番号又は公開番号など）のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部３３０から各文書要素のデータを読み出せばよい。
【００３５】
時間データ抽出部２０は、文書読み出し部１０で読み出された文書要素群から、各要素の時間データを抽出する。抽出された時間データは、クラスタ内要素配置部９０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。
【００３６】
索引語データ抽出部３０は、文書読み出し部１０で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する。各文書要素から抽出された索引語データは、類似度演算部４０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。
【００３７】
類似度演算部４０は、索引語データ抽出部３０で抽出された各文書要素の索引語データに基づき、文書要素間の類似度（又は非類似度）を演算する。この類似度の演算は、入力装置２から入力された条件に基づき、類似度算出のための類似度算出モジュールを条件記録部３１０から呼び出してきて実行する。算出された類似度は、樹状図作成部５０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。
【００３８】
樹状図作成部５０は、入力装置２で入力される樹状図作成条件に従って、類似度演算部４０で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する。作成された樹状図は、記録装置３の作業結果格納部３２０に送られて格納される。樹状図の格納形式は、例えば二次元座標面上に配置される各文書要素の座標値及びこれらを結ぶ個々の連結線の始点及び終点の座標値のデータ、或いは各文書要素の結合の組合せ及び結合の位置を示すデータという形をとることができる。
【００３９】
切断条件読み出し部６０は、入力装置２で入力され記録装置３の条件記録部３１０に記録された樹状図切断条件を読み出す。読み出された切断条件はクラスタ抽出部７０に送られる。
【００４０】
クラスタ抽出部７０は、樹状図作成部５０で作成された樹状図を記録装置３の作業結果格納部３２０から読み出すとともに、切断条件読み出し部６０で読み出された切断条件に基づいて当該樹状図を切断し、クラスタを抽出する。抽出されたクラスタに関するデータは、記録装置３の作業結果格納部３２０に送られて格納される。クラスタのデータは、例えばクラスタの各々に属する文書要素を特定する情報と、クラスタ同士の結線情報とを含んでいる。
【００４１】
配置条件読み出し部８０は、入力装置２で入力され記録装置３の条件記録部３１０に記録されたクラスタ内の文書要素配置条件を読み出す。読み出された配置条件はクラスタ内要素配置部９０に送られる。
【００４２】
クラスタ内要素配置部９０は、クラスタ抽出部７０で抽出されたクラスタのデータを記録装置３の作業結果格納部３２０から読み出すとともに、配置条件読み出し部８０で読み出された文書要素配置条件に基づいて各クラスタ内の文書要素の配置を決定する。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。この文書相関図は、記録装置３の作業結果格納部３２０に送られて格納され、必要に応じて出力装置４にて出力される。
【００４３】
＜２−３．記録装置３の詳細＞
図２の記録装置３において、条件記録部３１０は、入力装置２から得られた条件などの情報を記録し、処理装置１の要求に基づき、必要なデータを送る。作業結果格納部３２０は、処理装置１における各構成要素の作業結果を格納し、処理装置１の要求に基づき、必要なデータを送る。文書格納部３３０は、入力装置２或いは処理装置１の要求に基づき、外部データベース或いは内部データベースから得た、必要な文書データを格納し、提供する。
【００４４】
＜２−４．出力装置４の詳細＞
図２の出力装置４は、処理装置１のクラスタ内要素配置部９０で作成され記録装置３の作業結果格納部３２０に格納された文書相関図を出力する。出力の形態としては、例えばディスプレイ装置への表示、紙などの印刷媒体への印刷、或いは通信手段を介してのネットワーク上のコンピュータ装置への送信などが挙げられる。

【００４５】
＜３．文書相関図作成装置の作用＞
＜３−１．文書相関図作成装置の動作＞
図３は上記の文書相関図作成装置における処理装置１の動作手順を示すフローチャートである。
【００４６】
まず、文書読み出し部１０において、入力装置２で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置３の文書格納部３３０から読み出す（ステップＳ１０）。分析対象となる文書要素群は、例えば、全特許文書のうち、ある特許文書との類似度降順（非類似度昇順）に選出された文書群としても良いし、特定のキーワード（国際特許分類、技術用語、出願人、発明者など）などあるテーマに沿った検索によって選出された文書群としても良いし、他の方法で選出しても良い。
【００４７】
次に、時間データ抽出部２０において、文書読み出しステップＳ１０で読み出された文書要素群から、各要素の時間データを抽出する（ステップＳ２０）。
【００４８】
次に、索引語データ抽出部３０において、文書読み出しステップＳ１０で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する（ステップＳ３０）。各文書要素の索引語データは、例えば、文書要素Ｅから抽出された索引語の各々についての当該文書要素内における出現回数（索引語頻度ＴＦ（Ｅ）。文書要素Ｅがそれぞれ複数の文書からなる場合は大域的頻度ＧＦ（Ｅ））の関数値を成分とする、多次元ベクトルで表現することができる。なお、文書要素の内容データとしては、索引語データに限らず、国際特許分類（ＩＰＣ）、出願人、発明者等のデータも用いることができる。
【００４９】
次に、類似度演算部４０において、索引語データ抽出ステップＳ３０で抽出された各文書要素の索引語データに基づき、文書要素間の類似度（又は非類似度）を演算する（ステップＳ４０）。
【００５０】
類似度演算の具体的な一例としてベクトル空間法を用いたものを説明すると以下の通りである。今、分析対象である文書集団を構成し分析単位となる個々の文書要素をＥ_１〜Ｅ_Ｎとする。これら文書要素Ｅ_１〜Ｅ_Ｎに対する演算の結果、文書要素Ｅ_１から切り出された索引語を「赤」「青」「黄」とする。また、文書要素Ｅ_２から切り出された索引語を「赤」「白」とする。その場合、各索引語につき、文書要素Ｅ_１での索引語頻度ＴＦ（Ｅ_１）、文書要素Ｅ_２での索引語頻度ＴＦ（Ｅ_２）、母集団である全文書Ｐ（全文書Ｐの文書数を４００とする。）での文書頻度ＤＦ（Ｐ）が、それぞれ次の通りであるとする。
【表１】

【００５１】
ＴＦ＊ＩＤＦ（Ｐ）を各文書の索引語毎に計算して、各文書要素のベクトル表現を算出する。この結果は文書要素ベクトルＥ_１及びＥ_２について、次のようになる。
【表２】

【００５２】
このベクトルＥ_１及びＥ_２間の余弦（又は距離）の関数を取れば、文書要素ベクトルＥ_１及びＥ_２間の類似度（又は非類似度）が得られる。なお、ベクトル間の余弦（類似度）は値が大きいほど類似度合いが高いことを意味し、ベクトル間の距離（非類似度）は値が小さいほど類似度合いが高いことを意味する。
【００５３】
各文書要素を表すベクトルの成分としては、文書要素Ｅがそれぞれ１つの文書からなる場合（ミクロ要素）には、例えば索引語のＴＦ＊ＩＤＦ（Ｐ）を用いるのが好ましい。また、文書要素Ｅがそれぞれ複数の文書からなる場合（マクロ要素）には、各文書要素を表す文書群ベクトルの成分としては、例えばＧＦＩＤＦ（Ｅ）或いはＧＦ（Ｅ）＊ＩＤＦ（Ｐ）を用いることが好ましい。また、これらの関数など他の指標を用いて文書要素ベクトルの成分としてもよい。
また、ベクトル空間法に限らず、他の方法を用いて類似度を定義しても良い。
【００５４】
次に、樹状図作成部５０において、入力装置２で入力される樹状図作成条件に従って、類似度演算ステップＳ４０で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する（ステップＳ５０）。樹状図としては、文書要素などの間の非類似度（又は類似度）を結合位置の高さ（結合距離）に反映させたデンドログラムを作成することが望ましい。例えば、文書要素間の結合高さｄを、ｄ＝１−cosθ（cosθは、例えば、文書要素ベクトル間の余弦又は標準化処理した文書要素ベクトル間の余弦）とする。デンドログラムの具体的な作成方法としては、公知のWard法などを用いる。
【００５５】
次に、切断条件読み出し部６０において、入力装置２で入力され記録装置３の条件記録部３１０に記録された樹状図切断条件を読み出す（ステップＳ６０）。
【００５６】
次に、クラスタ抽出部７０において、切断条件読み出しステップＳ６０で読み出された切断条件に基づき、樹状図作成ステップＳ５０で作成された樹状図を切断し、クラスタを抽出する（ステップＳ７０）。
【００５７】
次に、配置条件読み出し部８０において、入力装置２で入力され記録装置３の条件記録部３１０に記録されたクラスタ内の文書要素配置条件を読み出す（ステップＳ８０）。
【００５８】
次に、クラスタ内要素配置部９０において、配置条件読み出しステップＳ８０で読み出された文書要素配置条件に基づき、クラスタ抽出ステップＳ７０で抽出されたクラスタ内の文書要素の配置を決定する（ステップＳ９０）。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。なお、配置条件はすべてのクラスタに共通として良い。よって、あるクラスタのためにステップＳ８０を一度実行すれば、他のクラスタのために再度実行する必要はない。
【００５９】
＜３−２．文書相関図作成装置の効果＞
本実施形態によれば、分野ごとの時間的発展を適切に表す文書相関図を自動作成することができるので、例えば特許文書であれば、技術の分岐の源となる発明、基本特許、関連分野などの発掘に役立つ文書相関図を容易に作成することができる。
【００６０】
また、ある技術が、予想もしなかった技術からの分岐であったことや、或いは別な技術へ応用されていったことなどが「所要時間も含めて」読み取れるので、製品開発へのヒントを提供することができる。また、新規発明までに要する時間、出願件数の規模の比から開発コストを試算するといったことも可能になる。
【００６１】
また、集団内（自社内、他社内、業界内）の特許文書群を対象として文書相関図を作成することにより、当該集団内の特許構造を整理して理解し、特許戦略への活用を図ることができる。
【００６２】
また、製品ごとに抽出した特許文書群を対象として文書相関図を作成することにより、どの品目がどの技術と結びついて出現してきたかを分析することができる。また、発明者ごとに抽出した特許文書群を対象として文書相関図を作成することにより、技術が誰から誰へと受け継がれていったかを分析することもできる。

【００６３】
＜４．クラスタ抽出の実施例＞
次に、上記の文書相関図作成装置による文書相関図の種々の作成方法について、具体的に説明する。まずは樹状図を切断しクラスタを抽出する過程（主として図３のステップＳ７０に相当）に関する実施例１〜５について説明し、続いて時間データに基づき配列を決定する過程（主として図３のステップＳ９０などに相当）に関する実施例６〜８について説明する。クラスタ抽出過程に関する実施例１〜５と、時間配列過程に関する実施例６〜８とは、互いに任意の組合せが可能である。
なお、実施例１〜５及び実施例６〜８に付した「均衡切断法（ＢＣ法）」「余次元降下法（ＣＲ法）」などの名称は、本発明を説明するために便宜的に与えるものである。
【００６４】
＜４−１．実施例１（均衡切断法；ＢＣ法）＞
均衡切断法（Balance Cutting Method）では、樹状図の切断位置の決定に連関規則を用いる。つまり、予め既存の教師図（時間データに基づいて配置した文書相関図を与えるための理想切断位置が既知である樹状図）を多数分析し、理想的な切断位置がなるべく選出される規則（連関規則）を、種々の樹状図パラメータに対する条件式として求めておく。この分析を連関規則分析という。こうして求めておいた連関規則を、解析対象の樹状図に適用して切断位置を決定する。
【００６５】
＜４−１−１．連関規則分析の説明＞
二つの事象Ａ、Ｂに対し、それぞれが独立に発生する確率をＰ（Ａ）、Ｐ（Ｂ）とする。事象Ａ（前提事象）が発生した後で事象Ｂ（帰結事象）が発生する場合、その確率（条件付確率）をＰ（Ｂ｜Ａ）と記し、Ｐ（Ａ）を「前提確率」、Ｐ（Ｂ）を「事前確率」、Ｐ（Ｂ｜Ａ）を「事後確率」と呼ぶ。
【００６６】
次の（１）〜（３）の基準によって選出された二つの事象のセットを「連関規則」Ａ⇒Ｂと呼び、「事象Ａが発生すれば、（ある値以上の確率で）事象Ｂが発生する」という規則性を意味する。
（１）前提確率Ｐ（Ａ）が高い
（２）事前確率Ｐ（Ｂ）が低く事後確率Ｐ（Ｂ｜Ａ）が高い
（３）従って、前提確率Ｐ（Ａ）と事後確率Ｐ（Ｂ｜Ａ）が共に高い
【００６７】
確率が「高い」とは、ある閾値以上の値をとることを意味する。例えば、事後確率Ｐ（Ｂ｜Ａ）に対する閾値は「信頼度」（confidence）と呼ばれ、例えば60〜70％程度に設定される。また例えば、同時確率（Ｐ（Ａ∩Ｂ）＝Ｐ（Ａ）Ｐ（Ｂ｜Ａ））に対する閾値は「サポート」（support）と呼ばれ、例えば60％程度に設定される。
【００６８】
連関規則を算出するアルゴリズムは公知であるが、これを本発明における樹状図切断位置の決定のための連関規則の導出に適用する場合について、次の４−１−２．４−１−３．にて説明する。
【００６９】
＜４−１−２．パラメータの読み取り＞
図４は、実施例１で行う連関規則分析に用いるパラメータの説明図である。連関規則の導出のためには、まず、教師図のパラメータを読み取る。例えば、教師図の幾何的形状から以下のパラメータを読み取る。なお、解析対象樹状図に連関規則を適用する際には、当該解析対象樹状図についても、同様のパラメータを読み取ることが必要となる。
【００７０】
中点距離ｍ：二体結合（初期結合）の高さをｈ_０とし、二体結合より上段の結合についての下段との差分Δｈ_ｉを、Δｈ_ｉ＝ｈ_ｉ−ｈ_{（ｉ−１）}とする。但し添え字ｉは結合レベル（初期結合を０とし１段上がるごとに１を加えた数）である。Δｈ_１／ｈ_０≧１又は Δｈ_ｊ／Δｈ_{（ｊ−１）}≧２（ｊは結合レベルｉのうち２以上の数）を満たすΔｈ_ｉが樹状図全体でｐ個あった場合、各Δｈ_ｉを定める上端下端の中点値ｍ_ｋ（ｋ＝１，２，…，ｐ）の平均
ｍ＝（１／ｐ）×Σｍ_ｋ
を中点距離とする。
【００７１】
土台＜ｈ_０＞：二体結合の高さｈ_０の平均値。すなわち、二体結合が樹状図全体でｑ個あった場合、
＜ｈ_０＞＝（１／ｑ）×Σｈ_０
【００７２】
最終結合高さＨ：最終結合距離
樹状図面積Ｓ（図示せず）：最終結合高さＨ×全要素数Ｎ
クラスタ面積ｓ（図示せず）：全要素の最初の結合高さの和
【００７３】
切断高さ候補α_０、α_１、α_２（図示せず）：
α_０＝ｍ
α_１＝ｍ−＜ｈ_０＞／２
α_２＝（Σｍ_ｋ＋Σｈ_０）／（ｐ＋ｑ）
【００７４】
なお、連関規則分析に用いるパラメータとしては、上記の他にも種々のもの、例えば結合高さｄの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いることもできる。例えば、上記中点距離ｍの代わりに、結合高さ平均値＜ｄ＞を用いることもできるし、上記土台＜ｈ_０＞の代わりに、結合高さの平均値＜ｄ＞と標準偏差σ_ｄを用いて＜ｄ＞−σ_ｄ或いは＜ｄ＞−２σ_ｄを用いることもできる。また、切断高さ候補として、α_３＝＜ｄ＞或いはα_３＝＜ｄ＞＋0.5σ_ｄを追加しても良い。
【００７５】
＜４−１−３．連関規則の導出例＞
連関規則の導出例として、教師図２８件を基に導出した例を説明する。
ここでは、教師図が少な目であるのでサポート（同時確率Ｐ（Ａ∩Ｂ）＝Ｐ（Ａ）Ｐ（Ｂ｜Ａ）の閾値）は考慮に入れなかった。代わりに、「前提事象Ａ発生後の帰結事象Ｂの発生数／前提事象Ａ発生の有無で絞る前の事象Ｂの発生数」を『保存率』と命名し、また（Ｐ（Ｂ｜Ａ）−Ｐ（Ｂ））／Ｐ（Ｂ）を確率の『伸び率』と命名し、これらを判定に用いた。これら保存率及び伸び率は、事前確率に対する事後確率の減少度の小ささを表すものということができる。
判定の優先順位として第一に信頼度（事後確率Ｐ（Ｂ｜Ａ）に対する閾値＝６５％）、第二に保存率（６０％）、第三に伸び率（６０％）を用いることを原則とした。
【００７６】
（ｉ）自明解の検出
三つの切断高さ候補α_０、α_１、α_２のうち、最善値を与える頻度が高かったのがα_０で、教師図全２８件のうち１３件であった。α_０が最適解（最善値又は次善値）を与える場合を含めると教師図全２８件のうち２０件が該当したので、第一候補としてα_０をとることにした。
【００７７】
（ii）自明解の閾値検出（前提条件の検出）
教師図全２８件のうち、中点距離ｍ＜０．９をとるもの（１２件存在した）に限定して切断高さ候補を適用すると、１２件全件（100％）でα_０が最適解となった（信頼度100％）。
従って、以下の条件式が導かれる。
ｍ＜０．９ ⇒ α＝α_０
【００７８】
（iii）残りの前提条件下での規則検出
教師図のうち、残りのｍ≧０．９をとるもの（１６件）について分析する。中点距離ｍが大きいということは樹状図の高さが高いということを意味する。そこで、教師図全２８件の高さについて調べたところ、次のような規則が見られた：
ｓ／Ｓ≧０．３４５（全１８件） ⇒ ＜ｈ_０＞／ｍ≧０．５（内１７件） …式１
ここで、「クラスタ面積ｓ／樹状図面積Ｓ」をクラスタ密度、「土台＜ｈ_０＞／中点距離ｍ」を土台比率と定義する。つまり、９４％の確率で「クラスタ密度が高い⇒土台比率が高い」という規則が得られた。
【００７９】
（iii-a）ｓ／Ｓ≧０．３４５＆＜ｈ_０＞／ｍ≧０．５の場合
そこで、この１７件に対して、条件ｍ≧０．９で絞る前（１７件）と絞った後（１１件あった）で最適解の確率を比べると、
【表３】

となった。事後確率が高く且つ件数の変動が少ないのはα_２である（信頼度82％、保存率75％）。従って、以下の条件式が導かれる。
ｍ≧０．９＆ｓ／Ｓ≧０．３４５＆＜ｈ_０＞／ｍ≧０．５ ⇒ α＝α_２
ｓ／Ｓの条件と＜ｈ_０＞／ｍの条件をクロスさせているのは誤判定を避けるためである。
【００８０】
（iii-b）ｍ／Ｈ＜０．５５の場合
次に、ｍ≧０．９でｓ／Ｓ＜０．３４５又は＜ｈ_０＞／ｍ＜０．５の場合を考えるべきであるが、該当件数が５件と少ないので、異なる条件分岐で改めてｍ≧０．９の16件を再分析する。再分析の目的は密度が低いもの或いは高さが低いものについての条件式を導くことであるから、高さと密度で条件分岐を考える。
【００８１】
高さについて「中点距離ｍ／最終結合高さＨ」を高層度と定義し、ｍ／Ｈ≧０．５５（高層型）とｍ／Ｈ＜０．５５（下方群生型）とに分別する。
【００８２】
密度に関しては、上記式１によりクラスタ密度ｓ／Ｓと土台比率＜ｈ_０＞／ｍには高い相関があるので、まず、土台比率＜ｈ_０＞／ｍの大小に応じた条件式を探ってみる。教師図全２８件のうち、条件ｍ≧０．９で絞る前（２８件）と絞った後（１６件）で最適解の確率を比べると、
【００８３】
ｍ／Ｈ≧０．５５（高層型）においては：
土台比率＜ｈ_０＞／ｍ＜０．４に関しては事前確率がゼロ、
土台比率＜ｈ_０＞／ｍ ≧ ０．４に関しては事前事後確率の大きな変化が認められず、
結局、有意な規則は導かれない。
【００８４】
ｍ／Ｈ＜０．５５（下方群生型）においては：
まず、土台比率＜ｈ_０＞／ｍ＜０．４のとき、
【表４】

となったので、α_０を採用でき（信頼度100％）、以下の条件式を導くことができる。
ｍ≧０．９＆ｍ／Ｈ＜０．５５＆＜ｈ_０＞／ｍ＜０．４ ⇒ α＝α_０
一方、土台比率＜ｈ_０＞／ｍ ≧ ０．４のとき、
【表５】

となった。α_１とα_２で事後確率が向上しているが、保存率、伸び率を両者で比較すると、α_１を採用でき（信頼度67％、保存率100％、伸び率168％）、以下の条件式を導くことができる。
ｍ≧０．９＆ｍ／Ｈ＜０．５５＆＜ｈ_０＞／ｍ≧０．４ ⇒ α＝α_１
【００８５】
（iii-c）ｍ／Ｈ≧０．５５の場合
次に、（iii-b）で決まらなかったｍ≧０．９でｍ／Ｈ≧０．５５（高層型）の場合について分析する。
ここでは、クラスタ密度ｓ／Ｓに応じて、条件ｍ≧０．９で絞る前と絞った後で最適解の確率を比べる。
まず、クラスタ密度ｓ／Ｓ＜０．４のとき、
【表６】

となった。事後確率（信頼度）が高いのはα_０とα_２であるが、両者に有意な差はないため、事前確率の高いα_０を採用でき、以下の条件式を導くことができる。
ｍ≧０．９＆ｍ／Ｈ≧０．５５＆ｓ／Ｓ＜０．４ ⇒ α＝α_０
次に、クラスタ密度ｓ／Ｓ≧０．４のとき、
【表７】

となった。事後確率の高いα_２を採用でき（信頼度86％、保存率86％）、以下の条件式を導くことができる。
ｍ≧０．９＆ｍ／Ｈ≧０．５５＆ｓ／Ｓ≧０．４ ⇒ α＝α_２
【００８６】
なお、ｍ≧０．９でｍ／Ｈ＜０．５５（下方群生型）の場合についても、クラスタ密度ｓ／Ｓに応じた分析をした場合、
クラスタ密度ｓ／Ｓ＜０．４に間しては事前事後確率の大きな変化が認められず、
クラスタ密度ｓ／Ｓ≧０．４に間しては事後確率ゼロで、
結局、有意な規則は導かれない。
【００８７】
（iv）まとめ
以上をまとめて、最適の切断高さαを選出する規則として、以下の式を得ることができる。
α＝Ｆ_θ（ｍ，0.9 ；α_０，Ｆ_θ（＜ｈ_０＞／ｍ，0.5 ；Ａ，Ｂ））
Ｂ＝Ｆ_θ（ｓ／Ｓ，0.345 ；Ａ，α_０）
Ａ＝Ｆ_θ（ｍ／Ｈ，0.4 ；Ｆ_θ（＜ｈ_０＞／ｍ，0.4 ；α_０，α_１），Ｆ_θ（ｓ／Ｓ，0.4 ；α_０，α_２））
【００８８】
但し、Ｆ_θ（ｘ，γ；ｙ，ｚ）＝θ（ｘ＜γ）ｙ＋θ（ｘ≧γ）ｚ
なお、θ（Ｘ）は、命題Ｘが真のとき１、それ以外のとき０を返す関数である。つまり、Ｆ_θ（ｘ，γ；ｙ，ｚ）は、ｘ＜γのときｙ、ｘ≧γのときｚを返す関数である。
【００８９】
こうして導出された連関規則は、入力装置２からの入力等に従い、記録装置３の条件記録部３１０に格納される。なお、この連関規則は教師図に依存するものなので、例えば解析対象樹状図の要素数に応じて教師図を更新し、再度連関規則分析をすれば、これと異なる連関規則が導かれ得る。
【００９０】
＜４−１−４．クラスタ抽出手順＞
次に、上述の方法で導出された連関規則を用いて決定される切断位置を用いて、樹状図を切断し、クラスタを抽出する具体的手順について説明する。
【００９１】
図５は、実施例１（均衡切断法；ＢＣ法）におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例１の手順を図３より詳細に示している。図３と同様のステップには図３のステップ番号に１００を加えて下二桁を図３と同一のステップ番号とし、図３と重複する説明を省略することがある。
図６は、実施例１におけるクラスタ抽出過程での樹状図配置例を示す図であり、図５を補足するものである。Ｅ_１〜Ｅ_１１は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間ｔをもつ（より古い）文書要素であるものとする。
【００９２】
まず、処理装置１の文書読み出し部１０が、分析対象となる複数の文書要素を記録装置３の文書格納部３３０から読み出す（ステップＳ１１０）。
【００９３】
次に、処理装置１の時間データ抽出部２０が、分析対象である文書集団の各文書要素から時間データを抽出する（ステップＳ１２０）。
【００９４】
次に、処理装置１の索引語データ抽出部３０が、分析対象である文書集団の各文書要素から索引語データを抽出する（ステップＳ１３０）。このとき、後述のように文書集団のうちの最古要素（最古の文書要素）Ｅ_１の索引語データは不要なので、ステップＳ１２０で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【００９５】
次に、処理装置１の類似度演算部４０が、各文書要素間の類似度を演算する（ステップＳ１４０）。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。
【００９６】
次に、処理装置１の樹状図作成部５０が、分析対象である文書集団の各文書要素からなる樹状図を作成する（ステップＳ１５０：図６（Ａ））。このとき、最古要素Ｅ_１は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【００９７】
次に、処理装置１の切断条件読み出し部６０が、切断条件の読み出しを行う（ステップＳ１６０）。ここでは樹状図のパラメータ読み出し条件と、上記連関規則分析で導出された連関規則を読み出す。
【００９８】
次に、クラスタ抽出部７０が、クラスタ抽出を行う。まず、上記読み出されたパラメータ読み出し条件に従って樹状図のパラメータを読み出す（ステップＳ１７１）。次に、このパラメータに対して上記読み出された連関規則を適用し、樹状図の切断高さαを決定する（ステップＳ１７２：図６（Ｂ））。決定された切断高さに従い、樹状図を切断し、クラスタを抽出する（ステップＳ１７３）。ここで抽出されたクラスタの数だけ、上記先頭要素Ｅ_１から枝線を作成する（図６（Ｃ）参照）。
【００９９】
次に、抽出された各クラスタにつき、以下の処理を行う。
【０１００】
まず、各クラスタの文書要素数を計数する（ステップＳ１７４）。文書要素３個を超えるクラスタについて、当該クラスタの最古要素Ｅ_７を除外して当該クラスタの先頭に配置し、残りのクラスタ内要素Ｅ_８〜Ｅ_１１による部分樹状図を作成する（ステップＳ１７５：図６（Ｃ））。このときに作成する部分樹状図は、当該クラスタの最古要素Ｅ_７が除外されている他は、ステップＳ１５０で最初に作成した樹状図のうち当該クラスタに相当する部分とほぼ同じ構造になる。但し、当該クラスタの最古要素Ｅ_７が除外されているので、当該クラスタ内での要素群間距離が変化する。従って、残りのクラスタ内要素Ｅ_８〜Ｅ_１１の内容データに基づいて再分析すればステップＳ１５０で作成した樹状図とは若干異なる構造となる可能性もある。例えば、文書要素と文書要素群の距離（非類似度）或いは文書要素群と文書要素群の距離（非類似度）として重心間距離又は全距離平均を用いて樹状図を作成する場合、図６（Ｂ）における要素Ｅ_７及びＥ_８と要素Ｅ_９との距離に対して、図６（Ｃ）における要素Ｅ_８と要素Ｅ_９との距離は異なるものとなるので、この部分は異なる構造になり得る。
【０１０１】
部分樹状図の作成されたクラスタについてはステップＳ１７１に戻り、当該部分樹状図のパラメータを読み出し、ステップＳ１７２にて切断高さαを決定する（図６（Ｄ））。
【０１０２】
部分樹状図のパラメータは、ステップＳ１５０で最初に作成した樹状図のパラメータとは異なる値となるから、同じ連関規則を適用したとしても切断高さαは変化する。この新たな切断高さでの切断をステップＳ１７３にて実行し、子孫クラスタを抽出する。なお、部分樹状図に適用する連関規則としては、最初の樹状図に適用した連関規則を再度用いるよりは、別の連関規則を用いるのが好ましい。かかる連関規則は、適用対象となる（部分）樹状図に含まれる文書要素数と同等の要素数をもつ教師図をもとに、連関規則分析を行って導出されたものであることが好ましい。
【０１０３】
一方、抽出されたクラスタのうち文書要素数が３以下のものについては、配置条件読み出し部８０で読み出された（ステップＳ１８０）配置条件に従って、クラスタ内要素配置部９０が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する（ステップＳ１９０：図６（Ｅ））。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例６〜８による配置など他のものでもよい。
【０１０４】
以上説明した方法ではステップＳ１７１に戻るたびに異なる切断高さαが適用されるので、これを「可変ＢＣ法」と命名する。これに対し図５に破線で示すように、クラスタ内の文書要素数を計数せず、ステップＳ１７３から直ちにステップＳ１８０に移行して時間データに基づく配列を行うことも可能である。これを「固定ＢＣ法」と命名する。
【０１０５】
図７は、実施例１の方法により生成された文書相関図の具体例を示す図である。キーワード検索によって抽出した清酒に関する日本特許出願１７件の各公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例では１回の切断ですべてのクラスタが閾値（３）以下の件数になったので、可変ＢＣ法と固定ＢＣ法とでは同一の出力結果となった。
【０１０６】
＜４−１−５．実施例１の効果＞
本実施例１によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、樹状図の切断規則を連関規則分析により導出しているので、種々の樹状図に適用可能な（汎用性の高い）切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。
更に、教師図の形状パラメータに基づいて連関規則を導出しているので、樹状図形状に即した適切な切断位置を決定可能な、信頼性の高い切断規則を用いることができる。
また、解析対象樹状図の形状パラメータを読み取り、これに連関規則を適用することで切断位置を決定できるので、切断位置の決定を少ない計算量で済ませることができる。

【０１０７】
＜４−２．実施例２（余次元降下法；ＣＲ法）＞
余次元降下法（Codimensional Reduction Method）では、実施例１（均衡切断法；ＢＣ法）と同様に、樹状図の切断位置の決定に連関規則を用いる。実施例１では樹状図の幾何的形状から得られたパラメータを用い、切断位置として要素間の結合高さを用いたが、本実施例２では、文書要素ベクトル間の差異を示す索引語次元を用いて切断位置を決定する。
【０１０８】
連関規則分析についての基本的な説明は既に実施例１で行ったので省略し、まずは本実施例２の連関規則分析で用いるパラメータについて、実施例１との差異点を説明する。
【０１０９】
＜４−２−１．パラメータの説明＞
樹状図においてあるノード（結節点）ｃが与えられたとき、その結合レベルを整数ｉ（ｃ）で表す。初期ペアの結合は結合レベルｉ（ｃ）＝０、その１つ上段の結合は結合レベルｉ（ｃ）＝１とする。なお、後述の図９（Ａ）にノードｃ_１〜ｃ_７の各々について結合レベルｉ（ｃ）が示されている。
【０１１０】
結合レベルｉ（ｃ）であるノードｃにおいて、当該ノードｃで結合される文書要素群（ノードｃを頂点とする部分樹状図に属するすべての文書要素）の索引語和集合の次元数Ｄ_ｃから、索引語頻度ＴＦ（Ｅ）が文書要素間で同一値をとる索引語の次元数を引いた残りの次元数をＲ（ｉ；ｃ）とする（これを余次元と呼ぶことにする）。
なお、Ｄ_ｃは樹状図の全要素の索引語和集合の次元数Ｄ以下の値をとるが、ノードｃで結合される文書要素群に含まれていない（各文書要素Ｅに０個含まれている）索引語の索引語頻度ＴＦ（Ｅ）は、ノードｃで結合される文書要素群においてはすべて同一値０をとる、と考えることもできる。この場合、余次元Ｒは、樹状図の全要素の索引語和集合の次元数Ｄから、当該ノードｃで結合される文書要素間で同一の索引語頻度（０を含む）をとる索引語の次元数を引いた次元数、と定義しても良い。
【０１１１】
索引語和集合の次元数Ｄ_ｃ又はＤの大きさは、当該ノード以下の部分樹状図又は樹状図全体に属する文書要素間のバラツキの大きさに深く関係する。但し、索引語和集合の次元数Ｄ_ｃ又はＤが大きくても、索引語頻度ＴＦ（Ｅ）を共通にする索引語が多い（余次元Ｒが小さい）ことは文書要素間の差異がさほど大きくないことを意味する。逆に、索引語和集合の次元数Ｄ_ｃ又はＤが大きく、索引語頻度ＴＦ（Ｅ）を共通にする索引語が少ない（余次元Ｒが大きい）ことは文書要素間の差異が大きいことを意味する。本実施例２は、この性質を利用して樹状図の切断位置を決定しようとするものである。実施例１（均衡切断法；ＢＣ法）で用いたパラメータが樹状図の形状に関係する幾何的パラメータとすれば、余次元は非幾何的パラメータと言える。
【０１１２】
本実施例２では、余次元Ｒがある値（臨界次元Ｄ_α）を超えるノードｃを、すべて切断する。この臨界次元を求めるためのパラメータとして、実施例１で用いた中点距離ｍ、土台＜ｈ_０＞、高さＨ、クラスタ密度ｓ／Ｓなどの幾何的パラメータも用いる。
【０１１３】
なお、連関規則分析に用いるパラメータとしては、上記の他にも種々のもの、例えば結合高さｄの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いることもできる。例えば、上記中点距離ｍの代わりに、結合高さ平均値＜ｄ＞を用いることもできるし、上記土台＜ｈ_０＞の代わりに、結合高さの平均値＜ｄ＞と標準偏差σ_ｄを用いて＜ｄ＞−σ_ｄ或いは＜ｄ＞−２σ_ｄを用いることもできる。
【０１１４】
＜４−２−２．連関規則の導出例＞
臨界次元Ｄ_αを導くための連関規則の算出方法は実施例１と同様である。すなわち、予め多数の教師図について理想的な臨界次元Ｄ_αを求めておく。更に、教師図の幾何的パラメータと理想的な臨界次元Ｄ_αとの関係を分析する。そして、教師図の切断位置がなるべく再現されるような臨界次元Ｄ_αを導く規則を、種々のパラメータに対する条件式として求める。
【０１１５】
求められた連関規則の一例を示すと以下の通りである。当該連関規則の導出過程等の説明は省略する。
Ｄ_α＝Ｄ×（ｓ／Ｓ）×（ｍ／＜ｈ_０＞）×［θ（ｓ／Ｓ≦０．２）｛θ（ｍ≦０．５Ｈ）＋（１／２）θ（ｍ＞０．５Ｈ）｝＋（１／２）θ（ｓ／Ｓ＞０．２）］
但し、θ（Ｘ）は、命題Ｘが真のとき１、それ以外のとき０を返す関数である。
【０１１６】
この連関規則は、入力装置２からの入力等に従い、記録装置３の条件記録部３１０に格納される。
【０１１７】
＜４−２−３．クラスタ抽出手順＞
次に、導出された連関規則を用いて決定される臨界次元を用いて、樹状図を切断し、クラスタを抽出する具体的手順について説明する。本実施例２では、解析対象となる樹状図の各ノードｃの余次元Ｒ（ｉ；ｃ）をすべて算出する。そして、余次元Ｒ（ｉ；ｃ）が臨界次元Ｄ_αを超えるノードｃを、すべて切断する。
【０１１８】
図８は、実施例２（余次元降下法；ＣＲ法）におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例２の手順を図３より詳細に示している。図３と同様のステップには図３のステップ番号に２００を加えて下二桁を図３と同一のステップ番号とし、図３と重複する説明を省略することがある。
図９は、実施例２におけるクラスタ抽出過程での樹状図配置例を示す図であり、図８を補足するものである。Ｅ_１〜Ｅ_９は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間ｔをもつ（より古い）文書要素であるものとする。
【０１１９】
まず、処理装置１の文書読み出し部１０が、分析対象となる複数の文書要素を記録装置３の文書格納部３３０から読み出す（ステップＳ２１０）。
【０１２０】
次に、処理装置１の時間データ抽出部２０が、分析対象である文書集団の各文書要素から時間データを抽出する（ステップＳ２２０）。
【０１２１】
次に、処理装置１の索引語データ抽出部３０が、分析対象である文書集団の各文書要素から索引語データを抽出する（ステップＳ２３０）。このとき、後述のように文書集団のうちの最古要素（最古の文書要素）Ｅ_１の索引語データは不要なので、ステップＳ２２０で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【０１２２】
次に、処理装置１の類似度演算部４０が、各文書要素間の類似度を演算する（ステップＳ２４０）。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。
【０１２３】
次に、処理装置１の樹状図作成部５０が、分析対象である文書集団の各文書要素からなる樹状図を作成する（ステップＳ２５０：図９（Ａ））。このとき、最古要素Ｅ_１は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【０１２４】
次に、処理装置１の切断条件読み出し部６０が、切断条件の読み出しを行う（ステップＳ２６０）。ここでは樹状図のパラメータ読み出し条件と、上記連関規則分析で導出された連関規則を読み出す。
【０１２５】
次に、クラスタ抽出部７０が、クラスタ抽出を行う。まず、上記読み出されたパラメータ読み出し条件に従って、樹状図のパラメータを読み出す（ステップＳ２７１）。次に、このパラメータに対して上記読み出された連関規則を適用し、樹状図の切断位置を判定するための臨界次元Ｄ_αを決定する（ステップＳ２７２）。
【０１２６】
次に、結合レベルｉ＝０のノード（初期ペア）から順に、以下の処理を行う。まず、処理対象ノードｃの余次元Ｒ（ｉ；ｃ）を算出する（ステップＳ２７３）。余次元Ｒ（ｉ；ｃ）と臨界次元Ｄ_αとを比較し（ステップＳ２７４）、Ｒ（ｉ；ｃ）＞Ｄ_αなら当該ノードを切断し（ステップＳ２７５）、ステップＳ２７６に移行する。Ｒ（ｉ；ｃ）≦Ｄ_αなら切断せず、そのままステップＳ２７６に移行する。
【０１２７】
ステップＳ２７６では、現在の結合レベルｉの全ノードについての処理が終了したか否かを判定する。現在の結合レベルｉの処理が終了していなければ（ステップＳ２７６：ＮＯ）、ステップＳ２７３に戻って次のノードｃについての処理を行う。現在の結合レベルｉの処理がすべて終了していれば（ステップＳ２７６：ＹＥＳ）、全結合レベルの全ノードについての処理が終了したか否かを判定する（ステップＳ２７７）。
【０１２８】
全結合レベルの処理が終了していなければ（ステップＳ２７７：ＮＯ）、次の結合レベルに移行するためｉ：＝ｉ＋１とし（ステップＳ２７８）、ステップＳ２７３に戻って次の結合レベルのノードｃについての処理を行う。全結合レベルの処理がすべて終了していれば（ステップＳ２７７：ＹＥＳ）、クラスタ抽出部７０での処理を終了し、ステップＳ２８０に移行する。
【０１２９】
図９（Ｂ）に、ノードｃ_１〜ｃ_７の各々についての余次元Ｒと臨界次元Ｄ_αの比較結果の例を示す。この例ではノードｃ_１〜ｃ_５については余次元Ｒが臨界次元Ｄ_α以下であると判定され、ノードｃ_６及びｃ_７については余次元Ｒが臨界次元Ｄ_αを超えると判定された。従って、上記ステップＳ２７５にてノードｃ_６及びｃ_７が切断されてクラスタが抽出される。この例では、ノードｃ_６よりノードｃ_５の方が、結合高さが高い（結合される文書要素群間の非類似度が高い）にもかかわらず、ノードｃ_５の余次元が臨界次元Ｄ_α以下であったためノードｃ_５では切断されなかった。この例に示されるように、本実施例２による切断位置は樹状図における結合高さと直接関係するものではない。
【０１３０】
本実施例２では下位ノード（ｉ＝０）から順に余次元Ｒと臨界次元Ｄ_αの比較をしている。ある下位ノードｃが与えられた場合、その上流に位置する上位ノードで結合される文書要素群は、当該下位ノードｃで結合される文書要素Ｅをすべて含む。従って上位ノードは、下位ノードｃの余次元Ｒより大きな余次元Ｒを持つことになる。従って例えば図９（Ｂ）の例のように、下位ノードｃ_６の余次元Ｒ（２；ｃ_６）が臨界次元Ｄ_αを超えると判定された場合は、その上流に位置する上位ノードｃ_７の余次元Ｒ（３；ｃ_７）の算出及び臨界次元Ｄ_αとの比較を省略することも可能である。
【０１３１】
次に、配置条件読み出し部８０が、クラスタ内での配置条件の読み出しを行う（ステップＳ２８０）。この配置条件に従って、クラスタ内要素配置部９０が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する（ステップＳ２９０：図９（Ｃ））。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例６〜８による配置など他のものでもよい。
【０１３２】
なお、上述の例では、余次元Ｒを求めるために索引語和集合の次元数から引かれる索引語は、索引語頻度ＴＦ（Ｅ）が同一のものとしたが、それ以外のものでもよい。例えば、索引語頻度ＴＦ（Ｅ）の偏差が所定方法で定めた値より小さい索引語（索引語頻度ＴＦ（Ｅ）の標準偏差が一定値以下の索引語など）としてもよい。また、文書要素Ｅがそれぞれ複数の文書からなる場合は、索引語頻度ＴＦ（Ｅ）の代わりに大域的頻度ＧＦ（Ｅ）とするのが好ましい。また、文書要素のベクトル成分量として索引語頻度ＴＦ（Ｅ）又は大域的頻度ＧＦ（Ｅ）以外のものを使用する場合には、そのベクトル成分量の偏差が所定方法で定めた値より小さい索引語とするのが好ましい。
【０１３３】
図１０は、実施例２の方法により生成された文書相関図の具体例を示す図である。実施例１の図７と同一の公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例では図７と異なり、文書要素１件だけのクラスタが生成されなかった。本実施例２において文書要素１件だけのクラスタが生成されるためには２〜３件程度の文書要素群で余次元Ｒが臨界次元Ｄ_αに達する必要があるが、２〜３件程度の文書要素では索引語和集合の次元数が低いので、余次元Ｒが臨界次元Ｄ_αに達しなかったものと思われる。このように各クラスタにおいてそれぞれ複数の文書要素が時間順で並べられたので、時間的に見た流れを把握し易い文書相関図を得ることができた。
【０１３４】
＜４−２−４．実施例２の効果＞
本実施例２によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、樹状図の切断規則を連関規則分析により導出しているので、種々の樹状図に適用可能な（汎用性の高い）切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。
更に、切断規則の導出のためにベクトル次元数を加味しているので、適切な分岐を得ることができる。
更に、ノードごとに切断基準の判定を行い、判定結果に基づいて各ノードを個別に切断しているので、より適切な分岐を得ることができる。

【０１３５】
＜４−３．実施例３（細胞分裂法；ＣＤ法）＞
細胞分裂法（Cell Division Method）では、ある方法で決められた切断高さαで樹状図を切断して親クラスタを抽出した後、各親クラスタを更に子クラスタに分けるために、各親クラスタに属する文書要素のみを用いて再度当該部分の樹状図を作成する。この部分樹状図の作成の際に、当該親クラスタにおける文書要素ベクトルの成分の偏差が所定方法で定めた値より小さい値をとる索引語次元を除去して分析する。
【０１３６】
＜４−３−１．クラスタ抽出手順＞
図１１は、実施例３（細胞分裂法；ＣＤ法）におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例３の手順を図３より詳細に示している。図３と同様のステップには図３のステップ番号に３００を加えて下二桁を図３と同一のステップ番号とし、図３と重複する説明を省略することがある。
図１２は、実施例３におけるクラスタ抽出過程での樹状図配置例を示す図であり、図１１を補足するものである。Ｅ_１〜Ｅ_１０は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間ｔをもつ（より古い）文書要素であるものとする。
【０１３７】
まず、処理装置１の文書読み出し部１０が、分析対象となる複数の文書要素を記録装置３の文書格納部３３０から読み出す（ステップＳ３１０）。
【０１３８】
次に、処理装置１の時間データ抽出部２０が、分析対象である文書集団の各文書要素から時間データを抽出する（ステップＳ３２０）。
【０１３９】
次に、処理装置１の索引語データ抽出部３０が、分析対象である文書集団の各文書要素から索引語データを抽出する（ステップＳ３３０）。このとき、後述のように文書集団のうちの最古要素（最古の文書要素）Ｅ_１の索引語データは不要なので、ステップＳ３２０で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【０１４０】
次に、処理装置１の類似度演算部４０が、各文書要素間の類似度を演算する（ステップＳ３４０）。このときも、上記と同様に最古要素Ｅ_１以外の要素間の類似度のみを演算する。
【０１４１】
次に、処理装置１の樹状図作成部５０が、分析対象である文書集団の各文書要素からなる樹状図を作成する（ステップＳ３５０：図１２（Ａ））。このとき、最古要素Ｅ_１は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【０１４２】
次に、処理装置１の切断条件読み出し部６０が、切断条件の読み出しを行う（ステップＳ３６０）。ここでは切断高さα、後述の偏差判定閾値などを読み出す。
【０１４３】
次に、クラスタ抽出部７０が、クラスタ抽出を行う。まず、切断高さα＝ａ（但し、結合高さｄ＝ａ−ｂcosθ）で樹状図を切断する（ステップＳ３７１：図１２（Ｂ））。α＝ａでクラスタ分離が生じない場合（ステップＳ３７２）、α^＊＝＜ｄ＞＋δσ_ｄ（但し−３≦δ≦３。特に０≦δ≦２とするのが好ましく、δ＝１とするのが最も好ましい。）で切断する（ステップＳ３７３）。樹状図が切断されたら、各クラスタ内の最古要素Ｅ_２、Ｅ_７を当該各クラスタの先頭に配置する（ステップＳ３７４：図１２（Ｃ））。以下の処理は各クラスタの、当該各最古要素以外の文書要素群につき行う。
【０１４４】
まず、各クラスタにつき、最古要素以外のクラスタ内要素間での偏差が所定方法で定めた値より小さい値をとる索引語次元を削除する処理を行う（ステップＳ３７５）。例えば、図１２の文書要素Ｅ_２を先頭とするクラスタにおいて、文書要素Ｅ_３、Ｅ_４、Ｅ_５、Ｅ_６の索引語と、それぞれの索引語について算出された各文書要素ベクトルの成分値がそれぞれ次の表に示す通りだったとする。
【表８】

偏差の判定閾値を、例えばクラスタ内平均に対する標準偏差の比率で１０％と規定した場合には、索引語ｗ_ｂ及びｗ_ｅを偏差が小さい値と判定し削除するのである。
【０１４５】
次に、各クラスタにつき、上記最古要素以外のクラスタ内要素からなる部分樹状図の作成を行う（ステップＳ３７６：図１２（Ｄ））。表８の例で言えば、残りの索引語ｗ_ａ、ｗ_ｃ、ｗ_ｄ、ｗ_ｆを用いて部分樹状図を作成する。従って、ステップＳ３５０で作成された樹状図での分岐とは異なるクラスタ内分岐が得られる。特に、偏差が小さい値をとる索引語次元が削除されているので、残りの索引語の差異が強調される。従って、同じ文書要素間の類似度であっても、ステップＳ３５０で樹状図を作成した際の類似度よりも、本ステップＳ３７６で部分樹状図を作成する際の類似度の方が小さく（非類似度が大きく）評価されることになる。
【０１４６】
ここで、各クラスタにつき、最古要素を除いたクラスタ内要素数を取得し、所定の閾値（例えば３）と比較する（ステップＳ３７７）。図１２（Ｄ）の文書要素Ｅ_３〜Ｅ_６のように、最古要素Ｅ_２を除いた文書要素数が閾値を超えている場合は（ステップＳ３７７：ＮＯ）、ステップＳ３７１に戻って樹状図の切断を行い、子孫クラスタを抽出する。このときの切断高さα（又はα^＊）はステップＳ３７１（又はステップＳ３７３）で上述した通りであるが、偏差が小さい値をとる索引語次元が削除され類似度が小さく評価されているので、同じ切断高さα（又はα^＊）でも再度樹状図の切断が可能となるのである。なお、子孫クラスタ抽出の際にステップＳ３７３の切断高さα^＊で切断する場合には、切断される親クラスタにおける各結合位置の高さｄに応じてその都度α^＊を更新してもよいし（可変法）、α^＊の初期値をそのまま用いてもよい（固定法）。
【０１４７】
図１２（Ｄ）の文書要素Ｅ_８〜Ｅ_１０のように、クラスタ内の最古要素Ｅ_７を除いた文書要素数が閾値以下であった場合（ステップＳ３７７：ＹＥＳ）、当該クラスタについては最後に切断高さα＝ａで切断を行う（ステップＳ３７８：図１２（Ｅ））。本ステップＳ３７８では、実際にクラスタ分離が生じない場合でもステップＳ３８０に移行する。
【０１４８】
ステップＳ３８０では、配置条件読み出し部８０が、クラスタ内での配置条件の読み出しを行う。この配置条件に従って、クラスタ内要素配置部９０が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する（ステップＳ３９０：図１２（Ｆ））。
例えばステップＳ３７８において、図１２（Ｅ）の切断高さα＝ａ_ｘで切断されクラスタ分離が生じなかった場合は、当該クラスタの文書要素Ｅ_７〜Ｅ_１０の時間データ順の直列鎖配列となる（図１２（Ｆ））。
また例えばステップＳ３７８において、図１２（Ｅ）の切断高さα＝ａ_ｙで切断された場合は、文書要素Ｅ_７から、文書要素Ｅ_８と、文書要素Ｅ_９及びＥ_１０の時間データ順の直列鎖と、に分岐される（図示せず）。
また例えばステップＳ３７８において、図１２（Ｅ）の切断高さα＝ａ_ｚで切断された場合は、文書要素Ｅ_７から、文書要素Ｅ_８と文書要素Ｅ_９と文書要素Ｅ_１０の３枝に分岐される（図示せず）。
クラスタ内の配置条件は、この例のように時間データに基づき古い順に並べるのが好ましいが、後述の実施例６〜８による配置など他のものでもよい。
【０１４９】
なお、偏差の判定閾値について、平均に対する標準偏差の比率で１０％とした例を説明したが、これは各文書要素が１つの文書からなる場合に好適な例である。各文書要素が１つの文書からなる場合の判定閾値は、０％以上１０％以下とするのが好ましい。
一方、各文書要素が複数の文書からなる場合には、クラスタ内文書要素の平均に対する標準偏差の比率が６０％或いは７０％以下であれば、偏差が小さいものとして扱うことが好ましい。
【０１５０】
図１３は、実施例３の方法により生成された文書相関図の具体例を示す図である。実施例１の図７と同一の公開公報を文書要素とし、文書要素ベクトルの成分値としてＴＦ＊ＩＤＦ（Ｐ）を用い、切断高さαとしてａ＝１を用いて分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例ではステップＳ３７６で作成した部分樹状図の１つが更に切断され、２段階の分岐が形成された。
【０１５１】
図１４は、実施例３の方法により生成された文書相関図の他の具体例を示す図である。ある家庭用化学品メーカーを出願人とする約４０００件の日本特許公開公報のうち主な１６分野について、各分野に属すべき文書群をそれぞれキーワード検索によって選出し、各分野の文書群をそれぞれ１つの文書要素（マクロ要素）とした。実施例３に従って最古要素を除外して先頭に配置し、残り１５要素による樹状図の作成及び樹状図切断を行い、図に示す分岐構造が得られた。各文書要素の時間データｔとして出願日の平均値を用い、文書要素ベクトルの成分値としてＧＦＩＤＦ（Ｅ）を用い、切断高さαとしてａ＝１を用い、偏差の判定閾値として７０％を採用した。文書相関図には上記１６分野を特徴付けるキーワードを記入した。
【０１５２】
＜４−３−２．実施例３の効果＞
本実施例３によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、親クラスタの抽出後に、各親クラスタを再分析して作成した部分樹状図により子クラスタを抽出しているので、子クラスタの誤分類を改善し適切な分類を得ることができる。
【０１５３】
更に、親クラスタの抽出後に、各親クラスタに属する文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を除去しているので、親クラスタの抽出観点とは異なった観点から子クラスタの抽出を行うことができる。例えば、着色材料に関する複数の文書要素を分類した場合、親クラスタの抽出時には溶媒の違いにより、低沸点溶媒を用いた群と高沸点溶媒を用いた群に大別されたとする。子クラスタの抽出時には、各親クラスタにおいて偏差の小さい溶媒に関する索引語が除去されるので、例えば顔料の違いが強調されて有機系顔料を用いた群と無機系顔料を用いた群に大別される。各親クラスタにおいて偏差の小さい索引語が除去されない場合には、溶媒に関する更に細かい分類と顔料に関する分類とが拮抗してしまい適切な子クラスタが得られない恐れもあるが、本実施例３では、クラスタ内での違いを強調することで、子孫クラスタでの適切な分類を得ることができるのである。

【０１５４】
＜４−４．実施例４（段階的切断法；ＳＣ法）＞
段階的切断法（Stepwise Cutting Method）では、２つ以上の切断高さα_ｉ、α_ii（固定値）で樹状図を切断し、親クラスタ及び子孫クラスタを抽出する。
【０１５５】
＜４−４−１．クラスタ抽出手順＞
図１５は、実施例４（段階的切断法；ＳＣ法）におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例４の手順を図３より詳細に示している。図３と同様のステップには図３のステップ番号に４００を加えて下二桁を図３と同一のステップ番号とし、図３と重複する説明を省略することがある。
図１６は、実施例４におけるクラスタ抽出過程での樹状図配置例を示す図であり、図１５を補足するものである。Ｅ_１〜Ｅ_１４は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間ｔをもつ（より古い）文書要素であるものとする。
【０１５６】
まず、処理装置１の文書読み出し部１０が、分析対象となる複数の文書要素を記録装置３の文書格納部３３０から読み出す（ステップＳ４１０）。
【０１５７】
次に、処理装置１の時間データ抽出部２０が、分析対象である文書集団の各文書要素から時間データを抽出する（ステップＳ４２０）。
【０１５８】
次に、処理装置１の索引語データ抽出部３０が、分析対象である文書集団の各文書要素から索引語データを抽出する（ステップＳ４３０）。このとき、後述のように文書集団のうちの最古要素（最古の文書要素）Ｅ_１の索引語データは不要なので、ステップＳ４２０で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【０１５９】
次に、処理装置１の類似度演算部４０が、各文書要素間の類似度を演算する（ステップＳ４４０）。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。
【０１６０】
次に、処理装置１の樹状図作成部５０が、分析対象である文書集団の各文書要素からなる樹状図を作成する（ステップＳ４５０：図１６（Ａ））。このとき、最古要素Ｅ_１は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【０１６１】
次に、処理装置１の切断条件読み出し部６０が、切断条件の読み出しを行う（ステップＳ４６０）。ここでは切断高さα_ｉ、α_ii（但し、α_ｉ＞α_ii）又はそれらの算出方法などを読み出す。例えば、α_ｉ＝ａ、α_ii＝ａ−０．２ｂ（但し、結合高さｄ＝ａ−ｂcosθ）とする。また例えばα^＊＝＜ｄ＞＋δσ_ｄ（但し−３≦δ≦３。特に０≦δ≦２とするのが好ましい。）を用いて、α_ｉ＝＜ｄ＞＋σ_ｄ、α_ii＝＜ｄ＞とする。また、切断高さをα_ｉ、α_ii、α_iii（但し、α_ｉ＞α_ii＞α_iii）の３箇所とする場合には、例えば、類似度を相関係数で定義した場合、α_ｉ＝ａ＋ｂ（反相関）、α_ii＝ａ（無相関）、α_iii＝ａ−０．３ｂ（強相関の閾値）のように、類似度の代表点とすることもできる。
【０１６２】
次に、クラスタ抽出部７０が、クラスタ抽出を行う。まず、上記樹状図を切断高さα＝α_ｉで切断する（ステップＳ４７１：図１６（Ｂ））。そして、当該切断線で切断される枝線の数（第一分岐数）を読み取り、ステップＳ４５０で除外された最古要素Ｅ_１から直接、第一分岐数に相当する数の枝線を引く（ステップＳ４７２：図１６（Ｃ））。この第一分岐数が親クラスタの数となる。
【０１６３】
次に、同じ樹状図を切断高さα＝α_iiで切断する（ステップＳ４７３：図１６（Ｄ））。そして、当該切断線で切断される枝線の数（第二分岐数）を、親クラスタごとに読み取り、各親クラスタの線から直接、当該親クラスタの第二分岐数に相当する数の枝線を引く（ステップＳ４７４）。この第二分岐数を全親クラスタについて合計した数が、子クラスタの総数となる。クラスタの抽出はこれで終了である。
【０１６４】
上述のようにしてクラスタが抽出されるので、次に、配置条件読み出し部８０が、クラスタ内での配置条件の読み出しを行う（ステップＳ４８０）。この配置条件に従って、クラスタ内要素配置部９０が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する（ステップＳ４９０：図１６（Ｅ））。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例６〜８による配置など他のものでもよい。
【０１６５】
上述のように、ステップＳ４７２では最古要素から直接、第一分岐数に相当する数の枝線を引く。従って、例えば図１６（Ｂ）の樹状図に示すように親クラスタ［１］と親クラスタ［２］及び［３］とが互いに異なる階層に位置するような場合でも、図１６（Ｃ）に示すように切断高さα_ｉより上方の階層構造を統一的に処理することができる。従って樹状図を簡略化することができる。
また上述のように、ステップＳ４７４では各親クラスタの線から直接、当該親クラスタの第二分岐数に相当する数の枝線を引く。従って、例えば図１６（Ｄ）の樹状図に示すように親クラスタ［１］から分岐する子クラスタ［１１］及び［１２］と子クラスタ［１３］とが、互いに異なる階層に位置する場合でも、図１６（Ｅ）に示すように切断高さα_ｉとα_iiとの間の階層構造を統一的に処理することができる。従って樹状図を簡略化することができる。
【０１６６】
また、例えば図１６（Ｄ）に示すように親クラスタ［１］から分岐する子クラスタ［１１］、［１２］及び［１３］と、親クラスタ［３］から分岐する子クラスタ［３１］及び［３２］とが、別々の高さで結合している場合でも、これらを図１６（Ｅ）に示すように同じ高さで結合させる。従って、切断高さα_ｉとα_iiとの間での結合高さの違いを統一的に処理して樹状図を簡略化することができる。
【０１６７】
このように樹状図を程よく簡略化することができる一方、切断高さα_ｉでの第一分岐数と、切断高さα_iiでの第二分岐数は維持することができる。従って、樹状図の階層構造を程よく簡略化しつつ、当初の樹状図の階層構造を反映させた文書相関図を作成することができる。
【０１６８】
図１７及び図１８は、実施例４の方法により生成された文書相関図の具体例を示す図である。実施例１の図７と同一の公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。本実施例４では子孫クラスタ生成の前に最古要素を抽出するという操作をしないので、樹状図全体の最古要素と子孫クラスタとの間に親クラスタの最古要素が配置されることはなく、樹状図構造のみが表示される。なお、図１７は標準化を施さない類似度（余弦）を用いて作成した樹状図を切断したもの、図１８は標準化を施した類似度（相関係数）を用いて作成した樹状図を切断したものである。
【０１６９】
＜４−４−２．実施例４の効果＞
本実施例４によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、例えばα_ｉ＝ａ、α_ii＝ａ−０．２ｂのような定数で切断する場合、予め決められた複数の切断高さで切断するので、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
更に、例えばα_ｉ＝＜ｄ＞＋σ_ｄ、α_ii＝＜ｄ＞のような結合高さｄの平均値及び偏差のうち何れか又は両方を変数として含む関数α^＊＝＜ｄ＞＋δσ_ｄで切断する場合、異なる樹状図形状にも幅広く対応でき、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
【０１７０】
また、複数の切断位置の各々で切断される枝線の数に基づいて分岐構造を決定することにより、樹状図の階層構造を程よく簡略化しつつ、当初の樹状図の階層構造を反映させた文書相関図を作成することができる。
更に、複数の切断位置での切断により親子クラスタを生成する際に、親クラスタに属する文書要素の部分樹状図を再作成しなくても子クラスタを生成できるので、少ない計算手数で親子クラスタを生成することができる。

【０１７１】
＜４−５．実施例５（可変複合法；ＦＣ法）＞
可変複合法（Flexible Composite Method）では、樹状図切断を複数回実行する過程において、切断の度に新たな切断高さαを設定する。例えば、切断高さαをα^＊＝＜ｄ＞＋δσ_ｄ（但し−３≦δ≦３。特に０≦δ≦２とするのが好ましく、δ＝１とするのが最も好ましい。）で算出する場合、第１回目の切断では当該樹状図に属する全文書要素のデータをもとに算出したα^＊を用い、第２回目の切断では、切断される親クラスタに属する文書要素のデータのみをもとに算出したα^＊を用いる。
【０１７２】
＜４−５−１．クラスタ抽出手順＞
図１９は、実施例５（可変複合法；ＦＣ法）におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例５の手順を図３より詳細に示している。図３と同様のステップには図３のステップ番号に５００を加えて下二桁を図３と同一のステップ番号とし、図３と重複する説明を省略することがある。
図２０は、実施例５におけるクラスタ抽出過程での樹状図配置例の一部を示す図であり、図１９を補足するものである。Ｅ_１〜Ｅ_Ｎは文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間ｔをもつ（より古い）文書要素であるものとする。
【０１７３】
まず、処理装置１の文書読み出し部１０が、分析対象となる複数の文書要素を記録装置３の文書格納部３３０から読み出す（ステップＳ５１０）。
【０１７４】
次に、処理装置１の時間データ抽出部２０が、分析対象である文書集団の各文書要素から時間データを抽出する（ステップＳ５２０）。
【０１７５】
次に、処理装置１の索引語データ抽出部３０が、分析対象である文書集団の各文書要素から索引語データを抽出する（ステップＳ５３０）。このとき、後述のように文書集団のうちの最古要素（最古の文書要素）Ｅ_１の索引語データは不要なので、ステップＳ５２０で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【０１７６】
次に、処理装置１の類似度演算部４０が、各文書要素間の類似度を演算する（ステップＳ５４０）。このときも、上記と同様に最古要素Ｅ_１以外の要素間の類似度のみを演算する。
【０１７７】
次に、処理装置１の樹状図作成部５０が、分析対象である文書集団の各文書要素からなる樹状図を作成する（ステップＳ５５０：図２０（Ａ））。このとき、最古要素Ｅ_１は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【０１７８】
次に、処理装置１の切断条件読み出し部６０が、切断条件の読み出しを行う（ステップＳ５６０）。ここでは切断高さαの算出方法、切断回数（階層数）上限値ｇなどを読み出す。
【０１７９】
切断高さαは、例えばα^＊＝＜ｄ＞＋δσ_ｄを用いて、α^＊＝＜ｄ＞＋σ_ｄによって算出する。また例えば分析対象の文書要素数が多い場合などは、α^＊＝＜ｄ＞＋２σ_ｄによって算出してもよい。
【０１８０】
切断回数上限値ｇは、分析対象となる文書要素の総数Ｎに対して、例えば、
ｇ＝［lnＮ÷ln１０＋０．５］_Ｇ
とする。或いは、全文書要素のν分割を繰り返すとき、クラスタ１つの要素数がＵ以下になる分割回数＋１（ν^{（ｇ−１）}≦Ｎ／Ｕ＜ν^ｇの解）として、
ｇ＝１＋［ln（Ｎ／Ｕ）÷lnν］_Ｇ
としてもよい。但し、上記［］_Ｇはガウスの整数記号であり、括弧内の小数点以下を切り捨てた値を意味する。或いは、文書要素数Ｎに対して、
１０＜Ｎ≦２０ならｇ＝１、２０＜Ｎ≦３００ならｇ＝２、３００＜Ｎ≦１０００ならｇ＝３、１０００＜Ｎならｇ＝４
としてもよい。
【０１８１】
次に、クラスタ抽出部７０が、クラスタ抽出を行う。まず、上記樹状図のうち最古要素Ｅ_１を除いた要素Ｅ_２〜Ｅ_Ｎの各結合位置の高さｄを用いて、切断高さα^＊_{［２−Ｎ］}＝＜ｄ＞＋σ_ｄを算出する（ステップＳ５７１）。次に、算出された切断高さα^＊_{［２−Ｎ］}が要素Ｅ_２〜Ｅ_Ｎの結合高さｄの最大値 Max（ｄ）より小さいか否かを判定し（ステップＳ５７２）、小さい場合には、この切断高さα^＊_{［２−Ｎ］}で当該樹状図を切断する（ステップＳ５７３：図２０（Ｂ））。以降の処理は、クラスタごとに行う。
【０１８２】
各クラスタにつき、文書要素数が所定の閾値（ここでは４とする。なお、所定の閾値としては、４以上、１０×［lnＮ／ln１０］_Ｇ以下が好ましい。）を超える場合（ステップＳ５７４：ＮＯ）、当該クラスタの切断回数が上限値ｇに達したか否かを判定し、上限値ｇに達していない場合は（ステップＳ５７５：ＮＯ）、当該クラスタについて最古要素Ｅ_２を除外して当該クラスタの先頭に配置し、残りのクラスタ内要素Ｅ_３〜Ｅ_７による部分樹状図を作成する（ステップＳ５７６：図２０（Ｃ））。このときに作成する部分樹状図は、当該クラスタの最古要素Ｅ_２が除外されている他は、ステップＳ５５０で最初に作成した樹状図のうち当該クラスタに相当する部分とほぼ同じ構造になる。但し、当該クラスタの最古要素Ｅ_２が除外されているので、当該クラスタ内での要素群間距離が変化する。従って、残りのクラスタ内要素Ｅ_３〜Ｅ_７の内容データに基づいて再分析すればステップＳ５５０で作成した樹状図とは若干異なる構造となる可能性もある。例えば、文書要素と文書要素群の距離（非類似度）或いは文書要素群と文書要素群の距離（非類似度）として重心間距離又は全距離平均を用いて樹状図を作成する場合、図２０（Ｂ）における要素Ｅ_２及びＥ_３と要素Ｅ_４及びＥ_５との距離に対して、図２０（Ｃ）における要素Ｅ_３と要素Ｅ_４及びＥ_５との距離は異なるものとなるので、この部分は異なる構造になり得る。
【０１８３】
クラスタ内要素による部分樹状図を作成後、ステップＳ５７１に戻り、クラスタ内要素のうち最古要素Ｅ_２を除いた要素Ｅ_３〜Ｅ_７の各結合位置の高さｄを用いて、切断高さα^＊_{［３−７］}＝＜ｄ＞＋σ_ｄを算出する。次に、算出された切断高さα^＊_{［３−７］}が要素Ｅ_３〜Ｅ_７の結合高さｄの最大値 Max（ｄ）より小さいか否かを判定し（ステップＳ５７２）、小さい場合には、この切断高さα^＊_{［３−７］}で当該クラスタを切断する（ステップＳ５７３：図２０（Ｃ）参照）。
【０１８４】
文書要素数が上記所定の閾値（ここでは４）以下となったクラスタについては（ステップＳ５７４：ＹＥＳ）、クラスタの切断回数に関わらず、当該クラスタについては実施例３の細胞分裂法（ＣＤ法）など他のクラスタ抽出法での子孫クラスタ抽出に移行する（ステップＳ５７７）。
切断回数が上限値ｇに達したクラスタについては（ステップＳ５７５：ＹＥＳ）、当該クラスタの文書要素数に関わらず、当該クラスタについては実施例３の細胞分裂法（ＣＤ法）など他のクラスタ抽出法での子孫クラスタ抽出に移行する（ステップＳ５７７）。
なお、ステップＳ５７７で行う他のクラスタ抽出法としては、実施例１の均衡切断法（ＢＣ法）でもよく、実施例２の余次元降下法（ＣＲ法）でもよく、実施例４の段階切断法（ＳＣ法）でもよい。
【０１８５】
上記ステップＳ５７２において、切断高さα^＊_{［２−Ｎ］}又はα^＊_{［３−７］}が、要素Ｅ_２〜Ｅ_Ｎ又はＥ_３〜Ｅ_７の結合高さｄの最大値以上である場合には（α^＊≧ Max（ｄ））、クラスタ分離が実現しないので樹状図の切断処理を飛ばして、直ちにステップＳ５７４にてクラスタ内要素数（最古要素Ｅ_１又はＥ_２を除く）の判定を行う。そして、クラスタ内要素数が上記所定の閾値を超えていればステップＳ５７５にて切断回数の判定を行い（ここでは切断処理が飛ばされて切断回数は増えていないので、切断回数の判定を省略しても良い）、ステップＳ５７６にて次の最古要素Ｅ_２又はＥ_３を除外する。
このように、クラスタ分離が実現しない場合でも、最古要素を１つずつ除外して（ステップＳ５７６）、クラスタ内要素数が閾値以下になれば（ステップＳ５７４）、ステップＳ５７７に移行する。
【０１８６】
上述のようにしてクラスタを抽出したら、最後に、配置条件読み出し部８０が、クラスタ内での配置条件の読み出しを行う（ステップＳ５８０）。この配置条件に従って、クラスタ内要素配置部９０が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する（ステップＳ５９０：図２０（Ｄ））。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例６〜８による配置など他のものでもよい。
【０１８７】
上述の説明では切断回数の上限値ｇを設定したが、上限値ｇを設定しない方法をとることもできる。この場合、ステップＳ５７５は省略され、ステップＳ５７４がＮＯなら直ちにステップＳ５７６に移行し、切断回数無制限で子孫クラスタの抽出を行う。なお、ステップＳ５７４では、文書要素数が例えば９を超えていればＮＯとし、文書要素数が９以下となったクラスタについてはＹＥＳの判定をすることが望ましい。
【０１８８】
図２１及び図２２は、実施例５の方法により生成された文書相関図の具体例を示す図である。キーワード検索によって抽出した地盤の液状化防止工法に関する日本の特許出願及び実用新案登録出願６０件の各公開公報を文書要素として分析し、得られた文書相関図を、簡単のためここでは一部（３５件分）のみ図示した。図示した文書相関図には各文書要素につき特許出願番号（但し末尾に（Ｕ）を付したものは実用新案登録出願番号）を記入し、上位の文書要素については発明（考案）の名称も記入した。実施例１〜４では要素数２０未満が好ましいと思われるのに対し、本実施例５では、この例に示されるように分析対象要素数が多くても適切な親子クラスタを得ることができる。
【０１８９】
なお、図２１は切断回数上限値ｇ＝２に設定し、クラスタ内文書要素数の閾値＝４に設定した結果であり、図２２は切断回数を無制限とし、クラスタ内文書要素数の閾値＝９に設定した結果である。他の方法による子孫クラスタの抽出（ステップＳ５７７）は省略した。
図２１では、出願番号H03-320020を先頭とする親クラスタ（要素数５）は要素数が閾値４を超えていたので２回目の切断で子クラスタに分離された。また、出願番号S63-033662(U)を先頭とする子クラスタ（要素数１０）は２回目の切断で生成されたものであるため、それ以上切断分離されなかった。
一方図２２では、出願番号H03-320020を先頭とする親クラスタ（要素数５）は要素数が閾値９以下であるため２回目の切断はされなかった。また、出願番号S63-033662(U)を先頭とする子クラスタ（要素数１０）については３回目の切断が行われ、孫クラスタに分離された。
【０１９０】
図２３は、実施例５の方法により生成された文書相関図の他の具体例を示す図である。実施例３の図１４と同一の１６分野の文書要素（マクロ要素）について、実施例５に従って最古要素を除外して先頭に配置し、残り１５要素による樹状図の作成及び樹状図切断を行った。クラスタ内要素数の上限（４とした）以下になるまで最古要素の除外と樹状図作成及び切断を繰り返した。クラスタ内要素数が上限以下になったクラスタについてはそれぞれ実施例３（細胞分裂法；ＣＤ法）の方法により更にクラスタ生成を行い、図に示す分岐構造が得られた。各文書要素の時間データｔとして出願日の平均値を用い、文書要素ベクトルの成分値としてＧＦＩＤＦ（Ｅ）を用い、クラスタ内要素数が上限以下になった後の切断高さαとしてａ＝１を用い、偏差の判定閾値として７０％を採用した。文書相関図には上記１６分野を特徴付けるキーワードを記入した。
【０１９１】
＜４−５−２．変形例１＞
上述のステップＳ５５０及びステップＳ５７６では、樹状図及び部分樹状図を作成する際に最古要素を除外していたが、最古要素を除外せずに作成することも可能である。そして、この樹状図を上述のようにｇ回切断する。こうしてクラスタを得ることにより、文書要素の分類をすることが可能となる。この場合、得られた分類に対しては、それぞれに属する文書要素の内容データに基づいて適切なラベル付けを行うことにより、文書要素群のマクロ的分析を容易にすることができる。
【０１９２】
図２４は、実施例５の変形例１による方法で生成された文書相関図の具体例を示す図である。この文書相関図を作成した手順は以下の通りである。まず、ある家庭用化学品メーカーを出願人とする約４０００件の日本特許公開公報につき、最古公報を除外せずに樹状図を作成し、本変形例１に係る方法によりｇ回切断した。こうして得られた２７個のクラスタを新たに文書要素（マクロ要素）とした樹状図を作成し、実施例５の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限（４とした）以下になるまで最古要素の抽出と樹状図切断を繰り返し、図に示す分岐構造が得られた。各マクロ要素に対しては、それぞれに属する文書の内容データに基づいてラベル付けを行った。これにより、膨大な文書数からなる分析対象文書集団であってもマクロ的に自動分析し、技術の大まかな流れの理解を容易にすることができる。
【０１９３】
＜４−５−３．変形例２＞
次に、変形例２による方法で生成された文書相関図について説明する。この文書相関図は、ある出願人Ｘ社の保有する特許文書群の文書相関図をまず作成し、更に当該出願人Ｘ社による特許文書群のうち、特定の技術分野に属する特許文書群が、他社の特許文書群とどのような関係にあるかを示したものである。
図２５は、実施例５の変形例２による文書相関図の作成過程を示す図であり、図２６及び図２７が、実施例５の変形例２による文書相関図の具体例を示す図である。図２８及び図２９は、実施例５の変形例２による文書相関図における別の表示例の一部を示す図である。
これらの文書相関図を作成した手順は以下の通りである。
【０１９４】
まず、化学メーカーであるＸ社を出願人とする日本特許公報（公開及び登録）のすべてにつき、最古公報を除外せずに樹状図を作成した。上記変形例１に係る方法によりｇ回切断した結果、５個のクラスタが得られた。
これら５個のクラスタのうち１つである「機能性素材関連」の特許文書群につき、最古公報を除外せずに再度樹状図を作成した。上記変形例１に係る方法によりｇ回切断した結果、上記Ｘ社を出願人とする日本特許公報のうち「機能性素材関連」の特許文書群は、文書群「ＥＸ０１」乃至文書群「ＥＸ１３」の計１３個のクラスタに分類された（文書群の符号「ＥＸ０１」等は便宜上付したものである。）。
これら１３個のクラスタを新たに文書要素（マクロ要素）とした樹状図を作成し、実施例５の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限（４とした）以下になるまで最古要素の抽出と樹状図切断を繰り返し、図２５に示す分岐構造が得られた。
【０１９５】
これら１３個のクラスタのうち１つである「◇化ケイ素の製造方法関連」の特許文書群「ＥＸ０５」の内容データ（索引語データ）に基づき、この特許文書群に類似する文書群を、他社の特許文書群を含む全文書Ｐから、３０００件抽出した。
このように全文書Ｐから抽出された３０００件の特許文書につき、最古公報を除外せずに樹状図を作成した。上記変形例１に係る方法によりｇ回切断した結果、文書群「Ｅ１０１」乃至文書群「Ｅ１２１」の計２１個のクラスタが形成された（文書群の符号「Ｅ１２１」等は便宜上付したものである。）。
こうして得られた２１個のクラスタを新たに文書要素（マクロ要素）とした樹状図を作成し、実施例５の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限（４とした）以下になるまで最古要素の抽出と樹状図切断を繰り返し、図２６に示す分岐構造が得られた。
【０１９６】
一方、上述の１３個のクラスタのうち１つである「◇化ケイ素の製造方法関連」の特許文書群の内容データ（索引語データ）に基づき、この特許文書群に類似する文書群を、上述のように全文書Ｐから抽出された３０００件の特許文書から、３００件抽出した。
このように３０００件の特許文書から抽出された３００件の特許文書につき、最古公報を除外せずに樹状図を作成した。上記変形例１に係る方法によりｇ回切断した結果、文書群「Ｅ２０１」乃至文書群「Ｅ２１９」の計１９個のクラスタが形成された（文書群の符号「Ｅ２０１」等は便宜上付したものである。）。
こうして得られた１９個のクラスタを新たに文書要素（マクロ要素）とした樹状図を作成し、実施例５の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限（９とした）以下になるまで最古要素の抽出と樹状図切断を繰り返し、図２７に示す分岐構造が得られた。
【０１９７】
図２６及び図２７の各文書要素の中で、上記Ｘ社を出願人とする特許文書が件数で上位（ここでは５位以内）を占めているものには他の文書要素と区別するための強調表示を付加し、最上位を占めているものにはより強い強調表示を付加した。このような強調表示は、図に示すような枠線の太さによっても良いし、色分け又は模様等によっても良い。また、このような強調表示は、ある出願人（自社又は他社）の文書が上位を占めているか否かに限らず、ある出願人の文書が１つでも含まれるか否か、又はその他の基準によっても良い。
また、図２６及び図２７には、各文書要素の出願日の平均値（ここではその西暦年下二桁）を縦軸の値として記入した。また、図２６及び図２７では説明の便宜上、各文書要素の名称として符号「Ｅ２０１」等のみを表示したが、それぞれに属する文書の内容データに基づいて、その文書要素の内容的特徴を示すラベル付けを行うことが望ましい。
【０１９８】
本変形例２ではこのように、文書相関図の各文書要素のうち特定の属性を有する文書要素、例えば特定の出願人の特許文書からなる文書要素又は特定の出願人が優位を占める特許文書群からなる文書要素を、他の文書要素と区別した形態で表示する。これにより、特定の属性を有する文書要素、例えば上記特定の出願人のある分野に属する特許群が、他社との関係で内容的及び時間的にどのように位置づけられるのかを一見して知ることができる。上記特定の出願人として自社を選べば、自社の技術のうちある分野に属する部分につき、業界全体での位置づけを知ることができる。更に時間軸を表示し、その時間軸に合わせて各文書要素を配置したことにより、当該技術分野の発展系統上における自社技術の位置付けを把握することができる。
例えば図２６のように類似度を算出し、比較的多い件数（ここでは類似度上位３０００件）の類似文書について分析した場合には、比較的多方面の技術分野にわたる類似文書が抽出され、その中での自社の位置付けを知ることができる。従って、上記の効果に加え、自社があまり目をつけていなかった類似技術を発見でき、自社技術の他分野への適用の可能性を見出すことができるとともに、他社の技術が内容的及び時間的にどのように発展してきたのかを知ることもできる。
更に図２７のように当該３０００件を母集団として再度類似度を算出し、比較的少ない件数（ここでは類似度上位３００件）の類似文書について分析した場合には、更に絞り込んだ技術分野での、特に他社との競合関係のより詳細な比較ができる。
【０１９９】
図２８及び図２９は、図２６の文書相関図における別の表示例の一部を示す図である。これらの例では、各文書要素につき「○化ケイ素粉末関連」など内容データに基づくラベル付けが行なわれている他、より詳細な表示として、当該文書要素に属する文書数、出願人ランキング（社名と件数）が表示されている。このように詳細な表示を加えることで、より詳細な分析が可能になる。
詳細表示の内容はこれに限らず、特許文書の国際特許分類（ＩＰＣ）、出願日（平均値又は範囲等）、キーワードなどでも良く、これらに基づくランキングでも良い。また、詳細表示は図２８及び図２９のように全文書要素について同時に行っても良いし、詳細表示を当初含まない文書相関図を画像表示装置で表示し、１つの文書要素にカーソルを移動したときに、当該文書要素に関する詳細表示を追加出力するようにしても良い。詳細表示の方法は、図２８のように文書要素の記載欄そのものを拡大しても良いし、図２９のように欄外に吹出しで表示しても良い。また、図２６に限らず、図２７又はその他の文書相関図について同様の詳細表示をしても良い。
【０２００】
＜４−５−４．実施例５の効果＞
本実施例５によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、親クラスタの抽出を、樹状図に属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行い、子クラスタの抽出を、各親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、要素数Ｎが多くても適切な親子クラスタを得ることができる。
更に、クラスタの抽出を文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、樹状図に属する文書要素群の類似度が高い場合など様々な樹状図形状に幅広く対応でき、適切な親子クラスタを得ることができる。

【０２０１】
＜５．時間配列の実施例＞
次に、時間配列過程に関する実施例６〜８を説明する。
【０２０２】
＜５−１．実施例６（一本釣り配列；ＰＬＡ）＞
一本釣り配列（Pole-and-Line Arrangement）では、文書要素が数個程度の小さなクラスタに対して、時間データと樹状図配置データとに基づいて、当該クラスタ内における配列を決定する。
【０２０３】
＜５−１−１．配列決定手順＞
図３０は、実施例６（一本釣り配列；ＰＬＡ）におけるクラスタ内配列過程を説明するフローチャートである。このフローチャートは、図３のステップＳ７０（クラスタ抽出）までの処理でクラスタが抽出されていることを前提とし、図３のステップＳ８０（配置条件読み出し）及びステップＳ９０（クラスタ内要素配列）の部分について、本実施例６の手順をより詳細に示したものである。図３と同様のステップには図３のステップ番号に６００を加えて下二桁を図３と同一のステップ番号とし、詳細な説明を省略することがある。
図３１は、実施例６におけるクラスタ内配列過程での樹状図配置例を示す図であり、図３０を補足するものである。Ｅ_１〜Ｅ_２０は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間ｔをもつ（より古い）文書要素であるものとする。図３１（Ａ）は、図３のステップＳ７０までの処理によって抽出された５つのクラスタの各樹状図構造を示している。
【０２０４】
実施例１（均衡切断法：ＢＣ法）、実施例２（余次元降下法：ＣＲ法）、実施例３（細胞分裂法：ＣＤ法）或いは実施例４（段階切断法：ＳＣ法）等でクラスタが抽出されたら、まず、配置条件読み出し部８０が、クラスタ内での配置条件の読み出しを行う（ステップＳ６８０）。この配置条件に従って、クラスタ内要素配置部９０が、当該クラスタ内の各文書要素の時間データ及び樹状図配置データに基づき、クラスタ内における文書要素群の配列を決定する。
【０２０５】
具体的には、まず、樹状図の当該クラスタ部分をトーナメント表とみなし、各段階の勝者（時刻ｔの小さい方）を決める（図３１（Ｂ））。すなわち、下位の（結合高さが低い）ノード（結節点）から順番に、いずれの文書要素の時間データｔが小さいかを判定し、その結果を記録する（ステップＳ６９１）。この判定は、最下位ノード（２体結合）から、当該クラスタの最上位ノードまで行う（ステップＳ６９２）。その際、下位のノードにおける勝者（時間データｔがより小さい文書要素）を、上位のノードにおける対戦当事者（時間データｔの比較対象）とする（ステップＳ６９３）。
【０２０６】
最上位ノードまで判定すると優勝者（最古文書要素）が決まるので、当該優勝者を当該クラスタの先頭に配置する（ステップＳ６９４）。更に、当該優勝者と直接対戦し敗退させられた相手の数（最古文書要素と直接比較され時間データｔがより大きいと判定された文書要素の数）だけ、当該優勝者からの分岐を作成する（ステップＳ６９５：図３１（Ｃ））。以下の処理は、各分岐について行う。
【０２０７】
次に、これら敗退させられた相手を上記各分岐内における優勝者として、各分岐の先頭に配置する（ステップＳ６９６：図３１（Ｄ））。
さらに、各分岐内における優勝者と直接対戦し敗退させられた相手の数を数える（ステップＳ６９７）。敗退させられた相手の数が０なら、当該分岐の処理を終了する。敗退させられた相手の数が１以上なら、当該相手の数だけ、当該分岐内における優勝者からの分岐を新たに作成し（ステップＳ６９８：図３１（Ｄ））、ステップＳ６９６に戻る。
ステップＳ６９６〜Ｓ６９８の処理を繰り返すことにより、クラスタ内配列が決定される（図３１（Ｅ））。
【０２０８】
＜５−１−２．実施例６の効果＞
本実施例６によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、クラスタ内配列を決める際に、時間順による配列を確実に実現するとともに、当該クラスタ内の分岐構造もある程度反映させることができる。

【０２０９】
＜５−２．実施例７（群時系順序；ＧＴＯ）＞
群時系順序（Group Time Ordering）では、複数の文書からなる文書要素の要素定義を、分類情報及び大きな時間単位に基づいて行なった場合に有効な方法である。要素定義を大きな時間単位に基づいて（例えば一定年数を単位として）行うと同時刻要素が生じることがあり、時系列での配列を考えるときに支障が生じ得るが、分類情報を加味して配列を決定することでこれを解決する。
【０２１０】
＜５−２−１．配列決定手順＞
図３２は、実施例７（群時系順序；ＧＴＯ）におけるクラスタ内配列過程を説明するフローチャートである。このフローチャートは、図３のステップＳ７０（クラスタ抽出）までの処理でクラスタが抽出されていることを前提とし、図３のステップＳ８０（配置条件読み出し）及びステップＳ９０（クラスタ内要素配列）の部分について、本実施例７の手順をより詳細に示したものである。図３と同様のステップには図３のステップ番号に７００を加えて下二桁を図３と同一のステップ番号とし、詳細な説明を省略することがある。
図３３は、実施例７におけるクラスタ内配列過程での樹状図配置例の一部を示す図であり、図３２を補足するものである。Ｅ_Ａ１、Ｅ_Ｂ１等はそれぞれ複数の文書からなる文書要素を表し、ここでは便宜上、添え字のアルファベット部分は分類（国際特許分類（ＩＰＣ）等）を、アラビア数字は時間ｔ（小さいほうがより古い）を表すものとする。
【０２１１】
切断高さα＝ａ（但し、結合高さｄ＝ａ−ｂcosθ）、α^＊＝＜ｄ＞＋δσ_ｄ（但し−３≦δ≦３。特に０≦δ≦２とするのが好ましく、δ＝１とするのが最も好ましい。）、或いは構造連関分析等で導出された切断高さで樹状図を切断しクラスタが抽出されたら（図３３（Ａ））、まず、配置条件読み出し部８０が、クラスタ内での配置条件の読み出しを行う（ステップＳ７８０）。この配置条件に従って、クラスタ内要素配置部９０が、当該クラスタ内の各文書要素の時間データ及び樹状図配置データに基づき、クラスタ内における文書要素群の配列を決定する。
【０２１２】
具体的には、まず、クラスタ内の最古要素を抽出し、当該クラスタの先頭に配置する（ステップＳ７９１）。最古要素が複数の場合（図３３（Ｂ）のＥ_Ａ１とＥ_Ｂ１）は並列結線での配置とする。
次に、上記最古要素を除いた残りの要素について、分類ごとに時系列鎖を構成する（ステップＳ７９２：図３３（Ｂ））。そして、ステップＳ７９２で構成された各時系列鎖について、同分類の要素を、ステップＳ７９１で抽出された最古要素から探す（ステップＳ７９３）。
【０２１３】
上記時系列鎖のうち、同分類の最古要素があった時系列鎖については、当該同分類の最古要素と結線する（ステップＳ７９４）。図３３の例で言えば、文書要素Ｅ_Ａ２及びＥ_Ａ３からなる時系列鎖と、文書要素Ｅ_Ｂ２及びＥ_Ｂ３からなる時系列鎖については、それぞれ同分類の最古要素Ｅ_Ａ１とＥ_Ｂ１に結線する。
上記時系列鎖のうち、同分類の最古要素がない時系列鎖については、そのうちの最古要素と最も類似度の高い要素を当該クラスタ内から抽出する。そして、当該最も類似度の高い要素から分岐させて、当該同分類要素のない時系列鎖の最古要素と結線する（ステップＳ７９５：図３３（Ｃ））。図３３では、文書要素Ｅ_Ｃ２と最も類似度の高いクラスタ内要素が文書要素Ｅ_Ｂ２であった場合に、文書要素Ｅ_Ｃ２を文書要素Ｅ_Ｂ２に結線させた様子を示している。
以上のようにして、クラスタ内配列が決定される。
【０２１４】
＜５−２−２．実施例７の効果＞
本実施例７によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、要素定義を大きな時間単位に基づいて行ったために同時刻要素が生じる場合でも、要素定義が分類にも基づいている場合にはその分類情報を加味してクラスタ内配列を決定することで、当該同時刻要素を処理することができる。

【０２１５】
＜５−３．実施例８（時断面分析；ＴＳＡ）＞
時断面分析（Time Slice Analyses）では、分析対象となる複数の文書要素を時間データに基づいて分類した後で、各時間分類内においてクラスタ分析を行う方法である。時間データに基づく分析を、内容データに基づくクラスタ抽出より先に行う点で、上記実施例６及び７とは異なる。時間データに基づく分類と各時間分類内におけるクラスタ分析とが終わった後、時間前後のクラスタに属する要素間での結線を行うことにより、文書相関図が完成する。
【０２１６】
＜５−３−１．文書相関図作成装置の構成＞
図３４は、実施例８（時断面分析；ＴＳＡ）の文書相関図作成装置における構成と機能を、図２より更に詳細に説明する図である。図２と共通の部分には同一の符号を付して説明を省略する。
実施例８の文書相関図作成装置は、図２で説明した文書相関図作成装置の各構成に加え、時間スライス分類部２５と、時間スライス間結線部７５とを備えている。
【０２１７】
時間スライス分類部２５は、時間データ抽出部２０で抽出された各文書要素の時間データを、作業結果格納部３２０から又は直接時間データ抽出部２０から取得し、この時間データに基づいて、分析対象である文書集団を一定間隔の時間スライスに分類する。分類の結果は類似度演算部４０に直接送られてそこでの処理に用いられ、或いは作業結果格納部３２０に送られて格納される。類似度演算部４０では、各時間スライス内での文書要素の類似度を演算し、樹状図作成部５０では、各時間スライスについて樹状図を作成し、クラスタ抽出部７０では、各時間スライスからクラスタを抽出する。
【０２１８】
時間スライス間結線部７５は、クラスタ抽出部７０で抽出されたクラスタ情報を作業結果格納部３２０から又は直接クラスタ抽出部７０から取得し、このクラスタ情報に基づき、異なる時間スライスに属するクラスタ間の結線を行う。生成された結線データは、直接クラスタ内要素配置部９０に送られてそこでの処理に用いられ、或いは作業結果格納部３２０に送られて格納される。クラスタ内要素配置部９０は、クラスタ内要素の配置を行うほか、時間スライス間結線部７５の結線データも参照して、文書相関図を完成させる。
【０２１９】
＜５−３−２．文書相関図作成手順＞
図３５は、実施例８における文書相関図作成過程を説明するフローチャートである。このフローチャートは、本実施例８の手順を図３より詳細に示している。図３と同様のステップには図３のステップ番号に８００を加えて下二桁を図３と同一のステップ番号とし、図３と重複する説明を省略することがある。
図３６は、実施例８における文書相関図作成過程での樹状図配置例を示す図であり、図３５を補足するものである。
【０２２０】
まず、文書読み出し部１０が、入力装置２で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置３の文書格納部３３０から読み出す（ステップＳ８１０）。
【０２２１】
次に、時間データ抽出部２０が、文書読み出しステップＳ８１０で読み出された文書要素群から、各要素の時間データを抽出する（ステップＳ８２０）。
【０２２２】
各要素の時間データが抽出されたら、これらを時間データに基づいて分類する（ステップＳ８２５）。この処理は、時間スライス分類部２５が行う。具体的には、時間軸を一定間隔（例えばΔｔ＝１年）でスライスし、ｔの区間ｎ≦ｔ＜ｎ＋１（ｎ＝０，１，２，…）内の時間データをもつ文書要素の集合を「ｎ−スライス」とする。ここでｔは、０−スライスの前方閾値分だけ原点を移動してある。
時間データに基づく分類は、一定時間間隔でなくとも可変間隔であってもよい。例えば、時間順に累積して一定件数に達したときに時間切断するなどしてもよい。すなわち、分析対象要素が例えば100個あり、これら要素を時間順に並べると古い方からＥ_１，Ｅ_２，・・・，Ｅ₁₀₀となったとき、例えば20個ごとにＥ_１乃至Ｅ₂₀を０−スライス、Ｅ₂₁乃至Ｅ₄₀を１−スライス、・・・等とする。これにより時間スライス間の要素数の偏在を防止できる。
【０２２３】
次に、各スライスにつき、グループＧを形成する。具体的には、以下のように各スライスからクラスタを抽出する。
【０２２４】
まず、索引語データ抽出部３０が索引語データを抽出し（ステップＳ８３０）、類似度演算部４０が各スライス内の文書要素間の類似度（又は非類似度）を演算する（ステップＳ８４０）。そして各スライスにつき、樹状図作成部５０が樹状図を作成する（ステップＳ８５０）。更に、切断条件読み出し部６０が樹状図切断条件を読み出し（ステップＳ８６０）、クラスタ抽出部７０が、各スライスからクラスタを抽出する（ステップＳ８７０）。
ここで、各ｎ−スライスから抽出されたクラスタをそれぞれグループＧと称することにする。各グループＧはスライス番号ｎとグループ番号ｊを持ち、これをＧ（ｎ，ｊ）で表す（図３６（Ａ））。グループＧは複数の文書要素からなる場合もあり、１つの文書要素からなる場合もある。１つの文書要素からなるグループを自明グループと称することにする。
【０２２５】
樹状図の切断高さαとしては、例えばα^＊＝＜ｄ＞＋δσ_ｄ（但し−３≦δ≦３。特に−３≦δ≦０が好ましく、−２≦δ≦−１がより好ましい）を用いる。−３≦δとしたのは、δが−３より小さいと、経験上多くのグループが自明グループとなり、−３より小さくしても自明グループという結果に変わりはないからである。自明グループになること自体は悪い結果というわけではないから、−３より小さくすることを妨げるものではない。
樹状図の切断高さαとして、上記α^＊のように各時間スライスの結合高さｄの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いる場合は、時間スライスごとに切断高さが異なることになる。特に、スライス内要素数の少ない（例えば３以下）時間スライスにおいては、１つの要素がスライス内要素の結合高さｄの平均値及び偏差の変動に及ぼす影響が大きいので、他の時間スライスとの切断高さの相違が大きくなり過ぎる可能性もある。従って、スライス内要素数の少ない（例えば３以下）時間スライスがある場合には、例えば相関係数で類似度を定義し、結合高さｄ＝ａ−ｂcosθとして樹状図を作成し、切断高さαを、ａ−ｂ≦α≦ａ−0.5ｂの範囲内とすることが好ましい。
【０２２６】
クラスタの抽出は、ステップＳ８３０〜Ｓ８７０で説明した樹状図切断によることが好ましいが、それ以外の方法によっても良い。例えば、公知のｋ−平均法などを用いたクラスタ抽出でもよい。
また例えば、分析対象の文書要素間を結線し、切断半径ρより非類似度の大きい線を消去することでクラスタを抽出する円弧分割法を用いてもよい。この円弧分割法の具体的な一例を説明すると、分析対象要素がＭ個（Ｅ_１，Ｅ_２，・・・，Ｅ_Ｍ）あるとして、まずこれら分析対象の要素間距離ｒを成分とする距離行列（Ｍ行Ｍ列）を作成する。次に、要素間距離ｒの平均値＜ｒ＞と標準偏差σ_ｒを用いて、切断半径ρ^＊＝＜ｒ＞＋δσ_ｒ（但し−３≦δ≦３。特に−３≦δ≦０が好ましく、−２≦δ≦−１がより好ましい）を決定する。そして、距離行列の成分ｒのうち閾値ρ^＊を超える成分を０とした隣接行列（Ｍ行Ｍ列）を作成する。最後に、隣接行列の列成分からなる隣接ベクトル（ｒ_１'，ｒ_２'，・・・，ｒ_Ｍ'）の非ゼロ成分によってクラスタを生成する。
例えば、文書要素Ｅ_１に関する隣接ベクトルが（０，0.5，0.6，０，・・・，０）である場合（各成分はそれぞれ文書要素Ｅ_１，Ｅ_２，Ｅ_３，Ｅ_４，・・・，Ｅ_Ｍとの距離ｒに基づき算出したもので、省略した成分はすべて０とする。）、この文書要素Ｅ_１は、文書要素Ｅ_２及び文書要素Ｅ_３と同一クラスタとする。
なお、切断半径ρ^＊において−３≦δとしたのは、上記α^＊の場合と同様、δが−３より小さいと、経験上多くのグループが自明グループとなり、−３より小さくしても自明グループという結果に変わりはないからである。−３より小さくすることを妨げるものではない。
【０２２７】
グループＧの形成方法は、上記クラスタ分析以外の方法でも良い。例えば、文書要素群が特許分類や企業名などで既に分類されている場合、これを用いてグループ定義を行ってもよい。この場合、要素定義とグループ定義が一致するので、複数文書からなる１つの文書要素で、１つのグループが成立することになる（これも自明グループである）。
【０２２８】
各ｎ−スライスにつきクラスタ抽出などの方法によりグループＧが形成されたら、次に、０−スライスに属するグループ間の結線を決定する（ステップＳ８７２）。例えば、樹状図切断で得られた各クラスタを、切断位置より上位の樹状図結線構造により結線する（図３６（Ｂ））。
【０２２９】
次に、スライス間の結線を行う。この処理は、時間スライス間結線部７５が行う。
【０２３０】
具体的には、各ｎ−スライス（ｎ≠０）に属するグループＧ（ｎ，ｊ）の最古要素と最も類似度の高い文書要素（以下「最短距離要素」と称する）を、τ＜ｎなる時間前方グループＧ（τ，ｊ）の要素から選出する。そして、グループＧ（ｎ，ｊ）の最古要素と、時間前方グループＧ（τ，ｊ）から選出された最短距離要素とを結線する（ステップＳ８７５：図３６（Ｃ））。なお、最短距離要素が複数存在する場合は、それらの中で最も古い要素を選出し、グループＧ（ｎ，ｊ）の最古要素と結線する。
【０２３１】
或いは、各ｎ−スライス（ｎ≠０）に属するグループＧ（ｎ，ｊ）と最もグループ間類似度の高い（グループ間距離の短い）グループを、τ＜ｎなる時間前方グループＧ（τ，ｊ）から選出することとしてもよい。この場合、グループＧ（ｎ，ｊ）の最古要素と、選出された時間前方グループＧ（τ，ｊ）の最新要素とを結線する。グループ間距離は、比較されるグループに属する要素間の非類似度（距離）を用いて、重心間距離、全距離平均などにより定義することができる。１つの文書要素で１つのグループが構成される自明グループであれば、要素間の非類似度（要素間距離）に一致する。
【０２３２】
最後に、配置条件読み出し部８０が各グループ内の文書要素配置条件を読み出し（ステップＳ８８０）、クラスタ内要素配置部９０が、各グループ内の文書要素の配置を決定し（ステップＳ８９０）、文書相関図が完成する。なお、図３６（Ｃ）では、文書要素を各グループ内で並列に配置したが、グループ内でも時間順の配置とするなど他の配置でもよい。
【０２３３】
図３７は、実施例８の方法により生成された文書相関図の第１の具体例及びその生成過程を示す図である。実施例１の図７と同一の公開公報を文書要素とし、各文書要素の出願日を時間データｔとし、１年ごとにｎ＝０〜６の時間スライスに分類した。各時間スライスにつき樹状図を作成し、各樹状図を切断高さα^＊＝＜ｄ＞−σ_ｄで切断し、グループを形成した（図３７（Ａ））。図３７（Ａ）にはｎ＝２の時間スライスについての樹状図切断の様子のみを示し、他の時間スライスについては樹状図切断の結果すべてのグループが要素１つのみの自明群となったので樹状図切断の図示を省略した。各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には各文書要素につき特許出願番号を記入した（図３７（Ｂ））。
【０２３４】
図３８は、実施例８の方法により生成された文書相関図の第２の具体例及びその生成過程を示す図である。実施例３の図１４と同一の１６分野の文書要素（マクロ要素）について、実施例８の方法により各文書要素を構成する文書群の出願日平均値を各文書要素の時間データｔとし、１年ごとにｎ＝０〜４の時間スライスに分類した。各時間スライスにつき樹状図を作成し、各樹状図を切断高さα^＊＝＜ｄ＞−σ_ｄで切断し、グループを形成した（図３８（Ａ））。各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には上記１６分野を特徴付けるキーワードを記入した（図３８（Ｂ））。
【０２３５】
図３９は、実施例８の方法により生成された文書相関図の第３の具体例及びその生成過程を示す図である。実施例１の図７と同一の公開公報を文書要素とし、各文書要素の出願日を時間データｔとし、１年ごとにｎ＝０〜６の時間スライスに分類した（ここまでは図３７と同様）。各時間スライスにつき、上述の円弧分割法に従って要素間距離ｒを成分とする距離行列を作成し、これを切断半径ρ^＊＝＜ｒ＞−σ_ｒにより隣接行列に変換して（図３９（Ａ））クラスタ分析し、グループを形成した。なお、要素数２以下の時間スライスについては円弧分割法によらず、相関係数で定義した要素間距離が0.5を超えるものを別グループとし、図３９（Ａ）での図示を省略した。その後、各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には各文書要素につき特許出願番号を記入した（図３９（Ｂ））。
【０２３６】
図４０は、実施例８の方法により生成された文書相関図の第４の具体例及びその生成過程を示す図である。実施例３の図１４と同一の１６分野の文書要素（マクロ要素）について、各文書要素を構成する文書群の出願日平均値を各文書要素の時間データｔとし、１年ごとにｎ＝０〜４の時間スライスに分類した（ここまでは図３８と同様）。各時間スライスにつき、上述の円弧分割法に従って要素間距離ｒを成分とする距離行列を作成し、これを切断半径ρ^＊＝＜ｒ＞−σ_ｒにより隣接行列に変換して（図４０（Ａ））クラスタ分析し、グループを形成した。なお、要素数２以下の時間スライスについては円弧分割法によらず、相関係数で定義した要素間距離が0.5を超えるものを別グループとし、図４０（Ａ）での図示を省略した。その後、各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には上記１６分野を特徴付けるキーワードを記入した（図４０（Ｂ））。
【０２３７】
＜５−３−３．実施例８の効果＞
本実施例８によれば、クラスタ抽出と時間データに基づく分類とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、時断面による切り分けを最初に行うので、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。

【特許請求の範囲】
【請求項１】
１つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、
前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段と、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、
前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段と、
を備えた、文書相関図作成装置。
【請求項２】
１つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出ステップと、
前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成ステップと、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリングステップと、
前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列ステップと、
を備えた、文書相関図作成方法。
【請求項３】
１つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出ステップと、
前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成ステップと、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリングステップと、
前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列ステップと、
をコンピュータに実行させる、文書相関図作成プログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【図２２】

【図２３】

【図２４】

【図２５】

【図２６】

【図２７】

【図２８】

【図２９】

【図３０】

【図３１】

【図３２】

【図３３】

【図３４】

【図３５】

【図３６】

【図３７】

【図３８】

【図３９】

【図４０】

【公開番号】特開２００８−２６９６３９（Ｐ２００８−２６９６３９Ａ）
【公開日】平成２０年１１月６日（２００８．１１．６）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２００８−１５００２２（Ｐ２００８−１５００２２）
【出願日】平成２０年６月９日（２００８．６．９）
【分割の表示】特願２００６−５３５１３２（Ｐ２００６−５３５１３２）の分割
【原出願日】平成１７年９月１２日（２００５．９．１２）
【出願人】（５０２０３７６３８）株式会社アイ・ピー・ビー (28)
【Ｆターム（参考）】

検索装置 (67,127)
- データ整理 (4,076)
  - 整理対象 (1,823)
    - 検索対象情報 (994)
  - 整理内容 (2,249)
    - クラスタリング (1,819)
- 検索結果出力 (11,965)
  - 出力表示順 (1,258)
    - 年月日時順 (118)

[ Back to top ]

文書を時系列に配置した文書相関図の作成装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

文書を時系列に配置した文書相関図の作成装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク