文書を時系列に配置した文書相関図の作成装置
【課題】特許文書をはじめ技術的文書やその他の文書は日々新しく生み出され、膨大な数になっている。文書相互の関係をわかり易い形で提示、分野ごとの時間的発展を適切に表す文書相関図作成装置を提供する。
【解決手段】文書相関図作成装置は、1つ又は複数の文書からなる文書要素Eの内容データ及び時間データを、複数の文書要素につき抽出する抽出手段20、30と、前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段50と、前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段70と、前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段90と、を備える。これにより、分野ごとの時間的発展を適切に表す樹状図を自動作成する。
【解決手段】文書相関図作成装置は、1つ又は複数の文書からなる文書要素Eの内容データ及び時間データを、複数の文書要素につき抽出する抽出手段20、30と、前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段50と、前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段70と、前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段90と、を備える。これにより、分野ごとの時間的発展を適切に表す樹状図を自動作成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書相互の関係を示すとともに文書の時間的順序を反映した文書相関図を自動作成する技術に係り、特にこのような文書相関図の作成装置、作成方法及び作成プログラムに関する。
【背景技術】
【0002】
特許文書をはじめ技術的文書やその他の文書は日々新しく生み出され、膨大な数になっている。これらの文書相互の関係をわかり易い形で提示するには、関連する内容ごとにその時間的発展を整理することが望ましい。従って、文書の内容による関連付けと時間順による配列とを両立させた文書相関図を自動作成することが望まれる。
【0003】
日本国特開平11−53387号公報「文書の関連付け方法及びそのシステム」(特許文献1)は、時系列に順序付けられた文書を関連付ける方法を開示している。具体的には、文書間の単語の一致度に基づき文書間の類似度を計算し、前記類似度から、時間制約を用いて類似度行列を作成する。この類似度行列を、所定の閾値以上の類似度を持つ行列要素を1とし残りは0とする隣接行列に変換する。この隣接行列をもとに、文書の関連図である有向グラフを作成する。
【0004】
【特許文献1】特開平11−53387号公報「文書の関連付け方法及びそのシステム」
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、上記特開平11−53387号公報(特許文献1)に記載の技術では、ある文書から類似文書へ、更にその類似文書へと順次辿って行くうちにずれの累積が生じ、やがてはまったく異なる文書に辿り着いてしまう可能性がある。また、ある文書から分岐した複数の流れが最終的に1つの文書に辿り着くことも生じ、分岐の意味が不明確になる可能性もある。従って、上記特開平11−53387号公報(特許文献1)に記載の技術では、分野ごとの時間的発展を適切に表すことができないという問題がある。
【0006】
本発明の課題は、分野ごとの時間的発展を適切に表すことのできる文書相関図作成装置、作成方法及び作成プログラムを提供することである。
【課題を解決するための手段】
【0007】
(1)上記の課題を解決するため、本発明の文書相関図作成装置は、1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段と、前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を備えている。
本発明によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
【0008】
(2)上記の文書相関図作成装置において、前記クラスタリング手段が前記樹状図を切断する前記所定の規則は、連関規則分析により導出されたものであることが望ましい。連関規則分析により導出された切断規則を採用することにより、種々の樹状図に適用可能な(汎用性の高い)切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。
【0009】
(3)この文書相関図作成装置において、前記所定の規則は、前記樹状図の形状パラメータに基づき導出されたものであることが望ましい。
樹状図の形状パラメータに基づいて導出された切断規則を採用することにより、樹状図形状に即した適切な切断位置を決定可能な、信頼性の高い切断規則を用いることができる。
また、解析対象樹状図の形状パラメータを読み取り、これに連関規則を適用することで切断位置を決定できるので、切断位置の決定を少ない計算量で済ませることができる。
樹状図を切断する回数は1回のみでも良いし(固定BC法;後述)、1回の切断で得られた親クラスタの形状パラメータに基づいて切断規則を再度導出して当該親クラスタを切断し、子孫クラスタを抽出するようにしても良い(可変BC法;後述)。可変BC法によれば、要素数の多い親クラスタが生成されても、これを更に子孫クラスタに分離することができる。
【0010】
(4)上記の各文書相関図作成装置において、前記所定の規則は、前記樹状図の各ノードで結合される複数の文書要素のベクトル次元数に基づき導出されたものであってもよい。
ベクトル次元数を加味して導出された切断規則を採用することにより、より適切な分岐を得ることができる。
上記複数の文書要素のベクトル次元数は、当該複数の文書要素のベクトル総和の次元数から、これら文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分の次元数を除いた次元数であることが望ましい。これにより、より適切な切断規則を用いることができる。
【0011】
(5)この文書相関図作成装置において、前記クラスタリング手段は、前記各ノードで結合される複数の文書要素のベクトル次元数が一定値以上であるか否かを前記ノードごとに判定し、前記判定の結果に基づいて前記一定値以上のノードを個別に切断することが望ましい。ノードごとに切断基準の判定を行い、判定結果に基づいて各ノードを個別に切断することにより、より適切な分岐を得ることができる。
【0012】
(6)上記の文書相関図作成装置において、前記クラスタリング手段は、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書要素の内容データに基づいて前記親クラスタに属する文書要素群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出することが望ましい。
親クラスタの抽出後に、各親クラスタを再分析して作成した部分樹状図により子クラスタを抽出することにより、子クラスタの誤分類を改善し適切な分類を得ることができる。
【0013】
(7)この文書相関図作成装置において、前記クラスタリング手段は、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書要素ベクトルから除去することが望ましい。
親クラスタの抽出後に、各親クラスタに属する文書要素間での偏差が小さい値をとるベクトル成分を除去することにより、親クラスタの抽出観点とは異なった観点から子クラスタの抽出を行い、適切な分類を得ることができる。
文書要素のベクトル成分は、例えば、当該文書内の個々の索引語についての、全文書IDF重み付けTF値(TF*IDF(P)値;後述)である。偏差が小さいか否かの判定は、例えば、親クラスタに属するすべての文書要素について、各索引語のTF*IDF(P)値を算出し、親クラスタに属する文書要素間でのこれらの平均に対する標準偏差の比が所定範囲内に収まるか否かによることができる。
【0014】
(8)上記の文書相関図作成装置において、前記樹状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記樹状図を作成し、前記クラスタリング手段は、前記樹状図の2箇所以上の所定の高さで切断して前記クラスタを抽出することが望ましい。
予め決められた複数の切断高さで切断することにより、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
切断後の結線構造については、各切断位置で切断される枝線の数に基づいて分岐構造を決定することが望ましい。これにより、樹状図の階層構造を程よく簡略化しつつ、当初の樹状図の階層構造を反映させた文書相関図を作成することができる。更に、複数の切断位置での切断により親子クラスタを生成する際に、親クラスタに属する文書要素の部分樹状図を再作成しなくても子クラスタを生成できるので、少ない計算手数で親子クラスタを生成することができる。
【0015】
(9)上記の各文書相関図作成装置において、前記樹状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記樹状図を作成し、前記クラスタリング手段は、前記樹状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で切断して前記クラスタを抽出することが望ましい。
結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて切断するので、様々な樹状図形状に幅広く対応でき、複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数は、特に、少なくとも平均値を変数として含む関数であることが好ましく、平均値と偏差の両方を変数として含む関数であることがより好ましい。例えば、結合高さdの平均値<d>及び標準偏差σdを用いて、<d>+δσd(但し−3≦δ≦3)とするのが好ましい。なお、結合高さdの偏差を変数として含み、且つ結合高さdの平均値<d>を変数として含まない関数としては、例えば、結合高さdの標準偏差σdと、中点距離m(後述)とを使って、m+εσd(但し−3≦ε≦3)とすることが考えられる。また、偏差は標準偏差σdに限らず平均偏差でも良い。
【0016】
(10)上記の各文書相関図作成装置において、前記樹状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記樹状図を作成し、前記クラスタリング手段は、前記樹状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該樹状図を切断して親クラスタを抽出し、当該親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該親クラスタを切断して子孫クラスタを抽出することが望ましい。
親クラスタの抽出を、樹状図に属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行い、子クラスタの抽出を、各親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、要素数Nが多くても(例えばN>20)適切な親子クラスタを得ることができる。また、クラスタの抽出を文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、樹状図に属する文書要素群の類似度が高い場合など様々な樹状図形状に幅広く対応でき、適切な親子クラスタを得ることができる。
結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数は、特に、少なくとも平均値を変数として含む関数であることが好ましく、平均値と偏差の両方を変数として含む関数であることがより好ましい。例えば、結合高さdの平均値<d>及び標準偏差σdを用いて、<d>+δσd(但し−3≦δ≦3)とするのが好ましい。なお、結合高さdの偏差を変数として含み、且つ結合高さdの平均値<d>を変数として含まない関数としては、例えば、結合高さdの標準偏差σdと、中点距離m(後述)とを使って、m+εσd(但し−3≦ε≦3)とすることが考えられる。また、偏差は標準偏差σdに限らず平均偏差でも良い。
【0017】
(11)上記の各文書相関図作成装置において、前記文書要素の内容データに基づいて、特定の属性を有する文書要素に対して他の文書要素と区別する表示を付加する区別表示付加手段を更に備えていても良い。
これにより、特定の属性を有する文書要素が、他の文書要素との関係で内容的及び時間的にどのように位置づけられるのかを知ることができる。
更に、時間軸を表示し、その時間軸に合わせて各文書要素を配置することが望ましい。これにより、当該技術分野の発展系統上における自社技術の位置付けを把握することができる。
また、区別表示のために用いる内容データとしては、例えば特許文書の出願人のデータを用いる。これによってある出願人による特許文書群が、他社との関係でどのように位置付けられるのかを知ることができる。
例えば、類似度に基づいて比較的多い件数の類似文書群を抽出し、当該類似文書群について分析した場合には、比較的多方面の技術分野にわたる類似文書群の中での自社の位置付けを知ることができる。従って、上記の効果に加え、自社があまり目をつけていなかった類似技術を発見でき、自社技術の他分野への適用の可能性を見出すことができるとともに、他社の技術が内容的及び時間的にどのように発展してきたのかを知ることもできる。
更に上記比較的多い件数の類似文書群を母集団として再度類似度を算出し、比較的少ない件数の類似文書群について分析した場合には、更に絞り込んだ技術分野での、特に他社との競合関係のより詳細な比較ができる。
【0018】
(12)上記の各文書相関図作成装置において、前記クラスタ内配列手段は、前記クラスタ内に属する文書要素群で構成される樹状図において、結合された文書要素のどちらがより古いかについて、最下位ノードから順に比較を行い、下位ノードでより古いと判定された文書要素を上位ノードでの比較対象として、最上位ノードまで比較して結果を記録し、最上位ノードでの比較の結果決定された最古要素を当該クラスタの先頭に配置し、当該最古要素と直接比較された文書要素の数だけ、当該最古要素からの分岐を作成し、これら比較された文書要素を上記各分岐に接続し、配列を決定することが望ましい。
これにより、クラスタ内配列を決める際に、時間順による配列を確実に実現するとともに、当該クラスタ内の分岐構造もある程度反映させることができる。
上記最古要素と直接比較された文書要素(最古要素の対戦相手)が、より下位のノードで他の文書要素と比較されていた場合は、上記最古要素の対戦相手を上記各分岐における最古要素として同様の処理を繰り返すことが望ましい。
【0019】
(13)上記の各文書相関図作成装置において、前記クラスタ内配列手段は、当該クラスタ内の最古要素を1つ又は複数抽出して先頭に配置し、前記最古要素を除いた残りの文書要素について、これら文書要素を定義する分類ごとに時間順配列を形成し、前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在する時間順配列については、当該同分類の最古要素と結線し、前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在しない時間順配列については、当該時間順配列のうちの最古要素と最も類似度合いの高い文書要素を当該クラスタ内から選出し、当該最も類似度合いの高い文書要素と結線して、当該クラスタ内の配列を決定することが望ましい。
このように、同時刻要素が生じる場合でも、要素定義が分類に基づく場合にはその分類情報を加味してクラスタ内配列を決定することで、当該同時刻要素を処理することができる。
【0020】
(14)上記の各文書相関図作成装置において、時間スライス分類手段と、時間スライス間結線手段とを更に備え、前記時間スライス分類手段は、前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類し、前記樹状図作成手段は、各時間スライスに属する文書要素群の相関を示す樹状図を作成し、前記クラスタリング手段は、前記各時間スライスの樹状図を所定の規則に基づき切断してクラスタを抽出し、前記時間スライス間結線手段は、異なる時間スライスに属するクラスタ同士を結線することが望ましい。
このように時間スライスによる切り分けを最初に行うことにより、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。
上記時間スライス間結線手段によるクラスタ同士の結線は、クラスタ間の類似度合いを群間距離、最古要素と時間前方群の最短距離要素の要素間距離などにより計算し、類似度合いの高いクラスタ同士を結線することが望ましい。
また、上記時間スライス間結線手段によるクラスタ同士の結線は、結線される双方のクラスタに属する要素間(時間後方群の最古要素と時間前方群の最新要素との間、或いは時間後方群の最古要素と時間前方群の最短距離要素との間など)での結線とすることが望ましい。
【0021】
(15)また本発明の他の文書相関図作成装置は、1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類する時間スライス分類手段と、前記各時間スライスに属する各文書要素の内容データに基づき、前記各時間スライスからクラスタを抽出するクラスタリング手段と、異なる時間スライスに属するクラスタ同士を結線する時間スライス間結線手段と、を備えている。
このように、クラスタ抽出と時間データに基づく分類とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、時間スライスによる切り分けを最初に行うことにより、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。
上記クラスタリング手段によるクラスタの抽出は、樹状図切断の方法によるのが好ましいが、これに限られるものではなく、公知のk−平均法などを用いたクラスタ抽出でもよい。
また、各クラスタ内における文書要素の配列は、文書要素の時間データに基づいて行っても良いし、時間データに基づかずに例えば単なる並列配置としてもよい。
上記時間スライス間結線手段によるクラスタ同士の結線は、クラスタ間の類似度合いを群間距離、最古要素と時間前方群の最短距離要素の要素間距離などにより計算し、類似度合いの高いクラスタ同士を結線することが望ましい。
また、上記時間スライス間結線手段によるクラスタ同士の結線は、結線される双方のクラスタに属する要素間(時間後方群の最古要素と時間前方群の最新要素との間、或いは時間後方群の最古要素と時間前方群の最短距離要素との間など)での結線とすることが望ましい。
【0022】
(16)また本発明は、上記各装置によって実行される方法と同じ工程を備えた文書相関図作成方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実行させることのできる文書相関図作成プログラムである。このプログラムは、FD、CDROM、DVDなどの記録媒体に記録されたものでもよく、ネットワークで送受信されるものでもよい。
【発明の効果】
【0023】
本発明によれば、分野ごとの時間的発展を適切に表す文書相関図を自動作成することができる。
【図面の簡単な説明】
【0024】
【図1】本発明の一実施形態に係る文書相関図作成装置のハードウェア構成を示す図。
【図2】上記の文書相関図作成装置における構成と機能を、特に処理装置1と記録装置3につき詳細に説明する図。
【図3】上記の文書相関図作成装置における処理装置1の動作手順を示すフローチャート。
【図4】実施例1(均衡切断法;BC法)で行う連関規則分析に用いるパラメータの説明図。
【図5】実施例1におけるクラスタ抽出過程を説明するフローチャート。
【図6】実施例1におけるクラスタ抽出過程での樹状図配置例を示す図。
【図7】実施例1の方法により生成された文書相関図の具体例を示す図。
【図8】実施例2(余次元降下法;CR法)におけるクラスタ抽出過程を説明するフローチャート。
【図9】実施例2におけるクラスタ抽出過程での樹状図配置例を示す図。
【図10】実施例2の方法により生成された文書相関図の具体例を示す図。
【図11】実施例3(細胞分裂法;CD法)におけるクラスタ抽出過程を説明するフローチャート。
【図12】実施例3におけるクラスタ抽出過程での樹状図配置例を示す図。
【図13】実施例3の方法により生成された文書相関図の具体例を示す図。
【図14】実施例3の方法により生成された文書相関図の他の具体例を示す図。
【図15】実施例4(段階的切断法;SC法)におけるクラスタ抽出過程を説明するフローチャート。
【図16】実施例4におけるクラスタ抽出過程での樹状図配置例を示す図。
【図17】実施例4の方法により生成された文書相関図(標準化あり)の具体例を示す図。
【図18】実施例4の方法により生成された文書相関図(標準化なし)の具体例を示す図。
【図19】実施例5(可変複合法;FC法)におけるクラスタ抽出過程を説明するフローチャート。
【図20】実施例5におけるクラスタ抽出過程での樹状図配置例の一部を示す図。
【図21】実施例5の方法により生成された文書相関図(g固定)の具体例を示す図。
【図22】実施例5の方法により生成された文書相関図(g非設定)の具体例を示す図。
【図23】実施例5の方法により生成された文書相関図の他の具体例を示す図。
【図24】実施例5の変形例1による方法で生成された文書相関図の具体例を示す図。
【図25】実施例5の変形例2による文書相関図の作成過程を示す図。
【図26】実施例5の変形例2による方法で生成された文書相関図の具体例(文書3000件)を示す図。
【図27】実施例5の変形例2による方法で生成された文書相関図の具体例(文書300件)を示す図。
【図28】図26の文書相関図における別の表示例の一部を示す図。
【図29】図26の文書相関図における更に別の表示例の一部を示す図。
【図30】実施例6(一本釣り配列;PLA)におけるクラスタ内配列過程を説明するフローチャート。
【図31】実施例6におけるクラスタ内配列過程での樹状図配置例を示す図。
【図32】実施例7(群時系順序;GTO)におけるクラスタ内配列過程を説明するフローチャート。
【図33】実施例7におけるクラスタ内配列過程での樹状図配置例の一部を示す図。
【図34】実施例8(時断面分析;TSA)の文書相関図作成装置における構成と機能を、更に詳細に説明する図。
【図35】実施例8における文書相関図作成過程を説明するフローチャート。
【図36】実施例8における文書相関図作成過程での樹状図配置例を示す図。
【図37】実施例8の方法により生成された文書相関図の第1の具体例及びその生成過程を示す図。
【図38】実施例8の方法により生成された文書相関図の第2の具体例及びその生成過程を示す図。
【図39】実施例8の方法により生成された文書相関図の第3の具体例及びその生成過程を示す図。
【図40】実施例8の方法により生成された文書相関図の第4の具体例及びその生成過程を示す図。
【符号の説明】
【0025】
1:処理装置、2:入力装置、3:記録装置、4:出力装置、
20:時間データ抽出部(抽出手段)、25:時間スライス分類部(時間スライス分類手段)、30:索引語データ抽出部(抽出手段)、50:樹状図作成部(樹状図作成手段)、70:クラスタ抽出部(クラスタリング手段)、75:時間スライス間結線部(時間スライス間結線手段)、90:クラスタ内要素配置部(クラスタ内配列手段)、
E:文書要素、α:切断高さ、c:ノード(結節点)、n:スライス番号、G:グループ
【発明を実施するための最良の形態】
【0026】
以下、本発明の実施の形態を、図面を参照して詳細に説明する。
【0027】
<1.語彙の説明等>
本明細書の中で使用する語彙を説明する。
文書要素E又はE1〜EN: 分析対象となる文書集団を構成し、本発明による分析の単位となる個々の要素。各文書要素は1つ又は複数の文書からなる。文書要素群というときは、複数の文書要素を指すものとする。
類似度合い: 比較される文書要素と文書要素、文書要素と文書要素群、又は文書要素群と文書要素群の、類似度又は非類似度。比較される文書要素又は文書要素群をベクトル表現し、ベクトル間の余弦乃至Tanimoto相関(類似度の一例)などベクトル成分間の積の関数を用いて表現する方法、ベクトル間の距離(非類似度の一例)などベクトル成分間の差の関数を用いて表現する方法がある。
樹状図: 分析対象である文書集団を構成する各文書要素を樹状に結線した図。
デンドログラム: 階層的クラスタ分析によって生成される樹状図。作成原理を簡単に説明すると、まず、分析対象である文書集団を構成する各文書要素間の非類似度(類似度)に基づいて、非類似度が最小(類似度が最大)の文書要素同士を結合させて結合体を生成する。更に結合体と他の文書要素、或いは結合体と結合体を、これらの非類似度の小さい順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現される。
索引語: 文書の全部或いは一部から切り出される単語。単語の切り出し方に特段の制約はなく、従来から知られている方法や、例えば日本語文書であれば市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でもよいし、又索引語の辞書(シソーラス)のデータベースを事前に保持し該データベースから得られる索引語を利用する方法でもよい。
【0028】
以降の説明を簡素にするため、略号を決める。
d : 樹状図における文書要素と文書要素、文書要素群と文書要素群、或いは文書要素と文書要素群、の結合位置の高さ(結合距離)。類似度を文書ベクトル(又は文書群ベクトル)間の余弦cosθで定義した場合、d=a−bcosθ(例えばa=b=1)とすることが望ましい。
α : 樹状図の切断位置の高さ。
α*: <d>+δσd(但し−3≦δ≦3)で算出される樹状図の切断高さ。ここで<d>は当該樹状図における全結合高dの平均値であり、σdは当該樹状図における全結合高dの標準偏差である。
N : 分析対象の文書要素数。
t : 文書要素の時間データ。例えば特許文献であれば出願日、公開日、設定登録日、優先権主張日などの何れかとすることができる。特許文献の出願番号、公開番号等が出願順、公開順等に従っているならば、これら出願番号、公開番号等を時間データとすることもできる。文書要素が複数の文書からなる場合は、文書要素を構成する各文書の時間データの平均値、中央値などを求め、これを文書要素の時間データとする。
【0029】
TF(E): 文書要素Eの索引語による、当該文書要素Eの中での出現頻度(索引語頻度;Term Frequency)。
DF(P): 文書要素Eの索引語による、母集団である全文書Pの中での文書頻度(Document Frequency)。文書頻度とは、ある索引語で、複数文書から検索したときのヒット文書数をいう。母集団である全文書Pとしては、特許文献についての分析であれば、例えば日本国内で過去10年間に発行されたすべての公開特許公報又は登録実用新案公報約400万件を用いる。
TF*IDF(P): TF(E)と、"DF(P)の逆数×母集団である全文書数"の対数との積。文書の索引語ごとに演算される。なお、文書要素Eが複数の文書からなる場合には、GF(E)*IDF(P)と等価である。
GF(E): 文書要素Eが複数の文書からなる場合に、当該文書要素Eを構成する各文書の索引語による、当該文書要素Eの中での出現頻度(大域的頻度;Global Frequency)。
DF(E): 文書要素Eが複数の文書からなる場合に、当該文書要素Eを構成する各文書の索引語による、当該文書要素Eの中での文書頻度。
GFIDF(E): 文書要素Eが複数の文書からなる場合に、GF(E)/DF(E)。文書の索引語ごとに演算される。
【0030】
<2.文書相関図作成装置の構成>
図1は本発明の一実施形態に係る文書相関図作成装置のハードウェア構成を示す図である。同図に示すように、本実施形態の文書相関図作成装置は、CPU(中央演算装置)およびメモリ(記録装置)などから構成される処理装置1、キーボード(手入力器具)などの入力手段である入力装置2、文書データや条件や処理装置1による作業結果などを格納する記録手段である記録装置3、および作成された文書相関図を表示又は印刷等する出力手段である出力装置4から構成される。
【0031】
図2は上記の文書相関図作成装置における構成と機能を、特に処理装置1と記録装置3につき詳細に説明する図である。
処理装置1は、文書読み出し部10、時間データ抽出部20、索引語データ抽出部30、類似度演算部40、樹状図作成部50、切断条件読み出し部60、クラスタ抽出部70、配置条件読み出し部80、クラスタ内要素配置部90、を備えている。
記録装置3は、条件記録部310、作業結果格納部320、文書格納部330などから構成される。文書格納部330は外部データベースや内部データベースを含んでいる。外部データベースとは、例えば日本国特許庁でサービスしている特許電子図書館のIPDLや、株式会社パトリスでサービスしているPATOLISなどの文書データベースを意味する。又内部データベースとは、販売されている例えば特許JP−ROMなどのデータを自前で格納したデータベース、文書を格納したFD(フレキシブルディスク)、CD(コンパクトディスク)ROM、MO(光磁気ディスク)、DVD(デジタルビデオディスク)などの媒体から読み出す装置、紙などに出力された或いは手書きされた文書を読み込むOCR(光学的情報読み取り装置)などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。
【0032】
図1及び図2において、処理装置1、入力装置2、記録装置3、および出力装置4の間で信号やデータをやり取りする通信手段としては、USB(ユニバーサルシステムバス)ケーブルなどで直接接続してもよいし、LAN(ローカルエリヤネットワーク)などのネットワークを介して送受信してもよいし、文書を格納したFD、CDROM、MO、DVDなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。
【0033】
<2−1.入力装置2の詳細>
次に、図2により上記の文書相関図作成装置における構成と機能を詳しく説明する。
入力装置2では、文書要素群の読み出し条件、樹状図の作成条件、樹状図の切断によるクラスタの抽出条件、クラスタ内要素の配置条件などの入力を受け付ける。これら入力された条件は、記録装置3の条件記録部310へ送られて格納される。
【0034】
<2−2.処理装置1の詳細>
文書読み出し部10は、入力装置2で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す。読み出された文書要素群のデータは、時間データ抽出部20及び索引語データ抽出部30に直接送られて各々での処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
なお、文書読み出し部10から時間データ抽出部20及び索引語データ抽出部30或いは作業結果格納部320に送られるデータは、読み出された文書要素群の時間データ及び内容データを含むすべてのデータであっても良い。また、これら文書要素群の各々を特定する書誌データ(例えば特許文献であれば出願番号又は公開番号など)のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部330から各文書要素のデータを読み出せばよい。
【0035】
時間データ抽出部20は、文書読み出し部10で読み出された文書要素群から、各要素の時間データを抽出する。抽出された時間データは、クラスタ内要素配置部90に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
【0036】
索引語データ抽出部30は、文書読み出し部10で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する。各文書要素から抽出された索引語データは、類似度演算部40に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
【0037】
類似度演算部40は、索引語データ抽出部30で抽出された各文書要素の索引語データに基づき、文書要素間の類似度(又は非類似度)を演算する。この類似度の演算は、入力装置2から入力された条件に基づき、類似度算出のための類似度算出モジュールを条件記録部310から呼び出してきて実行する。算出された類似度は、樹状図作成部50に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
【0038】
樹状図作成部50は、入力装置2で入力される樹状図作成条件に従って、類似度演算部40で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する。作成された樹状図は、記録装置3の作業結果格納部320に送られて格納される。樹状図の格納形式は、例えば二次元座標面上に配置される各文書要素の座標値及びこれらを結ぶ個々の連結線の始点及び終点の座標値のデータ、或いは各文書要素の結合の組合せ及び結合の位置を示すデータという形をとることができる。
【0039】
切断条件読み出し部60は、入力装置2で入力され記録装置3の条件記録部310に記録された樹状図切断条件を読み出す。読み出された切断条件はクラスタ抽出部70に送られる。
【0040】
クラスタ抽出部70は、樹状図作成部50で作成された樹状図を記録装置3の作業結果格納部320から読み出すとともに、切断条件読み出し部60で読み出された切断条件に基づいて当該樹状図を切断し、クラスタを抽出する。抽出されたクラスタに関するデータは、記録装置3の作業結果格納部320に送られて格納される。クラスタのデータは、例えばクラスタの各々に属する文書要素を特定する情報と、クラスタ同士の結線情報とを含んでいる。
【0041】
配置条件読み出し部80は、入力装置2で入力され記録装置3の条件記録部310に記録されたクラスタ内の文書要素配置条件を読み出す。読み出された配置条件はクラスタ内要素配置部90に送られる。
【0042】
クラスタ内要素配置部90は、クラスタ抽出部70で抽出されたクラスタのデータを記録装置3の作業結果格納部320から読み出すとともに、配置条件読み出し部80で読み出された文書要素配置条件に基づいて各クラスタ内の文書要素の配置を決定する。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。この文書相関図は、記録装置3の作業結果格納部320に送られて格納され、必要に応じて出力装置4にて出力される。
【0043】
<2−3.記録装置3の詳細>
図2の記録装置3において、条件記録部310は、入力装置2から得られた条件などの情報を記録し、処理装置1の要求に基づき、必要なデータを送る。作業結果格納部320は、処理装置1における各構成要素の作業結果を格納し、処理装置1の要求に基づき、必要なデータを送る。文書格納部330は、入力装置2或いは処理装置1の要求に基づき、外部データベース或いは内部データベースから得た、必要な文書データを格納し、提供する。
【0044】
<2−4.出力装置4の詳細>
図2の出力装置4は、処理装置1のクラスタ内要素配置部90で作成され記録装置3の作業結果格納部320に格納された文書相関図を出力する。出力の形態としては、例えばディスプレイ装置への表示、紙などの印刷媒体への印刷、或いは通信手段を介してのネットワーク上のコンピュータ装置への送信などが挙げられる。
【0045】
<3.文書相関図作成装置の作用>
<3−1.文書相関図作成装置の動作>
図3は上記の文書相関図作成装置における処理装置1の動作手順を示すフローチャートである。
【0046】
まず、文書読み出し部10において、入力装置2で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS10)。分析対象となる文書要素群は、例えば、全特許文書のうち、ある特許文書との類似度降順(非類似度昇順)に選出された文書群としても良いし、特定のキーワード(国際特許分類、技術用語、出願人、発明者など)などあるテーマに沿った検索によって選出された文書群としても良いし、他の方法で選出しても良い。
【0047】
次に、時間データ抽出部20において、文書読み出しステップS10で読み出された文書要素群から、各要素の時間データを抽出する(ステップS20)。
【0048】
次に、索引語データ抽出部30において、文書読み出しステップS10で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する(ステップS30)。各文書要素の索引語データは、例えば、文書要素Eから抽出された索引語の各々についての当該文書要素内における出現回数(索引語頻度TF(E)。文書要素Eがそれぞれ複数の文書からなる場合は大域的頻度GF(E))の関数値を成分とする、多次元ベクトルで表現することができる。なお、文書要素の内容データとしては、索引語データに限らず、国際特許分類(IPC)、出願人、発明者等のデータも用いることができる。
【0049】
次に、類似度演算部40において、索引語データ抽出ステップS30で抽出された各文書要素の索引語データに基づき、文書要素間の類似度(又は非類似度)を演算する(ステップS40)。
【0050】
類似度演算の具体的な一例としてベクトル空間法を用いたものを説明すると以下の通りである。今、分析対象である文書集団を構成し分析単位となる個々の文書要素をE1〜ENとする。これら文書要素E1〜ENに対する演算の結果、文書要素E1から切り出された索引語を「赤」「青」「黄」とする。また、文書要素E2から切り出された索引語を「赤」「白」とする。その場合、各索引語につき、文書要素E1での索引語頻度TF(E1)、文書要素E2での索引語頻度TF(E2)、母集団である全文書P(全文書Pの文書数を400とする。)での文書頻度DF(P)が、それぞれ次の通りであるとする。
【表1】
【0051】
TF*IDF(P)を各文書の索引語毎に計算して、各文書要素のベクトル表現を算出する。この結果は文書要素ベクトルE1及びE2について、次のようになる。
【表2】
【0052】
このベクトルE1及びE2間の余弦(又は距離)の関数を取れば、文書要素ベクトルE1及びE2間の類似度(又は非類似度)が得られる。なお、ベクトル間の余弦(類似度)は値が大きいほど類似度合いが高いことを意味し、ベクトル間の距離(非類似度)は値が小さいほど類似度合いが高いことを意味する。
【0053】
各文書要素を表すベクトルの成分としては、文書要素Eがそれぞれ1つの文書からなる場合(ミクロ要素)には、例えば索引語のTF*IDF(P)を用いるのが好ましい。また、文書要素Eがそれぞれ複数の文書からなる場合(マクロ要素)には、各文書要素を表す文書群ベクトルの成分としては、例えばGFIDF(E)或いはGF(E)*IDF(P)を用いることが好ましい。また、これらの関数など他の指標を用いて文書要素ベクトルの成分としてもよい。
また、ベクトル空間法に限らず、他の方法を用いて類似度を定義しても良い。
【0054】
次に、樹状図作成部50において、入力装置2で入力される樹状図作成条件に従って、類似度演算ステップS40で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する(ステップS50)。樹状図としては、文書要素などの間の非類似度(又は類似度)を結合位置の高さ(結合距離)に反映させたデンドログラムを作成することが望ましい。例えば、文書要素間の結合高さdを、d=1−cosθ(cosθは、例えば、文書要素ベクトル間の余弦又は標準化処理した文書要素ベクトル間の余弦)とする。デンドログラムの具体的な作成方法としては、公知のWard法などを用いる。
【0055】
次に、切断条件読み出し部60において、入力装置2で入力され記録装置3の条件記録部310に記録された樹状図切断条件を読み出す(ステップS60)。
【0056】
次に、クラスタ抽出部70において、切断条件読み出しステップS60で読み出された切断条件に基づき、樹状図作成ステップS50で作成された樹状図を切断し、クラスタを抽出する(ステップS70)。
【0057】
次に、配置条件読み出し部80において、入力装置2で入力され記録装置3の条件記録部310に記録されたクラスタ内の文書要素配置条件を読み出す(ステップS80)。
【0058】
次に、クラスタ内要素配置部90において、配置条件読み出しステップS80で読み出された文書要素配置条件に基づき、クラスタ抽出ステップS70で抽出されたクラスタ内の文書要素の配置を決定する(ステップS90)。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。なお、配置条件はすべてのクラスタに共通として良い。よって、あるクラスタのためにステップS80を一度実行すれば、他のクラスタのために再度実行する必要はない。
【0059】
<3−2.文書相関図作成装置の効果>
本実施形態によれば、分野ごとの時間的発展を適切に表す文書相関図を自動作成することができるので、例えば特許文書であれば、技術の分岐の源となる発明、基本特許、関連分野などの発掘に役立つ文書相関図を容易に作成することができる。
【0060】
また、ある技術が、予想もしなかった技術からの分岐であったことや、或いは別な技術へ応用されていったことなどが「所要時間も含めて」読み取れるので、製品開発へのヒントを提供することができる。また、新規発明までに要する時間、出願件数の規模の比から開発コストを試算するといったことも可能になる。
【0061】
また、集団内(自社内、他社内、業界内)の特許文書群を対象として文書相関図を作成することにより、当該集団内の特許構造を整理して理解し、特許戦略への活用を図ることができる。
【0062】
また、製品ごとに抽出した特許文書群を対象として文書相関図を作成することにより、どの品目がどの技術と結びついて出現してきたかを分析することができる。また、発明者ごとに抽出した特許文書群を対象として文書相関図を作成することにより、技術が誰から誰へと受け継がれていったかを分析することもできる。
【0063】
<4.クラスタ抽出の実施例>
次に、上記の文書相関図作成装置による文書相関図の種々の作成方法について、具体的に説明する。まずは樹状図を切断しクラスタを抽出する過程(主として図3のステップS70に相当)に関する実施例1〜5について説明し、続いて時間データに基づき配列を決定する過程(主として図3のステップS90などに相当)に関する実施例6〜8について説明する。クラスタ抽出過程に関する実施例1〜5と、時間配列過程に関する実施例6〜8とは、互いに任意の組合せが可能である。
なお、実施例1〜5及び実施例6〜8に付した「均衡切断法(BC法)」「余次元降下法(CR法)」などの名称は、本発明を説明するために便宜的に与えるものである。
【0064】
<4−1.実施例1(均衡切断法;BC法)>
均衡切断法(Balance Cutting Method)では、樹状図の切断位置の決定に連関規則を用いる。つまり、予め既存の教師図(時間データに基づいて配置した文書相関図を与えるための理想切断位置が既知である樹状図)を多数分析し、理想的な切断位置がなるべく選出される規則(連関規則)を、種々の樹状図パラメータに対する条件式として求めておく。この分析を連関規則分析という。こうして求めておいた連関規則を、解析対象の樹状図に適用して切断位置を決定する。
【0065】
<4−1−1.連関規則分析の説明>
二つの事象A、Bに対し、それぞれが独立に発生する確率をP(A)、P(B)とする。事象A(前提事象)が発生した後で事象B(帰結事象)が発生する場合、その確率(条件付確率)をP(B|A)と記し、P(A)を「前提確率」、P(B)を「事前確率」、P(B|A)を「事後確率」と呼ぶ。
【0066】
次の(1)〜(3)の基準によって選出された二つの事象のセットを「連関規則」A⇒Bと呼び、「事象Aが発生すれば、(ある値以上の確率で)事象Bが発生する」という規則性を意味する。
(1)前提確率P(A)が高い
(2)事前確率P(B)が低く事後確率P(B|A)が高い
(3)従って、前提確率P(A)と事後確率P(B|A)が共に高い
【0067】
確率が「高い」とは、ある閾値以上の値をとることを意味する。例えば、事後確率P(B|A)に対する閾値は「信頼度」(confidence)と呼ばれ、例えば60〜70%程度に設定される。また例えば、同時確率(P(A∩B)=P(A)P(B|A))に対する閾値は「サポート」(support)と呼ばれ、例えば60%程度に設定される。
【0068】
連関規則を算出するアルゴリズムは公知であるが、これを本発明における樹状図切断位置の決定のための連関規則の導出に適用する場合について、次の4−1−2.4−1−3.にて説明する。
【0069】
<4−1−2.パラメータの読み取り>
図4は、実施例1で行う連関規則分析に用いるパラメータの説明図である。連関規則の導出のためには、まず、教師図のパラメータを読み取る。例えば、教師図の幾何的形状から以下のパラメータを読み取る。なお、解析対象樹状図に連関規則を適用する際には、当該解析対象樹状図についても、同様のパラメータを読み取ることが必要となる。
【0070】
中点距離m: 二体結合(初期結合)の高さをh0とし、二体結合より上段の結合についての下段との差分Δhiを、Δhi=hi−h(i−1)とする。但し添え字iは結合レベル(初期結合を0とし1段上がるごとに1を加えた数)である。Δh1/h0≧1 又は Δhj/Δh(j−1)≧2(jは結合レベルiのうち2以上の数)を満たすΔhiが樹状図全体でp個あった場合、各Δhiを定める上端下端の中点値mk(k=1,2,…,p)の平均
m=(1/p)×Σmk
を中点距離とする。
【0071】
土台<h0>: 二体結合の高さh0の平均値。すなわち、二体結合が樹状図全体でq個あった場合、
<h0>=(1/q)×Σh0
【0072】
最終結合高さH: 最終結合距離
樹状図面積S(図示せず): 最終結合高さH×全要素数N
クラスタ面積s(図示せず): 全要素の最初の結合高さの和
【0073】
切断高さ候補α0、α1、α2(図示せず):
α0=m
α1=m−<h0>/2
α2=(Σmk+Σh0)/(p+q)
【0074】
なお、連関規則分析に用いるパラメータとしては、上記の他にも種々のもの、例えば結合高さdの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いることもできる。例えば、上記中点距離mの代わりに、結合高さ平均値<d>を用いることもできるし、上記土台<h0>の代わりに、結合高さの平均値<d>と標準偏差σdを用いて<d>−σd或いは<d>−2σdを用いることもできる。また、切断高さ候補として、α3=<d>或いはα3=<d>+0.5σdを追加しても良い。
【0075】
<4−1−3.連関規則の導出例>
連関規則の導出例として、教師図28件を基に導出した例を説明する。
ここでは、教師図が少な目であるのでサポート(同時確率P(A∩B)=P(A)P(B|A)の閾値)は考慮に入れなかった。代わりに、「前提事象A発生後の帰結事象Bの発生数/前提事象A発生の有無で絞る前の事象Bの発生数」を『保存率』と命名し、また(P(B|A)−P(B))/P(B)を確率の『伸び率』と命名し、これらを判定に用いた。これら保存率及び伸び率は、事前確率に対する事後確率の減少度の小ささを表すものということができる。
判定の優先順位として第一に信頼度(事後確率P(B|A)に対する閾値=65%)、第二に保存率(60%)、第三に伸び率(60%)を用いることを原則とした。
【0076】
(i)自明解の検出
三つの切断高さ候補α0、α1、α2のうち、最善値を与える頻度が高かったのがα0で、教師図全28件のうち13件であった。α0が最適解(最善値又は次善値)を与える場合を含めると教師図全28件のうち20件が該当したので、第一候補としてα0をとることにした。
【0077】
(ii)自明解の閾値検出(前提条件の検出)
教師図全28件のうち、中点距離m<0.9 をとるもの(12件存在した)に限定して切断高さ候補を適用すると、12件全件(100%)でα0が最適解となった(信頼度100%)。
従って、以下の条件式が導かれる。
m<0.9 ⇒ α=α0
【0078】
(iii)残りの前提条件下での規則検出
教師図のうち、残りの m≧0.9 をとるもの(16件)について分析する。中点距離mが大きいということは樹状図の高さが高いということを意味する。そこで、教師図全28件の高さについて調べたところ、次のような規則が見られた:
s/S≧0.345(全18件) ⇒ <h0>/m≧0.5(内17件) …式1
ここで、「クラスタ面積s/樹状図面積S」をクラスタ密度、「土台<h0>/中点距離m」を土台比率と定義する。つまり、94%の確率で「クラスタ密度が高い⇒土台比率が高い」という規則が得られた。
【0079】
(iii-a)s/S≧0.345 & <h0>/m≧0.5 の場合
そこで、この17件に対して、条件 m≧0.9 で絞る前(17件)と絞った後(11件あった)で最適解の確率を比べると、
【表3】
となった。事後確率が高く且つ件数の変動が少ないのはα2である(信頼度82%、保存率75%)。従って、以下の条件式が導かれる。
m≧0.9 & s/S≧0.345 & <h0>/m≧0.5 ⇒ α=α2
s/S の条件と <h0>/m の条件をクロスさせているのは誤判定を避けるためである。
【0080】
(iii-b)m/H<0.55 の場合
次に、m≧0.9 で s/S<0.345 又は <h0>/m<0.5 の場合を考えるべきであるが、該当件数が5件と少ないので、異なる条件分岐で改めて m≧0.9 の16件を再分析する。再分析の目的は密度が低いもの或いは高さが低いものについての条件式を導くことであるから、高さと密度で条件分岐を考える。
【0081】
高さについて「中点距離m/最終結合高さH」を高層度と定義し、m/H≧0.55(高層型)と m/H<0.55(下方群生型)とに分別する。
【0082】
密度に関しては、上記式1によりクラスタ密度s/Sと土台比率<h0>/mには高い相関があるので、まず、土台比率<h0>/mの大小に応じた条件式を探ってみる。教師図全28件のうち、条件 m≧0.9 で絞る前(28件)と絞った後(16件)で最適解の確率を比べると、
【0083】
m/H≧0.55(高層型)においては:
土台比率<h0>/m < 0.4 に関しては事前確率がゼロ、
土台比率<h0>/m ≧ 0.4 に関しては事前事後確率の大きな変化が認められず、
結局、有意な規則は導かれない。
【0084】
m/H<0.55(下方群生型)においては:
まず、土台比率<h0>/m < 0.4 のとき、
【表4】
となったので、α0を採用でき(信頼度100%)、以下の条件式を導くことができる。
m≧0.9 & m/H<0.55 & <h0>/m<0.4 ⇒ α=α0
一方、土台比率<h0>/m ≧ 0.4 のとき、
【表5】
となった。α1とα2で事後確率が向上しているが、保存率、伸び率を両者で比較すると、α1を採用でき(信頼度67%、保存率100%、伸び率168%)、以下の条件式を導くことができる。
m≧0.9 & m/H<0.55 & <h0>/m≧0.4 ⇒ α=α1
【0085】
(iii-c)m/H≧0.55 の場合
次に、(iii-b)で決まらなかった m≧0.9 で m/H≧0.55(高層型)の場合について分析する。
ここでは、クラスタ密度s/Sに応じて、条件 m≧0.9 で絞る前と絞った後で最適解の確率を比べる。
まず、クラスタ密度s/S<0.4のとき、
【表6】
となった。事後確率(信頼度)が高いのはα0とα2であるが、両者に有意な差はないため、事前確率の高いα0を採用でき、以下の条件式を導くことができる。
m≧0.9 & m/H≧0.55 & s/S<0.4 ⇒ α=α0
次に、クラスタ密度s/S≧0.4のとき、
【表7】
となった。事後確率の高いα2を採用でき(信頼度86%、保存率86%)、以下の条件式を導くことができる。
m≧0.9 & m/H≧0.55 & s/S≧0.4 ⇒ α=α2
【0086】
なお、m≧0.9 で m/H<0.55(下方群生型)の場合についても、クラスタ密度s/Sに応じた分析をした場合、
クラスタ密度s/S<0.4 に間しては事前事後確率の大きな変化が認められず、
クラスタ密度s/S≧0.4 に間しては事後確率ゼロで、
結局、有意な規則は導かれない。
【0087】
(iv)まとめ
以上をまとめて、最適の切断高さαを選出する規則として、以下の式を得ることができる。
α=Fθ(m,0.9 ;α0,Fθ(<h0>/m,0.5 ;A,B))
B=Fθ(s/S,0.345 ;A,α0)
A=Fθ(m/H,0.4 ;Fθ(<h0>/m,0.4 ;α0,α1),Fθ(s/S,0.4 ;α0,α2))
【0088】
但し、Fθ(x,γ;y,z)=θ(x<γ)y+θ(x≧γ)z
なお、θ(X)は、命題Xが真のとき1、それ以外のとき0を返す関数である。つまり、Fθ(x,γ;y,z)は、x<γのときy、x≧γのときzを返す関数である。
【0089】
こうして導出された連関規則は、入力装置2からの入力等に従い、記録装置3の条件記録部310に格納される。なお、この連関規則は教師図に依存するものなので、例えば解析対象樹状図の要素数に応じて教師図を更新し、再度連関規則分析をすれば、これと異なる連関規則が導かれ得る。
【0090】
<4−1−4.クラスタ抽出手順>
次に、上述の方法で導出された連関規則を用いて決定される切断位置を用いて、樹状図を切断し、クラスタを抽出する具体的手順について説明する。
【0091】
図5は、実施例1(均衡切断法;BC法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例1の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に100を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図6は、実施例1におけるクラスタ抽出過程での樹状図配置例を示す図であり、図5を補足するものである。E1〜E11は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0092】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS110)。
【0093】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS120)。
【0094】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS130)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS120で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0095】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS140)。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。
【0096】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS150:図6(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0097】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS160)。ここでは樹状図のパラメータ読み出し条件と、上記連関規則分析で導出された連関規則を読み出す。
【0098】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、上記読み出されたパラメータ読み出し条件に従って樹状図のパラメータを読み出す(ステップS171)。次に、このパラメータに対して上記読み出された連関規則を適用し、樹状図の切断高さαを決定する(ステップS172:図6(B))。決定された切断高さに従い、樹状図を切断し、クラスタを抽出する(ステップS173)。ここで抽出されたクラスタの数だけ、上記先頭要素E1から枝線を作成する(図6(C)参照)。
【0099】
次に、抽出された各クラスタにつき、以下の処理を行う。
【0100】
まず、各クラスタの文書要素数を計数する(ステップS174)。文書要素3個を超えるクラスタについて、当該クラスタの最古要素E7を除外して当該クラスタの先頭に配置し、残りのクラスタ内要素E8〜E11による部分樹状図を作成する(ステップS175:図6(C))。このときに作成する部分樹状図は、当該クラスタの最古要素E7が除外されている他は、ステップS150で最初に作成した樹状図のうち当該クラスタに相当する部分とほぼ同じ構造になる。但し、当該クラスタの最古要素E7が除外されているので、当該クラスタ内での要素群間距離が変化する。従って、残りのクラスタ内要素E8〜E11の内容データに基づいて再分析すればステップS150で作成した樹状図とは若干異なる構造となる可能性もある。例えば、文書要素と文書要素群の距離(非類似度)或いは文書要素群と文書要素群の距離(非類似度)として重心間距離又は全距離平均を用いて樹状図を作成する場合、図6(B)における要素E7及びE8と要素E9との距離に対して、図6(C)における要素E8と要素E9との距離は異なるものとなるので、この部分は異なる構造になり得る。
【0101】
部分樹状図の作成されたクラスタについてはステップS171に戻り、当該部分樹状図のパラメータを読み出し、ステップS172にて切断高さαを決定する(図6(D))。
【0102】
部分樹状図のパラメータは、ステップS150で最初に作成した樹状図のパラメータとは異なる値となるから、同じ連関規則を適用したとしても切断高さαは変化する。この新たな切断高さでの切断をステップS173にて実行し、子孫クラスタを抽出する。なお、部分樹状図に適用する連関規則としては、最初の樹状図に適用した連関規則を再度用いるよりは、別の連関規則を用いるのが好ましい。かかる連関規則は、適用対象となる(部分)樹状図に含まれる文書要素数と同等の要素数をもつ教師図をもとに、連関規則分析を行って導出されたものであることが好ましい。
【0103】
一方、抽出されたクラスタのうち文書要素数が3以下のものについては、配置条件読み出し部80で読み出された(ステップS180)配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS190:図6(E))。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0104】
以上説明した方法ではステップS171に戻るたびに異なる切断高さαが適用されるので、これを「可変BC法」と命名する。これに対し図5に破線で示すように、クラスタ内の文書要素数を計数せず、ステップS173から直ちにステップS180に移行して時間データに基づく配列を行うことも可能である。これを「固定BC法」と命名する。
【0105】
図7は、実施例1の方法により生成された文書相関図の具体例を示す図である。キーワード検索によって抽出した清酒に関する日本特許出願17件の各公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例では1回の切断ですべてのクラスタが閾値(3)以下の件数になったので、可変BC法と固定BC法とでは同一の出力結果となった。
【0106】
<4−1−5.実施例1の効果>
本実施例1によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、樹状図の切断規則を連関規則分析により導出しているので、種々の樹状図に適用可能な(汎用性の高い)切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。
更に、教師図の形状パラメータに基づいて連関規則を導出しているので、樹状図形状に即した適切な切断位置を決定可能な、信頼性の高い切断規則を用いることができる。
また、解析対象樹状図の形状パラメータを読み取り、これに連関規則を適用することで切断位置を決定できるので、切断位置の決定を少ない計算量で済ませることができる。
【0107】
<4−2.実施例2(余次元降下法;CR法)>
余次元降下法(Codimensional Reduction Method)では、実施例1(均衡切断法;BC法)と同様に、樹状図の切断位置の決定に連関規則を用いる。実施例1では樹状図の幾何的形状から得られたパラメータを用い、切断位置として要素間の結合高さを用いたが、本実施例2では、文書要素ベクトル間の差異を示す索引語次元を用いて切断位置を決定する。
【0108】
連関規則分析についての基本的な説明は既に実施例1で行ったので省略し、まずは本実施例2の連関規則分析で用いるパラメータについて、実施例1との差異点を説明する。
【0109】
<4−2−1.パラメータの説明>
樹状図においてあるノード(結節点)cが与えられたとき、その結合レベルを整数i(c)で表す。初期ペアの結合は結合レベルi(c)=0、その1つ上段の結合は結合レベルi(c)=1とする。なお、後述の図9(A)にノードc1〜c7の各々について結合レベルi(c)が示されている。
【0110】
結合レベルi(c)であるノードcにおいて、当該ノードcで結合される文書要素群(ノードcを頂点とする部分樹状図に属するすべての文書要素)の索引語和集合の次元数Dcから、索引語頻度TF(E)が文書要素間で同一値をとる索引語の次元数を引いた残りの次元数をR(i;c)とする(これを余次元と呼ぶことにする)。
なお、Dcは樹状図の全要素の索引語和集合の次元数D以下の値をとるが、ノードcで結合される文書要素群に含まれていない(各文書要素Eに0個含まれている)索引語の索引語頻度TF(E)は、ノードcで結合される文書要素群においてはすべて同一値0をとる、と考えることもできる。この場合、余次元Rは、樹状図の全要素の索引語和集合の次元数Dから、当該ノードcで結合される文書要素間で同一の索引語頻度(0を含む)をとる索引語の次元数を引いた次元数、と定義しても良い。
【0111】
索引語和集合の次元数Dc又はDの大きさは、当該ノード以下の部分樹状図又は樹状図全体に属する文書要素間のバラツキの大きさに深く関係する。但し、索引語和集合の次元数Dc又はDが大きくても、索引語頻度TF(E)を共通にする索引語が多い(余次元Rが小さい)ことは文書要素間の差異がさほど大きくないことを意味する。逆に、索引語和集合の次元数Dc又はDが大きく、索引語頻度TF(E)を共通にする索引語が少ない(余次元Rが大きい)ことは文書要素間の差異が大きいことを意味する。本実施例2は、この性質を利用して樹状図の切断位置を決定しようとするものである。実施例1(均衡切断法;BC法)で用いたパラメータが樹状図の形状に関係する幾何的パラメータとすれば、余次元は非幾何的パラメータと言える。
【0112】
本実施例2では、余次元Rがある値(臨界次元Dα)を超えるノードcを、すべて切断する。この臨界次元を求めるためのパラメータとして、実施例1で用いた中点距離m、土台<h0>、高さH、クラスタ密度s/Sなどの幾何的パラメータも用いる。
【0113】
なお、連関規則分析に用いるパラメータとしては、上記の他にも種々のもの、例えば結合高さdの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いることもできる。例えば、上記中点距離mの代わりに、結合高さ平均値<d>を用いることもできるし、上記土台<h0>の代わりに、結合高さの平均値<d>と標準偏差σdを用いて<d>−σd或いは<d>−2σdを用いることもできる。
【0114】
<4−2−2.連関規則の導出例>
臨界次元Dαを導くための連関規則の算出方法は実施例1と同様である。すなわち、予め多数の教師図について理想的な臨界次元Dαを求めておく。更に、教師図の幾何的パラメータと理想的な臨界次元Dαとの関係を分析する。そして、教師図の切断位置がなるべく再現されるような臨界次元Dαを導く規則を、種々のパラメータに対する条件式として求める。
【0115】
求められた連関規則の一例を示すと以下の通りである。当該連関規則の導出過程等の説明は省略する。
Dα=D×(s/S)×(m/<h0>)×[θ(s/S≦0.2){θ(m≦0.5H)+(1/2)θ(m>0.5H)}+(1/2)θ(s/S>0.2)]
但し、θ(X)は、命題Xが真のとき1、それ以外のとき0を返す関数である。
【0116】
この連関規則は、入力装置2からの入力等に従い、記録装置3の条件記録部310に格納される。
【0117】
<4−2−3.クラスタ抽出手順>
次に、導出された連関規則を用いて決定される臨界次元を用いて、樹状図を切断し、クラスタを抽出する具体的手順について説明する。本実施例2では、解析対象となる樹状図の各ノードcの余次元R(i;c)をすべて算出する。そして、余次元R(i;c)が臨界次元Dαを超えるノードcを、すべて切断する。
【0118】
図8は、実施例2(余次元降下法;CR法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例2の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に200を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図9は、実施例2におけるクラスタ抽出過程での樹状図配置例を示す図であり、図8を補足するものである。E1〜E9は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0119】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS210)。
【0120】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS220)。
【0121】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS230)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS220で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0122】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS240)。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。
【0123】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS250:図9(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0124】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS260)。ここでは樹状図のパラメータ読み出し条件と、上記連関規則分析で導出された連関規則を読み出す。
【0125】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、上記読み出されたパラメータ読み出し条件に従って、樹状図のパラメータを読み出す(ステップS271)。次に、このパラメータに対して上記読み出された連関規則を適用し、樹状図の切断位置を判定するための臨界次元Dαを決定する(ステップS272)。
【0126】
次に、結合レベルi=0のノード(初期ペア)から順に、以下の処理を行う。まず、処理対象ノードcの余次元R(i;c)を算出する(ステップS273)。余次元R(i;c)と臨界次元Dαとを比較し(ステップS274)、R(i;c)>Dαなら当該ノードを切断し(ステップS275)、ステップS276に移行する。R(i;c)≦Dαなら切断せず、そのままステップS276に移行する。
【0127】
ステップS276では、現在の結合レベルiの全ノードについての処理が終了したか否かを判定する。現在の結合レベルiの処理が終了していなければ(ステップS276:NO)、ステップS273に戻って次のノードcについての処理を行う。現在の結合レベルiの処理がすべて終了していれば(ステップS276:YES)、全結合レベルの全ノードについての処理が終了したか否かを判定する(ステップS277)。
【0128】
全結合レベルの処理が終了していなければ(ステップS277:NO)、次の結合レベルに移行するためi:=i+1とし(ステップS278)、ステップS273に戻って次の結合レベルのノードcについての処理を行う。全結合レベルの処理がすべて終了していれば(ステップS277:YES)、クラスタ抽出部70での処理を終了し、ステップS280に移行する。
【0129】
図9(B)に、ノードc1〜c7の各々についての余次元Rと臨界次元Dαの比較結果の例を示す。この例ではノードc1〜c5については余次元Rが臨界次元Dα以下であると判定され、ノードc6及びc7については余次元Rが臨界次元Dαを超えると判定された。従って、上記ステップS275にてノードc6及びc7が切断されてクラスタが抽出される。この例では、ノードc6よりノードc5の方が、結合高さが高い(結合される文書要素群間の非類似度が高い)にもかかわらず、ノードc5の余次元が臨界次元Dα以下であったためノードc5では切断されなかった。この例に示されるように、本実施例2による切断位置は樹状図における結合高さと直接関係するものではない。
【0130】
本実施例2では下位ノード(i=0)から順に余次元Rと臨界次元Dαの比較をしている。ある下位ノードcが与えられた場合、その上流に位置する上位ノードで結合される文書要素群は、当該下位ノードcで結合される文書要素Eをすべて含む。従って上位ノードは、下位ノードcの余次元Rより大きな余次元Rを持つことになる。従って例えば図9(B)の例のように、下位ノードc6の余次元R(2;c6)が臨界次元Dαを超えると判定された場合は、その上流に位置する上位ノードc7の余次元R(3;c7)の算出及び臨界次元Dαとの比較を省略することも可能である。
【0131】
次に、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS280)。この配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS290:図9(C))。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0132】
なお、上述の例では、余次元Rを求めるために索引語和集合の次元数から引かれる索引語は、索引語頻度TF(E)が同一のものとしたが、それ以外のものでもよい。例えば、索引語頻度TF(E)の偏差が所定方法で定めた値より小さい索引語(索引語頻度TF(E)の標準偏差が一定値以下の索引語など)としてもよい。また、文書要素Eがそれぞれ複数の文書からなる場合は、索引語頻度TF(E)の代わりに大域的頻度GF(E)とするのが好ましい。また、文書要素のベクトル成分量として索引語頻度TF(E)又は大域的頻度GF(E)以外のものを使用する場合には、そのベクトル成分量の偏差が所定方法で定めた値より小さい索引語とするのが好ましい。
【0133】
図10は、実施例2の方法により生成された文書相関図の具体例を示す図である。実施例1の図7と同一の公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例では図7と異なり、文書要素1件だけのクラスタが生成されなかった。本実施例2において文書要素1件だけのクラスタが生成されるためには2〜3件程度の文書要素群で余次元Rが臨界次元Dαに達する必要があるが、2〜3件程度の文書要素では索引語和集合の次元数が低いので、余次元Rが臨界次元Dαに達しなかったものと思われる。このように各クラスタにおいてそれぞれ複数の文書要素が時間順で並べられたので、時間的に見た流れを把握し易い文書相関図を得ることができた。
【0134】
<4−2−4.実施例2の効果>
本実施例2によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、樹状図の切断規則を連関規則分析により導出しているので、種々の樹状図に適用可能な(汎用性の高い)切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。
更に、切断規則の導出のためにベクトル次元数を加味しているので、適切な分岐を得ることができる。
更に、ノードごとに切断基準の判定を行い、判定結果に基づいて各ノードを個別に切断しているので、より適切な分岐を得ることができる。
【0135】
<4−3.実施例3(細胞分裂法;CD法)>
細胞分裂法(Cell Division Method)では、ある方法で決められた切断高さαで樹状図を切断して親クラスタを抽出した後、各親クラスタを更に子クラスタに分けるために、各親クラスタに属する文書要素のみを用いて再度当該部分の樹状図を作成する。この部分樹状図の作成の際に、当該親クラスタにおける文書要素ベクトルの成分の偏差が所定方法で定めた値より小さい値をとる索引語次元を除去して分析する。
【0136】
<4−3−1.クラスタ抽出手順>
図11は、実施例3(細胞分裂法;CD法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例3の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に300を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図12は、実施例3におけるクラスタ抽出過程での樹状図配置例を示す図であり、図11を補足するものである。E1〜E10は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0137】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS310)。
【0138】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS320)。
【0139】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS330)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS320で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0140】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS340)。このときも、上記と同様に最古要素E1以外の要素間の類似度のみを演算する。
【0141】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS350:図12(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0142】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS360)。ここでは切断高さα、後述の偏差判定閾値などを読み出す。
【0143】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、切断高さα=a(但し、結合高さd=a−bcosθ)で樹状図を切断する(ステップS371:図12(B))。α=aでクラスタ分離が生じない場合(ステップS372)、α*=<d>+δσd(但し−3≦δ≦3。特に0≦δ≦2とするのが好ましく、δ=1とするのが最も好ましい。)で切断する(ステップS373)。樹状図が切断されたら、各クラスタ内の最古要素E2、E7を当該各クラスタの先頭に配置する(ステップS374:図12(C))。以下の処理は各クラスタの、当該各最古要素以外の文書要素群につき行う。
【0144】
まず、各クラスタにつき、最古要素以外のクラスタ内要素間での偏差が所定方法で定めた値より小さい値をとる索引語次元を削除する処理を行う(ステップS375)。例えば、図12の文書要素E2を先頭とするクラスタにおいて、文書要素E3、E4、E5、E6の索引語と、それぞれの索引語について算出された各文書要素ベクトルの成分値がそれぞれ次の表に示す通りだったとする。
【表8】
偏差の判定閾値を、例えばクラスタ内平均に対する標準偏差の比率で10%と規定した場合には、索引語wb及びweを偏差が小さい値と判定し削除するのである。
【0145】
次に、各クラスタにつき、上記最古要素以外のクラスタ内要素からなる部分樹状図の作成を行う(ステップS376:図12(D))。表8の例で言えば、残りの索引語wa、wc、wd、wfを用いて部分樹状図を作成する。従って、ステップS350で作成された樹状図での分岐とは異なるクラスタ内分岐が得られる。特に、偏差が小さい値をとる索引語次元が削除されているので、残りの索引語の差異が強調される。従って、同じ文書要素間の類似度であっても、ステップS350で樹状図を作成した際の類似度よりも、本ステップS376で部分樹状図を作成する際の類似度の方が小さく(非類似度が大きく)評価されることになる。
【0146】
ここで、各クラスタにつき、最古要素を除いたクラスタ内要素数を取得し、所定の閾値(例えば3)と比較する(ステップS377)。図12(D)の文書要素E3〜E6のように、最古要素E2を除いた文書要素数が閾値を超えている場合は(ステップS377:NO)、ステップS371に戻って樹状図の切断を行い、子孫クラスタを抽出する。このときの切断高さα(又はα*)はステップS371(又はステップS373)で上述した通りであるが、偏差が小さい値をとる索引語次元が削除され類似度が小さく評価されているので、同じ切断高さα(又はα*)でも再度樹状図の切断が可能となるのである。なお、子孫クラスタ抽出の際にステップS373の切断高さα*で切断する場合には、切断される親クラスタにおける各結合位置の高さdに応じてその都度α*を更新してもよいし(可変法)、α*の初期値をそのまま用いてもよい(固定法)。
【0147】
図12(D)の文書要素E8〜E10のように、クラスタ内の最古要素E7を除いた文書要素数が閾値以下であった場合(ステップS377:YES)、当該クラスタについては最後に切断高さα=aで切断を行う(ステップS378:図12(E))。本ステップS378では、実際にクラスタ分離が生じない場合でもステップS380に移行する。
【0148】
ステップS380では、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う。この配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS390:図12(F))。
例えばステップS378において、図12(E)の切断高さα=axで切断されクラスタ分離が生じなかった場合は、当該クラスタの文書要素E7〜E10の時間データ順の直列鎖配列となる(図12(F))。
また例えばステップS378において、図12(E)の切断高さα=ayで切断された場合は、文書要素E7から、文書要素E8と、文書要素E9及びE10の時間データ順の直列鎖と、に分岐される(図示せず)。
また例えばステップS378において、図12(E)の切断高さα=azで切断された場合は、文書要素E7から、文書要素E8と文書要素E9と文書要素E10の3枝に分岐される(図示せず)。
クラスタ内の配置条件は、この例のように時間データに基づき古い順に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0149】
なお、偏差の判定閾値について、平均に対する標準偏差の比率で10%とした例を説明したが、これは各文書要素が1つの文書からなる場合に好適な例である。各文書要素が1つの文書からなる場合の判定閾値は、0%以上10%以下とするのが好ましい。
一方、各文書要素が複数の文書からなる場合には、クラスタ内文書要素の平均に対する標準偏差の比率が60%或いは70%以下であれば、偏差が小さいものとして扱うことが好ましい。
【0150】
図13は、実施例3の方法により生成された文書相関図の具体例を示す図である。実施例1の図7と同一の公開公報を文書要素とし、文書要素ベクトルの成分値としてTF*IDF(P)を用い、切断高さαとしてa=1を用いて分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例ではステップS376で作成した部分樹状図の1つが更に切断され、2段階の分岐が形成された。
【0151】
図14は、実施例3の方法により生成された文書相関図の他の具体例を示す図である。ある家庭用化学品メーカーを出願人とする約4000件の日本特許公開公報のうち主な16分野について、各分野に属すべき文書群をそれぞれキーワード検索によって選出し、各分野の文書群をそれぞれ1つの文書要素(マクロ要素)とした。実施例3に従って最古要素を除外して先頭に配置し、残り15要素による樹状図の作成及び樹状図切断を行い、図に示す分岐構造が得られた。各文書要素の時間データtとして出願日の平均値を用い、文書要素ベクトルの成分値としてGFIDF(E)を用い、切断高さαとしてa=1を用い、偏差の判定閾値として70%を採用した。文書相関図には上記16分野を特徴付けるキーワードを記入した。
【0152】
<4−3−2.実施例3の効果>
本実施例3によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、親クラスタの抽出後に、各親クラスタを再分析して作成した部分樹状図により子クラスタを抽出しているので、子クラスタの誤分類を改善し適切な分類を得ることができる。
【0153】
更に、親クラスタの抽出後に、各親クラスタに属する文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を除去しているので、親クラスタの抽出観点とは異なった観点から子クラスタの抽出を行うことができる。例えば、着色材料に関する複数の文書要素を分類した場合、親クラスタの抽出時には溶媒の違いにより、低沸点溶媒を用いた群と高沸点溶媒を用いた群に大別されたとする。子クラスタの抽出時には、各親クラスタにおいて偏差の小さい溶媒に関する索引語が除去されるので、例えば顔料の違いが強調されて有機系顔料を用いた群と無機系顔料を用いた群に大別される。各親クラスタにおいて偏差の小さい索引語が除去されない場合には、溶媒に関する更に細かい分類と顔料に関する分類とが拮抗してしまい適切な子クラスタが得られない恐れもあるが、本実施例3では、クラスタ内での違いを強調することで、子孫クラスタでの適切な分類を得ることができるのである。
【0154】
<4−4.実施例4(段階的切断法;SC法)>
段階的切断法(Stepwise Cutting Method)では、2つ以上の切断高さαi、αii(固定値)で樹状図を切断し、親クラスタ及び子孫クラスタを抽出する。
【0155】
<4−4−1.クラスタ抽出手順>
図15は、実施例4(段階的切断法;SC法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例4の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に400を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図16は、実施例4におけるクラスタ抽出過程での樹状図配置例を示す図であり、図15を補足するものである。E1〜E14は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0156】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS410)。
【0157】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS420)。
【0158】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS430)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS420で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0159】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS440)。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。
【0160】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS450:図16(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0161】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS460)。ここでは切断高さαi、αii(但し、αi>αii)又はそれらの算出方法などを読み出す。例えば、αi=a、αii=a−0.2b(但し、結合高さd=a−bcosθ)とする。また例えばα*=<d>+δσd(但し−3≦δ≦3。特に0≦δ≦2とするのが好ましい。)を用いて、αi=<d>+σd、αii=<d>とする。また、切断高さをαi、αii、αiii(但し、αi>αii>αiii)の3箇所とする場合には、例えば、類似度を相関係数で定義した場合、αi=a+b(反相関)、αii=a(無相関)、αiii=a−0.3b(強相関の閾値)のように、類似度の代表点とすることもできる。
【0162】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、上記樹状図を切断高さα=αiで切断する(ステップS471:図16(B))。そして、当該切断線で切断される枝線の数(第一分岐数)を読み取り、ステップS450で除外された最古要素E1から直接、第一分岐数に相当する数の枝線を引く(ステップS472:図16(C))。この第一分岐数が親クラスタの数となる。
【0163】
次に、同じ樹状図を切断高さα=αiiで切断する(ステップS473:図16(D))。そして、当該切断線で切断される枝線の数(第二分岐数)を、親クラスタごとに読み取り、各親クラスタの線から直接、当該親クラスタの第二分岐数に相当する数の枝線を引く(ステップS474)。この第二分岐数を全親クラスタについて合計した数が、子クラスタの総数となる。クラスタの抽出はこれで終了である。
【0164】
上述のようにしてクラスタが抽出されるので、次に、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS480)。この配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS490:図16(E))。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0165】
上述のように、ステップS472では最古要素から直接、第一分岐数に相当する数の枝線を引く。従って、例えば図16(B)の樹状図に示すように親クラスタ[1]と親クラスタ[2]及び[3]とが互いに異なる階層に位置するような場合でも、図16(C)に示すように切断高さαiより上方の階層構造を統一的に処理することができる。従って樹状図を簡略化することができる。
また上述のように、ステップS474では各親クラスタの線から直接、当該親クラスタの第二分岐数に相当する数の枝線を引く。従って、例えば図16(D)の樹状図に示すように親クラスタ[1]から分岐する子クラスタ[11]及び[12]と子クラスタ[13]とが、互いに異なる階層に位置する場合でも、図16(E)に示すように切断高さαiとαiiとの間の階層構造を統一的に処理することができる。従って樹状図を簡略化することができる。
【0166】
また、例えば図16(D)に示すように親クラスタ[1]から分岐する子クラスタ[11]、[12]及び[13]と、親クラスタ[3]から分岐する子クラスタ[31]及び[32]とが、別々の高さで結合している場合でも、これらを図16(E)に示すように同じ高さで結合させる。従って、切断高さαiとαiiとの間での結合高さの違いを統一的に処理して樹状図を簡略化することができる。
【0167】
このように樹状図を程よく簡略化することができる一方、切断高さαiでの第一分岐数と、切断高さαiiでの第二分岐数は維持することができる。従って、樹状図の階層構造を程よく簡略化しつつ、当初の樹状図の階層構造を反映させた文書相関図を作成することができる。
【0168】
図17及び図18は、実施例4の方法により生成された文書相関図の具体例を示す図である。実施例1の図7と同一の公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。本実施例4では子孫クラスタ生成の前に最古要素を抽出するという操作をしないので、樹状図全体の最古要素と子孫クラスタとの間に親クラスタの最古要素が配置されることはなく、樹状図構造のみが表示される。なお、図17は標準化を施さない類似度(余弦)を用いて作成した樹状図を切断したもの、図18は標準化を施した類似度(相関係数)を用いて作成した樹状図を切断したものである。
【0169】
<4−4−2.実施例4の効果>
本実施例4によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、例えばαi=a、αii=a−0.2bのような定数で切断する場合、予め決められた複数の切断高さで切断するので、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
更に、例えばαi=<d>+σd、αii=<d>のような結合高さdの平均値及び偏差のうち何れか又は両方を変数として含む関数α*=<d>+δσdで切断する場合、異なる樹状図形状にも幅広く対応でき、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
【0170】
また、複数の切断位置の各々で切断される枝線の数に基づいて分岐構造を決定することにより、樹状図の階層構造を程よく簡略化しつつ、当初の樹状図の階層構造を反映させた文書相関図を作成することができる。
更に、複数の切断位置での切断により親子クラスタを生成する際に、親クラスタに属する文書要素の部分樹状図を再作成しなくても子クラスタを生成できるので、少ない計算手数で親子クラスタを生成することができる。
【0171】
<4−5.実施例5(可変複合法;FC法)>
可変複合法(Flexible Composite Method)では、樹状図切断を複数回実行する過程において、切断の度に新たな切断高さαを設定する。例えば、切断高さαをα*=<d>+δσd(但し−3≦δ≦3。特に0≦δ≦2とするのが好ましく、δ=1とするのが最も好ましい。)で算出する場合、第1回目の切断では当該樹状図に属する全文書要素のデータをもとに算出したα*を用い、第2回目の切断では、切断される親クラスタに属する文書要素のデータのみをもとに算出したα*を用いる。
【0172】
<4−5−1.クラスタ抽出手順>
図19は、実施例5(可変複合法;FC法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例5の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に500を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図20は、実施例5におけるクラスタ抽出過程での樹状図配置例の一部を示す図であり、図19を補足するものである。E1〜ENは文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0173】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS510)。
【0174】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS520)。
【0175】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS530)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS520で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0176】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS540)。このときも、上記と同様に最古要素E1以外の要素間の類似度のみを演算する。
【0177】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS550:図20(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0178】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS560)。ここでは切断高さαの算出方法、切断回数(階層数)上限値gなどを読み出す。
【0179】
切断高さαは、例えばα*=<d>+δσdを用いて、α*=<d>+σdによって算出する。また例えば分析対象の文書要素数が多い場合などは、α*=<d>+2σdによって算出してもよい。
【0180】
切断回数上限値gは、分析対象となる文書要素の総数Nに対して、例えば、
g=[lnN÷ln10+0.5]G
とする。或いは、全文書要素のν分割を繰り返すとき、クラスタ1つの要素数がU以下になる分割回数+1(ν(g−1)≦N/U<νgの解)として、
g=1+[ln(N/U)÷lnν]G
としてもよい。但し、上記[ ]G はガウスの整数記号であり、括弧内の小数点以下を切り捨てた値を意味する。或いは、文書要素数Nに対して、
10<N≦20ならg=1、20<N≦300ならg=2、300<N≦1000ならg=3、1000<Nならg=4
としてもよい。
【0181】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、上記樹状図のうち最古要素E1を除いた要素E2〜ENの各結合位置の高さdを用いて、切断高さα*[2−N]=<d>+σdを算出する(ステップS571)。次に、算出された切断高さα*[2−N]が要素E2〜ENの結合高さdの最大値 Max(d)より小さいか否かを判定し(ステップS572)、小さい場合には、この切断高さα*[2−N]で当該樹状図を切断する(ステップS573:図20(B))。以降の処理は、クラスタごとに行う。
【0182】
各クラスタにつき、文書要素数が所定の閾値(ここでは4とする。なお、所定の閾値としては、4以上、10×[lnN/ln10]G 以下が好ましい。)を超える場合(ステップS574:NO)、当該クラスタの切断回数が上限値gに達したか否かを判定し、上限値gに達していない場合は(ステップS575:NO)、当該クラスタについて最古要素E2を除外して当該クラスタの先頭に配置し、残りのクラスタ内要素E3〜E7による部分樹状図を作成する(ステップS576:図20(C))。このときに作成する部分樹状図は、当該クラスタの最古要素E2が除外されている他は、ステップS550で最初に作成した樹状図のうち当該クラスタに相当する部分とほぼ同じ構造になる。但し、当該クラスタの最古要素E2が除外されているので、当該クラスタ内での要素群間距離が変化する。従って、残りのクラスタ内要素E3〜E7の内容データに基づいて再分析すればステップS550で作成した樹状図とは若干異なる構造となる可能性もある。例えば、文書要素と文書要素群の距離(非類似度)或いは文書要素群と文書要素群の距離(非類似度)として重心間距離又は全距離平均を用いて樹状図を作成する場合、図20(B)における要素E2及びE3と要素E4及びE5との距離に対して、図20(C)における要素E3と要素E4及びE5との距離は異なるものとなるので、この部分は異なる構造になり得る。
【0183】
クラスタ内要素による部分樹状図を作成後、ステップS571に戻り、クラスタ内要素のうち最古要素E2を除いた要素E3〜E7の各結合位置の高さdを用いて、切断高さα*[3−7]=<d>+σdを算出する。次に、算出された切断高さα*[3−7]が要素E3〜E7の結合高さdの最大値 Max(d)より小さいか否かを判定し(ステップS572)、小さい場合には、この切断高さα*[3−7]で当該クラスタを切断する(ステップS573:図20(C)参照)。
【0184】
文書要素数が上記所定の閾値(ここでは4)以下となったクラスタについては(ステップS574:YES)、クラスタの切断回数に関わらず、当該クラスタについては実施例3の細胞分裂法(CD法)など他のクラスタ抽出法での子孫クラスタ抽出に移行する(ステップS577)。
切断回数が上限値gに達したクラスタについては(ステップS575:YES)、当該クラスタの文書要素数に関わらず、当該クラスタについては実施例3の細胞分裂法(CD法)など他のクラスタ抽出法での子孫クラスタ抽出に移行する(ステップS577)。
なお、ステップS577で行う他のクラスタ抽出法としては、実施例1の均衡切断法(BC法)でもよく、実施例2の余次元降下法(CR法)でもよく、実施例4の段階切断法(SC法)でもよい。
【0185】
上記ステップS572において、切断高さα*[2−N]又はα*[3−7]が、要素E2〜EN又はE3〜E7の結合高さdの最大値以上である場合には(α*≧ Max(d))、クラスタ分離が実現しないので樹状図の切断処理を飛ばして、直ちにステップS574にてクラスタ内要素数(最古要素E1又はE2を除く)の判定を行う。そして、クラスタ内要素数が上記所定の閾値を超えていればステップS575にて切断回数の判定を行い(ここでは切断処理が飛ばされて切断回数は増えていないので、切断回数の判定を省略しても良い)、ステップS576にて次の最古要素E2又はE3を除外する。
このように、クラスタ分離が実現しない場合でも、最古要素を1つずつ除外して(ステップS576)、クラスタ内要素数が閾値以下になれば(ステップS574)、ステップS577に移行する。
【0186】
上述のようにしてクラスタを抽出したら、最後に、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS580)。この配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS590:図20(D))。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0187】
上述の説明では切断回数の上限値gを設定したが、上限値gを設定しない方法をとることもできる。この場合、ステップS575は省略され、ステップS574がNOなら直ちにステップS576に移行し、切断回数無制限で子孫クラスタの抽出を行う。なお、ステップS574では、文書要素数が例えば9を超えていればNOとし、文書要素数が9以下となったクラスタについてはYESの判定をすることが望ましい。
【0188】
図21及び図22は、実施例5の方法により生成された文書相関図の具体例を示す図である。キーワード検索によって抽出した地盤の液状化防止工法に関する日本の特許出願及び実用新案登録出願60件の各公開公報を文書要素として分析し、得られた文書相関図を、簡単のためここでは一部(35件分)のみ図示した。図示した文書相関図には各文書要素につき特許出願番号(但し末尾に(U)を付したものは実用新案登録出願番号)を記入し、上位の文書要素については発明(考案)の名称も記入した。実施例1〜4では要素数20未満が好ましいと思われるのに対し、本実施例5では、この例に示されるように分析対象要素数が多くても適切な親子クラスタを得ることができる。
【0189】
なお、図21は切断回数上限値g=2に設定し、クラスタ内文書要素数の閾値=4に設定した結果であり、図22は切断回数を無制限とし、クラスタ内文書要素数の閾値=9に設定した結果である。他の方法による子孫クラスタの抽出(ステップS577)は省略した。
図21では、出願番号H03-320020を先頭とする親クラスタ(要素数5)は要素数が閾値4を超えていたので2回目の切断で子クラスタに分離された。また、出願番号S63-033662(U)を先頭とする子クラスタ(要素数10)は2回目の切断で生成されたものであるため、それ以上切断分離されなかった。
一方図22では、出願番号H03-320020を先頭とする親クラスタ(要素数5)は要素数が閾値9以下であるため2回目の切断はされなかった。また、出願番号S63-033662(U)を先頭とする子クラスタ(要素数10)については3回目の切断が行われ、孫クラスタに分離された。
【0190】
図23は、実施例5の方法により生成された文書相関図の他の具体例を示す図である。実施例3の図14と同一の16分野の文書要素(マクロ要素)について、実施例5に従って最古要素を除外して先頭に配置し、残り15要素による樹状図の作成及び樹状図切断を行った。クラスタ内要素数の上限(4とした)以下になるまで最古要素の除外と樹状図作成及び切断を繰り返した。クラスタ内要素数が上限以下になったクラスタについてはそれぞれ実施例3(細胞分裂法;CD法)の方法により更にクラスタ生成を行い、図に示す分岐構造が得られた。各文書要素の時間データtとして出願日の平均値を用い、文書要素ベクトルの成分値としてGFIDF(E)を用い、クラスタ内要素数が上限以下になった後の切断高さαとしてa=1を用い、偏差の判定閾値として70%を採用した。文書相関図には上記16分野を特徴付けるキーワードを記入した。
【0191】
<4−5−2.変形例1>
上述のステップS550及びステップS576では、樹状図及び部分樹状図を作成する際に最古要素を除外していたが、最古要素を除外せずに作成することも可能である。そして、この樹状図を上述のようにg回切断する。こうしてクラスタを得ることにより、文書要素の分類をすることが可能となる。この場合、得られた分類に対しては、それぞれに属する文書要素の内容データに基づいて適切なラベル付けを行うことにより、文書要素群のマクロ的分析を容易にすることができる。
【0192】
図24は、実施例5の変形例1による方法で生成された文書相関図の具体例を示す図である。この文書相関図を作成した手順は以下の通りである。まず、ある家庭用化学品メーカーを出願人とする約4000件の日本特許公開公報につき、最古公報を除外せずに樹状図を作成し、本変形例1に係る方法によりg回切断した。こうして得られた27個のクラスタを新たに文書要素(マクロ要素)とした樹状図を作成し、実施例5の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限(4とした)以下になるまで最古要素の抽出と樹状図切断を繰り返し、図に示す分岐構造が得られた。各マクロ要素に対しては、それぞれに属する文書の内容データに基づいてラベル付けを行った。これにより、膨大な文書数からなる分析対象文書集団であってもマクロ的に自動分析し、技術の大まかな流れの理解を容易にすることができる。
【0193】
<4−5−3.変形例2>
次に、変形例2による方法で生成された文書相関図について説明する。この文書相関図は、ある出願人X社の保有する特許文書群の文書相関図をまず作成し、更に当該出願人X社による特許文書群のうち、特定の技術分野に属する特許文書群が、他社の特許文書群とどのような関係にあるかを示したものである。
図25は、実施例5の変形例2による文書相関図の作成過程を示す図であり、図26及び図27が、実施例5の変形例2による文書相関図の具体例を示す図である。図28及び図29は、実施例5の変形例2による文書相関図における別の表示例の一部を示す図である。
これらの文書相関図を作成した手順は以下の通りである。
【0194】
まず、化学メーカーであるX社を出願人とする日本特許公報(公開及び登録)のすべてにつき、最古公報を除外せずに樹状図を作成した。上記変形例1に係る方法によりg回切断した結果、5個のクラスタが得られた。
これら5個のクラスタのうち1つである「機能性素材関連」の特許文書群につき、最古公報を除外せずに再度樹状図を作成した。上記変形例1に係る方法によりg回切断した結果、上記X社を出願人とする日本特許公報のうち「機能性素材関連」の特許文書群は、文書群「EX01」乃至文書群「EX13」の計13個のクラスタに分類された(文書群の符号「EX01」等は便宜上付したものである。)。
これら13個のクラスタを新たに文書要素(マクロ要素)とした樹状図を作成し、実施例5の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限(4とした)以下になるまで最古要素の抽出と樹状図切断を繰り返し、図25に示す分岐構造が得られた。
【0195】
これら13個のクラスタのうち1つである「◇化ケイ素の製造方法関連」の特許文書群「EX05」の内容データ(索引語データ)に基づき、この特許文書群に類似する文書群を、他社の特許文書群を含む全文書Pから、3000件抽出した。
このように全文書Pから抽出された3000件の特許文書につき、最古公報を除外せずに樹状図を作成した。上記変形例1に係る方法によりg回切断した結果、文書群「E101」乃至文書群「E121」の計21個のクラスタが形成された(文書群の符号「E121」等は便宜上付したものである。)。
こうして得られた21個のクラスタを新たに文書要素(マクロ要素)とした樹状図を作成し、実施例5の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限(4とした)以下になるまで最古要素の抽出と樹状図切断を繰り返し、図26に示す分岐構造が得られた。
【0196】
一方、上述の13個のクラスタのうち1つである「◇化ケイ素の製造方法関連」の特許文書群の内容データ(索引語データ)に基づき、この特許文書群に類似する文書群を、上述のように全文書Pから抽出された3000件の特許文書から、300件抽出した。
このように3000件の特許文書から抽出された300件の特許文書につき、最古公報を除外せずに樹状図を作成した。上記変形例1に係る方法によりg回切断した結果、文書群「E201」乃至文書群「E219」の計19個のクラスタが形成された(文書群の符号「E201」等は便宜上付したものである。)。
こうして得られた19個のクラスタを新たに文書要素(マクロ要素)とした樹状図を作成し、実施例5の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限(9とした)以下になるまで最古要素の抽出と樹状図切断を繰り返し、図27に示す分岐構造が得られた。
【0197】
図26及び図27の各文書要素の中で、上記X社を出願人とする特許文書が件数で上位(ここでは5位以内)を占めているものには他の文書要素と区別するための強調表示を付加し、最上位を占めているものにはより強い強調表示を付加した。このような強調表示は、図に示すような枠線の太さによっても良いし、色分け又は模様等によっても良い。また、このような強調表示は、ある出願人(自社又は他社)の文書が上位を占めているか否かに限らず、ある出願人の文書が1つでも含まれるか否か、又はその他の基準によっても良い。
また、図26及び図27には、各文書要素の出願日の平均値(ここではその西暦年下二桁)を縦軸の値として記入した。また、図26及び図27では説明の便宜上、各文書要素の名称として符号「E201」等のみを表示したが、それぞれに属する文書の内容データに基づいて、その文書要素の内容的特徴を示すラベル付けを行うことが望ましい。
【0198】
本変形例2ではこのように、文書相関図の各文書要素のうち特定の属性を有する文書要素、例えば特定の出願人の特許文書からなる文書要素又は特定の出願人が優位を占める特許文書群からなる文書要素を、他の文書要素と区別した形態で表示する。これにより、特定の属性を有する文書要素、例えば上記特定の出願人のある分野に属する特許群が、他社との関係で内容的及び時間的にどのように位置づけられるのかを一見して知ることができる。上記特定の出願人として自社を選べば、自社の技術のうちある分野に属する部分につき、業界全体での位置づけを知ることができる。更に時間軸を表示し、その時間軸に合わせて各文書要素を配置したことにより、当該技術分野の発展系統上における自社技術の位置付けを把握することができる。
例えば図26のように類似度を算出し、比較的多い件数(ここでは類似度上位3000件)の類似文書について分析した場合には、比較的多方面の技術分野にわたる類似文書が抽出され、その中での自社の位置付けを知ることができる。従って、上記の効果に加え、自社があまり目をつけていなかった類似技術を発見でき、自社技術の他分野への適用の可能性を見出すことができるとともに、他社の技術が内容的及び時間的にどのように発展してきたのかを知ることもできる。
更に図27のように当該3000件を母集団として再度類似度を算出し、比較的少ない件数(ここでは類似度上位300件)の類似文書について分析した場合には、更に絞り込んだ技術分野での、特に他社との競合関係のより詳細な比較ができる。
【0199】
図28及び図29は、図26の文書相関図における別の表示例の一部を示す図である。これらの例では、各文書要素につき「○化ケイ素粉末関連」など内容データに基づくラベル付けが行なわれている他、より詳細な表示として、当該文書要素に属する文書数、出願人ランキング(社名と件数)が表示されている。このように詳細な表示を加えることで、より詳細な分析が可能になる。
詳細表示の内容はこれに限らず、特許文書の国際特許分類(IPC)、出願日(平均値又は範囲等)、キーワードなどでも良く、これらに基づくランキングでも良い。また、詳細表示は図28及び図29のように全文書要素について同時に行っても良いし、詳細表示を当初含まない文書相関図を画像表示装置で表示し、1つの文書要素にカーソルを移動したときに、当該文書要素に関する詳細表示を追加出力するようにしても良い。詳細表示の方法は、図28のように文書要素の記載欄そのものを拡大しても良いし、図29のように欄外に吹出しで表示しても良い。また、図26に限らず、図27又はその他の文書相関図について同様の詳細表示をしても良い。
【0200】
<4−5−4.実施例5の効果>
本実施例5によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、親クラスタの抽出を、樹状図に属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行い、子クラスタの抽出を、各親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、要素数Nが多くても適切な親子クラスタを得ることができる。
更に、クラスタの抽出を文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、樹状図に属する文書要素群の類似度が高い場合など様々な樹状図形状に幅広く対応でき、適切な親子クラスタを得ることができる。
【0201】
<5.時間配列の実施例>
次に、時間配列過程に関する実施例6〜8を説明する。
【0202】
<5−1.実施例6(一本釣り配列;PLA)>
一本釣り配列(Pole-and-Line Arrangement)では、文書要素が数個程度の小さなクラスタに対して、時間データと樹状図配置データとに基づいて、当該クラスタ内における配列を決定する。
【0203】
<5−1−1.配列決定手順>
図30は、実施例6(一本釣り配列;PLA)におけるクラスタ内配列過程を説明するフローチャートである。このフローチャートは、図3のステップS70(クラスタ抽出)までの処理でクラスタが抽出されていることを前提とし、図3のステップS80(配置条件読み出し)及びステップS90(クラスタ内要素配列)の部分について、本実施例6の手順をより詳細に示したものである。図3と同様のステップには図3のステップ番号に600を加えて下二桁を図3と同一のステップ番号とし、詳細な説明を省略することがある。
図31は、実施例6におけるクラスタ内配列過程での樹状図配置例を示す図であり、図30を補足するものである。E1〜E20は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。図31(A)は、図3のステップS70までの処理によって抽出された5つのクラスタの各樹状図構造を示している。
【0204】
実施例1(均衡切断法:BC法)、実施例2(余次元降下法:CR法)、実施例3(細胞分裂法:CD法)或いは実施例4(段階切断法:SC法)等でクラスタが抽出されたら、まず、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS680)。この配置条件に従って、クラスタ内要素配置部90が、当該クラスタ内の各文書要素の時間データ及び樹状図配置データに基づき、クラスタ内における文書要素群の配列を決定する。
【0205】
具体的には、まず、樹状図の当該クラスタ部分をトーナメント表とみなし、各段階の勝者(時刻tの小さい方)を決める(図31(B))。すなわち、下位の(結合高さが低い)ノード(結節点)から順番に、いずれの文書要素の時間データtが小さいかを判定し、その結果を記録する(ステップS691)。この判定は、最下位ノード(2体結合)から、当該クラスタの最上位ノードまで行う(ステップS692)。その際、下位のノードにおける勝者(時間データtがより小さい文書要素)を、上位のノードにおける対戦当事者(時間データtの比較対象)とする(ステップS693)。
【0206】
最上位ノードまで判定すると優勝者(最古文書要素)が決まるので、当該優勝者を当該クラスタの先頭に配置する(ステップS694)。更に、当該優勝者と直接対戦し敗退させられた相手の数(最古文書要素と直接比較され時間データtがより大きいと判定された文書要素の数)だけ、当該優勝者からの分岐を作成する(ステップS695:図31(C))。以下の処理は、各分岐について行う。
【0207】
次に、これら敗退させられた相手を上記各分岐内における優勝者として、各分岐の先頭に配置する(ステップS696:図31(D))。
さらに、各分岐内における優勝者と直接対戦し敗退させられた相手の数を数える(ステップS697)。敗退させられた相手の数が0なら、当該分岐の処理を終了する。敗退させられた相手の数が1以上なら、当該相手の数だけ、当該分岐内における優勝者からの分岐を新たに作成し(ステップS698:図31(D))、ステップS696に戻る。
ステップS696〜S698の処理を繰り返すことにより、クラスタ内配列が決定される(図31(E))。
【0208】
<5−1−2.実施例6の効果>
本実施例6によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、クラスタ内配列を決める際に、時間順による配列を確実に実現するとともに、当該クラスタ内の分岐構造もある程度反映させることができる。
【0209】
<5−2.実施例7(群時系順序;GTO)>
群時系順序(Group Time Ordering)では、複数の文書からなる文書要素の要素定義を、分類情報及び大きな時間単位に基づいて行なった場合に有効な方法である。要素定義を大きな時間単位に基づいて(例えば一定年数を単位として)行うと同時刻要素が生じることがあり、時系列での配列を考えるときに支障が生じ得るが、分類情報を加味して配列を決定することでこれを解決する。
【0210】
<5−2−1.配列決定手順>
図32は、実施例7(群時系順序;GTO)におけるクラスタ内配列過程を説明するフローチャートである。このフローチャートは、図3のステップS70(クラスタ抽出)までの処理でクラスタが抽出されていることを前提とし、図3のステップS80(配置条件読み出し)及びステップS90(クラスタ内要素配列)の部分について、本実施例7の手順をより詳細に示したものである。図3と同様のステップには図3のステップ番号に700を加えて下二桁を図3と同一のステップ番号とし、詳細な説明を省略することがある。
図33は、実施例7におけるクラスタ内配列過程での樹状図配置例の一部を示す図であり、図32を補足するものである。EA1、EB1等はそれぞれ複数の文書からなる文書要素を表し、ここでは便宜上、添え字のアルファベット部分は分類(国際特許分類(IPC)等)を、アラビア数字は時間t(小さいほうがより古い)を表すものとする。
【0211】
切断高さα=a(但し、結合高さd=a−bcosθ)、α*=<d>+δσd(但し−3≦δ≦3。特に0≦δ≦2とするのが好ましく、δ=1とするのが最も好ましい。)、或いは構造連関分析等で導出された切断高さで樹状図を切断しクラスタが抽出されたら(図33(A))、まず、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS780)。この配置条件に従って、クラスタ内要素配置部90が、当該クラスタ内の各文書要素の時間データ及び樹状図配置データに基づき、クラスタ内における文書要素群の配列を決定する。
【0212】
具体的には、まず、クラスタ内の最古要素を抽出し、当該クラスタの先頭に配置する(ステップS791)。最古要素が複数の場合(図33(B)のEA1とEB1)は並列結線での配置とする。
次に、上記最古要素を除いた残りの要素について、分類ごとに時系列鎖を構成する(ステップS792:図33(B))。そして、ステップS792で構成された各時系列鎖について、同分類の要素を、ステップS791で抽出された最古要素から探す(ステップS793)。
【0213】
上記時系列鎖のうち、同分類の最古要素があった時系列鎖については、当該同分類の最古要素と結線する(ステップS794)。図33の例で言えば、文書要素EA2及びEA3からなる時系列鎖と、文書要素EB2及びEB3からなる時系列鎖については、それぞれ同分類の最古要素EA1とEB1に結線する。
上記時系列鎖のうち、同分類の最古要素がない時系列鎖については、そのうちの最古要素と最も類似度の高い要素を当該クラスタ内から抽出する。そして、当該最も類似度の高い要素から分岐させて、当該同分類要素のない時系列鎖の最古要素と結線する(ステップS795:図33(C))。図33では、文書要素EC2と最も類似度の高いクラスタ内要素が文書要素EB2であった場合に、文書要素EC2を文書要素EB2に結線させた様子を示している。
以上のようにして、クラスタ内配列が決定される。
【0214】
<5−2−2.実施例7の効果>
本実施例7によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、要素定義を大きな時間単位に基づいて行ったために同時刻要素が生じる場合でも、要素定義が分類にも基づいている場合にはその分類情報を加味してクラスタ内配列を決定することで、当該同時刻要素を処理することができる。
【0215】
<5−3.実施例8(時断面分析;TSA)>
時断面分析(Time Slice Analyses)では、分析対象となる複数の文書要素を時間データに基づいて分類した後で、各時間分類内においてクラスタ分析を行う方法である。時間データに基づく分析を、内容データに基づくクラスタ抽出より先に行う点で、上記実施例6及び7とは異なる。時間データに基づく分類と各時間分類内におけるクラスタ分析とが終わった後、時間前後のクラスタに属する要素間での結線を行うことにより、文書相関図が完成する。
【0216】
<5−3−1.文書相関図作成装置の構成>
図34は、実施例8(時断面分析;TSA)の文書相関図作成装置における構成と機能を、図2より更に詳細に説明する図である。図2と共通の部分には同一の符号を付して説明を省略する。
実施例8の文書相関図作成装置は、図2で説明した文書相関図作成装置の各構成に加え、時間スライス分類部25と、時間スライス間結線部75とを備えている。
【0217】
時間スライス分類部25は、時間データ抽出部20で抽出された各文書要素の時間データを、作業結果格納部320から又は直接時間データ抽出部20から取得し、この時間データに基づいて、分析対象である文書集団を一定間隔の時間スライスに分類する。分類の結果は類似度演算部40に直接送られてそこでの処理に用いられ、或いは作業結果格納部320に送られて格納される。類似度演算部40では、各時間スライス内での文書要素の類似度を演算し、樹状図作成部50では、各時間スライスについて樹状図を作成し、クラスタ抽出部70では、各時間スライスからクラスタを抽出する。
【0218】
時間スライス間結線部75は、クラスタ抽出部70で抽出されたクラスタ情報を作業結果格納部320から又は直接クラスタ抽出部70から取得し、このクラスタ情報に基づき、異なる時間スライスに属するクラスタ間の結線を行う。生成された結線データは、直接クラスタ内要素配置部90に送られてそこでの処理に用いられ、或いは作業結果格納部320に送られて格納される。クラスタ内要素配置部90は、クラスタ内要素の配置を行うほか、時間スライス間結線部75の結線データも参照して、文書相関図を完成させる。
【0219】
<5−3−2.文書相関図作成手順>
図35は、実施例8における文書相関図作成過程を説明するフローチャートである。このフローチャートは、本実施例8の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に800を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図36は、実施例8における文書相関図作成過程での樹状図配置例を示す図であり、図35を補足するものである。
【0220】
まず、文書読み出し部10が、入力装置2で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS810)。
【0221】
次に、時間データ抽出部20が、文書読み出しステップS810で読み出された文書要素群から、各要素の時間データを抽出する(ステップS820)。
【0222】
各要素の時間データが抽出されたら、これらを時間データに基づいて分類する(ステップS825)。この処理は、時間スライス分類部25が行う。具体的には、時間軸を一定間隔(例えばΔt=1年)でスライスし、tの区間n≦t<n+1(n=0,1,2,…)内の時間データをもつ文書要素の集合を「n−スライス」とする。ここでtは、0−スライスの前方閾値分だけ原点を移動してある。
時間データに基づく分類は、一定時間間隔でなくとも可変間隔であってもよい。例えば、時間順に累積して一定件数に達したときに時間切断するなどしてもよい。すなわち、分析対象要素が例えば100個あり、これら要素を時間順に並べると古い方からE1,E2,・・・,E100となったとき、例えば20個ごとにE1乃至E20を0−スライス、E21乃至E40を1−スライス、・・・等とする。これにより時間スライス間の要素数の偏在を防止できる。
【0223】
次に、各スライスにつき、グループGを形成する。具体的には、以下のように各スライスからクラスタを抽出する。
【0224】
まず、索引語データ抽出部30が索引語データを抽出し(ステップS830)、類似度演算部40が各スライス内の文書要素間の類似度(又は非類似度)を演算する(ステップS840)。そして各スライスにつき、樹状図作成部50が樹状図を作成する(ステップS850)。更に、切断条件読み出し部60が樹状図切断条件を読み出し(ステップS860)、クラスタ抽出部70が、各スライスからクラスタを抽出する(ステップS870)。
ここで、各n−スライスから抽出されたクラスタをそれぞれグループGと称することにする。各グループGはスライス番号nとグループ番号jを持ち、これをG(n,j)で表す(図36(A))。グループGは複数の文書要素からなる場合もあり、1つの文書要素からなる場合もある。1つの文書要素からなるグループを自明グループと称することにする。
【0225】
樹状図の切断高さαとしては、例えばα*=<d>+δσd(但し−3≦δ≦3。特に−3≦δ≦0が好ましく、−2≦δ≦−1がより好ましい)を用いる。−3≦δとしたのは、δが−3より小さいと、経験上多くのグループが自明グループとなり、−3より小さくしても自明グループという結果に変わりはないからである。自明グループになること自体は悪い結果というわけではないから、−3より小さくすることを妨げるものではない。
樹状図の切断高さαとして、上記α*のように各時間スライスの結合高さdの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いる場合は、時間スライスごとに切断高さが異なることになる。特に、スライス内要素数の少ない(例えば3以下)時間スライスにおいては、1つの要素がスライス内要素の結合高さdの平均値及び偏差の変動に及ぼす影響が大きいので、他の時間スライスとの切断高さの相違が大きくなり過ぎる可能性もある。従って、スライス内要素数の少ない(例えば3以下)時間スライスがある場合には、例えば相関係数で類似度を定義し、結合高さd=a−bcosθとして樹状図を作成し、切断高さαを、a−b≦α≦a−0.5b の範囲内とすることが好ましい。
【0226】
クラスタの抽出は、ステップS830〜S870で説明した樹状図切断によることが好ましいが、それ以外の方法によっても良い。例えば、公知のk−平均法などを用いたクラスタ抽出でもよい。
また例えば、分析対象の文書要素間を結線し、切断半径ρより非類似度の大きい線を消去することでクラスタを抽出する円弧分割法を用いてもよい。この円弧分割法の具体的な一例を説明すると、分析対象要素がM個(E1,E2,・・・,EM)あるとして、まずこれら分析対象の要素間距離rを成分とする距離行列(M行M列)を作成する。次に、要素間距離rの平均値<r>と標準偏差σrを用いて、切断半径ρ*=<r>+δσr(但し−3≦δ≦3。特に−3≦δ≦0が好ましく、−2≦δ≦−1がより好ましい)を決定する。そして、距離行列の成分rのうち閾値ρ*を超える成分を0とした隣接行列(M行M列)を作成する。最後に、隣接行列の列成分からなる隣接ベクトル(r1',r2',・・・,rM')の非ゼロ成分によってクラスタを生成する。
例えば、文書要素E1に関する隣接ベクトルが(0,0.5,0.6,0,・・・,0)である場合(各成分はそれぞれ文書要素E1,E2,E3,E4,・・・,EMとの距離rに基づき算出したもので、省略した成分はすべて0とする。)、この文書要素E1は、文書要素E2及び文書要素E3と同一クラスタとする。
なお、切断半径ρ*において−3≦δとしたのは、上記α*の場合と同様、δが−3より小さいと、経験上多くのグループが自明グループとなり、−3より小さくしても自明グループという結果に変わりはないからである。−3より小さくすることを妨げるものではない。
【0227】
グループGの形成方法は、上記クラスタ分析以外の方法でも良い。例えば、文書要素群が特許分類や企業名などで既に分類されている場合、これを用いてグループ定義を行ってもよい。この場合、要素定義とグループ定義が一致するので、複数文書からなる1つの文書要素で、1つのグループが成立することになる(これも自明グループである)。
【0228】
各n−スライスにつきクラスタ抽出などの方法によりグループGが形成されたら、次に、0−スライスに属するグループ間の結線を決定する(ステップS872)。例えば、樹状図切断で得られた各クラスタを、切断位置より上位の樹状図結線構造により結線する(図36(B))。
【0229】
次に、スライス間の結線を行う。この処理は、時間スライス間結線部75が行う。
【0230】
具体的には、各n−スライス(n≠0)に属するグループG(n,j)の最古要素と最も類似度の高い文書要素(以下「最短距離要素」と称する)を、τ<nなる時間前方グループG(τ,j)の要素から選出する。そして、グループG(n,j)の最古要素と、時間前方グループG(τ,j)から選出された最短距離要素とを結線する(ステップS875:図36(C))。なお、最短距離要素が複数存在する場合は、それらの中で最も古い要素を選出し、グループG(n,j)の最古要素と結線する。
【0231】
或いは、各n−スライス(n≠0)に属するグループG(n,j)と最もグループ間類似度の高い(グループ間距離の短い)グループを、τ<nなる時間前方グループG(τ,j)から選出することとしてもよい。この場合、グループG(n,j)の最古要素と、選出された時間前方グループG(τ,j)の最新要素とを結線する。グループ間距離は、比較されるグループに属する要素間の非類似度(距離)を用いて、重心間距離、全距離平均などにより定義することができる。1つの文書要素で1つのグループが構成される自明グループであれば、要素間の非類似度(要素間距離)に一致する。
【0232】
最後に、配置条件読み出し部80が各グループ内の文書要素配置条件を読み出し(ステップS880)、クラスタ内要素配置部90が、各グループ内の文書要素の配置を決定し(ステップS890)、文書相関図が完成する。なお、図36(C)では、文書要素を各グループ内で並列に配置したが、グループ内でも時間順の配置とするなど他の配置でもよい。
【0233】
図37は、実施例8の方法により生成された文書相関図の第1の具体例及びその生成過程を示す図である。実施例1の図7と同一の公開公報を文書要素とし、各文書要素の出願日を時間データtとし、1年ごとにn=0〜6の時間スライスに分類した。各時間スライスにつき樹状図を作成し、各樹状図を切断高さα*=<d>−σdで切断し、グループを形成した(図37(A))。図37(A)にはn=2の時間スライスについての樹状図切断の様子のみを示し、他の時間スライスについては樹状図切断の結果すべてのグループが要素1つのみの自明群となったので樹状図切断の図示を省略した。各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には各文書要素につき特許出願番号を記入した(図37(B))。
【0234】
図38は、実施例8の方法により生成された文書相関図の第2の具体例及びその生成過程を示す図である。実施例3の図14と同一の16分野の文書要素(マクロ要素)について、実施例8の方法により各文書要素を構成する文書群の出願日平均値を各文書要素の時間データtとし、1年ごとにn=0〜4の時間スライスに分類した。各時間スライスにつき樹状図を作成し、各樹状図を切断高さα*=<d>−σdで切断し、グループを形成した(図38(A))。各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には上記16分野を特徴付けるキーワードを記入した(図38(B))。
【0235】
図39は、実施例8の方法により生成された文書相関図の第3の具体例及びその生成過程を示す図である。実施例1の図7と同一の公開公報を文書要素とし、各文書要素の出願日を時間データtとし、1年ごとにn=0〜6の時間スライスに分類した(ここまでは図37と同様)。各時間スライスにつき、上述の円弧分割法に従って要素間距離rを成分とする距離行列を作成し、これを切断半径ρ*=<r>−σrにより隣接行列に変換して(図39(A))クラスタ分析し、グループを形成した。なお、要素数2以下の時間スライスについては円弧分割法によらず、相関係数で定義した要素間距離が0.5を超えるものを別グループとし、図39(A)での図示を省略した。その後、各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には各文書要素につき特許出願番号を記入した(図39(B))。
【0236】
図40は、実施例8の方法により生成された文書相関図の第4の具体例及びその生成過程を示す図である。実施例3の図14と同一の16分野の文書要素(マクロ要素)について、各文書要素を構成する文書群の出願日平均値を各文書要素の時間データtとし、1年ごとにn=0〜4の時間スライスに分類した(ここまでは図38と同様)。各時間スライスにつき、上述の円弧分割法に従って要素間距離rを成分とする距離行列を作成し、これを切断半径ρ*=<r>−σrにより隣接行列に変換して(図40(A))クラスタ分析し、グループを形成した。なお、要素数2以下の時間スライスについては円弧分割法によらず、相関係数で定義した要素間距離が0.5を超えるものを別グループとし、図40(A)での図示を省略した。その後、各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には上記16分野を特徴付けるキーワードを記入した(図40(B))。
【0237】
<5−3−3.実施例8の効果>
本実施例8によれば、クラスタ抽出と時間データに基づく分類とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、時断面による切り分けを最初に行うので、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。
【技術分野】
【0001】
本発明は、文書相互の関係を示すとともに文書の時間的順序を反映した文書相関図を自動作成する技術に係り、特にこのような文書相関図の作成装置、作成方法及び作成プログラムに関する。
【背景技術】
【0002】
特許文書をはじめ技術的文書やその他の文書は日々新しく生み出され、膨大な数になっている。これらの文書相互の関係をわかり易い形で提示するには、関連する内容ごとにその時間的発展を整理することが望ましい。従って、文書の内容による関連付けと時間順による配列とを両立させた文書相関図を自動作成することが望まれる。
【0003】
日本国特開平11−53387号公報「文書の関連付け方法及びそのシステム」(特許文献1)は、時系列に順序付けられた文書を関連付ける方法を開示している。具体的には、文書間の単語の一致度に基づき文書間の類似度を計算し、前記類似度から、時間制約を用いて類似度行列を作成する。この類似度行列を、所定の閾値以上の類似度を持つ行列要素を1とし残りは0とする隣接行列に変換する。この隣接行列をもとに、文書の関連図である有向グラフを作成する。
【0004】
【特許文献1】特開平11−53387号公報「文書の関連付け方法及びそのシステム」
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、上記特開平11−53387号公報(特許文献1)に記載の技術では、ある文書から類似文書へ、更にその類似文書へと順次辿って行くうちにずれの累積が生じ、やがてはまったく異なる文書に辿り着いてしまう可能性がある。また、ある文書から分岐した複数の流れが最終的に1つの文書に辿り着くことも生じ、分岐の意味が不明確になる可能性もある。従って、上記特開平11−53387号公報(特許文献1)に記載の技術では、分野ごとの時間的発展を適切に表すことができないという問題がある。
【0006】
本発明の課題は、分野ごとの時間的発展を適切に表すことのできる文書相関図作成装置、作成方法及び作成プログラムを提供することである。
【課題を解決するための手段】
【0007】
(1)上記の課題を解決するため、本発明の文書相関図作成装置は、1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段と、前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を備えている。
本発明によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
【0008】
(2)上記の文書相関図作成装置において、前記クラスタリング手段が前記樹状図を切断する前記所定の規則は、連関規則分析により導出されたものであることが望ましい。連関規則分析により導出された切断規則を採用することにより、種々の樹状図に適用可能な(汎用性の高い)切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。
【0009】
(3)この文書相関図作成装置において、前記所定の規則は、前記樹状図の形状パラメータに基づき導出されたものであることが望ましい。
樹状図の形状パラメータに基づいて導出された切断規則を採用することにより、樹状図形状に即した適切な切断位置を決定可能な、信頼性の高い切断規則を用いることができる。
また、解析対象樹状図の形状パラメータを読み取り、これに連関規則を適用することで切断位置を決定できるので、切断位置の決定を少ない計算量で済ませることができる。
樹状図を切断する回数は1回のみでも良いし(固定BC法;後述)、1回の切断で得られた親クラスタの形状パラメータに基づいて切断規則を再度導出して当該親クラスタを切断し、子孫クラスタを抽出するようにしても良い(可変BC法;後述)。可変BC法によれば、要素数の多い親クラスタが生成されても、これを更に子孫クラスタに分離することができる。
【0010】
(4)上記の各文書相関図作成装置において、前記所定の規則は、前記樹状図の各ノードで結合される複数の文書要素のベクトル次元数に基づき導出されたものであってもよい。
ベクトル次元数を加味して導出された切断規則を採用することにより、より適切な分岐を得ることができる。
上記複数の文書要素のベクトル次元数は、当該複数の文書要素のベクトル総和の次元数から、これら文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分の次元数を除いた次元数であることが望ましい。これにより、より適切な切断規則を用いることができる。
【0011】
(5)この文書相関図作成装置において、前記クラスタリング手段は、前記各ノードで結合される複数の文書要素のベクトル次元数が一定値以上であるか否かを前記ノードごとに判定し、前記判定の結果に基づいて前記一定値以上のノードを個別に切断することが望ましい。ノードごとに切断基準の判定を行い、判定結果に基づいて各ノードを個別に切断することにより、より適切な分岐を得ることができる。
【0012】
(6)上記の文書相関図作成装置において、前記クラスタリング手段は、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書要素の内容データに基づいて前記親クラスタに属する文書要素群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出することが望ましい。
親クラスタの抽出後に、各親クラスタを再分析して作成した部分樹状図により子クラスタを抽出することにより、子クラスタの誤分類を改善し適切な分類を得ることができる。
【0013】
(7)この文書相関図作成装置において、前記クラスタリング手段は、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書要素ベクトルから除去することが望ましい。
親クラスタの抽出後に、各親クラスタに属する文書要素間での偏差が小さい値をとるベクトル成分を除去することにより、親クラスタの抽出観点とは異なった観点から子クラスタの抽出を行い、適切な分類を得ることができる。
文書要素のベクトル成分は、例えば、当該文書内の個々の索引語についての、全文書IDF重み付けTF値(TF*IDF(P)値;後述)である。偏差が小さいか否かの判定は、例えば、親クラスタに属するすべての文書要素について、各索引語のTF*IDF(P)値を算出し、親クラスタに属する文書要素間でのこれらの平均に対する標準偏差の比が所定範囲内に収まるか否かによることができる。
【0014】
(8)上記の文書相関図作成装置において、前記樹状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記樹状図を作成し、前記クラスタリング手段は、前記樹状図の2箇所以上の所定の高さで切断して前記クラスタを抽出することが望ましい。
予め決められた複数の切断高さで切断することにより、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
切断後の結線構造については、各切断位置で切断される枝線の数に基づいて分岐構造を決定することが望ましい。これにより、樹状図の階層構造を程よく簡略化しつつ、当初の樹状図の階層構造を反映させた文書相関図を作成することができる。更に、複数の切断位置での切断により親子クラスタを生成する際に、親クラスタに属する文書要素の部分樹状図を再作成しなくても子クラスタを生成できるので、少ない計算手数で親子クラスタを生成することができる。
【0015】
(9)上記の各文書相関図作成装置において、前記樹状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記樹状図を作成し、前記クラスタリング手段は、前記樹状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で切断して前記クラスタを抽出することが望ましい。
結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて切断するので、様々な樹状図形状に幅広く対応でき、複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数は、特に、少なくとも平均値を変数として含む関数であることが好ましく、平均値と偏差の両方を変数として含む関数であることがより好ましい。例えば、結合高さdの平均値<d>及び標準偏差σdを用いて、<d>+δσd(但し−3≦δ≦3)とするのが好ましい。なお、結合高さdの偏差を変数として含み、且つ結合高さdの平均値<d>を変数として含まない関数としては、例えば、結合高さdの標準偏差σdと、中点距離m(後述)とを使って、m+εσd(但し−3≦ε≦3)とすることが考えられる。また、偏差は標準偏差σdに限らず平均偏差でも良い。
【0016】
(10)上記の各文書相関図作成装置において、前記樹状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記樹状図を作成し、前記クラスタリング手段は、前記樹状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該樹状図を切断して親クラスタを抽出し、当該親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該親クラスタを切断して子孫クラスタを抽出することが望ましい。
親クラスタの抽出を、樹状図に属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行い、子クラスタの抽出を、各親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、要素数Nが多くても(例えばN>20)適切な親子クラスタを得ることができる。また、クラスタの抽出を文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、樹状図に属する文書要素群の類似度が高い場合など様々な樹状図形状に幅広く対応でき、適切な親子クラスタを得ることができる。
結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数は、特に、少なくとも平均値を変数として含む関数であることが好ましく、平均値と偏差の両方を変数として含む関数であることがより好ましい。例えば、結合高さdの平均値<d>及び標準偏差σdを用いて、<d>+δσd(但し−3≦δ≦3)とするのが好ましい。なお、結合高さdの偏差を変数として含み、且つ結合高さdの平均値<d>を変数として含まない関数としては、例えば、結合高さdの標準偏差σdと、中点距離m(後述)とを使って、m+εσd(但し−3≦ε≦3)とすることが考えられる。また、偏差は標準偏差σdに限らず平均偏差でも良い。
【0017】
(11)上記の各文書相関図作成装置において、前記文書要素の内容データに基づいて、特定の属性を有する文書要素に対して他の文書要素と区別する表示を付加する区別表示付加手段を更に備えていても良い。
これにより、特定の属性を有する文書要素が、他の文書要素との関係で内容的及び時間的にどのように位置づけられるのかを知ることができる。
更に、時間軸を表示し、その時間軸に合わせて各文書要素を配置することが望ましい。これにより、当該技術分野の発展系統上における自社技術の位置付けを把握することができる。
また、区別表示のために用いる内容データとしては、例えば特許文書の出願人のデータを用いる。これによってある出願人による特許文書群が、他社との関係でどのように位置付けられるのかを知ることができる。
例えば、類似度に基づいて比較的多い件数の類似文書群を抽出し、当該類似文書群について分析した場合には、比較的多方面の技術分野にわたる類似文書群の中での自社の位置付けを知ることができる。従って、上記の効果に加え、自社があまり目をつけていなかった類似技術を発見でき、自社技術の他分野への適用の可能性を見出すことができるとともに、他社の技術が内容的及び時間的にどのように発展してきたのかを知ることもできる。
更に上記比較的多い件数の類似文書群を母集団として再度類似度を算出し、比較的少ない件数の類似文書群について分析した場合には、更に絞り込んだ技術分野での、特に他社との競合関係のより詳細な比較ができる。
【0018】
(12)上記の各文書相関図作成装置において、前記クラスタ内配列手段は、前記クラスタ内に属する文書要素群で構成される樹状図において、結合された文書要素のどちらがより古いかについて、最下位ノードから順に比較を行い、下位ノードでより古いと判定された文書要素を上位ノードでの比較対象として、最上位ノードまで比較して結果を記録し、最上位ノードでの比較の結果決定された最古要素を当該クラスタの先頭に配置し、当該最古要素と直接比較された文書要素の数だけ、当該最古要素からの分岐を作成し、これら比較された文書要素を上記各分岐に接続し、配列を決定することが望ましい。
これにより、クラスタ内配列を決める際に、時間順による配列を確実に実現するとともに、当該クラスタ内の分岐構造もある程度反映させることができる。
上記最古要素と直接比較された文書要素(最古要素の対戦相手)が、より下位のノードで他の文書要素と比較されていた場合は、上記最古要素の対戦相手を上記各分岐における最古要素として同様の処理を繰り返すことが望ましい。
【0019】
(13)上記の各文書相関図作成装置において、前記クラスタ内配列手段は、当該クラスタ内の最古要素を1つ又は複数抽出して先頭に配置し、前記最古要素を除いた残りの文書要素について、これら文書要素を定義する分類ごとに時間順配列を形成し、前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在する時間順配列については、当該同分類の最古要素と結線し、前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在しない時間順配列については、当該時間順配列のうちの最古要素と最も類似度合いの高い文書要素を当該クラスタ内から選出し、当該最も類似度合いの高い文書要素と結線して、当該クラスタ内の配列を決定することが望ましい。
このように、同時刻要素が生じる場合でも、要素定義が分類に基づく場合にはその分類情報を加味してクラスタ内配列を決定することで、当該同時刻要素を処理することができる。
【0020】
(14)上記の各文書相関図作成装置において、時間スライス分類手段と、時間スライス間結線手段とを更に備え、前記時間スライス分類手段は、前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類し、前記樹状図作成手段は、各時間スライスに属する文書要素群の相関を示す樹状図を作成し、前記クラスタリング手段は、前記各時間スライスの樹状図を所定の規則に基づき切断してクラスタを抽出し、前記時間スライス間結線手段は、異なる時間スライスに属するクラスタ同士を結線することが望ましい。
このように時間スライスによる切り分けを最初に行うことにより、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。
上記時間スライス間結線手段によるクラスタ同士の結線は、クラスタ間の類似度合いを群間距離、最古要素と時間前方群の最短距離要素の要素間距離などにより計算し、類似度合いの高いクラスタ同士を結線することが望ましい。
また、上記時間スライス間結線手段によるクラスタ同士の結線は、結線される双方のクラスタに属する要素間(時間後方群の最古要素と時間前方群の最新要素との間、或いは時間後方群の最古要素と時間前方群の最短距離要素との間など)での結線とすることが望ましい。
【0021】
(15)また本発明の他の文書相関図作成装置は、1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類する時間スライス分類手段と、前記各時間スライスに属する各文書要素の内容データに基づき、前記各時間スライスからクラスタを抽出するクラスタリング手段と、異なる時間スライスに属するクラスタ同士を結線する時間スライス間結線手段と、を備えている。
このように、クラスタ抽出と時間データに基づく分類とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、時間スライスによる切り分けを最初に行うことにより、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。
上記クラスタリング手段によるクラスタの抽出は、樹状図切断の方法によるのが好ましいが、これに限られるものではなく、公知のk−平均法などを用いたクラスタ抽出でもよい。
また、各クラスタ内における文書要素の配列は、文書要素の時間データに基づいて行っても良いし、時間データに基づかずに例えば単なる並列配置としてもよい。
上記時間スライス間結線手段によるクラスタ同士の結線は、クラスタ間の類似度合いを群間距離、最古要素と時間前方群の最短距離要素の要素間距離などにより計算し、類似度合いの高いクラスタ同士を結線することが望ましい。
また、上記時間スライス間結線手段によるクラスタ同士の結線は、結線される双方のクラスタに属する要素間(時間後方群の最古要素と時間前方群の最新要素との間、或いは時間後方群の最古要素と時間前方群の最短距離要素との間など)での結線とすることが望ましい。
【0022】
(16)また本発明は、上記各装置によって実行される方法と同じ工程を備えた文書相関図作成方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実行させることのできる文書相関図作成プログラムである。このプログラムは、FD、CDROM、DVDなどの記録媒体に記録されたものでもよく、ネットワークで送受信されるものでもよい。
【発明の効果】
【0023】
本発明によれば、分野ごとの時間的発展を適切に表す文書相関図を自動作成することができる。
【図面の簡単な説明】
【0024】
【図1】本発明の一実施形態に係る文書相関図作成装置のハードウェア構成を示す図。
【図2】上記の文書相関図作成装置における構成と機能を、特に処理装置1と記録装置3につき詳細に説明する図。
【図3】上記の文書相関図作成装置における処理装置1の動作手順を示すフローチャート。
【図4】実施例1(均衡切断法;BC法)で行う連関規則分析に用いるパラメータの説明図。
【図5】実施例1におけるクラスタ抽出過程を説明するフローチャート。
【図6】実施例1におけるクラスタ抽出過程での樹状図配置例を示す図。
【図7】実施例1の方法により生成された文書相関図の具体例を示す図。
【図8】実施例2(余次元降下法;CR法)におけるクラスタ抽出過程を説明するフローチャート。
【図9】実施例2におけるクラスタ抽出過程での樹状図配置例を示す図。
【図10】実施例2の方法により生成された文書相関図の具体例を示す図。
【図11】実施例3(細胞分裂法;CD法)におけるクラスタ抽出過程を説明するフローチャート。
【図12】実施例3におけるクラスタ抽出過程での樹状図配置例を示す図。
【図13】実施例3の方法により生成された文書相関図の具体例を示す図。
【図14】実施例3の方法により生成された文書相関図の他の具体例を示す図。
【図15】実施例4(段階的切断法;SC法)におけるクラスタ抽出過程を説明するフローチャート。
【図16】実施例4におけるクラスタ抽出過程での樹状図配置例を示す図。
【図17】実施例4の方法により生成された文書相関図(標準化あり)の具体例を示す図。
【図18】実施例4の方法により生成された文書相関図(標準化なし)の具体例を示す図。
【図19】実施例5(可変複合法;FC法)におけるクラスタ抽出過程を説明するフローチャート。
【図20】実施例5におけるクラスタ抽出過程での樹状図配置例の一部を示す図。
【図21】実施例5の方法により生成された文書相関図(g固定)の具体例を示す図。
【図22】実施例5の方法により生成された文書相関図(g非設定)の具体例を示す図。
【図23】実施例5の方法により生成された文書相関図の他の具体例を示す図。
【図24】実施例5の変形例1による方法で生成された文書相関図の具体例を示す図。
【図25】実施例5の変形例2による文書相関図の作成過程を示す図。
【図26】実施例5の変形例2による方法で生成された文書相関図の具体例(文書3000件)を示す図。
【図27】実施例5の変形例2による方法で生成された文書相関図の具体例(文書300件)を示す図。
【図28】図26の文書相関図における別の表示例の一部を示す図。
【図29】図26の文書相関図における更に別の表示例の一部を示す図。
【図30】実施例6(一本釣り配列;PLA)におけるクラスタ内配列過程を説明するフローチャート。
【図31】実施例6におけるクラスタ内配列過程での樹状図配置例を示す図。
【図32】実施例7(群時系順序;GTO)におけるクラスタ内配列過程を説明するフローチャート。
【図33】実施例7におけるクラスタ内配列過程での樹状図配置例の一部を示す図。
【図34】実施例8(時断面分析;TSA)の文書相関図作成装置における構成と機能を、更に詳細に説明する図。
【図35】実施例8における文書相関図作成過程を説明するフローチャート。
【図36】実施例8における文書相関図作成過程での樹状図配置例を示す図。
【図37】実施例8の方法により生成された文書相関図の第1の具体例及びその生成過程を示す図。
【図38】実施例8の方法により生成された文書相関図の第2の具体例及びその生成過程を示す図。
【図39】実施例8の方法により生成された文書相関図の第3の具体例及びその生成過程を示す図。
【図40】実施例8の方法により生成された文書相関図の第4の具体例及びその生成過程を示す図。
【符号の説明】
【0025】
1:処理装置、2:入力装置、3:記録装置、4:出力装置、
20:時間データ抽出部(抽出手段)、25:時間スライス分類部(時間スライス分類手段)、30:索引語データ抽出部(抽出手段)、50:樹状図作成部(樹状図作成手段)、70:クラスタ抽出部(クラスタリング手段)、75:時間スライス間結線部(時間スライス間結線手段)、90:クラスタ内要素配置部(クラスタ内配列手段)、
E:文書要素、α:切断高さ、c:ノード(結節点)、n:スライス番号、G:グループ
【発明を実施するための最良の形態】
【0026】
以下、本発明の実施の形態を、図面を参照して詳細に説明する。
【0027】
<1.語彙の説明等>
本明細書の中で使用する語彙を説明する。
文書要素E又はE1〜EN: 分析対象となる文書集団を構成し、本発明による分析の単位となる個々の要素。各文書要素は1つ又は複数の文書からなる。文書要素群というときは、複数の文書要素を指すものとする。
類似度合い: 比較される文書要素と文書要素、文書要素と文書要素群、又は文書要素群と文書要素群の、類似度又は非類似度。比較される文書要素又は文書要素群をベクトル表現し、ベクトル間の余弦乃至Tanimoto相関(類似度の一例)などベクトル成分間の積の関数を用いて表現する方法、ベクトル間の距離(非類似度の一例)などベクトル成分間の差の関数を用いて表現する方法がある。
樹状図: 分析対象である文書集団を構成する各文書要素を樹状に結線した図。
デンドログラム: 階層的クラスタ分析によって生成される樹状図。作成原理を簡単に説明すると、まず、分析対象である文書集団を構成する各文書要素間の非類似度(類似度)に基づいて、非類似度が最小(類似度が最大)の文書要素同士を結合させて結合体を生成する。更に結合体と他の文書要素、或いは結合体と結合体を、これらの非類似度の小さい順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現される。
索引語: 文書の全部或いは一部から切り出される単語。単語の切り出し方に特段の制約はなく、従来から知られている方法や、例えば日本語文書であれば市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でもよいし、又索引語の辞書(シソーラス)のデータベースを事前に保持し該データベースから得られる索引語を利用する方法でもよい。
【0028】
以降の説明を簡素にするため、略号を決める。
d : 樹状図における文書要素と文書要素、文書要素群と文書要素群、或いは文書要素と文書要素群、の結合位置の高さ(結合距離)。類似度を文書ベクトル(又は文書群ベクトル)間の余弦cosθで定義した場合、d=a−bcosθ(例えばa=b=1)とすることが望ましい。
α : 樹状図の切断位置の高さ。
α*: <d>+δσd(但し−3≦δ≦3)で算出される樹状図の切断高さ。ここで<d>は当該樹状図における全結合高dの平均値であり、σdは当該樹状図における全結合高dの標準偏差である。
N : 分析対象の文書要素数。
t : 文書要素の時間データ。例えば特許文献であれば出願日、公開日、設定登録日、優先権主張日などの何れかとすることができる。特許文献の出願番号、公開番号等が出願順、公開順等に従っているならば、これら出願番号、公開番号等を時間データとすることもできる。文書要素が複数の文書からなる場合は、文書要素を構成する各文書の時間データの平均値、中央値などを求め、これを文書要素の時間データとする。
【0029】
TF(E): 文書要素Eの索引語による、当該文書要素Eの中での出現頻度(索引語頻度;Term Frequency)。
DF(P): 文書要素Eの索引語による、母集団である全文書Pの中での文書頻度(Document Frequency)。文書頻度とは、ある索引語で、複数文書から検索したときのヒット文書数をいう。母集団である全文書Pとしては、特許文献についての分析であれば、例えば日本国内で過去10年間に発行されたすべての公開特許公報又は登録実用新案公報約400万件を用いる。
TF*IDF(P): TF(E)と、"DF(P)の逆数×母集団である全文書数"の対数との積。文書の索引語ごとに演算される。なお、文書要素Eが複数の文書からなる場合には、GF(E)*IDF(P)と等価である。
GF(E): 文書要素Eが複数の文書からなる場合に、当該文書要素Eを構成する各文書の索引語による、当該文書要素Eの中での出現頻度(大域的頻度;Global Frequency)。
DF(E): 文書要素Eが複数の文書からなる場合に、当該文書要素Eを構成する各文書の索引語による、当該文書要素Eの中での文書頻度。
GFIDF(E): 文書要素Eが複数の文書からなる場合に、GF(E)/DF(E)。文書の索引語ごとに演算される。
【0030】
<2.文書相関図作成装置の構成>
図1は本発明の一実施形態に係る文書相関図作成装置のハードウェア構成を示す図である。同図に示すように、本実施形態の文書相関図作成装置は、CPU(中央演算装置)およびメモリ(記録装置)などから構成される処理装置1、キーボード(手入力器具)などの入力手段である入力装置2、文書データや条件や処理装置1による作業結果などを格納する記録手段である記録装置3、および作成された文書相関図を表示又は印刷等する出力手段である出力装置4から構成される。
【0031】
図2は上記の文書相関図作成装置における構成と機能を、特に処理装置1と記録装置3につき詳細に説明する図である。
処理装置1は、文書読み出し部10、時間データ抽出部20、索引語データ抽出部30、類似度演算部40、樹状図作成部50、切断条件読み出し部60、クラスタ抽出部70、配置条件読み出し部80、クラスタ内要素配置部90、を備えている。
記録装置3は、条件記録部310、作業結果格納部320、文書格納部330などから構成される。文書格納部330は外部データベースや内部データベースを含んでいる。外部データベースとは、例えば日本国特許庁でサービスしている特許電子図書館のIPDLや、株式会社パトリスでサービスしているPATOLISなどの文書データベースを意味する。又内部データベースとは、販売されている例えば特許JP−ROMなどのデータを自前で格納したデータベース、文書を格納したFD(フレキシブルディスク)、CD(コンパクトディスク)ROM、MO(光磁気ディスク)、DVD(デジタルビデオディスク)などの媒体から読み出す装置、紙などに出力された或いは手書きされた文書を読み込むOCR(光学的情報読み取り装置)などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。
【0032】
図1及び図2において、処理装置1、入力装置2、記録装置3、および出力装置4の間で信号やデータをやり取りする通信手段としては、USB(ユニバーサルシステムバス)ケーブルなどで直接接続してもよいし、LAN(ローカルエリヤネットワーク)などのネットワークを介して送受信してもよいし、文書を格納したFD、CDROM、MO、DVDなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。
【0033】
<2−1.入力装置2の詳細>
次に、図2により上記の文書相関図作成装置における構成と機能を詳しく説明する。
入力装置2では、文書要素群の読み出し条件、樹状図の作成条件、樹状図の切断によるクラスタの抽出条件、クラスタ内要素の配置条件などの入力を受け付ける。これら入力された条件は、記録装置3の条件記録部310へ送られて格納される。
【0034】
<2−2.処理装置1の詳細>
文書読み出し部10は、入力装置2で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す。読み出された文書要素群のデータは、時間データ抽出部20及び索引語データ抽出部30に直接送られて各々での処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
なお、文書読み出し部10から時間データ抽出部20及び索引語データ抽出部30或いは作業結果格納部320に送られるデータは、読み出された文書要素群の時間データ及び内容データを含むすべてのデータであっても良い。また、これら文書要素群の各々を特定する書誌データ(例えば特許文献であれば出願番号又は公開番号など)のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部330から各文書要素のデータを読み出せばよい。
【0035】
時間データ抽出部20は、文書読み出し部10で読み出された文書要素群から、各要素の時間データを抽出する。抽出された時間データは、クラスタ内要素配置部90に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
【0036】
索引語データ抽出部30は、文書読み出し部10で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する。各文書要素から抽出された索引語データは、類似度演算部40に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
【0037】
類似度演算部40は、索引語データ抽出部30で抽出された各文書要素の索引語データに基づき、文書要素間の類似度(又は非類似度)を演算する。この類似度の演算は、入力装置2から入力された条件に基づき、類似度算出のための類似度算出モジュールを条件記録部310から呼び出してきて実行する。算出された類似度は、樹状図作成部50に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
【0038】
樹状図作成部50は、入力装置2で入力される樹状図作成条件に従って、類似度演算部40で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する。作成された樹状図は、記録装置3の作業結果格納部320に送られて格納される。樹状図の格納形式は、例えば二次元座標面上に配置される各文書要素の座標値及びこれらを結ぶ個々の連結線の始点及び終点の座標値のデータ、或いは各文書要素の結合の組合せ及び結合の位置を示すデータという形をとることができる。
【0039】
切断条件読み出し部60は、入力装置2で入力され記録装置3の条件記録部310に記録された樹状図切断条件を読み出す。読み出された切断条件はクラスタ抽出部70に送られる。
【0040】
クラスタ抽出部70は、樹状図作成部50で作成された樹状図を記録装置3の作業結果格納部320から読み出すとともに、切断条件読み出し部60で読み出された切断条件に基づいて当該樹状図を切断し、クラスタを抽出する。抽出されたクラスタに関するデータは、記録装置3の作業結果格納部320に送られて格納される。クラスタのデータは、例えばクラスタの各々に属する文書要素を特定する情報と、クラスタ同士の結線情報とを含んでいる。
【0041】
配置条件読み出し部80は、入力装置2で入力され記録装置3の条件記録部310に記録されたクラスタ内の文書要素配置条件を読み出す。読み出された配置条件はクラスタ内要素配置部90に送られる。
【0042】
クラスタ内要素配置部90は、クラスタ抽出部70で抽出されたクラスタのデータを記録装置3の作業結果格納部320から読み出すとともに、配置条件読み出し部80で読み出された文書要素配置条件に基づいて各クラスタ内の文書要素の配置を決定する。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。この文書相関図は、記録装置3の作業結果格納部320に送られて格納され、必要に応じて出力装置4にて出力される。
【0043】
<2−3.記録装置3の詳細>
図2の記録装置3において、条件記録部310は、入力装置2から得られた条件などの情報を記録し、処理装置1の要求に基づき、必要なデータを送る。作業結果格納部320は、処理装置1における各構成要素の作業結果を格納し、処理装置1の要求に基づき、必要なデータを送る。文書格納部330は、入力装置2或いは処理装置1の要求に基づき、外部データベース或いは内部データベースから得た、必要な文書データを格納し、提供する。
【0044】
<2−4.出力装置4の詳細>
図2の出力装置4は、処理装置1のクラスタ内要素配置部90で作成され記録装置3の作業結果格納部320に格納された文書相関図を出力する。出力の形態としては、例えばディスプレイ装置への表示、紙などの印刷媒体への印刷、或いは通信手段を介してのネットワーク上のコンピュータ装置への送信などが挙げられる。
【0045】
<3.文書相関図作成装置の作用>
<3−1.文書相関図作成装置の動作>
図3は上記の文書相関図作成装置における処理装置1の動作手順を示すフローチャートである。
【0046】
まず、文書読み出し部10において、入力装置2で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS10)。分析対象となる文書要素群は、例えば、全特許文書のうち、ある特許文書との類似度降順(非類似度昇順)に選出された文書群としても良いし、特定のキーワード(国際特許分類、技術用語、出願人、発明者など)などあるテーマに沿った検索によって選出された文書群としても良いし、他の方法で選出しても良い。
【0047】
次に、時間データ抽出部20において、文書読み出しステップS10で読み出された文書要素群から、各要素の時間データを抽出する(ステップS20)。
【0048】
次に、索引語データ抽出部30において、文書読み出しステップS10で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する(ステップS30)。各文書要素の索引語データは、例えば、文書要素Eから抽出された索引語の各々についての当該文書要素内における出現回数(索引語頻度TF(E)。文書要素Eがそれぞれ複数の文書からなる場合は大域的頻度GF(E))の関数値を成分とする、多次元ベクトルで表現することができる。なお、文書要素の内容データとしては、索引語データに限らず、国際特許分類(IPC)、出願人、発明者等のデータも用いることができる。
【0049】
次に、類似度演算部40において、索引語データ抽出ステップS30で抽出された各文書要素の索引語データに基づき、文書要素間の類似度(又は非類似度)を演算する(ステップS40)。
【0050】
類似度演算の具体的な一例としてベクトル空間法を用いたものを説明すると以下の通りである。今、分析対象である文書集団を構成し分析単位となる個々の文書要素をE1〜ENとする。これら文書要素E1〜ENに対する演算の結果、文書要素E1から切り出された索引語を「赤」「青」「黄」とする。また、文書要素E2から切り出された索引語を「赤」「白」とする。その場合、各索引語につき、文書要素E1での索引語頻度TF(E1)、文書要素E2での索引語頻度TF(E2)、母集団である全文書P(全文書Pの文書数を400とする。)での文書頻度DF(P)が、それぞれ次の通りであるとする。
【表1】
【0051】
TF*IDF(P)を各文書の索引語毎に計算して、各文書要素のベクトル表現を算出する。この結果は文書要素ベクトルE1及びE2について、次のようになる。
【表2】
【0052】
このベクトルE1及びE2間の余弦(又は距離)の関数を取れば、文書要素ベクトルE1及びE2間の類似度(又は非類似度)が得られる。なお、ベクトル間の余弦(類似度)は値が大きいほど類似度合いが高いことを意味し、ベクトル間の距離(非類似度)は値が小さいほど類似度合いが高いことを意味する。
【0053】
各文書要素を表すベクトルの成分としては、文書要素Eがそれぞれ1つの文書からなる場合(ミクロ要素)には、例えば索引語のTF*IDF(P)を用いるのが好ましい。また、文書要素Eがそれぞれ複数の文書からなる場合(マクロ要素)には、各文書要素を表す文書群ベクトルの成分としては、例えばGFIDF(E)或いはGF(E)*IDF(P)を用いることが好ましい。また、これらの関数など他の指標を用いて文書要素ベクトルの成分としてもよい。
また、ベクトル空間法に限らず、他の方法を用いて類似度を定義しても良い。
【0054】
次に、樹状図作成部50において、入力装置2で入力される樹状図作成条件に従って、類似度演算ステップS40で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する(ステップS50)。樹状図としては、文書要素などの間の非類似度(又は類似度)を結合位置の高さ(結合距離)に反映させたデンドログラムを作成することが望ましい。例えば、文書要素間の結合高さdを、d=1−cosθ(cosθは、例えば、文書要素ベクトル間の余弦又は標準化処理した文書要素ベクトル間の余弦)とする。デンドログラムの具体的な作成方法としては、公知のWard法などを用いる。
【0055】
次に、切断条件読み出し部60において、入力装置2で入力され記録装置3の条件記録部310に記録された樹状図切断条件を読み出す(ステップS60)。
【0056】
次に、クラスタ抽出部70において、切断条件読み出しステップS60で読み出された切断条件に基づき、樹状図作成ステップS50で作成された樹状図を切断し、クラスタを抽出する(ステップS70)。
【0057】
次に、配置条件読み出し部80において、入力装置2で入力され記録装置3の条件記録部310に記録されたクラスタ内の文書要素配置条件を読み出す(ステップS80)。
【0058】
次に、クラスタ内要素配置部90において、配置条件読み出しステップS80で読み出された文書要素配置条件に基づき、クラスタ抽出ステップS70で抽出されたクラスタ内の文書要素の配置を決定する(ステップS90)。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。なお、配置条件はすべてのクラスタに共通として良い。よって、あるクラスタのためにステップS80を一度実行すれば、他のクラスタのために再度実行する必要はない。
【0059】
<3−2.文書相関図作成装置の効果>
本実施形態によれば、分野ごとの時間的発展を適切に表す文書相関図を自動作成することができるので、例えば特許文書であれば、技術の分岐の源となる発明、基本特許、関連分野などの発掘に役立つ文書相関図を容易に作成することができる。
【0060】
また、ある技術が、予想もしなかった技術からの分岐であったことや、或いは別な技術へ応用されていったことなどが「所要時間も含めて」読み取れるので、製品開発へのヒントを提供することができる。また、新規発明までに要する時間、出願件数の規模の比から開発コストを試算するといったことも可能になる。
【0061】
また、集団内(自社内、他社内、業界内)の特許文書群を対象として文書相関図を作成することにより、当該集団内の特許構造を整理して理解し、特許戦略への活用を図ることができる。
【0062】
また、製品ごとに抽出した特許文書群を対象として文書相関図を作成することにより、どの品目がどの技術と結びついて出現してきたかを分析することができる。また、発明者ごとに抽出した特許文書群を対象として文書相関図を作成することにより、技術が誰から誰へと受け継がれていったかを分析することもできる。
【0063】
<4.クラスタ抽出の実施例>
次に、上記の文書相関図作成装置による文書相関図の種々の作成方法について、具体的に説明する。まずは樹状図を切断しクラスタを抽出する過程(主として図3のステップS70に相当)に関する実施例1〜5について説明し、続いて時間データに基づき配列を決定する過程(主として図3のステップS90などに相当)に関する実施例6〜8について説明する。クラスタ抽出過程に関する実施例1〜5と、時間配列過程に関する実施例6〜8とは、互いに任意の組合せが可能である。
なお、実施例1〜5及び実施例6〜8に付した「均衡切断法(BC法)」「余次元降下法(CR法)」などの名称は、本発明を説明するために便宜的に与えるものである。
【0064】
<4−1.実施例1(均衡切断法;BC法)>
均衡切断法(Balance Cutting Method)では、樹状図の切断位置の決定に連関規則を用いる。つまり、予め既存の教師図(時間データに基づいて配置した文書相関図を与えるための理想切断位置が既知である樹状図)を多数分析し、理想的な切断位置がなるべく選出される規則(連関規則)を、種々の樹状図パラメータに対する条件式として求めておく。この分析を連関規則分析という。こうして求めておいた連関規則を、解析対象の樹状図に適用して切断位置を決定する。
【0065】
<4−1−1.連関規則分析の説明>
二つの事象A、Bに対し、それぞれが独立に発生する確率をP(A)、P(B)とする。事象A(前提事象)が発生した後で事象B(帰結事象)が発生する場合、その確率(条件付確率)をP(B|A)と記し、P(A)を「前提確率」、P(B)を「事前確率」、P(B|A)を「事後確率」と呼ぶ。
【0066】
次の(1)〜(3)の基準によって選出された二つの事象のセットを「連関規則」A⇒Bと呼び、「事象Aが発生すれば、(ある値以上の確率で)事象Bが発生する」という規則性を意味する。
(1)前提確率P(A)が高い
(2)事前確率P(B)が低く事後確率P(B|A)が高い
(3)従って、前提確率P(A)と事後確率P(B|A)が共に高い
【0067】
確率が「高い」とは、ある閾値以上の値をとることを意味する。例えば、事後確率P(B|A)に対する閾値は「信頼度」(confidence)と呼ばれ、例えば60〜70%程度に設定される。また例えば、同時確率(P(A∩B)=P(A)P(B|A))に対する閾値は「サポート」(support)と呼ばれ、例えば60%程度に設定される。
【0068】
連関規則を算出するアルゴリズムは公知であるが、これを本発明における樹状図切断位置の決定のための連関規則の導出に適用する場合について、次の4−1−2.4−1−3.にて説明する。
【0069】
<4−1−2.パラメータの読み取り>
図4は、実施例1で行う連関規則分析に用いるパラメータの説明図である。連関規則の導出のためには、まず、教師図のパラメータを読み取る。例えば、教師図の幾何的形状から以下のパラメータを読み取る。なお、解析対象樹状図に連関規則を適用する際には、当該解析対象樹状図についても、同様のパラメータを読み取ることが必要となる。
【0070】
中点距離m: 二体結合(初期結合)の高さをh0とし、二体結合より上段の結合についての下段との差分Δhiを、Δhi=hi−h(i−1)とする。但し添え字iは結合レベル(初期結合を0とし1段上がるごとに1を加えた数)である。Δh1/h0≧1 又は Δhj/Δh(j−1)≧2(jは結合レベルiのうち2以上の数)を満たすΔhiが樹状図全体でp個あった場合、各Δhiを定める上端下端の中点値mk(k=1,2,…,p)の平均
m=(1/p)×Σmk
を中点距離とする。
【0071】
土台<h0>: 二体結合の高さh0の平均値。すなわち、二体結合が樹状図全体でq個あった場合、
<h0>=(1/q)×Σh0
【0072】
最終結合高さH: 最終結合距離
樹状図面積S(図示せず): 最終結合高さH×全要素数N
クラスタ面積s(図示せず): 全要素の最初の結合高さの和
【0073】
切断高さ候補α0、α1、α2(図示せず):
α0=m
α1=m−<h0>/2
α2=(Σmk+Σh0)/(p+q)
【0074】
なお、連関規則分析に用いるパラメータとしては、上記の他にも種々のもの、例えば結合高さdの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いることもできる。例えば、上記中点距離mの代わりに、結合高さ平均値<d>を用いることもできるし、上記土台<h0>の代わりに、結合高さの平均値<d>と標準偏差σdを用いて<d>−σd或いは<d>−2σdを用いることもできる。また、切断高さ候補として、α3=<d>或いはα3=<d>+0.5σdを追加しても良い。
【0075】
<4−1−3.連関規則の導出例>
連関規則の導出例として、教師図28件を基に導出した例を説明する。
ここでは、教師図が少な目であるのでサポート(同時確率P(A∩B)=P(A)P(B|A)の閾値)は考慮に入れなかった。代わりに、「前提事象A発生後の帰結事象Bの発生数/前提事象A発生の有無で絞る前の事象Bの発生数」を『保存率』と命名し、また(P(B|A)−P(B))/P(B)を確率の『伸び率』と命名し、これらを判定に用いた。これら保存率及び伸び率は、事前確率に対する事後確率の減少度の小ささを表すものということができる。
判定の優先順位として第一に信頼度(事後確率P(B|A)に対する閾値=65%)、第二に保存率(60%)、第三に伸び率(60%)を用いることを原則とした。
【0076】
(i)自明解の検出
三つの切断高さ候補α0、α1、α2のうち、最善値を与える頻度が高かったのがα0で、教師図全28件のうち13件であった。α0が最適解(最善値又は次善値)を与える場合を含めると教師図全28件のうち20件が該当したので、第一候補としてα0をとることにした。
【0077】
(ii)自明解の閾値検出(前提条件の検出)
教師図全28件のうち、中点距離m<0.9 をとるもの(12件存在した)に限定して切断高さ候補を適用すると、12件全件(100%)でα0が最適解となった(信頼度100%)。
従って、以下の条件式が導かれる。
m<0.9 ⇒ α=α0
【0078】
(iii)残りの前提条件下での規則検出
教師図のうち、残りの m≧0.9 をとるもの(16件)について分析する。中点距離mが大きいということは樹状図の高さが高いということを意味する。そこで、教師図全28件の高さについて調べたところ、次のような規則が見られた:
s/S≧0.345(全18件) ⇒ <h0>/m≧0.5(内17件) …式1
ここで、「クラスタ面積s/樹状図面積S」をクラスタ密度、「土台<h0>/中点距離m」を土台比率と定義する。つまり、94%の確率で「クラスタ密度が高い⇒土台比率が高い」という規則が得られた。
【0079】
(iii-a)s/S≧0.345 & <h0>/m≧0.5 の場合
そこで、この17件に対して、条件 m≧0.9 で絞る前(17件)と絞った後(11件あった)で最適解の確率を比べると、
【表3】
となった。事後確率が高く且つ件数の変動が少ないのはα2である(信頼度82%、保存率75%)。従って、以下の条件式が導かれる。
m≧0.9 & s/S≧0.345 & <h0>/m≧0.5 ⇒ α=α2
s/S の条件と <h0>/m の条件をクロスさせているのは誤判定を避けるためである。
【0080】
(iii-b)m/H<0.55 の場合
次に、m≧0.9 で s/S<0.345 又は <h0>/m<0.5 の場合を考えるべきであるが、該当件数が5件と少ないので、異なる条件分岐で改めて m≧0.9 の16件を再分析する。再分析の目的は密度が低いもの或いは高さが低いものについての条件式を導くことであるから、高さと密度で条件分岐を考える。
【0081】
高さについて「中点距離m/最終結合高さH」を高層度と定義し、m/H≧0.55(高層型)と m/H<0.55(下方群生型)とに分別する。
【0082】
密度に関しては、上記式1によりクラスタ密度s/Sと土台比率<h0>/mには高い相関があるので、まず、土台比率<h0>/mの大小に応じた条件式を探ってみる。教師図全28件のうち、条件 m≧0.9 で絞る前(28件)と絞った後(16件)で最適解の確率を比べると、
【0083】
m/H≧0.55(高層型)においては:
土台比率<h0>/m < 0.4 に関しては事前確率がゼロ、
土台比率<h0>/m ≧ 0.4 に関しては事前事後確率の大きな変化が認められず、
結局、有意な規則は導かれない。
【0084】
m/H<0.55(下方群生型)においては:
まず、土台比率<h0>/m < 0.4 のとき、
【表4】
となったので、α0を採用でき(信頼度100%)、以下の条件式を導くことができる。
m≧0.9 & m/H<0.55 & <h0>/m<0.4 ⇒ α=α0
一方、土台比率<h0>/m ≧ 0.4 のとき、
【表5】
となった。α1とα2で事後確率が向上しているが、保存率、伸び率を両者で比較すると、α1を採用でき(信頼度67%、保存率100%、伸び率168%)、以下の条件式を導くことができる。
m≧0.9 & m/H<0.55 & <h0>/m≧0.4 ⇒ α=α1
【0085】
(iii-c)m/H≧0.55 の場合
次に、(iii-b)で決まらなかった m≧0.9 で m/H≧0.55(高層型)の場合について分析する。
ここでは、クラスタ密度s/Sに応じて、条件 m≧0.9 で絞る前と絞った後で最適解の確率を比べる。
まず、クラスタ密度s/S<0.4のとき、
【表6】
となった。事後確率(信頼度)が高いのはα0とα2であるが、両者に有意な差はないため、事前確率の高いα0を採用でき、以下の条件式を導くことができる。
m≧0.9 & m/H≧0.55 & s/S<0.4 ⇒ α=α0
次に、クラスタ密度s/S≧0.4のとき、
【表7】
となった。事後確率の高いα2を採用でき(信頼度86%、保存率86%)、以下の条件式を導くことができる。
m≧0.9 & m/H≧0.55 & s/S≧0.4 ⇒ α=α2
【0086】
なお、m≧0.9 で m/H<0.55(下方群生型)の場合についても、クラスタ密度s/Sに応じた分析をした場合、
クラスタ密度s/S<0.4 に間しては事前事後確率の大きな変化が認められず、
クラスタ密度s/S≧0.4 に間しては事後確率ゼロで、
結局、有意な規則は導かれない。
【0087】
(iv)まとめ
以上をまとめて、最適の切断高さαを選出する規則として、以下の式を得ることができる。
α=Fθ(m,0.9 ;α0,Fθ(<h0>/m,0.5 ;A,B))
B=Fθ(s/S,0.345 ;A,α0)
A=Fθ(m/H,0.4 ;Fθ(<h0>/m,0.4 ;α0,α1),Fθ(s/S,0.4 ;α0,α2))
【0088】
但し、Fθ(x,γ;y,z)=θ(x<γ)y+θ(x≧γ)z
なお、θ(X)は、命題Xが真のとき1、それ以外のとき0を返す関数である。つまり、Fθ(x,γ;y,z)は、x<γのときy、x≧γのときzを返す関数である。
【0089】
こうして導出された連関規則は、入力装置2からの入力等に従い、記録装置3の条件記録部310に格納される。なお、この連関規則は教師図に依存するものなので、例えば解析対象樹状図の要素数に応じて教師図を更新し、再度連関規則分析をすれば、これと異なる連関規則が導かれ得る。
【0090】
<4−1−4.クラスタ抽出手順>
次に、上述の方法で導出された連関規則を用いて決定される切断位置を用いて、樹状図を切断し、クラスタを抽出する具体的手順について説明する。
【0091】
図5は、実施例1(均衡切断法;BC法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例1の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に100を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図6は、実施例1におけるクラスタ抽出過程での樹状図配置例を示す図であり、図5を補足するものである。E1〜E11は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0092】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS110)。
【0093】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS120)。
【0094】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS130)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS120で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0095】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS140)。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。
【0096】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS150:図6(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0097】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS160)。ここでは樹状図のパラメータ読み出し条件と、上記連関規則分析で導出された連関規則を読み出す。
【0098】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、上記読み出されたパラメータ読み出し条件に従って樹状図のパラメータを読み出す(ステップS171)。次に、このパラメータに対して上記読み出された連関規則を適用し、樹状図の切断高さαを決定する(ステップS172:図6(B))。決定された切断高さに従い、樹状図を切断し、クラスタを抽出する(ステップS173)。ここで抽出されたクラスタの数だけ、上記先頭要素E1から枝線を作成する(図6(C)参照)。
【0099】
次に、抽出された各クラスタにつき、以下の処理を行う。
【0100】
まず、各クラスタの文書要素数を計数する(ステップS174)。文書要素3個を超えるクラスタについて、当該クラスタの最古要素E7を除外して当該クラスタの先頭に配置し、残りのクラスタ内要素E8〜E11による部分樹状図を作成する(ステップS175:図6(C))。このときに作成する部分樹状図は、当該クラスタの最古要素E7が除外されている他は、ステップS150で最初に作成した樹状図のうち当該クラスタに相当する部分とほぼ同じ構造になる。但し、当該クラスタの最古要素E7が除外されているので、当該クラスタ内での要素群間距離が変化する。従って、残りのクラスタ内要素E8〜E11の内容データに基づいて再分析すればステップS150で作成した樹状図とは若干異なる構造となる可能性もある。例えば、文書要素と文書要素群の距離(非類似度)或いは文書要素群と文書要素群の距離(非類似度)として重心間距離又は全距離平均を用いて樹状図を作成する場合、図6(B)における要素E7及びE8と要素E9との距離に対して、図6(C)における要素E8と要素E9との距離は異なるものとなるので、この部分は異なる構造になり得る。
【0101】
部分樹状図の作成されたクラスタについてはステップS171に戻り、当該部分樹状図のパラメータを読み出し、ステップS172にて切断高さαを決定する(図6(D))。
【0102】
部分樹状図のパラメータは、ステップS150で最初に作成した樹状図のパラメータとは異なる値となるから、同じ連関規則を適用したとしても切断高さαは変化する。この新たな切断高さでの切断をステップS173にて実行し、子孫クラスタを抽出する。なお、部分樹状図に適用する連関規則としては、最初の樹状図に適用した連関規則を再度用いるよりは、別の連関規則を用いるのが好ましい。かかる連関規則は、適用対象となる(部分)樹状図に含まれる文書要素数と同等の要素数をもつ教師図をもとに、連関規則分析を行って導出されたものであることが好ましい。
【0103】
一方、抽出されたクラスタのうち文書要素数が3以下のものについては、配置条件読み出し部80で読み出された(ステップS180)配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS190:図6(E))。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0104】
以上説明した方法ではステップS171に戻るたびに異なる切断高さαが適用されるので、これを「可変BC法」と命名する。これに対し図5に破線で示すように、クラスタ内の文書要素数を計数せず、ステップS173から直ちにステップS180に移行して時間データに基づく配列を行うことも可能である。これを「固定BC法」と命名する。
【0105】
図7は、実施例1の方法により生成された文書相関図の具体例を示す図である。キーワード検索によって抽出した清酒に関する日本特許出願17件の各公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例では1回の切断ですべてのクラスタが閾値(3)以下の件数になったので、可変BC法と固定BC法とでは同一の出力結果となった。
【0106】
<4−1−5.実施例1の効果>
本実施例1によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、樹状図の切断規則を連関規則分析により導出しているので、種々の樹状図に適用可能な(汎用性の高い)切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。
更に、教師図の形状パラメータに基づいて連関規則を導出しているので、樹状図形状に即した適切な切断位置を決定可能な、信頼性の高い切断規則を用いることができる。
また、解析対象樹状図の形状パラメータを読み取り、これに連関規則を適用することで切断位置を決定できるので、切断位置の決定を少ない計算量で済ませることができる。
【0107】
<4−2.実施例2(余次元降下法;CR法)>
余次元降下法(Codimensional Reduction Method)では、実施例1(均衡切断法;BC法)と同様に、樹状図の切断位置の決定に連関規則を用いる。実施例1では樹状図の幾何的形状から得られたパラメータを用い、切断位置として要素間の結合高さを用いたが、本実施例2では、文書要素ベクトル間の差異を示す索引語次元を用いて切断位置を決定する。
【0108】
連関規則分析についての基本的な説明は既に実施例1で行ったので省略し、まずは本実施例2の連関規則分析で用いるパラメータについて、実施例1との差異点を説明する。
【0109】
<4−2−1.パラメータの説明>
樹状図においてあるノード(結節点)cが与えられたとき、その結合レベルを整数i(c)で表す。初期ペアの結合は結合レベルi(c)=0、その1つ上段の結合は結合レベルi(c)=1とする。なお、後述の図9(A)にノードc1〜c7の各々について結合レベルi(c)が示されている。
【0110】
結合レベルi(c)であるノードcにおいて、当該ノードcで結合される文書要素群(ノードcを頂点とする部分樹状図に属するすべての文書要素)の索引語和集合の次元数Dcから、索引語頻度TF(E)が文書要素間で同一値をとる索引語の次元数を引いた残りの次元数をR(i;c)とする(これを余次元と呼ぶことにする)。
なお、Dcは樹状図の全要素の索引語和集合の次元数D以下の値をとるが、ノードcで結合される文書要素群に含まれていない(各文書要素Eに0個含まれている)索引語の索引語頻度TF(E)は、ノードcで結合される文書要素群においてはすべて同一値0をとる、と考えることもできる。この場合、余次元Rは、樹状図の全要素の索引語和集合の次元数Dから、当該ノードcで結合される文書要素間で同一の索引語頻度(0を含む)をとる索引語の次元数を引いた次元数、と定義しても良い。
【0111】
索引語和集合の次元数Dc又はDの大きさは、当該ノード以下の部分樹状図又は樹状図全体に属する文書要素間のバラツキの大きさに深く関係する。但し、索引語和集合の次元数Dc又はDが大きくても、索引語頻度TF(E)を共通にする索引語が多い(余次元Rが小さい)ことは文書要素間の差異がさほど大きくないことを意味する。逆に、索引語和集合の次元数Dc又はDが大きく、索引語頻度TF(E)を共通にする索引語が少ない(余次元Rが大きい)ことは文書要素間の差異が大きいことを意味する。本実施例2は、この性質を利用して樹状図の切断位置を決定しようとするものである。実施例1(均衡切断法;BC法)で用いたパラメータが樹状図の形状に関係する幾何的パラメータとすれば、余次元は非幾何的パラメータと言える。
【0112】
本実施例2では、余次元Rがある値(臨界次元Dα)を超えるノードcを、すべて切断する。この臨界次元を求めるためのパラメータとして、実施例1で用いた中点距離m、土台<h0>、高さH、クラスタ密度s/Sなどの幾何的パラメータも用いる。
【0113】
なお、連関規則分析に用いるパラメータとしては、上記の他にも種々のもの、例えば結合高さdの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いることもできる。例えば、上記中点距離mの代わりに、結合高さ平均値<d>を用いることもできるし、上記土台<h0>の代わりに、結合高さの平均値<d>と標準偏差σdを用いて<d>−σd或いは<d>−2σdを用いることもできる。
【0114】
<4−2−2.連関規則の導出例>
臨界次元Dαを導くための連関規則の算出方法は実施例1と同様である。すなわち、予め多数の教師図について理想的な臨界次元Dαを求めておく。更に、教師図の幾何的パラメータと理想的な臨界次元Dαとの関係を分析する。そして、教師図の切断位置がなるべく再現されるような臨界次元Dαを導く規則を、種々のパラメータに対する条件式として求める。
【0115】
求められた連関規則の一例を示すと以下の通りである。当該連関規則の導出過程等の説明は省略する。
Dα=D×(s/S)×(m/<h0>)×[θ(s/S≦0.2){θ(m≦0.5H)+(1/2)θ(m>0.5H)}+(1/2)θ(s/S>0.2)]
但し、θ(X)は、命題Xが真のとき1、それ以外のとき0を返す関数である。
【0116】
この連関規則は、入力装置2からの入力等に従い、記録装置3の条件記録部310に格納される。
【0117】
<4−2−3.クラスタ抽出手順>
次に、導出された連関規則を用いて決定される臨界次元を用いて、樹状図を切断し、クラスタを抽出する具体的手順について説明する。本実施例2では、解析対象となる樹状図の各ノードcの余次元R(i;c)をすべて算出する。そして、余次元R(i;c)が臨界次元Dαを超えるノードcを、すべて切断する。
【0118】
図8は、実施例2(余次元降下法;CR法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例2の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に200を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図9は、実施例2におけるクラスタ抽出過程での樹状図配置例を示す図であり、図8を補足するものである。E1〜E9は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0119】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS210)。
【0120】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS220)。
【0121】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS230)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS220で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0122】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS240)。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。
【0123】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS250:図9(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0124】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS260)。ここでは樹状図のパラメータ読み出し条件と、上記連関規則分析で導出された連関規則を読み出す。
【0125】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、上記読み出されたパラメータ読み出し条件に従って、樹状図のパラメータを読み出す(ステップS271)。次に、このパラメータに対して上記読み出された連関規則を適用し、樹状図の切断位置を判定するための臨界次元Dαを決定する(ステップS272)。
【0126】
次に、結合レベルi=0のノード(初期ペア)から順に、以下の処理を行う。まず、処理対象ノードcの余次元R(i;c)を算出する(ステップS273)。余次元R(i;c)と臨界次元Dαとを比較し(ステップS274)、R(i;c)>Dαなら当該ノードを切断し(ステップS275)、ステップS276に移行する。R(i;c)≦Dαなら切断せず、そのままステップS276に移行する。
【0127】
ステップS276では、現在の結合レベルiの全ノードについての処理が終了したか否かを判定する。現在の結合レベルiの処理が終了していなければ(ステップS276:NO)、ステップS273に戻って次のノードcについての処理を行う。現在の結合レベルiの処理がすべて終了していれば(ステップS276:YES)、全結合レベルの全ノードについての処理が終了したか否かを判定する(ステップS277)。
【0128】
全結合レベルの処理が終了していなければ(ステップS277:NO)、次の結合レベルに移行するためi:=i+1とし(ステップS278)、ステップS273に戻って次の結合レベルのノードcについての処理を行う。全結合レベルの処理がすべて終了していれば(ステップS277:YES)、クラスタ抽出部70での処理を終了し、ステップS280に移行する。
【0129】
図9(B)に、ノードc1〜c7の各々についての余次元Rと臨界次元Dαの比較結果の例を示す。この例ではノードc1〜c5については余次元Rが臨界次元Dα以下であると判定され、ノードc6及びc7については余次元Rが臨界次元Dαを超えると判定された。従って、上記ステップS275にてノードc6及びc7が切断されてクラスタが抽出される。この例では、ノードc6よりノードc5の方が、結合高さが高い(結合される文書要素群間の非類似度が高い)にもかかわらず、ノードc5の余次元が臨界次元Dα以下であったためノードc5では切断されなかった。この例に示されるように、本実施例2による切断位置は樹状図における結合高さと直接関係するものではない。
【0130】
本実施例2では下位ノード(i=0)から順に余次元Rと臨界次元Dαの比較をしている。ある下位ノードcが与えられた場合、その上流に位置する上位ノードで結合される文書要素群は、当該下位ノードcで結合される文書要素Eをすべて含む。従って上位ノードは、下位ノードcの余次元Rより大きな余次元Rを持つことになる。従って例えば図9(B)の例のように、下位ノードc6の余次元R(2;c6)が臨界次元Dαを超えると判定された場合は、その上流に位置する上位ノードc7の余次元R(3;c7)の算出及び臨界次元Dαとの比較を省略することも可能である。
【0131】
次に、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS280)。この配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS290:図9(C))。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0132】
なお、上述の例では、余次元Rを求めるために索引語和集合の次元数から引かれる索引語は、索引語頻度TF(E)が同一のものとしたが、それ以外のものでもよい。例えば、索引語頻度TF(E)の偏差が所定方法で定めた値より小さい索引語(索引語頻度TF(E)の標準偏差が一定値以下の索引語など)としてもよい。また、文書要素Eがそれぞれ複数の文書からなる場合は、索引語頻度TF(E)の代わりに大域的頻度GF(E)とするのが好ましい。また、文書要素のベクトル成分量として索引語頻度TF(E)又は大域的頻度GF(E)以外のものを使用する場合には、そのベクトル成分量の偏差が所定方法で定めた値より小さい索引語とするのが好ましい。
【0133】
図10は、実施例2の方法により生成された文書相関図の具体例を示す図である。実施例1の図7と同一の公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例では図7と異なり、文書要素1件だけのクラスタが生成されなかった。本実施例2において文書要素1件だけのクラスタが生成されるためには2〜3件程度の文書要素群で余次元Rが臨界次元Dαに達する必要があるが、2〜3件程度の文書要素では索引語和集合の次元数が低いので、余次元Rが臨界次元Dαに達しなかったものと思われる。このように各クラスタにおいてそれぞれ複数の文書要素が時間順で並べられたので、時間的に見た流れを把握し易い文書相関図を得ることができた。
【0134】
<4−2−4.実施例2の効果>
本実施例2によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、樹状図の切断規則を連関規則分析により導出しているので、種々の樹状図に適用可能な(汎用性の高い)切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。
更に、切断規則の導出のためにベクトル次元数を加味しているので、適切な分岐を得ることができる。
更に、ノードごとに切断基準の判定を行い、判定結果に基づいて各ノードを個別に切断しているので、より適切な分岐を得ることができる。
【0135】
<4−3.実施例3(細胞分裂法;CD法)>
細胞分裂法(Cell Division Method)では、ある方法で決められた切断高さαで樹状図を切断して親クラスタを抽出した後、各親クラスタを更に子クラスタに分けるために、各親クラスタに属する文書要素のみを用いて再度当該部分の樹状図を作成する。この部分樹状図の作成の際に、当該親クラスタにおける文書要素ベクトルの成分の偏差が所定方法で定めた値より小さい値をとる索引語次元を除去して分析する。
【0136】
<4−3−1.クラスタ抽出手順>
図11は、実施例3(細胞分裂法;CD法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例3の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に300を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図12は、実施例3におけるクラスタ抽出過程での樹状図配置例を示す図であり、図11を補足するものである。E1〜E10は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0137】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS310)。
【0138】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS320)。
【0139】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS330)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS320で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0140】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS340)。このときも、上記と同様に最古要素E1以外の要素間の類似度のみを演算する。
【0141】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS350:図12(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0142】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS360)。ここでは切断高さα、後述の偏差判定閾値などを読み出す。
【0143】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、切断高さα=a(但し、結合高さd=a−bcosθ)で樹状図を切断する(ステップS371:図12(B))。α=aでクラスタ分離が生じない場合(ステップS372)、α*=<d>+δσd(但し−3≦δ≦3。特に0≦δ≦2とするのが好ましく、δ=1とするのが最も好ましい。)で切断する(ステップS373)。樹状図が切断されたら、各クラスタ内の最古要素E2、E7を当該各クラスタの先頭に配置する(ステップS374:図12(C))。以下の処理は各クラスタの、当該各最古要素以外の文書要素群につき行う。
【0144】
まず、各クラスタにつき、最古要素以外のクラスタ内要素間での偏差が所定方法で定めた値より小さい値をとる索引語次元を削除する処理を行う(ステップS375)。例えば、図12の文書要素E2を先頭とするクラスタにおいて、文書要素E3、E4、E5、E6の索引語と、それぞれの索引語について算出された各文書要素ベクトルの成分値がそれぞれ次の表に示す通りだったとする。
【表8】
偏差の判定閾値を、例えばクラスタ内平均に対する標準偏差の比率で10%と規定した場合には、索引語wb及びweを偏差が小さい値と判定し削除するのである。
【0145】
次に、各クラスタにつき、上記最古要素以外のクラスタ内要素からなる部分樹状図の作成を行う(ステップS376:図12(D))。表8の例で言えば、残りの索引語wa、wc、wd、wfを用いて部分樹状図を作成する。従って、ステップS350で作成された樹状図での分岐とは異なるクラスタ内分岐が得られる。特に、偏差が小さい値をとる索引語次元が削除されているので、残りの索引語の差異が強調される。従って、同じ文書要素間の類似度であっても、ステップS350で樹状図を作成した際の類似度よりも、本ステップS376で部分樹状図を作成する際の類似度の方が小さく(非類似度が大きく)評価されることになる。
【0146】
ここで、各クラスタにつき、最古要素を除いたクラスタ内要素数を取得し、所定の閾値(例えば3)と比較する(ステップS377)。図12(D)の文書要素E3〜E6のように、最古要素E2を除いた文書要素数が閾値を超えている場合は(ステップS377:NO)、ステップS371に戻って樹状図の切断を行い、子孫クラスタを抽出する。このときの切断高さα(又はα*)はステップS371(又はステップS373)で上述した通りであるが、偏差が小さい値をとる索引語次元が削除され類似度が小さく評価されているので、同じ切断高さα(又はα*)でも再度樹状図の切断が可能となるのである。なお、子孫クラスタ抽出の際にステップS373の切断高さα*で切断する場合には、切断される親クラスタにおける各結合位置の高さdに応じてその都度α*を更新してもよいし(可変法)、α*の初期値をそのまま用いてもよい(固定法)。
【0147】
図12(D)の文書要素E8〜E10のように、クラスタ内の最古要素E7を除いた文書要素数が閾値以下であった場合(ステップS377:YES)、当該クラスタについては最後に切断高さα=aで切断を行う(ステップS378:図12(E))。本ステップS378では、実際にクラスタ分離が生じない場合でもステップS380に移行する。
【0148】
ステップS380では、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う。この配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS390:図12(F))。
例えばステップS378において、図12(E)の切断高さα=axで切断されクラスタ分離が生じなかった場合は、当該クラスタの文書要素E7〜E10の時間データ順の直列鎖配列となる(図12(F))。
また例えばステップS378において、図12(E)の切断高さα=ayで切断された場合は、文書要素E7から、文書要素E8と、文書要素E9及びE10の時間データ順の直列鎖と、に分岐される(図示せず)。
また例えばステップS378において、図12(E)の切断高さα=azで切断された場合は、文書要素E7から、文書要素E8と文書要素E9と文書要素E10の3枝に分岐される(図示せず)。
クラスタ内の配置条件は、この例のように時間データに基づき古い順に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0149】
なお、偏差の判定閾値について、平均に対する標準偏差の比率で10%とした例を説明したが、これは各文書要素が1つの文書からなる場合に好適な例である。各文書要素が1つの文書からなる場合の判定閾値は、0%以上10%以下とするのが好ましい。
一方、各文書要素が複数の文書からなる場合には、クラスタ内文書要素の平均に対する標準偏差の比率が60%或いは70%以下であれば、偏差が小さいものとして扱うことが好ましい。
【0150】
図13は、実施例3の方法により生成された文書相関図の具体例を示す図である。実施例1の図7と同一の公開公報を文書要素とし、文書要素ベクトルの成分値としてTF*IDF(P)を用い、切断高さαとしてa=1を用いて分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例ではステップS376で作成した部分樹状図の1つが更に切断され、2段階の分岐が形成された。
【0151】
図14は、実施例3の方法により生成された文書相関図の他の具体例を示す図である。ある家庭用化学品メーカーを出願人とする約4000件の日本特許公開公報のうち主な16分野について、各分野に属すべき文書群をそれぞれキーワード検索によって選出し、各分野の文書群をそれぞれ1つの文書要素(マクロ要素)とした。実施例3に従って最古要素を除外して先頭に配置し、残り15要素による樹状図の作成及び樹状図切断を行い、図に示す分岐構造が得られた。各文書要素の時間データtとして出願日の平均値を用い、文書要素ベクトルの成分値としてGFIDF(E)を用い、切断高さαとしてa=1を用い、偏差の判定閾値として70%を採用した。文書相関図には上記16分野を特徴付けるキーワードを記入した。
【0152】
<4−3−2.実施例3の効果>
本実施例3によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、親クラスタの抽出後に、各親クラスタを再分析して作成した部分樹状図により子クラスタを抽出しているので、子クラスタの誤分類を改善し適切な分類を得ることができる。
【0153】
更に、親クラスタの抽出後に、各親クラスタに属する文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を除去しているので、親クラスタの抽出観点とは異なった観点から子クラスタの抽出を行うことができる。例えば、着色材料に関する複数の文書要素を分類した場合、親クラスタの抽出時には溶媒の違いにより、低沸点溶媒を用いた群と高沸点溶媒を用いた群に大別されたとする。子クラスタの抽出時には、各親クラスタにおいて偏差の小さい溶媒に関する索引語が除去されるので、例えば顔料の違いが強調されて有機系顔料を用いた群と無機系顔料を用いた群に大別される。各親クラスタにおいて偏差の小さい索引語が除去されない場合には、溶媒に関する更に細かい分類と顔料に関する分類とが拮抗してしまい適切な子クラスタが得られない恐れもあるが、本実施例3では、クラスタ内での違いを強調することで、子孫クラスタでの適切な分類を得ることができるのである。
【0154】
<4−4.実施例4(段階的切断法;SC法)>
段階的切断法(Stepwise Cutting Method)では、2つ以上の切断高さαi、αii(固定値)で樹状図を切断し、親クラスタ及び子孫クラスタを抽出する。
【0155】
<4−4−1.クラスタ抽出手順>
図15は、実施例4(段階的切断法;SC法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例4の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に400を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図16は、実施例4におけるクラスタ抽出過程での樹状図配置例を示す図であり、図15を補足するものである。E1〜E14は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0156】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS410)。
【0157】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS420)。
【0158】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS430)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS420で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0159】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS440)。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。
【0160】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS450:図16(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0161】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS460)。ここでは切断高さαi、αii(但し、αi>αii)又はそれらの算出方法などを読み出す。例えば、αi=a、αii=a−0.2b(但し、結合高さd=a−bcosθ)とする。また例えばα*=<d>+δσd(但し−3≦δ≦3。特に0≦δ≦2とするのが好ましい。)を用いて、αi=<d>+σd、αii=<d>とする。また、切断高さをαi、αii、αiii(但し、αi>αii>αiii)の3箇所とする場合には、例えば、類似度を相関係数で定義した場合、αi=a+b(反相関)、αii=a(無相関)、αiii=a−0.3b(強相関の閾値)のように、類似度の代表点とすることもできる。
【0162】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、上記樹状図を切断高さα=αiで切断する(ステップS471:図16(B))。そして、当該切断線で切断される枝線の数(第一分岐数)を読み取り、ステップS450で除外された最古要素E1から直接、第一分岐数に相当する数の枝線を引く(ステップS472:図16(C))。この第一分岐数が親クラスタの数となる。
【0163】
次に、同じ樹状図を切断高さα=αiiで切断する(ステップS473:図16(D))。そして、当該切断線で切断される枝線の数(第二分岐数)を、親クラスタごとに読み取り、各親クラスタの線から直接、当該親クラスタの第二分岐数に相当する数の枝線を引く(ステップS474)。この第二分岐数を全親クラスタについて合計した数が、子クラスタの総数となる。クラスタの抽出はこれで終了である。
【0164】
上述のようにしてクラスタが抽出されるので、次に、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS480)。この配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS490:図16(E))。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0165】
上述のように、ステップS472では最古要素から直接、第一分岐数に相当する数の枝線を引く。従って、例えば図16(B)の樹状図に示すように親クラスタ[1]と親クラスタ[2]及び[3]とが互いに異なる階層に位置するような場合でも、図16(C)に示すように切断高さαiより上方の階層構造を統一的に処理することができる。従って樹状図を簡略化することができる。
また上述のように、ステップS474では各親クラスタの線から直接、当該親クラスタの第二分岐数に相当する数の枝線を引く。従って、例えば図16(D)の樹状図に示すように親クラスタ[1]から分岐する子クラスタ[11]及び[12]と子クラスタ[13]とが、互いに異なる階層に位置する場合でも、図16(E)に示すように切断高さαiとαiiとの間の階層構造を統一的に処理することができる。従って樹状図を簡略化することができる。
【0166】
また、例えば図16(D)に示すように親クラスタ[1]から分岐する子クラスタ[11]、[12]及び[13]と、親クラスタ[3]から分岐する子クラスタ[31]及び[32]とが、別々の高さで結合している場合でも、これらを図16(E)に示すように同じ高さで結合させる。従って、切断高さαiとαiiとの間での結合高さの違いを統一的に処理して樹状図を簡略化することができる。
【0167】
このように樹状図を程よく簡略化することができる一方、切断高さαiでの第一分岐数と、切断高さαiiでの第二分岐数は維持することができる。従って、樹状図の階層構造を程よく簡略化しつつ、当初の樹状図の階層構造を反映させた文書相関図を作成することができる。
【0168】
図17及び図18は、実施例4の方法により生成された文書相関図の具体例を示す図である。実施例1の図7と同一の公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。本実施例4では子孫クラスタ生成の前に最古要素を抽出するという操作をしないので、樹状図全体の最古要素と子孫クラスタとの間に親クラスタの最古要素が配置されることはなく、樹状図構造のみが表示される。なお、図17は標準化を施さない類似度(余弦)を用いて作成した樹状図を切断したもの、図18は標準化を施した類似度(相関係数)を用いて作成した樹状図を切断したものである。
【0169】
<4−4−2.実施例4の効果>
本実施例4によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、例えばαi=a、αii=a−0.2bのような定数で切断する場合、予め決められた複数の切断高さで切断するので、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
更に、例えばαi=<d>+σd、αii=<d>のような結合高さdの平均値及び偏差のうち何れか又は両方を変数として含む関数α*=<d>+δσdで切断する場合、異なる樹状図形状にも幅広く対応でき、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。
【0170】
また、複数の切断位置の各々で切断される枝線の数に基づいて分岐構造を決定することにより、樹状図の階層構造を程よく簡略化しつつ、当初の樹状図の階層構造を反映させた文書相関図を作成することができる。
更に、複数の切断位置での切断により親子クラスタを生成する際に、親クラスタに属する文書要素の部分樹状図を再作成しなくても子クラスタを生成できるので、少ない計算手数で親子クラスタを生成することができる。
【0171】
<4−5.実施例5(可変複合法;FC法)>
可変複合法(Flexible Composite Method)では、樹状図切断を複数回実行する過程において、切断の度に新たな切断高さαを設定する。例えば、切断高さαをα*=<d>+δσd(但し−3≦δ≦3。特に0≦δ≦2とするのが好ましく、δ=1とするのが最も好ましい。)で算出する場合、第1回目の切断では当該樹状図に属する全文書要素のデータをもとに算出したα*を用い、第2回目の切断では、切断される親クラスタに属する文書要素のデータのみをもとに算出したα*を用いる。
【0172】
<4−5−1.クラスタ抽出手順>
図19は、実施例5(可変複合法;FC法)におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例5の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に500を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図20は、実施例5におけるクラスタ抽出過程での樹状図配置例の一部を示す図であり、図19を補足するものである。E1〜ENは文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。
【0173】
まず、処理装置1の文書読み出し部10が、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS510)。
【0174】
次に、処理装置1の時間データ抽出部20が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS520)。
【0175】
次に、処理装置1の索引語データ抽出部30が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS530)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)E1の索引語データは不要なので、ステップS520で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
【0176】
次に、処理装置1の類似度演算部40が、各文書要素間の類似度を演算する(ステップS540)。このときも、上記と同様に最古要素E1以外の要素間の類似度のみを演算する。
【0177】
次に、処理装置1の樹状図作成部50が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS550:図20(A))。このとき、最古要素E1は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
【0178】
次に、処理装置1の切断条件読み出し部60が、切断条件の読み出しを行う(ステップS560)。ここでは切断高さαの算出方法、切断回数(階層数)上限値gなどを読み出す。
【0179】
切断高さαは、例えばα*=<d>+δσdを用いて、α*=<d>+σdによって算出する。また例えば分析対象の文書要素数が多い場合などは、α*=<d>+2σdによって算出してもよい。
【0180】
切断回数上限値gは、分析対象となる文書要素の総数Nに対して、例えば、
g=[lnN÷ln10+0.5]G
とする。或いは、全文書要素のν分割を繰り返すとき、クラスタ1つの要素数がU以下になる分割回数+1(ν(g−1)≦N/U<νgの解)として、
g=1+[ln(N/U)÷lnν]G
としてもよい。但し、上記[ ]G はガウスの整数記号であり、括弧内の小数点以下を切り捨てた値を意味する。或いは、文書要素数Nに対して、
10<N≦20ならg=1、20<N≦300ならg=2、300<N≦1000ならg=3、1000<Nならg=4
としてもよい。
【0181】
次に、クラスタ抽出部70が、クラスタ抽出を行う。まず、上記樹状図のうち最古要素E1を除いた要素E2〜ENの各結合位置の高さdを用いて、切断高さα*[2−N]=<d>+σdを算出する(ステップS571)。次に、算出された切断高さα*[2−N]が要素E2〜ENの結合高さdの最大値 Max(d)より小さいか否かを判定し(ステップS572)、小さい場合には、この切断高さα*[2−N]で当該樹状図を切断する(ステップS573:図20(B))。以降の処理は、クラスタごとに行う。
【0182】
各クラスタにつき、文書要素数が所定の閾値(ここでは4とする。なお、所定の閾値としては、4以上、10×[lnN/ln10]G 以下が好ましい。)を超える場合(ステップS574:NO)、当該クラスタの切断回数が上限値gに達したか否かを判定し、上限値gに達していない場合は(ステップS575:NO)、当該クラスタについて最古要素E2を除外して当該クラスタの先頭に配置し、残りのクラスタ内要素E3〜E7による部分樹状図を作成する(ステップS576:図20(C))。このときに作成する部分樹状図は、当該クラスタの最古要素E2が除外されている他は、ステップS550で最初に作成した樹状図のうち当該クラスタに相当する部分とほぼ同じ構造になる。但し、当該クラスタの最古要素E2が除外されているので、当該クラスタ内での要素群間距離が変化する。従って、残りのクラスタ内要素E3〜E7の内容データに基づいて再分析すればステップS550で作成した樹状図とは若干異なる構造となる可能性もある。例えば、文書要素と文書要素群の距離(非類似度)或いは文書要素群と文書要素群の距離(非類似度)として重心間距離又は全距離平均を用いて樹状図を作成する場合、図20(B)における要素E2及びE3と要素E4及びE5との距離に対して、図20(C)における要素E3と要素E4及びE5との距離は異なるものとなるので、この部分は異なる構造になり得る。
【0183】
クラスタ内要素による部分樹状図を作成後、ステップS571に戻り、クラスタ内要素のうち最古要素E2を除いた要素E3〜E7の各結合位置の高さdを用いて、切断高さα*[3−7]=<d>+σdを算出する。次に、算出された切断高さα*[3−7]が要素E3〜E7の結合高さdの最大値 Max(d)より小さいか否かを判定し(ステップS572)、小さい場合には、この切断高さα*[3−7]で当該クラスタを切断する(ステップS573:図20(C)参照)。
【0184】
文書要素数が上記所定の閾値(ここでは4)以下となったクラスタについては(ステップS574:YES)、クラスタの切断回数に関わらず、当該クラスタについては実施例3の細胞分裂法(CD法)など他のクラスタ抽出法での子孫クラスタ抽出に移行する(ステップS577)。
切断回数が上限値gに達したクラスタについては(ステップS575:YES)、当該クラスタの文書要素数に関わらず、当該クラスタについては実施例3の細胞分裂法(CD法)など他のクラスタ抽出法での子孫クラスタ抽出に移行する(ステップS577)。
なお、ステップS577で行う他のクラスタ抽出法としては、実施例1の均衡切断法(BC法)でもよく、実施例2の余次元降下法(CR法)でもよく、実施例4の段階切断法(SC法)でもよい。
【0185】
上記ステップS572において、切断高さα*[2−N]又はα*[3−7]が、要素E2〜EN又はE3〜E7の結合高さdの最大値以上である場合には(α*≧ Max(d))、クラスタ分離が実現しないので樹状図の切断処理を飛ばして、直ちにステップS574にてクラスタ内要素数(最古要素E1又はE2を除く)の判定を行う。そして、クラスタ内要素数が上記所定の閾値を超えていればステップS575にて切断回数の判定を行い(ここでは切断処理が飛ばされて切断回数は増えていないので、切断回数の判定を省略しても良い)、ステップS576にて次の最古要素E2又はE3を除外する。
このように、クラスタ分離が実現しない場合でも、最古要素を1つずつ除外して(ステップS576)、クラスタ内要素数が閾値以下になれば(ステップS574)、ステップS577に移行する。
【0186】
上述のようにしてクラスタを抽出したら、最後に、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS580)。この配置条件に従って、クラスタ内要素配置部90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS590:図20(D))。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例6〜8による配置など他のものでもよい。
【0187】
上述の説明では切断回数の上限値gを設定したが、上限値gを設定しない方法をとることもできる。この場合、ステップS575は省略され、ステップS574がNOなら直ちにステップS576に移行し、切断回数無制限で子孫クラスタの抽出を行う。なお、ステップS574では、文書要素数が例えば9を超えていればNOとし、文書要素数が9以下となったクラスタについてはYESの判定をすることが望ましい。
【0188】
図21及び図22は、実施例5の方法により生成された文書相関図の具体例を示す図である。キーワード検索によって抽出した地盤の液状化防止工法に関する日本の特許出願及び実用新案登録出願60件の各公開公報を文書要素として分析し、得られた文書相関図を、簡単のためここでは一部(35件分)のみ図示した。図示した文書相関図には各文書要素につき特許出願番号(但し末尾に(U)を付したものは実用新案登録出願番号)を記入し、上位の文書要素については発明(考案)の名称も記入した。実施例1〜4では要素数20未満が好ましいと思われるのに対し、本実施例5では、この例に示されるように分析対象要素数が多くても適切な親子クラスタを得ることができる。
【0189】
なお、図21は切断回数上限値g=2に設定し、クラスタ内文書要素数の閾値=4に設定した結果であり、図22は切断回数を無制限とし、クラスタ内文書要素数の閾値=9に設定した結果である。他の方法による子孫クラスタの抽出(ステップS577)は省略した。
図21では、出願番号H03-320020を先頭とする親クラスタ(要素数5)は要素数が閾値4を超えていたので2回目の切断で子クラスタに分離された。また、出願番号S63-033662(U)を先頭とする子クラスタ(要素数10)は2回目の切断で生成されたものであるため、それ以上切断分離されなかった。
一方図22では、出願番号H03-320020を先頭とする親クラスタ(要素数5)は要素数が閾値9以下であるため2回目の切断はされなかった。また、出願番号S63-033662(U)を先頭とする子クラスタ(要素数10)については3回目の切断が行われ、孫クラスタに分離された。
【0190】
図23は、実施例5の方法により生成された文書相関図の他の具体例を示す図である。実施例3の図14と同一の16分野の文書要素(マクロ要素)について、実施例5に従って最古要素を除外して先頭に配置し、残り15要素による樹状図の作成及び樹状図切断を行った。クラスタ内要素数の上限(4とした)以下になるまで最古要素の除外と樹状図作成及び切断を繰り返した。クラスタ内要素数が上限以下になったクラスタについてはそれぞれ実施例3(細胞分裂法;CD法)の方法により更にクラスタ生成を行い、図に示す分岐構造が得られた。各文書要素の時間データtとして出願日の平均値を用い、文書要素ベクトルの成分値としてGFIDF(E)を用い、クラスタ内要素数が上限以下になった後の切断高さαとしてa=1を用い、偏差の判定閾値として70%を採用した。文書相関図には上記16分野を特徴付けるキーワードを記入した。
【0191】
<4−5−2.変形例1>
上述のステップS550及びステップS576では、樹状図及び部分樹状図を作成する際に最古要素を除外していたが、最古要素を除外せずに作成することも可能である。そして、この樹状図を上述のようにg回切断する。こうしてクラスタを得ることにより、文書要素の分類をすることが可能となる。この場合、得られた分類に対しては、それぞれに属する文書要素の内容データに基づいて適切なラベル付けを行うことにより、文書要素群のマクロ的分析を容易にすることができる。
【0192】
図24は、実施例5の変形例1による方法で生成された文書相関図の具体例を示す図である。この文書相関図を作成した手順は以下の通りである。まず、ある家庭用化学品メーカーを出願人とする約4000件の日本特許公開公報につき、最古公報を除外せずに樹状図を作成し、本変形例1に係る方法によりg回切断した。こうして得られた27個のクラスタを新たに文書要素(マクロ要素)とした樹状図を作成し、実施例5の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限(4とした)以下になるまで最古要素の抽出と樹状図切断を繰り返し、図に示す分岐構造が得られた。各マクロ要素に対しては、それぞれに属する文書の内容データに基づいてラベル付けを行った。これにより、膨大な文書数からなる分析対象文書集団であってもマクロ的に自動分析し、技術の大まかな流れの理解を容易にすることができる。
【0193】
<4−5−3.変形例2>
次に、変形例2による方法で生成された文書相関図について説明する。この文書相関図は、ある出願人X社の保有する特許文書群の文書相関図をまず作成し、更に当該出願人X社による特許文書群のうち、特定の技術分野に属する特許文書群が、他社の特許文書群とどのような関係にあるかを示したものである。
図25は、実施例5の変形例2による文書相関図の作成過程を示す図であり、図26及び図27が、実施例5の変形例2による文書相関図の具体例を示す図である。図28及び図29は、実施例5の変形例2による文書相関図における別の表示例の一部を示す図である。
これらの文書相関図を作成した手順は以下の通りである。
【0194】
まず、化学メーカーであるX社を出願人とする日本特許公報(公開及び登録)のすべてにつき、最古公報を除外せずに樹状図を作成した。上記変形例1に係る方法によりg回切断した結果、5個のクラスタが得られた。
これら5個のクラスタのうち1つである「機能性素材関連」の特許文書群につき、最古公報を除外せずに再度樹状図を作成した。上記変形例1に係る方法によりg回切断した結果、上記X社を出願人とする日本特許公報のうち「機能性素材関連」の特許文書群は、文書群「EX01」乃至文書群「EX13」の計13個のクラスタに分類された(文書群の符号「EX01」等は便宜上付したものである。)。
これら13個のクラスタを新たに文書要素(マクロ要素)とした樹状図を作成し、実施例5の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限(4とした)以下になるまで最古要素の抽出と樹状図切断を繰り返し、図25に示す分岐構造が得られた。
【0195】
これら13個のクラスタのうち1つである「◇化ケイ素の製造方法関連」の特許文書群「EX05」の内容データ(索引語データ)に基づき、この特許文書群に類似する文書群を、他社の特許文書群を含む全文書Pから、3000件抽出した。
このように全文書Pから抽出された3000件の特許文書につき、最古公報を除外せずに樹状図を作成した。上記変形例1に係る方法によりg回切断した結果、文書群「E101」乃至文書群「E121」の計21個のクラスタが形成された(文書群の符号「E121」等は便宜上付したものである。)。
こうして得られた21個のクラスタを新たに文書要素(マクロ要素)とした樹状図を作成し、実施例5の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限(4とした)以下になるまで最古要素の抽出と樹状図切断を繰り返し、図26に示す分岐構造が得られた。
【0196】
一方、上述の13個のクラスタのうち1つである「◇化ケイ素の製造方法関連」の特許文書群の内容データ(索引語データ)に基づき、この特許文書群に類似する文書群を、上述のように全文書Pから抽出された3000件の特許文書から、300件抽出した。
このように3000件の特許文書から抽出された300件の特許文書につき、最古公報を除外せずに樹状図を作成した。上記変形例1に係る方法によりg回切断した結果、文書群「E201」乃至文書群「E219」の計19個のクラスタが形成された(文書群の符号「E201」等は便宜上付したものである。)。
こうして得られた19個のクラスタを新たに文書要素(マクロ要素)とした樹状図を作成し、実施例5の方法により最古要素を抽出し、樹状図切断を行った。クラスタ内要素数の上限(9とした)以下になるまで最古要素の抽出と樹状図切断を繰り返し、図27に示す分岐構造が得られた。
【0197】
図26及び図27の各文書要素の中で、上記X社を出願人とする特許文書が件数で上位(ここでは5位以内)を占めているものには他の文書要素と区別するための強調表示を付加し、最上位を占めているものにはより強い強調表示を付加した。このような強調表示は、図に示すような枠線の太さによっても良いし、色分け又は模様等によっても良い。また、このような強調表示は、ある出願人(自社又は他社)の文書が上位を占めているか否かに限らず、ある出願人の文書が1つでも含まれるか否か、又はその他の基準によっても良い。
また、図26及び図27には、各文書要素の出願日の平均値(ここではその西暦年下二桁)を縦軸の値として記入した。また、図26及び図27では説明の便宜上、各文書要素の名称として符号「E201」等のみを表示したが、それぞれに属する文書の内容データに基づいて、その文書要素の内容的特徴を示すラベル付けを行うことが望ましい。
【0198】
本変形例2ではこのように、文書相関図の各文書要素のうち特定の属性を有する文書要素、例えば特定の出願人の特許文書からなる文書要素又は特定の出願人が優位を占める特許文書群からなる文書要素を、他の文書要素と区別した形態で表示する。これにより、特定の属性を有する文書要素、例えば上記特定の出願人のある分野に属する特許群が、他社との関係で内容的及び時間的にどのように位置づけられるのかを一見して知ることができる。上記特定の出願人として自社を選べば、自社の技術のうちある分野に属する部分につき、業界全体での位置づけを知ることができる。更に時間軸を表示し、その時間軸に合わせて各文書要素を配置したことにより、当該技術分野の発展系統上における自社技術の位置付けを把握することができる。
例えば図26のように類似度を算出し、比較的多い件数(ここでは類似度上位3000件)の類似文書について分析した場合には、比較的多方面の技術分野にわたる類似文書が抽出され、その中での自社の位置付けを知ることができる。従って、上記の効果に加え、自社があまり目をつけていなかった類似技術を発見でき、自社技術の他分野への適用の可能性を見出すことができるとともに、他社の技術が内容的及び時間的にどのように発展してきたのかを知ることもできる。
更に図27のように当該3000件を母集団として再度類似度を算出し、比較的少ない件数(ここでは類似度上位300件)の類似文書について分析した場合には、更に絞り込んだ技術分野での、特に他社との競合関係のより詳細な比較ができる。
【0199】
図28及び図29は、図26の文書相関図における別の表示例の一部を示す図である。これらの例では、各文書要素につき「○化ケイ素粉末関連」など内容データに基づくラベル付けが行なわれている他、より詳細な表示として、当該文書要素に属する文書数、出願人ランキング(社名と件数)が表示されている。このように詳細な表示を加えることで、より詳細な分析が可能になる。
詳細表示の内容はこれに限らず、特許文書の国際特許分類(IPC)、出願日(平均値又は範囲等)、キーワードなどでも良く、これらに基づくランキングでも良い。また、詳細表示は図28及び図29のように全文書要素について同時に行っても良いし、詳細表示を当初含まない文書相関図を画像表示装置で表示し、1つの文書要素にカーソルを移動したときに、当該文書要素に関する詳細表示を追加出力するようにしても良い。詳細表示の方法は、図28のように文書要素の記載欄そのものを拡大しても良いし、図29のように欄外に吹出しで表示しても良い。また、図26に限らず、図27又はその他の文書相関図について同様の詳細表示をしても良い。
【0200】
<4−5−4.実施例5の効果>
本実施例5によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、親クラスタの抽出を、樹状図に属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行い、子クラスタの抽出を、各親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、要素数Nが多くても適切な親子クラスタを得ることができる。
更に、クラスタの抽出を文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、樹状図に属する文書要素群の類似度が高い場合など様々な樹状図形状に幅広く対応でき、適切な親子クラスタを得ることができる。
【0201】
<5.時間配列の実施例>
次に、時間配列過程に関する実施例6〜8を説明する。
【0202】
<5−1.実施例6(一本釣り配列;PLA)>
一本釣り配列(Pole-and-Line Arrangement)では、文書要素が数個程度の小さなクラスタに対して、時間データと樹状図配置データとに基づいて、当該クラスタ内における配列を決定する。
【0203】
<5−1−1.配列決定手順>
図30は、実施例6(一本釣り配列;PLA)におけるクラスタ内配列過程を説明するフローチャートである。このフローチャートは、図3のステップS70(クラスタ抽出)までの処理でクラスタが抽出されていることを前提とし、図3のステップS80(配置条件読み出し)及びステップS90(クラスタ内要素配列)の部分について、本実施例6の手順をより詳細に示したものである。図3と同様のステップには図3のステップ番号に600を加えて下二桁を図3と同一のステップ番号とし、詳細な説明を省略することがある。
図31は、実施例6におけるクラスタ内配列過程での樹状図配置例を示す図であり、図30を補足するものである。E1〜E20は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるものとする。図31(A)は、図3のステップS70までの処理によって抽出された5つのクラスタの各樹状図構造を示している。
【0204】
実施例1(均衡切断法:BC法)、実施例2(余次元降下法:CR法)、実施例3(細胞分裂法:CD法)或いは実施例4(段階切断法:SC法)等でクラスタが抽出されたら、まず、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS680)。この配置条件に従って、クラスタ内要素配置部90が、当該クラスタ内の各文書要素の時間データ及び樹状図配置データに基づき、クラスタ内における文書要素群の配列を決定する。
【0205】
具体的には、まず、樹状図の当該クラスタ部分をトーナメント表とみなし、各段階の勝者(時刻tの小さい方)を決める(図31(B))。すなわち、下位の(結合高さが低い)ノード(結節点)から順番に、いずれの文書要素の時間データtが小さいかを判定し、その結果を記録する(ステップS691)。この判定は、最下位ノード(2体結合)から、当該クラスタの最上位ノードまで行う(ステップS692)。その際、下位のノードにおける勝者(時間データtがより小さい文書要素)を、上位のノードにおける対戦当事者(時間データtの比較対象)とする(ステップS693)。
【0206】
最上位ノードまで判定すると優勝者(最古文書要素)が決まるので、当該優勝者を当該クラスタの先頭に配置する(ステップS694)。更に、当該優勝者と直接対戦し敗退させられた相手の数(最古文書要素と直接比較され時間データtがより大きいと判定された文書要素の数)だけ、当該優勝者からの分岐を作成する(ステップS695:図31(C))。以下の処理は、各分岐について行う。
【0207】
次に、これら敗退させられた相手を上記各分岐内における優勝者として、各分岐の先頭に配置する(ステップS696:図31(D))。
さらに、各分岐内における優勝者と直接対戦し敗退させられた相手の数を数える(ステップS697)。敗退させられた相手の数が0なら、当該分岐の処理を終了する。敗退させられた相手の数が1以上なら、当該相手の数だけ、当該分岐内における優勝者からの分岐を新たに作成し(ステップS698:図31(D))、ステップS696に戻る。
ステップS696〜S698の処理を繰り返すことにより、クラスタ内配列が決定される(図31(E))。
【0208】
<5−1−2.実施例6の効果>
本実施例6によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、クラスタ内配列を決める際に、時間順による配列を確実に実現するとともに、当該クラスタ内の分岐構造もある程度反映させることができる。
【0209】
<5−2.実施例7(群時系順序;GTO)>
群時系順序(Group Time Ordering)では、複数の文書からなる文書要素の要素定義を、分類情報及び大きな時間単位に基づいて行なった場合に有効な方法である。要素定義を大きな時間単位に基づいて(例えば一定年数を単位として)行うと同時刻要素が生じることがあり、時系列での配列を考えるときに支障が生じ得るが、分類情報を加味して配列を決定することでこれを解決する。
【0210】
<5−2−1.配列決定手順>
図32は、実施例7(群時系順序;GTO)におけるクラスタ内配列過程を説明するフローチャートである。このフローチャートは、図3のステップS70(クラスタ抽出)までの処理でクラスタが抽出されていることを前提とし、図3のステップS80(配置条件読み出し)及びステップS90(クラスタ内要素配列)の部分について、本実施例7の手順をより詳細に示したものである。図3と同様のステップには図3のステップ番号に700を加えて下二桁を図3と同一のステップ番号とし、詳細な説明を省略することがある。
図33は、実施例7におけるクラスタ内配列過程での樹状図配置例の一部を示す図であり、図32を補足するものである。EA1、EB1等はそれぞれ複数の文書からなる文書要素を表し、ここでは便宜上、添え字のアルファベット部分は分類(国際特許分類(IPC)等)を、アラビア数字は時間t(小さいほうがより古い)を表すものとする。
【0211】
切断高さα=a(但し、結合高さd=a−bcosθ)、α*=<d>+δσd(但し−3≦δ≦3。特に0≦δ≦2とするのが好ましく、δ=1とするのが最も好ましい。)、或いは構造連関分析等で導出された切断高さで樹状図を切断しクラスタが抽出されたら(図33(A))、まず、配置条件読み出し部80が、クラスタ内での配置条件の読み出しを行う(ステップS780)。この配置条件に従って、クラスタ内要素配置部90が、当該クラスタ内の各文書要素の時間データ及び樹状図配置データに基づき、クラスタ内における文書要素群の配列を決定する。
【0212】
具体的には、まず、クラスタ内の最古要素を抽出し、当該クラスタの先頭に配置する(ステップS791)。最古要素が複数の場合(図33(B)のEA1とEB1)は並列結線での配置とする。
次に、上記最古要素を除いた残りの要素について、分類ごとに時系列鎖を構成する(ステップS792:図33(B))。そして、ステップS792で構成された各時系列鎖について、同分類の要素を、ステップS791で抽出された最古要素から探す(ステップS793)。
【0213】
上記時系列鎖のうち、同分類の最古要素があった時系列鎖については、当該同分類の最古要素と結線する(ステップS794)。図33の例で言えば、文書要素EA2及びEA3からなる時系列鎖と、文書要素EB2及びEB3からなる時系列鎖については、それぞれ同分類の最古要素EA1とEB1に結線する。
上記時系列鎖のうち、同分類の最古要素がない時系列鎖については、そのうちの最古要素と最も類似度の高い要素を当該クラスタ内から抽出する。そして、当該最も類似度の高い要素から分岐させて、当該同分類要素のない時系列鎖の最古要素と結線する(ステップS795:図33(C))。図33では、文書要素EC2と最も類似度の高いクラスタ内要素が文書要素EB2であった場合に、文書要素EC2を文書要素EB2に結線させた様子を示している。
以上のようにして、クラスタ内配列が決定される。
【0214】
<5−2−2.実施例7の効果>
本実施例7によれば、樹状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、要素定義を大きな時間単位に基づいて行ったために同時刻要素が生じる場合でも、要素定義が分類にも基づいている場合にはその分類情報を加味してクラスタ内配列を決定することで、当該同時刻要素を処理することができる。
【0215】
<5−3.実施例8(時断面分析;TSA)>
時断面分析(Time Slice Analyses)では、分析対象となる複数の文書要素を時間データに基づいて分類した後で、各時間分類内においてクラスタ分析を行う方法である。時間データに基づく分析を、内容データに基づくクラスタ抽出より先に行う点で、上記実施例6及び7とは異なる。時間データに基づく分類と各時間分類内におけるクラスタ分析とが終わった後、時間前後のクラスタに属する要素間での結線を行うことにより、文書相関図が完成する。
【0216】
<5−3−1.文書相関図作成装置の構成>
図34は、実施例8(時断面分析;TSA)の文書相関図作成装置における構成と機能を、図2より更に詳細に説明する図である。図2と共通の部分には同一の符号を付して説明を省略する。
実施例8の文書相関図作成装置は、図2で説明した文書相関図作成装置の各構成に加え、時間スライス分類部25と、時間スライス間結線部75とを備えている。
【0217】
時間スライス分類部25は、時間データ抽出部20で抽出された各文書要素の時間データを、作業結果格納部320から又は直接時間データ抽出部20から取得し、この時間データに基づいて、分析対象である文書集団を一定間隔の時間スライスに分類する。分類の結果は類似度演算部40に直接送られてそこでの処理に用いられ、或いは作業結果格納部320に送られて格納される。類似度演算部40では、各時間スライス内での文書要素の類似度を演算し、樹状図作成部50では、各時間スライスについて樹状図を作成し、クラスタ抽出部70では、各時間スライスからクラスタを抽出する。
【0218】
時間スライス間結線部75は、クラスタ抽出部70で抽出されたクラスタ情報を作業結果格納部320から又は直接クラスタ抽出部70から取得し、このクラスタ情報に基づき、異なる時間スライスに属するクラスタ間の結線を行う。生成された結線データは、直接クラスタ内要素配置部90に送られてそこでの処理に用いられ、或いは作業結果格納部320に送られて格納される。クラスタ内要素配置部90は、クラスタ内要素の配置を行うほか、時間スライス間結線部75の結線データも参照して、文書相関図を完成させる。
【0219】
<5−3−2.文書相関図作成手順>
図35は、実施例8における文書相関図作成過程を説明するフローチャートである。このフローチャートは、本実施例8の手順を図3より詳細に示している。図3と同様のステップには図3のステップ番号に800を加えて下二桁を図3と同一のステップ番号とし、図3と重複する説明を省略することがある。
図36は、実施例8における文書相関図作成過程での樹状図配置例を示す図であり、図35を補足するものである。
【0220】
まず、文書読み出し部10が、入力装置2で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置3の文書格納部330から読み出す(ステップS810)。
【0221】
次に、時間データ抽出部20が、文書読み出しステップS810で読み出された文書要素群から、各要素の時間データを抽出する(ステップS820)。
【0222】
各要素の時間データが抽出されたら、これらを時間データに基づいて分類する(ステップS825)。この処理は、時間スライス分類部25が行う。具体的には、時間軸を一定間隔(例えばΔt=1年)でスライスし、tの区間n≦t<n+1(n=0,1,2,…)内の時間データをもつ文書要素の集合を「n−スライス」とする。ここでtは、0−スライスの前方閾値分だけ原点を移動してある。
時間データに基づく分類は、一定時間間隔でなくとも可変間隔であってもよい。例えば、時間順に累積して一定件数に達したときに時間切断するなどしてもよい。すなわち、分析対象要素が例えば100個あり、これら要素を時間順に並べると古い方からE1,E2,・・・,E100となったとき、例えば20個ごとにE1乃至E20を0−スライス、E21乃至E40を1−スライス、・・・等とする。これにより時間スライス間の要素数の偏在を防止できる。
【0223】
次に、各スライスにつき、グループGを形成する。具体的には、以下のように各スライスからクラスタを抽出する。
【0224】
まず、索引語データ抽出部30が索引語データを抽出し(ステップS830)、類似度演算部40が各スライス内の文書要素間の類似度(又は非類似度)を演算する(ステップS840)。そして各スライスにつき、樹状図作成部50が樹状図を作成する(ステップS850)。更に、切断条件読み出し部60が樹状図切断条件を読み出し(ステップS860)、クラスタ抽出部70が、各スライスからクラスタを抽出する(ステップS870)。
ここで、各n−スライスから抽出されたクラスタをそれぞれグループGと称することにする。各グループGはスライス番号nとグループ番号jを持ち、これをG(n,j)で表す(図36(A))。グループGは複数の文書要素からなる場合もあり、1つの文書要素からなる場合もある。1つの文書要素からなるグループを自明グループと称することにする。
【0225】
樹状図の切断高さαとしては、例えばα*=<d>+δσd(但し−3≦δ≦3。特に−3≦δ≦0が好ましく、−2≦δ≦−1がより好ましい)を用いる。−3≦δとしたのは、δが−3より小さいと、経験上多くのグループが自明グループとなり、−3より小さくしても自明グループという結果に変わりはないからである。自明グループになること自体は悪い結果というわけではないから、−3より小さくすることを妨げるものではない。
樹状図の切断高さαとして、上記α*のように各時間スライスの結合高さdの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いる場合は、時間スライスごとに切断高さが異なることになる。特に、スライス内要素数の少ない(例えば3以下)時間スライスにおいては、1つの要素がスライス内要素の結合高さdの平均値及び偏差の変動に及ぼす影響が大きいので、他の時間スライスとの切断高さの相違が大きくなり過ぎる可能性もある。従って、スライス内要素数の少ない(例えば3以下)時間スライスがある場合には、例えば相関係数で類似度を定義し、結合高さd=a−bcosθとして樹状図を作成し、切断高さαを、a−b≦α≦a−0.5b の範囲内とすることが好ましい。
【0226】
クラスタの抽出は、ステップS830〜S870で説明した樹状図切断によることが好ましいが、それ以外の方法によっても良い。例えば、公知のk−平均法などを用いたクラスタ抽出でもよい。
また例えば、分析対象の文書要素間を結線し、切断半径ρより非類似度の大きい線を消去することでクラスタを抽出する円弧分割法を用いてもよい。この円弧分割法の具体的な一例を説明すると、分析対象要素がM個(E1,E2,・・・,EM)あるとして、まずこれら分析対象の要素間距離rを成分とする距離行列(M行M列)を作成する。次に、要素間距離rの平均値<r>と標準偏差σrを用いて、切断半径ρ*=<r>+δσr(但し−3≦δ≦3。特に−3≦δ≦0が好ましく、−2≦δ≦−1がより好ましい)を決定する。そして、距離行列の成分rのうち閾値ρ*を超える成分を0とした隣接行列(M行M列)を作成する。最後に、隣接行列の列成分からなる隣接ベクトル(r1',r2',・・・,rM')の非ゼロ成分によってクラスタを生成する。
例えば、文書要素E1に関する隣接ベクトルが(0,0.5,0.6,0,・・・,0)である場合(各成分はそれぞれ文書要素E1,E2,E3,E4,・・・,EMとの距離rに基づき算出したもので、省略した成分はすべて0とする。)、この文書要素E1は、文書要素E2及び文書要素E3と同一クラスタとする。
なお、切断半径ρ*において−3≦δとしたのは、上記α*の場合と同様、δが−3より小さいと、経験上多くのグループが自明グループとなり、−3より小さくしても自明グループという結果に変わりはないからである。−3より小さくすることを妨げるものではない。
【0227】
グループGの形成方法は、上記クラスタ分析以外の方法でも良い。例えば、文書要素群が特許分類や企業名などで既に分類されている場合、これを用いてグループ定義を行ってもよい。この場合、要素定義とグループ定義が一致するので、複数文書からなる1つの文書要素で、1つのグループが成立することになる(これも自明グループである)。
【0228】
各n−スライスにつきクラスタ抽出などの方法によりグループGが形成されたら、次に、0−スライスに属するグループ間の結線を決定する(ステップS872)。例えば、樹状図切断で得られた各クラスタを、切断位置より上位の樹状図結線構造により結線する(図36(B))。
【0229】
次に、スライス間の結線を行う。この処理は、時間スライス間結線部75が行う。
【0230】
具体的には、各n−スライス(n≠0)に属するグループG(n,j)の最古要素と最も類似度の高い文書要素(以下「最短距離要素」と称する)を、τ<nなる時間前方グループG(τ,j)の要素から選出する。そして、グループG(n,j)の最古要素と、時間前方グループG(τ,j)から選出された最短距離要素とを結線する(ステップS875:図36(C))。なお、最短距離要素が複数存在する場合は、それらの中で最も古い要素を選出し、グループG(n,j)の最古要素と結線する。
【0231】
或いは、各n−スライス(n≠0)に属するグループG(n,j)と最もグループ間類似度の高い(グループ間距離の短い)グループを、τ<nなる時間前方グループG(τ,j)から選出することとしてもよい。この場合、グループG(n,j)の最古要素と、選出された時間前方グループG(τ,j)の最新要素とを結線する。グループ間距離は、比較されるグループに属する要素間の非類似度(距離)を用いて、重心間距離、全距離平均などにより定義することができる。1つの文書要素で1つのグループが構成される自明グループであれば、要素間の非類似度(要素間距離)に一致する。
【0232】
最後に、配置条件読み出し部80が各グループ内の文書要素配置条件を読み出し(ステップS880)、クラスタ内要素配置部90が、各グループ内の文書要素の配置を決定し(ステップS890)、文書相関図が完成する。なお、図36(C)では、文書要素を各グループ内で並列に配置したが、グループ内でも時間順の配置とするなど他の配置でもよい。
【0233】
図37は、実施例8の方法により生成された文書相関図の第1の具体例及びその生成過程を示す図である。実施例1の図7と同一の公開公報を文書要素とし、各文書要素の出願日を時間データtとし、1年ごとにn=0〜6の時間スライスに分類した。各時間スライスにつき樹状図を作成し、各樹状図を切断高さα*=<d>−σdで切断し、グループを形成した(図37(A))。図37(A)にはn=2の時間スライスについての樹状図切断の様子のみを示し、他の時間スライスについては樹状図切断の結果すべてのグループが要素1つのみの自明群となったので樹状図切断の図示を省略した。各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には各文書要素につき特許出願番号を記入した(図37(B))。
【0234】
図38は、実施例8の方法により生成された文書相関図の第2の具体例及びその生成過程を示す図である。実施例3の図14と同一の16分野の文書要素(マクロ要素)について、実施例8の方法により各文書要素を構成する文書群の出願日平均値を各文書要素の時間データtとし、1年ごとにn=0〜4の時間スライスに分類した。各時間スライスにつき樹状図を作成し、各樹状図を切断高さα*=<d>−σdで切断し、グループを形成した(図38(A))。各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には上記16分野を特徴付けるキーワードを記入した(図38(B))。
【0235】
図39は、実施例8の方法により生成された文書相関図の第3の具体例及びその生成過程を示す図である。実施例1の図7と同一の公開公報を文書要素とし、各文書要素の出願日を時間データtとし、1年ごとにn=0〜6の時間スライスに分類した(ここまでは図37と同様)。各時間スライスにつき、上述の円弧分割法に従って要素間距離rを成分とする距離行列を作成し、これを切断半径ρ*=<r>−σrにより隣接行列に変換して(図39(A))クラスタ分析し、グループを形成した。なお、要素数2以下の時間スライスについては円弧分割法によらず、相関係数で定義した要素間距離が0.5を超えるものを別グループとし、図39(A)での図示を省略した。その後、各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には各文書要素につき特許出願番号を記入した(図39(B))。
【0236】
図40は、実施例8の方法により生成された文書相関図の第4の具体例及びその生成過程を示す図である。実施例3の図14と同一の16分野の文書要素(マクロ要素)について、各文書要素を構成する文書群の出願日平均値を各文書要素の時間データtとし、1年ごとにn=0〜4の時間スライスに分類した(ここまでは図38と同様)。各時間スライスにつき、上述の円弧分割法に従って要素間距離rを成分とする距離行列を作成し、これを切断半径ρ*=<r>−σrにより隣接行列に変換して(図40(A))クラスタ分析し、グループを形成した。なお、要素数2以下の時間スライスについては円弧分割法によらず、相関係数で定義した要素間距離が0.5を超えるものを別グループとし、図40(A)での図示を省略した。その後、各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には上記16分野を特徴付けるキーワードを記入した(図40(B))。
【0237】
<5−3−3.実施例8の効果>
本実施例8によれば、クラスタ抽出と時間データに基づく分類とを行うことにより、分野ごとの時間的発展を適切に表す樹状図を作成することができる。
特に、時断面による切り分けを最初に行うので、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。
【特許請求の範囲】
【請求項1】
1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、
前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段と、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、
前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段と、
を備えた、文書相関図作成装置。
【請求項2】
1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出ステップと、
前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成ステップと、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリングステップと、
前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列ステップと、
を備えた、文書相関図作成方法。
【請求項3】
1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出ステップと、
前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成ステップと、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリングステップと、
前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列ステップと、
をコンピュータに実行させる、文書相関図作成プログラム。
【請求項1】
1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、
前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段と、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、
前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段と、
を備えた、文書相関図作成装置。
【請求項2】
1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出ステップと、
前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成ステップと、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリングステップと、
前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列ステップと、
を備えた、文書相関図作成方法。
【請求項3】
1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出ステップと、
前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成ステップと、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリングステップと、
前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列ステップと、
をコンピュータに実行させる、文書相関図作成プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【図33】
【図34】
【図35】
【図36】
【図37】
【図38】
【図39】
【図40】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【図33】
【図34】
【図35】
【図36】
【図37】
【図38】
【図39】
【図40】
【公開番号】特開2008−269639(P2008−269639A)
【公開日】平成20年11月6日(2008.11.6)
【国際特許分類】
【出願番号】特願2008−150022(P2008−150022)
【出願日】平成20年6月9日(2008.6.9)
【分割の表示】特願2006−535132(P2006−535132)の分割
【原出願日】平成17年9月12日(2005.9.12)
【出願人】(502037638)株式会社アイ・ピー・ビー (28)
【Fターム(参考)】
【公開日】平成20年11月6日(2008.11.6)
【国際特許分類】
【出願日】平成20年6月9日(2008.6.9)
【分割の表示】特願2006−535132(P2006−535132)の分割
【原出願日】平成17年9月12日(2005.9.12)
【出願人】(502037638)株式会社アイ・ピー・ビー (28)
【Fターム(参考)】
[ Back to top ]