文書分類装置及び文書分類方法

【課題】キーワード分類における文書の表記の差による影響を低減しつつ、異なる分野の文書を適切に分類することができる文書分類装置及び文書分類方法を提供する。
【解決手段】分類対象文書のうちの２文書間の共通キーワードに基づく類似度及び共通
組付与情報に基づく類似度を算出するキーワード類似度計算部９２および組付与情報類似度計算部９４と、これらの平均値を当該２文書間の文書類似度とする文書間類似度計算部９５と、各２文書について文書類似度に基づいて安定文書間距離を算出する文書間距離計算部９６と、分類対象文書を座標系に配置し、各２文書が安定文書間距離に近づくように各分類対象文書を移動させる処理を行う位置座標初期値設定部２４および位置座標更新部２８とを備えることにより、関連性の強い文書同士が集まるような配置を実現する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法に関するものである。
【背景技術】
【０００２】
従来、文書分類方法として、キーワードが文書に固有に含まれる程度（非一般性）を示す評価値に基づいて算出された文書間の類似度によって文書を分類する文書分類方法があった（特許文献１および特許文献２を参照）。
【特許文献１】特開２００５−３２７２１３号公報
【特許文献２】特開２００６−１９０２３５号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかし、従来の文書分類方法によると、文書の内容が類似する場合（例えば国際特許分類のサブグループが同一である特許文献の場合）、表記の差による影響が大きくなり、適切な文書分類ができないという問題点があった。このような問題点に対して、引用文献情報を加味した分類方法も提唱されているが、引用文献情報が付与されていない文献に対しては適用することが不可能となる。また、引用文献情報の代わりに、発明者や著者といった創作者の氏名情報を使用する方法も考えられるが、例えば、分類対象文書中に同姓同名の創作者が存在する場合や、同一の創作者が複数の分野において発明や著作を行っている場合には、異なる分野の文書を類似な文書として分類してしまうおそれがある。
【０００４】
本発明は、上記課題に鑑みてなされたものであり、キーワード分類における文書の表記の差による影響を低減しつつ、異なる分野の文書を適切に分類することが可能な文書分類装置および文書分類方法を提供することを課題とする。
【課題を解決するための手段】
【０００５】
本発明に係る文書分類装置は、文書内容の分野を体系づける分類情報と文書内容の創作者の氏名と文書の識別番号とを付与された分類対象文書をそれぞれの内容に応じて分類する文書分類装置であって、分類対象文書のうちの２文書において共通して現れる共通キーワードを抽出する共通キーワード抽出手段と、分類対象文書のうちの２文書において共通して現れる分類情報および創作者の氏名とによって構成された共通組付与情報を抽出する共通組付与情報抽出手段と、分類対象文書の全て又は一部の文書で構成されたキーワード参照文書の識別番号と当該キーワード参照文書に含まれるキーワードとを関連付けて格納したキーワードテーブルを参照して、当該キーワードテーブルにおいて共通キーワードが出現する共通キーワード出現数を数え、当該共通キーワード出現数に基づき共通キーワードの非一般性を示す共通キーワード評価値を算出する共通キーワード評価値算出手段と、分類対象文書の全て又は一部の文書で構成された共通組付与情報参照文書の識別番号と当該共通組付与情報参照文書に含まれる共通組付与情報とを関連付けて格納した共通組付与情報テーブルを参照して、当該共通組付与情報テーブルにおいて共通組付与情報が出現する共通組付与情報出現数を数え、当該共通組付与情報出現数に基づき共通組付与情報の非一般性を示す共通組付与情報評価値を算出する共通組付与情報評価値算出手段と、各共通キーワード評価値を合算して、２文書の共通キーワードに基づく類似性を示すキーワード類似度を算出するキーワード類似度算出手段と、各共通組付与情報評価値を合算して、２文書の共通組付与情報に基づく類似性を示す組付与情報類似度を算出する組付与情報類似度算出手段と、キーワード類似度と組付与情報類似度とを総合した２文書の文書類似度を算出する文書類似度算出手段と、分類対象文書を座標系に配置し、文書類似度が増大するほど２文書間の文書間距離を減少させ、文書類似度が減少するほど２文書間の文書間距離を増大させるように各分類対象文書を移動させる文書移動手段と、を備えることを特徴とする。
【０００６】
また、本発明に係る文書分類方法は、文書内容の分野を体系づける分類情報と文書内容の創作者の氏名と文書の識別番号とを付与された分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、共通キーワード抽出手段が、分類対象文書のうちの２文書において共通して現れる共通キーワードを抽出する共通キーワード抽出ステップと、
共通組付与情報抽出手段が、分類対象文書のうちの２文書において共通して現れる分類情報および創作者の氏名とによって構成された共通組付与情報を抽出する共通組付与情報抽出ステップと、共通キーワード評価値算出手段が、分類対象文書の全て又は一部の文書で構成されたキーワード参照文書の識別番号と当該キーワード参照文書に含まれるキーワードとを関連付けて格納したキーワードテーブルを参照して、当該キーワードテーブルにおいて共通キーワードが出現する共通キーワード出現数を数え、当該共通キーワード出現数に基づき共通キーワードの非一般性を示す共通キーワード評価値を算出する共通キーワード評価値算出ステップと、共通組付与情報評価値算出手段が、分類対象文書の全て又は一部の文書で構成された共通組付与情報参照文書の識別番号と当該共通組付与情報参照文書に含まれる共通組付与情報とを関連付けて格納した共通組付与情報テーブルを参照して、当該共通組付与情報テーブルにおいて共通組付与情報が出現する共通組付与情報出現数を数え、当該共通組付与情報出現数に基づき共通組付与情報の非一般性を示す共通組付与情報評価値を算出する共通組付与情報評価値算出ステップと、キーワード類似度算出手段が各共通キーワード評価値を合算して、２文書の共通キーワードに基づく類似性を示すキーワード類似度を算出するキーワード類似度算出ステップと、組付与情報類似度算出手段が各共通組付与情報評価値を合算して、２文書の共通組付与情報に基づく類似性を示す組付与情報類似度を算出する組付与情報類似度算出ステップと、文書類似度算出手段がキーワード類似度と組付与情報類似度とを総合した２文書の文書類似度を算出する文書類似度算出ステップと、分類対象文書を座標系の初期文書位置に配置し、文書類似度が増大するほど２文書間の文書間距離を減少させ、文書類似度が減少するほど２文書間の文書間距離を増大させるように各分類対象文書を移動させる文書移動ステップと、を備えることを特徴とする。
【０００７】
これによれば、文書の分類は、文書類似度の増減に応じた文書間距離に分類対象文書を配置することによって行われる。文書間の文書類似度は、キーワード類似度と組付与情報類似度とを総合して算出される。そのため、文書類似度おけるキーワード類似度の影響が組付与情報類似度によって低減されるので、キーワード分類における文書の表記の差による影響を低減することができる。また、共通組付与情報は、文書内容の分野を体系づける分類情報と文書内容の創作者の氏名とによって構成されているので、分類対象文書の分野によって分類対象文書間の組付与情報類似度および文書類似度が増減する。文書類似度が増減するとそれに応じて分類対象文書間の文書間距離が変化するので、異なる分野の文書を適切に分類することが出来る。
【０００８】
ここで、上記作用を好適に奏する上記文書分類方法は、キーワード類似度を初期文書類似度とする初期文書類似度算出ステップと、分類対象文書を座標系の任意文書位置に配置し、２文書間の初期文書類似度が大きいほど文書間距離を減少させ、初期文書類似度が減少するほど２文書間の文書間距離を増大させるように分類対象文書を初期文書位置に移動させる初期文書移動ステップと、をさらに備えることが好ましい。
【０００９】
また、上記の組付与情報類似度算出ステップは、分類情報の階層ごとに組付与情報類似度を算出してもよい。
【００１０】
この場合には、国際特許分類（以下、ＩＰＣ）などの階層構造を有する分類情報を使用する場合が想定される。例えば、サブグループまでのＩＰＣを含む共通組付与情報の類似度が０すなわち文書間に類似性が検出されなかった場合においても、より階層の浅いメイングループやサブクラスまでのＩＰＣを含む共通組付与情報の類似度を算出することによって、文書間に類似性を見出される場合がある。また、多くの文書が近い文書間距離で近接している場合には、上記とは逆にＩＰＣの階層を深くすることによって、より類似性の高い文書を検出することができる。したがって、分類対象文書の類似度合いに応じて、分類の分解能を調整することができるので、さまざまな類似状況にある分類対象文書を適切に分類することが出来る。
【発明の効果】
【００１１】
本発明の文書分類装置および文書分類方法によれば、キーワード分類における文書の表記の差による影響を低減しつつ、異なる分野の文書を適切に分類することができる。
【発明を実施するための最良の形態】
【００１２】
以下、添付図面を参照して、本発明の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
【００１３】
本実施形態では、本発明に係る文書分類装置を、特許文献分類に適用した場合について説明する。まず、図１乃至図６を参照して、第一実施形態にかかる文書分類装置の構成について説明する。ここで、図１は、本発明による文書分類装置の一実施形態を示すブロック図、図２は、文書間距離ＤＢ１４のデータベースの一例を示す構成図、図３は、位置座標ＤＢ１６のデータベースの一例を示す構成図、図４は、文書間力ベクトルＤＢ１８のデータベースの一例を示す構成図、図５は、表示部３２による結果表示画面の一例を示す図、図６は、図１の文書分類装置１のハードウェア構成を示すブロック図である。
【００１４】
図１を参照すると、文書分類装置１は、複数の分類対象文書を、各分類対象文書の内容に応じて分類するものである。文書分類装置１は、データベース１０、安定文書間距離算出部２２、配置文書選択部２３、位置座標初期値設定部２４、文書間力ベクトル算出部２６、及び位置座標更新部２８を備えている。データベース１０は、分類対象文書ＤＢ１２、安定文書間距離ＤＢ１４、位置座標ＤＢ１６及び文書間力ベクトルＤＢ１８を有している。
【００１５】
分類対象文書ＤＢ１２は、複数の分類対象文書を、それを識別する文書コード（識別番号）に関連付けて格納している。分類対象文書は、分類対象文書ＤＢ１２に予め格納されているが、適宜の入力手段により必要に応じて入力することもできる。
【００１６】
安定文書間距離ＤＢ１４は、安定文書間距離算出部２２により算出される安定文書間距離を文書コードに関連付けて格納する。例えば、図２に示すように、各２文書間の安定文書間距離が、それらの文書コード（Ｐ０００１，Ｐ０００２，・・・）に関連付けられて格納されている。この場合、文書（Ｐ０００１）と文書（Ｐ０００２）との間の安定文書間距離は、０．００５である。
【００１７】
位置座標ＤＢ１６は、位置座標初期値設定部２４により設定される各文書の位置座標の初期値、及び位置座標更新部２８により更新された位置座標を文書コードに関連付けて格納する。例えば、図３に示すように、各文書の位置座標（Ｘ座標，Ｙ座標）が文書コードに関連付けられて格納されている。この場合、文書（Ｐ０００３）の位置座標は、（０．５１５５，０．３４１７）である。
【００１８】
文書間力ベクトルＤＢ１８は、文書間力ベクトル算出部２６により算出される総和文書間力ベクトルを文書コードに関連付けて格納する。例えば、図４に示すように、各文書に働く総和文書間力ベクトル（ＦＸ，ＦＹ）が文書コードに関連付けられて格納されている。この場合、文書（Ｐ０００２）の総和文書間力ベクトルは（０．００７，‐０．００３）である。
【００１９】
安定文書間距離算出部２２は、分類対象文書ＤＢ１２に格納されている複数の分類対象文書について、各２文書間の安定文書間距離を、両文書の類似する程度に応じて算出する。この安定文書間距離は、両文書の内容が類似する程度が高いほど小さく、類似する程度が低いほど大きくなる。
【００２０】
位置座標初期値設定部２４は、２次元座標平面上における各文書の位置座標の初期値を設定する。この初期値には、乱数を用いた任意の文書位置座標（任意文書位置座標）または後述するＳ１１７で算出される初期文書位置座標が用いられる。ここでは、任意文書位置座標を用いた初期値の設定方法の一例を説明する。説明の便宜のため、分類対象文書数をＮ（Ｎは２以上の整数）とし、各文書をＴ_ｉ（ｉ＝１，２，・・・，Ｎ）と表すことにする。
【００２１】
まず、文書Ｔ_ｉと文書Ｔ_ｊ（ｊ＝１，２，・・・，Ｎ、ｊ≠ｉ）との間の安定文書間距離Ｌ_０（ｉ，ｊ）をテーブルＬ_ａに読み込む。全ての（ｉ，ｊ）の組について安定文書間距離Ｌ_０（ｉ，ｊ）を読み込んだ後、Ｌ_０（ｉ，ｊ）の平均値Ｌ_ａｖｇを求める。そして、各文書Ｔ_ｉの位置座標（Ｘ_ｉ，Ｙ_ｉ）を下記式、
【数１】

から求める。ここで、ｒｎｄは乱数を表している。これにより、各文書の任意文書位置座標が設定される。なお、安定文書間距離Ｌ_０（ｉ，ｊ）は平均値Ｌ_ａｖｇで除されることにより、正規化される。
【００２２】
文書間力ベクトル算出部２６は、各文書に働く総和文書間力ベクトルを算出する。総和文書間力ベクトルとは、各文書が他の文書から受ける文書間力のベクトル和である。また、文書間力とは、各２文書の位置座標から求められる座標平面上における距離が上記の安定文書間距離よりも大きい場合には両文書間に引力が働き、逆に座標平面上における距離が安定文書間距離よりも小さい場合には両文書間に斥力が働くと仮定して導入した概念である。これらの力の大きさは、座標平面上における距離と安定文書間距離との差の絶対値が増加するにつれて大きくなり、上記絶対値が減少するにつれて小さくなる。また、座標平面上における距離が安定文書間距離と一致する場合には、両文書間に働く文書間力は０である。
【００２３】
文書間力ベクトル算出部２６における文書間力ベクトルの算出方法の一例を説明する。まず、文書Ｔ_ｉと文書Ｔ_ｊの距離Ｌ（ｉ，ｊ）をその処理時点（現処理時点）（特に本実施形態では、位置座標の更新について「現処理時点」、「次回処理時点」というとき、「現処理時点」とは、移動処理（全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理）の繰返処理において、ある回が開始する時点を指し、「次回処理時点」とは、当該ある回の次の回が開始する時点を指すものとする。）における両者の位置座標に基づいて、下記式、
【数２】

から求める。なお、「その処理時点における両者の位置座標に基づいて」とあるのは、後述するように、各文書Ｔ_ｉの位置座標は必要に応じて更新されるため、常に同じ値をとるとは限らないからである。
【００２４】
次に、文書Ｔ_ｉと文書Ｔ_ｊの文書間力ｆ（ｉ，ｊ）を下記式、
【数３】

から求める。ここで、ε１は、Ｌ_０（ｉ，ｊ）が０のときに対応するための定数であり、例えば１×１０^−１２とされる。αは、安定文書間距離Ｌ_０（ｉ，ｊ）が小さくなるに連れて文書間力ｆ（ｉ，ｊ）が指数関数的に大きくように設定される。こうすることにより、文書間の類似度が高いときにより大きな文書間力が働くようになる。その結果、類似する文書の集団を形成するのが容易になると共に集団が配置される位置が人間の感覚に近いものになり、また分類対象文書数Nが多くなっても容易に収束させることができる。
【００２５】
分類対象文書数が比較的少数である場合（Nが５０未満の場合）にはα＝０．８〜２．３の何れかの値に設定される。Nが１００を超える場合にはα＝１．８〜２．２の何れかの値に設定することにより容易に収束させることができる。特に、N＝１０１〜３０００の場合にはα＝２とするのが好適である。特に、分類対象文書を２次元空間にマッピングする場合、αが上記範囲より小さい場合は、移動処理の繰返処理の過程で一部文書の座標が収束せず発散するケースが多くなり、上記範囲より大きい場合は、個々の文書の内容を反映しない均一な文書の集団を形成しやすくなる。
【００２６】
次に、文書Ｔ_ｉが文書Ｔ_ｊから受ける文書間力のＸ成分ｆＸ（ｉ，ｊ）及びＹ成分ｆＹ（ｉ，ｊ）を下記式、
【数４】

から求める。ここで、ε２は、Ｌ（ｉ，ｊ）が０のときに対応するための定数であり、例えば１×１０^−１２とされる。また、βは、例えば０．５に設定される。
【００２７】
最後に、各文書Ｔ_ｉに働く文書間力の総和のＸ成分ＦＸ_ｉ及びＹ成分ＦＹ_ｉを下記式、
【数５】

から求める。ここで、Σ_ｊは、全ての配置済み文書についての和をとることを意味する。このようにして算出されたＦＸ_ｉ及びＦＹ_ｉを成分とするベクトルが上述の総和文書間力ベクトルである。
【００２８】
位置座標更新部２８は、文書間力ベクトル算出部２６により算出された総和文書間力ベクトルの絶対値が小さくなるように、各文書の位置座標を更新する。位置座標更新部２８における位置座標の更新方法の一例を説明する。すなわち、各文書Ｔ_ｉの位置座標（Ｘ_ｉ，Ｙ_ｉ）は、文書間力ベクトル算出部２６により算出された文書間力ベクトル（ＦＸ_ｉ，ＦＹ_ｉ）に基づいて、下記式、
【数６】

により更新される。ここで、（Ｘ_ｉ’，Ｙ_ｉ’）は、更新後の位置座標を表す。また、ｋは移動係数であり、例えば１×１０^−２３以上１×１０^−２２以下の定数とされる。上記式は、各文書Ｔ_ｉを、文書間力ベクトルの向きに、そのベクトルの絶対値の大きさに比例した距離だけ移動させることを意味している。
【００２９】
更新された位置座標は、位置座標ＤＢ１６に格納され、それまで格納されていた位置座標に対して上書きされる。本実施形態において位置座標更新部２８は、位置座標の更新と併せて、各文書Ｔ_ｉの移動距離の平均値ＭＬを下記式、
【数７】

から求める。この平均値ＭＬは、後述する収束条件判定部３０による収束条件の判定の際に用いられる。
【００３０】
なお、位置座標更新部２８は、各文書に働く文書間力ベクトルの絶対値を全ての分類対象文書について和をとった値が極小となるまで、位置座標の更新を実行することが好適である。この場合、全ての分類対象文書間で特に高い整合性を保ちつつ、各文書の位置座標を決定することができる。
【００３１】
図１を参照すると、文書分類装置１は、収束条件判定部３０、表示部３２（出力手段）、及び入力部３４をさらに備えている。収束条件判定部３０は、位置座標更新部２８により位置座標が更新された後に、収束条件の判定を行う。例えば、上述の位置座標更新部２８において求められた平均値ＭＬが規定値以下になることを収束条件として設定することができる。この収束条件が満たされないときは、収束条件判定部３０は、文書間力ベクトル算出部２６に更新後の位置座標を用いて再度総和文書間力ベクトルを算出させるとともに、位置座標更新部２８にその総和文書間力ベクトルを用いて再度位置座標を更新させる。したがって、位置座標更新部２８による位置座標の更新は、上述の収束条件が満たされるまで実行される。
【００３２】
表示部３２は、上述の収束条件が満たされ、位置座標更新部２８による位置座標の更新が終了した後、決定した位置座標に基づいて、各文書Ｔ_ｉ間の座標平面上における相対的な位置関係を可視化して表示する。これにより、ユーザは、表示部３２による表示を見ることにより、容易に文書間の相対的な位置関係を知ることができる。ここで、図５を参照して、表示部３２における表示方法の一例を説明する。
【００３３】
まず、表示エリア５０をｍ×ｎ個（ここではｍ＝ｎ＝４）のセルに区切る。また、後述する入力部３４により表示エリアを規定するＸ座標、Ｙ座標それぞれの最大値（Ｘ_ｍａｘ、Ｙ_ｍａｘ）及び最小値（Ｘ_ｍｉｎ、Ｙ_ｍｉｎ）を入力する。なお、これらの値を入力せずに、既に決定されている全文書の位置座標から、Ｘ座標及びＹ座標それぞれについて、最大のもの及び最小のものをデフォルト値として用いることもできる。
【００３４】
次に、表示部３２は、入力されたこれらの値から、各セルに相当する座標範囲を求める。そして、各セルに含まれる文書の数を、図５に示すように表示する。例えば、この場合、一番右上のセルに含まれる文書数は１である。さらに本例では、各セルに含まれる文書のイメージを作成するとともに、各セルにそのイメージをハイパーリンクさせる。図５に示すように、注目するセルにマウスポインタ５２を合わせると、そのセルに含まれる文書を、該当文書リストとして表示させることができる。
【００３５】
図５では、分類対象文書として公開特許公報等の特許文献（外国語又は外国で発行された特許文献も含む。）を想定しており、該当文書リストには特許文献の種別と公報番号とを表示させている。また、これらの表示にはハイパーリンクが貼られているので、例えば「特開平８−○○○○○○号公報」と表示されている部分を画面上でクリックすれば、その公開特許公報のイメージにアクセスして、その内容を見ることができる。
【００３６】
図１を参照すると、入力部３４は、表示部３２により表示される対象となる座標平面上における表示エリア等を入力するためのものであり、例えばキーボードやマウス等が用いられる。例えば、図５の例では、表示エリア５０を規定するＸ_ｍａｘ、Ｙ_ｍａｘ、Ｘ_ｍｉｎ、Ｙ_ｍｉｎの値を入力部３４から入力することができる。入力された情報は、表示部３２へと渡される。これにより、ユーザは、座標平面上の所望の範囲を表示させ、その範囲における文書間の位置関係を詳細に知ることができる。
【００３７】
次に、図６を参照して、文書分類装置１のハードウェア構成について説明する。図６に示すように、文書分類装置１は、物理的には、制御装置１ａ、メモリ１ｂ、格納装置１ｃ、入力装置１ｄ、及び表示装置１ｅを備えて構成される。これら各装置は、バス１ｆを介して相互に各種信号の入出力が可能な様に電気的に接続されている。
【００３８】
具体的には、制御装置１ａは例えばＣＰＵ（Central Processing Unit）であり、メモリ１ｂはＲＡＭ（Random Access Memory）といった揮発性の半導体メモリである。格納装置１ｃはＨＤＤ（HardDisc Drive）を始めとする不揮発性の磁気ディスクである。入力装置１ｄは例えばキーボードやマウスであり、表示装置１ｅはＬＣＤ（LiquidCrystal Display）やＣＲＴ（Cathode Ray Tube）ディスプレイである。
【００３９】
上記ハードウェア構成と機能的構成との対応関係を以下に示す。文書分類装置１に関して、データベース１０の有する機能は、物理的な構成要素としての格納装置１ｃにより実現される。安定文書間距離算出部２２、位置座標初期値設定部２４、文書間力ベクトル算出部２６、位置座標更新部２８、収束条件判定部３０の有する各機能は、制御装置１ａが所定のプログラムを実行することにより実現される。入力部３４の有する各機能は入力装置１ｄにより実現される。なお、表示部３２の有する各機能は、制御装置１ａ及び表示装置１ｅにより実現される。すなわち、制御装置１ａが所定の演算を施すことにより分類結果の表示内容を確定し、表示装置１ｅがその内容に従って分類結果を表示する。
【００４０】
次に、図７乃至図１６を参照して、安定文書間距離算出部２２の詳細な構成について説明する。ここで、図７は、図１の安定文書間距離算出部２２の構成の一例を示すブロック図、図８は、参照ワードＤＢ８２ａのデータベースの一例を示す構成図、図９は、共通ワードカウントテーブルによるカウントを説明する図、図１０は、キーワード評価値ＤＢ８４ａのデータベースの一例を示す構成図、図１１は、キーワード類似度ＤＢ８５ａのデータベースの一例を示す構成図、図１２は、参照組付与情報ＤＢ８２ｂのデータベースの一例を示す構成図、図１３は、共通参照組付与情報カウントテーブルによるカウントを説明する図、図１４は、組付与情報評価値ＤＢ８４ｂのデータベースの一例を示す構成図、図１５は、組付与情報類似度ＤＢ８５ｂのデータベースの一例を示す構成図、図１６は、文書類似度ＤＢ８６のデータベースの一例を示す構成図である。
【００４１】
図７を参照すると、安定文書間距離算出部２２は、各種文書からワード及び組付与情報を抽出するワード・組付与情報抽出部７０と、ワード・組付与情報抽出部７０によって抽出されたワード及び組付与情報を格納する各種データベース８０とを備えている。
【００４２】
ワード・組付与情報抽出部７０は、キー文書からワード及び組付与情報をキーワード・組付与情報として抽出するキーワード・組付与情報抽出部７１と、参照文書からワード及び組付与情報を参照ワード・組付与情報として抽出する参照ワード・組付与情報抽出部７２と、検索文書からワード及び組付与情報を検索ワード・組付与情報として抽出する検索ワード・組付与情報抽出部７３とを有している。
【００４３】
ここで、「キー文書」及び「検索文書」の区分は便宜的なものであり、安定文書間距離算出部２２においては、文書間距離を求めたい２文書のうちの一方がキー文書、他方が検索文書とされる。また、参照文書とは、キーワード評価値（各キーワードがキー文書に固有に含まれる程度（非一般性）を表す値）及び組付与情報評価値（各組付与情報がキー文書に固有に含まれる程度（非一般性）を表す値）を設定する際に参照される文書である。参照文書としては、例えば分類対象文書ＤＢ１２（図１参照）内の全文書、或いは予めランダムに抽出した分類対象文書ＤＢ１２内の一部の文書を用いることができる。参照文書は、適宜の入力手段により、必要に応じて安定文書間距離算出部２２に入力することができる。また、安定文書間距離算出部２２は、参照文書を格納する格納手段を備えている。
【００４４】
抽出部７１〜７３は、日本語にあっては、ひらがな、句読点、特殊記号及びスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。また、抽出部７１〜７３は、英語等のアルファベット表記がなされる言語にあっては、特殊記号及び／又はスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。抽出部７１〜７３は、一つの文書から重複してワードを抽出しないように、ある文書から切り出されたワードは、同じ文書から既に切り出されたワードと照合され、一致しないワードのみを抽出する機能を有する。
【００４５】
図７を参照すると、データベース（ＤＢ）８０は、キーワードＤＢ８１ａ、参照ワードＤＢ８２ａ、検索ワードＤＢ８３ａ、キーワード評価値ＤＢ８４ａ、キーワード類似度ＤＢ８５ａ、組付与情報ＤＢ８１ｂ、参照組付与情報ＤＢ８２ｂ、検索組付与情報ＤＢ８３ｂ、組付与情報評価値ＤＢ８４ｂ、組付与情報類似度ＤＢ８５ｂ及び文書類似度ＤＢ８６を有している。
【００４６】
キーワードＤＢ８１ａは、キー文書から抽出したキーワードを格納する。キーワードは、抽出元であるキー文書を特定するキー文書コードに関連付けて格納されている。
【００４７】
参照ワードＤＢ８２ａ（各文書に含まれるワードを当該文書の文書番号と関連付けて格納したテーブル）は、参照文書から抽出された参照ワードを、それぞれの抽出元である参照文書を特定する参照文書コードと関連付けて格納する。参照ワードＤＢ８２ａは、例えば図８に示すような、参照文書コードおよび参照ワードを項目とするリレーショナルデータベース（以下、ＲＤＢ）である。図８では、５つの参照文書から抽出された参照ワードが、それらの文書コード（Ｐ１，Ｐ２，・・Ｐ５）に関連付けられて格納されている例が示されている。
【００４８】
検索ワードＤＢ８３ａは、検索文書から抽出される検索ワードを格納する。検索ワードは、抽出元である検索文書を特定する検索文書コードに関連付けて格納されている。
【００４９】
キーワード評価値ＤＢ８４ａは、後述するキーワード評価値計算部９１により算出される評価値を格納する。キーワード評価値ＤＢ８４ａは、例えば図１０に示すような、参照ワードおよびキーワード評価値を項目とするＲＤＢである。ここで、キーワード評価値ＤＢ８４ａに格納される参照ワードは、図８で得られた異なる参照ワードの集合である。
【００５０】
キーワード類似度ＤＢ８５ａは、後述するキーワード類似度計算部９２により算出されるキーワード類似度を格納する。キーワード類似度ＤＢ８５ａは、例えば図１１に示すような、キー文書、検索文書およびキーワード類似度を項目とするＲＤＢである。
【００５１】
組付与情報ＤＢ８１ａは、キー文書から抽出した組付与情報を格納する。組付与情報は、抽出元であるキー文書を特定するキー文書コードに関連付けて格納されている。組付与情報としては、文書に付与されたＩＰＣと発明者氏名を組合わせたものが好適である。
【００５２】
参照組付与情報ＤＢ８２ｂは、参照文書から抽出した組付与情報を格納する。組付与情報は、抽出元である参照文書を特定する参照文書コードに関連付けて格納されている。参照組付与情報ＤＢ８２ｂは、例えば図１２に示すような、参照文書コードおよび参照組付与情報を項目とするＲＤＢであり、組付与情報は、ＩＰＣ項目と発明者項目の要素を連結することによって得られる。
【００５３】
ＩＰＣと発明者とがそれぞれ複数存在する場合には、それらのすべての組合せに対する組付与情報が格納される。また、ＩＰＣのように文書の分類情報が階層構造を有する場合には、それぞれの階層の分類情報と発明者氏名とのすべての組合せに対する組付与情報が格納される。図１２には、サブクラス以降のＩＰＣに対する組付与情報が示されている。また、組付与情報ＤＢ８２ｂに格納される組付与情報は、ワード・組付与情報抽出部７０により抽出されたものであってもよいし、入力されたデータに基づくものであってもよい。
【００５４】
検索組付与情報ＤＢ８３ｂは、検索文書から抽出される検索組付与情報を格納する。検索組付与情報は、抽出元である検索文書を特定する検索文書コードに関連付けて格納されている。
【００５５】
組付与情報評価値ＤＢ８４ｂは、後述する組付与情報評価値計算部９３により算出される評価値を格納する。組付与情報評価値ＤＢ８４ｂは、例えば図１４に示すような、参照組付与情報および組付与情報評価値を項目とするＲＤＢである。ここで、組付与情報評価値ＤＢ８４ｂに格納される組付与情報は、図１２で得られた異なる組付与情報の集合である。
【００５６】
組付与情報類似度ＤＢ８５ｂは、後述する組付与情報類似度計算部９４により算出される組付与情報類似度を格納する。組付与情報類似度ＤＢ８５ｂは、例えば図１５に示すような、キー文書、検索文書、組付与情報、組付与情報類似度を項目とするＲＤＢである。
【００５７】
文書類似度ＤＢ８６は、キーワード類似度と組付与情報類似度とを総合した類似度である文書類似度を格納する。文書類似度ＤＢ８６は、例えば図１６に示すような、キー文書、検索文書、文書類似度を項目とするＲＤＢである。
【００５８】
なお、上記のキーワード、参照ワード、及び検索ワードは、それぞれ抽出対象となる文書の全体から抽出してもよいし、一部から抽出してもよい。例えば、抽出対象となる文書が特許文献であれば、書誌的事項、要約、請求項、又は実施例等に抽出範囲を限定してもよい。特に、データ量に制限がある場合には、抽出範囲を文書の一部に絞ることが有効となる。また、参照ワードは参照文書の一部から抽出し、キーワード及び検索ワードはそれぞれキー文書及び検索文書の全体から抽出するというように、各ワード毎に適宜抽出範囲を変えることより、いわゆるノイズと漏れの関係を調整することができる。
【００５９】
図７を参照すると、安定文書間距離算出部２２は、キーワード評価値計算部９１及びキーワード類似度計算部９２を備えている。キーワード評価値計算部９１は、全参照文書中でキー文書と共通のワードが出現する出現率を算出する機能を有する。参照文書がＮ個で、そのうちのＢ個に共通のワードが存在する場合には、全文書内キーワード出現率は、Ｂ／Ｎで算出される。
【００６０】
キーワード評価値計算部９１は、参照ワードＤＢ８２ａに格納された参照ワードを検索して、キーワードと同一のものが何個存在するか算出する。キーワードの出現数の算出には、例えば、図９に示すような、カウントテーブルを用いてもよい。図９を参照すると、例えば「課題」が共通ワードであった場合、「課題」は参照文書Ｐ１〜Ｐ５すべてに出現しているため、出現数は５となっている。カウントされた出現数を全参照文書の数で除することによって、全文書内キーワード出現率が算出される。
【００６１】
さらに、キーワード評価値計算部９１は、全文書内キーワード出現率の逆数をとって、キーワード評価値を算出する機能を有する。すなわち、キーワード評価値は、Ｎ／Ｂで算出され、各キーワードがキー文書に固有に含まれる程度（非一般性）を示すものである。キーワード出現数Bを０．１〜０．８乗する調整を施すことが考えられる。この場合、たとえば０．５乗する調整を施すとき、キーワード評価値は、Ｎ／（Ｂ^０．５）となる。
【００６２】
キーワード類似度計算部９２は、検索文書に含まれる全てのキーワードの評価値を加算することにより、キー文書と検索文書とが類似する程度を表すキーワード類似度を算出する機能を有する。更に加算値を２〜１００で除した値をキーワード類似度として、後述する組付与情報類似度とのバランスをとることが考えられる。キーワード類似度計算部９２は、このようにして算出したキーワード類似度をキーワード類似度ＤＢ８５ａに格納させる。
【００６３】
図７を参照すると、安定文書間距離算出部２２は、組付与情報評価値計算部９３及び組付与情報類似度計算部９４を備えている。組付与情報評価値計算部９３は、組付与情報ＤＢ８１ｂを参照して、キー文書に付与された各組付与情報の全参照文書中における出現率を算出する機能を有する。具体的には、図１３に示すような、カウントテーブルを用いてキー文書に付与された各組付与情報の出現数をカウントし、その出現数を全参照文書の数で除することによって、全文書内組付与情報出現率を算出する。参照文書がＮ個で、全文書中のＣ個において当該組付与情報が付与されている場合には、全文書内組付与情報出現率は、Ｃ／Ｎで算出される。
【００６４】
さらに、組付与情報評価値計算部９３は、全文書内組付与情報出現率の逆数をとって、組付与情報評価値を算出する機能を有する。すなわち、組付与情報評価値は、Ｎ／Ｃで算出され、各組付与情報がキー文書に固有に含まれる程度（非一般性）を示すものである。組付与情報出現数Ｃを０．１〜０．８乗する調整を施すことが考えられる。この場合、たとえば０．５乗する調整を施すとき、組付与情報評価値は、Ｎ／（Ｃ^０．５）となる。
【００６５】
組付与情報類似度計算部９４は、キー文書と検索文書が共通して引用する全ての文献についての評価値を加算することにより、キー文書と検索文書とが類似する程度を表す組付与情報類似度を算出する機能を有する。組付与情報類似度計算部９４は、このようにして算出した組付与情報類似度を組付与情報類似度ＤＢ８５ｂに格納させる。また、組付与情報類似度計算部９４は、ＩＰＣのように文書の分類情報が階層構造を有する場合には、それぞれの階層の分類情報すなわち組付与情報に対する類似度を算出する。
【００６６】
図７を参照すると、安定文書間距離算出部２２は、文書類似度計算部９５及び文書間距離計算部９６を備えている。文書類似度計算部９５は、キーワード類似度のみをキー文書と検索文書との類似度（初期文書類似度）とする機能と、キーワード類似度と組付与情報類似度とを総合してキー文書と検索文書との類似度（文書類似度）を算出する機能を有する。具体例として、文書類似度計算部９５は、キーワード類似度と組付与情報類似度との平均値を文書類似度として文書類似度ＤＢ８６に格納する。この際、前述したとおりキーワード類似度を適当な数で除することにより、キーワード類似度が安定文書間距離に与える影響の強さと組付与情報類似度が安定文書間距離に与える影響の強さとのバランスを調整することが考えられる。
【００６７】
文書間距離計算部９６は、文書類似度ＤＢ８６に格納されている類似度を用いて文書Ｔ_ｉと文書Ｔ_ｊとの間の初期文書類似度に基づく初期安定文書間距離Ｌ_０（１）（ｉ，ｊ）または文書類似度に基づく安定文書間距離Ｌ_０（２）（ｉ，ｊ）を算出する機能を有する。ここで、初期安定文書間距離Ｌ_０（１）（ｉ，ｊ）および安定文書間距離Ｌ_０（２）（ｉ，ｊ）は、下記式、
【数８】

【数９】

から求められる。ここで、Ｓ_{ｉｊ（１）}は、文書Ｔ_ｉをキー文書とし、文書Ｔ_ｊを検索文書としたときの初期文書類似度を表し、Ｓ_{ｊｉ（１）}は、文書Ｔ_ｊをキー文書とし、文書Ｔ_ｉを検索文書としたときの初期文書類似度を表し、Ｓ_{ｉｊ（２）}は、文書Ｔ_ｉをキー文書とし、文書Ｔ_ｊを検索文書としたときの文書類似度を表し、Ｓ_{ｊｉ（２）}は、文書Ｔ_ｊをキー文書とし、文書Ｔ_ｉを検索文書としたときの文書類似度を表す。つまり、上記式は、文書Ｔ_ｉと文書Ｔ_ｊとの間で、キー文書と検索文書の関係を入れ替えて算出された類似度の平均値をとり、さらにその平均値の逆数をとることを意味している。キー文書と検索文書の関係を入れ替えて算出された類似度の平均値を用いるのは、上記のＳ_{ｉｊ（１）}とＳ_{ｊｉ（１）}（Ｓ_{ｉｊ（２）}とＳ_{ｊｉ（２）}）とは必ずしも一致しないからである。このようにして算出される初期安定文書間距離Ｌ_０（１）（ｉ，ｊ）および安定文書間距離Ｌ_０（２）（ｉ，ｊ）は、両文書間の類似度が高いほど小さくなり、類似度が低いほど大きくなる。
【００６８】
次に、図１７乃至図２２を参照して、文書分類装置１の動作を説明し、併せて本発明による文書分類方法の一実施形態を説明する。
【００６９】
図１７を参照すると、先ず、安定文書間距離算出部２２が、分類対象文書ＤＢ１２に格納されている分類対象文書を読み込んで、各２文書間における初期文書類似度に基づく安定文書間距離（初期安定文書間距離）を算出し、算出した初期安定文書間距離Ｌ_０（１）（ｉ，ｊ）を安定文書間距離ＤＢ１４に格納させる（Ｓ６１）。続いて、安定文書間距離算出部２２が、文書間距離ＤＢ１４に格納されている初期安定文書間距離Ｌ_０（１）（ｉ，ｊ）を読み込んで平均値Ｌ_{ａｖｇ（１）}を算出し（Ｓ６２）、各初期安定文書間距離Ｌ_０（１）（ｉ，ｊ）をこの平均値Ｌ_{ａｖｇ（１）}で除することにより正規化して安定文書間距離ＤＢ１４のデータを更新する（Ｓ６３）。
【００７０】
次に、配置文書選択部２３が、最初に表示座標系に配置する分類対象文書である初期配置文書Ｔ_ｋをｉｎｔ√Ｎ（分類対象文書の総数Ｎの平方根の小数点以下を切り捨てた値）個選択する（Ｓ６４）。続いて、位置座標初期値設定部２４は、任意文書位置座標を用いて各文書の位置座標の初期値を設定し、設定した位置座標の初期値を位置座標ＤＢ１６に格納させる（Ｓ６５）。
【００７１】
そして、文書間力ベクトル算出部２６が、文書間距離ＤＢ１４に格納されている初期安定文書間距離Ｌ_０（１）（ｉ，ｊ）及び位置座標ＤＢ１６に格納されている位置座標を読み込み、それらの値を用いて、各文書に働く総和文書間力ベクトルを算出し、算出した総和文書間力ベクトルを文書間力ベクトルＤＢ１８に格納する（Ｓ６６）。
【００７２】
その後、位置座標更新部２８が、文書間力ベクトルＤＢ１８に格納されている総和文書間力ベクトルを読み込み、そのベクトルに基づいて各文書の位置座標を更新し、更新した位置座標を位置座標ＤＢ１６に格納させる（Ｓ６７）。位置座標が更新されると、収束条件判定部３０が収束条件の判定を行い、収束条件が満たされていない場合には上記ステップ（Ｓ６６〜Ｓ６７）を繰返し実行させる。収束条件が満たされている場合には、図２１に示す表示座標系に追加の配置文書を加えていく処理（文書追加処理）に処理が移行する。
【００７３】
次に、図１８を参照して、安定文書間距離を算出する処理（図１７の安定文書間距離算出ステップ（Ｓ６１）のサブルーチン）について説明する。まず、キーワード抽出部７１がキー文書からキーワードを抽出し、抽出したキーワードをキーワードＤＢ８１ａに格納させる（Ｓ８０１）。また、参照ワード抽出部７２が参照文書から参照ワードを抽出し、抽出した参照ワードを参照ワードＤＢ８２ａに格納させる（Ｓ８０２）。
【００７４】
次に、キーワード評価値計算部９１が、参照ワードＤＢ８２ａに格納されている参照ワードを読み込み、各キーワードの評価値を計算し、その評価値をキーワード評価値ＤＢ８４ａに格納させる（Ｓ８０３）。また、検索ワード抽出部７３が検索文書から検索ワードを抽出し、抽出した検索ワードを検索ワードＤＢ８３ａに格納させる（Ｓ８０４）。次に、キーワード類似度計算部９２が、キーワード評価値ＤＢ８４ａに格納されている評価値及び検索ワードＤＢ８３ａに格納されている検索ワードを読み込み、キー文書と検索文書との間のキーワード類似度を計算し、その類似度をキーワード類似度ＤＢ８５ａに格納させる（Ｓ８０５）。
【００７５】
組付与情報評価値計算部９３が、キー文書と検索文書に共通して付与される共通組付与情報を抽出し（Ｓ８０６）、これらの文献各々の組付与情報評価値を計算する（Ｓ８０７）。組付与情報類似度計算部９４が、キー文書と検索文書との組付与情報類似度を計算し、組付与情報類似度ＤＢ８５ｂに対してＩＰＣの階層ごとに格納する（Ｓ８０８）。文書類似度計算部９５が、キー文書と検索文書とに関して、初期文書類似度と、キーワード類似度及び組付与情報類似度とを平均した文書類似度とをそれぞれ計算する（Ｓ８０９）。最後に、文書間距離計算部９３が、キー文書と検索文書における、初期文書類似度に基づく初期安定文書間距離Ｌ_０（１）（ｉ，ｊ）と、文書類似度に基づく安定文書間距離Ｌ_０（２）（ｉ，ｊ）とを計算する（Ｓ８１０）。
【００７６】
なお、キーワード類似度及び組付与情報類似度の平均を求める際、例えば、組付与情報類似度に２〜４０、好ましくは８〜１１の係数を乗じて組付与情報類似度に重みをつけることで、表記のゆれが問題となる内容類似の文書間では組付与情報類似度による評価を、共通する組付与情報がない分野の異なる文書間では、キーワード類似度による評価を主体とすることが可能になり、この安定文書間距離に基づき位置座標を算出することで、広い技術分野にわたる特許文献をより詳細に分類配置することが可能になる。
【００７７】
次に、図１９を参照して、図１７の総和文書間力ベクトル算出ステップ（Ｓ６６）のサブルーチンについて説明する。まず、文書間力ベクトル算出部２６が、位置座標ＤＢ１６に格納されている各文書の位置座標を読み込み、その位置座標から各２文書間の座標平面上における距離（離間ベクトルの長さ）を算出する（Ｓ９１）。また、文書間力ベクトル算出部２６は、文書間距離ＤＢ１４に格納されている初期安定文書間距離Ｌ_０（１）（ｉ，ｊ）または安定文書間距離Ｌ_０（２）（ｉ，ｊ）を読み込み、それらの安定文書間距離と前ステップＳ９１で計算した距離とを用いて、文書間力を算出する（Ｓ９２）。さらに、文書間力ベクトル算出部２６は、離間ベクトルに基づいて文書間力のＸ成分及びＹ成分を算出し（Ｓ９３）、ある文書に対して他の配置済み文書から働く文書間力の総和をベクトル和として求めることにより、総和文書間力ベクトルを算出する（Ｓ９４）。そして、全ての配置済み文書について総和文書間力ベクトルが算出された場合にはフローが終了し、総和文書間力ベクトルが算出されていない文書がある場合には、上記ステップ（Ｓ９１〜Ｓ９４）が繰り返される（Ｓ９５）。
【００７８】
次に、図２０を参照して、図１７の位置座標の更新ステップ（Ｓ６７）のサブルーチンについて説明する。まず、位置座標更新部２８が、文書間力ベクトルＤＢ１８に格納されている文書間力ベクトルを読み込み、そのベクトルに応じて各文書の移動、すなわち位置座標の変更を行う（Ｓ１０１）。その後、位置座標更新部２８は、収束条件の判定に用いられる、各文書の移動距離の平均値を算出する（Ｓ１０２）。これは、Ｓ６８において、移動距離の平均値が閾値を下回ることを収束条件とすることができる。また、これに代えてｉｎｔ√Ｎ回位置座標の更新ステップを繰り返したことを収束条件とすることもできる。
【００７９】
次に、図２１を参照して、文書追加処理について説明する。図１７に示した初期配置文書の配置・移動処理が終了してから、順次追加の配置文書を加えていって、全ての分類対象文書の配置・移動を完了させる場合を考える。
【００８０】
配置文書選択部２３が、次に表示座標系に加える時期配置文書を、ｉｎｔ（ｍｍ／１０）（ただし、ｍｍは既に表示座標系に配置済みの分類対象文書の数）個無作為に選択する（Ｓ１１１）。ただし、分類対象文書の残りの個数がｉｎｔ（ｍｍ／１０）に満たない場合には、残存している分類対象文書全てが時期配置文書になる。初期配置文書の配置・移動処理の直後に追加される時期配置文書の数は、ｉｎｔ｛（ｉｎｔ√Ｎ）／１０｝個となる。
【００８１】
位置座標初期値設定部２４が、時期配置文書が最初に設置される表示座標系上の位置座標を算出する（Ｓ１１２）。本実施形態では、時期配置文書は、最も安定文書間距離が短い配置済み分類対象文書の近傍に位置するように初期設定される。具体的には、位置座標初期値設定部２４は、安定文書間距離ＤＢ１４を参照して、Ｌ_０（１）（ｃ，ｍｍ＋ｋ）が最小値となるｃを求め（ただし、ｃ＝１〜ｍｍ）、時期配置文書Ｔ_ｋの位置座標の初期値を（Ｘ_ｋ，Ｙ_ｋ）＝（Ｘ_ｃ＋ε，Ｙ_ｃ＋ε）（ε：定数）とする。また、以上に代えて初期配置文書の場合と同様に時期配置文書の初期値を乱数により決定してもよい。
【００８２】
ある時期配置文書の位置座標が初期値に設定された後、文書間力ベクトル算出部２６が、当該時期配置文書が他の配置済み分類対象文書から受ける現在の総和文書間力ベクトルを算出する（Ｓ１１３）。位置座標更新部２８が、この総和文書間力ベクトルに基づき当該時期配置文書の位置座標を更新する（Ｓ１１４）。収束条件判定部３０が、当該時期配置文書の今回の移動量が閾値以下であること又はＳ１１３〜Ｓ１１５の処理が所定の回数実行されたことをもって当該時期配置文書の位置座標の収束を判断する（Ｓ１１５）。収束が判断されなかった場合には、当該時期配置文書について再びＳ１１３〜Ｓ１１５の処理が繰り返される。
【００８３】
時期配置文書のうちの他の文書についても、順次Ｓ１１２〜Ｓ１１５の処理が行われる。時期配置文書中の全ての文書について配置・移動処理が完了した場合には、今回表示座標系に加えられた時期配置文書を含む全ての配置済み文書について位置計算（Ｓ６６〜Ｓ６８の処理）が√Ｎ回行われる（Ｓ１１７）。この計算結果として得られる位置座標が、後述する文書移動処理（図２３参照）で使用される初期文書位置座標（Ｘ_ｋ（１），Ｙ_ｋ（１））となる。このように、時期配置文書の全てを一度に配置して移動処理（全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理）を行う代わりに、他の配置済み文書の位置座標を固定しつつ一つずつ順次時期配置文書の配置・移動処理を行って全ての時期配置文書の位置座標を仮決めし、さらに今回の時期配置文書を含む全ての配置済み文書についての配置・移動処理を行うことにより、移動処理の繰返回数を減少させることができる。未配置の分類対象文書についてＳ１１１〜Ｓ１１７の処理が行われる。ただし、未配置の分類対象文書がなくなった場合には、上記で得られた初期文書位置座標に基づいて表示部３２が結果表示を行い（Ｓ１１９）、図２３に示される文書移動処理に移行する。
【００８４】
次に、図２２を参照して、図２１の結果表示ステップ（出力ステップ）のサブルーチンについて説明する。まず、表示部３２が、表示エリアをｍ×ｎ個のセルに区切る（Ｓ１２１）。ここで、入力部３４により表示エリアを規定するＸ座標及びＹ座標それぞれの最大値及び最小値を入力する（Ｓ１２２）。この入力は、ユーザが行うものである。次に、表示部３２は、入力部３４より入力された上記の値に基づいて、各セルに相当する座標範囲を算出する（Ｓ１２３）。そして、表示部３２は、各セルの座標範囲内に位置座標を有する文書数を表示エリアに表示する（Ｓ１２４）。また、表示部３２は、各セルに含まれる文書のイメージを作成するとともに（Ｓ１２５）、各セルに文書のイメージをハイパーリンクさせる（Ｓ１２６）。
【００８５】
次に、図２３を参照して、文書移動処理について説明する。先ず、安定文書間距離算出部２２が、分類対象文書ＤＢ１２に格納されている分類対象文書を読み込んで各２文書間の文書類似度に基づく安定文書間距離Ｌ_０（２）（ｉ，ｊ）を算出し、算出した安定文書間距離Ｌ_０（２）（ｉ，ｊ）を安定文書間距離ＤＢ１４に格納させる（Ｓ２３１）。続いて、安定文書間距離算出部２２が、文書間距離ＤＢ１４に格納されている安定文書間距離Ｌ_０（２）（ｉ，ｊ）を読み込んで平均値Ｌ_{ａｖｇ（２）}を算出し（Ｓ２３２）、各安定文書間距離Ｌ_０（２）（ｉ，ｊ）をこの平均値Ｌ_{ａｖｇ（２）}で除することにより正規化して安定文書間距離ＤＢ１４のデータを更新する（Ｓ２３３）。
【００８６】
続いて、位置座標初期値設定部２４は、ステップＳ１１７の計算の結果得られた初期文書位置座標（Ｘ_ｋ（１），Ｙ_ｋ（１））を用いて各文書の位置座標の初期値を設定し、設定した位置座標の初期値を位置座標ＤＢ１６に格納させる（Ｓ２３５）。
【００８７】
そして、文書間力ベクトル算出部２６が、文書間距離ＤＢ１４に格納されている安定文書間距離Ｌ_０（２）及び位置座標ＤＢ１６に格納されている位置座標を読み込み、それらの値を用いて、各文書に働く総和文書間力ベクトルを算出し、算出した総和文書間力ベクトルを文書間力ベクトルＤＢ１８に格納する（Ｓ２３６）。
【００８８】
その後、位置座標更新部２８が、文書間力ベクトルＤＢ１８に格納されている総和文書間力ベクトルを読み込み、そのベクトルに基づいて各文書の位置座標を更新し、更新した位置座標を位置座標ＤＢ１６に格納させる（Ｓ２３７）。位置座標が更新されると、収束条件判定部３０が収束条件の判定を行い、収束条件が満たされていない場合には上記ステップ（Ｓ２３６〜Ｓ２３７）を繰返し実行させる。収束条件が満たされている場合には、上記で更新された位置座標に基づいて表示部３２が結果表示を行い（Ｓ２３９）、配置・移動処理が終了する。
【００８９】
次に、第一実施形態にかかる文書分類装置１の作用及び効果について説明する。
【００９０】
文書分類装置１の文書類似度計算部９５は、ステップＳ８０９において、キーワード類似度と組付与情報類似度とを平均して文書類似度を算出する。そのため、文書類似度おけるキーワード類似度の影響が組付与情報類似度によって低減されるので、キーワード分類における文書の表記の差による影響を低減することができる。また、組付与情報は、ＩＰＣと発明者氏名とによって構成されているので、分類対象文書の分野によって分類対象文書間の組付与情報類似度および文書類似度が増減する。安定文書間距離算出部２２は、文書類似度が増大すると安定文書間距離Ｌ_０（２）（ｉ，ｊ）を減少させ、文書類似度が減少すると安定文書間距離Ｌ_０（２）（ｉ，ｊ）を増大させるので、表示部３２が異なる分野の文書を適切な文書間距離で表示することが出来る。
【００９１】
また、文書分類装置１の組付与情報類似度計算部９４は、ステップＳ８０８において、ＩＰＣの階層ごとに組付与情報類似度を算出する。そのため、図１５のレコードＮｏ５に示すように、サブグループまでのＩＰＣを含む組付与情報類似度が０である場合においても、より階層の浅いサブクラスまでのＩＰＣを含む組付与情報類似度を算出することによって、文書間に類似性を見出される場合がある。また、多くの文書が近い文書間距離で近接している場合には、上記とは逆にＩＰＣの階層を深くすることによって、より類似性の高い文書を検出することができる。したがって、分類対象文書の類似度合いに応じて、分類の分解能を調整することができるので、さまざまな類似状況にある分類対象文書を適切に分類することが出来る。
【００９２】
なお、本発明による文書分類装置は、上記実施形態に限られるものではなく、他に様々な変形が可能である。
【００９３】
安定文書間距離の計算処理の別の例を示す。本例では、安定文書間距離算出部２２において共通キーワードに基づく類似度を計算する処理機能（キーワード評価値計算部９１及びキーワード類似度計算部９２）と共通組付与情報に基づく類似度を計算する処理機能（組付与情報評価値計算部９３及び組付与情報類似度計算部９４）とが統合されている。また、本例の参照文書テーブルは参照ワードＤＢ８２ａのデータと組付与情報ＤＢ８１ｂのデータとを結合させたものである。
【００９４】
図２４は、安定文書間距離の計算処理の第２例におけるフローチャートを示す。図２４を参照して、本例の計算処理について説明する。安定文書間距離算出部２２（キーワード・組付与情報抽出部７０）は、キー文書及び検索文書からワード・組付与情報を抽出して（Ｓ２１１）、共通キーワード及び共通組付与情報を抽出・格納する（Ｓ２１２）。安定文書間距離算出部２２は、参照文書テーブルを参照して、参照文書テーブルにおける各共通キーワード及び共通組付与情報の出現率を計算し、これに基づき評価値を計算・格納する（Ｓ２１３）。安定文書間距離算出部２２は、各共通組付与情報の評価値に２〜４０、好ましくは８〜１１の係数を乗じてこの値に置き換える（Ｓ２１４）。安定文書間距離算出部２２は、Ｓ２１３で得られたキーワード評価値とＳ２１４で得られた組付与情報評価値とを合算することにより文書類似度を計算する（Ｓ２１５）。さらに、合算値をＳ２１１で抽出されたワード・組付与情報の総数で除した値を文書類似度とするのが好適である。この文書類似度に基づいて安定文書間距離が計算される（Ｓ２１６）。
【００９５】
上記の例では共通キーワード及び共通組付与情報の評価値を合算することによりそれぞれに基づく類似度を算出するが、これに代えてベクトル空間法を適用してキーワード類似度と組付与情報類似度のそれぞれを求めてこれらに重みを乗じた上で文書類似度を算出する方法、共通キーワード及び共通組付与情報の評価値に予め重みを付けた上で一括してベクトル空間法で文書類似度を求めることも可能である。
【００９６】
ベクトル空間法を適用してキーワード類似度を算出する場合、一例として、図２５ないし図２７に示される処理がなされる。具体的には、（ｃ）及び（ｄ）欄に示される該当文書中にワードが現れる場合に１、そうでない場合に０とするベクトルそれぞれと、（ｂ）欄の評価値ベクトルの各要素を乗じる演算を行うことにより、（ｅ）及び（ｇ）欄のベクトルを算出する。（ｆ）及び（ｈ）欄に示されるように（ｅ）及び（ｇ）欄のベクトルの各要素を二乗する演算を行い、さらに正規化係数を乗じて（ｆ）欄のベクトルの単位ベクトル（ｉ）及び（h）欄のベクトルの単位ベクトル（j）を算出する。単位ベクトル（ｉ）と単位ベクトル（j）との距離又は内積に基づいてキーワード類似度を算出することができる。組付与情報類似度も、上記と同様の処理により算出することができる。また、キーワード及び検索ワードに加えてキー文書及び検索文書で付与されている組付与情報を同時にベクトル空間法演算の対象にし（この場合（ａ）欄には図１５の組付与情報と同様の入力がなされる。）、（ｂ）欄における評価値を、キーワード類似度と組付与情報類似度とのバランスをとるための重みを乗じた数値とすれば、その後に上記の演算を行うことにより直接文書類似度を取得することができる。
【００９７】
図２８（ａ）及び図２８（ｂ）は、図１の表示部３２による結果表示の第１の変形例を説明するための図である。図に示される表示エリア５０は、図５に対応するものである。本例では、表示エリア５０内の一部を新たな表示エリアとして指定することにより、その部分を表示エリア５０全体に再表示させることができる。例えば、図２８（ａ）において中央の４つのセル（外枠を太線で示している）を指定した場合、この指定した部分が、図２８（ｂ）に示すように、表示エリア５０全体に再表示される。このとき、表示エリア５０内のセル数は不変であるので、指定した部分はより細かいセルに分割されている。例えば、図２８（ａ）において文書数が「５」と表示されているセルは、図２８（ｂ）において右上の４つのセルに対応している。したがって、この４つのセルの文書数の和は５となっている。表示エリアの指定は、例えば図１の入力部３４に座標値を入力することにより、或いは画面上においてマウスで選択することにより行うことができる。
【００９８】
図２９は、図１の表示部３２による結果表示の第２の変形例を説明するための図である。本例において表示部３２は、表示エリア５４ｄ内のプロットエリア５４ｐに、各文書の表示座標系（二次元表示座標系）における位置座標をプロットして表示する。各プロット５６には、対応する文書を特定できるように、各文書のタイトル等がテキストボックス５３（「テキストボックス」とは、プロットされた文書の属性を表示するための一定の形状及び大きさの小エリアをいう。ただし、属性情報の表示量に応じて何段階かの異なる形状又は大きさのテキストボックスを設定することも考えられる。）内に表示される。テキストボックス５３が表示エリア５４ｄからはみ出すことがないように、プロットエリア５４ｐは表示エリア５４ａからテキストボックス５３のサイズ分（複数段階の形状又は大きさのテキストボックスが設定されている場合には、最も長い縦径又は横径の分）だけ内側に縮小されている。すなわち、表示エリア５４ａの各角に位置する点線と表示エリア５４ａの枠で囲われる領域はテキストボックス５３と同じ大きさ及び形状になっている。
【００９９】
ここでは、分類対象文書として公開特許公報を想定しており、その文献番号として出願番号が表示されている。また、表示されているテキストボックス５３あるいは文献番号には、ハイパーリンクが貼られており、画面上で文献番号をクリックすることによりその文書のイメージにアクセスすることができる。また、テクストボックス５３には文献番号の他に発明の名称や出願人、要約から切り出したキーワードを表示させることができ、これを行えば分類内容の把握が一層容易となる。
【０１００】
図３０は、図２９の変形例に係るフローチャートを示している。まず、ユーザが表示エリア５４ａを規定するＸ座標及びＹ座標それぞれの最大値及び最小値を入力する（Ｓ１５１）。この入力は、図１の入力部３４より行うことができる。表示部３２はプロットエリア５４ｐを設定する（Ｓ１５２）。表示部３２は、プロットエリア５４ｐ内にある各文書の位置座標をプロットし、プロット５６と関連付けてテキストボックス５３を表示する（Ｓ１５３）。さらに、表示部３２は、各プロットに文書イメージをハイパーリンクさせる（Ｓ１５４）。なお、図２９の表示例では、表示の一部領域を指定し、これを新たな表示エリアとして拡大表示する、或いは、表示エリアの一点、例えばエリア中心部のテキストボックスをマウスポインタで指定し、これを中心に拡大／縮小表示することができる。また、指定した１又は２以上のテキストボックスの内容を表計算ソフト等のワークシート上にコピーすることで、分類に続く作業をより一層容易にすることができる。
【０１０１】
図３１は、図１の表示部３２による結果表示の第３の変形例を説明するための図である。本例において、表示部３２は、ユーザが指定した基準文書の位置座標を基点として、座標平面上において表示半径内に位置座標をもつ文書を該当文書として表示する。基準文書及び表示半径の指定は、図１の入力部３４より行うことができる。また、基準文書は、分類対象文書ＤＢ１２に格納されている分類対象文書の中から選ばれる。図３１において表示画面５７内の右側に、該当文書リストが表示されている。これらの表示には、ハイパーリンクが貼られている。ここでは、基準文書から表示半径内に４つの文書が存在する。また、このリストは、基準文書からの距離が近い順にソートされて表示されている。さらに、本例では、表示画面５７内の左側に、表示エリア５８が設けられている。この表示エリア５８には、基準文書を中心として各文書の位置座標がプロットされ、併せて基準文書を中心として表示半径を半径とする円５９が表示される。この円５９は、表示半径を再指定する際の目安とすることができる。各プロットに付されている数字は、該当文書リストにおける番号に対応している。本例によれば、基準文書に類似する文書を検索することができる。また、この場合、基準文書を色又は字体等を変える所謂ハイライト表示で表示することにより、目標とする基準文書とそれに類似する文書の位置関係の把握が容易になる。
【０１０２】
図３２は、図３１の変形例に係るフローチャートを示している。まず、ユーザが図１の入力部３４より基準文書、及び表示変形を入力する（Ｓ１７１，Ｓ１７２）。すると、表示部３２は、位置座標ＤＢ１６に格納されている各文書の位置座標を読み込み、基準文書から表示半径内の距離にある文書を該当文書リストとして表示する（Ｓ１７３）。さらに、表示部３２は、該当文書リストに表示される文書のイメージをハイパーリンクさせる（Ｓ１７４）。ここで、ユーザは、必要に応じて、ハイパーリンクを辿ることにより表示された文書のイメージにアクセスし、その内容を確認する（Ｓ１７５）。そして、表示半径を再指定して検索し直すときは、上記ステップ（Ｓ１７２〜Ｓ１７５）を繰り返し実行し、検索し直さないときはフローを終了する（Ｓ１７６）。
【０１０３】
また、上記実施形態では、２次元の座標平面上において各文書の位置座標を決定する構成を示したが、その座標平面は１次元であってもよい。このとき、各文書は１本の直線上に位置座標を有することになるが、この場合も便宜的に１次元の「座標平面」と呼ぶことにする。また、３次元以上に拡張して、各文書の位置座標を決定する構成としてもよい。
【０１０４】
また、各文書の移動距離の平均値が規定値以下となることを収束条件としたが、収束条件はこれに限られない。例えば、各文書の移動距離の最大値が規定値以下となることを収束条件としてもよい。
【０１０５】
また、位置座標の更新の際に用いられる移動係数ｋは、常に一定の値である必要はない。ある程度収束が進んだ後、収束速度を上げるために、各文書の移動距離の平均値の増減如何によって移動係数ｋを加減する構成としてもよい。例えば、移動距離の平均値が前回の更新後よりも大きければｋ’＝ｋ×０．０１（ｋ’：加減後の移動係数）とし、小さければｋ’＝ｋ×１．０３とする。
【産業上の利用可能性】
【０１０６】
複数の特許文献の間の類似度の関係を視覚で認識できるように示すことができる。
【図面の簡単な説明】
【０１０７】
【図１】本発明による文書分類装置の一実施形態を示すブロック図である。
【図２】文書間距離ＤＢ１４のデータベースの一例を示す構成図である。
【図３】位置座標ＤＢ１６のデータベースの一例を示す構成図である。
【図４】文書間力ベクトルＤＢ１８のデータベースの一例を示す構成図である。
【図５】表示部３２による結果表示画面の一例を示す図である。
【図６】図１の文書分類装置１のハードウェア構成を示すブロック図である。
【図７】図１の安定文書間距離算出部２２の構成の一例を示すブロック図である。
【図８】参照ワードＤＢ８２ａのデータベースの一例を示す構成図である。
【図９】共通ワードカウントテーブルによるカウントを説明する図である。
【図１０】キーワード評価値ＤＢ８４ａのデータベースの一例を示す構成図である。
【図１１】キーワード類似度ＤＢ８５ａのデータベースの一例を示す構成図である。
【図１２】参照組付与情報ＤＢ８２ｂのデータベースの一例を示す構成図である。
【図１３】共通参照組付与情報カウントテーブルによるカウントを説明する図である。
【図１４】組付与情報評価値ＤＢ８４ｂのデータベースの一例を示す構成図である。
【図１５】組付与情報類似度ＤＢ８５ｂのデータベースの一例を示す構成図である。
【図１６】文書類似度ＤＢ８６のデータベースの一例を示す構成図である。
【図１７】初期処理及び二次元表示座標系において初期配置文書を配置・移動する処理を示すフローチャートである。
【図１８】図７の安定文書間距離算出部２２の動作を示すフローチャートである。
【図１９】図１７の総和文書間力ベクトル算出ステップ（Ｓ６６）のサブルーチンを示すフローチャートである。
【図２０】図１７の位置座標の更新ステップ（Ｓ６７）のサブルーチンを示すフローチャートである。
【図２１】表示座標系に追加の配置文書を加えていく処理を示すフローチャートである。
【図２２】図２１の結果表示ステップのサブルーチンを示すフローチャートである。
【図２３】文書移動処理を示すフローチャートである。
【図２４】安定文書間距離の計算処理の第２例におけるフローチャートを示す。
【図２５】ベクトル空間法を適用した実施形態を説明する第１の図である。
【図２６】ベクトル空間法を適用した実施形態を説明する第２の図である。
【図２７】ベクトル空間法を適用した実施形態を説明する第３の図である。
【図２８】（ａ）及び（ｂ）は、図１の表示部３２による結果表示の第１の変形例を説明するための図である。
【図２９】図１の表示部３２による結果表示の第２の変形例を説明するための図である。
【図３０】図２９の変形例に係るフローチャートを示している。
【図３１】図１の表示部３２による結果表示の第３の変形例を説明するための図である。
【図３２】図３１の変形例に係るフローチャートを示している。
【符号の説明】
【０１０８】
１…文書分類装置、１０…データベース、１２…分類対象文書ＤＢ、１４…文書間距離ＤＢ、１６…位置座標ＤＢ、１８…文書間力ベクトルＤＢ、２２…安定文書間距離算出部、２３…配置文書選択部、２４…位置座標初期値設定部（文書移動手段）、２６…文書間力ベクトル算出部（文書移動手段）、２８…位置座標更新部（文書移動手段）、３０…収束条件判定部（文書移動手段）、３２…表示部、３４…入力部、５３…テキストボックス、５４ａ…表示エリア、５４ｐ…プロットエリア、５６…プロット、７１…キーワード・組付与情報抽出部（共通キーワード抽出手段、共通組付与情報抽出手段）、７２…参照ワード・組付与情報抽出部、７３…検索ワード・組付与情報抽出部（共通キーワード抽出手段、共通組付与情報抽出手段）、９１…キーワード評価値計算部（共通キーワード評価値算出手段）、９２…キーワード類似度計算部（キーワード類似度算出手段）、９３…組付与情報評価値計算部（共通組付与情報評価値算出手段）、９４…組付与情報類似度計算部（組付与情報類似度算出手段）、９５…文書類似度計算部（文書類似度算出手段）、９６…文書間距離計算部、Ｓ８０３…（共通キーワード評価値算出手段）、Ｓ８０５…（キーワード類似度算出ステップ）、Ｓ８０６…（共通組付与情報抽出ステップ）、Ｓ８０７…（共通組付与情報評価値算出ステップ）、Ｓ８０８…（組付与情報類似度算出ステップ）、Ｓ８０９…（初期文書類似度算出ステップおよび文書類似度算出ステップ）、Ｓ６１〜Ｓ６８,Ｓ１１１〜Ｓ１１９…（初期文書移動ステップ）、Ｓ２３１〜Ｓ２３８…（文書移動ステップ）。

【特許請求の範囲】
【請求項１】
文書内容の分野を体系づける分類情報と文書内容の創作者の氏名と文書の識別番号とを付与された分類対象文書をそれぞれの内容に応じて分類する文書分類装置であって、
前記分類対象文書のうちの２文書において共通して現れる共通キーワードを抽出する共通キーワード抽出手段と、
前記分類対象文書のうちの前記２文書において共通して現れる分類情報および創作者の氏名とによって構成された共通組付与情報を抽出する共通組付与情報抽出手段と、
前記分類対象文書の全て又は一部の文書で構成されたキーワード参照文書の識別番号と当該キーワード参照文書に含まれるキーワードとを関連付けて格納したキーワードテーブルを参照して、当該キーワードテーブルにおいて前記共通キーワードが出現する共通キーワード出現数を数え、当該共通キーワード出現数に基づき前記共通キーワードの非一般性を示す共通キーワード評価値を算出する共通キーワード評価値算出手段と、
前記分類対象文書の全て又は一部の文書で構成された共通組付与情報参照文書の識別番号と当該共通組付与情報参照文書に含まれる共通組付与情報とを関連付けて格納した共通組付与情報テーブルを参照して、当該共通組付与情報テーブルにおいて前記共通組付与情報が出現する共通組付与情報出現数を数え、当該共通組付与情報出現数に基づき前記共通組付与情報の非一般性を示す共通組付与情報評価値を算出する共通組付与情報評価値算出手段と、
各前記共通キーワード評価値を合算して、前記２文書の前記共通キーワードに基づく類似性を示すキーワード類似度を算出するキーワード類似度算出手段と、
各前記共通組付与情報評価値を合算して、前記２文書の前記共通組付与情報に基づく類似性を示す組付与情報類似度を算出する組付与情報類似度算出手段と、
前記キーワード類似度と前記組付与情報類似度とを総合した前記２文書の文書類似度を算出する文書類似度算出手段と、
前記分類対象文書を座標系に配置し、前記文書類似度が増大するほど前記２文書間の文書間距離を減少させ、前記文書類似度が減少するほど前記２文書間の文書間距離を増大させるように各前記分類対象文書を移動させる文書移動手段と、
を備えることを特徴とする文書分類装置。

【請求項２】
文書内容の分野を体系づける分類情報と文書内容の創作者の氏名と文書の識別番号とを付与された分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記共通キーワード抽出手段が、前記分類対象文書のうちの２文書において共通して現れる共通キーワードを抽出する共通キーワード抽出ステップと、
前記共通組付与情報抽出手段が、前記分類対象文書のうちの前記２文書において共通して現れる分類情報および創作者の氏名とによって構成された共通組付与情報を抽出する共通組付与情報抽出ステップと、
前記共通キーワード評価値算出手段が、前記分類対象文書の全て又は一部の文書で構成されたキーワード参照文書の識別番号と当該キーワード参照文書に含まれるキーワードとを関連付けて格納したキーワードテーブルを参照して、当該キーワードテーブルにおいて前記共通キーワードが出現する共通キーワード出現数を数え、当該共通キーワード出現数に基づき前記共通キーワードの非一般性を示す共通キーワード評価値を算出する共通キーワード評価値算出ステップと、
前記共通組付与情報評価値算出手段が、前記分類対象文書の全て又は一部の文書で構成された共通組付与情報参照文書の識別番号と当該共通組付与情報参照文書に含まれる共通組付与情報とを関連付けて格納した共通組付与情報テーブルを参照して、当該共通組付与情報テーブルにおいて前記共通組付与情報が出現する共通組付与情報出現数を数え、当該共通組付与情報出現数に基づき前記共通組付与情報の非一般性を示す共通組付与情報評価値を算出する共通組付与情報評価値算出ステップと、
前記キーワード類似度算出手段が各前記共通キーワード評価値を合算して、前記２文書の前記共通キーワードに基づく類似性を示すキーワード類似度を算出するキーワード類似度算出ステップと、
前記組付与情報類似度算出手段が各前記共通組付与情報評価値を合算して、前記２文書の前記共通組付与情報に基づく類似性を示す組付与情報類似度を算出する組付与情報類似度算出ステップと、
前記文書類似度算出手段が前記キーワード類似度と前記組付与情報類似度とを総合した前記２文書の文書類似度を算出する文書類似度算出ステップと、
前記分類対象文書を座標系の初期文書位置に配置し、前記文書類似度が増大するほど前記２文書間の文書間距離を減少させ、前記文書類似度が減少するほど前記２文書間の文書間距離を増大させるように各前記分類対象文書を移動させる文書移動ステップと、
を備えることを特徴とする文書分類方法。

【請求項３】
前記キーワード類似度を初期文書類似度とする初期文書類似度算出ステップと、
前記分類対象文書を座標系の任意文書位置に配置し、２文書間の前記初期文書類似度が大きいほど文書間距離を減少させ、前記初期文書類似度が減少するほど前記２文書間の文書間距離を増大させるように前記分類対象文書を前記初期文書位置に移動させる初期文書移動ステップと、
をさらに備えることを特徴とする請求項２に記載の文書分類方法。

【請求項４】
前記組付与情報類似度算出ステップは、前記分類情報の階層ごとに前記組付与情報類似度を算出することを特徴とする請求項２または３に記載の文書分類方法。

【図１】