文書分類方法、文書分類プログラム及び文書分類装置

【課題】複数の分類対象文書内における類似度の関係を視覚で認識できるように示すことができる文書分類方法を提供する。
【解決手段】分類対象文書のうちの各２文書間の安定文書間距離を両文書が類似する程度に応じて算出し、分類対象文書から初期配置文書を選択して位置座標を初期設定する。各初期配置文書について、他の初期配置文書への離間ベクトルの長さと安定文書間距離との差及び離間ベクトルの方向に基づいて、他の初期配置文書から受ける文書間力ベクトルを算出するステップと、文書間力ベクトルに応じて次回処理時点における位置座標を算出するステップとを収束するまで繰り返し、仮決め位置座標を求める。その後、複数回に分けて配置文書を追加して仮決め位置座標の算出を行い、最後に全分類対象文書について収束するまで文書間力ベクトル算出ステップと位置座標更新ステップとを繰り返す。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法に関するものである。
【背景技術】
【０００２】
従来の文書分類装置としては、例えば特許文献１ないし３，２に記載されたものがある。特許文献４は、予め組み合わせが決められているノードとアークを視覚的に好適なバランスでディスプレイ空間に配置するグラフィックス作成方法に関する技術である。特許文献１に記載された文書分類装置においては、複数の分類対象文書について、文書間の距離に応じて、各文書を予め与えられた複数のカテゴリの何れかに分類している。また、特許文献２に記載された文書分類装置においては、複数の分類対象文書について各文書の語句ベクトルと、２次元的に配列されたセルの語句ベクトルとの距離に応じて、各文書を上記セルの何れかに分類している。
【特許文献１】特開平８−２２１４４７号公報
【特許文献２】特許第３３８５２９７号公報
【特許文献３】特開２００３−２８８３５２号公報
【特許文献４】特開２００２−３１２８０３号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
特許文献１，２に記載された文書分類装置では、カテゴリ単位或いはセル単位で各文書を分類している。これによれば、複数の分類対象文書全体において文書間の内容に応じた位置関係を大まかに知ることができる。しかしながら、これらの文書分類装置では、同一のカテゴリ或いはセルに分類された複数の文書間の位置関係まで知ることができない。仮に、同一のカテゴリ或いはセル内の文書を更に詳細に分類しようとすれば、それらの文書の内容をユーザが一つ一つ確認する必要があり、人手による作業負担が大きくなってしまう。
特許文献３に記載されたスプリングモデルには配置が収束するまでの計算量が膨大になるという問題点があった。また、特許文献４にはディスプレイ空間にノードを順次追加しながら配置する方法が開示されている。しかし、特許文献４のグラフィックス作成方法は、ノード間の相互関係をノード間の距離として表すものではなく、本発明におけるように新規の配置点（ノード、文書）を追加することにより既存の全ての配置点の位置を再構成しなければならないものではない。特許文献４で開示されているノードの追加方法は、基本的には既存のノードを固定しつつ新規のノードを追加していくものであり、追加の際、近傍の既存ノードの位置のみが再構成されるというものである。特許文献４のグラフィックス作成方法には、これを文書分類に適用すると配置点を一つ加えるごとに全ての配置点の位置を再構成しなければならないのでかえって計算量が増大するという問題点があった。
本発明は、上記課題に鑑みてなされたものであり、複数の分類対象文書内における文書間の位置関係を詳細に知ることを可能ならしめ、加えて分類対象文書の数が多くなっても計算量の増大を抑制することを可能ならしめる文書分類方法、文書分類プログラム及び文書分類装置を提供することを目的とする。
【課題を解決するための手段】
【０００４】
本発明の文書分類方法は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、前記分類対象文書のうちの各２文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第１のステップと、前記分類対象文書から初期配置文書を選択する第２のステップと、各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第３のステップと、配置された前記初期配置文書のうちの各２文書間について、現処理時点（第４ないし６のステップの繰返処理（又は第１０及び１１のステップの繰返処理）中のある回における第６のステップ（又は第１１のステップ）実行前のある時点）における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第４のステップと、各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第５のステップと、各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点（第４ないし６のステップの繰返処理（又は第１０及び１１のステップの繰返処理）中の前記ある回の次の回における第６のステップ（又は第１１のステップ）実行前のある時点）における位置座標を算出する第６のステップと、前記第４ないし６のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第７のステップと、前記分類対象文書から新たに前記表示座標系に組み入れる次期配置文書を選択する第８のステップと、各前記次期配置文書が前記表示座標系において当初配置される位置座標を算出する第９のステップと、新たに配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第１０のステップと、新たに配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第１１のステップと、前記第１０及び１１のステップの繰返処理の実行中に前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第１２のステップとを備えることを特徴とする。
【０００５】
一連のステップを実行することにより、表示座標系において他の分類対象文書と安定文書間距離を保とうとする力が均衡するように分類対象文書が分配される。安定文書間距離は二つの分類対象文書の間の類似度に応じて算出されるので、分類対象文書の分布は、類似度の高い分類対象文書同士が近くに位置し、類似度の低い分類対象文書同士が遠くに位置するようになる。
【０００６】
単純に全ての分類対象文書について移動処理を一度に行うと、分類対象文書の数が多いとき膨大な計算量になる。また、類似度の大きい分類対象文書の間にこれらの分類対象文書との類似度の小さい分類対象文書が多数存在するとき、移動処理を繰り返してもこれらの分類対象文書が互いに近づかないという問題が生じる。しかし、まず少数の分類対象文書について移動処理を実行し、その後順次別の分類対象文書を加えて移動処理を行うことにより上記のような問題を回避することができる。なお、第９ないし１２のステップは、時期配置文書中の全ての文書について一度に行う方法と、一つずつの文書について順次行う方法の両方が考えられる。
本発明の文書分類方法の別の側面は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、前記分類対象文書のうちの各２文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第１のステップと、前記分類対象文書から初期配置文書を選択する第２のステップと、各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第３のステップと、配置された前記初期配置文書のうちの各２文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第４のステップと、各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第５のステップと、各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第６のステップと、前記第４ないし６のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第７のステップと、前記分類対象文書から新たに前記表示座標系に組み入れる複数の次期配置文書を選択する第８のステップと、前記次期配置文書中の一つについて前記表示座標系において当初配置される位置座標を算出してこれを配置する第９のステップと、前記第９のステップで配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第１０のステップと、前記第９のステップで配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第１１のステップと、前記第１０及び１１のステップの繰返処理の実行中に前記第９のステップで配置された前記次期配置文書の位置座標の収束を判断し、この時点での位置を前記第９のステップで配置された前記次期配置文書の仮決め位置とする第１２のステップと、前記第９ないし１２のステップを前記第８のステップで選択された次期配置文書の全てについて実行した後、全ての配置文書について前記第４ないし７のステップにおける繰返処理を実行する第１３のステップと、残存している前記分類対象文書について、前記第８ないし１３のステップを実行する第１４のステップとを備えることを特徴とする。
本発明の文書分類方法の別の側面によれば、新規の分類対象文書が追加されるごとに行われるのは当該追加文書の位置の仮決めであり、第８のステップで選択された複数の次期配置文書が配置されるごとに全ての配置済み文書の位置の再構成が実行されるので、逆に計算量が増大するのを防止することができる。
本発明の文書分類方法は、各前記分類対象文書が自文書を識別する文書番号を有し、前記第１のステップにおける両文書が類似する程度を当該両文書が引用する前記分類対象文書の文書番号を用いて算出することが好適である。この文書分類方法によると、異なる言語で記載された分類対象文書を対象にすることができる。また、この文書分類方法において自文書を自文書が引用する前記分類対象文書の一つとみなすのが好適である。これにより、類似度の評価対象である２文書のうちの片方が他方を引用している事実を類似度の算出に反映させることができる。
【０００７】
本発明の好適な形態は、特許請求の範囲中の独立項で特定される形態に、従属項中の構成要素のうち任意のもの（従属項中の構成要素のあらゆる組み合わせ）を付加した形態を含む。
【発明の効果】
【０００８】
複数の分類対象文書内における文書間の位置関係を詳細に知ることができる。
【発明を実施するための最良の形態】
【０００９】
以下、添付図面を参照して、本発明の好適な実施形態を詳細に説明する。図１は、本発明による文書分類装置の一実施形態を示すブロック図である。文書分類装置１は、複数の分類対象文書を、各分類対象文書の内容に応じて分類するものである。文書分類装置１は、データベース１０、安定文書間距離算出部２２、配置文書選択部２３、位置座標初期値設定部２４、文書間力ベクトル算出部２６、及び位置座標更新部２８を備えている。データベース１０は、分類対象文書ＤＢ１２、安定文書間距離ＤＢ１４、位置座標ＤＢ１６及び文書間力ベクトルＤＢ１８を有している。分類対象文書ＤＢ１２は、複数の分類対象文書を各文書を特定する文書コードに関連付けて格納している。分類対象文書は、分類対象文書ＤＢ１２に予め格納されているが、適宜の入力手段により必要に応じて入力することもできる。
【００１０】
安定文書間距離ＤＢ１４は、安定文書間距離算出部２２により算出される安定文書間距離を文書コードに関連付けて格納する。図２は、文書間距離ＤＢ１４のデータベースの一例を示す構成図である。この図に示すように、各２文書間の安定文書間距離が、それらの文書コード（Ｐ０００１，Ｐ０００２，・・・）に関連付けられて格納されている。例えば、この場合、文書（Ｐ０００１）と文書（Ｐ０００２）との間の安定文書間距離は、０．００５である。
【００１１】
位置座標ＤＢ１６は、位置座標初期値設定部２４により設定される各文書の位置座標の初期値、及び位置座標更新部２８により更新された位置座標を文書コードに関連付けて格納する。図３は、位置座標ＤＢ１６のデータベースの一例を示す構成図である。この図に示すように、各文書の位置座標（Ｘ座標，Ｙ座標）が文書コードに関連付けられて格納されている。例えば、この場合、文書（Ｐ０００３）の位置座標は、（０．５１５５，０．３４１７）である。
【００１２】
文書間力ベクトルＤＢ１８は、文書間力ベクトル算出部２６により算出される総和文書間力ベクトルを文書コードに関連付けて格納する。図４は、総和文書間力ベクトルＤＢ１８のデータベースの一例を示す構成図である。この図に示すように、各文書に働く総和文書間力ベクトル（ＦＸ，ＦＹ）が文書コードに関連付けられて格納されている。例えば、この場合、文書（Ｐ０００２）の総和文書間力ベクトルは（０．００７，‐０．００３）である。
【００１３】
安定文書間距離算出部２２は、分類対象文書ＤＢ１２に格納されている複数の分類対象文書について、各２文書間の安定文書間距離を、両文書の類似する程度に応じて算出する。この安定文書間距離は、両文書の内容が類似する程度が高いほど小さく、類似する程度が低いほど大きくなる。
【００１４】
位置座標初期値設定部２４は、２次元座標平面上における各文書の位置座標の初期値を設定する。位置座標初期値設定部２４における初期値の設定方法の一例を説明する。説明の便宜のため、分類対象文書数をＮ（Ｎは２以上の整数）とし、各文書をＴ_ｉ（ｉ＝１，２，・・・，Ｎ）と表すことにする。まず、文書Ｔ_ｉと文書Ｔ_ｊ（ｊ＝１，２，・・・，Ｎ、ｊ≠ｉ）との間の安定文書間距離Ｌ_０（ｉ，ｊ）をテーブルＬ_ａに読み込む。全ての（ｉ，ｊ）の組について安定文書間距離Ｌ_０（ｉ，ｊ）を読み込んだ後、Ｌ_０（ｉ，ｊ）の平均値Ｌ_ａｖｇを求める。そして、各文書Ｔ_ｉの位置座標（Ｘ_ｉ，Ｙ_ｉ）を下記式、
Ｘ_ｉ＝Ｌ_ａｖｇ×ｒｎｄ
Ｙ_ｉ＝Ｌ_ａｖｇ×ｒｎｄ
から求める。ここで、ｒｎｄは乱数を表している。これにより、各文書の位置座標の初期値が設定される。なお、安定文書間距離Ｌ_０（ｉ，ｊ）は平均値Ｌ_ａｖｇで除されることにより、正規化される。
【００１５】
文書間力ベクトル算出部２６は、各文書に働く総和文書間力ベクトルを算出する。総和文書間力ベクトルとは、各文書が他の文書から受ける文書間力のベクトル和である。また、文書間力とは、各２文書の位置座標から求められる座標平面上における距離が上記の文書間距離よりも大きい場合には両文書間に引力が働き、逆に座標平面上における距離が文書間距離よりも小さい場合には両文書間に斥力が働くと仮定して導入した概念である。これらの力の大きさは、座標平面上における距離と文書間距離との差の絶対値が増加するにつれて大きくなり、上記絶対値が減少するにつれて小さくなる。また、座標平面上における距離が安定文書間距離と一致する場合には、両文書間に働く文書間力は０である。
【００１６】
文書間力ベクトル算出部２６における文書間力ベクトルの算出方法の一例を説明する。まず、文書Ｔ_ｉと文書Ｔ_ｊの距離Ｌ（ｉ，ｊ）をその処理時点（現処理時点）（特に本実施形態では、位置座標の更新について「現処理時点」、「次回処理時点」というとき、「現処理時点」とは、移動処理（全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理）の繰返処理において、ある回が開始する時点を指し、「次回処理時点」とは、当該ある回の次の回が開始する時点を指すものとする。）における両者の位置座標に基づいて、下記式、
Ｌ（ｉ，ｊ）＝｛（Ｘ_ｉ−Ｙ_ｉ）^２＋（Ｘ_j−Ｙ_j）^２｝^０．５
から求める。なお、「その処理時点における両者の位置座標に基づいて」とあるのは、後述するように、各文書Ｔ_ｉの位置座標は必要に応じて更新されるため、常に同じ値をとるとは限らないからである。次に、文書Ｔ_ｉと文書Ｔ_ｊの文書間力ｆ（ｉ，ｊ）を下記式、
ｆ（ｉ，ｊ）＝（Ｌ_０（ｉ，ｊ）−Ｌ（ｉ，ｊ））／（Ｌ_０（ｉ，ｊ）＋ε１）^α
から求める。ここで、ε１は、Ｌ_０（ｉ，ｊ）が０のときに対応するための定数であり、例えば１×１０^−１２とされる。αは、安定文書間距離Ｌ_０（ｉ，ｊ）が小さくなるに連れて文書間力ｆ（ｉ，ｊ）が指数関数的に大きくように設定される。こうすることにより、文書間の類似度が高いときにより大きな文書間力が働くようになる。その結果、類似する文書の集団を形成するのが容易になると共に集団が配置される位置が人間の感覚に近いものになり、また分類対象文書数Nが多くなっても容易に収束させることができる。分類対象文書数が比較的少数である場合（Nが５０未満の場合）にはα＝０．８〜２．３の何れかの値に設定される。Nが１００を超える場合にはα＝１．８〜２．２の何れかの値に設定することにより容易に収束させることができる。特に、N＝１０１〜３０００の場合にはα＝２とするのが好適である。特に、分類対象文書を２次元空間にマッピングする場合、αが上記範囲より小さい場合は、移動処理の繰返処理の過程で一部文書の座標が収束せず発散するケースが多くなり、上記範囲より大きい場合は、個々の文書の内容を反映しない均一な文書の集団を形成しやすくなる。αは、例えば０．８〜２．３の何れかの値に設定され、好ましくは２である。次に、文書Ｔ_ｉが文書Ｔ_ｊから受ける文書間力のＸ成分ｆＸ（ｉ，ｊ）及びＹ成分ｆＹ（ｉ，ｊ）を下記式、
ｆＸ（ｉ，ｊ）＝ｆ（ｉ，ｊ）×（Ｘ_ｉ−Ｘ_ｊ）／（Ｌ（ｉ，ｊ）＋ε２）^β
ｆＹ（ｉ，ｊ）＝ｆ（ｉ，ｊ）×（Ｙ_ｉ−Ｙ_ｊ）／（Ｌ（ｉ，ｊ）＋ε２）^β
から求める。ここで、ε２は、Ｌ（ｉ，ｊ）が０のときに対応するための定数であり、例えば１×１０^−１２とされる。また、βは、例えば０．５に設定される。最後に、各文書Ｔ_ｉに働く文書間力の総和のＸ成分ＦＸ_ｉ及びＹ成分ＦＹ_ｉを下記式、
ＦＸ_ｉ＝Σ_ｊｆＸ（ｉ，ｊ）
ＦＹ_ｉ＝Σ_ｊｆＹ（ｉ，ｊ）
から求める。ここで、Σ_ｊは、全ての配置済み文書についての和をとることを意味する。このようにして算出されたＦＸ_ｉ及びＦＹ_ｉを成分とするベクトルが上述の総和文書間力ベクトルである。
【００１７】
位置座標更新部２８は、文書間力ベクトル算出部２６により算出された総和文書間力ベクトルの絶対値が小さくなるように、各文書の位置座標を更新する。位置座標更新部２８における位置座標の更新方法の一例を説明する。すなわち、各文書Ｔ_ｉの位置座標（Ｘ_ｉ，Ｙ_ｉ）は、文書間力ベクトル算出部２６により算出された文書間力ベクトル（ＦＸ_ｉ，ＦＹ_ｉ）に基づいて、下記式、
Ｘ_ｉ’＝Ｘ_ｉ−ｋ×ＦＸ_ｉ
Ｙ_ｉ’＝Ｙ_ｉ−ｋ×ＦＹ_ｉ
により更新される。ここで、（Ｘ_ｉ’，Ｙ_ｉ’）は、更新後の位置座標を表す。また、ｋは移動係数であり、例えば１×１０^−２３以上１×１０^−２２以下の定数とされる。上記式は、各文書Ｔ_ｉを、文書間力ベクトルの向きに、そのベクトルの絶対値の大きさに比例した距離だけ移動させることを意味している。更新された位置座標は、位置座標ＤＢ１６に格納され、それまで格納されていた位置座標に対して上書きされる。本実施形態において位置座標更新部２８は、位置座標の更新と併せて、各文書Ｔ_ｉの移動距離の平均値ＭＬを下記式、
ＭＬ＝Σ｛（ｋ×ＦＸ_ｉ）^２＋（ｋ×ＦＹ_ｉ）^２｝^０．５
から求める。この平均値ＭＬは、後述する収束条件判定部３０による収束条件の判定の際に用いられる。
【００１８】
文書分類装置１は、収束条件判定部３０、表示部３２（出力手段）、及び入力部３４をさらに備えている。収束条件判定部３０は、位置座標更新部２８により位置座標が更新された後に、収束条件の判定を行う。例えば、上述の位置座標更新部２８において求められた平均値ＭＬが規定値以下になることを収束条件として設定することができる。この収束条件が満たされないときは、収束条件判定部３０は、文書間力ベクトル算出部２６に更新後の位置座標を用いて再度総和文書間力ベクトルを算出させるとともに、位置座標更新部２８にその総和文書間力ベクトルを用いて再度位置座標を更新させる。したがって、位置座標更新部２８による位置座標の更新は、上述の収束条件が満たされるまで実行される。
【００１９】
表示部３２は、上述の収束条件が満たされ、位置座標更新部２８による位置座標の更新が終了した後、決定した位置座標に基づいて、各文書Ｔ_ｉ間の座標平面上における相対的な位置関係を可視化して表示する。表示部３２における表示方法の一例を説明する。図５は、表示部３２による結果表示画面の一例を示す図である。本例では、まず、表示エリア５０をｍ×ｎ個（ここではｍ＝ｎ＝４）のセルに区切る。また、後述する入力部３４により表示エリアを規定するＸ座標、Ｙ座標それぞれの最大値（Ｘ_ｍａｘ、Ｙ_ｍａｘ）及び最小値（Ｘ_ｍｉｎ、Ｙ_ｍｉｎ）を入力する。なお、これらの値を入力せずに、既に決定されている全文書の位置座標から、Ｘ座標及びＹ座標それぞれについて、最大のもの及び最小のものをデフォルト値として用いることもできる。次に、表示部３２は、入力されたこれらの値をから、各セルに相当する座標範囲を求める。そして、各セルに含まれる文書の数を、図５に示すように表示する。例えば、この場合、一番右上のセルに含まれる文書数は１である。さらに本例では、各セルに含まれる文書のイメージを作成するとともに、各セルにそのイメージをハイパーリンクさせる。図５に示すように、注目するセルにマウスポインタ５２を合わせると、そのセルに含まれる文書を、該当文書リストとして表示させることができる。ここでは、分類対象文書として公開特許公報等の特許文献を想定しており、該当文書リストには特許文献の種別と公報番号とを表示させている。また、これらの表示にはハイパーリンクが貼られているので、例えば「特開平８−○○○○○○号公報」と表示されている部分を画面上でクリックすれば、その公開特許公報のイメージにアクセスして、その内容を見ることができる。
【００２０】
入力部３４は、表示部３２により表示される対象となる座標平面上における表示エリア等を入力するためのものであり、例えばキーボードやマウス等が用いられる。例えば、図５の例では、表示エリア５０を規定するＸ_ｍａｘ、Ｙ_ｍａｘ、Ｘ_ｍｉｎ、Ｙ_ｍｉｎの値を入力部３４から入力することができる。入力された情報は、表示部３２へと渡される。
【００２１】
次に、文書分類装置１の動作を説明し、併せて本発明による文書分類方法の一実施形態を説明する。図６は、初期処理及び二次元表示座標系において初期配置文書を配置・移動する処理を示すフローチャートである。先ず、安定文書間距離算出部２２が、分類対象文書ＤＢ１２に格納されている分類対象文書を読み込んで各２文書間の安定文書間距離を算出し、算出した安定文書間距離を安定文書間距離ＤＢ１４に格納させる（Ｓ６１）。続いて、安定文書間距離算出部２２が、文書間距離ＤＢ１４に格納されている安定文書間距離を読み込んで平均値を算出し（Ｓ６２）、各安定文書間距離をこの平均値で除することにより正規化して安定文書間距離ＤＢ１４のデータを更新する（Ｓ６３）。配置文書選択部２３が、最初に表示座標系に配置する分類対象文書である初期配置文書Ｔ_ｋをｉｎｔ√Ｎ（分類対象文書の総数Ｎの平方根の小数点以下を切り捨てた値）個選択する（Ｓ６４）。位置座標初期値設定部２４は、上記平均値を用いて各文書の位置座標の初期値を設定し、設定した位置座標の初期値を位置座標ＤＢ１６に格納させる（Ｓ６５）。そして、文書間力ベクトル算出部２６が、文書間距離ＤＢ１４に格納されている安定文書間距離及び位置座標ＤＢ１６に格納されている位置座標を読み込み、それらの値を用いて、各文書に働く総和文書間力ベクトルを算出し、算出した総和文書間力ベクトルを文書間力ベクトルＤＢ１８に格納する（Ｓ６６）。その後、位置座標更新部２８が、文書間力ベクトルＤＢ１８に格納されている総和文書間力ベクトルを読み込み、そのベクトルに基づいて各文書の位置座標を更新し、更新した位置座標を位置座標ＤＢ１６に格納させる（Ｓ６７）。位置座標が更新されると、収束条件判定部３０が収束条件の判定を行い、収束条件が満たされていない場合には上記ステップ（Ｓ６６〜Ｓ６７）を繰返し実行させる。収束条件が満たされている場合には、新たな分類対象文書を追加していく処理に移る。
【００２２】
続いて、本実施形態の効果を説明する。文書分類装置１においては、座標平面上において複数の分類対象文書の位置座標を決定するに際し、各２文書間の座標平面上における距離が安定文書間距離算出部２２により算出された安定文書間距離よりも大きければそれらの差に比例した引力が文書間力として両文書間に働き、逆に座標平面上における距離が安定文書間距離よりも小さければそれらの差に比例した斥力が文書間力として両文書間に働くものと仮定したときに、各文書が他の文書から受ける文書間力のベクトル和が文書間力ベクトル算出部２６により算出される。ここで、２文書間の文書間力は、両文書の座標平面上における距離が安定文書間距離算出部２２により算出される文書間距離から離れるほど大きくなるものであるから、文書間力が極力小さくなるように各文書の位置座標を決定することが望ましい。そこで、各文書の位置座標は、文書間力ベクトルの絶対値が小さくなるように、位置座標更新部２８によって更新される。この位置座標の更新は、所定の収束条件が満たされるまで、１回若しくは複数回実行される。位置座標の更新が複数回実行される場合には、２回目以降の各回の更新前に、その時点における各文書の位置座標、すなわち前回の更新後の位置座標に基づいて文書間力ベクトル算出部２６による文書間力ベクトルの算出が実行される。これにより、全ての分類対象文書間で整合をとりつつ、各２文書間の座標平面上における距離を安定文書間距離算出部２２により算出される文書間距離に近づけることができる。したがって、本実施形態に係る文書分類装置１及び文書分類方法によれば、各２文書間で算出した文書間距離に基づいて各文書の位置座標を決定することができるので、複数の分類対象文書内における文書間の位置関係を詳細に知ることが可能となる。
【００２３】
また、文書分類装置１は、表示部３２を備えている。これにより、ユーザは、表示部３２による表示を見ることにより、容易に文書間の相対的な位置関係を知ることができる。なお、文書分類装置１に表示部３２を設けない構成としてもよい。この場合、例えば、表示部３２の代わりに分類結果を出力する出力部を設け、その出力内容を外部のディスプレイ等により表示、或いは外部のプリンタにより印刷させることとしてもよい。
【００２４】
また、文書分類装置１は、表示エリア５０（図５参照）に表示される範囲を規定するＸ座標及びＹ座標それぞれの最大値及び最小値を入力することのできる入力部３４を備えている。これにより、ユーザは、座標平面上の所望の範囲を表示させ、その範囲における文書間の位置関係を詳細に知ることができる。
【００２５】
なお、位置座標更新部２８は、各文書に働く文書間力ベクトルの絶対値を全ての分類対象文書について和をとった値が極小となるまで、位置座標の更新を実行することが好適である。この場合、全ての分類対象文書間で特に高い整合性を保ちつつ、各文書の位置座標を決定することができる。
【００２６】
図７は、図１の安定文書間距離算出部２２の構成の一例を示すブロック図である。安定文書間距離算出部２２は、各種文書からワードを抽出するワード抽出部７０と、ワード抽出部７０によって抽出されたワードを格納する各種データベース８０とを備えている。
【００２７】
ワード抽出部７０は、キー文書からワードをキーワードとして抽出するキーワード抽出部７１と、参照文書からワードを参照ワードとして抽出する参照ワード抽出部７２と、検索文書からワードを検索ワードとして抽出する検索ワード抽出部７３とを有している。ここで、「キー文書」及び「検索文書」の区分は便宜的なものであり、安定文書間距離算出部２２においては、文書間距離を求めたい２文書のうちの一方がキー文書、他方が検索文書とされる。また、参照文書とは、キーワード評価値、すなわち各キーワードがキー文書に固有に含まれる程度を表す値を設定する際に参照される文書である。参照文書としては、例えば分類対象文書ＤＢ１２（図１参照）内の全文書、或いは予めランダムに抽出した分類対象文書ＤＢ１２内の一部の文書を用いることができる。参照文書は、適宜の入力手段により、必要に応じて安定文書間距離算出部２２に入力することができる。また、安定文書間距離算出部２２は、参照文書を格納する格納手段（図示せず）を備えている。
【００２８】
抽出部７１〜７３はいずれも、日本語にあっては、ひらがな、句読点、特殊記号及びスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。また、抽出部７１〜７３は、いずれも一の文書から重複してワードを抽出しないように、文書から切り出されたワードは、同じ文書から既に切り出されたワードと照合され、一致しないワードのみを抽出する機能を有する。また、抽出部７１〜７３はいずれも、英語等のアルファベット表記がなされる言語にあっては、特殊記号及び／又はスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。
【００２９】
データベース（ＤＢ）８０は、キーワードＤＢ８１、全ワードＤＢ８２、評価値ＤＢ８３、検索ワードＤＢ８４、及び類似度ＤＢ８５を有している。キーワードＤＢ８１は、キー文書から抽出したキーワードを格納する。キーワードは、抽出元であるキー文書を特定するキー文書コードに関連付けて格納されている。全ワードＤＢ８２は、キー文書から抽出されたキーワードと参照文書から抽出された参照ワードとを格納する。キーワード及び参照ワードは、それぞれの抽出元であるキー文書を特定するキー文書コード及び参照文書を特定する参照文書コードに関連付けて格納されている。評価値ＤＢ８３は、後述するキーワード評価値計算部９１により算出される評価値を格納する。検索ワードＤＢ８４は、検索文書から抽出される検索ワードを格納する。検索ワードは、抽出元である検索文書を特定する検索文書コードに関連付けて格納されている。類似度ＤＢ８５は、後述する類似度計算部９２により算出される類似度を格納する。
【００３０】
なお、上記のキーワード、参照ワード、及び検索ワードは、それぞれ抽出対象となる文書の全体から抽出してもよいし、一部から抽出してもよい。例えば、抽出対象となる文書が特許文献であれば、書誌的事項、要約、請求項、又は実施例等に抽出範囲を限定してもよい。特に、データ量に制限がある場合には、抽出範囲を文書の一部に絞ることが有効となる。また、参照ワードは参照文書の一部から抽出し、キーワード及び検索ワードはそれぞれキー文書及び検索文書の全体から抽出するというように、各ワード毎に適宜抽出範囲を変えることより、いわゆるノイズと漏れの関係を調整することができる。
【００３１】
また、安定文書間距離算出部２２は、キーワード評価値計算部９１、類似度計算部９２、及び文書間距離計算部９３を備えている。キーワード評価値計算部９１は、キー文書と参照文書とを合わせた全文書に共通のキーワードが出現する出現率を算出する機能を有する。参照文書がＮ個で、その内のＢ個に共通のキーワードが存在する場合には、全文書内キーワード出現率は、Ｂ／（１＋Ｎ）で算出される。キーワード評価値計算部９１は、全ワードＤＢ８２に格納されたキーワード及び参照ワードを検索して、同一のキーワード及びキーワードと同一の参照ワードが何個存在するか算出する。ここで、「参照ワード」とは参照文書から抽出したワードに便宜的に付与した名称であるので、「キーワードと同一の参照ワード」とは、すなわち参照文書に含まれるキーワードを意味する。算出されたキーワード数を全文書の数で除することによって、全文書内キーワード出現率を算出する。さらに、キーワード評価値計算部９１は、全文書内キーワード出現率の逆数をとって、キーワード評価値を算出する機能を有する。すなわち、キーワード評価値は、（１＋Ｎ）／Ｂで算出され、各キーワードがキー文書に固有に含まれる程度を示すものである。
【００３２】
類似度計算部９２は、検索文書に含まれる全てのキーワードの評価値を加算し、加算した値を当該検索文書に含まれるキーワードの数で除することにより、キー文書と検索文書とが類似する程度を表す類似度を算出する機能を有する。また、類似度計算部９２は、算出した類似度を類似度ＤＢ８５に格納させる。
【００３３】
文書間距離計算部９３は、類似度ＤＢ８５に格納されている類似度を用いて文書Ｔ_ｉと文書Ｔ_ｊとの間の安定文書間距離Ｌ_０（ｉ，ｊ）を算出する機能を有する。ここで、安定文書間距離Ｌ_０（ｉ，ｊ）は、下記式、
Ｌ_０（ｉ，ｊ）＝２／（Ｓ_ｉｊ＋Ｓ_ｊｉ）
から求められる。ここで、Ｓ_ｉｊは、文書Ｔ_ｉをキー文書とし、文書Ｔ_ｊを検索文書としたときの類似度を表し、Ｓ_ｊｉは、文書Ｔ_ｊをキー文書とし、文書Ｔ_ｉを検索文書としたときの類似度を表す。つまり、上記式は、文書Ｔ_ｉと文書Ｔ_ｊとの間で、キー文書と検索文書の関係を入れ替えて算出された類似度の平均値をとり、さらにその平均値の逆数をとることを意味している。キー文書と検索文書の関係を入れ替えて算出された類似度の平均値を用いるのは、上記のＳ_ｉｊとＳ_ｊｉとは必ずしも一致しないからである。このようにして算出される安定文書間距離Ｌ_０（ｉ，ｊ）は、両文書間の類似度が高いほど小さくなり、類似度が低いほど大きくなる。
【００３４】
図８は、安定文書間距離を算出する処理（図６の安定文書間距離算出ステップ（Ｓ６１）のサブルーチン）を示すフローチャートである。まず、キーワード抽出部７１がキー文書からキーワードを抽出し、抽出したキーワードをキーワードＤＢ８１に格納させる（Ｓ８１）。また、参照ワード抽出部７２が参照文書から参照ワードを抽出し、抽出した参照ワードを全ワードＤＢ８２に格納させる（Ｓ８２）。なお、全ワードＤＢ８２には、キーワード抽出部７１により抽出されたキーワードも格納される。次に、キーワード評価値計算部９１が、全ワードＤＢ８２に格納されているキーワード及び参照ワードを読み込み、各キーワードの評価値を計算し、その評価値を評価値ＤＢ８３に格納させる（Ｓ８３）。また、文書間距離計算部９３が検索文書から検索ワードを抽出し、抽出した検索ワードを検索ワードＤＢ８４に格納させる（Ｓ８４）。次に、類似度計算部９２が、評価値ＤＢ８３に格納されている評価値及び検索ワードＤＢ８４に格納されている検索ワードを読み込み、キー文書と検索文書との間の類似度を計算し、その類似度を類似度ＤＢ８５に格納させる（Ｓ８５）。最後に、文書間距離計算部９３が、類似度ＤＢ８５に格納されている類似度を読み込み、各文書間の安定文書間距離を計算する（Ｓ８６）。
【００３５】
本実施形態例の安定文書間距離算出部２２によれば、各キーワードがキー文書に固有に含まれる程度を示す評価値を用いて２文書間の安定文書間距離を算出するので、両文書が類似する程度を高精度に反映した安定文書間距離を求めることができる。なお、安定文書間距離は、本実施形態例に示す算出方法により算出されるものに限らず、例えば特許文献１，２に記載されているような、語句ベクトル等のベクトル間の距離として算出されるものであってもよい。ただし、２文書の類似する程度を精度良く反映させるためには、本実施形態例に示す算出方法を用いることが好ましい。
本発明が特許文献の分類表示に適用される場合における安定文書間距離を算出する処理の別の実施形態として、重複引用文献を利用する方法が考えられる。図１９は、重複引用文献を利用する実施形態の説明を補助するための図である。図２０は、この実施形態における処理を示すフローチャートである。まず、文書Ｔ_ｉと文書Ｔ_ｊとが重複して引用する文献を検出する（Ｓ２０１）。例えば、図１９に示されるように、ＵＳ６７１３５２０Ｂ２を文書Ｔ_ｉとし、ＵＳ６４３３０９０Ｂ１を文書Ｔ_ｊとする。文書Ｔ_ｉには、３つの文献が引用されている（ただし、自文書も引用文献として扱われている。）。文書Ｔ_ｊには、２３の文献が引用されている（ただし、自文書も引用文献として扱われている。）。これらのうちＵＳ６４３３０９０（文書Ｔ_ｊ）のみが重複引用文献として検出される。次に、重複引用文献ＵＳ６４３３０９０の評価値を算出する（Ｓ２０２）。具体的には、他の分類対象文書で当該文献を引用しているものの数の逆数を評価値とする。例えば、重複引用文献ＵＳ６４３３０９０を引用している分類対象文書が文書Ｔ_ｉに加えて一つだけ存在すると仮定すると、重複引用文献ＵＳ６４３３０９０の評価値は１／２＝０．５となる。次に、こうして算出された重複引用文献の評価値に基づいて文書Ｔ_ｉと文書Ｔ_ｊとの類似度を算出する（Ｓ２０３）。具体的には、重複引用文献の評価値を合算して得られる値を文書Ｔ_ｉの引用文献数と文書Ｔ_ｊの引用文献数との和で除した値を類似度とする。本例では、重複引用文献はＵＳ６４３３０９０のみであり、その評価値は０．５である。したがって、重複引用文献の評価値を合算して得られる値は０．５である。文書Ｔ_ｉの引用文献数と文書Ｔ_ｊの引用文献数との和は、３＋２３＝２６である。したがって、文書Ｔ_ｉと文書Ｔ_ｊとの類似度は０．５／２６≒０．０１９となる。最後に、類似度に基づいて文書Ｔ_ｉと文書Ｔ_ｊとの間の安定文書間距離を算出する（Ｓ２０４）。具体的には、類似度の逆数（２６／０．５＝５２）を安定文書間距離とする。なお、この実施形態では、重複引用文献を引用している他の分類対象文書の数の逆数を評価値としたが、この方法は分類対象文書の件数が１００件未満（好ましくは５０件未満）の場合に特に有用である。これに代えて、分類対象文書の件数が２０００件未満の場合には、重複引用文献を引用している他の分類対象文書の数の平方根の逆数を評価値とすることもできる。また、１００件を超える場合は評価値を１に固定するのが望ましい。Ｓ２０１において処理時間を短縮するために、予め分類対象文書ごとに自文書の文献番号とこれを引用する他の分類対象文書の文献番号とを示すテーブルを用意しておくことが考えられる。
【００３６】
図９は、図６の総和文書間力ベクトル算出ステップ（Ｓ６６）のサブルーチンを示すフローチャートである。まず、文書間力ベクトル算出部２６が、位置座標ＤＢ１６に格納されている各文書の位置座標を読み込み、その位置座標から各２文書間の座標平面上における距離（離間ベクトルの長さ）を算出する（Ｓ９１）。また、文書間力ベクトル算出部２６は、文書間距離ＤＢ１４に格納されている安定文書間距離を読み込み、その安定文書間距離と前ステップＳ９１で計算した距離とを用いて、文書間力を算出する（Ｓ９２）。さらに、文書間力ベクトル算出部２６は、離間ベクトルに基づいて文書間力のＸ成分及びＹ成分を算出し（Ｓ９３）、ある文書に対して他の配置済み文書から働く文書間力の総和をベクトル和として求めることにより、総和文書間力ベクトルを算出する（Ｓ９４）。そして、全ての配置済み文書について総和文書間力ベクトルが算出された場合にはフローが終了し、総和文書間力ベクトルが算出されていない文書がある場合には、上記ステップ（Ｓ９１〜Ｓ９４）が繰り返される（Ｓ９５）。
【００３７】
図１０は、図６の位置座標の更新ステップ（Ｓ６７）のサブルーチンを示すフローチャートである。まず、位置座標更新部２８が、文書間力ベクトルＤＢ１８に格納されている文書間力ベクトルを読み込み、そのベクトルに応じて各文書の移動、すなわち位置座標の変更を行う（Ｓ１０１）。その後、位置座標更新部２８は、収束条件の判定に用いられる、各文書の移動距離の平均値を算出する（Ｓ１０２）。Ｓ６８において、移動距離の平均値が閾値を下回ることを収束条件とすることができる。また、これに代えてｉｎｔ√Ｎ回位置座標の更新ステップを繰り返したことを収束条件とすることもできる。
【００３８】
図１１は、表示座標系に追加の配置文書を加えていく処理を示すフローチャートである。図１１を参照して、図６に示した初期配置文書の配置・移動処理が終了してから、順次追加の配置文書を加えていって、全ての分類対象文書の配置・移動を完了させる処理を説明する。
【００３９】
配置文書選択部２３が、次に表示座標系に加える時期配置文書を、ｉｎｔ（ｍｍ／１０）（ただし、ｍｍは既に表示座標系に配置済みの分類対象文書の数）個無作為に選択する（Ｓ１１１）。ただし、分類対象文書の残りの個数がｉｎｔ（ｍｍ／１０）に満たない場合には、残存している分類対象文書全てが時期配置文書になる。初期配置文書の配置・移動処理の直後に追加される時期配置文書の数は、ｉｎｔ｛（ｉｎｔ√Ｎ）／１０｝個となる。
【００４０】
位置座標初期値設定部２４が、時期配置文書が最初に設置される表示座標系上の位置座標を算出する（Ｓ１１２）。本実施形態では、時期配置文書は、最も安定文書間距離が短い配置済み分類対象文書の近傍に位置するように初期設定される。具体的には、位置座標初期値設定部２４は、安定文書間距離ＤＢ１４を参照して、Ｌ_０（ｃ，ｍｍ＋ｋ）が最小値となるｃを求め（ただし、ｃ＝１〜ｍｍ）、時期配置文書Ｔ_ｋの位置座標の初期値を（Ｘ_ｋ，Ｙ_ｋ）＝（Ｘ_ｃ＋ε，Ｙ_ｃ＋ε）（ε：定数）とする。また、以上に代えて初期配置文書の場合と同様に時期配置文書の初期値を乱数により決定してもよい。
【００４１】
ある時期配置文書の位置座標が初期値に設定された後、文書間力ベクトル算出部２６が、当該時期配置文書が他の配置済み分類対象文書から受ける現在の総和文書間力ベクトルを算出する（Ｓ１１３）。位置座標更新部２８が、この総和文書間力ベクトルに基づき当該時期配置文書の位置座標を更新する（Ｓ１１４）。収束条件判定部３０が、当該時期配置文書の今回の移動量が閾値以下であること又はＳ１１３〜Ｓ１１５の処理が所定の回数実行されたことをもって当該時期配置文書の位置座標の収束を判断する（Ｓ１１５）。収束が判断されなかった場合には、当該時期配置文書について再びＳ１１３〜Ｓ１１５の処理が繰り返される。
【００４２】
時期配置文書のうちの他の文書についても、順次Ｓ１１２〜Ｓ１１５の処理が行われる。時期配置文書中の全ての文書について配置・移動処理が完了した場合には、今回表示座標系に加えられた時期配置文書を含む全ての配置済み文書について位置計算（Ｓ６６〜Ｓ６８の処理）が√Ｎ回行われる（Ｓ１１７）。このように、時期配置文書の全てを一度に配置して移動処理（全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理）を行う代わりに、他の配置済み文書の位置座標を固定しつつ一つずつ順次時期配置文書の配置・移動処理を行って全ての時期配置文書の位置座標を仮決めし、さらに今回の時期配置文書を含む全ての配置済み文書についての配置・移動処理を行うことにより、移動処理の繰返回数を減少させることができる。未配置の分類対象文書についてＳ１１１〜Ｓ１１７の処理が行われる。ただし、未配置の分類対象文書がなくなった場合には、この時点で配置・移動処理が終了する。
【００４３】
図１２は、図１１の結果表示ステップ（出力ステップ）のサブルーチンを示すフローチャートである。まず、表示部３２が、表示エリアをｍ×ｎ個のセルに区切る（Ｓ１２１）。ここで、入力部３４により表示エリアを規定するＸ座標及びＹ座標それぞれの最大値及び最小値を入力する（Ｓ１２２）。この入力は、ユーザが行うものである。次に、表示部３２は、入力部３４より入力された上記の値に基づいて、各セルに相当する座標範囲を算出する（Ｓ１２３）。そして、表示部３２は、各セルの座標範囲内に位置座標を有する文書数を表示エリアに表示する（Ｓ１２４）。また、表示部３２は、各セルに含まれる文書のイメージを作成するとともに（Ｓ１２５）、各セルに文書のイメージをハイパーリンクさせる（Ｓ１２６）。
【００４４】
図１３（ａ）及び図１３（ｂ）は、図１の表示部３２による結果表示の変形例を説明するための図である。図に示される表示エリア５０は、図５に対応するものである。本例では、表示エリア５０内の一部を新たな表示エリアとして指定することにより、その部分を表示エリア５０全体に再表示させることができる。例えば、図１３（ａ）において中央の４つのセル（外枠を太線で示している）を指定した場合、この指定した部分が、図１３（ｂ）に示すように、表示エリア５０全体に再表示される。このとき、表示エリア５０内のセル数は不変であるので、指定した部分はより細かいセルに分割されている。例えば、図１３（ａ）において文書数が「５」と表示されているセルは、図１３（ｂ）において右上の４つのセルに対応している。したがって、この４つのセルの文書数の和は５となっている。表示エリアの指定は、例えば図１の入力部３４に座標値を入力することにより、或いは画面上においてマウスで選択することにより行うことができる。
【００４５】
図１４は、図１の表示部３２による結果表示の変形例を説明するための図である。本例において表示部３２は、表示エリア５４ｄ内のプロットエリア５４ｐに、各文書の表示座標系（二次元表示座標系）における位置座標をプロットして表示する。各プロット５６には、対応する文書を特定できるように、各文書のタイトル等がテキストボックス５３（「テキストボックス」とは、プロットされた文書の属性を表示するための一定の形状及び大きさの小エリアをいう。ただし、属性情報の表示量に応じて何段階かの異なる形状又は大きさのテキストボックスを設定することも考えられる。）内に表示される。テキストボックス５３が表示エリア５４ｄからはみ出すことがないように、プロットエリア５４ｐは表示エリア５４ａからテキストボックス５３のサイズ分（複数段階の形状又は大きさのテキストボックスが設定されている場合には、最も長い縦径又は横径の分）だけ内側に縮小されている。すなわち、表示エリア５４ａの各角に位置する点線と表示エリア５４ａの枠で囲われる領域はテキストボックス５３と同じ大きさ及び形状になっている。ここでは、分類対象文書として公開特許公報を想定しており、その文献番号として出願番号が表示されている。また、表示されているテキストボックス５３あるいは文献番号には、ハイパーリンクが貼られており、画面上で文献番号をクリックすることによりその文書のイメージにアクセスすることができる。また、テクストボックス５３には文献番号の他に発明の名称や出願人、要約から切り出したキーワードを表示させることができ、これを行えば分類内容の把握が一層容易となる。
【００４６】
図１５は、図１４の変形例に係るフローチャートを示している。まず、ユーザが表示エリア５４ａを規定するＸ座標及びＹ座標それぞれの最大値及び最小値を入力する（Ｓ１５１）。この入力は、図１の入力部３４より行うことができる。表示部３２はプロットエリア５４ｐを設定する（Ｓ１５２）。表示部３２は、プロットエリア５４ｐ内にある各文書の位置座標をプロットし、プロット５６と関連付けてテキストボックス５３を表示する（Ｓ１５３）。さらに、表示部３２は、各プロットに文書イメージをハイパーリンクさせる（Ｓ１５４）。なお、図１４の表示例では、表示の一部領域を指定し、これを新たな表示エリアとして拡大表示する、或いは、表示エリアの一点、例えばエリア中心部のテキストボックスをマウスポインタで指定し、これを中心に拡大／縮小表示することができる。また、指定した１又は２以上のテキストボックスの内容を表計算ソフト等のワークシート上にコピーすることで、分類に続く作業をより一層容易にすることができる。
【００４７】
図１６は、図１の表示部３２による結果表示の変形例を説明するための図である。本例において、表示部３２は、ユーザが指定した基準文書の位置座標を基点として、座標平面上において表示半径内に位置座標をもつ文書を該当文書として表示する。基準文書及び表示半径の指定は、図１の入力部３４より行うことができる。また、基準文書は、分類対象文書ＤＢ１２に格納されている分類対象文書の中から選ばれる。図１６において表示画面５７内の右側に、該当文書リストが表示されている。これらの表示には、ハイパーリンクが貼られている。ここでは、基準文書から表示半径内に４つの文書が存在する。また、このリストは、基準文書からの距離が近い順にソートされて表示されている。さらに、本例では、表示画面５７内の左側に、表示エリア５８が設けられている。この表示エリア５８には、基準文書を中心として各文書の位置座標がプロットされ、併せて基準文書を中心として表示半径を半径とする円５９が表示される。この円５９は、表示半径を再指定する際の目安とすることができる。各プロットに付されている数字は、該当文書リストにおける番号に対応している。本例によれば、基準文書に類似する文書を検索することができる。また、この場合、基準文書を色又は字体等を変える所謂ハイライト表示で表示することにより、目標とする基準文書とそれに類似する文書の位置関係の把握が容易になる。
【００４８】
図１７は、図１６の変形例に係るフローチャートを示している。まず、ユーザが図１の入力部３４より基準文書、及び表示変形を入力する（Ｓ１７１，Ｓ１７２）。すると、表示部３２は、位置座標ＤＢ１６に格納されている各文書の位置座標を読み込み、基準文書から表示半径内の距離にある文書を該当文書リストとして表示する（Ｓ１７３）。さらに、表示部３２は、該当文書リストに表示される文書のイメージをハイパーリンクさせる（Ｓ１７４）。ここで、ユーザは、必要に応じて、ハイパーリンクを辿ることにより表示された文書のイメージにアクセスし、その内容を確認する（Ｓ１７５）。そして、表示半径を再指定して検索し直すときは、上記ステップ（Ｓ１７２〜Ｓ１７５）を繰り返し実行し、検索し直さないときはフローを終了する（Ｓ１７６）。
【００４９】
最後に、図１８を参照して、文書分類装置１のハードウェア構成について説明する。図１８は、図１の文書分類装置１のハードウェア構成を示すブロック図である。図１８に示すように、文書分類装置１は、物理的には、制御装置１ａ、メモリ１ｂ、格納装置１ｃ、入力装置１ｄ、及び表示装置１ｅを備えて構成される。これら各装置は、バス１ｆを介して相互に各種信号の入出力が可能な様に電気的に接続されている。
【００５０】
具体的には、制御装置１ａは例えばＣＰＵ（CentralProcessing Unit）であり、メモリ１ｂはＲＡＭ（RandomAccess Memory）といった揮発性の半導体メモリである。格納装置１ｃはＨＤＤ（Hard Disc Drive）を始めとする不揮発性の磁気ディスクである。入力装置１ｄは例えばキーボードやマウスであり、表示装置１ｅはＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）ディスプレイである。
【００５１】
上記ハードウェア構成と機能的構成との対応関係を以下に示す。文書分類装置１に関して、データベース１０の有する機能は、物理的な構成要素としての格納装置１ｃにより実現される。安定文書間距離算出部２２、位置座標初期値設定部２４、文書間力ベクトル算出部２６、位置座標更新部２８、収束条件判定部３０の有する各機能は、制御装置１ａが所定のプログラムを実行することにより実現される。入力部３４の有する各機能は入力装置１ｄにより実現される。なお、表示部３２の有する各機能は、制御装置１ａ及び表示装置１ｅにより実現される。すなわち、制御装置１ａが所定の演算を施すことにより分類結果の表示内容を確定し、表示装置１ｅがその内容に従って分類結果を表示する。
【００５２】
本発明による文書分類装置及び文書分類方法は、上記実施形態に限定されるものではなく、様々な変形が可能である。例えば、２次元の座標平面上において各文書の位置座標を決定する構成を示したが、その座標平面は１次元であってもよい。このとき、各文書は１本の直線上に位置座標を有することになるが、この場合も便宜的に１次元の「座標平面」と呼ぶことにする。また、３次元以上に拡張して、各文書の位置座標を決定する構成としてもよい。
【００５３】
また、各文書の移動距離の平均値が規定値以下となることを収束条件としたが、収束条件はこれに限られない。例えば、各文書の移動距離の最大値が規定値以下となることを収束条件としてもよい。
【００５４】
また、位置座標の更新の際に用いられる移動係数ｋは、常に一定の値である必要はない。ある程度収束が進んだ後、収束速度を上げるために、各文書の移動距離の平均値の増減如何によって移動係数ｋを加減する構成としてもよい。例えば、移動距離の平均値が前回の更新後よりも大きければｋ’＝ｋ×０．０１（ｋ’：加減後の移動係数）とし、小さければｋ’＝ｋ×１．０３とする。
【産業上の利用可能性】
【００５５】
複数の特許文献の間の類似度の関係を視覚で認識できるように示すことができる。
【図面の簡単な説明】
【００５６】
【図１】本発明による文書分類装置の一実施形態を示すブロック図である。
【図２】文書間距離ＤＢ１４のデータベースの一例を示す構成図である。
【図３】位置座標ＤＢ１６のデータベースの一例を示す構成図である。
【図４】文書間力ベクトルＤＢ１８のデータベースの一例を示す構成図である。
【図５】表示部３２による結果表示画面の一例を示す図である。
【図６】初期処理及び二次元表示座標系において初期配置文書を配置・移動する処理を示すフローチャートである。
【図７】図１の安定文書間距離算出部２２の構成の一例を示すブロック図である。
【図８】図７の安定文書間距離算出部２２の動作を示すフローチャートである。
【図９】図６の総和文書間力ベクトル算出ステップ（Ｓ６６）のサブルーチンを示すフローチャートである。
【図１０】図６の位置座標の更新ステップ（Ｓ６７）のサブルーチンを示すフローチャートである。
【図１１】表示座標系に追加の配置文書を加えていく処理を示すフローチャートである。
【図１２】図６の結果表示ステップのサブルーチンを示すフローチャートである。
【図１３】（ａ）及び（ｂ）は、図１の表示部３２による結果表示の変形例を説明するための図である。
【図１４】図１の表示部３２による結果表示の変形例を説明するための図である。
【図１５】図１４の変形例に係るフローチャートを示している。
【図１６】図１の表示部３２による結果表示の変形例を説明するための図である。
【図１７】図１６の変形例に係るフローチャートを示している。
【図１８】図１の文書分類装置１のハードウェア構成を示すブロック図である。
【図１９】重複引用文献を利用して安定文書間距離を算出する実施形態の説明を補助するための図である。
【図２０】重複引用文献を利用して安定文書間距離を算出する実施形態における処理を示すフローチャートである。
【符号の説明】
【００５７】
１…文書分類装置、１０…データベース、１２…分類対象文書ＤＢ、１４…文書間距離ＤＢ、１６…位置座標ＤＢ、１８…文書間力ベクトルＤＢ、２２…安定文書間距離算出部、２３…配置文書選択部、２４…位置座標初期値設定部、２６…文書間力ベクトル算出部、２８…位置座標更新部、３０…収束条件判定部、３２…表示部、３４…入力部、５３…テキストボックス、５４ａ…表示エリア、５４ｐ…プロットエリア、５６…プロット。

【特許請求の範囲】
【請求項１】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの各２文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第１のステップと、
前記分類対象文書から初期配置文書を選択する第２のステップと、
各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第３のステップと、
配置された前記初期配置文書のうちの各２文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第４のステップと、
各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第５のステップと、
各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第６のステップと、
前記第４ないし６のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第７のステップと、
前記分類対象文書から新たに前記表示座標系に組み入れる次期配置文書を選択する第８のステップと、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を算出する第９のステップと、
新たに配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第１０のステップと、
新たに配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第１１のステップと、
前記第１０及び１１のステップの繰返処理の実行中に前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第１２のステップとを備えることを特徴とする文書分類方法。
【請求項２】
前記第４のステップにおいて、
前記文書間力ベクトルの長さは、前記離間ベクトルの長さと前記安定文書間距離との差の絶対値の大きさに応じ、
前記文書間力ベクトルの方向は、前記離間ベクトルと同一方向又はその反対方向であり、前記離間ベクトルの長さが前記安定文書間距離よりも大きい場合に前記他のある初期配置文書に引き寄せられる方向となり、前記離間ベクトルの長さが前記安定文書間距離よりも小さい場合に前記他のある初期配置文書に反発する方向となることを特徴とする請求項１記載の文書分類方法。
【請求項３】
前記第７のステップにおいて、
前記分類対象文書の数をＮとしたとき、
√Ｎ回前記第４ないし６のステップの繰返処理が行われたことをもって収束が判断されることを特徴とする請求項１記載の文書分類方法。
【請求項４】
更に次期の配置文書について前記第８ないし１２のステップが繰り返されることを特徴とする請求項１記載の文書分類方法。
【請求項５】
前記分類対象文書の数をＮとしたとき、前記初期配置文書の数は√Ｎ以上（√Ｎ＋１００）以下であり、
従前に前記表示座標系に配置された前記分類対象文書の数をＮ_ｋとしたとき、次期の配置文書の数をＮ_ｋの０．０１倍以上１倍以下とすることを特徴とする請求項４記載の文書分類方法。
【請求項６】
前記次期配置文書について、一つずつ順次前記第１０ないし１２のステップを行い、
前記第１２のステップにおいて、
処理中の前記時期配置文書について前記第１１のステップで算出された総和文書間力ベクトルが閾値以下であったときに収束が判断されることを特徴とする請求項１記載の文書分類方法。
【請求項７】
前記第９のステップにおいて、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を乱数で決定することを特徴とする請求項６記載の文書分類方法。
【請求項８】
前記第９のステップにおいて、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を、最も前記安定文書間距離が小さい従前に配置された文書の近傍とすることを特徴とする請求項６記載の文書分類方法。
【請求項９】
前記次期配置文書について、一つずつ順次前記第１０ないし１２のステップを行い、その後前記次期配置文書を含む全ての配置文書について前記第４ないし７のステップにおけるの繰返処理を一定回数実行することを特徴とする請求項１記載の文書分類方法。
【請求項１０】
前記初期配置文書が前記分類対象文書の中から無作為に選択されることを特徴とする請求項１記載の文書分類方法。
【請求項１１】
表示手段の表示エリア中のプロットエリアに前記表示座標系上の前記分類対象文書の収束した位置座標のマークをプロットし、プロットされた各前記分類対象文書の標示を含むテキストボックスを前記マークと関連付けて表示エリアに表示するステップを備え、
前記プロットエリアが、前記表示エリアの枠から前記テキストボックスのサイズ分だけ内側に縮小されることを特徴とする請求項１記載の文書分類方法。
【請求項１２】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの各２文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第１のステップと、
前記分類対象文書から初期配置文書を選択する第２のステップと、
各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第３のステップと、
配置された前記初期配置文書のうちの各２文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第４のステップと、
各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第５のステップと、
各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第６のステップと、
前記第４ないし６のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第７のステップと、
前記分類対象文書から新たに前記表示座標系に組み入れる複数の次期配置文書を選択する第８のステップと、
各前記次期配置文書中の一つについてが前記表示座標系において当初配置される位置座標を算出してこれを配置する第９のステップと、
新たに前記第９のステップで配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第１０のステップと、
新たに前記第９のステップで配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第１１のステップと、
前記第１０及び１１のステップの繰返処理の実行中に前記次期配置文書前記第９のステップで配置された前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させこの時点での位置を前記第９のステップで配置された前記次期配置文書の仮決め位置とする第１２のステップと、
前記第９ないし１２のステップを前記第８のステップで選択された次期配置文書の全てについて実行した後、全ての配置文書について前記第４ないし７のステップにおける繰返処理を実行する第１３のステップと、
残存している前記分類対象文書について、前記第８ないし１３のステップを実行する第１４のステップとを備えることを特徴とする文書分類方法。
【請求項１３】
各前記分類対象文書が自文書を識別する文書番号を有し、
前記第１のステップにおける両文書が類似する程度を当該両文書が引用する前記分類対象文書の文書番号を用いて算出することを特徴とする請求項１ないし１２のいずれか１項に記載の文書分類方法。
【請求項１４】
前記第１のステップにおける両文書が重複して引用する前記分類対象文書の数を当該両文書のそれぞれにおける引用数の和で除した値を当該両文書が類似する程度を表す値とすることを特徴とする請求項１３に記載の文書分類方法。
【請求項１５】
ある前記分類対象文書を引用する前記分類対象文書の数の逆数を当該前記分類対象文書の評価値とし、
前記第１のステップにおける両文書が重複して引用する前記分類対象文書の評価値の和を当該両文書のそれぞれにおける引用数の和で除した値を当該両文書が類似する程度を表す値とすることを特徴とする請求項１３に記載の文書分類方法。
【請求項１６】
自文書を自文書が引用する前記分類対象文書の一つとみなすことを特徴とする請求項１３ないし１５のいずれか１項に記載の文書分類方法。
【請求項１７】
前記分類対象文書が特許文献であり、
自文書を基礎とする優先権が主張された外国特許出願に係る外国特許文献で引用されている前記分類対象文書を自文書が引用する前記分類対象文書の一つとみなすことを特徴とする請求項１３ないし１５のいずれか１項に記載の文書分類方法。
【請求項１８】
指定された前記分類対象文書から前記表示座標系上で閾値距離の範囲内に位置する前記分類対象文書のみを表示手段に表示することを特徴とする請求項１ないし１７のいずれか１項に記載の文書分類方法。
【請求項１９】
コンピュータシステムに、請求項１ないし１８１のいずれか１項に記載の各ステップを実行させることを特徴とする文書分類プログラム。
【請求項２０】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類装置であって、
前記分類対象文書のうちの各２文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第１のステップを実行する手段と、
前記分類対象文書から初期配置文書を選択する第２のステップを実行する手段と、
各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第３のステップを実行する手段と、
配置された前記初期配置文書のうちの各２文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第４のステップを実行する手段と、
各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第５のステップを実行する手段と、
各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第６のステップを実行する手段と、
前記第４ないし６のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第７のステップを実行する手段と、
前記分類対象文書から新たに前記表示座標系に組み入れる次期配置文書を選択する第８のステップを実行する手段と、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を算出する第９のステップを実行する手段と、
新たに配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第１０のステップを実行する手段と、
新たに配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第１１のステップを実行する手段と、
前記第１０及び１１のステップの繰返処理の実行中に前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第１２のステップを実行する手段とを備えることを特徴とする文書分類装置。

【図１】