説明

文書分類方法、文書分類プログラム及び文書分類装置

【課題】 複数の分類対象文書内における類似度の関係を視覚で認識できるように示すことができる文書分類方法を提供する。
【解決手段】 分類対象文書のうちの各2文書間の安定文書間距離を両文書が類似する程度に応じて算出し、分類対象文書から初期配置文書を選択して位置座標を初期設定する。各初期配置文書について、他の初期配置文書への離間ベクトルの長さと安定文書間距離との差及び離間ベクトルの方向に基づいて、他の初期配置文書から受ける文書間力ベクトルを算出するステップと、文書間力ベクトルに応じて次回処理時点における位置座標を算出するステップとを収束するまで繰り返し、仮決め位置座標を求める。その後、複数回に分けて配置文書を追加して仮決め位置座標の算出を行い、最後に全分類対象文書について収束するまで文書間力ベクトル算出ステップと位置座標更新ステップとを繰り返す。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法に関するものである。
【背景技術】
【0002】
従来の文書分類装置としては、例えば特許文献1ないし3,2に記載されたものがある。特許文献4は、予め組み合わせが決められているノードとアークを視覚的に好適なバランスでディスプレイ空間に配置するグラフィックス作成方法に関する技術である。特許文献1に記載された文書分類装置においては、複数の分類対象文書について、文書間の距離に応じて、各文書を予め与えられた複数のカテゴリの何れかに分類している。また、特許文献2に記載された文書分類装置においては、複数の分類対象文書について各文書の語句ベクトルと、2次元的に配列されたセルの語句ベクトルとの距離に応じて、各文書を上記セルの何れかに分類している。
【特許文献1】特開平8−221447号公報
【特許文献2】特許第3385297号公報
【特許文献3】特開2003−288352号公報
【特許文献4】特開2002−312803号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
特許文献1,2に記載された文書分類装置では、カテゴリ単位或いはセル単位で各文書を分類している。これによれば、複数の分類対象文書全体において文書間の内容に応じた位置関係を大まかに知ることができる。しかしながら、これらの文書分類装置では、同一のカテゴリ或いはセルに分類された複数の文書間の位置関係まで知ることができない。仮に、同一のカテゴリ或いはセル内の文書を更に詳細に分類しようとすれば、それらの文書の内容をユーザが一つ一つ確認する必要があり、人手による作業負担が大きくなってしまう。
特許文献3に記載されたスプリングモデルには配置が収束するまでの計算量が膨大になるという問題点があった。また、特許文献4にはディスプレイ空間にノードを順次追加しながら配置する方法が開示されている。しかし、特許文献4のグラフィックス作成方法は、ノード間の相互関係をノード間の距離として表すものではなく、本発明におけるように新規の配置点(ノード、文書)を追加することにより既存の全ての配置点の位置を再構成しなければならないものではない。特許文献4で開示されているノードの追加方法は、基本的には既存のノードを固定しつつ新規のノードを追加していくものであり、追加の際、近傍の既存ノードの位置のみが再構成されるというものである。特許文献4のグラフィックス作成方法には、これを文書分類に適用すると配置点を一つ加えるごとに全ての配置点の位置を再構成しなければならないのでかえって計算量が増大するという問題点があった。
本発明は、上記課題に鑑みてなされたものであり、複数の分類対象文書内における文書間の位置関係を詳細に知ることを可能ならしめ、加えて分類対象文書の数が多くなっても計算量の増大を抑制することを可能ならしめる文書分類方法、文書分類プログラム及び文書分類装置を提供することを目的とする。
【課題を解決するための手段】
【0004】
本発明の文書分類方法は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、前記分類対象文書のうちの各2文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第1のステップと、前記分類対象文書から初期配置文書を選択する第2のステップと、各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第3のステップと、配置された前記初期配置文書のうちの各2文書間について、現処理時点(第4ないし6のステップの繰返処理(又は第10及び11のステップの繰返処理)中のある回における第6のステップ(又は第11のステップ)実行前のある時点)における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第4のステップと、各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第5のステップと、各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点(第4ないし6のステップの繰返処理(又は第10及び11のステップの繰返処理)中の前記ある回の次の回における第6のステップ(又は第11のステップ)実行前のある時点)における位置座標を算出する第6のステップと、前記第4ないし6のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第7のステップと、前記分類対象文書から新たに前記表示座標系に組み入れる次期配置文書を選択する第8のステップと、各前記次期配置文書が前記表示座標系において当初配置される位置座標を算出する第9のステップと、新たに配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第10のステップと、新たに配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第11のステップと、前記第10及び11のステップの繰返処理の実行中に前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第12のステップとを備えることを特徴とする。
【0005】
一連のステップを実行することにより、表示座標系において他の分類対象文書と安定文書間距離を保とうとする力が均衡するように分類対象文書が分配される。安定文書間距離は二つの分類対象文書の間の類似度に応じて算出されるので、分類対象文書の分布は、類似度の高い分類対象文書同士が近くに位置し、類似度の低い分類対象文書同士が遠くに位置するようになる。
【0006】
単純に全ての分類対象文書について移動処理を一度に行うと、分類対象文書の数が多いとき膨大な計算量になる。また、類似度の大きい分類対象文書の間にこれらの分類対象文書との類似度の小さい分類対象文書が多数存在するとき、移動処理を繰り返してもこれらの分類対象文書が互いに近づかないという問題が生じる。しかし、まず少数の分類対象文書について移動処理を実行し、その後順次別の分類対象文書を加えて移動処理を行うことにより上記のような問題を回避することができる。なお、第9ないし12のステップは、時期配置文書中の全ての文書について一度に行う方法と、一つずつの文書について順次行う方法の両方が考えられる。
本発明の文書分類方法の別の側面は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、前記分類対象文書のうちの各2文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第1のステップと、前記分類対象文書から初期配置文書を選択する第2のステップと、各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第3のステップと、配置された前記初期配置文書のうちの各2文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第4のステップと、各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第5のステップと、各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第6のステップと、前記第4ないし6のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第7のステップと、前記分類対象文書から新たに前記表示座標系に組み入れる複数の次期配置文書を選択する第8のステップと、前記次期配置文書中の一つについて前記表示座標系において当初配置される位置座標を算出してこれを配置する第9のステップと、前記第9のステップで配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第10のステップと、前記第9のステップで配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第11のステップと、前記第10及び11のステップの繰返処理の実行中に前記第9のステップで配置された前記次期配置文書の位置座標の収束を判断し、この時点での位置を前記第9のステップで配置された前記次期配置文書の仮決め位置とする第12のステップと、前記第9ないし12のステップを前記第8のステップで選択された次期配置文書の全てについて実行した後、全ての配置文書について前記第4ないし7のステップにおける繰返処理を実行する第13のステップと、残存している前記分類対象文書について、前記第8ないし13のステップを実行する第14のステップとを備えることを特徴とする。
本発明の文書分類方法の別の側面によれば、新規の分類対象文書が追加されるごとに行われるのは当該追加文書の位置の仮決めであり、第8のステップで選択された複数の次期配置文書が配置されるごとに全ての配置済み文書の位置の再構成が実行されるので、逆に計算量が増大するのを防止することができる。
本発明の文書分類方法は、各前記分類対象文書が自文書を識別する文書番号を有し、前記第1のステップにおける両文書が類似する程度を当該両文書が引用する前記分類対象文書の文書番号を用いて算出することが好適である。この文書分類方法によると、異なる言語で記載された分類対象文書を対象にすることができる。また、この文書分類方法において自文書を自文書が引用する前記分類対象文書の一つとみなすのが好適である。これにより、類似度の評価対象である2文書のうちの片方が他方を引用している事実を類似度の算出に反映させることができる。
【0007】
本発明の好適な形態は、特許請求の範囲中の独立項で特定される形態に、従属項中の構成要素のうち任意のもの(従属項中の構成要素のあらゆる組み合わせ)を付加した形態を含む。
【発明の効果】
【0008】
複数の分類対象文書内における文書間の位置関係を詳細に知ることができる。
【発明を実施するための最良の形態】
【0009】
以下、添付図面を参照して、本発明の好適な実施形態を詳細に説明する。図1は、本発明による文書分類装置の一実施形態を示すブロック図である。文書分類装置1は、複数の分類対象文書を、各分類対象文書の内容に応じて分類するものである。文書分類装置1は、データベース10、安定文書間距離算出部22、配置文書選択部23、位置座標初期値設定部24、文書間力ベクトル算出部26、及び位置座標更新部28を備えている。データベース10は、分類対象文書DB12、安定文書間距離DB14、位置座標DB16及び文書間力ベクトルDB18を有している。分類対象文書DB12は、複数の分類対象文書を各文書を特定する文書コードに関連付けて格納している。分類対象文書は、分類対象文書DB12に予め格納されているが、適宜の入力手段により必要に応じて入力することもできる。
【0010】
安定文書間距離DB14は、安定文書間距離算出部22により算出される安定文書間距離を文書コードに関連付けて格納する。図2は、文書間距離DB14のデータベースの一例を示す構成図である。この図に示すように、各2文書間の安定文書間距離が、それらの文書コード(P0001,P0002,・・・)に関連付けられて格納されている。例えば、この場合、文書(P0001)と文書(P0002)との間の安定文書間距離は、0.005である。
【0011】
位置座標DB16は、位置座標初期値設定部24により設定される各文書の位置座標の初期値、及び位置座標更新部28により更新された位置座標を文書コードに関連付けて格納する。図3は、位置座標DB16のデータベースの一例を示す構成図である。この図に示すように、各文書の位置座標(X座標,Y座標)が文書コードに関連付けられて格納されている。例えば、この場合、文書(P0003)の位置座標は、(0.5155,0.3417)である。
【0012】
文書間力ベクトルDB18は、文書間力ベクトル算出部26により算出される総和文書間力ベクトルを文書コードに関連付けて格納する。図4は、総和文書間力ベクトルDB18のデータベースの一例を示す構成図である。この図に示すように、各文書に働く総和文書間力ベクトル(FX,FY)が文書コードに関連付けられて格納されている。例えば、この場合、文書(P0002)の総和文書間力ベクトルは(0.007,‐0.003)である。
【0013】
安定文書間距離算出部22は、分類対象文書DB12に格納されている複数の分類対象文書について、各2文書間の安定文書間距離を、両文書の類似する程度に応じて算出する。この安定文書間距離は、両文書の内容が類似する程度が高いほど小さく、類似する程度が低いほど大きくなる。
【0014】
位置座標初期値設定部24は、2次元座標平面上における各文書の位置座標の初期値を設定する。位置座標初期値設定部24における初期値の設定方法の一例を説明する。説明の便宜のため、分類対象文書数をN(Nは2以上の整数)とし、各文書をT(i=1,2,・・・,N)と表すことにする。まず、文書Tと文書T(j=1,2,・・・,N、j≠i)との間の安定文書間距離L(i,j)をテーブルLに読み込む。全ての(i,j)の組について安定文書間距離L(i,j)を読み込んだ後、L(i,j)の平均値Lavgを求める。そして、各文書Tの位置座標(X,Y)を下記式、
=Lavg×rnd
=Lavg×rnd
から求める。ここで、rndは乱数を表している。これにより、各文書の位置座標の初期値が設定される。なお、安定文書間距離L(i,j)は平均値Lavgで除されることにより、正規化される。
【0015】
文書間力ベクトル算出部26は、各文書に働く総和文書間力ベクトルを算出する。総和文書間力ベクトルとは、各文書が他の文書から受ける文書間力のベクトル和である。また、文書間力とは、各2文書の位置座標から求められる座標平面上における距離が上記の文書間距離よりも大きい場合には両文書間に引力が働き、逆に座標平面上における距離が文書間距離よりも小さい場合には両文書間に斥力が働くと仮定して導入した概念である。これらの力の大きさは、座標平面上における距離と文書間距離との差の絶対値が増加するにつれて大きくなり、上記絶対値が減少するにつれて小さくなる。また、座標平面上における距離が安定文書間距離と一致する場合には、両文書間に働く文書間力は0である。
【0016】
文書間力ベクトル算出部26における文書間力ベクトルの算出方法の一例を説明する。まず、文書Tと文書Tの距離L(i,j)をその処理時点(現処理時点)(特に本実施形態では、位置座標の更新について「現処理時点」、「次回処理時点」というとき、「現処理時点」とは、移動処理(全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理)の繰返処理において、ある回が開始する時点を指し、「次回処理時点」とは、当該ある回の次の回が開始する時点を指すものとする。)における両者の位置座標に基づいて、下記式、
L(i,j)={(X−Y+(Xj−Yj0.5
から求める。なお、「その処理時点における両者の位置座標に基づいて」とあるのは、後述するように、各文書Tの位置座標は必要に応じて更新されるため、常に同じ値をとるとは限らないからである。次に、文書Tと文書Tの文書間力f(i,j)を下記式、
f(i,j)=(L(i,j)−L(i,j))/(L(i,j)+ε1)α
から求める。ここで、ε1は、L(i,j)が0のときに対応するための定数であり、例えば1×10−12とされる。αは、安定文書間距離L(i,j)が小さくなるに連れて文書間力f(i,j)が指数関数的に大きくように設定される。こうすることにより、文書間の類似度が高いときにより大きな文書間力が働くようになる。その結果、類似する文書の集団を形成するのが容易になると共に集団が配置される位置が人間の感覚に近いものになり、また分類対象文書数Nが多くなっても容易に収束させることができる。分類対象文書数が比較的少数である場合(Nが50未満の場合)にはα=0.8〜2.3の何れかの値に設定される。Nが100を超える場合にはα=1.8〜2.2の何れかの値に設定することにより容易に収束させることができる。特に、N=101〜3000の場合にはα=2とするのが好適である。特に、分類対象文書を2次元空間にマッピングする場合、αが上記範囲より小さい場合は、移動処理の繰返処理の過程で一部文書の座標が収束せず発散するケースが多くなり、上記範囲より大きい場合は、個々の文書の内容を反映しない均一な文書の集団を形成しやすくなる。αは、例えば0.8〜2.3の何れかの値に設定され、好ましくは2である。次に、文書Tが文書Tから受ける文書間力のX成分fX(i,j)及びY成分fY(i,j)を下記式、
fX(i,j)=f(i,j)×(X−X)/(L(i,j)+ε2)β
fY(i,j)=f(i,j)×(Y−Y)/(L(i,j)+ε2)β
から求める。ここで、ε2は、L(i,j)が0のときに対応するための定数であり、例えば1×10−12とされる。また、βは、例えば0.5に設定される。最後に、各文書Tに働く文書間力の総和のX成分FX及びY成分FYを下記式、
FX=ΣfX(i,j)
FY=ΣfY(i,j)
から求める。ここで、Σは、全ての配置済み文書についての和をとることを意味する。このようにして算出されたFX及びFYを成分とするベクトルが上述の総和文書間力ベクトルである。
【0017】
位置座標更新部28は、文書間力ベクトル算出部26により算出された総和文書間力ベクトルの絶対値が小さくなるように、各文書の位置座標を更新する。位置座標更新部28における位置座標の更新方法の一例を説明する。すなわち、各文書Tの位置座標(X,Y)は、文書間力ベクトル算出部26により算出された文書間力ベクトル(FX,FY)に基づいて、下記式、
’=X−k×FX
’=Y−k×FY
により更新される。ここで、(X’,Y’)は、更新後の位置座標を表す。また、kは移動係数であり、例えば1×10−23以上1×10−22以下の定数とされる。上記式は、各文書Tを、文書間力ベクトルの向きに、そのベクトルの絶対値の大きさに比例した距離だけ移動させることを意味している。更新された位置座標は、位置座標DB16に格納され、それまで格納されていた位置座標に対して上書きされる。本実施形態において位置座標更新部28は、位置座標の更新と併せて、各文書Tの移動距離の平均値MLを下記式、
ML=Σ{(k×FX+(k×FY0.5
から求める。この平均値MLは、後述する収束条件判定部30による収束条件の判定の際に用いられる。
【0018】
文書分類装置1は、収束条件判定部30、表示部32(出力手段)、及び入力部34をさらに備えている。収束条件判定部30は、位置座標更新部28により位置座標が更新された後に、収束条件の判定を行う。例えば、上述の位置座標更新部28において求められた平均値MLが規定値以下になることを収束条件として設定することができる。この収束条件が満たされないときは、収束条件判定部30は、文書間力ベクトル算出部26に更新後の位置座標を用いて再度総和文書間力ベクトルを算出させるとともに、位置座標更新部28にその総和文書間力ベクトルを用いて再度位置座標を更新させる。したがって、位置座標更新部28による位置座標の更新は、上述の収束条件が満たされるまで実行される。
【0019】
表示部32は、上述の収束条件が満たされ、位置座標更新部28による位置座標の更新が終了した後、決定した位置座標に基づいて、各文書T間の座標平面上における相対的な位置関係を可視化して表示する。表示部32における表示方法の一例を説明する。図5は、表示部32による結果表示画面の一例を示す図である。本例では、まず、表示エリア50をm×n個(ここではm=n=4)のセルに区切る。また、後述する入力部34により表示エリアを規定するX座標、Y座標それぞれの最大値(Xmax、Ymax)及び最小値(Xmin、Ymin)を入力する。なお、これらの値を入力せずに、既に決定されている全文書の位置座標から、X座標及びY座標それぞれについて、最大のもの及び最小のものをデフォルト値として用いることもできる。次に、表示部32は、入力されたこれらの値をから、各セルに相当する座標範囲を求める。そして、各セルに含まれる文書の数を、図5に示すように表示する。例えば、この場合、一番右上のセルに含まれる文書数は1である。さらに本例では、各セルに含まれる文書のイメージを作成するとともに、各セルにそのイメージをハイパーリンクさせる。図5に示すように、注目するセルにマウスポインタ52を合わせると、そのセルに含まれる文書を、該当文書リストとして表示させることができる。ここでは、分類対象文書として公開特許公報等の特許文献を想定しており、該当文書リストには特許文献の種別と公報番号とを表示させている。また、これらの表示にはハイパーリンクが貼られているので、例えば「特開平8−○○○○○○号公報」と表示されている部分を画面上でクリックすれば、その公開特許公報のイメージにアクセスして、その内容を見ることができる。
【0020】
入力部34は、表示部32により表示される対象となる座標平面上における表示エリア等を入力するためのものであり、例えばキーボードやマウス等が用いられる。例えば、図5の例では、表示エリア50を規定するXmax、Ymax、Xmin、Yminの値を入力部34から入力することができる。入力された情報は、表示部32へと渡される。
【0021】
次に、文書分類装置1の動作を説明し、併せて本発明による文書分類方法の一実施形態を説明する。図6は、初期処理及び二次元表示座標系において初期配置文書を配置・移動する処理を示すフローチャートである。先ず、安定文書間距離算出部22が、分類対象文書DB12に格納されている分類対象文書を読み込んで各2文書間の安定文書間距離を算出し、算出した安定文書間距離を安定文書間距離DB14に格納させる(S61)。続いて、安定文書間距離算出部22が、文書間距離DB14に格納されている安定文書間距離を読み込んで平均値を算出し(S62)、各安定文書間距離をこの平均値で除することにより正規化して安定文書間距離DB14のデータを更新する(S63)。配置文書選択部23が、最初に表示座標系に配置する分類対象文書である初期配置文書Tをint√N(分類対象文書の総数Nの平方根の小数点以下を切り捨てた値)個選択する(S64)。位置座標初期値設定部24は、上記平均値を用いて各文書の位置座標の初期値を設定し、設定した位置座標の初期値を位置座標DB16に格納させる(S65)。そして、文書間力ベクトル算出部26が、文書間距離DB14に格納されている安定文書間距離及び位置座標DB16に格納されている位置座標を読み込み、それらの値を用いて、各文書に働く総和文書間力ベクトルを算出し、算出した総和文書間力ベクトルを文書間力ベクトルDB18に格納する(S66)。その後、位置座標更新部28が、文書間力ベクトルDB18に格納されている総和文書間力ベクトルを読み込み、そのベクトルに基づいて各文書の位置座標を更新し、更新した位置座標を位置座標DB16に格納させる(S67)。位置座標が更新されると、収束条件判定部30が収束条件の判定を行い、収束条件が満たされていない場合には上記ステップ(S66〜S67)を繰返し実行させる。収束条件が満たされている場合には、新たな分類対象文書を追加していく処理に移る。
【0022】
続いて、本実施形態の効果を説明する。文書分類装置1においては、座標平面上において複数の分類対象文書の位置座標を決定するに際し、各2文書間の座標平面上における距離が安定文書間距離算出部22により算出された安定文書間距離よりも大きければそれらの差に比例した引力が文書間力として両文書間に働き、逆に座標平面上における距離が安定文書間距離よりも小さければそれらの差に比例した斥力が文書間力として両文書間に働くものと仮定したときに、各文書が他の文書から受ける文書間力のベクトル和が文書間力ベクトル算出部26により算出される。ここで、2文書間の文書間力は、両文書の座標平面上における距離が安定文書間距離算出部22により算出される文書間距離から離れるほど大きくなるものであるから、文書間力が極力小さくなるように各文書の位置座標を決定することが望ましい。そこで、各文書の位置座標は、文書間力ベクトルの絶対値が小さくなるように、位置座標更新部28によって更新される。この位置座標の更新は、所定の収束条件が満たされるまで、1回若しくは複数回実行される。位置座標の更新が複数回実行される場合には、2回目以降の各回の更新前に、その時点における各文書の位置座標、すなわち前回の更新後の位置座標に基づいて文書間力ベクトル算出部26による文書間力ベクトルの算出が実行される。これにより、全ての分類対象文書間で整合をとりつつ、各2文書間の座標平面上における距離を安定文書間距離算出部22により算出される文書間距離に近づけることができる。したがって、本実施形態に係る文書分類装置1及び文書分類方法によれば、各2文書間で算出した文書間距離に基づいて各文書の位置座標を決定することができるので、複数の分類対象文書内における文書間の位置関係を詳細に知ることが可能となる。
【0023】
また、文書分類装置1は、表示部32を備えている。これにより、ユーザは、表示部32による表示を見ることにより、容易に文書間の相対的な位置関係を知ることができる。なお、文書分類装置1に表示部32を設けない構成としてもよい。この場合、例えば、表示部32の代わりに分類結果を出力する出力部を設け、その出力内容を外部のディスプレイ等により表示、或いは外部のプリンタにより印刷させることとしてもよい。
【0024】
また、文書分類装置1は、表示エリア50(図5参照)に表示される範囲を規定するX座標及びY座標それぞれの最大値及び最小値を入力することのできる入力部34を備えている。これにより、ユーザは、座標平面上の所望の範囲を表示させ、その範囲における文書間の位置関係を詳細に知ることができる。
【0025】
なお、位置座標更新部28は、各文書に働く文書間力ベクトルの絶対値を全ての分類対象文書について和をとった値が極小となるまで、位置座標の更新を実行することが好適である。この場合、全ての分類対象文書間で特に高い整合性を保ちつつ、各文書の位置座標を決定することができる。
【0026】
図7は、図1の安定文書間距離算出部22の構成の一例を示すブロック図である。安定文書間距離算出部22は、各種文書からワードを抽出するワード抽出部70と、ワード抽出部70によって抽出されたワードを格納する各種データベース80とを備えている。
【0027】
ワード抽出部70は、キー文書からワードをキーワードとして抽出するキーワード抽出部71と、参照文書からワードを参照ワードとして抽出する参照ワード抽出部72と、検索文書からワードを検索ワードとして抽出する検索ワード抽出部73とを有している。ここで、「キー文書」及び「検索文書」の区分は便宜的なものであり、安定文書間距離算出部22においては、文書間距離を求めたい2文書のうちの一方がキー文書、他方が検索文書とされる。また、参照文書とは、キーワード評価値、すなわち各キーワードがキー文書に固有に含まれる程度を表す値を設定する際に参照される文書である。参照文書としては、例えば分類対象文書DB12(図1参照)内の全文書、或いは予めランダムに抽出した分類対象文書DB12内の一部の文書を用いることができる。参照文書は、適宜の入力手段により、必要に応じて安定文書間距離算出部22に入力することができる。また、安定文書間距離算出部22は、参照文書を格納する格納手段(図示せず)を備えている。
【0028】
抽出部71〜73はいずれも、日本語にあっては、ひらがな、句読点、特殊記号及びスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。また、抽出部71〜73は、いずれも一の文書から重複してワードを抽出しないように、文書から切り出されたワードは、同じ文書から既に切り出されたワードと照合され、一致しないワードのみを抽出する機能を有する。また、抽出部71〜73はいずれも、英語等のアルファベット表記がなされる言語にあっては、特殊記号及び/又はスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。
【0029】
データベース(DB)80は、キーワードDB81、全ワードDB82、評価値DB83、検索ワードDB84、及び類似度DB85を有している。キーワードDB81は、キー文書から抽出したキーワードを格納する。キーワードは、抽出元であるキー文書を特定するキー文書コードに関連付けて格納されている。全ワードDB82は、キー文書から抽出されたキーワードと参照文書から抽出された参照ワードとを格納する。キーワード及び参照ワードは、それぞれの抽出元であるキー文書を特定するキー文書コード及び参照文書を特定する参照文書コードに関連付けて格納されている。評価値DB83は、後述するキーワード評価値計算部91により算出される評価値を格納する。検索ワードDB84は、検索文書から抽出される検索ワードを格納する。検索ワードは、抽出元である検索文書を特定する検索文書コードに関連付けて格納されている。類似度DB85は、後述する類似度計算部92により算出される類似度を格納する。
【0030】
なお、上記のキーワード、参照ワード、及び検索ワードは、それぞれ抽出対象となる文書の全体から抽出してもよいし、一部から抽出してもよい。例えば、抽出対象となる文書が特許文献であれば、書誌的事項、要約、請求項、又は実施例等に抽出範囲を限定してもよい。特に、データ量に制限がある場合には、抽出範囲を文書の一部に絞ることが有効となる。また、参照ワードは参照文書の一部から抽出し、キーワード及び検索ワードはそれぞれキー文書及び検索文書の全体から抽出するというように、各ワード毎に適宜抽出範囲を変えることより、いわゆるノイズと漏れの関係を調整することができる。
【0031】
また、安定文書間距離算出部22は、キーワード評価値計算部91、類似度計算部92、及び文書間距離計算部93を備えている。キーワード評価値計算部91は、キー文書と参照文書とを合わせた全文書に共通のキーワードが出現する出現率を算出する機能を有する。参照文書がN個で、その内のB個に共通のキーワードが存在する場合には、全文書内キーワード出現率は、B/(1+N)で算出される。キーワード評価値計算部91は、全ワードDB82に格納されたキーワード及び参照ワードを検索して、同一のキーワード及びキーワードと同一の参照ワードが何個存在するか算出する。ここで、「参照ワード」とは参照文書から抽出したワードに便宜的に付与した名称であるので、「キーワードと同一の参照ワード」とは、すなわち参照文書に含まれるキーワードを意味する。算出されたキーワード数を全文書の数で除することによって、全文書内キーワード出現率を算出する。さらに、キーワード評価値計算部91は、全文書内キーワード出現率の逆数をとって、キーワード評価値を算出する機能を有する。すなわち、キーワード評価値は、(1+N)/Bで算出され、各キーワードがキー文書に固有に含まれる程度を示すものである。
【0032】
類似度計算部92は、検索文書に含まれる全てのキーワードの評価値を加算し、加算した値を当該検索文書に含まれるキーワードの数で除することにより、キー文書と検索文書とが類似する程度を表す類似度を算出する機能を有する。また、類似度計算部92は、算出した類似度を類似度DB85に格納させる。
【0033】
文書間距離計算部93は、類似度DB85に格納されている類似度を用いて文書Tと文書Tとの間の安定文書間距離L(i,j)を算出する機能を有する。ここで、安定文書間距離L(i,j)は、下記式、
(i,j)=2/(Sij+Sji
から求められる。ここで、Sijは、文書Tをキー文書とし、文書Tを検索文書としたときの類似度を表し、Sjiは、文書Tをキー文書とし、文書Tを検索文書としたときの類似度を表す。つまり、上記式は、文書Tと文書Tとの間で、キー文書と検索文書の関係を入れ替えて算出された類似度の平均値をとり、さらにその平均値の逆数をとることを意味している。キー文書と検索文書の関係を入れ替えて算出された類似度の平均値を用いるのは、上記のSijとSjiとは必ずしも一致しないからである。このようにして算出される安定文書間距離L(i,j)は、両文書間の類似度が高いほど小さくなり、類似度が低いほど大きくなる。
【0034】
図8は、安定文書間距離を算出する処理(図6の安定文書間距離算出ステップ(S61)のサブルーチン)を示すフローチャートである。まず、キーワード抽出部71がキー文書からキーワードを抽出し、抽出したキーワードをキーワードDB81に格納させる(S81)。また、参照ワード抽出部72が参照文書から参照ワードを抽出し、抽出した参照ワードを全ワードDB82に格納させる(S82)。なお、全ワードDB82には、キーワード抽出部71により抽出されたキーワードも格納される。次に、キーワード評価値計算部91が、全ワードDB82に格納されているキーワード及び参照ワードを読み込み、各キーワードの評価値を計算し、その評価値を評価値DB83に格納させる(S83)。また、文書間距離計算部93が検索文書から検索ワードを抽出し、抽出した検索ワードを検索ワードDB84に格納させる(S84)。次に、類似度計算部92が、評価値DB83に格納されている評価値及び検索ワードDB84に格納されている検索ワードを読み込み、キー文書と検索文書との間の類似度を計算し、その類似度を類似度DB85に格納させる(S85)。最後に、文書間距離計算部93が、類似度DB85に格納されている類似度を読み込み、各文書間の安定文書間距離を計算する(S86)。
【0035】
本実施形態例の安定文書間距離算出部22によれば、各キーワードがキー文書に固有に含まれる程度を示す評価値を用いて2文書間の安定文書間距離を算出するので、両文書が類似する程度を高精度に反映した安定文書間距離を求めることができる。なお、安定文書間距離は、本実施形態例に示す算出方法により算出されるものに限らず、例えば特許文献1,2に記載されているような、語句ベクトル等のベクトル間の距離として算出されるものであってもよい。ただし、2文書の類似する程度を精度良く反映させるためには、本実施形態例に示す算出方法を用いることが好ましい。
本発明が特許文献の分類表示に適用される場合における安定文書間距離を算出する処理の別の実施形態として、重複引用文献を利用する方法が考えられる。図19は、重複引用文献を利用する実施形態の説明を補助するための図である。図20は、この実施形態における処理を示すフローチャートである。まず、文書Tと文書Tとが重複して引用する文献を検出する(S201)。例えば、図19に示されるように、US6713520B2を文書Tとし、US6433090B1を文書Tとする。文書Tには、3つの文献が引用されている(ただし、自文書も引用文献として扱われている。)。文書Tには、23の文献が引用されている(ただし、自文書も引用文献として扱われている。)。これらのうちUS6433090(文書T)のみが重複引用文献として検出される。次に、重複引用文献US6433090の評価値を算出する(S202)。具体的には、他の分類対象文書で当該文献を引用しているものの数の逆数を評価値とする。例えば、重複引用文献US6433090を引用している分類対象文書が文書Tに加えて一つだけ存在すると仮定すると、重複引用文献US6433090の評価値は1/2=0.5となる。次に、こうして算出された重複引用文献の評価値に基づいて文書Tと文書Tとの類似度を算出する(S203)。具体的には、重複引用文献の評価値を合算して得られる値を文書Tの引用文献数と文書Tの引用文献数との和で除した値を類似度とする。本例では、重複引用文献はUS6433090のみであり、その評価値は0.5である。したがって、重複引用文献の評価値を合算して得られる値は0.5である。文書Tの引用文献数と文書Tの引用文献数との和は、3+23=26である。したがって、文書Tと文書Tとの類似度は0.5/26≒0.019となる。最後に、類似度に基づいて文書Tと文書Tとの間の安定文書間距離を算出する(S204)。具体的には、類似度の逆数(26/0.5=52)を安定文書間距離とする。なお、この実施形態では、重複引用文献を引用している他の分類対象文書の数の逆数を評価値としたが、この方法は分類対象文書の件数が100件未満(好ましくは50件未満)の場合に特に有用である。これに代えて、分類対象文書の件数が2000件未満の場合には、重複引用文献を引用している他の分類対象文書の数の平方根の逆数を評価値とすることもできる。また、100件を超える場合は評価値を1に固定するのが望ましい。S201において処理時間を短縮するために、予め分類対象文書ごとに自文書の文献番号とこれを引用する他の分類対象文書の文献番号とを示すテーブルを用意しておくことが考えられる。
【0036】
図9は、図6の総和文書間力ベクトル算出ステップ(S66)のサブルーチンを示すフローチャートである。まず、文書間力ベクトル算出部26が、位置座標DB16に格納されている各文書の位置座標を読み込み、その位置座標から各2文書間の座標平面上における距離(離間ベクトルの長さ)を算出する(S91)。また、文書間力ベクトル算出部26は、文書間距離DB14に格納されている安定文書間距離を読み込み、その安定文書間距離と前ステップS91で計算した距離とを用いて、文書間力を算出する(S92)。さらに、文書間力ベクトル算出部26は、離間ベクトルに基づいて文書間力のX成分及びY成分を算出し(S93)、ある文書に対して他の配置済み文書から働く文書間力の総和をベクトル和として求めることにより、総和文書間力ベクトルを算出する(S94)。そして、全ての配置済み文書について総和文書間力ベクトルが算出された場合にはフローが終了し、総和文書間力ベクトルが算出されていない文書がある場合には、上記ステップ(S91〜S94)が繰り返される(S95)。
【0037】
図10は、図6の位置座標の更新ステップ(S67)のサブルーチンを示すフローチャートである。まず、位置座標更新部28が、文書間力ベクトルDB18に格納されている文書間力ベクトルを読み込み、そのベクトルに応じて各文書の移動、すなわち位置座標の変更を行う(S101)。その後、位置座標更新部28は、収束条件の判定に用いられる、各文書の移動距離の平均値を算出する(S102)。S68において、移動距離の平均値が閾値を下回ることを収束条件とすることができる。また、これに代えてint√N回位置座標の更新ステップを繰り返したことを収束条件とすることもできる。
【0038】
図11は、表示座標系に追加の配置文書を加えていく処理を示すフローチャートである。図11を参照して、図6に示した初期配置文書の配置・移動処理が終了してから、順次追加の配置文書を加えていって、全ての分類対象文書の配置・移動を完了させる処理を説明する。
【0039】
配置文書選択部23が、次に表示座標系に加える時期配置文書を、int(mm/10)(ただし、mmは既に表示座標系に配置済みの分類対象文書の数)個無作為に選択する(S111)。ただし、分類対象文書の残りの個数がint(mm/10)に満たない場合には、残存している分類対象文書全てが時期配置文書になる。初期配置文書の配置・移動処理の直後に追加される時期配置文書の数は、int{(int√N)/10}個となる。
【0040】
位置座標初期値設定部24が、時期配置文書が最初に設置される表示座標系上の位置座標を算出する(S112)。本実施形態では、時期配置文書は、最も安定文書間距離が短い配置済み分類対象文書の近傍に位置するように初期設定される。具体的には、位置座標初期値設定部24は、安定文書間距離DB14を参照して、L(c,mm+k)が最小値となるcを求め(ただし、c=1〜mm)、時期配置文書Tの位置座標の初期値を(X,Y)=(X+ε,Y+ε)(ε:定数)とする。また、以上に代えて初期配置文書の場合と同様に時期配置文書の初期値を乱数により決定してもよい。
【0041】
ある時期配置文書の位置座標が初期値に設定された後、文書間力ベクトル算出部26が、当該時期配置文書が他の配置済み分類対象文書から受ける現在の総和文書間力ベクトルを算出する(S113)。位置座標更新部28が、この総和文書間力ベクトルに基づき当該時期配置文書の位置座標を更新する(S114)。収束条件判定部30が、当該時期配置文書の今回の移動量が閾値以下であること又はS113〜S115の処理が所定の回数実行されたことをもって当該時期配置文書の位置座標の収束を判断する(S115)。収束が判断されなかった場合には、当該時期配置文書について再びS113〜S115の処理が繰り返される。
【0042】
時期配置文書のうちの他の文書についても、順次S112〜S115の処理が行われる。時期配置文書中の全ての文書について配置・移動処理が完了した場合には、今回表示座標系に加えられた時期配置文書を含む全ての配置済み文書について位置計算(S66〜S68の処理)が√N回行われる(S117)。このように、時期配置文書の全てを一度に配置して移動処理(全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理)を行う代わりに、他の配置済み文書の位置座標を固定しつつ一つずつ順次時期配置文書の配置・移動処理を行って全ての時期配置文書の位置座標を仮決めし、さらに今回の時期配置文書を含む全ての配置済み文書についての配置・移動処理を行うことにより、移動処理の繰返回数を減少させることができる。未配置の分類対象文書についてS111〜S117の処理が行われる。ただし、未配置の分類対象文書がなくなった場合には、この時点で配置・移動処理が終了する。
【0043】
図12は、図11の結果表示ステップ(出力ステップ)のサブルーチンを示すフローチャートである。まず、表示部32が、表示エリアをm×n個のセルに区切る(S121)。ここで、入力部34により表示エリアを規定するX座標及びY座標それぞれの最大値及び最小値を入力する(S122)。この入力は、ユーザが行うものである。次に、表示部32は、入力部34より入力された上記の値に基づいて、各セルに相当する座標範囲を算出する(S123)。そして、表示部32は、各セルの座標範囲内に位置座標を有する文書数を表示エリアに表示する(S124)。また、表示部32は、各セルに含まれる文書のイメージを作成するとともに(S125)、各セルに文書のイメージをハイパーリンクさせる(S126)。
【0044】
図13(a)及び図13(b)は、図1の表示部32による結果表示の変形例を説明するための図である。図に示される表示エリア50は、図5に対応するものである。本例では、表示エリア50内の一部を新たな表示エリアとして指定することにより、その部分を表示エリア50全体に再表示させることができる。例えば、図13(a)において中央の4つのセル(外枠を太線で示している)を指定した場合、この指定した部分が、図13(b)に示すように、表示エリア50全体に再表示される。このとき、表示エリア50内のセル数は不変であるので、指定した部分はより細かいセルに分割されている。例えば、図13(a)において文書数が「5」と表示されているセルは、図13(b)において右上の4つのセルに対応している。したがって、この4つのセルの文書数の和は5となっている。表示エリアの指定は、例えば図1の入力部34に座標値を入力することにより、或いは画面上においてマウスで選択することにより行うことができる。
【0045】
図14は、図1の表示部32による結果表示の変形例を説明するための図である。本例において表示部32は、表示エリア54d内のプロットエリア54pに、各文書の表示座標系(二次元表示座標系)における位置座標をプロットして表示する。各プロット56には、対応する文書を特定できるように、各文書のタイトル等がテキストボックス53(「テキストボックス」とは、プロットされた文書の属性を表示するための一定の形状及び大きさの小エリアをいう。ただし、属性情報の表示量に応じて何段階かの異なる形状又は大きさのテキストボックスを設定することも考えられる。)内に表示される。テキストボックス53が表示エリア54dからはみ出すことがないように、プロットエリア54pは表示エリア54aからテキストボックス53のサイズ分(複数段階の形状又は大きさのテキストボックスが設定されている場合には、最も長い縦径又は横径の分)だけ内側に縮小されている。すなわち、表示エリア54aの各角に位置する点線と表示エリア54aの枠で囲われる領域はテキストボックス53と同じ大きさ及び形状になっている。ここでは、分類対象文書として公開特許公報を想定しており、その文献番号として出願番号が表示されている。また、表示されているテキストボックス53あるいは文献番号には、ハイパーリンクが貼られており、画面上で文献番号をクリックすることによりその文書のイメージにアクセスすることができる。また、テクストボックス53には文献番号の他に発明の名称や出願人、要約から切り出したキーワードを表示させることができ、これを行えば分類内容の把握が一層容易となる。
【0046】
図15は、図14の変形例に係るフローチャートを示している。まず、ユーザが表示エリア54aを規定するX座標及びY座標それぞれの最大値及び最小値を入力する(S151)。この入力は、図1の入力部34より行うことができる。表示部32はプロットエリア54pを設定する(S152)。表示部32は、プロットエリア54p内にある各文書の位置座標をプロットし、プロット56と関連付けてテキストボックス53を表示する(S153)。さらに、表示部32は、各プロットに文書イメージをハイパーリンクさせる(S154)。なお、図14の表示例では、表示の一部領域を指定し、これを新たな表示エリアとして拡大表示する、或いは、表示エリアの一点、例えばエリア中心部のテキストボックスをマウスポインタで指定し、これを中心に拡大/縮小表示することができる。また、指定した1又は2以上のテキストボックスの内容を表計算ソフト等のワークシート上にコピーすることで、分類に続く作業をより一層容易にすることができる。
【0047】
図16は、図1の表示部32による結果表示の変形例を説明するための図である。本例において、表示部32は、ユーザが指定した基準文書の位置座標を基点として、座標平面上において表示半径内に位置座標をもつ文書を該当文書として表示する。基準文書及び表示半径の指定は、図1の入力部34より行うことができる。また、基準文書は、分類対象文書DB12に格納されている分類対象文書の中から選ばれる。図16において表示画面57内の右側に、該当文書リストが表示されている。これらの表示には、ハイパーリンクが貼られている。ここでは、基準文書から表示半径内に4つの文書が存在する。また、このリストは、基準文書からの距離が近い順にソートされて表示されている。さらに、本例では、表示画面57内の左側に、表示エリア58が設けられている。この表示エリア58には、基準文書を中心として各文書の位置座標がプロットされ、併せて基準文書を中心として表示半径を半径とする円59が表示される。この円59は、表示半径を再指定する際の目安とすることができる。各プロットに付されている数字は、該当文書リストにおける番号に対応している。本例によれば、基準文書に類似する文書を検索することができる。また、この場合、基準文書を色又は字体等を変える所謂ハイライト表示で表示することにより、目標とする基準文書とそれに類似する文書の位置関係の把握が容易になる。
【0048】
図17は、図16の変形例に係るフローチャートを示している。まず、ユーザが図1の入力部34より基準文書、及び表示変形を入力する(S171,S172)。すると、表示部32は、位置座標DB16に格納されている各文書の位置座標を読み込み、基準文書から表示半径内の距離にある文書を該当文書リストとして表示する(S173)。さらに、表示部32は、該当文書リストに表示される文書のイメージをハイパーリンクさせる(S174)。ここで、ユーザは、必要に応じて、ハイパーリンクを辿ることにより表示された文書のイメージにアクセスし、その内容を確認する(S175)。そして、表示半径を再指定して検索し直すときは、上記ステップ(S172〜S175)を繰り返し実行し、検索し直さないときはフローを終了する(S176)。
【0049】
最後に、図18を参照して、文書分類装置1のハードウェア構成について説明する。図18は、図1の文書分類装置1のハードウェア構成を示すブロック図である。図18に示すように、文書分類装置1は、物理的には、制御装置1a、メモリ1b、格納装置1c、入力装置1d、及び表示装置1eを備えて構成される。これら各装置は、バス1fを介して相互に各種信号の入出力が可能な様に電気的に接続されている。
【0050】
具体的には、制御装置1aは例えばCPU(CentralProcessing Unit)であり、メモリ1bはRAM(RandomAccess Memory)といった揮発性の半導体メモリである。格納装置1cはHDD(Hard Disc Drive)を始めとする不揮発性の磁気ディスクである。入力装置1dは例えばキーボードやマウスであり、表示装置1eはLCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)ディスプレイである。
【0051】
上記ハードウェア構成と機能的構成との対応関係を以下に示す。文書分類装置1に関して、データベース10の有する機能は、物理的な構成要素としての格納装置1cにより実現される。安定文書間距離算出部22、位置座標初期値設定部24、文書間力ベクトル算出部26、位置座標更新部28、収束条件判定部30の有する各機能は、制御装置1aが所定のプログラムを実行することにより実現される。入力部34の有する各機能は入力装置1dにより実現される。なお、表示部32の有する各機能は、制御装置1a及び表示装置1eにより実現される。すなわち、制御装置1aが所定の演算を施すことにより分類結果の表示内容を確定し、表示装置1eがその内容に従って分類結果を表示する。
【0052】
本発明による文書分類装置及び文書分類方法は、上記実施形態に限定されるものではなく、様々な変形が可能である。例えば、2次元の座標平面上において各文書の位置座標を決定する構成を示したが、その座標平面は1次元であってもよい。このとき、各文書は1本の直線上に位置座標を有することになるが、この場合も便宜的に1次元の「座標平面」と呼ぶことにする。また、3次元以上に拡張して、各文書の位置座標を決定する構成としてもよい。
【0053】
また、各文書の移動距離の平均値が規定値以下となることを収束条件としたが、収束条件はこれに限られない。例えば、各文書の移動距離の最大値が規定値以下となることを収束条件としてもよい。
【0054】
また、位置座標の更新の際に用いられる移動係数kは、常に一定の値である必要はない。ある程度収束が進んだ後、収束速度を上げるために、各文書の移動距離の平均値の増減如何によって移動係数kを加減する構成としてもよい。例えば、移動距離の平均値が前回の更新後よりも大きければk’=k×0.01(k’:加減後の移動係数)とし、小さければk’=k×1.03とする。
【産業上の利用可能性】
【0055】
複数の特許文献の間の類似度の関係を視覚で認識できるように示すことができる。
【図面の簡単な説明】
【0056】
【図1】本発明による文書分類装置の一実施形態を示すブロック図である。
【図2】文書間距離DB14のデータベースの一例を示す構成図である。
【図3】位置座標DB16のデータベースの一例を示す構成図である。
【図4】文書間力ベクトルDB18のデータベースの一例を示す構成図である。
【図5】表示部32による結果表示画面の一例を示す図である。
【図6】初期処理及び二次元表示座標系において初期配置文書を配置・移動する処理を示すフローチャートである。
【図7】図1の安定文書間距離算出部22の構成の一例を示すブロック図である。
【図8】図7の安定文書間距離算出部22の動作を示すフローチャートである。
【図9】図6の総和文書間力ベクトル算出ステップ(S66)のサブルーチンを示すフローチャートである。
【図10】図6の位置座標の更新ステップ(S67)のサブルーチンを示すフローチャートである。
【図11】表示座標系に追加の配置文書を加えていく処理を示すフローチャートである。
【図12】図6の結果表示ステップのサブルーチンを示すフローチャートである。
【図13】(a)及び(b)は、図1の表示部32による結果表示の変形例を説明するための図である。
【図14】図1の表示部32による結果表示の変形例を説明するための図である。
【図15】図14の変形例に係るフローチャートを示している。
【図16】図1の表示部32による結果表示の変形例を説明するための図である。
【図17】図16の変形例に係るフローチャートを示している。
【図18】図1の文書分類装置1のハードウェア構成を示すブロック図である。
【図19】重複引用文献を利用して安定文書間距離を算出する実施形態の説明を補助するための図である。
【図20】重複引用文献を利用して安定文書間距離を算出する実施形態における処理を示すフローチャートである。
【符号の説明】
【0057】
1…文書分類装置、10…データベース、12…分類対象文書DB、14…文書間距離DB、16…位置座標DB、18…文書間力ベクトルDB、22…安定文書間距離算出部、23…配置文書選択部、24…位置座標初期値設定部、26…文書間力ベクトル算出部、28…位置座標更新部、30…収束条件判定部、32…表示部、34…入力部、53…テキストボックス、54a…表示エリア、54p…プロットエリア、56…プロット。


【特許請求の範囲】
【請求項1】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの各2文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第1のステップと、
前記分類対象文書から初期配置文書を選択する第2のステップと、
各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第3のステップと、
配置された前記初期配置文書のうちの各2文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第4のステップと、
各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第5のステップと、
各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第6のステップと、
前記第4ないし6のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第7のステップと、
前記分類対象文書から新たに前記表示座標系に組み入れる次期配置文書を選択する第8のステップと、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を算出する第9のステップと、
新たに配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第10のステップと、
新たに配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第11のステップと、
前記第10及び11のステップの繰返処理の実行中に前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第12のステップとを備えることを特徴とする文書分類方法。
【請求項2】
前記第4のステップにおいて、
前記文書間力ベクトルの長さは、前記離間ベクトルの長さと前記安定文書間距離との差の絶対値の大きさに応じ、
前記文書間力ベクトルの方向は、前記離間ベクトルと同一方向又はその反対方向であり、前記離間ベクトルの長さが前記安定文書間距離よりも大きい場合に前記他のある初期配置文書に引き寄せられる方向となり、前記離間ベクトルの長さが前記安定文書間距離よりも小さい場合に前記他のある初期配置文書に反発する方向となることを特徴とする請求項1記載の文書分類方法。
【請求項3】
前記第7のステップにおいて、
前記分類対象文書の数をNとしたとき、
√N回前記第4ないし6のステップの繰返処理が行われたことをもって収束が判断されることを特徴とする請求項1記載の文書分類方法。
【請求項4】
更に次期の配置文書について前記第8ないし12のステップが繰り返されることを特徴とする請求項1記載の文書分類方法。
【請求項5】
前記分類対象文書の数をNとしたとき、前記初期配置文書の数は√N以上(√N+100)以下であり、
従前に前記表示座標系に配置された前記分類対象文書の数をNとしたとき、次期の配置文書の数をNの0.01倍以上1倍以下とすることを特徴とする請求項4記載の文書分類方法。
【請求項6】
前記次期配置文書について、一つずつ順次前記第10ないし12のステップを行い、
前記第12のステップにおいて、
処理中の前記時期配置文書について前記第11のステップで算出された総和文書間力ベクトルが閾値以下であったときに収束が判断されることを特徴とする請求項1記載の文書分類方法。
【請求項7】
前記第9のステップにおいて、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を乱数で決定することを特徴とする請求項6記載の文書分類方法。
【請求項8】
前記第9のステップにおいて、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を、最も前記安定文書間距離が小さい従前に配置された文書の近傍とすることを特徴とする請求項6記載の文書分類方法。
【請求項9】
前記次期配置文書について、一つずつ順次前記第10ないし12のステップを行い、その後前記次期配置文書を含む全ての配置文書について前記第4ないし7のステップにおけるの繰返処理を一定回数実行することを特徴とする請求項1記載の文書分類方法。
【請求項10】
前記初期配置文書が前記分類対象文書の中から無作為に選択されることを特徴とする請求項1記載の文書分類方法。
【請求項11】
表示手段の表示エリア中のプロットエリアに前記表示座標系上の前記分類対象文書の収束した位置座標のマークをプロットし、プロットされた各前記分類対象文書の標示を含むテキストボックスを前記マークと関連付けて表示エリアに表示するステップを備え、
前記プロットエリアが、前記表示エリアの枠から前記テキストボックスのサイズ分だけ内側に縮小されることを特徴とする請求項1記載の文書分類方法。
【請求項12】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの各2文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第1のステップと、
前記分類対象文書から初期配置文書を選択する第2のステップと、
各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第3のステップと、
配置された前記初期配置文書のうちの各2文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第4のステップと、
各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第5のステップと、
各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第6のステップと、
前記第4ないし6のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第7のステップと、
前記分類対象文書から新たに前記表示座標系に組み入れる複数の次期配置文書を選択する第8のステップと、
各前記次期配置文書中の一つについてが前記表示座標系において当初配置される位置座標を算出してこれを配置する第9のステップと、
新たに前記第9のステップで配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第10のステップと、
新たに前記第9のステップで配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第11のステップと、
前記第10及び11のステップの繰返処理の実行中に前記次期配置文書前記第9のステップで配置された前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させこの時点での位置を前記第9のステップで配置された前記次期配置文書の仮決め位置とする第12のステップと、
前記第9ないし12のステップを前記第8のステップで選択された次期配置文書の全てについて実行した後、全ての配置文書について前記第4ないし7のステップにおける繰返処理を実行する第13のステップと、
残存している前記分類対象文書について、前記第8ないし13のステップを実行する第14のステップとを備えることを特徴とする文書分類方法。
【請求項13】
各前記分類対象文書が自文書を識別する文書番号を有し、
前記第1のステップにおける両文書が類似する程度を当該両文書が引用する前記分類対象文書の文書番号を用いて算出することを特徴とする請求項1ないし12のいずれか1項に記載の文書分類方法。
【請求項14】
前記第1のステップにおける両文書が重複して引用する前記分類対象文書の数を当該両文書のそれぞれにおける引用数の和で除した値を当該両文書が類似する程度を表す値とすることを特徴とする請求項13に記載の文書分類方法。
【請求項15】
ある前記分類対象文書を引用する前記分類対象文書の数の逆数を当該前記分類対象文書の評価値とし、
前記第1のステップにおける両文書が重複して引用する前記分類対象文書の評価値の和を当該両文書のそれぞれにおける引用数の和で除した値を当該両文書が類似する程度を表す値とすることを特徴とする請求項13に記載の文書分類方法。
【請求項16】
自文書を自文書が引用する前記分類対象文書の一つとみなすことを特徴とする請求項13ないし15のいずれか1項に記載の文書分類方法。
【請求項17】
前記分類対象文書が特許文献であり、
自文書を基礎とする優先権が主張された外国特許出願に係る外国特許文献で引用されている前記分類対象文書を自文書が引用する前記分類対象文書の一つとみなすことを特徴とする請求項13ないし15のいずれか1項に記載の文書分類方法。
【請求項18】
指定された前記分類対象文書から前記表示座標系上で閾値距離の範囲内に位置する前記分類対象文書のみを表示手段に表示することを特徴とする請求項1ないし17のいずれか1項に記載の文書分類方法。
【請求項19】
コンピュータシステムに、請求項1ないし181のいずれか1項に記載の各ステップを実行させることを特徴とする文書分類プログラム。
【請求項20】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類装置であって、
前記分類対象文書のうちの各2文書間の安定文書間距離を、両文書が類似する程度に応じて算出する第1のステップを実行する手段と、
前記分類対象文書から初期配置文書を選択する第2のステップを実行する手段と、
各前記初期配置文書が表示座標系上で当初配置される位置座標を算出する第3のステップを実行する手段と、
配置された前記初期配置文書のうちの各2文書間について、現処理時点における前記表示座標系上の一方の文書から他方の文書への離間ベクトルを算出し、各配置された前記初期配置文書について、前記離間ベクトルの長さと前記安定文書間距離との差及び前記離間ベクトルの方向に基づいて、他のある初期配置文書から受ける文書間力ベクトルを算出する第4のステップを実行する手段と、
各配置された前記初期配置文書について、他の各前記初期配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第5のステップを実行する手段と、
各配置された前記初期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第6のステップを実行する手段と、
前記第4ないし6のステップの繰返処理の実行中に前記初期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第7のステップを実行する手段と、
前記分類対象文書から新たに前記表示座標系に組み入れる次期配置文書を選択する第8のステップを実行する手段と、
各前記次期配置文書が前記表示座標系において当初配置される位置座標を算出する第9のステップを実行する手段と、
新たに配置された前記次期配置文書について、既存の配置文書から受ける文書間力ベクトルを総和して総和文書間力ベクトルを算出する第10のステップを実行する手段と、
新たに配置された前記次期配置文書について、前記総和文書間力ベクトルに応じて次回処理時点における位置座標を算出する第11のステップを実行する手段と、
前記第10及び11のステップの繰返処理の実行中に前記次期配置文書の位置座標の収束を判断し、当該繰返処理を終了させる第12のステップを実行する手段とを備えることを特徴とする文書分類装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate