文書分類方法、文書分類プログラム及び文書分類装置

【課題】文書の表記のゆれによる影響が少ない文書分類方法を提供する。
【解決手段】分類対象文書のうちの２文書間の共通キーワードに基づく類似度及び共通引用文献に基づく類似度を算出する。これらの平均値を当該２文書間の文書類似度とする。各２文書について文書類似度に基づいて安定文書間距離を算出する。分類対象文書を座標系に配置し、各２文書が安定文書間距離に近づくように各分類対象文書を移動させる処理を行うことにより、関連性の強い文書同士が集まるような配置を実現する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法に関するものである。
【背景技術】
【０００２】
従来、共通キーワードの非一般性の評価値に基づいて文書間の類似度を算出する文書分類方法があった。
【特許文献１】特開平８−２２１４４７号公報
【特許文献２】特許第３３８５２９７号公報
【特許文献３】特開２００３−２８８３５２号公報
【特許文献４】特開２００２−３１２８０３号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかし、従来の文書分類方法によると、文書の内容が類似する場合（例えば国際特許分類のサブグループが同一である特許文献の場合）、表記のゆれの影響が大きくなり、適切な文書分類ができないという問題点があった。
【０００４】
本発明は、上記課題に鑑みてなされたものであり、文書の表記のゆれによる影響が少ない文書分類方法を提供することを目的とする。
【課題を解決するための手段】
【０００５】
本発明の文書分類方法は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、前記分類対象文書のうちの２文書で共通して現れる共通キーワードを抽出する共通キーワード抽出ステップと、前記分類対象文書のうちの２文書で共通して引用されている共通引用文献を抽出する共通引用文献抽出ステップと、各キーワード参照文書に含まれるワードを当該キーワード参照文書の識別番号と関連付けて格納したキーワード・テーブルを参照して、前記キーワード・テーブルにおける前記共通キーワードの出現数を数え、この出現数に基づき前記共通キーワードの非一般性の評価値（出現数が大きくなるに従い評価値＝重みが小さくなるように設定されている。）を算出する共通キーワード評価値算出ステップと、各引用文献参照文書で引用されている文献を当該引用文献参照文書の識別番号と関連付けて格納した引用文献テーブルを参照して、前記引用文献テーブルにおける前記共通引用文献の出現数を数え、この出現数に基づき前記共通引用文献の非一般性の評価値（出現数が大きくなるに従い評価値＝重みが小さくなるように設定されている。）を算出する前記共通引用文献評価値算出ステップと、各前記共通キーワードの評価値を合算して、前記分類対象文書のうちの２文書の共通キーワードに基づく類似度を算出するキーワード類似度算出ステップと、各前記共通引用文献の評価値を合算して、前記分類対象文書のうちの２文書の共通引用文献に基づく類似度を算出する引用文献類似度算出ステップと、共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出ステップと、前記分類対象文書を座標系に配置し、前記文書類似度が高い２文書が近づき、前記文書類似度が低い２文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動ステップとを備えることを特徴とする。共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合することにより、表記のゆれによる影響を小さくすることができる。また、共通キーワードに基づく類似度も文書類似度に反映されるので対象分野が異なる文書についても適切な類似度を取得することができる。
【０００６】
本発明では、共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合するに先立って、共通キーワードに基づく類似度を適当な数で除して重みを小さくすることが好適である。これにより、共通キーワードに基づく類似度に基づき大雑把な文書分類を行った上、共通引用文献に基づく類似度に基づき細かい文書分類を行ったのと同じ効果を得ることができる。
【０００７】
本発明の好適な形態は、特許請求の範囲中の独立項で特定される形態に、従属項中の構成要素のうち任意のもの（従属項中の構成要素のあらゆる組み合わせ）を付加した形態を含む。
【発明の効果】
【０００８】
文書の表記のゆれによる影響が少なくなると共に、対象分野が異なる文書についても適切な類似度を取得することができる。
【発明を実施するための最良の形態】
【０００９】
以下、添付図面を参照して、本発明の好適な実施形態を詳細に説明する。図１は、本発明による文書分類装置の一実施形態を示すブロック図である。文書分類装置１は、複数の分類対象文書を、各分類対象文書の内容に応じて分類するものである。文書分類装置１は、データベース１０、安定文書間距離算出部２２、配置文書選択部２３、位置座標初期値設定部２４、文書間力ベクトル算出部２６、及び位置座標更新部２８を備えている。データベース１０は、分類対象文書ＤＢ１２、安定文書間距離ＤＢ１４、位置座標ＤＢ１６及び文書間力ベクトルＤＢ１８を有している。分類対象文書ＤＢ１２は、複数の分類対象文書を各文書を特定する文書コードに関連付けて格納している。分類対象文書は、分類対象文書ＤＢ１２に予め格納されているが、適宜の入力手段により必要に応じて入力することもできる。
【００１０】
安定文書間距離ＤＢ１４は、安定文書間距離算出部２２により算出される安定文書間距離を文書コードに関連付けて格納する。図２は、文書間距離ＤＢ１４のデータベースの一例を示す構成図である。この図に示すように、各２文書間の安定文書間距離が、それらの文書コード（Ｐ０００１，Ｐ０００２，・・・）に関連付けられて格納されている。例えば、この場合、文書（Ｐ０００１）と文書（Ｐ０００２）との間の安定文書間距離は、０．００５である。
【００１１】
位置座標ＤＢ１６は、位置座標初期値設定部２４により設定される各文書の位置座標の初期値、及び位置座標更新部２８により更新された位置座標を文書コードに関連付けて格納する。図３は、位置座標ＤＢ１６のデータベースの一例を示す構成図である。この図に示すように、各文書の位置座標（Ｘ座標，Ｙ座標）が文書コードに関連付けられて格納されている。例えば、この場合、文書（Ｐ０００３）の位置座標は、（０．５１５５，０．３４１７）である。
【００１２】
文書間力ベクトルＤＢ１８は、文書間力ベクトル算出部２６により算出される総和文書間力ベクトルを文書コードに関連付けて格納する。図４は、総和文書間力ベクトルＤＢ１８のデータベースの一例を示す構成図である。この図に示すように、各文書に働く総和文書間力ベクトル（ＦＸ，ＦＹ）が文書コードに関連付けられて格納されている。例えば、この場合、文書（Ｐ０００２）の総和文書間力ベクトルは（０．００７，‐０．００３）である。
【００１３】
安定文書間距離算出部２２は、分類対象文書ＤＢ１２に格納されている複数の分類対象文書について、各２文書間の安定文書間距離を、両文書の類似する程度に応じて算出する。この安定文書間距離は、両文書の内容が類似する程度が高いほど小さく、類似する程度が低いほど大きくなる。
【００１４】
位置座標初期値設定部２４は、２次元座標平面上における各文書の位置座標の初期値を設定する。位置座標初期値設定部２４における初期値の設定方法の一例を説明する。説明の便宜のため、分類対象文書数をＮ（Ｎは２以上の整数）とし、各文書をＴ_ｉ（ｉ＝１，２，・・・，Ｎ）と表すことにする。まず、文書Ｔ_ｉと文書Ｔ_ｊ（ｊ＝１，２，・・・，Ｎ、ｊ≠ｉ）との間の安定文書間距離Ｌ_０（ｉ，ｊ）をテーブルＬ_ａに読み込む。全ての（ｉ，ｊ）の組について安定文書間距離Ｌ_０（ｉ，ｊ）を読み込んだ後、Ｌ_０（ｉ，ｊ）の平均値Ｌ_ａｖｇを求める。そして、各文書Ｔ_ｉの位置座標（Ｘ_ｉ，Ｙ_ｉ）を下記式、
Ｘ_ｉ＝Ｌ_ａｖｇ×ｒｎｄ
Ｙ_ｉ＝Ｌ_ａｖｇ×ｒｎｄ
から求める。ここで、ｒｎｄは乱数を表している。これにより、各文書の位置座標の初期値が設定される。なお、安定文書間距離Ｌ_０（ｉ，ｊ）は平均値Ｌ_ａｖｇで除されることにより、正規化される。
【００１５】
文書間力ベクトル算出部２６は、各文書に働く総和文書間力ベクトルを算出する。総和文書間力ベクトルとは、各文書が他の文書から受ける文書間力のベクトル和である。また、文書間力とは、各２文書の位置座標から求められる座標平面上における距離が上記の安定文書間距離よりも大きい場合には両文書間に引力が働き、逆に座標平面上における距離が安定文書間距離よりも小さい場合には両文書間に斥力が働くと仮定して導入した概念である。これらの力の大きさは、座標平面上における距離と安定文書間距離との差の絶対値が増加するにつれて大きくなり、上記絶対値が減少するにつれて小さくなる。また、座標平面上における距離が安定文書間距離と一致する場合には、両文書間に働く文書間力は０である。
【００１６】
文書間力ベクトル算出部２６における文書間力ベクトルの算出方法の一例を説明する。まず、文書Ｔ_ｉと文書Ｔ_ｊの距離Ｌ（ｉ，ｊ）をその処理時点（現処理時点）（特に本実施形態では、位置座標の更新について「現処理時点」、「次回処理時点」というとき、「現処理時点」とは、移動処理（全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理）の繰返処理において、ある回が開始する時点を指し、「次回処理時点」とは、当該ある回の次の回が開始する時点を指すものとする。）における両者の位置座標に基づいて、下記式、
Ｌ（ｉ，ｊ）＝｛（Ｘ_ｉ−Ｙ_ｉ）^２＋（Ｘ_j−Ｙ_j）^２｝^０．５
から求める。なお、「その処理時点における両者の位置座標に基づいて」とあるのは、後述するように、各文書Ｔ_ｉの位置座標は必要に応じて更新されるため、常に同じ値をとるとは限らないからである。次に、文書Ｔ_ｉと文書Ｔ_ｊの文書間力ｆ（ｉ，ｊ）を下記式、
ｆ（ｉ，ｊ）＝（Ｌ_０（ｉ，ｊ）−Ｌ（ｉ，ｊ））／（Ｌ_０（ｉ，ｊ）＋ε１）^α
から求める。ここで、ε１は、Ｌ_０（ｉ，ｊ）が０のときに対応するための定数であり、例えば１×１０^−１２とされる。αは、安定文書間距離Ｌ_０（ｉ，ｊ）が小さくなるに連れて文書間力ｆ（ｉ，ｊ）が指数関数的に大きくように設定される。こうすることにより、文書間の類似度が高いときにより大きな文書間力が働くようになる。その結果、類似する文書の集団を形成するのが容易になると共に集団が配置される位置が人間の感覚に近いものになり、また分類対象文書数Nが多くなっても容易に収束させることができる。分類対象文書数が比較的少数である場合（Nが５０未満の場合）にはα＝０．８〜２．３の何れかの値に設定される。Nが１００を超える場合にはα＝１．８〜２．２の何れかの値に設定することにより容易に収束させることができる。特に、N＝１０１〜３０００の場合にはα＝２とするのが好適である。特に、分類対象文書を２次元空間にマッピングする場合、αが上記範囲より小さい場合は、移動処理の繰返処理の過程で一部文書の座標が収束せず発散するケースが多くなり、上記範囲より大きい場合は、個々の文書の内容を反映しない均一な文書の集団を形成しやすくなる。次に、文書Ｔ_ｉが文書Ｔ_ｊから受ける文書間力のＸ成分ｆＸ（ｉ，ｊ）及びＹ成分ｆＹ（ｉ，ｊ）を下記式、
ｆＸ（ｉ，ｊ）＝ｆ（ｉ，ｊ）×（Ｘ_ｉ−Ｘ_ｊ）／（Ｌ（ｉ，ｊ）＋ε２）^β
ｆＹ（ｉ，ｊ）＝ｆ（ｉ，ｊ）×（Ｙ_ｉ−Ｙ_ｊ）／（Ｌ（ｉ，ｊ）＋ε２）^β
から求める。ここで、ε２は、Ｌ（ｉ，ｊ）が０のときに対応するための定数であり、例えば１×１０^−１２とされる。また、βは、例えば０．５に設定される。最後に、各文書Ｔ_ｉに働く文書間力の総和のＸ成分ＦＸ_ｉ及びＹ成分ＦＹ_ｉを下記式、
ＦＸ_ｉ＝Σ_ｊｆＸ（ｉ，ｊ）
ＦＹ_ｉ＝Σ_ｊｆＹ（ｉ，ｊ）
から求める。ここで、Σ_ｊは、全ての配置済み文書についての和をとることを意味する。このようにして算出されたＦＸ_ｉ及びＦＹ_ｉを成分とするベクトルが上述の総和文書間力ベクトルである。
【００１７】
位置座標更新部２８は、文書間力ベクトル算出部２６により算出された総和文書間力ベクトルの絶対値が小さくなるように、各文書の位置座標を更新する。位置座標更新部２８における位置座標の更新方法の一例を説明する。すなわち、各文書Ｔ_ｉの位置座標（Ｘ_ｉ，Ｙ_ｉ）は、文書間力ベクトル算出部２６により算出された文書間力ベクトル（ＦＸ_ｉ，ＦＹ_ｉ）に基づいて、下記式、
Ｘ_ｉ’＝Ｘ_ｉ−ｋ×ＦＸ_ｉ
Ｙ_ｉ’＝Ｙ_ｉ−ｋ×ＦＹ_ｉ
により更新される。ここで、（Ｘ_ｉ’，Ｙ_ｉ’）は、更新後の位置座標を表す。また、ｋは移動係数であり、例えば１×１０^−２３以上１×１０^−２２以下の定数とされる。上記式は、各文書Ｔ_ｉを、文書間力ベクトルの向きに、そのベクトルの絶対値の大きさに比例した距離だけ移動させることを意味している。更新された位置座標は、位置座標ＤＢ１６に格納され、それまで格納されていた位置座標に対して上書きされる。本実施形態において位置座標更新部２８は、位置座標の更新と併せて、各文書Ｔ_ｉの移動距離の平均値ＭＬを下記式、
ＭＬ＝Σ｛（ｋ×ＦＸ_ｉ）^２＋（ｋ×ＦＹ_ｉ）^２｝^０．５
から求める。この平均値ＭＬは、後述する収束条件判定部３０による収束条件の判定の際に用いられる。
【００１８】
文書分類装置１は、収束条件判定部３０、表示部３２（出力手段）、及び入力部３４をさらに備えている。収束条件判定部３０は、位置座標更新部２８により位置座標が更新された後に、収束条件の判定を行う。例えば、上述の位置座標更新部２８において求められた平均値ＭＬが規定値以下になることを収束条件として設定することができる。この収束条件が満たされないときは、収束条件判定部３０は、文書間力ベクトル算出部２６に更新後の位置座標を用いて再度総和文書間力ベクトルを算出させるとともに、位置座標更新部２８にその総和文書間力ベクトルを用いて再度位置座標を更新させる。したがって、位置座標更新部２８による位置座標の更新は、上述の収束条件が満たされるまで実行される。
【００１９】
表示部３２は、上述の収束条件が満たされ、位置座標更新部２８による位置座標の更新が終了した後、決定した位置座標に基づいて、各文書Ｔ_ｉ間の座標平面上における相対的な位置関係を可視化して表示する。表示部３２における表示方法の一例を説明する。図５は、表示部３２による結果表示画面の一例を示す図である。本例では、まず、表示エリア５０をｍ×ｎ個（ここではｍ＝ｎ＝４）のセルに区切る。また、後述する入力部３４により表示エリアを規定するＸ座標、Ｙ座標それぞれの最大値（Ｘ_ｍａｘ、Ｙ_ｍａｘ）及び最小値（Ｘ_ｍｉｎ、Ｙ_ｍｉｎ）を入力する。なお、これらの値を入力せずに、既に決定されている全文書の位置座標から、Ｘ座標及びＹ座標それぞれについて、最大のもの及び最小のものをデフォルト値として用いることもできる。次に、表示部３２は、入力されたこれらの値をから、各セルに相当する座標範囲を求める。そして、各セルに含まれる文書の数を、図５に示すように表示する。例えば、この場合、一番右上のセルに含まれる文書数は１である。さらに本例では、各セルに含まれる文書のイメージを作成するとともに、各セルにそのイメージをハイパーリンクさせる。図５に示すように、注目するセルにマウスポインタ５２を合わせると、そのセルに含まれる文書を、該当文書リストとして表示させることができる。ここでは、分類対象文書として公開特許公報等の特許文献（外国語又は外国で発行された特許文献も含む。）を想定しており、該当文書リストには特許文献の種別と公報番号とを表示させている。また、これらの表示にはハイパーリンクが貼られているので、例えば「特開平８−○○○○○○号公報」と表示されている部分を画面上でクリックすれば、その公開特許公報のイメージにアクセスして、その内容を見ることができる。
【００２０】
入力部３４は、表示部３２により表示される対象となる座標平面上における表示エリア等を入力するためのものであり、例えばキーボードやマウス等が用いられる。例えば、図５の例では、表示エリア５０を規定するＸ_ｍａｘ、Ｙ_ｍａｘ、Ｘ_ｍｉｎ、Ｙ_ｍｉｎの値を入力部３４から入力することができる。入力された情報は、表示部３２へと渡される。
【００２１】
次に、文書分類装置１の動作を説明し、併せて本発明による文書分類方法の一実施形態を説明する。図６は、初期処理及び二次元表示座標系において初期配置文書を配置・移動する処理を示すフローチャートである。先ず、安定文書間距離算出部２２が、分類対象文書ＤＢ１２に格納されている分類対象文書を読み込んで各２文書間の安定文書間距離を算出し、算出した安定文書間距離を安定文書間距離ＤＢ１４に格納させる（Ｓ６１）。続いて、安定文書間距離算出部２２が、文書間距離ＤＢ１４に格納されている安定文書間距離を読み込んで平均値を算出し（Ｓ６２）、各安定文書間距離をこの平均値で除することにより正規化して安定文書間距離ＤＢ１４のデータを更新する（Ｓ６３）。配置文書選択部２３が、最初に表示座標系に配置する分類対象文書である初期配置文書Ｔ_ｋをｉｎｔ√Ｎ（分類対象文書の総数Ｎの平方根の小数点以下を切り捨てた値）個選択する（Ｓ６４）。位置座標初期値設定部２４は、上記平均値を用いて各文書の位置座標の初期値を設定し、設定した位置座標の初期値を位置座標ＤＢ１６に格納させる（Ｓ６５）。そして、文書間力ベクトル算出部２６が、文書間距離ＤＢ１４に格納されている安定文書間距離及び位置座標ＤＢ１６に格納されている位置座標を読み込み、それらの値を用いて、各文書に働く総和文書間力ベクトルを算出し、算出した総和文書間力ベクトルを文書間力ベクトルＤＢ１８に格納する（Ｓ６６）。その後、位置座標更新部２８が、文書間力ベクトルＤＢ１８に格納されている総和文書間力ベクトルを読み込み、そのベクトルに基づいて各文書の位置座標を更新し、更新した位置座標を位置座標ＤＢ１６に格納させる（Ｓ６７）。位置座標が更新されると、収束条件判定部３０が収束条件の判定を行い、収束条件が満たされていない場合には上記ステップ（Ｓ６６〜Ｓ６７）を繰返し実行させる。収束条件が満たされている場合には、新たな分類対象文書を追加していく処理に移る。
【００２２】
文書分類装置１は、表示部３２を備えている。これにより、ユーザは、表示部３２による表示を見ることにより、容易に文書間の相対的な位置関係を知ることができる。なお、文書分類装置１に表示部３２を設けない構成としてもよい。この場合、例えば、表示部３２の代わりに分類結果を出力する出力部を設け、その出力内容を外部のディスプレイ等により表示、或いは外部のプリンタにより印刷させることとしてもよい。
【００２３】
また、文書分類装置１は、表示エリア５０（図５参照）に表示される範囲を規定するＸ座標及びＹ座標それぞれの最大値及び最小値を入力することのできる入力部３４を備えている。これにより、ユーザは、座標平面上の所望の範囲を表示させ、その範囲における文書間の位置関係を詳細に知ることができる。
【００２４】
なお、位置座標更新部２８は、各文書に働く文書間力ベクトルの絶対値を全ての分類対象文書について和をとった値が極小となるまで、位置座標の更新を実行することが好適である。この場合、全ての分類対象文書間で特に高い整合性を保ちつつ、各文書の位置座標を決定することができる。
【００２５】
図７は、図１の安定文書間距離算出部２２の構成の一例を示すブロック図である。安定文書間距離算出部２２は、各種文書からワード及び引用文献を抽出するワード・引用文献抽出部７０と、ワード・引用文献抽出部７０によって抽出されたワード及び引用文献を格納する各種データベース８０とを備えている。
【００２６】
ワード・引用文献抽出部７０は、キー文書からワード及び引用文献をキーワード・引用文献として抽出するキーワード・引用文献抽出部７１と、参照文書からワード及び引用文献を参照ワード・引用文献として抽出する参照ワード・引用文献抽出部７２と、検索文書からワード及び引用文献を検索ワード・引用文献として抽出する検索ワード・引用文献抽出部７３とを有している。ここで、「キー文書」及び「検索文書」の区分は便宜的なものであり、安定文書間距離算出部２２においては、文書間距離を求めたい２文書のうちの一方がキー文書、他方が検索文書とされる。また、参照文書とは、キーワード評価値（各キーワードがキー文書に固有に含まれる程度（非一般性）を表す値）及び引用文献評価値（各引用文献がキー文書に固有に含まれる程度（非一般性）を表す値）を設定する際に参照される文書である。参照文書としては、例えば分類対象文書ＤＢ１２（図１参照）内の全文書、或いは予めランダムに抽出した分類対象文書ＤＢ１２内の一部の文書を用いることができる。参照文書は、適宜の入力手段により、必要に応じて安定文書間距離算出部２２に入力することができる。また、安定文書間距離算出部２２は、参照文書を格納する格納手段を備えている。
【００２７】
抽出部７１〜７３は、日本語にあっては、ひらがな、句読点、特殊記号及びスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。また、抽出部７１〜７３は、英語等のアルファベット表記がなされる言語にあっては、特殊記号及び／又はスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。抽出部７１〜７３は、一の文書から重複してワードを抽出しないように、ある文書から切り出されたワードは、同じ文書から既に切り出されたワードと照合され、一致しないワードのみを抽出する機能を有する。
【００２８】
抽出部７１〜７３は、「特開」、「特許」、「ＵＳ」、「ＵＳＰ」、「ＥＰ」、「ＤＥ」、「ＪＰ」、「ＷＯ」などの特許文献の種別を示す文字列とそれに続く年表示、番号などとの組み合わせを検索して、引用文献を抽出する機能を有する。また、近年の電子化公報のように引用文献を示すタグが定義されている場合は、これを利用して引用文献を抽出することができる。さらに既存の各種データベースを利用して公報ごとの引用文献を得ることも可能である。
【００２９】
データベース（ＤＢ）８０は、キーワードＤＢ８１、全ワードＤＢ８２、キーワード評価値ＤＢ８３、検索ワードＤＢ８４、キーワード類似度ＤＢ８５、引用文献ＤＢ８６、引用文献評価値ＤＢ８７、引用文献類似度ＤＢ８８及び文書類似度ＤＢ８９を有している。キーワードＤＢ８１は、キー文書から抽出したキーワードを格納する。キーワードは、抽出元であるキー文書を特定するキー文書コードに関連付けて格納されている。全ワードＤＢ８２（各文書に含まれるワードを当該文書の文書番号と関連付けて格納したテーブル）は、参照文書から抽出された参照ワードを、それぞれの抽出元である参照文書を特定する参照文書コードと関連付けて格納する。キーワード評価値ＤＢ８３は、後述するキーワード評価値計算部９１により算出される評価値を格納する。検索ワードＤＢ８４は、検索文書から抽出される検索ワードを格納する。検索ワードは、抽出元である検索文書を特定する検索文書コードに関連付けて格納されている。キーワード類似度ＤＢ８５は、後述するキーワード類似度計算部９２により算出されるキーワード類似度を格納する。引用文献ＤＢ８６には、各参照文書で関連する文献として引用されている文献を識別する引用文献コードが当該参照文書コードと関連付けて格納されている。引用文献ＤＢ８６に格納される引用文献は、ワード・引用文献抽出部７０により抽出されたものであってもよいし、入力されたデータに基づくものであってもよい。引用文献評価値ＤＢ８７は、後述する引用文献評価値計算部９３により算出される評価値を格納する。引用文献類似度ＤＢ８８は、後述する引用文献類似度計算部９４により算出される引用文献類似度を格納する。文書類似度ＤＢ８９は、キーワード類似度と引用文献類似度とを総合した類似度である文書類似度を格納する。
【００３０】
なお、上記のキーワード、参照ワード、及び検索ワードは、それぞれ抽出対象となる文書の全体から抽出してもよいし、一部から抽出してもよい。例えば、抽出対象となる文書が特許文献であれば、書誌的事項、要約、請求項、又は実施例等に抽出範囲を限定してもよい。特に、データ量に制限がある場合には、抽出範囲を文書の一部に絞ることが有効となる。また、参照ワードは参照文書の一部から抽出し、キーワード及び検索ワードはそれぞれキー文書及び検索文書の全体から抽出するというように、各ワード毎に適宜抽出範囲を変えることより、いわゆるノイズと漏れの関係を調整することができる。引用文献を抽出する際には、実施例及び請求項を除く明細書部分、あるいは[背景技術]、米国特許公報や欧州特許公報（経過情報）のように引用文献が書誌的事項やサーチレポートのように定められた部分にリストとして列記されている場合はこの部分に限定するのが好適である。
【００３１】
また、安定文書間距離算出部２２は、キーワード評価値計算部９１及びキーワード類似度計算部９２を備えている。キーワード評価値計算部９１は、全参照文書中でキー文書と共通のワードが出現する出現率を算出する機能を有する。参照文書がＮ個で、そのうちのＢ個に共通のワードが存在する場合には、全文書内キーワード出現率は、Ｂ／Ｎで算出される。キーワード評価値計算部９１は、全ワードＤＢ８２に格納された参照ワードを検索して、キーワードと同一のものが何個存在するか算出する。カウントされた参照ワード数を全参照文書の数で除することによって、全文書内キーワード出現率を算出する。さらに、キーワード評価値計算部９１は、全文書内キーワード出現率の逆数をとって、キーワード評価値を算出する機能を有する。すなわち、キーワード評価値は、Ｎ／Ｂで算出され、各キーワードがキー文書に固有に含まれる程度（非一般性）を示すものである。キーワード出現数Bを０．１〜０．８乗する調整を施すことが考えられる。この場合、たとえば０．５乗する調整を施すとき、キーワード評価値は、Ｎ／（Ｂ^０．５）となる。
【００３２】
キーワード類似度計算部９２は、検索文書に含まれる全てのキーワードの評価値を加算することにより、キー文書と検索文書とが類似する程度を表すキーワード類似度を算出する機能を有する。更に加算値を２〜１００で除した値をキーワード類似度として、後述する引用文献類似度とのバランスをとることが考えられる。キーワード類似度計算部９２は、このようにして算出したキーワード類似度をキーワード類似度ＤＢ８５に格納させる。
【００３３】
安定文書間距離算出部２２は、引用文献評価値計算部９３及び引用文献類似度計算部９４を備えている。引用文献評価値計算部９３は、引用文献ＤＢ８６を参照して、キー文書で関連する文献として引用されている各引用文献の全参照文書中における出現率を算出する機能を有する。具体的には、ある引用文献を引用している文書の数を全参照文書の数で除することによって、全文書内引用文献出現率を算出する。参照文書がＮ個で、全文書中のＣ個において当該引用文献が引用されている場合には、全文書内引用文献出現率は、Ｃ／Ｎで算出される。さらに、引用文献評価値計算部９３は、全文書内引用文献出現率の逆数をとって、引用文献評価値を算出する機能を有する。すなわち、引用文献評価値は、Ｎ／Ｃで算出され、各引用文献がキー文書に固有に含まれる程度（非一般性）を示すものである。引用文献出現数Ｃを０．１〜０．８乗する調整を施すことが考えられる。この場合、たとえば０．５乗する調整を施すとき、引用文献評価値は、Ｎ／（Ｃ^０．５）となる。
【００３４】
引用文献類似度計算部９４は、キー文書と検索文書が共通して引用する全ての文献についての評価値を加算することにより、キー文書と検索文書とが類似する程度を表す引用文献類似度を算出する機能を有する。引用文献類似度計算部９４は、このようにして算出した引用文献類似度を引用文献類似度ＤＢ８８に格納させる。
【００３５】
図１９は、引用文献ＤＢ８６の例である。図１９の例では、引用文献類似度計算部９４は、キー文書（ＵＳ６７１３５２０Ｂ２）と検索文書（ＵＳ６４３３０９０Ｂ１）とが重複して引用する文献を検出する。キー文書には、３つの文献が引用されている（ただし、自文書も引用文献として扱われている。）。検索文書には、２３の文献が引用されている（ただし、自文書も引用文献として扱われている。）。これらのうちＵＳ６４３３０９０（検索文書）のみが重複引用文献として検出される。この重複引用文献の引用文献評価値がキー文書と検索文書との引用文献類似度になる。分類対象文書の数が１００件を超える場合は評価値を１に固定するなどの調整も考えられる。
【００３６】
安定文書間距離算出部２２は、文書類似度計算部９５及び文書間距離計算部９６を備えている。文書類似度計算部９５は、キーワード類似度と引用文献類似度とを総合してキー文書と検索文書との類似度（文書類似度）を算出する機能を有する。具体例として、文書類似度計算部９５は、キーワード類似度と引用文献類似度との平均値を文書類似度として文書類似度ＤＢ８９に格納する。この際、前述したとおりキーワード類似度を適当な数で除することにより、キーワード類似度が安定文書間距離に与える影響の強さと引用文献類似度が安定文書間距離に与える影響の強さとのバランスを調整することが考えられる。また、キーワード類似度と引用文献類似度の各々を、キー文書及び検索文書中に含まれるキーワードの数とキー文書及び検索文書が引用している引用文献の数との和で除することが考えられる。これを達成するために、文書類似度計算部９５が、キーワード類似度と引用文献類似度との平均値を算出した上、これをキー文書及び検索文書中に含まれるキーワードの数とキー文書及び検索文書が引用している引用文献の数との和で除した値を文書類似度とすることが考えられる。
【００３７】
文書間距離計算部９６は、文書類似度ＤＢ８９に格納されている類似度を用いて文書Ｔ_ｉと文書Ｔ_ｊとの間の安定文書間距離Ｌ_０（ｉ，ｊ）を算出する機能を有する。ここで、安定文書間距離Ｌ_０（ｉ，ｊ）は、下記式、
Ｌ_０（ｉ，ｊ）＝２／（Ｓ_ｉｊ＋Ｓ_ｊｉ）
から求められる。ここで、Ｓ_ｉｊは、文書Ｔ_ｉをキー文書とし、文書Ｔ_ｊを検索文書としたときの文書類似度を表し、Ｓ_ｊｉは、文書Ｔ_ｊをキー文書とし、文書Ｔ_ｉを検索文書としたときの文書類似度を表す。つまり、上記式は、文書Ｔ_ｉと文書Ｔ_ｊとの間で、キー文書と検索文書の関係を入れ替えて算出された類似度の平均値をとり、さらにその平均値の逆数をとることを意味している。キー文書と検索文書の関係を入れ替えて算出された類似度の平均値を用いるのは、上記のＳ_ｉｊとＳ_ｊｉとは必ずしも一致しないからである。このようにして算出される安定文書間距離Ｌ_０（ｉ，ｊ）は、両文書間の類似度が高いほど小さくなり、類似度が低いほど大きくなる。
【００３８】
図８は、安定文書間距離を算出する処理（図６の安定文書間距離算出ステップ（Ｓ６１）のサブルーチン）を示すフローチャートである。まず、キーワード抽出部７１がキー文書からキーワードを抽出し、抽出したキーワードをキーワードＤＢ８１に格納させる（Ｓ８０１）。また、参照ワード抽出部７２が参照文書から参照ワードを抽出し、抽出した参照ワードを全ワードＤＢ８２に格納させる（Ｓ８０２）。次に、キーワード評価値計算部９１が、全ワードＤＢ８２に格納されている参照ワードを読み込み、各キーワードの評価値を計算し、その評価値をキーワード評価値ＤＢ８３に格納させる（Ｓ８０３）。また、文書間距離計算部９３が検索文書から検索ワードを抽出し、抽出した検索ワードを検索ワードＤＢ８４に格納させる（Ｓ８０４）。次に、類似度計算部９２が、キーワード評価値ＤＢ８３に格納されている評価値及び検索ワードＤＢ８４に格納されている検索ワードを読み込み、キー文書と検索文書との間の類似度を計算し、その類似度をキーワード類似度ＤＢ８５に格納させる（Ｓ８０５）。
【００３９】
引用文献評価値計算部９３が、キー文書と検索文書が共通して引用する文献を抽出し（Ｓ８０６）、これらの文献各々の引用文献評価値を計算する（Ｓ８０７）。引用文献類似度計算部９４が、キー文書と検索文書との引用文献類似度を計算する（Ｓ８０８）。文書類似度計算部９５が、キー文書と検索文書とに関するキーワード類似度及び引用文献類似度とを平均することにより文書類似度を計算する（Ｓ８０９）。最後に、文書間距離計算部９３が、計算された文書類似度に基づき、キー文書と検索文書との安定文書間距離を計算する（Ｓ８１０）。なお、キーワード類似度及び引用文献類似度の平均を求める際、例えば、引用文献類似度に２〜４０、好ましくは８〜１１の係数を乗じて引用文献類似度に重みをつけることで、表記のゆれが問題となる内容類似の文書間では引用文献類似度による評価を、共通する引用文献がない、分野の異なる文書間では、キーワード類似度による評価を主体とすることが可能になり、この安定文書間距離に基づき位置座標を算出することで、広い技術分野にわたる特許文献をより詳細に分類配置することが可能になる。
【００４０】
安定文書間距離の計算処理の別の例を示す。本例では、安定文書間距離算出部２２において共通キーワードに基づく類似度を計算する処理機能（キーワード評価値計算部９１及びキーワード類似度計算部９２）と共通引用文献に基づく類似度を計算する処理機能（引用文献評価値計算部９３及び引用文献類似度計算部９４）とが統合されている。また、本例の参照文書テーブルは全ワードＤＢ８２のデータと引用文献ＤＢ８６のデータとを結合させたものである。
【００４１】
図２０のフローチャートを参照して本例の計算処理を示す。安定文書間距離算出部２２（キーワード・引用文献抽出部７０）は、キー文書及び検索文書からワード・引用文献を抽出して（Ｓ２１１）、共通キーワード及び共通引用文献を抽出・格納する（Ｓ２１２）。図２１は、抽出・格納された共通キーワード及び共通引用文献のデータを示す。安定文書間距離算出部２２は、参照文書テーブルを参照して、参照文書テーブルにおける各共通キーワード及び共通引用文献の出現率を計算し、これに基づき評価値を計算・格納する（Ｓ２１３）。安定文書間距離算出部２２は、各共通引用文献の評価値に２〜４０、好ましくは８〜１１の係数を乗じてこの値に置き換える（Ｓ２１４）。安定文書間距離算出部２２は、Ｓ２１３で得られたキーワード評価値とＳ２１４で得られた引用文献評価値とを合算することにより文書類似度を計算する（Ｓ２１５）。さらに、合算値をＳ２１１で抽出されたワード・引用文献の総数で除した値を文書類似度とするのが好適である。この文書類似度に基づいて安定文書間距離が計算される（Ｓ２１６）。
上記の例では共通キーワード及び共通引用文献の評価値を合算することによりそれぞれに基づく類似度を算出するが、これに代えてベクトル空間法を適用して共通キーワード類似度と共通引用文献類似度のそれぞれを求めてこれらに重みを乗じた上で文書類似度を算出する方法、共通キーワード及び共通引用文献の評価値に予め重みを付けた上で一括してベクトル空間法で文書類似度を求めることも可能である。
ベクトル空間法を適用して共通キーワード類似度を算出する場合、一例として、図２２ないし２４に示される処理がなされる。具体的には、（ｃ）及び（ｄ）欄に示される該当文書中にワードが現れる場合に１、そうでない場合に０とするベクトルそれぞれと、（ｂ）欄の評価値ベクトルの各要素を乗じる演算を行うことにより、（ｅ）及び（ｇ）欄のベクトルを算出する。（ｆ）及び（ｈ）欄に示されるように（ｅ）及び（ｇ）欄のベクトルの各要素を二乗する演算を行い、さらに正規化係数を乗じて（ｆ）欄のベクトルの単位ベクトル（ｉ）及び（h）欄のベクトルの単位ベクトル（j）を算出する。単位ベクトル（ｉ）と単位ベクトル（j）との距離又は内積に基づいて共通キーワード類似度を算出することができる。共通引用文献類似度も、上記と同様の処理により算出することができる。また、キーワード及び検索ワードに加えてキー文書及び検索文書で引用されている文献を同時にベクトル空間法演算の対象にし（この場合（ａ）欄には図２１と同様の入力がなされる。）、（ｂ）欄における評価値を、共通キーワード類似度と共通引用文献類似度とのバランスをとるための重みを乗じた数値とすれば、その後に上記の演算を行うことにより直接文書類似度を取得することができる。
【００４２】
図９は、図６の総和文書間力ベクトル算出ステップ（Ｓ６６）のサブルーチンを示すフローチャートである。まず、文書間力ベクトル算出部２６が、位置座標ＤＢ１６に格納されている各文書の位置座標を読み込み、その位置座標から各２文書間の座標平面上における距離（離間ベクトルの長さ）を算出する（Ｓ９１）。また、文書間力ベクトル算出部２６は、文書間距離ＤＢ１４に格納されている安定文書間距離を読み込み、その安定文書間距離と前ステップＳ９１で計算した距離とを用いて、文書間力を算出する（Ｓ９２）。さらに、文書間力ベクトル算出部２６は、離間ベクトルに基づいて文書間力のＸ成分及びＹ成分を算出し（Ｓ９３）、ある文書に対して他の配置済み文書から働く文書間力の総和をベクトル和として求めることにより、総和文書間力ベクトルを算出する（Ｓ９４）。そして、全ての配置済み文書について総和文書間力ベクトルが算出された場合にはフローが終了し、総和文書間力ベクトルが算出されていない文書がある場合には、上記ステップ（Ｓ９１〜Ｓ９４）が繰り返される（Ｓ９５）。
【００４３】
図１０は、図６の位置座標の更新ステップ（Ｓ６７）のサブルーチンを示すフローチャートである。まず、位置座標更新部２８が、文書間力ベクトルＤＢ１８に格納されている文書間力ベクトルを読み込み、そのベクトルに応じて各文書の移動、すなわち位置座標の変更を行う（Ｓ１０１）。その後、位置座標更新部２８は、収束条件の判定に用いられる、各文書の移動距離の平均値を算出する（Ｓ１０２）。Ｓ６８において、移動距離の平均値が閾値を下回ることを収束条件とすることができる。また、これに代えてｉｎｔ√Ｎ回位置座標の更新ステップを繰り返したことを収束条件とすることもできる。
【００４４】
図１１は、表示座標系に追加の配置文書を加えていく処理を示すフローチャートである。図１１を参照して、図６に示した初期配置文書の配置・移動処理が終了してから、順次追加の配置文書を加えていって、全ての分類対象文書の配置・移動を完了させる処理を説明する。
【００４５】
配置文書選択部２３が、次に表示座標系に加える時期配置文書を、ｉｎｔ（ｍｍ／１０）（ただし、ｍｍは既に表示座標系に配置済みの分類対象文書の数）個無作為に選択する（Ｓ１１１）。ただし、分類対象文書の残りの個数がｉｎｔ（ｍｍ／１０）に満たない場合には、残存している分類対象文書全てが時期配置文書になる。初期配置文書の配置・移動処理の直後に追加される時期配置文書の数は、ｉｎｔ｛（ｉｎｔ√Ｎ）／１０｝個となる。
【００４６】
位置座標初期値設定部２４が、時期配置文書が最初に設置される表示座標系上の位置座標を算出する（Ｓ１１２）。本実施形態では、時期配置文書は、最も安定文書間距離が短い配置済み分類対象文書の近傍に位置するように初期設定される。具体的には、位置座標初期値設定部２４は、安定文書間距離ＤＢ１４を参照して、Ｌ_０（ｃ，ｍｍ＋ｋ）が最小値となるｃを求め（ただし、ｃ＝１〜ｍｍ）、時期配置文書Ｔ_ｋの位置座標の初期値を（Ｘ_ｋ，Ｙ_ｋ）＝（Ｘ_ｃ＋ε，Ｙ_ｃ＋ε）（ε：定数）とする。また、以上に代えて初期配置文書の場合と同様に時期配置文書の初期値を乱数により決定してもよい。
【００４７】
ある時期配置文書の位置座標が初期値に設定された後、文書間力ベクトル算出部２６が、当該時期配置文書が他の配置済み分類対象文書から受ける現在の総和文書間力ベクトルを算出する（Ｓ１１３）。位置座標更新部２８が、この総和文書間力ベクトルに基づき当該時期配置文書の位置座標を更新する（Ｓ１１４）。収束条件判定部３０が、当該時期配置文書の今回の移動量が閾値以下であること又はＳ１１３〜Ｓ１１５の処理が所定の回数実行されたことをもって当該時期配置文書の位置座標の収束を判断する（Ｓ１１５）。収束が判断されなかった場合には、当該時期配置文書について再びＳ１１３〜Ｓ１１５の処理が繰り返される。
【００４８】
時期配置文書のうちの他の文書についても、順次Ｓ１１２〜Ｓ１１５の処理が行われる。時期配置文書中の全ての文書について配置・移動処理が完了した場合には、今回表示座標系に加えられた時期配置文書を含む全ての配置済み文書について位置計算（Ｓ６６〜Ｓ６８の処理）が√Ｎ回行われる（Ｓ１１７）。このように、時期配置文書の全てを一度に配置して移動処理（全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理）を行う代わりに、他の配置済み文書の位置座標を固定しつつ一つずつ順次時期配置文書の配置・移動処理を行って全ての時期配置文書の位置座標を仮決めし、さらに今回の時期配置文書を含む全ての配置済み文書についての配置・移動処理を行うことにより、移動処理の繰返回数を減少させることができる。未配置の分類対象文書についてＳ１１１〜Ｓ１１７の処理が行われる。ただし、未配置の分類対象文書がなくなった場合には、この時点で配置・移動処理が終了する。
【００４９】
図１２は、図１１の結果表示ステップ（出力ステップ）のサブルーチンを示すフローチャートである。まず、表示部３２が、表示エリアをｍ×ｎ個のセルに区切る（Ｓ１２１）。ここで、入力部３４により表示エリアを規定するＸ座標及びＹ座標それぞれの最大値及び最小値を入力する（Ｓ１２２）。この入力は、ユーザが行うものである。次に、表示部３２は、入力部３４より入力された上記の値に基づいて、各セルに相当する座標範囲を算出する（Ｓ１２３）。そして、表示部３２は、各セルの座標範囲内に位置座標を有する文書数を表示エリアに表示する（Ｓ１２４）。また、表示部３２は、各セルに含まれる文書のイメージを作成するとともに（Ｓ１２５）、各セルに文書のイメージをハイパーリンクさせる（Ｓ１２６）。
【００５０】
図１３（ａ）及び図１３（ｂ）は、図１の表示部３２による結果表示の変形例を説明するための図である。図に示される表示エリア５０は、図５に対応するものである。本例では、表示エリア５０内の一部を新たな表示エリアとして指定することにより、その部分を表示エリア５０全体に再表示させることができる。例えば、図１３（ａ）において中央の４つのセル（外枠を太線で示している）を指定した場合、この指定した部分が、図１３（ｂ）に示すように、表示エリア５０全体に再表示される。このとき、表示エリア５０内のセル数は不変であるので、指定した部分はより細かいセルに分割されている。例えば、図１３（ａ）において文書数が「５」と表示されているセルは、図１３（ｂ）において右上の４つのセルに対応している。したがって、この４つのセルの文書数の和は５となっている。表示エリアの指定は、例えば図１の入力部３４に座標値を入力することにより、或いは画面上においてマウスで選択することにより行うことができる。
【００５１】
図１４は、図１の表示部３２による結果表示の変形例を説明するための図である。本例において表示部３２は、表示エリア５４ｄ内のプロットエリア５４ｐに、各文書の表示座標系（二次元表示座標系）における位置座標をプロットして表示する。各プロット５６には、対応する文書を特定できるように、各文書のタイトル等がテキストボックス５３（「テキストボックス」とは、プロットされた文書の属性を表示するための一定の形状及び大きさの小エリアをいう。ただし、属性情報の表示量に応じて何段階かの異なる形状又は大きさのテキストボックスを設定することも考えられる。）内に表示される。テキストボックス５３が表示エリア５４ｄからはみ出すことがないように、プロットエリア５４ｐは表示エリア５４ａからテキストボックス５３のサイズ分（複数段階の形状又は大きさのテキストボックスが設定されている場合には、最も長い縦径又は横径の分）だけ内側に縮小されている。すなわち、表示エリア５４ａの各角に位置する点線と表示エリア５４ａの枠で囲われる領域はテキストボックス５３と同じ大きさ及び形状になっている。ここでは、分類対象文書として公開特許公報を想定しており、その文献番号として出願番号が表示されている。また、表示されているテキストボックス５３あるいは文献番号には、ハイパーリンクが貼られており、画面上で文献番号をクリックすることによりその文書のイメージにアクセスすることができる。また、テクストボックス５３には文献番号の他に発明の名称や出願人、要約から切り出したキーワードを表示させることができ、これを行えば分類内容の把握が一層容易となる。
【００５２】
図１５は、図１４の変形例に係るフローチャートを示している。まず、ユーザが表示エリア５４ａを規定するＸ座標及びＹ座標それぞれの最大値及び最小値を入力する（Ｓ１５１）。この入力は、図１の入力部３４より行うことができる。表示部３２はプロットエリア５４ｐを設定する（Ｓ１５２）。表示部３２は、プロットエリア５４ｐ内にある各文書の位置座標をプロットし、プロット５６と関連付けてテキストボックス５３を表示する（Ｓ１５３）。さらに、表示部３２は、各プロットに文書イメージをハイパーリンクさせる（Ｓ１５４）。なお、図１４の表示例では、表示の一部領域を指定し、これを新たな表示エリアとして拡大表示する、或いは、表示エリアの一点、例えばエリア中心部のテキストボックスをマウスポインタで指定し、これを中心に拡大／縮小表示することができる。また、指定した１又は２以上のテキストボックスの内容を表計算ソフト等のワークシート上にコピーすることで、分類に続く作業をより一層容易にすることができる。
【００５３】
図１６は、図１の表示部３２による結果表示の変形例を説明するための図である。本例において、表示部３２は、ユーザが指定した基準文書の位置座標を基点として、座標平面上において表示半径内に位置座標をもつ文書を該当文書として表示する。基準文書及び表示半径の指定は、図１の入力部３４より行うことができる。また、基準文書は、分類対象文書ＤＢ１２に格納されている分類対象文書の中から選ばれる。図１６において表示画面５７内の右側に、該当文書リストが表示されている。これらの表示には、ハイパーリンクが貼られている。ここでは、基準文書から表示半径内に４つの文書が存在する。また、このリストは、基準文書からの距離が近い順にソートされて表示されている。さらに、本例では、表示画面５７内の左側に、表示エリア５８が設けられている。この表示エリア５８には、基準文書を中心として各文書の位置座標がプロットされ、併せて基準文書を中心として表示半径を半径とする円５９が表示される。この円５９は、表示半径を再指定する際の目安とすることができる。各プロットに付されている数字は、該当文書リストにおける番号に対応している。本例によれば、基準文書に類似する文書を検索することができる。また、この場合、基準文書を色又は字体等を変える所謂ハイライト表示で表示することにより、目標とする基準文書とそれに類似する文書の位置関係の把握が容易になる。
【００５４】
図１７は、図１６の変形例に係るフローチャートを示している。まず、ユーザが図１の入力部３４より基準文書、及び表示変形を入力する（Ｓ１７１，Ｓ１７２）。すると、表示部３２は、位置座標ＤＢ１６に格納されている各文書の位置座標を読み込み、基準文書から表示半径内の距離にある文書を該当文書リストとして表示する（Ｓ１７３）。さらに、表示部３２は、該当文書リストに表示される文書のイメージをハイパーリンクさせる（Ｓ１７４）。ここで、ユーザは、必要に応じて、ハイパーリンクを辿ることにより表示された文書のイメージにアクセスし、その内容を確認する（Ｓ１７５）。そして、表示半径を再指定して検索し直すときは、上記ステップ（Ｓ１７２〜Ｓ１７５）を繰り返し実行し、検索し直さないときはフローを終了する（Ｓ１７６）。
【００５５】
最後に、図１８を参照して、文書分類装置１のハードウェア構成について説明する。図１８は、図１の文書分類装置１のハードウェア構成を示すブロック図である。図１８に示すように、文書分類装置１は、物理的には、制御装置１ａ、メモリ１ｂ、格納装置１ｃ、入力装置１ｄ、及び表示装置１ｅを備えて構成される。これら各装置は、バス１ｆを介して相互に各種信号の入出力が可能な様に電気的に接続されている。
【００５６】
具体的には、制御装置１ａは例えばＣＰＵ（CentralProcessing Unit）であり、メモリ１ｂはＲＡＭ（RandomAccess Memory）といった揮発性の半導体メモリである。格納装置１ｃはＨＤＤ（Hard Disc Drive）を始めとする不揮発性の磁気ディスクである。入力装置１ｄは例えばキーボードやマウスであり、表示装置１ｅはＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）ディスプレイである。
【００５７】
上記ハードウェア構成と機能的構成との対応関係を以下に示す。文書分類装置１に関して、データベース１０の有する機能は、物理的な構成要素としての格納装置１ｃにより実現される。安定文書間距離算出部２２、位置座標初期値設定部２４、文書間力ベクトル算出部２６、位置座標更新部２８、収束条件判定部３０の有する各機能は、制御装置１ａが所定のプログラムを実行することにより実現される。入力部３４の有する各機能は入力装置１ｄにより実現される。なお、表示部３２の有する各機能は、制御装置１ａ及び表示装置１ｅにより実現される。すなわち、制御装置１ａが所定の演算を施すことにより分類結果の表示内容を確定し、表示装置１ｅがその内容に従って分類結果を表示する。
【００５８】
本発明による文書分類装置及び文書分類方法は、上記実施形態に限定されるものではなく、様々な変形が可能である。例えば、２次元の座標平面上において各文書の位置座標を決定する構成を示したが、その座標平面は１次元であってもよい。このとき、各文書は１本の直線上に位置座標を有することになるが、この場合も便宜的に１次元の「座標平面」と呼ぶことにする。また、３次元以上に拡張して、各文書の位置座標を決定する構成としてもよい。
【００５９】
また、各文書の移動距離の平均値が規定値以下となることを収束条件としたが、収束条件はこれに限られない。例えば、各文書の移動距離の最大値が規定値以下となることを収束条件としてもよい。
【００６０】
また、位置座標の更新の際に用いられる移動係数ｋは、常に一定の値である必要はない。ある程度収束が進んだ後、収束速度を上げるために、各文書の移動距離の平均値の増減如何によって移動係数ｋを加減する構成としてもよい。例えば、移動距離の平均値が前回の更新後よりも大きければｋ’＝ｋ×０．０１（ｋ’：加減後の移動係数）とし、小さければｋ’＝ｋ×１．０３とする。
【産業上の利用可能性】
【００６１】
複数の特許文献の間の類似度の関係を視覚で認識できるように示すことができる。
【図面の簡単な説明】
【００６２】
【図１】本発明による文書分類装置の一実施形態を示すブロック図である。
【図２】文書間距離ＤＢ１４のデータベースの一例を示す構成図である。
【図３】位置座標ＤＢ１６のデータベースの一例を示す構成図である。
【図４】文書間力ベクトルＤＢ１８のデータベースの一例を示す構成図である。
【図５】表示部３２による結果表示画面の一例を示す図である。
【図６】初期処理及び二次元表示座標系において初期配置文書を配置・移動する処理を示すフローチャートである。
【図７】図１の安定文書間距離算出部２２の構成の一例を示すブロック図である。
【図８】図７の安定文書間距離算出部２２の動作を示すフローチャートである。
【図９】図６の総和文書間力ベクトル算出ステップ（Ｓ６６）のサブルーチンを示すフローチャートである。
【図１０】図６の位置座標の更新ステップ（Ｓ６７）のサブルーチンを示すフローチャートである。
【図１１】表示座標系に追加の配置文書を加えていく処理を示すフローチャートである。
【図１２】図６の結果表示ステップのサブルーチンを示すフローチャートである。
【図１３】（ａ）及び（ｂ）は、図１の表示部３２による結果表示の変形例を説明するための図である。
【図１４】図１の表示部３２による結果表示の変形例を説明するための図である。
【図１５】図１４の変形例に係るフローチャートを示している。
【図１６】図１の表示部３２による結果表示の変形例を説明するための図である。
【図１７】図１６の変形例に係るフローチャートを示している。
【図１８】図１の文書分類装置１のハードウェア構成を示すブロック図である。
【図１９】引用文献ＤＢ８６の例である。
【図２０】安定文書間距離の計算処理の第２例におけるフローチャートを示す。
【図２１】安定文書間距離の計算処理の第２例において抽出・格納された共通キーワード及び共通引用文献のデータを示す。
【図２２】ベクトル空間法を適用した実施形態を説明する第１の図である。
【図２３】ベクトル空間法を適用した実施形態を説明する第２の図である。
【図２４】ベクトル空間法を適用した実施形態を説明する第３の図である。
【符号の説明】
【００６３】
１…文書分類装置、１０…データベース、１２…分類対象文書ＤＢ、１４…文書間距離ＤＢ、１６…位置座標ＤＢ、１８…文書間力ベクトルＤＢ、２２…安定文書間距離算出部、２３…配置文書選択部、２４…位置座標初期値設定部、２６…文書間力ベクトル算出部、２８…位置座標更新部、３０…収束条件判定部、３２…表示部、３４…入力部、５３…テキストボックス、５４ａ…表示エリア、５４ｐ…プロットエリア、５６…プロット、９１・・・キーワード評価値計算部、９２・・・キーワード類似度計算部、９３・・・引用文献評価値計算部、９４・・・引用文献類似度計算部、９５・・・文書類似度計算部、９６・・・文書間距離計算部。

【特許請求の範囲】
【請求項１】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの２文書で共通して現れる共通キーワードを抽出する共通キーワード抽出ステップと、
前記分類対象文書のうちの２文書で共通して引用されている共通引用文献を抽出する共通引用文献抽出ステップと、
各キーワード参照文書に含まれるワードを当該キーワード参照文書の識別番号と関連付けて格納したキーワード・テーブルを参照して、前記キーワード・テーブルにおける前記共通キーワードの出現数を数え、この出現数に基づき前記共通キーワードの非一般性の評価値を算出する共通キーワード評価値算出ステップと、
各引用文献参照文書で引用されている文献を当該引用文献参照文書の識別番号と関連付けて格納した引用文献テーブルを参照して、前記引用文献テーブルにおける前記共通引用文献の出現数を数え、この出現数に基づき前記共通引用文献の非一般性の評価値を算出する前記共通引用文献評価値算出ステップと、
各前記共通キーワードの評価値を合算して、前記分類対象文書のうちの２文書の共通キーワードに基づく類似度を算出するキーワード類似度算出ステップと、
各前記共通引用文献の評価値を合算して、前記分類対象文書のうちの２文書の共通引用文献に基づく類似度を算出する引用文献類似度算出ステップと、
共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出ステップと、
前記分類対象文書を座標系に配置し、前記文書類似度が高い２文書が近づき、前記文書類似度が低い２文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動ステップとを備えることを特徴とする文書分類方法。
【請求項２】
前記文書類似度算出ステップにおいて、共通キーワードに基づく類似度と共通引用文献に基づく類似度との平均値を文書類似度とすることを特徴とする請求項１に記載の文書分類方法。
【請求項３】
前記文書類似度算出ステップにおいて、共通キーワードに基づく類似度を２ないし１００の数値で除した値と共通引用文献に基づく類似度との平均値を文書類似度とすることを特徴とする請求項１に記載の文書分類方法。
【請求項４】
前記共通キーワード評価値算出ステップにおいて、前記共通キーワードの出現数をｎ（ｎ＝０．１〜０．８）乗した値に置き換えることを特徴とする請求項３に記載の文書分類方法。
【請求項５】
前記共通キーワード評価値算出ステップにおいて、前記共通キーワードの出現数をｎ（ｎ＝０．１〜０．８）乗した値に置き換え、
前記共通引用文献評価値算出ステップにおいて、前記共通引用文献の出現数をｎ（ｎ＝０．１〜０．８）乗した値に置き換え、
前記文書類似度算出ステップにおいて、共通キーワードに基づく類似度を２ないし１００の数値で除した値と共通引用文献に基づく類似度との和を求め、その値を前記分類対象文書のうちの２文書に含まれるワードの数と前記分類対象文書のうちの２文書で引用されている文献の数との和で除した値を文書類似度とすることを特徴とする請求項１に記載の文書分類方法。
【請求項６】
自文書を自文書で引用されている文献とみなすことを特徴とする請求項１に記載の文書分類方法。
【請求項７】
前記分類対象文書が特許文献であることを特徴とする請求項１に記載の文書分類方法。
【請求項８】
前記共通キーワードの出現数を数える際、あるキーワード参照文書の識別番号と関連付けられるものとして同一のワードを重複して数えないことを特徴とする請求項１に記載の文書分類方法。
【請求項９】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの２文書で共通して現れる共通キーワードに基づいて当該２文書の類似度を算出する共通キーワード類似度算出ステップと、
前記分類対象文書のうちの２文書で共通して引用されている共通引用文献に基づいて当該２文書の類似度を算出する共通引用文献類似度算出ステップと、
共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出ステップと、
前記分類対象文書を座標系に配置し、前記文書類似度が高い２文書が近づき、前記文書類似度が低い２文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動ステップとを備えることを特徴とする文書分類方法。
【請求項１０】
前記共通キーワード類似度算出ステップ、前記共通引用文献類似度算出ステップ及び前記文書類似度算出ステップにおいてベクトル空間法が適用されることを特徴とする請求項９に記載の文書分類方法。
【請求項１１】
コンピュータシステムに、請求項１ないし１０のいずれか１項に記載の各ステップを実行させることを特徴とする文書分類プログラム。
【請求項１２】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類装置であって、
前記分類対象文書のうちの２文書で共通して現れる共通キーワードを抽出する共通キーワード抽出手段と、
前記分類対象文書のうちの２文書で共通して引用されている共通引用文献を抽出する共通引用文献抽出手段と、
各キーワード参照文書に含まれるワードを当該キーワード参照文書の識別番号と関連付けて格納したキーワード・テーブルを参照して、前記キーワード・テーブルにおける前記共通キーワードの出現数を数え、この出現数に基づき前記共通キーワードの非一般性の評価値を算出する共通キーワード評価値算出手段と、
各引用文献参照文書で引用されている文献を当該引用文献参照文書の識別番号と関連付けて格納した引用文献テーブルを参照して、前記引用文献テーブルにおける前記共通引用文献の出現数を数え、この出現数に基づき前記共通引用文献の非一般性の評価値を算出する前記共通引用文献評価値算出手段と、
各前記共通キーワードの評価値を合算して、前記分類対象文書のうちの２文書の共通キーワードに基づく類似度を算出するキーワード類似度算出手段と、
各前記共通引用文献の評価値を合算して、前記分類対象文書のうちの２文書の共通引用文献に基づく類似度を算出する引用文献類似度算出手段と、
共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出手段と、
前記分類対象文書を座標系に配置し、前記文書類似度が高い２文書が近づき、前記文書類似度が低い２文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動手段とを備えることを特徴とする文書分類装置。
【請求項１３】
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類装置であって、
前記分類対象文書のうちの２文書で共通して現れる共通キーワードに基づいて当該２文書の類似度を算出する共通キーワード類似度算出手段と、
前記分類対象文書のうちの２文書で共通して引用されている共通引用文献に基づいて当該２文書の類似度を算出する共通引用文献類似度算出手段と、
共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出手段と、
前記分類対象文書を座標系に配置し、前記文書類似度が高い２文書が近づき、前記文書類似度が低い２文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動手段とを備えることを特徴とする文書分類装置。

【図１】