説明

文書検索方法およびプログラム

【課題】特異な負例が存在する場合であっても、検索目的と一致する文書を検索するために適切な検索式を構築すること。
【解決手段】複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを取得する(ステップS2)。そして、取得したカテゴリ毎に、カテゴリに分類される正例に含まれる特徴語句であって、カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する(ステップS4)。また、取得したカテゴリ毎に、カテゴリと、取得したカテゴリ特徴語句と、に基づいて副検索式を構築する(ステップS5)。さらに、正例に含まれる特徴語句を取得する(ステップS3)。そして、取得した特徴語句の和集合と、構築した副検索式と、に基づいて本検索式を構築する(ステップS6)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索目的と一致する文書を検索する文書検索方法およびプログラムに関する。特に、複数の階層化されたカテゴリに分類される文書データベースを対象とする文書検索方法およびプログラムに関する。
【背景技術】
【0002】
従来より、例えば特許文献調査のように、検索目的と一致する文書を、複数の階層化されたカテゴリに分類される文書データベースの中から検索する場合がある。この場合には、例えば、検索式を構築し、この検索式を用いて検索を行う。
【0003】
検索式の構築には、検索目的と一致する文書(以下、「正例」とする)を抽出する条件であって、検索目的と一致しない文書(以下、「負例」とする)を除外する条件を求める、論理的概念学習が有効であると考えられる。論理的概念学習には、演繹的学習手法と、帰納的学習手法と、がある。演繹的学習手法としては、説明に基づく学習(EBL:Explanation Based Learning)があり、帰納的学習手法としては、類似性に基づく学習(SBL:Similarity Based Learning)がある(例えば、非特許文献1参照)。
【0004】
複数の階層化されたカテゴリは、概念構造を木構造として細分化していくことができるものであり、EBLにおける領域知識とみなすことができる。このため、EBLによれば、領域知識に基づいて、正例を適切に分類する条件を求め、カテゴリによる検索式を構築することができる。
【0005】
一方、SBLによれば、検索目的に対して適切な語句、すなわち有意な語句が、あらかじめ選定されている状態において、正例を包含し、負例を除外する語句の組合せを求め、語句による検索式を構築することができる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】長尾真著“岩波講座ソフトウエア14;知識と推論”、岩波書店
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところが、EBLでは、特異な負例が存在すると、負例を除外できるカテゴリを領域知識内の細分化では求めることができず、カテゴリによる検索式を適切に構築できない場合があるという課題があった。
【0008】
一方、SBLでは、どの程度の有意性を有する語句をあらかじめ選定すればよいかについて、設定するのが困難であり、語句による検索式を適切に構築できない場合があるという課題があった。
【課題を解決するための手段】
【0009】
本発明者は、上述の課題を解決すべく鋭意検討を行った。その結果、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを求め、求めた各カテゴリに属する文書の中から負例を除外する語句の組合せを求めることで、適切な検索式を構築できることを見出し、本発明を完成させるに至った。
【0010】
(1) 本発明は、複数の階層化されたカテゴリ(例えば、図6の特許分類階層に相当)に分類される文書データベース(例えば、後述の特許データベースに相当)の中から検索目的と一致する文書を検索する文書検索方法であって、前記文書データベースに含まれる複数の文書のうち正例(例えば、図7の特許文献1、2、4〜6、9〜19に相当)が分類されるカテゴリを取得する第1のステップ(例えば、図2のステップS2に相当)と、前記正例に含まれる特徴語句(例えば、式(4)の照明器具、環境制御、電動ブラインド、低コスト、日射状態取得部、連動制御に相当)を取得する第2のステップ(例えば、図2のステップS3に相当)と、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句(例えば、式(1)の照明設備、空気調和器、照明器具に相当)として取得する第3のステップ(例えば、図2のステップS4に相当)と、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリと、前記第3のステップで取得されたカテゴリ特徴語句と、に基づいて副検索式(例えば、式(1)〜(3)相当)を構築する第4のステップ(例えば、図2のS5に相当)と、前記第2のステップで取得された特徴語句の和集合(例えば、式(4)に相当)と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築する第5のステップ(例えば、図2のステップS6に相当)と、を備えることを特徴とする文書検索方法を提案している。
【0011】
この発明によれば、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを取得する。そして、取得したカテゴリ毎に、カテゴリに分類される正例に含まれる特徴語句であって、カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する。また、取得したカテゴリ毎に、カテゴリと、取得したカテゴリ特徴語句と、に基づいて副検索式を構築する。さらに、正例に含まれる特徴語句を取得する。そして、取得した特徴語句の和集合と、構築した副検索式と、に基づいて本検索式を構築する。このため、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを求め、求めた各カテゴリに属する文書の中から負例を除外する特徴語句を求めることができる。したがって、特異な負例が存在する場合であっても、有意な特徴語句を選定して負例を除外できる本検索式を構築でき、検索目的と一致する文書を検索するために適切な検索式を構築することができる。
【0012】
(2) 本発明は、(1)の文書検索方法について、前記第1のステップでは、前記正例が分類されるカテゴリを取得した後に、当該カテゴリの中から前記正例に属する全ての文書を包括する最小数のカテゴリを抽出し、前記第2のステップでは、前記正例に含まれる特徴語句を取得した後に、当該特徴語句の中から前記正例に属する全ての文書を包括する最小数の特徴語句を抽出し、前記第3のステップでは、前記第1のステップで抽出された最小数のカテゴリ毎に、当該カテゴリに分類される正例に属する全ての文書について前記カテゴリ特徴語句を取得した後に、当該カテゴリ特徴語句の中から前記正例に属する全ての文書を包括する最小数のカテゴリ特徴語句を抽出し、前記第4のステップでは、前記第1のステップで抽出された最小数のカテゴリ毎に、当該カテゴリと、前記第3のステップで抽出された最小数のカテゴリ特徴語句と、に基づいて副検索式を構築し、前記第5のステップでは、前記第2のステップで抽出された最小数の特徴語句の和集合と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築することを特徴とする文書検索方法を提案している。
【0013】
この発明によれば、正例に属する全ての文書を包括する最小数のカテゴリと、正例に属する全ての文書を包括する最小数の特徴語句と、正例に属する全ての文書を包括する最小数のカテゴリ特徴語句と、を抽出する。そして、抽出した最小数のカテゴリと、抽出した最小数の特徴語句と、抽出した最小数のカテゴリ特徴語句と、を用いて本検索式を構築する。このため、本検索式を構成する特徴語句の和集合および副検索式において、同一のカテゴリや、同一の特徴語句や、同一のカテゴリ特徴語句が含まれてしまうのを防止できる。したがって、本検索式の構成を簡略化することができ、検索目的と一致する文書を検索するための検索式を、より適切に構築することができる。
【0014】
(3) 本発明は、(2)の文書検索方法について、前記第1のステップは、前記正例が分類されるカテゴリを取得し、当該カテゴリをカテゴリ候補として設定する第1の設定ステップ(例えば、図3のステップS21に相当)と、前記カテゴリ候補の要素として当該カテゴリ候補に属する正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記カテゴリ候補を降順に並べ替える第1の整列ステップと(例えば、図3のステップS22、S23に相当)、最上位のカテゴリ候補を採用し、当該最上位のカテゴリ候補に属する正例の文書を他のカテゴリ候補の要素から削除するとともに、要素の無くなったカテゴリ候補を前記第1の設定ステップにおいて設定されたカテゴリ候補の中から除外する第1の採用ステップ(例えば、図3のステップS24〜S26に相当)と、前記他のカテゴリ候補の数が0になるまで、前記第1の整列ステップおよび前記第1の採用ステップを繰り返し、前記第1の採用ステップで採用されたカテゴリ候補を、前記最小数のカテゴリとして抽出する第1の抽出ステップ(例えば、図3のステップS27、S28に相当)と、を備え、前記第2のステップは、前記正例に含まれる特徴語句を取得し、当該特徴語句を特徴語句候補として設定する第2の設定ステップ(例えば、図4のステップS31に相当)と、前記特徴語句候補の要素として当該特徴語句候補を含む正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記特徴語句候補を降順に並べ替える第2の整列ステップ(例えば、図4のステップS32、S33に相当)と、最上位の特徴語句候補を採用し、当該最上位の特徴語句候補を含む正例の文書を他の特徴語句候補の要素から削除するとともに、要素の無くなった特徴語句候補を前記第2の設定ステップにおいて設定された特徴語句候補の中から除外する第2の採用ステップ(例えば、図4のステップS34〜S36に相当)と、前記他の特徴語句候補の数が0になるまで、前記第2の整列ステップおよび前記第2の採用ステップを繰り返し、前記第2の採用ステップで採用された特徴語句候補を、前記最小数の特徴語句として抽出する第2の抽出ステップ(例えば、図4のステップS37、S38に相当)と、を備え、前記第3のステップは、前記第1のステップで抽出された最小数のカテゴリ毎に、前記カテゴリ特徴語句を取得し、当該カテゴリ特徴語句をカテゴリ特徴語句候補として設定する第3の設定ステップ(例えば、図5のステップS41に相当)と、前記カテゴリ特徴語句候補の要素として当該カテゴリ特徴語句候補を含む正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記カテゴリ特徴語句を降順に並べ替える第3の整列ステップ(例えば、図5のステップS42、S43に相当)と、最上位のカテゴリ特徴語句候補を採用し、当該最上位のカテゴリ特徴語句候補を含む正例の文書を他のカテゴリ特徴語句候補の要素から削除するとともに、要素の無くなったカテゴリ特徴語句候補を前記第3の設定ステップにおいて設定されたカテゴリ特徴語句候補の中から除外する第3の採用ステップ(例えば、図5のステップS44〜S46に相当)と、前記他のカテゴリ特徴語句候補の数が0になるまで、前記第3の整列ステップおよび前記第3の採用ステップを繰り返し、前記第3の採用ステップで採用されたカテゴリ特徴語句候補を、前記最小数のカテゴリ特徴語句として抽出する第3の抽出ステップ(例えば、図5のステップS47、S48に相当)と、を備えることを特徴とする文書検索方法を提案している。
【0015】
この発明によれば、カテゴリ、特徴語句、およびカテゴリ特徴語句のそれぞれの候補について、それぞれに対応する正例の文書を登録するとともに、それぞれに対応する正例の文書数に基づいて降順に並べ替える。そして、最上位の候補を採用し、最上位の候補に対応する正例の文書を他の候補の要素から削除するとともに、要素の無くなった候補を上述の並べ替えた候補の中から除外する。そして、上述の並べ替えと、上述の削除および除外と、を他の候補の数が0(ゼロ)になるまで繰り返す。このため、正例に属する全ての文書を包括する最小数のカテゴリと、正例に属する全ての文書を包括する最小数の特徴語句と、正例に属する全ての文書を包括する最小数のカテゴリ特徴語句と、を抽出することができる。
【0016】
(4) 本発明は、(1)〜(3)のいずれかの文書検索方法について、前記本検索式に基づいて前記文書データベースの中から検索された文書のうち、前記本検索式を構築する際に用いた文書を除くものを、前記本検索式との適合度合いに基づいて降順に並べ替える第6のステップ(例えば、図12のステップS102に相当)を備えることを特徴とする文書検索方法を提案している。
【0017】
この発明によれば、本検索式に基づいて文書データベースの中から検索された文書のうち、本検索式を構築する際に用いた文書を除くものを、本検索式との適合度合いに基づいて降順に並べ替える。このため、検索目的に一致するか否かの確認が行われていない文書について、本検索式との適合度合いの高いものから順に確認することができ、検索目的に一致する文書の検索を効率的に行うことができる。
【0018】
(5) 本発明は、(1)〜(4)のいずれかの文書検索方法について、前記カテゴリ特徴語句は、前記第2のステップで取得された特徴語句には含まれないことを特徴とする文書検索方法を提案している。
【0019】
この発明によれば、正例に含まれる特徴語句と、カテゴリ特徴語句とは、異なる語句となる。このため、特徴語句の和集合に含まれる特徴語句と、副検索式に含まれるカテゴリ特徴語句と、が同一の語句を含んで構成されてしまうのを防止できる。したがって、特徴語句の和集合と、副検索式とで、同一の検索条件が設定されてしまうのを防止でき、検索目的と一致する文書を検索するための検索式を、より適切に構築することができる。
【0020】
(6) 本発明は、(1)〜(5)のいずれかの文書検索方法について、前記第3のステップでは、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例であって前記第2のステップで取得された特徴語句を含む負例には含まれない特徴語句を、カテゴリ特徴語句として取得することを特徴とする文書検索方法を提案している。
【0021】
この発明によれば、正例が分類されるカテゴリ毎に取得されるカテゴリ特徴語句は、カテゴリに分類される正例に含まれる特徴語句であって、このカテゴリに分類される負例であって正例に含まれる特徴語句を含む負例には含まれない特徴語句となる。したがって、本検索式を構築するために用いるカテゴリ特徴語句を、より効率的に取得することができる。
【0022】
(7) 本発明は、(1)〜(6)のいずれかの文書検索方法について、前記文書は、特許文献であり、前記カテゴリは、FI、IPC、ECLA、USC、またはテーマコードのいずれかであることを特徴とする文書検索方法を提案している。
【0023】
この発明によれば、文書が特許文献である場合に、本検索式を構築するために用いるカテゴリとして、FI、IPC、ECLA、USC、およびテーマコードを用いることができる。
【0024】
(8) 本発明は、(1)〜(7)のいずれかの文書検索方法について、前記文書は、日本の特許文献であり、前記特徴語句の代わりにFタームを用いることを特徴とする文書検索方法を提案している。
【0025】
この発明によれば、文書が日本の特許文献である場合に、特徴語句の代わりにFタームを用いることができる。
【0026】
(9) 本発明は、複数の階層化されたカテゴリ(例えば、図6の特許分類階層に相当)に分類される文書データベース(例えば、後述の特許データベースに相当)の中から検索目的と一致する文書を検索する文書検索方法をコンピュータに実行させるためのプログラムであって、前記文書データベースに含まれる複数の文書のうち正例(例えば、図7の特許文献1、2、4〜6、9〜19に相当)が分類されるカテゴリを取得する第1のステップ(例えば、図2のステップS2に相当)と、前記正例に含まれる特徴語句(例えば、式(4)の照明器具、環境制御、電動ブラインド、低コスト、日射状態取得部、連動制御に相当)を取得する第2のステップ(例えば、図2のステップS3に相当)と、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句(例えば、式(1)の照明設備、空気調和器、照明器具に相当)として取得する第3のステップ(例えば、図2のステップS4に相当)と、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリと、前記第3のステップで取得されたカテゴリ特徴語句と、に基づいて副検索式(例えば、式(1)〜(3)相当)を構築する第4のステップ(例えば、図2のS5に相当)と、前記第2のステップで取得された特徴語句の和集合(例えば、式(4)に相当)と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築する第5のステップ(例えば、図2のステップS6に相当)と、をコンピュータに実行させるためのプログラムを提案している。
【0027】
この発明によれば、プログラムをコンピュータに実行させることで、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを取得する。そして、取得したカテゴリ毎に、カテゴリに分類される正例に含まれる特徴語句であって、カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する。また、取得したカテゴリ毎に、カテゴリと、取得したカテゴリ特徴語句と、に基づいて副検索式を構築する。さらに、正例に含まれる特徴語句を取得する。そして、取得した特徴語句の和集合と、構築した副検索式と、に基づいて本検索式を構築する。このため、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを求め、求めた各カテゴリに属する文書の中から負例を除外する特徴語句を求めることができる。したがって、特異な負例が存在する場合であっても、有意な特徴語句を選定して負例を除外できる本検索式を構築でき、検索目的と一致する文書を検索するために適切な検索式を構築することができる。
【発明の効果】
【0028】
本発明によれば、特異な負例が存在する場合であっても、有意な特徴語句を選定して負例を除外できる本検索式を構築でき、検索目的と一致する文書を検索するために適切な検索式を構築することができる。
【図面の簡単な説明】
【0029】
【図1】本発明の一実施形態に係る文書検索装置の構成を示すブロック図である。
【図2】本発明の一実施形態に係る文書検索処理のフローチャートである。
【図3】本発明の一実施形態に係る特許分類抽出処理のフローチャートである。
【図4】本発明の一実施形態に係る特徴語句抽出処理のフローチャートである。
【図5】本発明の一実施形態に係るカテゴリ特徴語句抽出処理のフローチャートである。
【図6】特許分類の階層構造を示す図である。
【図7】特許分類抽出処理により最小数の特許分類を抽出する場合の具体例を説明するための図である。
【図8】SBLにより「ブラインド」の概念獲得を行う場合を説明するための図である。
【図9】本検索式構築事例を説明するための図である。
【図10】本検索式構築事例を説明するための図である。
【図11】本検索式構築事例を説明するための図である。
【図12】本発明の一実施形態に係る動的スクリーニング手法のフローチャートである。
【発明を実施するための形態】
【0030】
以下、本発明の実施形態について図面を用いて、詳細に説明する。なお、以下の実施形態における構成要素は適宜、既存の構成要素などとの置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、以下の実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0031】
<文書検索装置1の構成>
図1は、本発明の一実施形態に係る文書検索装置1の構成を示すブロック図である。
【0032】
文書検索装置1は、公開特許公報や特許公報などの特許文献を検索する装置であり、制御部11、通信部12、記憶部13、および入出力インタフェース(入出力I/F)14を備える。
【0033】
制御部11、通信部12、記憶部13、および入出力I/F14は、バス15を介して互いに接続される。入出力I/F14には、入力装置16および出力装置17が接続される。
【0034】
制御部11は、CPU(Central Processing Unit)およびRAM(Random Access Memory)で構成され、記憶部13に記憶されているプログラムに従って動作する。
【0035】
記憶部13は、ハードディスク、半導体メモリなどで構成され、制御部11で実行される特許文献検索プログラムと、特許文献のデータが蓄積された特許データベースと、が記憶されている。特許文献検索プログラムとは、特許データベースの中から検索目的と一致する特許文献を検索するためのプログラムであり、制御部11で実行されると、図2を用いて後述する文書検索処理が行われることとなる。
【0036】
通信部12は、ネットワークインタフェースカード(NIC)で構成され、ネットワークを介して受信される情報を制御部11に送信したり、制御部11から入力される命令に従って、ネットワークを介して外部に情報を送信したりする。
【0037】
入力装置16は、キーボードやマウスで構成され、ユーザからの入力を受け付ける。
【0038】
出力装置17は、ディスプレイやプリンタで構成され、制御部11で行われた処理に応じた情報を出力する。
【0039】
<文書検索処理>
図2は、上述の文書検索処理のフローチャートである。特許文献検索プログラムを実行するための入力をユーザから入力装置16または通信部12を介して外部から受け付けると、文書検索処理が開始され、特許データベースの中から検索目的と一致する特許文献を検索するため本検索式が、構築される。
【0040】
具体的には、まず、ステップS1において、制御部11は、正例および負例を記憶部13から読み込む。正例とは、特許データベースに含まれる複数の特許文献のうち、検索目的と一致する特許文献のことであり、負例とは、特許データベースに含まれる特許文献のうち、検索目的と一致しない特許文献のことである。これら正例および負例は、予備検索において、特許データベースに含まれる複数の特許文献の中から、あらかじめ選定される。
【0041】
予備検索とは、本検索式を用いて本検索を行うために、あらかじめ行われるものである。この予備検索では、特許データベースに含まれる複数の特許文献の中からいくつかを抽出し、抽出した特許文献のそれぞれについて、検索目的と一致するか否かをユーザが記載内容に基づいて確認する。これによれば、ステップS1において用いられる正例および負例が選定されることとなる。
【0042】
次に、ステップS2において、制御部11は、図3を用いて後述する特許分類抽出処理を行う。この特許分類抽出処理では、正例が分類される特許分類を取得し、取得した特許分類の中から、正例に属する全ての特許文献を包括する最小数の特許分類を抽出する。
【0043】
次に、ステップS3において、制御部11は、図4を用いて後述する特徴語句抽出処理を行う。この特徴語句抽出処理では、正例に含まれる特徴語句を取得し、取得した特徴語句の中から正例に属する全ての特許文献を包括する最小数の特徴語句を抽出する。ここで、特徴語句とは、特許文献に含まれる語句のうち、この特許文献の内容を特徴付ける語句のことである。
【0044】
次に、ステップS4において、制御部11は、図5を用いて後述するカテゴリ特徴語句抽出処理を行う。このカテゴリ特徴語句抽出処理では、ステップS2において抽出した最小数の特許分類毎に、カテゴリ特徴語句を取得し、取得したカテゴリ特徴語句の中から正例に属する全ての特許文献を包括する最小数のカテゴリ特徴語句を抽出する。ここで、カテゴリ特徴語句とは、ステップS2において取得した最小数の特許分類毎に、その特許分類に分類される正例に含まれる特徴語句であって、その特許分類に分類される負例には含まれない特徴語句のことである。
【0045】
なお、カテゴリ特徴語句は、ステップS2において取得した最小数の特許分類毎に、その特許分類に分類される正例に含まれる特徴語句であって、その特許分類に分類される負例には含まれない特徴語句であるとともに、ステップS3において取得した特徴語句には含まれない特徴語句としてもよい。この場合、カテゴリ特徴語句抽出処理では、さらに、抽出された最小数のカテゴリ特徴語句の中からステップS3において取得した特徴語句を除いて、最小数のカテゴリ特徴語句を抽出する。
【0046】
また、カテゴリ特徴語句抽出処理では、ステップS2において抽出した最小数の特許分類毎に、その特許分類に分類される正例の特許文献に含まれる特徴語句であって、その特許分類に分類される負例であってステップS3において取得した特徴語句を含む負例には含まれない特徴語句を、カテゴリ特徴語句として取得し、取得したカテゴリ特徴語句の中から正例に属する全ての特許文献を包括する最小数のカテゴリ特徴語句を抽出してもよい。
【0047】
次に、ステップS5において、制御部11は、ステップS2において抽出した最小数の特許分類毎に、特許分類と、ステップS4において抽出した最小数のカテゴリ特徴語句と、に基づいて副検索式(後述の式(1)〜(3)参照)を構築する。
【0048】
次に、ステップS6において、制御部11は、ステップS3において抽出した最小数の特徴語句の和集合(後述の式(4)参照)を求め、求めた最小数の特徴語句の和集合と、ステップS5において構築した副検索式と、に基づいて本検索式(後述の式(5)参照)を構築する。
【0049】
<特許分類抽出処理>
図3は、上述の特許分類抽出処理のフローチャートである。
【0050】
まず、ステップS21において、制御部11は、EBLにより、正例が分類される特許分類を取得し、取得した特許分類を特許分類候補として設定する。特許分類は、各特許文献に付与されている。この特許分類としては、例えばIPCやFIがあるが、本実施形態では、特許分類としてFIを用いるものとする。FIは、図6に示すように、複数の階層化されたカテゴリで構成され、概念構造を木構造として細分化していくことができるので、EBLにおける領域知識とみなすことができる。このため、適切な操作性規範を設定し、少数の正例を投入することで、目標概念となるFIを獲得することができる。
【0051】
例えば、適切な操作性規範として、サブグループの第1階層までの細分化打ち切りと設定し、少数の正例として、ブラインドについて開示している特開平07−119372号公報を投入した場合には、目標概念となるFIとして、図6のE06B/24を獲得することができる。ここで、E06B/24とは、「光、とくに日光に対して保護することができるスクリーンまたはその他の構造;プライバシーまたは体裁のための同様のスクリーン」のことを示す。
【0052】
次に、ステップS22において、制御部11は、ステップS21において設定した特許分類候補毎に、特許分類候補の要素として、その特許分類候補に属する正例の特許文献を登録する。これによれば、ステップS21において設定した特許分類候補毎に、特許分類候補と、その特許分類候補に属する正例の特許文献と、が紐付けられて、制御部11のRAMに記憶されることとなる。
【0053】
次に、ステップS23において、制御部11は、ステップS22において登録した正例の特許文献の数に基づいて、特許分類候補を降順に並べ替える。これによれば、正例の特許文献が最も多く属する特許分類候補が、最上位の特許分類候補となる。
【0054】
次に、ステップS24において、制御部11は、ステップS23において並べ替えた特許分類候補のうち、最上位の特許分類候補を採用する。これによれば、最上位の特許分類候補が、制御部11のRAMに記憶されることとなる。
【0055】
次に、ステップS25において、制御部11は、ステップS24において採用した最上位の特許分類候補に属する正例の特許文献を、他の特許分類候補から削除する。これによれば、最上位の特許分類候補に属する正例の特許文献については、他の特許分類候補と紐付けられていた関係が、制御部11のRAMから削除されることとなる。
【0056】
次に、ステップS26において、制御部11は、属する正例の特許文献が無くなった特許分類候補を、特許分類候補の中から除外する。これによれば、正例の特許文献の紐付けられていない特許分類候補は、特許分類候補ではなくなる。
【0057】
次に、ステップS27において、制御部11は、他の特許分類候補の数がゼロであるか否か、言い換えると、残っている特許分類候補の数が「1」であるか否かを判別する。そして、他の特許分類候補の数がゼロの場合には、ステップS28に処理を移し、他の特許分類候補の数がゼロではない場合には、ステップS23に処理を戻す。
【0058】
次に、ステップS28において、制御部11は、ステップS24において採用した全ての特許分類候補を、最小数の特許分類として抽出する。
【0059】
図7を用いて、特許分類抽出処理により最小数の特許分類を抽出する場合の具体例について、説明する。図7では、ステップS21において設定された特許分類候補を、特許分類候補A、B、C、D、Eと表すものとする。また、ステップS1において読み込まれた正例の特許文献を、特許文献1、2、4、5、6、9、10、11、12、13、14、15、16、17、18、19と表し、ステップS1において読み込まれた負例の特許文献を、特許文献3、7、8、20と表すものとする。
【0060】
図7の(a)は、ステップS22の処理が行われた段階を示している。この段階では、特許分類候補Aの要素として、正例の特許文献1、2、6、11、12、16、17が登録され、特許分類候補Bの要素として、正例の特許文献1、2、6が登録され、特許分類候補Cの要素として、正例の特許文献12、13、14、17、18、19が登録され、特許分類候補Dの要素として、正例の特許文献4、5、9、10、14、15が登録され、特許分類候補Eの要素として、正例の特許文献5、10、15が登録されている。
【0061】
図7の(b)は、図7の(a)の段階から、ステップS23〜S26の各処理が行われた段階を示している。具体的には、まず、ステップS23において、特許分類候補A〜Eが並び替えられ、その結果、特許分類候補A、C、D、B、Eの順に並ぶこととなる。次に、ステップS24において、特許分類候補Aが、最上位の特許分類候補として採用されることとなる。
【0062】
次に、ステップS25において、特許分類候補Aに属する正例の特許文献1、2、6が特許分類候補Bから削除されるとともに、特許分類候補Aに属する正例の特許文献12、17が特許分類候補Cから削除されることとなる。これによれば、特許分類候補Bに属する正例の特許文献が無くなる。
【0063】
次に、ステップS26において、特許分類候補Bが、特許分類候補A〜Eの中から除外されることとなる。これによれば、ステップS27において説明した他の特許分類候補として、特許分類候補C〜Eが存在することとなるので、再度、ステップS23〜S26の各処理が行われることとなる。
【0064】
図7の(c)は、図7の(b)の段階から、ステップS23〜S26の各処理が行われた段階を示している。具体的には、まず、ステップS23において、特許分類候補C〜Eが並び替えられ、その結果、特許分類候補D、C、Eの順に並ぶこととなる。次に、ステップS24において、特許分類候補Dが、最上位の特許分類候補として採用されることとなる。
【0065】
次に、ステップS25において、特許分類候補Dに属する正例の特許文献14が特許分類候補Cから削除されるとともに、特許分類候補Dに属する正例の特許文献5、10、15が特許分類候補Eから削除されることとなる。これによれば、特許分類候補Eに属する正例の特許文献が無くなる。
【0066】
次に、ステップS26において、特許分類候補Eが、特許分類候補C〜Eの中から除外されることとなる。これによれば、ステップS27において説明した他の特許分類候補の数がゼロ、言い換えると、残っている特許分類候補が特許分類候補Cだけとなるので、ステップS28の処理が行われることとなる。
【0067】
次に、ステップS28において、最小数の特許分類として、特許分類候補A、C、Dが抽出されることとなる。すなわち、特許分類候補A、C、Dは、特許文献1〜20のうち正例の特許文献の全てを包括するということである。
【0068】
<特徴語句抽出処理>
図4は、上述の特徴語句抽出処理のフローチャートである。
【0069】
まず、ステップS31において、制御部11は、既存の自然言語処理やテキストマイニングにより、正例の特許文献に含まれる発明の名称、要約、および請求項を解析し、特許文献の内容を特徴付ける特徴語句を取得する。そして、ステップS21と同様に、取得した特徴語句を特徴語句候補として設定する。
【0070】
次に、ステップS32において、ステップS22と同様に、制御部11は、ステップS31において設定した特徴語句候補毎に、特徴語句候補の要素として、その特徴語句候補を含む正例の特許文献を登録する。これによれば、ステップS31において設定した特徴語句候補毎に、特徴語句候補と、その特徴語句候補を含む正例の特許文献と、が紐付けられて、制御部11のRAMに記憶されることとなる。
【0071】
次に、ステップS33において、ステップS23と同様に、制御部11は、ステップS32において登録した正例の特許文献の数に基づいて、特徴語句候補を降順に並べ替える。これによれば、ステップS31において設定した特徴語句候補の全ての中で、最も多くの特許文献に含まれている特徴語句候補が、最上位の特徴語句候補となる。
【0072】
次に、ステップS34において、ステップS24と同様に、制御部11は、ステップS33において並べ替えた特徴語句候補のうち、最上位の特徴語句候補を採用する。これによれば、最上位の特徴語句候補が、制御部11のRAMに記憶されることとなる。
【0073】
次に、ステップS35において、ステップS25と同様に、制御部11は、ステップS34において採用した最上位の特徴語句候補を含む正例の特許文献を、他の特徴語句候補から削除する。これによれば、最上位の特徴語句候補を含む正例の特許文献については、他の特徴語句候補と紐付けられていた関係が、制御部11のRAMから削除されることとなる。
【0074】
次に、ステップS36において、ステップS26と同様に、制御部11は、含まれる正例の特許文献が無くなった特徴語句候補を、特徴語句候補の中から除外する。これによれば、正例の特許文献の紐付けられていない特徴語句候補は、特徴語句候補ではなくなる。
【0075】
次に、ステップS37において、ステップS27と同様に、制御部11は、他の特徴語句候補の数がゼロであるか否か、言い換えると、残っている特徴語句候補の数が「1」であるか否かを判別する。そして、他の特徴語句候補の数がゼロの場合には、ステップS38に処理を移し、他の特徴語句候補の数がゼロではない場合には、ステップS33に処理を戻す。
【0076】
次に、ステップS38において、ステップS28と同様に、制御部11は、ステップS34において採用した全ての特徴語句候補を、最小数の特徴語句として抽出する。
【0077】
<カテゴリ特徴語句抽出処理>
図5は、上述のカテゴリ特徴語句抽出処理のフローチャートである。
【0078】
まず、ステップS41において、ステップS31と同様に、制御部11は、既存の自然言語処理やテキストマイニングにより、正例の特許文献に含まれる発明の名称、要約、および請求項を解析し、特許文献の内容を特徴付ける特徴語句を取得する。そして、取得した特徴語句を用いて、SBLにより、ステップS28において抽出した最小数の特許分類毎に、その特許分類に分類される正例に含まれる特徴語句であって、その特許分類に分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する。そして、ステップS21、S31と同様に、取得したカテゴリ特徴語句をカテゴリ特徴語句候補として設定する。
【0079】
SBLでは、正例に含まれる特徴語句のAND、ORで表現される条件式について、負例を除外するように構築する問題を解き、候補となる条件式を展開していく概念空間(バージョン空間)の中から適切な自由度(バイアス)を設定して、条件式を確定していく。このSBLについて、図8を用いて詳述する。
【0080】
図8は、SBLにより「ブラインド」の概念獲得を行う際に、バイアスを2つの条件の積集合とした場合を示している。この場合、単一条件の最下層が除外される。また、負例を含む最も一般的な概念{色、日よけ}や、{*、カーテン}が除外される。そして、赤と白それぞれの正例が処理された後、最終的な概念である{色、ブラインド}が概念として獲得される。
【0081】
次に、ステップS42において、ステップS22、S32と同様に、制御部11は、ステップS41において設定したカテゴリ特徴語句候補毎に、カテゴリ特徴語句候補の要素として、そのカテゴリ特徴語句候補を含む正例の特許文献を登録する。これによれば、ステップS41において設定したカテゴリ特徴語句候補毎に、カテゴリ特徴語句候補と、そのカテゴリ特徴語句候補を含む正例の特許文献と、が紐付けられて、制御部11のRAMに記憶されることとなる。
【0082】
次に、ステップS43において、ステップS23、S33と同様に、制御部11は、ステップS42において登録した正例の特許文献の数に基づいて、カテゴリ特徴語句候補を降順に並べ替える。これによれば、ステップS41において設定したカテゴリ特徴語句候補の全ての中で、最も多くの正例の特許文献に含まれているカテゴリ特徴語句候補が、最上位のカテゴリ特徴語句候補となる。
【0083】
次に、ステップS44において、ステップS24、S34と同様に、制御部11は、ステップS43において並べ替えた特徴語句候補のうち、最上位の特徴語句候補を採用する。これによれば、最上位のカテゴリ特徴語句候補が、制御部11のRAMに記憶されることとなる。
【0084】
次に、ステップS45において、ステップS25、S35と同様に、制御部11は、ステップS44において採用した最上位の特徴語句候補を含む正例の特許文献を、他の特徴語句候補から削除する。これによれば、最上位のカテゴリ特徴語句候補を含む正例の特許文献については、他のカテゴリ特徴語句候補と紐付けられていた関係が、制御部11のRAMから削除されることとなる。
【0085】
次に、ステップS46において、ステップS26、S36と同様に、制御部11は、含まれる正例の特許文献が無くなったカテゴリ特徴語句候補を、カテゴリ特徴語句候補の中から除外する。これによれば、正例の特許文献の紐付けられていないカテゴリ特徴語句候補は、カテゴリ特徴語句候補ではなくなる。
【0086】
次に、ステップS47において、ステップS27、S37と同様に、制御部11は、他のカテゴリ特徴語句候補の数がゼロであるか否か、言い換えると、残っているカテゴリ特徴語句候補の数が「1」であるか否かを判別する。そして、他のカテゴリ特徴語句候補の数がゼロの場合には、ステップS48に処理を移し、他のカテゴリ特徴語句候補の数がゼロではない場合には、ステップS43に処理を戻す。
【0087】
次に、ステップS48において、ステップS28、S38と同様に、制御部11は、ステップS44において採用した全てのカテゴリ特徴語句候補を、最小数のカテゴリ特徴語句として抽出する。
【0088】
<本検索式構築事例>
以上の文書検索処理により本検索式を構築した場合の一例を、図9〜11を用いて以下に説明する。具体的には、検索対象として、図9に示すブラインド採光による室温上昇対策のための、採光、照明、および空調の3要素を制御対象とする特許を設定し、この特許を検索するための本検索式を上述の文書検索処理により構築した例について、説明する。
【0089】
まず、図2のステップS1でも説明した予備検索を行った。具体的には、図10に示した検索条件および検索式により、特許データベースの中から、上述の特許に関する特許文献を検索したところ、30件の特許文献が該当することがわかった。そして、これら30件のうち12件の特許文献が、上述の特許に関する特許文献、すなわち正例の特許文献であることが確認できた。すなわち、予備検索により、12件の正例と、18件の負例と、が特許データベースの中から抽出されたこととなる。
【0090】
次に、上述の文書検索処理により、本検索式を構築した。具体的には、上述の予備検索により抽出された12件の正例と、18件の負例と、により、図2〜5に示した各処理を行った。その結果、副検索式として、以下の式(1)、(2)、(3)が構築され、最小数の特徴語句の和集合として、以下の式(4)が構築された。そして、式(1)〜(4)に基づいて、本検索式として、以下の式(5)が構築された。
【0091】
【数1】

【0092】
【数2】

【0093】
【数3】

【0094】
【数4】

【0095】
【数5】

【0096】
なお、式(1)〜(3)によれば、最小数の特許分類として、空調制御に関する「F24F11/02」と、遠隔制御に関する「H04Q9/00」と、ブラインドに関する「E06B9/264」と、の3つが抽出されたことが分かる。また、「F24F11/02」に対応する最小数のカテゴリ特徴語句として、「照明設備」、「空気調和器」、「照明器具」の3つが抽出され、「H04Q9/00」に対応する最小数のカテゴリ特徴語句として、「無線通信」の1つが抽出され、「E06B9/264」に対応する最小数のカテゴリ特徴語句として、「二酸化炭素」、「電動ブラインド」、「日射状態取得部」、「連動制御」の4つが抽出されたことが分かる。
【0097】
また、式(4)によれば、最小数の特徴語句として、「照明器具」、「環境制御」、「電動ブラインド」、「低コスト」、「日射状態取得部」、「連動制御」の6つが抽出されたことが分かる。
【0098】
図11は、副検索式と、特徴語句の和集合と、正例および負例と、の関係を示す模式図である。図11では、上述の12件の正例の特許文献を、特許文献3、6、9、10、13、15、17、18、22、25、26、27と表し、上述の18件の負例の特許文献を、特許文献1、2、4、5、7、8、11、12、14、16、19、20、21、23、24、28、29、30と表すものとする。
【0099】
式(4)で表される特徴語句の和集合の式を満たすのは、12件の正例の特許文献(特許文献3、6、9、25、18、13、26、17、22、27、15、10)と、4件の負例の特許文献(特許文献29、23、2、30)と、である。このため、式(4)で表される特徴語句の和集合によれば、負例の特許文献も抽出できてしまうが、上述の12件の正例の特許文献の全てを抽出することができる。
【0100】
式(1)の「F24F11/02」に属するのは、6件の正例の特許文献(特許文献3、6、25、18、17、15)と、1件の負例の特許文献(特許文献23)と、である。ここで、式(1)の「照明設備」、「空気調和器」、および「照明器具」は、「F24F11/02」におけるカテゴリ特徴語句であり、これら3つのカテゴリ特徴語句のいずれかは、上述の6件の正例の特許文献には含まれるが、上述の1件の負例の特許文献にはいずれも含まれない特徴語句である。このため、「F24F11/02」および上述の3つのカテゴリ特徴語句で構築される式(1)の副検索式について、上述の6件の正例の特許文献は、この副検索式を満たすが、上述の1件の負例の特許文献は、この副検索式を満たさないこととなる。以上より、式(1)で表される副検索式によれば、「F24F11/02」に属する特許文献の中から、上述の6件の正例の特許文献を抽出することができる。
【0101】
式(2)の副検索式についても、上述の式(1)の副検索式と同様に、「H04Q9/00」に属する特許文献の中から、2件の正例の特許文献(特許文献15、10)を抽出することができる。
【0102】
また、式(3)の副検索式についても、上述の式(1)、(2)の副検索式と同様に、「E06B9/264」に属する特許文献の中から、6件の正例の特許文献(特許文献9、25、13、26、22、27)を抽出することができる。
【0103】
以上より、式(1)〜(4)で構築される、式(5)で表される本検索式によれば、予備検索により見つかった30件の特許文献の中から、上述の12件の正例の特許文献の全てを抽出することができる。このため、式(5)で表される本検索式は、予備検索により見つかった30件の特許文献の中から全ての正例の特許文献を抽出するという目的に対して、適した検索式であると考えることができる。
【0104】
ここで、上述の式(5)で表される本検索式により、特許データベースの中から上述の特許に関する特許文献を検索したところ、212件の特許文献が該当することが分かった。
【0105】
<動的スクリーニング手法>
そこで、次に、図12に示す動的スクリーニング手法により、上述の212件の特許文献について本検索を行った。なお、通常では、検索式などにより抽出された特許文献(母集団)のスクリーニング手法において、語句による絞り込み検索といった、母集団に対する適当な条件を適用した部分集合の確認を繰り返す。
【0106】
しかし、ここでは、上述の文書検索処理の有効性を明らかにするために、確認済みである上述の12件の正例の特許文献に続けて、未確認の特許文献を出願日順に並べた状態から、逐次的に特許文献212件を確認した。具体的には、未確認の特許文献の確認(ステップS103)を繰り返す途中で、逐次的に文書検索処理により本検索式を再構築し(ステップS104)、その本検索式との適合度合いの高い順に未確認の特許文献を並べ替えた(ステップS101、S102)。
【0107】
より具体的には、まず、ステップS101において、文書検索装置1により、上述の212件の特許文献のそれぞれについて、本検索式との適合度合いを求めた。ただし、確認済みの特許文献、すなわち正例または負例として用いられた特許文献については、本検索式との適合度合いを求めないこととした。この適合度合いについては、特許文献毎に、以下の3つの方法により各副検索式の評価値を求め、各副検索式の評価値のうち最も大きいものを本検索式との適合度合いとした。なお、各副検索式の評価値は、3つの方法はいずれか1つにより求めてもよいし、組み合わせて求めてもよい。なお、以下の3つの方法のいずれでも評価値を求めることができない場合には、評価値をゼロとした。
【0108】
第1の方法では、特許文献の特許分類と、副検索式の特許分類と、が一致する場合に、副検索式の評価値を求めることができる。具体的には、副検索式に属する確認済みの正例の数を確認済みの全正例の数で割った値を、その副検索式の評価値として設定する。さらに、一致する場合であって、副検索式に含まれるカテゴリ特徴語句を特許文献が含む場合には、設定した評価値を第1の値だけ乗算する。ここで、第1の値としては、例えば、2倍といった固定値を設定してもよいし、カテゴリ特徴語句の重要度に応じて設定してもよいし、特許文献に含まれないカテゴリ特徴語句の数に応じて設定してもよい。
【0109】
第2の方法では、特許文献の特許分類と、副検索式の特許分類と、が一致しない場合であって、その副検索式に含まれるカテゴリ特徴語句を特許文献が含む場合に、副検索式の評価値を求めることができる。具体的には、第2の値を、その副検索式の評価値として設定する。ここで、第2の値としては、例えば、副検索式に属する確認済みの正例の数を確認済みの全正例の数で割った値に対して、0.01倍した値を採用することができる。
【0110】
第3の方法では、最小数の特徴語句の和集合に含まれる特徴語句を特許文献が含む場合に、副検索式の評価値を求めることができる。具体的には、第3の値を、その副検索式の評価値として設定する。ここで、第3の値としては、例えば、「0.5」といった固定値を設定してもよいし、特許文献に含まれる特徴語句の数に応じて設定してもよい。
【0111】
次に、ステップS102において、文書検索装置1により、ステップS101において求めた適合度合いに基づいて、未確認の特許文献を並べ替えた。そして、確認済みの特許文献を上位に並べ、これら確認済みの特許文献より下位に、並べ替えた未確認の特許文献を並べることとした。
【0112】
次に、ステップS103において、ユーザにより、ステップS102において並べ替えた特許文献を、上位から順に、正例または負例のいずれであるか確認した。なお、確認する件数は任意であり、未確認の特許文献全てを確認する必要はないものとした。
【0113】
次に、ステップS104において、文書検索装置1により、ステップS103における確認結果、すなわち、新たに正例または負例に分類された特許文献と、確認済の特許文献と、に基づいて上述の文書検索処理を行い、本検索式を再構築した。
【0114】
ここで、図12に示した動的スクリーニング手法を行う前に、あらかじめ上述の212件の特許文献全てについて確認したところ、上述の12件以外に、新たに3件が正例の特許文献であることが判明した。そこで、以降では、これら3件の正例の特許文献に着目して説明する。
【0115】
上述の212件の特許文献について、出願日の早い順に並べ替えると、上述の3件の正例の特許文献の出現順位は、それぞれ、139、140、160位であった。
【0116】
そこで、上述の式(1)〜(4)で構築される本検索式を用いて上述の動的スクリーニング手法を行った。すなわち1回目の動的スクリーニング手法を行って、上述の212件のうち未確認である200件の特許文献を並べ替えた。その結果、上述の3件の正例の特許文献の出現順位は、それぞれ、55位、57位、71位となった。
【0117】
なお、1回目の動的スクリーニング手法において、ステップS103では、未確認である200件のうち8件の特許文献を確認した。これら8件の特許文献の全ては、負例の特許文献であった。また、ステップS104では、12件の正例と、26件(18件+8件)の負例と、により、本検索式を再構築した。
【0118】
そこで、1回目の動的スクリーニング手法において再構築した本検索式を用いて、再度、上述の動的スクリーニング手法を行った。すなわち2回目の動的スクリーニング手法を行って、上述の200件のうち未確認である192件の特許文献を並べ替えた。その結果、上述の3件の正例の特許文献の出現順位は、それぞれ、27位、30位、71位となった。
【0119】
なお、2回目の動的スクリーニング手法において、ステップS103では、未確認である192件のうち20件の特許文献を確認した。これら20件の特許文献のうち、2件は正例の特許文献で、残りの18件は負例の特許文献であった。また、ステップS104では、14件(12件+2件)の正例と、44件(26件+18件)の負例と、により、本検索式を再構築した。
【0120】
そこで、2回目の動的スクリーニング手法において再構築した本検索式を用いて、再度、上述の動的スクリーニング手法を行った。すなわち3回目の動的スクリーニング手法を行って、上述の192件のうち未確認である172件の特許文献を並べ替えた。その結果、上述の3件の正例の特許文献のうち、前回の出現順位が71位であった特許文献の出現順位は、43位となった。
【0121】
以上によれば、本検索式を構築し、本検索式との適合度合いによる特許文献の並べ替えと、並べ替えられた順での特許文献の確認と、確認結果の本検索式構築へのフィードバックと、を繰り返すことにより、正例の特許文献の出現順位が上昇することが分かる。
【0122】
以上の文書検索装置1によれば、特許分類により分類される特許文献が蓄積されている特許データベースにおいて、正例が分類される特許分類を求め、求めた各特許分類に属する特許文献の中から負例を除外する特徴語句を求める。したがって、特異な負例が存在する場合であっても、有意な特徴語句を選定して負例を除外できる本検索式を構築でき、検索目的と一致する特許文献を検索するために適切な検索式を構築することができる。
【0123】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。
【0124】
例えば、特徴語句の代わりに、Fタームを用いてもよい。なお、Fタームを用いる場合には、解析範囲が請求の範囲だけでなく、全文に及ぶ場合が多く、特徴語句を使うよりも検索式の精度を向上できる場合がある。
【0125】
また、上述の実施形態では、文書検索装置1は、特許文献を検索するものとしたが、これに限らない。文書データベースに含まれる文書が、階層化された複数のカテゴリで分類される場合であって、この文書データベースの中から検索目的と一致する文書を検索する場合に、用いることができる。
【0126】
また、上述の実施形態では、特許データベースは、文書検索装置1の記憶部13に記憶されるものとしたが、これに限らず、例えば、文書検索装置1と通信可能に設けられたサーバの内部に構築されるものとしてもよい。
【0127】
また、上述の実施形態では、特許分類としてFIを用いたが、これに限らず、例えばIPC、ECLA、USC、テーマコードといった、文書を分類できる複数の階層化されたカテゴリであればよい。
【符号の説明】
【0128】
1 文書検索装置
11 制御部
12 通信部
13 記憶部
14 入力I/F
15 バス
16 入力装置
17 出力装置

【特許請求の範囲】
【請求項1】
複数の階層化されたカテゴリに分類される文書データベースの中から検索目的と一致する文書を検索する文書検索方法であって、
前記文書データベースに含まれる複数の文書のうち正例が分類されるカテゴリを取得する第1のステップと、
前記正例に含まれる特徴語句を取得する第2のステップと、
前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する第3のステップと、
前記第1のステップで取得されたカテゴリ毎に、当該カテゴリと、前記第3のステップで取得されたカテゴリ特徴語句と、に基づいて副検索式を構築する第4のステップと、
前記第2のステップで取得された特徴語句の和集合と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築する第5のステップと、
を備えることを特徴とする文書検索方法。
【請求項2】
前記第1のステップでは、前記正例が分類されるカテゴリを取得した後に、当該カテゴリの中から前記正例に属する全ての文書を包括する最小数のカテゴリを抽出し、
前記第2のステップでは、前記正例に含まれる特徴語句を取得した後に、当該特徴語句の中から前記正例に属する全ての文書を包括する最小数の特徴語句を抽出し、
前記第3のステップでは、前記第1のステップで抽出された最小数のカテゴリ毎に、当該カテゴリに分類される正例に属する全ての文書について前記カテゴリ特徴語句を取得した後に、当該カテゴリ特徴語句の中から前記正例に属する全ての文書を包括する最小数のカテゴリ特徴語句を抽出し、
前記第4のステップでは、前記第1のステップで抽出された最小数のカテゴリ毎に、当該カテゴリと、前記第3のステップで抽出された最小数のカテゴリ特徴語句と、に基づいて副検索式を構築し、
前記第5のステップでは、前記第2のステップで抽出された最小数の特徴語句の和集合と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築することを特徴とする請求項1に記載の文書検索方法。
【請求項3】
前記第1のステップは、
前記正例が分類されるカテゴリを取得し、当該カテゴリをカテゴリ候補として設定する第1の設定ステップと、
前記カテゴリ候補の要素として当該カテゴリ候補に属する正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記カテゴリ候補を降順に並べ替える第1の整列ステップと、
最上位のカテゴリ候補を採用し、当該最上位のカテゴリ候補に属する正例の文書を他のカテゴリ候補の要素から削除するとともに、要素の無くなったカテゴリ候補を前記第1の設定ステップにおいて設定されたカテゴリ候補の中から除外する第1の採用ステップと、
前記他のカテゴリ候補の数が0になるまで、前記第1の整列ステップおよび前記第1の採用ステップを繰り返し、前記第1の採用ステップで採用されたカテゴリ候補を、前記最小数のカテゴリとして抽出する第1の抽出ステップと、
を備え、
前記第2のステップは、
前記正例に含まれる特徴語句を取得し、当該特徴語句を特徴語句候補として設定する第2の設定ステップと、
前記特徴語句候補の要素として当該特徴語句候補を含む正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記特徴語句候補を降順に並べ替える第2の整列ステップと、
最上位の特徴語句候補を採用し、当該最上位の特徴語句候補を含む正例の文書を他の特徴語句候補の要素から削除するとともに、要素の無くなった特徴語句候補を前記第2の設定ステップにおいて設定された特徴語句候補の中から除外する第2の採用ステップと、
前記他の特徴語句候補の数が0になるまで、前記第2の整列ステップおよび前記第2の採用ステップを繰り返し、前記第2の採用ステップで採用された特徴語句候補を、前記最小数の特徴語句として抽出する第2の抽出ステップと、
を備え、
前記第3のステップは、
前記第1のステップで抽出された最小数のカテゴリ毎に、前記カテゴリ特徴語句を取得し、当該カテゴリ特徴語句をカテゴリ特徴語句候補として設定する第3の設定ステップと、
前記カテゴリ特徴語句候補の要素として当該カテゴリ特徴語句候補を含む正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記カテゴリ特徴語句を降順に並べ替える第3の整列ステップと、
最上位のカテゴリ特徴語句候補を採用し、当該最上位のカテゴリ特徴語句候補を含む正例の文書を他のカテゴリ特徴語句候補の要素から削除するとともに、要素の無くなったカテゴリ特徴語句候補を前記第3の設定ステップにおいて設定されたカテゴリ特徴語句候補の中から除外する第3の採用ステップと、
前記他のカテゴリ特徴語句候補の数が0になるまで、前記第3の整列ステップおよび前記第3の採用ステップを繰り返し、前記第3の採用ステップで採用されたカテゴリ特徴語句候補を、前記最小数のカテゴリ特徴語句として抽出する第3の抽出ステップと、
を備えることを特徴とする請求項2に記載の文書検索方法。
【請求項4】
前記本検索式に基づいて前記文書データベースの中から検索された文書のうち、前記本検索式を構築する際に用いた文書を除くものを、前記本検索式との適合度合いに基づいて降順に並べ替える第6のステップを備えることを特徴とする請求項1から3のいずれかに記載の文書検索方法。
【請求項5】
前記カテゴリ特徴語句は、前記第2のステップで取得された特徴語句には含まれないことを特徴とする請求項1から4のいずれかに記載の文書検索方法。
【請求項6】
前記第3のステップでは、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例であって前記第2のステップで取得された特徴語句を含む負例には含まれない特徴語句を、カテゴリ特徴語句として取得することを特徴とする請求項1から5のいずれかに記載の文書検索方法。
【請求項7】
前記文書は、特許文献であり、
前記カテゴリは、FI、IPC、ECLA、USC、またはテーマコードのいずれかであることを特徴とする請求項1から6のいずれかに記載の文書検索方法。
【請求項8】
前記文書は、日本の特許文献であり、
前記特徴語句の代わりにFタームを用いることを特徴とする請求項1から7のいずれかに記載の文書検索方法。
【請求項9】
複数の階層化されたカテゴリに分類される文書データベースの中から検索目的と一致する文書を検索する文書検索方法をコンピュータに実行させるためのプログラムであって、
前記文書データベースに含まれる複数の文書のうち正例が分類されるカテゴリを取得する第1のステップと、
前記正例に含まれる特徴語句を取得する第2のステップと、
前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する第3のステップと、
前記第1のステップで取得されたカテゴリ毎に、当該カテゴリと、前記第3のステップで取得されたカテゴリ特徴語句と、に基づいて副検索式を構築する第4のステップと、
前記第2のステップで取得された特徴語句の和集合と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築する第5のステップと、
をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−3550(P2012−3550A)
【公開日】平成24年1月5日(2012.1.5)
【国際特許分類】
【出願番号】特願2010−138632(P2010−138632)
【出願日】平成22年6月17日(2010.6.17)
【出願人】(000003687)東京電力株式会社 (2,580)
【Fターム(参考)】