説明

キーワード間の関連度算出システム

【課題】キーワード間の共起性に基づき、あらゆる種類のキーワード間の関連度を効率的に算出可能なシステムの実現。
【解決手段】複数の文書ファイルからキーワードを抽出するキーワード抽出部14と、各キーワードの各文書ファイル中における出現頻度に基づいて、一対のキーワード間の関連度をあらゆるキーワードの組合せについて算出し、キーワード関連度表DB26に格納する関連度算出部18を備えたキーワード間の関連度算出システム10。関連度算出部18は、文書ファイル単位で出現実績のあるキーワードの出現頻度を算出し、各キーワードの出現頻度の二乗値を算出し、この二乗値を全文書ファイルに亘って集計し、文書ファイル単位で一対のキーワード間の出現頻度の積値を算出し、この積値を全文書ファイルに亘って集計し、各キーワードの二乗値の総和の平方根を算出し、両平方根を加算し、その和で当該キーワード間の積値の総和を除することにより、関連度を算出する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明はキーワード間の関連度算出システムに係り、特に、入力された検索語と関連の深い用語を連鎖的に抽出したり、抽出された用語と関連の深い企業や商品、人物等を提示する連想検索の実現に不可欠な、キーワード間の関連度算出技術に関する。
【背景技術】
【0002】
膨大な情報の中から必要とする情報を抽出するために検索システムが用いられるが、一般的な検索システムの場合、入力された検索語と同一または類似の概念を含む情報を抽出する仕組みを備えている。例えば、多数の企業の情報を格納したデータベースに対して「富士」という検索語を与えると、検索システムは「富士」という文字列を名称中に含む企業のリストを正確に出力することができる。また、インターネットの検索サイトにおいて「環境問題」と入力すれば、「環境問題」という文字列を含んだWebページのリストがディスプレイに表示される。
この結果ユーザは、目的の情報に辿り着くことが可能となるのであるが、そこでの検索結果はあくまでも予想の範囲のものであり、検索結果リストを眺めても意外な発見を期待することはできなかった。もちろん、検索結果リスト中の個々のデータの詳細を検討する過程で新しい知見を得ることはできるが、検索語と関連の深い他の用語を含む情報を直接的に抽出することはできなかった。
【0003】
この点に関し、特許文献1で開示された「連想検索システム」の場合には、各用語の関連用語を記憶した関連用語記憶手段と、各用語と共起性の高い(同一文書中に登場する確率が高い)企業名を記憶した共起企業名記憶手段を備えており、検索語が入力された場合にはこれと関連する用語を抽出し、各用語に対する共起性の高い企業名を抽出する仕組みを備えている。
【特許文献1】特開2004−110386号
【発明の開示】
【発明が解決しようとする課題】
【0004】
この結果ユーザは、検索語として「環境問題」を入力すると、環境問題に係る文書中に登場することの多い企業名をダイレクトにリストアップすることが可能となり、環境問題に積極的に取り組む企業を認識し、投資行動につなげることができるようになる。
【0005】
しかしながら、この連想検索システムの場合、連想検索の対象が企業名(関連企業名を含む)に限定されるため、投資対象企業の検索以外に実用的な用途がない点で問題があった。
【0006】
すなわち、この従来の連想検索システムにあっては、有価証券報告書や新聞記事等のテキスト情報からキーワードを抽出した後、企業情報記憶部を参照して各キーワードが企業名に該当するか否かを判定し、企業名の場合には同一テキスト情報中に現れた他のキーワードと当該企業名を、関連性があるものとして共起企業名記憶手段に格納する仕組みを備えている。
【0007】
このため、インターネットという検索語を入力すると、「インターネット」と共起性の強い企業名をピックアップすることはできるとしても、「インターネット」と共起性の強い人物や地域、技術等をピックアップすることはできない。
特許文献1には、「インターネット」の入力に対して「ブロードバンド」や「ネットワーク」、「電子メール」の検索結果が得られる例が示されているが、これらはあくまでも「インターネット」のシソーラスとして関連用語記憶手段に予め準備されていたものであり、「インターネット」との共起性に基づいて抽出されるものではない。
【0008】
この発明は上記の問題を解決するために案出されたものであり、企業名を含めたあらゆるキーワード間の共起性に基づき、一対のキーワード間の関連度を効率的に算出可能なシステムを実現することを目的としている。
【課題を解決するための手段】
【0009】
上記の目的を達成するため、請求項1に記載したキーワード間の関連度算出システムは、複数の文書ファイルが格納された文書記憶手段と、上記の各文書ファイルから複数のキーワードを抽出し、キーワード記憶手段に格納するキーワード抽出手段と、各キーワードの各文書ファイル中における出現頻度に基づいて、一対のキーワード間の関連度を全てのキーワードの組合せについて算出し、キーワード関連度記憶手段に格納する関連度算出手段とを備えたシステムであって、上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定するものであり、上記関連度算出手段が、(1)文書ファイル単位で、当該文書ファイル中に出現実績のあるキーワードを探知し、これらの出現頻度を算出する処理と、(2)各キーワードの出現頻度の二乗値を算出する処理と、(3)各キーワードの出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する処理と、(4) 文書ファイル単位で、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する処理と、(5)各キーワード間の出現頻度の積値を集計し、全文書ファイルに亘る総和を算出する処理と、(6)上記(3)の総和の平方根を算出する処理と、(7)一対のキーワードの上記(6)の平方根同士を加算し、その和で上記(5)の総和を除することにより、両キーワード間の関連度を算出する処理とを実行することを特徴としている。
なお、上記(1)〜(7)の処理は、相互に論理的な矛盾が生じない限り、順番を適宜入れ替えてもよい。
【0010】
請求項2に記載したキーワード間の関連度算出システムは、管理サーバと、複数の第1の分散処理サーバと、第2の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、各第1の分散処理サーバに分配する手段と、各第1の分散処理サーバから送信されたキーワードを、キーワード記憶手段に格納する手段と、キーワード記憶手段に格納された全キーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、各第1の分散処理サーバから送信された複数の出現頻度二乗値ファイルを、第2の分散処理サーバに送信する手段と、各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、その種類に応じて担当すべき第1の分散処理サーバに振り分け配信する手段と、第2の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、各第1の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段と、管理サーバから全キーワードが送信された場合に、担当文書ファイルについて各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出し、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、上記出現頻度二乗値ファイル及び複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段と、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記第2の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記第1の分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。
この請求項2のシステムは、キーワード抽出処理、キーワードの出現頻度二乗値ファイル生成処理、キーワード間の出現頻度積値ファイル生成処理及び出現頻度積値の全文書に亘る総和算出処理が複数の分散処理サーバによって分散処理され、出現頻度二乗値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。
【0011】
請求項3に記載したキーワード間の関連度算出システムは、管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第2の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、各第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、各第3の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第4の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、各第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とをそれぞれ備え、上記の各第2の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とをそれぞれ備え、上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とをそれぞれ備え、上記の各第4の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とをそれぞれ備え、さらに上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段とを備え、上記分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。
この請求項3のシステムは、キーワード間の出現頻度積値ファイル生成処理、出現頻度積値の全文書に亘る総和算出処理、キーワードの出現頻度二乗値ファイル生成処理、出現頻度二乗値の全文書に亘る総和算出処理のそれぞれが、複数の分散処理サーバによって分散処理される点に特徴を備えている。
なお、上記第1〜第4の分散処理サーバは、それぞれの機能に着目した論理的な区分けであり、各分散処理サーバが物理的に独立している場合はもちろん、相互に重複している場合もあり得る。物理的に重複している場合、サーバ間におけるファイルの送受信は必要な限度で実行されれば足りる。例えば、第1の分散処理サーバと第3の分散処理サーバが共通のサーバマシンによって構成される場合、管理サーバは第1のサーバに対して担当文書ファイルを配信すれば足り、第3の分散処理サーバに対して同一の文書ファイルを重複配信することを省略することができる(請求項4〜6の発明についても同様)。
【0012】
請求項4に記載したキーワード間の関連度算出システムは、管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、各第1の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第2の分散処理サーバに送信する手段と、第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、各第3の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第4の分散処理サーバに送信する手段と、第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、上記第2の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、上記第4の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、さらに上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段とを備え、上記分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。
この請求項4のシステムは、キーワード間の出現頻度積値ファイル生成処理及びキーワードの出現頻度二乗値ファイル生成処理が複数の分散処理サーバによって分散処理され、出現頻度積値の全文書に亘る総和算出処理及び出現頻度二乗値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。
【0013】
請求項5に記載したキーワード間の関連度算出システムは、管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第2の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、各第3の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第4の分散処理サーバに送信する手段と、第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、上記の各第2の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、上記第4の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、さらに上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段とを備え、上記分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。
この請求項5のシステムは、キーワード間の出現頻度積値ファイル生成処理、出現頻度積値の全文書に亘る総和算出処理及びキーワードの出現頻度二乗値ファイル生成処理が複数の分散処理サーバによって分散処理され、出現頻度二乗値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。
【0014】
請求項6に記載したキーワード間の関連度算出システムは、管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、各第1の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第2の分散処理サーバに送信する手段と、第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、各第3の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第4の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、各第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、上記キーワード記憶手段から一対のキーワードを取り出す手段と、上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、上記第2の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、上記の各第4の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、この総和を管理サーバに送信する手段とを備え、さらに上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段とを備え、上記分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。
この請求項6のシステムは、キーワード間の出現頻度積値ファイル生成処理、キーワードの出現頻度二乗値ファイル生成処理及び出現頻度二乗値の全文書に亘る総和算出処理が複数の分散処理サーバによって分散処理され、出現頻度積値の全文書に亘る総和算出処理が単独の分散処理サーバによって処理される点に特徴を備えている。
【0015】
請求項7に記載したキーワード間の関連度算出システムは、請求項1〜6のシステムであって、上記キーワード候補を抽出するフィルタの一つが、(1)各文書中に含まれる名詞を注目語として抽出し、(2)各注目語の全文書中における出現頻度を算出し、(3)各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出し、(4)上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、(5)最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴としている。
ここで「形態素」とは、意味を有する最小の言語単位を指す。例えば、「私の名前は鈴木です」を形態素に分解すると、「私(代名詞)」「の(助詞)」「名前(一般名詞)」「は(係助詞)」「鈴木(固有名詞)」「です(助動詞)」となる。
【発明の効果】
【0016】
請求項1に記載したキーワード間の関連度算出システムによれば、まず文書ファイル単位で、出現頻度がゼロのため他のキーワードとの関連度算出が不要なキーワードを排斥し、出現実績のあるキーワードに絞った上で、関連度算出の基礎となる出現頻度の二乗値や組合せ頻度の積値を算出した後、全文書ファイル単位に集計する手法を採用しているため、全文書ファイル中に登場する多数のキーワード間の関連度を極めて効率的に算出することができる。この結果、特許文献1の検索システムのように、関連度の算出に先立ってキーワードの組合せの一方を企業名に限定することなく、あらゆる種類のキーワード相互間における関連度を算出することが可能となる。
【0017】
また、新規の文書ファイルが文書記憶手段に追加された場合でも、当該新規文書ファイル単位で(1)、(2)、(4)の処理を行い、この算出結果を(3)及び(5)の既存の集計値(総和)に加算した後、(6)及び(7)の計算をやり直すだけで済み、文書ファイル追加時における関連度の再計算処理が容易化される利点がある。
さらに、古くなった文書ファイルの影響を排除する必要がある場合にも、当該旧文書ファイルに係る(2)及び(4)の値を(3)及び(5)の集計値(総和)から減算した後、(6)及び(7)の計算をやり直すだけで済むため、キーワード間の関連度を最新のものに維持することが容易となる。
キーワードの抽出に関しては、複数のフィルタを用いて文書ファイル中からそれぞれ独自にキーワード候補を抽出させ、これらの中で2以上のフィルタによって抽出されたものを正式なキーワードと認定する仕組みを備えているため、重要なキーワードの取りこぼしを防止すると同時に、重要でないノイズがキーワード中に混入することを防止できる。
【0018】
請求項2〜6に記載したキーワード間の関連度算出システムによれば、複数の分散処理サーバにより、キーワードの抽出処理や、各キーワードの出現頻度の二乗値ファイルの生成処理、出現頻度二乗値の全文書に亘る総和算出処理、キーワード間の出現頻度の積値ファイルの生成処理、出現頻度積値の全文書に亘る総和算出処理の少なくとも一部が分散化される結果、キーワード間の関連度算出に係る全体の計算処理を大幅に高速化することが可能となる。
キーワードの抽出に関しては、複数のフィルタを用いて文書ファイル中からそれぞれ独自にキーワード候補を抽出させ、これらの中で2以上のフィルタによって抽出されたものを正式なキーワードと認定する仕組みを備えているため、重要なキーワードの取りこぼしを防止すると同時に、重要でないノイズがキーワード中に混入することを防止できる。
【0019】
請求項7のシステムの場合、キーワード候補の抽出に際し、複数の文書データ中における出現頻度に基づいてある注目語をキーワード候補として選定するか否かを判断する仕組みを備えているため、選定されたキーワード候補の重要度に対して客観性を持たせることが可能となる。
【発明を実施するための最良の形態】
【0020】
図1は、この発明に係る第1のキーワード間の関連度算出システム10及びこれを備えた第1の検索システム11の機能構成を示すブロック図であり、文書DB12と、キーワード抽出部14と、キーワードDB16と、関連度算出部18と、キーワード共起頻度表DB20と、キーワード組合せ頻度総和表DB22と、キーワード頻度総和表DB24と、キーワード関連度表DB26と、固有名詞DB28と、検索処理部30とを備えている。
【0021】
上記のキーワード抽出部14、関連度算出部18及び検索処理部30は、コンピュータのCPUが、OS及び専用のアプリケーションプログラムに従い、必要な処理を実行することによって実現される。
【0022】
上記の文書DB12、キーワードDB16、キーワード共起頻度表DB20、キーワード組合せ頻度総和表DB22、キーワード頻度総和表DB24、キーワード関連度表DB26及び固有名詞DB28は、同コンピュータのハードディスクに格納されている。
文書DB12には、新聞記事や学術雑誌、論文等の文書ファイル(テキストデータ)が予め多数蓄積されている。また、固有名詞DB28には、企業名、商品名、サービス名、人物名等の固有名詞がカテゴリ別に多数登録されている。
【0023】
上記のキーワード抽出部14は、図2に示すように、係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38、多数決フィルタ40を備えている。
【0024】
つぎに、図3のフローチャートに従い、キーワード抽出部14によるキーワード抽出工程について説明する。
まずキーワード抽出部14は、文書DB12内に蓄積された各文書ファイルに係り受け表現抽出フィルタ32を適用し、各文書ファイルから所定の係り受け表現を備えた文字列を抽出する(S10)。
すなわち、係り受け表現抽出フィルタ32には、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部14は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。
【0025】
つぎにキーワード抽出部14は、各文書ファイルに区切り文字抽出フィルタ34を適用し、「○○」、"○○"、(○○)、[○○]、,○○,のように、カンマや括弧、スペース、タブ等の区切り文字で囲まれた○○の部分をキーワード候補として抽出する(S12)。
【0026】
つぎにキーワード抽出部14は、各文書ファイルに文字列頻度統計フィルタ36を適用し、各文書ファイルに含まれる各文字列が他の文書も含めて何回登場するのかを集計し、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する(S14)。
まず文字列頻度統計フィルタ36は、図4に示すように、文書中の名詞(ここでは「DVD」)に注目し、このDVDという注目語が文書DB12内に蓄積された各文書ファイル中に出現する数を集計する。つぎに、文字列頻度統計フィルタ36は、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下(例えば20以下)となった時点で文字範囲拡張を停止する。
【0027】
例えば、DVDの一つ前の形態素を含む「したDVD」の出現頻度は「2」と低いため、これ以上前の形態素に範囲が拡張されることはない。これに対し、DVDの一つ後の形態素を含む「DVDレコーダー」の出現頻度は「862」と多いため、その一つ後の形態素を含む「DVDレコーダーでは」の出現頻度を集計する。そして、この出現頻度は「5」と低いため、これ以降の形態素に範囲を拡張することが停止される。
【0028】
つぎに文字列頻度統計フィルタ36は、「DVD」及び「DVDレコーダー」が所定範囲(例えば20〜5,000)内の出現頻度を備えていることを理由にキーワード候補として抽出する。これに対し、「したDVD」及び「DVDレコーダーでは」は上記の範囲外であるため、キーワード候補から除外される。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書ファイルの分量や検索システムの使用目的に応じて適宜調整される。
【0029】
ところで、文書DB12内に蓄積された多量の文書ファイルに含まれる各文字列に関して、それぞれの出現頻度を集計するには膨大な時間を要するため、図5に示すように、文書DB12内には予め全文書ファイルに登場する各形態素が、個々の文書ファイル中に存在しているか否かを一覧表にまとめたインデックス(所謂転置インデックス)が生成されている。このため、キーワード抽出部14はこのインデックスを参照することにより、比較的短時間でその出現頻度を取得することが可能となる。
【0030】
つぎにキーワード抽出部14は、文書DB12内に蓄積された文書ファイルにTermExtractフィルタ38を適用し、各文書ファイルから所定以上のスコアを備えた文字列をキーワード候補として抽出する(S16)。
このTermExtractは、専門分野のコーパス(主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ)から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書ファイル中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtract自体は公知技術であるため、これ以上の説明は省略する。
【0031】
つぎにキーワード抽出部14は、係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38によって抽出された各キーワード候補を多数決フィルタ40に入力し、キーワードを絞り込む。
多数決フィルタ40では、各フィルタによってリストアップされたキーワード候補同士をマッチングし、2以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、キーワードDB16に格納する(S18)。
【0032】
このように、係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38の4つのフィルタを用いることにより、文書ファイルからキーワードを抽出する際に重要語が漏れ落ちることを防止すると共に、多数決フィルタ40を用いて絞り込むことにより、不要なキーワード(ノイズ)が混入することを防止できる。
【0033】
上記のように4つのフィルタ中の2以上のフィルタによって選別されたキーワード候補を正式なキーワードと認定するのは一例であり、3以上のフィルタによって選別されることをキーワード認定の要件とすることもできる。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部14に設けることもできる。
【0034】
つぎに、図6のフローチャートに従い、関連度算出部18による各キーワード間の関連度算出工程について説明する。
まず関連度算出部18は、各キーワードの各文書ファイル中における共起頻度を集計してキーワード共起頻度表を生成し、キーワード共起頻度表DB20に格納する(S20)。
図7は、キーワード共起頻度表DB20に格納されたキーワード共起頻度表の具体例を示すものであり、文書DB12に格納された各文書D1〜Dnごとに、各キーワードKW-1〜nの出現頻度が記述されている。
【0035】
ここで、あるキーワードXとYとの間の関連度は、数1のiにキーワード共起頻度表DB20に記載されたXとYの出現頻度を代入することにより、理論的には算出可能である。
【数1】

【0036】
この数1の分子は、キーワードX、Yの文書毎の出現頻度の積の全文書に亘る総和を意味するため、X、Yが同じ文書に出現する頻度が高いほど値は大きくなる。もっとも、特定の文書中におけるX及びYの出現頻度の絶対数が多ければそれにつられて分子の値は高くなってしまい、必ずしもXとYの共起性の高さを表しているとはいえない。これに対し分母は、キーワードX、Yの文書毎の出現頻度の二乗の全文書に亘る総和の平方根同士を加算したものであり、X、Yの特定文書中の出現頻度が高いほど値が大きくなる。このため、分子の値を分母の値で除算することにより、特定文書中におけるX、Yの出現頻度の絶対数が多いことの影響を排除し、X、Y間の共起性の高さに基づく関連度を導くことが可能となる。
【0037】
ただし、単純に数1の計算を行うやり方では、文書ファイルの分量及びキーワードの総数が多い場合には膨大な計算量が発生し、多くの処理時間を要することとなる。
そこで、この実施の形態では、キーワード共起頻度表に基づいてキーワード組合せ頻度総和表及びキーワード頻度総和表を生成することにより、計算工程の簡素化を図っている。
【0038】
図8は、その要領を例示するものである。この場合、キーワード共起頻度表にはキーワードKW-1〜KW-5の文書D1における出現頻度が記載されているが、この中KW-3及びKW-4の出現頻度は0であるため、実際に関連度を算出すべきキーワードの組合せは以下の3パターンで済むこととなる。
(KW-1, KW-2)、(KW-1, KW-5)、(KW-2, KW-5)
つぎに関連度算出部18は、各組合せ毎に出現頻度を乗じた値を記述したキーワード組合せ頻度総和表と、各キーワードの出現頻度を二乗した値を記述したキーワード頻度総和表を生成し、キーワード組合せ頻度総和表DB22及びキーワード頻度総和表DB24に格納する(S22、S24)。
【0039】
図8のキーワード組合せ頻度総和表では、文書D1についての値のみが記述されているが、同様の処理を各文書毎に実行し、その結果に基づいて値を加算していくことにより、各キーワードの値が数1の分子に相当する結果となる。
同じく、図8のキーワード頻度総和表では、文書D1についての値のみが記述されているが、各文書における各キーワードの出現頻度を二乗した値を集計していき、各キーワードの最終的な値(総和)の平方根を求めることにより、数1の分母に相当する値が得られることになる。
【0040】
最後に関連度算出部18は、図9に示すように、キーワード組合せ頻度総和表DB22からキーワードX,Yの組合せ頻度の総和を読み込むと共に、キーワード頻度総和表DB24からキーワードXの二乗値の総和とキーワードYの二乗値の総和を読み込み、各二乗値の総和の平方根を求めた後、これらの値を数1に代入することにより、キーワードX,Y間の関連度を算出し、キーワード関連度表DB26に格納する(S26)。すべてのキーワードの組合せについて処理が終了するまで、関連度算出部18は処理を繰り返す。
【0041】
上記のように、文書ファイル毎に各キーワード間の組合せパターンを抽出し、それぞれの積値及び各キーワードの二乗値を求めた上で、各文書ファイルの値を加算していくことにより、出現頻度が0のキーワードに係る計算処理を省くことが可能となる。
このため、特許文献1の検索システムのように企業名に限定することなく、全キーワード間における関連度を算出することが現実的となる。
【0042】
また、文書DB12に新規の文書ファイルが追加された場合には、この新規文書ファイル中の各キーワードに係る値を、キーワード組合せ頻度総和表DB22及びキーワード頻度総和表DB24に格納された既存の集計値に加算することによって、簡単にキーワード間の関連度が再計算可能となる。
古くなった文書ファイルの影響を排除する場合にも、当該文書ファイル中の各キーワードに係る値をキーワード組合せ頻度総和表DB22及びキーワード頻度総和表DB24に格納された既存の集計値から減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。
【0043】
つぎに、図10のフローチャートに従い、このシステム10における検索処理手順について説明する。
まずユーザが端末装置αから検索語を入力すると、これを受け付けた検索処理部30は(S40)、図11に示すように、キーワード関連度表DB26を参照し、当該検索語と同一または一定範囲内の類似性を有するキーワードを特定すると共に、当該キーワードに対して所定以上の関連度を有するキーワードのリストを抽出する(S42)。
つぎに検索処理部30は、固有名詞DB28の中の例えば企業名DBを参照し、上記リスト中に含まれる企業名を抽出する(S44)。
この抽出された企業名のリストは、検索語に関連の深い企業リストとして端末装置αに送信される(S46)。
【0044】
この結果ユーザは、入力した検索語(例えば時事用語)と関連の深い企業を認識することが可能となり、投資行動の判断材料に利用することができる。
また、固有名詞DB28として人物名DBを指定すれば、入力した検索語と関連の深い人物をピックアップできる。
【0045】
もっとも、企業名DBや人物名DBとのマッチングを行うことなく、検索語と関連の深いキーワードのリストを、そのまま端末装置αに返すようにしてもよい。
この後、ユーザがキーワードリスト中の特定のキーワードを検索語として指定すると、そのキーワードと所定以上の関連性を備えたキーワードのリストが検索処理部30によってさらに抽出され、端末装置αに送信される。
この結果、ユーザは関連語から関連語へと、連鎖的に検索範囲を広げていくことが可能となり、予想外のキーワードに辿り着くことが期待できる。
【0046】
ユーザが検索結果リスト中の特定のキーワードを指定し、その根拠となる文書の提示をリクエストすると、これを受け付けた検索処理部は(S48)、図12に示すように、検索語及び当該キーワードに基づいてキーワード共起頻度表DB20を検索し、両者間で共起の生じている文書番号のリストを生成する(S50)。
つぎに検索処理部30は、この文書番号リストに基づいて文書DB12を検索し、文書本文のリストを生成した後、端末装置αに送信する(S52、S54)。
この結果、端末装置αのディスプレイには、検索語と当該キーワードとが同時に出現している文書の番号、タイトル、抄録、年月日等がリスト表示される。
【0047】
また、この中の一つをユーザが選択すると、検索処理部30は該当の文書ファイルを文書DB12から抽出し、端末装置αに送信する。
この結果ユーザは、当該文書ファイルの内容を閲覧し、検索語とキーワードとの関連性を個別に確認することが可能となる。
【0048】
図13は、この発明に係る第2のキーワード間の関連度算出システム50を備えた第2の検索システム52を示す概念図である。第2のキーワード間の関連度算出システム50は、管理サーバ54と、3台の第1の分散処理サーバ56a〜56cと、第2の分散処理サーバ57を備えており、管理サーバ54と第1の分散処理サーバ56a〜56c及び第2の分散処理サーバ57との協働によって、キーワード関連度表の作成を効率化・高速化することを企図している。
【0049】
管理サーバ54は、文書DB12と、キーワードDB16と、キーワード組合せ頻度総和表DB22と、キーワード頻度総和表DB24と、キーワード関連度表DB26と、固有名詞DB28とを備えている。
管理サーバ54にはネットワークを介してWebサーバ58が接続されており、このWebサーバ58にはインターネット60を介して複数の端末装置αが接続されている。
【0050】
以下、図14及び図15のフローチャートに従い、この第2の関連度算出システム50におけるキーワード関連度表の生成手順について説明する。
まず管理サーバ54は、図16に示すように、文書DB12内に蓄積された多数の文書ファイル62を、第1の分散処理サーバ56a〜56cに対して分割配信する(図14のS60)。この際、管理サーバ54は、第1の分散処理サーバ56a〜56cにおける処理の負荷がほぼ均等となるように、それぞれに配信する文書ファイル62a〜62cのデータ量を調整する。
【0051】
つぎに、第1の分散処理サーバ56a〜56cにおいては、キーワード抽出処理部64a〜64cによって、分配された担当文書ファイル62a〜62cに対するキーワード抽出処理が実行される(S61)。
このキーワード抽出処理に際しては、上記と同様、各キーワード抽出処理部64a〜64c内に設けられた係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38、多数決フィルタ40を用いることにより、ノイズを排した適切な範囲のキーワードが抽出される。
【0052】
なお、文字列頻度統計フィルタ36の適用に関しては、他の分散処理サーバが担当している文書中における注目語の出現頻度を参照する必要があるため、第1の分散処理サーバ56a〜56cは、管理サーバ54にこれを照会する。
これを受けた管理サーバ54は、文書DB12内に設けられた形態素インデックス(転置インデックス)を参照することにより、全文書中における当該注目語の出現頻度を取得し、その結果を照会元の第1の分散処理サーバ56に返す。
【0053】
自己に割り当てられた担当文書ファイル62a〜62cに対するキーワードの抽出処理を完了した第1の分散処理サーバ56a〜56cは、抽出したキーワードを管理サーバ54に送信する(S62)。
管理サーバ54は、第1の分散処理サーバ56a〜56cから受信したキーワードをキーワードDB16に登録する(S63)。この際、第1の分散処理サーバ56a〜56cから同一のキーワードが重複して送信された場合、その中の一つがキーワードDB16に登録される。
【0054】
つぎに管理サーバ54は、図17に示すように、第1の分散処理サーバ56a〜56cに対してキーワードDB16に登録された全キーワードのデータ66を送信する(S64)。
【0055】
図17においては、図示の便宜上、第1の分散処理サーバ56bに対してキーワードデータ66が送信された様子が描かれているが、他の第1の分散処理サーバ56a及び56cにも同じキーワードデータ66が送信される。
同様に、以下においては第1の分散処理サーバ56bを中心に各種処理について説明するが、他の第1の分散処理サーバ56a及び56cにおいても同様の処理が実行される。
【0056】
管理サーバ54からキーワードデータ66を受信した第1の分散処理サーバ56bのファイル生成部68bは、まず自己に割り当てられた各文書ファイル62bについて、個々のキーワードの出現実績の有無を探知し、出現実績のあるキーワードについてはその出現頻度を文書ファイル単位で算出する(S65)。
【0057】
つぎにファイル生成部68bは、各キーワードの出現頻度を二乗した値を算出し、出現頻度二乗値ファイル70bに記述していく(S66)。
例えば、ある文書ファイル中に「さくら」が3回、「春」が5回、「鶯」が6回出現した場合、ファイル生成部68bは「さくら,9」、「春,25」、「鶯,36」というように、キーワードと出現頻度の二乗値との組合せからなる出現頻度二乗値データを、出現頻度二乗値ファイル70bに一行単位で記述していく。
【0058】
つぎにファイル生成部68bは、当該文書ファイルに出現実績のある全キーワードについて、2つのキーワードからなる組合せを生成する(S67)。この際、ファイル生成部68bは一対のキーワードの中、先頭文字の文字コードが若い方のキーワードを1番目(左側)に配置させる。
【0059】
例えば、ある文書ファイル中に「さくら」「春」「鶯」の3つのキーワードが存在したと仮定した場合、ファイル生成部68bはそれぞれの先頭文字のシフトJISコードを勘案し、「さくら,春」「さくら,鶯」「春,鶯」の組合せを生成する。因みに、「さくら」の「さ」の文字コードは「82B3」、「春」の文字コードは「8F74」、「鶯」の文字コードは「E9F2」である。
【0060】
つぎにファイル生成部68bは、各組合せのキーワード間で出現頻度を乗算し、キーワードの組合せとその積値とをセットにした組合せ頻度積値データを生成する(S68)。
【0061】
つぎにファイル生成部68bは、この組合せ頻度積値データを、1番目のキーワードの先頭文字の文字コードに対応した組合せ頻度積値ファイルに記述していく(S69)。
すなわち、この組合せ頻度積値ファイルとして、予め第1の分散処理サーバ56a〜56cの数に対応する3種類のファイル(第1の組合せ頻度積値ファイル72b、第2の組合せ頻度積値ファイル74b、第3の組合せ頻度積値ファイル76b)が、ファイル生成部68bによってディスク上に生成されている。
【0062】
また、各組合せ頻度積値ファイル72b、74b、76bには、文字コードの範囲が予め割り振られている。例えば、図18(a)に示すシフトJISのコード体系を前提とした場合、同図(b)に示すように、第1の組合せ頻度積値ファイル72bには1バイト目が20〜DFの文字コード範囲が割り当てられている。また、第2の組合せ頻度積値ファイル74bには1バイト目が81〜8Eの文字コード範囲が、第3の組合せ頻度積値ファイル76bには1バイト目が8F〜9F及びE0〜EFの文字コード範囲がそれぞれ割り振られている。
【0063】
したがって、「さくら,春,15」及び「さくら,鶯,18」の組合せ頻度積値データは、「さ」の文字コードが「82B3」であることから、第2の組合せ頻度積値ファイル74bに記述される。
これに対し、「春,鶯,30」の組合せ頻度データは、「春」の文字コードが「8F74」であることから、第3の組合せ頻度積値ファイル76bに記述される。
また、「PCT,特許,20」という組合せ頻度積値データが生成された場合、半角アルファベットを担当する第1の組合せ頻度積値ファイル72bに記述されることとなる。
【0064】
ファイル生成部68bは、上記のS65〜S69の処理を自己に割り当てられた全担当文書ファイル62bに対して実行する(S70)。
この過程で、同じキーワードに係る出現頻度二乗値データや、同じキーワードの組合せに係る組合せ頻度積値データが、異なる文書ファイル間で多数発生することが予想されるが、ファイル生成部68bはこの時点で各データの値を集計することはせず、各データを生成順に出現頻度二乗値ファイル及び対応の組合せ頻度積値ファイルに追記していく。
【0065】
上記の処理は、第1の分散処理サーバ56a〜56cにおいて独立して実行されており、それぞれが担当する文書ファイル62a〜62cについての処理が完了すると、第1の分散処理サーバ56a〜56cから管理サーバ54に対し、キーワード出現頻度二乗値ファイル70a〜70c、第1のキーワード組合せ頻度積値ファイル72a〜72c、第2のキーワード組合せ頻度積値ファイル74a〜74c、第3のキーワード組合せ頻度積値ファイル76a〜76cが送信される(図15のS71)。
【0066】
これに対し管理サーバ54は、第1の分散処理サーバ56a〜56cから送信された第1のキーワード組合せ頻度積値ファイル72a〜72c、第2のキーワード組合せ頻度積値ファイル74a〜74c、第3のキーワード組合せ頻度積値ファイル76a〜76cを、それぞれの担当に応じて第1の分散処理サーバ56a〜56cに振り分け配信する(S72)。
【0067】
例えば、図19に示すように、第1の分散処理サーバ56bには第2の組合せ頻度積値ファイルが予め割り当てられているため、第1の分散処理サーバ56a〜56cによって生成された第2の組合せ頻度積値ファイル74a〜74cが管理サーバ54から配信される。
【0068】
同様に、第1の組合せ頻度積値ファイルが割り当てられた第1の分散処理サーバ56aには、第1の分散処理サーバ56a〜56cによって生成された第1のキーワード組合せ頻度積値ファイル72a〜72cが、また第3の組合せ頻度積値ファイルが割り当てられた分散処理サーバ56cには、第1の分散処理サーバ56a〜56cによって生成された第3の組合せ頻度積値ファイル76a〜76cが配信される。
以下、第1の分散処理サーバ56bにおける処理を中心に説明するが、他の分散処理サーバ56a、56cにおいても同様の処理が実行される。
【0069】
まず第1の分散処理サーバ56bにおいては、ファイル結合部78bによって、3つの組合せ頻度積値ファイル74a〜74cが結合される(S73)。
つぎにソート処理部80bが起動し、結合ファイル82bに記述されたキーワードの組合せ(X、Y)について、それぞれの文字コード順に整列させる(S74)。この結果、「さくら,春,20」…「さくら,春,32」…「さくら,春,28」のように、同じキーワードの組合せを備えた組合せ頻度積値データが複数並ぶソート済みファイル86bが生成される。
つぎに加算処理部84bが起動し、ソート済みファイル86bに対し所謂コントロールブレイク処理を施し、同じキーワードの組合せ単位で積値を集計する(S75)。
【0070】
以上の結果、個々の文書ファイル中におけるキーワードX,Yの出現頻度の積値の、全文書ファイルに亘る総和(数1の分子に相当)が求まる。
この算出結果ファイル88bは、第1の分散処理サーバ56bから管理サーバ54に送信される(S76)。
これに対し管理サーバ54は、算出結果ファイル88bのデータを抽出し、キーワード組合せ頻度総和表DB22に登録する(S77)。すなわち、同じキーワードX,Yの組合せの値が既にキーワード組合せ頻度総和表に存在する場合、管理サーバ54は既存の値に結果の値を加算し、既存の値が存在しない場合にはキーワードX,Yとその値を新規に追加する。
【0071】
上記と並行して、第2の分散処理サーバ57においても、所定の処理が実行される。すなわち、図20に示すように、管理サーバ54から第2の分散処理サーバ57に対して、第1の分散処理サーバ56a〜56cから送信された出現頻度二乗値ファイル70a〜70cが送信される(S78)。
【0072】
これを受信した第2の分散処理サーバ57においては、ファイル結合部90によって、3つの出現頻度二乗値ファイル70a〜70cが結合される(S79)。
つぎにソート処理部91が起動し、結合ファイル92に記述された各キーワード及び二乗値を、文字コード順に整列させる(S80)。この結果、「さくら,16」…「さくら,9」…「さくら,4」のように、同じキーワードが複数並ぶソート済みファイル93が生成される。
つぎに加算処理部94が起動し、同じキーワード単位で二乗値を集計する(S81)。
【0073】
以上の結果、個々の文書中におけるキーワードの頻度頻度の二乗値の、全文書に亘る総和が求まる。
この算出結果ファイル95は、第2の分散処理サーバ57から管理サーバ54に送信される(S82)。
これに対し管理サーバ54は、算出結果ファイル95中の結果データを抽出し、キーワード頻度総和表DB24に登録する(S83 )。すなわち、同じキーワードの値が既にキーワード頻度総和表に存在する場合、管理サーバ54は既存の値に結果の値を加算し、既存の値が存在しない場合にはキーワードとその値を新規に追加する。
【0074】
最後に管理サーバ54は、図9に示したように、キーワード組合せ頻度総和表DB22からキーワードX,Yの組合せ頻度の総和を読み込むと共に、キーワード頻度総和表DB24からキーワードXの二乗値の総和とキーワードYの二乗値の総和を読み込み、各二乗値の総和の平方根を求めた後、これらの値を数1に代入することにより、キーワードX,Y間の関連度を算出し、キーワード関連度表DB26に登録する(S84)。すべてのキーワードの組合せについて処理が終了するまで、管理サーバ54は処理を繰り返す。
【0075】
この第2のキーワード間の関連度算出システム50の場合、上記のようにキーワードの抽出処理、関連度算出の前提となるキーワード組合せ頻度総和算出処理及びキーワード頻度総和算出処理が、第1の分散処理サーバ56a〜56c及び第2の分散処理サーバ57によって同時並行的に実行されるため、キーワード関連度表の生成速度を飛躍的に向上させることができる。
【0076】
しかも、第1の分散処理サーバ56a〜56cにおいてはファイル形式で算出結果のデータが保存されていき、データ保存のたびにデータベースへの書き込みが発生することがないため、全体的な処理速度を速めることができる。
【0077】
以下、図21のフローチャートに従い、第2の検索システム52における検索処理手順について説明する。
まずユーザが端末装置αから検索語を入力すると、Webサーバ58経由でこれを受け付けた管理サーバ54は(S90)、図11に示したように、キーワード関連度表DB26を参照し、当該検索語と同一または一定範囲内の類似性を有するキーワードを特定すると共に、当該キーワードに対して所定以上の関連度を有するキーワードのリストを抽出する(S91)。
【0078】
つぎに管理サーバ54は、固有名詞DB28の中の例えば企業名DBを参照し、上記リスト中に含まれる企業名を抽出する(S92)。
この抽出された企業名のリスト(検索語に関連の深い企業リスト)は、Webサーバ58経由で端末装置αに送信される(S93)。
【0079】
この結果ユーザは、入力した検索語(例えば時事用語)と関連の深い企業を認識することが可能となり、投資行動の判断材料に利用することができる。
また、固有名詞DB28として人物名DBを指定すれば、入力した検索語と関連の深い人物をピックアップできる。
【0080】
なお、各分散処理サーバに対する機能の割り振りは、上記した第2の関連度算出システム50の方式に限定されるものではない。
例えば、上記にあっては第1の分散処理サーバ56がキーワードの抽出処理、キーワードの出現頻度二乗値ファイルの生成処理、キーワード間の組合せ頻度積値ファイルの生成処理、組合せ頻度積値の全文書ファイルに亘る総和算出処理を担当しているが、各処理を他の複数の分散処理サーバからなるグループに分散させることもできる。
【0081】
また、第2の分散処理サーバ57を複数設け、各キーワードの出現頻度二乗値の全文書ファイルに亘る総和算出処理を分散化させることもできる。この場合、その前提として、第2の分散処理サーバ57の数と同数の文字コード範囲に対応した複数種類のキーワード出現頻度二乗値ファイルを生成しておく必要があるが、この処理を各第2の分散処理サーバ57に割り当てることも当然に可能である。
【図面の簡単な説明】
【0082】
【図1】この発明に係る第1のキーワード間の関連度算出システム及び第1の検索システムの機能構成を示すブロック図である。
【図2】キーワード抽出部の機能構成を示すブロック図である。
【図3】キーワード抽出工程を示すフローチャートである。
【図4】文字列頻度統計フィルタの動作を示す説明図である。
【図5】文書DB内に形態素インデックスが形成されている様子を示す説明図である。
【図6】キーワード間の関連度算出工程を示すフローチャートである。
【図7】キーワード共起頻度表の一例を示す説明図である。
【図8】関連度算出処理を簡略化する方法を示す説明図である。
【図9】キーワード組合せ頻度総和表及びキーワード頻度総和表に基づいてキーワード関連度表が生成される様子を示す説明図である。
【図10】検索処理の手順を示すフローチャートである。
【図11】検索語に基づき企業名リストを抽出する要領を示す説明図である。
【図12】検索語及び特定キーワード間の関連度の根拠を提示する要領を示す説明図である。
【図13】この発明に係る第2のキーワード間の関連度算出システム及び第2の検索システムの機能構成を示すブロック図である。
【図14】キーワード間の関連度算出工程を示すフローチャートである。
【図15】キーワード間の関連度算出工程を示すフローチャートである。
【図16】管理サーバから第1の分散処理サーバに対し文書ファイルが分割配信される様子を示す模式図である。
【図17】第1の分散処理サーバによって各キーワードの出現頻度二乗値ファイル及びキーワード間の組合せ頻度積値ファイルが生成される様子を示す模式図である。
【図18】文字コード範囲を各組合せ頻度積値ファイルに割り当てた例を示す説明図である。
【図19】第1の分散処理サーバによってキーワード間の出現頻度積値の総和が算出される様子を示す模式図である。
【図20】第2の分散処理サーバによって各キーワードの出現頻度二乗値の総和が算出される様子を示す模式図である。
【図21】検索処理の手順を示すフローチャートである。
【符号の説明】
【0083】
10 第1のキーワード間の関連度算出システム
11 第1の検索システム
12 文書DB
14 キーワード抽出部
16 キーワードDB
18 関連度算出部
20 キーワード共起頻度表DB
22 キーワード組合せ頻度総和表DB
24 キーワード頻度総和表DB
26 キーワード関連度表DB
28 固有名詞DB
30 検索処理部
32 係り受け表現抽出フィルタ
34 区切り文字抽出フィルタ
36 文字列頻度統計フィルタ
38 TermExtractフィルタ
40 多数決フィルタ
50 第2のキーワード間の関連度算出システム
52 第2の検索システム
54 管理サーバ
56a〜56c 第1の分散処理サーバ
57 第2の分散処理サーバ
58 Webサーバ
60 インターネット
62a〜62c 担当文書ファイル
64a〜64c キーワード抽出処理部
68b ファイル生成部
70a〜70c キーワード出現頻度二乗値ファイル
72a〜72c 組合せ頻度積値ファイル
74a〜74c 組合せ頻度積値ファイル
76a〜76c 組合せ頻度積値ファイル
66 全キーワードデータ
78b ファイル結合部
80b ソート処理部
82b 結合ファイル
84b 加算処理部
86b ソート済みファイル
88b 算出結果ファイル
90 ファイル結合部
91 ソート処理部
92 結合ファイル
93 ソート済みファイル
94 加算処理部
95 算出結果ファイル
α 端末装置

【特許請求の範囲】
【請求項1】
複数の文書ファイルが格納された文書記憶手段と、
上記の各文書ファイルから複数のキーワードを抽出し、キーワード記憶手段に格納するキーワード抽出手段と、
各キーワードの各文書ファイル中における出現頻度に基づいて、一対のキーワード間の関連度を全てのキーワードの組合せについて算出し、キーワード関連度記憶手段に格納する関連度算出手段とを備えたシステムであって、
上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定するものであり、
上記関連度算出手段が、
(1) 文書ファイル単位で、当該文書ファイル中に出現実績のあるキーワードを探知し、これらの出現頻度を算出する処理と、
(2) 各キーワードの出現頻度の二乗値を算出する処理と、
(3) 各キーワードの出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する処理と、
(4) 文書ファイル単位で、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する処理と、
(5) 各キーワード間の出現頻度の積値を集計し、全文書ファイルに亘る総和を算出する処理と、
(6) 上記(3)の総和の平方根を算出する処理と、
(7) 一対のキーワードの上記(6)の平方根同士を加算し、その和で上記(5)の総和を除することにより、両キーワード間の関連度を算出する処理と、
を実行することを特徴とするキーワード間の関連度算出システム。
【請求項2】
管理サーバと、複数の第1の分散処理サーバと、第2の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、各第1の分散処理サーバに分配する手段と、
各第1の分散処理サーバから送信されたキーワードを、キーワード記憶手段に格納する手段と、
キーワード記憶手段に格納された全キーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された複数の出現頻度二乗値ファイルを、第2の分散処理サーバに送信する手段と、
各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、その種類に応じて担当すべき第1の分散処理サーバに振り分け配信する手段と、
第2の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
各第1の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、
各キーワードを管理サーバに送信する手段と、
管理サーバから全キーワードが送信された場合に、担当文書ファイルについて各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出し、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、
上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
上記出現頻度二乗値ファイル及び複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段と、
管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記第2の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記第1の分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とするキーワード間の関連度算出システム。
【請求項3】
管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第2の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
各第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、
各第3の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第4の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
各第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、
上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とをそれぞれ備え、
上記の各第2の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とをそれぞれ備え、
上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、
上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とをそれぞれ備え、
上記の各第4の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とをそれぞれ備え、
さらに上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、
上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段とを備え、
上記分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とするキーワード間の関連度算出システム。
【請求項4】
管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第2の分散処理サーバに送信する手段と、
第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、
各第3の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第4の分散処理サーバに送信する手段と、
第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記第2の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、
上記第4の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
さらに上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、
上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段とを備え、
上記分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とするキーワード間の関連度算出システム。
【請求項5】
管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された複数種類の組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第2の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、
各第3の分散処理サーバから送信された出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の一つである第4の分散処理サーバに送信する手段と、
第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
1番目のキーワードの先頭文字の文字コードと、予め文字コード範囲が割り当てられた複数の組合せ頻度積値ファイルの担当文字コード範囲とを比較して、記述すべき組合せ頻度積値ファイルを特定する手段と、
上記積値を、対応の組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記の各第2の分散処理サーバが、管理サーバから複数の同種の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
上記二乗値を、出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
この出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、
上記第4の分散処理サーバが、管理サーバから複数の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
さらに上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、
上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段とを備え、
上記分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とするキーワード間の関連度算出システム。
【請求項6】
管理サーバと、複数の分散処理サーバとを備えたキーワード間の関連度算出システムであって、
上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第1の分散処理サーバに分配する手段と、
キーワード記憶手段に格納された複数のキーワードを、第1の分散処理サーバに対してそれぞれ送信する手段と、
各第1の分散処理サーバから送信された組合せ頻度積値ファイルを、上記複数の分散処理サーバの中の一つである第2の分散処理サーバに送信する手段と、
第2の分散処理サーバから送信された、各キーワード間の出現頻度の積値の全文書ファイルに亘る総和を、キーワード組合せ頻度総和表記憶手段に格納する手段と、
上記文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第3の分散処理サーバに分配する手段と、
上記キーワード記憶手段に格納された複数のキーワードを、第3の分散処理サーバに対してそれぞれ送信する手段と、
各第3の分散処理サーバから送信された複数種類の出現頻度二乗値ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の第4の分散処理サーバに対し、それぞれの担当に応じた種類毎に振り分け配信する手段と、
各第4の分散処理サーバから送信された、各キーワードの出現頻度の二乗値の全文書ファイルに亘る総和を、キーワード頻度総和表記憶手段に格納する手段と、
上記キーワード記憶手段から一対のキーワードを取り出す手段と、
上記キーワード組合せ頻度総和表記憶手段から、上記一対のキーワードについて、各キーワード間の出現頻度の積値の総和を取り出す手段と、
上記キーワード頻度総和表記憶手段から、上記一対のキーワードについて、各キーワードの出現頻度の二乗値の総和を取り出す手段と、
この総和の平方根をそれぞれ算出すると共に、両平方根を加算し、この和でキーワード間の出現頻度の積値の総和を除することにより、両キーワード間の関連度を算出する手段とを備え、
上記の各第1の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のある一対のキーワード間で、先頭文字の文字コードが若い方を1番目に配置させたキーワードの組合せを生成する手段と、
各組合せ毎に、一対のキーワードについて、それぞれのキーワードの出現頻度の積を、一対のキーワード間の出現頻度の積値として算出する手段と、
上記積値を、組合せ頻度積値ファイルに文書ファイル毎に記述する手段と、
この組合せ頻度積値ファイルを管理サーバに送信する手段とを備え、
上記第2の分散処理サーバが、管理サーバから複数の組合せ頻度積値ファイルが送信された場合に、各組合せ頻度積値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードの組合せを、各キーワードの文字コードに応じてソートする手段と、
同一キーワードの組合せ単位で積値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
上記の各第3の分散処理サーバが、管理サーバによって分配された担当文書ファイルについて、各キーワードの有無を文書ファイル毎に探知する手段と、
出現実績のあるキーワードの出現頻度の二乗値を算出する手段と、
各キーワードの文字コードと、予め文字コード範囲が割り当てられた複数の出現頻度二乗値ファイルの担当文字コード範囲とを比較して、記述すべき出現頻度二乗値ファイルを特定する手段と、
上記二乗値を、対応の出現頻度二乗値ファイルに文書ファイル毎に記述する手段と、
これら複数種類の出現頻度二乗値ファイルを管理サーバに送信する手段とを備え、
上記の各第4の分散処理サーバが、管理サーバから複数の同種の出現頻度二乗値ファイルが送信された場合に、各出現頻度二乗値ファイルを連結する手段と、
この連結ファイルに記述されたキーワードを、それぞれの文字コードに応じてソートする手段と、
同一キーワード単位で出現頻度の二乗値を集計し、全文書ファイルに亘る総和を算出する手段と、
この総和を管理サーバに送信する手段とを備え、
さらに上記管理サーバが、文書記憶手段に格納された複数の文書ファイルを、上記複数の分散処理サーバの中の少なくとも一部からなる複数の分散処理サーバに対して事前に分配し、キーワードの抽出を指令する手段と、各分散処理サーバから送信されたキーワードを、上記キーワード記憶手段に格納する手段とを備え、
上記の各分散処理サーバが、管理サーバによって分配された担当文書ファイルからキーワードを抽出するキーワード抽出手段と、各キーワードを管理サーバに送信する手段とを備え、
上記分散処理サーバのキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とするキーワード間の関連度算出システム。
【請求項7】
上記キーワード候補を抽出するフィルタの一つが、
(1) 各文書ファイル中に含まれる名詞を注目語として抽出し、
(2) 各注目語の全文書ファイル中における出現頻度を算出し、
(3) 各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書ファイル中における出現頻度を算出し、
(4) 上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、
(5) 最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴とする請求項1〜6の何れかに記載のキーワード間の関連度算出システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate


【公開番号】特開2009−99115(P2009−99115A)
【公開日】平成21年5月7日(2009.5.7)
【国際特許分類】
【出願番号】特願2008−98688(P2008−98688)
【出願日】平成20年4月4日(2008.4.4)
【分割の表示】特願2007−269839(P2007−269839)の分割
【原出願日】平成19年10月17日(2007.10.17)
【出願人】(000155469)株式会社野村総合研究所 (1,067)
【Fターム(参考)】