テキストマイニングサーバ及びプログラム

【課題】複数の遺伝子からなる遺伝子群全体の特徴を把握しようとした際に文献数の多い遺伝子の特徴が強く出てしまうことを回避する。
【解決手段】クライアントから複数の検索キーを受け付け（１０２Ａ）、検索キーと文献群の対応関係が記録されているデータベースを検索して受付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する（１０２Ｂ）。次に、検索キーのそれぞれについて、取得した文献群をキーとして文書データベースを連想検索して当該文献群を含む新しい文献群のセットを取得し（１０２Ｃ）、その新しい文献群のセットから特徴語を抽出し（１０２Ｄ）、マイニング結果として特徴語リストをクライアントに返す（１０２Ｅ）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ライフサイエンス分野で実験結果の解析を行うテキストマイニングサーバ及びテキストマイニングプログラムに関する。
【背景技術】
【０００２】
ライフサイエンス分野においては情報の多くがテキスト形式の文書で保存され、その量の多さ故にユーザが本当に必要とする情報まで辿り着くことが困難になっている。近年、テキストマイニング技術が向上してきたことから、それらテキスト形式の文書に対しテキストマイニングを行い有益な情報を得る手段が広く使われるようになった。その応用として、マイクロアレーの実験結果の解析がある。マイクロアレーの実験結果の解析とは、数十から数百にも及ぶ遺伝子の特徴を何らかの形で把握することである。その実現のために遺伝子毎に関連する文献情報を取得し、得られた文献群全体に対してテキストマイニングを行うという方法がある。文献情報の取得には遺伝子毎に振られているKeyIDにより検索を行う（既知の遺伝子は公共のデータベースにユニークなIDが振られて登録されている)。
【０００３】
従来のテキストマイニングは、クライアントコンピュータからサーバコンピュータにKeyIDを送信し、サーバコンピュータは受信したKeyIDをKeyID・文献リンクテーブルと比較してKeyIDに関連する文献のリストを取得する。次に、取得した文献リストに挙げられている文献のテキストから特徴語抽出プログラムを用いて特徴語リストを取得する。特徴語リストはクライアントコンピュータに送信され、クライアントコンピュータは送信されたマイニング結果を受信・表示してマイニングが終了する。なお、テキストマイニングに関連する文献としては下記特許文献１がある。
【特許文献１】特開２００４−１５２０３５号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
上記した従来のテキストマイニングには以下の問題点がある。
１．遺伝子毎に関連する文献数が異なる。そのため、複数の遺伝子からなる遺伝子群全体の特徴を把握しようとした際にどうしても文献数の多い遺伝子の特徴が強く出てしまう。
２．遺伝子毎に関連する文献群を取得する際、遺伝子と文献情報のリンクテーブルが必ずしも更新されているとは限らない。そのため、得られる文献情報が限られたもの、誤ったもの、過去のものである可能性が出てくる。
【０００５】
本発明は、上記従来技術の問題点を軽減したテキストマイニングの方法を提供することを目的とする。
【課題を解決するための手段】
【０００６】
上記目的を達成するため、本発明のテキストマイニングサーバは、複数の検索キーを受け付ける検索キー受付手段と、検索キーと文献群の対応関係が記録されているデータベースを検索し、受付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する手段と、受付けた複数の検索キーのそれぞれについて、取得した文献群をキーとして文書データベースを連想検索して当該文献群を含む新しい文献群のセットを取得する連想検索手段と、連想検索手段によって取得した新しい文献群のセットから特徴語を抽出し特徴語リストを作成する特徴語リスト作成手段と、マイニング結果として前記特徴語リストを出力する出力手段とを備える。
【０００７】
検索キー毎に連想検索手段によって取得する文献の数は、予め設定してもよい。出力手段は、マイニング結果として特徴語リストとともに連想検索手段によって取得した文献のリストを出力するようにしてもよい。
【０００８】
このテキストマイニングサーバの機能は、コンピュータプログラムによって実現される。
【発明の効果】
【０００９】
本発明によれば、全体の特徴を抽出するための文献情報はKeyID毎の文献数が一定の基準に整えられるため、より正しい特徴が捉えられる。また、文献数を整える際に関連する文献も検索するため、KeyID・文献情報のリンクテーブルでは捉えられなかった関連文献も取得することができる。
【発明を実施するための最良の形態】
【００１０】
以下、本発明を実施する場合の一形態を、図面を参照して具体的に説明する。
図１は、本発明によるテキストマイニングシステムの概念図である。ここに示すシステムは、KeyIDの入力・送信及びマイニング結果の受信を行うクライアントコンピュータ（以下、単にクライアントという）１、テキストマイニングを行うテキストマイニングサーバコンピュータ（以下、単にサーバという）３、文献情報を保持する文献情報データベース５及びKeyIDと文献情報の関連テーブル（もしくはその作成元となる情報）を保持しているKeyIDデータベース６を備え、それぞれはネットワーク２によって接続されている。
【００１１】
クライアント１は、CPU２１１Ａ及びメモリ２１１Ｂを備えた端末装置２１１、KeyID送信プログラム２１２Ａ及びマイニング結果受信プログラム２１２Ｂが格納されているハードディスク装置２１２、並びにネットワーク接続のための通信ポート２１３を備えている。サーバ３は、CPU２３１Ａ及びメモリ２３１Ｂを備えた端末装置２３１、クライアント１から送信されるKeyIDを受信するKeyID受信プログラム２３２Ａ、KeyIDにより文献情報を後述の文献情報２３２Ｅから取得する文献情報取得プログラム２３２Ｂ、KeyIDデータベース６から後述のKeyID・文献リンクテーブルを取得するKeyID・文献リンクテーブル取得プログラム２３２Ｃ、KeyIDと文献情報の対応関係が登録されているKeyID・文献リンクテーブル２３２Ｄ、遺伝子関連情報等の文献情報が登録されている文献情報２３２Ｅ、文献情報２３２Ｅから取得した文献から特徴語を抽出する特徴語抽出プログラム２３２Ｆ、テキストマイニングの結果を送信するマイニング結果送信プログラム２３２Ｇ、及び文献情報２３２Ｅに対して特徴語抽出プログラム２３２Ｆにより抽出した特徴語により連想検索を実行する連想検索実行プログラム２３２Ｈ、連想検索後文献数対応テーブル
２３２Ｉを格納したハードディスク装置２３２、並びにネットワーク接続のための通信ポート２３３を備えている。なお、文献情報２３２Ｅは、文献情報データベース５の情報をサーバ内に保持したもの、KeyID・文献リンクテーブル２３２Ｄは、KeyIDと文献情報の関連テーブル（もしくはその作成元となる情報）を保持しているKeyIDデータベース６からKeyID・文献リンクテーブル取得プログラム２３２Ｃを使って取得（作成）をサーバ内に保持したものである。実際には、このようにネットワークに接続されたデータベースからテキストマイニングに使用する情報はローカルに持つようにする。
【００１２】
また、連想検索は文献あるいは文献群をキーにしてその文献あるいは文献群と類似する文献を検索する手法であり、連想検索の手法自体は例えば特開２００２−３５８３１５号公報等によって知られている。本発明の連想検索実行プログラムは、既知の連想検索の手法を利用するものである。
【００１３】
図２は、サーバ３上のハードディスク装置２３２に格納されているKeyID・文献リンクテーブル２３２Ｄの例である。KeyID３１と各KeyIDに関連する文献ID３２の組が格納されている。このテーブルではたとえば、KeyIDが「AA0000」の遺伝子については、これに関連する文献として「Text1」、「Text2」、「Text3」、「Text4」の４件の文献が登録されており、KeyIDが「AB1111」の遺伝子の関連文献としては「Text2」と「Text5」の２件の文献が登録されている。
【００１４】
図３は、サーバ３上のハードディスク装置２３２に格納されている文献情報２３２Ｅの一例を示した図である。文献情報２３２Ｅには文献ID４１と各文献IDに対する作者４２、題名４３、本文（テキスト）４４の組が格納されている。文献ID４１は図３の文献ID３２に対応している。この例では作者、題名、本文を文献情報として格納しているが、この他にアブストラクト、出版年などを文献情報として格納してもよい。
【００１５】
図４は、サーバ３上のハードディスク装置２３２に格納されている連想検索後文献数対応テーブル２３２Ｉの例を示した図である。関連文献数４０１は２３２ＤのKeyID毎の関連する文献の数に対応している。連想検索後文献数４０２は大体のケースにおいては固定値をとる（例えば関連文献数の最大値＋５）。ただし、その決定方法は「一定の基準を決める」ものであれば任意でよい。また、連想検索後文献数４０２は実測値により設定した値を超えないようにする。
【００１６】
図５は、クライアント１上で稼動するKeyID送信プログラム２１２Ａの画面例である。画面上にはメニュー６１、KeyID入力フィールド６２、送信ボタン６４がある。KeyID入力フィールド６２にKeyIDを入力（例えば６３のように入力する。複数入力されてもかまわない。）し送信ボタン６４を押下することにより、入力されたKeyID６３がサーバ３に送信される。
【００１７】
図６は、クライアント１上で稼動するマイニング結果受信プログラム２１２Ｂの画面例である。本画面はサーバ３からマイニング結果が送信された際に表示される。画面上にはメニュー７１、マイニング結果の文献リスト７２及びマイニング結果の特徴語リスト７３が表示される。
【００１８】
図７は、サーバ３上で稼動する連想検索実行プログラム２３２Ｈの入力・出力を表す概念図である。文献群８１に対して連想検索実行プログラムを実行することにより入力文献８１及び入力文献８１に関連する新たな文献群８２を取得することができる。
【００１９】
図８は、サーバ３上で稼動する連想検索実行プログラム２３２Ｈのフローチャートの一例である。プログラムが開始されるとまず、１つのKeyIDに関連する入力文献群を受け取る（ステップ９１Ａ）。次に入力文献群から特徴語抽出プログラム２３２Ｆを使用して特徴語リストを取得する（ステップ９１Ｂ）。特徴語リストとは文献リストを特徴付ける単語のリストであり、その抽出方法は任意とする。例としてはテキストマイニングの分野で広く使用されているtf (Term Frequency)・idf（Inverse Document Frequency）を使用する方法がある。tf・idfとは、T(W)：単語Wを含む文献の総数、N：全文献数、F(W, Q)：単語Wの文献Qでの出現頻度としたとき、単語Wの文献Qでの重要度を“F(W, Q)*Log[ N / T(W) ]”で定義する方法である。F(W, Q)がtfに相当し、Log[ N / T(W) ]がidfに相当する。
【００２０】
次に抽出した特徴語リスト内の特徴語をORで結び、文献情報データベース５に対して文献検索を行い、関連文献の候補を絞り込んでくる（ステップ９１Ｃ）。OR検索した結果の各文献と入力文献群との類似度を計算する（ステップ９１Ｄ）。このステップ９１Ｄに使用する類似度計算のアルゴリズムは任意であってよい。例えば類似文献検索の分野で広く使われているSMART法を使用する。最終的に入力文献と類似度が上位の文献を併せて出力する（ステップ９１Ｅ）。このとき出力文献数（= 入力文献数 + 関連文献数）は、図４の連想検索後文献数対応テーブル２３２Ｉにより予め定めておいた基準値とする。こうして、例えば図２に示す「AB1111」のように、KeyIDに関連して登録されている文献の数が２件と少ない場合でも、予め定められた基準の文献数（図４の例では３０件）に整えられる。
【００２１】
図９は、本発明による改善を行ったテキストマイニングシステムを使用したマイニングのフローチャートの一例である。このフローチャートは、従来のテキストマイニングの処理に連想検索を行うステップ１０２Ｃを挿入したものに相当する。
【００２２】
マイニングはまず、クライアント１において複数のKeyIDを入力し（ステップ１０１Ａ）、入力された複数のKeyIDをサーバ３に送信する（ステップ１０１Ｂ）ことにより開始される。サーバ３は送信されたKeyIDを受信し（ステップ１０２Ａ）、受信したKeyIDをKeyID・文献リンクテーブル２３２Ｄ（図２）と比較することによりKeyID毎に関連文献を取得する（ステップ１０２Ｂ）。続くステップ１０２Ｃでは、連想検索実行プログラム２３２Ｈを各KeyIDの関連文献に対して実行し、KeyID毎の関連文献数を図４に示された連想検索語文献数に調整する。こうして新たな文献リストを取得する。なお、KeyID・文献リンクテーブル（図２）に登録されている文献数が図４に示された連想検索語文献数を超えているKeyIDに対しては連想検索によって文献数を増やすことはしない。
【００２３】
次に、特徴語抽出プログラム及び全てのKeyIDに対する関連文献をマージした文献リストを使用して特徴語リストを取得する（ステップ１０２Ｄ）。特徴語リストは文献リストを特徴付ける単語のリストであり、例えばtf ・idf法を用いて取得する。サーバ３は最終的にマイニング結果である文献リストと特徴語リストをクライアント１に送信する（ステップ１０２Ｅ）。クライアント１が、送信されたマイニング結果を受信・表示する（ステップ１０３Ａ)ことによりマイニングは終了する。
【００２４】
図１０は、従来のテキストマイニングと連想検索によってKeyID毎の文献数を調整するステップを有する本発明のテキストマイニングの違いを説明する図である。（ｂ）は本発明のテキストマイニングのフローチャートの一部（図９の１０２の処理）に対応し、（ａ）は従来のテキストマイニングのフローチャートの一部（図９の１０２からステップ１０２Ｃを除いた処理）に対応している。図において、KeyID群１１１Ａはサーバ３がクライアント１から受信したKeyIDである。関連文献群１１１Ｂは、サーバ３が、受信したKeyID及びKeyID・文献リンクテーブルを使用して取得した文献リストである。KeyID１に対しては２３件の文献、KeyID２に対しては３件の文献、KeyID３に対しては２件の文献が抽出されている。特徴語群１１１Ｃは、従来のテキストマイニングにおいてサーバ３がクライアント１に送信するマイニング結果である。第２の関連文献群１１２Ｄは、図９のステップ１０２Ｃに示した本発明の連想検索によって取得した文献リストである。また、特徴語群１１２Ｃは、本発明のテキストマイニングにおいてサーバ３がクライアント１に送信するマイニング結果である。
【００２５】
本図の（ａ）では文献群１１１Ｂに対し特徴語を抽出した。しかし、文献数がKeyID毎に大きく異なるため（KeyID１が２３件、KeyID２が３件、KeyID３が２件）、抽出した特徴語リスト１１１ＣがほとんどKeyID１の特徴（p53など）となってしまった。（ｂ）に示した本発明では、第１関連文献群１１１Ｂに対して連想検索実行プログラム２３２Ｈを実行し、KeyID毎に文献数が整った第２関連文献群１１２Ｄから特徴語を抽出している。文献数が整った結果、KeyID１のみの特徴（p53）が順位を下げ、全体の特徴（Cancer）が上位になった。
【００２６】
図１１は、クライアント１上で稼動するマイニング結果受信プログラム２１２Ｂの画面で、従来技術と本発明の比較を行った図である。１２１Ａは従来のマイニング方法による結果を表示した画面例であり、１２２Ａは本発明のマイニング方法による結果を表示した画面例である。１２１Ｂは従来技術による文献群リスト、１２２Ｂは本発明の文献群リストを表している。また、１２１Ｃは従来技術による特徴語リスト、１２２Ｃは本発明の特徴語リストを表している。１２２Ｂは１２１Ｂと比較して、新たな関連文献群（New Text1等）を取得していることを表している。また１２２Ｃは１２１Ｃと比較してKeyID全体の特徴を表している。
【図面の簡単な説明】
【００２７】
【図１】本発明によるテキストマイニングシステムの概念図。
【図２】KeyID・文献リンクテーブルの例を示す図。
【図３】文献情報の例を示す図。
【図４】連想検索後文献数対応テーブルの例を示す図。
【図５】KeyID送信プログラムの画面例を示す図。
【図６】マイニング結果受信プログラムの画面例を示す図。
【図７】連想検索実行プログラムの入力・出力のイメージ図。
【図８】連想検索実行プログラムのフローチャートの例を示す図。
【図９】本発明によるテキストマイニングのフローチャートの例を示す図。
【図１０】従来のテキストマイニング方法と本発明の方法の違いを説明する図。
【図１１】マイニング結果受信プログラムの画面で、従来と本発明の比較を行った図。
【符号の説明】
【００２８】
１…クライアントコンピュータ、２…ネットワーク、３…テキストマイニングサーバコンピュータ、５…文献情報データベース、６…KeyIDデータベース

【特許請求の範囲】
【請求項１】
複数の検索キーを受け付ける検索キー受付手段と、
検索キーと文献群の対応関係が記録されているデータベースを検索し、前記受付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する手段と、
前記受付けた複数の検索キーのそれぞれについて、取得した文献群をキーとして文書データベースを連想検索して当該文献群を含む新しい文献群のセットを取得する連想検索手段と、
前記連想検索手段によって取得した新しい文献群のセットから特徴語を抽出し特徴語リストを作成する特徴語リスト作成手段と、
マイニング結果として前記特徴語リストを出力する出力手段と、
を備えることを特徴とするテキストマイニングサーバ。
【請求項２】
請求項１記載のテキストマイニングサーバにおいて、検索キー毎に前記連想検索手段によって取得する文献の数が予め設定されていることを特徴とするテキストマイニングサーバ。
【請求項３】
請求項２記載のテキストマイニングサーバにおいて、前記出力手段は、マイニング結果として前記特徴語リストとともに前記連想検索手段によって取得した文献のリストを出力することを特徴とするテキストマイニングサーバ。
【請求項４】
請求項１〜３のいずれか１項記載のテキストマイニングサーバにおいて、前記検索キー受付手段はクライアントコンピュータから複数の検索キーを受信し、前記出力手段は前記マイニング結果を前記クライアントコンピュータに送信することを特徴とするテキストマイニングサーバ。
【請求項５】
請求項１〜４のいずれか１項記載のテキストマイニングサーバにおいて、前記検索キーは遺伝子を特定する識別記号であることを特徴とするテキストマイニングサーバ。
【請求項６】
テキストマイニングを行うためにコンピュータを、
複数の検索キーを受け付ける検索キー受付手段と、
検索キーと文献群の対応関係が記録されているデータベースを検索し、前記受付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する手段と、
前記受付けた複数の検索キーのそれぞれについて、取得した文献群をキーとして文書データベースを連想検索して当該文献群を含む新しい文献群のセットを取得する連想検索手段と、
前記連想検索手段によって取得した新しい文献群のセットから特徴語を抽出し特徴語リストを作成する特徴語リスト作成手段と、
マイニング結果として前記特徴語リストを出力する出力手段として機能させることを特徴とするテキストマイニングプログラム。
【請求項７】
請求項６記載のテキストマイニングプログラムにおいて、検索キー毎に前記連想検索手段によって取得する文献の数が予め設定されていることを特徴とするテキストマイニングプログラム。
【請求項８】
請求項７記載のテキストマイニングプログラムにおいて、前記出力手段は、マイニング結果として前記特徴語リストとともに前記連想検索手段によって取得した文献のリストを出力することを特徴とするテキストマイニングプログラム。
【請求項９】
請求項６〜８のいずれか１項記載のテキストマイニングプログラムにおいて、前記検索キーは遺伝子を特定する識別記号であることを特徴とするテキストマイニングプログラム。

【図１】