説明

テキストマイニングサーバ及びプログラム

【課題】 複数の遺伝子からなる遺伝子群全体の特徴を把握しようとした際に文献数の多い遺伝子の特徴が強く出てしまうことを回避する。
【解決手段】 クライアントから複数の検索キーを受け付け(102A)、検索キーと文献群の対応関係が記録されているデータベースを検索して受付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する(102B)。次に、検索キーのそれぞれについて、取得した文献群をキーとして文書データベースを連想検索して当該文献群を含む新しい文献群のセットを取得し(102C)、その新しい文献群のセットから特徴語を抽出し(102D)、マイニング結果として特徴語リストをクライアントに返す(102E)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ライフサイエンス分野で実験結果の解析を行うテキストマイニングサーバ及びテキストマイニングプログラムに関する。
【背景技術】
【0002】
ライフサイエンス分野においては情報の多くがテキスト形式の文書で保存され、その量の多さ故にユーザが本当に必要とする情報まで辿り着くことが困難になっている。近年、テキストマイニング技術が向上してきたことから、それらテキスト形式の文書に対しテキストマイニングを行い有益な情報を得る手段が広く使われるようになった。その応用として、マイクロアレーの実験結果の解析がある。マイクロアレーの実験結果の解析とは、数十から数百にも及ぶ遺伝子の特徴を何らかの形で把握することである。その実現のために遺伝子毎に関連する文献情報を取得し、得られた文献群全体に対してテキストマイニングを行うという方法がある。文献情報の取得には遺伝子毎に振られているKeyIDにより検索を行う(既知の遺伝子は公共のデータベースにユニークなIDが振られて登録されている)。
【0003】
従来のテキストマイニングは、クライアントコンピュータからサーバコンピュータにKeyIDを送信し、サーバコンピュータは受信したKeyIDをKeyID・文献リンクテーブルと比較してKeyIDに関連する文献のリストを取得する。次に、取得した文献リストに挙げられている文献のテキストから特徴語抽出プログラムを用いて特徴語リストを取得する。特徴語リストはクライアントコンピュータに送信され、クライアントコンピュータは送信されたマイニング結果を受信・表示してマイニングが終了する。なお、テキストマイニングに関連する文献としては下記特許文献1がある。
【特許文献1】特開2004−152035号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記した従来のテキストマイニングには以下の問題点がある。
1.遺伝子毎に関連する文献数が異なる。そのため、複数の遺伝子からなる遺伝子群全体の特徴を把握しようとした際にどうしても文献数の多い遺伝子の特徴が強く出てしまう。
2.遺伝子毎に関連する文献群を取得する際、遺伝子と文献情報のリンクテーブルが必ずしも更新されているとは限らない。そのため、得られる文献情報が限られたもの、誤ったもの、過去のものである可能性が出てくる。
【0005】
本発明は、上記従来技術の問題点を軽減したテキストマイニングの方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本発明のテキストマイニングサーバは、複数の検索キーを受け付ける検索キー受付手段と、検索キーと文献群の対応関係が記録されているデータベースを検索し、受付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する手段と、受付けた複数の検索キーのそれぞれについて、取得した文献群をキーとして文書データベースを連想検索して当該文献群を含む新しい文献群のセットを取得する連想検索手段と、連想検索手段によって取得した新しい文献群のセットから特徴語を抽出し特徴語リストを作成する特徴語リスト作成手段と、マイニング結果として前記特徴語リストを出力する出力手段とを備える。
【0007】
検索キー毎に連想検索手段によって取得する文献の数は、予め設定してもよい。出力手段は、マイニング結果として特徴語リストとともに連想検索手段によって取得した文献のリストを出力するようにしてもよい。
【0008】
このテキストマイニングサーバの機能は、コンピュータプログラムによって実現される。
【発明の効果】
【0009】
本発明によれば、全体の特徴を抽出するための文献情報はKeyID毎の文献数が一定の基準に整えられるため、より正しい特徴が捉えられる。また、文献数を整える際に関連する文献も検索するため、KeyID・文献情報のリンクテーブルでは捉えられなかった関連文献も取得することができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明を実施する場合の一形態を、図面を参照して具体的に説明する。
図1は、本発明によるテキストマイニングシステムの概念図である。ここに示すシステムは、KeyIDの入力・送信及びマイニング結果の受信を行うクライアントコンピュータ(以下、単にクライアントという)1、テキストマイニングを行うテキストマイニングサーバコンピュータ(以下、単にサーバという)3、文献情報を保持する文献情報データベース5及びKeyIDと文献情報の関連テーブル(もしくはその作成元となる情報)を保持しているKeyIDデータベース6を備え、それぞれはネットワーク2によって接続されている。
【0011】
クライアント1は、CPU211A及びメモリ211Bを備えた端末装置211、KeyID送信プログラム212A及びマイニング結果受信プログラム212Bが格納されているハードディスク装置212、並びにネットワーク接続のための通信ポート213を備えている。サーバ3は、CPU231A及びメモリ231Bを備えた端末装置231、クライアント1から送信されるKeyIDを受信するKeyID受信プログラム232A、KeyIDにより文献情報を後述の文献情報232Eから取得する文献情報取得プログラム232B、KeyIDデータベース6から後述のKeyID・文献リンクテーブルを取得するKeyID・文献リンクテーブル取得プログラム232C、KeyIDと文献情報の対応関係が登録されているKeyID・文献リンクテーブル232D、遺伝子関連情報等の文献情報が登録されている文献情報232E、文献情報232Eから取得した文献から特徴語を抽出する特徴語抽出プログラム232F、テキストマイニングの結果を送信するマイニング結果送信プログラム232G、及び文献情報232Eに対して特徴語抽出プログラム232Fにより抽出した特徴語により連想検索を実行する連想検索実行プログラム232H、連想検索後文献数対応テーブル
232Iを格納したハードディスク装置232、並びにネットワーク接続のための通信ポート233を備えている。なお、文献情報232Eは、文献情報データベース5の情報をサーバ内に保持したもの、KeyID・文献リンクテーブル232Dは、KeyIDと文献情報の関連テーブル(もしくはその作成元となる情報)を保持しているKeyIDデータベース6からKeyID・文献リンクテーブル取得プログラム232Cを使って取得(作成)をサーバ内に保持したものである。実際には、このようにネットワークに接続されたデータベースからテキストマイニングに使用する情報はローカルに持つようにする。
【0012】
また、連想検索は文献あるいは文献群をキーにしてその文献あるいは文献群と類似する文献を検索する手法であり、連想検索の手法自体は例えば特開2002−358315号公報等によって知られている。本発明の連想検索実行プログラムは、既知の連想検索の手法を利用するものである。
【0013】
図2は、サーバ3上のハードディスク装置232に格納されているKeyID・文献リンクテーブル232Dの例である。KeyID31と各KeyIDに関連する文献ID32の組が格納されている。このテーブルではたとえば、KeyIDが「AA0000」の遺伝子については、これに関連する文献として「Text1」、「Text2」、「Text3」、「Text4」の4件の文献が登録されており、KeyIDが「AB1111」の遺伝子の関連文献としては「Text2」と「Text5」の2件の文献が登録されている。
【0014】
図3は、サーバ3上のハードディスク装置232に格納されている文献情報232Eの一例を示した図である。文献情報232Eには文献ID41と各文献IDに対する作者42、題名43、本文(テキスト)44の組が格納されている。文献ID41は図3の文献ID32に対応している。この例では作者、題名、本文を文献情報として格納しているが、この他にアブストラクト、出版年などを文献情報として格納してもよい。
【0015】
図4は、サーバ3上のハードディスク装置232に格納されている連想検索後文献数対応テーブル232Iの例を示した図である。関連文献数401は232DのKeyID毎の関連する文献の数に対応している。連想検索後文献数402は大体のケースにおいては固定値をとる(例えば関連文献数の最大値+5)。ただし、その決定方法は「一定の基準を決める」ものであれば任意でよい。また、連想検索後文献数402は実測値により設定した値を超えないようにする。
【0016】
図5は、クライアント1上で稼動するKeyID送信プログラム212Aの画面例である。画面上にはメニュー61、KeyID入力フィールド62、送信ボタン64がある。KeyID入力フィールド62にKeyIDを入力(例えば63のように入力する。複数入力されてもかまわない。)し送信ボタン64を押下することにより、入力されたKeyID63がサーバ3に送信される。
【0017】
図6は、クライアント1上で稼動するマイニング結果受信プログラム212Bの画面例である。本画面はサーバ3からマイニング結果が送信された際に表示される。画面上にはメニュー71、マイニング結果の文献リスト72及びマイニング結果の特徴語リスト73が表示される。
【0018】
図7は、サーバ3上で稼動する連想検索実行プログラム232Hの入力・出力を表す概念図である。文献群81に対して連想検索実行プログラムを実行することにより入力文献81及び入力文献81に関連する新たな文献群82を取得することができる。
【0019】
図8は、サーバ3上で稼動する連想検索実行プログラム232Hのフローチャートの一例である。プログラムが開始されるとまず、1つのKeyIDに関連する入力文献群を受け取る(ステップ91A)。次に入力文献群から特徴語抽出プログラム232Fを使用して特徴語リストを取得する(ステップ91B)。特徴語リストとは文献リストを特徴付ける単語のリストであり、その抽出方法は任意とする。例としてはテキストマイニングの分野で広く使用されているtf (Term Frequency)・idf(Inverse Document Frequency)を使用する方法がある。tf・idfとは、T(W):単語Wを含む文献の総数、N:全文献数、F(W, Q):単語Wの文献Qでの出現頻度としたとき、単語Wの文献Qでの重要度を“F(W, Q)*Log[ N / T(W) ]”で定義する方法である。F(W, Q)がtfに相当し、Log[ N / T(W) ]がidfに相当する。
【0020】
次に抽出した特徴語リスト内の特徴語をORで結び、文献情報データベース5に対して文献検索を行い、関連文献の候補を絞り込んでくる(ステップ91C)。OR検索した結果の各文献と入力文献群との類似度を計算する(ステップ91D)。このステップ91Dに使用する類似度計算のアルゴリズムは任意であってよい。例えば類似文献検索の分野で広く使われているSMART法を使用する。最終的に入力文献と類似度が上位の文献を併せて出力する(ステップ91E)。このとき出力文献数(= 入力文献数 + 関連文献数)は、図4の連想検索後文献数対応テーブル232Iにより予め定めておいた基準値とする。こうして、例えば図2に示す「AB1111」のように、KeyIDに関連して登録されている文献の数が2件と少ない場合でも、予め定められた基準の文献数(図4の例では30件)に整えられる。
【0021】
図9は、本発明による改善を行ったテキストマイニングシステムを使用したマイニングのフローチャートの一例である。このフローチャートは、従来のテキストマイニングの処理に連想検索を行うステップ102Cを挿入したものに相当する。
【0022】
マイニングはまず、クライアント1において複数のKeyIDを入力し(ステップ101A)、入力された複数のKeyIDをサーバ3に送信する(ステップ101B)ことにより開始される。サーバ3は送信されたKeyIDを受信し(ステップ102A)、受信したKeyIDをKeyID・文献リンクテーブル232D(図2)と比較することによりKeyID毎に関連文献を取得する(ステップ102B)。続くステップ102Cでは、連想検索実行プログラム232Hを各KeyIDの関連文献に対して実行し、KeyID毎の関連文献数を図4に示された連想検索語文献数に調整する。こうして新たな文献リストを取得する。なお、KeyID・文献リンクテーブル(図2)に登録されている文献数が図4に示された連想検索語文献数を超えているKeyIDに対しては連想検索によって文献数を増やすことはしない。
【0023】
次に、特徴語抽出プログラム及び全てのKeyIDに対する関連文献をマージした文献リストを使用して特徴語リストを取得する(ステップ102D)。特徴語リストは文献リストを特徴付ける単語のリストであり、例えばtf ・idf法を用いて取得する。サーバ3は最終的にマイニング結果である文献リストと特徴語リストをクライアント1に送信する(ステップ102E)。クライアント1が、送信されたマイニング結果を受信・表示する(ステップ103A)ことによりマイニングは終了する。
【0024】
図10は、従来のテキストマイニングと連想検索によってKeyID毎の文献数を調整するステップを有する本発明のテキストマイニングの違いを説明する図である。(b)は本発明のテキストマイニングのフローチャートの一部(図9の102の処理)に対応し、(a)は従来のテキストマイニングのフローチャートの一部(図9の102からステップ102Cを除いた処理)に対応している。図において、KeyID群111Aはサーバ3がクライアント1から受信したKeyIDである。関連文献群111Bは、サーバ3が、受信したKeyID及びKeyID・文献リンクテーブルを使用して取得した文献リストである。KeyID1に対しては23件の文献、KeyID2に対しては3件の文献、KeyID3に対しては2件の文献が抽出されている。特徴語群111Cは、従来のテキストマイニングにおいてサーバ3がクライアント1に送信するマイニング結果である。第2の関連文献群112Dは、図9のステップ102Cに示した本発明の連想検索によって取得した文献リストである。また、特徴語群112Cは、本発明のテキストマイニングにおいてサーバ3がクライアント1に送信するマイニング結果である。
【0025】
本図の(a)では文献群111Bに対し特徴語を抽出した。しかし、文献数がKeyID毎に大きく異なるため(KeyID1が23件、KeyID2が3件、KeyID3が2件)、抽出した特徴語リスト111CがほとんどKeyID1の特徴(p53など)となってしまった。(b)に示した本発明では、第1関連文献群111Bに対して連想検索実行プログラム232Hを実行し、KeyID毎に文献数が整った第2関連文献群112Dから特徴語を抽出している。文献数が整った結果、KeyID1のみの特徴(p53)が順位を下げ、全体の特徴(Cancer)が上位になった。
【0026】
図11は、クライアント1上で稼動するマイニング結果受信プログラム212Bの画面で、従来技術と本発明の比較を行った図である。121Aは従来のマイニング方法による結果を表示した画面例であり、122Aは本発明のマイニング方法による結果を表示した画面例である。121Bは従来技術による文献群リスト、122Bは本発明の文献群リストを表している。また、121Cは従来技術による特徴語リスト、122Cは本発明の特徴語リストを表している。122Bは121Bと比較して、新たな関連文献群(New Text1等)を取得していることを表している。また122Cは121Cと比較してKeyID全体の特徴を表している。
【図面の簡単な説明】
【0027】
【図1】本発明によるテキストマイニングシステムの概念図。
【図2】KeyID・文献リンクテーブルの例を示す図。
【図3】文献情報の例を示す図。
【図4】連想検索後文献数対応テーブルの例を示す図。
【図5】KeyID送信プログラムの画面例を示す図。
【図6】マイニング結果受信プログラムの画面例を示す図。
【図7】連想検索実行プログラムの入力・出力のイメージ図。
【図8】連想検索実行プログラムのフローチャートの例を示す図。
【図9】本発明によるテキストマイニングのフローチャートの例を示す図。
【図10】従来のテキストマイニング方法と本発明の方法の違いを説明する図。
【図11】マイニング結果受信プログラムの画面で、従来と本発明の比較を行った図。
【符号の説明】
【0028】
1…クライアントコンピュータ、2…ネットワーク、3…テキストマイニングサーバコンピュータ、5…文献情報データベース、6…KeyIDデータベース

【特許請求の範囲】
【請求項1】
複数の検索キーを受け付ける検索キー受付手段と、
検索キーと文献群の対応関係が記録されているデータベースを検索し、前記受付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する手段と、
前記受付けた複数の検索キーのそれぞれについて、取得した文献群をキーとして文書データベースを連想検索して当該文献群を含む新しい文献群のセットを取得する連想検索手段と、
前記連想検索手段によって取得した新しい文献群のセットから特徴語を抽出し特徴語リストを作成する特徴語リスト作成手段と、
マイニング結果として前記特徴語リストを出力する出力手段と、
を備えることを特徴とするテキストマイニングサーバ。
【請求項2】
請求項1記載のテキストマイニングサーバにおいて、検索キー毎に前記連想検索手段によって取得する文献の数が予め設定されていることを特徴とするテキストマイニングサーバ。
【請求項3】
請求項2記載のテキストマイニングサーバにおいて、前記出力手段は、マイニング結果として前記特徴語リストとともに前記連想検索手段によって取得した文献のリストを出力することを特徴とするテキストマイニングサーバ。
【請求項4】
請求項1〜3のいずれか1項記載のテキストマイニングサーバにおいて、前記検索キー受付手段はクライアントコンピュータから複数の検索キーを受信し、前記出力手段は前記マイニング結果を前記クライアントコンピュータに送信することを特徴とするテキストマイニングサーバ。
【請求項5】
請求項1〜4のいずれか1項記載のテキストマイニングサーバにおいて、前記検索キーは遺伝子を特定する識別記号であることを特徴とするテキストマイニングサーバ。
【請求項6】
テキストマイニングを行うためにコンピュータを、
複数の検索キーを受け付ける検索キー受付手段と、
検索キーと文献群の対応関係が記録されているデータベースを検索し、前記受付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する手段と、
前記受付けた複数の検索キーのそれぞれについて、取得した文献群をキーとして文書データベースを連想検索して当該文献群を含む新しい文献群のセットを取得する連想検索手段と、
前記連想検索手段によって取得した新しい文献群のセットから特徴語を抽出し特徴語リストを作成する特徴語リスト作成手段と、
マイニング結果として前記特徴語リストを出力する出力手段として機能させることを特徴とするテキストマイニングプログラム。
【請求項7】
請求項6記載のテキストマイニングプログラムにおいて、検索キー毎に前記連想検索手段によって取得する文献の数が予め設定されていることを特徴とするテキストマイニングプログラム。
【請求項8】
請求項7記載のテキストマイニングプログラムにおいて、前記出力手段は、マイニング結果として前記特徴語リストとともに前記連想検索手段によって取得した文献のリストを出力することを特徴とするテキストマイニングプログラム。
【請求項9】
請求項6〜8のいずれか1項記載のテキストマイニングプログラムにおいて、前記検索キーは遺伝子を特定する識別記号であることを特徴とするテキストマイニングプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate