非冗長生体高分子データベース作成方法及び検索サービス用サーバ

【課題】生体高分子データベースを横断的に検索したい場合に、各データベースの検索用Webページへアクセスし、検索作業を繰り返す作業や、取得した検索結果から重複を取り除く作業を不要にすることで、データベース検索作業時間を短縮する。
【解決手段】生体高分子データベースＡ，Ｂ，Ｃ間に於けるデータの対応関係を利用することにより非冗長な生体高分子データベース１０４を作成し、作成した非冗長な生体高分子データベースに対して検索を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、塩基配列、タンパク質配列などの生体高分子データファイルのデータを効率的に検索する方法に関する。
【背景技術】
【０００２】
数多くの生体高分子データベースがインターネットで公開されている（例えば、Baxebanis, A.D:Nucl.Acids Res.,28:1-10,2000, "Genetics Databases"(Bishop M.J ed.), Academic Press, Cambridge,1999）。分子生物学を研究対象とする研究者は、これらのデータベースを検索して、自分の研究に関係するデータを取得している。多くの生体高分子データが、データベース間で重複しているため、生体高分子データベースは、重複するデータのIDの対応関係を公開している。
【非特許文献１】Baxebanis, A.D:Nucl.Acids Res.,28:1-10,2000
【非特許文献２】"Genetics Databases"(Bishop M.J ed.), Academic Press, Cambridge,1999
【発明の開示】
【発明が解決しようとする課題】
【０００３】
複数のデータベースを横断的に検索したい場合、各データベースの検索用Webページへアクセスし、それぞれのデータベースに対して検索作業を繰り返す必要があり、更に、データベース間で重複するデータがあるため、取得した検索結果から重複を取り除く作業が必要となるため、非常に面倒である。
【０００４】
例えば、図１１に示すように、データベース８０１とデータベース８０２を横断的に検索したい場合、データベース８０１とデータベース８０２の両方に検索を行って、得られた検索結果８０３，８０４から対応関係８０５を参照して、重複するデータ８０６の削除を行い、重複の無い検索結果８０７を取得する。
【０００５】
本発明の目的は、生体高分子データベースを効率的に検索する方法を提供することにある。
【課題を解決するための手段】
【０００６】
本発明では、生体高分子データベース間に於けるデータの対応関係を利用することにより、データの重複を取り除き、非冗長な生体高分子データベースを作成し、作成した非冗長な生体高分子データベースを用いて検索を行うようにする。この方法により、同時に複数の生体高分子データベースに対して検索を行ったのと同等な検索を一度で行い、かつ、非冗長な検索結果を得ることができる。
【発明の効果】
【０００７】
本発明によれば、生体高分子データベースを横断的に検索したい場合に、各データベースの検索用Webページへアクセスし、検索作業を繰り返す作業や、取得した検索結果から重複を取り除く作業が不要になるため、データベース検索作業時間を短縮することができる。
【発明を実施するための最良の形態】
【０００８】
以下、本発明を実施する場合の一形態について図面を参照して具体的に説明する。
図１は、本発明による検索サービスの例を示す概略図である。検索サービスセンター１１１は、記憶装置１０１を有する検索サービス用サーバ１０５を備える。検索サービス用サーバ１０５は、DBデータ取得部１２１、対応関係取得部１２２、対応関係テーブル作成部１２３、非冗長DB作成部１２４、検索処理部１２５を有する。
【０００９】
検索サービスセンター１１１では、データベース間で重複するデータを持つ外部の複数のデータベースＡ，Ｂ，Ｃのデータを、検索サービスセンター１１１内の検索サービス用サーバ１０５の記憶装置１０１上にダウンロードする。この処理は、検索サービス用サーバ１０５のDBデータ取得部１２１によって行われる。また、検索サービス用サーバ１０５の対応関係取得部１２２は、データベース間のデータの対応関係に関する情報を取得し、それを対応関係テーブル作成部１２３に渡す。対応関係テーブル作成部１２３では、データベース間で重複するデータの対応関係を表す対応関係テーブル１３０を作成し、記憶装置１０１に記憶する。その後、ダウンロードしたデータベースＡ，Ｂ，Ｃのデータから、対応関係テーブル１３０を利用することにより、データの重複を取り除き１０３、非冗長な生体高分子データベース１０４を構築する。この処理は、非冗長DB作成部１２４によって行う。
【００１０】
検索サービスセンター１１１は、この非冗長な生体高分子データベース１０４を用いて、ディスプレイ装置１０８、演算装置１０９、キーボード１０６、マウス１１０を備えた装置を操作するユーザ（クライアント）に対して、ネットワーク１０７を介して検索サービスを提供する。この検索サービスは、検索サービス用サーバ１０５の検索処理部１２５によって行われる。
【００１１】
図２は、データベースＡ，Ｂ，Ｃに登録されているデータを摸式的に示した図である。図２の例では、データベースＡにはデータＡ１，Ａ４，Ａ５，Ａ７が登録され、データベースＢにはデータＢ２，Ｂ４，Ｂ６，Ｂ７が登録され、データベースＣにはデータＣ３，Ｃ５，Ｃ６，Ｃ７が登録されている。
【００１２】
図３のフローチャートと図７の工程図を用いて、本発明による非冗長な生体高分子データベースの作成方法について説明する。
【００１３】
最初に、検索サービスセンター１１１内の検索サービス用サーバ１０５のDBデータ取得部１２１は、外部の複数の生体高分子データベース、本例ではデータベースＡ、データベースＢ、データベースＣのデータを、記憶装置１０１上にダウンロードする（Ｓ１１）。次に、検索サービス用サーバ１０５は、データベースＡ、データベースＢ、データベースＣにアクセスし、対応関係取得部１２２により各データベース間のデータの対応関係についての情報を取得する。生体高分子データベースには、他の生体高分子データベースのデータとの対応関係を記述した部分があり、対応関係取得部１２２はその部分のデータを切り出してきて対応関係テーブル作成部１２３に渡す。対応関係テーブル作成部１２３では、渡されたデータを整理して、対応関係テーブル１３０を作成し、記憶装置１０１に記憶する（Ｓ１２）。
【００１４】
図４は、こうして作成したデータベース間のデータの対応関係を示す対応関係テーブル１３０の模式図である。本例では、データベースＡ−Ｂ間のデータの対応関係として、Ａ４とＢ４、Ａ７とＢ７、データベースＢ−Ｃ間のデータの対応関係として、Ｂ６とＣ６、Ｂ７とＣ７、データベースＣ−Ａ間のデータの対応関係として、Ｃ５とＡ５、Ｃ７とＡ７がそれぞれ同等のデータであることが登録されている。
【００１５】
図５は、生体高分子データベース間のデータの対応関係の具体例を示す図である。図５は、NCBI（National Center for Biotechnology Information）が公開しているUniGeneデータベースとGenBankデータベースの対応関係である。生体高分子データベースのデータベース間のデータの対応関係はこのような形式で公開されている。データはタブ区切りで、１行が１レコードを表す。第１列３０１がUniGeneのIDを表し、第４列３０２がそのUniGeneのデータに対応するGenBankのIDを表している。例えば、UniGeneのHs.103504（３０３）をIDとするデータは、GenBankの AF061055（３０４）をIDとするデータと対応している。これらのデータを抽出することでデータベース間のデータの対応関係を取得することができる。
【００１６】
この後の処理は、検索サービス用サーバ１０５の非冗長DB作成部１２４によって行われる。非冗長DB作成部１２４は、オペレータからの優先度付けの指示の入力に基づき、まずデータベースＡ、データベースＢ、データベースＣに優先度をつける。この優先度は任意で付けてかまわない。ここでは、図６に示したように、データベースＡ、データベースＢ、データベースＣの順で優先度に高いスコアを付けたとする（ステップ１３）。次に、優先度の高いデータベースから順に（ステップ１４）、自分より優先度の高いデータベースとのデータの対応関係がないデータを取得する（ステップ１５）。ステップ１４からステップ１５の処理を反復することで、非冗長DB１０４が作成される。
【００１７】
ステップ１４，１５の処理を図７により説明する。最初に、図７（ａ）に示すように、優先度のスコアの最も高いデータベースＡからデータを取得する。データベースＡより優先度の高いデータベースはないので、データベースＡからはすべてのデータ、Ａ１，Ａ４，Ａ５，Ａ７を取得する。次に、図７（ｂ）に示すように、優先度のスコアが２番目のデータベースＢからデータを取得する処理に移る。データベースＢはデータベースＡより優先度が低いので、データベースＢからはデータベースＡとの対応関係を持たないデータ、Ｂ２，Ｂ６を取得する。重複データの確認には図４に示したデータベース間のデータの対応関係を表す対応関係テーブル１３０を用いる。ここで、図７中の点線はデータが重複していることを示す。最後に、図７（ｃ）に示すように、一番優先度の低いデータベースＣからデータを取得する処理を行う。データベースＣはデータベースＡ及びデータベースＢより優先度が低いので、データベースＣからはデータベースＡ及びデータベースＢとの対応関係を持たないデータ、Ｃ３を取得する。このときも、重複データの確認には図４に示した対応関係テーブルを用いる。このようにして、データＡ１，Ｂ２，Ｃ３，Ａ４，Ａ５，Ｂ６，Ａ７をもつ非冗長なデータベース１０４が作成される。
【００１８】
図８は、検索サービスセンター１１１内の検索サービス用サーバ１０５に対する検索の概念図である。図８に示すように、ユーザ９０６は重複のあるデータベース９０１及び９０２から重複を除いて作成した非冗長データベース９０３に対して、ネットワーク９０４を通して検索が行えるため、重複のない検索結果９０５を得ることができる。ユーザによる検索キーワードの入力には、図９に示すようなグラフィカルユーザインターフェイスを用いる。ユーザがテキストボックス４０１に、検索したいキーワード４０３を入力し、検索開始ボタン４０２を押下することで検索が開始され、入力されたキーワードに関連するデータが図１０に示すように一覧表示される。一覧にはそのデータを抽出したデータベース名５０１、データのID５０２、データの要約５０３が表示される。データのID５０２をクリックすることでデータの詳細を表示することができる。
【図面の簡単な説明】
【００１９】
【図１】本発明による検索サービスの例を示す概略図。
【図２】生体高分子データベースのデータ例を示す図。
【図３】非冗長な生体高分子データベースを作成する方法の流れを示すフローチャート。
【図４】対応関係テーブルの模式図。
【図５】生体高分子データベース間のデータの対応関係の具体例を示す図。
【図６】優先度の設定例を示す図。
【図７】非冗長な生体高分子データベースの作成例を示す工程模式図。
【図８】検索サービス用サーバに対する検索の概念図。
【図９】キーワード入力グラフィカルユーザインターフェイスの例を示す図。
【図１０】検索結果一覧表示グラフィカルユーザインターフェイスの例を示す図。
【図１１】従来の検索方法の説明図。
【符号の説明】
【００２０】
１０１…記憶装置、１０３…重複の除去作業、１０４…非冗長な生体高分子データベース、１０５…検索サービス用サーバ、１０７…ネットワーク、１１１…検索サービスセンター、１２１…DBデータ取得部、１２２…対応関係取得部、１２３…対応関係テーブル作成部、１２４…非冗長DB作成部、１２５…検索処理部、１３０…対応関係テーブル、３０１…UniGene ID、３０２…GenBank ID、３０３…重複するUniGene ID、３０４…重複するGenBank ID、４０１…テキストボックス、４０２…検索開始ボタン、４０３…キーワード、５０１…データを抽出したデータベース名、５０２…データのID、５０３…データの要約、９０３…非冗長な生体高分子データベース、９０４…ネットワーク、９０５…重複のない検索結果

【特許請求の範囲】
【請求項１】
データベース間で重複するデータを持つ複数の生体高分子データベースのデータをデータベース毎に区別して記憶装置に記憶するステップと、
前記複数の生体高分子データベースからデータベース間に於けるデータの対応関係の情報を取得し、対応関係テーブルとして記憶装置に記憶するステップと、
前記複数の生体高分子データベースに優先度をつけるステップと、
前記記憶装置に記憶した複数の生体高分子データベースに対し、優先度の高いデータベースから順に、自分より優先度の高いデータベースのデータとの対応関係が前記対応関係テーブルに登録されていないデータを取得する処理を反復するステップと
を含むことを特徴とする非冗長な生体高分子データベースを作成する方法。
【請求項２】
外部の複数の生体高分子データベースからデータを取得し、データベース毎に区別して記憶装置に記憶するDBデータ取得部と、
前記複数の生体高分子データベースからデータベース間に於けるデータの対応関係の情報を取得する対応関係取得部と、
前記対応関係取得部で取得した情報を整理してデータベース間で重複するデータの対応関係を表す対応関係テーブルを作成する対応関係テーブル作成部と、
前記対応関係テーブルを参照して、前記記憶装置に記憶した複数の生体高分子データベースのデータからデータの重複を取り除き、非冗長な生体高分子データベースを作成する非冗長DB作成部とを備えることを特徴とする検索サービス用サーバ。

【図１】