非冗長生体高分子データベース作成方法及び検索サービス用サーバ
【課題】 生体高分子データベースを横断的に検索したい場合に、各データベースの検索用Webページへアクセスし、検索作業を繰り返す作業や、取得した検索結果から重複を取り除く作業を不要にすることで、データベース検索作業時間を短縮する。
【解決手段】 生体高分子データベースA,B,C間に於けるデータの対応関係を利用することにより非冗長な生体高分子データベース104を作成し、作成した非冗長な生体高分子データベースに対して検索を行う。
【解決手段】 生体高分子データベースA,B,C間に於けるデータの対応関係を利用することにより非冗長な生体高分子データベース104を作成し、作成した非冗長な生体高分子データベースに対して検索を行う。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、塩基配列、タンパク質配列などの生体高分子データファイルのデータを効率的に検索する方法に関する。
【背景技術】
【0002】
数多くの生体高分子データベースがインターネットで公開されている(例えば、Baxebanis, A.D:Nucl.Acids Res.,28:1-10,2000, "Genetics Databases"(Bishop M.J ed.), Academic Press, Cambridge,1999)。分子生物学を研究対象とする研究者は、これらのデータベースを検索して、自分の研究に関係するデータを取得している。多くの生体高分子データが、データベース間で重複しているため、生体高分子データベースは、重複するデータのIDの対応関係を公開している。
【非特許文献1】Baxebanis, A.D:Nucl.Acids Res.,28:1-10,2000
【非特許文献2】"Genetics Databases"(Bishop M.J ed.), Academic Press, Cambridge,1999
【発明の開示】
【発明が解決しようとする課題】
【0003】
複数のデータベースを横断的に検索したい場合、各データベースの検索用Webページへアクセスし、それぞれのデータベースに対して検索作業を繰り返す必要があり、更に、データベース間で重複するデータがあるため、取得した検索結果から重複を取り除く作業が必要となるため、非常に面倒である。
【0004】
例えば、図11に示すように、データベース801とデータベース802を横断的に検索したい場合、データベース801とデータベース802の両方に検索を行って、得られた検索結果803,804から対応関係805を参照して、重複するデータ806の削除を行い、重複の無い検索結果807を取得する。
【0005】
本発明の目的は、生体高分子データベースを効率的に検索する方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明では、生体高分子データベース間に於けるデータの対応関係を利用することにより、データの重複を取り除き、非冗長な生体高分子データベースを作成し、作成した非冗長な生体高分子データベースを用いて検索を行うようにする。この方法により、同時に複数の生体高分子データベースに対して検索を行ったのと同等な検索を一度で行い、かつ、非冗長な検索結果を得ることができる。
【発明の効果】
【0007】
本発明によれば、生体高分子データベースを横断的に検索したい場合に、各データベースの検索用Webページへアクセスし、検索作業を繰り返す作業や、取得した検索結果から重複を取り除く作業が不要になるため、データベース検索作業時間を短縮することができる。
【発明を実施するための最良の形態】
【0008】
以下、本発明を実施する場合の一形態について図面を参照して具体的に説明する。
図1は、本発明による検索サービスの例を示す概略図である。検索サービスセンター111は、記憶装置101を有する検索サービス用サーバ105を備える。検索サービス用サーバ105は、DBデータ取得部121、対応関係取得部122、対応関係テーブル作成部123、非冗長DB作成部124、検索処理部125を有する。
【0009】
検索サービスセンター111では、データベース間で重複するデータを持つ外部の複数のデータベースA,B,Cのデータを、検索サービスセンター111内の検索サービス用サーバ105の記憶装置101上にダウンロードする。この処理は、検索サービス用サーバ105のDBデータ取得部121によって行われる。また、検索サービス用サーバ105の対応関係取得部122は、データベース間のデータの対応関係に関する情報を取得し、それを対応関係テーブル作成部123に渡す。対応関係テーブル作成部123では、データベース間で重複するデータの対応関係を表す対応関係テーブル130を作成し、記憶装置101に記憶する。その後、ダウンロードしたデータベースA,B,Cのデータから、対応関係テーブル130を利用することにより、データの重複を取り除き103、非冗長な生体高分子データベース104を構築する。この処理は、非冗長DB作成部124によって行う。
【0010】
検索サービスセンター111は、この非冗長な生体高分子データベース104を用いて、ディスプレイ装置108、演算装置109、キーボード106、マウス110を備えた装置を操作するユーザ(クライアント)に対して、ネットワーク107を介して検索サービスを提供する。この検索サービスは、検索サービス用サーバ105の検索処理部125によって行われる。
【0011】
図2は、データベースA,B,Cに登録されているデータを摸式的に示した図である。図2の例では、データベースAにはデータA1,A4,A5,A7が登録され、データベースBにはデータB2,B4,B6,B7が登録され、データベースCにはデータC3,C5,C6,C7が登録されている。
【0012】
図3のフローチャートと図7の工程図を用いて、本発明による非冗長な生体高分子データベースの作成方法について説明する。
【0013】
最初に、検索サービスセンター111内の検索サービス用サーバ105のDBデータ取得部121は、外部の複数の生体高分子データベース、本例ではデータベースA、データベースB、データベースCのデータを、記憶装置101上にダウンロードする(S11)。次に、検索サービス用サーバ105は、データベースA、データベースB、データベースCにアクセスし、対応関係取得部122により各データベース間のデータの対応関係についての情報を取得する。生体高分子データベースには、他の生体高分子データベースのデータとの対応関係を記述した部分があり、対応関係取得部122はその部分のデータを切り出してきて対応関係テーブル作成部123に渡す。対応関係テーブル作成部123では、渡されたデータを整理して、対応関係テーブル130を作成し、記憶装置101に記憶する(S12)。
【0014】
図4は、こうして作成したデータベース間のデータの対応関係を示す対応関係テーブル130の模式図である。本例では、データベースA−B間のデータの対応関係として、A4とB4、A7とB7、データベースB−C間のデータの対応関係として、B6とC6、B7とC7、データベースC−A間のデータの対応関係として、C5とA5、C7とA7がそれぞれ同等のデータであることが登録されている。
【0015】
図5は、生体高分子データベース間のデータの対応関係の具体例を示す図である。図5は、NCBI(National Center for Biotechnology Information)が公開しているUniGeneデータベースとGenBankデータベースの対応関係である。生体高分子データベースのデータベース間のデータの対応関係はこのような形式で公開されている。データはタブ区切りで、1行が1レコードを表す。第1列301がUniGeneのIDを表し、第4列302がそのUniGeneのデータに対応するGenBankのIDを表している。例えば、UniGeneのHs.103504(303)をIDとするデータは、GenBankの AF061055(304)をIDとするデータと対応している。これらのデータを抽出することでデータベース間のデータの対応関係を取得することができる。
【0016】
この後の処理は、検索サービス用サーバ105の非冗長DB作成部124によって行われる。非冗長DB作成部124は、オペレータからの優先度付けの指示の入力に基づき、まずデータベースA、データベースB、データベースCに優先度をつける。この優先度は任意で付けてかまわない。ここでは、図6に示したように、データベースA、データベースB、データベースCの順で優先度に高いスコアを付けたとする(ステップ13)。次に、優先度の高いデータベースから順に(ステップ14)、自分より優先度の高いデータベースとのデータの対応関係がないデータを取得する(ステップ15)。ステップ14からステップ15の処理を反復することで、非冗長DB104が作成される。
【0017】
ステップ14,15の処理を図7により説明する。最初に、図7(a)に示すように、優先度のスコアの最も高いデータベースAからデータを取得する。データベースAより優先度の高いデータベースはないので、データベースAからはすべてのデータ、A1,A4,A5,A7を取得する。次に、図7(b)に示すように、優先度のスコアが2番目のデータベースBからデータを取得する処理に移る。データベースBはデータベースAより優先度が低いので、データベースBからはデータベースAとの対応関係を持たないデータ、B2,B6を取得する。重複データの確認には図4に示したデータベース間のデータの対応関係を表す対応関係テーブル130を用いる。ここで、図7中の点線はデータが重複していることを示す。最後に、図7(c)に示すように、一番優先度の低いデータベースCからデータを取得する処理を行う。データベースCはデータベースA及びデータベースBより優先度が低いので、データベースCからはデータベースA及びデータベースBとの対応関係を持たないデータ、C3を取得する。このときも、重複データの確認には図4に示した対応関係テーブルを用いる。このようにして、データA1,B2,C3,A4,A5,B6,A7をもつ非冗長なデータベース104が作成される。
【0018】
図8は、検索サービスセンター111内の検索サービス用サーバ105に対する検索の概念図である。図8に示すように、ユーザ906は重複のあるデータベース901及び902から重複を除いて作成した非冗長データベース903に対して、ネットワーク904を通して検索が行えるため、重複のない検索結果905を得ることができる。ユーザによる検索キーワードの入力には、図9に示すようなグラフィカルユーザインターフェイスを用いる。ユーザがテキストボックス401に、検索したいキーワード403を入力し、検索開始ボタン402を押下することで検索が開始され、入力されたキーワードに関連するデータが図10に示すように一覧表示される。一覧にはそのデータを抽出したデータベース名501、データのID502、データの要約503が表示される。データのID502をクリックすることでデータの詳細を表示することができる。
【図面の簡単な説明】
【0019】
【図1】本発明による検索サービスの例を示す概略図。
【図2】生体高分子データベースのデータ例を示す図。
【図3】非冗長な生体高分子データベースを作成する方法の流れを示すフローチャート。
【図4】対応関係テーブルの模式図。
【図5】生体高分子データベース間のデータの対応関係の具体例を示す図。
【図6】優先度の設定例を示す図。
【図7】非冗長な生体高分子データベースの作成例を示す工程模式図。
【図8】検索サービス用サーバに対する検索の概念図。
【図9】キーワード入力グラフィカルユーザインターフェイスの例を示す図。
【図10】検索結果一覧表示グラフィカルユーザインターフェイスの例を示す図。
【図11】従来の検索方法の説明図。
【符号の説明】
【0020】
101…記憶装置、103…重複の除去作業、104…非冗長な生体高分子データベース、105…検索サービス用サーバ、107…ネットワーク、111…検索サービスセンター、121…DBデータ取得部、122…対応関係取得部、123…対応関係テーブル作成部、124…非冗長DB作成部、125…検索処理部、130…対応関係テーブル、301…UniGene ID、302…GenBank ID、303…重複するUniGene ID、304…重複するGenBank ID、401…テキストボックス、402…検索開始ボタン、403…キーワード、501…データを抽出したデータベース名、502…データのID、503…データの要約、903…非冗長な生体高分子データベース、904…ネットワーク、905…重複のない検索結果
【技術分野】
【0001】
本発明は、塩基配列、タンパク質配列などの生体高分子データファイルのデータを効率的に検索する方法に関する。
【背景技術】
【0002】
数多くの生体高分子データベースがインターネットで公開されている(例えば、Baxebanis, A.D:Nucl.Acids Res.,28:1-10,2000, "Genetics Databases"(Bishop M.J ed.), Academic Press, Cambridge,1999)。分子生物学を研究対象とする研究者は、これらのデータベースを検索して、自分の研究に関係するデータを取得している。多くの生体高分子データが、データベース間で重複しているため、生体高分子データベースは、重複するデータのIDの対応関係を公開している。
【非特許文献1】Baxebanis, A.D:Nucl.Acids Res.,28:1-10,2000
【非特許文献2】"Genetics Databases"(Bishop M.J ed.), Academic Press, Cambridge,1999
【発明の開示】
【発明が解決しようとする課題】
【0003】
複数のデータベースを横断的に検索したい場合、各データベースの検索用Webページへアクセスし、それぞれのデータベースに対して検索作業を繰り返す必要があり、更に、データベース間で重複するデータがあるため、取得した検索結果から重複を取り除く作業が必要となるため、非常に面倒である。
【0004】
例えば、図11に示すように、データベース801とデータベース802を横断的に検索したい場合、データベース801とデータベース802の両方に検索を行って、得られた検索結果803,804から対応関係805を参照して、重複するデータ806の削除を行い、重複の無い検索結果807を取得する。
【0005】
本発明の目的は、生体高分子データベースを効率的に検索する方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明では、生体高分子データベース間に於けるデータの対応関係を利用することにより、データの重複を取り除き、非冗長な生体高分子データベースを作成し、作成した非冗長な生体高分子データベースを用いて検索を行うようにする。この方法により、同時に複数の生体高分子データベースに対して検索を行ったのと同等な検索を一度で行い、かつ、非冗長な検索結果を得ることができる。
【発明の効果】
【0007】
本発明によれば、生体高分子データベースを横断的に検索したい場合に、各データベースの検索用Webページへアクセスし、検索作業を繰り返す作業や、取得した検索結果から重複を取り除く作業が不要になるため、データベース検索作業時間を短縮することができる。
【発明を実施するための最良の形態】
【0008】
以下、本発明を実施する場合の一形態について図面を参照して具体的に説明する。
図1は、本発明による検索サービスの例を示す概略図である。検索サービスセンター111は、記憶装置101を有する検索サービス用サーバ105を備える。検索サービス用サーバ105は、DBデータ取得部121、対応関係取得部122、対応関係テーブル作成部123、非冗長DB作成部124、検索処理部125を有する。
【0009】
検索サービスセンター111では、データベース間で重複するデータを持つ外部の複数のデータベースA,B,Cのデータを、検索サービスセンター111内の検索サービス用サーバ105の記憶装置101上にダウンロードする。この処理は、検索サービス用サーバ105のDBデータ取得部121によって行われる。また、検索サービス用サーバ105の対応関係取得部122は、データベース間のデータの対応関係に関する情報を取得し、それを対応関係テーブル作成部123に渡す。対応関係テーブル作成部123では、データベース間で重複するデータの対応関係を表す対応関係テーブル130を作成し、記憶装置101に記憶する。その後、ダウンロードしたデータベースA,B,Cのデータから、対応関係テーブル130を利用することにより、データの重複を取り除き103、非冗長な生体高分子データベース104を構築する。この処理は、非冗長DB作成部124によって行う。
【0010】
検索サービスセンター111は、この非冗長な生体高分子データベース104を用いて、ディスプレイ装置108、演算装置109、キーボード106、マウス110を備えた装置を操作するユーザ(クライアント)に対して、ネットワーク107を介して検索サービスを提供する。この検索サービスは、検索サービス用サーバ105の検索処理部125によって行われる。
【0011】
図2は、データベースA,B,Cに登録されているデータを摸式的に示した図である。図2の例では、データベースAにはデータA1,A4,A5,A7が登録され、データベースBにはデータB2,B4,B6,B7が登録され、データベースCにはデータC3,C5,C6,C7が登録されている。
【0012】
図3のフローチャートと図7の工程図を用いて、本発明による非冗長な生体高分子データベースの作成方法について説明する。
【0013】
最初に、検索サービスセンター111内の検索サービス用サーバ105のDBデータ取得部121は、外部の複数の生体高分子データベース、本例ではデータベースA、データベースB、データベースCのデータを、記憶装置101上にダウンロードする(S11)。次に、検索サービス用サーバ105は、データベースA、データベースB、データベースCにアクセスし、対応関係取得部122により各データベース間のデータの対応関係についての情報を取得する。生体高分子データベースには、他の生体高分子データベースのデータとの対応関係を記述した部分があり、対応関係取得部122はその部分のデータを切り出してきて対応関係テーブル作成部123に渡す。対応関係テーブル作成部123では、渡されたデータを整理して、対応関係テーブル130を作成し、記憶装置101に記憶する(S12)。
【0014】
図4は、こうして作成したデータベース間のデータの対応関係を示す対応関係テーブル130の模式図である。本例では、データベースA−B間のデータの対応関係として、A4とB4、A7とB7、データベースB−C間のデータの対応関係として、B6とC6、B7とC7、データベースC−A間のデータの対応関係として、C5とA5、C7とA7がそれぞれ同等のデータであることが登録されている。
【0015】
図5は、生体高分子データベース間のデータの対応関係の具体例を示す図である。図5は、NCBI(National Center for Biotechnology Information)が公開しているUniGeneデータベースとGenBankデータベースの対応関係である。生体高分子データベースのデータベース間のデータの対応関係はこのような形式で公開されている。データはタブ区切りで、1行が1レコードを表す。第1列301がUniGeneのIDを表し、第4列302がそのUniGeneのデータに対応するGenBankのIDを表している。例えば、UniGeneのHs.103504(303)をIDとするデータは、GenBankの AF061055(304)をIDとするデータと対応している。これらのデータを抽出することでデータベース間のデータの対応関係を取得することができる。
【0016】
この後の処理は、検索サービス用サーバ105の非冗長DB作成部124によって行われる。非冗長DB作成部124は、オペレータからの優先度付けの指示の入力に基づき、まずデータベースA、データベースB、データベースCに優先度をつける。この優先度は任意で付けてかまわない。ここでは、図6に示したように、データベースA、データベースB、データベースCの順で優先度に高いスコアを付けたとする(ステップ13)。次に、優先度の高いデータベースから順に(ステップ14)、自分より優先度の高いデータベースとのデータの対応関係がないデータを取得する(ステップ15)。ステップ14からステップ15の処理を反復することで、非冗長DB104が作成される。
【0017】
ステップ14,15の処理を図7により説明する。最初に、図7(a)に示すように、優先度のスコアの最も高いデータベースAからデータを取得する。データベースAより優先度の高いデータベースはないので、データベースAからはすべてのデータ、A1,A4,A5,A7を取得する。次に、図7(b)に示すように、優先度のスコアが2番目のデータベースBからデータを取得する処理に移る。データベースBはデータベースAより優先度が低いので、データベースBからはデータベースAとの対応関係を持たないデータ、B2,B6を取得する。重複データの確認には図4に示したデータベース間のデータの対応関係を表す対応関係テーブル130を用いる。ここで、図7中の点線はデータが重複していることを示す。最後に、図7(c)に示すように、一番優先度の低いデータベースCからデータを取得する処理を行う。データベースCはデータベースA及びデータベースBより優先度が低いので、データベースCからはデータベースA及びデータベースBとの対応関係を持たないデータ、C3を取得する。このときも、重複データの確認には図4に示した対応関係テーブルを用いる。このようにして、データA1,B2,C3,A4,A5,B6,A7をもつ非冗長なデータベース104が作成される。
【0018】
図8は、検索サービスセンター111内の検索サービス用サーバ105に対する検索の概念図である。図8に示すように、ユーザ906は重複のあるデータベース901及び902から重複を除いて作成した非冗長データベース903に対して、ネットワーク904を通して検索が行えるため、重複のない検索結果905を得ることができる。ユーザによる検索キーワードの入力には、図9に示すようなグラフィカルユーザインターフェイスを用いる。ユーザがテキストボックス401に、検索したいキーワード403を入力し、検索開始ボタン402を押下することで検索が開始され、入力されたキーワードに関連するデータが図10に示すように一覧表示される。一覧にはそのデータを抽出したデータベース名501、データのID502、データの要約503が表示される。データのID502をクリックすることでデータの詳細を表示することができる。
【図面の簡単な説明】
【0019】
【図1】本発明による検索サービスの例を示す概略図。
【図2】生体高分子データベースのデータ例を示す図。
【図3】非冗長な生体高分子データベースを作成する方法の流れを示すフローチャート。
【図4】対応関係テーブルの模式図。
【図5】生体高分子データベース間のデータの対応関係の具体例を示す図。
【図6】優先度の設定例を示す図。
【図7】非冗長な生体高分子データベースの作成例を示す工程模式図。
【図8】検索サービス用サーバに対する検索の概念図。
【図9】キーワード入力グラフィカルユーザインターフェイスの例を示す図。
【図10】検索結果一覧表示グラフィカルユーザインターフェイスの例を示す図。
【図11】従来の検索方法の説明図。
【符号の説明】
【0020】
101…記憶装置、103…重複の除去作業、104…非冗長な生体高分子データベース、105…検索サービス用サーバ、107…ネットワーク、111…検索サービスセンター、121…DBデータ取得部、122…対応関係取得部、123…対応関係テーブル作成部、124…非冗長DB作成部、125…検索処理部、130…対応関係テーブル、301…UniGene ID、302…GenBank ID、303…重複するUniGene ID、304…重複するGenBank ID、401…テキストボックス、402…検索開始ボタン、403…キーワード、501…データを抽出したデータベース名、502…データのID、503…データの要約、903…非冗長な生体高分子データベース、904…ネットワーク、905…重複のない検索結果
【特許請求の範囲】
【請求項1】
データベース間で重複するデータを持つ複数の生体高分子データベースのデータをデータベース毎に区別して記憶装置に記憶するステップと、
前記複数の生体高分子データベースからデータベース間に於けるデータの対応関係の情報を取得し、対応関係テーブルとして記憶装置に記憶するステップと、
前記複数の生体高分子データベースに優先度をつけるステップと、
前記記憶装置に記憶した複数の生体高分子データベースに対し、優先度の高いデータベースから順に、自分より優先度の高いデータベースのデータとの対応関係が前記対応関係テーブルに登録されていないデータを取得する処理を反復するステップと
を含むことを特徴とする非冗長な生体高分子データベースを作成する方法。
【請求項2】
外部の複数の生体高分子データベースからデータを取得し、データベース毎に区別して記憶装置に記憶するDBデータ取得部と、
前記複数の生体高分子データベースからデータベース間に於けるデータの対応関係の情報を取得する対応関係取得部と、
前記対応関係取得部で取得した情報を整理してデータベース間で重複するデータの対応関係を表す対応関係テーブルを作成する対応関係テーブル作成部と、
前記対応関係テーブルを参照して、前記記憶装置に記憶した複数の生体高分子データベースのデータからデータの重複を取り除き、非冗長な生体高分子データベースを作成する非冗長DB作成部とを備えることを特徴とする検索サービス用サーバ。
【請求項1】
データベース間で重複するデータを持つ複数の生体高分子データベースのデータをデータベース毎に区別して記憶装置に記憶するステップと、
前記複数の生体高分子データベースからデータベース間に於けるデータの対応関係の情報を取得し、対応関係テーブルとして記憶装置に記憶するステップと、
前記複数の生体高分子データベースに優先度をつけるステップと、
前記記憶装置に記憶した複数の生体高分子データベースに対し、優先度の高いデータベースから順に、自分より優先度の高いデータベースのデータとの対応関係が前記対応関係テーブルに登録されていないデータを取得する処理を反復するステップと
を含むことを特徴とする非冗長な生体高分子データベースを作成する方法。
【請求項2】
外部の複数の生体高分子データベースからデータを取得し、データベース毎に区別して記憶装置に記憶するDBデータ取得部と、
前記複数の生体高分子データベースからデータベース間に於けるデータの対応関係の情報を取得する対応関係取得部と、
前記対応関係取得部で取得した情報を整理してデータベース間で重複するデータの対応関係を表す対応関係テーブルを作成する対応関係テーブル作成部と、
前記対応関係テーブルを参照して、前記記憶装置に記憶した複数の生体高分子データベースのデータからデータの重複を取り除き、非冗長な生体高分子データベースを作成する非冗長DB作成部とを備えることを特徴とする検索サービス用サーバ。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2006−85437(P2006−85437A)
【公開日】平成18年3月30日(2006.3.30)
【国際特許分類】
【出願番号】特願2004−269658(P2004−269658)
【出願日】平成16年9月16日(2004.9.16)
【出願人】(000233055)日立ソフトウエアエンジニアリング株式会社 (1,610)
【Fターム(参考)】
【公開日】平成18年3月30日(2006.3.30)
【国際特許分類】
【出願日】平成16年9月16日(2004.9.16)
【出願人】(000233055)日立ソフトウエアエンジニアリング株式会社 (1,610)
【Fターム(参考)】
[ Back to top ]