説明

遺伝子情報検索システム、遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法及び遺伝子情報検索方法

【課題】遺伝子情報の検索システムにおいて、既存遺伝子情報やサンプル遺伝子情報の流出を防ぐことを目的とする。
【解決手段】遺伝子情報検索システム100では、暗号化タグとクエリータグとを用いた検索可能暗号を用いる。特に、N個(Nは1以上の整数)の単位情報が順に並んだ遺伝子情報から、連続するW個(Wは1以上N以下の整数)の単位情報を遺伝子タグとして、先頭から順に1単位情報づつずらしながら(N−W+1)個抽出し、抽出した遺伝子タグを暗号化して暗号化タグとして、遺伝子情報に関連付けてDBに蓄積しておく。サンプル遺伝子情報から、連続するW個の単位情報を検索タグとして、先頭から順に1単位情報づつずらしながら(L−W+1)個抽出し、抽出した検索タグを暗号化してクエリータグとして検索を行う。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、遺伝子情報を記憶装置に記憶する記憶技術と、前記記憶技術により記憶装置に記憶された遺伝子情報から所定の遺伝子情報を検索する検索技術とに関する。
【背景技術】
【0002】
塩基配列、アミノ酸配列等の遺伝子情報については、既に発見され、その意味等が解明されている既存データ(既存遺伝子情報)と、新たに発見された新規データ(サンプル遺伝子情報)とが照合され分析されて、研究が進められる。既存遺伝子情報とサンプル遺伝子情報とを照合する際、既存遺伝子情報が蓄積されたDB(DataBase)からサンプル遺伝子情報と一致あるいは類似するデータを、BLAST(Basic Local Alignment Search Tool)等の手法を用いて検索する。
なお、DBからサンプル遺伝子情報と一致あるいは類似するデータを検索する検索システムは、インハウス(企業内)で構築される場合もあるが、公的な検索サービス機関が提供するシステムを利用する場合もある。
サンプル遺伝子情報は、研究開発の成果であり、一般に機密データである。また、DBに蓄積された既存遺伝子情報も同様に機密データである場合もある。さらに、DBに蓄積された既存遺伝子情報は、人の遺伝子情報である場合もあり、漏洩してはならない個人情報である場合もある。
【0003】
DBに蓄積されたデータと検索キーワードとを暗号化した状態で、DBに蓄積されたデータから検索キーワードを含むデータを検索可能とする検索可能暗号がある。
この検索可能暗号では、DBにデータを蓄積する際、そのデータを検索する場合に用いられると想定される検索キーワードをタグとして抽出しておく。そして、データとタグとをそれぞれ暗号化し、暗号化したデータに暗号化したタグを添付してDBに蓄積する。
DBに蓄積されたデータから検索キーワードを含むデータを検索する場合、暗号化された検索キーワードが入力される。そして、暗号化された検索キーワードに対応する暗号化されたタグが検索される。検索キーワードに対応するタグが見つかった場合、そのタグが添付されたデータが検索キーワードを含むデータであると特定される。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Boneh、Di Crescenzo、Ostrovski、and Persiano“Public key encryption with keyword search” EUROCRYPT 2004、pp506−522
【発明の概要】
【発明が解決しようとする課題】
【0005】
遺伝子情報の検索システムにおいて、既存遺伝子情報は暗号化されずにDBに蓄積されており、サンプル遺伝子情報も暗号化されずに検索システムに入力される。仮に、既存遺伝子情報が暗号化された状態でDBに蓄積されており、サンプル遺伝子情報も暗号化された状態で検索システムに入力されたとしても、DBからデータを検索する際、既存遺伝子情報とサンプル遺伝子情報とは少なくとも一時的に復号されてしまう。
そのため、機密データである既存遺伝子情報やサンプル遺伝子情報が漏洩する虞がある。たとえ、検索システムがインハウスで構築されていたとしても、既存遺伝子情報やサンプル遺伝子情報が暗号化されていない以上、既存遺伝子情報やサンプル遺伝子情報は漏洩する虞がある。
【0006】
検索可能暗号を利用して、遺伝子情報の検索システムを構築した場合、既存遺伝子情報とサンプル遺伝子情報との両方を暗号化した状態で検索処理を行えるため、既存遺伝子情報とサンプル遺伝子情報との漏洩を防ぐことができる。
しかし、遺伝子情報の検索は特殊であり、適切なタグを抽出しなければ有効な遺伝子情報の検索システムを構築することはできない。
【0007】
この発明は、遺伝子情報の検索システムにおいて、既存遺伝子情報やサンプル遺伝子情報の漏洩を防ぐことを目的とする。
【課題を解決するための手段】
【0008】
この発明に係る遺伝子情報検索システムは、
遺伝子情報を記憶する遺伝子情報記憶装置と、前記遺伝子情報記憶装置が記憶した遺伝子情報から検索情報を含む遺伝子情報を検索する遺伝子情報検索装置とを備える遺伝子情報検索システムであり、
前記遺伝子情報記憶装置は、
N個(Nは1以上の整数)の単位情報が順に並んだ遺伝子情報から、連続するW個(Wは1以上N以下の整数)の単位情報を遺伝子タグとして、先頭から順に1単位情報づつずらしながら(N−W+1)個抽出する遺伝子タグ抽出部と、
前記遺伝子タグ抽出部が抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成する暗号化タグ生成部と、
前記暗号化タグ生成部が生成した(N−W+1)個の暗号化タグを、前記遺伝子情報と関連付けて記憶装置に記憶する遺伝子情報記憶部と
を備え、
前記遺伝子情報検索装置は、
L個(Lは1以上の整数)の単位情報が順に並んだ検索情報を入力する検索情報入力部と、
前記検索情報入力部が入力した検索情報から、連続する前記W個の単位情報を検索タグとして、先頭から順に1単位情報づつずらしながら(L−W+1)個抽出する検索タグ抽出部と、
前記検索タグ抽出部が抽出した(L−W+1)個の検索タグそれぞれを、暗号化して(N−W+1)個のクエリータグを生成するクエリータグ生成部と、
前記クエリータグ生成部が生成した(L−W+1)個のクエリータグを送信して、送信したクエリータグに基づき、前記遺伝子情報記憶部が記憶した遺伝子情報から前記検索情報を含む遺伝子情報を検索させるクエリータグ送信部と
を備えることを特徴とする。
【0009】
前記暗号化タグ生成部は、前記遺伝子情報を暗号化して暗号化遺伝子情報を生成するとともに、前記遺伝子タグ抽出部が抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成し、
前記遺伝子情報記憶部は、(N−W+1)個の暗号化タグを、前記暗号化遺伝子情報と関連付けて記憶する
ことを特徴とする。
【0010】
前記遺伝子情報記憶部は、前記暗号化タグと前記遺伝子情報とを記憶する場合、可逆圧縮方式により圧縮して記憶し、
前記遺伝子情報検索部は、前記遺伝子情報記憶部が圧縮して記憶した暗号化タグを展開して、展開した暗号化タグと前記クエリータグとに基づき、前記検索情報を含む遺伝子情報を検索する
ことを特徴とする。
【0011】
この発明に係る遺伝子情報記憶装置は、
遺伝子情報を記憶する遺伝子情報記憶装置であり、
N個(Nは1以上の整数)の単位情報が順に並んだ遺伝子情報から、連続するW個(Wは1以上N以下の整数)の単位情報を遺伝子タグとして、先頭から順に1単位情報づつずらしながら(N−W+1)個抽出する遺伝子タグ抽出部と、
前記遺伝子タグ抽出部が抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成する暗号化タグ生成部と、
前記暗号化タグ生成部が生成した(N−W+1)個の暗号化タグを、前記遺伝子情報と関連付けて記憶装置に記憶する遺伝子情報記憶部と
を備えることを特徴とする。
【0012】
この発明に係る遺伝子情報検索装置は、
L個(Lは1以上の整数)の単位情報が順に並んだ検索情報を入力する検索情報入力部と、
前記検索情報入力部が入力した検索情報から、連続するW個(Wは1以上L以下の整数)の単位情報を検索タグとして、先頭から順に1単位情報づつずらしながら(L−W+1)個抽出する検索タグ抽出部と、
前記検索タグ抽出部が抽出した(L−W+1)個の検索タグそれぞれを、暗号化して(N−W+1)個のクエリータグを生成するクエリータグ生成部と、
前記クエリータグ生成部が生成した(L−W+1)個のクエリータグを所定の装置へ送信して、送信したクエリータグに基づき、前記検索情報を含む遺伝子情報を検索させるクエリータグ送信部と
を備えることを特徴とする。
【0013】
この発明に係る遺伝子情報記憶プログラムは、
遺伝子情報を記憶する遺伝子情報記憶プログラムであり、
N個(Nは1以上の整数)の単位情報が順に並んだ遺伝子情報から、連続するW個(Wは1以上N以下の整数)の単位情報を遺伝子タグとして、先頭から順に1単位情報づつずらしながら(N−W+1)個抽出する遺伝子タグ抽出処理と、
前記遺伝子タグ抽出処理で抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成する暗号化タグ生成処理と、
前記暗号化タグ生成処理で生成した(N−W+1)個の暗号化タグを、前記遺伝子情報と関連付けて記憶装置に記憶する遺伝子情報記憶処理と
をコンピュータに実行させることを特徴とする。
【0014】
この発明に係る遺伝子情報検索プログラムは、
L個(Lは1以上の整数)の単位情報が順に並んだ検索情報を入力する検索情報入力処理と、
前記検索情報入力処理で入力した検索情報から、連続するW個(Wは1以上L以下の整数)の単位情報を検索タグとして、先頭から順に1単位情報づつずらしながら(L−W+1)個抽出する検索タグ抽出処理と、
前記検索タグ抽出処理で抽出した(L−W+1)個の検索タグそれぞれを、暗号化して(N−W+1)個のクエリータグを生成するクエリータグ生成処理と、
前記クエリータグ生成処理で生成した(L−W+1)個のクエリータグを所定の装置へ送信して、送信したクエリータグに基づき、前記検索情報を含む遺伝子情報を検索させるクエリータグ送信処理と
をコンピュータに実行させることを特徴とする。
【0015】
この発明に係る遺伝子情報記憶方法は、
遺伝子情報を記憶する遺伝子情報記憶方法であり、
処理装置が、N個(Nは1以上の整数)の単位情報が順に並んだ遺伝子情報から、連続するW個(Wは1以上N以下の整数)の単位情報を遺伝子タグとして、先頭から順に1単位情報づつずらしながら(N−W+1)個抽出する遺伝子タグ抽出ステップと、
処理装置が、前記遺伝子タグ抽出ステップで抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成する暗号化タグ生成ステップと、
記憶装置が、前記暗号化タグ生成ステップで生成した(N−W+1)個の暗号化タグを、前記遺伝子情報と関連付けて記憶する遺伝子情報記憶ステップと
を備えることを特徴とする。
【0016】
この発明に係る遺伝子情報検索方法は、
入力装置が、L個(Lは1以上の整数)の単位情報が順に並んだ検索情報を入力する検索情報入力ステップと、
処理装置が、前記検索情報入力ステップで入力した検索情報から、連続するW個(Wは1以上L以下の整数)の単位情報を検索タグとして、先頭から順に1単位情報づつずらしながら(L−W+1)個抽出する検索タグ抽出ステップと、
処理装置が、前記検索タグ抽出ステップで抽出した(L−W+1)個の検索タグそれぞれを、暗号化して(N−W+1)個のクエリータグを生成するクエリータグ生成ステップと、
通信装置が、前記クエリータグ生成ステップで生成した(L−W+1)個のクエリータグを所定の装置へ送信して、送信したクエリータグに基づき、前記検索情報を含む遺伝子情報を検索させるクエリータグ送信ステップと
を備えることを特徴とする。
【発明の効果】
【0017】
この発明に係る遺伝子情報検索システムでは、検索可能暗号技術を用いるとともに、適切な暗号化タグとクエリータグとを設定した。そのため、既存遺伝子情報やサンプル遺伝子情報の流出を防ぐとともに、有効な遺伝子情報の検索を行うことができる。
【図面の簡単な説明】
【0018】
【図1】検索可能暗号の説明図。
【図2】実施の形態1に係る遺伝子情報検索システム100の構成図。
【図3】実施の形態1に係る遺伝子情報検索システム100の既存遺伝子情報を記憶する処理を示すフローチャート。
【図4】遺伝子タグを抽出する処理の説明図。
【図5】実施の形態1に係る遺伝子情報検索システム100のサンプル遺伝子情報を検索する処理を示すフローチャート。
【図6】検索タグを抽出する処理の説明図。
【図7】遺伝子情報記憶装置10、遺伝子情報検索装置20のハードウェア構成の一例を示す図。
【発明を実施するための形態】
【0019】
以下、図に基づき、発明の実施の形態を説明する。
以下の説明において、処理装置は後述するCPU911等である。記憶装置は後述するROM913、RAM914、磁気ディスク920等である。入力装置はキーボード902、マウス903等である。通信装置は後述する通信ボード915等である。つまり、処理装置、記憶装置、入力装置、通信装置はハードウェアである。
【0020】
実施の形態1.
まず、遺伝子技術に関する背景について説明する。
【0021】
塩基配列、アミノ酸配列等の遺伝子情報は、人間や動物では創薬や再生医療に利用され、植物や家畜・ペットなどでは品種改良や飼料、除草剤などの薬の開発に利用される、貴重で価値の高い情報である。
【0022】
具体的には、遺伝子情報には以下のような利用方法がある。
例えば、遺伝子技術を人間や動物に適用した場合、遺伝子の操作や組み換え技術を利用して、優れた形質であると判明した遺伝子を挿入することで、優れた生命体を誕生させることや、大腸菌内でインシュリンを大量生産するなど、生物の体内で有用物質を多量に生産させたりすることができる。また、例えば、病気を引き起こしている遺伝子を特定できれば、その遺伝子を取り除く(その病気を発現しなくする)薬の開発に資することができる。
また、遺伝子技術を植物に適用した場合、例えば遺伝子発現を制御するスイッチが解明されれば、開花時期や、花の色や模様、或いは紅葉を生じさせたりできるようになる。また、害虫に強い、気象ストレスに強い、そして生産性の高い作物を作り出す事も可能であり、これは世界的な食糧不足の時代にとって重要である。
【0023】
遺伝子技術では、対象となる遺伝子情報(サンプル遺伝子情報)を、既知の遺伝子情報(既存遺伝子情報)と比較して、サンプル遺伝子情報と一致するあるいは類似する既存遺伝子情報を特定することが基本であり、重要である。一致するあるいは類似する既存遺伝子情報が特定されると、その既存遺伝子情報に基づき、サンプル遺伝子情報を分類するとともに、サンプル遺伝子情報の性質を予見して、科学的な分析が行われる。
したがって、既存遺伝子情報をDBに蓄積しておき、サンプル遺伝子情報と一致するあるいは類似する既存遺伝子情報を検索する検索システムが、遺伝子技術においては重要である。
【0024】
また、遺伝子情報の解析を行うシーケンサーの発展により、人間個々人の遺伝子情報(DNA)を短時間でかつ安価に解読可能である。そのため、例えば、患者の遺伝子情報を保管しておき、保管した患者の遺伝子情報から、病気の原因となる遺伝子情報を検索し、治療することも可能となる。その意味でも、遺伝子情報を蓄積しておき、蓄積した遺伝子情報から所定の遺伝子情報を検索する検索システムは重要である。
【0025】
なお、個々人の遺伝子情報は、流出することが許されない個人情報であり、安全に保管する必要がある。また、遺伝子情報は、個々人の遺伝子情報以外であっても非常に高価で、貴重なため、競争会社に漏れないようにしなければならない。
また、検索キーワードとして使用されるサンプル遺伝子情報は、多大な時間と費用をかけ、研究や実験の成果として取得したものであり、企業や研究者にとって最高機密に当たる貴重なものである。
したがって、DBに蓄積しておく遺伝子情報や、検索キーワードとして使用する遺伝子情報が漏洩しないように注意しなければならない。
【0026】
そのため、検索システムをインハウスで構築することなどが考えられる。しかしながら遺伝子情報は多量で、例えば一人分の遺伝子情報は3ギガバイトある。例えば、病院で全ての患者の遺伝子情報を保管するためのIT設備を独自に持つ事は資金面等から困難である。
したがって、クラウド等、外部の計算機資源を利用しつつ、情報の漏洩を防止した検索システムを構築することが望ましい。なお、クラウドでは、自前で計算機やストレージ(DB)やソフトウェア等の計算機資源を持たず、インターネットの中に共同利用できる形で計算機資源を持つ。クラウドを利用する場合、ユーザは、このインターネット上に置かれた計算機資源を、使用時間や使用容量を使用料という形で共同利用することになる。
【0027】
クラウド等を利用しつつ、情報の漏洩を防止する手段として、情報を暗号化することが考えられる。つまり、既存遺伝子情報を暗号化した上でDBに蓄積しておき、検索を実行する際、サンプル遺伝子情報を暗号化した上で入力することが考えられる。
しかし、通常の検索システムでは、情報を暗号化したまま検索を実行することはできない。つまり、通常の検索システムでは、暗号化された既存遺伝子情報から、暗号化されたサンプル遺伝子情報と一致あるいは類似する遺伝子データを検索することはできない。そのため、既存遺伝子情報を暗号化した上でDBに蓄積しておき、サンプル遺伝子情報を暗号化した上で入力したとしても、検索を実行する場合には両方を一旦復号しなければならず、このときに情報漏洩のリスクを伴う。
【0028】
そこで、DBに蓄積されたデータと検索キーワードとを暗号化した状態で、DBに蓄積されたデータから検索キーワードを含むデータを検索可能とする検索可能暗号を用いることが考えられる。
図1は、検索可能暗号の説明図である。
検索可能暗号では、DBにデータを記憶する際、そのデータを検索する場合に用いられると想定される検索キーワードをタグとして抽出する。次に、データを暗号化して暗号化データとするとともに、抽出した各タグを暗号化して暗号化タグとする。そして、暗号化データに各暗号化タグを添付してDBに記憶する。
図1では、データAを記憶する際、データAを検索する場合に用いられると想定される検索キーワードとして、データAからタグA1、タグA2、・・・が抽出される。次に、データAが暗号化され暗号化データAとされ、各タグが暗号化され暗号化タグA1、暗号化タグA2、・・・とされる。そして、暗号化データAに、暗号化タグA1、暗号化タグA2、・・・が添付されて、DBに記憶される。
DBに蓄積されたデータから検索キーワードを含むデータを検索する場合、検索キーワードを暗号化してクエリータグとした上で入力する。そして、クエリータグに対応する暗号化タグをDBから検索する。クエリータグに対応する暗号化タグが見つかった場合、その暗号化タグが添付された暗号化データが検索キーワードを含むデータであると特定される。
なお、データやタグを暗号化する方法、検索キーワードを暗号化する方法は、用いる検索可能暗号の方式による。例えば、公開鍵暗号方式に基づく検索可能暗号であれば、データやタグは公開鍵で暗号化され、検索キーワードは秘密鍵で暗号化される場合もある。
同様に、クエリータグに対応する暗号化タグを見つける方法は、用いる検索可能暗号の方式による。例えば、暗号化タグとクエリータグとが一致した場合、その暗号化タグはそのクエリータグに対応すると判定する場合や、暗号化タグとクエリータグとについて、所定の演算を行った結果が1になれば、その暗号化タグはそのクエリータグに対応すると判定する場合等がある。
【0029】
ここで、遺伝子情報における検索処理は、BLAST等のホモロジー検索と呼ばれる特殊な検索処理である。そのため、検索可能暗号を用いて検索システムを構築する場合、データに添付するタグの作り方(抽出の仕方)に工夫が必要である。また、クエリータグも、単に検索したいサンプル遺伝子情報をそのまま暗号化して用いることはできず、工夫が必要である。
ホモロジー検索では、例えば、サンプル遺伝子情報に含まれる連続するW個の単位情報(塩基やアミノ酸)が、既存遺伝子情報に連続して含まれる場合、検索ヒットとしている。ここで、塩基であればWは例えば11であるし、アミノ酸であればWは例えば3である。なお、以下の説明では、例として塩基を用いて説明する。
以下に説明する実施の形態1に係る遺伝子情報検索システム100では、このホモロジー検索を可能とする暗号化タグやクエリータグを生成する。
【0030】
実施の形態1に係る遺伝子情報検索システム100について説明する。
図2は、実施の形態1に係る遺伝子情報検索システム100の構成図である。
図2に示すように、遺伝子情報検索システム100は、遺伝子情報記憶装置10と遺伝子情報検索装置20とを備える。
遺伝子情報記憶装置10は、遺伝子情報入力部11、遺伝子タグ抽出部12、暗号化部13(暗号化タグ生成部)、遺伝子情報記憶部14、遺伝子情報検索部15を備える。
遺伝子情報検索装置20は、検索情報入力部21、検索タグ抽出部22、クエリータグ生成部23、クエリータグ送信部24、遺伝子情報取得部25を備える。
【0031】
図3は、実施の形態1に係る遺伝子情報検索システム100の既存遺伝子情報を記憶する処理を示すフローチャートである。図4は、遺伝子タグを抽出する処理の説明図である。
(S11:遺伝子情報入力ステップ)
遺伝子情報入力部11は、N個(Nは1以上の整数)の塩基を表す文字(A、C、G、Tのいずれか)が順に並んだ遺伝子情報を入力装置により入力する。
(S12:遺伝子タグ抽出ステップ)
遺伝子タグ抽出部12は、遺伝子情報入力部11が入力した遺伝子情報から、連続するW個(Wは1以上N以下の整数)の文字列を遺伝子タグとして、先頭から順に1文字づつずらしながら(N−W+1)個、処理装置により抽出する(図4参照)。例えば、Nが20、Wが11であれば、遺伝子タグ抽出部12は、入力された遺伝子情報の1文字目から11文字目までと、2文字目から12文字目までと、・・・10文字目から20文字目までとの10(=20−11+1)個の文字列を遺伝子タグとして抽出する。
(S13:暗号化タグ生成ステップ)
次に、暗号化部13は、遺伝子タグ抽出部12が抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを処理装置により生成する。また、暗号化部13は、遺伝子情報入力部11が入力した遺伝子情報を暗号化して暗号化遺伝子情報を生成する。なお、暗号化の方法は、用いる検索可能暗号の方式による。
(S14:遺伝子情報記憶ステップ)
遺伝子情報記憶部14は、暗号化部13が生成した(N−W+1)個の暗号化タグを、暗号化部13が生成した暗号化遺伝子情報に添付して(関連付けて)DBに記憶する。
なお、暗号化タグと暗号化遺伝子情報とを記憶するDBは、遺伝子情報記憶装置10の外部に備えていてもよいし、内部に備えていてもよい。例えば、クラウドを利用する場合には、前記DBはクラウド上、つまりインターネット等のネットワークを介して接続されたデータセンタ等のサーバに存在することになる。
【0032】
図5は、実施の形態1に係る遺伝子情報検索システム100のサンプル遺伝子情報を検索する処理を示すフローチャートである。図6は、検索タグを抽出する処理の説明図である。
まず、遺伝子情報検索装置20側の処理が実行される。
(S21:検索情報入力ステップ)
検索情報入力部21は、L個(Lは1以上の整数)の塩基を表す文字が順に並んだサンプル遺伝子情報を検索情報として入力装置により入力する。
(S22:検索タグ抽出ステップ)
検索タグ抽出部22は、検索情報入力部21が入力した検索情報から、連続するW個の文字列を検索タグとして、先頭から順に1文字づつずらしながら(L−W+1)個、処理装置により抽出する(図6参照)。例えば、Lが15、Wが11であれば、検索タグ抽出部22は、入力された遺伝子情報の1文字目から11文字目までと、2文字目から12文字目までと、・・・5文字目から15文字目までとの5(15−11+1)個の文字列を遺伝子タグとして抽出する。
(S23:クエリータグ生成ステップ)
クエリータグ生成部23は、検索タグ抽出部22が抽出した(L−W+1)個の検索タグそれぞれを、暗号化して(N−W+1)個のクエリータグを生成する。なお、暗号化の方法は、用いる検索可能暗号の方式による。
(S24:クエリータグ送信ステップ)
クエリータグ送信部24は、クエリータグ生成部23が生成した(L−W+1)個のクエリータグそれぞれを、遺伝子情報記憶装置10へ通信装置を介して送信する。
【0033】
クエリータグが送信されると、遺伝子情報記憶装置10側の処理が実行される。
(S25:遺伝子情報検索ステップ)
遺伝子情報検索部15は、上述した既存遺伝子情報を記憶する処理で、遺伝子情報記憶部14が記憶した暗号化タグと、クエリータグ送信部24が送信したクエリータグとに基づき、遺伝子情報記憶部14が記憶した暗号化遺伝子情報からサンプル遺伝子情報を含む暗号化遺伝子情報を処理装置により検索する。ここでは、クエリータグ送信部24が送信したクエリータグのうち、いずれかのクエリータグに対応する暗号化タグが添付された暗号化遺伝子情報を検索する。
そして、検索された暗号化遺伝子情報を、遺伝子情報検索装置20へ通信装置を介して送信する。なお、検索ヒットした暗号化遺伝子情報がなければ、遺伝子情報検索部15は、検索ヒットするデータがないことを遺伝子情報検索装置20へ通知する。
【0034】
暗号化遺伝子情報が送信されると、再び遺伝子情報検索装置20側の処理が実行される。
(S26:遺伝子情報取得ステップ)
遺伝子情報取得部25は、送信された暗号化遺伝子情報を受信する。そして、遺伝子情報取得部25は、受信した暗号化遺伝子情報を復号して、遺伝子情報を取得する。なお、復号の方法は、用いる検索可能暗号の方式による。
【0035】
以上のように、遺伝子情報検索システム100は、遺伝子情報を暗号化した上で、遺伝子情報記憶部14に蓄積する。そのため、遺伝子情報記憶部14に蓄積されたデータが漏洩したとしても、遺伝子情報が漏洩することを防止できる。
また、遺伝子情報検索システム100は、サンプル遺伝子情報も暗号化した上で送信する。そのため、サンプル遺伝子情報が漏洩することも防止できる。
特に、遺伝子情報検索システム100は、遺伝子情報記憶部14に蓄積された遺伝子情報と、サンプル遺伝子情報とのどちらも暗号化されたままで、検索処理を行う。つまり、検索処理を行う際に、一時的に遺伝子情報やサンプル遺伝子情報が復号され、漏洩する危険性がない。
【0036】
なお、ここでは、遺伝子情報記憶装置10が遺伝子情報検索部15を備えるものとして説明した。しかし、遺伝子情報検索部15は、遺伝子情報記憶装置10とは別の設けられていてもよい。例えば、暗号化タグと暗号化遺伝子情報とを記憶するDBがクラウド上に設けられている場合、遺伝子情報検索部15もクラウド上に設けてもよい。
この場合であっても、ネットワークを介して送受信されるデータはどれも暗号化されているため、遺伝子情報やサンプル遺伝子情報が漏洩することはない。
また、このように、暗号化タグと暗号化遺伝子情報とを記憶するDBや、遺伝子情報検索部15をクラウド上に設けても、クラウドに設けられた機能では、暗号化遺伝子情報やクエリータグを復号することはできない。したがって、遺伝子情報やサンプル遺伝子情報が漏洩することはない。
【0037】
また、ここでは、(S13)で遺伝子タグだけでなく、遺伝子情報も暗号化し、(S14)でDBに記憶するとした。しかし、遺伝子情報については、一般に公開されており、秘密にする必要がない場合も考えられる。この場合、(S13)で遺伝子タグだけを暗号化し、遺伝子情報は暗号化せず平文のままとし、(S14)でDBに記憶してもよい。この場合であっても、検索時において、検索キーワードとして使用されるサンプル遺伝子情報は暗号化した上で送信されるため、サンプル遺伝子情報が漏洩することを防止できる。
【0038】
ここで、暗号化遺伝子情報に暗号化タグを添付してDBに記憶した場合、DBに記憶されるデータのサイズが非常に大きくなる虞がある。例えば、人の場合、一人分の遺伝子情報のデータサイズが約3ギガバイトである。そのため、上述したように、遺伝子情報に、暗号化タグを添付する場合、仮に暗号化前と暗号化後とでデータサイズが変わらないとしても、「3ギガバイト+(3ギガ+11−1)×11バイト」になる。つまり、約3×12(=36)ギガバイトになる。例えば、病院で全ての患者の遺伝子情報を記憶する場合、「約36ギガバイト×患者の人数」のDB容量が必要となる。
記憶装置が安価になっており、実現することも可能であるかもしれないが、できる限りデータサイズを抑えることが望ましい。そこで、暗号化遺伝子情報と暗号化タグとをそれぞれ、圧縮前のデータに復元可能な可逆式の圧縮方式で圧縮した上で、DBに記憶してもよい。また、塩基はA、T、C、Gの4種であるため、各塩基を2ビット表記に変換した上で、DBに記憶してもよい。
【0039】
また、植物や人間以外の動物の遺伝子情報のように、個人情報が含まれない遺伝子情報には、一般に公開されているものもある。この場合、一般に公開されているのであるから、遺伝子情報は暗号化されずにDBに記憶されている。
しかし、このように一般に公開された遺伝子情報からサンプル遺伝子情報を検索する場合であっても、サンプル遺伝子情報は企業や研究者にとって貴重なものであり、漏洩を防ぐ必要がある。そのため、サンプル遺伝子情報は暗号化した上で送信する必要がある。
この場合、サンプル遺伝子情報を上述したクエリータグとして暗号化した上で送信するとともに、暗号化されずにDBに記憶されている遺伝子情報に対して、事前に、あるいは、検索実行時に、上述した暗号化タグを生成し添付する。これにより、サンプル遺伝子情報の漏洩を防止しつつ、一般に公開されている遺伝子情報からサンプル遺伝子情報の検索をすることが可能となる。
【0040】
次に、実施の形態における遺伝子情報記憶装置10、遺伝子情報検索装置20のハードウェア構成について説明する。
図7は、遺伝子情報記憶装置10、遺伝子情報検索装置20のハードウェア構成の一例を示す図である。
図7に示すように、遺伝子情報記憶装置10、遺伝子情報検索装置20は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、LCD901(Liquid Crystal Display)、キーボード902(K/B)、通信ボード915、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920(固定ディスク装置)の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。磁気ディスク装置920は、所定の固定ディスクインタフェースを介して接続される。
【0041】
磁気ディスク装置920又はROM913などには、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
【0042】
プログラム群923には、上記の説明において「遺伝子情報入力部11」、「遺伝子タグ抽出部12」、「暗号化部13」、「遺伝子情報記憶部14」、「遺伝子情報検索部15」、「検索情報入力部21」、「検索タグ抽出部22」、「クエリータグ生成部23」、「クエリータグ送信部24」、「遺伝子情報取得部25」等として説明した機能を実行するソフトウェアやプログラムやその他のプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、上記の説明において「遺伝子情報」、「遺伝子タグ」、「暗号化遺伝子情報」、「暗号化タグ」、「サンプル遺伝子情報」、「検索タグ」、「クエリータグ」等の情報やデータや信号値や変数値やパラメータが、「データベース」の各項目として記憶される。「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPU911の動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPU911の動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
【0043】
また、上記の説明におけるフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、その他光ディスク等の記録媒体やICチップに記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体や電波によりオンライン伝送される。
また、上記の説明において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」、「〜機能」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。また、「〜装置」として説明するものは、「〜回路」、「〜機器」、「〜手段」、「〜機能」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。さらに、「〜処理」として説明するものは「〜ステップ」であっても構わない。すなわち、「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、ROM913等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、上記で述べた「〜部」としてコンピュータ等を機能させるものである。あるいは、上記で述べた「〜部」の手順や方法をコンピュータ等に実行させるものである。
【符号の説明】
【0044】
100 遺伝子情報検索システム、10 遺伝子情報記憶装置、11 遺伝子情報入力部、12 遺伝子タグ抽出部、13 暗号化部、14 遺伝子情報記憶部、15 遺伝子情報検索部、20 遺伝子情報検索装置、21 検索情報入力部、22 検索タグ抽出部、23 クエリータグ生成部、24 クエリータグ送信部、25 遺伝子情報取得部。

【特許請求の範囲】
【請求項1】
遺伝子情報を記憶する遺伝子情報記憶装置と、前記遺伝子情報記憶装置が記憶した遺伝子情報から検索情報を含む遺伝子情報を検索する遺伝子情報検索装置とを備える遺伝子情報検索システムであり、
前記遺伝子情報記憶装置は、
N個(Nは1以上の整数)の単位情報が順に並んだ遺伝子情報から、連続するW個(Wは1以上N以下の整数)の単位情報を遺伝子タグとして、先頭から順に1単位情報づつずらしながら(N−W+1)個抽出する遺伝子タグ抽出部と、
前記遺伝子タグ抽出部が抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成する暗号化タグ生成部と、
前記暗号化タグ生成部が生成した(N−W+1)個の暗号化タグを、前記遺伝子情報と関連付けて記憶装置に記憶する遺伝子情報記憶部と
を備え、
前記遺伝子情報検索装置は、
L個(Lは1以上の整数)の単位情報が順に並んだ検索情報を入力する検索情報入力部と、
前記検索情報入力部が入力した検索情報から、連続する前記W個の単位情報を検索タグとして、先頭から順に1単位情報づつずらしながら(L−W+1)個抽出する検索タグ抽出部と、
前記検索タグ抽出部が抽出した(L−W+1)個の検索タグそれぞれを、暗号化して(N−W+1)個のクエリータグを生成するクエリータグ生成部と、
前記クエリータグ生成部が生成した(L−W+1)個のクエリータグを送信して、送信したクエリータグに基づき、前記遺伝子情報記憶部が記憶した遺伝子情報から前記検索情報を含む遺伝子情報を検索させるクエリータグ送信部と
を備えることを特徴とする遺伝子情報検索システム。
【請求項2】
前記暗号化タグ生成部は、前記遺伝子情報を暗号化して暗号化遺伝子情報を生成するとともに、前記遺伝子タグ抽出部が抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成し、
前記遺伝子情報記憶部は、(N−W+1)個の暗号化タグを、前記暗号化遺伝子情報と関連付けて記憶する
ことを特徴とする請求項1に記載の遺伝子情報検索システム。
【請求項3】
前記遺伝子情報記憶部は、前記暗号化タグと前記遺伝子情報とを記憶する場合、可逆圧縮方式により圧縮して記憶し、
前記遺伝子情報検索部は、前記遺伝子情報記憶部が圧縮して記憶した暗号化タグを展開して、展開した暗号化タグと前記クエリータグとに基づき、前記検索情報を含む遺伝子情報を検索する
ことを特徴とする請求項1又は2に記載の遺伝子情報検索システム。
【請求項4】
遺伝子情報を記憶する遺伝子情報記憶装置であり、
N個(Nは1以上の整数)の単位情報が順に並んだ遺伝子情報から、連続するW個(Wは1以上N以下の整数)の単位情報を遺伝子タグとして、先頭から順に1単位情報づつずらしながら(N−W+1)個抽出する遺伝子タグ抽出部と、
前記遺伝子タグ抽出部が抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成する暗号化タグ生成部と、
前記暗号化タグ生成部が生成した(N−W+1)個の暗号化タグを、前記遺伝子情報と関連付けて記憶装置に記憶する遺伝子情報記憶部と
を備えることを特徴とする遺伝子情報記憶装置。
【請求項5】
L個(Lは1以上の整数)の単位情報が順に並んだ検索情報を入力する検索情報入力部と、
前記検索情報入力部が入力した検索情報から、連続するW個(Wは1以上L以下の整数)の単位情報を検索タグとして、先頭から順に1単位情報づつずらしながら(L−W+1)個抽出する検索タグ抽出部と、
前記検索タグ抽出部が抽出した(L−W+1)個の検索タグそれぞれを、暗号化して(N−W+1)個のクエリータグを生成するクエリータグ生成部と、
前記クエリータグ生成部が生成した(L−W+1)個のクエリータグを所定の装置へ送信して、送信したクエリータグに基づき、前記検索情報を含む遺伝子情報を検索させるクエリータグ送信部と
を備えることを特徴とする遺伝子情報検索装置。
【請求項6】
遺伝子情報を記憶する遺伝子情報記憶プログラムであり、
N個(Nは1以上の整数)の単位情報が順に並んだ遺伝子情報から、連続するW個(Wは1以上N以下の整数)の単位情報を遺伝子タグとして、先頭から順に1単位情報づつずらしながら(N−W+1)個抽出する遺伝子タグ抽出処理と、
前記遺伝子タグ抽出処理で抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成する暗号化タグ生成処理と、
前記暗号化タグ生成処理で生成した(N−W+1)個の暗号化タグを、前記遺伝子情報と関連付けて記憶装置に記憶する遺伝子情報記憶処理と
をコンピュータに実行させることを特徴とする遺伝子情報記憶プログラム。
【請求項7】
L個(Lは1以上の整数)の単位情報が順に並んだ検索情報を入力する検索情報入力処理と、
前記検索情報入力処理で入力した検索情報から、連続するW個(Wは1以上L以下の整数)の単位情報を検索タグとして、先頭から順に1単位情報づつずらしながら(L−W+1)個抽出する検索タグ抽出処理と、
前記検索タグ抽出処理で抽出した(L−W+1)個の検索タグそれぞれを、暗号化して(N−W+1)個のクエリータグを生成するクエリータグ生成処理と、
前記クエリータグ生成処理で生成した(L−W+1)個のクエリータグを所定の装置へ送信して、送信したクエリータグに基づき、前記検索情報を含む遺伝子情報を検索させるクエリータグ送信処理と
をコンピュータに実行させることを特徴とする遺伝子情報検索プログラム。
【請求項8】
遺伝子情報を記憶する遺伝子情報記憶方法であり、
処理装置が、N個(Nは1以上の整数)の単位情報が順に並んだ遺伝子情報から、連続するW個(Wは1以上N以下の整数)の単位情報を遺伝子タグとして、先頭から順に1単位情報づつずらしながら(N−W+1)個抽出する遺伝子タグ抽出ステップと、
処理装置が、前記遺伝子タグ抽出ステップで抽出した(N−W+1)個の遺伝子タグそれぞれを、暗号化して(N−W+1)個の暗号化タグを生成する暗号化タグ生成ステップと、
記憶装置が、前記暗号化タグ生成ステップで生成した(N−W+1)個の暗号化タグを、前記遺伝子情報と関連付けて記憶する遺伝子情報記憶ステップと
を備えることを特徴とする遺伝子情報記憶方法。
【請求項9】
入力装置が、L個(Lは1以上の整数)の単位情報が順に並んだ検索情報を入力する検索情報入力ステップと、
処理装置が、前記検索情報入力ステップで入力した検索情報から、連続するW個(Wは1以上L以下の整数)の単位情報を検索タグとして、先頭から順に1単位情報づつずらしながら(L−W+1)個抽出する検索タグ抽出ステップと、
処理装置が、前記検索タグ抽出ステップで抽出した(L−W+1)個の検索タグそれぞれを、暗号化して(N−W+1)個のクエリータグを生成するクエリータグ生成ステップと、
通信装置が、前記クエリータグ生成ステップで生成した(L−W+1)個のクエリータグを所定の装置へ送信して、送信したクエリータグに基づき、前記検索情報を含む遺伝子情報を検索させるクエリータグ送信ステップと
を備えることを特徴とする遺伝子情報検索方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−73693(P2012−73693A)
【公開日】平成24年4月12日(2012.4.12)
【国際特許分類】
【出願番号】特願2010−216342(P2010−216342)
【出願日】平成22年9月28日(2010.9.28)
【出願人】(591102095)三菱スペース・ソフトウエア株式会社 (148)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】