説明

ゲノム情報への情報の埋込装置およびゲノム情報からの情報の抽出装置

【課題】 タンパク質に翻訳される配列の機能に変更を加えることなく、ゲノム情報に任意の付加情報を埋め込み、抽出することが可能であると共に、オリジナル配列を復元することが可能なゲノム情報への情報の埋込装置、ゲノム情報からの情報の抽出装置を提供する。
【解決手段】 全体塩基配列中から、参照領域設定手段10が参照領域Yを設定すると共に、埋込領域設定手段20が埋込領域Xを設定した後、コドン出現頻度算出手段30が、参照領域Yにおける各コドンの出現頻度を算出する。同義コドン置換テーブル作成手段40は、算出された出現頻度に基づいて、同義である出現コドンと非出現コドンを対応づけた同義コドン置換テーブルを作成し、同義コドン置換手段60が、埋め込むべき付加情報のビット値に応じて、埋込領域Xにおける各コドンを、同義コドン置換テーブルを用いて非出現コドンに置き換える処理を行い、埋込後の埋込領域Xが得られる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、バイオインフォマティクス、ゲノム創薬、バイオ新素材開発などゲノム情報データベースの構築、検索、配布、流通を行う分野に関する。
【背景技術】
【0002】
ゲノム情報は、A、G、C、Tの4種の塩基の組み合わせで構成されるDNA配列の集合体である。ヒトゲノム解読プロジェクトの終了に伴い、あらゆる生物情報のなかでゲノムに関するデータベースが多く蓄積されている。DNAサンプルは、PCR法の発明により配列データと同様に機械的に複製可能になり、DNAシーケンサやDNAチップの進歩により個人ごとのDNA情報も今後解析が活発に行われるものと考えられている。
【0003】
これらDNA情報は、配列データおとび生モノのDNAサンプルの双方で保存され、医療・創薬など種々の分野に対してコピー配布され始めている。将来的に遺伝子治療が活発になると、移植医療と同様にDNA配列がヒトの細胞に移植されるようになり、移植医療における埋め込まれた人工臓器の追跡可能性の保証(トレーサビリティ)と同様なシステムが求められることが予想される。なお、既に人工臓器においては製造番号、シリアル番号などのIDの付与が義務化され実施されている。
【発明の開示】
【発明が解決しようとする課題】
【0004】
DNA配列にID等の情報を埋め込む手法としては、アノテーション情報として記述する手法、非コーディング領域に記述する手法、コーディング領域に記述する手法の3種が考えられる。このうち、アノテーション情報として記述する手法の場合、アノテーションは、人間がデータを読むのを助けるためにDNA配列に付加された人為的な情報であり、容易に削除・編集できるため、セキュリティ性はほとんどない。
【0005】
非コーディング領域に記述する手法は、DNA配列において、タンパク質に翻訳される情報が記述されていない非コーディング領域に記述するものである。高等生物では、非コーディング領域の割合が多いため、この領域にA、G、C、Tの4種の塩基の組み合わせで符号化すれば、生物学的機能に影響を与えずに任意の付加情報を埋め込むことができる。ただし、DNA配列には、未解明な部分が多く、現状では非コーディング領域と判断されていても、将来的に生物学的意義が明確になる可能性もあるため、この領域にデータを埋め込むのは危険である。
【0006】
コーディング領域に記述する手法は、DNA配列において、タンパク質に翻訳される情報が記述されているコーディング領域に記述するものである。コーディング領域では、3つの塩基(この3つの塩基の集合は「コドン」と呼ばれる)が1つのアミノ酸あるいは終了コードに翻訳されてタンパク質が合成されるが、コドンは64種存在するのに、アミノ酸(+終了コード)は21種しかなく、複数のコドンが同一のアミノ酸に翻訳される同義コドンが存在する。従って、同義コドンに置換することにより、タンパク質合成に影響を与えずに、データを埋め込むことができる。しかし、埋め込み前のオリジナル配列も併せて保管する必要があり、データ管理が難しいという問題がある。
【0007】
また、塩基やアミノ酸を置換することにより埋め込みを行うことについて、開示されている技術も存在するが(特許文献1参照)、構造や機能が変化してしまうため、埋め込まれた物質を利用することができないという問題があり、この場合も、埋め込み前のオリジナル配列も併せて保管することが必須になる。
【特許文献1】特開2005−165231号公報
【0008】
そこで、本発明は、タンパク質に翻訳される配列の機能に変更を加えることなく、ゲノム情報に任意の付加情報を埋め込み、抽出することが可能であると共に、オリジナル配列を復元することが可能なゲノム情報への情報の埋込装置、ゲノム情報からの情報の抽出装置を提供することを課題とする。
【課題を解決するための手段】
【0009】
上記課題を解決するため、本発明第1の態様では、塩基配列データ上に前記遺伝子GXの近傍に位置する遺伝子GYが記録されている領域を参照領域Yとして設定する参照領域設定手段と、埋込前の前記埋込領域Xおよび前記参照領域Yに対して、コドンの出現頻度を算出し、コドン頻度テーブルTXおよびコドン頻度テーブルTYを作成するコドン出現頻度算出手段と、前記コドン頻度テーブルTXおよびコドン頻度テーブルTYを基に、同一アミノ酸または合成終了コードを構成する同義コドンのうち、前記埋込前の埋込領域Xおよび参照領域Yにおいて1回も出現しなかった非出現コドンと、少なくとも前記参照領域Yにおいて1回以上出現したコドンである出現コドンとを対応付けた同義コドン置換テーブルT1を作成する同義コドン置換テーブル作成手段と、前記付加情報のビット配列のビット値に応じて、前記同義コドン置換テーブルT1を利用し、前記埋込前の埋込領域Xにおける出現コドンを非出現コドンに置換する同義コドン置換手段を有する構成としたゲノム情報への情報の埋込装置により付加情報を埋め込み、
塩基配列データ上に前記遺伝子GXの近傍に位置する遺伝子GYが記録されている領域を参照領域Yとして設定する参照領域設定手段と、前記参照領域Yに対して、コドンの出現頻度を算出し、コドン頻度テーブルTYを作成するコドン出現頻度算出手段と、前記コドン頻度テーブルTYを基に、同一アミノ酸を構成する同義コドンのうち、前記参照領域Yにおいて1回以上出現したコドンである出現コドンと1回も出現しなかった非出現コドンを対応付けた同義コドン置換テーブルT1´を作成する同義コドン置換テーブル作成手段と、前記同義コドン置換テーブルT1´に基づいて、埋込後の前記埋込領域X内のコドンを順次探索し、同義コドン置換テーブルT1´に記録された出現コドンが存在する場合は第1のビット値、同義コドン置換テーブルT1´に記録された非出現コドンが存在する場合は第2のビット値を付加情報として抽出する付加情報抽出手段と、前記抽出されたビット値が第1のビット値である場合は、前記埋込後の埋込領域X内に存在した同義コドン置換テーブルT1´上の非出現コドンを同義コドン置換テーブルT1´上の出現コドンに戻す処理を施す同義コドン逆置換手段を有する構成としたゲノム情報からの情報の抽出装置により付加情報を抽出するとともに、原塩基配列データを復元するようにしたことを特徴とする。
【0010】
また、本発明第2の態様では、塩基配列データ上に前記遺伝子GXの近傍に位置する遺伝子GYが記録されている領域を参照領域Yとして設定する参照領域設定手段と、前記参照領域Yに対して、コドンの出現頻度を算出し、コドン頻度テーブルTYを作成するコドン出現頻度算出手段と、前記コドン頻度テーブルTYを基に、同一アミノ酸または合成終了コードに翻訳される複数の同義コドンのうち、2種の同義コドンを交換対象コドン1および交換対象コドン2として対応付けた同義コドン置換テーブル(T2またはT3)を作成する同義コドン置換テーブル作成手段と、前記付加情報のビット配列のビット値に応じて、前記同義コドン置換テーブル(T2またはT3)を利用し、アミノ酸または合成終了コード単位に埋込前の埋込領域Xにおける全ての交換対象コドン1と交換対象コドン2とを互いに交換する同義コドン置換手段を有する構成としたゲノム情報への情報の埋込装置により付加情報を埋め込み、
塩基配列データ上に前記遺伝子GXの近傍に位置する遺伝子GYが記録されている領域を参照領域Yとして設定する参照領域設定手段と、埋込後の前記埋込領域Xおよび参照領域Yに対して、コドンの出現頻度を算出し、コドン頻度テーブルTX´およびコドン頻度テーブルTYを作成するコドン出現頻度算出手段と、前記コドン頻度テーブルTYを基に、同一アミノ酸または合成終了コードに翻訳される複数の同義コドンのうち、2種の同義コドンを交換対象コドン1および交換対象コドン2として対応付けた同義コドン置換テーブル(T2またはT3)を作成する同義コドン置換テーブル作成手段と、前記同義コドン置換テーブル(T2またはT3)をアミノ酸または合成終了コード単位に順次読み込み、当該アミノ酸または合成終了コードにおけるコドン頻度テーブルTX´とコドン頻度テーブルTYの特徴に顕著な相違がある場合に第1のビット値、そうでない場合に第2のビット値を付加情報として抽出する付加情報抽出手段と、前記抽出されたビット値が第1のビット値である場合は、前記埋込後の埋込領域X内の当該アミノ酸または合成終了コードに対応する交換対象コドン1と交換対象コドン2とを、前記同義コドン置換テーブル(T2またはT3)に従って交換する同義コドン逆置換手段を有する構成としたゲノム情報からの情報の抽出装置により付加情報を抽出するとともに、原塩基配列データを復元するようにしたことを特徴とする。
【発明の効果】
【0011】
本発明第1の態様によれば、埋込領域Xの近傍の参照領域Yから各コドンの出現頻度を算出して、同義である出現コドンと非出現コドンを対応づけた同義コドン置換テーブルT1を作成し、埋め込むべきビット値に応じて、埋込領域Xにおける各コドンを、同義コドン置換テーブルT1を用いて非出現コドンに置き換えるようにし、抽出側では、参照領域Yと埋込後の埋込領域Xにより同義コドン置換テーブルT1´を作成し、この同義コドン置換テーブルT1´に記録されているコドンが、埋込後の埋込領域Xに存在する場合に、“1”“0”のいずれかのビット値を抽出し、非出現コドンについては、同義コドン置換テーブルT1´に従って出現コドンに置き換えるようにしたので、タンパク質に翻訳される配列の機能に変更を加えることなく、ゲノム情報に任意の付加情報を埋め込み、抽出することが可能であると共に、オリジナル配列を復元することが可能となる。
【0012】
また、本発明第2の態様によれば、埋込領域Xの近傍の参照領域Yから各コドンの出現頻度を算出して、2種の同義コドンを交換対象コドン1および交換対象コドン2として対応づけた同義コドン置換テーブル(T2またはT3)を作成し、埋め込むべきビット値に応じて、埋込領域におけるあるアミノ酸または合成終了コードに対応する交換対象コドン1と交換対象コドン2の全てを互いに交換し、抽出側では、埋込側と同一の規則により同義コドン置換テーブル(T2またはT3)を作成し、算出された埋込領域Xのコドン頻度テーブルTX´と参照領域Yのコドン頻度テーブルTYの特徴に顕著な相違があるか否かに基づいて、 “1”“0”のいずれかのビット値を抽出し、ビット値が“1”の場合、交換対象コドン1と交換対象コドン2については、同義コドン置換テーブル(T2またはT3)に従って交換するようにしたので、タンパク質に翻訳される配列の機能に変更を加えることなく、ゲノム情報に任意の付加情報を埋め込み、抽出することが可能であると共に、オリジナル配列を復元することが可能となる。また、第1の態様と異なり、同義コドンの中に非出現コドンが存在しない場合であっても、付加情報の埋め込みが可能となる。
【発明を実施するための最良の形態】
【0013】
以下、本発明の実施形態について図面を参照して詳細に説明する。
(本発明の基本概念)
まず、本発明の基本概念について説明する。DNA中の塩基配列は、3塩基(1コドン)単位でアミノ酸に翻訳されるが、この翻訳は、図3に示すようなアミノ酸翻訳規則に従って行われることが知られている。したがって、3つの塩基の配列が定まれば、1つのアミノ酸が定まることになる。例えば、第1塩基から第3塩基がいずれも“T”である“TTT”という塩基配列は、Pheというアミノ酸に変換される。ところが、図3の翻訳規則からわかるように、第1塩基、第2塩基が“T”であって、第3塩基が“C”である“TTC”という塩基配列も、Pheというアミノ酸に変換される。このことは、第3塩基を“T”から“C”に置き換えたとしても、アミノ酸を生成するための情報としては、変わらないことを示している。そこで、埋め込むべきビット値に応じて、塩基の置き換えを行うことにより、情報を埋め込もうというのが本発明の基本概念である。
【0014】
次に、この情報の埋め込みを塩基配列中のどこに行うかという点について説明する。DNA配列中には、タンパク質に翻訳される情報が記述されているコーディング領域と、タンパク質に翻訳される情報が記述されていない非コーディング領域が存在する。特に、高等生物では、非コーディング領域の割合が多いため、この領域に埋め込みを行えば、生物学的機能に影響を与えずに任意の付加情報を埋め込むことができる。しかし、DNA配列には、未解明な部分が多く、現状では非コーディング領域と判断されていても、将来的に生物学的意義が明確になる可能性もあるため、本実施形態では、コーディング領域に埋め込みを行うことにしている。ここで、原核生物、真核生物のコーディング構造を図2に示す。
【0015】
図2(a)は、バクテリアなどの原核生物のコーディング構造を示しており、図2(b)は、原核生物以外の全ての高等生物である真核生物のコーディング構造を示している。原核生物のコーディング構造は、単純であり、コーディング領域と非コーディング領域で構成されている。真核生物のコーディング構造は、コーディング領域内に有効領域(Exon)と無効領域(Intron)が存在する構造となっている。無効領域については、現段階では、生物学的意義が明確でないため、本実施形態では、有効領域についてのみ埋め込みを行うこととしている。なお、原核生物、真核生物いずれの場合も、コーディング領域は、塩基配列“ATG”(Met:メチオニンを意味する)で開始し、塩基配列“TAA”“TAG”“TGA”のいずれか(合成終了コードstopを意味する)で終了することが知られている。
【0016】
(第1の実施形態・埋込装置構成)
まず、第1の実施形態について説明する。図1は、本発明第1の実施形態に係るゲノム情報への情報の埋込装置の構成図である。図1において、10は参照領域設定手段、20は埋込領域設定手段、30はコドン出現頻度算出手段、40は同義コドン置換テーブル作成手段、50は付加情報読込手段、60は同義コドン置換手段である。
【0017】
参照領域設定手段10は、塩基配列中のコーディング領域を参照領域として設定する機能を有している。埋込領域設定手段20は、塩基配列中のコーディング領域を埋込領域として設定する機能を有している。コドン出現頻度算出手段30は、設定された参照領域、埋込領域におけるコドンの出現頻度を算出する機能を有している。同義コドン置換テーブル作成手段40は、算出された出現頻度に基づいて、同義コドン間の置換用のテーブルを作成する機能を有している。付加情報読込手段50は、塩基配列に埋め込むべき付加情報、例えば、当該塩基配列を保管するデータベース事業者のID等の情報を読み込む機能を有している。同義コドン置換手段60は、作成された同義コドン置換テーブルT1を用いて、埋込領域の塩基配列中における塩基を他の塩基で置き換える機能を有している。
【0018】
図1に示した装置は、現実には、コンピュータに専用のソフトウェアを搭載することにより実現される。また、処理過程において作成される配列データは、コンピュータが管理するメモリの記憶領域に作成される。
【0019】
(第1の実施形態・埋込処理動作)
次に、図1に示した埋込装置の処理動作について説明する。まず、埋込装置が全体塩基配列を読み込んだ後、参照領域設定手段10が、全体塩基配列中のコーディング領域を参照領域Yとして設定するとともに、埋込領域設定手段20が全体塩基配列中のコーディング領域を埋込領域Xとして設定する。参照領域Yにおける塩基配列、埋込領域Xにおける塩基配列がそれぞれ図4(a)(b)に示したようなものであったとして以下説明していくことにする。
【0020】
参照領域Y、埋込領域Xが設定されたら、次に、コドン出現頻度算出手段30が、参照領域Yにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTYを作成する。作成されたコドン頻度テーブルTYの一例を図5に示す。図5に示すように、コドン頻度テーブルTYには、参照領域Yにおいて各コドンが何回出現したかが記録される。例えば、図5においては、Pheに翻訳されるコドン“ttt”が2回、“ttc”が3回出現したことを示している。
【0021】
また、コドン出現頻度算出手段30は、埋込領域Xにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTXを作成する。作成されたコドン頻度テーブルTXの一例を図6に示す。コドン頻度テーブルTXの作成も、コドン頻度テーブルTYの作成と同様に行われ、埋込領域Xにおいて各コドンが何回出現したかが記録される。例えば、図6においては、Pheに翻訳されるコドン“ttt”が3回、“ttc”が4回出現したことを示している。なお、図5、図6に示すコドン頻度テーブルTX、TYでは、出現頻度だけでなく、出現頻度を基に算出したGC割合も記録されている。GC割合については、第3の実施形態で用いるものであるので、後述する。したがって、第1の実施形態においては、図5、図6に示したようなGC割合は算出する必要はない。
【0022】
さらに、コドン出現頻度算出手段30は、作成したコドン頻度テーブルTXとコドン頻度テーブルTYの内容を比較し、頻度が“0”であるものが一致するかどうかを判断する。そして、一致しない割合が所定値以上である場合は、コドン頻度テーブルTYの作成対象としたコーディング領域を、参照対象から除外する。あるコーディング領域が参照対象から除外されると、参照領域設定手段10は、他のコーディング領域を参照領域Yとして設定する。そして、コドン出現頻度算出手段30は、再びコドン頻度テーブルTYを作成した後、コドン頻度テーブルTXとコドン頻度テーブルTYの内容を比較する処理を行う。このようにして、コドン頻度テーブルTXとコドン頻度テーブルTYにおける頻度“0”のコドンが一致しない割合が所定値以下となるまで繰り返し同様の処理を行う。
【0023】
コドン頻度テーブルTXとコドン頻度テーブルTYにおける頻度“0”のコドンが一致しない割合が所定値以下となった場合には、同義コドン置換テーブル作成手段40が、コドン頻度テーブルTXおよびコドン頻度テーブルTYを基に、同義コドン置換テーブルT1を作成する。ここで、図5に示したコドン頻度テーブルTYおよび図6に示したコドン頻度テーブルTXを基に作成した同義コドン置換テーブルT1を図7に示す。図5において、上から順に見ていくと、“Phe”については、出現頻度“0”のコドンが存在しないので、同義コドン置換テーブルT1には記録されない。“Leu”については、出現頻度“0”のコドン“ctg”がコドン頻度テーブルTYおよびコドン頻度テーブルTXの双方に存在するので、出現頻度最大のコドンと対応付けて同義コドン置換テーブルT1に記録する。(コドン頻度テーブルTXではコドン“ctt”も出現頻度“0”になるが、コドン頻度テーブルTYでは出現頻度が“0”にならないため、このコドンは同義コドン置換テーブルT1には記録されない。)このとき、出現頻度最大のコドンが複数存在する場合には(図5の例では、“tta”と“cta”がともに“7”で最大)、事前に定めた規則によりどちらか一方を選択する。本実施形態では、参照配列中で先に出現した“tta”を選択し、同義コドン置換テーブルT1に記録している。“Ser”については、出現頻度“0”のコドン“tct”がコドン頻度テーブルTYに存在し、出現頻度“0”のコドン“tca”がコドン頻度テーブルTXにも存在するが、双方が一致しないため、同義コドン置換テーブルT1には記録されない。“Stop(合成終了コード)”については、“taa”と“tga”は、コドン頻度テーブルTXおよびコドン頻度テーブルTYにおいて非出現コドンに該当するが、コドン頻度テーブルTXにおいて出現頻度の合計が1しかない。本実施形態では、後述するように発生確率を50%にする処理を行うが、このためには、出現頻度の合計が最低2以上必要であり、条件を満たさないため、同義コドン置換テーブルT1に記録しない。“Arg”については、2つの出現頻度“0”のコドン“cgt”と“cgc”がコドン頻度テーブルTXおよびコドン頻度テーブルTYの双方に存在し、かつ出現頻度が高い2つのコドン“aga”と“agg”がコドン頻度テーブルTXおよびコドン頻度テーブルTYの双方に存在するため、表の順に従ってコドン“cgt”をコドン“aga”に対応させ、コドン“cgc”をコドン“agg”に対応させ、単一のアミノ酸に対して2つの置換規則を同義コドン置換テーブルT1に記録するようにした。他のアミノ酸や合成終了コードに対しても同様にして処理を行い、図5に示したコドン頻度テーブルTYおよび図6に示したコドン頻度テーブルTXから図7に示したような同義コドン置換テーブルT1が作成されることになる。
【0024】
一方、付加情報読込手段50は、塩基配列に埋め込むべき付加情報を読み込む。次に、同義コドン置換手段60が、同義コドン置換テーブルT1を用いて、読み込んだ付加情報を構成するビット値に応じて、埋込領域Xの塩基配列のコドンの置換を行う。具体的には、埋込領域Xの塩基配列において出現したコドンが、同義コドン置換テーブルT1における最大頻度コドンとして記録されている場合に、付加情報中の対応するビット値が“1”であれば、そのコドンを、同義コドン置換テーブルT1上の対応する非出現コドンに置き換える処理を行う。付加情報中の対応するビット値が“0”である場合は、置き換えは行わない。この置換処理は、同義コドン置換テーブルT1に記録されている最大頻度コドン単位にまとめて行ない、埋込領域Xの塩基配列に同一の最大頻度コドンがN個存在すれば、連続する付加情報のNビットが順次埋め込まれる。例えば、図4(b)に示した埋め込み対象配列に対して、図7に示した同義コドン置換テーブルT1、図8(a)に示した付加情報を用いて置換を行う場合、図8(b)に示すような埋込前塩基配列に下線マークされた23個のコドンが置換対象となる。これを付加情報に対応させるにあたり、図8(a)に示されるように、最初の8ビットをコドン“tta”(L)に、続く3ビットをコドン“ccg”(P)に、続く4ビットをコドン“aga”(R1)に、続く4ビットをコドン“agg”(R2)に、最後の4ビットをコドン“ggt”(G)に対応させる。図8(a)の付加情報ビット配列に対して図8(b)に示す埋め込み対象の塩基配列順に入れ替えたビット配列は図8(c)に示されるようになり、これに基づいて図8(b)の塩基配列に対して埋め込みを行なった結果を図8(d)に示す。図8(c)において各ビットに対応させて下段に示されるアミノ酸記号は図8(b)に下線マークされたコドンに対応する。図8(d)において、下線を付したコドンが同義コドン置換テーブルT1に記録されているコドンであり、さらに太字のものが置換されたコドンで、図8(c)においてビット1に対応するコドンである。
【0025】
図8(c)に示した付加情報は、左側が先頭ビットとなっており、先頭から順次処理されていく。従って、図8(b)に示した埋め込み対象配列において最初に出現する“tta”のコドンは、付加情報の先頭のビット値が“1”であるため、同義コドン置換テーブルT1に従って“ctg”に置換される。ところが、図8(b)に示した埋め込み対象配列において最初に出現する“ccg”のコドンは、付加情報の2番目のビット値が“0”であるため、置換されない。このようにして、付加情報の全ビット値に応じて置き換えが行われた結果、図8(b)に示した埋め込み対象配列が、図8(d)に示すような埋め込み済み塩基配列になるのである。図8(b)と図8(d)を比較すると、図7の同義コドン置換テーブルT1、図8(c)の付加情報に従って置換されたことがわかる。以上のように、第1の実施形態では、1つの埋込領域に、参照領域で非出現コドンが存在したアミノ酸に翻訳されるコドンの出現数と同数のビット数が埋め込み可能となる。
【0026】
同義コドン置換テーブルT1に記録する未出現コドンを決定するにあたり、コドン頻度テーブルTXおよびコドン頻度テーブルTYの双方を参照しているが、後述する抽出装置側では、コドン頻度テーブルTYだけで同義コドン置換テーブルT1を作成することになる。そのため、コドン頻度テーブルTYでは未出現コドンであっても、コドン頻度テーブルTXでは未出現コドンでない場合もあり、その際は埋め込み処理が行なわれないが、抽出装置側では埋め込み処理が行なわれていると誤判断するという問題が発生する。そこで、埋め込み処理が実際に行なわれたか否かを抽出装置側に知らせるため、埋め込みビットの0と1の発生確率を50%にし、埋め込みが行なわれた場合は、同義コドン置換テーブルT1に記録されている置換対象となる出現コドンの半数が必ず非出現コドンに置換されるようにする。埋め込みが行なわれなかった場合は、置換対象となる出現コドンの数が非出現コドンに比べ優位に多くなるため(同義コドン置換テーブルT1において、置換対象となる出現コドンとして最大頻度の同義コドンを選択するようにしているため)、抽出装置側でコドン頻度テーブルTXとコドン頻度テーブルTYを比較することにより、埋め込みが行なわれなかったことを判断できる。
【0027】
埋め込みビットの0と1の発生確率を50%にする方法としては、与えられた原付加情報ビット配列に対して、“0”を“10”、“1”を“01”という1ビットを2ビットに符号化して埋め込むことにより実現できる。具体的には、図8(a)に示されている23ビットからなる付加情報ビット配列は、図8(e)に示されている12ビットからなる原付加情報ビット配列に対して、埋め込みビット数の0と1の発生確率が50%になるように符号化したものである。(本来は図8(a)は24ビットになるが、埋め込み可能なコドンが23個という奇数個のため、最後の1ビット分は埋め込みを省略している。それでも、抽出装置側は欠落した最後の1ビット分を補填して図8(e)のようなビット配列を抽出することができる。)本符号化により、埋め込み可能なビット数は半減するが、抽出装置側では埋め込み処理が行なわれているか否かを確実に判断できる。図7に示される各コドンの頻度が本埋め込み処理によりどのように変化するかを図13に示す。特徴として、各アミノ酸において埋め込み後の出現コドンと非出現コドンの数がほぼ均等になることがわかる。
【0028】
(第1の実施形態・抽出装置構成)
次に、第1の実施形態における抽出装置について説明する。図9は、本発明第1の実施形態に係るゲノム情報からの情報の抽出装置の構成図である。図9において、110は参照領域設定手段、120は埋込領域設定手段、130はコドン出現頻度算出手段、140は同義コドン置換テーブル作成手段、150は付加情報抽出手段である。
【0029】
参照領域設定手段110は、埋込装置における参照領域設定手段10と同様、塩基配列中のコーディング領域を参照領域として設定する機能を有している。埋込領域設定手段120は、埋込装置における埋込領域設定手段20と同様、塩基配列中のコーディング領域を埋込領域として設定する機能を有している。コドン出現頻度算出手段130は、埋込装置におけるコドン出現頻度算出手段30と同様、設定された参照領域、埋込領域におけるコドンの出現頻度を算出する機能を有している。同義コドン置換テーブル作成手段140は、埋込装置における同義コドン置換テーブル作成手段40と同様、算出された出現頻度に基づいて、同義コドン間の置換用のテーブルを作成する機能を有している。付加情報抽出手段150は、作成された同義コドン置換テーブルT1´を用いて、埋込領域の塩基配列中における塩基から、置換対象であった塩基を検出し、実際に置換されているかどうかに応じて、付加情報を抽出すると共に、置き換えられている塩基を元に戻す機能を有している。
【0030】
図9に示した装置は、現実には、コンピュータに専用のソフトウェアを搭載することにより実現される。また、処理過程において作成される配列データは、コンピュータが管理するメモリの記憶領域に作成される。
【0031】
(第1の実施形態・抽出処理動作)
次に、図9に示した抽出装置の処理動作について説明する。まず、抽出装置が全体塩基配列を読み込んだ後、参照領域設定手段110が、全体塩基配列中のあるコーディング領域を参照領域Yとして設定するとともに、埋込領域設定手段120が全体塩基配列中のあるコーディング領域を埋込領域Xとして設定する。参照領域設定手段110、埋込領域設定手段120は、それぞれ埋込装置の参照領域設定手段10、埋込領域設定手段20と同一の規則に従い、参照領域Y、埋込領域Xを設定するので、埋込装置が設定した参照領域、埋込領域と同一の領域が必ず設定されることになる。したがって、設定した参照領域からは、図4(a)に示した塩基配列、設定した埋込領域Xからは、図8(b)に示した塩基配列が得られることになる。
【0032】
参照領域Y、埋込領域Xが設定されたら、次に、コドン出現頻度算出手段130が、参照領域Yにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTYを作成する。コドン出現頻度算出手段130におけるコドン頻度テーブルTYの作成規則は、埋込装置のコドン出現頻度算出手段30と同一であり、参照領域Yについては、上述のように同一であるので、作成されたコドン頻度テーブルTYは、図5に示したものになる。
また、コドン出現頻度算出手段130は、埋込領域Xにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTX´を作成する。コドン頻度テーブルTX´の作成も、コドン頻度テーブルTYの作成と同様に行われ、埋込後の埋込領域Xにおいて各コドンが何回出現したかが記録される。埋込領域Xについては、埋込前と埋込後で、その配列構成は変化しているため、コドン頻度テーブルTX´は、コドン頻度テーブルTXとは異なったものとなる。
【0033】
続いて、同義コドン置換テーブル作成手段140が、コドン頻度テーブルTYを基に、同義コドン置換テーブルT1´を作成する。同義コドン置換テーブル作成手段140における同義コドン置換テーブルT1´の作成規則は、埋込装置の同義コドン置換テーブル作成手段40とは異なり、コドン頻度テーブルTX´を参照せずにコドン頻度テーブルTYのみを参照して同義コドン置換テーブルを作成する。すなわち、参照領域Yのみにおいて1回も出現しなかったコドンを非出現コドンとして同義コドン置換テーブルT1´を作成することになる。ここで、コドン頻度テーブルTYを基に作成した同義コドン置換テーブルT1´を図12に示す。この同義コドン置換テーブルT1´は、コドン頻度テーブルTYのみを参照して作成されるため、このままでは、埋込装置側で作成した同義コドン置換テーブルT1と同一にはならない。具体的には、コドン頻度テーブルTYにおいて、“Ser”の“tct”、“Stop”の“taa”、“Cys”の“tgc”、“His”の“cac”も非出現コドンであり、更に図7に記録されているアミノ酸“Pro”と“Arg”については、他にも同義の非出現コドン“cca”と“cga”が存在するため、図12に示されているように同義コドン置換テーブルT1´に加えられてしまう。しかし、前述の埋込装置側ではコドン頻度テーブルTXも参照しており、これら6つのコドンのうち、“Stop”を除く5つはコドン頻度テーブルTXにおいては非出現コドンでないため、同義コドン置換テーブルT1から外していた(“Stop”の“taa”と“tga”は、コドン頻度テーブルTXおよびコドン頻度テーブルTYにおいて非出現コドンに該当するが、一連の遺伝子がコーディングされている埋め込み領域では出現頻度が必ず1になり、後述する発生確率を50%にすることは不可能なため、同義コドン置換テーブルT1から外す。)。このため、このまま同義コドン置換テーブルT1´を利用して逆置換をしても、オリジナル配列を復元することはできない。
【0034】
この問題を回避するため、前述の通り埋込装置側では埋め込みビットの0と1の発生確率を50%になるように、あらかじめ付加情報ビット配列に対して符号化を行なっている。これに対応させるため、同義コドン置換テーブル作成手段140は、参照領域Yを参照して図12に示したようなテーブルを作成した後、6つのアミノ酸“Ser”、“Stop”、“Cys”、“Pro(2番目)”、“His”、“Arg(3番目)”において、埋め込み後のコドン頻度テーブルTX´とコドン頻度テーブルTY上の同義コドンの頻度を比較して、各々非出現コドン“tct”、“taa”、“tgc”、“cca”、“cac”、“cga”が50%(均等)の割合で存在しなければ、埋め込みが行なわれなかったものと判断し、同義コドン置換テーブルT1´から外すようにする。具体的には、コドン頻度テーブルTX(これら6つのコドンの頻度は埋め込み前後で変わらないため、コドン頻度テーブルTX´でも同一)によると、“Ser”の“tct”は“agt”との対比で4/(4+8)で33%、“Cys”の“tgc”は“tgt”との対比で1/1で100%で均等とはいえず、コドン頻度テーブルTYによると、“Stop”の“taa”は“tag”との頻度総和が1で、“Pro(2番目)”の“cca”は“cct”との頻度総和が1で、“His”の“cac”は“cat”との頻度総和が1で、“Arg(3番目)”の“cga”は“cgg”との頻度総和が1であるため元来均等になり得ないため、これら6個の非出現コドンは同義コドン置換テーブルT1´から外され、図7の同義コドン置換テーブルT1に一致するようになる。
【0035】
次に、付加情報抽出手段150が、同義コドン置換テーブルT1´を用いて、埋込領域Xの塩基配列中から付加情報を構成する各ビットの検出を行う。具体的には、同義コドン置換テーブルT1´中に記録されたコドンが塩基配列中に存在した場合は、塩基配列中のそのコドンは置換対象であったと判断する。そして、そのコドンが非出現コドンとして同義コドン置換テーブルT1´中に記録されていればビット値“1”、逆に出現コドンとして同義コドン置換テーブルT1´中に記録されていればビット値“0”と判断する。同様にして、塩基配列中からビット値を検出していき、図8に示した付加情報が抽出されることになる。さらに付加情報抽出手段150は、置換されていたコドンを元のコドンに復元する処理を並行して行う。これは、同義コドン置換テーブルT1´中に非出現コドンとして記録されているコドンを、同義コドン置換テーブルT1´中に出現コドンとして記録されているコドンに置換することにより行われる。このようにして、図4(b)に示すような元の塩基配列が得られることになる。
【0036】
上記の例においては、参照領域中における最大頻度コドンを同義コドン置換テーブルT1(T1´)中の出現コドンとして設定したが、出現コドンとしては、必ずしも最大頻度コドンとして設定する必要はなく、1回以上出現したコドンであれば良い。ただし、第1の実施形態においては、出現コドンの出現頻度が高い程、埋め込み可能なビット数が増えるため、最大頻度コドンを同義コドン置換テーブルT1(T1´)中の出現コドンとして設定することが望ましい。
【0037】
(第2の実施形態・埋込装置構成)
次に、第2の実施形態について説明する。第2の実施形態においても、装置構成は基本的に第1の実施形態と同様であり、図1に示した構成となっている。第1の実施形態では、参照領域・埋込領域から非出現コドンを調べ、付加情報ビット配列に応じて、頻度最大のコドンを非出現コドンに変換することにより付加情報を埋め込むようにしたが、第2の実施形態では、参照領域・埋込領域から高頻度コドン、低頻度コドンを調べ、付加情報ビット配列に応じて、高頻度コドンと低頻度コドンとを互いに交換することにより付加情報を埋め込むことを特徴としている。したがって、第2の実施形態における各構成要素は、第1の実施形態に示した構成要素とは、その機能が異なっている。
【0038】
(第2の実施形態・埋込処理動作)
続いて、第2の実施形態における埋込装置の処理動作について説明する。まず、第1の実施形態と同様、埋込装置が全体塩基配列を読み込んだ後、参照領域設定手段10が、全体塩基配列中のコーディング領域を参照領域として設定するとともに、埋込領域設定手段20が全体塩基配列中のコーディング領域を埋込領域として設定する。この結果、第1の実施形態と同様、図4(a)(b)に示したような塩基配列が得られることになる。
【0039】
第1の実施形態と同様、参照領域Y、埋込領域Xが設定されたら、コドン出現頻度算出手段30が、参照領域Yにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTYを作成する。この結果、図5に示したようなコドン頻度テーブルTYが得られる。
【0040】
また、コドン出現頻度算出手段30は、第1の実施形態と同様、埋込領域Xにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTXを作成する。この結果、図6に示したようなコドン頻度テーブルTXが得られる。なお、図5、図6に示すコドン頻度テーブルTX、TYでは、出現頻度だけでなく、出現頻度を基に算出したGC割合も記録されているが、上述のように、第2の実施形態においては、図5、図6に示したようなGC割合は算出する必要はない。
【0041】
さらに、コドン出現頻度算出手段30は、作成したコドン頻度テーブルTXとコドン頻度テーブルTYの内容を比較し、同義コドン間の頻度の大小関係が、互いに逆転しているアミノ酸または合成終了コードが存在するかどうかを判断する。そのようなアミノ酸または合成終了コードが存在する場合は、コドン頻度テーブルTYの作成対象としたコーディング領域を、参照対象から除外する。あるコーディング領域が参照対象から除外されると、参照領域設定手段10は、他のコーディング領域を参照領域Yとして設定する。そして、コドン出現頻度算出手段30は、再びコドン頻度テーブルTYを作成した後、コドン頻度テーブルTXとコドン頻度テーブルTYの内容を比較する処理を行う。このようにして、コドン頻度テーブルTXとコドン頻度テーブルTYにおいて、同義コドン間の頻度の大小関係が、互いに逆転しているアミノ酸が存在しなくなるまで繰り返し同様の処理を行う。
【0042】
コドン頻度テーブルTXとコドン頻度テーブルTYにおいて、同義コドン間の頻度の大小関係が、互いに逆転しているアミノ酸が存在しなくなった場合には、同義コドン置換テーブル作成手段40が、コドン頻度テーブルTYを基に、同義コドン置換テーブルT2を作成する。ここで、図5に示したコドン頻度テーブルTYを基に作成した同義コドン置換テーブルT2を図10(a)に示す。例えば、図5に示した参照配列中において、“Leu”については、 “tta”が7個出現して頻度最大であり、“ctt”が3個出現して頻度最小であることから、この2つの組み合わせが、図10の1行目に示すように同義コドン置換テーブルT2に記録される。頻度最大と頻度最小が同数となるようなアミノ酸または合成終了コードについては、同義コドン置換テーブルT2には記録しない。
【0043】
一方、付加情報読込手段50は、塩基配列に埋め込むべき付加情報を読み込む。次に、同義コドン置換手段60が、同義コドン置換テーブルT2を用いて、読み込んだ付加情報を構成するビット値に応じて、埋込領域Xの塩基配列のコドンの交換を行う。具体的には、埋込領域Xの塩基配列において出現したコドンが、同義コドン置換テーブルT2における最大頻度コドンまたは最小頻度コドンとして記録されている場合に、付加情報中の対応するビット値が“1”であれば、同義コドン置換テーブルT2上の対応する全ての最小頻度コドンと最大頻度コドンを交換する処理を行う。付加情報中の対応するビット値が“0”である場合は、交換は行わない。例えば、図4(b)に示した埋め込み対象配列に対して、図10(a)に示した同義コドン置換テーブルT2、図8(a)に示した付加情報(先頭から9ビット分)を用いて交換を行うと、図4(b)中の各コドンは、図10(b)に示すように変化することになる。
【0044】
図10(a)の同義コドン置換テーブルT2には、9種類のアミノ酸について記録されているので、9ビットの変換の記録が可能である。従って、図8(a)に示した付加情報のうち、先頭の9ビット“101110110”が記録できる。具体的には、付加情報の先頭ビットが“1”であるので、同義コドン置換テーブルT2の1行目に従って、埋め込み対象配列中の“tta”は全て“ctt”に変換され、逆に埋め込み対象配列中の“ctt” は全て“tta”に変換される。この結果、図10(b)に示すように、埋め込み前は、“tta”が8個出現し、“ctt”が非出現であったのが、埋め込み後は、“tta”が非出現となり、“ctt”が8個出現することになる。また、付加情報の2番目のビットが“0”であるので、同義コドン置換テーブルT2の2行目に対応した処理は行われない。したがって、埋め込み対象配列中の“agt”“tct”は、そのままとなる。この結果、図10(b)に示すように、埋め込み前は、“agt”が8個出現し、“tct”が4個出現するのは、埋め込み前後において同一である。以上のように、第2の実施形態では、1つの埋込領域に、コドンの出現頻度に所定以上の差が存在するアミノ酸と同数のビット数が埋め込み可能となる。
【0045】
(第2の実施形態・抽出装置構成)
次に、第2の実施形態における抽出装置について説明する。第2の実施形態においても、抽出装置の構成は基本的に第1の実施形態と同様であり、図9に示した構成となっている。
【0046】
(第2の実施形態・抽出処理動作)
次に、第2の実施形態における抽出装置の処理動作について説明する。まず、抽出装置が全体塩基配列を読み込んだ後、参照領域設定手段110が、全体塩基配列中のコーディング領域を参照領域Yとして設定するとともに、埋込領域設定手段120が全体塩基配列中のコーディング領域を埋込領域Xとして設定する。第2の実施形態においても、参照領域設定手段110、埋込領域設定手段120は、それぞれ埋込装置の参照領域設定手段10、埋込領域設定手段20と同一の規則に従い、参照領域、埋込領域を設定するので、埋込装置が設定した参照領域、埋込領域と同一の領域が必ず設定されることになる。したがって、設定した参照領域Yからは、図4(a)に示した塩基配列、設定した埋込領域Xからは、図10(b)に示したように改変された塩基配列が得られることになる。
【0047】
参照領域Y、埋込領域Xが設定されたら、次に、コドン出現頻度算出手段130が、埋め込み領域における塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTX´を作成すると共に、参照領域における塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTYを作成する。コドン出現頻度算出手段130におけるコドン頻度テーブルTX´、コドン頻度テーブルTYの作成規則は、第1の実施形態と同様、埋込装置のコドン出現頻度算出手段30と同一であり、参照領域Yについては、上述のように同一であるので、作成されたコドン頻度テーブルTYは、図5に示したものになる。一方、埋込領域Xについては、埋込前と埋込後で、その配列構成が変化しているため、コドン頻度テーブルTX´は、コドン頻度テーブルTXとは異なったものとなる。
【0048】
続いて、同義コドン置換テーブル作成手段140が、コドン頻度テーブルTYを基に、同義コドン置換テーブルT2を作成する。同義コドン置換テーブル作成手段140における同義コドン置換テーブルT2の作成規則は、埋込装置の同義コドン置換テーブル作成手段40と同一であるので、作成された同義コドン置換テーブルT2は、図10(a)に示したものになる。
【0049】
次に、付加情報抽出手段150が、同義コドン置換テーブルT2を用いて、埋込領域Xの塩基配列中から付加情報を構成する各ビットの検出を行う。具体的には、まず、同義コドン置換テーブルT2中に記録された最大頻度コドンと最小頻度コドンの、コドン頻度テーブルTX´、コドン頻度テーブルTYにおける出現頻度を調べ、この出現頻度の大小関係がコドン頻度テーブルTX´とコドン頻度テーブルTYで逆転するかどうかを判断する。そして、両コドンの出現頻度の大小関係が逆転する場合は、ビット値“1”、逆に両コドンの出現頻度の大小関係が逆転していない場合は、ビット値“0”と判断する。同様にして、同義コドン置換テーブルT2に記録されたアミノ酸または合成終了コード単位で、塩基配列中からビット値を検出していき、図8(a)に示した付加情報の先頭9ビットが抽出されることになる。さらに付加情報抽出手段150は、交換されていたコドンを元のコドンに復元する処理を並行して行う。具体的には、コドン頻度テーブルTXとコドン頻度テーブルTYで出現頻度の大小関係が逆転するとして、ビット値“1”が検出された場合、そのアミノ酸または合成終了コードについて、同義コドン置換テーブルT2を参照し、全ての最小頻度コドンと最大頻度コドンとを交換することにより行う。このようにして、図4(b)に示すような元の塩基配列が得られることになる。
【0050】
(第3の実施形態・埋込装置構成)
次に、第3の実施形態について説明する。第3の実施形態においても、装置構成は基本的に第1、第2の実施形態と同様であり、図1に示した構成となっている。第2の実施形態では、参照領域・埋込領域Xから高頻度コドン、低頻度コドンを調べ、付加情報ビット配列に応じて、高頻度コドンを低頻度コドンに変換することにより付加情報を埋め込むようにしたが、第3の実施形態では、低頻度コドンに代えて、高頻度コドンとのGC含有量の差が大きいコドン(高頻度コドンと頻度が同じでも良い)を調べ、付加情報ビット配列に応じて、高頻度コドンをGC含有量の差が大きいコドンに変換することにより付加情報を埋め込むことを特徴としている。したがって、第3の実施形態における各構成要素は、第1、第2の実施形態に示した構成要素とは、その機能が異なっている。
【0051】
ここで、GC含有量について説明する。GC含有量とは、あるアミノ酸に翻訳される全コドンに含まれるG(グアニン)とC(シトシン)の量を示すものである。塩基配列は細胞に保管される際は、A−T間またはG−C間で特異的な化学結合を行ないながら2重らせんを形成している。このとき、A−T間の化学結合に比べ、G−C間の化学結合の方が強固なため、GC含有量(英語名:GCコンテント)が多い塩基配列は化学的に安定で、放射線などによる突然変異の影響を受けにくい。そのため、GC含有量は遺伝子解析において重要なファクターで、一般に重要な情報が載っているコーディング領域は非コーディング領域に比べGC含有量が多く、コーディング領域内でもエクソン領域はイントロン領域に比べGC含有量が多いことが知られている。本実施形態では、全コドン(A、T、G、C)に占めるGとCの合計の割合であるGC割合をGC含有量として用いている。
【0052】
(第3の実施形態・埋込処理動作)
続いて、第3の実施形態における埋込装置の処理動作について説明する。まず、第1、2の実施形態と同様、埋込装置が全体塩基配列を読み込んだ後、参照領域設定手段10が、全体塩基配列中のコーディング領域を参照領域Yとして設定するとともに、埋込領域設定手段20が全体塩基配列中のコーディング領域を埋込領域Xとして設定する。この結果、第1、2の実施形態と同様、図4(a)(b)に示したような塩基配列が得られることになる。
【0053】
第1、第2の実施形態と同様、参照領域Y、埋込領域Xが設定されたら、コドン出現頻度算出手段30が、参照領域Yにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTYを作成する。ただし、第3の実施形態においては、コドンおよび出現頻度だけでなく、GC割合も算出する。GC割合は、上述のように、あるアミノ酸についての全塩基(A、T、G、C)に占めるGとCの合計の割合であるため、例えば、図5の1行目に示した“Phe”の場合、“ttt”が2コドン、“ttc”が3コドン出現する。この場合、合計15塩基が存在し、そのうち、塩基“G”が0個、塩基“C”が3個存在するため、3/15=20%が、GC割合となる。同様にして、GC割合を算出した結果、図5に示したようなコドン頻度テーブルTYが得られる。
【0054】
また、コドン出現頻度算出手段30は、第1、第2の実施形態と同様、埋込領域Xにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTXを作成する。この結果、図6に示したようなコドン頻度テーブルTXが得られる。この場合もGC割合の算出が行われる。
【0055】
さらに、コドン出現頻度算出手段30は、作成したコドン頻度テーブルTXとコドン頻度テーブルTYの内容をアミノ酸または合成終了コード単位で比較し、GC割合の値が顕著に相違しているアミノ酸または合成終了コードが存在しないかどうかを確認する。GC割合の値が顕著に相違しているかどうかは、GC割合の差が所定値以上相違しているかどうかにより判断する。本実施形態では、この所定値を10%としている。コドン頻度テーブルTXとコドン頻度テーブルTYにおいて、GC割合の値が顕著に相違しているアミノ酸または合成終了コードが存在する場合は、コドン頻度テーブルTYの作成対象としたコーディング領域を、参照対象から除外する。あるコーディング領域が参照対象から除外されると、参照領域設定手段10は、他のコーディング領域を参照領域Yとして設定する。そして、コドン出現頻度算出手段30は、再びコドン頻度テーブルTYを作成した後、コドン頻度テーブルTXとコドン頻度テーブルTYの内容を比較する処理を行う。このようにして、コドン頻度テーブルTXとコドン頻度テーブルTYにおいて、GC割合の値が顕著に相違しているアミノ酸が存在しなくなるまで繰り返し同様の処理を行う。
【0056】
次に、同義コドン置換テーブル作成手段40が、コドン頻度テーブルTYを基に、同義コドン置換テーブルT3を作成する。ここで、図5に示したコドン頻度テーブルTYを基に作成した同義コドン置換テーブルT3を図11(a)に示す。図11(a)において、交換対象コドン1(最大頻度コドン)は、第2の実施形態と同様、出現頻度が最大のコドンである。図11(a)において、交換対象コドン2(GC割合大又は小)は、交換対象コドン1とのGC割合の差が最大のコドンである。
【0057】
一方、付加情報読込手段50は、塩基配列に埋め込むべき付加情報を読み込む。次に、同義コドン置換手段60が、同義コドン置換テーブルT3を用いて、読み込んだ付加情報を構成するビット値に応じて、埋込領域Xの塩基配列のコドンの交換を行う。具体的には、埋込領域Xの塩基配列において出現したコドンが、同義コドン置換テーブルT3における最大頻度コドンとして記録されている場合に、付加情報中の対応するビット値が“1”であれば、その全てのコドンを、同義コドン置換テーブルT3上の対応する交換対象コドン2に置き換え、併せて交換対象コドン2を最大頻度コドンに置き換える交換処理を行う。付加情報中の対応するビット値が“0”である場合は、この交換は行わない。ここで、図4(b)に示した埋め込み対象配列に対して、図11(a)に示した同義コドン置換テーブルT3、図8(a)に示した付加情報を用いて交換を行った場合の、埋め込み前と埋め込み後のGC含有量を図11(b)に示す。
【0058】
図11(a)の同義コドン置換テーブルT3には、11種類のアミノ酸または合成終了コードについて記録されているので、11ビットの変換の記録が可能である。従って、図8(a)に示した付加情報のうち、先頭の11ビット“10111011011”が記録できる。具体的には、付加情報の先頭ビットが“1”であるので、同義コドン置換テーブルT3の1行目に従って、埋込対象配列中の“ttc”は全て“ttt”に変換され、逆に埋込対象配列中の“ttt” は全て“ttc”に変換される。この結果、図10(b)に示すように、埋め込み前は、“Phe”のGC割合が“19%”であったのが、埋め込み後は、“14%”となる。また、付加情報の2番目のビットが“0”であるので、同義コドン置換テーブルT3の2行目に対応した処理は行われない。したがって、埋め込み対象配列中の“Leu”についてのGC割合は、“17%”のままとなる。以上のように、第3の実施形態では、1つの埋込領域に、コドンのGC割合に所定以上の差が存在するアミノ酸または合成終了コードと同数のビット数が埋め込み可能となる。
【0059】
(第3の実施形態・抽出装置構成)
次に、第3の実施形態における抽出装置について説明する。第3の実施形態においても、抽出装置の構成は基本的に第1、第2の実施形態と同様であり、図9に示した構成となっている。
【0060】
(第3の実施形態・抽出処理動作)
次に、第3の実施形態における抽出装置の処理動作について説明する。まず、抽出装置が全体塩基配列を読み込んだ後、参照領域設定手段110が、全体塩基配列中のコーディング領域を参照領域Yとして設定するとともに、埋込領域設定手段120が全体塩基配列中のコーディング領域を埋込領域Xとして設定する。第3の実施形態においても、参照領域設定手段110、埋込領域設定手段120は、それぞれ埋込装置の参照領域設定手段10、埋込領域設定手段20と同一の規則に従い、参照領域、埋込領域を設定するので、埋込装置が設定した参照領域、埋込領域と同一の領域が必ず設定されることになる。したがって、設定した参照領域Yからは、図4(a)に示した塩基配列、設定した埋込領域Xからは、図11(a)に示した同義コドン置換テーブルT3を利用して改変された塩基配列が得られることになる。
【0061】
参照領域Y、埋込領域Xが設定されたら、次に、コドン出現頻度算出手段130が、埋込領域Xにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTX´を作成すると共に、参照領域Yにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルTYを作成する。コドン出現頻度算出手段130におけるコドン頻度テーブルTX´、コドン頻度テーブルTYの作成規則は、第1、第2の実施形態と同様、埋込装置のコドン出現頻度算出手段30と同一であり、参照領域Yについては、上述のように同一であるので、作成されたコドン頻度テーブルTYは、図5に示したものになる。一方、埋込領域Xについては、埋込前と埋込後で、その配列構成が変化しているため、コドン頻度テーブルTX´は、コドン頻度テーブルTXとは異なったものとなる。
【0062】
続いて、同義コドン置換テーブル作成手段140が、コドン頻度テーブルTYを基に、同義コドン置換テーブルT3を作成する。同義コドン置換テーブル作成手段140における同義コドン置換テーブルT3の作成規則は、埋込装置の同義コドン置換テーブル作成手段40と同一であるので、作成された同義コドン置換テーブルT3は、図11(a)に示したものになる。
【0063】
次に、付加情報抽出手段150が、同義コドン置換テーブルT3を用いて、埋込領域Xの塩基配列中から付加情報を構成する各ビットの検出を行う。具体的には、まず、同義コドン置換テーブルT3中に記録されたアミノ酸または合成終了コード単位で、コドン頻度テーブルTX´、コドン頻度テーブルTYにおけるGC割合を調べ、このGC割合がコドン頻度テーブルTX´とコドン頻度テーブルTYで顕著に相違するかどうかを判断する。そして、顕著に相違する場合は、ビット値“1”、逆に顕著な相違がない場合は、ビット値“0”と判断する。顕著に相違するかどうかは、あるアミノ酸についてのコドン頻度テーブルTX´におけるGC割合と、コドン頻度テーブルTYにおけるGC割合との差が所定値以上あるかどうかにより判断する。本実施形態では、この所定値を“10%”としている。同様にして、同義コドン置換テーブルT3に記録されたアミノ酸または合成終了コード単位で、塩基配列中からビット値を検出していき、図8(a)に示した付加情報の先11ビットが抽出されることになる。さらに付加情報抽出手段150は、交換されていたコドンを再度交換して元のコドンに復元する処理を並行して行う。具体的には、コドン頻度テーブルTX´とコドン頻度テーブルTYで顕著に相違するとして、ビット値“1”が検出された場合、そのアミノ酸または合成終了コードについて、同義コドン置換テーブルT3を参照し、交換対象コドン1(最大頻度コドン)と交換対象コドン2(GC割合が大または小コドン)とを交換することにより行う。このようにして、図4(b)に示すような元の塩基配列が得られることになる。
【0064】
以上、本発明の好適な実施形態について説明したが、本発明は、上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、付加情報のビット値が“1”の場合に塩基の置き換えを行うようにし、ビット値が“0”の場合に塩基の置き換えを行わないようにしたが、逆に、付加情報のビット値が“0”の場合に塩基の置き換えを行うようにし、ビット値が“1”の場合に塩基の置き換えを行わないようにしても良い。ビット値は、“1”と“0”の2値をとるため、どちらを第1のビット値として、どちらを第2のビット値とするかは自由であり、埋込装置と抽出装置におけるルールさえ決めておけば良いためである。
【0065】
また、上記第1・第2・第3の実施形態は、各同義コドン置換テーブル上に定義されるアミノ酸または合成終了コードを互いに重複させないようにすれば、併用することも可能である。一般に、同一の参照領域Y、埋込領域Xにおいて、各実施形態における同義コドン置換テーブルで定義されるアミノ酸または合成終了コードの件数(テーブルの行数)は、T1<T2<T3の関係になるため、T2はT1で定義されていないアミノ酸または合成終了コードだけを定義し、T3はT1およびT2で定義されていないアミノ酸または合成終了コードだけを定義するようにすれば、各々単独の方法で埋め込むよりも多くのビット数を埋め込むことが可能になる。具体的には、図7と図10(a)を比較すると、“Ser”,“Stop”,“His”,“Ile”、“Ala”の5項目は図7に存在しないため、第1実施形態(12ビット埋め込み可)と第2実施形態を併用することにより+5ビットの情報(17ビット埋め込み可)を埋め込むことができる。更に、図10(a)と図11(a)を比較すると、“Phe”、“Gln”,“Asp”の3項目は図10(a)に存在しないため、第1実施形態と第2実施形態および第3の実施形態を併用することにより+3ビットの情報(20ビット埋め込み可)を埋め込むことができる。
【図面の簡単な説明】
【0066】
【図1】本発明に係るゲノム情報への情報の埋込装置の構成図である。
【図2】原核生物、真核生物のコーディング構造を示す図である。
【図3】アミノ酸翻訳規則を示す図である。
【図4】参照領域Yにおける塩基配列、埋込前の埋込領域Xにおける塩基配列を示す図である。
【図5】コドン頻度テーブルTYの一例を示す図である。
【図6】コドン頻度テーブルTXの一例を示す図である。
【図7】同義コドン置換テーブルT1の一例を示す図である。
【図8】埋め込むべき付加情報、埋込済塩基配列を示す図である。
【図9】本発明に係るゲノム情報からの情報の抽出装置の構成図である。
【図10】同義コドン置換テーブルT2、埋め込みによるコドン出現頻度の変化を示す図である。
【図11】同義コドン置換テーブルT3、埋め込みによるGC含有量の変化を示す図である。
【図12】抽出装置側で作成される同義コドン置換テーブルT1´の一例を示す図である。
【図13】ビット埋め込みによる同義コドンの頻度の推移を示す図である。
【符号の説明】
【0067】
10・・・参照領域設定手段
20・・・埋込領域設定手段
30・・・コドン出現頻度算出手段
40・・・同義コドン置換テーブル作成手段
50・・・付加情報読込手段
60・・・同義コドン置換手段
110・・・参照領域設定手段
120・・・埋込領域設定手段
130・・・コドン出現頻度算出手段
140・・・同義コドン置換テーブル作成手段
150・・・付加情報抽出手段

【特許請求の範囲】
【請求項1】
A、T、G、Cの4種の塩基からなる生物のゲノム情報を構成する塩基配列データ上で、遺伝子GXが記録されている埋込領域X内の塩基配列データに対して、当該遺伝子GXを基に翻訳されるタンパク質のアミノ酸配列に改変を加えずに、一部の塩基を改変することにより、付加情報を電子透かしとして埋め込む装置であって、
前記塩基配列データ上に前記遺伝子GXの近傍に位置する遺伝子GYが記録されている領域を参照領域Yとして設定する参照領域設定手段と、
埋込前の前記埋込領域Xおよび前記参照領域Yに対して、コドンの出現頻度を算出し、コドン頻度テーブルTXおよびコドン頻度テーブルTYを作成するコドン出現頻度算出手段と、
前記コドン頻度テーブルTXおよびコドン頻度テーブルTYを基に、同一アミノ酸または合成終了コードを構成する同義コドンのうち、前記埋込前の埋込領域Xおよび参照領域Yにおいて1回も出現しなかった非出現コドンと、少なくとも前記参照領域Yにおいて1回以上出現したコドンである出現コドンとを対応付けた同義コドン置換テーブルT1を作成する同義コドン置換テーブル作成手段と、
前記付加情報のビット配列のビット値に応じて、前記同義コドン置換テーブルT1を利用し、前記埋込前の埋込領域Xにおける出現コドンを非出現コドンに置換する同義コドン置換手段と、
を有することを特徴とするゲノム情報への情報の埋込装置。
【請求項2】
請求項1において、
前記同義コドン置換テーブル作成手段が、非出現コドンと対応付ける出現コドンは、前記参照領域Yにおいて、あるアミノ酸または合成終了コードについて出現頻度が最大の最大頻度コドンであることを特徴とするゲノム情報への情報の埋込装置。
【請求項3】
請求項1または請求項2において、
あらかじめ前記付加情報のビット配列の0と1の発生頻度が均等になるように符号化する付加情報符号化手段を備え、与えられた付加情報がいかなるビット配列であっても、前記同義コドン置換テーブルT1に定義されている各アミノ酸単位に、置換対象の出現コドンの半数が非出現コドンに置換されるようにしていることを特徴とするゲノム情報への情報の埋込装置。
【請求項4】
請求項1から請求項3のいずれかにおいて、
前記同義コドン置換テーブル作成手段が、同一アミノ酸または合成終了コードを構成する同義コドンのうち、前記埋込前の埋込領域Xおよび参照領域Yにおいて1回も出現しなかった非出現コドンが複数存在する場合、前記参照領域Yにおいて1回以上出現した複数の異なる出現コドンとを各々対応させるように、前記同義コドン置換テーブルT1を作成するものであることを特徴とするゲノム情報への情報の埋込装置。
【請求項5】
A、T、G、Cの4種の塩基からなる生物のゲノム情報を構成する塩基配列データ上で、遺伝子GXが記録されている埋込領域X内の塩基配列データに対して、当該遺伝子GXを基に翻訳されるタンパク質のアミノ配列に改変を加えずに、一部の塩基を改変することにより、付加情報を電子透かしとして埋め込む装置であって、
前記塩基配列データ上に前記遺伝子GXの近傍に位置する遺伝子GYが記録されている領域を参照領域Yとして設定する参照領域設定手段と、
前記参照領域Yに対して、コドンの出現頻度を算出し、コドン頻度テーブルTYを作成するコドン出現頻度算出手段と、
前記コドン頻度テーブルTYを基に、同一アミノ酸または合成終了コードに翻訳される複数の同義コドンのうち、2種の同義コドンを交換対象コドン1および交換対象コドン2として対応付けた同義コドン置換テーブルを作成する同義コドン置換テーブル作成手段と、
前記付加情報のビット配列のビット値に応じて、前記同義コドン置換テーブルを利用し、アミノ酸または合成終了コード単位に埋込前の前記埋込領域Xにおける全ての交換対象コドン1と交換対象コドン2を互いに交換する同義コドン置換手段と、
を有することを特徴とするゲノム情報への情報の埋込装置。
【請求項6】
請求項5において、
前記同義コドン置換テーブル作成手段は、前記コドン頻度テーブルTYにおいて、同一のアミノ酸または合成終了コードに翻訳される複数の同義コドンの中で、最も頻度の高い最大頻度コドンを交換対象コドン1とし、最も頻度の低い最小頻度コドンを交換対象コドン2として同義コドン置換テーブルT2を作成するものであることを特徴とするゲノム情報への情報の埋込装置。
【請求項7】
請求項5において、
前記同義コドン置換テーブル作成手段は、前記コドン頻度テーブルTYにおいて、同一のアミノ酸または合成終了コードに翻訳される複数の同義コドンの中で、最も頻度の高い最大頻度コドンを交換対象コドン1とし、GC含有量が前記最大頻度コドンに比べて最も差があるコドンを交換対象コドン2として同義コドン置換テーブルT3を作成するものであることを特徴とするゲノム情報への情報の埋込装置。
【請求項8】
A、T、G、Cの4種の塩基からなる生物のゲノム情報を構成する塩基配列データ上で、遺伝子GXが記録されている埋込領域X内の原塩基配列データに対して、あらかじめ一部の塩基を改変することにより付加情報が埋め込まれた前記埋込領域X内の改変塩基配列データより、前記付加情報を抽出するとともに、原塩基配列データを復元する装置であって、
前記塩基配列データ上に前記遺伝子GXの近傍に位置する遺伝子GYが記録されている領域を参照領域Yとして設定する参照領域設定手段と、
前記参照領域Yに対して、コドンの出現頻度を算出し、コドン頻度テーブルTYを作成するコドン出現頻度算出手段と、
前記コドン頻度テーブルTYを基に、同一アミノ酸を構成する同義コドンのうち、前記参照領域Yにおいて1回以上出現したコドンである出現コドンと1回も出現しなかった非出現コドンを対応付けた同義コドン置換テーブルT1´を作成する同義コドン置換テーブル作成手段と、
前記同義コドン置換テーブルT1´に基づいて、埋込後の前記埋込領域X内のコドンを順次探索し、同義コドン置換テーブルT1´に記録された出現コドンが存在する場合は第1のビット値、同義コドン置換テーブルT1´に記録された非出現コドンが存在する場合は第2のビット値を付加情報として抽出する付加情報抽出手段と、
前記抽出されたビット値が第1のビット値である場合は、前記埋込後の埋込領域X内に存在した同義コドン置換テーブルT1´上の非出現コドンを同義コドン置換テーブルT1´上の出現コドンに戻す処理を施す同義コドン逆置換手段と、
を有することを特徴とするゲノム情報からの情報の抽出装置。
【請求項9】
請求項8において、
前記同義コドン置換テーブル作成手段が、非出現コドンと対応付ける出現コドンは、前記参照領域Yにおいて、あるアミノ酸または終了コードについて出現頻度が最大の最大頻度コドンであることを特徴とするゲノム情報への情報の埋込装置。
【請求項10】
請求項8または請求項9において、
前記コドン出現頻度算出手段が前記埋込後の埋込領域Xに対しても、コドンの出現頻度を算出し、コドン頻度テーブルTX´を作成し、
前記同義コドン置換テーブル作成手段が、前記同義コドン置換テーブルT1´に登録されている非出現コドンと対応する出現コドンの頻度を参照し、アミノ酸単位に頻度が均等でない場合、当該非出現コドンと対応する出現コドンを前記同義コドン置換テーブルT1´より削除する補正を行なうものであることを特徴とするゲノム情報への情報の埋込装置。
【請求項11】
A、T、G、Cの4種の塩基からなる生物のゲノム情報を構成する塩基配列データ上で、遺伝子GXが記録されている埋込領域X内の原塩基配列データに対して、あらかじめ一部の塩基を改変することにより付加情報が埋め込まれた前記埋込領域X内の改変塩基配列データより、前記付加情報を抽出するとともに、原塩基配列データを復元する装置であって、
前記塩基配列データ上に前記遺伝子GXの近傍に位置する遺伝子GYが記録されている領域を参照領域Yとして設定する参照領域設定手段と、
埋込後の前記埋込領域Xおよび参照領域Yに対して、コドンの出現頻度を算出し、コドン頻度テーブルTX´およびコドン頻度テーブルTYを作成するコドン出現頻度算出手段と、
前記コドン頻度テーブルTYを基に、同一アミノ酸または合成終了コードに翻訳される複数の同義コドンのうち、2種の同義コドンを交換対象コドン1および交換対象コドン2として対応付けた同義コドン置換テーブルを作成する同義コドン置換テーブル作成手段と、
前記同義コドン置換テーブルをアミノ酸または合成終了コード単位に順次読み込み、当該アミノ酸または合成終了コードにおけるコドン頻度テーブルTX´とコドン頻度テーブルTYの特徴に顕著な相違がある場合に第1のビット値、そうでない場合に第2のビット値を付加情報として抽出する付加情報抽出手段と、
前記抽出されたビット値が第1のビット値である場合は、前記埋込後の埋込領域X内の当該アミノ酸または合成終了コードに対応する交換対象コドン1と交換対象コドン2とを、前記同義コドン置換テーブルに従って交換する同義コドン逆置換手段と、
を有することを特徴とするゲノム情報からの情報の抽出装置。
【請求項12】
請求項11において、
前記同義コドン置換テーブル作成手段は、前記コドン頻度テーブルTYにおいて、同一のアミノ酸または合成終了コードに翻訳される複数の同義コドンの中で、最も頻度の高い最大頻度コドンを交換対象コドン1とし、最も頻度の低い最小頻度コドンを交換対象コドン2として同義コドン置換テーブルT2を作成するものであり、
前記付加情報抽出手段は、当該アミノ酸または合成終了コードの交換対象コドン1と交換対象コドン2の出現頻度の大小関係がコドン頻度テーブルTX´とコドン頻度テーブルTYとの間で相違している場合に、前記特徴に顕著な相違があるとするものであることを特徴とするゲノム情報からの情報の抽出装置。
【請求項13】
請求項11において、
前記同義コドン置換テーブル作成手段は、前記コドン頻度テーブルTYにおいて、同一のアミノ酸または合成終了コードに翻訳される複数の同義コドンの中で、最も頻度の高い最大頻度コドンを交換対象コドン1とし、GC含有量が前記最大頻度コドンに比べて最も差があるコドンを交換対象コドン2として同義コドン置換テーブルT3を作成するものであり、
前記付加情報抽出手段は、当該アミノ酸または合成終了コードに翻訳される全ての同義コドンのGC含有量がコドン頻度テーブルTX´とコドン頻度テーブルTYとの間で所定値以上の差がある場合に特徴に顕著な相違があるとするものであることを特徴とするゲノム情報からの情報の抽出装置。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate