ゲノム情報への情報の埋込装置およびゲノム情報からの情報の抽出装置

【課題】タンパク質に翻訳される配列の機能に変更を加えることなく、ゲノム情報に任意の付加情報を埋め込み、抽出することが可能であると共に、オリジナル配列を復元することが可能なゲノム情報への情報の埋込装置、ゲノム情報からの情報の抽出装置を提供する。
【解決手段】全体塩基配列中から、参照領域設定手段１０が参照領域Ｙを設定すると共に、埋込領域設定手段２０が埋込領域Ｘを設定した後、コドン出現頻度算出手段３０が、参照領域Ｙにおける各コドンの出現頻度を算出する。同義コドン置換テーブル作成手段４０は、算出された出現頻度に基づいて、同義である出現コドンと非出現コドンを対応づけた同義コドン置換テーブルを作成し、同義コドン置換手段６０が、埋め込むべき付加情報のビット値に応じて、埋込領域Ｘにおける各コドンを、同義コドン置換テーブルを用いて非出現コドンに置き換える処理を行い、埋込後の埋込領域Ｘが得られる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、バイオインフォマティクス、ゲノム創薬、バイオ新素材開発などゲノム情報データベースの構築、検索、配布、流通を行う分野に関する。
【背景技術】
【０００２】
ゲノム情報は、Ａ、Ｇ、Ｃ、Ｔの４種の塩基の組み合わせで構成されるＤＮＡ配列の集合体である。ヒトゲノム解読プロジェクトの終了に伴い、あらゆる生物情報のなかでゲノムに関するデータベースが多く蓄積されている。ＤＮＡサンプルは、ＰＣＲ法の発明により配列データと同様に機械的に複製可能になり、ＤＮＡシーケンサやＤＮＡチップの進歩により個人ごとのＤＮＡ情報も今後解析が活発に行われるものと考えられている。
【０００３】
これらＤＮＡ情報は、配列データおとび生モノのＤＮＡサンプルの双方で保存され、医療・創薬など種々の分野に対してコピー配布され始めている。将来的に遺伝子治療が活発になると、移植医療と同様にＤＮＡ配列がヒトの細胞に移植されるようになり、移植医療における埋め込まれた人工臓器の追跡可能性の保証（トレーサビリティ）と同様なシステムが求められることが予想される。なお、既に人工臓器においては製造番号、シリアル番号などのＩＤの付与が義務化され実施されている。
【発明の開示】
【発明が解決しようとする課題】
【０００４】
ＤＮＡ配列にＩＤ等の情報を埋め込む手法としては、アノテーション情報として記述する手法、非コーディング領域に記述する手法、コーディング領域に記述する手法の３種が考えられる。このうち、アノテーション情報として記述する手法の場合、アノテーションは、人間がデータを読むのを助けるためにＤＮＡ配列に付加された人為的な情報であり、容易に削除・編集できるため、セキュリティ性はほとんどない。
【０００５】
非コーディング領域に記述する手法は、ＤＮＡ配列において、タンパク質に翻訳される情報が記述されていない非コーディング領域に記述するものである。高等生物では、非コーディング領域の割合が多いため、この領域にＡ、Ｇ、Ｃ、Ｔの４種の塩基の組み合わせで符号化すれば、生物学的機能に影響を与えずに任意の付加情報を埋め込むことができる。ただし、ＤＮＡ配列には、未解明な部分が多く、現状では非コーディング領域と判断されていても、将来的に生物学的意義が明確になる可能性もあるため、この領域にデータを埋め込むのは危険である。
【０００６】
コーディング領域に記述する手法は、ＤＮＡ配列において、タンパク質に翻訳される情報が記述されているコーディング領域に記述するものである。コーディング領域では、３つの塩基（この３つの塩基の集合は「コドン」と呼ばれる）が１つのアミノ酸あるいは終了コードに翻訳されてタンパク質が合成されるが、コドンは６４種存在するのに、アミノ酸（＋終了コード）は２１種しかなく、複数のコドンが同一のアミノ酸に翻訳される同義コドンが存在する。従って、同義コドンに置換することにより、タンパク質合成に影響を与えずに、データを埋め込むことができる。しかし、埋め込み前のオリジナル配列も併せて保管する必要があり、データ管理が難しいという問題がある。
【０００７】
また、塩基やアミノ酸を置換することにより埋め込みを行うことについて、開示されている技術も存在するが（特許文献１参照）、構造や機能が変化してしまうため、埋め込まれた物質を利用することができないという問題があり、この場合も、埋め込み前のオリジナル配列も併せて保管することが必須になる。
【特許文献１】特開２００５−１６５２３１号公報
【０００８】
そこで、本発明は、タンパク質に翻訳される配列の機能に変更を加えることなく、ゲノム情報に任意の付加情報を埋め込み、抽出することが可能であると共に、オリジナル配列を復元することが可能なゲノム情報への情報の埋込装置、ゲノム情報からの情報の抽出装置を提供することを課題とする。
【課題を解決するための手段】
【０００９】
上記課題を解決するため、本発明第１の態様では、塩基配列データ上に前記遺伝子Ｇ_Xの近傍に位置する遺伝子Ｇ_Yが記録されている領域を参照領域Ｙとして設定する参照領域設定手段と、埋込前の前記埋込領域Ｘおよび前記参照領域Ｙに対して、コドンの出現頻度を算出し、コドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yを作成するコドン出現頻度算出手段と、前記コドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yを基に、同一アミノ酸または合成終了コードを構成する同義コドンのうち、前記埋込前の埋込領域Ｘおよび参照領域Ｙにおいて１回も出現しなかった非出現コドンと、少なくとも前記参照領域Ｙにおいて１回以上出現したコドンである出現コドンとを対応付けた同義コドン置換テーブルＴ₁を作成する同義コドン置換テーブル作成手段と、前記付加情報のビット配列のビット値に応じて、前記同義コドン置換テーブルＴ₁を利用し、前記埋込前の埋込領域Ｘにおける出現コドンを非出現コドンに置換する同義コドン置換手段を有する構成としたゲノム情報への情報の埋込装置により付加情報を埋め込み、
塩基配列データ上に前記遺伝子Ｇ_Xの近傍に位置する遺伝子Ｇ_Yが記録されている領域を参照領域Ｙとして設定する参照領域設定手段と、前記参照領域Ｙに対して、コドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成するコドン出現頻度算出手段と、前記コドン頻度テーブルＴ_Yを基に、同一アミノ酸を構成する同義コドンのうち、前記参照領域Ｙにおいて１回以上出現したコドンである出現コドンと１回も出現しなかった非出現コドンを対応付けた同義コドン置換テーブルＴ₁´を作成する同義コドン置換テーブル作成手段と、前記同義コドン置換テーブルＴ₁´に基づいて、埋込後の前記埋込領域Ｘ内のコドンを順次探索し、同義コドン置換テーブルＴ₁´に記録された出現コドンが存在する場合は第１のビット値、同義コドン置換テーブルＴ₁´に記録された非出現コドンが存在する場合は第２のビット値を付加情報として抽出する付加情報抽出手段と、前記抽出されたビット値が第１のビット値である場合は、前記埋込後の埋込領域Ｘ内に存在した同義コドン置換テーブルＴ₁´上の非出現コドンを同義コドン置換テーブルＴ₁´上の出現コドンに戻す処理を施す同義コドン逆置換手段を有する構成としたゲノム情報からの情報の抽出装置により付加情報を抽出するとともに、原塩基配列データを復元するようにしたことを特徴とする。
【００１０】
また、本発明第２の態様では、塩基配列データ上に前記遺伝子Ｇ_Xの近傍に位置する遺伝子Ｇ_Yが記録されている領域を参照領域Ｙとして設定する参照領域設定手段と、前記参照領域Ｙに対して、コドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成するコドン出現頻度算出手段と、前記コドン頻度テーブルＴ_Yを基に、同一アミノ酸または合成終了コードに翻訳される複数の同義コドンのうち、２種の同義コドンを交換対象コドン１および交換対象コドン２として対応付けた同義コドン置換テーブル（Ｔ₂またはＴ₃）を作成する同義コドン置換テーブル作成手段と、前記付加情報のビット配列のビット値に応じて、前記同義コドン置換テーブル（Ｔ₂またはＴ₃）を利用し、アミノ酸または合成終了コード単位に埋込前の埋込領域Ｘにおける全ての交換対象コドン１と交換対象コドン２とを互いに交換する同義コドン置換手段を有する構成としたゲノム情報への情報の埋込装置により付加情報を埋め込み、
塩基配列データ上に前記遺伝子Ｇ_Xの近傍に位置する遺伝子Ｇ_Yが記録されている領域を参照領域Ｙとして設定する参照領域設定手段と、埋込後の前記埋込領域Ｘおよび参照領域Ｙに対して、コドンの出現頻度を算出し、コドン頻度テーブルＴ_X´およびコドン頻度テーブルＴ_Yを作成するコドン出現頻度算出手段と、前記コドン頻度テーブルＴ_Yを基に、同一アミノ酸または合成終了コードに翻訳される複数の同義コドンのうち、２種の同義コドンを交換対象コドン１および交換対象コドン２として対応付けた同義コドン置換テーブル（Ｔ₂またはＴ₃）を作成する同義コドン置換テーブル作成手段と、前記同義コドン置換テーブル（Ｔ₂またはＴ₃）をアミノ酸または合成終了コード単位に順次読み込み、当該アミノ酸または合成終了コードにおけるコドン頻度テーブルＴ_X´とコドン頻度テーブルＴ_Yの特徴に顕著な相違がある場合に第１のビット値、そうでない場合に第２のビット値を付加情報として抽出する付加情報抽出手段と、前記抽出されたビット値が第１のビット値である場合は、前記埋込後の埋込領域Ｘ内の当該アミノ酸または合成終了コードに対応する交換対象コドン１と交換対象コドン２とを、前記同義コドン置換テーブル（Ｔ₂またはＴ₃）に従って交換する同義コドン逆置換手段を有する構成としたゲノム情報からの情報の抽出装置により付加情報を抽出するとともに、原塩基配列データを復元するようにしたことを特徴とする。
【発明の効果】
【００１１】
本発明第１の態様によれば、埋込領域Ｘの近傍の参照領域Ｙから各コドンの出現頻度を算出して、同義である出現コドンと非出現コドンを対応づけた同義コドン置換テーブルＴ₁を作成し、埋め込むべきビット値に応じて、埋込領域Ｘにおける各コドンを、同義コドン置換テーブルＴ₁を用いて非出現コドンに置き換えるようにし、抽出側では、参照領域Ｙと埋込後の埋込領域Ｘにより同義コドン置換テーブルＴ₁´を作成し、この同義コドン置換テーブルＴ₁´に記録されているコドンが、埋込後の埋込領域Ｘに存在する場合に、“１”“０”のいずれかのビット値を抽出し、非出現コドンについては、同義コドン置換テーブルＴ₁´に従って出現コドンに置き換えるようにしたので、タンパク質に翻訳される配列の機能に変更を加えることなく、ゲノム情報に任意の付加情報を埋め込み、抽出することが可能であると共に、オリジナル配列を復元することが可能となる。
【００１２】
また、本発明第２の態様によれば、埋込領域Ｘの近傍の参照領域Ｙから各コドンの出現頻度を算出して、２種の同義コドンを交換対象コドン１および交換対象コドン２として対応づけた同義コドン置換テーブル（Ｔ₂またはＴ₃）を作成し、埋め込むべきビット値に応じて、埋込領域におけるあるアミノ酸または合成終了コードに対応する交換対象コドン１と交換対象コドン２の全てを互いに交換し、抽出側では、埋込側と同一の規則により同義コドン置換テーブル（Ｔ₂またはＴ₃）を作成し、算出された埋込領域Ｘのコドン頻度テーブルＴ_X´と参照領域Ｙのコドン頻度テーブルＴ_Yの特徴に顕著な相違があるか否かに基づいて、 “１”“０”のいずれかのビット値を抽出し、ビット値が“１”の場合、交換対象コドン１と交換対象コドン２については、同義コドン置換テーブル（Ｔ₂またはＴ₃）に従って交換するようにしたので、タンパク質に翻訳される配列の機能に変更を加えることなく、ゲノム情報に任意の付加情報を埋め込み、抽出することが可能であると共に、オリジナル配列を復元することが可能となる。また、第１の態様と異なり、同義コドンの中に非出現コドンが存在しない場合であっても、付加情報の埋め込みが可能となる。
【発明を実施するための最良の形態】
【００１３】
以下、本発明の実施形態について図面を参照して詳細に説明する。
（本発明の基本概念）
まず、本発明の基本概念について説明する。ＤＮＡ中の塩基配列は、３塩基（１コドン）単位でアミノ酸に翻訳されるが、この翻訳は、図３に示すようなアミノ酸翻訳規則に従って行われることが知られている。したがって、３つの塩基の配列が定まれば、１つのアミノ酸が定まることになる。例えば、第１塩基から第３塩基がいずれも“Ｔ”である“ＴＴＴ”という塩基配列は、Ｐｈｅというアミノ酸に変換される。ところが、図３の翻訳規則からわかるように、第１塩基、第２塩基が“Ｔ”であって、第３塩基が“Ｃ”である“ＴＴＣ”という塩基配列も、Ｐｈｅというアミノ酸に変換される。このことは、第３塩基を“Ｔ”から“Ｃ”に置き換えたとしても、アミノ酸を生成するための情報としては、変わらないことを示している。そこで、埋め込むべきビット値に応じて、塩基の置き換えを行うことにより、情報を埋め込もうというのが本発明の基本概念である。
【００１４】
次に、この情報の埋め込みを塩基配列中のどこに行うかという点について説明する。ＤＮＡ配列中には、タンパク質に翻訳される情報が記述されているコーディング領域と、タンパク質に翻訳される情報が記述されていない非コーディング領域が存在する。特に、高等生物では、非コーディング領域の割合が多いため、この領域に埋め込みを行えば、生物学的機能に影響を与えずに任意の付加情報を埋め込むことができる。しかし、ＤＮＡ配列には、未解明な部分が多く、現状では非コーディング領域と判断されていても、将来的に生物学的意義が明確になる可能性もあるため、本実施形態では、コーディング領域に埋め込みを行うことにしている。ここで、原核生物、真核生物のコーディング構造を図２に示す。
【００１５】
図２（ａ）は、バクテリアなどの原核生物のコーディング構造を示しており、図２（ｂ）は、原核生物以外の全ての高等生物である真核生物のコーディング構造を示している。原核生物のコーディング構造は、単純であり、コーディング領域と非コーディング領域で構成されている。真核生物のコーディング構造は、コーディング領域内に有効領域（Ｅｘｏｎ）と無効領域（Ｉｎｔｒｏｎ）が存在する構造となっている。無効領域については、現段階では、生物学的意義が明確でないため、本実施形態では、有効領域についてのみ埋め込みを行うこととしている。なお、原核生物、真核生物いずれの場合も、コーディング領域は、塩基配列“ＡＴＧ”（Ｍｅｔ：メチオニンを意味する）で開始し、塩基配列“ＴＡＡ”“ＴＡＧ”“ＴＧＡ”のいずれか（合成終了コードｓｔｏｐを意味する）で終了することが知られている。
【００１６】
（第１の実施形態・埋込装置構成）
まず、第１の実施形態について説明する。図１は、本発明第１の実施形態に係るゲノム情報への情報の埋込装置の構成図である。図１において、１０は参照領域設定手段、２０は埋込領域設定手段、３０はコドン出現頻度算出手段、４０は同義コドン置換テーブル作成手段、５０は付加情報読込手段、６０は同義コドン置換手段である。
【００１７】
参照領域設定手段１０は、塩基配列中のコーディング領域を参照領域として設定する機能を有している。埋込領域設定手段２０は、塩基配列中のコーディング領域を埋込領域として設定する機能を有している。コドン出現頻度算出手段３０は、設定された参照領域、埋込領域におけるコドンの出現頻度を算出する機能を有している。同義コドン置換テーブル作成手段４０は、算出された出現頻度に基づいて、同義コドン間の置換用のテーブルを作成する機能を有している。付加情報読込手段５０は、塩基配列に埋め込むべき付加情報、例えば、当該塩基配列を保管するデータベース事業者のＩＤ等の情報を読み込む機能を有している。同義コドン置換手段６０は、作成された同義コドン置換テーブルＴ₁を用いて、埋込領域の塩基配列中における塩基を他の塩基で置き換える機能を有している。
【００１８】
図１に示した装置は、現実には、コンピュータに専用のソフトウェアを搭載することにより実現される。また、処理過程において作成される配列データは、コンピュータが管理するメモリの記憶領域に作成される。
【００１９】
（第１の実施形態・埋込処理動作）
次に、図１に示した埋込装置の処理動作について説明する。まず、埋込装置が全体塩基配列を読み込んだ後、参照領域設定手段１０が、全体塩基配列中のコーディング領域を参照領域Ｙとして設定するとともに、埋込領域設定手段２０が全体塩基配列中のコーディング領域を埋込領域Ｘとして設定する。参照領域Ｙにおける塩基配列、埋込領域Ｘにおける塩基配列がそれぞれ図４（ａ）（ｂ）に示したようなものであったとして以下説明していくことにする。
【００２０】
参照領域Ｙ、埋込領域Ｘが設定されたら、次に、コドン出現頻度算出手段３０が、参照領域Ｙにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成する。作成されたコドン頻度テーブルＴ_Yの一例を図５に示す。図５に示すように、コドン頻度テーブルＴ_Yには、参照領域Ｙにおいて各コドンが何回出現したかが記録される。例えば、図５においては、Ｐｈｅに翻訳されるコドン“ｔｔｔ”が２回、“ｔｔｃ”が３回出現したことを示している。
【００２１】
また、コドン出現頻度算出手段３０は、埋込領域Ｘにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_Xを作成する。作成されたコドン頻度テーブルＴ_Xの一例を図６に示す。コドン頻度テーブルＴ_Xの作成も、コドン頻度テーブルＴ_Yの作成と同様に行われ、埋込領域Ｘにおいて各コドンが何回出現したかが記録される。例えば、図６においては、Ｐｈｅに翻訳されるコドン“ｔｔｔ”が３回、“ｔｔｃ”が４回出現したことを示している。なお、図５、図６に示すコドン頻度テーブルＴ_X、Ｔ_Yでは、出現頻度だけでなく、出現頻度を基に算出したＧＣ割合も記録されている。ＧＣ割合については、第３の実施形態で用いるものであるので、後述する。したがって、第１の実施形態においては、図５、図６に示したようなＧＣ割合は算出する必要はない。
【００２２】
さらに、コドン出現頻度算出手段３０は、作成したコドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yの内容を比較し、頻度が“０”であるものが一致するかどうかを判断する。そして、一致しない割合が所定値以上である場合は、コドン頻度テーブルＴ_Yの作成対象としたコーディング領域を、参照対象から除外する。あるコーディング領域が参照対象から除外されると、参照領域設定手段１０は、他のコーディング領域を参照領域Ｙとして設定する。そして、コドン出現頻度算出手段３０は、再びコドン頻度テーブルＴ_Yを作成した後、コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yの内容を比較する処理を行う。このようにして、コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yにおける頻度“０”のコドンが一致しない割合が所定値以下となるまで繰り返し同様の処理を行う。
【００２３】
コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yにおける頻度“０”のコドンが一致しない割合が所定値以下となった場合には、同義コドン置換テーブル作成手段４０が、コドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yを基に、同義コドン置換テーブルＴ₁を作成する。ここで、図５に示したコドン頻度テーブルＴ_Yおよび図６に示したコドン頻度テーブルＴ_Xを基に作成した同義コドン置換テーブルＴ₁を図７に示す。図５において、上から順に見ていくと、“Ｐｈｅ”については、出現頻度“０”のコドンが存在しないので、同義コドン置換テーブルＴ₁には記録されない。“Ｌｅｕ”については、出現頻度“０”のコドン“ｃｔｇ”がコドン頻度テーブルＴ_Yおよびコドン頻度テーブルＴ_Xの双方に存在するので、出現頻度最大のコドンと対応付けて同義コドン置換テーブルＴ₁に記録する。（コドン頻度テーブルＴ_Xではコドン“ｃｔｔ”も出現頻度“０”になるが、コドン頻度テーブルＴ_Yでは出現頻度が“０”にならないため、このコドンは同義コドン置換テーブルＴ₁には記録されない。）このとき、出現頻度最大のコドンが複数存在する場合には（図５の例では、“ｔｔａ”と“ｃｔａ”がともに“７”で最大）、事前に定めた規則によりどちらか一方を選択する。本実施形態では、参照配列中で先に出現した“ｔｔａ”を選択し、同義コドン置換テーブルＴ₁に記録している。“Ｓｅｒ”については、出現頻度“０”のコドン“ｔｃｔ”がコドン頻度テーブルＴ_Yに存在し、出現頻度“０”のコドン“ｔｃａ”がコドン頻度テーブルＴ_Xにも存在するが、双方が一致しないため、同義コドン置換テーブルＴ₁には記録されない。“Ｓｔｏｐ（合成終了コード）”については、“ｔａａ”と“ｔｇａ”は、コドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yにおいて非出現コドンに該当するが、コドン頻度テーブルＴ_Xにおいて出現頻度の合計が１しかない。本実施形態では、後述するように発生確率を５０％にする処理を行うが、このためには、出現頻度の合計が最低２以上必要であり、条件を満たさないため、同義コドン置換テーブルＴ₁に記録しない。“Ａｒｇ”については、２つの出現頻度“０”のコドン“ｃｇｔ”と“ｃｇｃ”がコドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yの双方に存在し、かつ出現頻度が高い２つのコドン“ａｇａ”と“ａｇｇ”がコドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yの双方に存在するため、表の順に従ってコドン“ｃｇｔ”をコドン“ａｇａ”に対応させ、コドン“ｃｇｃ”をコドン“ａｇｇ”に対応させ、単一のアミノ酸に対して２つの置換規則を同義コドン置換テーブルＴ₁に記録するようにした。他のアミノ酸や合成終了コードに対しても同様にして処理を行い、図５に示したコドン頻度テーブルＴ_Yおよび図６に示したコドン頻度テーブルＴ_Xから図７に示したような同義コドン置換テーブルＴ₁が作成されることになる。
【００２４】
一方、付加情報読込手段５０は、塩基配列に埋め込むべき付加情報を読み込む。次に、同義コドン置換手段６０が、同義コドン置換テーブルＴ₁を用いて、読み込んだ付加情報を構成するビット値に応じて、埋込領域Ｘの塩基配列のコドンの置換を行う。具体的には、埋込領域Ｘの塩基配列において出現したコドンが、同義コドン置換テーブルＴ₁における最大頻度コドンとして記録されている場合に、付加情報中の対応するビット値が“１”であれば、そのコドンを、同義コドン置換テーブルＴ₁上の対応する非出現コドンに置き換える処理を行う。付加情報中の対応するビット値が“０”である場合は、置き換えは行わない。この置換処理は、同義コドン置換テーブルＴ₁に記録されている最大頻度コドン単位にまとめて行ない、埋込領域Ｘの塩基配列に同一の最大頻度コドンがＮ個存在すれば、連続する付加情報のＮビットが順次埋め込まれる。例えば、図４（ｂ）に示した埋め込み対象配列に対して、図７に示した同義コドン置換テーブルＴ₁、図８（ａ）に示した付加情報を用いて置換を行う場合、図８（ｂ）に示すような埋込前塩基配列に下線マークされた２３個のコドンが置換対象となる。これを付加情報に対応させるにあたり、図８（ａ）に示されるように、最初の８ビットをコドン“ｔｔａ”（Ｌ）に、続く３ビットをコドン“ｃｃｇ”（Ｐ）に、続く４ビットをコドン“ａｇａ”（Ｒ１）に、続く４ビットをコドン“ａｇｇ”（Ｒ２）に、最後の４ビットをコドン“ｇｇｔ”（Ｇ）に対応させる。図８（ａ）の付加情報ビット配列に対して図８（ｂ）に示す埋め込み対象の塩基配列順に入れ替えたビット配列は図８（ｃ）に示されるようになり、これに基づいて図８（ｂ）の塩基配列に対して埋め込みを行なった結果を図８（ｄ）に示す。図８（ｃ）において各ビットに対応させて下段に示されるアミノ酸記号は図８（ｂ）に下線マークされたコドンに対応する。図８（ｄ）において、下線を付したコドンが同義コドン置換テーブルＴ₁に記録されているコドンであり、さらに太字のものが置換されたコドンで、図８（ｃ）においてビット１に対応するコドンである。
【００２５】
図８（ｃ）に示した付加情報は、左側が先頭ビットとなっており、先頭から順次処理されていく。従って、図８（ｂ）に示した埋め込み対象配列において最初に出現する“ｔｔａ”のコドンは、付加情報の先頭のビット値が“１”であるため、同義コドン置換テーブルＴ₁に従って“ｃｔｇ”に置換される。ところが、図８（ｂ）に示した埋め込み対象配列において最初に出現する“ｃｃｇ”のコドンは、付加情報の２番目のビット値が“０”であるため、置換されない。このようにして、付加情報の全ビット値に応じて置き換えが行われた結果、図８（ｂ）に示した埋め込み対象配列が、図８（ｄ）に示すような埋め込み済み塩基配列になるのである。図８（ｂ）と図８（ｄ）を比較すると、図７の同義コドン置換テーブルＴ₁、図８（ｃ）の付加情報に従って置換されたことがわかる。以上のように、第１の実施形態では、１つの埋込領域に、参照領域で非出現コドンが存在したアミノ酸に翻訳されるコドンの出現数と同数のビット数が埋め込み可能となる。
【００２６】
同義コドン置換テーブルＴ₁に記録する未出現コドンを決定するにあたり、コドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yの双方を参照しているが、後述する抽出装置側では、コドン頻度テーブルＴ_Yだけで同義コドン置換テーブルＴ₁を作成することになる。そのため、コドン頻度テーブルＴ_Yでは未出現コドンであっても、コドン頻度テーブルＴ_Xでは未出現コドンでない場合もあり、その際は埋め込み処理が行なわれないが、抽出装置側では埋め込み処理が行なわれていると誤判断するという問題が発生する。そこで、埋め込み処理が実際に行なわれたか否かを抽出装置側に知らせるため、埋め込みビットの０と１の発生確率を５０％にし、埋め込みが行なわれた場合は、同義コドン置換テーブルＴ₁に記録されている置換対象となる出現コドンの半数が必ず非出現コドンに置換されるようにする。埋め込みが行なわれなかった場合は、置換対象となる出現コドンの数が非出現コドンに比べ優位に多くなるため（同義コドン置換テーブルＴ₁において、置換対象となる出現コドンとして最大頻度の同義コドンを選択するようにしているため）、抽出装置側でコドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yを比較することにより、埋め込みが行なわれなかったことを判断できる。
【００２７】
埋め込みビットの０と１の発生確率を５０％にする方法としては、与えられた原付加情報ビット配列に対して、“０”を“１０”、“１”を“０１”という１ビットを２ビットに符号化して埋め込むことにより実現できる。具体的には、図８（ａ）に示されている２３ビットからなる付加情報ビット配列は、図８（ｅ）に示されている１２ビットからなる原付加情報ビット配列に対して、埋め込みビット数の０と１の発生確率が５０％になるように符号化したものである。（本来は図８（ａ）は２４ビットになるが、埋め込み可能なコドンが２３個という奇数個のため、最後の１ビット分は埋め込みを省略している。それでも、抽出装置側は欠落した最後の１ビット分を補填して図８（ｅ）のようなビット配列を抽出することができる。）本符号化により、埋め込み可能なビット数は半減するが、抽出装置側では埋め込み処理が行なわれているか否かを確実に判断できる。図７に示される各コドンの頻度が本埋め込み処理によりどのように変化するかを図１３に示す。特徴として、各アミノ酸において埋め込み後の出現コドンと非出現コドンの数がほぼ均等になることがわかる。
【００２８】
（第１の実施形態・抽出装置構成）
次に、第１の実施形態における抽出装置について説明する。図９は、本発明第１の実施形態に係るゲノム情報からの情報の抽出装置の構成図である。図９において、１１０は参照領域設定手段、１２０は埋込領域設定手段、１３０はコドン出現頻度算出手段、１４０は同義コドン置換テーブル作成手段、１５０は付加情報抽出手段である。
【００２９】
参照領域設定手段１１０は、埋込装置における参照領域設定手段１０と同様、塩基配列中のコーディング領域を参照領域として設定する機能を有している。埋込領域設定手段１２０は、埋込装置における埋込領域設定手段２０と同様、塩基配列中のコーディング領域を埋込領域として設定する機能を有している。コドン出現頻度算出手段１３０は、埋込装置におけるコドン出現頻度算出手段３０と同様、設定された参照領域、埋込領域におけるコドンの出現頻度を算出する機能を有している。同義コドン置換テーブル作成手段１４０は、埋込装置における同義コドン置換テーブル作成手段４０と同様、算出された出現頻度に基づいて、同義コドン間の置換用のテーブルを作成する機能を有している。付加情報抽出手段１５０は、作成された同義コドン置換テーブルＴ₁´を用いて、埋込領域の塩基配列中における塩基から、置換対象であった塩基を検出し、実際に置換されているかどうかに応じて、付加情報を抽出すると共に、置き換えられている塩基を元に戻す機能を有している。
【００３０】
図９に示した装置は、現実には、コンピュータに専用のソフトウェアを搭載することにより実現される。また、処理過程において作成される配列データは、コンピュータが管理するメモリの記憶領域に作成される。
【００３１】
（第１の実施形態・抽出処理動作）
次に、図９に示した抽出装置の処理動作について説明する。まず、抽出装置が全体塩基配列を読み込んだ後、参照領域設定手段１１０が、全体塩基配列中のあるコーディング領域を参照領域Ｙとして設定するとともに、埋込領域設定手段１２０が全体塩基配列中のあるコーディング領域を埋込領域Ｘとして設定する。参照領域設定手段１１０、埋込領域設定手段１２０は、それぞれ埋込装置の参照領域設定手段１０、埋込領域設定手段２０と同一の規則に従い、参照領域Ｙ、埋込領域Ｘを設定するので、埋込装置が設定した参照領域、埋込領域と同一の領域が必ず設定されることになる。したがって、設定した参照領域からは、図４（ａ）に示した塩基配列、設定した埋込領域Ｘからは、図８（ｂ）に示した塩基配列が得られることになる。
【００３２】
参照領域Ｙ、埋込領域Ｘが設定されたら、次に、コドン出現頻度算出手段１３０が、参照領域Ｙにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成する。コドン出現頻度算出手段１３０におけるコドン頻度テーブルＴ_Yの作成規則は、埋込装置のコドン出現頻度算出手段３０と同一であり、参照領域Ｙについては、上述のように同一であるので、作成されたコドン頻度テーブルＴ_Yは、図５に示したものになる。
また、コドン出現頻度算出手段１３０は、埋込領域Ｘにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_X´を作成する。コドン頻度テーブルＴ_X´の作成も、コドン頻度テーブルＴ_Yの作成と同様に行われ、埋込後の埋込領域Ｘにおいて各コドンが何回出現したかが記録される。埋込領域Ｘについては、埋込前と埋込後で、その配列構成は変化しているため、コドン頻度テーブルＴ_X´は、コドン頻度テーブルＴ_Xとは異なったものとなる。
【００３３】
続いて、同義コドン置換テーブル作成手段１４０が、コドン頻度テーブルＴ_Yを基に、同義コドン置換テーブルＴ₁´を作成する。同義コドン置換テーブル作成手段１４０における同義コドン置換テーブルＴ₁´の作成規則は、埋込装置の同義コドン置換テーブル作成手段４０とは異なり、コドン頻度テーブルＴ_X´を参照せずにコドン頻度テーブルＴ_Yのみを参照して同義コドン置換テーブルを作成する。すなわち、参照領域Ｙのみにおいて1回も出現しなかったコドンを非出現コドンとして同義コドン置換テーブルＴ₁´を作成することになる。ここで、コドン頻度テーブルＴ_Yを基に作成した同義コドン置換テーブルＴ₁´を図１２に示す。この同義コドン置換テーブルＴ₁´は、コドン頻度テーブルＴ_Yのみを参照して作成されるため、このままでは、埋込装置側で作成した同義コドン置換テーブルＴ₁と同一にはならない。具体的には、コドン頻度テーブルＴ_Yにおいて、“Ｓｅｒ”の“ｔｃｔ”、“Ｓｔｏｐ”の“ｔａａ”、“Ｃｙｓ”の“ｔｇｃ”、“Ｈｉｓ”の“ｃａｃ”も非出現コドンであり、更に図７に記録されているアミノ酸“Ｐｒｏ”と“Ａｒｇ”については、他にも同義の非出現コドン“ｃｃａ”と“ｃｇａ”が存在するため、図１２に示されているように同義コドン置換テーブルＴ₁´に加えられてしまう。しかし、前述の埋込装置側ではコドン頻度テーブルＴ_Xも参照しており、これら６つのコドンのうち、“Ｓｔｏｐ”を除く５つはコドン頻度テーブルＴ_Xにおいては非出現コドンでないため、同義コドン置換テーブルＴ₁から外していた（“Ｓｔｏｐ”の“ｔａａ”と“ｔｇａ”は、コドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yにおいて非出現コドンに該当するが、一連の遺伝子がコーディングされている埋め込み領域では出現頻度が必ず１になり、後述する発生確率を５０％にすることは不可能なため、同義コドン置換テーブルＴ₁から外す。）。このため、このまま同義コドン置換テーブルＴ₁´を利用して逆置換をしても、オリジナル配列を復元することはできない。
【００３４】
この問題を回避するため、前述の通り埋込装置側では埋め込みビットの０と１の発生確率を５０％になるように、あらかじめ付加情報ビット配列に対して符号化を行なっている。これに対応させるため、同義コドン置換テーブル作成手段１４０は、参照領域Ｙを参照して図１２に示したようなテーブルを作成した後、６つのアミノ酸“Ｓｅｒ”、“Ｓｔｏｐ”、“Ｃｙｓ”、“Ｐｒｏ（２番目）”、“Ｈｉｓ”、“Ａｒｇ（３番目）”において、埋め込み後のコドン頻度テーブルＴ_X´とコドン頻度テーブルＴ_Y上の同義コドンの頻度を比較して、各々非出現コドン“ｔｃｔ”、“ｔａａ”、“ｔｇｃ”、“ｃｃａ”、“ｃａｃ”、“ｃｇａ”が５０％（均等）の割合で存在しなければ、埋め込みが行なわれなかったものと判断し、同義コドン置換テーブルＴ₁´から外すようにする。具体的には、コドン頻度テーブルＴ_X（これら６つのコドンの頻度は埋め込み前後で変わらないため、コドン頻度テーブルＴ_X´でも同一）によると、“Ｓｅｒ”の“ｔｃｔ”は“ａｇｔ”との対比で４／（４＋８）で３３％、“Ｃｙｓ”の“ｔｇｃ”は“ｔｇｔ”との対比で１／１で１００％で均等とはいえず、コドン頻度テーブルＴ_Yによると、“Ｓｔｏｐ”の“ｔａａ”は“ｔａｇ”との頻度総和が１で、“Ｐｒｏ（２番目）”の“ｃｃａ”は“ｃｃｔ”との頻度総和が１で、“Ｈｉｓ”の“ｃａｃ”は“ｃａｔ”との頻度総和が１で、“Ａｒｇ（３番目）”の“ｃｇａ”は“ｃｇｇ”との頻度総和が１であるため元来均等になり得ないため、これら６個の非出現コドンは同義コドン置換テーブルＴ₁´から外され、図７の同義コドン置換テーブルＴ₁に一致するようになる。
【００３５】
次に、付加情報抽出手段１５０が、同義コドン置換テーブルＴ₁´を用いて、埋込領域Ｘの塩基配列中から付加情報を構成する各ビットの検出を行う。具体的には、同義コドン置換テーブルＴ₁´中に記録されたコドンが塩基配列中に存在した場合は、塩基配列中のそのコドンは置換対象であったと判断する。そして、そのコドンが非出現コドンとして同義コドン置換テーブルＴ₁´中に記録されていればビット値“１”、逆に出現コドンとして同義コドン置換テーブルＴ₁´中に記録されていればビット値“０”と判断する。同様にして、塩基配列中からビット値を検出していき、図８に示した付加情報が抽出されることになる。さらに付加情報抽出手段１５０は、置換されていたコドンを元のコドンに復元する処理を並行して行う。これは、同義コドン置換テーブルＴ₁´中に非出現コドンとして記録されているコドンを、同義コドン置換テーブルＴ₁´中に出現コドンとして記録されているコドンに置換することにより行われる。このようにして、図４（ｂ）に示すような元の塩基配列が得られることになる。
【００３６】
上記の例においては、参照領域中における最大頻度コドンを同義コドン置換テーブルＴ₁（Ｔ₁´）中の出現コドンとして設定したが、出現コドンとしては、必ずしも最大頻度コドンとして設定する必要はなく、１回以上出現したコドンであれば良い。ただし、第１の実施形態においては、出現コドンの出現頻度が高い程、埋め込み可能なビット数が増えるため、最大頻度コドンを同義コドン置換テーブルＴ₁（Ｔ₁´）中の出現コドンとして設定することが望ましい。
【００３７】
（第２の実施形態・埋込装置構成）
次に、第２の実施形態について説明する。第２の実施形態においても、装置構成は基本的に第１の実施形態と同様であり、図１に示した構成となっている。第１の実施形態では、参照領域・埋込領域から非出現コドンを調べ、付加情報ビット配列に応じて、頻度最大のコドンを非出現コドンに変換することにより付加情報を埋め込むようにしたが、第２の実施形態では、参照領域・埋込領域から高頻度コドン、低頻度コドンを調べ、付加情報ビット配列に応じて、高頻度コドンと低頻度コドンとを互いに交換することにより付加情報を埋め込むことを特徴としている。したがって、第２の実施形態における各構成要素は、第１の実施形態に示した構成要素とは、その機能が異なっている。
【００３８】
（第２の実施形態・埋込処理動作）
続いて、第２の実施形態における埋込装置の処理動作について説明する。まず、第１の実施形態と同様、埋込装置が全体塩基配列を読み込んだ後、参照領域設定手段１０が、全体塩基配列中のコーディング領域を参照領域として設定するとともに、埋込領域設定手段２０が全体塩基配列中のコーディング領域を埋込領域として設定する。この結果、第１の実施形態と同様、図４（ａ）（ｂ）に示したような塩基配列が得られることになる。
【００３９】
第１の実施形態と同様、参照領域Ｙ、埋込領域Ｘが設定されたら、コドン出現頻度算出手段３０が、参照領域Ｙにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成する。この結果、図５に示したようなコドン頻度テーブルＴ_Yが得られる。
【００４０】
また、コドン出現頻度算出手段３０は、第１の実施形態と同様、埋込領域Ｘにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_Xを作成する。この結果、図６に示したようなコドン頻度テーブルＴ_Xが得られる。なお、図５、図６に示すコドン頻度テーブルＴ_X、Ｔ_Yでは、出現頻度だけでなく、出現頻度を基に算出したＧＣ割合も記録されているが、上述のように、第２の実施形態においては、図５、図６に示したようなＧＣ割合は算出する必要はない。
【００４１】
さらに、コドン出現頻度算出手段３０は、作成したコドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yの内容を比較し、同義コドン間の頻度の大小関係が、互いに逆転しているアミノ酸または合成終了コードが存在するかどうかを判断する。そのようなアミノ酸または合成終了コードが存在する場合は、コドン頻度テーブルＴ_Yの作成対象としたコーディング領域を、参照対象から除外する。あるコーディング領域が参照対象から除外されると、参照領域設定手段１０は、他のコーディング領域を参照領域Ｙとして設定する。そして、コドン出現頻度算出手段３０は、再びコドン頻度テーブルＴ_Yを作成した後、コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yの内容を比較する処理を行う。このようにして、コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yにおいて、同義コドン間の頻度の大小関係が、互いに逆転しているアミノ酸が存在しなくなるまで繰り返し同様の処理を行う。
【００４２】
コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yにおいて、同義コドン間の頻度の大小関係が、互いに逆転しているアミノ酸が存在しなくなった場合には、同義コドン置換テーブル作成手段４０が、コドン頻度テーブルＴ_Yを基に、同義コドン置換テーブルＴ₂を作成する。ここで、図５に示したコドン頻度テーブルＴ_Yを基に作成した同義コドン置換テーブルＴ₂を図１０（ａ）に示す。例えば、図５に示した参照配列中において、“Ｌｅｕ”については、 “ｔｔａ”が７個出現して頻度最大であり、“ｃｔｔ”が３個出現して頻度最小であることから、この２つの組み合わせが、図１０の１行目に示すように同義コドン置換テーブルＴ₂に記録される。頻度最大と頻度最小が同数となるようなアミノ酸または合成終了コードについては、同義コドン置換テーブルＴ₂には記録しない。
【００４３】
一方、付加情報読込手段５０は、塩基配列に埋め込むべき付加情報を読み込む。次に、同義コドン置換手段６０が、同義コドン置換テーブルＴ₂を用いて、読み込んだ付加情報を構成するビット値に応じて、埋込領域Ｘの塩基配列のコドンの交換を行う。具体的には、埋込領域Ｘの塩基配列において出現したコドンが、同義コドン置換テーブルＴ₂における最大頻度コドンまたは最小頻度コドンとして記録されている場合に、付加情報中の対応するビット値が“１”であれば、同義コドン置換テーブルＴ₂上の対応する全ての最小頻度コドンと最大頻度コドンを交換する処理を行う。付加情報中の対応するビット値が“０”である場合は、交換は行わない。例えば、図４（ｂ）に示した埋め込み対象配列に対して、図１０（ａ）に示した同義コドン置換テーブルＴ₂、図８（ａ）に示した付加情報（先頭から９ビット分）を用いて交換を行うと、図４（ｂ）中の各コドンは、図１０（ｂ）に示すように変化することになる。
【００４４】
図１０（ａ）の同義コドン置換テーブルＴ₂には、９種類のアミノ酸について記録されているので、９ビットの変換の記録が可能である。従って、図８（ａ）に示した付加情報のうち、先頭の９ビット“１０１１１０１１０”が記録できる。具体的には、付加情報の先頭ビットが“１”であるので、同義コドン置換テーブルＴ₂の１行目に従って、埋め込み対象配列中の“ｔｔａ”は全て“ｃｔｔ”に変換され、逆に埋め込み対象配列中の“ｃｔｔ” は全て“ｔｔａ”に変換される。この結果、図１０（ｂ）に示すように、埋め込み前は、“ｔｔａ”が８個出現し、“ｃｔｔ”が非出現であったのが、埋め込み後は、“ｔｔａ”が非出現となり、“ｃｔｔ”が８個出現することになる。また、付加情報の２番目のビットが“０”であるので、同義コドン置換テーブルＴ₂の２行目に対応した処理は行われない。したがって、埋め込み対象配列中の“ａｇｔ”“ｔｃｔ”は、そのままとなる。この結果、図１０（ｂ）に示すように、埋め込み前は、“ａｇｔ”が８個出現し、“ｔｃｔ”が４個出現するのは、埋め込み前後において同一である。以上のように、第２の実施形態では、１つの埋込領域に、コドンの出現頻度に所定以上の差が存在するアミノ酸と同数のビット数が埋め込み可能となる。
【００４５】
（第２の実施形態・抽出装置構成）
次に、第２の実施形態における抽出装置について説明する。第２の実施形態においても、抽出装置の構成は基本的に第１の実施形態と同様であり、図９に示した構成となっている。
【００４６】
（第２の実施形態・抽出処理動作）
次に、第２の実施形態における抽出装置の処理動作について説明する。まず、抽出装置が全体塩基配列を読み込んだ後、参照領域設定手段１１０が、全体塩基配列中のコーディング領域を参照領域Ｙとして設定するとともに、埋込領域設定手段１２０が全体塩基配列中のコーディング領域を埋込領域Ｘとして設定する。第２の実施形態においても、参照領域設定手段１１０、埋込領域設定手段１２０は、それぞれ埋込装置の参照領域設定手段１０、埋込領域設定手段２０と同一の規則に従い、参照領域、埋込領域を設定するので、埋込装置が設定した参照領域、埋込領域と同一の領域が必ず設定されることになる。したがって、設定した参照領域Ｙからは、図４（ａ）に示した塩基配列、設定した埋込領域Ｘからは、図１０（ｂ）に示したように改変された塩基配列が得られることになる。
【００４７】
参照領域Ｙ、埋込領域Ｘが設定されたら、次に、コドン出現頻度算出手段１３０が、埋め込み領域における塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_X´を作成すると共に、参照領域における塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成する。コドン出現頻度算出手段１３０におけるコドン頻度テーブルＴ_X´、コドン頻度テーブルＴ_Yの作成規則は、第１の実施形態と同様、埋込装置のコドン出現頻度算出手段３０と同一であり、参照領域Ｙについては、上述のように同一であるので、作成されたコドン頻度テーブルＴ_Yは、図５に示したものになる。一方、埋込領域Ｘについては、埋込前と埋込後で、その配列構成が変化しているため、コドン頻度テーブルＴ_X´は、コドン頻度テーブルＴ_Xとは異なったものとなる。
【００４８】
続いて、同義コドン置換テーブル作成手段１４０が、コドン頻度テーブルＴ_Yを基に、同義コドン置換テーブルＴ₂を作成する。同義コドン置換テーブル作成手段１４０における同義コドン置換テーブルＴ₂の作成規則は、埋込装置の同義コドン置換テーブル作成手段４０と同一であるので、作成された同義コドン置換テーブルＴ₂は、図１０（ａ）に示したものになる。
【００４９】
次に、付加情報抽出手段１５０が、同義コドン置換テーブルＴ₂を用いて、埋込領域Ｘの塩基配列中から付加情報を構成する各ビットの検出を行う。具体的には、まず、同義コドン置換テーブルＴ₂中に記録された最大頻度コドンと最小頻度コドンの、コドン頻度テーブルＴ_X´、コドン頻度テーブルＴ_Yにおける出現頻度を調べ、この出現頻度の大小関係がコドン頻度テーブルＴ_X´とコドン頻度テーブルＴ_Yで逆転するかどうかを判断する。そして、両コドンの出現頻度の大小関係が逆転する場合は、ビット値“１”、逆に両コドンの出現頻度の大小関係が逆転していない場合は、ビット値“０”と判断する。同様にして、同義コドン置換テーブルＴ₂に記録されたアミノ酸または合成終了コード単位で、塩基配列中からビット値を検出していき、図８（ａ）に示した付加情報の先頭９ビットが抽出されることになる。さらに付加情報抽出手段１５０は、交換されていたコドンを元のコドンに復元する処理を並行して行う。具体的には、コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yで出現頻度の大小関係が逆転するとして、ビット値“１”が検出された場合、そのアミノ酸または合成終了コードについて、同義コドン置換テーブルＴ₂を参照し、全ての最小頻度コドンと最大頻度コドンとを交換することにより行う。このようにして、図４（ｂ）に示すような元の塩基配列が得られることになる。
【００５０】
（第３の実施形態・埋込装置構成）
次に、第３の実施形態について説明する。第３の実施形態においても、装置構成は基本的に第１、第２の実施形態と同様であり、図１に示した構成となっている。第２の実施形態では、参照領域・埋込領域Ｘから高頻度コドン、低頻度コドンを調べ、付加情報ビット配列に応じて、高頻度コドンを低頻度コドンに変換することにより付加情報を埋め込むようにしたが、第３の実施形態では、低頻度コドンに代えて、高頻度コドンとのＧＣ含有量の差が大きいコドン（高頻度コドンと頻度が同じでも良い）を調べ、付加情報ビット配列に応じて、高頻度コドンをＧＣ含有量の差が大きいコドンに変換することにより付加情報を埋め込むことを特徴としている。したがって、第３の実施形態における各構成要素は、第１、第２の実施形態に示した構成要素とは、その機能が異なっている。
【００５１】
ここで、ＧＣ含有量について説明する。ＧＣ含有量とは、あるアミノ酸に翻訳される全コドンに含まれるＧ（グアニン）とＣ（シトシン）の量を示すものである。塩基配列は細胞に保管される際は、Ａ−Ｔ間またはＧ−Ｃ間で特異的な化学結合を行ないながら２重らせんを形成している。このとき、Ａ−Ｔ間の化学結合に比べ、Ｇ−Ｃ間の化学結合の方が強固なため、ＧＣ含有量（英語名：ＧＣコンテント）が多い塩基配列は化学的に安定で、放射線などによる突然変異の影響を受けにくい。そのため、ＧＣ含有量は遺伝子解析において重要なファクターで、一般に重要な情報が載っているコーディング領域は非コーディング領域に比べＧＣ含有量が多く、コーディング領域内でもエクソン領域はイントロン領域に比べＧＣ含有量が多いことが知られている。本実施形態では、全コドン（Ａ、Ｔ、Ｇ、Ｃ）に占めるＧとＣの合計の割合であるＧＣ割合をＧＣ含有量として用いている。
【００５２】
（第３の実施形態・埋込処理動作）
続いて、第３の実施形態における埋込装置の処理動作について説明する。まず、第１、２の実施形態と同様、埋込装置が全体塩基配列を読み込んだ後、参照領域設定手段１０が、全体塩基配列中のコーディング領域を参照領域Ｙとして設定するとともに、埋込領域設定手段２０が全体塩基配列中のコーディング領域を埋込領域Ｘとして設定する。この結果、第１、２の実施形態と同様、図４（ａ）（ｂ）に示したような塩基配列が得られることになる。
【００５３】
第１、第２の実施形態と同様、参照領域Ｙ、埋込領域Ｘが設定されたら、コドン出現頻度算出手段３０が、参照領域Ｙにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成する。ただし、第３の実施形態においては、コドンおよび出現頻度だけでなく、ＧＣ割合も算出する。ＧＣ割合は、上述のように、あるアミノ酸についての全塩基（Ａ、Ｔ、Ｇ、Ｃ）に占めるＧとＣの合計の割合であるため、例えば、図５の１行目に示した“Ｐｈｅ”の場合、“ｔｔｔ”が２コドン、“ｔｔｃ”が３コドン出現する。この場合、合計１５塩基が存在し、そのうち、塩基“Ｇ”が０個、塩基“Ｃ”が３個存在するため、３／１５＝２０％が、ＧＣ割合となる。同様にして、ＧＣ割合を算出した結果、図５に示したようなコドン頻度テーブルＴ_Yが得られる。
【００５４】
また、コドン出現頻度算出手段３０は、第１、第２の実施形態と同様、埋込領域Ｘにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_Xを作成する。この結果、図６に示したようなコドン頻度テーブルＴ_Xが得られる。この場合もＧＣ割合の算出が行われる。
【００５５】
さらに、コドン出現頻度算出手段３０は、作成したコドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yの内容をアミノ酸または合成終了コード単位で比較し、ＧＣ割合の値が顕著に相違しているアミノ酸または合成終了コードが存在しないかどうかを確認する。ＧＣ割合の値が顕著に相違しているかどうかは、ＧＣ割合の差が所定値以上相違しているかどうかにより判断する。本実施形態では、この所定値を１０％としている。コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yにおいて、ＧＣ割合の値が顕著に相違しているアミノ酸または合成終了コードが存在する場合は、コドン頻度テーブルＴ_Yの作成対象としたコーディング領域を、参照対象から除外する。あるコーディング領域が参照対象から除外されると、参照領域設定手段１０は、他のコーディング領域を参照領域Ｙとして設定する。そして、コドン出現頻度算出手段３０は、再びコドン頻度テーブルＴ_Yを作成した後、コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yの内容を比較する処理を行う。このようにして、コドン頻度テーブルＴ_Xとコドン頻度テーブルＴ_Yにおいて、ＧＣ割合の値が顕著に相違しているアミノ酸が存在しなくなるまで繰り返し同様の処理を行う。
【００５６】
次に、同義コドン置換テーブル作成手段４０が、コドン頻度テーブルＴ_Yを基に、同義コドン置換テーブルＴ₃を作成する。ここで、図５に示したコドン頻度テーブルＴ_Yを基に作成した同義コドン置換テーブルＴ₃を図１１（ａ）に示す。図１１（ａ）において、交換対象コドン１（最大頻度コドン）は、第２の実施形態と同様、出現頻度が最大のコドンである。図１１（ａ）において、交換対象コドン２（ＧＣ割合大又は小）は、交換対象コドン１とのＧＣ割合の差が最大のコドンである。
【００５７】
一方、付加情報読込手段５０は、塩基配列に埋め込むべき付加情報を読み込む。次に、同義コドン置換手段６０が、同義コドン置換テーブルＴ₃を用いて、読み込んだ付加情報を構成するビット値に応じて、埋込領域Ｘの塩基配列のコドンの交換を行う。具体的には、埋込領域Ｘの塩基配列において出現したコドンが、同義コドン置換テーブルＴ₃における最大頻度コドンとして記録されている場合に、付加情報中の対応するビット値が“１”であれば、その全てのコドンを、同義コドン置換テーブルＴ₃上の対応する交換対象コドン２に置き換え、併せて交換対象コドン２を最大頻度コドンに置き換える交換処理を行う。付加情報中の対応するビット値が“０”である場合は、この交換は行わない。ここで、図４（ｂ）に示した埋め込み対象配列に対して、図１１（ａ）に示した同義コドン置換テーブルＴ₃、図８（ａ）に示した付加情報を用いて交換を行った場合の、埋め込み前と埋め込み後のＧＣ含有量を図１１（ｂ）に示す。
【００５８】
図１１（ａ）の同義コドン置換テーブルＴ₃には、１１種類のアミノ酸または合成終了コードについて記録されているので、１１ビットの変換の記録が可能である。従って、図８（ａ）に示した付加情報のうち、先頭の１１ビット“１０１１１０１１０１１”が記録できる。具体的には、付加情報の先頭ビットが“１”であるので、同義コドン置換テーブルＴ₃の１行目に従って、埋込対象配列中の“ｔｔｃ”は全て“ｔｔｔ”に変換され、逆に埋込対象配列中の“ｔｔｔ” は全て“ｔｔｃ”に変換される。この結果、図１０（ｂ）に示すように、埋め込み前は、“Ｐｈｅ”のＧＣ割合が“１９％”であったのが、埋め込み後は、“１４％”となる。また、付加情報の２番目のビットが“０”であるので、同義コドン置換テーブルＴ₃の２行目に対応した処理は行われない。したがって、埋め込み対象配列中の“Ｌｅｕ”についてのＧＣ割合は、“１７％”のままとなる。以上のように、第３の実施形態では、１つの埋込領域に、コドンのＧＣ割合に所定以上の差が存在するアミノ酸または合成終了コードと同数のビット数が埋め込み可能となる。
【００５９】
（第３の実施形態・抽出装置構成）
次に、第３の実施形態における抽出装置について説明する。第３の実施形態においても、抽出装置の構成は基本的に第１、第２の実施形態と同様であり、図９に示した構成となっている。
【００６０】
（第３の実施形態・抽出処理動作）
次に、第３の実施形態における抽出装置の処理動作について説明する。まず、抽出装置が全体塩基配列を読み込んだ後、参照領域設定手段１１０が、全体塩基配列中のコーディング領域を参照領域Ｙとして設定するとともに、埋込領域設定手段１２０が全体塩基配列中のコーディング領域を埋込領域Ｘとして設定する。第３の実施形態においても、参照領域設定手段１１０、埋込領域設定手段１２０は、それぞれ埋込装置の参照領域設定手段１０、埋込領域設定手段２０と同一の規則に従い、参照領域、埋込領域を設定するので、埋込装置が設定した参照領域、埋込領域と同一の領域が必ず設定されることになる。したがって、設定した参照領域Ｙからは、図４（ａ）に示した塩基配列、設定した埋込領域Ｘからは、図１１（ａ）に示した同義コドン置換テーブルＴ₃を利用して改変された塩基配列が得られることになる。
【００６１】
参照領域Ｙ、埋込領域Ｘが設定されたら、次に、コドン出現頻度算出手段１３０が、埋込領域Ｘにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_X´を作成すると共に、参照領域Ｙにおける塩基配列からコドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成する。コドン出現頻度算出手段１３０におけるコドン頻度テーブルＴ_X´、コドン頻度テーブルＴ_Yの作成規則は、第１、第２の実施形態と同様、埋込装置のコドン出現頻度算出手段３０と同一であり、参照領域Ｙについては、上述のように同一であるので、作成されたコドン頻度テーブルＴ_Yは、図５に示したものになる。一方、埋込領域Ｘについては、埋込前と埋込後で、その配列構成が変化しているため、コドン頻度テーブルＴ_X´は、コドン頻度テーブルＴ_Xとは異なったものとなる。
【００６２】
続いて、同義コドン置換テーブル作成手段１４０が、コドン頻度テーブルＴ_Yを基に、同義コドン置換テーブルＴ₃を作成する。同義コドン置換テーブル作成手段１４０における同義コドン置換テーブルＴ₃の作成規則は、埋込装置の同義コドン置換テーブル作成手段４０と同一であるので、作成された同義コドン置換テーブルＴ₃は、図１１（ａ）に示したものになる。
【００６３】
次に、付加情報抽出手段１５０が、同義コドン置換テーブルＴ₃を用いて、埋込領域Ｘの塩基配列中から付加情報を構成する各ビットの検出を行う。具体的には、まず、同義コドン置換テーブルＴ₃中に記録されたアミノ酸または合成終了コード単位で、コドン頻度テーブルＴ_X´、コドン頻度テーブルＴ_YにおけるＧＣ割合を調べ、このＧＣ割合がコドン頻度テーブルＴ_X´とコドン頻度テーブルＴ_Yで顕著に相違するかどうかを判断する。そして、顕著に相違する場合は、ビット値“１”、逆に顕著な相違がない場合は、ビット値“０”と判断する。顕著に相違するかどうかは、あるアミノ酸についてのコドン頻度テーブルＴ_X´におけるＧＣ割合と、コドン頻度テーブルＴ_YにおけるＧＣ割合との差が所定値以上あるかどうかにより判断する。本実施形態では、この所定値を“１０％”としている。同様にして、同義コドン置換テーブルＴ₃に記録されたアミノ酸または合成終了コード単位で、塩基配列中からビット値を検出していき、図８（ａ）に示した付加情報の先１１ビットが抽出されることになる。さらに付加情報抽出手段１５０は、交換されていたコドンを再度交換して元のコドンに復元する処理を並行して行う。具体的には、コドン頻度テーブルＴ_X´とコドン頻度テーブルＴ_Yで顕著に相違するとして、ビット値“１”が検出された場合、そのアミノ酸または合成終了コードについて、同義コドン置換テーブルＴ₃を参照し、交換対象コドン１（最大頻度コドン）と交換対象コドン２（ＧＣ割合が大または小コドン）とを交換することにより行う。このようにして、図４（ｂ）に示すような元の塩基配列が得られることになる。
【００６４】
以上、本発明の好適な実施形態について説明したが、本発明は、上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、付加情報のビット値が“１”の場合に塩基の置き換えを行うようにし、ビット値が“０”の場合に塩基の置き換えを行わないようにしたが、逆に、付加情報のビット値が“０”の場合に塩基の置き換えを行うようにし、ビット値が“１”の場合に塩基の置き換えを行わないようにしても良い。ビット値は、“１”と“０”の２値をとるため、どちらを第１のビット値として、どちらを第２のビット値とするかは自由であり、埋込装置と抽出装置におけるルールさえ決めておけば良いためである。
【００６５】
また、上記第１・第２・第３の実施形態は、各同義コドン置換テーブル上に定義されるアミノ酸または合成終了コードを互いに重複させないようにすれば、併用することも可能である。一般に、同一の参照領域Ｙ、埋込領域Ｘにおいて、各実施形態における同義コドン置換テーブルで定義されるアミノ酸または合成終了コードの件数（テーブルの行数）は、Ｔ₁＜Ｔ₂＜Ｔ₃の関係になるため、Ｔ₂はＴ₁で定義されていないアミノ酸または合成終了コードだけを定義し、Ｔ₃はＴ₁およびＴ₂で定義されていないアミノ酸または合成終了コードだけを定義するようにすれば、各々単独の方法で埋め込むよりも多くのビット数を埋め込むことが可能になる。具体的には、図７と図１０（ａ）を比較すると、“Ｓｅｒ”，“Ｓｔｏｐ”，“Ｈｉｓ”，“Ｉｌｅ”、“Ａｌａ”の５項目は図７に存在しないため、第１実施形態（１２ビット埋め込み可）と第２実施形態を併用することにより＋５ビットの情報（１７ビット埋め込み可）を埋め込むことができる。更に、図１０（ａ）と図１１（ａ）を比較すると、“Ｐｈｅ”、“Ｇｌｎ”，“Ａｓｐ”の３項目は図１０（ａ）に存在しないため、第１実施形態と第２実施形態および第３の実施形態を併用することにより＋３ビットの情報（２０ビット埋め込み可）を埋め込むことができる。
【図面の簡単な説明】
【００６６】
【図１】本発明に係るゲノム情報への情報の埋込装置の構成図である。
【図２】原核生物、真核生物のコーディング構造を示す図である。
【図３】アミノ酸翻訳規則を示す図である。
【図４】参照領域Ｙにおける塩基配列、埋込前の埋込領域Ｘにおける塩基配列を示す図である。
【図５】コドン頻度テーブルＴ_Yの一例を示す図である。
【図６】コドン頻度テーブルＴ_Xの一例を示す図である。
【図７】同義コドン置換テーブルＴ₁の一例を示す図である。
【図８】埋め込むべき付加情報、埋込済塩基配列を示す図である。
【図９】本発明に係るゲノム情報からの情報の抽出装置の構成図である。
【図１０】同義コドン置換テーブルＴ₂、埋め込みによるコドン出現頻度の変化を示す図である。
【図１１】同義コドン置換テーブルＴ₃、埋め込みによるＧＣ含有量の変化を示す図である。
【図１２】抽出装置側で作成される同義コドン置換テーブルＴ₁´の一例を示す図である。
【図１３】ビット埋め込みによる同義コドンの頻度の推移を示す図である。
【符号の説明】
【００６７】
１０・・・参照領域設定手段
２０・・・埋込領域設定手段
３０・・・コドン出現頻度算出手段
４０・・・同義コドン置換テーブル作成手段
５０・・・付加情報読込手段
６０・・・同義コドン置換手段
１１０・・・参照領域設定手段
１２０・・・埋込領域設定手段
１３０・・・コドン出現頻度算出手段
１４０・・・同義コドン置換テーブル作成手段
１５０・・・付加情報抽出手段

【特許請求の範囲】
【請求項１】
Ａ、Ｔ、Ｇ、Ｃの４種の塩基からなる生物のゲノム情報を構成する塩基配列データ上で、遺伝子Ｇ_Xが記録されている埋込領域Ｘ内の塩基配列データに対して、当該遺伝子Ｇ_Xを基に翻訳されるタンパク質のアミノ酸配列に改変を加えずに、一部の塩基を改変することにより、付加情報を電子透かしとして埋め込む装置であって、
前記塩基配列データ上に前記遺伝子Ｇ_Xの近傍に位置する遺伝子Ｇ_Yが記録されている領域を参照領域Ｙとして設定する参照領域設定手段と、
埋込前の前記埋込領域Ｘおよび前記参照領域Ｙに対して、コドンの出現頻度を算出し、コドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yを作成するコドン出現頻度算出手段と、
前記コドン頻度テーブルＴ_Xおよびコドン頻度テーブルＴ_Yを基に、同一アミノ酸または合成終了コードを構成する同義コドンのうち、前記埋込前の埋込領域Ｘおよび参照領域Ｙにおいて１回も出現しなかった非出現コドンと、少なくとも前記参照領域Ｙにおいて１回以上出現したコドンである出現コドンとを対応付けた同義コドン置換テーブルＴ₁を作成する同義コドン置換テーブル作成手段と、
前記付加情報のビット配列のビット値に応じて、前記同義コドン置換テーブルＴ₁を利用し、前記埋込前の埋込領域Ｘにおける出現コドンを非出現コドンに置換する同義コドン置換手段と、
を有することを特徴とするゲノム情報への情報の埋込装置。
【請求項２】
請求項１において、
前記同義コドン置換テーブル作成手段が、非出現コドンと対応付ける出現コドンは、前記参照領域Ｙにおいて、あるアミノ酸または合成終了コードについて出現頻度が最大の最大頻度コドンであることを特徴とするゲノム情報への情報の埋込装置。
【請求項３】
請求項１または請求項２において、
あらかじめ前記付加情報のビット配列の０と１の発生頻度が均等になるように符号化する付加情報符号化手段を備え、与えられた付加情報がいかなるビット配列であっても、前記同義コドン置換テーブルＴ₁に定義されている各アミノ酸単位に、置換対象の出現コドンの半数が非出現コドンに置換されるようにしていることを特徴とするゲノム情報への情報の埋込装置。
【請求項４】
請求項１から請求項３のいずれかにおいて、
前記同義コドン置換テーブル作成手段が、同一アミノ酸または合成終了コードを構成する同義コドンのうち、前記埋込前の埋込領域Ｘおよび参照領域Ｙにおいて１回も出現しなかった非出現コドンが複数存在する場合、前記参照領域Ｙにおいて１回以上出現した複数の異なる出現コドンとを各々対応させるように、前記同義コドン置換テーブルＴ₁を作成するものであることを特徴とするゲノム情報への情報の埋込装置。
【請求項５】
Ａ、Ｔ、Ｇ、Ｃの４種の塩基からなる生物のゲノム情報を構成する塩基配列データ上で、遺伝子Ｇ_Xが記録されている埋込領域Ｘ内の塩基配列データに対して、当該遺伝子Ｇ_Xを基に翻訳されるタンパク質のアミノ配列に改変を加えずに、一部の塩基を改変することにより、付加情報を電子透かしとして埋め込む装置であって、
前記塩基配列データ上に前記遺伝子Ｇ_Xの近傍に位置する遺伝子Ｇ_Yが記録されている領域を参照領域Ｙとして設定する参照領域設定手段と、
前記参照領域Ｙに対して、コドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成するコドン出現頻度算出手段と、
前記コドン頻度テーブルＴ_Yを基に、同一アミノ酸または合成終了コードに翻訳される複数の同義コドンのうち、２種の同義コドンを交換対象コドン１および交換対象コドン２として対応付けた同義コドン置換テーブルを作成する同義コドン置換テーブル作成手段と、
前記付加情報のビット配列のビット値に応じて、前記同義コドン置換テーブルを利用し、アミノ酸または合成終了コード単位に埋込前の前記埋込領域Ｘにおける全ての交換対象コドン１と交換対象コドン２を互いに交換する同義コドン置換手段と、
を有することを特徴とするゲノム情報への情報の埋込装置。
【請求項６】
請求項５において、
前記同義コドン置換テーブル作成手段は、前記コドン頻度テーブルＴ_Yにおいて、同一のアミノ酸または合成終了コードに翻訳される複数の同義コドンの中で、最も頻度の高い最大頻度コドンを交換対象コドン１とし、最も頻度の低い最小頻度コドンを交換対象コドン２として同義コドン置換テーブルＴ₂を作成するものであることを特徴とするゲノム情報への情報の埋込装置。
【請求項７】
請求項５において、
前記同義コドン置換テーブル作成手段は、前記コドン頻度テーブルＴ_Yにおいて、同一のアミノ酸または合成終了コードに翻訳される複数の同義コドンの中で、最も頻度の高い最大頻度コドンを交換対象コドン１とし、ＧＣ含有量が前記最大頻度コドンに比べて最も差があるコドンを交換対象コドン２として同義コドン置換テーブルＴ₃を作成するものであることを特徴とするゲノム情報への情報の埋込装置。
【請求項８】
Ａ、Ｔ、Ｇ、Ｃの４種の塩基からなる生物のゲノム情報を構成する塩基配列データ上で、遺伝子Ｇ_Xが記録されている埋込領域Ｘ内の原塩基配列データに対して、あらかじめ一部の塩基を改変することにより付加情報が埋め込まれた前記埋込領域Ｘ内の改変塩基配列データより、前記付加情報を抽出するとともに、原塩基配列データを復元する装置であって、
前記塩基配列データ上に前記遺伝子Ｇ_Xの近傍に位置する遺伝子Ｇ_Yが記録されている領域を参照領域Ｙとして設定する参照領域設定手段と、
前記参照領域Ｙに対して、コドンの出現頻度を算出し、コドン頻度テーブルＴ_Yを作成するコドン出現頻度算出手段と、
前記コドン頻度テーブルＴ_Yを基に、同一アミノ酸を構成する同義コドンのうち、前記参照領域Ｙにおいて１回以上出現したコドンである出現コドンと１回も出現しなかった非出現コドンを対応付けた同義コドン置換テーブルＴ₁´を作成する同義コドン置換テーブル作成手段と、
前記同義コドン置換テーブルＴ₁´に基づいて、埋込後の前記埋込領域Ｘ内のコドンを順次探索し、同義コドン置換テーブルＴ₁´に記録された出現コドンが存在する場合は第１のビット値、同義コドン置換テーブルＴ₁´に記録された非出現コドンが存在する場合は第２のビット値を付加情報として抽出する付加情報抽出手段と、
前記抽出されたビット値が第１のビット値である場合は、前記埋込後の埋込領域Ｘ内に存在した同義コドン置換テーブルＴ₁´上の非出現コドンを同義コドン置換テーブルＴ₁´上の出現コドンに戻す処理を施す同義コドン逆置換手段と、
を有することを特徴とするゲノム情報からの情報の抽出装置。
【請求項９】
請求項８において、
前記同義コドン置換テーブル作成手段が、非出現コドンと対応付ける出現コドンは、前記参照領域Ｙにおいて、あるアミノ酸または終了コードについて出現頻度が最大の最大頻度コドンであることを特徴とするゲノム情報への情報の埋込装置。
【請求項１０】
請求項８または請求項９において、
前記コドン出現頻度算出手段が前記埋込後の埋込領域Ｘに対しても、コドンの出現頻度を算出し、コドン頻度テーブルＴ_X´を作成し、
前記同義コドン置換テーブル作成手段が、前記同義コドン置換テーブルＴ₁´に登録されている非出現コドンと対応する出現コドンの頻度を参照し、アミノ酸単位に頻度が均等でない場合、当該非出現コドンと対応する出現コドンを前記同義コドン置換テーブルＴ₁´より削除する補正を行なうものであることを特徴とするゲノム情報への情報の埋込装置。
【請求項１１】
Ａ、Ｔ、Ｇ、Ｃの４種の塩基からなる生物のゲノム情報を構成する塩基配列データ上で、遺伝子Ｇ_Xが記録されている埋込領域Ｘ内の原塩基配列データに対して、あらかじめ一部の塩基を改変することにより付加情報が埋め込まれた前記埋込領域Ｘ内の改変塩基配列データより、前記付加情報を抽出するとともに、原塩基配列データを復元する装置であって、
前記塩基配列データ上に前記遺伝子Ｇ_Xの近傍に位置する遺伝子Ｇ_Yが記録されている領域を参照領域Ｙとして設定する参照領域設定手段と、
埋込後の前記埋込領域Ｘおよび参照領域Ｙに対して、コドンの出現頻度を算出し、コドン頻度テーブルＴ_X´およびコドン頻度テーブルＴ_Yを作成するコドン出現頻度算出手段と、
前記コドン頻度テーブルＴ_Yを基に、同一アミノ酸または合成終了コードに翻訳される複数の同義コドンのうち、２種の同義コドンを交換対象コドン１および交換対象コドン２として対応付けた同義コドン置換テーブルを作成する同義コドン置換テーブル作成手段と、
前記同義コドン置換テーブルをアミノ酸または合成終了コード単位に順次読み込み、当該アミノ酸または合成終了コードにおけるコドン頻度テーブルＴ_X´とコドン頻度テーブルＴ_Yの特徴に顕著な相違がある場合に第１のビット値、そうでない場合に第２のビット値を付加情報として抽出する付加情報抽出手段と、
前記抽出されたビット値が第１のビット値である場合は、前記埋込後の埋込領域Ｘ内の当該アミノ酸または合成終了コードに対応する交換対象コドン１と交換対象コドン２とを、前記同義コドン置換テーブルに従って交換する同義コドン逆置換手段と、
を有することを特徴とするゲノム情報からの情報の抽出装置。
【請求項１２】
請求項１１において、
前記同義コドン置換テーブル作成手段は、前記コドン頻度テーブルＴ_Yにおいて、同一のアミノ酸または合成終了コードに翻訳される複数の同義コドンの中で、最も頻度の高い最大頻度コドンを交換対象コドン１とし、最も頻度の低い最小頻度コドンを交換対象コドン２として同義コドン置換テーブルＴ₂を作成するものであり、
前記付加情報抽出手段は、当該アミノ酸または合成終了コードの交換対象コドン１と交換対象コドン２の出現頻度の大小関係がコドン頻度テーブルＴ_X´とコドン頻度テーブルＴ_Yとの間で相違している場合に、前記特徴に顕著な相違があるとするものであることを特徴とするゲノム情報からの情報の抽出装置。
【請求項１３】
請求項１１において、
前記同義コドン置換テーブル作成手段は、前記コドン頻度テーブルＴ_Yにおいて、同一のアミノ酸または合成終了コードに翻訳される複数の同義コドンの中で、最も頻度の高い最大頻度コドンを交換対象コドン１とし、ＧＣ含有量が前記最大頻度コドンに比べて最も差があるコドンを交換対象コドン２として同義コドン置換テーブルＴ₃を作成するものであり、
前記付加情報抽出手段は、当該アミノ酸または合成終了コードに翻訳される全ての同義コドンのＧＣ含有量がコドン頻度テーブルＴ_X´とコドン頻度テーブルＴ_Yとの間で所定値以上の差がある場合に特徴に顕著な相違があるとするものであることを特徴とするゲノム情報からの情報の抽出装置。

【図１】