説明

ゲノムベースの表現型モデルを構築するためのシステムおよび方法

【課題】ゲノム配列が進行中の生物の数及び多様性を増大するための制約に基づくモデルを提供する。
【解決手段】プロセスは、(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、(b)コンピュータによって実行される、ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)コンピュータによって実行される、データセットを連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを含み、数学的記述によって拡張可能なバイオ粒子の出力ネットワークモデルが定義される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、全体としてシミュレーションモデル化に関し、より具体的には、生化学的ネットワークモデル及び生体ネットワークモデルの活動をシミュレートし且つ予測するためのコンピュータを用いた方法に関する。
【背景技術】
【0002】
薬物及び遺伝子に基づく薬剤を含む治療剤は、人間が罹患する病気を予防又は治療することを目的として製薬産業によって急速に開発されつつある。薬草製品、ビタミン及びアミノ酸を含む栄養補助食品も、栄養補給食品産業によって開発並びに販売が行われている。生化学反応ネットワークの複雑性のため、治療剤又は食事構成要素によって代謝産物、遺伝子又は蛋白質のような特定のターゲットのアバンダンス若しくは活性に引き起こされる比較的軽微な摂動でさえも、何百もの生化学反応に影響を及ぼす可能性がある。これらの摂動は、がん細胞又は他の病的増殖性細胞の場合における細胞鬱血或いは細胞死のような望ましい治療効果をもたらす可能性がある。しかしながら、これらの摂動は、有毒副産物の産生のような望ましくない副作用をもたらす可能性もある。
【0003】
伝統的に、薬物及び栄養補助食品の同定は、初期段階のスクリーニング並びに試験に依存してきており、該初期段階のスクリーニング並びに試験において、個々の遺伝子又は遺伝子産物に対する候補薬物の効果が観察される。この手法は、特定の遺伝子又は遺伝子産物を特定の疾病に対するターゲットとして同定するのに有益であるが、候補薬物若しくは薬物を禁止されたターゲットが細胞或いは生物の他の分子成分に対して有することになる影響を同定することができないことが多い。人間の被検体に関しては、好ましからざる、若しくは危険でさえある副作用が遅い段階での試験によってはじめて気付かれることが多い。初期段階の試験で副作用を有しない候補薬物の選択に失敗すると、治験に参加している個人に対する損傷、及び誤った薬物の摂取を続行していることが原因で疾病を罹患している個人の治癒の有意な遅延を招く可能性がある。
【0004】
細胞の活動を修復、設計又は不能にする有効な方法を設計するためには、総合的視野から細胞の挙動を理解することが極めて重要である。近年、生物内で発生する生体反応ネットワークを再構築する方法が、それらをモデル化し次いでシミュレーションを用いて生物の挙動を予測し且つ解析することができることを目標として開発されてきている。複雑な生体反応ネットワークをモデル化するための現在最も有力な手法のうちの1つは、制約に基づくモデル化を含む。この手法は、再構築された生体反応ネットワークの全ての起こり得る挙動が位置しなければならない数学的に定義された解空間を提供する。その後、この解空間を探索し、様々な条件の下での生体システムの能力の範囲及び好ましい挙動を決定することができる。
【0005】
現在、多くの高処理能力技術の組み合わせにより、ゲノム全体、ゲノムによってコード化された遺伝子産物の完全セット、及び細胞若しくは生物内で発生する分子機能を含む規模に関する情報を提供されつつある。ゲノム規模の制約に基づくモデルを生成する能力は、膨大な量の生物学上の情報を吸収することを必要とする。ゲノム規模のモデルは様々な生物に対して作成されており、幾つかの細胞機能を正確に予測することが示されているが、現在、新しいモデルを構築することは困難で且つ時間のかかる作業であり、またゲノム規模の情報が利用できる多くの生物が現在、ゲノム規模のモデルを欠いている。更に、モデルの内容を閲覧し、モデル内の情報を生物学的データベースにおいて入手可能な情報及び他のモデルと相互参照することは現在、困難である。従って、多くのモデルに対して、誤りが気付かれない状態となるか、又はいったんモデルが構築されると修正することが困難となる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
従って、ゲノム配列が進行中の生物の数及び多様性を増大するための制約に基づくモデルに対する必要性が存在する。既存の制約に基づくモデルを効率的に構築し且つ変更する方法に対する必要性も存在する。本発明は、これらの必要性を満たし、同時に関連する利点をも提供する。
【課題を解決するための手段】
【0007】
(発明の概要)
本発明は、拡張可能なバイオ粒子の出力ネットワークモデルを構築するための、コンピュータによって実行されるプロセスを提供する。本プロセスは、(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、(b)コンピュータによって実行される、ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、且つ(c)コンピュータによって実行される、該データセットを連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを含み、該数学的記述によって拡張可能なバイオ粒子の出力ネットワークモデルが定義される。
【0008】
本発明は更に、拡張可能な表現型出力ネットワークモデルを構築するための、コンピュータによって実行されるプロセスを提供する。本プロセスは、(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、(b)コンピュータによって実行される、ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)コンピュータによって実行される、特定されたネットワークモデルに対する生化学的要求量を列挙するように該データセットを変更するステップを含み、且つ(d)コンピュータによって実行される、該変更されたデータセットを連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換ステップを含み、列挙された生化学的要求量は、バイオ粒子のネットワークモデルの表現型出力を規定する集合反応物要求量フラックスに対応する。
【0009】
また、バイオ粒子のネットワークモデルを自己最適化するためのコンピュータによって実行されるプロセスも提供する。本プロセスは、(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、(b)コンピュータによって実行される、ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)コンピュータによって実行される、該データセットを連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを含み、(d)コンピュータによって実行される、ネットワークモデル内の連結性及び流れの能力を判定するステップを含み、該能力によってネットワークモデルのネットワーク反応構成要素の過少包含又は過剰包含が指摘され、且つ(e)コンピュータによって実行される、ネットワークモデルの能力を増強することのできる改善機能を有するネットワーク反応構成要素を同定するステップを含み、該改善機能を有するネットワーク反応構成要素のデータ構造内への組み込みによって、最適化されたバイオ粒子のネットワークモデルを特定する修正されたデータ構造が生成される。
【0010】
本発明はまた、バイオ粒子のネットワークモデルを特定するデータ構造を構築するためのコンピュータによって実行されるプロセスも提供する。本プロセスは、(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、(b)コンピュータによって実行される、ネットワーク反応機能を有する遺伝子産物をコード化する注釈付きネットワークセットから1つのORFを選択するステップを含み、(c)コンピュータによって実行される、選択されたコード化された遺伝子産物に対する構成遺伝子産物の発生を判定するステップを含み、(d)コンピュータによって実行される、ネットワーク反応に関与する更に別の遺伝子産物の発生を判定するステップを含み、(e)コンピュータによって実行される、選択され且つ判定された遺伝子産物に基づいてデータ構造を形成するステップを含み、該データ構造によって、ネットワーク遺伝子構成要素と同系ORF、コード化された遺伝子産物、ネットワーク反応及びネットワーク反応成分を含むネットワーク反応構成要素とが関連付けられ、且つ(f)コンピュータによって実行される、実質的に全ての注釈付きネットワークセットのネットワーク遺伝子構成要素の調査が完了するまで注釈付きネットワークセットから別のORFを選択しながらステップ(a)−(e)を繰り返してネットワーク反応機能を有する遺伝子産物をコード化し、連結性及び流れのネットワークモデルを特定するデータセットを確立するデータ構造を生成するステップを含む。本発明は、これらのコンピュータによって実行されるプロセスを実行するための実行可能な命令を有するコンピュータシステムを更に提供する。
【0011】
拡張可能なバイオ粒子の出力ネットワークモデルを構築するシステムは、(a)バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素の入力済みデータセットを含み、(b)ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成する実行可能な命令を含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)ネットワークモデルの構造的アーキテクチャにおける巨視的必要量欠乏を満たす反応構成要素の発生を判定する実行可能な命令を含み、該巨視的必要量欠乏を満たす同定された反応構成要素のデータ構造内への包含によってネットワークモデルの連結性及び流れが補完され、(d)データ構造内のネットワーク反応構成要素の信頼性を判定する発見的論理決定アルゴリズムを含み、且つ(e)データセットに基づいて連結性及び流れのネットワークモデルを規定する反応物フラックスを数学的に記述する実行可能な命令を含み、該数学的記述によって拡張可能なバイオ粒子の出力ネットワークモデルが定義される。拡張可能なバイオ粒子の表現型出力ネットワークモデルを構築するシステムは、(a)バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素の入力済みデータセットを含み、(b)ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成する実行可能な命令を含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)特定されたネットワークモデルに対する生化学的要求量を列挙するようにデータセットを変更する実行可能な命令を含み、且つ(d)変更されたデータセットに基づいて連結性及び流れのネットワークモデルを規定する反応物フラックスを数学的に記述する実行可能な命令を含み、列挙された生化学的要求量は、前記バイオ粒子のネットワークモデルの表現型出力を規定する集合反応物要求量フラックスに対応する。自己最適化機能を有するバイオ粒子のネットワークモデルを構築するシステムは、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素の入力済みデータセットを含み、前記ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成する実行可能な命令を含み、前記データ構造によって前記ネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、前記データセットに基づいて前記連結性及び流れのネットワークモデルを規定する反応物フラックスを数学的に記述する実行可能な命令を含み、前記ネットワークモデル内の前記連結性及び流れの能力を計算する実行可能な命令を含み、前記能力によって前記ネットワークモデルのネットワーク反応構成要素の過少包含又は過剰包含が指摘され、且つ、前記ネットワークモデル内の前記連結性及び流れの前記能力を増強する実行可能な命令を含み、前記実行可能な命令は、改善機能を有するネットワーク反応構成要素の包含又は除外を特定し、前記データ構造内への前記改善機能を有するネットワーク反応構成要素の組み込みによって、最適化された前記バイオ粒子のネットワークモデルを特定する修正されたデータ構造が生成される。
本発明は、例えば以下の項目を提供する。
(項目1)
拡張可能なバイオ粒子の出力ネットワークモデルを構築するためのコンピュータによって実行されるプロセスであって、
(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、
(b)コンピュータによって実行される、前記ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、前記データ構造によって前記ネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、
(c)コンピュータによって実行される、前記データセットを前記連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを含み、前記数学的記述によって拡張可能なバイオ粒子の出力ネットワークモデルが定義される、プロセス。
(項目2)
前記データ構造を形成するステップは更に、
(a)ネットワーク反応機能を有する遺伝子産物をコード化する前記注釈付きネットワークセットから1つのORFを選択するステップを含み、
(b)前記選択された遺伝子産物を含むデータ構造を形成するステップを含み、該データ構造によって、ネットワーク遺伝子構成要素と同系ORF、コード化された遺伝子産物、ネットワーク反応及びネットワーク反応成分を含むネットワーク反応構成要素とが関連付けられ、
(c)実質的に全ての前記注釈付きネットワークセットの前記ネットワーク遺伝子構成要素の調査が完了するまで前記注釈付きネットワークセットから別のORFを選択しながらステップ(a)及びステップ(b)を繰り返してネットワーク反応機能を有する遺伝子産物をコード化し、連結性及び流れのネットワークモデルを特定するデータセットを確立するデータ構造を生成するステップを含む、
項目1に記載のプロセス。
(項目3)
更に、
(a)前記選択されたコード化された遺伝子産物に対する構成遺伝子産物の発生を判定するステップと、
(b)前記ネットワーク反応に関与する更に別の遺伝子産物の発生を判定するステップと、
(c)調査された遺伝子産物によって示される代替的ネットワーク反応の発生を判定するステップと、
(d)同定された構成遺伝子産物、関与する遺伝子産物又は代替的ネットワーク反応を前記データ構造内に組み込むステップと、
を含む、項目2に記載のプロセス。
(項目4)
遺伝子コード化されていないネットワーク反応及び対応する反応構成要素を前記データ構造内に組み込むステップを更に含む、項目1に記載のプロセス。
(項目5)
少なくとも1つのネットワーク反応に対する元素平衡化を更に含む、項目1に記載のプロセス。
(項目6)
少なくとも1つのネットワーク反応に対する電荷平衡化を更に含む、項目1に記載のプロセス。
(項目7)
外部反応構成要素に対する交換反応及び対応する反応成分を前記データ構造内に組み込むステップを更に含む、項目1に記載のプロセス。
(項目8)
前記外部反応構成要素は、代謝産物又は生化学的要求量構成要素を含む、項目7に記載のプロセス。
(項目9)
前記生化学的要求量は、増殖に対する表現型出力を規定する集合反応物要求量フラックスを更に含む、項目8に記載のプロセス。
(項目10)
前記増殖に対する表現型出力は、バイオマス産生を含む、項目9に記載のプロセス。
(項目11)
前記生化学的要求量は、エネルギー産生、酸化還元当量産生、異化代謝産物産生、バイオマス前駆体、ポリペプチド産生、アミノ酸産生、プリン産生、ピリミジン産生、脂質産生、脂肪酸産生、補因子産生、細胞壁構成要素の産生、及び代謝産物の輸送からなる群から選択される表現型出力を規定する集合反応物要求量フラックスを更に含む、項目8に記載のプロセス。
(項目12)
前記データ構造は、反応物、産物及び化学量論係数を含む、項目1に記載のプロセス。
(項目13)
前記数学的記述は、一次方程式及び一次不等式を含む、項目1に記載のプロセス。
(項目14)
前記数学的記述は、化学量論マトリックスを含む、項目13に記載のプロセス。
(項目15)
前記数学的記述は、微分方程式を含む、項目13に記載のプロセス。
(項目16)
前記数学的記述に基づいて前記ネットワークモデルの表現型出力を計算するステップを更に含む、項目1に記載のプロセス。
(項目17)
拡張可能な表現型出力ネットワークモデルを構築するためのコンピュータによって実行されるプロセスであって、
(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、
(b)コンピュータによって実行される、前記ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、該データ構造によって前記ネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、
(c)コンピュータによって実行される、前記特定されたネットワークモデルに対する生化学的要求量を列挙するように前記データセットを変更するステップを含み、
(d)前記変更されたデータセットを前記連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを含み、前記列挙された生化学的要求量は、前記バイオ粒子のネットワークモデルの表現型出力を規定する集合反応物要求量フラックスに対応する、
プロセス。
(項目18)
前記データ構造を形成するステップは更に、
(a)ネットワーク反応機能を有する遺伝子産物をコード化する前記注釈付きネットワークセットから1つのORFを選択するステップを含み、
(b)前記選択された遺伝子産物を含むデータ構造を形成するステップを含み、前記データ構造は、ネットワーク遺伝子構成要素と、同系ORF、コード化された遺伝子産物、ネットワーク反応及びネットワーク反応成分を含むネットワーク反応構成要素とを関連付け、
(c)実質的に全ての前記注釈付きネットワークセットの前記ネットワーク遺伝子構成要素の調査が完了するまで前記注釈付きネットワークセットから別のORFを選択しながらステップ(a)及び(b)を繰り返してネットワーク反応機能を有する遺伝子産物をコード化し、連結性及び流れのネットワークモデルを特定するデータセットを確立するデータ構造を生成するステップを含む、
項目17に記載のプロセス。
(項目19)
(a)前記選択されたコード化された遺伝子産物に対する構成遺伝子産物の発生を判定するステップと、
(b)前記ネットワーク反応に関与する更に別の遺伝子産物の発生を判定するステップと、
(c)調査された遺伝子産物によって示される代替的ネットワーク反応の発生を判定するステップと、
(d)同定された構成遺伝子産物、関与する遺伝子産物又は代替的ネットワーク反応を前記データ構造内に組み込むステップとを更に含む、
項目18に記載のプロセス。
(項目20)
遺伝子コード化されていないネットワーク反応及び対応する反応成分を前記データ構造内に組み込むステップを更に含む、項目17に記載のプロセス。
(項目21)
少なくとも1つのネットワーク反応にする元素平衡化を更に含む、項目17に記載のプロセス。
(項目22)
少なくとも1つのネットワーク反応にする電荷平衡化を更に含む、項目17に記載のプロセス。
(項目23)
外部反応構成要素に対する交換反応及び対応する反応成分を前記データ構造内に組み込むステップを更に含む、項目17に記載のプロセス。
(項目24)
前記外部反応構成要素は、代謝産物又は生化学的要求量構成要素を含む、項目23に記載のプロセス。
(項目25)
前記生化学的要求量は、表現型出力を規定する集合反応物要求量フラックスを更に含む、項目17に記載のプロセス。
(項目26)
前記表現型出力は、増殖を規定する集合反応物要求量フラックスを更に含む、項目25に記載のプロセス。
(項目27)
前記表現型出力は、バイオマス産生を更に含む、項目25に記載のプロセス。
(項目28)
前記生化学的要求量は、エネルギー産生、酸化還元当量産生、異化代謝産物産生、バイオマス前駆体、ポリペプチド産生、アミノ酸産生、プリン産生、ピリミジン産生、脂質産生、脂肪酸産生、補因子産生、細胞壁構成要素の産生及び代謝産物の輸送からなる群から選択される表現型出力を規定する集合反応物要求量フラックスを更に含む、項目17に記載のプロセス。
(項目29)
前記データ構造は、反応物、産物及び化学量論係数を含む、項目17に記載のプロセス。
(項目30)
前記数学的記述は、一次方程式及び一次不等式を含む、項目17に記載のプロセス。
(項目31)
前記数学的記述は、化学量論マトリックスを含む、項目30に記載のプロセス。
(項目32)
前記数学的記述は、微分方程式を含む、項目30に記載のプロセス。
(項目33)
前記数学的記述に基づいて前記ネットワークモデルの表現型出力を計算するステップを含む、項目17に記載のプロセス。
(項目34)
バイオ粒子のネットワークモデルを自己最適化するためのコンピュータによって実行されるプロセスであって、
(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、
(b)コンピュータによって実行される、前記ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、該データ構造によって前記ネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、
(c)コンピュータによって実行される、前記データセットを前記連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを含み、
(d)コンピュータによって実行される、前記ネットワークモデル内の前記連結性及び流れの能力を判定するステップを含み、該能力によって前記ネットワークモデルのネットワーク反応構成要素の過少包含又は過剰包含が指摘され、
(e)コンピュータによって実行される、前記ネットワークモデルの前記能力を増強することができる改善機能を有するネットワーク反応構成要素を同定するステップを含み、前記データ構造内への前記改善機能を有するネットワーク反応構成要素の組み込みによって、最適化された前記バイオ粒子のネットワークモデルを特定する修正されたデータ構造が生成される、
プロセス。
(項目35)
前記ネットワークは、代謝ネットワークを含む、項目34に記載のプロセス。
(項目36)
前記代謝ネットワークは、複数のバイオ粒子ゲノムのネットワーク経路を更に含む、項目35に記載のプロセス。
(項目37)
前記データ構造を形成するステップは更に、
(a)ネットワーク反応機能を有する遺伝子産物をコード化する前記注釈付きネットワークセットから1つのORFを選択するステップを含み、
(b)前記選択された遺伝子産物を含むデータ構造を形成するステップを含み、該データ構造によって、ネットワーク遺伝子構成要素と同系ORF、コード化された遺伝子産物、ネットワーク反応及びネットワーク反応成分を含むネットワーク反応構成要素とが関連付けられ、
(c)実質的に全ての前記注釈付きネットワークセットの前記ネットワーク遺伝子構成要素の調査が完了するまで前記注釈付きネットワークセットから別のORFを選択しながらステップ(a)及びステップ(b)を繰り返してネットワーク反応機能を有する遺伝子産物をコード化し、連結性及び流れのネットワークモデルを特定するデータセットを確立するデータ構造を生成するステップを含む、
項目34に記載のプロセス。
(項目38)
更に、
(a)前記選択されたコード化された遺伝子産物に対する構成遺伝子産物の発生を判定するステップと、
(b)前記ネットワーク反応に関与する更に別の遺伝子産物の発生を判定するステップと、
(c)調査された遺伝子産物によって示される代替的ネットワーク反応の発生を判定するステップと、
(d)同定された構成遺伝子産物、関与する遺伝子産物又は代替的ネットワーク反応を前記データ構造内に組み込むステップと、
を含む、項目37に記載のプロセス。
(項目39)
遺伝子コード化されていないネットワーク反応及び対応する反応成分をを前記データ構造内に組み込むステップを更に含む、項目34に記載のプロセス。
(項目40)
少なくとも1つのネットワーク反応に対する元素平衡化を更に含む、項目34に記載のプロセス。
(項目41)
少なくとも1つのネットワーク反応に対する電荷平衡化を更に含む、項目34に記載のプロセス。
(項目42)
外部反応構成要素に対する交換反応及び対応する反応成分を前記データ構造内に組み込むステップを更に含む、項目34に記載のプロセス。
(項目43)
生化学的要求量を前記データ構造内に組み込むステップを更に含む、項目34に記載のプロセス。
(項目44)
更に、
(a)前記ネットワークモデルの構造的アーキテクチャにおける巨視的必要量欠乏を満たすネットワーク反応構成要素の発生を判定するステップと、
(b)前記巨視的必要量欠乏を満たす同定されたネットワーク反応構成要素を前記データ構造内に組み込んで前記ネットワークモデルの前記連結性及び流れを補完するステップと、
を含む、項目34に記載のプロセス。
(項目45)
前記データ構造内の前記ネットワーク反応構成要素の信頼性を判定する発見的論理決定アルゴリズムを実行するステップを更に含む、項目34に記載のプロセス。
(項目46)
前記数学的記述は、一次方程式及び一次不等式を含む、項目34に記載のプロセス。
(項目47)
前記数学的記述は、化学量論マトリックスを含む、項目46に記載のプロセス。
(項目48)
前記数学的記述は、微分方程式を含む、項目46に記載のプロセス。
(項目49)
単独最適化の解に対して前記数学的記述を解くことによって前記能力を判定するステップを更に含み、前記ネットワークモデルの経路フラックスを生成する能力は、要求に適うネットワーク反応構成要素内容を示す、項目34に記載のプロセス。
(項目50)
複数の単独最適化の解に対して前記数学的記述を解くステップを更に含む、項目49に記載のプロセス。
(項目51)
バイオ粒子のネットワークモデルを特定するデータ構造を構築するためのコンピュータによって実行されるプロセスであって、
(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、
(b)コンピュータによって実行される、ネットワーク反応機能を有する遺伝子産物をコード化する前記注釈付きネットワークセットから1つのORFを選択するステップを含み、
(c)コンピュータによって実行される、前記選択されたコード化された遺伝子産物に対する構成遺伝子産物の発生を判定するステップを含み、
(d)コンピュータによって実行される、前記ネットワーク反応に関与する更に別の遺伝子産物の発生を判定するステップを含み、
(e)コンピュータによって実行される、前記選択され且つ判定された遺伝子産物に基づいてデータ構造を形成するステップを含み、該データ構造によって、前記ネットワーク遺伝子構成要素と同系ORF、コード化された遺伝子産物、ネットワーク反応及びネットワーク反応成分を含むネットワーク反応構成要素とが関連付けらけ、
(f)コンピュータによって実行される、実質的に全ての前記注釈付きネットワークセットの前記ネットワーク遺伝子構成要素の調査が完了するまで前記注釈付きネットワークセットから別のORFを選択しながらステップ(a)− (e)を繰り返してネットワーク反応機能を有する遺伝子産物をコード化し、連結性及び流れのネットワークモデルを特定するデータセットを確立するデータ構造を生成するステップを含む、
プロセス。
(項目52)
更に、
(a)調査された遺伝子産物によって示される代替的ネットワーク反応の発生を判定するステップと、
(b)同定された代替的ネットワーク反応及び対応する反応成分を前記データ構造内に組み込むステップと、
を含む、項目51に記載のプロセス。
(項目53)
更に、
(a)構成遺伝子産物又は前記代替的ネットワーク反応に関与する遺伝子産物の発生を判定するステップと、
(b)同定された構成遺伝子産物又は前記代替的ネットワーク反応に関与する遺伝子産物を前記データ構造内に組み込むステップと、
を含む、項目52に記載のプロセス。
(項目54)
遺伝子コード化されていないネットワーク反応及び対応する反応成分を前記データ構造内に組み込むステップを更に含む、項目51に記載のプロセス。
(項目55)
少なくとも1つのネットワーク反応に対する元素平衡化を更に含む、項目51に記載のプロセス。
(項目56)
少なくとも1つのネットワーク反応に対する電荷平衡化を更に含む、項目51に記載のプロセス。
(項目57)
外部反応構成要素に対する交換反応及び対応する反応成分を前記データ構造内に組み込むステップを更に含む、項目51に記載のプロセス。
(項目58)
前記外部反応構成要素は、代謝産物又は生化学的要求量構成要素を含む、項目57に記
載のプロセス。
(項目59)
生化学的要求量を前記データ構造内に組み込むステップを更に含む、項目51に記載のプロセス。
(項目60)
前記生化学的要求量は、前記ネットワークモデルの表現型出力を規定する集合反応物要求量フラックスを更に含む、項目59に記載のプロセス。
(項目61)
更に、
(a)前記ネットワークモデルの構造的アーキテクチャにおける巨視的必要量欠乏を満たすネットワーク反応構成要素の発生を判定するステップと、
(b)前記巨視的必要量欠乏を満たす同定されたネットワーク反応構成要素を前記データ構造内に組み込んで前記ネットワークモデルの前記連結性及び流れを補完するステップと、
を含む、項目51に記載のプロセス。
(項目62)
前記巨視的必要量欠乏は、経路のギャップ又は経路のデッドエンドを含む、項目61に記載のプロセス。
(項目63)
単体反応物を同定するステップを更に含む、項目62に記載のプロセス。
(項目64)
2つ又はそれ以上の不可逆的ネットワーク反応にのみ関与する反応物を同定するステップを更に含む、項目62に記載のプロセス。
(項目65)
前記ネットワーク反応構成要素は、基質又は産物を含む、項目61に記載のプロセス。
(項目66)
前記データ構造内の前記ネットワーク反応構成要素の信頼性を判定する発見的論理決定アルゴリズムを実行するステップを更に含む、項目51に記載のプロセス。
(項目67)
前記ネットワーク反応構成要素の包含は、階層的分類に基づいて信頼度を判定するステップを更に含む、項目66に記載のプロセス。
(項目68)
前記階層的分類は、生化学的データ、遺伝子データ、ゲノムデータ、生理学的データ及びシミュレーションモデル化データからなる群から選択される、項目67に記載のプロセス。
(項目69)
前記データセットを、前記ネットワーク反応構成要素の連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを更に含む、項目51に記載のプロセス。
(項目70)
前記数学的記述は、一次方程式及び一次不等式を含む、項目69に記載のプロセス。
(項目71)
前記数学的記述は、化学量論マトリックスを含む、項目69に記載のプロセス。
(項目72)
前記数学的記述は、微分方程式を含む、項目69に記載のプロセス。
(項目73)
妥当性確認試験を実行するステップを更に含む、項目51に記載のプロセス。
(項目74)
拡張可能なバイオ粒子の出力ネットワークモデルを構築するシステムであって、
(a)バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素の入力済みデータセットを含み、
(b)前記ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成する実行可能な命令を含み、前記データ構造によって前記ネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、
(c)前記ネットワークモデルの構造的アーキテクチャにおける巨視的必要量欠乏を満たす反応構成要素の発生を判定する実行可能な命令を含み、前記データ構造における前記巨視的必要量欠乏を満たす同定された反応構成要素を包含することによって、前記ネットワークモデルの前記連結性及び流れが補完され、
(d)前記データ構造内の前記ネットワーク反応構成要素の信頼性を判定する発見的論理決定アルゴリズムを含み、
(e)前記データセットに基づいて前記連結性及び流れのネットワークモデルを規定する反応物フラックスを数学的に記述する実行可能な命令を含み、該数学的記述によって拡張可能なバイオ粒子の出力ネットワークモデルが定義される、
システム。
(項目75)
拡張可能なバイオ粒子の表現型出力ネットワークモデルを構築するシステムであって、
(a)バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素の入力済みデータを含み、
(b)前記ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成する実行可能な命令を含み、該データ構造によって前記ネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、
(c)前記データセットを、前記特定されたネットワークモデルに対する生化学的要求量を列挙するように変更する実行可能な命令を含み、
(d)前記変更されたデータセットに基づいて前記連結性及び流れのネットワークモデルを規定する反応物フラックスを数学的に記述する実行可能な命令を含み、前記列挙された生化学的要求量は、前記バイオ粒子の前記ネットワークモデルの表現型出力を規定する集合反応物要求量フラックスに対応する、
システム。
(項目76)
自己最適化機能を有するバイオ粒子のネットワークモデルを構築するシステムであって、
(a)バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素の入力済みデータを含み、
(b)前記ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成する実行可能な命令を含み、該データ構造によって前記ネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、
(c)前記データセットに基づいて前記連結性及び流れのネットワークモデルを規定する反応物フラックスを数学的に記述する実行可能な命令を含み、
(d)前記ネットワークモデル内の前記連結性及び流れの能力を計算する実行可能な命令を含み、該能力によって前記ネットワークモデルのネットワーク反応構成要素の過少包含又は過剰包含が指摘され、
(e)前記ネットワークモデル内の前記連結性及び流れの前記能力を増強する実行可能な命令を含み、該実行可能な命令は、改善機能を有するネットワーク反応構成要素の包含又は除外を特定し、前記データ構造内への前記改善機能を有するネットワーク反応構成要素の組み込みによって、最適化された前記バイオ粒子のネットワークモデルを特定する修正されたデータ構造が生成される、
システム。
【図面の簡単な説明】
【0012】
【図1】図1は、本発明のコンピュータシステムに対する例示的なシステムアーキテクチャを示す。
【図2】図2は、例示的なモデル構築プロセスの概要を示す。
【図3】図3は、バイオ粒子の生化学的ネットワークにおけるネットワークを構成しているデータ要素の関与するクラス及び関連性を特定するネットワークモデルの関連付けがなされたオブジェクトモデルを示す。
【図4】図4は、バイオ粒子の生化学的ネットワークにおけるネットワークを構成しているデータ要素の関与するテーブル及び関連性を特定するネットワークモデルの関連付けがなされたデータベーススキーマを示す。
【図5】図5は、ネットワーク反応構成要素のデータ構造を構築する例示的なプロセスを示す。
【図6】図6は、遺伝子索引を評価して反応関連付けを生成する例示的なプロセスを示す。
【図7】図7は、ORF−蛋白質−反応の関連付けを表す関連図を示す。
【図8】図8は、本発明のシステムに対するモデル構築用メインウィンドウを示す。
【図9】図9は、バイオ粒子に対する遺伝子索引が表示されたモデル構築ウィンドウを示す。
【図10】図10は、AceEF蛋白質が「蛋白質」入力欄に入力され、それによりb0114ORF及びb0115ORFに関連付けられているモデル構築ウィンドウを示す。
【図11】図11は、AceEF蛋白質に対する遺伝子−蛋白質関連付けがグラフィカルな関連付けビューアに視覚的に表示され、2つのORFがこの蛋白質をコード化するための必要条件が「AND」関連付けによって表現されているモデル構築ウィンドウを示す。
【図12】図12は、TRANS(pi)反応に対する遺伝子−蛋白質−反応関連付けがグラフィカルな関連付けビューアに視覚的に表示され、2つのORFがこの蛋白質をコード化するための必要条件が「AND」関連付けによって表現されているモデル構築ウィンドウを示す。
【図13】図13は、PYRDH反応に対する遺伝子−蛋白質−反応関連付けが表示され、この反応を触媒する異なるアイソザイムがORFと蛋白質の間に複数の線を引くことによって表現されているモデル構築ウィンドウを示す。
【図14】図14は、モデルと関連付けられた蛋白質が表に表示されているモデル構築ウィンドウを示す。
【図15】図15は、モデルと関連付けられ且つ表に表示された蛋白質がモデルへの包含のために選択されているモデル構築ウィンドウを示す。
【図16】図16は、ORF−蛋白質−反応関連付けがグラフィカルな関連付けビューアに視覚的に表示されているモデル構築ウィンドウを示す。
【図17】図17は、蛋白質−反応の「AND」関連付けがグラフィカルビューアに表示されているモデル構築ウィンドウを示す。
【図18】図18は、蛋白質−反応の「OR」関連付けがグラフィカルビューアに表示されているモデル構築ウィンドウを示す。
【発明を実施するための形態】
【0013】
(発明の詳細な説明)
バイオ粒子のネットワークモデルを構築し且つ使用するためのコンピュータシステム及びコンピュータによって実行されるプロセスを説明する。以下の説明において、説明の目的上、特定の詳細を本発明の完全な理解に資するために記載する。当業者は、本発明はこれらの特定の詳細がなくとも実行することができ、且つ種々の関連するシステムのいずれにも適用することができることがわかるであろう。例えば、本方法は代謝反応との関連において説明されているが、同様のモデルを作成し、生体調節システム、生体シグナル伝達システム及び非生体反応システムのような他のネットワークシステムのシミュレーションに用いることができることがわかる。
一実施形態では、本発明のネットワークモデルは、生体システムの化学反応を通じた質量、エネルギー又は電荷のフラックスをシミュレートしてシステム内の化学反応のあり得る全ての機能性を含む解空間を定義し、それにより生体システムに対して許容される活動の範囲を決定するために、コンピュータ内で用いることができる。反応熱力学のみならず包含された反応の既知の化学量論のような制約条件及び反応を通じた最大フラックスと関連する容量制約条件によって解空間が定義されるために、そのような手法は、制約に基づくモデル化と呼ばれる。本発明のネットワークモデルを用いて、これらの制約条件によって定義された空間に問い合わせを行い、生体システムの、又はその生化学的構成要素の表現能力及び挙動を決定することができる。例えば、Schillingら、J.Theor. Biol. 203:229―248(2000)、Schillingら、Biotech. Bioeng. 71:286―306(2000)、及びSchillingら、Biotech.Prog.15:288―295(1999)に記載された凸解析、線形計画並びに末梢経路の計算のような解析法は、そのような表現能力を決定するために用いることができる。
【0014】
別の実施形態では、制約に基づく方法は、フラックスバランス解析である。フラックスバランス解析は、定常状態の条件でのフラックス平衡化に基づいており、Varma及びPalsson、Biotech.Bioeng. 12:994―998(1994)に記載されているように実行することができる。フラックスバランス法は、Fell及びSmall、J.Biochem.138:781―786(1986)に記載されているように脂肪細胞代謝の系統特性をシミュレート又は予測するために、Majewski及びDomach、Biotech.Bioeng.35:732―738(1990)に記載されているATP極大化条件下での大腸菌からの酢酸塩分泌をシミュレート又は予測するために、或いはVanrolleghemら、Biotech.Prog.12:434―448(1996)に記載されている酵母菌によるエタノール分泌をシミュレート又は予測するために、反応ネットワークに適用することができる。更に、この手法は、Edwards及びPalsson、Proc.Natl.Acad.Sci.97:5528―5533(2000)、Edwards並びにPalsson、J.Bio.Chem.274:17410―17416(1999)、及びEdwardsら、Nature Biotech.19:125―130(2001)に説明されているHインフルエンザ菌の代謝のみならず、種々の単一炭素源上での大腸菌の増殖を予測又はシミュレートするために用いることができる。
【0015】
いったん解空間が定義されれば、それを解析し、種々の条件下におけるあり得る解を求めることができる。これは、生物学的事実と一致する手法である。生体システムは柔軟に構築されてきており、従って、多くの異なる方法で同じ結果に到達することができる。これらのシステムは、全ての生体システムが直面しなければならない基本的制約によって限定されてきた進化のメカニズムによって設計されている。制約に基づくモデル化戦略は、これらの一般的事実を包含する。
【0016】
ゲノム配列データ及び生化学的データ並びに生理学的データの使用によって特定の生物に対して定義された反応ネットワークに対し、本解空間は、例えばWO 00/46405に記載されている生物の機能を記述する。ゲノム規模のモデルは、大腸菌(Edwardsら、Proc.Natl.Acad.Sci.USA 97:5528―5533(2000))、ヘモフィルスインフルエンザ菌(Edwardsら、J.Biol.Chem.274:17410―17416(1999))、枯草菌及びピロリ菌を含む幾つかの生物に対して創出されている。
【0017】
制約の強化によってネットワークモデルに対して連続的に更なる制約を課す機能によって解空間のサイズが縮小され、それにより生理学的な働き又は表現型を予測することができる精度が向上する。この手法は、以下に記載するモデル構築及び実施プロセスを通じて、生体システムの構造並びに機能を理解し且つ最終的には予測するための基礎を提供する。
【0018】
本明細書において使用する用語「拡張可能な」は、モデルの予測可能性の尺度であるモデル性能の実質的減損なくして本発明のネットワークモデルの内容の大きさが増大することができることを意味することを意図されている。一般に、ネットワークモデルの性能は、該モデルに包含された内容要素の精度に比例して向上することになる。計算の数は内容の大きさの増大と共に増加する可能性があるが、本発明の拡張可能なネットワークモデルに対して特定の解を得るための予測可能性は、内容の大きさの変化のみによっては実質的に減損しない。増大させることのできるネットワークモデルの内容は、例えば、遺伝子構成要素及びネットワーク反応構成要素を特定するデータ要素を含む。本発明の拡張可能なネットワークモデルは、モデル性能の実質的減損なくして、例えば、遺伝子構成要素及びネットワーク反応構成要素の簡素なシステムから複雑なマルチシステムの遺伝子構成要素及びネットワーク反応構成要素へ、また複雑な細胞システム及び多細胞システムを特定するネットワーク遺伝子構成要素及びネットワーク反応構成要素へとネットワークモデルの内容を増大させることも含む。モデル内容を増大させながらネットワークモデルの性能を維持する具体的な例は、細胞ゲノムに由来する実質的に全ての生化学反応を特定するモデル内容へと遺伝子のモデル内容を増大することであろう。従って、本用語は、モデルプログラミング、設計又はソフトウェアアーキテクチャに対する操作を要することなくORF、反応、反応物質及びフラックスの数を拡大するネットワークモデルの機能を含む。
【0019】
本明細書において使用する用語「バイオ粒子」は、その実体を構成している各部分をコード化する核酸ゲノムを含む生物学的実体を意味することを意図されている。核酸ゲノムは、例えば、DNAであってもRNAであってもよく、自然に発生する生物学的実体、非自然に発生する生物学的実体又は設計されたデノボから得ることができる。本用語に含まれる生物学的実体は、例えば、原核細胞又は真核細胞若しくは他の自然に発生する生物学的実体又は非自然に発生する生物学的実体のようなウイルス若しくは細胞であってもよい。細胞は、単細胞生物から、又は多細胞生物から得ることができる。
【0020】
ネットワークモデルに関して用いる際に本明細書において使用する用語「表現型」は、モデル遺伝子型とモデル環境との相互作用によって生じる検出可能な特徴を意味することを意図されている。検出可能な特徴とは、1つ又はそれ以上のネットワークモデル構成要素の計算された個々の機能又は統合された機能を指す。本発明のネットワークモデルは、生物又は生物の双方向的構成要素の機能セットをコンピュータ内でシミュレートする。モデル遺伝子型は、コンピュータ内生物を特定するネットワークモデルに包含されたネットワーク遺伝子構成要素を含む。モデル環境は、例えば、コンピュータ内生物に対して課される特定の外的条件を含む。従って、ネットワークモデルの表現型は、モデル遺伝子型内にコード化された遺伝子産物と、関連する反応構成要素と、ネットワークモデル構成要素の活動及び相互作用に影響を及ぼす環境条件との機能的相互作用の検出可能な結果である。本明細書において使用する「表現型出力」とは、ネットワークモデルのシミュレーションから又はネットワークモデルの特定の解のシミュレーションから得られた特徴の約数を指す。表現型出力は、例えば、モデル環境があらゆる可能性で構成されたネットワークモデルの解空間であっても、モデル環境が外部構成要素の限定束で構成された実行可能な解であっても、或いはモデル環境が定義された構成要素からなる特定の解であってもよい。
【0021】
本明細書において使用する用語「ネットワーク」は、相互に接続された構成要素又は相互に関係する構成要素からなるシステムを意味することを意図されている。相互接続及び相互関係は、例えば、システム構成要素の物理的関係であっても、機能的関係であってもよい。従って、本用語は、システム構成要素の集合体又は組立体及びそのようなシステム内への各構成要素の包含を規定する相対関係を指す。ネットワークの一例は、例えば本発明のコンピュータ内生物を構成する遺伝子、遺伝子産物、反応物、機能及び物理化学的特性のコンピュータによる表現であることができる。ネットワークの別の例は、例えばコンピュータ内生物の生化学ネットワーク又は生化学的経路を構成する遺伝子、遺伝子産物、反応物、機能及び物理化学的特性のコンピュータによる表現であることができる。そのような生化学ネットワークは、例えば、中枢代謝、抹消代謝、蛋白質生合成、炭水化物生合成、脂質生合成及びシグナル伝達を含むことができる。生化学的経路は、例えば、解糖、クエン酸(TCA)回路、アミノ酸生合成、ヌクレオシド及びヌクレオチドの生合成、シグナル伝達事象などを含むことができる。ネットワーク及び経路内に一体化して共通機能を生成する反応又は事象の数多くの他の例は当業者によく知られており、本用語の意味内に含まれる。そのようなネットワーク及び経路は、例えば、Strye,L.、Biochemistry、W.H.Freeman and Company、ニューヨーク、第4版(1995)、Albertら、Molecular Biology of The Cell、Garland Publishing,Inc.、ニューヨーク、第2版(1989)、Kuby、Immunology、第3版、W.H.Freeman & Co.、ニューヨーク(1997)、Kornberg及びBaker、DNA Replication、W.H.Freeman and Company、ニューヨーク、第2版(1992)に記載されているのを見出すことができ、それらの全てが引用により本明細書に組み込まれる。従って、使用される標識又は構成要素の数に関係なく、ネットワークとは、その協奏的相互作用が少なくとも1つの共通目的のために用いられる論理的、物理的、又は機能的関係を示す構成要素の集まりを指す。
【0022】
本明細書において使用する用語「構成要素」又は「ネットワーク構成要素」は、本発明のネットワークモデルにおけるデータ要素、データセット若しくは化学的或いは生化学的分子実体の電子表現を意味することを意図されている。本用語は、入力表現及び出力表現並びにコンピュータプログラム又はプロセッサ内のコード及び電子表現を指すことを意図されている。従って、1つのシステムの構成要素及びそれらの相互関係の表現によって、本発明のネットワークモデルが描かれることになる。当業者によく知られた種々の形式を用いて、ネットワークモデル内のあらゆる種類の化学成分及び生化学成分を表現することができる。本用語は、例えば、遺伝子構成要素、反応構成要素又は非遺伝子構成要素を含むことができる。
【0023】
本明細書において使用する用語「遺伝子構成要素」は、データ要素、データセット又は遺伝子産物、若しくはその機能的断片をコード化する核酸の電子表現を意味することを意図されている。遺伝子構成要素は、ネットワークモデルにおいて、例えば、そのコード化された遺伝子産物、その活動又は組み合わせに関連して、ヌクレオチド配列、核酸構造、名称、記号によって表現することができる。本用語は、テキスト及びビジュアルグラフィックスのような入力表現並びに出力表現を指すことと同時に、コンピュータプロセッサ内のプログラミングコード又は電子表現を指すことを意図されている。従って、本明細書において使用する「ネットワーク遺伝子構成要素」は、本発明のネットワークモデルの一部である遺伝子構成要素を指す。
【0024】
本明細書において使用する用語「反応構成要素」は、データ要素、データセット又はネットワークの構成要素、若しくはその機能的断片の電子表現を意味することを意図されている。ネットワーク反応構成要素は、例えば、遺伝子産物、巨大分子又は分子であることができる。ネットワーク反応構成要素の具体的な例は、酵素、基質、産物、補因子、DNA、RNA、ポリペプチド、脂質、炭水化物、アミノ酸、ヌクレオチド、3リン酸ヌクレオチド、脂肪酸、糖、ステロイド、代謝産物、異化代謝産物、イオン、金属などを含む。そのような遺伝子産物は、例えば化学反応、結合反応及びシグナル伝達反応を含む、当業者によく知られた多種多様の化学反応又は生化学反応に関与するか若しくはそれらにおいて機能する。反応構成要素は、ネットワークモデルにおいては、そのコード化遺伝子、反応物、それらの活動又は組み合わせに関連して、例えば、アミノ酸又はポリマーの他のモノマー配列のような一次構造、二次構造、三次構造、名称、記号によって表現することができる。本用語は、テキスト及びビジュアルグラフィックスのような入力表現並びに出力表現を指すことと同時に、コンピュータプロセッサ内のコード又は電子表現を指すことを意図されている。従って、本明細書において使用する「ネットワーク反応構成要素」とは、本発明のネットワークモデルの一部である反応構成要素を指す。
【0025】
ネットワーク遺伝子構成要素に関して用いる際に本明細書において使用する用語「ネットワークセット」は、ネットワークの協奏的機能を完成する遺伝子産物をコード化する一群のネットワーク遺伝子構成要素を意味することを意図されている。従って、ネットワークセットは、少なくとも、本発明のネットワークモデルを構成する構成要素のサブセットである。1つのネットワークセットが本発明のネットワークモデルを構成する全ての構成要素を含むこともできる。一組の構成要素がネットワークの協奏的機能を完成することができる限り、ネットワークセットは、例えば、生化学的ネットワーク、生化学的経路及び当業者によく知られた他の生化学的システムを含むことができる。ネットワークセットは、それが記録された遺伝子又はそれに基づいてコード化された遺伝子産物の機能若しくは属性を特定する遺伝子配列レコードから導出されている場合、「注釈を付けられる」。遺伝子レコードはそれらと関連する少なくとも1つの機能又は属性を有することになるため、基本的に、有形媒体に記録された、若しくはアーカイブされた全ての遺伝子配列は、用語、「注釈付き」の意味内に含まれる。機能は、例えば、基質の産物への変換又は刺激の存在下における不活性状態から活性状態への遷移のようなコード化された遺伝子産物の活動を含むことができる。属性は、例えば、ヌクレオチド配列、名称、ヌクレオチド又はアミノ酸の組成、分子量、大きさ又構造であることができる。注釈付きネットワークセットの具体的な例は、ゲノム及び本発明のネットワークに関連して先に例示した生化学的ネットワーク並びに生化学的経路を含む。注釈付きネットワークセットの入手源は、例えば、Genbank、Unigene、Subtilist(枯草菌)、YPD(出芽酵母)、Wormbase(線虫)、ensembl(ヒト、マウス)、PKR(キナーゼ)、GPCRDB(G蛋白)、EcoCyc、KEGG、WIT、BRENDA(代謝)、Regulon DB、Transfac(調節)、及びAFCS、TRANSPATH(シグナル伝達)を含む。注釈付きネットワークセットを入手することができるこれら及び他のデータベースは、例えば、Baxevanis、Nucleic Acids Res.30:1−12(2002)に記載されているように、当業界で周知である。
【0026】
本明細書において使用する用語「データ構造」は、アルゴリズムのような特定のデータ操作機能を支援するように設計された、データ要素間の物理的関係又は論理的関係のような、情報の構成を意味することを意図されている。本用語は、例えば、追加、除去、組み合わせ又は他の方法で操作することができるデータ要素のリスト若しくは他の収集型を含むことができる。例示的に挙げれば、データ構造の種類は、リスト、リンクリスト、二重リンクリスト、表、マトリックス、待ち行列、スタック、ヒープ、辞書及びツリーを含む。そのような組織的構造は、例えば、ネットワーク構成要素の全てのカテゴリ及びサブカテゴリを表現するデータ要素を含むことができる。本用語は、例えば複数のデータ構造又は他の形態のデータ管理構造からのデータ要素を関連付けるか若しくは相関させる情報の組織的構造を含むこともできる。本発明のデータ構造によって組織化された情報の具体的な例は、複数の反応の対応する反応物及びネットワークモデルに対する化学量論との関連付けである。本発明のデータ構造によって組織化することができる他の情報は、例えば、化学反応の基質又は産物の表現若しくは関係、1つ又はそれ以上の基質を1つ或いはそれ以上の産物に関連付ける化学反応、反応に課される制約、又は化学量論係数を含む。
【0027】
本明細書において使用する用語「データセット」は、データ要素を集めたものを意味することを意図されている。データセットの具体的な例は、ファイルである。階層形態及び階層型構成のデータセットも、本用語の意味内に含まれる。データ要素とは、データの単位又はそのコンピュータによる表現を指す。一般に、データ要素及びデータセットは、意味を獲得するように処理又は解釈される。データの表現は、例えば、コンピュータ内に入力し、そこに格納し且つそこで処理することができるか、或いはあるデジタル通信路上で伝送することができる形態の数値、文字、画像、又は当業界で周知の他の記録方法を含むことができる。従って、データ要素は、例えば、機械語、アセンブリ言語又はユーザ言語で表現することができる。
【0028】
本明細書において使用する用語「連結性」は、ネットワーク構成要素間のパターン、相互作用及び連結の経路を意味することを意図されている。そのような連結は、ネットワーク構成要素をそのような構成要素の共通の計画又は目的の統一性を特定する物理的関係若しくは機能的関係に置く役割を果たす。従って、用語「連結性」とは、物理的又は機能的な相互作用若しくは相互依存性によって結合されたネットワーク構成要素の集合体及び組立体を指す。例えば、化合物Aを化合物Bに変換する化学反応は、ネットワークモデル内で、これらの化合物を物理的相互変換機能によって連結する。同様に、酵素が産物Pを産生するために化合物Bを基質として用いる場合、該酵素及びその化学反応は、相互依存性により、化合物Bを産生する上の化学反応に連結される。連結性の複雑なシステムの具体的な例は、バイオ粒子の生化学的な反応、相互作用、及び相互依存性のうちの幾つか又は実質的に全てを構成する。
【0029】
本明細書において使用する用語「フラックス」又は「反応物フラックス」は、反応若しくはネットワークを通じたネットワーク構成要素の流れ、移動或いは変換を指すことを意図されている。本用語に含まれる反応は、例えば、酵素プロセスによって生じるもののような化学組成の変化、反応物を1つの細胞区画から別の細胞区画へ移動させる輸送反応によって生じるもののような位置の変化又は結合反応を含む、基質を消費するか若しくは産物を形成するなんらかの変換であることができる。本用語は、方向性を含み、また当業者に既知の様々な手段及びフォーマットによって表現することができる。例えば、基質の産物への変換は、その形成に対応する、産物の正のフラックスとして、又は、その消滅に対応する、基質の負のフラックスとして表現することができる。正のフラックスはまた、順方向を有すると特徴付けることができ、これに対して負のフラックスは、逆方向として特徴付けることができる。フラックスは、例えば、方向性を示す反応によって表現することもできる。経路又はフラックス経路に関連して用いる際の用語「フラックス」は、一連の多重反応を通じたネットワーク構成要素の流れ又は移動のような、個々のフラックスの結合及び置換を含むことを意図されている。例示的に述べれば、個々のフラックスの結合及び置換は、生化学的経路若しくは生化学的ネットワーク内の若しくはそれらを通じたネットワーク構成要素の流れ、移動或いは変換を含む。フラックス又はフラックス経路の記述又は表現は、質的若しくは量的なものであることができる。
【0030】
本明細書において使用する用語「集合反応物フラックス」又は「集合反応物要求量フラックス」は、モデルの表現若しくは分析のための、2つ又はそれ以上の反応経路を通じた1つのカテゴリ内へのネットワーク構成要素の結合された流れ、移動或いは変換を意味することを意図されている。反応経路の結合は、例えば、反応経路の末端出力又は反応物若しくは産物の経路或いは移動に沿ったいずれかの点において発生し得る。従って、集合フラックスは、反応経路の一部分又はサブセットであることができる。集合フラックスは、システムに対する様々な外部入力及び外部出力を定義すると同時に特定のモデルの一次ネットワークに対して二次的な内部入力並びに内部出力を定義するために用いることができる。従って、本用語は、内部システムフラックス及び外部フラックスの両方を含むことも意図されている。例えば、例えば、内部集合フラックスは、全てのアミノ酸生合成の単一の反応フラックスとしての表現であることができる。外部集合フラックスは、例えば、使用される全ての炭素源又は本発明のコンピュータ内ネットワークモデル内で生成される副産物のシステム内への取り込みの表現であることができる。集合フラックスは、1つ又はそれ以上の生化学的要求活動を定義するためにネットワークモデル内で実行することもできる。
【0031】
本明細書において使用する用語「生化学的要求」は、生化学的必要性を表現するフラックス、フラックス経路又は集合フラックスを意味することを意図されている。そのような必要性は、例えば、増殖又は他の細胞プロセス若しくは生理学的プロセス、代謝、異化、エネルギー産生、酸化還元当量産生、バイオマス産生、発達、或いは窒化炭素、硫黄、リン酸塩、水素又は酸素の消費に用いられるネットワーク構成要素を含むことができる。そのような必要性に対して用いられる特定のネットワーク構成要素の例は、例えば、バイオマス前駆体の産生、蛋白質の産生、アミノ酸の産生、プリンの産生、ピリミジンの産生、脂質の産生、脂肪酸の産生、補因子の産生、細胞壁構成要素の産生、代謝産物の輸送を含む。当業者によく知られた他の生化学的要求及びそれらの対応するネットワーク構成要素も、本用語の意味内に含まれる。
【0032】
本明細書において使用する用語「巨視的必要量欠乏」は、ネットワークモデルの1つの構成要素から別の相関するネットワーク構成要素へのフラックスの欠乏又はフラックスの不適切な方向性を意味することを意図されている。フラックスの欠乏は、例えば、反応産物の望ましくない蓄積、反応が発生するために必要な基質の欠乏、又は、代謝産物を産生することができるがそれが消費されないか若しくは代謝産物を消費することができるがそれが産生されない反応ネットワーク内のギャップを含む。フラックスの欠乏又は不適切なフラックスは、例えば、単独でシステムモデル内に存在する単体ネットワーク構成要素、及び不可逆性の熱力学的任務を有する複数の隣接するネットワーク構成要素も含むことができる。単体ネットワーク構成要素の具体的な例は、反応を往復する反応物のフラックスを有しないネットワークモデル内に存在する生化学的経路内の反応である。複数の隣接する不可逆性構成要素の具体的な例は、2つ又はそれ以上の連結された反応が不可逆性の動的パラメータを有するものである。
【0033】
本明細書において使用する用語「元素平衡化」とは、1つのネットワーク構成要素の別の構成要素への化学的変換中の化学元素の保存を指す。従って、本用語は、化学反応の化学量論を含むと同時に、化学反応の他の化学的入力及び化学的出力の説明となる。元素平衡化の具体的な例は、例えば、変換に用いられる全ての反応物中の酸素原子の総数は、該変換によって形成される全ての反応物中の酸素原子の数に等しいことを保証することを含む。同様に、1つの変換において基質又は入力反応物を構成する全ての他の原子に対し、消費される各種類の原子の数は、その反応が元素的に平衡化されている場合に形成される同じ種類の原子の数に等しいことになる。反応ネットワークを構成しているもののような複数の変換の場合には、該複数の変換は、各原子に対し、全体として見た該多数の変換によって消費される同じ種類の原子の正味の数は、全体として見た該多数の変換によって形成される同じ種類の原子の正味の数に等しい。元素平衡化は、例えば、炭素、水素、リン、窒素、亜鉛、マグネシウムなどのような周期表内の全ての元素を含む。用語「電荷平衡化」とは、1つ又はそれ以上の化学反応に関与する反応物に対する全ての電荷の等価の入力及び出力の説明となる同様のプロセスを指す。
【0034】
本発明は、拡張可能なバイオ粒子の出力ネットワークモデルを構築するためのコンピュータによって実行されるプロセスを提供する。本プロセスは、(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、(b)コンピュータによって実行される、ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、且つ(c)コンピュータによって実行される、該データセットを連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを含み、該数学的記述によって拡張可能なバイオ粒子の出力ネットワークモデルが定義される。
【0035】
本発明のコンピュータによって実行されるプロセスは、本発明のネットワークモデルを構築し、それにアクセスし、それを変更又は利用する手段、及び該ネットワークモデルと関連する情報を提供するコンピュータシステム上で実行することができる。コンピュータシステムは、例えば単一層アーキテクチャ又は多層アーキテクチャを含む種々の既知のアーキテクチャのいずれも有することができる。本発明のコンピュータシステムに対する例示的なアーキテクチャは、図1に示す多層アプリケーション又はマルチサーバアプリケーションであり、クライアントワークステーション2、計算サーバ3、及びデータベースサーバ4と通信するアプリケーションサーバ1からなる。アプリケーションサーバ1が他のサーバから入力を受信して他のサーバに出力情報を送信するように、サーバ間で双方向通信を行うことができる。ユーザは、例えば、照会又は命令を送信し本発明のコンピュータによって実行されるプロセスの結果を受信することによりアプリケーションサーバと通信するクライアントワークステーション2を通じて本システムと対話することができる。
【0036】
アプリケーションサーバ1は、例えば、クライアントワークステーションから受信した照会又は命令に応答して、データベースサーバ4からデータを抽出することができるか、又は計算サーバ3上で計算されたシミュレーションを開始することができる。データベースサーバによってアクセスを受けることのできるデータベースの例は、化合物データベース、遺伝子データ、反応データベース、バイオ粒子データベース又は参照データベースを含み、それらの各々について以下に更に詳細に説明する。計算サーバ3によってアクセスすることができるシミュレーションは、例えば、単独最適化解析、削除解析、堅牢性解析、位相平面解析又は時間経過解析を含むことができ、それらの各々について以下に更に詳細に記載する。
【0037】
マルチサーバアーキテクチャは、同じ場所に常駐することができるか又はアプリケーションサービスプロバイダ(ASP)の配布モデルにおけるように大域的に配布することができる別個のサーバ上に情報を格納することによって情報を管理する能力を可能にする。本アーキテクチャは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)のような当業界で既知の幾つかの互換性を有するネットワークシステムのうちのいずれも含むことができる。本発明に用いることができるクライアント−サーバ環境、データベースサーバ及びネットワークは、当業界において周知である。例えば、データベースサーバは、オペレーティングシステムがリレーショナルデータベース管理システム、ワールドワイドウェブアプリケーション又はワールドワイドウェブサーバを実行しているUNIX(登録商標)のようなオペレーティングシステム上で稼動することができる。
【0038】
本発明のプロセスを実行するための命令又はソフトウェアコードは、例えば、Java(登録商標)又はC++のようなオブジェクト指向言語、Visual Basic又はVisual C++のようなビジュアルプログラミング言語、又はC、FORTRAN若しくはCOBOLのような他の言語を含む任意の既知のコンピュータ言語で記述し、且つ任意の周知の互換性を有するコンパイラを用いて編集することができる。
【0039】
本発明のソフトウェアは、ホストコンピュータシステム上で、ランダムアクセスメモリのようなメモリ内に格納された、又はその中で使用できる状態の命令によって動作することができる。同様に、ネットワーク構成要素及びネットワークモデルのような、モデルの構築及び使用に用いられる情報は、読み出し専用メモリのようなホストコンピュータシステム上の記憶装置に格納される。記憶装置又はコンピュータ可読媒体は、ハードディスク、フロッピディスク、コンパクトディスク、光磁気ディスク、ランダムアクセスメモリ、読み出し専用メモリ又はフラッシュメモリであることができる。本発明に用いられる記憶装置又はコンピュータ可読媒体を含むコンピュータシステムは、1台のコンピュータ若しくはネットワーク内に分配された複数台のコンピュータであることができる。
【0040】
本発明のデータベース又はデータ構造は、例えば、標準一般化マーク付け言語(SGML)、ハイパーテキストマークアップ言語(HTML)又は拡張可能マークアップ言語(XML)を含むマークアップ言語形式で表現することができる。マークアップ言語は、本発明のデータベース又はデータ構造内に格納された情報にタグを付けるために用いることができ、それにより好都合なアノテーション及びデータベースとデータ構造の間のデータの転送ができる。具体的に述べれば、XML形式は、反応、反応物及びそれらのアノテーションのデータ表現を構成するのに、例えばネットワーク上又はインターネット上でデータベースの内容を交換するのに、文書オブジェクトモデルを用いて個々の要素を更新するのに、又は本発明のデータベース若しくはデータ構造の異なる情報内容に対して複数のユーザに対して異なるアクセス方法を提供するのに有益であることができる。XMLのプログラミング方法及びXMLコードを記述するためのエディタは、例えば、Ray、「Learning XML」O’Reilly and Associates、Sebastopol、CA(2001)に記載されているように、当業界において既知である。
【0041】
図1のシステムアーキテクチャは、例示的なものである。当業者は、本発明のプロセスは種々の互換性を有するアーキテクチャのいずれにおいても実行することができることがわかるであろう。例えば、サーバによって実行される機能は、より少数のサーバ内に統合してもよく、又は代替的に、所望であれば、以下に記載するような異なる機能若しくはモジュールをより多数のサーバ内に階層化してもよい。1台のクライアントデスクトップ2を図1に示しているが、本システムは、例えば1台のアプリケーションサーバ1にアクセスする複数のクライアントデスクトップを含むことによる協力的なネットワークモデル構築又はシミュレーションに対応するために複数のユーザに分散されるアプリケーションに容易に変更することができることがわかるであろう。
【0042】
本発明のコンピュータによって実行されるプロセスは、ユーザによって与えられた命令又は命令のセットに応答し、指定されたデータ又は情報の操作を実行する。本発明のコンピュータによって実行されるプロセスは、ユーザが少なくとも1つのユースケースを用いて本プロセスと対話するためのインターフェースを提供するコンピュータシステムによって実行することができる。ユーザは、システムの外部からコンピュータシステムと対話する誰か又は何かである。ユースケースは、通常はユーザの命令又は入力に応答し、特定のユーザにとって価値のある観察可能な出力若しくは結果をもたらす、システムが実行する一連の活動である。従って、本発明のコンピュータシステムは、本システムが以下に記載するコンピュータによって実行されるプロセス及びユースケースを実行するための実行可能な命令を含むように、上に記載したハードウェア構成要素及び互換性を有するソフトウェアのいずれかを含むことができる。
【0043】
ユースケースは、ブラウザにアクセスするか又はそれを利用するために用いることができる。ブラウザは、1つ又はそれ以上のデータベース内のデータ要素の内容を閲覧するための幾つかの手段、及び1つのデータ要素から別のデータ要素へ誘導するための幾つかの手段を提供するプログラムであると理解される。データ要素は、化合物、反応、又は生物に関する情報を含むことができ、且つ、例えば、ブラウザによりアクセスを受けるハイパーテキストリンクによって閲覧することができる。
【0044】
例示的なモデル構築プロセスの概要を図2に示す。モデル構築は、生物、細胞又はウイルスのようなバイオ粒子若しくはコンピュータ内モデルを構築する対象である生体システムを選択することにより、100で開始される。明確性を目的として、モデル構築をバイオ粒子に関連して以下に説明することにするが、これらのステップは1つのバイオ粒子内の1つの生体システムに対して実行することも、又は1つより多いバイオ粒子を包含して実行することもできることが理解されよう。バイオ粒子は、例えば、それが病原体であることの同定及び病原性を防止するための効果的な治療上の手法を決定するためにコンピュータ内モデルを創出したいという願望、それが工業プロセスにおいて有益であることの確認並びに最適な増殖特性又は産生特定の決定のためにコンピュータ内モデルを創出したいという願望、若しくは、それが病気に関与していることの同定及び該病気の治療に対して治療ターゲットを同定するためにコンピュータ内モデルを創出したいという願望を含む様々な要因のいずれかに基づいて選択することができる。その配列及び/又は生化学的情報が入手可能などのようなウイルス、原核生物、細菌、古細菌、真核生物も、本発明によりモデル化することができる。本発明のモデル及び方法によってシミュレートすることができるバイオ粒子の具体的な例は、シロイヌナズナ、枯草菌、ウシ、線虫、緑藻クラミドモナス、ゼブラフィッシュ、細胞性粘菌、キイロショウジョウバエ、大腸菌、C型肝炎ウイルス、インフルエンザ菌、ピロリ菌、人類、ハツカネズミ、肺炎マイコプラズマ、コメ、熱帯熱マラリア原虫、カリニ肺炎、ラット、出芽酵母、分裂酵母、トラフグ、アフリカツメガエル又はトウモロコシなどを含む。
【0045】
構築プロセスは、モデル要求のステップ200を含むことができる。このステップで、新しいモデルの創出を開始するか、或いは、もし存在する場合、変更することのできる既存のモデルを使用するかを決定するための予備的評価を行うことができる。このステップにおいて又はそれに先立つ任意の時点若しくはこのプロセス中に、モデルにアクセスする個人を指名してもよく、或いはモデルに関連するデータベースを選択してもよい。
【0046】
アクセスは、一人のユーザ又はユーザの組に提供される特定の権利のセットに基づくことができる。例えば、権利は、データベースに格納された情報の全て又は一部を閲覧する能力、データベースに格納された情報の全て又は一部を編集する能力、データベースに格納された情報の全て又は一部を複写する能力、データベースに格納された情報の全て又は一部を削除する能力、コンピュータシステムに含まれたユースケースの全て又は一部を使用する能力、若しくはこれらの能力の組み合わせを含むか、又は除外することができる。例えば格納された情報を編集する権利に関する限定的アクセスは、データベース及びその中に格納された情報の品質保証及び品質管理を提供することができる。安全性及び限定的アクセス権は、既知のコンピュータセキュリティアルゴリズム及びSANS(System administration,networking and security)Institute(ワールドワイドウェブ上のsans.orgにて入手可能)又はPentasafe(テキサス州ヒューストン所在、ワールドワイドウェブ上のpentasafe.comにて入手可能)から入手可能なもののようなハードウェアを用いて達成することができる。一人又はそれ以上のユーザが管理者としての資格でアクセスを許可され、それによりアルゴリズム、モデル又はデータベースにアクセスし且つ維持するのに必要な全ての権利を得ることができる。
【0047】
図2に示すように、本モデル構築プロセスは、関連する生物固有の情報を収集するステップ300を含むことができる。このステップで、モデル開発者のようなユーザがバイオ粒子に関するファイル構造を作成することができ、その下でそのバイオ粒子に関連する情報に索引を付して格納することができる。このステップで格納することができる情報は、例えば、バイオ粒子の概要、データベース内の情報又は科学に関する出版物若しくはNCBI Taxonomy Database(ワールドワイドウェブ上のncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/にて入手可能)へのリンクに対するクロスリファレンスが可能なバイオ粒子に対する適切な分類学上の同定を含む。
【0048】
このステップで、例えば、1つ又はそれ以上の関心のあるバイオ粒子によって行われる反応を実行する遺伝子産物をコード化する遺伝子のリストを作成することができる。これらの反応の多くは、バイオ粒子のゲノム内に見出されるオープンリーディングフレーム(ORF)又は遺伝子の転写若しくは翻訳を通して生成される生体分子の触媒又は輸送担体の活動によって発生する。簡潔化の目的で、遺伝子産物の活動によって発生する反応及び同系ORFが関連付けられている反応は、遺伝子コード化反応と呼ばれる。他の反応は、非酵素プロセスを通じて自然発生的に発生するか、又は蛋白を通じて発生し、それらに対してORFが関連付けられていない反応は、非遺伝子コード化反応と呼ばれる。例えば、汎用データ管理モジュールを用いたデータの管理は、以下に更に詳細に説明する方法で達成することができる。
【0049】
それが遺伝子コード化反応であるにせよ、そうではないにせよ、全ての反応は、その反応に関与する化学種又は化合物である1つ又は多くの反応物を含む。これらの反応物は、反応において発生している化学的変換を記述するためにそれらに割り当てられた、各々が別個の化学量論係数を有する基質若しくは産物として特定することができる。反応物は、それらが存在する細胞区画に基づいて更に特定される。例えば、反応データベースにおいては、細胞外区画内のグルコースと細胞質ゾル内のグルコースとの間で区別がなされている。更に、反応データベース内の反応物は、代謝反応の大規模なネットワークの視覚的表現を支援するために、一次性代謝産物又は二次性代謝産物として特定することができる。
【0050】
各反応は、可逆的であるか又は不可逆的であるかを選択することによって進行することができる方向によって記述することもできる。反応が可逆的である場合、基質を産物に変換することが可能なだけでなく、産物を基質に変換することも可能である。これに対して、不可逆的反応は、基質を産物に変換する方向にのみ進行するように制約を受ける。
【0051】
ステップ300で、例えば、データベースから遺伝子索引にダウンロードして、入手可能な情報源からバイオ粒子に関する遺伝子又はゲノム配列、若しくはそれらの属性に関する情報を特定するデータ要素を取得することができる。この索引に含まれる情報は、公的データベース又は私的データベース若しくは内部のバイオインフォマティクス支援サービスからダウンロードすることができる。遺伝子情報又はゲノム情報をダウンロードすることができるデータベースの例は、上述のデータベース及びBaxevanis、supra、2002に記載されているデータベースを含む。バイオ粒子ゲノムに関する配列及びアノテーション又は遺伝子のようなゲノム断片に関する配列及びアノテーションは、遺伝子データベース内に取り込み且つ格納することができる。遺伝子索引は、ヌクレオチド配列及びゲノムアノテーションのような構造的情報を含む。ゲノムアノテーションは、ORFの位置の同定、及び他の既知の遺伝子に対する相同性の同定を含む。この情報は、関連する遺伝子産物の機能を決定するために用いることができ、次いで、該機能を該遺伝子産物によって触媒される適切な反応にリンクすることができる。
【0052】
モデル構築中にデータベースの外部から配列データにアクセスして使用することが可能であるが、遺伝子索引は、多数の関連を有しないデータベース内に分散されている可能性のあるデータへのダイレクトアクセスの利点、及び効率的なクロスリファレンス並びにアクセスのための情報の均等な格納又は処理の利点を提供する。本システムは、遺伝子索引へのアノテーションに対応するか又はそれに対応することなくゲノム配列を取り込むためのアルゴリズム及びソフトウェアコードを含むことができる。取り込みは、モデル開発者又は更新されたゲノムデータセットを同定し且つゲノムデータベース若しくは遺伝子索引を編集する権利を有する他のユーザによって手動で始動させることができる。代替的に、特定の時間間隔で外部データベースから情報をダウンロードすることにより、又はデータが更新されていないか若しくは変更されていないという外部データベース又はその管理者からの合図に応答して、遺伝子索引内の情報を自動的に更新するアルゴリズム及びその実行コードを含めることもできる。
【0053】
ステップ300では更に、関心のあるバイオ粒子の遺伝学、生化学、細胞生物学及び生理学に関する科学文献から入手可能なもののような他の関連情報も収集することができる。これらの情報源には、引用ライブラリ内で索引を付けることができる。情報は、以下に詳細に説明するネットワークモデルを構築するプロセスに備えて収集される。引用ライブラリは、引用ライブラリ内の情報にクロスリファレンス又は遺伝子、生体分子、反応及び化合物のようなネットワークモデル構成要素へのハイパーテキストリンクからアクセスすることができるように、ネットワークモデルを作成し且つ使用するために用いられるコンピュータシステム内に統合することができる。
【0054】
他のネットワーク反応構成要素も、1つ又はそれ以上のデータベースに格納し、且つ本発明のコンピュータによって実行されるプロセスにおいてアクセスすることができる。例えば、化合物データベースは、生体化合物に関連する情報を格納するために使用することができ、反応の基質及び産物を含む反応物は、化合物データベースから同定することができる。本発明のプロセスにおいてアクセスされるデータベースは、特定の生物系、生物、種、科、門又は界に限定することができる。或いは、データベースは、遺伝子、反応、化合物又は生物学的有機体のどのようなサブセットに対しても限定的でない他の情報を含む汎用データベースであってもよい。その結果、汎用反応データベース又は汎用化合物データベースが提供され、本発明のプロセスにおいてアクセスすることができる。
【0055】
再び図2を参照すると、本プロセスは、ネットワーク反応構成要素のデータ構造を構築するステップ400を含むことができる。コンピュータによって実行されるステップは、ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するために呼び出すことができる。そのような関連付けによって、ネットワーク反応構成要素間の連結性のネットワークモデルを特定するデータセットが確立される。例えば、バイオ粒子のORFを選択することができ、その遺伝子配列又は他の属性を同定することができる。そのようなORFデータ要素が、個別に若しくは共に、ネットワーク遺伝子構成要素のデータ要素又はデータセットを特定する。遺伝子構成要素は、直接的に関連付けてもよく、又はそのコード化された遺伝子産物を対応するネットワーク反応構成要素として同定するために用いてもよい。反応を実行する反応物、酵素若しくは蛋白質のような取得又は同定されたネットワーク反応構成要素及びそれらの関連属性、或いは酵素又は蛋白質をコード化するmRNAは、遺伝子構成要素との関連付けによってネットワークモデル内に組み込むことができるデータ要素若しくはデータセットを同様に構成する。同定された遺伝子及び反応構成要素の他の全ての関連づけられた関係及び属性も、同様の関連付けによってネットワークモデル内に同様に組み込むことができる。遺伝子及び反応構成要素のそのような関連付けによって、本発明のネットワークモデルの遺伝子産物産生の連結性並びに反応構成要素の連結性及び流れが規定される。
【0056】
以下に更に説明するように、関連付けプロセスは、付加的ネットワーク構成要素を包含するために、相互に連結されたネットワーク要素、又は相互に関連するネットワーク要素の機能的グループを特定するのに十分な数の構成要素の同定が完了するまで反復することができる。活性、基質、産物、反応物及び化学量論のような構成要素の属性は、自然な生化学的関係によって、個々のネットワーク構成要素を相互連結された機能モデル内に自動的に組み入れるのに役立つ。形成された自然な関係は、例えば、本発明のネットワークモデルの開発者又はユーザによって変更することができる。従って、同定、包含及びネットワーク構成要素の本発明のモデル内への組み入れのプロセスは、本モデル自体の境界内の構成要素の連結性及び流れ並びに活動を規定する役に立つ。
【0057】
ネットワーク遺伝子構成要素のデータ要素又はデータセットの対応するネットワーク反応構成要素のデータ要素若しくはデータセットとの関連付けは、当業界に周知の任意のコンピュータによる方法によって実行することができる。例えば、得られたデータセットを作り上げている個々のデータ要素は、リレーショナルテーブルを用いて関連付けることができる。代替的に、データ要素は、例えば、索引付け、ポインティング、照会などのような機能を用いて関連付けることもできる。同様にして、これら及び他の構造又は機能の組み合わせを同様に用いて本発明のモデル内に包含されたネットワーク構成要素を関連付けることができる。更に、データ要素は、関連する特徴又は属性に基づいてデータベース内で区分化するか、若しくはランダムに格納することができる。或いは、異なるデータベースを用いて、分類されたデータ要素又は分類されていないデータ要素を格納することができる。従って、ネットワーク構成要素の関連付けは、任意の電子リンケージ、物理的アーカイブ形態又はそれらの組み合わせによって達成することができる。
【0058】
本発明のコンピュータによって実行されるプロセスによって形成されるデータ構造は、フラックスバランス解析に対応する反応構成要素間の任意の物理的関係又は論理的関係であることができる。手短に述べれば、関連付けられたデータ要素からなるデータセットは、本発明のデータ構造として直接用いることができる。例えば、関連付けられたデータセットは、照会及び、例えば、指定サーバ又は特定のサーバ機能からの応答によってアクセスすることができ、且つ、本発明のネットワークモデル適用中に、関連付けられたデータ要素を単一のデータ構造として呼び出すことができる。代替的に、そのような関連付けを更に二次形態に編集することができ、本発明のコンピュータによって実行される方法において、該二次形態にアクセスし且つ利用することができる。そのような二次形態は、例えば、更なる索引付け、分割又はデータ要素のサブファイル及び下位構造の作成によって生成することができる。例えば、遺伝子構成要素及び反応構成要素を記述する関連付けられたデータの幾つか又は全てを単一のデータセットに統合することができる。本発明のモデルのネットワーク構成要素を記述するデータ要素の全てより少ない部分が統合される場合、関連付け及び関係を当初の構成要素及びデータセットに対して維持し、データ要素によって表現される任意の特定のネットワーク構成要素の全ての特徴及び属性へ継続的にリンクするのが有利であり得る。そのようなリンクを維持することは、任意のネットワーク構成要素又はその任意の特定のサブセットの全てのデータ要素の入力、最適化及び出力の操作を可能にしながら、ネットワークモデルの実行に関連する構成要素によってコンピュータによるプロセスを起動する利点を提供する。
【0059】
本発明のコンピュータによって実行されるプロセスによって構築することができるネットワーク遺伝子構成要素とネットワーク反応構成要素の関連付けの具体的な例を以下の例Iにおいて更に説明する。そこに記載された図3及び図4は、本発明のネットワークモデルのネットワーク構成要素及びオブジェクトモデル形式及びデータベーススキーマ形式の両方におけるそれらの関連付けを特定する例示的なデータ要素を示す。図3に、ネットワーク構成要素のデータ要素の関与クラス及びバイオ粒子のネットワークモデル内での関連を特定する関連付けられたオブジェクトモデルを示す。図4に、ネットワーク構成要素のデータ要素の関与テーブル及びバイオ粒子の生化学的ネットワーク内での関連を特定する関連データベーススキーマを示す。
【0060】
図3及び図4に示すように、ネットワーク構成要素は、反応、反応物、分子、蛋白質、ペプチド、モデル反応、モデルのバージョン、又は遺伝子に対するテーブルのようなテーブルに組織化することができる。各テーブル内に、ネットワーク構成要素の属性に関するレコードを収集したものがある。以下に説明するように、各レコードに関して、ネットワークモデル構築中に追加された情報がフィールドに格納される。
【0061】
レコードは、例えば、ストリング、整数、フロート、文字又は論理式を含む、当業界で既知の任意の適切な形式で表現される属性を含むことができる。ストリングレコードは、反応ネットワーク構成要素テーブル内の正式名称、略語、方向、注記及びディスクリミネータに関するもののような記述を表現するフィールドを有することになるレコードに対して用いられる。論理レコードは、属性を表現するために用いられ、該属性に関する2つの値のうちの1つは、例えば、反応ネットワーク構成要素テーブル内の反応が変換であるか、転座であるか、未知の酵素クラスであるか、未知の輸送担体クラスであるか、又はシミュレーション反応であるかを含む記述である。整数レコードは、遺伝子テーブル内で生じる5’座標、3’座標、遺伝子長及び蛋白質長のような数値を示すために用いることができる。フロートとして表現されるレコードの例は、分子テーブル内の分子量、及び、例えば反応物テーブル内の速度定数又は結合定数を含む係数である。
【0062】
ネットワーク構成要素間の例示的な関連付けを図3及び図4に示す。これらの関連性は、モデル構築の様々な段階中に利用することができる。例えば、遺伝子−蛋白質関連付けの構築に対しては、関与するテーブルは、図4に示すPeptideテーブル、PeptideProteinAssociationテーブル、PepPepProteinAssociationテーブル、及びProteinテーブルを含む。遺伝子−蛋白質関連付けの生成に関与するクラスは、Peptide、PepPepProteinAssociation、及びProteinを含む。図3及び図4に示すテーブル及びクラスを用いて関連性を構築する別の例を挙げれば、蛋白質−反応関連付けは、Proteinクラス、ProteinReactionAssociationクラス及びModelReactionクラスを用いて、且つProteinテーブル、ProteinReactionAssociationテーブル、ProtProtReactionAssociationテーブル及びModelReactionテーブルを用いて構築される。
【0063】
本発明をリレーショナルデータベースに関して上に例示してきたが、当業者は、本明細書に提示した概念をリレーショナルデータベースシステムの演算以外にも適用することができることがわかるであろう。具体的に述べれば、本概念は、例えばオブジェクト指向データベース、階層型データベース又はネットワークデータベースを含むどのようなデータベース環境においても適用可能である。
【0064】
ネットワーク構成要素の関連性を特定するデータセットは、構築中のネットワークシステムの数学的記述に変換することができる。例えば、バイオ粒子の生化学的ネットワークをモデル化する特定の場合には、ネットワークモデルの生化学的反応は、線形代数方程式及び線形代数不等式のセットに変換することができる。不等式は、その反応に対する上限又は下限を特定する制約を反応に設定する。境界は、反応を通じた質量、電子又はエネルギーの最小流量又は最大流量を特定することができるか、若しくは反応の方向性を特定することができる。境界は、ゼロ、無限のような定数値、又は整数のような数値であることができる。代替的に、境界は、可変境界値であることができる。
【0065】
方程式と不等式のセットが、参照されるネットワークモデルの数学的記述を構成する。数学の方程式のデータ構造は、化学量論的マトリックスSとして更に表現することができ、Sはm×nマトリックスであり、mは反応物又は代謝産物の数に対応し、nはネットワーク内で発生している反応の数に対応する。マトリックス内の各縦列は特定の反応nに対応し、各横列は特定の反応物mに対応し、各Smn要素はnで示す反応内の反応物mの化学量論係数に対応する。
【0066】
化学量論マトリックスは、それを例えば線形計画又は一般凸解析を用いることによって容易に操作し且つネットワーク特性を計算するために使用することができるため、ネットワークモデルを表現及び解析するための好都合な形式となる。ネットワークモデルのデータ構造は、それが化学量論マトリックスに関して上に例示した方法で、且つ以下に例示するような方法を用いて操作して1つ又はそれ以上の反応の活性度を決定することができる方法で構成要素と反応物を関連付けることができる限りにおいて、当業界に周知の様々な形式をとることが可能である。本発明に有益なネットワークモデルのデータ構造の他の例は、連結グラフ、化学反応のリスト又は反応方程式の表を含む。そのような化学反応の表には更に、化学反応及び変換に関する動力学的情報を注釈として付けることができる。動力学的情報は、本発明のネットワークモデル又はその中の反応構成要素に異なる式を適用し、時間をかけて積算するためにアクセスして使用することができる。
【0067】
ステップ400を実行するための例示的なプロセスを図5に示す。本プロセスは、ステップ410で開始され、ステップ414に進み、該ステップ414でモデルが作成又はダウンロードされる。所望のネットワークモデルのオープンエディションがコンピュータシステム内に存在しないか若しくはそれにアクセスできない場合、本プロセスはステップ418に進むことができ、該ステップ418でオープンエディションを作成し、次いでステップ420に進むことができる。ネットワークモデルのオープンエディションは、生成されつつあるか又は構築中のものである。モデル内容に対する十分な改善及び予備試験の後に、モデルは、将来のシミュレーション研究の基礎としてモデルの現在の内容を取り込むために、改版モデルとして保存することができる。改版モデルは、改版モデルのコピーがアーカイブされ、且つ該アーカイブされたモデルの内容が保護されるか又は実質的に変更されないように保存される。ステップ414でオープンエディションが存在し且つアクセス可能である場合、ステップ416で、例えばコンピュータプロセッサ又は記憶装置内にネットワークモデルをロードし、プロセスをステップ420に進めることができる。改版モデルの少なくとも1つのコピーがアーカイブされ、且つステップ416でいったん開かれたモデルが新版として保存されるまでオープンモデルとして格納される限りにおいて、例えばモデルの更新版又は変更版を作成するために、ステップ416で改版モデルもロードすることができることが理解されよう。
【0068】
ステップ420で、遺伝子に関連する反応構成要素がネットワーク反応構成要素のデータ構造に加えられる。ステップ420を実行するための例示的なプロセスを図6に示す。データ構造が構築されている際に、1つ又はそれ以上の関連する蛋白質及び1つ若しくはそれ以上の関連する遺伝子への適切な関連が各反応に対して割り当てられる。これらの関連付けによって、遺伝子と蛋白質との間の関係及び蛋白質と反応との間の関係が捕捉される。幾つかのケースでは、1つの遺伝子が1つの蛋白質に対してコード化を行い、次いで、該1つの蛋白質が1つの反応を触媒する。しかしながら、1つの蛋白質を生成するのに複数の遺伝子が必要であることが多く、また同一の反応を実行することのできる1つの蛋白質又は複数の蛋白質によって実行することができる反応が複数あることが多い。これらの関連性は、「AND」又は「OR」のようなブール論理演算子によって捕捉することができる。これらの関連性は、モデル構築モジュールとの関連で以下に記載する関連図において捕捉することもできる。
【0069】
本発明のネットワークモデルにおけるこれらの関連性の表現は、ネットワークモデルを作成するという状況又はネットワークモデルでシミュレーションを実行するという状況において遺伝子レベル、蛋白質レベル若しくは反応レベルでモデル内容を追加若しくは削除することの意味合いを容易に視覚化し且つ決定する利点を提供する。一般に、遺伝子索引中の遺伝子の各々は、ネットワークモデル内への包含又はそれからの除外に対して評価される。遺伝子が除外される場合、ネットワークモデルと関連するアノテーションに理由を記載することができる。
【0070】
ネットワーク遺伝子構成要素とネットワーク反応構成要素の関連付けは、種々の異なる手順で実行することができる。例えば、関連付けは、順次に、又は二者択一的に、まとめて、並行して若しくは連続して行うことができる。更に、得られたデータ構造の操作を容易にするか又はそれを組織化するために、関連付けにおいて幾つかの中間ステップ若しくはグループ分けを行うこともできる。ステップ420のプロセスの具体的な例は、同定済み遺伝子構成要素に基づいて実行命令によってネットワーク反応構成要素の選択又は同定を実行する場合である。
【0071】
同定済み遺伝子構成要素は、例えば、オープンリーディングフレーム(ORF)のデータ源にアクセスすることにより取得することができる。このデータ源は、種々の異なる供給源から得ることができ、構築することを意図されているネットワークモデルに応じて決定されることになる。例えば、生化学的経路又はバイオ粒子の機能を表現するネットワークモデルが構築対象である場合、該経路若しくはバイオ粒子の機能の活性を表現するORFデータ源を使用することができる。具体的な例は、解糖経路に関する遺伝子データベース又は細胞代謝に関する遺伝子データベースを含む。同様に、バイオ粒子又はそのサブシステムの機能及び活性を表現するネットワークモデルの場合、バイオ粒子によってコード化された遺伝子の実質的に完全な目録を表現するゲノムデータベースを使用することができる。
【0072】
本発明のネットワークモデルを構築するにあたってORFの注釈付きネットワークセットを使用する1つの利点は、それがネットワーク反応構成要素の組み込み及びその結果得られたモデルの完全性の両方に関する内部的チェックとしての機能を果たす点である。例えば、ネットワークモデル内に組み込むことになる遺伝子構成要素のクローズドリスト又は有限リストを通して前進することが、あり得る関連の数を内部的に制限する機能を果たすと同時に、異常に包含された若しくは異常に関連付けられたネットワーク構成要素を発見する機能を果たす。従って、ORFの注釈付きネットワークセットに基づくネットワークモデルの構築は、得られたデータ構造内で関連付けられることになる構成要素に対する上限及び下限を提供する。その結果、モデル構築を、構成要素及び関連付けの有限空間内で進めることができる。
【0073】
そのようなネットワーク遺伝子構成要素のクローズドリストは、例えば、経路又はバイオ粒子の機能に対するように小さいくすることができる。クローズドリストは、例えば、バイオ粒子又は生物ゲノムのように大きくすることもできる。注釈付きネットワークセットは単一のリスト又はファイル内で特定されたり、固有のデータエンティティとして格納される必要はない。そうではなく、注釈付きネットワークセットは、例えば、より大きいデータベースのサブセットとすることができる。従って、注釈付きネットワークセットに含まれたORFを該セットから除外されたものと線引きすることが必要なだけである。
【0074】
ORFの注釈付きネットワークセットの実際の大きさに関係なく、そのような遺伝子構成要素のセットは、遺伝子目録又は遺伝子チェックリストとなり、それを通してコンピュータによって実行されるプロセスを進行させ、例えば、構築中のネットワークモデルへの包含又はそこからの除外によって、リストに記載された遺伝子構成要素の説明が行われたことを保証することができる。更に、遺伝子目録は、相互に作用し且つ相互に関連する遺伝子構成要素及び反応構成要素の同定並びに関連付けに関するルーチンを呼び出すか若しくはそれを通って進行することの更なる照会を実行するために用いることもできる。そのようなルーチン又は他の解析を実行することは、構築されたネットワークモデル内に信頼できるシステムが再生されたことのより完全な、若しくはより徹底した表明となる。
【0075】
例えば、1つのORFで開始して、本発明のプロセスは、対応するコード化された遺伝子産物及び属性並びにあらゆる関連サブユニットの構成要素、それらの同系ORF、及び基質、産物並びに補因子のような更なる反応構成要素を同定するための照会を生成することができる。その初期ORF及びその同定された遺伝子産物、同属の遺伝子及び遺伝子産物の構成要素に基づいて付加的照会を更に実行し、解析中の構成要素に関連するネットワーク構成要素を同定することによってこれらの関連付けを拡充することができる。そのような拡充された関係は、例えば、構成要素の解析された活動又は物理的相互作用の上流若しくは下流のネットワーク構成要素の検索及び同定或いは解析された活動に対して反応構成要素を生成又は消耗するために必要な構成要素並びに活動の検索及び同定であることができる。
【0076】
当初に選択したORF及びその関連付けられた遺伝子産物に基づいたより高いレベルの拡充は、ユーザの必要性に応じて、又は照会及び検索が使い尽くされるまで、付加的に実行することができる。次いで、本コンピュータによって実行されるプロセスは、例えば、注釈付きネットワークセット内の次のORFに進み、上述した照会及びルーチンを実行し、更に別の反応構成要素を同定し、ネットワークモデルのデータ構造内で関連付けることができる。ORFを選択し、その対応する反応構成要素を同定し、相互に作用し且つ相互に関連する遺伝子、同属遺伝子及び反応構成要素並びに反応成分を照会及び同定するこのプロセスを注釈付きセット内の各要素が解析されるまで反復することによって、関連付けにより構築中のネットワークモデル内に包含することができるネットワーク構成要素の包括的グループがもたらされることになる。
【0077】
ORFの注釈付きネットワークセットに基づくモデル構築の付加的利点は、それが遺伝子構成要素を反応構成要素と関連付けるデータ構造の生成をもたらすか若しくはそれを可能にすることによって生化学システム又は生活するバイオ粒子の本来備わっている複雑性を捕捉することになる点である。更に、そのような複雑性は、システムの完全な相互作用又は相互関係に関する最小知識若しくは経験的判断によってネットワークモデル内に再現することができる。生体システム及び生化学システムの本来の複雑性を捕捉し且つ再現することにより、その結果得られたネットワークモデル内の自然のシステムのより正確な再現が可能となる。
【0078】
例えば、特定の生化学的機能がバイオ粒子のゲノム又は生物のゲノム内に重複してコード化される場合があり得る。従って、重複性は、遺伝子産物のレパートリ内に表現されている類似の機能を示す異なる遺伝子産物をもたらす可能性がある。しかしながら、1つのみの遺伝子産物又は活動のモデル内への包含は、不正確な予測又は不完全な予測を生成する可能性がある。なぜなら、その1つの遺伝子産物又は活動の変更若しくは摂動は自然のバイオ粒子或いは生物内に存在する類似の機能の代替可能性を説明することにはならないからである。ネットワーク遺伝子構成要素とネットワーク反応構成要素の間の関連性の包含を通じて生化学システムの本来の複雑性を捕捉することによりネットワークモデルの予測可能性を増強している具体的な例を、以下の例Iで説明する。次のようにして、構成要素の重複性がモデル内で説明されているか否かによって完全に異なる表現型を観察することができる。遺伝子構成要素の関連付けを含めることによって信頼できるシステムのモデル再現及び予測可能性に利する他の例は、例えば、上位性効果の特徴付け、遺伝子レベル、蛋白質レベル及び反応レベルにおける調整の評価、アイソザイムの活性の比較評価、又は多重結合蛋白質のサブユニットがネットワークモデル内での存在において有する完全性の判定を含む。
【0079】
再び図6を参照し、データ構造内の遺伝子構成要素及び反応構成要素を選択する最初のプロセスを参照すると、本発明のコンピュータによって実行されるプロセスは、最初のスクリーニングステップ又は優先順位決定ステップにおいて選択されたORFに関連する情報を収集する。この最初のステップは、構築することが所望されるモデルに特有のネットワーク構成要素を同定し且つ包含することに集中する。この情報は、例えば、ユーザ、データベース又はサーバに照会し、選択された遺伝子構成要素をデータ構造内に包含すべきかそれともそこから除外すべきかの二者択一的決定をもたらす応答を取得することによって収集することができる。例えば、遺伝子の機能が既知であるか、構築中のモデルの範囲内にあるかどうかに対する肯定的応答、又は非不明瞭なアノテーション若しくは遺伝子属性情報に対する肯定的応答は、開発中のモデル内への選択された遺伝子構成要素の包含を可能にする。この点で、遺伝子構成要素は、既知の機能及び属性の明瞭なアノテーションを有することができるが、代謝モデルを構築中のような場合は、そのモデルの範囲外とし、除外することができる。しかしながら、選択されたORFは、核酸結合蛋白質をコード化し、逆の場合も同様である。
【0080】
ネットワーク遺伝子構成要素が構築中のモデル内に包含されることにいったん決定されると、本プロセスは、ユーザ又はデータ源にそのコード化された遺伝子産物の同定に対して照会を行う。代替的に、本プロセスは、遺伝子構成要素の核酸配列データを電子的に翻訳し、直接その情報を包含するか、又は遺伝子産物データベースを検索してコード化されたアミノ酸配列及び他の属性を取得することができる。本システムの維持手順として、対応するデータベースに表現されていない遺伝子産物は、この時点で本システム内に保存するか、又はルーチンの維持手順中に後で保存するためにマークを付けることができる。対応する遺伝子産物情報の同定又は生成に続き、得られた遺伝子構成要素と反応構成要素がデータ構造内に関連付けられる。一般に、そのような関連付けは、リレーショナルデータベース及びリレーショナルテーブルを用いることにより達成することができる。しかしながら、且つ前述したように、基本的に、当業者に既知のどのような手段も、そのような関連付けを形成するのに用いることができる。
【0081】
いったん反応構成要素が遺伝子構成要素と関連付けられれば、本プロセスは、ORFの注釈付きネットワークセットからの新しいORFの選択を更に実行し、そのコード化された遺伝子産物及び関連属性の同定を進めることができる。包含又は除外の決定のための最初の選択の照会は、上述したように実行される。更に、後続のORF及びそれらのコード化された遺伝子産物の選択は、例えば、順次に、並行して、又は先のORF若しくは後続のORFの選択並びに手順と連続して実行することができる。ここでもまた、新たに同定されたネットワーク反応構成要素は、その対応する遺伝子構成要素との関連付けによって、その後ネットワークモデル内に組み込むことができる。更に、反応構成要素の機能的属性及び特徴的属性も、構築中のネットワークモデルのデータ構造内に組み込むことができる。
【0082】
前述したように、いったん反応構成要素が遺伝子構成要素と関連付けられれば、本プロセスは、更に進んで関連する遺伝子構成要素及び反応構成要素を抽出するか又はそれらに関してデータリポジトリ若しくはユーザ照会し、同時に同定されたネットワーク反応構成要素の属性を関連付けることができる。そのような関連する構成要素は、例えば、生化学反応、結合特性及び他の機能的属性のような機能的活動、反応物、産物並びに補因子のような反応成分、サブユニット及びレギュレータのような構成遺伝子産物、並びにそのような更に同定されたネットワーク構成要素に対する種々のネットワーク遺伝子構成要素及びネットワーク反応構成要素の同定並びに関連付けを含む。これらのルーチンの実行も図6に示す。最後に、各々の同定された反応構成要素に対し、本発明のプロセスは、遺伝子産物が他の反応又はプロセスを触媒しているかどうか、若しくはそれらに関与しているかどうかを更に照会する。このステップは、各構成要素におけるモデル構築プロセスをより高いレベルの構成要素の検索、同定及び関連付けへと拡充する機能を果たす。
【0083】
従って、遺伝子構成要素としてモデル構築に包含される各ORFに対し、本発明のコンピュータによって実行されるプロセスは、決定点に対する応答が否定となるか又は使い果たされるまで、若しくはコンピュータ又はユーザの資源に対する負担が出力の生産性を上回るまで1回又はそれ以上ルーチン420を通って進行する。ルーチン420の反復は、モデル内への遺伝子の包含を示す図6の四角形ボックスで開始する。特定の包含された遺伝子構成要素に対するルーチン420が終了すると、本発明のプロセスは、別のORFを選択し、開発中のモデル内への包含に関してそれを予備的決定点に委託することにより、ORFの注釈付きネットワークセットを通って進み続けることができる。遺伝子構成要素としていったん包含されると、ルーチン420が再び実行され、そのコード化された遺伝子産物が、反応構成要素、同属遺伝子構成要素、遺伝子産物のサブユニット、反応成分、同定された活動に関与する付加的遺伝子産物などとして同定され且つ関連付けられる。完全なルーチン420のプロセスは、例えば、注釈付きネットワークセットの構成ORF、又はそれらの機能的サブセットが同様にして処理され且つ解析されるまで1回若しくはそれ以上反復することができる。
【0084】
従って、本発明は、(a)ネットワーク反応機能を有する遺伝子産物をコード化する注釈付きネットワークセットから1つのORFを選択するステップと、(b)ネットワーク遺伝子構成要素と同系ORF、コード化された遺伝子産物、ネットワーク反応及びネットワーク反応成分を含むネットワーク反応構成要素とを関連付る、選択された遺伝子産物を含むデータ構造を形成するステップと、(c)実質的に全ての注釈付きネットワークセットのネットワーク遺伝子構成要素の調査が完了するまで注釈付きネットワークセットから別のORFを選択しながらステップ(a)及び(b)を繰り返してネットワーク反応機能を有する遺伝子産物をコード化し、連結性及び流れのネットワークモデルを特定するデータセットを確立するデータ構造を生成するステップとによって、本発明のプロセスにおいて形成することができるデータ構造を提供する。本プロセスは、(a)選択されたコード化された遺伝子産物に対する構成遺伝子産物の発生を判定するステップと、(b)ネットワーク反応に関与する更に別の遺伝子産物の発生を判定するステップと、(c)調査された遺伝子産物が示す代替的ネットワーク反応の発生を判定するステップと、(d)同定された構成遺伝子産物、関与遺伝子産物又は代替的ネットワーク反応をデータ構造内に組み込むステップを更に含むことができる。
【0085】
本発明のプロセスは、少なくとも1つのネットワーク反応における元素平衡化のステップを更に含むことができる。同様に、本発明のプロセスは、少なくとも1つのネットワーク反応における電荷平衡化のステップを含むことができる。そのような平衡化は、生体システムにおいて発生する際の質量、元素及び電荷の保存を考慮するものである。ユーザによる反応の登録後、ルーチンを実行して反応の基質と産物を比較し、基質内で反応に入る各原子の種類の数が該反応を出て産物内に入る数とぴったり一致するように質量が平衡化されているかどうかを判定することができる。基質上及び産物上の電荷の同様の比較を用いて、ネットワークモデル内への登録が完了している反応内で電荷が平衡化されているかどうかを自動的に判定することができる。電荷及び質量が平衡化されていれば、このプロセスは、構築プロセス内の次のステップに進むことを許可される。しかしながら、不均衡が発見された場合、本システムは、反応が平衡化されていないことを指摘する適切なメッセージをユーザに送信することができる。このメッセージは更に、不均衡の性質を指摘し、且つ質量又は電荷の平衡性を満たすために反応成分を追加若しくは除去するように提案することができる。
【0086】
反応ネットワーク上の電荷、元素及び質量の平衡性を監視することにより、本システムは、生化学反応ネットワーク又は生体システム内の質量及び電荷のフラックスを反映するネットワークモデルを対話形式にユーザが構築することを可能にする資源をユーザに対して利用可能にする。質量、元素及び電荷の平衡化は本発明のネットワークモデルの全ての用途に対して必要ではないが、この平衡性を構築することによって、電荷又は特定の元素の正味の消費若しくは生成に応答して発生する表現型或いはシステムの挙動を説明することができる。例えば、陽子の生成は、phを変えることにより、膜電位を変えることにより、又は代謝産物の輸送及びATPレベルのような陽子の流入/流出によってエネルギーに影響を受けるプロセスに寄与することにより、細胞の過程に影響を及ぼすことができる。
【0087】
図5に示すように、ネットワーク反応構成要素のデータ構造を構築するプロセスは、遺伝子コード化されていないネットワーク反応及び対応する反応成分をネットワーク反応構成要素のデータ構造内に組み込むステップ430を含むことができる。バイオ粒子の反応の多くが遺伝子と関連付けられているが、既知の遺伝子的関連付けのない幾つかの反応がモデルに包含される可能性もある。非遺伝子コード化反応は、例えば、生化学の文献に基づいて同定するか、又は巨視的必要量欠乏を満たすための反応に対する必要性に基づいたモデル構築の過程において同定することができる。本発明のネットワークモデル内の反応と関連する遺伝子又は生体分子の知識は、本モデルを用いたシミュレーションには必要ではない。しかしながら、そのような情報は、効率的なモデル構築に対する利点及びシミュレーションの結果を評価することに対する利点を提供する。
【0088】
ステップ430で、自然に発生する反応、蛋白質によって可能になる反応、又は特定の遺伝子産物若しくはオープンリーディングフレームと関連付けがなされていない反応は、ネットワーク反応構成要素のデータ構造に加えることができる。代替的に、反応は、例えば、シミュレーションの結果及びその反応を加えることによって巨視的必要量欠乏を満たすための必要性の同定に基づいて、モデル化中のシステム内での反応の発生を示す生物学的証拠なくして加えることができる。
【0089】
モデル構築の過程において、1つ又はそれ以上の非遺伝子コード化反応をネットワークモデルに加えることができる。そのような反応は、反応成分及び、既知である場合は、同属蛋白質のような他の反応構成要素と関連付けることができる。このプロセスは、モデル内容ブラウザとの関連において実行することができる。このコンピュータによって実行されるプロセスは、非遺伝子コード化反応を反応索引に加える決定が行われたときに開始される。決定は、ユーザに照会し、その反応が反応データベースに存在するか又は存在しないかの二者択一的結論をもたらす応答を取得することによって行うことができる。ユーザがアクセスすることができた反応データベース内にその反応が存在する場合は、該反応は、ユーザによって選択されることができ、本システムは、該反応を反応索引内に自動的に包含する。或いは、その反応が反応データベース内に存在しない場合、ユーザは、該反応及びその対応する反応成分を反応索引に登録するための照会を受けることができる。
【0090】
反応索引に加えられる反応は、反応データベースに加えることができる。本システムは、反応を反応データベースに自動的に加えるように構成することができる。或いは、反応は、反応データベースに加えるべきか否かに関する照会に応答する管理者に表示することができる。管理者が肯定の応答を行った場合、本コンピュータによって実行されるプロセスにより、その反応を反応データベースに加えることができる。代替的に、管理者による否定の応答は、その時点で、反応データベースへのその反応の追加を防止する。このプロセスは、信頼度のような反応の詳細を編集するか又は参照引用を加えることをユーザに照会するために進むことができる。
【0091】
ネットワーク反応構成要素のデータ構造内の反応は、所望であれば、サブシステムに割り当てることができる。サブシステムの使用は、経路解析のような幾つかの解析法に対して利点を提供し、且つモデル内容の管理をより効率的にすることができる。モデル開発者は、サブシステムの名称を特定し、次いで該サブシステムに反応を割り当てることができる。この割り当てによって、様々な種類の解析を実行するにあたって有益となる可能性のある特定のサブシステム内の反応をユーザが検索することが可能となる。更に、サブシステムの割り当てを反応地図上に示すことができ、それによりシミュレーション結果の評価が容易になる。
【0092】
ネットワーク反応構成要素のデータ構造内に包含された反応は、例えば以下に記載するユースケースを用いて反応データベースから取得することができる。或いは、反応は、例えば、化合物データベースから化合物を取得し、反応データベースを作成するための上に記載した方法と同様の方法を用いて反応を構築することにより新たに加えることができる。モデル構築のこの段階で加えられた反応は、その後反応データベースに加えることができる。
【0093】
ステップ420及び430において加えられた反応は、システム内反応である。システム内反応は、化学種及び生化学的プロセスの化学的且つ電気的に平衡化された相互交換であり、それが、特定の代謝産物の相対量を補充又は排出する機能を果たす。これらのシステム内反応は、例えば、変換若しくは転座として分類することができる。変換は、基質及び産物として区別可能な化合物のセットを含む反応であり、一方、転座は、異なる区画内に位置する反応物を含む。従って、その化学組成を変えることなく細胞外環境から細胞質ゾルへ代謝産物を輸送する反応は、転座として分類され、一方、細胞外グルコースを取り込んでそれを細胞質ゾルグルコース6-リン酸に変換するホスホトランスフェラーゼシステム(PTS)のような反応は、転座であり且つ変換である。
【0094】
再び図5を参照すると、ネットワーク反応構成要素のデータ構造を構築するプロセスは、外部の反応構成要素及び対応する反応成分に対する交換反応をデータ構造内に組み込むステップ440を含むことができる。交換反応は、シミュレーションの目的のために化合物を導入し、且つネットワークから除去することを可能にすることになる反応である。交換反応は、生体システムの経験的に観察された表現型又は挙動に基づいて生成することができる。
【0095】
生体システムに課される代謝要求量又は他の生化学的要求量は、刊行文献において入手可能な細胞の乾燥重量組成から容易に求めることができるか、若しくは実験によって求めることができる。生物に対する取り込み速度及び維持必要量は、取り込み速度が増殖媒体からの基質の消耗を測定することにより決定される実験によって求めることができる。単位バイオマス当たりの取り込み速度を決定するために、各点におけるバイオマスの測定値も求めることができる。維持必要量は、ケモスタット実験から求めることができる。例えば、グルコース取り込み速度は増殖速度に対してプロットし、y切片は非増殖関連維持必要量として解釈することができる。増殖関連維持必要量は、増殖速度対グルコース取り込み速度プロットにおける実験によって求められた点にモデルの結果を合わせることによって決定される。本発明のデータセットは、交換反応を用いて、これらの実験によって求められた要求量を列挙するように変更することができる。
【0096】
交換反応はソース及びシンクを構成する反応であり、代謝産物又は他のネットワーク構成要素の区画内外への通過若しくは仮想システムの境界を横断する通過を可能にする。これらの反応は、シミュレーションの目的のためにモデル内に包含され、生物に課される代謝上の要求量を表現する。幾つかのケースではそれらは化学的に平衡化されているかもしれないが、一般的にはそれらは平衡化されておらず、1つの基質又は産物のみを有することが多い。慣例上、交換反応は、要求量交換反応及び入力/出力交換反応に更に分類される。
【0097】
本発明のコンピュータによって実行されるプロセスのステップ440は、交換反応ブラウザ内で実行することができる。本コンピュータによって実行されるプロセスは、細胞外反応物に対する入力/出力交換反応が追加されるルーチンを含むことができる。データ構造内の細胞外反応物は、ステップ420及びステップ430の間にそれらの同定に基づいてグラフィカルユーザインタフェース上に自動的に表示することができる。本プロセスは、細胞外の全ての反応物に対する入力/出力交換反応を加えるか否かをユーザに照会するために進むことができる。ユーザが肯定の応答を行った場合、本プロセスは、全ての細胞外反応物に対する交換反応を挿入するように進行する。或いは、ユーザが否定の応答を行った場合、ユーザは、細胞外反応物を評価するためのアクセスを与えられ、各々に入力/出力反応を追加すべきかどうかに関してさらに照会を受ける。
【0098】
従って、細胞外代謝産物の各々に対して、ユーザは、対応する入力交換反応又は出力交換反応を特定若しくは生成することができる。通常、本システムは、これらの反応を、基質、反応によって1つの産物が産生される化学量論係数及び産物が産生されない化学量論係数として示される代謝産物と可逆的であると表現することになる。この特定の慣例は、代謝産物が産生されているか又はシステムの外へ排出されているときにその活動レベルに対して正のフラックス値を、代謝産物が消費されているか若しくはシステム内に導入されているときに負のフラックス値を反応がとることができるように採用されている。これらの反応には、シミュレーションの過程において、どの代謝産物が細胞に利用でき、どの代謝産物が細胞によって分泌されることができるかを特定するために更に制約を課すことができる。
【0099】
要求量交換反応は、本発明のネットワークモデル内のいずれの反応物に対しても導入することができる。これらの反応は、アミノ酸、ヌクレオチド、リン脂質、及び他のバイオマス成分のような新しい細胞を生成する目的に対して細胞によって産生されることを必要とする反応物であるか、又は代替的目的に対して産生されるべき代謝産物である生化学的要求成分に対して導入される。要求量交換反応は通常、少なくとも1つの基質を含む不可逆的反応として特定される。これらの反応は一般に、増殖とも呼ばれる、代謝ネットワークによる細胞内構成要素の産生量、又はバイオマス形成につながる反応の表現におけるようなバランスのとれた比率での多くの反応物の総産生量を表現するように公式化される。
【0100】
ステップ440で、本コンピュータによって実行されるプロセスは、バイオマス成分に対する要求量交換反応が加えられるルーチンを含むこともできる。本プロセスは、バイオマス成分である全ての反応物に対する要求量交換反応を加えるべきか否かをユーザに照会するために進行することができる。ユーザが肯定の応答を行った場合、本プロセスは、全てのバイオマス成分に対する要求量交換反応を挿入するために進行する。或いは、ユーザが否定の応答を行った場合、ユーザは、バイオマス成分を評価するためのアクセスを与えられ、各々が要求量交換反応を追加されるべきかどうかに関して更に照会を受ける。
【0101】
通常、本システムは、これらの反応を不可逆的であると表現し、且つその反応物を1という化学量論係数を有する基質として特定する。これらの特定があれば、反応が活性である場合、それは、ネットワークモデルによる、潜在的産生要求量に起因する反応物の純産生量をもたらす。ネットワークモデルのデータ構造内で要求量交換反応として表現することができ、且つ本発明の方法によって解析することができるプロセスの例は、例えば、個々の蛋白質の産生又は分泌、アミノ酸、ビタミン、ヌクレオシド、抗生物質若しくは界面活性剤のような個々の代謝産物の産生又は分泌、移動運動のような外生的エネルギー要求プロセスに対するATPの産生、又はバイオマス成分の形成を含む。
【0102】
ネットワーク反応構成要素のデータ構造を構築するプロセスは、集合反応物要求量フラックスを特定する1つ又はそれ以上の集合要求量交換反応を生成するステップ450を含むことができる。集合要求量交換反応は、定められた化学量論的比率の複数の反応物を用いる要求量交換反応である。集合要求量交換反応の一例は、例えば、複数のバイオマス成分の形成を特定の細胞増殖速度で同時にシミュレートすることによって、1つの細胞に課される細胞増殖と関連する同時増殖要求量又は同時産出必要量をシミュレートするために用いられる反応である。従って、集合反応物要求量フラックスは、増殖に対する表現型出力を規定することができる。集合反応物要求量フラックスによって規定することができる他の表現型出力は、例えば、バイオマス産生、エネルギー産生、酸化還元当量産生、異化代謝産物産生、バイオマス前駆体、ポリペプチド産生、アミノ酸産生、プリン産生、ピリミジン産生、脂質産生、脂肪酸産生、補因子産生、細胞壁構成要素の産生又は代謝産物の輸送を含む。
【0103】
集合要求量交換反応が構築される、コンピュータによって実行されるプロセスのステップ450は、交換反応ブラウザ内で実行することができる。反応データベース内の反応物が自動的にグラフィカルユーザインターフェース上に表示されるルーチンを実行することができる。ユーザは、表示内容を調査し、集合要求量交換反応に含めるべき反応物を同定することができる。バイオマス要求量交換反応は、集合反応に順次追加することができ、バイオマス成分は、集合反応に加えることができる。ユーザは、付加的反応物を反応に追加すべきかどうかに関して照会を受けることができる。応答が肯定である場合、付加的反応物を加えることができる。或いは、応答が否定である場合、本コンピュータによって実行されるプロセスは、反応に関与する全てのものに対する化学量論係数を特定することができる。次いで、ユーザは、付加的集合交換反応を加えるために照会を受けることができる。ユーザは、付加的バイオマス要求量交換反応を加えるステップからプロセスを繰り返すことができる。所望の数の集合要求量交換反応の追加が完了するまで、そのルーチンを繰り返すことができる。
【0104】
従って、本発明は、拡張可能なバイオ粒子の出力ネットワークモデルを構築するための、コンピュータによって実行されるプロセスを提供する。本プロセスは、(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、(b)コンピュータによって実行される、ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)コンピュータによって実行される、特定されたネットワークモデルに対する生化学的要求量を列挙するように該データセットを変更するステップを含み、且つ(d)コンピュータによって実行される、該変更されたデータセットを、連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを含み、列挙された生化学的要求量は、バイオ粒子のネットワークモデルの表現型出力を規定する集合反応物要求量フラックスに対応する。
【0105】
ネットワーク反応構成要素のデータ構造へのシステム内反応及び交換反応の追加がいったん完了すれば、本プロセスは、ネットワークのギャップ又は他の巨視的必要量欠乏を同定するための試験が実行されるステップ460に移ることができる。これは主として、反応物を産生することができるがそれを消費することができないか若しくは反応物を消費することができるがそれを産生することができない、ネットワーク内のギャップ又は「デッドエンド」の所在を確認する試験を含む。これらのギャップの判定は、反応索引の適切な照会によって容易に計算することができ、シミュレーション戦略の使用を求める必要はないが、シミュレーション解析は、そのような代謝産物の所在を確認するための可能な手法である。反応ネットワークモデル内のギャップは、モデル内の反応物の各々を調査し、モデル内の反応によってそれらが消費されることができ、且つ産生されることができるかどうかを判定することによって同定することができる。ギャップ解析は、全ての反応が不可逆性である場合に、各反応物に対して、それが反応物として1回のみ発生するか又は基質若しくは産物のみとして複数回発生するかを決定するアルゴリズムを用いて達成される。これらの基準のうちのいずれかが満たされる場合、その反応物は、巨視的必要量欠乏としてグラフィカルユーザインターフェースに表示される。次いで、ユーザは、そのギャップを受容べきかどうかに関して照会を受ける。次いで、ユーザは、反応構成要素をネットワークに加えるか、又はそれから除去して巨視的必要量欠乏を解消し、それにより改善機能を有するネットワーク反応構成要素を組み込むかを決定することができる。或いは、ネットワークモデルを用いて実行することになるシミュレーションに非有意な影響を有すると判断される場合、又はシミュレーションにおいて欠乏の影響が判断されることになる場合、ユーザは、巨視的必要量欠乏をそのままにしておくことができる。
【0106】
ネットワークモデルの連結性及び流れの能力を増強することのできる改善機能を有するネットワーク反応構成要素は、上に記載したコンピュータによって実行されるプロセスにおいてネットワークモデルと対話するユーザによって同定されることができる。コンピュータによって実行されるプロセスは、改善機能を有するネットワーク反応構成要素を自動的に同定することもできる。従って、巨視的必要量欠乏を同定するアルゴリズムは更に、候補反応構成要素のリストから欠乏を満たす1つ又はそれ以上の反応構成要素を選択するために、ユーザに照会することができる。巨視的必要量欠乏が産生されるが消費されない反応物をもたらす場合、汎用反応データベースから、該反応物を消費する反応を、改善機能を有するネットワーク反応構成要素の候補として提案することができる。或いは、巨視的必要量欠乏が消費されるが産生されない反応物をもたらす場合、汎用反応データベースから、該反応物を産生する反応を改善機能を有するネットワーク反応構成要素の候補として提案することができる。
【0107】
代替的に、本コンピュータによって実行されるプロセスは、改善機能を有するネットワーク反応構成要素を自動的に組み込むことができる。自動的組み込みは、候補反応構成要素がネットワークモデル内で試験され、ギャップ解析が実行され、候補反応構成要素がネットワークモデルの連結性及び流れの能力を増強する場合にはそれが包含され、候補反応構成要素がネットワークモデルの連結性及び流れの能力を増強しない場合には別の候補反応が試験される反復プロセスによって達成することができる。この反復プロセスは、ネットワークモデルの連結性及び流れの能力を増強する少なくとも1つの反応が同定されるまで反復することができる。1つより多い反応がネットワークモデルの連結性及び流れの能力を増強することができる場合、選択を行うためにユーザが照会を受けることができるか、又は、それらの反応が他のネットワークモデル内での発生において有する信頼度若しくは該反応のうちの1つをコード化すると推定されるとの注釈が付けられたORFが遺伝子データベース内に存在することのような基準に基づいて、選択を自動的に行うことができる。
【0108】
従って、本発明のプロセスは、巨視的必要量欠乏を満たす同定された反応構成要素をネットワークモデルの構造的アーキテクチャに組み込むステップを含むことができ、この組み込みによって、ネットワークモデルの連結性及び流れが補完される。例えば、本発明のプロセスは、(a)ネットワークモデルの構造的アーキテクチャにおける巨視的必要量欠乏を満たすネットワーク反応構成要素の発生を判定するステップと、(b)巨視的必要量欠乏を満たす同定されたネットワーク反応構成要素をデータ構造内に組み込んでネットワークモデルの連結性及び流れを補完するステップとを含むことができる。
【0109】
図5に示すように、ネットワーク反応構成要素のデータ構造を構築するプロセスは、データ構造内に包含された反応に対する信頼度を導入するステップ470を含むことができる。信頼度の導入は、モデルの特定性を高め、且つモデルの内容に対する品質管理及び説明責任を維持する利点を提供する。従って、反応がモデルに加えられる理由又はモデルから削除される理由は、モデル開発者によって、同時に、後日に、若しくは他のユーザによって決定することができる。更に、モデル内に反応を包含することに対する証拠又は理由のリスト化を維持することができる。
【0110】
モデルの反応の内容に注釈を付けるステップは、例えば、モデル構築サイクル全体にわたって継続する動的活動であることができ、且つモデル構築のいずれの段階においても実行することができる。反応が最初に加えられる際に、モデル開発者のようなユーザは、情報レベルを示し、且つ参照を提供することができる。或いは、ユーザは、改版されたモデル内に包含すべき実質的に全ての反応の登録後、アノテーションの詳細を加えることができる。
【0111】
一実施形態では、モデル内への反応の包含に際してモデル開発者が有する信頼を反映するために、ネットワーク反応構成要素のデータ構造内に包含された各反応に注釈がつけられる。信頼度は、利用可能なデータに対応する量と形態の関数である。このデータは、刊行文献、文書化された実験結果、又はコンピュータによる解析結果を含む様々な形態をとることができる。
【0112】
ネットワーク反応構成要素の関連性を記述するネットワークモデルを構築する過程において、通常は蓄積されて評価されることになるデータの種類は、例えば、生化学的データ、遺伝子データ、ゲノムデータ、生理学的データ、及びモデル化データを含む。生物学的データは、しばしばどの生体分子がある反応及び該反応の化学量論と関連しているかを直接的に示すか又は細胞エキス内で発生している反応の存在を間接的に実証する、実験に基づいた化学反応の特徴付けに関連する情報を含む。遺伝子データは、生化学的事象を実行する際に関与する特定の生体分子をコード化する遺伝子の実験に基づいた同定及び遺伝的特徴付けに関連する情報を含む。ゲノムデータは、コンピュータによる配列解析を通じたオープンリーディングフレーム及び機能別役割の同定に関連する情報を含み、該情報はその後、反応を実行する生体分子にリンクされる。生理学的データは、例えば転座を含む特定の生化学的事象の存在を推測するために用いられる化合物の同化又は異化の証拠を提供する細胞生理学全体、適応度特性、基質利用、及び表現型発現結果に関連する情報を含む。モデル化データは、コンピュータ内モデル化の過程を通じて生成された情報を含み、該情報によって、反応が巨視的必要量欠乏を満たすために必要であるかどうかといった反応の状態に関する予測がもたらされる。
【0113】
上述したデータ要素のような、関連付けによってネットワーク反応構成要素のデータ構造内に組み込むことができる異なる形態のデータ要素は、反応に付与されることになる信頼度の決定に向けて、それらの重要度の観点からランク付けを行うことができる。最も高度な情報内容から最も低い情報内容までの例示的なランク付け順位は、生化学的情報内容、遺伝子に関する情報内容、ゲノムに関する情報内容、生理学的情報内容、及びモデル化の証拠に関する情報内容の順である。
【0114】
各種類のデータ要素又はデータセットの中に、構築することのできる更なる階層があり、該階層によってデータの品質全体を決定し、特定の形態のデータが信頼性を全く提供しない、低レベル、中レベル、又は高レベルの信頼度を提供するという評価を導くことができる。従って、信頼度は、階層的分類から決定することができる。ある反応がネットワークモデル内に包含されるか否かは、階層内の相対的信頼度に基づいて決定することができる。例えば、集合的に、階層的情報レベルは、モデル内の反応に対する総合的信頼度を発見的に決定するために用いることができる。同様の信頼性尺度を、単に反応だけに留まらず、他のモデル内容に対しても用いることができるであろう。
【0115】
5つの関連する情報の種類の各々に対して情報が収集されたか否かに応じ、また情報が収集された場合、反応に関してデータが保持する有意性のレベル、有意性なし、有意性が低い、有意性が中程度、又は有意性が高いという点数を付与することができる。各反応割り当てに対し、テキスト注釈形式の付加的アノテーション情報及び収集された関連参照のリストを添付することができる。これらのアノテーション、添付参照、及びデータ源の各々に関連付けられた証拠のレベルが集合的に、反応評価の詳細を構成する。
【0116】
本発明のプロセスは、発見的論理決定アルゴリズムを実行するステップを含むことができ、該アルゴリズムが信頼度をが決定し、ネットワーク反応構成要素は、それを有して特定のモデル内に包含される。データ構造内への特定の反応の包含に対する総合的反応信頼度は、上に記載した5つのカテゴリの各々において獲得された情報に対する点数を評価する発見的アルゴリズムを用いて決定することができる。一実施形態では、総合的信頼度は、ある尺度上で1から5の範囲にわたることができ、該尺度上では、レベル1は、その反応が証拠を有しない純理論的なものであることを意味し、レベル2は、その反応が中程度の証拠によって支持されていることを意味し、レベル3は、その反応がかなりの量の証拠によって支持されていることを意味し、レベル4は、その反応が豊富な証拠を有しており確度が高いことを意味し、レベル5は、その反応が確実に発生し且つ検証済みであることを意味する。これらのレベルは例示的なものであり、本発明の特定の用途に適合させるためにより多い数又はより少ない数のレベルを含めることができることを理解されたい。信頼度を決定するための例示的な発見的アルゴリズムを例IIにおいて説明する。
【0117】
これらの評価水準は、モデルのユーザが調査それらをすることができるように、又は、モデルの反応内容を評価する際に、コンピュータによるプロセスに従ってそれらを行うことができるように、出力として提供される。従って、信頼度は、モデルのユーザが反応割り当てにおける信頼性を迅速に評価することができるか、又は特定の信頼度で記載された反応のグループを同定することができるアノテーションを提供する。特定の反応を更に調査する必要がある場合、ユーザは、反応評価の詳細を詳しく調査するためのアクセスを許可されることができる。別の実施形態では、信頼度は、ネットワークモデル内へのネットワーク反応構成要素の包含又はネットワークモデルからの除外を自動的に決定するための基準を提供することができる。例えば、ユーザは、ある閾値を決定することができ、これにより、該閾値に比較してより大きい信頼を付与された反応は、ネットワークモデル内に自動的に包含され、一方、より低い信頼度が付与された反応は、モデルから除外される。
【0118】
ネットワーク反応構成要素のデータ構造を構築するプロセスは、シミュレーションを可能にするのに十分なネットワークモデル構成要素がしかるべく配備されたかどうかを決定するためにシミュレーション前の妥当性確認試験が実行されるステップ480を含むことができる。モデルの妥当性確認報告を表示し、モデルの内容の総括を提供することができる。シミュレーション及び改版のためにモデルを使用する前に、この報告を綿密に調べることができる。妥当性確認報告に含めることができる情報の例は、モデル内への包含又はモデルからの除外に対する評価がなされていないORF、「仮定的」、「未知の」、又は「なし」が機能アノテーションに含まれたモデル内に包含されたORF、入力/出力交換反応がモデル内に包含されていない細胞外反応物又は反応ネットワーク内の巨視的必要量欠乏がある。表示された報告に基づいて、ユーザは、関連するネットワークモデルを変更すべきか否かを決定することができる。
【0119】
本発明のコンピュータによって実行されるプロセスは、その数学的記述に基づいてネットワークモデルの表現型出力を計算するステップを更に含むことができる。表現型出力は、例えば、Schillingら、J.Theor.Bio.203:229−248(2000)、Schillingら、Biotech.Bioeng.71:286−306(2000)、Schillingら、Biotech.Prog.15:288−295(1999)、Varma及びPalsson、Biotech.Bioeng.12:994−998(1994)に記載されている、フラックスバランス解析に対する当業界で既知の方法を用いた数学的記述に基づいて計算することができる。簡潔に述べれば、マトリックス又は線型方程式のシステムのような数学的記述を解いて、質量、エネルギー、又は酸化還元のバランス制約に違反しない定常状態の代謝フラックス分布のセットを定義するゼロ空間を算出することができる。この空間内の1点が、そのネットワークに関するモデルフラックス分布、従って表現型出力を表現する。全ての解のセット内の最適解は、指定された目的及び制約セットが与えられた場合に数学的最適化方法を用いて求めることができる。任意の解の計算が、モデルのシミュレーションを構成する。
【0120】
本発明は、バイオ粒子のネットワークモデルを自己最適化するためのコンピュータによって実行されるプロセスを提供する。本プロセスは、(a)コンピュータによって実行される、バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素のデータベースにアクセスするステップを含み、(b)コンピュータによって実行される、ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するステップを含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)コンピュータによって実行される、該データセットを連結性及び流れのネットワークモデルを規定する反応物フラックスの数学的記述に変換するステップを含み、(d)コンピュータによって実行される、ネットワークモデル内の連結性及び流れの能力を判定するステップを含み、該能力によってネットワークモデルのネットワーク反応構成要素の過少包含又は過剰包含が指摘され、且つ(e)コンピュータによって実行される、ネットワークモデルの能力を増強することができる改善機能を有するネットワーク反応構成要素を同定するステップを含み、データ構造内への該改善機能を有するネットワーク反応構成要素の組み込みによって、最適化されたバイオ粒子のネットワークモデルを特定する修正されたデータ構造が生成される。
【0121】
図2を参照すると、モデル構築プロセスは、予備シミュレーション試験及びモデル内容改良のステップ500を含むことができる。このステップで、一連の機能試験を既存のモデルに対して行い、それが所要のバイオマス成分を生成する能力及びモデル化中の特定の生物系の基本的な生理学的特性に関する予測を生成する能力のような基本的要件を実行することができるかどうかを判定することができる。典型的には、構築のこの段階で用いられるシミュレーションの大部分は、以下に更に詳細に記載する単独最適化となる。集合要求量反応を目的関数として用いる能力を調べるためにネットワークモデルを用いる前に、モデルは、通常、それが個々の構成要素の各々を生成することができることを判定するために試験される。一例を挙げれば、増殖をシミュレートするために集合フラックスが用いられる前に、モデルは、モデルの反応及び入力を通じて全てのアミノ酸を生成することができるかどうかを判定するために試験される。従って、予備シミュレーション試験は、適切な単一の要求量交換反応を目的として選択し、広範囲のあり得る条件下で反応物の産生に対して最適化することにより、ネットワークが個々の反応物を産生する試験を含む。代謝産物を作ることができない場合は、増殖のような所望の表現型特性をシミュレートすることができるまでモデルに対して変更を行うことができる。
【0122】
モデルの内容及び予備シミュレーション試験の結果の再検討後、ステップ600において、ネットワークモデルを改版すべきか否かに関して決定を行うことができる。改版するのに十分な完成度をモデルが有していない場合、ステップ500、又は必要な場合、本プロセスの別のステップに戻ることにより、本プロセスが反復される。従って、モデル構築は、所望のモデルが得られるまで本プロセスのステップが繰り返される反復的方法で実行することができる。ネットワークモデルが十分に完成しているといったん決定されれば、本プロセスは、モデルが改版されるステップ700に進む。反復的構築により、コンピュータ内モデルの継続的改善及び改良がもたらされる。
【0123】
モデルのバージョンに対して変更を行うには、変更対象のモデルバージョンを基にしてモデルの新しいオープンエディションを作成することができる。いったんモデルが改版されれば、通常それは新版を作成することなく変更されることはない。これは、ネットワーク反応構成要素のデータ構造内の反応及びそれらの生体分子並びに遺伝子に対する関連付けに対する変更及び信頼度及び参照のような反応特性の詳細に対する変更を含む。
【0124】
本発明は、拡張可能なバイオ粒子の表現型出力ネットワークモデルを構築するためのシステムを提供する。本システムは、(a)バイオ粒子ゲノムのオープンリーディングフレーム(ORF)注釈付きネットワークセットを含むネットワーク遺伝子構成要素の入力済みデータセットを含み、(b)ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成する実行可能な命令を含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)特定のネットワークモデルに対する生化学的要求量を列挙するように該データセットを変更する実行可能な命令を含み、且つ(d)変更されたデータセットに基づいて連結性及び流れのネットワークモデルを規定する反応物フラックスを数学的に記述する実行可能な命令を含み、列挙された生化学的要求量は、バイオ粒子のネットワークモデルの表現型出力を規定する集合反応物要求量フラックスに対応する。
【0125】
本発明は、拡張可能なバイオ粒子の表現型出力ネットワークモデルを構築するシステムを更に提供する。本システムは、(a)バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素の入力済みデータセットを含み、(b)ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成する実行可能な命令を含み、該データ構造によって、ネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)ネットワークモデルの構造的アーキテクチャにおける巨視的必要量欠乏を満たす反応構成要素の発生を判定する実行可能な命令を含み、データ構造内の巨視的必要量欠乏を満たす同定された反応構成要素の包含によってネットワークモデルの連結性及び流れが補完され、(d)データ構造内のネットワーク反応構成要素の信頼性を判定する発見的論理決定アルゴリズムを含み、且つ(e)データセットに基づいて連結性及び流れのネットワークモデルを規定する反応物フラックスを数学的に記述する実行可能な命令を含み、該数学的記述によって拡張可能なバイオ粒子の出力ネットワークモデルが定義される。
【0126】
本発明は、自己最適化機能を有するバイオ粒子のネットワークモデルを構築するシステムを提供する。本システムは、(a)バイオ粒子ゲノムのオープンリーディングフレーム(ORF)の注釈付きネットワークセットを含むネットワーク遺伝子構成要素の入力済みデータセットを含み、(b)ネットワーク遺伝子構成要素をネットワーク反応構成要素と関連付けるデータ構造を形成するための実行可能な命令を含み、該データ構造によってネットワーク反応構成要素の連結性及び流れのネットワークモデルを特定するデータセットが確立され、(c)該データセットに基づいて連結性及び流れのネットワークモデルを規定する反応物フラックスを数学的に記述するための実行可能な命令を含み、(d)ネットワークモデル内の連結性及び流れの能力を計算する実行可能な命令を含み、該能力によって、ネットワークモデルのネットワーク反応構成要素の過少包含又は過剰包含が指摘され、且つ(e)ネットワークモデル内の連結性及び流れの能力を増強するための実行可能な命令を含み、該実行可能な命令は、改善機能を有するネットワーク反応構成要素の包含又は除外を特定し、該改善機能を有するネットワーク反応構成要素のデータ構造内への組み込みによって、最適化されたバイオ粒子のネットワークモデルを特定する修正されたデータ構造が生成される。
【0127】
本発明のコンピュータシステムは、ネットワークモデルを作成し且つ使用することに関連する種々の機能を有する1つ又はそれ以上のユースケースを含む幾つかの別個のモジュールを含むことができる。本システムに包含することができる1つ又はそれ以上のモジュールは、例えば、汎用データ管理モジュール、モデル構築モジュール、アトラス管理モジュール、シミュレーションモジュール、データマイニング、実験データモジュール、遺伝子配列解析モジュール、又はこれらのモジュールの任意の組み合わせを含む。本発明の幾つかのコンピュータによって実行されるプロセスを、これらのモジュールを参照して以下に説明する。当業者は、これらのモジュールは以下に記載する情報を組織化し且つ管理するための特定の利点を提供するが、本発明のコンピュータによって実行されるステップは、これらのモジュールのいずれか又は全てを有していても、有していなくても実行することができることがわかるであろう。
【0128】
ネットワーク遺伝子構成要素は、遺伝子索引に格納し、且つデータ要素及びデータセットに分割することができ、該データ要素及びデータセットは各々、名称又はゲノムの位置、並びに、例えば遺伝子の一次配列若しくは遺伝子の構造若しくは機能を説明したアノテーションのような構造上の情報を含む他の情報を有する特定の遺伝子を同定する情報を含む。データ要素は、あるネットワーク遺伝子構成要素がアクセスを受けるか又はデータ構造内に包含される際に、例えばハイパーリンクを用いて該遺伝子に関連する情報が関連付けられるような方法で格納することができる。従って、ネットワーク遺伝子構成要素のデータベースにアクセスするステップは、ネットワーク遺伝子構成要素及び特定のデータ要素内に格納された関連情報へのアクセスを含むことができる。
【0129】
ネットワークモデルが構築されるもととなる情報、又は、例えば遺伝子データベース、反応データベース若しくは化合物データベースを含む既存のネットワークモデルを変更するために用いることができる情報は、汎用データ管理モジュールを用いて管理することができる。汎用データ管理モジュールは、例えば、引用ライブラリを維持するためのユースケース、化合物を維持するためのユースケース、反応を維持するためのユースケース、バイオ粒子固有のデータを維持するためのユースケース、又はこれらのユースケースの2つ若しくはそれ以上の組み合わせを含むことができる。
【0130】
引用ライブラリを維持するためのユースケースは、書籍、論文、雑誌及び新聞のような参照文献をユーザが管理することを可能にする。このユースケースは、第三者ツールを用いて実行することができる。ユーザは、参照をモデルに追加された任意の特定の反応と関連付けることができる。このユースケースは、情報に対応するモデルの一部分として包含することをユーザが所望する可能性のある任意の形態の参照又は引用を追加、削除、若しくは編集する能力を提供することによってユーザと対話する。ユーザは、本システム内に引用を登録し、ユーザがモデル内容のいずれかに参照を付けることを望む任意の時点で選択のために引用を利用できるようにすることができる。
【0131】
化合物データベース、反応データベース又はバイオ粒子固有のデータベースのようなデータベースを維持するためのユースケースは、特定の登録に関連する情報を追加、削除又は編集することによってユーザがその中に格納されたデータ要素にアクセスし且つそれらを編集することを可能にする。そのようなユースケースは、データベースの内容を表示し、ユーザが該データベースに新たな登録を加えること、該データベースから登録を削除すること、又は既存の登録を変更することを可能にすることによってユーザと対話する。化合物データベースの変更は、例えば、化合物の原子組成の変更又は追加、登録に記載された特定の化合物に関する物理的特性のような情報の削除若しくは編集を含むことができる。反応データベースの変更は、例えば、基質及び産物の原子組成、反応の種類、該反応に対する化学量論係数、又は反応に関連する他の情報の変更を含むことができる。バイオ粒子固有のデータベースの変更は、例えば、名称、分類学的情報、特性描写、又は実用化の分野に関する情報の変更を含むことができる。データベースを維持するためのユースケースは、例えば、選択された化合物又は反応をネットワークモデルのデータ構造に関連付ける命令、照会若しくは索引機能を用いてデータベースから化合物又は反応を選択する手段をも提供する。
【0132】
モデル構築モジュールは、本発明のコンピュータシステム内に包含することができる。ネットワークモデルを構築又は生成するための本発明の方法は、モデル構築モジュールにおいて実行することができる。このモジュールは、反応内容、反応を触媒する生体分子又は生体分子のセットの特性、及び生体分子をコード化する核酸に関する情報を管理するためのユースケースを提供する。モデル構築モジュールは、最初の組み立てから反復的モデル構築、予備試験及び改版まで、モデルの構築並びに変更のいずれの段階に対しても用いることができる。モデル構築モジュールは、例えば、遺伝子索引をダウンロードするためのユースケース、遺伝子索引を維持するためのユースケース、モデル内容を維持するためのユースケース、遺伝子索引を評価するためのユースケース、反応索引を維持するためのユースケース、モデル再構築のためのユースケース、交換反応を維持するためのユースケース、モデルの構造及び内容の妥当性を確認するためのユースケース、モデルの試験データを収集するためのユースケース、モデルの試験を行うためのユースケース、モデルを改版するためのユースケース、領域に反応を割り当てるためのユースケース、又はこれらのユースケースの2つ若しくはそれ以上の組み合わせを含むことができる。
【0133】
モデル内容を維持するためのユースケースは、特定のバイオ粒子又は生物系用のモデル版の内容にユーザがアクセスし且つそれを変更することを可能にする。このユースケースは、ネットワークモデルのデータ構造、関連情報のデータベース及び関連図への同時アクセスを提供することによってユーザと対話する。関連図は、遺伝子、それらがコード化する生体分子及びネットワークモデルのデータ構造内の生体分子によって触媒又は実行される反応の間の関連付けの表示である。例示的な関連図を図7に示す。
【0134】
関連図は、ユーザによって送信されたネットワークモデルのデータ構造内容を追加、除去又は他の方法で変更せよという命令に応答して更新される。従って、関連図は、ネットワークモデルのデータ構造の遺伝子レベル、生体分子レベル、又は反応レベルにおける変更実施の効果を評価するための好都合な視覚化ツールとなる。一例を挙げれば、全てが活動を必要とされ且つ各々が異なる遺伝子から圧出された複数のサブユニットを有する生体分子触媒がある。モデル構築中の遺伝子−生体分子−反応の関連付けの視覚的評価は、特定の反応を実行するために必要な遺伝子の総定数をユーザが容易に同定することを可能にすることができる。従って、データ構造内への包含に対して遺伝子索引からいずれか1つの遺伝子がいったん選択されれば、ユーザは、反応を実行するのに必要な遺伝子一式を迅速に同定することができる。更に、複数のデータへの同時アクセスが提供されるため、同定された情報をユーザに対して表示することができ、ユーザは、表示された情報の評価に基づいてデータ構造を変更することができる。
【0135】
モデル内容を維持するためのユースケースは、その名称、説明及び注釈といったモデル版の属性にアクセスし且つ変更するための命令をも含むことができる。閲覧し且つ変更することのできるモデル版の内容は、遺伝子索引、蛋白質索引、反応索引及び関連参照、交換反応、並びにネットワークギャップを含む。このユースケースは、新たなモデル版を作成し、その名称、説明及び注釈といった版の特性を変更するアルゴリズムをも提供する。
【0136】
遺伝子索引は、モデル構築モジュールを用いて管理することができる。遺伝子索引をダウンロードするためのユースケースは、外部の第三者ソフトウェアによって生成された遺伝子索引又は外部のデータベースからダウンロードされた遺伝子索引をユーザが本発明のコンピュータシステム内にロードすることを可能にする。遺伝子索引は、テキストファイルとして、又はスプレッドシートとしてダウンロードし、適したスクリプトを用いて所望の形式に変換することができる。
【0137】
遺伝子索引を維持するためのユースケースは、ユーザが遺伝子索引に格納されたデータにアクセスし、且つデータの内容を編集することを可能にする。このユースケースは、遺伝子索引の内容を表示し、例えば、個々のオープンリーディングフレーム又はゲノム内の遺伝子に対してなされたアノテーション及び機能割り当てを変更する手段を提供することによってユーザと対話する。遺伝子は、このユースケースを用いて、遺伝子索引に加えるか、又は遺伝子索引から削除することができる。
【0138】
遺伝子索引を評価するためのユースケースは、ユーザが特定の生体系に関する遺伝子索引を評価し、モデル版に包含すべき遺伝子を決定することを可能にする。このユースケースは、遺伝子又はORFをモデル版への包含に対して評価することができるように遺伝子索引の内容を表示することによってユーザと対話する。ユーザは、遺伝子又はORFをモデルから削除せよという命令又は遺伝子若しくはORFをモデルに包含せよという命令を送信することができる。このユースケースは更に、遺伝子、生体分子及び反応間の関連を指摘するようにユーザに促す。
【0139】
反応索引を維持するためのユースケースは、モデル版に包含された反応をユーザが管理することを可能にする。このユースケースは、反応索引の内容を表示し、反応索引に反応を加える手段、反応索引から反応を削除する手段、反応と関連づけられた引用ライブラリに参照を加える手段、引用ライブラリから参照を除去する手段、又は引用ライブラリで参照を閲覧する手段、反応をサブシステムに割り当てる手段、反応に信頼度を加える手段、若しくは反応に関する登録に注釈を付ける手段を提供することによってユーザと対話する。
【0140】
モデル再構築のためのユースケースは、ユーザが巨視的必要量欠乏又は経路構造内のギャップが存在するネットワークモデル内の位置を特定することを可能にする。このユースケースは、ネットワーク内で消費されるのみか又は産生されるのみである反応物の所在確認を行うギャップ解析アルゴリズムを起動する能力を提供することによってユーザと対話する。次いで、本システムは、そのような代謝産物のリストを、それらが消費されるのみであるかどうか、又は産生されるのみであるかどうかに関する情報と共に、ユーザに対して表示する。ユーザは、これらの巨視的必要量欠乏を調査及び評価し、反応のネットワークへの追加又はネットワークからの除去によってギャップを解消するために何らかの挙動をとるべきか否かを決定することができる。ユーザは、繰り返して反応を追加又は削除し、ギャップ解析アルゴリズムに戻り、ギャップがなお存在するかどうかを判定することができる。更に、本ユースケースは、同定された巨視的必要量欠乏を満たすことができるかもしれない候補反応を表示することができる。巨視的必要量欠乏を同定し、反応構成要素を追加して該欠乏を満たす例示的なプロセスを例IIIに示す。
【0141】
交換反応を維持するためのユースケースは、ユーザがモデル編集と関連する交換反応を管理することを可能にする。このユースケースは、反応索引へのアクセスを提供し、ユーザが反応を入力交換反応、出力交換反応又は要求量交換反応として同定することを可能にすることによってユーザと対話する。更に、ユーザは、このユースケースによって、集合要求量反応を生成、削除又は変更することができる。
【0142】
システム内反応は、交換反応が別個のユースケースによって管理されている間に、モデル内容を維持するためのユースケースによって管理することができる。システム内反応構成要素は、バイオ粒子内で発生する真の生化学反応を表現しており、且つバイオ粒子内の遺伝子と潜在的に関連付けられている。従って、これらの反応には、遺伝子、蛋白質、及び反応間の関連付けが割り当てられている。通常、これらの反応は、原子的及び電気に平衡化されている。更に、信頼度は、これらの反応に対してのみ付与され、交換反応には付与されない。
【0143】
ネットワークモデルに包含された反応において生じる細胞外代謝産物の所在を自動的に確認するアルゴリズムを、交換反応ブラウザを維持するためのユースケースに包含することができる。そのようなアルゴリズム又は任意の他の手段によって同定された細胞外代謝産物は、入力交換反応若しくは出力交換反応の生成のために用いることができる。更に、交換反応を維持するためのユースケースは、バイオマス成分又は他の生化学的要求の所在確認を行い、バイオマス要求量交換反応の包含の可能性に対してそれらを提示するアルゴリズムを含むことができる。交換反応は、ユーザがネットワークモデルに包含すべき反応を評価し、選択することができるように表示することができる。従って、交換反応ブラウザは、ユーザがネットワークモデルから反応を除外するための命令又は汎用反応データベースにまだ存在しない反応を手動で包含するための命令を出す手段を提供する。ネットワークモデルに加えられた反応は、反応データベースに自動的に加えられることになり、且つ反応物は化合物データベースに追加されることになる。
【0144】
モデルの構造及び内容の妥当性を確認するためのユースケースは、改版する前に、モデル版の構造及び内容が特定の所望の仕様を満たしているかどうかをユーザが決定することを可能にする。これは、モデルを有効であるとみなすための幾つかの基本的構造解析の完成及び幾つかの基本的シミュレーションの実行を含む。このユースケースは、一連の妥当性確認試験又はモデルの内容に関する照会を実行し、結果報告をユーザに戻すことによってユーザと対話する。次いで、ユーザは、これらの結果を閲覧することができ、有意な問題が同定されていない場合、モデルはシミュレーションのために用いることができ、所望であれば改版することができる。
【0145】
モデルの試験を実行するためのユースケースは、ユーザがモデルの内容を改良することを可能にする。この段階で、既存のモデルに対して一連の機能試験が実施され、所要のバイオマス成分を産生する能力及びモデル化されている特定の生体系の基本的生理学的特徴に関する予測を生成する能力のような基本的要件をモデルが実行することができるかどうかが決定される。ユーザは、モデル上でシミュレーションを実行することによってこのユースケースと対話する。これらのシミュレーションの結果に基づいて、ユーザは、モデルの内容に対する変更を行うことができる。一般に、構築のこの段階で用いられるシミュレーションは、単独最適化である。
【0146】
モデルを改版するためのユースケースは、ユーザがモデルのオープンエディションを改版することを可能にする。このユースケースは、ユーザによって与えられた命令に応答してネットワークモデルのオープンエディションを改版版として保存することによってユーザと対話する。ネットワークモデルの改版版は、そのモデル版を更に変更することができないようにして保存される。ユーザが割り当てる版番号は、系統専用モデルの版の各々に付与される。
【0147】
ネットワークモデル内の他の構成要素に関連する反応を割り当てるか又は関連付けるためのユースケースは、ある反応が特定の代謝経路内のようなネットワーク内の反応の特定のサブセットに加わっていると同定することを可能にする。ネットワーク構造内又は反応データベース内の反応は、例えば、伝統に従って同定された代謝経路(解糖、アミノ酸代謝など)に基づいた細分、又は反応を組み込むか若しくは操作するモデルの操作を容易にする数学的基準或いは計算基準に基づいた細分のような生化学的基準又は生物学的基準に基づいて細分することができる。反応データベースを細分する方法及び基準は、Schillingら、J.Theor.Biol.203:249−283(2000)に更に詳細に説明されている。サブシステムの利用は、末梢経路解析のような幾つかの解析方法に対して好都合である可能性があり、モデル内容の管理をより容易にすることができる。このユースケースは、ネットワークモデルのデータ構造の内容を表示し、ユーザがある反応を選択して該選択した反応をサブシステムに割り当てることを可能にすることによってユーザと対話する。
【0148】
制約テンプレートを維持するためのユースケースは、ユーザが特定の共通する粒子内条件又は環境条件を定めるデータ要素の代表セットを維持することを可能にする。一例は、グルコースに対する好気性増殖条件を表現するための制約テンプレートである。ユーザは、シミュレーションを実行するために用いる制約のベースラインセットとして制約テンプレートを選択することによってこのユースケースと対話する。制約テンプレートは、前回のシミュレーションから導出してもよい。これにより、前回のシミュレーションにおいて同一のモデルに対して用いられた新たなシミュレーションに配置された制約の全てを再入力するのに要するユーザの時間を節約する。
【0149】
ネットワークモデルの内容は、ネットワーク内に存在する反応又はフラックスの連結性を示す地図で閲覧するか若しくは表現することもできる。この地図は、例えば、二次元地図、三次元地図又は多次元地図、図表及び地図帳を含む種々の異なる形式で出力することができる。従って、本発明は、ネットワークモデルの全て又は一部分に包含された反応の地図を表示するためのアルゴリズムを提供する。ユーザは、地図上に表示すべき反応を選択することによって地図を設計することができる。通常、反応は、反応物の各々をノードとして示し、これらの反応物を連結する反応を矢印として示して表示される。その後、ユーザは、精通したレイアウトでこれらの反応を地図上に配置してもよく、或いは、グラフの自動レイアウト用にうまく構築されたアルゴリズムに基づいて地図レイアウトを自動的に生成させる選択をしてもよい。代替的に、反応の各々がノードによって示され、一方で代謝産物が2つのノードを連結する矢印によって表現される逆地図も設計することができる。逆地図は、代謝反応ネットワークを閲覧する別の方法であり、ネットワーク機能の視覚化に対して利点を提供することができる。
【0150】
地図は、1回またはそれ以上のシミュレーションの結果に基づいて、ネットワークの反応を通じたネットワーク構成要素、生化学的要求量、又は総要求量のフラックスを示すように更に向上させることができる。フラックスの方向は、矢印又は反応物間の画像の明瞭な方向性を有する移動によって表現することができる。ネットワークの反応を通じたフラックスの量は、例えば反応矢印の相対的な幅によって地図内に表現することができ、該矢印において、矢印の幅の勾配はフラックスの量と相関し、色の勾配はフラックスの相対量を有すスペクトルの色又は画像の明瞭な方向性を有する移動が反応物間において発生する速度と相関する。
【0151】
反応を該反応を実行する生体分子又は生体分子をコード化する遺伝子と関連付ける地図を表示する手段も提供する。地図は、反応、生体分子及び遺伝子を更に関連付けることができる。
【0152】
地図帳管理モジュールは、本発明のコンピュータシステム内に包含することができ、該地図帳管理モジュールを用いて、ネットワーク地図を管理し、且つそれらを地図帳と呼ばれる収集物に編成することができる。地図帳は、1種類またはそれ以上の生物にわたる反応を包含することのできる地図の収集物である。地図帳管理モジュールは、地図帳及び地図を管理するためのユースケース、地図を設計するためのユースケース、及び地図を閲覧し且つ試験するためのユースケースを含むことができる。
【0153】
地図帳及び地図を管理するためのユースケースは、ユーザが地図を地図帳に編成することを可能にし、かつユーザが地図及び地図帳を生成又は削除することを可能にする。このユースケースは、ユーザが特定の地図帳内にある地図の収集物に追加、削除、又は変更を行うことができるように地図のリストを表示することによってユーザと対話する。更に、ユーザは、新たな地図の効率的生成のために地図帳又は地図をコピーすることによってこのユースケースと対話することができる。
【0154】
地図帳及び地図を管理するためのユースケースは、地図帳内の別個の要素又はフォルダに含まれた地図の地図帳へのアクセスを提供する。各バイオ粒子又は生物系は、シミュレーションが特定のモデルにおいて実行される際に適切な地図が最初に表示されるように、初期設定の地図又は地図のセットと相関させることができる。しかしながら、地図自体は、モデルにリンクされる必要はない。従って、本発明のコンピュータシステムは、地図が生成されたもととなった生物に関係なく、任意の地図をロードし、該地図上で任意のシミュレーション結果を閲覧する手段を提供する。この機能性が、同一のモデル又は異なるモデルからの複数のシミュレーション結果の同一の地図上での比較を可能にする。カラースケールは、同一の地図上に表示された場合に、異なるシミュレーションから得られた異なるパラメータ値を表現するために用いることができる。
【0155】
地図を設計するためのユースケースは、ユーザがネットワークモデルの地図を設計することを可能にする。これらの地図は、モデル内に包含された反応及びそれらの互いとの連結の方法の観点からモデルの内容を評価するための好都合な視覚的ツールとなる。これは、プリン生合成のような個々の経路の地図からアミノ酸代謝のようなより大きい領域まで様々なレベルの詳細のいずれのレベルのネットワークモデルも表現する地図を、また実質的に完全な細胞代謝のシステム地図でさえもユーザが設計することを可能にする製図及び設計のツールである。
【0156】
設計ユースケースは、ネットワークモデルのデータ構造内に包含された反応のリストを表示し、且つ地図内容の図形操作用のキャンバスを提供することによってユーザと対話する。反応を地図に包含せよというユーザからの命令に応答して、本ユースケースは、ネットワークモデルのデータ構造の連結性に従って、該反応を適切な位置に自動的に加えることになる。ユーザは、基質及び産物の位置を変更することによって地図を操作することができ、基質及び産物を連結している矢印は、地図上の新たな位置及びネットワークモデルのデータ構造の連結性と整合性を取って描き直されることになる。同一の代謝産物を表現する共通のデータ要素は、地図内の特定の代謝産物が発生する位置が連結されるか又は他の方法で相関されるか若しくは共通の要素を地図上で別個の状態に維持することができるように結合することができる。更に、このユースケースは、地図に存在する1つ又はそれ以上の反応を可視的若しくは不可視的にレンダリングせよという命令をユーザが送信することを可能にする。
【0157】
設計ユースケースは、地図上に配置された反応を特定のモデル内又はモデル内の領域で発生する反応と比較する解析能力をユーザに提供することができる。地図の視覚的機能は、相互接続線、二次的代謝産物を処理する選択肢、他の地図へのハイパーリンク、数値シミュレーション結果に対するプレースホルダ、又はアノテーションを含むことができる。関心のある代謝産物を選択し且つ該代謝産物が関与する反応の全てを同時に閲覧する能力のような付加的解析機能は、地図上に包含することができる。地図の視覚的機能解析ツールは、ネットワーク内の特定の反応の特性を評価する際に有益な情報データベースへのアクセスを可能にしながら、ネットワーク内の反応の連結性のビューを提供することによって、地図に配置する必要のある反応をユーザが決定するのを支援する。
【0158】
地図は、シミュレーションと実験との間の比較を可能にさせるシミュレーションから得られた結果及び実験データを表示するために用いることができ、シミュレーションと実験との間の比較を可能にする。例えば、遺伝子発現、蛋白質発現、蛋白質−蛋白質相互作用又は反応速度の実験に基づいて決定された結果は、コンピュータ予測フラックス分布と比較することができる。
【0159】
シミュレーションは、シミュレーションモジュールによって実行し且つ管理することができる。このモジュールは、例えば、単独最適化、削除解析、堅牢性解析、位相平面解析又は時間経過解析を含む様々な種類のシミュレーションのためのユースケースを含む。シミュレーションモジュールは、例えば、プロジェクトをロード又は生成するためのユースケース、シミュレーションを管理するためのユースケース、最適化制約条件を定義するためのユースケース、単独最適化を実行するためのユースケース、単独最適化結果を閲覧するためのユースケース、削除解析を実行するためのユースケース、削除解析結果を閲覧するためのユースケース、堅牢性解析を実行するためのユースケース、堅牢性解析の結果を閲覧するためのユースケース、位相平面解析を実行するためのユースケース、位相平面解析の結果を閲覧するためのユースケース、時間経過解析を実行するためのユースケース、時間経過解析の結果を閲覧するためのユースケース、シミュレーション結果を比較するためのユースケース、単独最適化結果と実験結果を比較するためのユースケース、シミュレーション結果をエクスポートするためのユースケース、又はこれらのユースケースの2つ又はそれ以上の組み合わせを含むことができる。
【0160】
シミュレーションは、シミュレーションをそれぞれロード/生成、管理及びエクスポートするためのユースケースを用いて管理することができる。プロジェクトをロード/生成するためのユースケースは、ユーザが科学プロジェクトを生成し、それらをプログラムに割り当てることを可能にする。各プロジェクトは、シミュレーション研究及び特定のバイオ粒子に関連する付加的情報又は多くのバイオ粒子に関連する付加的情報を含むことができる。シミュレーション研究は、個々のシミュレーション及び実験の詳細を含む。プロジェクトをロード/生成するためのユースケースは、入手可能なプロジェクトのリストを表示することによってユーザと対話し、ユーザは、該リストから1つまたはそれ以上のプロジェクトを選択して開くことができる。ユーザは、シミュレーションを管理するためのユースケースを用いてシミュレーション結果又は実験データを編成し、且つそれらに注釈を付けることができる。このユースケースは、ユーザがプロジェクトの名称を変更すること、プロジェクトが属するプログラムを変更すること、又はプロジェクト若しくはプログラムに注釈を付けることを可能にすることによってユーザと対話する。シミュレーション結果をエクスポートするためのユースケースは、結果を第三者のデータ解析ツールによって読むことのできるテキスト区切りファイルのようなファイル形式に変換するために用いることができる。
【0161】
本システムは、最適化制約条件を定義するためのユースケースを含むことができる。LP問題を解くことを要する任意のシミュレーションを実行するためには、ユーザは、ネットワーク内の全ての反応に加えられる制約(上限及び下限)を指定し、且つ目的関数を提供しなければならない。これらの制約が、好気性条件下又は嫌気性条件下における増殖表現型若しくはグルコースを用いた増殖表現型又はグルコースを用いない増殖表現型のような、シミュレートされている条件を定義する。このユースケースは、反応のリスト及び関連する制約を提供することによってユーザと対話し、ユーザは、該反応のリスト及び関連する制約から制約値を閲覧しかつ変更することができる。しばしば、ユーザが継続的に用いることになる共通制約セットがある。ユーザが繰り返し共通制約セットを入力することを要しない限り、本システムは、テンプレートとして定義された事前定義制約セットを特定のモデルに対して保存することができ、ユーザは、該テンプレートから所望のものを選択及びロードすることができる。従って、このユースケースは、事前定義された制約テンプレートを選択し且つロードする選択肢、又は開始条件として用いるために、後で変更して直ちに使用するか若しくは後の使用のために保存することができる前回のシミュレーションからの制約セットを選択する選択肢をユーザに提供する。
【0162】
本システムは、幾つかの最適化のいずれも実行するユースケースを含むことができる。単独最適化を実行するためのユースケースは、1つのLP問題に対する解から求められる代謝資源が経路制御される方法を実証する単一のフラックス分布を計算するために用いられる。削除解析を実行するためのユースケースは、少なくとも1つの遺伝子、少なくとも1つの生体分子、又は少なくとも1つの反応の結果を計算し、各削除ケースに対して複数のLPを実行するために用いられる。堅牢性解析を実行するためのユースケースは、ある範囲内の活動レベルの各々において解かれる一連のLP問題につながる特定の代謝活動を通じた許容された活動を減少させることの影響を評価するために用いられる。位相平面解析を実行するためのユースケースは、パラメータのあらゆる組み合わせに対してLP問題が解かれる複数の反応の活動における変動の関数としてネットワークが表示することのできる特性関数の範囲を計算するために用いられる。時間経過解析を実行するためのユースケースは、LP問題が各時点において解かれるある時間にわたるネットワーク内で発生する一過性の移動を解析するために用いられる。
【0163】
様々なシミュレーションタイプに対するユースケースは、線形計画アルゴリズムへのアクセス及び該線形計画アルゴリズムによる解析対象となるパラメータの選択を可能にする機能を含む。これらの機能は、例えば、ネットワークモデルをロードするメニュー、全ての反応に対して制約条件を設定し且つ目的関数を選択するメニューを含む。シミュレーションタイプユースケースは、特定のシミュレーションに対して選択されたシステム内反応、入力交換反応、出力交換反応、要求量交換反応、及び一時的反応の全てを含む主要な一連のパネルを含むユーザインターフェースを有することができる。反応に対する上限制約及び下限制約は、例えば、ユーザインターフェース上のパネル内に表示された制約を変更することにより、ユーザが指定することができる。更に、ユーザは、任意の反応(細胞増殖、ATP産生、又は特定の酵素的反応のような)が目的関数として設定されるように選択することができる。
【0164】
各々のシミュレーションから得られた結果は、シミュレーションモジュールのユースケースによって閲覧することができる。このユースケースは、単独最適化に対する結果データをユーザが閲覧することを可能にする。いったんシミュレーションの実行が完了すれば、解は、例えば表形式又は地図上を含む、シミュレーション結果を表示するための条件を満たした種々の形式のいずれかでグラフィカルユーザインターフェースに出力することができる。任意の線形計画問題に対して、主問題の解及び双対問題の解の2組の解がある。全ての反応のフラックス値からなる主問題の解及び反応に対する削減された費用並びに代謝産物の潜在価格を含む双対問題の解の両方とも表示することができる。
【0165】
シミュレーション結果を比較するためのユースケースも提供し、複数のシミュレーションから得られた表又はグラフを同時に閲覧するために用いることができる。類似の表形式又はグラフ形式による出力を用いてシミュレーション結果を経験的結果と比較するためのユースケースも提供する。
【0166】
堅牢性解析は、堅牢性解析を実行するためのユースケースを用いて、許容できるフラックスレベルが低減された特定の反応又は反応のセットを選択し、該反応(セット)に対するフラックスでシミュレーションを実行することによって行うことができる。このユースケースから、ユーザは、1つまたはそれ以上の反応を選択し、次いで、該1つまたはそれ以上の反応に一組の制約条件を指定することができ、若しくは、制約条件の漸進的変化が解析対象である場合、制約条件が変更されることになるステップサイズの増大を設定することができる。シミュレーションの結果は、堅牢性解析の結果を閲覧するためのユースケースを用いて表形式又はグラフ形式でグラフィカルユーザインターフェースに出力することができる。
【0167】
位相平面解析は、特定の反応変数及び値範囲に対するユーザ定義パラメータに基づいて位相平面を計算することによって実行することができる。ここでもまた、ユーザは、シミュレーションを実行するための内在する制約条件及び目的値をユースケースから指定する。本システムは、1つのシミュレーションに対して必要とされる単独最適化の全てを実行し、得られた結果は、例えば表形式又はグラフ表示で、閲覧ユースケースを用いて提示される。シミュレーションに続いて潜在価格解析が実行され、ユーザによって指定された特定の反応に対する等傾曲線と共にパラメータ空間内の異なる位相が同定される。全てのシミュレーションタイプユースケースにおけるように、特定の点(又は単独最適化)を選択することができ、本システムは、後の解析のために対応する単独最適化の詳細な解を生成することになる。
【0168】
別のシミュレーションタイプは、一過性の細胞反応をシミュレートするために行われる時間経過解析である。時間経過解析を実行するためのユースケースでは、ユーザは、シミュレーションを開始するためのベースライン制約条件及び初期条件を選択する。細胞外反応物の濃度の変化は、反応物の取り込み/分泌速度、初期濃度、及びユーザによって指定された時間増分の関数として計算される。得られた結果は、時間経過解析結果を閲覧するためのユースケースを用いて、解析におけるパラメータの変更を時間の関数として図示した表又はグラフで閲覧することができる。
【0169】
開発されたモデルの内容を評価する機能を提供するデータマイニングモジュールを包含することができる。必ずしもシミュレーション機能に依存する必要のないモデル内容の簡単な照会によって豊富な知識を導出することができる。データマイニングモジュールは、これらの非シミュレーション関連解析の全てを管理するために利用することができる。これは、様々なモジュール内の反応、蛋白質、及び遺伝子に関して質問する機能を含んでいる。焦点は、特定の1つのモデル又は多くのモデル間の比較に当てることができる。テキストに基づいた、又は地図に基づいた比較及び結果解析を利用することができる。代謝産物の連結性の研究も行うことができる。
【0170】
データマイニングモジュールは、種々のデータベース、モデル又は結果ファイルに格納されたデータを閲覧するための幾つかのユースケースを提供する。地図帳を閲覧するためのユースケースは、ユーザが一組のネットワーク図又はネットワーク地図を通覧することによってネットワークモデルを研究することを可能にする。同様に、モデル内容を閲覧するためのユースケースは、遺伝子、蛋白質及び反応に関連する表形式の情報をブラウズする機能、反応地図上でモデル内容を閲覧する機能、又はグラフ形式の関連図において遺伝子−蛋白質−反応の関連性を閲覧する機能のような機能を用いてモデルの内容をユーザが評価することを可能にする。反応データベース又は化合物データベースは、各々を閲覧するためのユースケースを用いて評価することができる。
【0171】
モデルの全体的内容検索を実行するためのユースケースを包含することができる。それは、反応、蛋白質、及び遺伝子に関して質問する機能を含んでおり、1つのモデル内で検索するか又は全モデルにわたって検索するするかの選択肢を有する。モデルは、モデル内容を比較するためのユースケースを用いて評価することもでき、該ユースケースは、テキストに基づいた又は地図に基づいた比較及び結果解析を用いて多くのモデル間の比較をユーザが生成することを可能にする。
【0172】
モデル内の反応物の連結性は、本発明によって提供されるユースケースを用いて評価することができる。このユースケースは、地図上で反応物の存在を閲覧する機能、表形式又は連結性グラフの形で特定の反応物又はモデルの連結性を閲覧する機能を含んでいる。
【0173】
バイオ粒子の遺伝的内容は、本発明のユースケースを用いて閲覧することができる。このユースケースは、遺伝子索引をブラウズする機能、基本的な遺伝的内容を閲覧する機能又は遺伝子−蛋白質−反応の関連性を閲覧する機能のような機能を含んでいる。
【0174】
幾つかの付加的モジュールも本発明のコンピュータシステム内に包含することができる。これらのモジュールは、例えば、遺伝子発現アレイ、蛋白質発現アレイ、蛋白質−蛋白質相互反応アレイ又は代謝産物プロファイリングのような高度な処理能力を有する実験技術による実験データセットの統合及び解析のための実験データモジュールを含む。このモジュール内で、実験データセットをシミュレーション結果と比較することができ、且つユーザがモデルの内容及びその予測能力の反復改善のために実験によって得られた情報を活かすことを可能にする。実験データモジュールに加えて、遺伝子配列解析モジュールを用いて、モデル構築努力を支援するために用いられる生成された更新遺伝子索引に対してゲノムに注釈を付けるプロセスを管理することができる。代謝技術者がバクテリア内で設計するために求めているかもしれない特定の産生必要条件を満たすためのネットワークモデルを可能にするために、経路設計モジュールも導入することができる。このモジュールは、個々のコンピュータ内モデルを作り上げている代謝ネットワークの構造的側面に焦点を当てた末梢経路の計算及び関連する種類の計算をも可能にする。
【実施例】
【0175】
(例I:遺伝子、蛋白質、及び反応を関連付ける)
この例では、ネットワークモデルの構造及び該ネットワークモデルに対する反応索引について説明する。この例では、選択したORFを蛋白質に関連付け、蛋白質を反応に関連付けるためのユーザのモデル内容ブラウザとの対話を実証する。この例では更に、目的の観点及びデータスキーマからこの情報をモデル化する方法を実証する。
【0176】
反応索引は、遺伝子関連反応と非遺伝子関連反応の両方に対する反応構成要素を含むように構成された。遺伝子関連反応は、以下のように反応索引に追加された。反応索引内の関連付けは、反応を可能にするか若しくは反応を触媒する蛋白質又は酵素に対する反応の既知の関連性又は推定上の関連性及びこれらの蛋白質に関してコード化を行うオープンリーディングフレーム(ORF)に基づいて形成された。関連付けは、反応、反応を可能にしている蛋白質及び蛋白質をコード化するORF間の連結性のような、反応と蛋白質との間、及び蛋白質とORFとの間の関係を捕捉するために形成された。
【0177】
反応索引において形成された関連付けは、ユーザによる見直し及び評価のために表示された。図7の第1のパネルは、1つのORF(b2779)が1つの反応(ENO)を触媒する1つの蛋白質(Eno)をコード化する関連付けの表示を示す。非線形関連付けも形成され、該関連付け内の論理を補足するように表示された。PYRDHに対する非線形関連付けを図7の第2のパネルに示し、該パネルにおいて、b0114及びb0115の両方がAceEF蛋白質をコード化するための必要条件が、「AND」論理演算子によって示されている。形成され且つ表示された別の線形関連付けは、図7の第3のパネルに示すものであり、該パネルにおいて、別個の遺伝子(それぞれb2935及びb2465)によってコード化された2つの蛋白質(Tkt−1及びTkt−2)は、各々、同じ2つの反応(TKT1及びTKT2)を可能にすることができる。図7の第4のパネルは、G3PDH反応がGaPC又はGaPA蛋白質のいずれかによって触媒されることができるための関連付けの表示を示し、前者は2つのORF(b1416及びb1417)によってコード化され、後者は、1つのORF(b1779)によってコード化されている。GaPC及びGaPAアイソザイム間の「OR」関係は、同一の反応に対する複数の線によって表示されている。
【0178】
モデル化関連付けによる図7に示す表示は、ネットワークモデル及びそれを構成する遺伝子レベル、蛋白質レベル、又は反応レベル若しくは3つのレベル全ての組み合わせにおける反応構成要素の評価を可能にした。ネットワークモデルを構築するにあたり、関連付けが評価され、1つのレベルの反応構成要素を別のレベルの反応構成要素に加えること又はそれから除去することの効果が決定された。図7の第3のパネルに示す関連付けを考察することにより、ネットワークモデルからのb2935ORF若しくはb2465ORFの除去はTKT1反応又はTKT2反応を通るフラックスを防止しないことが判定された。図7の第4のパネルに表示された関連図は、b1779ORF若しくはb1416ORFとb1417ORFの組み合わせの存在がG3PDH反応を通るフラックスが発生することを可能にすることになることを示していた。従って、遺伝子レベルにおける変化は、関連する蛋白質の生化学的活動及びそれらの反応と容易に相関された。
【0179】
関連付けを形成する過程において、各反応に対して、その反応を実行するのに必要な蛋白質、又はその反応を実行することのできる蛋白質の同一性が決定された。各蛋白質に対して、その蛋白質の活動に必要なサブユニットの数が決定された。各サブユニットに対して、そのサブユニットをコード化するORFの数が決定された。反復モデル構築中に関連付けが形成され、該関連付けの表示に基づいて、モデル内への包含に対して反応構成要素が評価された。
【0180】
遺伝子−蛋白質−反応関連付けは、コンピュータ内ネットワークモデルを構築する過程の間に、モデル内容ブラウザ内に形成された。モデル内容ブラウザは、図8に示す垂直ツールバーから「モデル内容ブラウザ」ボタンを選択することにより、モデル構築メインウィンドウからアクセスされた。本システムは、モデル内容ブラウザウィンドウを開き、ロードされたモデル版にリンクされた生物に対する遺伝子索引を表示した。
【0181】
遺伝子関連反応をモデルに加えるプロセスは、以下の2段階に分けられた。最初に、ORF−蛋白質関連付けが形成された。次に、蛋白質−反応関連付けが形成された。最初の段階において、反応と関連付けられるべき1つまたはそれ以上のORFが同定された。バイオ粒子に対する遺伝子索引は、図9に示すように表示された。ユーザは、索引表示の側面にあるスライダバーを用いて索引に目を通した。ひとたび同定されると、図9のb0114及びb0115に対して示すように、ポップアップメニューから選択肢の「包含する」をアクティブにすることにより、適切な遺伝子が選択された。選択されたORFは、図9の画面の右上部に示す遺伝子−蛋白質−関連付けプロパティに自動的に追加された。
【0182】
b0114ORF及びb0115ORFを選択した後、それらがコード化する蛋白質との関連付けが形成された。図10の画面の右上部に示すように、「蛋白質」入力フィールドにAceEF蛋白質が入力され、それによりb0114ORF及びb0115ORFに関連付けされた。この蛋白質は、「蛋白質」入力フィールドに対してドロップダウンリストから選択された。所望であれば、この蛋白質の略語を入力フィールドに手動でタイプ入力することができる。本システムは、この蛋白質が本システム内にすでに存在しているかどうかを確認するために、自動照会を送信した。AceEF蛋白質は存在していたので、該蛋白質の名称が「蛋白質」入力フィールドの下の欄にポピュレートされた(図10参照)。その蛋白質が存在しない場合、本システムは、ユーザがその蛋白質のフルネームを入力することができる入力フィールドを使用可能にする。
【0183】
ユーザによってひとたび適切なフィールドにORF−蛋白質関連付けが正しく入力されると、ネットワークモデル内にORF−蛋白質関連付けを形成するために、適用ボタンがクリックされた。本システムは、適切なデータベースレコードを生成することによって応答し、図11の画面の右下コーナに示すように、生成した関連付けをグラフィカル関連付けビューアに視覚的に表示した。
【0184】
この関連付けを記述した情報は、一連のリレーショナルデータベーステーブルに格納された。以下のデータベースレコードが、図11の(b0114及びb0115)−−AceEF関連付けに対して生成された。ポリペプチドのアミノ酸配列を含むペプチドのレコードが生成された。この場合、アミノ酸配列は、b0114ORF及びb0115ORFから翻訳された。ペプチドのレコードは、aceEORF及びaceFORFに対して遺伝子レコードにリンクされた。「b0114」ORF及び「b0115」ORFの蛋白質「AceEF」に対する「AND」関連付けを表すPeptideProteinAssociationレコードも生成された。「b0114」ORF及び「b0115」ORFを「AND」関連付けレコードにリンクするために、更に2つのPeptideProteinAssociationレコードが生成された。図11に関して上に記載したように入力されたこれらのレコードは、図3及び図4に示すオブジェクトモデルに従って適切なデータベースに格納された。
【0185】
図11に関連して上に記載したように、複数の遺伝子を「AND」関係で1つの蛋白質と関連付ける必要があった。「AND」関係は、ユーザが「遺伝子蛋白質関連付けプロパティ」パネルに関係を入力し、「適用」命令を送信することにより、自動的に構築された。図11及び図12に示すように、グラフィカルビューアは、この種類の関連付けを「&」記号で表す。複数の遺伝子と蛋白質との間のAND関係は、複数のサブユニットを含む蛋白質の四次構造を反映する。
【0186】
AceEF蛋白質のアイソザイムが2つあり、両方ともPYRDH反応を行うことができる。第1のアイソザイムは、b0114遺伝子及びb0115遺伝子によってコード化されている。第2の酵素は、b2095ORFによってコード化されている。これらのアイソザイムの反応に対する関係は、「OR」論理演算子によって捕捉された。図13に示すように、グラフィカル関連付けビューア「OR」関連付けをORFと蛋白質との間に複数の線を引くことによって表す。「OR」関連付けは、ユーザが複数のORFを同一の蛋白質と別個に関連付ける際に構築される。
【0187】
次の関連付けは、蛋白質と反応との間に形成された。蛋白質索引表示が、モデル内容ブラウザの「蛋白質索引」タブをクリックすることによってアクセスを受けた。本システムは、図14に示すように、本システムは、モデルと関連する全ての蛋白質をテーブルに表示した。図15に示すように、この場合はAceEFである適切な蛋白質が、ポップアップメニューによる「包含する」の選択肢を介して蛋白質索引から選択された。これに応答して、本システムは、選択された蛋白質を画面右側の蛋白質−反応関連付けプロパティパネルにポピュレートした。
【0188】
AceEF蛋白質と関連付けられた反応は、「反応」フィールドに入力された。この場合、本システムは、入力された略語に基づいて該反応を探し出し、適切なフィールドにフルネーム及び式をポピュレートした。ユーザが反応の略語を知らない場合。「...」ボタンを選択して反応ブラウザウィンドウを開き、該反応ブラウザウィンドウで、幾つかの数の様々な基準のうちのいずれかに基づいて、反応データベースから反応を調べることができる。関連付けがいったん正しく入力されると、「適用」ボタンがクリックされ、ネットワークモデル内に蛋白質−反応関連付けが形成された。これに応答して、本システムは次いで、適切なデータベースレコードを生成し、生成した関連付けを、図16に示す画面の右下コーナに位置するグラフィカル関連付けビューアに視覚的に表示した。
【0189】
本システムは、図16に関連して上述したように形成された関連付けに対し、以下のデータベースレコードを生成した。ModelReactionレコードは、化学反応をモデルにリンクするために生成された。ProteinReactionAssociationレコードは、蛋白質「AceEF」をモデル反応にリンクするために生成された。ProtProtReactionAssociationレコードは、ProteinReactionAssociationを蛋白質「AceEF」にリンクするために生成された。
【0190】
蛋白質−反応の「AND」及び「OR」関連付けは、基本的にORF−蛋白質関連付けに関して上に記載したようにして構築され、且つ表示された。蛋白質−反応の「AND」関連付けの表示を、図17に示す画面の右下コーナのグラフィカルビューアに示す。蛋白質−反応の「OR」関連付けを、図18に示す画面の右下コーナのグラフィカルビューアに示す。
【0191】
特定の反応について説明した参照を利用することができ、且つ該参照が参照データベースに登録されている図17に示すように、左側の縦列内に「本のアイコン」によって参照へのリンクが提供されている。図17のディスプレイ上に示された反応に対し、ACTL反応、AKGDH反応及びPCK反応が参照に対するリンクを有する。
【0192】
図17は、モデル反応プロパティビューアが開かれたディスプレイをも示している。このビューアには、選択された反応の信頼性格付けに関連する情報が示されている。5つの異なるカテゴリに対する信頼性の詳細を示す表と同時に、信頼性に関する総得点が提供されている。信頼性の詳細及び信頼性得点について例IIで説明する。
【0193】
図3及び図4に示すように、以下のクラスは、遺伝子−蛋白質関連付けの生成に関与する。
(1)Peptide
(2)PeptideProteinAssociation及び
(3)Protein
以下のクラスは、蛋白質−反応関連付けに関与する。
(1)Protein
(2)ProteinReactionAssociation及び
(3)ModelReaction
以下の表は、遺伝子−蛋白質関連付けの生成に関与する。
(1)Peptide
(2)PeptideProteinAssociation
(3)PepPepProteinAssociation及び
(4)Protein
以下の表は、蛋白質−反応関連付けの生成に関与する。
(1)Protein
(2)ProteinReactionAssociation
(3)ProtProtReactionAssociation及び
(4)ModelReaction
(例II:信頼度に対する発見的アルゴリズム)
この例では、5つのカテゴリの各々において獲得された情報のレベルに基づいて特定されたネットワークモデル内への反応構成要素の包含に対する総合的信頼性を判定するための発見的アルゴリズムを実証する。
【0194】
信頼度は、尺度上でゼロから4の範囲にわたり、4が最も高い評価レベルである。簡素な5段階尺度は、低い信頼を有する反応と高い信頼を有する反応とを区別するのに適切な尺度である。本アルゴリズムは、各情報カテゴリに付与された有為性のレベルを取得し、それらをフィルタ処理して定量的信頼度をもたらす。5つの段階は、モデル内容の開発者がモデルに包含されつつある反応及び関連付けられた蛋白質及びORFに対する信頼度の基本的表示となる。5段階の意味を以下に説明する。
【0195】
レベル0−この反応は、計算による信頼性を全く有しない
レベル1−この反応は、最小限の証拠によって支持されているか、又は証拠さえ有しない
レベル2−この反応は、まずまずの量の証拠によって支持されている。
【0196】
レベル3−この反応は、豊富な証拠を有し、高度に確度が高い
レベル4−この反応は確実に発生し、且つ検証されている。
【0197】
本アルゴリズムは、以下の式に基づいている。
【0198】
【数1】

式中、CVは、信頼度を判定するために用いられることになる信頼値を指し、InfoTypeは、5つの情報の種類(生化学的情報、遺伝子情報、ゲノム情報、生理学的情報、モデル化情報)の各々に対して確立された事前設定数値を指し、InfoLevelは、特定の情報の種類と関連付けられた情報レベルに対する事前設定数値を指す。
【0199】
以下の値が、情報の種類及びレベルに対する事前設定数値に用いられた。
(InfoType)
生化学的情報 10
遺伝子情報 8
ゲノム情報 5
生理学的情報 3
モデル化情報 1
(Infolevel)
非評価 0
無評価 0.1
低 1
中 2
高 3
表Iに、反応の各々に対して定められるべき信頼度に対応することになる信頼値の範囲を提供する。
【0200】
【表1】

信頼度を計算するためのこの枠組みには、上述した信頼性評価システムの実行によって収集された経験に基づく異なる情報のレベル及び種類の各々に関連付けられた事前設定された数値並びに範囲に対する後の変更が可能である。
(例III:巨視的必要量欠乏の同定及び充足)
この例では、ギャップを同定するためのネットワークモデルの解析について説明する。
【0201】
ユーザは、「ギャップ解析を実行する」ボタンを選択してネットワーク解析をアクティブにする。これに応答して、本システムがネットワーク解析を始動させ、全ての反応が不可逆的で反応物として1回のみ発生する代謝産物か若しくは基質のみ又は産物のみとして複数回発生する代謝産物として定義されたギャップの存在を同定する。
【0202】
これらの状況は、関連付けられた反応がモデルシミュレーションにおいて一切利用されないという結果を生じさせる。各ギャップに対して、本システムは、化合物の名称、該化合物が発生する区画、該化合物が消費されるのみであるか、又は産生されるのみであるかを示す説明、ユーザがどのギャップの調査を完了したかを示すことができるチェックボックスを表示する。全てのギャップが化合物の略語に基づいてソートされる。
【0203】
以下の2つの例では、A及びBは、反応物として1回のみ発生する。A及びBは、反応が可逆的若しくは不可逆的である場合のギャップを表す。
A→B
A←→B
以下の例では、Bは、産物としてのみ(Bは産生されるのみ)複数回発生し、且つそれが関与する全ての反応は不可逆的である。Bは、ギャップを表す。
A→B←C
以下の例では、Bは、基質としてのみ(Bは消費されるのみ)複数回発生し、且つそれが関与する全ての反応は不可逆的である。Bは、ギャップを表す。
A←B→C
以下の例では、Bは、産物としてのみ複数回発生する(第2の反応はC<−>Bと表現されたがB<−>Cとは表現されなかったと仮定している)が、1つのみの反応が可逆的である。Bは、ギャップを表さない。
A→B←→C
本用途全体を通じて、括弧内の種々の刊行物が参照された。本発明が関係する最新技術をより完全に説明するために、これらの刊行物の開示内容全体が、引用により、本明細書によって本用途に組み込まれる。
【0204】
用語「を含む」は、本明細書において、制限のないこと、列挙した要素を含むのみならず、あらゆる付加的要素を更に包含することを意図されている。
【0205】
本発明を開示した実施形態を参照して説明してきたが、当業者は、詳述した特定の実験は本発明を例証したものにすぎないことが容易にわかるであろう。本発明の精神を逸脱することなく種々の変更を行うことができることを理解されたい。従って、本発明は、特許請求の範囲によってのみ限定される。

【特許請求の範囲】
【請求項1】
本明細書中に記載の発明。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2010−49695(P2010−49695A)
【公開日】平成22年3月4日(2010.3.4)
【国際特許分類】
【出願番号】特願2009−230027(P2009−230027)
【出願日】平成21年10月1日(2009.10.1)
【分割の表示】特願2004−513766(P2004−513766)の分割
【原出願日】平成15年6月13日(2003.6.13)
【出願人】(504356052)ジェノマティカ・インコーポレイテッド (8)
【氏名又は名称原語表記】Genomatica, Inc.