実施反応経路を同定するための方法およびシステム
【課題】生物系の実施反応経路を同定するための方法を提供する。
【解決手段】(a)その生物系を表す反応ネットワークを通しての1セットの体系的反応経路を提供する段階と、(b)その生物系の1セットの現象論的反応経路を提供する段階、および(c)そのセットの体系的反応経路をそのセットの現象論的反応経路と比較する段階からなり、さらに、それらのセットに共通した経路がその生物系の実施反応経路である段階を含む。また、生物系反応ネットワークを改善する方法と、細胞全体の機能への遺伝子多型の効果を測定する方法、および遺伝子多型媒介性病態を診断する方法からなる。
【解決手段】(a)その生物系を表す反応ネットワークを通しての1セットの体系的反応経路を提供する段階と、(b)その生物系の1セットの現象論的反応経路を提供する段階、および(c)そのセットの体系的反応経路をそのセットの現象論的反応経路と比較する段階からなり、さらに、それらのセットに共通した経路がその生物系の実施反応経路である段階を含む。また、生物系反応ネットワークを改善する方法と、細胞全体の機能への遺伝子多型の効果を測定する方法、および遺伝子多型媒介性病態を診断する方法からなる。
【発明の詳細な説明】
【背景技術】
【0001】
発明の背景
本発明は、一般的に、コンピューター内でのモデル生物体の構築、より具体的には、実施反応経路を特定する、および実際の生物体の最適のコンピューター内モデルの創出のための方法ならびにシステムに関する。
【0002】
薬物および遺伝子に基づく薬剤を含む治療剤は、ヒト疾患を予防または治療することを目標として、製薬産業により急速に開発されている。ハーブ製品、ビタミンおよびアミノ酸を含む栄養補助食品もまた、栄養補助食品産業により開発され、かつ市販されている。加えて、食料品および工業化合物の生物学的発酵ならびに他のバイオプロセスについてのより速くかつより効率的な方法のための試みが開発を進められてきた。作物および他の農産物のより速くかつより効率的な生産もまた、食品産業における熱心な開発のさらにもう一つの領域である。
【0003】
生物体の細胞内および間における生化学反応ネットワークの複雑性のために、治療剤により引き起こされた比較的微量な摂動、食事成分における変化または環境もしくは成長条件でさえも、何百という生化学反応に影響を及ぼしうる。そのような変化または摂動は、生きている細胞を伴う任意の治療的、工業的または農業的過程において、望ましいおよび望ましくない両方の影響へと導きうる。それゆえに、特定のプロセスが、そのような摂動の細胞または生物体のような生物系への影響を予測できるならば、有益であると思われる。
【0004】
しかしながら、それに用いられる化合物およびプロセスについての治療的、工業的および農業的開発への現行のアプローチは、生産物の効率的かつ経済的な生産に必要とされる正確さのレベルでの細胞挙動への摂動の影響を考慮に入れていない。そのようなプロセスの最適化のために細胞活動を操作する効果的方法を設計する、または適用された化合物の最適の意図された効果を達成するために、統合的視野から細胞挙動を理解することが助けになるものと思われる。
【0005】
しかしながら、細胞挙動は、多くの相互関係のある遺伝子、遺伝子産物および化学反応の同時的機能ならびに統合を含む。この相互接続性のために、細胞挙動への、単一の遺伝子もしくは遺伝子産物における変化の影響、または薬物もしくは環境因子の影響を演繹的に予測することは困難である。異なる条件下において細胞挙動を正確に予測する能力は、医学および工業の多くの領域において極めて価値があるものと思われる。例えば、どの遺伝子産物が適した薬物標的であるかを予測することが可能であったならば、有効な抗生物質または抗腫瘍剤を開発するのにかかる時間をかなり短縮されるであろう。同様に、特定の工業的に重要な生産物の生産のための最適な発酵条件および微生物の遺伝子構造を予測することが可能であったならば、これらの微生物の性能において迅速かつ費用効果の高い改良を可能にするであろう。
【0006】
このように、様々な条件下における細胞および生物体の挙動を正確にシミュレートし、かつ効果的に分析するために用いられうるモデルおよびモデリング方法についての必要性が存在する。本発明は、この必要性を満たし、かつそのうえ、関連した利点を提供する。
【発明の概要】
【0007】
本発明は、生物系の実施反応経路を同定する方法を提供する。方法は以下の段階からなる:(a)その生物系を表す反応ネットワークを通しての1セットの体系的反応経路を提供する段階;(b)その生物系の1セットの現象論的反応経路を提供する段階、および(c)そのセットの体系的反応経路をそのセットの現象論的反応経路と比較する段階であって、それらのセットに共通した経路がその生物系の実施反応経路である、段階。
【0008】
また、生物系反応ネットワークを改善する方法も提供される。その方法は、以下の段階からなる:(a)生物系の数学的表現を提供する段階;(b)生物系の観察される挙動と、類似した条件下におけるその生物系のその数学的表現のコンピューター内での挙動との間の差を測定する段階;(c)その生物系のその数学的表現の構造を改変する段階;(d)その生物系のその観察される挙動と、類似した条件下におけるその生物系のその改変された数学的表現のコンピューター内での挙動との間の差を測定する段階、ならびに(e)挙動の差が最小化されるまで、段階(d)および(e)を繰り返す段階であって、予定の正確さ基準の満足がその生物系反応ネットワークにおける向上を示している、段階。
【0009】
さらに、生物系データセットを調和させる方法が提供される。その方法は、以下の段階からなる:(a)複数の階層的反応カテゴリーを含む遺産データから再構築される第一の反応ネットワークを提供する段階;(b)経験的データから得られる第二の反応ネットワークを提供する段階、および(c)その第一の反応ネットワークにおけるその階層的反応カテゴリーと、その第二の反応ネットワークにおける要素との間の整合性測度を測定する段階であって、その階層的反応カテゴリーについての高程度のその整合性測度が、その第一反応ネットワークまたはそのサブコンポーネントの妥当性を示す、段階。
【0010】
細胞全体の機能への遺伝子多型の効果を測定する方法もまた提供される。その方法は、以下の段階からなる:(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークを作成する段階;(b)その反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階、および(c)正常な生物系を表す反応ネットワークと比較してそのストレスを加えられた生理学的状態におけるその適用された生化学的または生理学的条件に対する感受性を測定する段階であって、その感受性がその遺伝子多型媒介性病態の表現型の結果を示している、段階。
【0011】
本発明はさらに、遺伝子多型媒介性病態を診断する方法を提供する。その方法は、以下の段階からなる:(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階であって、その適用された生化学的または生理学的条件がその遺伝子多型媒介性病態と相関している、段階、および(b)その反応ネットワーク内のその病態の1つもしくは複数の生化学的または生理学的指標を測定する段階であって、ストレスを加えられていない生理学的状態と比較してそのストレスを加えられた状態でのその1つもしくは複数の生化学的または生理学的指標における変化が、その病態に対応する遺伝子多型の存在を示している、段階。
【図面の簡単な説明】
【0012】
【図1】生化学反応ネットワークの実施経路を決定することに関与する段階についての概念図を示す。
【図2A】制御された遺伝子が水平軸上に示されている、制御ツリーの1つの枝としての体系的反応経路の略図を示す。
【図2B】生物系の数学的表現が、アルゴリズムのアプローチおよび標的にされた実験を用いて繰り返し様式で向上させられうる過程を示す。
【図3】大腸菌におけるコア代謝のコンピューター内で作成される代謝流束プロファイルのためのコハク酸についての位相面が調製されたことを示す。
【図4】図の隣に示された酸素およびコハク酸の入力値を用いての大腸菌コア代謝に関して作成される流束分布行列のための位相面の位相Iを示す。
【図5】図4に示された流束行列に関する特異値分解(SVD)解析を示す。
【図6】SVDから得られた様々なモードについて、各条件、すなわち、図4位相面の位相Iに示された点、の寄与レベルを示す。
【図7】SVDから得られた様々なモードについて、各条件、すなわち、図4位相面の位相Iに示された点、の寄与レベルを示す。
【図8】表2に示されているコハク酸についての極度経路の削減されたセットを示す。
【図9】本発明の極度および実施経路を同定するための流束平衡分析(FBA)および凸解析の概念図を示す。
【図10】赤血球(RBC)代謝ネットワークの極度経路ついてのPのSVDから得られたモードを用いる分解された流束ベクトルを示す。
【図11】最大(Max)、中位(Mid)および名目上の状態(負荷無し)の酸化およびエネルギー負荷下における図10に示されたSVD解析の最初の5個のモードのヒストグラムを示す。
【図12】複雑な生物学的過程の大規模コンピューター内モデルを構築することについての概念図を示す。
【図13】臨床的に診断されたグルコース-6-リン酸デヒドロゲナーゼ(G6PD)患者に見出された一塩基多型クラスターの局在性を示す。
【図14】G6PD SNPsを有する慢性溶血性貧血状態と非慢性溶血性貧血状態の間の酸化負荷の耐性を示す。
【図15】異なるピルビン酸キナーゼ(PK)SNP変異体を含む解糖状態についての特徴付けおよびエネルギー負荷の耐性を示す。
【図16】酵母および大腸菌の制御ネットワークについての遺産および経験的データセットの調和を示す。
【図17】データセットの調和および数学的またはコンピューター内モデルの繰り返し向上のためのアルゴリズムの概念図を示す。
【図18】関連した化学反応および転写制御を支配する制御ルールを含む表とともに、コア代謝および制御の骨格ネットワークを示す。
【図19】実際の生物体における制御された遺伝子の発現、および結果として本発明の繰り返し過程の位相Iを生じるモデル系の計算を示す。
【図20】本発明のコンピューター内モデルを用いた制御無しの好気性成長についての流束平衡分析(FBA)を用いる計算された流束分布を示す。
【発明を実施するための形態】
【0013】
発明の詳細な説明
本発明は、生物系の1セットの構成要素の相互作用、統合および協調を決定するための方法ならびにシステムを提供する。本発明は、このように、ゲノム尺度において再構築された生化学反応ネットワークを迅速かつ体系的に特定するため、ならびに構成要素の活性およびそれらの相互作用を特定の表現型または生理学的状態へ関連づけるために用いられうる。どの構成要素が特定の条件下において操作可能であるかを理解することは、生きている細胞へ望ましい機能を操作する、うまく機能していない回路を修復する、および細胞の環境の適切な操作により内因性回路を調節する改良された方法を可能にする。さらになお、生化学的ネットワークを特徴付けるための迅速な方法は、最小限の実験的努力で事実上特徴付けられていない生物系の特徴付けを可能にする。
【0014】
本発明は、生化学反応ネットワークの実施経路を決定するための方法を提供する。本発明の方法は、(a)制御されうる反応から構成される、生化学反応ネットワークを提供する段階;(b)与えられた条件下における生物系の様々な生理学的または病理学的状態を表す1セットの実験的データを提供する段階;(c)生物系を全部または一部、定義する1セットの体系的経路を決定する段階;(d)生物系の実験的状態を記述する1セットの現象論的反応経路を決定する段階;および(e)ゲノム全体および生物系サブコンポーネントの両方の尺度において体系的および現象論的の両方の経路セットに共通した実施経路を決定する段階により実施される(図1)。
【0015】
本明細書に用いられる場合、用語「反応」は、基質を消費するまたは生成物を形成する化学的変換を意味するように意図される。その用語に含まれる変換は、生物体により遺伝的にコードされる1つもしくは複数の酵素の活性によって起こりうる、または細胞もしくは生物体において自発的に起こりうる。その用語に含まれる変換は、例えば、求核もしくは求電子付加、求核もしくは求電子置換、離脱、還元または酸化によるもののような、基質の生成物への変換でありうる。その用語に含まれる変換はまた、反応物が、膜を横断して、または一つの区画からもう一つへと、輸送される場合に起こる変化のような、位置における変化でありうる。反応の基質および生成物は、それらが化学的に同じであるとしても、特定の区画における位置により区別されうる。このように、化学的に変化していない反応物を第一の区画から第二の区画へ輸送する反応は、第一の区画においてそれの基質として反応物をもち、第二の区画においてそれの生成物として反応物をもつ。用語「反応」はまた、高分子を、第一高次構造、すなわち基質高次構造、から第二高次構造、すなわち生成物高次構造へ変化させる変換を含む。そのような高次構造変化は、例えば、ホルモンもしくは受容体のようなリガンドを結合することによる、または光の吸収のような物理的刺激からのエネルギーの変換に起因しうる。コンピューター内での生化学反応ネットワークに関して用いられる場合、「反応」は、上記のような変換の表現であるように意図されることは理解されるものと思われる。
【0016】
本明細書に用いられる場合、用語「反応物」は、反応の基質または生成物である化学物質を意味するように意図される。その用語は、生物体のゲノムによりコードされる1つもしくは複数の酵素により触媒される反応、1つもしくは複数の遺伝的にコードされていない触媒により触媒される生物体に起こる反応、または細胞もしくは生物体において自発的に起こる反応、の基質または生成物を含みうる。代謝産物は、その用語の意味の範囲内の反応物であると理解される。コンピューター内でのモデルまたはデータ構造との関連で用いられる場合、反応物は、反応の基質または生成物である化学物質の表現であると理解されることは、理解されるものと思われる。
【0017】
本明細書に用いられる場合、用語「基質」は、反応により1つまたは複数の生成物へ変換されうる反応物を意味するように意図される。その用語は、例えば、求核もしくは求電子付加、求核もしくは求電子置換、脱離、還元または酸化により化学的に変えられることになっている、または膜を横断して、もしくは異なる区画へ輸送されることによるような位置を変化させることになっている反応物を含みうる。その用語は、エネルギーの変換による高次構造を変化させる高分子を含みうる。
【0018】
本明細書に用いられる場合、用語「生成物」は、1つまたは複数の基質との反応に起因する反応物を意味するように意図される。その用語は、例えば、求核もしくは求電子付加、求核もしくは求電子置換、脱離、還元または酸化により化学的に変えられた、または膜を横断して、もしくは異なる区画へ輸送されることによるような位置を変化させた反応物を含みうる。その用語は、エネルギーの変換による高次構造を変化させる高分子を含みうる。
【0019】
本明細書に用いられる場合、用語「制御反応」は、触媒の活性を変える化学的変換または相互作用を意味するように意図される。化学的変換または相互作用は、触媒が翻訳後修飾される場合に起こるような触媒の活性を直接的に変えうる、または化学的変換もしくは結合事象が触媒の改変した発現へと導く場合に起こるような触媒の活性を間接的に変えうる。このように、転写または翻訳の制御経路は、触媒または関連した反応を間接的に変えうる。同様に、間接的制御反応は、下流構成要素または制御反応ネットワークの関与物質に起因して起こる反応を含みうる。データ構造またはコンピューター内でのモデルに関して用いられる場合、その用語は、第二反応への制約の値を変化させることにより第二反応を通しての流束を変える機能によって第二反応と関係がある第一反応を意味するように意図される。
【0020】
制御反応は、遺伝子の転写への活性もしくは不活性の制御因子の抑制性または誘導性効果についての情報をさらに含みうる。例えば、制御反応は、遺伝子の転写をもたらすそれに付随した1つまたは複数の制御因子を有しうる。
【0021】
制御反応は、遺伝子発現に影響を及ぼす制御因子の相互作用についての情報をさらに含みうる。例えば、制御反応は、遺伝子の転写をもたらすようにお互いに依存しているそれに付随した2つまたはそれ以上の制御因子の組み合わせを有しうる。
【0022】
制御反応は、特定の遺伝子の転写についての制御因子の相互作用および依存性を示すブール論理文の形をとった情報をさらに含みうる。例えば、特定の遺伝子は、その遺伝子の発現に必要とされる必須制御因子および制御性相互作用を記述するそれに割り当てられたブール論理を有しうる。
【0023】
本明細書に用いられる場合、用語「制御因子」は、1つもしくは複数の遺伝子、タンパク質、mRNA転写物の転写、転写後修飾または活性を制御する物質を指す。そのような制御因子は、制御タンパク質、低分子などでありうる。
【0024】
本明細書に用いられる場合、用語「制御事象」は、反応に利用可能な反応物の量に依存しない反応を通しての流束の変更因子を意味するように意図される。その用語に含まれる変更は、反応を触媒する酵素の存在、非存在、または量における変化でありうる。その用語に含まれる変更因子は、シグナル伝達反応のような制御反応、またはpH、温度、酸化還元電位もしくは時間における変化のような環境的条件でありうる。コンピューター内でのモデルまたはデータ構造に関して用いられる場合、制御事象は、反応に利用可能な反応物の量に依存しない反応を通しての流束の変更因子の表現であるように意図されることは、理解されるものと思われる。
【0025】
本明細書に用いられる場合、用語「反応ネットワーク」は、反応および反応構成要素の集合間の機能的相互関係の表現を指す。反応ネットワークに含まれる反応構成要素は、基質、生成物、酵素、補助因子、活性化因子、抑制因子、輸送体などのような反応に関与する任意の構成要素でありうる。機能的相互関係は、例えば、基質とそれの生成物の間のもの;基質または生成物と基質から生成物への変換を触媒する酵素の間のもの;酵素とそれの補助因子、活性化因子または抑制因子の間のもの;受容体とリガンドまたは物理的に相互作用する高分子の他のペアの間のもの;高分子とそれの輸送体の間のもの;転写制御に関与するタンパク質と特定の標的遺伝子を制御する制御領域におけるそれらのDNA結合部位の間のもの;などを含む。
【0026】
反応ネットワークは、ネットワーク内の反応の化学量論に関する情報をさらに含みうる。例えば、反応構成要素は、その構成要素とその反応に関与する他の構成要素の間の量的関係を反映するそれに割り当てられた化学量論係数を有しうる。
【0027】
反応ネットワークは、ネットワーク内の反応の可逆性に関する情報をさらに含みうる。反応は、可逆的または不可逆的のいずれかの方向で起こるとして記述されうる。可逆反応は、順方向および逆方向の両方において動作する1つの反応として表されうるか、または2つの不可逆反応へ分割されうり、一方が正反応に対応し、他方が逆反応に対応するかのいずれかである。
【0028】
反応ネットワークは、系内反応および交換反応の両方を含みうる。系内反応は、化学的かつ電気的に平衡のとれた化学種の相互変換および輸送過程であり、特定の反応物の相対的量を補充するまたは排出する働きをする。交換反応は、供給源およびシンクを構成し、区画の中へおよび外への、または仮説上の系境界を横断する、反応物の通過を可能にするものである。これらの反応は、生物系に課せられる要求を表す。慣例として、交換反応は、さらに、要求交換および入力/出力交換反応へ分類される。入力/出力交換反応は、構成要素が系に入るまたは出ることを可能にするために用いられる。要求交換反応は、アミノ酸、ヌクレオチド、リン脂質および他のバイオマス成分のような新しい細胞を創造する目的として細胞により産生されるために必要とされる構成要素、または別の目的として産生されうる代謝産物を表すために用いられる。
【0029】
反応ネットワークは、代謝性および制御性の両方の反応をさらに含みうる。代謝反応は、化学量論および可逆性により表されうるが、制御反応は、代謝性もしくは制御性タンパク質の存在または非存在、活性または不活性に依存すること、およびもたらすことの両方のブール論理文により表されうる。
【0030】
反応ネットワークは、任意の都合のよい様式で表されうる。例えば、反応ネットワークは、矢印で示される反応物間の相互関係を含む反応マップとして表されうる。本発明の方法による数学的操作として、反応ネットワークは、都合のよいことには、1組の線形代数方程式として表されうる、または化学量論的行列として提示されうる。ネットワークにおいてmが反応物の数に対応し、かつnが反応の数に対応するm x nの行列である化学量論的行列、S、が提供されうる。化学量論的行列およびそれらの調製および使用のための方法は、例えば、Schilling et al., Proc. Natl. Acad. Sci. USA 95:4193-4198 (1998)に記載されている。さらなる例として、反応ネットワークは、都合のよいことには、1組の線形代数方程式およびブール論理方程式として表されうる。ブール論理方程式は、制御事象の抑制性または誘導性効果により、数値を求められ、かつ化学量論的行列から特定の反応の除去または付加へ導きうる。そのような表現は、例えば、Covert MW, Schilling CH, Palsson B. J Theor Biol. 213:73-88 (2001)に記載されている。
【0031】
本発明の方法は、特定の生物系について自然に発生するすべての反応を実質的に含むネットワークのような、低いかまたは高いかのいずれかの複雑性の反応ネットワークで実施されうる。このように、反応ネットワークは、例えば、少なくとも約10、50、100、150、250、400、500、750、1000、2500、5000またはそれ以上の反応を含みうり、例えば、特定の生物系についての自然発生の反応の総数の少なくとも約5%、10%、20%、30%、50%、60%、75%、90%、95%または98%を表しうる。
【0032】
反応ネットワークは、1つまたは複数の生物系に関係する反応を表す。本明細書に用いられる場合、用語「生物系」は、生物体全体もしくはそれ由来の細胞を、または、生物体もしくは細胞において、生物体もしくは細胞へ、または生物体もしくは細胞により、起こる「生物学的過程」を指す。このように、反応ネットワークは、生物体全体、細胞全体または細胞下のレベルで起こる反応を表しうる。さらに、反応ネットワークは、異なる生物体または細胞間の相互作用を表しうる。
【0033】
用語「生物体」は、天然に存在する生物体、および遺伝子改変の生物体のような天然に存在しない生物体の両方を指す。生物体は、ウイルス、単細胞生物または多細胞生物でありうり、真核生物かまたは原核生物のいずれかでありうる。さらに、生物体は、動物、植物、原生生物、真菌または細菌でありうる。典型的な生物体は、病原体、ならびに、治療用物質、酵素、栄養補助食品および他の高分子のような商業的に重要な産物を産生するまたは産生するように作製されうる生物体を含む。生物体の例は、シロイヌナズナ(Arabidopsis thaliana)、枯草菌(Bacillus subtilis)、ウシ(Bos taurus)、線虫(Caenorhabditis elegans)、コナミドリムシ(Chlamydomonas reinhardtii)、ゼブラフィッシュ(Danio rerio)、細胞性粘菌(Dictyostelium discoideum)、キイロショウジョウバエ(Drosophila melanogaster)、大腸菌(Escherichia coli)、C型肝炎ウイルス(hepatitis C virus)、インフルエンザ菌(Haemophilus influenzae)、ヘリコバクター ピロリ(Helicobacter pylori)、ヒト(Homo sapiens)、マウス(Mus musculus)、肺炎マイコプラズマ(Mycoplasma pneumoniae)、イネ(Oryza sativa)、熱帯熱マラリア原虫(Plasmodium falciparum))、ニューモシスチス カリニ(Pneumocystis carinii)、ドブネズミ (Rattus norvegicus)、出芽酵母(Saccharomyces cerevisiae)、分裂酵母(Schizosaccharomyces pombe)、トラフグ(Takifugu rubripes)、アフリカツメガエル(Xenopus laevis)、トウモロコシ(Zea mays)などを含む。
【0034】
生物体または細胞の「生物学的過程」は、一連の統合された反応を必要とする生理学的機能を指す。生物学的過程は、例えば、細胞の代謝;細胞運動性;シグナル伝達(ホルモン、成長因子、低酸素、細胞-基質の相互作用、細胞-細胞の相互作用により惹起されるシグナルの伝達を含む);細胞周期調節;転写;翻訳;分解;選別;修復;分化;発生;アポトーシス;などでありうる。生物学的過程は、例えば、Stryer, L., Biochemistry, W.H. Freeman and Company, New York, 4th Edition (1995);Alberts et al., Molecular Biology of The Cell, Garland Publishing, Inc., New York, 2nd Edition (1989);Kuby, Immunology, 3rd Edition, W.H. Freeman & Co., New York (1997);およびKornberg and Baker, DNA Replication, W.H. Freeman and Company, New York, 2nd Edition (1992)に記載されている。
【0035】
一つの態様において、生物系は、細胞の代謝の生物学的過程を含み、その生物系を表す反応ネットワークは、「代謝反応ネットワーク」と呼ばれるのだが、細胞の代謝反応を含む。細胞の代謝の基本的な概説は、例えば、Stryer, L., Biochemistry, W.H. Freeman and Company, New York, 4th Edition (1995)に見出されうる。細胞の代謝は、有用には、中枢的および末梢的代謝反応へ分類されうる。中枢的代謝反応は、解糖、ペントースリン酸経路(PPP)、トリカルボン酸(TCA)回路および呼吸に属する反応を含む。末梢的代謝は、中枢的代謝の部分ではないすべての代謝反応を含むのだが、アミノ酸の生合成、アミノ酸の分解、プリンの生合成、ピリミジンの生合成、脂質の生合成、脂肪酸の代謝、補助因子の生合成、細胞壁成分の代謝、代謝産物の輸送、または炭素源、窒素源、リン酸源、酸素源、イオウ源、水素源などの代謝に関与する反応を含む。
【0036】
もう一つの態様において、生物系は、転写制御の生物学的過程を含み、その生物系を表す反応ネットワークは、「転写制御反応ネットワーク」と呼ばれるのだが、細胞の転写制御反応を含む。細胞の転写制御の基本的な概説は、例えば、Alberts et al., Molecular Biology of The Cell, Garland Publishing, Inc., New York, 2nd Edition (1989)に見出されうる。転写制御事象は、制御される遺伝子の型、例えば、代謝、細胞周期、鞭毛生合成などと関連したそれらの遺伝子、により分類されうる。
【0037】
もう一つの態様において、生物系は、細胞の代謝および転写制御の生物学的過程を含み、その生物系を表す反応ネットワークは、代謝および転写制御の両方の反応を含む。
【0038】
生物体もしくは細胞の全体の実質的にすべての反応、または生物体もしくは細胞の特定の生物学的過程の実質的にすべての反応を含む反応ネットワークは、「ゲノム尺度」反応ネットワークと呼ばれる。様々な生物体の代謝を表すゲノム尺度反応ネットワークは、大腸菌(PCT公開WO 00/46405);H. ピロリ(pylori)(Schilling et al., J. Bacteriol. 184:4582-4593 (2002));およびインフルエンザ菌(H. influenzae)(Edwards J.S. and Palsson B.O. J. Biol. Chem. 274:17410-17416 (2001))を含め、記載されている。
【0039】
他の生物系について、ゲノム尺度反応ネットワークは、当技術分野において公知の方法により調製されうる。一般的に、これらの方法は、まず、生物体、細胞または生物系において起こることが可能である反応の包括的なリストを作成すること、およびそれらの相互連結性を決定することを含む。リストは、生物体の注釈付きゲノムの分析から決定され、要求に応じて科学文献および実験データから補われた、反応を含みうる。また、輸送反応、バイオマス組成要求、成長関連エネルギー必要量なども含まれうる。
【0040】
多数の動物、植物、原生動物、真菌、細菌およびウイルスのゲノム配列は、完了されたまたは進行中である(例えば、The Institute for Genome Research(TIGR)データベース(www. tigr.org/tdb/)およびthe NCBI Entrez Genomeデータベース(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome)におけるゲノムエントリーを参照)。注釈付きゲノム配列情報および再構築されたネットワーク情報の他のワールドワイドウェブに基づく情報源は、EcoCyc、代謝経路データベース(Metabolic pathways database)(MPW)、Kyoto Encyclopedia of Genes and Genomes(KEGG)、What is There(WIT)およびBiology Workbenchを含む。
【0041】
ゲノムがまだシーケンシングされていない生物体について、そのゲノム配列を得るための様々な方法は当技術分野において知られている。たいていの大規模ゲノムシーケンシング方法において、DNAを単離すること、DNAをクローニングまたは増幅すること、シーケンシング反応を調製すること、および配列を得る標識された断片を分離かつ検出することからのあらゆる段階は自動化されている(Meldrum, Genome Res. 10:1081-1092 (2000))。たいていの方法は、定方向仕上げ段階とのランダムショットガンシーケンシングの組み合わせのようなシーケンシング方法の組み合わせを用いる。他の方法は、全ゲノムショットガンアプローチを用い、総ゲノムDNAのランダム断片が直接的にサブクローニングされ、高処理量シーケンシングがゲノムの重複性適用範囲を提供するために用いられる。もう一つのアプローチは、ゲノムライブラリーにおいてあらゆるBACの各末端をシーケンシングし、次のクローンを選択するために、終えた配列をBAC末端配列に整合させることである(Venter et al., Science 280:1540-1542 (1998);Waterston et al, Science 282:53-54 (1998))。
【0042】
新しくシーケンシングされたゲノムについて、オープンリーディングフレーム(ORF)またはコード領域は、様々な方法によりDNA配列の残りから区別されうる。DNA配列、それの鎖、およびヌクレオチド組成においてORFの位置を決定することは、遺伝子シグナル(例えば、プロモーター、結合部位、開始および終止コドンなど)を探索することにより、または遺伝子内容(例えば、コドン優先度、位置的塩基頻度など)を分析することにより、または両方の方法の組み合わせにより、行われうる。アルゴリズムおよび計算ツールは、the University of Wisconsin Genetics Computer GroupおよびNational Center for Biotechnology Informationのような機関を通して利用可能なこれらの方法を用いて全DNA配列のORFを決定するために利用できる。さらになお、他の計算アルゴリズムが開発され、細菌または真核生物の遺伝子が隠れマルコフモデルのようなアルゴリズム方法により同定されうり、日常的に、タンパク質コード領域およびRNA遺伝子の99%より多くを見出している(Pevzner, "Computational molecular biology: an algorithmic approach," in Computational Molecular Biology. Cambridge, MA: MIT Press, xviii, p.314 (2000);Baldi et al., "Bioinformatics: the machine learning approach," in Adaptive Computation and Machine Learning. Cambridge, MA: MIT Press xviii, p. 351 (1998);Fraser et al., Nature 406:799-803 (2000))。
【0043】
コード領域に機能を割り当てるために、新しく同定されたORFが、配列類似性について既知の機能の遺伝子およびタンパク質配列を含むデータベースに対して検索される。プログラムのBLASTおよびFASTAファミリーのようないくつかのアルゴリズムが開発され、公的に利用可能であり、機能的に知られていないORFの類似性が機能注釈付きの遺伝子に対して決定されうる。新規の配列生物体における同定されていない遺伝子の主要部は、この方法で機能的に割り当てられうる。
【0044】
遺伝子の推定上の機能が、遺伝子またはタンパク質配列類似性により確立されない場合には、機能または位置による遺伝子クラスタリングのような他の技術が、ネットワークにおける遺伝子の役割を評価するために用いられうる。同じ全体の機能に関与する遺伝子産物は、細胞において経路を構築しうる。最初の配列注釈から構築された経路における「失われた環」は、まだ同定されていない遺伝子の存在を示唆する。他の生物体に対して配列を検索することは、失われた遺伝子の可能なヌクレオチド配列についての手掛かりを与え、次には、割り当てられていないコード領域の機能性をターゲットするのを促進する。KEGGおよびWITのような様々なゲノムデータベースにおいてこの方法を行うアルゴリズムが開発された。さらに、隣接する位置の遺伝子は、そのDNA配列が他の生物体のそれと比較される場合、協調された様式で制御され、かつ機能するオペロンへクラスタリングされうる。生化学的および生理学的情報に加えて、注釈付きの遺伝的情報から、反応および反応構成要素の相互関係性が決定され、反応ネットワークが完成される。
【0045】
ゲノムのORFまたはコード領域を定義することに加えて、制御領域が様々な方法により定義されうる。制御領域は、転写制御因子および転写機構の構成要素についての結合部位を含む。これらの部位は、制御領域により調節される遺伝子を制御する転写制御因子の能力のように、転写制御の特異性を決定する。制御領域および部位を同定する方法は、制御領域に対応しうるゲノムの高度に保存されたセグメントを同定するために密接に関連したゲノムの非コード領域を比較することを含む。ゲノムの非コード領域の群はまた、ゲノムにおいて特異的な結合部位パターンを同定するために普通に存在する配列断片について検索されうる。これらの群は、例えば、制御領域により調節される遺伝子の生物学的機能における類似性により定義されうる。さらに、サッカロマイセスプロモーターデータベース(Saccharomyces Promoter Database)(Zhu and Zhang, Bioinformatics 15:607-611 (1999))またはTRANSFAC(Wingender et al., Nucl. Acids Res. 29:281-283 (2001))のような特定のデータベースに保存された特定の転写制御因子についての結合部位パターンの現存する定義は、制御因子に対する新しい結合部位についてゲノムを検索するために用いられうる。特定の転写制御因子についての制御部位を同定することは、これらの制御因子により制御される可能性のある標的遺伝子を確立し、それに従って、制御ネットワークに追加されうる新しい制御反応を示唆することを可能にする。
【0046】
本明細書に用いられる場合、用語「反応経路」は、反応構成要素、制御情報またはシグナル伝達分子が流れる可能性がありうる反応ネットワークを通してのルートを指す。反応経路を通しての変換を生じる基質の実際の量および/または速度(「流束」としても知られている)は、考慮中の生物系の生理学的状態の機能であること、ならびに反応経路(下記のような実施の、極度および現象論的の反応経路を含む)は、一般的に、生物系の生理学的状態と関連して特定化されることは、認識されているものと思われる。用語「生理学的状態」は、生物系を通しての流束に影響を及ぼす、または影響を及ぼす可能性が高い、任意の特定された内部および外部パラメーターを指すように意図される。流束に影響を及ぼしうるパラメーターは、例えば、生物系への実際または意図された入力(炭素、窒素、リン、イオウまたは水素源;酸素、栄養分、ホルモン、成長因子、抑制因子などの存在または量のような);生物系の実際または意図された出力(バイオマス成分、分泌産物などのような)、および環境的変数(温度、pHなどのような)を含む。流束に影響を及ぼしうる他のパラメーターは、例えば、細胞の分化または形質転換の状態;細胞齢;基質との、または隣接する細胞とのそれの接触;発現された遺伝子の付加または欠失;などを含む。
【0047】
本明細書に用いられる場合、用語「体系的反応経路」は、反応ネットワークの適した表現に適用された自動化方法により同定された反応経路を指す。その方法は、反応経路を同定する数学的またはアルゴリズムの操作を含みうり、それは、反応経路の同定に影響を及ぼすユーザー定義可能なパラメーターを含みうる。体系的反応経路は、固有である必要はなく、反応ネットワークのサブセットに適用するのみでありうる。
【0048】
凸解析を用いる体系的反応経路を同定する方法は、当技術分野において記載されている。そのような方法は、例えば、化学量論的ネットワーク分析(SNA)(Clarke, Cell Biophys. 12:237-253 (1988));基本モード分析(Schuster et al., Trends Biotech. 17:53-60 (1999));および極度経路分析(Schilling et al., J. Theor. Biol. 203:229-248 (2000);Schilling et al., Biotechnol. Bioeng. 71:286-306 (2001))を含む。これらの型の分析間の区別は、Schilling et al.、前記 (2000)に記載される。
【0049】
一つの態様において、体系的反応経路は、極度経路である。用語「極度経路」は、定義された反応ネットワークにより達成可能なすべての可能性のある定常状態流束分布の限界を定める凸面の高次元空間に及ぶ体系的に独立した経路を指す。
【0050】
本発明の方法における使用のために1セットの体系的反応経路を「提供する」のに必要とされる段階は、生物系および反応ネットワークに関してすでに利用可能な情報の量ならびに型に依存するものであることは、理解されていると思われる。特定の生物系および生理学的状態について、極度反応経路のセットは、当技術分野において記載されている。例えば、ヒト赤血球代謝ネットワークについての極度経路は、Wiback et al., Biophys. J. 83:808-818 (2002)に記載されている。インフルエンザ菌代謝ネットワークについての極度経路は、Schilling et al., J. Theor. Biol. 203:249-283 (2000)およびPapin et al., J. Theor. Biol. 215:67-82 (2002)に記載される。H. ピロリ代謝ネットワークについての極度経路は、Price et al., Genome Res. 12:760-769 (2002)に記載される。
【0051】
極度反応経路はまた、当技術分野において公知の方法を用いて新規に決定されうる(Schilling et al. 前記 (2000);Schilling et al. 前記 (2001))。適切な化学量論的および熱力学的制約が、定常状態条件下での反応ネットワークにおける系内および交換反応に課せられうる。制約はまた、生物系へのおよび生物系からの、反応物の入力ならびに出力に課せられうる。任意に、制御的制約もまた課せられうる(Covert et al., J. Theor. Biol. 213:73-88 (2001);Covert et al., J. Biol. Chem. 277:28058-28064 (2002))。これは、結果として、凸解析を用いて解かれうる線形等式および不等式のシステムを生じる。解の空間は、幾何学的に、起源から放射する高次元空間における凸多面体円錐に対応し、定常状態「流束円錐」と呼ばれる。この流束円錐内に、すべての可能な定常状態の解、およびこのゆえに、生物系のすべての許容できる流束分布が、存在する。極度経路は、流束円錐の辺を定義するベクトルに対応する。
【0052】
もう一つの態様において、体系的反応経路は、制御のツリーの1つの枝である。生物系の制御された遺伝子は、制御された遺伝子が水平軸上に示された図2Aに示されているように描かれうる。ブール表示において、各タンパク質および各遺伝子は、「オン」または「オフ」(それぞれ、活性または不活性)と見なされうる。生物系におけるすべての遺伝子およびタンパク質の活性度状態の組み合わせが、「体系的制御経路」または「体系的シグナル伝達経路」と見なされうる。
【0053】
もう一つの態様において、体系的反応経路は、制御因子もしくは制御因子群により制御される、制御された遺伝子または遺伝子セットの活性度に影響を及ぼす1セットの制御因子および制御反応である。これらのセットは、グラフとして表された制御ネットワークの連結性を分析すること、および特定の節点(制御因子または制御された遺伝子)に連結されたネットワークにおいて節点を同定することにより同定されうる。そのような種類の最小の可能性のあるセットは、制御因子と標的遺伝子の間の1つの制御反応を含むものである。
【0054】
本明細書に用いられる場合、用語「現象論的反応経路」は、生物系の状態を全部または一部、記述する実験データを分析することを通して定義される反応経路を指す。現象論的反応経路を定義するために用いられうるデータ型は、限定されるものではないが、トランスクリプトミクス、プロテオミクス、メタボロミクス、フラックソミクス、タンパク質-タンパク質相互作用、およびDNA結合部位占有のデータを含む。実験データから現象論的経路を定義するために用いられるデータ分析方法は、限定されるものではないが、システム同定、統計学的、アルゴリズムの、またはシグナル処理の技術を含む。
【0055】
生物系の反応および反応物についての現象論的情報は、当技術分野において公知の方法により測定されうり、定性的かまたは定量的でありうる。例えば、現象論的情報は、生物系において、遺伝子の転写、タンパク質の発現もしくは相互作用、代謝産物もしくは他の反応物の産生、または反応の使用を測定することにより得られうる。「ゲノム(genome)」という用語への類推により、実質的に生物体または細胞の全体の尺度で得られる場合、そのような情報は、それぞれ、「トランスクリプトーム(transcriptome)」、「プロテオーム(proteome)」、「メタボローム(metabolome)」および「フラックソーム(fluxome)」と呼ばれる。
【0056】
トランスクリプトーム尺度で遺伝子発現を測定する方法(「トランスクリプトミクス(transcriptomics)」としても知られている)は、当技術分野において知られており、例えば、同時にすべての転写物の同時分析を可能にするDNAマイクロアレイ方法(Shena et al., Science 270:467-470 (1995);DeRisi et al., Science 278:680-686 (1997))、および遺伝子発現の連続分析(SAGE)方法(Velculescu et al., Trends Genet. 16:423-425 (2000))を含む;タンパク質発現を測定する方法(「プロテオミクス(proteomics)」としても知られている)もまた、当技術分野において知られている。発現プロテオミクス方法は、一般的に、2次元ゲル電気泳動によるようなタンパク質の分離、続いて、放射性標識、色素または染色を用いるタンパク質画像処理を含む。分離されたタンパク質は、その後、質量分析法によるペプチド質量フィンガープリント法およびナノエレクトロスプレーによるペプチド配列タグ分析のような方法を用いて同定される(Blackstock et al., Trends Biotechnol. 17:121-127 (1999))。
【0057】
大規模で細胞における生物学的分子間の相互作用を測定するための方法もまた、当技術分野において知られている。タンパク質-タンパク質相互作用情報は、タンパク質の機能に関する推論を可能にするが、例えば、ペアワイズタンパク質相互作用を同定する大規模2ハイブリッド分析を用いて得られうる(Fromont-Racine et al., Nat. Genet. 16:277-282 (1997))。間接的タンパク質-DNA相互作用情報は、DNA結合タンパク質のゲノム結合部位および転写因子のゲノム標的のゲノム尺度の同定を可能にする、クロマチン免疫沈降チップ(ChIP-ChIP)方法を用いて得られうる(Iyer et al., Nature 409:533-538 (2001))。
【0058】
細胞において代謝産物の補体を測定する方法(「メタボロミクス(metabolomics)」としても知られている)もまた、当技術分野において知られており、例えば、13C-NMRのような核磁気共鳴(NMR)分光分析法;ガスクロマトグラフィー/飛行時間型質量分光分析法(GC/TOFMS)のような質量分光分析法;および液体クロマトグラフィーを含む(Fiehn, Plant Mol. Biol. 48:155-171 (2002);Phelps et al., Curr. Opin. Biotech. 13:20-24 (2002))。
【0059】
同様に、反応経路を通しての流束を測定する方法(「フルックソミクス(fluxomics)」としても知られている)は、当技術分野において知られており、例えば、代謝流束比率分析(METAFoR)である(Sauer et al., J. Bacteriol. 181:6679-6688 (1999))。METAFoRは、用いられた代謝経路を反映している、一律に同位体的に標識された前駆体分子から生じるバイオマス成分における無傷の炭素結合の相対的存在量を定量する。
【0060】
生物系の生理学的状態を繰り返して変えることにより、実験的にかまたはコンピューター内でのいずれかで、異なる状態での一連の現象論的測定値が、得られうるまたは予測されうる。これらのデータは、ベクトルの形をとって組織化され、行列または表形式で表されうる。例えば、1組の遺伝子アレイ発現データは、各行が遺伝子であり、各列が実験であり、各値は発現レベルまたは率である、行列として組織化されうる。もう一つの例として、1組のフルックソームデータは、各行が反応であり、各列が実験であり、各値は流束レベルまたは率である、行列として組織化されうる。さらなる例として、1組の表現型データは、各行が実験であり、各列が環境的構成要素(栄養分、老廃物、またはバイオマスのような)であり、各値は摂取、分泌または成長の速度である、行列として組織化されうる。
【0061】
現象論的情報は、1セットの現象論的反応経路を決定するために、システム同定の方法、統計学的データ解析、コンビナトリアルアルゴリズムまたはシグナル処理のような、当技術分野において公知の様々な方法により分析されうる。
【0062】
システム同定の方法は、当技術分野において知られており、例えば、様々な型のクラスタリング分析方法を含む(Sherlock et al., Curr. Opin. Immunol. 12:201-205 (2000)に概説されている)。クラスタリング方法は、共発現されている遺伝子のグループを抽出するために行列または表形式での実験データに適用されうる。互いに素であるかまたは重複しているかのいずれかでありうるこれらのグループは、現象論的経路の定義として用いられうる。または、各クラスター内のデータベクトルは、そのクラスターについての代表する現象論的経路であるように選択されうる − このベクトルは、例えば、クラスターの重心としても知られている、クラスター内のデータポイントの平均値でありうる。
【0063】
クラスタリング分析方法は、例えば、階層的クラスタリング分析(Eisen et al., Proc. Natl. Acad. Sci. USA 95:14863-14868 (1998);Wen et al., Proc. Natl. Acad. Sci. USA 95:334-339 (1998))を含み、それにより、単一の反応物プロファイルが連続的に連結されて節点を形成し、その後、さらに連結される。その工程は、すべての個々のプロファイルおよび節点が連結されて単一の階層ツリーを形成するまで続く。クラスタリング分析方法はまた、分割的クラスタリング分析(Alon et al., Proc. Natl. Acad. Sci. USA 96:6745-6750 (1999))を含み、2つのベクトルがランダムに初期値にセットされ、各反応物は、確率関数を用いて2つのベクトルのうちの1つに割り当てられる。ベクトルは、その2つのクラスターの重心を形成するように反復して再計算され、各クラスターは、各クラスターが単一のプロファイルからなるまで同じ様式で連続的に分割される。クラスタリング分析方法はまた、データが適度に均一なグループへ区分化される方法を含む。区分化を組み込むクラスタリング方法は、例えば、自己組織化マップ(Kohenen, "Self Organizing Maps," Berlin: Springer (1995);Tamayo et al., Proc. Natl. Acad. Sci. USA 96:2907-2912 (1999))およびk-平均クラスタリング(Everitt, "Cluster Analysis 122," London: Heinemann (1974))を含む。
【0064】
システム同定のもう一つの方法は、データの主成分分析であり、データ行列の特異値分解(SVD)に密接に関連している(Holter et al., Proc. Natl. Acad. Sci. USA 97:8409-9414 (2000);Alter et al., Proc. Natl. Acad. Sci. USA 97:10101-10106 (2000);Holter et al., Proc. Natl. Acad. Sci. USA 98:1693-1698 (2001))。主成分分析は、観察結果における差を説明する多次元データセットにおいて基本変数を決定するための統計学的技術であり、多次元データセットの解析および視覚化を単純化するために用いられうる。SVDは、データ、例えば、遺伝子発現データの、遺伝子xアレイ空間から換算対角行列化「固有遺伝子」x「固有アレイ」空間への線形変換であって、固有遺伝子(または固有アレイ)がその遺伝子(またはアレイ)の一意的な正規直交重ね合わせである。データの正規化および分類後、個々の遺伝子およびアレイは、それぞれ、類似した制御および機能、または類似した生理学的状態に従ってグループ化となる。主成分およびSVD分析は、主要な構成要素またはモードあたりの各ベクトルがどれくらいの変動性を捕捉しているかにより順序づけられたデータ空間(例えば、nが遺伝子の数である場合はn次元)において1セットのベクトルを出力する。これらのベクトルは、それぞれ、分析された実験が表している特定の条件下における生物体の遺伝子/タンパク質補体の使用量の主要なモードを記述する現象論的経路として解釈されうる。
【0065】
階層的クラスタリング、自己組織化マップ、K-平均クラスタリングおよび主成分分析を含む、様々な型の大規模データ分析のためのソフトウェアは、当技術分野において知られている、または特定の適用として開発されうる。典型的分析ソフトウェアは、「XCluster」(ワールドワイドウェブ上のgenome-www.stanford.edu/~sherlock/cluster.htmlを参照)、「Cluster」ソフトウェア(ワールドワイドウェブ上のrana.lbl.gov/EisenSoftware.htmを参照)および「Genesis」ソフトウェア(ワールドワイドウェブ上のgenome.tugraz.at/Software/Genesis/Description.htmlを参照)を含む。
【0066】
どの方法が、またはどの方法の組み合わせが、1セットの現象論的反応経路を決定するために現象論的情報を分析するのに適しているかを当業者は決定できる。
【0067】
本明細書に用いられる場合、用語「実施反応経路」は、生物系に存在する反応物、または生物系を通しての流束を考慮に入れて実行可能である生物系の体系的反応経路を指す。実施反応経路は、このように、生物系において実際に流束を示す可能性が高い体系的反応経路のサブセットを構築する。生物系についての現象論的情報と一致している体系的経路のサブセットは、存在する反応物または生物系を通しての反応流束と一致した実施反応経路を同定するために決定されうる。
【0068】
いったん、1セットの体系的反応経路および1セットの現象論的反応経路が提供されたならば、その2セットが比較され、共通の経路が同定される。上記のように、その2セットの経路は、ベクトルの形をとって、または経路に関与している遺伝子のグループの形をとって、または他の便利な方法で表されうる。2つのベクトルまたは2つのグループ化が比較されうる、当技術分野において公知の多数の数学的方法がある。
【0069】
例えば、2セットのベクトルは、以下のものを含むベクトル間のペアワイズ類似性について多数の測定を用いて比較されうる:(1)ユークリッド距離、空間内の2点、すなわちこの場合、2つのベクトルの間の、ベクトルの方向および大きさの両方を考慮に入れての、平方距離に対応する(Hubbard J.H. and Hubbard B.B. Vector Calculus, Linear Algebra, and Differential Forms, Prentice-Hall(1999));(2)ピアソン相関係数、長さが一方に対して標準化され、それに従って、ベクトルの長さに依存しない2つのベクトル間の角度を測定する(Larsen R.J. and Marx M.L. An Introduction to Mathematical Statistics and Applications, Prentice Hall, New Jersey (1986));(3)ジャックナイフ相関係数、ピアソン相関係数に類似しているが、より頑健な距離測定を提供するために単一のアウトライアー成分の効果について補正されている(Heyer et al., Genome Res. 9:1106-1115 (1999))。ベクトルを比較するための他の方法は、当技術分野において知られている。
【0070】
同様に、体系的および現象論的定義に基づく遺伝子のグループ化を比較するための方法は、以下のものを含む:(1)ランド(Rand)指標、同じセットの遺伝子の2つの異なるグループ化の間の重複部分を測定する(Yeung K.Y et al., Bioinformatics 17:177 (2001));および(2)対応分析、お互いに最も類似している体系的経路および現象論的経路がお互いに最も接近して位置していることが示されるように、2つのグループ化間の2次元グラフ表示を提供する(Johnson R.A. and Wichern D.W. Applied Multivariate Statistical Analysis, 5th Ed., Prentice Hall, New Jersey (2002))。
【0071】
当業者は、どの方法が、またはどの方法の組み合わせが、実施反応経路を同定するために体系的反応経路および現象論的反応経路を比較するのに適しているかを決定することができる。
【0072】
本発明はまた、細胞全体の機能への遺伝子多型の効果を測定する方法を提供する。その方法は、以下の段階からなる:(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークを作成する段階;(b)反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階、および(c)正常な生物系を表す反応ネットワークと比較してストレスを加えられた生理学的状態において適用された生化学的または生理学的条件への感受性を測定する段階であって、感受性が、遺伝子多型媒介性病態の表現型的結果を示している、段階。生化学的または生理学的条件は、例えば、流束負荷、pH、反応物、または生成物における変化、加えて、酸化的もしくはエネルギー負荷におけるもののようなシステムまたはサブシステム変化でありうる。
【0073】
簡単には、生物系の生理学的状態を分析し、それらを体系的反応経路と比較し、1つまたは複数の実施反応経路を決定するための上記の方法は、同様に、遺伝子多型の、生物系またはそのサブコンポーネントへの効果を測定するために用いられうる。例えば、体系的反応との比較に用いられる現象論的情報は、酵素もしくは他のポリペプチドの実際のかまたはシミュレートしたかのいずれの遺伝的突然変異からでも得られうる。突然変異による酵素またはポリペプチドの活性における変化は、当技術分野において周知の様々な方法を用いて、欠陥を表現する源から得られうる、または利用可能な情報もしくは予測的計算に基づいて推定される。評価されうる活性は、例えば、酵素の触媒機能、または転写制御因子のようなポリペプチドの結合活性を含む。
【0074】
遺伝子多型の反応ネットワークを構成するコンピューター内でのモデルは、前に記載されているように構築されうり、多型の効果は、全体としての生物系の関係において評価されうる。反応ネットワークが曝される条件は、変化されうり、単一または複数の、組み合わされた多型の効果は、生物系全体の機能に対して、または多型がそのサブシステムに関連している場合に、測定されうる。例えば、体系的経路または実施経路は、遺伝子多型の存在または非存在下において計算されうる。その2つの反応ネットワーク間の体系的経路、実施経路または表現型顕在化の比較は、本来の反応ネットワークと多型対応物との間の、もしあれば、差を測定するように行われうる。そのような差は、例えば、新しい体系的または実施経路の創出、そのような経路の省略、およびそのような経路の速度または大きさにおける変化を含みうる。正常と多型の状態間のそのような変化の結果はまた、生化学的もしくは生理学的機能への、または遺伝子多型の表現型的発現への結果的影響を明らかにするものと思われる。
【0075】
変化させられうる条件は、例えば、システムの任意の生化学的または生理学的な構成要素を含む。そのような条件は、例えば、温度、pH、炭素源のような外部環境的成長条件、および構成要素が生物系に入る、または出ることを可能にする他の入力/出力反応を含む、いずれの生物系の外部でもありうる。または、そのような生化学的または生理学的条件は、生物系の内部でありうる。内部条件の具体例は、例えば、系またはサブシステム境界を横断する反応物の通過を可能にする源および流しを示す交換反応、反応物を補充するまたは排出する系内反応、ならびに細胞により産生される構成要素のカテゴリーを表す要求反応を含む。生物系の内部の生化学的または生理学的条件はまた、pH、炭素源の利用、代謝産物の有効性、補助因子、基質および生成物における変化を含みうる。他の変化される内部条件は、例えば、対応するサブシステムへの酸化的またはエネルギー負荷のようなシステム負荷における変更を含みうる。当業者に周知の様々な他の生化学的または生理学的条件は、同様に、生物系機能への遺伝子多型の効果を測定するための比較反応ネットワークシミュレーションを得るために本発明の方法において変化させられうる。
【0076】
各生物系についての条件を変更または変化させることは、一般的に、天然生物系と対応する多型性生物系との間の比較について十分である。しかしながら、生化学的または生理学的条件が、生物系またはその相関的サブシステムにストレスを加えるのに十分な大きさで天然生物系および多型性生物系へ適用される場合、影響は増大されうる。例えば、多型性酵素の活性がそれの天然の対応物と比較してわずかにのみ変化しているところにおいて、活性における差は、試験された活性範囲内において細胞の機能に実質的に影響を及ぼしているわけではないかもしれない。一つには、細胞の機能へのわずかの影響は、活性不足にもかかわらず、正常な細胞活性を行いうる十分な生成物の産生のためでありうる。しかしながら、多型性酵素の活性がストレスを加えられた条件下で試験されるところにおいて、システムの必要とされた追加の仕事による追加の細胞の要求を満たすことができない可能性がある。従って、ストレスを加えられた条件下において、天然の反応ネットワーク機能と多型性反応ネットワークのそれとの比較は、過剰要求下での生成物産生の不足により多型性酵素のそれらの活性効果をより容易に明らかにするものと思われる。
【0077】
生化学的または生理学的条件を適用することに関して用いられる場合の用語「ストレス」または「ストレスを加えること」は、生物系、反応ネットワークまたはそのサブシステムを緊張の状態または余分な努力の影響下に置くことを意味するように意図される。ストレスは、生物系、反応ネットワークもしくはそのサブシステムの正常なまたは名目上の状態下のそれへ余分に、構成要素への要求、負荷または努力を適用する限り、穏やかまたは激しくありうる。それゆえに、システム状態にストレスを加えることは、システムに、目標を達成するに向けて追加の努力を発揮するようにさせる条件を課すことを含むように意図される。生理学的状態にストレスを加える生化学的または生理学的条件を生物系へ適用する具体例は、下の実施例IIIにさらに記載されている。
【0078】
遺伝子多型は、例えば、一塩基多型(SNPs)、およびコードしている遺伝子内の、結果としてその遺伝子またはそれのポリペプチドコード領域内に多型性領域を生じる複数の変更箇所を構成しうる。遺伝子またはコード領域構造における多型は、含んでいる核酸の発現レベル、コードされたポリペプチドの活性、または両方を変えうる。遺伝学およびゲノミクスの業者に周知の多型は、例えば、遺伝子の対立遺伝子多型、SNPs、および参照核酸の多型性領域を含む。遺伝子多型の具体例は、グルコース-6-リン酸デヒドロゲナーゼ(G6PD)およびピルビン酸キナーゼ(PK)についての実施例IIIに記載されたコード配列におけるそれらの変異を含む。多数の他の遺伝子多型およびそれらの関連疾患は、同様に、当業者によく知られている。
【0079】
教示および手引きが本明細書に提供されるとすれば、細胞の機能への遺伝子多型の効果を測定するための本発明の方法は、任意の既知の、またはその後に決定される遺伝子多型について用いられうる。同様に、遺伝的欠陥と媒介された病態との間の関連もまた、以前に知られている、またはその後決定されうる。そのうえ、下でさらに記載されているように、酵素またはポリペプチドの活性を変化させる、以前には未決定の遺伝子多型を診断するために用いられうる。しかしながら、生物系全体の関係において欠陥の影響を測定することにより、生物系の機能的能力のより正確な表現型および評価が得られうる。そのような複雑なシステムの表現型的および機能的寄与の正確な測定は、遺伝子多型媒介性疾患のより有意義な治療のために有利に適用されうる。
【0080】
多型性酵素の、ストレスを加えられた条件に対する感受性は、どの多型が反応系に組み入れられているか、多型および系に加えられるストレスのレベルによるポリペプチド活性変化の程度に依存して、多かれ少なかれ、表明されうる。教示および手引きが本明細書に提供されるとすれば、どんな感受性が特定の多型性酵素または他のポリペプチドを示しているかを当業者は知るものと思われる、または測定できる。例えば、グルコース-6-リン酸デヒドロゲナーゼ(G6PD)は、ペントース経路の酸化的支流において機能し、最高速度(Vmax)および補助因子結合親和性(Ki-NADPH)における変化に感受性がある。これらの活性における変化をもつ酵素は、結果として、変化した活性をもつG6PDについての代謝状態の指標として用いられうる酸化的要求性における変化を生じる。例えば、生物系の代謝状態の1つの高感度指標は、NADPH/NADP比率である。この比率は、ストレスを加えられた条件下で測定され、生物系における表現型的および機能的変化を測定するために、多型反応ネットワーク間を、正常なネットワークのそれと比較されうる。下の実施例IIIでさらに記載されているように、これらのG6PD活性において変化を有する多型酵素は、それらの媒介する非慢性および慢性溶血性貧血のように本発明の方法において識別されうる。
【0081】
同様に、ピルビン酸キナーゼ(PK)は、解糖において機能し、Vmaxおよびホスホエノールピルビン酸のような基質に対する親和性(KPEP)における変化に反応しやすい。これらの活性における変化は、結果として、ATP濃度、および2,3 DPG濃度における変化を生じる。VmaxおよびKPEPの高感度指標は、例えば、生物系が正常な条件と比較して最大エネルギー負荷またはストレス下にある場合のATPの濃度を含みうる。G6PDと同様に、これらの活性において変化をもつ多型性PK酵素は、貧血患者が正常なホメオスタシス状態から逸脱する減弱した能力をもつことを示す。
【0082】
機能への影響を測定するために、多型性酵素の活性を特定する反応ネットワークが構築され、システムは、上記のようにストレスを加えられる。正常または天然の反応ネットワークと比較したストレスを加えられた条件に対する感受性は、その後、様々な指標を用いて測定されうる。G6PDおよびPKについて上で記載されたそれらは、酵素活性のための典型的指標である。教示および手引きが本明細書に提供されるとすれば、評価されることになっている特定の酵素もしくはポリペプチドの生化学的または生理学的活性の他の指標が本発明の方法に用いられうることを当業者は理解するものと思われる。例えば、本質的に、基質、生成物、補助因子、または他の代謝産物のいずれの測定もポリペプチド活性の指標として用いられうる。そのような指標は、下流反応の生成物を測定することによるなどのように直接的にまたは間接的に評価されうる。さらに、特定の生化学的もしくは生理学的状態のそのような指標または一般的な指標の比率が同様に用いられうる。例えば、ATP、ならびにNADPHおよびNADPのようなエネルギー補助因子が、生物系の、それぞれ、酸化的状態およびエネルギー充足の一般的な指標である。
【0083】
そのような生化学的または生理学的指標のストレスを加えられた条件下での活性における変化は、変化した活性による生物系の機能における変化を同定する、加えて、多型性酵素の表現型的結果を示すと思われる。例えば、生物系が過剰な酸化的またはエネルギー要求性に応答できないことは、例えば、多型性酵素が、ストレスにより引き起こされた増加した仕事要求性に対処するためにそれの割り当てられたサブシステム内で構成要素を十分に産生することができないことを示しうる。機能的生物系変化は、例えば、変化した要求および産生される生成物、加えて欠乏した酵素活性を補償する流束または経路における変化に対応しうる。表現型的結果は、例えば、生物系増殖の抑制、生物系質量における減少、または生物系溶解および死さえもありうる。
【0084】
本発明の方法はまた、遺伝子多型媒介性病態の診断のために用いられうる。上記の方法は、疑わしい遺伝子多型の活性を表す生物系反応ネットワークを作成するために用いられうる。生物系反応ネットワークは、上記のようにストレスを加えられ、疑わしい多型性酵素の活性を含む反応ネットワークは、正常な反応ネットワークのそれと比較されうる。正常と比較した、疑わしい多型のネットワークの機能または表現型における変化は、遺伝的変化が酵素欠乏に結びつけられることを示すものと思われる。教示および手引きが本明細書に提供されるとすれば、複数の疑わしい酵素欠陥が同定され、かつ特定の疾患に結びつけられうることを当業者は理解するものと思われる。例えば、当業者は、複数の反応ネットワークの創出において疑わしい患者からの活性測定値を用いることができる。疑わしい活性を含むネットワークの機能または表現型の正常なネットワークとの比較は、機能または表現型における差、およびそのように同定された差のいずれも結果として病的状態を生じるのに十分であるかどうかを同定するものと思われる。
【0085】
それゆえに、本発明は、遺伝子多型媒介性病態を診断する方法を提供する。その方法は以下の段階からなる:(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階であって、適用された生化学的または生理学的条件が遺伝子多型媒介性病態と相関している、段階、および(b)反応ネットワーク内の1つもしくは複数の病態の生化学的または生理学的指標を測定する段階であって、ストレスを加えられていない生理学的状態と比較した、ストレスを加えられた状態における1つもしくは複数の生化学的または生理学的指標における変化が、病態に対応する遺伝子多型の存在を示している、段階。
【0086】
本発明は、生物系データセットを調和させる方法をさらに提供する。その方法は以下の段階からなる:(a)複数の階層的制御事象を含む遺産データから再構築される第一の制御ネットワークを提供する段階;(b)経験的データから得られる第二の制御ネットワークを提供する段階、および(c)第一の制御ネットワークにおけるその階層的制御事象と、第二の制御ネットワークにおける要素との間の整合性測度を測定する段階であって、階層的制御事象についての高程度の整合性測度が、第一反応ネットワークまたはそのサブコンポーネントの妥当性を示している、段階。
【0087】
データセットを調和させるための本発明の方法は、生物系モデルの正確さを測定するために、加えて、生物系モデルの新しい構成要素、関連、ネットワークおよびサブネットワークを同定するために有用である。モデルは、科学的に提供されたデータ、数学的解釈に、加えて、純粋な計算的分析または理論的予測さえにも基づきうる。生物系モデルの源にかかわらず、データセットを調和させるための方法は、一つのモデルまたはデータセットと比較モデルまたはデータセットとの間の整合性を同定するために、モデルまたはそのデータセット表現をもう一つのデータの源と比較する。2つのモデルまたはそれらのデータセット間の整合性の程度は、最初のモデルがそれの対応する天然の生物系に対してどれくらい正確であるかを示すものと思われる。
【0088】
生物系全体を表すデータセットは、本発明の方法およびその任意の下部構造を用いて調和されうる。下部構造は、生物系反応ネットワークのサブネットワークまたはモジュールからなりうる。厳密なサブネットワークの境界および境界は、用いられる評価基準に依存して変わりうるが、一つの特徴は、そのような下部構造が本質的に単位として、評価、分析または同定されうることである。境界測定のための基準は、例えば、機能的寄与、構造的寄与、および例えば、グラフまたは数学的区分を含みうる。生物系のサブネットワークまたはモジュールの具体例は、上および下に記載されており、図16およびそれの関連した実施例IVにさらに示されている。他の実施例は、当業者によく知られており、教示が本明細書に提供されるとすれば、本発明の方法において用いられうる。
【0089】
比較のために適用可能なデータセットは、広い範囲の異なる型およびサイズを含みうる。例えば、データセットは、多数かつ複素数の多様なデータ要素または反応ネットワークの構成要素を含みうる。または、データセットは、反応ネットワークのサブネットワークまたはモジュールを比較する場合のように小さくかつ比較的単純でありうる。比較のための各データセットがそれのシステム構成要素に関して包括的であればあるほど、整合性測度は正確かつ信頼性のあるものになることを当業者は理解するものと思われる。しかしながら、最初のデータセットの1つまたは両方の特性に基づく固有の差を補いうる信頼性のある手段を当業者は知るものと思われる、または測定することができる。それゆえに、本発明の方法は、比較のためのデータセットのペアが、大きいかもしくは小さいか、または多様かもしくは単純かのどちらでもありうるデータセットを調和させるために、加えて、ペア内のデータセットが、お互いに関して、大きいかもしくは小さいか、または多様かもしくは単純かのどちらででもある比較のために、用いられうる。
【0090】
本明細書に用いられる場合、用語「遺産」または「遺産データ」は、文献、他の報告書、計算データ、データベースもしくはそれらの組み合わせから入手できるような既知の情報またはデータを指すように意図される。情報は、公開のドメインから得られうる、またはユーザー自身の調査によりあらかじめ知られうる。それゆえに、その用語は、それが属するシステム、科学的信憑性、またはそれが促進する理論に対して科学的評価および考慮の恩恵を受けた二次データを含むように意図される。本質的に任意の入手可能な型での遺産データが、本発明の方法に用いられうり、例えば、文学的、図式的、電子的、数学的または計算的型、加えて、それらの機能的等価物および変換物を含みうる。教示および手引きが本明細書に提供されるとすれば、当業者は、特定の形式を、直接的にかまたは本発明の反応ネットワークを表すのに有用な形式への変換後かのいずれかで用いる方法を知るものと思われる。様々なそのような有用な形式は、上および下で記載されており、他のものは、当業者によく知られている。
【0091】
本明細書に用いられる場合、用語「経験的な」または「経験的データ」は、一次的事実情報、観察または直接的感覚経験に基づくデータを指す。それゆえに、経験的データは、それが属するシステム、科学的信憑性、またはそれが促進する理論に対して科学的評価および考慮の恩恵を受けていない生データまたは一次データを指すように意図される。その用語は、例えば、遺伝子発現データ、タンパク質活性データなどに対応するデータ、データセットまたはそれらの等価の変換型を含むように意図される。それは、例えば、ゲノム、プロテオーム、トランスクリプトーム、代謝およびフラックソームのデータ取得により入手可能であるような大きな高処理量データセット、加えて、当業者に周知の様々な研究方法により入手可能な小さなデータセットを含みうる。当業者に周知の一次データの他の型は、同様に、本発明の方法に用いられうる。
【0092】
データセットを調和させる有用な特質は、例えば、既知の反応ネットワークおよびサブネットワークのモデルの両方の確証、加えてそれらの新しいサブネットワークもしくはモジュールの同定または発見を含む。現行のモデルの確証は、それが以前の科学的理論および原モデルに基づくその後の発見を立証するため、それ自体、有用である。同様に、ネットワークモデルの無効は、例えば、それは、構成要素、関連性または科学的前提が全体としてのネットワークモデルから削除されうることをユーザーに知らせるために、有用でありうる。さらに、データセットの調和は、全体内の特定のサブシステムまたはいくつかのサブシステムの示差的確証を示すことにより生物系反応ネットワークモデルのサブネットワークまたはモジュールを同定することができる。例えば、全体内の新しいサブネットワークの発見または妥当なサブネットワークの同定が、生物系ネットワーク内の、すべてではないが、一部のモジュールが調和される場合に生じうる。同定は、そのサブネットワークまたはモジュールが、生物系反応ネットワーク内の相対的に独立した実体を構成する、または生物系ネットワークの本体から相対的に切り離されるところにおいて、特に著しい。最後に、データセットの調和、およびネットワーク全体、それらのサブネットワークまたはモジュールの確証から得られる情報は、モデルを変化させて、変化したモデルが比較データセットと調和しているかどうかを測定することによりネットワークまたはサブネットワークを改善するために用いられうる。
【0093】
本発明の確証および発見方法は、本質的に任意の型または形式の反応ネットワークに適用できる。例えば、データセットは、反応ネットワークがコンピューター内のモデル、その数学的表現、統計学的表現、計算的表現、図式表現、または当業者に周知の様々な他の形式のいずれかにより表されているところにおいて、調和されうる。
【0094】
データセットの調和は、比較された生物系ネットワーク内の本質的に任意の因果関係の確証を可能にする。例えば、データセットの調和のための方法は、本明細書に記載されたすべての型の反応ネットワークを特定化するデータセットに用いられうる。それゆえに、方法は、代謝反応ネットワーク、制御反応ネットワーク、転写反応ネットワークもしくはゲノム尺度反応ネットワーク、またはそれらの任意の組み合わせに対応する反応ネットワークに適用できる。調和の方法を行うために、遺産データから再構築される第一反応ネットワークが提供されうる。前に記載されているように、遺産データは、一次データを生物系ネットワークコンポーネントのワーキングモデルへと集合させた二次供給源から得られうる。第一反応ネットワークは、経験的データから得られた第二反応ネットワークと比較される。経験的データは、例えば、生物系内の構成要素の活性または他の属性を表す任意の一次データからなりうる。
【0095】
データセットの比較は、例えば、ネットワーク表現と経験的データとの間の整合性の測度を提供する、当業者に公知の任意の方法により達成されうる。一つの態様において、整合性測度は、経験的データと遺産データ、または例えば、ネットワークコンポーネントを反応カテゴリーの階層組織化へ分類することによる遺産由来ネットワークモデル、との間で測定される。反応カテゴリーは、調和されるデータセット間の整合性測度を測定するために有用である。反応カテゴリーは、例えば、反応物および生成物、反応流束、代謝反応、制御反応および制御事象を含みうる。さらに、反応カテゴリーは、カテゴリーが遺産由来ネットワークと経験的データセットの間の整合性測度を得るのに受け入れられるフレームワークを提供する限り、任意でありうる、または例えば、機能的基準、統計学的基準、または分子集合に基づきうる。
【0096】
制御反応ネットワークの特定の態様についての典型的反応カテゴリーは、下の実施例IVにさらに記載される。簡単には、制御ネットワークの要素は、例えば、機能的相互作用に基づく3つのカテゴリーへと分類されうる。これらのカテゴリーは、例えば、ペアワイズ制御相互作用、標的-制御因子単位およびレギュロンを含む。教示および手引きが本明細書に提供されるとすれば、制御ネットワークについてのこれら以外のカテゴリー、および他の型の反応ネットワークについてのカテゴリーは、当業者により同定または作成されうる。例えば、他の型のカテゴリーは、同化作用もしくは異化作用の反応または細胞シグナル伝達機能を含みうる。カテゴリーの特定の型は、調和される反応ネットワークの型、および本発明の方法に用いられるために選択された整合性の測度に依存するものである。
【0097】
調和されるデータセットの整合性は、当業者に周知の様々な方法により測定されうる。そのような方法は、有意性について分析されうるネットワーク内のカテゴリーまたは要素のそれぞれについての値を生じるように用いられうる。例えば、上の典型的反応カテゴリーにおいて、ペアワイズ相互作用についての整合性測定値は、例えば、ピアソン相関係数により得られうるが、標的-制御因子単位についての整合性測定値は、例えば、複数相関係数により測定されうる。さらに、レギュロンについての整合性測定値は、例えば、レギュロン相関内の平均により測定されうる。当技術分野において周知の他の方法もまた、用いられうり、例えば、相互情報に基づく測定(Cover TM & Thomas JA. Elements of Information Theory, Wiley (1991))、または非線形回帰方法(Hastie T, Thibshirani R & Friedman J. The Elements of Statistical Learning, Springer (2001))を含む。相互情報測定は、原データの打切りを必要とするが、ピアソンまたは複数の相関係数により説明されない非線形依存を組み込むことを可能にする。同様に、非線形相関測定は、整合性計量として用いられうるが、線形相関と比較してそれらの付加された柔軟性は、結果として、経験的データと提案されたネットワーク構造との間の整合性を過大評価することになる。整合性測度の特定の値の統計学的有意性は、遺産データおよび経験的データが良い適合度を構成するかどうかを評価するように測定されうる。統計学的に有意であるもののような、高程度の整合性測度は、その2つのネットワーク、サブネットワークまたはサブコンポーネントが調和していることを示す。さらに、ネットワーク全体かまたはそのサブネットワークかのいずれかに関して調和しているそれらのデータセットは、遺産モデルの確証を示すが、相互に調和しないものは、遺産由来モデルと経験的データとの間の相違を示す。
【0098】
本発明はさらに、生物系反応ネットワークを改善する方法を提供する。その方法は、以下の段階からなる:(a)生物系の数学的表現を提供する段階;(b)観察された生物系の挙動と、コンピューター内での類似した条件下での生物系の数学的表現の挙動との間の差を測定する段階;(c)生物系の数学的表現の構造を改変する段階;(d)観察された生物系の挙動と、コンピューター内での類似した条件下での生物系の改変された数学的表現の挙動との間の差を測定する段階、ならびに(e)挙動の差が最小化されるまで段階(d)および(e)を繰り返す段階であって、予定の正確さ基準の満足が生物系反応ネットワークにおける向上を示している、段階。
【0099】
その方法はさらに、以下の段階を含みうる:(f)異なる条件下で生物系の挙動を測定する段階、および(g)異なる条件下で生物系反応ネットワークを改善するために方法の段階(b)から(e)までを繰り返す段階。生物系反応ネットワークを改善するための方法は、追加として、最小化される挙動の差が尽きるまで段階(f)および(g)を繰り返す段階であって、向上した生物系反応ネットワークが最適な生物系反応ネットワークを表している、段階を含みうる。
【0100】
本発明の方法はまた、生物系の数学的表現がアルゴリズムのアプローチおよび標的にされた実験を用いて繰り返し様式で向上されうる一般的過程に適用されうる。多くの生物系は、完全には特徴付けられておらず、これらの系の反応ネットワークを再構築するために追加の実験が必要とされうる。最適なモデルを迅速に集めるそのような過程について、繰り返し実験が体系化されうる。図2Bは、実施例Vでさらに記載されているが、そのような工程を例示している。
【0101】
モデル構築過程は、モデル範囲および正確さの表明から始まりうる。または、モデル構築過程は、そのようなあらかじめ決められた範囲または正確さの評価の非存在下で進行しうるが、いったん、望ましい範囲または正確さが最終的に得られたならば、終結されうる。
【0102】
モデルを構築するための目的は、モデルがもつことになっている、期待される正確さの特定化および可能性の範囲へと導く。モデルの範囲は、例えば、単一経路を記述することから生物体の野生型株のゲノム尺度記述までを範囲とすることができる。よりいっそう広い範囲は、配列変異を含み、それに従って、モデルが野生型株のすべての変異体を記述すると主張することができるものと思われる。
【0103】
正確さは、例えば、定性的または定量的基準に基づきうる。有用なモデルは、定性的であり、例えば、特定の遺伝子産物が特定の成長条件下で抑制される場合、生物体の成長速度が低下することを予測する言明を出す能力がありうる。定量的モデルは、測定誤差内で、1つまたは複数の成長条件下においてすべての遺伝子産物の抑制の成長速度におけるパーセント低下を予測すると主張することができる。繰り返しモデル構築過程の程度は、それゆえに、作成されるモデルの必要とされる範囲および正確さを特定化することができるユーザーにより指図されかつあらかじめ決定される。
【0104】
再構築された生化学反応ネットワークは、実験系のモデルとして構想されうる。このことについて、それは、実際の生物体を曝すことが望ましい任意の条件下で順応性のある操作および研究ができる実際の生物体の複製である。再構築された生物系反応ネットワーク、またはそのコンピューター内バージョン、の1つの利点は、生物体の機能および表現型を特徴付ける莫大な量の情報を生じることができることである。コンピューター内のモデルの正確さはまた、例えば、調和についての上記の方法を用いて、再構築されたネットワークの、実際の生物体から得られた経験的データのそれとの整合性を測定することにより決定されうる。実際の生物体および容易に操作できる生物体の再構築されたモデルの両方の有効性は、生物体挙動および機能の信頼できかつ正確な予測のためにコンピューター内モデルの能力を利用するために相乗的に用いられうる。
【0105】
生物系のコンピューター内モデルを再構築するアプローチは、生化学反応ネットワークの繰り返し改善を通してである。モデルの改善は、実際の生物体の特定の機能を評価し、その特定の研究から得られる新しい情報をモデルへ組み込むことにより達成されうる。モデルは生物体の複製であるため、類似した条件下で行われる場合、実際の生物体と比較してモデルからの動作における逸脱は、その逸脱を説明することができるそのコンピューター内のものへのその付加、脱落または修正を示すデータを生じる。実際およびコンピューター内の生物体が曝される条件を複製し、モデル構造を補正して実際の生物体から得られる経験的データと整合しているように変化させ、その条件を繰り返すまたはそのペアを異なる条件に曝す、連続的研究の繰り返しにより、実際の生物体の機能および表現型を予測しうるモデルの正確さが連続的に増加するものと思われる。
【0106】
簡単には、研究は、実験設計アルゴリズムにより規定された定義済みの条件下で実際の生物体で行われうる。同様に、実際の生物体を記述するコンピューター内モデルは、同じ条件下で実際の生物体の挙動をシミュレートするために用いられうる。その時々で有効なデータに基づいて、モデルが望ましい範囲または正確さの必要条件を満たすことができない場合には、モデルを向上させるためにさらなる研究が行われうる。これらの研究は、例えば、段階を追って、または増加的に、ネットワーク機能を探索する体系的工程を用いて設計されうる。ネットワーク機能を探索する一つのアプローチは、例えば、頑健なまたは確証されたネットワークのサブシステムからあまり確証されていない部分へ増加的に移動することでありうる。もう一つのアプローチは、例えば、異なる型の機能、または機能を探索するための異なる型の方法を標的にすることでありうる。そのような標的にされた研究の方法の特定の例は、例えば、ゲノムのノックアウト、発現プロファイリング、タンパク質-タンパク質相互作用などを含む。それゆえに、コンピューター内モデルの内容および能力は、繰り返し更新を受けやすい。
【0107】
どんな実験が行われるべきかについての決定は、例えば、逸脱の性質および正確さ特定化における必要条件に基づいて決定されうる。逸脱は、モデルにより正しく予測されていない遺伝子発現アレイ、所定の条件下で実験的に測定されたフラックソームに合っていない1セットの計算された流束値、またはモデル予測との不一致を示している、1セットの表現型、例えば、成長、分泌および/もしくは取り込み速度、を含みうる。そのような不一致を解決するために行われうる実験は、不一致の原因であると考えられる1つもしくは複数の遺伝子がノックアウトされており、その結果生じた生物体がトランスクリプトミクス、フラックソミクスなどを用いて特徴付けられている、摂動分析、またはモデル逸脱に寄与していると考えられる細胞外環境の1つもしくは複数の構成要素が除去され、システムが再び特徴付けられている、環境的分析を含む。
【0108】
そのような実験を自動的に設計するアルゴリズムが考案されうる。遺伝子発現の場合に用いられうるアルゴリズムは、例えば、(1)モデルの予測との不一致を示す遺伝子を決定する、(2)段階(1)において遺伝子を調節する制御タンパク質を同定するために制御ネットワークモデルを用いる、(3)1つもしくは複数の制御タンパク質をコードする生物体における1つまたは複数の遺伝子をノックアウトする、(4)同じ環境条件下で同じトランスクリプトーム実験であるが、その新しいノックアウト系統で行うことでありうる。再構築された代謝ネットワークについて高処理量表現型研究の場合に用いられうる第二のそのようなアルゴリズムは、(1)不一致を示す表現型を決定する(例えば、成長速度が相関していない)、(2)モデル予測が観察された表現型に合うまで、一度に1つまたは複数、体系的にすべての生化学反応を加える、(3)段階(2)における反応を触媒する同定された酵素に有意な配列類似性をもつ遺伝子座を同定する、(4)それが予測された反応を触媒することができるかどうかを検証するために段階(3)における遺伝子をクローニングかつ特徴付けすることでありうる。アルゴリズムへの入力は数個あり、現行モデル、それが試験されたデータ、逸脱の大きさおよび性質などを含む。アルゴリズムからの出力は、生物体全体の実験の構成要素実験でありうる。
【0109】
アルゴリズムは、例えば、モデルにおいて欠けている構成要素を同定し、特定の生化学的な、タンパク質-DNA結合、タンパク質-タンパク質相互作用、または酵素動力学的活性実験が行われるように要請することができる。上記のように、2つの上の例において欠けている構成要素は、制御相互作用および同定された酵素である。これらの研究によりモデルの欠けている構成要素が明らかにされる場合には、適切なモデル更新が行われる。
【0110】
アルゴリズムは、例えば、細胞全体の挙動からの追加のデータの包含により促進されうる。成長、転写プロファイリング、代謝プロファイリング、DNA転写因子結合状態、またはプロテオーム実験が、モデルを更新するのを可能にするのに十分な情報を得るために1つまたは複数の環境条件下で行われるように要請しうる。
【0111】
遺伝子欠失のような1セットの入力または環境の入力を仮定すれば、生化学反応ネットワークの応答は、実際および計算の両方で試験されうる。実際のシステムは、システムの現象論的経路を通して特徴付けられる観察された応答を生じるが、実際のシステムのモデルは、システムの体系的経路により特徴付けられる応答を予測する。観察された応答および計算された応答は、前に記載されているように、実施経路を同定するために比較されうる。実験が行われる定義済みの条件下での測定された細胞機能および計算された細胞機能における差は、例えば、「誤差」として特徴付けられうる。この差は、操作可能ではないそれらの体系的経路に対応している。その後、誤差は、モデルを更新するために用いられうる。
【0112】
モデル更新はまた、例えば、モデル誤差が最小化されるようにモデルにおいてパラメーターを更新するためのアルゴリズムを用いることにより達成されうる。実施例VIにおいて同定されているように、制御ネットワークの特徴付けのためのアルゴリズムは、例えば、(1)モデルにより予測される各タンパク質の活性を得る、(2)各タンパク質について、結果としてT5aについての正しい発現値を生じる所定のタンパク質の活性に基づくルールを作成する、(3)制御された遺伝子についての全体の発現アレイを再計算する、(4)新しいモデル誤差を測定することによりモデル正確さについての基準間の差を評価する、および(5)将来の繰り返しのための新しいモデルとして最小誤差をもつモデルを選択することでありうる。最適なモデルに従って、更新が実施され、修正されたモデル予測と実際の応答との間に残っている「誤差」は、新しい研究がシステムをさらに探索するように設計するために用いられうる。過程は、例えば、これらの新しい研究に基づいて、かつ望ましい範囲または正確さが得られるまで、モデルをさらに更新するために1回または複数回、繰り返されうる。
【0113】
1ラウンドの繰り返し再構築過程において誤差を最小限にしうるモデル更新は、最適なモデル更新を生じるにおいて、非固有的またはお互いに非常に類似しうる。そのようなデータの有用性を残しておき、かつその後のラウンドの効率を増加させるために、代替のモデル更新は、例えば、それらが、繰り返しモデル構築のさらなるラウンドにおけるその後の使用のために検索されかつ利用可能であることができるように、保存されうる。さらに、実験結果の収集は、特定の生物体において得られた挙動データまたは表現型データの歴史的記録として保存されうる。モデル更新および設計アルゴリズムは、任意で、実行中、このデータベースに質問することができうる。様々な他の記録およびシステムデータは、または、1段階または複数の段階の繰り返し過程におけるより後の効率的な利用のために保存されうる。そのような計算アプローチは、当技術分野においてよく知られており、教示および手引きが本明細書に提供されるとすれば、日常的に実施されうる。
【0114】
さらに、本発明の様々な方法の組合わせおよび順列は、モデル構築過程を促進するために、または方法の目的もしくは実施を増大させるために任意の望ましい様式で組み合わせられうる。加えて、単一のまたは他の「オフライン」研究が行われうり、発生した情報は、結果もしくは実施を促進、増大または最適化するために本発明の方法のいずれかにおいて用いられうる。例えば、繰り返し過程のために設計された研究に加えて、ある場合には、分子間の特定のペアワイズ相互作用が、個々の分子構成要素をさらに特徴付けるために別々のオフライン研究において探索されうる。
【0115】
繰り返しモデル構築工程の有利な性質は、実際の生物体の操作可能かつ最適の表現へのシステム構成要素の収束、およびそのようなモデルを構築する効率性を含む。収束における効率性は、行われる必要がある研究の数を最小限にするため、重要である。
【0116】
以下の実施例は、本発明を例証するが、限定しないことを意図される。
【実施例】
【0117】
実施例I
実施極度経路を同定するための大腸菌コア代謝ネットワークについての1セットの現象論的流束分布の分解
この実施例は、1セットの現象論的経路(流束分布)がどのようにして基本モードへ分解されうるかを示し、これらのモードは、代謝反応ネットワーク(大腸菌コア代謝)の実施反応経路を同定するために1セットの体系的経路(極度経路)と比較されうる。
【0118】
大腸菌におけるコア代謝のコンピューター内で生じた代謝流束プロファイルが調製された。反応は、反応pntABが含まれない、および反応tktA2におけるT3P2の代わりに、T3P1が用いられることを除いて、Schilling, "On Systems Biology and the Pathway Analysis of Metabolic Networks," Department of Bioengineering, University of California, San Diego: La Jolla. p. 198-241 (2000)の表6.3から採られた。反応リストは、表1にまとめられている。
【0119】
流束プロファイルは、特異値分解(SVD)解析のための入力行列であるが、57個の流束(行)および各位相における7個の条件(列)からなる。このシステムについてのコハク酸の位相面は、図3に示されている;位相面の作成は、(Edwards JS, Ramakrishna R, Palsson BO. Characterizing the metabolic phenotype: a phenotype phase plane analysis. Biotechnol Bioeng. 2002 Jan 5; 77(1):27-36)に記載されている。図3における点は、システムに有効な酸素およびコハク酸の上限を定義するように選択された。それゆえに、各点は、流束プロファイルを構築するにおいて異なる条件(すなわち、流束行列の列)を表している。
【0120】
SVD解析は、各位相(7個の条件のそれぞれ)において別々に行われた。流束行列、A、の分解は、結果として、3つの別個の行列、U(左の特異行列)、ε(特異値行列)およびV(右の特異行列)を生じる:
A=UεVT
【0121】
位相面の位相Iについて、流束分布行列は、図4の隣に表にされている酸素およびコハク酸の入力値を用いて大腸菌コア代謝に関して作成された。点は、示されているように位相I上にある。
【0122】
流束行列におけるSVD解析により、図5に示された特異値分率により実証されているように位相Iにおいてたった1つの基本モードがあることが明らかにされた。それゆえに、この表現型位相におけるシステムの挙動のほとんどすべてを支配する共通の発現があり、位相不変特異値と呼ばれうる。
【0123】
各条件(すなわち、位相面の位相Iに示された各点)の寄与レベルは、SVDから得られた様々なモードについて図6および7に示されている。各モードが経路の全体の寄与においてもっている重みは、そのモードの曲線がゼロ寄与レベル(水平ゼロレベル)からどれくらいの距離であるかにより見られる。また、各モードについて、発現レベルは、そのモードにより表された経路においてどれくらい流束が増加しているかを示す条件番号について増加する。これらの表現は、点が他の点と相対的に存在する(すなわち、より高いまたはより低い成長速度における)位相面上における場所に関する情報を提供する。このように、基本モードについての情報が提供されるだけでなく、バイオマス生成速度に関する追加の情報もまた提供される。第一基本モード(第一モード)の傾きは、成長速度の傾きに対応するはずである。第一モードは、全体の寄与のほとんど100%を捕捉している。
【0124】
SVDからの結果を、経路解析からの結果とともに比較するために、コア大腸菌系の極度経路が、単独炭素源としてコハク酸を用いて計算された。コハク酸についての極度経路の削減されたセットは、表2に提示され(Schilling、前記(2000)、表6.6から採用された)、図8に示されている。
【0125】
上記の位相I解析について、極度経路を第一モードと比較するために、遺伝子は同じ順序で並べられ、流束は、コハク酸取り込み速度により標準化された。第一モードと12個の極度経路のそれぞれとの間の角度が計算され、降順に並べ替えられた。また、異なる流束(すなわち、一方の場合においてゼロで、かつ他方の場合においてゼロではない、または異符号をもつ流束)の数、および第一モードと各経路の間の正味流束差が計算され、同じ様式で並べ替えられた。表3は、この解析の結果を提供している。
【0126】
この解析は、位相Iにおける第一モードが最適性のラインにぴったり等価であることを示している(すなわち、P_33)。それはまた、この経路に次いで、第一モードが経路32、30などに最も近いことを示している。それゆえに、列角度は、何の経路が類似性の順序において位相Iで流束分布を最も良く記述しているかを示すだけではなく、それらが内輪でどれくらい類似しているかも示している。
【0127】
解析は、位相IIおよびIIIについて、ならびにすべての位相について総合して、繰り返された。すべての位相がSVDにより総合して解析される場合、再び、相対的に低いエントロピー(4.80E-3)をもつ、単一の基本モードが同定された(図14)。このモードと12個の極度経路のそれぞれとの間の角度が計算された。表4は、この解析の結果を提供している。この解析により、基本モードは、表2に示された極度経路33および32に最も近かった。
【0128】
実施例II
生理学的に関連した流束分布に対応するヒト赤血球極度経路の同定
この実施例は、代謝反応ネットワーク(ヒト赤血球代謝)の基本的制御モードを同定するために、動力学的モデルにより生じた1セットの現象論的経路(流束分布)がどのようにして、1セットの体系的経路(極度経路)のモード分解と比較されうるかを示している。
【0129】
赤血球(RBC)代謝ネットワークの極度経路は計算されている(Wiback, S.J. & Palsson, B.O. Biophysical Journal 83, 808-818 (2002))。ここで、SVD解析が、これらの経路により形成された極度経路行列、P、に適用された。RBCの代謝ネットワーク全体の完全な動力学的モデルが開発されており(Jamshidi, N., Edwards, J.S., Fahland, T., Church, G.M. , Palsson, B.O. Bioinformatics 17, 286-287 (2001); Joshi, A. & Palsson, B.O. Journal of Theoretical Biology 141, 515-528 (1991))、生理学的に関連した状態について流束ベクトル(v)を作成するために用いられた。これらの流束ベクトルは、PのSVDから得られたモードを用いて分解された。
【0130】
Vmax尺度でのRBC極度経路行列、P、の階数は23であった。第一モードは、分散の47%を表している(図10F)。組み合わされる場合、最初の5個のモードは、解空間の分散の86%を捕捉し、最初の9個のモードはそれの分散の95%を捕捉している。
【0131】
Pの最初の5個のモードは、図10(A〜E)における代謝マップに示されている。第一モードは、アデノシン反応を通しての低流束値、R/Lシャントを通っての出口をもつ解糖反応を通してのより高い流束、およびペントースリン酸経路を通しての最高流束レベルを示す。このマップは、定常状態解空間の主要分散を記述する。その後のモードは、定常状態解空間における最大分散の次の方向を記述する(図10)。正方向におけるモードに沿った動きは、赤で示された流束を増加させること、および緑で示されたものを減少させることに対応する。そのモードは直交であることが必要とされるため、それらは、お互いに独立している円錐における分散の方向を特異的に記述している。その後のモードは、以下のように生化学的に解釈されうる:
【0132】
第二モードは、解糖とペントースリン酸経路の間の流束分裂を記述している。このモードの寄与が第一モードに加えられる場合には、ペントースリン酸経路を通しての減少した流束およびNADPHの低下した生成へと導くものと思われる。ATPは上流の解糖に用いられ、下流の解糖で回復されないため、増加した解糖流束は、減少したATP生成へと導くラポポート-リューベリング(R/L)シャントを通って出る。NADHの生成は増加する。
【0133】
第三モードは、ATPおよびNADHを生成してピルビン酸に至るまでの解糖経路を記述する。それはまた、AMPアーゼによるAMP消失の結果としてATPの低下した消失を記述している。このモードは重要なATP生成をもつ。
【0134】
第四モードは、下流の解糖とR/Lシャントの間の流束分裂を記述している。それは、従って当然のこととして、第二モードと生化学的に相互作用する。第四モードは、ATPのほとんどない正味生成へと導くAMPアーゼ-AKサイクル経由のATP消失における増加、およびモード3との相互作用をさらに記述している。
【0135】
第五モードは、実際に、極度経路の一つである。それは、ピルビン酸を移入し、それを乳酸に変換し、それに伴って1個のNADHを消失させることを記述している。それは、従って、NADH酸化還元代謝に平衡を保たせるにおいて重要であると思われる。
【0136】
下に示されているように、最初の5個のモードは、RBCの生理学的状態の大部分を占める。
【0137】
赤血球代謝ネットワークの名目上の状態(追加の代謝負荷無し)は、完全な動力学的モデルを用いて計算され、RBC代謝マップ上に示されている(図10G)。RBCのこの名目上の生理学的定常状態は、23個のモードに分解された(図10H)。名目上の定常状態の再構築への各モードの追加後の再構築された解に残っている相対誤差は、急激に減少した(図10H)。最初の5個のモードの寄与後、再構築された名目上の状態は、0.013の相対誤差であった(RE(5)=0.013)。
【0138】
最初の5個のモード(図10A〜E)の洞察により、どのようにしてそれらが生理学的定常状態の解を再構築するかが実証されている。第一モード(図10A)と比較して、第二モード(図10B)を加えることは、解糖の前半を通しての流束を増加させ、ペントースリン酸反応を通しての流束を減少させ、NADPH生成を減少させて、それらのすべては、再構築された解を生理学的定常状態へ有意に移動させる(図10G)。第三モード(図10C)を加えることは、すべての解糖を通して、特に下流の解糖を通しての流束を増加させる。第四モード(図10D)の追加は、生成される23DPGの量を適切に減少させ、その代わりとして、下流の解糖を通してその流束を送る。最後に、第五モードの追加は、ピルビン酸から乳酸へ流束を増加させ、それは、本質的に、乳酸が解糖の主要な出力である定常状態の解へ導く。このように、生理学的定常状態の重要な特徴は、最初の5個のモード内に捕捉されている。解空間においてこれらの5個の独立した方向に沿って解を移動させることができる制御構造は、望ましい生理学的状態を生じることができると思われる。
【0139】
NADPH、ATPおよびNADHの2つの負荷レベルについての定常状態流束分布は、RBC動力学的モデルを用いて計算された。これらの負荷レベルのペアはそれぞれ、コンピューター内のRBCが耐えることができる最大負荷、および許容的負荷範囲内で選択された1つの値を表した。NADPH負荷は、酸化フリーラジカルへの赤血球の応答に対応する生理学的状態を刺激する。最大NADPH負荷は、2.5 mM/hrである。ATP負荷は、高浸透圧性媒体においてのように、増加したエネルギー負荷の条件をシミュレートする。最大ATP負荷は、0.37 mM/hrである。2つのNADH負荷は、RBCにおけるメトヘモグロビン還元に重要であるのだが、それらも適用された。これらの6つの計算された流束ベクトルは、このように、RBCの極度生理学的状態を表し、定常状態の解空間内に生理学的に意味のある状態の領域を指定するのを助ける。
【0140】
6つの「ストレスを加えられた」定常状態流束解のそれぞれのモード構成は、最初の5個のモードに有意な重みづけを与える(図10H)。さらに、いくらかの「微調整」が、モード7〜11に現れている。すべての他のモードは、これらの解をRBC動力学的モデルへ再構築するにおいて本質的に重要ではない。
【0141】
代謝負荷の適用は、適切な代謝流束分布を再構築するために最初の5個のモードの重みづけを変化させた(図10H、I)。NADPH負荷における増加は、結果として、第一モードにおける重みづけの実質的増加を生じ、ペントースリン酸反応を通しての流束を増加させ、それに従って、NADPHの生成を上昇させる。第二、第三、第四および第五モードにおける重みづけは、NADPH生成が最大化されるにつれて、流束分布が第一モードのそれに近づくため、主として、より高いNADPH負荷の適用で減少する。第二モードの重みづけにおける低下は、しかしながら、最も劇的である。増加性ATP負荷の適用は、結果として、最初の5個のモードのすべてにおける重みづけの値にほとんど変化を生じなかった。ATP負荷の適用は、ATPを消費する無駄なサイクルにおける減少によりRBCにおいて対処され、代わりとして発生したATPが、細胞に課せられた負荷を満足させるために代わりに用いられる。このように、RBCのストレスを加えられていない状態におけるATPを消失する無駄なサイクルの使用は、変化するATP負荷の影響を減衰させるように働き、RBCが、変化するATP負荷に対して、細胞における全体の流束分布においてほとんど変化無しで応答することを可能にする。関連した実験の発見より、RBCにおけるATPの濃度は、この緩衝剤の結果として、指定限界内で、環境条件変化と同じほども変化しないが、ATP負荷がそれらの限界を超えて強いられる場合、劇的に変化することが実証された。NADH負荷の適用は、流束ベクトルの長さが減少するため、結果として、すべてのモード重みづけの有意な減少を生じた。第五モードにおける重みづけは、正方向で利用される場合、それがNADHを消費し、それに従って、縮小される必要があったため、最も劇的に減少した。
【0142】
最初の5個のモードの包含後、すべての再構築された解の相対誤差(RE(5))は、0.005から0.018までの範囲であった。すべての6つの場合において、最初の5個のモードは、定常状態の解の少なくとも98%を再構築した。このように、定常状態の解空間の生理学的に関連した部分は、5次元のみであるように思われ、それゆえに、効果的には、赤血球代謝を制御することの問題に対する5つの自由度のみがある。
【0143】
極度経路ベクトルのモードへの分解は、再構築において最も重要なモードがしばしば、最初の5個のモードのうちの1つではないことを示している(図10J)。従って、極度経路により定義されているような、許容できる解空間の多くの部分は、完全なRBC動力学的モデルへの各解を効果的に再構築する最初の5個のモードにより十分には特徴付けられていない。このように、極度経路の多くは、生理学的に関連性がなく、生理学的に意味のある解のおよその位置が知られている場合には、それらは、PのSVDを用いて同定されうる。
【0144】
代謝の制御の研究は、歴史的には、個々の制御事象の同定および特徴付けに焦点を合わせてきた。本発明者らが完全な代謝反応ネットワークを再構築することができる今や、ネットワークに基づいた観点から制御についての必要性に取り組むことができる。この研究は、ヒト赤血球代謝についての極度経路行列の特異値分解を用いてネットワークに基づく観点から制御を解釈することに焦点を合わせた。2つの主要な結果が得られた。第一に、SVDにより得られた基本モードは、RBC代謝生理学を十分に解釈している。第二に、最初の5個のモードは、効果的に、赤血球のすべての関連性のある生理学的状態を特徴付けている。
【0145】
RBC代謝生理学は、SVDから得られた基本モードにより十分に解釈されている。計算されたモードを用いて、完全なRBC動力学的モデルへの7つの生理学的に関連性のある解が再構築された。これらの解についてのRE(5)は、0.017内であり、最初の5個のモードは、本質的に、生理学的に関連性のある動力学の解のそれぞれを完全に再捕捉するために用いられうる。しかしながら、極度経路の大部分は、最初の5個のモードによりそのような高程度まで再構築されえなかった。このように、最初の5個のモードは、たとえそれらが全空間のそれらの記述を最適化するように計算されたとしても、全体としての空間に対して表すよりも良く、完全な動力学的モデルへの解に関連した空間を表した。この事実は、動力学および代謝を考慮に入れる制約に基づいた方法を開発することが、結果として、極度経路により限界を定められた空間よりはるかに小さい解空間を定義することを生じるものと思われる。
【0146】
本明細書で得られた結果は、代謝ネットワークの位相幾何学およびいくつかのVmax値の知識に基づいた。ネットワークに基づいた結果と個々の制御事象の研究の間のギャップを埋める次の段階は、候補制御分子と体系的制御必要性を組み合わせるための最良の方法を見出すことである。制御理論において、これは、「ループ-ペアリング」問題として知られている(Seborg, D.E., Edgar, T.F. & Mellichamp, D.A. Process dynamics and control (Wiley, New York, 1989))。それの解の一部として、本発明者らは、モードの厳密な正規直交についての必要性を緩和し、基礎をなすネットワークの生化学とより一致している斜めのモード基盤を探すことをしなければならない可能性がある。
【0147】
ひとまとめにして考えると、この研究は、制御ネットワークを研究することへのネットワークに基づいたアプローチを提示し、制御問題の自由度を定義する。この方法は、代謝ネットワークがそれの解空間をナビゲートすることを可能にするのに必要とされる様相を計算し、それに従って、制御がほとんど知られていない代謝系の候補制御ループを推論するために用いられうる。さらに、定常状態の解空間へのそれらの寄与に基づいて、これらの制御ループは、空間の再構築へのそれらの重要性に関して順序づけられうる可能性がある。本明細書に提供された一つのように、制御を研究することへのネットワークに基づくアプローチは、構成要素に基づく研究を補完し、細胞の制御要求を達成するために必要とされる制御構成要素の相互作用をより良く理解する可能性のあるフレームワークを提供する。
【0148】
実施例III
赤血球一塩基多型の表現型結果のコンピューター内での評価
以下の実施例は、病理学的データにより定義された現象論的経路の解析への記載された方法の適用を例証する。
【0149】
ヒトゲノムプロジェクト(HGP)は、今、本質的に完成している。HGPの一つの結果は、一塩基多型(SNPs)の定義、およびヒト疾患の発生へのそれらの効果である。ヒトゲノムにおけるSNPsの数は、2、300万個であると予想されたが、たった100,000個〜200,000個が効果的に固有のヒト遺伝子型を定義するだろうと推定されている。これらのSNPsのサブセットは、ヒト疾患に関して「情報を与える」と考えられている(Syvanen, A., 2001. Accessing genetic variation: Genotyping single nucleotide polymorphisms. Nat Rev Genet 2:930-942)。これらのSNPsの多くは、コード領域に分類されるが、他のものは制御領域に見出される。ヒトの遺伝子型-表現型の関係は、非常に複雑であり、配列変異と生理学的機能との間の因果関係を決定することは困難であると思われる。この入り組んだ関係を扱う一つの方法は、複雑な生物学的過程の大規模コンピューター内モデルを構築することである(図12)。複雑な生物学的過程での単一の構成要素の性質における欠陥または変化が、コンピューター内モデルを用いることにより、残りのコンテキストへ入れられうる。この作業において、主要な赤血球酵素におけるSNPs(図12a)およびそれらの動力学的性質における対応する変化(図12b)に関する最近のデータが、細胞全体の機能へのSNPsの全体の効果(図12d)を計算するためにコンピューター内赤血球モデル(図12c)において用いられた。
【0150】
赤血球酵素の動力学的性質における変化の研究は、単に数学的モデルの質の学問的な研究だけではなく、臨床的診断および酵素病の治療における実際の有用性をもち、根底にある配列変異への関連づけを提供することができる(図12)。ここで、コンピューター内モデルが、最も高頻度の赤血球酵素病のうちの2つ:グルコース-6-リン酸デヒドロゲナーゼ(G6PD)およびピルビン酸キナーゼ(PK)におけるSNPsを研究するために用いられる。
【0151】
両方の酵素欠乏について、それぞれ臨床的に診断された変異体と関連した様々な動力学的パラメーター(Vmaxのもの、Kmのもの、Kiのもの)についての測定値を決定するために、臨床的データが、発表された文献から得られた。これらの絶対値は、その後、コンピューター内モデルに用いられ(Jamshidi, N., Edwards, J.S., Fahland, T., Church, G.M., Palsson, B.O. Bioinformatics 17, 286-287 (2001))、様々な酸化およびエネルギー負荷(正常なベースライン値よりも大きい)に対する感受性がシミュレートされた。結果は、遺伝子型と表現型との間の直接的関連を確立する試みにおいて、酵素病の遺伝的基盤に関して解釈される(図12)。
【0152】
グルコース-6-リン酸デヒドロゲナーゼ(G6PD)は、ペントース経路の酸化分枝における第一段階を触媒し(図12c)、従って、酸化ストレスに対する赤血球抵抗性を維持するにおいて決定的な重要性をもつ。G6PDは、最もありふれた赤血球酵素病であり、世界中でおよそ4億人の人々に影響を及ぼしている。
【0153】
正常な患者および溶血性貧血をもつ患者由来のG6PDが、分子レベルにおいて特徴付けられた。合計61個のG6PDクラスI変異体が、分子レベルで記載された。61個のクラスI慢性変異体のうち、55個はアミノ酸変化を含むSNPsの結果であり、5個はフレーム欠失に起因し、1個はスプライシング欠陥に起因する(Fiorelli, G., F.M.d. Montemuros and M.D. Cappellini, Bailliere's Clinical Haematology 13:35-55 (2000))。
【0154】
臨床的に診断されたSNPsは、二量体インターフェースおよび基質結合部位を含むG6PD酵素の重要な活性領域の周りにクラスター形成している(図13a)。G6PD動力学的パラメーターの絶対値は、酵素機能においてこれらの変化に対する赤血球代謝機能の感受性を測定するためにコンピューター内で変動した。最も高感度のパラメーターは、VmaxおよびKi-NADPHであることが見出された。NADPH/NADP比は、それが、これらの2つのパラメーターにおける変化に対して最も高感度であったため、代謝状態の最も情報提供性が高い指標であることが証明され、それは、細胞の酸化状態に関する徴候を与える(Kirkman, H.N., G.D. Gaetani, E.H. Clemons and C. Mareni, Journal of Clinical Investigation 55:875-878 (1975))。それぞれの文書化された変異体について、VmaxとKi-NADPHとの間の直接的相関はないように思われる(図13b)。臨床的には、G6PD欠乏症は、2つの主要なカテゴリー:慢性および非慢性溶血性貧血へ分類される。慢性の症例は、臨床症状を示し、環境に対して非常に感受性が高い。非慢性の症例は、恒常性条件下では正常に見えるが、大きな酸化ストレスに曝される場合、問題を経験しうる(Jacobasch, G., and S.M. Rapoport, in Molecular Aspects of Medicine (1995))。この研究について、Yoshidaからの12個の慢性および8個の非慢性の症例、ならびにFiorelliからの19個の慢性症例についての動力学的データが用いられた(Fiorelli, G., F.M.d. Montemuros and M.D. Cappellini, Bailliere's Clinical Haemoatology 13:35-55 (2000); Yoshida, A., pp. 493-502 in Glucose-6-Phosphate Dehydrogenase. Academic Press 1995)。
【0155】
正常な条件(すなわち、酸化負荷、Vox=0)下において、慢性群と非慢性群の間に差があり、慢性群が非慢性群よりいくらか低い恒常性定常状態NADPH/NADP比をもつ。酸化負荷(Vox>0)に曝される場合、その2つの群(慢性および非慢性)の間の顕著な差が現れる(図14)。最大耐性酸化負荷(Vox=最大値)でのNADPH/NADP比は、ストレスを加えられていない状況(Vox=0)におけるこの比と相関する。慢性溶血性貧血患者群は、正常および非慢性群とは明らかに区別される。多数の慢性症例は、非常に穏やかな酸化負荷にのみ抵抗することができる。研究された変異体症例のうち、ひと握りが分子(アミノ酸)レベルで特徴付けされた(表5)。考慮された症例のうち、慢性(クラスI)変異体における一塩基変化の大部分は、二量体インターフェース(エキソン10、11および6、7)で、もしくは近くで、またはNADP結合部位の近くで生じ、体系的酸化攻撃に応答する能力が損なわれることになる。
【0156】
ピルビン酸キナーゼ(PK)は、主要な解糖制御酵素である。1961年におけるPKの最初の記載以降、約400個の文書化された変異体があるのみである(Jacobasch, G., and S.M. Rapoport, in Molecular Aspects of Medicine (1996); Tanaka, K.R., and C.R. Zerez, Seminars in Hematology 27:165-185 (1990); Zanella, A., and P. Bianchi, Balliere's Clinical Hematology 13:57-81 (2000))。PKは、赤血球解糖において見出された酵素欠乏の90%を占める。それは、臨床症状が合成ヘテロ接合体(2突然変異対立遺伝子)にのみ現れる、常染色体劣性である。4つのアイソザイム:L、R、M1およびM2があり、R型は赤血球にしかない。PKは、染色体1q21上のPK-LR遺伝子によりコードされる。酵素の動力学は、広く研究されてきた(Otto, M., R. Heinrich, B. Kuhn and G. Jacobasch, European Journal of Biochemistry 49:169-178 (1974))。PK活性は、F6P、ATP、MgおよびMgATPにより制御される。貧血性ヘテロ接合体は、正常なPK活性の5〜40%をもつ。
【0157】
PK変異体の概要は、表6に示されている。サッサリ(Sassari)変異体のみが、Bドメインにおけるβ1とβ2の間にあるアミノ酸172位でGluからGlnへの変化を結果として生じるGからCへのSNP(cDNAヌクレオチド514位)トランスバージョンをもつ。ここでは、塩基性(負荷電アミノ酸)が極性非荷電アミノ酸により置換されている。パルマ(Parma)は、2個のSNPsを有し、一つはアミノ酸331位または332位、およびもう一つはアミノ酸486位または487位にあり、そのアミノ酸変化のどちらもまだ解明されていない。ソレシナ(Soresina)およびミラノ(Milano)は、アミノ酸486位でのArgからTrpへのアミノ酸変化(正荷電から非極性へ)を共有する。ブレシア(Brescia)は、アミノ酸348位でのLysの欠失、およびまだ定義されていないアミノ酸486位または487位でのもう一つの変化を有する。マントバ(Mantova)は、アミノ酸390位でのAspからAsnへの交換(負荷電から極性非荷電へ)を有する。(Bianchi, P., and A. Zanella, 2000 Hematologically important mutations: red cell pyruvate kinase. Blood Cells, Molecules, and Diseases 15:47-53; Zanella, A., and P. Bianchi, Balliere's Clinical Hematology 13:57-81 (2000))。
【0158】
G6PDについてとは違って、特徴付けられたPK SNPsは、タンパク質コード領域全体中に点在し、その酵素の対応する活性部位の近くにクラスター形成するようには見えない。主要な動力学的パラメーターVmaxおよびKPEPについて文書化された動力学的値が示されている(図15a)。G6PD変異体と類似して、PK変異体の中で絶対値VmaxおよびKPEPにおける変化の間に明らかな相関がない(図15b)。KADPにおける変化もまた、各変異体について文書化され、シミュレーションにおいて説明されているが、それの値における増加または減少は、赤血球の定常状態代謝産物濃度またはそれのエネルギー負荷に抵抗する能力に有意には影響を及ぼしていなかった(データ示されず)。KPEPおよびVmaxにおける変化は、最も有意に、ATPおよび2,3DPGの濃度に影響を及ぼす。増加したエネルギー負荷(Ve>0)がコンピューター内で適用される場合、変異体間の差が観察される。最大耐性負荷(Ve=最大値)でのATP濃度と攻撃されていない状態におけるATP濃度(Ve=0)の間の比は、すべての変異体が評価される場合、最大耐性負荷によってほぼ直線的に変化する(図15c)。このように、最も低い最大負荷に耐えた変異体は、ほぼ1に近い[ATP]最大/[ATP]負荷なし比率をもち、名目上の恒常性状態から逸脱するそれらの能力が急激に減少したことを示している。興味深いことに、計算されたエネルギー充電(EC=(ATP + 1/2ADP)/(ATP + ADP + AMP))(Atkinson, D.E., 1977 Cellular energy metabolism and its regulation. Academic Press, New York)は、比較的一定に留まっている(図15d)。この結果は、赤血球代謝が耐性負荷範囲内にそれのECを維持するように励み、それに従って、エネルギー的に一貫した代謝機能を可能にすることを示している。
【0159】
代謝酵素についてのコード領域における配列変異は、変化した動力学的性質へ導きうる。酵素の動力学的性質は、多くのパラメーターにより記述され、単一のSNPがこれらのパラメーターの1つまたは多くを変化させることができる。本明細書で考慮されるG6PDおよびPKの変異体について、配列変異の機能としてそれらの動力学的パラメーター間に明らかな関係がないように思われる。このように、遺伝子産物の機能における配列変異の結果は、変化した生化学的機能の包括的評価を得るために完全に評価されなければならない。
【0160】
多くの同時に変化した酵素性質の結果は、次には、それが関係する反応ネットワークの状況において酵素の機能の観点から評価されなければならない。酵素の生化学的および動力学的性質における配列変異の評価は、困難なように思われ、この挑戦は、目下、取り組んでいるところであるが(Yamada, K., Z. Chen, R. Rozen and R.G. Matthews, Proc Natl Acad Sci USA 98:14853-14858 (2001))、ネットワーク全体の機能における配列変異の評価は、よりいっそう込み入っている。配列変異とネットワーク機能の間のこの高度に複雑かつ入り組んだ関係は、コンピューターモデルの使用を通して研究されうる。ここで、本発明者らは、赤血球G6PDおよびPKにおける多数の変異体が、赤血球のコンピューター内モデルを用いて体系的に分析されうることを示した。配列変異と予測された全体の細胞挙動の間の相関が確立され、G6PDの症例において、それは、次には、臨床症状の重症度と相関している。
【0161】
実施例IV
既知の制御ネットワーク構造とトランスクリプトミクスデータの間の整合性
以下の実施例は、既知の制御ネットワーク構造を、これらの構造を大規模遺伝子発現データセットと調和させることにより、確証かつ展開するための記載された方法の使用を例証する。
【0162】
大きなゲノム尺度の発現データセットの有効性は、大規模制御ネットワークを推論するためにこれらのデータセットを用いる方法の開発を惹起した(D'Haeseleer, P., Liang, S. & Somogyi, R Bioinformatics 16:707-726 (2000); de Jong, H.J. Comput. Biol. 9:67-103 (2002); Yeung, M.K., Tegner, J. & Collins, J.J. Proc. Natl. Acad. Sci USA 99:6163-6168 (2002))。または、そのような制御ネットワーク構造は、注釈付きのゲノム情報、よく管理されたデータベースおよび一次研究文献に基づいて再構築されうる(Guelzim, N., Bottani, S., Bourgine, P. & Kepes, F. Nat. Genet. 31, 60-63 (2002); Shen-Orr, S.S., Milo, R., Mangan, S. & Alon, U. Nat. Genet. 31, 64-68 (2002))。ここで、本発明者らは、大腸菌および出芽酵母において、現存する大規模遺伝子発現データセットが既知のゲノムワイドの制御ネットワーク構造とどれくらい整合しているかを試験する。本発明者らは、両方の生物体において、転写因子とそれらの標的遺伝子の間での既知のペアワイズ制御相互作用の約10%が、遺伝子発現データと整合していることを見出している。本発明者らは、同じ遺伝子に作用する複数の転写因子による組み合わせの効果を明らかにすることが、遺伝子発現データと制御ネットワーク構造の間の合致を向上させることができることを示している。本発明者らはまた、リプレッサーを含む制御ネットワーク要素が、典型的には、アクチベーターを含むものよりデータとの整合性が低いことを見出している。これらの結果をひとまとめにして考えると、ネットワーク構造と遺伝子発現データの間の高程度の整合性をもつ制御ネットワークモジュールを定義することが可能になる。結果は、標的遺伝子の発現プロファイリングデータが、ネットワークの残りから十分に切り離される既知の制御ネットワークの特定のサブコンポーネントを改善かつ展開するために用いられうることを示唆している。
【0163】
酵母(Guelzim, N., Bottani, S., Bourgine, P. & Kepes, F. Nat. Genet. 31, 60-63 (2002))および大腸菌(Shen-Orr,S.S., Milo, R., Mangan, S. & Alon, U. Nat. Genet. 31, 64-68 (2002))についての既知のゲノム尺度の転写制御ネットワーク構造は、得られ、自己調節を除去するために前処理された。これらの構造は、制御因子結節点(典型的には、転写因子)と標的遺伝子結節点の間の有向制御相互作用辺をもつグラフとして表され、制御のモード(活性化、抑制または両方)が各相互作用について示されている。酵母ネットワークは、931個の制御相互作用を通して414個の標的遺伝子を制御する108個の制御遺伝子を有し、大腸菌ネットワークは、1367個の制御相互作用を通して721個の標的遺伝子を制御する123個の制御遺伝子を有する。本発明者らは、酵母についての5つの別々のデータセットへ組織化された641個の多様な遺伝子発現プロファイリング実験、および大腸菌についての3つの別々のデータセットへ組織化された108個の実験からのデータを用いた。
【0164】
この研究において解析される制御ネットワーク要素の3つの基本型があった:1)ペアワイズ制御相互作用、2)標的-制御因子単位、および3)レギュロン。標的-制御因子単位(TRU)は、単一の標的遺伝子の、それの転写制御因子のすべてと共にしたものとして定義される。レギュロンは、単一の転写制御因子についてのすべての標的遺伝子のセットとして定義される。ネットワークに存在する個々のネットワーク要素の各例について、本発明者らは、特定の遺伝子発現データセットとネットワーク要素構造の間の整合性測度を計算した。本発明者らが用いた特定の測定値は、ペアワイズ相互作用についてのピアソン相関係数、TRUについての多重決定係数、およびレギュロンについてのレギュロン相関内の平均値であった。整合性測度の特定値の統計学的有意性は、ランダム化工程により決定された。
【0165】
制御ネットワークにおける最も単純な要素は、ペアワイズ制御因子-標的の相互作用である。全体的にみて、ペアワイズ相互作用の比較的小さい分率(P<0.01において10%未満)のみが、上述の基準を仮定すれば、遺伝子発現データと合致している。特に、事実上、リプレッサー-標的相互作用のいずれも、試験された遺伝子発現データセットのいずれによっても支持されていない。たいていのリプレッサーは、実際には、それらの標的遺伝子の発現との正相関をもつ − リプレッサーについて予想されるような負ではない。ペアワイズ相互作用を抑制することについてのこれらの結果は、標的遺伝子のプロモーターに結合した転写リプレッサーの結果として低レベルで発現された転写産物を検出することに関連した問題を浮かび上がらせる。
【0166】
ペアワイズ相互作用の解析は、転写フィードフォワードループの存在下において転写因子と標的遺伝子発現レベルの間の相関を過大評価しうる。そのような場合、2つまたはそれ以上の転写因子は、同じ遺伝子に作用するが、それらの一部(一次制御因子)はまた、もう一つの(二次)制御因子を直接的に制御する。フィードフォワードループは、二次制御因子-標的相関が一次制御因子の影響だけに起因する間接的効果へ導きうる。ここで用いられたフレームワークにおいて、この効果は、標準相関係数を二次制御因子-標的相互作用についての部分相関係数と交換することにより説明されうる。両方のネットワークにおいてかなりの数のフィードフォワードループがあるが(酵母において240個、大腸菌において206個)、フィードフォワードループを占めている全体の効果は小さい(0〜3パーセントポイント)。
【0167】
標的-制御因子単位は、フィードフォワードループよりも複雑な組み合わせの効果を示す。遺伝子発現データと整合性のあるTRUのパーセンテージは、すべての信頼水準において、大腸菌についての整合性のあるペアワイズ相互作用のパーセンテージよりも高い。この結果は、転写因子間の組み合わせの効果が多くの場合において重要な役割を果たしていることを示す。逆に、酵母におけるTRUについて、本発明者らは、ペアワイズ相互作用のみとみなした計算と比較して、発現データと合致した単位のパーセンテージにおける有意な変化を観察していない。
【0168】
TRUは、標的遺伝子に作用する制御因子の数により分類されうる。酵母において、4つの制御因子をもつTRUは、一般的に、遺伝子発現データにより最も良く支持される。これらの4制御因子TRUは、窒素利用、酸素制御およびストレス応答を含む多様な細胞機能に関与する遺伝子を含む。このゆえに、4制御因子TRUについて観察される高程度の整合性は、ネットワークの特定のサブコンポーネントだけに起因するようには思われず、ネットワーク構造のより全般的な特徴である。大腸菌において、制御因子の数と整合性のあるTRUの分率の間に、明らかな依存関係を検出することはできない。
【0169】
制御ネットワーク構造と遺伝子発現データの間の合致を、転写因子の発現レベルとそれらの標的遺伝子の間の相関を仮定しない異なる観点から調べるために、本発明者らは、既知のレギュロン内の遺伝子発現の干渉性を研究した。大きな分率のレギュロン(40%を超える)は、少なくとも1つのデータセットにおいて最もストリンジェントの信頼水準(P<0.001)についてさえも、酵母および大腸菌の両方において干渉性遺伝子発現をもつ。この結果は、遺伝子発現データを解析することへのクラスタリング様アプローチが、真に同時制御された遺伝子を検出するのに成功することが実際に期待されうることを示している。この計算の最も興味深い特徴は、酵母において、転写リプレッサーにより制御されるレギュロンについての比較的低レベルのレギュロン干渉性である。対照的に、リプレッサーにより制御される大腸菌レギュロンは、アクチベーターにより制御されるものより干渉性が高い傾向にある。
【0170】
酵母および大腸菌の両方についての上記のすべての結果は、制御ネットワークのマップ上に表示されうる(図16)。このデータ表示は、解析された遺伝子発現データセットと高程度で合致するネットワークのサブコンポーネントを同定することを可能にする。例えば、酵母において、窒素利用(図16aにおけるI)および酸素応答系(O)は、多くの高い整合性のある要素を有するが、炭素利用(C)ネットワークにおける要素は、一般的に、遺伝子発現データと整合性がない。同様に、大腸菌において、鞭毛生合成ネットワーク(図16bにおけるF)のようなコンポーネントは高い整合性があるが、炭素利用(C)ネットワークは、またもや、整合性のあるネットワーク要素をあまりもたない。
【0171】
制御ネットワーク構造と遺伝子発現データの間の整合性における変動性の一部は、この作業に利用されるデータセットの型に起因するように思われる。例えば、大腸菌におけるDNA修復系は、遺伝子発現データセットのうちの1つにおいて特異的に活性化され、窒素消耗に対する応答は、酵母データセットの1つにおいて研究された。しかしながら、整合性に影響を及ぼすように思われる全般的なネットワーク構造的特徴もある。最も顕著な特徴は、大腸菌における鞭毛生合成または酵母における窒素利用のような、ネットワークの比較的隔離されたサブコンポーネントが遺伝子発現データと整合性がある傾向であるのに対して、炭素利用制御のような高度に相互接続されたコンポーネントは典型的には整合性がないことである。しかしながら、すべての隔離されたサブネットワークが整合性があるわけではなく、ネットワーク再構築は不完全である可能性があり、これらのサブネットワークは、実際、現在知られているものよりも強く、ネットワークの他の部分に接続されている可能性があることを示している。
【0172】
ひとまとめにして考えると、ここで示された結果は、既知の制御ネットワーク構造に関する情報を遺伝子発現データと組み合わせることが制御ネットワーク構造を確証かつ展開する生産的な方法であることを示している。整合性の全体レベルは一般的に低いことが見出されたため、遺伝子発現データのみに基づく制御ネットワークのゲノム尺度の再構築は、たとえ酵母についての場合のように大量データが利用可能であるとしても、実現可能であるようには思われないことに留意することは重要である。その結果は、ネットワーク構造の異なる特徴が整合性に影響を及ぼすことを示している。特に、本発明者らは、リプレッサーを含むネットワーク要素(ペアワイズ相互作用、レギュロン)が典型的には、アクチベーターを含むものより整合性が低いことを観察しているが、これらの型のネットワーク構成要素の再構築は難題をもたらすであろうことを示している。さらに、酵母において、4つの制御因子をもつTRUは、一般的に、他の型のTRUより整合性が高く、そのような場合、既知のネットワーク構造は十分に完全であるように思われるが、より少数の制御因子をもつTRUについて、見落としている制御因子が存在する可能性があることを示している。高い整合性のあるネットワークサブコンポーネントの発見は、遺伝子発現データに基づく制御ネットワークの再構築が、十分に隔離され、かつ十分な量の関連データが有効である特定のサブコンポーネントについての強力なストラテジーでありうることを示している。ゲノムワイドのDNA結合部位占有データ(Ren, B. et al. Science 290:2306-2309 (2000))のような他の高処理量データ型の将来的有用性は、追加のデータ型が非整合性を解決するように用いられうるような再構築の見込みをさらに向上させるものと思われる。しかしながら、すべての高処理量データ型の完全な利用は、データベースおよび文献から抽出された事前の生物学的知識と大量データセットの統計学的解析との組み合わせを必要とするものと思われる。このように、制御ネットワークの完全な再構築は、2つの間の非整合性を連続的に解決する標的とされる将来の実験を含む、「ボトムアップ」および「トップダウン」アプローチの組み合わせに頼るものと思われる。最終的には、すべてのそのようなデータ型は、それらの機能を分析、解釈、および最終的には、予測するために用いられうる制御ネットワークのゲノム尺度のコンピューター内モデルに関して調和されることが期待される。
【0173】
実施例V
制御ネットワークモデルの繰り返し改善
この実施例の目的は、制御ネットワーク同定、向上、および制御または組み合わされた制御/代謝のモデルにおける制御状態の同定のために、記載された方法がどのように用いられうるかを例証することである。
【0174】
ゲノム尺度の転写制御ネットワークモデル再構築への「ボトムアップ」アプローチは、表現型を分析、解釈および予測するために知識のコンピューターモデルへの組み込みにより開始される。その過程は、対象となる生物体についての代謝および転写制御ネットワークの第一通過再構築で始まる。そのようなゲノム尺度のモデルの再構築は、他の所で詳細に記載されており(Covert MW, Schilling CH, Famili I, Edwards JS, Goryanin II, Selkov E, Palsson BO. Trends Biochem Sci 26:179-186 (2001); Covert MW, Schilling CH, Palsson B. J Theor Biol 213:73-88 (2001))、すべての既知の代謝反応、および代謝系への制約として定義される特定の測定されたパラメーター(例えば、最大摂取速度、バイオマス組成)を記述する行列をもつ、線形計画問題としての代謝挙動の表現へと導く。転写制御挙動は、ブール論理文として書かれた1セットの制御ルールとして表される。これらのルールは、環境および内部条件に依存し、代謝ネットワークにおいて様々な代謝遺伝子の発現および/または抑制を決定する。
【0175】
制御および代謝モデルは、論理文の結果が代謝線形計画問題へ時間依存性制約を課すように統合される。線形計画問題の結果は、その後、環境条件を再計算するために用いられ(Varma A, Palsson BO, Appl Environ Microbiol. 60:3724-3731 (1995); Covert MW, Schilling CH, Palsson B. J Theor Biol. 213:73-88 (2001))、ブール論理方程式は再評価される。
【0176】
ブール論理ルールは、特定の遺伝子または1セットの遺伝子の発現のために必要とされる条件を表すために一次文献から引き出される。実験研究は、特定の標的遺伝子の発現のすべての既知のプロモーターについての1セットの可能性のある転写因子を得るために試験される。転写が起こりうる複数のプロモーターの存在はOR関係を示し、1つのプロモーターを発効させる2つの相互作用する転写因子の存在は、AND関係を示す。例えば、遺伝子Aが2つのプロモーター、転写因子Xにより活性化される一つ、ならびに転写因子YおよびZの統合された産物により抑制される他方、を有する場合には、IF (X) OR NOT (Y AND Z)、Aが翻訳されると提示するルールが引き出されうる。
【0177】
そのようなモデルは、大腸菌について構築されている最中である。この生物体について、ゲノム尺度の代謝ネットワークモデルはすでに再構築された(Edwards JS, Palsson BO, Proc Natl Acad Sci USA. 97:5528-5533 (2000))。制御ネットワークモデルは、最初、コア代謝過程について実施された。最初に組み合わされた代謝/制御モデルは、149個の遺伝子、その産物は16個の制御タンパク質および73個の酵素を含む、を占める。これらの酵素は、113個の反応を触媒し、そのうちの45個は、転写制御により調節される。組み合わされた代謝/制御モデルは、様々な環境条件下における実験データとの比較により示されるように、様々な条件下での、定義済み培地で増殖する突然変異体大腸菌株の能力、加えて、細胞増殖の経時変化、基質取り込み、代謝副産物分泌および定性的遺伝子発現を予測することができる。コンピューター内モデルはまた、細胞培養に観察される動的挙動を解釈するために用いられうる(Covert MW, Palsson BO. J Biol Chem 277:28058-28064 (2002))。
【0178】
上で言及されているように統合される場合、制御/代謝モデルは、第一通過再構築を表し、試験できる仮説の作成のために用いられうる(図16参照)。第一に、対象となる表現型または挙動シフトは、特定の生物体(例えば、大腸菌におけるグルコース-ラクトース ディオーキシー)、および重要な制御遺伝子について特定化されなければならない。制御/代謝モデルは、その後、シフトの経過に渡っての、野生型株の挙動、加えて関連した制御遺伝子のノックアウトおよび/または突然変異株の挙動をシミュレートするために用いられうる。これらのシミュレーションは、各株についてのシフトの経過に渡っての、成長挙動、基質取り込み、副産物分泌および遺伝子発現についての仮説を表している。
【0179】
生物体の株は、その後、野生型、加えてすべての対応するノックアウト株の完全な補完を築くために獲得および/または構築される。各株は、その後、問題のシフトを実験的にモニターするために培養される。成長、取り込みおよび分泌の速度、加えて遺伝子発現は、当技術分野においてよく知られている実践を用いてシフトの経過に渡ってモニターされる(Ideker T, Thorsson V, Ranish JA, Christmas R, Buhler J, Eng JK, Bumgarner R, Goodlett DR, Aebersold R, Hood L. Science 294:929-934 (2001))。
【0180】
いったん、必要な実験データが得られたならば、実験結果は、計算で生じたデータと厳密に比較される。この比較は、(1)モデルにより記述された特定の制御関係の確証;(2)実験結果が矛盾していたが、モデルに含まれる制御関係の同定;および(3)モデルへ組み込まれなければならない、以前には知られていなかった制御関係の同定へ導かれる。(2)および(3)の両方は、モデルが向上されうる領域を表している。
【0181】
多くの遺伝子は、特定の生物体において1つより多い転写因子により制御される。そのような遺伝子は複雑なブール論理ルールに対応し、そのルールはさらなる実験により得られなければならない。具体的には、1つより多い転写因子により制御される上記過程により示される遺伝子について、複数のノックアウト株が構築され、複雑な相互作用を測定しうる。2つの転写因子が遺伝子の制御に影響を及ぼすのに必要とされる場合には、それらはAND関係を有する;たった1つの因子が必要とされる場合には、それらはOR関係を有する。
【0182】
その方法は、大腸菌における嫌気生活の研究に適用される(図16)。代謝および転写制御の大規模モデルは、以前に大腸菌について作成された(Covert MW, Palsson BO, J Biol Chem 277:28058-28064 (2002))。このモデルは、ゲノム尺度まで構築され(現在、進行中)、グルコース最少培地における好気性および嫌気性増殖の条件下において、大腸菌の成長、取り込みおよび分泌速度、加えて遺伝子発現についての予測を生むために用いられるものと思われる。6株 − appY、soxS、oxyR、fnrおよびarcAノックアウト株、加えて野生型 − は上記のようにバッチ培養で増殖され、成長、取り込みおよび分泌が継続的にモニターされる。試料は、中間対数期で採取され、それからのmRNAが、Affymetrix Gene Chipテクノロジーを用いて抽出かつ分析される。このデータから、モデルは、制御(例えば、遺伝子誘導/抑制を予測するそれの能力)および代謝(例えば、野生型株および突然変異株の成長挙動を予測するそれの能力)の両方の観点から評価される。この情報は、その後、嫌気生活予測に関してモデルを繰り返し向上させるために用いられる。
【0183】
括弧に入れてまたは別なふうに、以前に言及されていようがいまいが、上で提供されたすべての学術論文、参考文献および特許引用文は、完全に参照として本明細書に組み入れられている。
【0184】
本発明は、上で提供された実施例を参照して記載されているが、本発明の真意から逸脱することなく様々な改変がなされうることは、理解されるべきである。
【0185】
実施例VI
体系的モデル向上アルゴリズムによる制御ネットワークモデルの繰り返し改善
この実施例の目的は、生物学的過程の最良のモデルに迅速に収束させるための、上で記載され、図2Bで描かれた体系的アプローチの重要性を例証することである。仮説の制御ネットワークが、ここでは例として用いられているが、この過程は、代謝ネットワーク、シグナル伝達経路、タンパク質相互作用ネットワークおよび任意の他の生物学的過程に等しく適用できる。
【0186】
コア代謝の骨格ネットワークは以前に作成された(Covert MW, Schilling CH, Palsson B. J Theor Biol. 213:73-88 (2001))。それは、20個の反応を含み、そのうちの7個は制御論理により支配されている。このネットワークは、対応する制御(例えば、異化生成物抑制、好気性/嫌気性制御、アミノ酸生合成制御および炭素蓄積制御)を加えたコア代謝過程(例えば、解糖、ペントースリン酸経路、TCAサイクル、発酵経路、アミノ酸生合成および細胞増殖)の高度に単純化された表現である。この骨格ネットワークの概略図は、すべての関連した化学反応および転写制御を支配する制御ルールを含む表と共に、図18に示されている。図2Bに関して、このネットワークは、特徴付けられることになっている実際の実験系とみなされるものと思われる。
【0187】
図18の実験系の右に、実験系のモデルがある。そのモデルは、1つの例外:モデルにおけるR5aの制御が、制御ルールが与えられず(すなわち、その反応はすべての条件下において発現される)、正しく特徴付けられなかった、のほかは、ほとんど完全である。
【0188】
範囲および正確さの表明は、モデルについて決定される;すなわち、モデルは、システムの全体の転写制御構成要素をブール論理を用いて定性的に表し、「1」は、所定の反応に対応する遺伝子が発現されたことを示し、「0」は、遺伝子が下方制御されたことを示している。対象となる実験は、好気性および嫌気性条件下での代謝産物炭素2におけるシステムの成長である。この例について、モデルの望ましい正確さについての基準は、システムにおけるすべての制御された遺伝子の観察された発現と予測された発現の間の平方差の和として計算されたモデル誤差がゼロに等しいことである。
【0189】
過程の位相Iにおいて、実験は、システムに利用できる炭素2および酸素で実行される。実験系およびモデル系における制御された遺伝子の発現は、計算され、図19に示されている。モデル誤差は、この場合、ゼロに等しく、実験データおよびモデル予測がこの場合、完全に一致していることを示している。
【0190】
次に、実験は、酸素はできないが、システムに利用できる炭素2で実行される。この場合、T5aの観察された発現と計算された発現の間に不一致があり、結果として、1の誤差を生じている。モデル誤差が提示された基準により許容されるものより大きいため、モデル誤差が所定の実験条件下で最小限になるように数学的モデルの組成を変化させるために、工程が実行される。この場合用いられる工程は、以下の仮定で展開される:T5aの制御は、システムにおいて既知の制御タンパク質(RPc1、RPb、RPhおよびRPO2)の1つのみに依存する。それゆえに、工程は以下の通りである:(1)モデルにより予測されているように各タンパク質の活性を得る、(2)各タンパク質について、結果としてT5aについての正しい発現値を生じる所定のタンパク質の活性に基づいたルールを作成する、(3)制御された遺伝子についての全体の発現アレイを再計算する、(4)新しいモデル誤差を測定することによりモデル正確さについての基準間の差を評価する、および(5)将来の繰り返しのための新しいモデルとして最小誤差をもつモデルを選択する。
【0191】
所定の条件下での制御タンパク質の活性は以下である:RPc1=0、RPb=0、RPh=1、RPO2=1。ゼロの値をもちうるT5aについて、実行されうるルールは、それゆえに、以下である:T5a=IF (RPc1)、T5a=IF (RPb)、T5a=IF NOT (RPh)およびT5a=IF NOT (RPO2)。モデルの誤差がそれぞれの新しいルールで計算される;そして、新しいモデルすべては、図19に示されているように(位相III)、ゼロの誤差をもつ。結果として、モデルの1つ(例えば、新しいルールT5a=IF (RPc1)で)が任意に選ばれ、残りの等価の解が保存される。
【0192】
新しいモデルは、その後、表現型データベースにおけるデータで再評価されうる。この例について、炭素2および酸素がシステムに利用できた実験からのデータが、新しいモデルの予測と比較される。新しいモデルは、これらの条件に関して誤差をもつ(図19の位相IVに示されている);残りの代替の解が考慮される場合、新しいルールT5a=IF NOT (RPO2)でのモデルのみがゼロ誤差をもつデータと適合する。このモデルが将来の繰り返しのために保存される。
【0193】
その過程は、制御ネットワークをさらに特徴付ける新しい実験を示唆している:具体的には、システムのRPO2ノックアウト株を創出すること、およびノックアウト株の、炭素2が利用できるが酸素ができないところにおいて増殖する能力を試験すること。図19に示されているように、モデル予測および実験データはまた、この実験について一致している。
【0194】
モデルは、それゆえに、モデル予測を向上させかつ実験系自身をより十分に特徴付けるように新しいデータが生じたところにおいて実験過程を操作するために、その上、さらなる知識および洞察を得るように実施されうる実験の新しいラウンドを示唆するために、用いられた。
【0195】
実施例VII
アルファ円錐方法を用いる極度経路への定常状態流束分布の分解
この実施例は、生物系において実施経路を同定するために、どのようにして、任意の定常状態現象論的流束分布が、体系的経路(ここでは、極度経路)へと理にかなった様式で分解されうるかを示している。アルファ円錐分解方法は、所定の流束分布について重みづけする体系的経路の範囲を同定すること、および必要とされる最小限セットの体系的経路を定義することが、現象論的経路を記述することを可能にする。これらの経路の可能な重みづけの範囲と共のこの最小限セットの体系的経路は、生物系の実施経路を定義する。
【0196】
この分析に用いられるサンプル代謝ネットワークは、以前に発表されている(Covert MW, Schilling CH, Palsson B. J Theor Biol 213:73-88 (2001))。ネットワークは、20個の反応および16個の内部代謝産物からなる。例のネットワークは、解糖、クエン酸サイクルおよび呼吸のようなコア代謝過程の一部を映すように設計された。このネットワークの極度経路は、以前に計算された(Covert MW & Palsson BO. J Theor Biol 216 (2003))。ネットワークは、この分析に含まれる80個のI型極度経路を有する。各極度経路、pi、は取り込み反応の最大値(Vmax)に基づいたそれの最大可能流束まで拡大された。行列Pは、その後、それの列としてpi(i=1....n、nはシステムについての極度経路の数である)を用いて形成される。
【0197】
実験測定値により作成された現象論的流束分布を模倣するために、このネットワークについての定常状態流束分布が、流束平衡分析(FBA)の十分確立された技術を用いて計算された。この研究の目的のために、固有の定常状態流束分布が様々な環境条件について計算された。
【0198】
所定の現象論的流束分布について、極度経路において重みづけする分解(αで示される)は、通常、固有ではない。P行列の階数は、コンシステント方程式の数を決定し、通常、極度経路の数より小さく、結果として、余分な自由度を生じる。これは、結果として、許容できる極度経路重みづけの「アルファ空間」を生じる。定常状態の解に寄与しうる可能なアルファ値の範囲を解明するために、アルファ-スペクトルは、方程式P.α=v(Pは、極度経路ベクトルの行列(極度経路が列であり、反応が行である)であり、αは、経路へのアルファ重みづけのベクトルであり、およびvは、分解されることになっている任意の定常状態流束分布である)に基づいて展開された。ネットワークについて定義された各個々の極度経路について、その経路についてのアルファ重みづけは、線形計画法を用いて最大化および最小化の両方が行われたが、すべての他の極度経路アルファ重みづけはしないままである。これは、結果として、各極度経路についての許容できるアルファ範囲を生じる。その結果は、その後、極度経路をx軸に、およびアルファ重みづけの範囲をy軸にもつ、2次元グラフ上にプロットされた。経路は、Vmaxに対して標準化されるため、アルファ重みづけは、各極度経路のパーセンテージ用法に対応している。いくつかの極度経路は用いられず、一方、別のものはアルファ重みづけの範囲をもちうる。
【0199】
アルファ-スペクトルを定義することに加えて、混合整数線形計画法(MILP)(Williams, HP Model building in mathematical programming. Chichester; New York, Wiley (1990))が、複数の経路組み合わせが存在する場合において所定の現象論的流束分布を記述するのに必要とされる極度経路の最小数を見出すために用いられた。特定の極度経路の使用は、ブール変数(βj、対応する経路が用いられる場合、1の値をもち、その経路が用いられない場合、ゼロをもつように仮定された)により表された。経路使用を表すすべてのブール変数の和は、最小数の経路が用いられた場合に対応するアルファ重みづけを得るために最小化された。対応する最適化問題は正式に以下のように記述されうる:
βは、経路使用に対応するブール変数のベクトルであり、αは、経路重みづけのベクトルである。解は、望ましい現象論的流束分布の分解を得るために最小数の経路が用いられるような1セットのアルファ重みづけである。
【0200】
上記の方法は、制御が含まれていない好気性増殖の場合に適用された。この場合は、すべての可能な基質(炭素1、炭素2、F、Hおよび酸素)がネットワークに供給されるように、本質的に無制限であった。FBAを用いて計算されたその結果の流束分布は、図20Aに見られうる。計算されたアルファ-スペクトルは、80個のI型経路のうち、たった13個が好気性流束分布を再構築するのに用いられることができたことを示している(図20B)。経路52は、0から1まで(それの最大可能使用の0%〜100%)の範囲でありうる。経路36は、ゼロではない最小アルファ値により示されるように用いられなければならない。残りの11個の経路は、0から様々な準最大値まで変動する。好気性定常状態流束分布を生じるために必要とされる最小数の経路を決定するためにMILP解析がなされた。MILPが追加の制約なしに解かれる場合、P36がそれの最大能力(100%)まで用いられ、経路48、38、66および8から最大下の寄与があった。興味深いことに、ネットワークが最大アルファ範囲をもつ経路(P52)を最大限に用いるように強制される場合、経路36もまた、最大下であるにしても、経路12、32および60と共に、用いられた。ゼロではない最小可能重みづけをもち、従って、すべての可能な解に用いられなければならないP36の例外を除けば、MILP解のその2つのセットの間に共通の経路はないことを留意されたい(図20C)。
【0201】
アルファ円錐方法は、FBA計算により得られた流束分布について上で実証されたが、同様に、解析において実験的に測定された代謝流束データを用いることは可能である。部分的または断片化された流束データであるとしても、候補アルファ-スペクトルを決定し、このゆえに、所定の外部条件において細胞で活性のある実施経路を得ることは、可能であるものと思われる。
【0202】
【表1】
【0203】
【表2】
【0204】
【表3】
【0205】
【表4】
【0206】
【表5】
【0207】
【表6】
【背景技術】
【0001】
発明の背景
本発明は、一般的に、コンピューター内でのモデル生物体の構築、より具体的には、実施反応経路を特定する、および実際の生物体の最適のコンピューター内モデルの創出のための方法ならびにシステムに関する。
【0002】
薬物および遺伝子に基づく薬剤を含む治療剤は、ヒト疾患を予防または治療することを目標として、製薬産業により急速に開発されている。ハーブ製品、ビタミンおよびアミノ酸を含む栄養補助食品もまた、栄養補助食品産業により開発され、かつ市販されている。加えて、食料品および工業化合物の生物学的発酵ならびに他のバイオプロセスについてのより速くかつより効率的な方法のための試みが開発を進められてきた。作物および他の農産物のより速くかつより効率的な生産もまた、食品産業における熱心な開発のさらにもう一つの領域である。
【0003】
生物体の細胞内および間における生化学反応ネットワークの複雑性のために、治療剤により引き起こされた比較的微量な摂動、食事成分における変化または環境もしくは成長条件でさえも、何百という生化学反応に影響を及ぼしうる。そのような変化または摂動は、生きている細胞を伴う任意の治療的、工業的または農業的過程において、望ましいおよび望ましくない両方の影響へと導きうる。それゆえに、特定のプロセスが、そのような摂動の細胞または生物体のような生物系への影響を予測できるならば、有益であると思われる。
【0004】
しかしながら、それに用いられる化合物およびプロセスについての治療的、工業的および農業的開発への現行のアプローチは、生産物の効率的かつ経済的な生産に必要とされる正確さのレベルでの細胞挙動への摂動の影響を考慮に入れていない。そのようなプロセスの最適化のために細胞活動を操作する効果的方法を設計する、または適用された化合物の最適の意図された効果を達成するために、統合的視野から細胞挙動を理解することが助けになるものと思われる。
【0005】
しかしながら、細胞挙動は、多くの相互関係のある遺伝子、遺伝子産物および化学反応の同時的機能ならびに統合を含む。この相互接続性のために、細胞挙動への、単一の遺伝子もしくは遺伝子産物における変化の影響、または薬物もしくは環境因子の影響を演繹的に予測することは困難である。異なる条件下において細胞挙動を正確に予測する能力は、医学および工業の多くの領域において極めて価値があるものと思われる。例えば、どの遺伝子産物が適した薬物標的であるかを予測することが可能であったならば、有効な抗生物質または抗腫瘍剤を開発するのにかかる時間をかなり短縮されるであろう。同様に、特定の工業的に重要な生産物の生産のための最適な発酵条件および微生物の遺伝子構造を予測することが可能であったならば、これらの微生物の性能において迅速かつ費用効果の高い改良を可能にするであろう。
【0006】
このように、様々な条件下における細胞および生物体の挙動を正確にシミュレートし、かつ効果的に分析するために用いられうるモデルおよびモデリング方法についての必要性が存在する。本発明は、この必要性を満たし、かつそのうえ、関連した利点を提供する。
【発明の概要】
【0007】
本発明は、生物系の実施反応経路を同定する方法を提供する。方法は以下の段階からなる:(a)その生物系を表す反応ネットワークを通しての1セットの体系的反応経路を提供する段階;(b)その生物系の1セットの現象論的反応経路を提供する段階、および(c)そのセットの体系的反応経路をそのセットの現象論的反応経路と比較する段階であって、それらのセットに共通した経路がその生物系の実施反応経路である、段階。
【0008】
また、生物系反応ネットワークを改善する方法も提供される。その方法は、以下の段階からなる:(a)生物系の数学的表現を提供する段階;(b)生物系の観察される挙動と、類似した条件下におけるその生物系のその数学的表現のコンピューター内での挙動との間の差を測定する段階;(c)その生物系のその数学的表現の構造を改変する段階;(d)その生物系のその観察される挙動と、類似した条件下におけるその生物系のその改変された数学的表現のコンピューター内での挙動との間の差を測定する段階、ならびに(e)挙動の差が最小化されるまで、段階(d)および(e)を繰り返す段階であって、予定の正確さ基準の満足がその生物系反応ネットワークにおける向上を示している、段階。
【0009】
さらに、生物系データセットを調和させる方法が提供される。その方法は、以下の段階からなる:(a)複数の階層的反応カテゴリーを含む遺産データから再構築される第一の反応ネットワークを提供する段階;(b)経験的データから得られる第二の反応ネットワークを提供する段階、および(c)その第一の反応ネットワークにおけるその階層的反応カテゴリーと、その第二の反応ネットワークにおける要素との間の整合性測度を測定する段階であって、その階層的反応カテゴリーについての高程度のその整合性測度が、その第一反応ネットワークまたはそのサブコンポーネントの妥当性を示す、段階。
【0010】
細胞全体の機能への遺伝子多型の効果を測定する方法もまた提供される。その方法は、以下の段階からなる:(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークを作成する段階;(b)その反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階、および(c)正常な生物系を表す反応ネットワークと比較してそのストレスを加えられた生理学的状態におけるその適用された生化学的または生理学的条件に対する感受性を測定する段階であって、その感受性がその遺伝子多型媒介性病態の表現型の結果を示している、段階。
【0011】
本発明はさらに、遺伝子多型媒介性病態を診断する方法を提供する。その方法は、以下の段階からなる:(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階であって、その適用された生化学的または生理学的条件がその遺伝子多型媒介性病態と相関している、段階、および(b)その反応ネットワーク内のその病態の1つもしくは複数の生化学的または生理学的指標を測定する段階であって、ストレスを加えられていない生理学的状態と比較してそのストレスを加えられた状態でのその1つもしくは複数の生化学的または生理学的指標における変化が、その病態に対応する遺伝子多型の存在を示している、段階。
【図面の簡単な説明】
【0012】
【図1】生化学反応ネットワークの実施経路を決定することに関与する段階についての概念図を示す。
【図2A】制御された遺伝子が水平軸上に示されている、制御ツリーの1つの枝としての体系的反応経路の略図を示す。
【図2B】生物系の数学的表現が、アルゴリズムのアプローチおよび標的にされた実験を用いて繰り返し様式で向上させられうる過程を示す。
【図3】大腸菌におけるコア代謝のコンピューター内で作成される代謝流束プロファイルのためのコハク酸についての位相面が調製されたことを示す。
【図4】図の隣に示された酸素およびコハク酸の入力値を用いての大腸菌コア代謝に関して作成される流束分布行列のための位相面の位相Iを示す。
【図5】図4に示された流束行列に関する特異値分解(SVD)解析を示す。
【図6】SVDから得られた様々なモードについて、各条件、すなわち、図4位相面の位相Iに示された点、の寄与レベルを示す。
【図7】SVDから得られた様々なモードについて、各条件、すなわち、図4位相面の位相Iに示された点、の寄与レベルを示す。
【図8】表2に示されているコハク酸についての極度経路の削減されたセットを示す。
【図9】本発明の極度および実施経路を同定するための流束平衡分析(FBA)および凸解析の概念図を示す。
【図10】赤血球(RBC)代謝ネットワークの極度経路ついてのPのSVDから得られたモードを用いる分解された流束ベクトルを示す。
【図11】最大(Max)、中位(Mid)および名目上の状態(負荷無し)の酸化およびエネルギー負荷下における図10に示されたSVD解析の最初の5個のモードのヒストグラムを示す。
【図12】複雑な生物学的過程の大規模コンピューター内モデルを構築することについての概念図を示す。
【図13】臨床的に診断されたグルコース-6-リン酸デヒドロゲナーゼ(G6PD)患者に見出された一塩基多型クラスターの局在性を示す。
【図14】G6PD SNPsを有する慢性溶血性貧血状態と非慢性溶血性貧血状態の間の酸化負荷の耐性を示す。
【図15】異なるピルビン酸キナーゼ(PK)SNP変異体を含む解糖状態についての特徴付けおよびエネルギー負荷の耐性を示す。
【図16】酵母および大腸菌の制御ネットワークについての遺産および経験的データセットの調和を示す。
【図17】データセットの調和および数学的またはコンピューター内モデルの繰り返し向上のためのアルゴリズムの概念図を示す。
【図18】関連した化学反応および転写制御を支配する制御ルールを含む表とともに、コア代謝および制御の骨格ネットワークを示す。
【図19】実際の生物体における制御された遺伝子の発現、および結果として本発明の繰り返し過程の位相Iを生じるモデル系の計算を示す。
【図20】本発明のコンピューター内モデルを用いた制御無しの好気性成長についての流束平衡分析(FBA)を用いる計算された流束分布を示す。
【発明を実施するための形態】
【0013】
発明の詳細な説明
本発明は、生物系の1セットの構成要素の相互作用、統合および協調を決定するための方法ならびにシステムを提供する。本発明は、このように、ゲノム尺度において再構築された生化学反応ネットワークを迅速かつ体系的に特定するため、ならびに構成要素の活性およびそれらの相互作用を特定の表現型または生理学的状態へ関連づけるために用いられうる。どの構成要素が特定の条件下において操作可能であるかを理解することは、生きている細胞へ望ましい機能を操作する、うまく機能していない回路を修復する、および細胞の環境の適切な操作により内因性回路を調節する改良された方法を可能にする。さらになお、生化学的ネットワークを特徴付けるための迅速な方法は、最小限の実験的努力で事実上特徴付けられていない生物系の特徴付けを可能にする。
【0014】
本発明は、生化学反応ネットワークの実施経路を決定するための方法を提供する。本発明の方法は、(a)制御されうる反応から構成される、生化学反応ネットワークを提供する段階;(b)与えられた条件下における生物系の様々な生理学的または病理学的状態を表す1セットの実験的データを提供する段階;(c)生物系を全部または一部、定義する1セットの体系的経路を決定する段階;(d)生物系の実験的状態を記述する1セットの現象論的反応経路を決定する段階;および(e)ゲノム全体および生物系サブコンポーネントの両方の尺度において体系的および現象論的の両方の経路セットに共通した実施経路を決定する段階により実施される(図1)。
【0015】
本明細書に用いられる場合、用語「反応」は、基質を消費するまたは生成物を形成する化学的変換を意味するように意図される。その用語に含まれる変換は、生物体により遺伝的にコードされる1つもしくは複数の酵素の活性によって起こりうる、または細胞もしくは生物体において自発的に起こりうる。その用語に含まれる変換は、例えば、求核もしくは求電子付加、求核もしくは求電子置換、離脱、還元または酸化によるもののような、基質の生成物への変換でありうる。その用語に含まれる変換はまた、反応物が、膜を横断して、または一つの区画からもう一つへと、輸送される場合に起こる変化のような、位置における変化でありうる。反応の基質および生成物は、それらが化学的に同じであるとしても、特定の区画における位置により区別されうる。このように、化学的に変化していない反応物を第一の区画から第二の区画へ輸送する反応は、第一の区画においてそれの基質として反応物をもち、第二の区画においてそれの生成物として反応物をもつ。用語「反応」はまた、高分子を、第一高次構造、すなわち基質高次構造、から第二高次構造、すなわち生成物高次構造へ変化させる変換を含む。そのような高次構造変化は、例えば、ホルモンもしくは受容体のようなリガンドを結合することによる、または光の吸収のような物理的刺激からのエネルギーの変換に起因しうる。コンピューター内での生化学反応ネットワークに関して用いられる場合、「反応」は、上記のような変換の表現であるように意図されることは理解されるものと思われる。
【0016】
本明細書に用いられる場合、用語「反応物」は、反応の基質または生成物である化学物質を意味するように意図される。その用語は、生物体のゲノムによりコードされる1つもしくは複数の酵素により触媒される反応、1つもしくは複数の遺伝的にコードされていない触媒により触媒される生物体に起こる反応、または細胞もしくは生物体において自発的に起こる反応、の基質または生成物を含みうる。代謝産物は、その用語の意味の範囲内の反応物であると理解される。コンピューター内でのモデルまたはデータ構造との関連で用いられる場合、反応物は、反応の基質または生成物である化学物質の表現であると理解されることは、理解されるものと思われる。
【0017】
本明細書に用いられる場合、用語「基質」は、反応により1つまたは複数の生成物へ変換されうる反応物を意味するように意図される。その用語は、例えば、求核もしくは求電子付加、求核もしくは求電子置換、脱離、還元または酸化により化学的に変えられることになっている、または膜を横断して、もしくは異なる区画へ輸送されることによるような位置を変化させることになっている反応物を含みうる。その用語は、エネルギーの変換による高次構造を変化させる高分子を含みうる。
【0018】
本明細書に用いられる場合、用語「生成物」は、1つまたは複数の基質との反応に起因する反応物を意味するように意図される。その用語は、例えば、求核もしくは求電子付加、求核もしくは求電子置換、脱離、還元または酸化により化学的に変えられた、または膜を横断して、もしくは異なる区画へ輸送されることによるような位置を変化させた反応物を含みうる。その用語は、エネルギーの変換による高次構造を変化させる高分子を含みうる。
【0019】
本明細書に用いられる場合、用語「制御反応」は、触媒の活性を変える化学的変換または相互作用を意味するように意図される。化学的変換または相互作用は、触媒が翻訳後修飾される場合に起こるような触媒の活性を直接的に変えうる、または化学的変換もしくは結合事象が触媒の改変した発現へと導く場合に起こるような触媒の活性を間接的に変えうる。このように、転写または翻訳の制御経路は、触媒または関連した反応を間接的に変えうる。同様に、間接的制御反応は、下流構成要素または制御反応ネットワークの関与物質に起因して起こる反応を含みうる。データ構造またはコンピューター内でのモデルに関して用いられる場合、その用語は、第二反応への制約の値を変化させることにより第二反応を通しての流束を変える機能によって第二反応と関係がある第一反応を意味するように意図される。
【0020】
制御反応は、遺伝子の転写への活性もしくは不活性の制御因子の抑制性または誘導性効果についての情報をさらに含みうる。例えば、制御反応は、遺伝子の転写をもたらすそれに付随した1つまたは複数の制御因子を有しうる。
【0021】
制御反応は、遺伝子発現に影響を及ぼす制御因子の相互作用についての情報をさらに含みうる。例えば、制御反応は、遺伝子の転写をもたらすようにお互いに依存しているそれに付随した2つまたはそれ以上の制御因子の組み合わせを有しうる。
【0022】
制御反応は、特定の遺伝子の転写についての制御因子の相互作用および依存性を示すブール論理文の形をとった情報をさらに含みうる。例えば、特定の遺伝子は、その遺伝子の発現に必要とされる必須制御因子および制御性相互作用を記述するそれに割り当てられたブール論理を有しうる。
【0023】
本明細書に用いられる場合、用語「制御因子」は、1つもしくは複数の遺伝子、タンパク質、mRNA転写物の転写、転写後修飾または活性を制御する物質を指す。そのような制御因子は、制御タンパク質、低分子などでありうる。
【0024】
本明細書に用いられる場合、用語「制御事象」は、反応に利用可能な反応物の量に依存しない反応を通しての流束の変更因子を意味するように意図される。その用語に含まれる変更は、反応を触媒する酵素の存在、非存在、または量における変化でありうる。その用語に含まれる変更因子は、シグナル伝達反応のような制御反応、またはpH、温度、酸化還元電位もしくは時間における変化のような環境的条件でありうる。コンピューター内でのモデルまたはデータ構造に関して用いられる場合、制御事象は、反応に利用可能な反応物の量に依存しない反応を通しての流束の変更因子の表現であるように意図されることは、理解されるものと思われる。
【0025】
本明細書に用いられる場合、用語「反応ネットワーク」は、反応および反応構成要素の集合間の機能的相互関係の表現を指す。反応ネットワークに含まれる反応構成要素は、基質、生成物、酵素、補助因子、活性化因子、抑制因子、輸送体などのような反応に関与する任意の構成要素でありうる。機能的相互関係は、例えば、基質とそれの生成物の間のもの;基質または生成物と基質から生成物への変換を触媒する酵素の間のもの;酵素とそれの補助因子、活性化因子または抑制因子の間のもの;受容体とリガンドまたは物理的に相互作用する高分子の他のペアの間のもの;高分子とそれの輸送体の間のもの;転写制御に関与するタンパク質と特定の標的遺伝子を制御する制御領域におけるそれらのDNA結合部位の間のもの;などを含む。
【0026】
反応ネットワークは、ネットワーク内の反応の化学量論に関する情報をさらに含みうる。例えば、反応構成要素は、その構成要素とその反応に関与する他の構成要素の間の量的関係を反映するそれに割り当てられた化学量論係数を有しうる。
【0027】
反応ネットワークは、ネットワーク内の反応の可逆性に関する情報をさらに含みうる。反応は、可逆的または不可逆的のいずれかの方向で起こるとして記述されうる。可逆反応は、順方向および逆方向の両方において動作する1つの反応として表されうるか、または2つの不可逆反応へ分割されうり、一方が正反応に対応し、他方が逆反応に対応するかのいずれかである。
【0028】
反応ネットワークは、系内反応および交換反応の両方を含みうる。系内反応は、化学的かつ電気的に平衡のとれた化学種の相互変換および輸送過程であり、特定の反応物の相対的量を補充するまたは排出する働きをする。交換反応は、供給源およびシンクを構成し、区画の中へおよび外への、または仮説上の系境界を横断する、反応物の通過を可能にするものである。これらの反応は、生物系に課せられる要求を表す。慣例として、交換反応は、さらに、要求交換および入力/出力交換反応へ分類される。入力/出力交換反応は、構成要素が系に入るまたは出ることを可能にするために用いられる。要求交換反応は、アミノ酸、ヌクレオチド、リン脂質および他のバイオマス成分のような新しい細胞を創造する目的として細胞により産生されるために必要とされる構成要素、または別の目的として産生されうる代謝産物を表すために用いられる。
【0029】
反応ネットワークは、代謝性および制御性の両方の反応をさらに含みうる。代謝反応は、化学量論および可逆性により表されうるが、制御反応は、代謝性もしくは制御性タンパク質の存在または非存在、活性または不活性に依存すること、およびもたらすことの両方のブール論理文により表されうる。
【0030】
反応ネットワークは、任意の都合のよい様式で表されうる。例えば、反応ネットワークは、矢印で示される反応物間の相互関係を含む反応マップとして表されうる。本発明の方法による数学的操作として、反応ネットワークは、都合のよいことには、1組の線形代数方程式として表されうる、または化学量論的行列として提示されうる。ネットワークにおいてmが反応物の数に対応し、かつnが反応の数に対応するm x nの行列である化学量論的行列、S、が提供されうる。化学量論的行列およびそれらの調製および使用のための方法は、例えば、Schilling et al., Proc. Natl. Acad. Sci. USA 95:4193-4198 (1998)に記載されている。さらなる例として、反応ネットワークは、都合のよいことには、1組の線形代数方程式およびブール論理方程式として表されうる。ブール論理方程式は、制御事象の抑制性または誘導性効果により、数値を求められ、かつ化学量論的行列から特定の反応の除去または付加へ導きうる。そのような表現は、例えば、Covert MW, Schilling CH, Palsson B. J Theor Biol. 213:73-88 (2001)に記載されている。
【0031】
本発明の方法は、特定の生物系について自然に発生するすべての反応を実質的に含むネットワークのような、低いかまたは高いかのいずれかの複雑性の反応ネットワークで実施されうる。このように、反応ネットワークは、例えば、少なくとも約10、50、100、150、250、400、500、750、1000、2500、5000またはそれ以上の反応を含みうり、例えば、特定の生物系についての自然発生の反応の総数の少なくとも約5%、10%、20%、30%、50%、60%、75%、90%、95%または98%を表しうる。
【0032】
反応ネットワークは、1つまたは複数の生物系に関係する反応を表す。本明細書に用いられる場合、用語「生物系」は、生物体全体もしくはそれ由来の細胞を、または、生物体もしくは細胞において、生物体もしくは細胞へ、または生物体もしくは細胞により、起こる「生物学的過程」を指す。このように、反応ネットワークは、生物体全体、細胞全体または細胞下のレベルで起こる反応を表しうる。さらに、反応ネットワークは、異なる生物体または細胞間の相互作用を表しうる。
【0033】
用語「生物体」は、天然に存在する生物体、および遺伝子改変の生物体のような天然に存在しない生物体の両方を指す。生物体は、ウイルス、単細胞生物または多細胞生物でありうり、真核生物かまたは原核生物のいずれかでありうる。さらに、生物体は、動物、植物、原生生物、真菌または細菌でありうる。典型的な生物体は、病原体、ならびに、治療用物質、酵素、栄養補助食品および他の高分子のような商業的に重要な産物を産生するまたは産生するように作製されうる生物体を含む。生物体の例は、シロイヌナズナ(Arabidopsis thaliana)、枯草菌(Bacillus subtilis)、ウシ(Bos taurus)、線虫(Caenorhabditis elegans)、コナミドリムシ(Chlamydomonas reinhardtii)、ゼブラフィッシュ(Danio rerio)、細胞性粘菌(Dictyostelium discoideum)、キイロショウジョウバエ(Drosophila melanogaster)、大腸菌(Escherichia coli)、C型肝炎ウイルス(hepatitis C virus)、インフルエンザ菌(Haemophilus influenzae)、ヘリコバクター ピロリ(Helicobacter pylori)、ヒト(Homo sapiens)、マウス(Mus musculus)、肺炎マイコプラズマ(Mycoplasma pneumoniae)、イネ(Oryza sativa)、熱帯熱マラリア原虫(Plasmodium falciparum))、ニューモシスチス カリニ(Pneumocystis carinii)、ドブネズミ (Rattus norvegicus)、出芽酵母(Saccharomyces cerevisiae)、分裂酵母(Schizosaccharomyces pombe)、トラフグ(Takifugu rubripes)、アフリカツメガエル(Xenopus laevis)、トウモロコシ(Zea mays)などを含む。
【0034】
生物体または細胞の「生物学的過程」は、一連の統合された反応を必要とする生理学的機能を指す。生物学的過程は、例えば、細胞の代謝;細胞運動性;シグナル伝達(ホルモン、成長因子、低酸素、細胞-基質の相互作用、細胞-細胞の相互作用により惹起されるシグナルの伝達を含む);細胞周期調節;転写;翻訳;分解;選別;修復;分化;発生;アポトーシス;などでありうる。生物学的過程は、例えば、Stryer, L., Biochemistry, W.H. Freeman and Company, New York, 4th Edition (1995);Alberts et al., Molecular Biology of The Cell, Garland Publishing, Inc., New York, 2nd Edition (1989);Kuby, Immunology, 3rd Edition, W.H. Freeman & Co., New York (1997);およびKornberg and Baker, DNA Replication, W.H. Freeman and Company, New York, 2nd Edition (1992)に記載されている。
【0035】
一つの態様において、生物系は、細胞の代謝の生物学的過程を含み、その生物系を表す反応ネットワークは、「代謝反応ネットワーク」と呼ばれるのだが、細胞の代謝反応を含む。細胞の代謝の基本的な概説は、例えば、Stryer, L., Biochemistry, W.H. Freeman and Company, New York, 4th Edition (1995)に見出されうる。細胞の代謝は、有用には、中枢的および末梢的代謝反応へ分類されうる。中枢的代謝反応は、解糖、ペントースリン酸経路(PPP)、トリカルボン酸(TCA)回路および呼吸に属する反応を含む。末梢的代謝は、中枢的代謝の部分ではないすべての代謝反応を含むのだが、アミノ酸の生合成、アミノ酸の分解、プリンの生合成、ピリミジンの生合成、脂質の生合成、脂肪酸の代謝、補助因子の生合成、細胞壁成分の代謝、代謝産物の輸送、または炭素源、窒素源、リン酸源、酸素源、イオウ源、水素源などの代謝に関与する反応を含む。
【0036】
もう一つの態様において、生物系は、転写制御の生物学的過程を含み、その生物系を表す反応ネットワークは、「転写制御反応ネットワーク」と呼ばれるのだが、細胞の転写制御反応を含む。細胞の転写制御の基本的な概説は、例えば、Alberts et al., Molecular Biology of The Cell, Garland Publishing, Inc., New York, 2nd Edition (1989)に見出されうる。転写制御事象は、制御される遺伝子の型、例えば、代謝、細胞周期、鞭毛生合成などと関連したそれらの遺伝子、により分類されうる。
【0037】
もう一つの態様において、生物系は、細胞の代謝および転写制御の生物学的過程を含み、その生物系を表す反応ネットワークは、代謝および転写制御の両方の反応を含む。
【0038】
生物体もしくは細胞の全体の実質的にすべての反応、または生物体もしくは細胞の特定の生物学的過程の実質的にすべての反応を含む反応ネットワークは、「ゲノム尺度」反応ネットワークと呼ばれる。様々な生物体の代謝を表すゲノム尺度反応ネットワークは、大腸菌(PCT公開WO 00/46405);H. ピロリ(pylori)(Schilling et al., J. Bacteriol. 184:4582-4593 (2002));およびインフルエンザ菌(H. influenzae)(Edwards J.S. and Palsson B.O. J. Biol. Chem. 274:17410-17416 (2001))を含め、記載されている。
【0039】
他の生物系について、ゲノム尺度反応ネットワークは、当技術分野において公知の方法により調製されうる。一般的に、これらの方法は、まず、生物体、細胞または生物系において起こることが可能である反応の包括的なリストを作成すること、およびそれらの相互連結性を決定することを含む。リストは、生物体の注釈付きゲノムの分析から決定され、要求に応じて科学文献および実験データから補われた、反応を含みうる。また、輸送反応、バイオマス組成要求、成長関連エネルギー必要量なども含まれうる。
【0040】
多数の動物、植物、原生動物、真菌、細菌およびウイルスのゲノム配列は、完了されたまたは進行中である(例えば、The Institute for Genome Research(TIGR)データベース(www. tigr.org/tdb/)およびthe NCBI Entrez Genomeデータベース(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome)におけるゲノムエントリーを参照)。注釈付きゲノム配列情報および再構築されたネットワーク情報の他のワールドワイドウェブに基づく情報源は、EcoCyc、代謝経路データベース(Metabolic pathways database)(MPW)、Kyoto Encyclopedia of Genes and Genomes(KEGG)、What is There(WIT)およびBiology Workbenchを含む。
【0041】
ゲノムがまだシーケンシングされていない生物体について、そのゲノム配列を得るための様々な方法は当技術分野において知られている。たいていの大規模ゲノムシーケンシング方法において、DNAを単離すること、DNAをクローニングまたは増幅すること、シーケンシング反応を調製すること、および配列を得る標識された断片を分離かつ検出することからのあらゆる段階は自動化されている(Meldrum, Genome Res. 10:1081-1092 (2000))。たいていの方法は、定方向仕上げ段階とのランダムショットガンシーケンシングの組み合わせのようなシーケンシング方法の組み合わせを用いる。他の方法は、全ゲノムショットガンアプローチを用い、総ゲノムDNAのランダム断片が直接的にサブクローニングされ、高処理量シーケンシングがゲノムの重複性適用範囲を提供するために用いられる。もう一つのアプローチは、ゲノムライブラリーにおいてあらゆるBACの各末端をシーケンシングし、次のクローンを選択するために、終えた配列をBAC末端配列に整合させることである(Venter et al., Science 280:1540-1542 (1998);Waterston et al, Science 282:53-54 (1998))。
【0042】
新しくシーケンシングされたゲノムについて、オープンリーディングフレーム(ORF)またはコード領域は、様々な方法によりDNA配列の残りから区別されうる。DNA配列、それの鎖、およびヌクレオチド組成においてORFの位置を決定することは、遺伝子シグナル(例えば、プロモーター、結合部位、開始および終止コドンなど)を探索することにより、または遺伝子内容(例えば、コドン優先度、位置的塩基頻度など)を分析することにより、または両方の方法の組み合わせにより、行われうる。アルゴリズムおよび計算ツールは、the University of Wisconsin Genetics Computer GroupおよびNational Center for Biotechnology Informationのような機関を通して利用可能なこれらの方法を用いて全DNA配列のORFを決定するために利用できる。さらになお、他の計算アルゴリズムが開発され、細菌または真核生物の遺伝子が隠れマルコフモデルのようなアルゴリズム方法により同定されうり、日常的に、タンパク質コード領域およびRNA遺伝子の99%より多くを見出している(Pevzner, "Computational molecular biology: an algorithmic approach," in Computational Molecular Biology. Cambridge, MA: MIT Press, xviii, p.314 (2000);Baldi et al., "Bioinformatics: the machine learning approach," in Adaptive Computation and Machine Learning. Cambridge, MA: MIT Press xviii, p. 351 (1998);Fraser et al., Nature 406:799-803 (2000))。
【0043】
コード領域に機能を割り当てるために、新しく同定されたORFが、配列類似性について既知の機能の遺伝子およびタンパク質配列を含むデータベースに対して検索される。プログラムのBLASTおよびFASTAファミリーのようないくつかのアルゴリズムが開発され、公的に利用可能であり、機能的に知られていないORFの類似性が機能注釈付きの遺伝子に対して決定されうる。新規の配列生物体における同定されていない遺伝子の主要部は、この方法で機能的に割り当てられうる。
【0044】
遺伝子の推定上の機能が、遺伝子またはタンパク質配列類似性により確立されない場合には、機能または位置による遺伝子クラスタリングのような他の技術が、ネットワークにおける遺伝子の役割を評価するために用いられうる。同じ全体の機能に関与する遺伝子産物は、細胞において経路を構築しうる。最初の配列注釈から構築された経路における「失われた環」は、まだ同定されていない遺伝子の存在を示唆する。他の生物体に対して配列を検索することは、失われた遺伝子の可能なヌクレオチド配列についての手掛かりを与え、次には、割り当てられていないコード領域の機能性をターゲットするのを促進する。KEGGおよびWITのような様々なゲノムデータベースにおいてこの方法を行うアルゴリズムが開発された。さらに、隣接する位置の遺伝子は、そのDNA配列が他の生物体のそれと比較される場合、協調された様式で制御され、かつ機能するオペロンへクラスタリングされうる。生化学的および生理学的情報に加えて、注釈付きの遺伝的情報から、反応および反応構成要素の相互関係性が決定され、反応ネットワークが完成される。
【0045】
ゲノムのORFまたはコード領域を定義することに加えて、制御領域が様々な方法により定義されうる。制御領域は、転写制御因子および転写機構の構成要素についての結合部位を含む。これらの部位は、制御領域により調節される遺伝子を制御する転写制御因子の能力のように、転写制御の特異性を決定する。制御領域および部位を同定する方法は、制御領域に対応しうるゲノムの高度に保存されたセグメントを同定するために密接に関連したゲノムの非コード領域を比較することを含む。ゲノムの非コード領域の群はまた、ゲノムにおいて特異的な結合部位パターンを同定するために普通に存在する配列断片について検索されうる。これらの群は、例えば、制御領域により調節される遺伝子の生物学的機能における類似性により定義されうる。さらに、サッカロマイセスプロモーターデータベース(Saccharomyces Promoter Database)(Zhu and Zhang, Bioinformatics 15:607-611 (1999))またはTRANSFAC(Wingender et al., Nucl. Acids Res. 29:281-283 (2001))のような特定のデータベースに保存された特定の転写制御因子についての結合部位パターンの現存する定義は、制御因子に対する新しい結合部位についてゲノムを検索するために用いられうる。特定の転写制御因子についての制御部位を同定することは、これらの制御因子により制御される可能性のある標的遺伝子を確立し、それに従って、制御ネットワークに追加されうる新しい制御反応を示唆することを可能にする。
【0046】
本明細書に用いられる場合、用語「反応経路」は、反応構成要素、制御情報またはシグナル伝達分子が流れる可能性がありうる反応ネットワークを通してのルートを指す。反応経路を通しての変換を生じる基質の実際の量および/または速度(「流束」としても知られている)は、考慮中の生物系の生理学的状態の機能であること、ならびに反応経路(下記のような実施の、極度および現象論的の反応経路を含む)は、一般的に、生物系の生理学的状態と関連して特定化されることは、認識されているものと思われる。用語「生理学的状態」は、生物系を通しての流束に影響を及ぼす、または影響を及ぼす可能性が高い、任意の特定された内部および外部パラメーターを指すように意図される。流束に影響を及ぼしうるパラメーターは、例えば、生物系への実際または意図された入力(炭素、窒素、リン、イオウまたは水素源;酸素、栄養分、ホルモン、成長因子、抑制因子などの存在または量のような);生物系の実際または意図された出力(バイオマス成分、分泌産物などのような)、および環境的変数(温度、pHなどのような)を含む。流束に影響を及ぼしうる他のパラメーターは、例えば、細胞の分化または形質転換の状態;細胞齢;基質との、または隣接する細胞とのそれの接触;発現された遺伝子の付加または欠失;などを含む。
【0047】
本明細書に用いられる場合、用語「体系的反応経路」は、反応ネットワークの適した表現に適用された自動化方法により同定された反応経路を指す。その方法は、反応経路を同定する数学的またはアルゴリズムの操作を含みうり、それは、反応経路の同定に影響を及ぼすユーザー定義可能なパラメーターを含みうる。体系的反応経路は、固有である必要はなく、反応ネットワークのサブセットに適用するのみでありうる。
【0048】
凸解析を用いる体系的反応経路を同定する方法は、当技術分野において記載されている。そのような方法は、例えば、化学量論的ネットワーク分析(SNA)(Clarke, Cell Biophys. 12:237-253 (1988));基本モード分析(Schuster et al., Trends Biotech. 17:53-60 (1999));および極度経路分析(Schilling et al., J. Theor. Biol. 203:229-248 (2000);Schilling et al., Biotechnol. Bioeng. 71:286-306 (2001))を含む。これらの型の分析間の区別は、Schilling et al.、前記 (2000)に記載される。
【0049】
一つの態様において、体系的反応経路は、極度経路である。用語「極度経路」は、定義された反応ネットワークにより達成可能なすべての可能性のある定常状態流束分布の限界を定める凸面の高次元空間に及ぶ体系的に独立した経路を指す。
【0050】
本発明の方法における使用のために1セットの体系的反応経路を「提供する」のに必要とされる段階は、生物系および反応ネットワークに関してすでに利用可能な情報の量ならびに型に依存するものであることは、理解されていると思われる。特定の生物系および生理学的状態について、極度反応経路のセットは、当技術分野において記載されている。例えば、ヒト赤血球代謝ネットワークについての極度経路は、Wiback et al., Biophys. J. 83:808-818 (2002)に記載されている。インフルエンザ菌代謝ネットワークについての極度経路は、Schilling et al., J. Theor. Biol. 203:249-283 (2000)およびPapin et al., J. Theor. Biol. 215:67-82 (2002)に記載される。H. ピロリ代謝ネットワークについての極度経路は、Price et al., Genome Res. 12:760-769 (2002)に記載される。
【0051】
極度反応経路はまた、当技術分野において公知の方法を用いて新規に決定されうる(Schilling et al. 前記 (2000);Schilling et al. 前記 (2001))。適切な化学量論的および熱力学的制約が、定常状態条件下での反応ネットワークにおける系内および交換反応に課せられうる。制約はまた、生物系へのおよび生物系からの、反応物の入力ならびに出力に課せられうる。任意に、制御的制約もまた課せられうる(Covert et al., J. Theor. Biol. 213:73-88 (2001);Covert et al., J. Biol. Chem. 277:28058-28064 (2002))。これは、結果として、凸解析を用いて解かれうる線形等式および不等式のシステムを生じる。解の空間は、幾何学的に、起源から放射する高次元空間における凸多面体円錐に対応し、定常状態「流束円錐」と呼ばれる。この流束円錐内に、すべての可能な定常状態の解、およびこのゆえに、生物系のすべての許容できる流束分布が、存在する。極度経路は、流束円錐の辺を定義するベクトルに対応する。
【0052】
もう一つの態様において、体系的反応経路は、制御のツリーの1つの枝である。生物系の制御された遺伝子は、制御された遺伝子が水平軸上に示された図2Aに示されているように描かれうる。ブール表示において、各タンパク質および各遺伝子は、「オン」または「オフ」(それぞれ、活性または不活性)と見なされうる。生物系におけるすべての遺伝子およびタンパク質の活性度状態の組み合わせが、「体系的制御経路」または「体系的シグナル伝達経路」と見なされうる。
【0053】
もう一つの態様において、体系的反応経路は、制御因子もしくは制御因子群により制御される、制御された遺伝子または遺伝子セットの活性度に影響を及ぼす1セットの制御因子および制御反応である。これらのセットは、グラフとして表された制御ネットワークの連結性を分析すること、および特定の節点(制御因子または制御された遺伝子)に連結されたネットワークにおいて節点を同定することにより同定されうる。そのような種類の最小の可能性のあるセットは、制御因子と標的遺伝子の間の1つの制御反応を含むものである。
【0054】
本明細書に用いられる場合、用語「現象論的反応経路」は、生物系の状態を全部または一部、記述する実験データを分析することを通して定義される反応経路を指す。現象論的反応経路を定義するために用いられうるデータ型は、限定されるものではないが、トランスクリプトミクス、プロテオミクス、メタボロミクス、フラックソミクス、タンパク質-タンパク質相互作用、およびDNA結合部位占有のデータを含む。実験データから現象論的経路を定義するために用いられるデータ分析方法は、限定されるものではないが、システム同定、統計学的、アルゴリズムの、またはシグナル処理の技術を含む。
【0055】
生物系の反応および反応物についての現象論的情報は、当技術分野において公知の方法により測定されうり、定性的かまたは定量的でありうる。例えば、現象論的情報は、生物系において、遺伝子の転写、タンパク質の発現もしくは相互作用、代謝産物もしくは他の反応物の産生、または反応の使用を測定することにより得られうる。「ゲノム(genome)」という用語への類推により、実質的に生物体または細胞の全体の尺度で得られる場合、そのような情報は、それぞれ、「トランスクリプトーム(transcriptome)」、「プロテオーム(proteome)」、「メタボローム(metabolome)」および「フラックソーム(fluxome)」と呼ばれる。
【0056】
トランスクリプトーム尺度で遺伝子発現を測定する方法(「トランスクリプトミクス(transcriptomics)」としても知られている)は、当技術分野において知られており、例えば、同時にすべての転写物の同時分析を可能にするDNAマイクロアレイ方法(Shena et al., Science 270:467-470 (1995);DeRisi et al., Science 278:680-686 (1997))、および遺伝子発現の連続分析(SAGE)方法(Velculescu et al., Trends Genet. 16:423-425 (2000))を含む;タンパク質発現を測定する方法(「プロテオミクス(proteomics)」としても知られている)もまた、当技術分野において知られている。発現プロテオミクス方法は、一般的に、2次元ゲル電気泳動によるようなタンパク質の分離、続いて、放射性標識、色素または染色を用いるタンパク質画像処理を含む。分離されたタンパク質は、その後、質量分析法によるペプチド質量フィンガープリント法およびナノエレクトロスプレーによるペプチド配列タグ分析のような方法を用いて同定される(Blackstock et al., Trends Biotechnol. 17:121-127 (1999))。
【0057】
大規模で細胞における生物学的分子間の相互作用を測定するための方法もまた、当技術分野において知られている。タンパク質-タンパク質相互作用情報は、タンパク質の機能に関する推論を可能にするが、例えば、ペアワイズタンパク質相互作用を同定する大規模2ハイブリッド分析を用いて得られうる(Fromont-Racine et al., Nat. Genet. 16:277-282 (1997))。間接的タンパク質-DNA相互作用情報は、DNA結合タンパク質のゲノム結合部位および転写因子のゲノム標的のゲノム尺度の同定を可能にする、クロマチン免疫沈降チップ(ChIP-ChIP)方法を用いて得られうる(Iyer et al., Nature 409:533-538 (2001))。
【0058】
細胞において代謝産物の補体を測定する方法(「メタボロミクス(metabolomics)」としても知られている)もまた、当技術分野において知られており、例えば、13C-NMRのような核磁気共鳴(NMR)分光分析法;ガスクロマトグラフィー/飛行時間型質量分光分析法(GC/TOFMS)のような質量分光分析法;および液体クロマトグラフィーを含む(Fiehn, Plant Mol. Biol. 48:155-171 (2002);Phelps et al., Curr. Opin. Biotech. 13:20-24 (2002))。
【0059】
同様に、反応経路を通しての流束を測定する方法(「フルックソミクス(fluxomics)」としても知られている)は、当技術分野において知られており、例えば、代謝流束比率分析(METAFoR)である(Sauer et al., J. Bacteriol. 181:6679-6688 (1999))。METAFoRは、用いられた代謝経路を反映している、一律に同位体的に標識された前駆体分子から生じるバイオマス成分における無傷の炭素結合の相対的存在量を定量する。
【0060】
生物系の生理学的状態を繰り返して変えることにより、実験的にかまたはコンピューター内でのいずれかで、異なる状態での一連の現象論的測定値が、得られうるまたは予測されうる。これらのデータは、ベクトルの形をとって組織化され、行列または表形式で表されうる。例えば、1組の遺伝子アレイ発現データは、各行が遺伝子であり、各列が実験であり、各値は発現レベルまたは率である、行列として組織化されうる。もう一つの例として、1組のフルックソームデータは、各行が反応であり、各列が実験であり、各値は流束レベルまたは率である、行列として組織化されうる。さらなる例として、1組の表現型データは、各行が実験であり、各列が環境的構成要素(栄養分、老廃物、またはバイオマスのような)であり、各値は摂取、分泌または成長の速度である、行列として組織化されうる。
【0061】
現象論的情報は、1セットの現象論的反応経路を決定するために、システム同定の方法、統計学的データ解析、コンビナトリアルアルゴリズムまたはシグナル処理のような、当技術分野において公知の様々な方法により分析されうる。
【0062】
システム同定の方法は、当技術分野において知られており、例えば、様々な型のクラスタリング分析方法を含む(Sherlock et al., Curr. Opin. Immunol. 12:201-205 (2000)に概説されている)。クラスタリング方法は、共発現されている遺伝子のグループを抽出するために行列または表形式での実験データに適用されうる。互いに素であるかまたは重複しているかのいずれかでありうるこれらのグループは、現象論的経路の定義として用いられうる。または、各クラスター内のデータベクトルは、そのクラスターについての代表する現象論的経路であるように選択されうる − このベクトルは、例えば、クラスターの重心としても知られている、クラスター内のデータポイントの平均値でありうる。
【0063】
クラスタリング分析方法は、例えば、階層的クラスタリング分析(Eisen et al., Proc. Natl. Acad. Sci. USA 95:14863-14868 (1998);Wen et al., Proc. Natl. Acad. Sci. USA 95:334-339 (1998))を含み、それにより、単一の反応物プロファイルが連続的に連結されて節点を形成し、その後、さらに連結される。その工程は、すべての個々のプロファイルおよび節点が連結されて単一の階層ツリーを形成するまで続く。クラスタリング分析方法はまた、分割的クラスタリング分析(Alon et al., Proc. Natl. Acad. Sci. USA 96:6745-6750 (1999))を含み、2つのベクトルがランダムに初期値にセットされ、各反応物は、確率関数を用いて2つのベクトルのうちの1つに割り当てられる。ベクトルは、その2つのクラスターの重心を形成するように反復して再計算され、各クラスターは、各クラスターが単一のプロファイルからなるまで同じ様式で連続的に分割される。クラスタリング分析方法はまた、データが適度に均一なグループへ区分化される方法を含む。区分化を組み込むクラスタリング方法は、例えば、自己組織化マップ(Kohenen, "Self Organizing Maps," Berlin: Springer (1995);Tamayo et al., Proc. Natl. Acad. Sci. USA 96:2907-2912 (1999))およびk-平均クラスタリング(Everitt, "Cluster Analysis 122," London: Heinemann (1974))を含む。
【0064】
システム同定のもう一つの方法は、データの主成分分析であり、データ行列の特異値分解(SVD)に密接に関連している(Holter et al., Proc. Natl. Acad. Sci. USA 97:8409-9414 (2000);Alter et al., Proc. Natl. Acad. Sci. USA 97:10101-10106 (2000);Holter et al., Proc. Natl. Acad. Sci. USA 98:1693-1698 (2001))。主成分分析は、観察結果における差を説明する多次元データセットにおいて基本変数を決定するための統計学的技術であり、多次元データセットの解析および視覚化を単純化するために用いられうる。SVDは、データ、例えば、遺伝子発現データの、遺伝子xアレイ空間から換算対角行列化「固有遺伝子」x「固有アレイ」空間への線形変換であって、固有遺伝子(または固有アレイ)がその遺伝子(またはアレイ)の一意的な正規直交重ね合わせである。データの正規化および分類後、個々の遺伝子およびアレイは、それぞれ、類似した制御および機能、または類似した生理学的状態に従ってグループ化となる。主成分およびSVD分析は、主要な構成要素またはモードあたりの各ベクトルがどれくらいの変動性を捕捉しているかにより順序づけられたデータ空間(例えば、nが遺伝子の数である場合はn次元)において1セットのベクトルを出力する。これらのベクトルは、それぞれ、分析された実験が表している特定の条件下における生物体の遺伝子/タンパク質補体の使用量の主要なモードを記述する現象論的経路として解釈されうる。
【0065】
階層的クラスタリング、自己組織化マップ、K-平均クラスタリングおよび主成分分析を含む、様々な型の大規模データ分析のためのソフトウェアは、当技術分野において知られている、または特定の適用として開発されうる。典型的分析ソフトウェアは、「XCluster」(ワールドワイドウェブ上のgenome-www.stanford.edu/~sherlock/cluster.htmlを参照)、「Cluster」ソフトウェア(ワールドワイドウェブ上のrana.lbl.gov/EisenSoftware.htmを参照)および「Genesis」ソフトウェア(ワールドワイドウェブ上のgenome.tugraz.at/Software/Genesis/Description.htmlを参照)を含む。
【0066】
どの方法が、またはどの方法の組み合わせが、1セットの現象論的反応経路を決定するために現象論的情報を分析するのに適しているかを当業者は決定できる。
【0067】
本明細書に用いられる場合、用語「実施反応経路」は、生物系に存在する反応物、または生物系を通しての流束を考慮に入れて実行可能である生物系の体系的反応経路を指す。実施反応経路は、このように、生物系において実際に流束を示す可能性が高い体系的反応経路のサブセットを構築する。生物系についての現象論的情報と一致している体系的経路のサブセットは、存在する反応物または生物系を通しての反応流束と一致した実施反応経路を同定するために決定されうる。
【0068】
いったん、1セットの体系的反応経路および1セットの現象論的反応経路が提供されたならば、その2セットが比較され、共通の経路が同定される。上記のように、その2セットの経路は、ベクトルの形をとって、または経路に関与している遺伝子のグループの形をとって、または他の便利な方法で表されうる。2つのベクトルまたは2つのグループ化が比較されうる、当技術分野において公知の多数の数学的方法がある。
【0069】
例えば、2セットのベクトルは、以下のものを含むベクトル間のペアワイズ類似性について多数の測定を用いて比較されうる:(1)ユークリッド距離、空間内の2点、すなわちこの場合、2つのベクトルの間の、ベクトルの方向および大きさの両方を考慮に入れての、平方距離に対応する(Hubbard J.H. and Hubbard B.B. Vector Calculus, Linear Algebra, and Differential Forms, Prentice-Hall(1999));(2)ピアソン相関係数、長さが一方に対して標準化され、それに従って、ベクトルの長さに依存しない2つのベクトル間の角度を測定する(Larsen R.J. and Marx M.L. An Introduction to Mathematical Statistics and Applications, Prentice Hall, New Jersey (1986));(3)ジャックナイフ相関係数、ピアソン相関係数に類似しているが、より頑健な距離測定を提供するために単一のアウトライアー成分の効果について補正されている(Heyer et al., Genome Res. 9:1106-1115 (1999))。ベクトルを比較するための他の方法は、当技術分野において知られている。
【0070】
同様に、体系的および現象論的定義に基づく遺伝子のグループ化を比較するための方法は、以下のものを含む:(1)ランド(Rand)指標、同じセットの遺伝子の2つの異なるグループ化の間の重複部分を測定する(Yeung K.Y et al., Bioinformatics 17:177 (2001));および(2)対応分析、お互いに最も類似している体系的経路および現象論的経路がお互いに最も接近して位置していることが示されるように、2つのグループ化間の2次元グラフ表示を提供する(Johnson R.A. and Wichern D.W. Applied Multivariate Statistical Analysis, 5th Ed., Prentice Hall, New Jersey (2002))。
【0071】
当業者は、どの方法が、またはどの方法の組み合わせが、実施反応経路を同定するために体系的反応経路および現象論的反応経路を比較するのに適しているかを決定することができる。
【0072】
本発明はまた、細胞全体の機能への遺伝子多型の効果を測定する方法を提供する。その方法は、以下の段階からなる:(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークを作成する段階;(b)反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階、および(c)正常な生物系を表す反応ネットワークと比較してストレスを加えられた生理学的状態において適用された生化学的または生理学的条件への感受性を測定する段階であって、感受性が、遺伝子多型媒介性病態の表現型的結果を示している、段階。生化学的または生理学的条件は、例えば、流束負荷、pH、反応物、または生成物における変化、加えて、酸化的もしくはエネルギー負荷におけるもののようなシステムまたはサブシステム変化でありうる。
【0073】
簡単には、生物系の生理学的状態を分析し、それらを体系的反応経路と比較し、1つまたは複数の実施反応経路を決定するための上記の方法は、同様に、遺伝子多型の、生物系またはそのサブコンポーネントへの効果を測定するために用いられうる。例えば、体系的反応との比較に用いられる現象論的情報は、酵素もしくは他のポリペプチドの実際のかまたはシミュレートしたかのいずれの遺伝的突然変異からでも得られうる。突然変異による酵素またはポリペプチドの活性における変化は、当技術分野において周知の様々な方法を用いて、欠陥を表現する源から得られうる、または利用可能な情報もしくは予測的計算に基づいて推定される。評価されうる活性は、例えば、酵素の触媒機能、または転写制御因子のようなポリペプチドの結合活性を含む。
【0074】
遺伝子多型の反応ネットワークを構成するコンピューター内でのモデルは、前に記載されているように構築されうり、多型の効果は、全体としての生物系の関係において評価されうる。反応ネットワークが曝される条件は、変化されうり、単一または複数の、組み合わされた多型の効果は、生物系全体の機能に対して、または多型がそのサブシステムに関連している場合に、測定されうる。例えば、体系的経路または実施経路は、遺伝子多型の存在または非存在下において計算されうる。その2つの反応ネットワーク間の体系的経路、実施経路または表現型顕在化の比較は、本来の反応ネットワークと多型対応物との間の、もしあれば、差を測定するように行われうる。そのような差は、例えば、新しい体系的または実施経路の創出、そのような経路の省略、およびそのような経路の速度または大きさにおける変化を含みうる。正常と多型の状態間のそのような変化の結果はまた、生化学的もしくは生理学的機能への、または遺伝子多型の表現型的発現への結果的影響を明らかにするものと思われる。
【0075】
変化させられうる条件は、例えば、システムの任意の生化学的または生理学的な構成要素を含む。そのような条件は、例えば、温度、pH、炭素源のような外部環境的成長条件、および構成要素が生物系に入る、または出ることを可能にする他の入力/出力反応を含む、いずれの生物系の外部でもありうる。または、そのような生化学的または生理学的条件は、生物系の内部でありうる。内部条件の具体例は、例えば、系またはサブシステム境界を横断する反応物の通過を可能にする源および流しを示す交換反応、反応物を補充するまたは排出する系内反応、ならびに細胞により産生される構成要素のカテゴリーを表す要求反応を含む。生物系の内部の生化学的または生理学的条件はまた、pH、炭素源の利用、代謝産物の有効性、補助因子、基質および生成物における変化を含みうる。他の変化される内部条件は、例えば、対応するサブシステムへの酸化的またはエネルギー負荷のようなシステム負荷における変更を含みうる。当業者に周知の様々な他の生化学的または生理学的条件は、同様に、生物系機能への遺伝子多型の効果を測定するための比較反応ネットワークシミュレーションを得るために本発明の方法において変化させられうる。
【0076】
各生物系についての条件を変更または変化させることは、一般的に、天然生物系と対応する多型性生物系との間の比較について十分である。しかしながら、生化学的または生理学的条件が、生物系またはその相関的サブシステムにストレスを加えるのに十分な大きさで天然生物系および多型性生物系へ適用される場合、影響は増大されうる。例えば、多型性酵素の活性がそれの天然の対応物と比較してわずかにのみ変化しているところにおいて、活性における差は、試験された活性範囲内において細胞の機能に実質的に影響を及ぼしているわけではないかもしれない。一つには、細胞の機能へのわずかの影響は、活性不足にもかかわらず、正常な細胞活性を行いうる十分な生成物の産生のためでありうる。しかしながら、多型性酵素の活性がストレスを加えられた条件下で試験されるところにおいて、システムの必要とされた追加の仕事による追加の細胞の要求を満たすことができない可能性がある。従って、ストレスを加えられた条件下において、天然の反応ネットワーク機能と多型性反応ネットワークのそれとの比較は、過剰要求下での生成物産生の不足により多型性酵素のそれらの活性効果をより容易に明らかにするものと思われる。
【0077】
生化学的または生理学的条件を適用することに関して用いられる場合の用語「ストレス」または「ストレスを加えること」は、生物系、反応ネットワークまたはそのサブシステムを緊張の状態または余分な努力の影響下に置くことを意味するように意図される。ストレスは、生物系、反応ネットワークもしくはそのサブシステムの正常なまたは名目上の状態下のそれへ余分に、構成要素への要求、負荷または努力を適用する限り、穏やかまたは激しくありうる。それゆえに、システム状態にストレスを加えることは、システムに、目標を達成するに向けて追加の努力を発揮するようにさせる条件を課すことを含むように意図される。生理学的状態にストレスを加える生化学的または生理学的条件を生物系へ適用する具体例は、下の実施例IIIにさらに記載されている。
【0078】
遺伝子多型は、例えば、一塩基多型(SNPs)、およびコードしている遺伝子内の、結果としてその遺伝子またはそれのポリペプチドコード領域内に多型性領域を生じる複数の変更箇所を構成しうる。遺伝子またはコード領域構造における多型は、含んでいる核酸の発現レベル、コードされたポリペプチドの活性、または両方を変えうる。遺伝学およびゲノミクスの業者に周知の多型は、例えば、遺伝子の対立遺伝子多型、SNPs、および参照核酸の多型性領域を含む。遺伝子多型の具体例は、グルコース-6-リン酸デヒドロゲナーゼ(G6PD)およびピルビン酸キナーゼ(PK)についての実施例IIIに記載されたコード配列におけるそれらの変異を含む。多数の他の遺伝子多型およびそれらの関連疾患は、同様に、当業者によく知られている。
【0079】
教示および手引きが本明細書に提供されるとすれば、細胞の機能への遺伝子多型の効果を測定するための本発明の方法は、任意の既知の、またはその後に決定される遺伝子多型について用いられうる。同様に、遺伝的欠陥と媒介された病態との間の関連もまた、以前に知られている、またはその後決定されうる。そのうえ、下でさらに記載されているように、酵素またはポリペプチドの活性を変化させる、以前には未決定の遺伝子多型を診断するために用いられうる。しかしながら、生物系全体の関係において欠陥の影響を測定することにより、生物系の機能的能力のより正確な表現型および評価が得られうる。そのような複雑なシステムの表現型的および機能的寄与の正確な測定は、遺伝子多型媒介性疾患のより有意義な治療のために有利に適用されうる。
【0080】
多型性酵素の、ストレスを加えられた条件に対する感受性は、どの多型が反応系に組み入れられているか、多型および系に加えられるストレスのレベルによるポリペプチド活性変化の程度に依存して、多かれ少なかれ、表明されうる。教示および手引きが本明細書に提供されるとすれば、どんな感受性が特定の多型性酵素または他のポリペプチドを示しているかを当業者は知るものと思われる、または測定できる。例えば、グルコース-6-リン酸デヒドロゲナーゼ(G6PD)は、ペントース経路の酸化的支流において機能し、最高速度(Vmax)および補助因子結合親和性(Ki-NADPH)における変化に感受性がある。これらの活性における変化をもつ酵素は、結果として、変化した活性をもつG6PDについての代謝状態の指標として用いられうる酸化的要求性における変化を生じる。例えば、生物系の代謝状態の1つの高感度指標は、NADPH/NADP比率である。この比率は、ストレスを加えられた条件下で測定され、生物系における表現型的および機能的変化を測定するために、多型反応ネットワーク間を、正常なネットワークのそれと比較されうる。下の実施例IIIでさらに記載されているように、これらのG6PD活性において変化を有する多型酵素は、それらの媒介する非慢性および慢性溶血性貧血のように本発明の方法において識別されうる。
【0081】
同様に、ピルビン酸キナーゼ(PK)は、解糖において機能し、Vmaxおよびホスホエノールピルビン酸のような基質に対する親和性(KPEP)における変化に反応しやすい。これらの活性における変化は、結果として、ATP濃度、および2,3 DPG濃度における変化を生じる。VmaxおよびKPEPの高感度指標は、例えば、生物系が正常な条件と比較して最大エネルギー負荷またはストレス下にある場合のATPの濃度を含みうる。G6PDと同様に、これらの活性において変化をもつ多型性PK酵素は、貧血患者が正常なホメオスタシス状態から逸脱する減弱した能力をもつことを示す。
【0082】
機能への影響を測定するために、多型性酵素の活性を特定する反応ネットワークが構築され、システムは、上記のようにストレスを加えられる。正常または天然の反応ネットワークと比較したストレスを加えられた条件に対する感受性は、その後、様々な指標を用いて測定されうる。G6PDおよびPKについて上で記載されたそれらは、酵素活性のための典型的指標である。教示および手引きが本明細書に提供されるとすれば、評価されることになっている特定の酵素もしくはポリペプチドの生化学的または生理学的活性の他の指標が本発明の方法に用いられうることを当業者は理解するものと思われる。例えば、本質的に、基質、生成物、補助因子、または他の代謝産物のいずれの測定もポリペプチド活性の指標として用いられうる。そのような指標は、下流反応の生成物を測定することによるなどのように直接的にまたは間接的に評価されうる。さらに、特定の生化学的もしくは生理学的状態のそのような指標または一般的な指標の比率が同様に用いられうる。例えば、ATP、ならびにNADPHおよびNADPのようなエネルギー補助因子が、生物系の、それぞれ、酸化的状態およびエネルギー充足の一般的な指標である。
【0083】
そのような生化学的または生理学的指標のストレスを加えられた条件下での活性における変化は、変化した活性による生物系の機能における変化を同定する、加えて、多型性酵素の表現型的結果を示すと思われる。例えば、生物系が過剰な酸化的またはエネルギー要求性に応答できないことは、例えば、多型性酵素が、ストレスにより引き起こされた増加した仕事要求性に対処するためにそれの割り当てられたサブシステム内で構成要素を十分に産生することができないことを示しうる。機能的生物系変化は、例えば、変化した要求および産生される生成物、加えて欠乏した酵素活性を補償する流束または経路における変化に対応しうる。表現型的結果は、例えば、生物系増殖の抑制、生物系質量における減少、または生物系溶解および死さえもありうる。
【0084】
本発明の方法はまた、遺伝子多型媒介性病態の診断のために用いられうる。上記の方法は、疑わしい遺伝子多型の活性を表す生物系反応ネットワークを作成するために用いられうる。生物系反応ネットワークは、上記のようにストレスを加えられ、疑わしい多型性酵素の活性を含む反応ネットワークは、正常な反応ネットワークのそれと比較されうる。正常と比較した、疑わしい多型のネットワークの機能または表現型における変化は、遺伝的変化が酵素欠乏に結びつけられることを示すものと思われる。教示および手引きが本明細書に提供されるとすれば、複数の疑わしい酵素欠陥が同定され、かつ特定の疾患に結びつけられうることを当業者は理解するものと思われる。例えば、当業者は、複数の反応ネットワークの創出において疑わしい患者からの活性測定値を用いることができる。疑わしい活性を含むネットワークの機能または表現型の正常なネットワークとの比較は、機能または表現型における差、およびそのように同定された差のいずれも結果として病的状態を生じるのに十分であるかどうかを同定するものと思われる。
【0085】
それゆえに、本発明は、遺伝子多型媒介性病態を診断する方法を提供する。その方法は以下の段階からなる:(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階であって、適用された生化学的または生理学的条件が遺伝子多型媒介性病態と相関している、段階、および(b)反応ネットワーク内の1つもしくは複数の病態の生化学的または生理学的指標を測定する段階であって、ストレスを加えられていない生理学的状態と比較した、ストレスを加えられた状態における1つもしくは複数の生化学的または生理学的指標における変化が、病態に対応する遺伝子多型の存在を示している、段階。
【0086】
本発明は、生物系データセットを調和させる方法をさらに提供する。その方法は以下の段階からなる:(a)複数の階層的制御事象を含む遺産データから再構築される第一の制御ネットワークを提供する段階;(b)経験的データから得られる第二の制御ネットワークを提供する段階、および(c)第一の制御ネットワークにおけるその階層的制御事象と、第二の制御ネットワークにおける要素との間の整合性測度を測定する段階であって、階層的制御事象についての高程度の整合性測度が、第一反応ネットワークまたはそのサブコンポーネントの妥当性を示している、段階。
【0087】
データセットを調和させるための本発明の方法は、生物系モデルの正確さを測定するために、加えて、生物系モデルの新しい構成要素、関連、ネットワークおよびサブネットワークを同定するために有用である。モデルは、科学的に提供されたデータ、数学的解釈に、加えて、純粋な計算的分析または理論的予測さえにも基づきうる。生物系モデルの源にかかわらず、データセットを調和させるための方法は、一つのモデルまたはデータセットと比較モデルまたはデータセットとの間の整合性を同定するために、モデルまたはそのデータセット表現をもう一つのデータの源と比較する。2つのモデルまたはそれらのデータセット間の整合性の程度は、最初のモデルがそれの対応する天然の生物系に対してどれくらい正確であるかを示すものと思われる。
【0088】
生物系全体を表すデータセットは、本発明の方法およびその任意の下部構造を用いて調和されうる。下部構造は、生物系反応ネットワークのサブネットワークまたはモジュールからなりうる。厳密なサブネットワークの境界および境界は、用いられる評価基準に依存して変わりうるが、一つの特徴は、そのような下部構造が本質的に単位として、評価、分析または同定されうることである。境界測定のための基準は、例えば、機能的寄与、構造的寄与、および例えば、グラフまたは数学的区分を含みうる。生物系のサブネットワークまたはモジュールの具体例は、上および下に記載されており、図16およびそれの関連した実施例IVにさらに示されている。他の実施例は、当業者によく知られており、教示が本明細書に提供されるとすれば、本発明の方法において用いられうる。
【0089】
比較のために適用可能なデータセットは、広い範囲の異なる型およびサイズを含みうる。例えば、データセットは、多数かつ複素数の多様なデータ要素または反応ネットワークの構成要素を含みうる。または、データセットは、反応ネットワークのサブネットワークまたはモジュールを比較する場合のように小さくかつ比較的単純でありうる。比較のための各データセットがそれのシステム構成要素に関して包括的であればあるほど、整合性測度は正確かつ信頼性のあるものになることを当業者は理解するものと思われる。しかしながら、最初のデータセットの1つまたは両方の特性に基づく固有の差を補いうる信頼性のある手段を当業者は知るものと思われる、または測定することができる。それゆえに、本発明の方法は、比較のためのデータセットのペアが、大きいかもしくは小さいか、または多様かもしくは単純かのどちらでもありうるデータセットを調和させるために、加えて、ペア内のデータセットが、お互いに関して、大きいかもしくは小さいか、または多様かもしくは単純かのどちらででもある比較のために、用いられうる。
【0090】
本明細書に用いられる場合、用語「遺産」または「遺産データ」は、文献、他の報告書、計算データ、データベースもしくはそれらの組み合わせから入手できるような既知の情報またはデータを指すように意図される。情報は、公開のドメインから得られうる、またはユーザー自身の調査によりあらかじめ知られうる。それゆえに、その用語は、それが属するシステム、科学的信憑性、またはそれが促進する理論に対して科学的評価および考慮の恩恵を受けた二次データを含むように意図される。本質的に任意の入手可能な型での遺産データが、本発明の方法に用いられうり、例えば、文学的、図式的、電子的、数学的または計算的型、加えて、それらの機能的等価物および変換物を含みうる。教示および手引きが本明細書に提供されるとすれば、当業者は、特定の形式を、直接的にかまたは本発明の反応ネットワークを表すのに有用な形式への変換後かのいずれかで用いる方法を知るものと思われる。様々なそのような有用な形式は、上および下で記載されており、他のものは、当業者によく知られている。
【0091】
本明細書に用いられる場合、用語「経験的な」または「経験的データ」は、一次的事実情報、観察または直接的感覚経験に基づくデータを指す。それゆえに、経験的データは、それが属するシステム、科学的信憑性、またはそれが促進する理論に対して科学的評価および考慮の恩恵を受けていない生データまたは一次データを指すように意図される。その用語は、例えば、遺伝子発現データ、タンパク質活性データなどに対応するデータ、データセットまたはそれらの等価の変換型を含むように意図される。それは、例えば、ゲノム、プロテオーム、トランスクリプトーム、代謝およびフラックソームのデータ取得により入手可能であるような大きな高処理量データセット、加えて、当業者に周知の様々な研究方法により入手可能な小さなデータセットを含みうる。当業者に周知の一次データの他の型は、同様に、本発明の方法に用いられうる。
【0092】
データセットを調和させる有用な特質は、例えば、既知の反応ネットワークおよびサブネットワークのモデルの両方の確証、加えてそれらの新しいサブネットワークもしくはモジュールの同定または発見を含む。現行のモデルの確証は、それが以前の科学的理論および原モデルに基づくその後の発見を立証するため、それ自体、有用である。同様に、ネットワークモデルの無効は、例えば、それは、構成要素、関連性または科学的前提が全体としてのネットワークモデルから削除されうることをユーザーに知らせるために、有用でありうる。さらに、データセットの調和は、全体内の特定のサブシステムまたはいくつかのサブシステムの示差的確証を示すことにより生物系反応ネットワークモデルのサブネットワークまたはモジュールを同定することができる。例えば、全体内の新しいサブネットワークの発見または妥当なサブネットワークの同定が、生物系ネットワーク内の、すべてではないが、一部のモジュールが調和される場合に生じうる。同定は、そのサブネットワークまたはモジュールが、生物系反応ネットワーク内の相対的に独立した実体を構成する、または生物系ネットワークの本体から相対的に切り離されるところにおいて、特に著しい。最後に、データセットの調和、およびネットワーク全体、それらのサブネットワークまたはモジュールの確証から得られる情報は、モデルを変化させて、変化したモデルが比較データセットと調和しているかどうかを測定することによりネットワークまたはサブネットワークを改善するために用いられうる。
【0093】
本発明の確証および発見方法は、本質的に任意の型または形式の反応ネットワークに適用できる。例えば、データセットは、反応ネットワークがコンピューター内のモデル、その数学的表現、統計学的表現、計算的表現、図式表現、または当業者に周知の様々な他の形式のいずれかにより表されているところにおいて、調和されうる。
【0094】
データセットの調和は、比較された生物系ネットワーク内の本質的に任意の因果関係の確証を可能にする。例えば、データセットの調和のための方法は、本明細書に記載されたすべての型の反応ネットワークを特定化するデータセットに用いられうる。それゆえに、方法は、代謝反応ネットワーク、制御反応ネットワーク、転写反応ネットワークもしくはゲノム尺度反応ネットワーク、またはそれらの任意の組み合わせに対応する反応ネットワークに適用できる。調和の方法を行うために、遺産データから再構築される第一反応ネットワークが提供されうる。前に記載されているように、遺産データは、一次データを生物系ネットワークコンポーネントのワーキングモデルへと集合させた二次供給源から得られうる。第一反応ネットワークは、経験的データから得られた第二反応ネットワークと比較される。経験的データは、例えば、生物系内の構成要素の活性または他の属性を表す任意の一次データからなりうる。
【0095】
データセットの比較は、例えば、ネットワーク表現と経験的データとの間の整合性の測度を提供する、当業者に公知の任意の方法により達成されうる。一つの態様において、整合性測度は、経験的データと遺産データ、または例えば、ネットワークコンポーネントを反応カテゴリーの階層組織化へ分類することによる遺産由来ネットワークモデル、との間で測定される。反応カテゴリーは、調和されるデータセット間の整合性測度を測定するために有用である。反応カテゴリーは、例えば、反応物および生成物、反応流束、代謝反応、制御反応および制御事象を含みうる。さらに、反応カテゴリーは、カテゴリーが遺産由来ネットワークと経験的データセットの間の整合性測度を得るのに受け入れられるフレームワークを提供する限り、任意でありうる、または例えば、機能的基準、統計学的基準、または分子集合に基づきうる。
【0096】
制御反応ネットワークの特定の態様についての典型的反応カテゴリーは、下の実施例IVにさらに記載される。簡単には、制御ネットワークの要素は、例えば、機能的相互作用に基づく3つのカテゴリーへと分類されうる。これらのカテゴリーは、例えば、ペアワイズ制御相互作用、標的-制御因子単位およびレギュロンを含む。教示および手引きが本明細書に提供されるとすれば、制御ネットワークについてのこれら以外のカテゴリー、および他の型の反応ネットワークについてのカテゴリーは、当業者により同定または作成されうる。例えば、他の型のカテゴリーは、同化作用もしくは異化作用の反応または細胞シグナル伝達機能を含みうる。カテゴリーの特定の型は、調和される反応ネットワークの型、および本発明の方法に用いられるために選択された整合性の測度に依存するものである。
【0097】
調和されるデータセットの整合性は、当業者に周知の様々な方法により測定されうる。そのような方法は、有意性について分析されうるネットワーク内のカテゴリーまたは要素のそれぞれについての値を生じるように用いられうる。例えば、上の典型的反応カテゴリーにおいて、ペアワイズ相互作用についての整合性測定値は、例えば、ピアソン相関係数により得られうるが、標的-制御因子単位についての整合性測定値は、例えば、複数相関係数により測定されうる。さらに、レギュロンについての整合性測定値は、例えば、レギュロン相関内の平均により測定されうる。当技術分野において周知の他の方法もまた、用いられうり、例えば、相互情報に基づく測定(Cover TM & Thomas JA. Elements of Information Theory, Wiley (1991))、または非線形回帰方法(Hastie T, Thibshirani R & Friedman J. The Elements of Statistical Learning, Springer (2001))を含む。相互情報測定は、原データの打切りを必要とするが、ピアソンまたは複数の相関係数により説明されない非線形依存を組み込むことを可能にする。同様に、非線形相関測定は、整合性計量として用いられうるが、線形相関と比較してそれらの付加された柔軟性は、結果として、経験的データと提案されたネットワーク構造との間の整合性を過大評価することになる。整合性測度の特定の値の統計学的有意性は、遺産データおよび経験的データが良い適合度を構成するかどうかを評価するように測定されうる。統計学的に有意であるもののような、高程度の整合性測度は、その2つのネットワーク、サブネットワークまたはサブコンポーネントが調和していることを示す。さらに、ネットワーク全体かまたはそのサブネットワークかのいずれかに関して調和しているそれらのデータセットは、遺産モデルの確証を示すが、相互に調和しないものは、遺産由来モデルと経験的データとの間の相違を示す。
【0098】
本発明はさらに、生物系反応ネットワークを改善する方法を提供する。その方法は、以下の段階からなる:(a)生物系の数学的表現を提供する段階;(b)観察された生物系の挙動と、コンピューター内での類似した条件下での生物系の数学的表現の挙動との間の差を測定する段階;(c)生物系の数学的表現の構造を改変する段階;(d)観察された生物系の挙動と、コンピューター内での類似した条件下での生物系の改変された数学的表現の挙動との間の差を測定する段階、ならびに(e)挙動の差が最小化されるまで段階(d)および(e)を繰り返す段階であって、予定の正確さ基準の満足が生物系反応ネットワークにおける向上を示している、段階。
【0099】
その方法はさらに、以下の段階を含みうる:(f)異なる条件下で生物系の挙動を測定する段階、および(g)異なる条件下で生物系反応ネットワークを改善するために方法の段階(b)から(e)までを繰り返す段階。生物系反応ネットワークを改善するための方法は、追加として、最小化される挙動の差が尽きるまで段階(f)および(g)を繰り返す段階であって、向上した生物系反応ネットワークが最適な生物系反応ネットワークを表している、段階を含みうる。
【0100】
本発明の方法はまた、生物系の数学的表現がアルゴリズムのアプローチおよび標的にされた実験を用いて繰り返し様式で向上されうる一般的過程に適用されうる。多くの生物系は、完全には特徴付けられておらず、これらの系の反応ネットワークを再構築するために追加の実験が必要とされうる。最適なモデルを迅速に集めるそのような過程について、繰り返し実験が体系化されうる。図2Bは、実施例Vでさらに記載されているが、そのような工程を例示している。
【0101】
モデル構築過程は、モデル範囲および正確さの表明から始まりうる。または、モデル構築過程は、そのようなあらかじめ決められた範囲または正確さの評価の非存在下で進行しうるが、いったん、望ましい範囲または正確さが最終的に得られたならば、終結されうる。
【0102】
モデルを構築するための目的は、モデルがもつことになっている、期待される正確さの特定化および可能性の範囲へと導く。モデルの範囲は、例えば、単一経路を記述することから生物体の野生型株のゲノム尺度記述までを範囲とすることができる。よりいっそう広い範囲は、配列変異を含み、それに従って、モデルが野生型株のすべての変異体を記述すると主張することができるものと思われる。
【0103】
正確さは、例えば、定性的または定量的基準に基づきうる。有用なモデルは、定性的であり、例えば、特定の遺伝子産物が特定の成長条件下で抑制される場合、生物体の成長速度が低下することを予測する言明を出す能力がありうる。定量的モデルは、測定誤差内で、1つまたは複数の成長条件下においてすべての遺伝子産物の抑制の成長速度におけるパーセント低下を予測すると主張することができる。繰り返しモデル構築過程の程度は、それゆえに、作成されるモデルの必要とされる範囲および正確さを特定化することができるユーザーにより指図されかつあらかじめ決定される。
【0104】
再構築された生化学反応ネットワークは、実験系のモデルとして構想されうる。このことについて、それは、実際の生物体を曝すことが望ましい任意の条件下で順応性のある操作および研究ができる実際の生物体の複製である。再構築された生物系反応ネットワーク、またはそのコンピューター内バージョン、の1つの利点は、生物体の機能および表現型を特徴付ける莫大な量の情報を生じることができることである。コンピューター内のモデルの正確さはまた、例えば、調和についての上記の方法を用いて、再構築されたネットワークの、実際の生物体から得られた経験的データのそれとの整合性を測定することにより決定されうる。実際の生物体および容易に操作できる生物体の再構築されたモデルの両方の有効性は、生物体挙動および機能の信頼できかつ正確な予測のためにコンピューター内モデルの能力を利用するために相乗的に用いられうる。
【0105】
生物系のコンピューター内モデルを再構築するアプローチは、生化学反応ネットワークの繰り返し改善を通してである。モデルの改善は、実際の生物体の特定の機能を評価し、その特定の研究から得られる新しい情報をモデルへ組み込むことにより達成されうる。モデルは生物体の複製であるため、類似した条件下で行われる場合、実際の生物体と比較してモデルからの動作における逸脱は、その逸脱を説明することができるそのコンピューター内のものへのその付加、脱落または修正を示すデータを生じる。実際およびコンピューター内の生物体が曝される条件を複製し、モデル構造を補正して実際の生物体から得られる経験的データと整合しているように変化させ、その条件を繰り返すまたはそのペアを異なる条件に曝す、連続的研究の繰り返しにより、実際の生物体の機能および表現型を予測しうるモデルの正確さが連続的に増加するものと思われる。
【0106】
簡単には、研究は、実験設計アルゴリズムにより規定された定義済みの条件下で実際の生物体で行われうる。同様に、実際の生物体を記述するコンピューター内モデルは、同じ条件下で実際の生物体の挙動をシミュレートするために用いられうる。その時々で有効なデータに基づいて、モデルが望ましい範囲または正確さの必要条件を満たすことができない場合には、モデルを向上させるためにさらなる研究が行われうる。これらの研究は、例えば、段階を追って、または増加的に、ネットワーク機能を探索する体系的工程を用いて設計されうる。ネットワーク機能を探索する一つのアプローチは、例えば、頑健なまたは確証されたネットワークのサブシステムからあまり確証されていない部分へ増加的に移動することでありうる。もう一つのアプローチは、例えば、異なる型の機能、または機能を探索するための異なる型の方法を標的にすることでありうる。そのような標的にされた研究の方法の特定の例は、例えば、ゲノムのノックアウト、発現プロファイリング、タンパク質-タンパク質相互作用などを含む。それゆえに、コンピューター内モデルの内容および能力は、繰り返し更新を受けやすい。
【0107】
どんな実験が行われるべきかについての決定は、例えば、逸脱の性質および正確さ特定化における必要条件に基づいて決定されうる。逸脱は、モデルにより正しく予測されていない遺伝子発現アレイ、所定の条件下で実験的に測定されたフラックソームに合っていない1セットの計算された流束値、またはモデル予測との不一致を示している、1セットの表現型、例えば、成長、分泌および/もしくは取り込み速度、を含みうる。そのような不一致を解決するために行われうる実験は、不一致の原因であると考えられる1つもしくは複数の遺伝子がノックアウトされており、その結果生じた生物体がトランスクリプトミクス、フラックソミクスなどを用いて特徴付けられている、摂動分析、またはモデル逸脱に寄与していると考えられる細胞外環境の1つもしくは複数の構成要素が除去され、システムが再び特徴付けられている、環境的分析を含む。
【0108】
そのような実験を自動的に設計するアルゴリズムが考案されうる。遺伝子発現の場合に用いられうるアルゴリズムは、例えば、(1)モデルの予測との不一致を示す遺伝子を決定する、(2)段階(1)において遺伝子を調節する制御タンパク質を同定するために制御ネットワークモデルを用いる、(3)1つもしくは複数の制御タンパク質をコードする生物体における1つまたは複数の遺伝子をノックアウトする、(4)同じ環境条件下で同じトランスクリプトーム実験であるが、その新しいノックアウト系統で行うことでありうる。再構築された代謝ネットワークについて高処理量表現型研究の場合に用いられうる第二のそのようなアルゴリズムは、(1)不一致を示す表現型を決定する(例えば、成長速度が相関していない)、(2)モデル予測が観察された表現型に合うまで、一度に1つまたは複数、体系的にすべての生化学反応を加える、(3)段階(2)における反応を触媒する同定された酵素に有意な配列類似性をもつ遺伝子座を同定する、(4)それが予測された反応を触媒することができるかどうかを検証するために段階(3)における遺伝子をクローニングかつ特徴付けすることでありうる。アルゴリズムへの入力は数個あり、現行モデル、それが試験されたデータ、逸脱の大きさおよび性質などを含む。アルゴリズムからの出力は、生物体全体の実験の構成要素実験でありうる。
【0109】
アルゴリズムは、例えば、モデルにおいて欠けている構成要素を同定し、特定の生化学的な、タンパク質-DNA結合、タンパク質-タンパク質相互作用、または酵素動力学的活性実験が行われるように要請することができる。上記のように、2つの上の例において欠けている構成要素は、制御相互作用および同定された酵素である。これらの研究によりモデルの欠けている構成要素が明らかにされる場合には、適切なモデル更新が行われる。
【0110】
アルゴリズムは、例えば、細胞全体の挙動からの追加のデータの包含により促進されうる。成長、転写プロファイリング、代謝プロファイリング、DNA転写因子結合状態、またはプロテオーム実験が、モデルを更新するのを可能にするのに十分な情報を得るために1つまたは複数の環境条件下で行われるように要請しうる。
【0111】
遺伝子欠失のような1セットの入力または環境の入力を仮定すれば、生化学反応ネットワークの応答は、実際および計算の両方で試験されうる。実際のシステムは、システムの現象論的経路を通して特徴付けられる観察された応答を生じるが、実際のシステムのモデルは、システムの体系的経路により特徴付けられる応答を予測する。観察された応答および計算された応答は、前に記載されているように、実施経路を同定するために比較されうる。実験が行われる定義済みの条件下での測定された細胞機能および計算された細胞機能における差は、例えば、「誤差」として特徴付けられうる。この差は、操作可能ではないそれらの体系的経路に対応している。その後、誤差は、モデルを更新するために用いられうる。
【0112】
モデル更新はまた、例えば、モデル誤差が最小化されるようにモデルにおいてパラメーターを更新するためのアルゴリズムを用いることにより達成されうる。実施例VIにおいて同定されているように、制御ネットワークの特徴付けのためのアルゴリズムは、例えば、(1)モデルにより予測される各タンパク質の活性を得る、(2)各タンパク質について、結果としてT5aについての正しい発現値を生じる所定のタンパク質の活性に基づくルールを作成する、(3)制御された遺伝子についての全体の発現アレイを再計算する、(4)新しいモデル誤差を測定することによりモデル正確さについての基準間の差を評価する、および(5)将来の繰り返しのための新しいモデルとして最小誤差をもつモデルを選択することでありうる。最適なモデルに従って、更新が実施され、修正されたモデル予測と実際の応答との間に残っている「誤差」は、新しい研究がシステムをさらに探索するように設計するために用いられうる。過程は、例えば、これらの新しい研究に基づいて、かつ望ましい範囲または正確さが得られるまで、モデルをさらに更新するために1回または複数回、繰り返されうる。
【0113】
1ラウンドの繰り返し再構築過程において誤差を最小限にしうるモデル更新は、最適なモデル更新を生じるにおいて、非固有的またはお互いに非常に類似しうる。そのようなデータの有用性を残しておき、かつその後のラウンドの効率を増加させるために、代替のモデル更新は、例えば、それらが、繰り返しモデル構築のさらなるラウンドにおけるその後の使用のために検索されかつ利用可能であることができるように、保存されうる。さらに、実験結果の収集は、特定の生物体において得られた挙動データまたは表現型データの歴史的記録として保存されうる。モデル更新および設計アルゴリズムは、任意で、実行中、このデータベースに質問することができうる。様々な他の記録およびシステムデータは、または、1段階または複数の段階の繰り返し過程におけるより後の効率的な利用のために保存されうる。そのような計算アプローチは、当技術分野においてよく知られており、教示および手引きが本明細書に提供されるとすれば、日常的に実施されうる。
【0114】
さらに、本発明の様々な方法の組合わせおよび順列は、モデル構築過程を促進するために、または方法の目的もしくは実施を増大させるために任意の望ましい様式で組み合わせられうる。加えて、単一のまたは他の「オフライン」研究が行われうり、発生した情報は、結果もしくは実施を促進、増大または最適化するために本発明の方法のいずれかにおいて用いられうる。例えば、繰り返し過程のために設計された研究に加えて、ある場合には、分子間の特定のペアワイズ相互作用が、個々の分子構成要素をさらに特徴付けるために別々のオフライン研究において探索されうる。
【0115】
繰り返しモデル構築工程の有利な性質は、実際の生物体の操作可能かつ最適の表現へのシステム構成要素の収束、およびそのようなモデルを構築する効率性を含む。収束における効率性は、行われる必要がある研究の数を最小限にするため、重要である。
【0116】
以下の実施例は、本発明を例証するが、限定しないことを意図される。
【実施例】
【0117】
実施例I
実施極度経路を同定するための大腸菌コア代謝ネットワークについての1セットの現象論的流束分布の分解
この実施例は、1セットの現象論的経路(流束分布)がどのようにして基本モードへ分解されうるかを示し、これらのモードは、代謝反応ネットワーク(大腸菌コア代謝)の実施反応経路を同定するために1セットの体系的経路(極度経路)と比較されうる。
【0118】
大腸菌におけるコア代謝のコンピューター内で生じた代謝流束プロファイルが調製された。反応は、反応pntABが含まれない、および反応tktA2におけるT3P2の代わりに、T3P1が用いられることを除いて、Schilling, "On Systems Biology and the Pathway Analysis of Metabolic Networks," Department of Bioengineering, University of California, San Diego: La Jolla. p. 198-241 (2000)の表6.3から採られた。反応リストは、表1にまとめられている。
【0119】
流束プロファイルは、特異値分解(SVD)解析のための入力行列であるが、57個の流束(行)および各位相における7個の条件(列)からなる。このシステムについてのコハク酸の位相面は、図3に示されている;位相面の作成は、(Edwards JS, Ramakrishna R, Palsson BO. Characterizing the metabolic phenotype: a phenotype phase plane analysis. Biotechnol Bioeng. 2002 Jan 5; 77(1):27-36)に記載されている。図3における点は、システムに有効な酸素およびコハク酸の上限を定義するように選択された。それゆえに、各点は、流束プロファイルを構築するにおいて異なる条件(すなわち、流束行列の列)を表している。
【0120】
SVD解析は、各位相(7個の条件のそれぞれ)において別々に行われた。流束行列、A、の分解は、結果として、3つの別個の行列、U(左の特異行列)、ε(特異値行列)およびV(右の特異行列)を生じる:
A=UεVT
【0121】
位相面の位相Iについて、流束分布行列は、図4の隣に表にされている酸素およびコハク酸の入力値を用いて大腸菌コア代謝に関して作成された。点は、示されているように位相I上にある。
【0122】
流束行列におけるSVD解析により、図5に示された特異値分率により実証されているように位相Iにおいてたった1つの基本モードがあることが明らかにされた。それゆえに、この表現型位相におけるシステムの挙動のほとんどすべてを支配する共通の発現があり、位相不変特異値と呼ばれうる。
【0123】
各条件(すなわち、位相面の位相Iに示された各点)の寄与レベルは、SVDから得られた様々なモードについて図6および7に示されている。各モードが経路の全体の寄与においてもっている重みは、そのモードの曲線がゼロ寄与レベル(水平ゼロレベル)からどれくらいの距離であるかにより見られる。また、各モードについて、発現レベルは、そのモードにより表された経路においてどれくらい流束が増加しているかを示す条件番号について増加する。これらの表現は、点が他の点と相対的に存在する(すなわち、より高いまたはより低い成長速度における)位相面上における場所に関する情報を提供する。このように、基本モードについての情報が提供されるだけでなく、バイオマス生成速度に関する追加の情報もまた提供される。第一基本モード(第一モード)の傾きは、成長速度の傾きに対応するはずである。第一モードは、全体の寄与のほとんど100%を捕捉している。
【0124】
SVDからの結果を、経路解析からの結果とともに比較するために、コア大腸菌系の極度経路が、単独炭素源としてコハク酸を用いて計算された。コハク酸についての極度経路の削減されたセットは、表2に提示され(Schilling、前記(2000)、表6.6から採用された)、図8に示されている。
【0125】
上記の位相I解析について、極度経路を第一モードと比較するために、遺伝子は同じ順序で並べられ、流束は、コハク酸取り込み速度により標準化された。第一モードと12個の極度経路のそれぞれとの間の角度が計算され、降順に並べ替えられた。また、異なる流束(すなわち、一方の場合においてゼロで、かつ他方の場合においてゼロではない、または異符号をもつ流束)の数、および第一モードと各経路の間の正味流束差が計算され、同じ様式で並べ替えられた。表3は、この解析の結果を提供している。
【0126】
この解析は、位相Iにおける第一モードが最適性のラインにぴったり等価であることを示している(すなわち、P_33)。それはまた、この経路に次いで、第一モードが経路32、30などに最も近いことを示している。それゆえに、列角度は、何の経路が類似性の順序において位相Iで流束分布を最も良く記述しているかを示すだけではなく、それらが内輪でどれくらい類似しているかも示している。
【0127】
解析は、位相IIおよびIIIについて、ならびにすべての位相について総合して、繰り返された。すべての位相がSVDにより総合して解析される場合、再び、相対的に低いエントロピー(4.80E-3)をもつ、単一の基本モードが同定された(図14)。このモードと12個の極度経路のそれぞれとの間の角度が計算された。表4は、この解析の結果を提供している。この解析により、基本モードは、表2に示された極度経路33および32に最も近かった。
【0128】
実施例II
生理学的に関連した流束分布に対応するヒト赤血球極度経路の同定
この実施例は、代謝反応ネットワーク(ヒト赤血球代謝)の基本的制御モードを同定するために、動力学的モデルにより生じた1セットの現象論的経路(流束分布)がどのようにして、1セットの体系的経路(極度経路)のモード分解と比較されうるかを示している。
【0129】
赤血球(RBC)代謝ネットワークの極度経路は計算されている(Wiback, S.J. & Palsson, B.O. Biophysical Journal 83, 808-818 (2002))。ここで、SVD解析が、これらの経路により形成された極度経路行列、P、に適用された。RBCの代謝ネットワーク全体の完全な動力学的モデルが開発されており(Jamshidi, N., Edwards, J.S., Fahland, T., Church, G.M. , Palsson, B.O. Bioinformatics 17, 286-287 (2001); Joshi, A. & Palsson, B.O. Journal of Theoretical Biology 141, 515-528 (1991))、生理学的に関連した状態について流束ベクトル(v)を作成するために用いられた。これらの流束ベクトルは、PのSVDから得られたモードを用いて分解された。
【0130】
Vmax尺度でのRBC極度経路行列、P、の階数は23であった。第一モードは、分散の47%を表している(図10F)。組み合わされる場合、最初の5個のモードは、解空間の分散の86%を捕捉し、最初の9個のモードはそれの分散の95%を捕捉している。
【0131】
Pの最初の5個のモードは、図10(A〜E)における代謝マップに示されている。第一モードは、アデノシン反応を通しての低流束値、R/Lシャントを通っての出口をもつ解糖反応を通してのより高い流束、およびペントースリン酸経路を通しての最高流束レベルを示す。このマップは、定常状態解空間の主要分散を記述する。その後のモードは、定常状態解空間における最大分散の次の方向を記述する(図10)。正方向におけるモードに沿った動きは、赤で示された流束を増加させること、および緑で示されたものを減少させることに対応する。そのモードは直交であることが必要とされるため、それらは、お互いに独立している円錐における分散の方向を特異的に記述している。その後のモードは、以下のように生化学的に解釈されうる:
【0132】
第二モードは、解糖とペントースリン酸経路の間の流束分裂を記述している。このモードの寄与が第一モードに加えられる場合には、ペントースリン酸経路を通しての減少した流束およびNADPHの低下した生成へと導くものと思われる。ATPは上流の解糖に用いられ、下流の解糖で回復されないため、増加した解糖流束は、減少したATP生成へと導くラポポート-リューベリング(R/L)シャントを通って出る。NADHの生成は増加する。
【0133】
第三モードは、ATPおよびNADHを生成してピルビン酸に至るまでの解糖経路を記述する。それはまた、AMPアーゼによるAMP消失の結果としてATPの低下した消失を記述している。このモードは重要なATP生成をもつ。
【0134】
第四モードは、下流の解糖とR/Lシャントの間の流束分裂を記述している。それは、従って当然のこととして、第二モードと生化学的に相互作用する。第四モードは、ATPのほとんどない正味生成へと導くAMPアーゼ-AKサイクル経由のATP消失における増加、およびモード3との相互作用をさらに記述している。
【0135】
第五モードは、実際に、極度経路の一つである。それは、ピルビン酸を移入し、それを乳酸に変換し、それに伴って1個のNADHを消失させることを記述している。それは、従って、NADH酸化還元代謝に平衡を保たせるにおいて重要であると思われる。
【0136】
下に示されているように、最初の5個のモードは、RBCの生理学的状態の大部分を占める。
【0137】
赤血球代謝ネットワークの名目上の状態(追加の代謝負荷無し)は、完全な動力学的モデルを用いて計算され、RBC代謝マップ上に示されている(図10G)。RBCのこの名目上の生理学的定常状態は、23個のモードに分解された(図10H)。名目上の定常状態の再構築への各モードの追加後の再構築された解に残っている相対誤差は、急激に減少した(図10H)。最初の5個のモードの寄与後、再構築された名目上の状態は、0.013の相対誤差であった(RE(5)=0.013)。
【0138】
最初の5個のモード(図10A〜E)の洞察により、どのようにしてそれらが生理学的定常状態の解を再構築するかが実証されている。第一モード(図10A)と比較して、第二モード(図10B)を加えることは、解糖の前半を通しての流束を増加させ、ペントースリン酸反応を通しての流束を減少させ、NADPH生成を減少させて、それらのすべては、再構築された解を生理学的定常状態へ有意に移動させる(図10G)。第三モード(図10C)を加えることは、すべての解糖を通して、特に下流の解糖を通しての流束を増加させる。第四モード(図10D)の追加は、生成される23DPGの量を適切に減少させ、その代わりとして、下流の解糖を通してその流束を送る。最後に、第五モードの追加は、ピルビン酸から乳酸へ流束を増加させ、それは、本質的に、乳酸が解糖の主要な出力である定常状態の解へ導く。このように、生理学的定常状態の重要な特徴は、最初の5個のモード内に捕捉されている。解空間においてこれらの5個の独立した方向に沿って解を移動させることができる制御構造は、望ましい生理学的状態を生じることができると思われる。
【0139】
NADPH、ATPおよびNADHの2つの負荷レベルについての定常状態流束分布は、RBC動力学的モデルを用いて計算された。これらの負荷レベルのペアはそれぞれ、コンピューター内のRBCが耐えることができる最大負荷、および許容的負荷範囲内で選択された1つの値を表した。NADPH負荷は、酸化フリーラジカルへの赤血球の応答に対応する生理学的状態を刺激する。最大NADPH負荷は、2.5 mM/hrである。ATP負荷は、高浸透圧性媒体においてのように、増加したエネルギー負荷の条件をシミュレートする。最大ATP負荷は、0.37 mM/hrである。2つのNADH負荷は、RBCにおけるメトヘモグロビン還元に重要であるのだが、それらも適用された。これらの6つの計算された流束ベクトルは、このように、RBCの極度生理学的状態を表し、定常状態の解空間内に生理学的に意味のある状態の領域を指定するのを助ける。
【0140】
6つの「ストレスを加えられた」定常状態流束解のそれぞれのモード構成は、最初の5個のモードに有意な重みづけを与える(図10H)。さらに、いくらかの「微調整」が、モード7〜11に現れている。すべての他のモードは、これらの解をRBC動力学的モデルへ再構築するにおいて本質的に重要ではない。
【0141】
代謝負荷の適用は、適切な代謝流束分布を再構築するために最初の5個のモードの重みづけを変化させた(図10H、I)。NADPH負荷における増加は、結果として、第一モードにおける重みづけの実質的増加を生じ、ペントースリン酸反応を通しての流束を増加させ、それに従って、NADPHの生成を上昇させる。第二、第三、第四および第五モードにおける重みづけは、NADPH生成が最大化されるにつれて、流束分布が第一モードのそれに近づくため、主として、より高いNADPH負荷の適用で減少する。第二モードの重みづけにおける低下は、しかしながら、最も劇的である。増加性ATP負荷の適用は、結果として、最初の5個のモードのすべてにおける重みづけの値にほとんど変化を生じなかった。ATP負荷の適用は、ATPを消費する無駄なサイクルにおける減少によりRBCにおいて対処され、代わりとして発生したATPが、細胞に課せられた負荷を満足させるために代わりに用いられる。このように、RBCのストレスを加えられていない状態におけるATPを消失する無駄なサイクルの使用は、変化するATP負荷の影響を減衰させるように働き、RBCが、変化するATP負荷に対して、細胞における全体の流束分布においてほとんど変化無しで応答することを可能にする。関連した実験の発見より、RBCにおけるATPの濃度は、この緩衝剤の結果として、指定限界内で、環境条件変化と同じほども変化しないが、ATP負荷がそれらの限界を超えて強いられる場合、劇的に変化することが実証された。NADH負荷の適用は、流束ベクトルの長さが減少するため、結果として、すべてのモード重みづけの有意な減少を生じた。第五モードにおける重みづけは、正方向で利用される場合、それがNADHを消費し、それに従って、縮小される必要があったため、最も劇的に減少した。
【0142】
最初の5個のモードの包含後、すべての再構築された解の相対誤差(RE(5))は、0.005から0.018までの範囲であった。すべての6つの場合において、最初の5個のモードは、定常状態の解の少なくとも98%を再構築した。このように、定常状態の解空間の生理学的に関連した部分は、5次元のみであるように思われ、それゆえに、効果的には、赤血球代謝を制御することの問題に対する5つの自由度のみがある。
【0143】
極度経路ベクトルのモードへの分解は、再構築において最も重要なモードがしばしば、最初の5個のモードのうちの1つではないことを示している(図10J)。従って、極度経路により定義されているような、許容できる解空間の多くの部分は、完全なRBC動力学的モデルへの各解を効果的に再構築する最初の5個のモードにより十分には特徴付けられていない。このように、極度経路の多くは、生理学的に関連性がなく、生理学的に意味のある解のおよその位置が知られている場合には、それらは、PのSVDを用いて同定されうる。
【0144】
代謝の制御の研究は、歴史的には、個々の制御事象の同定および特徴付けに焦点を合わせてきた。本発明者らが完全な代謝反応ネットワークを再構築することができる今や、ネットワークに基づいた観点から制御についての必要性に取り組むことができる。この研究は、ヒト赤血球代謝についての極度経路行列の特異値分解を用いてネットワークに基づく観点から制御を解釈することに焦点を合わせた。2つの主要な結果が得られた。第一に、SVDにより得られた基本モードは、RBC代謝生理学を十分に解釈している。第二に、最初の5個のモードは、効果的に、赤血球のすべての関連性のある生理学的状態を特徴付けている。
【0145】
RBC代謝生理学は、SVDから得られた基本モードにより十分に解釈されている。計算されたモードを用いて、完全なRBC動力学的モデルへの7つの生理学的に関連性のある解が再構築された。これらの解についてのRE(5)は、0.017内であり、最初の5個のモードは、本質的に、生理学的に関連性のある動力学の解のそれぞれを完全に再捕捉するために用いられうる。しかしながら、極度経路の大部分は、最初の5個のモードによりそのような高程度まで再構築されえなかった。このように、最初の5個のモードは、たとえそれらが全空間のそれらの記述を最適化するように計算されたとしても、全体としての空間に対して表すよりも良く、完全な動力学的モデルへの解に関連した空間を表した。この事実は、動力学および代謝を考慮に入れる制約に基づいた方法を開発することが、結果として、極度経路により限界を定められた空間よりはるかに小さい解空間を定義することを生じるものと思われる。
【0146】
本明細書で得られた結果は、代謝ネットワークの位相幾何学およびいくつかのVmax値の知識に基づいた。ネットワークに基づいた結果と個々の制御事象の研究の間のギャップを埋める次の段階は、候補制御分子と体系的制御必要性を組み合わせるための最良の方法を見出すことである。制御理論において、これは、「ループ-ペアリング」問題として知られている(Seborg, D.E., Edgar, T.F. & Mellichamp, D.A. Process dynamics and control (Wiley, New York, 1989))。それの解の一部として、本発明者らは、モードの厳密な正規直交についての必要性を緩和し、基礎をなすネットワークの生化学とより一致している斜めのモード基盤を探すことをしなければならない可能性がある。
【0147】
ひとまとめにして考えると、この研究は、制御ネットワークを研究することへのネットワークに基づいたアプローチを提示し、制御問題の自由度を定義する。この方法は、代謝ネットワークがそれの解空間をナビゲートすることを可能にするのに必要とされる様相を計算し、それに従って、制御がほとんど知られていない代謝系の候補制御ループを推論するために用いられうる。さらに、定常状態の解空間へのそれらの寄与に基づいて、これらの制御ループは、空間の再構築へのそれらの重要性に関して順序づけられうる可能性がある。本明細書に提供された一つのように、制御を研究することへのネットワークに基づくアプローチは、構成要素に基づく研究を補完し、細胞の制御要求を達成するために必要とされる制御構成要素の相互作用をより良く理解する可能性のあるフレームワークを提供する。
【0148】
実施例III
赤血球一塩基多型の表現型結果のコンピューター内での評価
以下の実施例は、病理学的データにより定義された現象論的経路の解析への記載された方法の適用を例証する。
【0149】
ヒトゲノムプロジェクト(HGP)は、今、本質的に完成している。HGPの一つの結果は、一塩基多型(SNPs)の定義、およびヒト疾患の発生へのそれらの効果である。ヒトゲノムにおけるSNPsの数は、2、300万個であると予想されたが、たった100,000個〜200,000個が効果的に固有のヒト遺伝子型を定義するだろうと推定されている。これらのSNPsのサブセットは、ヒト疾患に関して「情報を与える」と考えられている(Syvanen, A., 2001. Accessing genetic variation: Genotyping single nucleotide polymorphisms. Nat Rev Genet 2:930-942)。これらのSNPsの多くは、コード領域に分類されるが、他のものは制御領域に見出される。ヒトの遺伝子型-表現型の関係は、非常に複雑であり、配列変異と生理学的機能との間の因果関係を決定することは困難であると思われる。この入り組んだ関係を扱う一つの方法は、複雑な生物学的過程の大規模コンピューター内モデルを構築することである(図12)。複雑な生物学的過程での単一の構成要素の性質における欠陥または変化が、コンピューター内モデルを用いることにより、残りのコンテキストへ入れられうる。この作業において、主要な赤血球酵素におけるSNPs(図12a)およびそれらの動力学的性質における対応する変化(図12b)に関する最近のデータが、細胞全体の機能へのSNPsの全体の効果(図12d)を計算するためにコンピューター内赤血球モデル(図12c)において用いられた。
【0150】
赤血球酵素の動力学的性質における変化の研究は、単に数学的モデルの質の学問的な研究だけではなく、臨床的診断および酵素病の治療における実際の有用性をもち、根底にある配列変異への関連づけを提供することができる(図12)。ここで、コンピューター内モデルが、最も高頻度の赤血球酵素病のうちの2つ:グルコース-6-リン酸デヒドロゲナーゼ(G6PD)およびピルビン酸キナーゼ(PK)におけるSNPsを研究するために用いられる。
【0151】
両方の酵素欠乏について、それぞれ臨床的に診断された変異体と関連した様々な動力学的パラメーター(Vmaxのもの、Kmのもの、Kiのもの)についての測定値を決定するために、臨床的データが、発表された文献から得られた。これらの絶対値は、その後、コンピューター内モデルに用いられ(Jamshidi, N., Edwards, J.S., Fahland, T., Church, G.M., Palsson, B.O. Bioinformatics 17, 286-287 (2001))、様々な酸化およびエネルギー負荷(正常なベースライン値よりも大きい)に対する感受性がシミュレートされた。結果は、遺伝子型と表現型との間の直接的関連を確立する試みにおいて、酵素病の遺伝的基盤に関して解釈される(図12)。
【0152】
グルコース-6-リン酸デヒドロゲナーゼ(G6PD)は、ペントース経路の酸化分枝における第一段階を触媒し(図12c)、従って、酸化ストレスに対する赤血球抵抗性を維持するにおいて決定的な重要性をもつ。G6PDは、最もありふれた赤血球酵素病であり、世界中でおよそ4億人の人々に影響を及ぼしている。
【0153】
正常な患者および溶血性貧血をもつ患者由来のG6PDが、分子レベルにおいて特徴付けられた。合計61個のG6PDクラスI変異体が、分子レベルで記載された。61個のクラスI慢性変異体のうち、55個はアミノ酸変化を含むSNPsの結果であり、5個はフレーム欠失に起因し、1個はスプライシング欠陥に起因する(Fiorelli, G., F.M.d. Montemuros and M.D. Cappellini, Bailliere's Clinical Haematology 13:35-55 (2000))。
【0154】
臨床的に診断されたSNPsは、二量体インターフェースおよび基質結合部位を含むG6PD酵素の重要な活性領域の周りにクラスター形成している(図13a)。G6PD動力学的パラメーターの絶対値は、酵素機能においてこれらの変化に対する赤血球代謝機能の感受性を測定するためにコンピューター内で変動した。最も高感度のパラメーターは、VmaxおよびKi-NADPHであることが見出された。NADPH/NADP比は、それが、これらの2つのパラメーターにおける変化に対して最も高感度であったため、代謝状態の最も情報提供性が高い指標であることが証明され、それは、細胞の酸化状態に関する徴候を与える(Kirkman, H.N., G.D. Gaetani, E.H. Clemons and C. Mareni, Journal of Clinical Investigation 55:875-878 (1975))。それぞれの文書化された変異体について、VmaxとKi-NADPHとの間の直接的相関はないように思われる(図13b)。臨床的には、G6PD欠乏症は、2つの主要なカテゴリー:慢性および非慢性溶血性貧血へ分類される。慢性の症例は、臨床症状を示し、環境に対して非常に感受性が高い。非慢性の症例は、恒常性条件下では正常に見えるが、大きな酸化ストレスに曝される場合、問題を経験しうる(Jacobasch, G., and S.M. Rapoport, in Molecular Aspects of Medicine (1995))。この研究について、Yoshidaからの12個の慢性および8個の非慢性の症例、ならびにFiorelliからの19個の慢性症例についての動力学的データが用いられた(Fiorelli, G., F.M.d. Montemuros and M.D. Cappellini, Bailliere's Clinical Haemoatology 13:35-55 (2000); Yoshida, A., pp. 493-502 in Glucose-6-Phosphate Dehydrogenase. Academic Press 1995)。
【0155】
正常な条件(すなわち、酸化負荷、Vox=0)下において、慢性群と非慢性群の間に差があり、慢性群が非慢性群よりいくらか低い恒常性定常状態NADPH/NADP比をもつ。酸化負荷(Vox>0)に曝される場合、その2つの群(慢性および非慢性)の間の顕著な差が現れる(図14)。最大耐性酸化負荷(Vox=最大値)でのNADPH/NADP比は、ストレスを加えられていない状況(Vox=0)におけるこの比と相関する。慢性溶血性貧血患者群は、正常および非慢性群とは明らかに区別される。多数の慢性症例は、非常に穏やかな酸化負荷にのみ抵抗することができる。研究された変異体症例のうち、ひと握りが分子(アミノ酸)レベルで特徴付けされた(表5)。考慮された症例のうち、慢性(クラスI)変異体における一塩基変化の大部分は、二量体インターフェース(エキソン10、11および6、7)で、もしくは近くで、またはNADP結合部位の近くで生じ、体系的酸化攻撃に応答する能力が損なわれることになる。
【0156】
ピルビン酸キナーゼ(PK)は、主要な解糖制御酵素である。1961年におけるPKの最初の記載以降、約400個の文書化された変異体があるのみである(Jacobasch, G., and S.M. Rapoport, in Molecular Aspects of Medicine (1996); Tanaka, K.R., and C.R. Zerez, Seminars in Hematology 27:165-185 (1990); Zanella, A., and P. Bianchi, Balliere's Clinical Hematology 13:57-81 (2000))。PKは、赤血球解糖において見出された酵素欠乏の90%を占める。それは、臨床症状が合成ヘテロ接合体(2突然変異対立遺伝子)にのみ現れる、常染色体劣性である。4つのアイソザイム:L、R、M1およびM2があり、R型は赤血球にしかない。PKは、染色体1q21上のPK-LR遺伝子によりコードされる。酵素の動力学は、広く研究されてきた(Otto, M., R. Heinrich, B. Kuhn and G. Jacobasch, European Journal of Biochemistry 49:169-178 (1974))。PK活性は、F6P、ATP、MgおよびMgATPにより制御される。貧血性ヘテロ接合体は、正常なPK活性の5〜40%をもつ。
【0157】
PK変異体の概要は、表6に示されている。サッサリ(Sassari)変異体のみが、Bドメインにおけるβ1とβ2の間にあるアミノ酸172位でGluからGlnへの変化を結果として生じるGからCへのSNP(cDNAヌクレオチド514位)トランスバージョンをもつ。ここでは、塩基性(負荷電アミノ酸)が極性非荷電アミノ酸により置換されている。パルマ(Parma)は、2個のSNPsを有し、一つはアミノ酸331位または332位、およびもう一つはアミノ酸486位または487位にあり、そのアミノ酸変化のどちらもまだ解明されていない。ソレシナ(Soresina)およびミラノ(Milano)は、アミノ酸486位でのArgからTrpへのアミノ酸変化(正荷電から非極性へ)を共有する。ブレシア(Brescia)は、アミノ酸348位でのLysの欠失、およびまだ定義されていないアミノ酸486位または487位でのもう一つの変化を有する。マントバ(Mantova)は、アミノ酸390位でのAspからAsnへの交換(負荷電から極性非荷電へ)を有する。(Bianchi, P., and A. Zanella, 2000 Hematologically important mutations: red cell pyruvate kinase. Blood Cells, Molecules, and Diseases 15:47-53; Zanella, A., and P. Bianchi, Balliere's Clinical Hematology 13:57-81 (2000))。
【0158】
G6PDについてとは違って、特徴付けられたPK SNPsは、タンパク質コード領域全体中に点在し、その酵素の対応する活性部位の近くにクラスター形成するようには見えない。主要な動力学的パラメーターVmaxおよびKPEPについて文書化された動力学的値が示されている(図15a)。G6PD変異体と類似して、PK変異体の中で絶対値VmaxおよびKPEPにおける変化の間に明らかな相関がない(図15b)。KADPにおける変化もまた、各変異体について文書化され、シミュレーションにおいて説明されているが、それの値における増加または減少は、赤血球の定常状態代謝産物濃度またはそれのエネルギー負荷に抵抗する能力に有意には影響を及ぼしていなかった(データ示されず)。KPEPおよびVmaxにおける変化は、最も有意に、ATPおよび2,3DPGの濃度に影響を及ぼす。増加したエネルギー負荷(Ve>0)がコンピューター内で適用される場合、変異体間の差が観察される。最大耐性負荷(Ve=最大値)でのATP濃度と攻撃されていない状態におけるATP濃度(Ve=0)の間の比は、すべての変異体が評価される場合、最大耐性負荷によってほぼ直線的に変化する(図15c)。このように、最も低い最大負荷に耐えた変異体は、ほぼ1に近い[ATP]最大/[ATP]負荷なし比率をもち、名目上の恒常性状態から逸脱するそれらの能力が急激に減少したことを示している。興味深いことに、計算されたエネルギー充電(EC=(ATP + 1/2ADP)/(ATP + ADP + AMP))(Atkinson, D.E., 1977 Cellular energy metabolism and its regulation. Academic Press, New York)は、比較的一定に留まっている(図15d)。この結果は、赤血球代謝が耐性負荷範囲内にそれのECを維持するように励み、それに従って、エネルギー的に一貫した代謝機能を可能にすることを示している。
【0159】
代謝酵素についてのコード領域における配列変異は、変化した動力学的性質へ導きうる。酵素の動力学的性質は、多くのパラメーターにより記述され、単一のSNPがこれらのパラメーターの1つまたは多くを変化させることができる。本明細書で考慮されるG6PDおよびPKの変異体について、配列変異の機能としてそれらの動力学的パラメーター間に明らかな関係がないように思われる。このように、遺伝子産物の機能における配列変異の結果は、変化した生化学的機能の包括的評価を得るために完全に評価されなければならない。
【0160】
多くの同時に変化した酵素性質の結果は、次には、それが関係する反応ネットワークの状況において酵素の機能の観点から評価されなければならない。酵素の生化学的および動力学的性質における配列変異の評価は、困難なように思われ、この挑戦は、目下、取り組んでいるところであるが(Yamada, K., Z. Chen, R. Rozen and R.G. Matthews, Proc Natl Acad Sci USA 98:14853-14858 (2001))、ネットワーク全体の機能における配列変異の評価は、よりいっそう込み入っている。配列変異とネットワーク機能の間のこの高度に複雑かつ入り組んだ関係は、コンピューターモデルの使用を通して研究されうる。ここで、本発明者らは、赤血球G6PDおよびPKにおける多数の変異体が、赤血球のコンピューター内モデルを用いて体系的に分析されうることを示した。配列変異と予測された全体の細胞挙動の間の相関が確立され、G6PDの症例において、それは、次には、臨床症状の重症度と相関している。
【0161】
実施例IV
既知の制御ネットワーク構造とトランスクリプトミクスデータの間の整合性
以下の実施例は、既知の制御ネットワーク構造を、これらの構造を大規模遺伝子発現データセットと調和させることにより、確証かつ展開するための記載された方法の使用を例証する。
【0162】
大きなゲノム尺度の発現データセットの有効性は、大規模制御ネットワークを推論するためにこれらのデータセットを用いる方法の開発を惹起した(D'Haeseleer, P., Liang, S. & Somogyi, R Bioinformatics 16:707-726 (2000); de Jong, H.J. Comput. Biol. 9:67-103 (2002); Yeung, M.K., Tegner, J. & Collins, J.J. Proc. Natl. Acad. Sci USA 99:6163-6168 (2002))。または、そのような制御ネットワーク構造は、注釈付きのゲノム情報、よく管理されたデータベースおよび一次研究文献に基づいて再構築されうる(Guelzim, N., Bottani, S., Bourgine, P. & Kepes, F. Nat. Genet. 31, 60-63 (2002); Shen-Orr, S.S., Milo, R., Mangan, S. & Alon, U. Nat. Genet. 31, 64-68 (2002))。ここで、本発明者らは、大腸菌および出芽酵母において、現存する大規模遺伝子発現データセットが既知のゲノムワイドの制御ネットワーク構造とどれくらい整合しているかを試験する。本発明者らは、両方の生物体において、転写因子とそれらの標的遺伝子の間での既知のペアワイズ制御相互作用の約10%が、遺伝子発現データと整合していることを見出している。本発明者らは、同じ遺伝子に作用する複数の転写因子による組み合わせの効果を明らかにすることが、遺伝子発現データと制御ネットワーク構造の間の合致を向上させることができることを示している。本発明者らはまた、リプレッサーを含む制御ネットワーク要素が、典型的には、アクチベーターを含むものよりデータとの整合性が低いことを見出している。これらの結果をひとまとめにして考えると、ネットワーク構造と遺伝子発現データの間の高程度の整合性をもつ制御ネットワークモジュールを定義することが可能になる。結果は、標的遺伝子の発現プロファイリングデータが、ネットワークの残りから十分に切り離される既知の制御ネットワークの特定のサブコンポーネントを改善かつ展開するために用いられうることを示唆している。
【0163】
酵母(Guelzim, N., Bottani, S., Bourgine, P. & Kepes, F. Nat. Genet. 31, 60-63 (2002))および大腸菌(Shen-Orr,S.S., Milo, R., Mangan, S. & Alon, U. Nat. Genet. 31, 64-68 (2002))についての既知のゲノム尺度の転写制御ネットワーク構造は、得られ、自己調節を除去するために前処理された。これらの構造は、制御因子結節点(典型的には、転写因子)と標的遺伝子結節点の間の有向制御相互作用辺をもつグラフとして表され、制御のモード(活性化、抑制または両方)が各相互作用について示されている。酵母ネットワークは、931個の制御相互作用を通して414個の標的遺伝子を制御する108個の制御遺伝子を有し、大腸菌ネットワークは、1367個の制御相互作用を通して721個の標的遺伝子を制御する123個の制御遺伝子を有する。本発明者らは、酵母についての5つの別々のデータセットへ組織化された641個の多様な遺伝子発現プロファイリング実験、および大腸菌についての3つの別々のデータセットへ組織化された108個の実験からのデータを用いた。
【0164】
この研究において解析される制御ネットワーク要素の3つの基本型があった:1)ペアワイズ制御相互作用、2)標的-制御因子単位、および3)レギュロン。標的-制御因子単位(TRU)は、単一の標的遺伝子の、それの転写制御因子のすべてと共にしたものとして定義される。レギュロンは、単一の転写制御因子についてのすべての標的遺伝子のセットとして定義される。ネットワークに存在する個々のネットワーク要素の各例について、本発明者らは、特定の遺伝子発現データセットとネットワーク要素構造の間の整合性測度を計算した。本発明者らが用いた特定の測定値は、ペアワイズ相互作用についてのピアソン相関係数、TRUについての多重決定係数、およびレギュロンについてのレギュロン相関内の平均値であった。整合性測度の特定値の統計学的有意性は、ランダム化工程により決定された。
【0165】
制御ネットワークにおける最も単純な要素は、ペアワイズ制御因子-標的の相互作用である。全体的にみて、ペアワイズ相互作用の比較的小さい分率(P<0.01において10%未満)のみが、上述の基準を仮定すれば、遺伝子発現データと合致している。特に、事実上、リプレッサー-標的相互作用のいずれも、試験された遺伝子発現データセットのいずれによっても支持されていない。たいていのリプレッサーは、実際には、それらの標的遺伝子の発現との正相関をもつ − リプレッサーについて予想されるような負ではない。ペアワイズ相互作用を抑制することについてのこれらの結果は、標的遺伝子のプロモーターに結合した転写リプレッサーの結果として低レベルで発現された転写産物を検出することに関連した問題を浮かび上がらせる。
【0166】
ペアワイズ相互作用の解析は、転写フィードフォワードループの存在下において転写因子と標的遺伝子発現レベルの間の相関を過大評価しうる。そのような場合、2つまたはそれ以上の転写因子は、同じ遺伝子に作用するが、それらの一部(一次制御因子)はまた、もう一つの(二次)制御因子を直接的に制御する。フィードフォワードループは、二次制御因子-標的相関が一次制御因子の影響だけに起因する間接的効果へ導きうる。ここで用いられたフレームワークにおいて、この効果は、標準相関係数を二次制御因子-標的相互作用についての部分相関係数と交換することにより説明されうる。両方のネットワークにおいてかなりの数のフィードフォワードループがあるが(酵母において240個、大腸菌において206個)、フィードフォワードループを占めている全体の効果は小さい(0〜3パーセントポイント)。
【0167】
標的-制御因子単位は、フィードフォワードループよりも複雑な組み合わせの効果を示す。遺伝子発現データと整合性のあるTRUのパーセンテージは、すべての信頼水準において、大腸菌についての整合性のあるペアワイズ相互作用のパーセンテージよりも高い。この結果は、転写因子間の組み合わせの効果が多くの場合において重要な役割を果たしていることを示す。逆に、酵母におけるTRUについて、本発明者らは、ペアワイズ相互作用のみとみなした計算と比較して、発現データと合致した単位のパーセンテージにおける有意な変化を観察していない。
【0168】
TRUは、標的遺伝子に作用する制御因子の数により分類されうる。酵母において、4つの制御因子をもつTRUは、一般的に、遺伝子発現データにより最も良く支持される。これらの4制御因子TRUは、窒素利用、酸素制御およびストレス応答を含む多様な細胞機能に関与する遺伝子を含む。このゆえに、4制御因子TRUについて観察される高程度の整合性は、ネットワークの特定のサブコンポーネントだけに起因するようには思われず、ネットワーク構造のより全般的な特徴である。大腸菌において、制御因子の数と整合性のあるTRUの分率の間に、明らかな依存関係を検出することはできない。
【0169】
制御ネットワーク構造と遺伝子発現データの間の合致を、転写因子の発現レベルとそれらの標的遺伝子の間の相関を仮定しない異なる観点から調べるために、本発明者らは、既知のレギュロン内の遺伝子発現の干渉性を研究した。大きな分率のレギュロン(40%を超える)は、少なくとも1つのデータセットにおいて最もストリンジェントの信頼水準(P<0.001)についてさえも、酵母および大腸菌の両方において干渉性遺伝子発現をもつ。この結果は、遺伝子発現データを解析することへのクラスタリング様アプローチが、真に同時制御された遺伝子を検出するのに成功することが実際に期待されうることを示している。この計算の最も興味深い特徴は、酵母において、転写リプレッサーにより制御されるレギュロンについての比較的低レベルのレギュロン干渉性である。対照的に、リプレッサーにより制御される大腸菌レギュロンは、アクチベーターにより制御されるものより干渉性が高い傾向にある。
【0170】
酵母および大腸菌の両方についての上記のすべての結果は、制御ネットワークのマップ上に表示されうる(図16)。このデータ表示は、解析された遺伝子発現データセットと高程度で合致するネットワークのサブコンポーネントを同定することを可能にする。例えば、酵母において、窒素利用(図16aにおけるI)および酸素応答系(O)は、多くの高い整合性のある要素を有するが、炭素利用(C)ネットワークにおける要素は、一般的に、遺伝子発現データと整合性がない。同様に、大腸菌において、鞭毛生合成ネットワーク(図16bにおけるF)のようなコンポーネントは高い整合性があるが、炭素利用(C)ネットワークは、またもや、整合性のあるネットワーク要素をあまりもたない。
【0171】
制御ネットワーク構造と遺伝子発現データの間の整合性における変動性の一部は、この作業に利用されるデータセットの型に起因するように思われる。例えば、大腸菌におけるDNA修復系は、遺伝子発現データセットのうちの1つにおいて特異的に活性化され、窒素消耗に対する応答は、酵母データセットの1つにおいて研究された。しかしながら、整合性に影響を及ぼすように思われる全般的なネットワーク構造的特徴もある。最も顕著な特徴は、大腸菌における鞭毛生合成または酵母における窒素利用のような、ネットワークの比較的隔離されたサブコンポーネントが遺伝子発現データと整合性がある傾向であるのに対して、炭素利用制御のような高度に相互接続されたコンポーネントは典型的には整合性がないことである。しかしながら、すべての隔離されたサブネットワークが整合性があるわけではなく、ネットワーク再構築は不完全である可能性があり、これらのサブネットワークは、実際、現在知られているものよりも強く、ネットワークの他の部分に接続されている可能性があることを示している。
【0172】
ひとまとめにして考えると、ここで示された結果は、既知の制御ネットワーク構造に関する情報を遺伝子発現データと組み合わせることが制御ネットワーク構造を確証かつ展開する生産的な方法であることを示している。整合性の全体レベルは一般的に低いことが見出されたため、遺伝子発現データのみに基づく制御ネットワークのゲノム尺度の再構築は、たとえ酵母についての場合のように大量データが利用可能であるとしても、実現可能であるようには思われないことに留意することは重要である。その結果は、ネットワーク構造の異なる特徴が整合性に影響を及ぼすことを示している。特に、本発明者らは、リプレッサーを含むネットワーク要素(ペアワイズ相互作用、レギュロン)が典型的には、アクチベーターを含むものより整合性が低いことを観察しているが、これらの型のネットワーク構成要素の再構築は難題をもたらすであろうことを示している。さらに、酵母において、4つの制御因子をもつTRUは、一般的に、他の型のTRUより整合性が高く、そのような場合、既知のネットワーク構造は十分に完全であるように思われるが、より少数の制御因子をもつTRUについて、見落としている制御因子が存在する可能性があることを示している。高い整合性のあるネットワークサブコンポーネントの発見は、遺伝子発現データに基づく制御ネットワークの再構築が、十分に隔離され、かつ十分な量の関連データが有効である特定のサブコンポーネントについての強力なストラテジーでありうることを示している。ゲノムワイドのDNA結合部位占有データ(Ren, B. et al. Science 290:2306-2309 (2000))のような他の高処理量データ型の将来的有用性は、追加のデータ型が非整合性を解決するように用いられうるような再構築の見込みをさらに向上させるものと思われる。しかしながら、すべての高処理量データ型の完全な利用は、データベースおよび文献から抽出された事前の生物学的知識と大量データセットの統計学的解析との組み合わせを必要とするものと思われる。このように、制御ネットワークの完全な再構築は、2つの間の非整合性を連続的に解決する標的とされる将来の実験を含む、「ボトムアップ」および「トップダウン」アプローチの組み合わせに頼るものと思われる。最終的には、すべてのそのようなデータ型は、それらの機能を分析、解釈、および最終的には、予測するために用いられうる制御ネットワークのゲノム尺度のコンピューター内モデルに関して調和されることが期待される。
【0173】
実施例V
制御ネットワークモデルの繰り返し改善
この実施例の目的は、制御ネットワーク同定、向上、および制御または組み合わされた制御/代謝のモデルにおける制御状態の同定のために、記載された方法がどのように用いられうるかを例証することである。
【0174】
ゲノム尺度の転写制御ネットワークモデル再構築への「ボトムアップ」アプローチは、表現型を分析、解釈および予測するために知識のコンピューターモデルへの組み込みにより開始される。その過程は、対象となる生物体についての代謝および転写制御ネットワークの第一通過再構築で始まる。そのようなゲノム尺度のモデルの再構築は、他の所で詳細に記載されており(Covert MW, Schilling CH, Famili I, Edwards JS, Goryanin II, Selkov E, Palsson BO. Trends Biochem Sci 26:179-186 (2001); Covert MW, Schilling CH, Palsson B. J Theor Biol 213:73-88 (2001))、すべての既知の代謝反応、および代謝系への制約として定義される特定の測定されたパラメーター(例えば、最大摂取速度、バイオマス組成)を記述する行列をもつ、線形計画問題としての代謝挙動の表現へと導く。転写制御挙動は、ブール論理文として書かれた1セットの制御ルールとして表される。これらのルールは、環境および内部条件に依存し、代謝ネットワークにおいて様々な代謝遺伝子の発現および/または抑制を決定する。
【0175】
制御および代謝モデルは、論理文の結果が代謝線形計画問題へ時間依存性制約を課すように統合される。線形計画問題の結果は、その後、環境条件を再計算するために用いられ(Varma A, Palsson BO, Appl Environ Microbiol. 60:3724-3731 (1995); Covert MW, Schilling CH, Palsson B. J Theor Biol. 213:73-88 (2001))、ブール論理方程式は再評価される。
【0176】
ブール論理ルールは、特定の遺伝子または1セットの遺伝子の発現のために必要とされる条件を表すために一次文献から引き出される。実験研究は、特定の標的遺伝子の発現のすべての既知のプロモーターについての1セットの可能性のある転写因子を得るために試験される。転写が起こりうる複数のプロモーターの存在はOR関係を示し、1つのプロモーターを発効させる2つの相互作用する転写因子の存在は、AND関係を示す。例えば、遺伝子Aが2つのプロモーター、転写因子Xにより活性化される一つ、ならびに転写因子YおよびZの統合された産物により抑制される他方、を有する場合には、IF (X) OR NOT (Y AND Z)、Aが翻訳されると提示するルールが引き出されうる。
【0177】
そのようなモデルは、大腸菌について構築されている最中である。この生物体について、ゲノム尺度の代謝ネットワークモデルはすでに再構築された(Edwards JS, Palsson BO, Proc Natl Acad Sci USA. 97:5528-5533 (2000))。制御ネットワークモデルは、最初、コア代謝過程について実施された。最初に組み合わされた代謝/制御モデルは、149個の遺伝子、その産物は16個の制御タンパク質および73個の酵素を含む、を占める。これらの酵素は、113個の反応を触媒し、そのうちの45個は、転写制御により調節される。組み合わされた代謝/制御モデルは、様々な環境条件下における実験データとの比較により示されるように、様々な条件下での、定義済み培地で増殖する突然変異体大腸菌株の能力、加えて、細胞増殖の経時変化、基質取り込み、代謝副産物分泌および定性的遺伝子発現を予測することができる。コンピューター内モデルはまた、細胞培養に観察される動的挙動を解釈するために用いられうる(Covert MW, Palsson BO. J Biol Chem 277:28058-28064 (2002))。
【0178】
上で言及されているように統合される場合、制御/代謝モデルは、第一通過再構築を表し、試験できる仮説の作成のために用いられうる(図16参照)。第一に、対象となる表現型または挙動シフトは、特定の生物体(例えば、大腸菌におけるグルコース-ラクトース ディオーキシー)、および重要な制御遺伝子について特定化されなければならない。制御/代謝モデルは、その後、シフトの経過に渡っての、野生型株の挙動、加えて関連した制御遺伝子のノックアウトおよび/または突然変異株の挙動をシミュレートするために用いられうる。これらのシミュレーションは、各株についてのシフトの経過に渡っての、成長挙動、基質取り込み、副産物分泌および遺伝子発現についての仮説を表している。
【0179】
生物体の株は、その後、野生型、加えてすべての対応するノックアウト株の完全な補完を築くために獲得および/または構築される。各株は、その後、問題のシフトを実験的にモニターするために培養される。成長、取り込みおよび分泌の速度、加えて遺伝子発現は、当技術分野においてよく知られている実践を用いてシフトの経過に渡ってモニターされる(Ideker T, Thorsson V, Ranish JA, Christmas R, Buhler J, Eng JK, Bumgarner R, Goodlett DR, Aebersold R, Hood L. Science 294:929-934 (2001))。
【0180】
いったん、必要な実験データが得られたならば、実験結果は、計算で生じたデータと厳密に比較される。この比較は、(1)モデルにより記述された特定の制御関係の確証;(2)実験結果が矛盾していたが、モデルに含まれる制御関係の同定;および(3)モデルへ組み込まれなければならない、以前には知られていなかった制御関係の同定へ導かれる。(2)および(3)の両方は、モデルが向上されうる領域を表している。
【0181】
多くの遺伝子は、特定の生物体において1つより多い転写因子により制御される。そのような遺伝子は複雑なブール論理ルールに対応し、そのルールはさらなる実験により得られなければならない。具体的には、1つより多い転写因子により制御される上記過程により示される遺伝子について、複数のノックアウト株が構築され、複雑な相互作用を測定しうる。2つの転写因子が遺伝子の制御に影響を及ぼすのに必要とされる場合には、それらはAND関係を有する;たった1つの因子が必要とされる場合には、それらはOR関係を有する。
【0182】
その方法は、大腸菌における嫌気生活の研究に適用される(図16)。代謝および転写制御の大規模モデルは、以前に大腸菌について作成された(Covert MW, Palsson BO, J Biol Chem 277:28058-28064 (2002))。このモデルは、ゲノム尺度まで構築され(現在、進行中)、グルコース最少培地における好気性および嫌気性増殖の条件下において、大腸菌の成長、取り込みおよび分泌速度、加えて遺伝子発現についての予測を生むために用いられるものと思われる。6株 − appY、soxS、oxyR、fnrおよびarcAノックアウト株、加えて野生型 − は上記のようにバッチ培養で増殖され、成長、取り込みおよび分泌が継続的にモニターされる。試料は、中間対数期で採取され、それからのmRNAが、Affymetrix Gene Chipテクノロジーを用いて抽出かつ分析される。このデータから、モデルは、制御(例えば、遺伝子誘導/抑制を予測するそれの能力)および代謝(例えば、野生型株および突然変異株の成長挙動を予測するそれの能力)の両方の観点から評価される。この情報は、その後、嫌気生活予測に関してモデルを繰り返し向上させるために用いられる。
【0183】
括弧に入れてまたは別なふうに、以前に言及されていようがいまいが、上で提供されたすべての学術論文、参考文献および特許引用文は、完全に参照として本明細書に組み入れられている。
【0184】
本発明は、上で提供された実施例を参照して記載されているが、本発明の真意から逸脱することなく様々な改変がなされうることは、理解されるべきである。
【0185】
実施例VI
体系的モデル向上アルゴリズムによる制御ネットワークモデルの繰り返し改善
この実施例の目的は、生物学的過程の最良のモデルに迅速に収束させるための、上で記載され、図2Bで描かれた体系的アプローチの重要性を例証することである。仮説の制御ネットワークが、ここでは例として用いられているが、この過程は、代謝ネットワーク、シグナル伝達経路、タンパク質相互作用ネットワークおよび任意の他の生物学的過程に等しく適用できる。
【0186】
コア代謝の骨格ネットワークは以前に作成された(Covert MW, Schilling CH, Palsson B. J Theor Biol. 213:73-88 (2001))。それは、20個の反応を含み、そのうちの7個は制御論理により支配されている。このネットワークは、対応する制御(例えば、異化生成物抑制、好気性/嫌気性制御、アミノ酸生合成制御および炭素蓄積制御)を加えたコア代謝過程(例えば、解糖、ペントースリン酸経路、TCAサイクル、発酵経路、アミノ酸生合成および細胞増殖)の高度に単純化された表現である。この骨格ネットワークの概略図は、すべての関連した化学反応および転写制御を支配する制御ルールを含む表と共に、図18に示されている。図2Bに関して、このネットワークは、特徴付けられることになっている実際の実験系とみなされるものと思われる。
【0187】
図18の実験系の右に、実験系のモデルがある。そのモデルは、1つの例外:モデルにおけるR5aの制御が、制御ルールが与えられず(すなわち、その反応はすべての条件下において発現される)、正しく特徴付けられなかった、のほかは、ほとんど完全である。
【0188】
範囲および正確さの表明は、モデルについて決定される;すなわち、モデルは、システムの全体の転写制御構成要素をブール論理を用いて定性的に表し、「1」は、所定の反応に対応する遺伝子が発現されたことを示し、「0」は、遺伝子が下方制御されたことを示している。対象となる実験は、好気性および嫌気性条件下での代謝産物炭素2におけるシステムの成長である。この例について、モデルの望ましい正確さについての基準は、システムにおけるすべての制御された遺伝子の観察された発現と予測された発現の間の平方差の和として計算されたモデル誤差がゼロに等しいことである。
【0189】
過程の位相Iにおいて、実験は、システムに利用できる炭素2および酸素で実行される。実験系およびモデル系における制御された遺伝子の発現は、計算され、図19に示されている。モデル誤差は、この場合、ゼロに等しく、実験データおよびモデル予測がこの場合、完全に一致していることを示している。
【0190】
次に、実験は、酸素はできないが、システムに利用できる炭素2で実行される。この場合、T5aの観察された発現と計算された発現の間に不一致があり、結果として、1の誤差を生じている。モデル誤差が提示された基準により許容されるものより大きいため、モデル誤差が所定の実験条件下で最小限になるように数学的モデルの組成を変化させるために、工程が実行される。この場合用いられる工程は、以下の仮定で展開される:T5aの制御は、システムにおいて既知の制御タンパク質(RPc1、RPb、RPhおよびRPO2)の1つのみに依存する。それゆえに、工程は以下の通りである:(1)モデルにより予測されているように各タンパク質の活性を得る、(2)各タンパク質について、結果としてT5aについての正しい発現値を生じる所定のタンパク質の活性に基づいたルールを作成する、(3)制御された遺伝子についての全体の発現アレイを再計算する、(4)新しいモデル誤差を測定することによりモデル正確さについての基準間の差を評価する、および(5)将来の繰り返しのための新しいモデルとして最小誤差をもつモデルを選択する。
【0191】
所定の条件下での制御タンパク質の活性は以下である:RPc1=0、RPb=0、RPh=1、RPO2=1。ゼロの値をもちうるT5aについて、実行されうるルールは、それゆえに、以下である:T5a=IF (RPc1)、T5a=IF (RPb)、T5a=IF NOT (RPh)およびT5a=IF NOT (RPO2)。モデルの誤差がそれぞれの新しいルールで計算される;そして、新しいモデルすべては、図19に示されているように(位相III)、ゼロの誤差をもつ。結果として、モデルの1つ(例えば、新しいルールT5a=IF (RPc1)で)が任意に選ばれ、残りの等価の解が保存される。
【0192】
新しいモデルは、その後、表現型データベースにおけるデータで再評価されうる。この例について、炭素2および酸素がシステムに利用できた実験からのデータが、新しいモデルの予測と比較される。新しいモデルは、これらの条件に関して誤差をもつ(図19の位相IVに示されている);残りの代替の解が考慮される場合、新しいルールT5a=IF NOT (RPO2)でのモデルのみがゼロ誤差をもつデータと適合する。このモデルが将来の繰り返しのために保存される。
【0193】
その過程は、制御ネットワークをさらに特徴付ける新しい実験を示唆している:具体的には、システムのRPO2ノックアウト株を創出すること、およびノックアウト株の、炭素2が利用できるが酸素ができないところにおいて増殖する能力を試験すること。図19に示されているように、モデル予測および実験データはまた、この実験について一致している。
【0194】
モデルは、それゆえに、モデル予測を向上させかつ実験系自身をより十分に特徴付けるように新しいデータが生じたところにおいて実験過程を操作するために、その上、さらなる知識および洞察を得るように実施されうる実験の新しいラウンドを示唆するために、用いられた。
【0195】
実施例VII
アルファ円錐方法を用いる極度経路への定常状態流束分布の分解
この実施例は、生物系において実施経路を同定するために、どのようにして、任意の定常状態現象論的流束分布が、体系的経路(ここでは、極度経路)へと理にかなった様式で分解されうるかを示している。アルファ円錐分解方法は、所定の流束分布について重みづけする体系的経路の範囲を同定すること、および必要とされる最小限セットの体系的経路を定義することが、現象論的経路を記述することを可能にする。これらの経路の可能な重みづけの範囲と共のこの最小限セットの体系的経路は、生物系の実施経路を定義する。
【0196】
この分析に用いられるサンプル代謝ネットワークは、以前に発表されている(Covert MW, Schilling CH, Palsson B. J Theor Biol 213:73-88 (2001))。ネットワークは、20個の反応および16個の内部代謝産物からなる。例のネットワークは、解糖、クエン酸サイクルおよび呼吸のようなコア代謝過程の一部を映すように設計された。このネットワークの極度経路は、以前に計算された(Covert MW & Palsson BO. J Theor Biol 216 (2003))。ネットワークは、この分析に含まれる80個のI型極度経路を有する。各極度経路、pi、は取り込み反応の最大値(Vmax)に基づいたそれの最大可能流束まで拡大された。行列Pは、その後、それの列としてpi(i=1....n、nはシステムについての極度経路の数である)を用いて形成される。
【0197】
実験測定値により作成された現象論的流束分布を模倣するために、このネットワークについての定常状態流束分布が、流束平衡分析(FBA)の十分確立された技術を用いて計算された。この研究の目的のために、固有の定常状態流束分布が様々な環境条件について計算された。
【0198】
所定の現象論的流束分布について、極度経路において重みづけする分解(αで示される)は、通常、固有ではない。P行列の階数は、コンシステント方程式の数を決定し、通常、極度経路の数より小さく、結果として、余分な自由度を生じる。これは、結果として、許容できる極度経路重みづけの「アルファ空間」を生じる。定常状態の解に寄与しうる可能なアルファ値の範囲を解明するために、アルファ-スペクトルは、方程式P.α=v(Pは、極度経路ベクトルの行列(極度経路が列であり、反応が行である)であり、αは、経路へのアルファ重みづけのベクトルであり、およびvは、分解されることになっている任意の定常状態流束分布である)に基づいて展開された。ネットワークについて定義された各個々の極度経路について、その経路についてのアルファ重みづけは、線形計画法を用いて最大化および最小化の両方が行われたが、すべての他の極度経路アルファ重みづけはしないままである。これは、結果として、各極度経路についての許容できるアルファ範囲を生じる。その結果は、その後、極度経路をx軸に、およびアルファ重みづけの範囲をy軸にもつ、2次元グラフ上にプロットされた。経路は、Vmaxに対して標準化されるため、アルファ重みづけは、各極度経路のパーセンテージ用法に対応している。いくつかの極度経路は用いられず、一方、別のものはアルファ重みづけの範囲をもちうる。
【0199】
アルファ-スペクトルを定義することに加えて、混合整数線形計画法(MILP)(Williams, HP Model building in mathematical programming. Chichester; New York, Wiley (1990))が、複数の経路組み合わせが存在する場合において所定の現象論的流束分布を記述するのに必要とされる極度経路の最小数を見出すために用いられた。特定の極度経路の使用は、ブール変数(βj、対応する経路が用いられる場合、1の値をもち、その経路が用いられない場合、ゼロをもつように仮定された)により表された。経路使用を表すすべてのブール変数の和は、最小数の経路が用いられた場合に対応するアルファ重みづけを得るために最小化された。対応する最適化問題は正式に以下のように記述されうる:
βは、経路使用に対応するブール変数のベクトルであり、αは、経路重みづけのベクトルである。解は、望ましい現象論的流束分布の分解を得るために最小数の経路が用いられるような1セットのアルファ重みづけである。
【0200】
上記の方法は、制御が含まれていない好気性増殖の場合に適用された。この場合は、すべての可能な基質(炭素1、炭素2、F、Hおよび酸素)がネットワークに供給されるように、本質的に無制限であった。FBAを用いて計算されたその結果の流束分布は、図20Aに見られうる。計算されたアルファ-スペクトルは、80個のI型経路のうち、たった13個が好気性流束分布を再構築するのに用いられることができたことを示している(図20B)。経路52は、0から1まで(それの最大可能使用の0%〜100%)の範囲でありうる。経路36は、ゼロではない最小アルファ値により示されるように用いられなければならない。残りの11個の経路は、0から様々な準最大値まで変動する。好気性定常状態流束分布を生じるために必要とされる最小数の経路を決定するためにMILP解析がなされた。MILPが追加の制約なしに解かれる場合、P36がそれの最大能力(100%)まで用いられ、経路48、38、66および8から最大下の寄与があった。興味深いことに、ネットワークが最大アルファ範囲をもつ経路(P52)を最大限に用いるように強制される場合、経路36もまた、最大下であるにしても、経路12、32および60と共に、用いられた。ゼロではない最小可能重みづけをもち、従って、すべての可能な解に用いられなければならないP36の例外を除けば、MILP解のその2つのセットの間に共通の経路はないことを留意されたい(図20C)。
【0201】
アルファ円錐方法は、FBA計算により得られた流束分布について上で実証されたが、同様に、解析において実験的に測定された代謝流束データを用いることは可能である。部分的または断片化された流束データであるとしても、候補アルファ-スペクトルを決定し、このゆえに、所定の外部条件において細胞で活性のある実施経路を得ることは、可能であるものと思われる。
【0202】
【表1】
【0203】
【表2】
【0204】
【表3】
【0205】
【表4】
【0206】
【表5】
【0207】
【表6】
【特許請求の範囲】
【請求項1】
以下の段階を含む、生物系の実施反応経路を同定する方法:
(a)該生物系を表す反応ネットワークを通して体系的反応経路のセットを提供する段階、
(b)該生物系の現象論的反応経路のセットを提供する段階、
(c)体系的反応経路の該セットを現象論的反応経路の該セットと比較する段階であって、該セットに共通した経路が該生物系の実施反応経路である、段階。
【請求項2】
生物系が原核細胞またはその生物学的経路である、請求項1記載の方法。
【請求項3】
原核生物が大腸菌(E. coli)、枯草菌(B. subtilis)、インフルエンザ菌(H. influenzae)およびH.ピロリ (H. pylori)からなる群より選択される、請求項2記載の方法。
【請求項4】
生物学的経路が代謝である、請求項2記載の方法。
【請求項5】
生物系が真核細胞またはその生物学的経路である、請求項1記載の方法。
【請求項6】
真核生物がS. セレビシエ(S. cerevisiae)およびヒト(H. sapiens)からなる群より選択される、請求項5記載の方法。
【請求項7】
生物学的経路が代謝である、請求項5記載の方法。
【請求項8】
段階(a)が反応ネットワークの極度経路のセットを決定する段階および該セットを提供する段階を含む、請求項1記載の方法。
【請求項9】
段階(a)が反応ネットワークを再構築する段階をさらに含む、請求項1記載の方法。
【請求項10】
段階(a)がゲノムのオープンリーディングフレームに生化学的機能を割り当てる段階をさらに含む、請求項1記載の方法。
【請求項11】
段階(a)がゲノムの配列のオープンリーディングフレームを決定する段階をさらに含む、請求項1記載の方法。
【請求項12】
段階(a)がゲノムの配列を決定する段階をさらに含む、請求項1記載の方法。
【請求項13】
段階(b)が遺伝子発現データを解析する段階を含む、請求項1記載の方法。
【請求項14】
段階(b)が遺伝子発現を測定する段階をさらに含む、請求項13記載の方法。
【請求項15】
段階(b)がタンパク質発現を解析する段階を含む、請求項1記載の方法。
【請求項16】
段階(b)がタンパク質発現を測定する段階をさらに含む、請求項15記載の方法。
【請求項17】
段階(b)が代謝産物産生を解析する段階を含む、請求項1記載の方法。
【請求項18】
段階(b)が代謝産物産生を測定する段階をさらに含む、請求項17記載の方法。
【請求項19】
段階(b)が反応使用を解析する段階を含む、請求項1記載の方法。
【請求項20】
段階(b)が反応使用を測定する段階をさらに含む、請求項1記載の方法。
【請求項21】
データが、クラスタリング分析、特異値分解、主成分分析および多変量時系列解析からなる群より選択される方法を用いて解析される、請求項13〜20のいずれか一項記載の方法。
【請求項22】
データが特異値分解を用いて解析される、請求項21記載の方法。
【請求項23】
以下の段階を含む、生物系反応ネットワークを改善する方法:
(a)生物系の数学的表現を提供する段階;
(b)生物系の観察された挙動と、類似した条件下における該生物系の該数学的表現のコンピューター内での挙動との間の差を測定する段階;
(c)該生物系の該数学的表現の構造を改変する段階;
(d)該生物系の該観察された挙動と、類似した条件下における該生物系の該改変された数学的表現のコンピューター内での挙動との間の差を測定する段階、および
(e)挙動の差が最小化されるまで段階(d)および(e)を繰り返す段階であって、予定の正確さ基準の満足が該生物系反応ネットワークにおける向上を示している、段階。
【請求項24】
以下の段階をさらに含む、請求項23記載の方法:
(f)異なる条件下において生物系の挙動を測定する段階、および
(g)該異なる条件下において請求項23記載の段階(b)から(e)までを繰り返す段階。
【請求項25】
最小化される挙動の差が尽きるまで段階(f)および(g)を繰り返す段階をさらに含み、該向上した生物系反応ネットワークが最適な生物系反応ネットワークを表している、請求項24記載の方法。
【請求項26】
向上した生物系反応ネットワークが新しい制御ネットワークを同定する、請求項23または24記載の方法。
【請求項27】
向上した生物系反応ネットワークが制御状態を同定する、請求項23または24記載の方法。
【請求項28】
生物系の数学的表現が制御ネットワークを含む、請求項23記載の方法。
【請求項29】
以下の段階を含む、生物系データセットを調和させる方法:
(a)複数の階層的反応カテゴリーを含む遺産データから再構築された第一反応ネットワークを提供する段階;
(b)経験的データから得られた第二反応ネットワークを提供する段階、および
(c)該第一反応ネットワークにおける該階層的反応カテゴリーと該第二反応ネットワークにおける要素との間の整合性測度を測定する段階であって、該階層的反応カテゴリーについての高程度の該整合性測度が該第一反応ネットワークまたはそのサブコンポーネントの妥当性を示している、段階。
【請求項30】
経験的データが一次データを含む、請求項29記載の方法。
【請求項31】
経験的データが核酸発現データを含む、請求項29記載の方法。
【請求項32】
遺産データが二次データを含む、請求項29記載の方法。
【請求項33】
遺産データが公開された報告書およびデータベースから得られるデータをさらに含む、請求項29記載の方法。
【請求項34】
階層的反応カテゴリーが反応または制御事象を含む、請求項29記載の方法。
【請求項35】
階層的制御事象がペアワイズ制御相互作用、標的-制御単位およびレギュロンを含む、請求項34記載の方法。
【請求項36】
反応ネットワークの妥当なサブコンポーネントを同定する段階をさらに含む、請求項29記載の方法。
【請求項37】
反応ネットワークが、代謝反応ネットワーク、制御反応ネットワーク、転写反応ネットワークおよびゲノム尺度反応ネットワークから選択されるネットワーク、またはそれらの任意の組み合わせを含む、請求項29記載の方法。
【請求項38】
反応ネットワークが数学的または統計学的表現をさらに含む、請求項29記載の方法。
【請求項39】
以下の段階を含む、細胞全体の機能への遺伝子多型の効果を測定する方法:
(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークを作成する段階;
(b)該反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階、および
(c)正常な生物系を表す反応ネットワークと比較して該ストレスを加えられた生理学的状態における該適用された生化学的または生理学的条件に対する感受性を測定する段階であって、該感受性が該遺伝子多型媒介性病態の表現型の結果を示している、段階。
【請求項40】
生化学的または生理学的条件が、流束負荷、pH、反応物および生成物における変化から選択される、請求項39記載の方法。
【請求項41】
生化学または生理学的条件が酸化負荷またはエネルギー負荷を含む、請求項39記載の方法。
【請求項42】
以下の段階を含む、遺伝子多型媒介性病態を診断する方法:
(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階であって、該適用された生化学的または生理学的条件が該遺伝子多型媒介性病態と相関している、段階、および
(b)該反応ネットワーク内の該病態の1つもしくは複数の生化学的または生理学的指標を測定する段階であって、ストレスを加えられていない生理学的状態と比較して該ストレスを加えられた状態での該1つもしくは複数の生化学的または生理学的指標における変化が、該病態に対応する遺伝子多型の存在を示している、段階。
【請求項43】
生化学的または生理学的条件が、流束負荷、pH、反応物および生成物における変化から選択される、請求項42記載の方法。
【請求項44】
生化学的または生理学的条件が、酸化負荷またはエネルギー負荷を含む、請求項42記載の方法。
【請求項1】
以下の段階を含む、生物系の実施反応経路を同定する方法:
(a)該生物系を表す反応ネットワークを通して体系的反応経路のセットを提供する段階、
(b)該生物系の現象論的反応経路のセットを提供する段階、
(c)体系的反応経路の該セットを現象論的反応経路の該セットと比較する段階であって、該セットに共通した経路が該生物系の実施反応経路である、段階。
【請求項2】
生物系が原核細胞またはその生物学的経路である、請求項1記載の方法。
【請求項3】
原核生物が大腸菌(E. coli)、枯草菌(B. subtilis)、インフルエンザ菌(H. influenzae)およびH.ピロリ (H. pylori)からなる群より選択される、請求項2記載の方法。
【請求項4】
生物学的経路が代謝である、請求項2記載の方法。
【請求項5】
生物系が真核細胞またはその生物学的経路である、請求項1記載の方法。
【請求項6】
真核生物がS. セレビシエ(S. cerevisiae)およびヒト(H. sapiens)からなる群より選択される、請求項5記載の方法。
【請求項7】
生物学的経路が代謝である、請求項5記載の方法。
【請求項8】
段階(a)が反応ネットワークの極度経路のセットを決定する段階および該セットを提供する段階を含む、請求項1記載の方法。
【請求項9】
段階(a)が反応ネットワークを再構築する段階をさらに含む、請求項1記載の方法。
【請求項10】
段階(a)がゲノムのオープンリーディングフレームに生化学的機能を割り当てる段階をさらに含む、請求項1記載の方法。
【請求項11】
段階(a)がゲノムの配列のオープンリーディングフレームを決定する段階をさらに含む、請求項1記載の方法。
【請求項12】
段階(a)がゲノムの配列を決定する段階をさらに含む、請求項1記載の方法。
【請求項13】
段階(b)が遺伝子発現データを解析する段階を含む、請求項1記載の方法。
【請求項14】
段階(b)が遺伝子発現を測定する段階をさらに含む、請求項13記載の方法。
【請求項15】
段階(b)がタンパク質発現を解析する段階を含む、請求項1記載の方法。
【請求項16】
段階(b)がタンパク質発現を測定する段階をさらに含む、請求項15記載の方法。
【請求項17】
段階(b)が代謝産物産生を解析する段階を含む、請求項1記載の方法。
【請求項18】
段階(b)が代謝産物産生を測定する段階をさらに含む、請求項17記載の方法。
【請求項19】
段階(b)が反応使用を解析する段階を含む、請求項1記載の方法。
【請求項20】
段階(b)が反応使用を測定する段階をさらに含む、請求項1記載の方法。
【請求項21】
データが、クラスタリング分析、特異値分解、主成分分析および多変量時系列解析からなる群より選択される方法を用いて解析される、請求項13〜20のいずれか一項記載の方法。
【請求項22】
データが特異値分解を用いて解析される、請求項21記載の方法。
【請求項23】
以下の段階を含む、生物系反応ネットワークを改善する方法:
(a)生物系の数学的表現を提供する段階;
(b)生物系の観察された挙動と、類似した条件下における該生物系の該数学的表現のコンピューター内での挙動との間の差を測定する段階;
(c)該生物系の該数学的表現の構造を改変する段階;
(d)該生物系の該観察された挙動と、類似した条件下における該生物系の該改変された数学的表現のコンピューター内での挙動との間の差を測定する段階、および
(e)挙動の差が最小化されるまで段階(d)および(e)を繰り返す段階であって、予定の正確さ基準の満足が該生物系反応ネットワークにおける向上を示している、段階。
【請求項24】
以下の段階をさらに含む、請求項23記載の方法:
(f)異なる条件下において生物系の挙動を測定する段階、および
(g)該異なる条件下において請求項23記載の段階(b)から(e)までを繰り返す段階。
【請求項25】
最小化される挙動の差が尽きるまで段階(f)および(g)を繰り返す段階をさらに含み、該向上した生物系反応ネットワークが最適な生物系反応ネットワークを表している、請求項24記載の方法。
【請求項26】
向上した生物系反応ネットワークが新しい制御ネットワークを同定する、請求項23または24記載の方法。
【請求項27】
向上した生物系反応ネットワークが制御状態を同定する、請求項23または24記載の方法。
【請求項28】
生物系の数学的表現が制御ネットワークを含む、請求項23記載の方法。
【請求項29】
以下の段階を含む、生物系データセットを調和させる方法:
(a)複数の階層的反応カテゴリーを含む遺産データから再構築された第一反応ネットワークを提供する段階;
(b)経験的データから得られた第二反応ネットワークを提供する段階、および
(c)該第一反応ネットワークにおける該階層的反応カテゴリーと該第二反応ネットワークにおける要素との間の整合性測度を測定する段階であって、該階層的反応カテゴリーについての高程度の該整合性測度が該第一反応ネットワークまたはそのサブコンポーネントの妥当性を示している、段階。
【請求項30】
経験的データが一次データを含む、請求項29記載の方法。
【請求項31】
経験的データが核酸発現データを含む、請求項29記載の方法。
【請求項32】
遺産データが二次データを含む、請求項29記載の方法。
【請求項33】
遺産データが公開された報告書およびデータベースから得られるデータをさらに含む、請求項29記載の方法。
【請求項34】
階層的反応カテゴリーが反応または制御事象を含む、請求項29記載の方法。
【請求項35】
階層的制御事象がペアワイズ制御相互作用、標的-制御単位およびレギュロンを含む、請求項34記載の方法。
【請求項36】
反応ネットワークの妥当なサブコンポーネントを同定する段階をさらに含む、請求項29記載の方法。
【請求項37】
反応ネットワークが、代謝反応ネットワーク、制御反応ネットワーク、転写反応ネットワークおよびゲノム尺度反応ネットワークから選択されるネットワーク、またはそれらの任意の組み合わせを含む、請求項29記載の方法。
【請求項38】
反応ネットワークが数学的または統計学的表現をさらに含む、請求項29記載の方法。
【請求項39】
以下の段階を含む、細胞全体の機能への遺伝子多型の効果を測定する方法:
(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークを作成する段階;
(b)該反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階、および
(c)正常な生物系を表す反応ネットワークと比較して該ストレスを加えられた生理学的状態における該適用された生化学的または生理学的条件に対する感受性を測定する段階であって、該感受性が該遺伝子多型媒介性病態の表現型の結果を示している、段階。
【請求項40】
生化学的または生理学的条件が、流束負荷、pH、反応物および生成物における変化から選択される、請求項39記載の方法。
【請求項41】
生化学または生理学的条件が酸化負荷またはエネルギー負荷を含む、請求項39記載の方法。
【請求項42】
以下の段階を含む、遺伝子多型媒介性病態を診断する方法:
(a)遺伝子多型媒介性病態をもつ生物系を表す反応ネットワークの生理学的状態にストレスを加える生化学的または生理学的条件を適用する段階であって、該適用された生化学的または生理学的条件が該遺伝子多型媒介性病態と相関している、段階、および
(b)該反応ネットワーク内の該病態の1つもしくは複数の生化学的または生理学的指標を測定する段階であって、ストレスを加えられていない生理学的状態と比較して該ストレスを加えられた状態での該1つもしくは複数の生化学的または生理学的指標における変化が、該病態に対応する遺伝子多型の存在を示している、段階。
【請求項43】
生化学的または生理学的条件が、流束負荷、pH、反応物および生成物における変化から選択される、請求項42記載の方法。
【請求項44】
生化学的または生理学的条件が、酸化負荷またはエネルギー負荷を含む、請求項42記載の方法。
【図1】
【図2A】
【図2B】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図2A】
【図2B】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【公開番号】特開2010−225171(P2010−225171A)
【公開日】平成22年10月7日(2010.10.7)
【国際特許分類】
【出願番号】特願2010−122236(P2010−122236)
【出願日】平成22年5月28日(2010.5.28)
【分割の表示】特願2004−545187(P2004−545187)の分割
【原出願日】平成15年2月14日(2003.2.14)
【出願人】(592130699)ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア (364)
【氏名又は名称原語表記】The Regents of The University of California
【公開日】平成22年10月7日(2010.10.7)
【国際特許分類】
【出願日】平成22年5月28日(2010.5.28)
【分割の表示】特願2004−545187(P2004−545187)の分割
【原出願日】平成15年2月14日(2003.2.14)
【出願人】(592130699)ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア (364)
【氏名又は名称原語表記】The Regents of The University of California
[ Back to top ]