説明

N結合型グリカン構造を表すためのシステム及び方法

哺乳動物細胞培養物に由来する分泌性糖タンパク質中に一般に見出されるN結合型グリカン構造を表すための固定長英数コード。このコードは、予め割り当てられた英数の指標を使用することによって、異なる分枝でコアグリカン構造に結合した単糖を表す。本分岐−中心表示は、構造の可視化を可能にし、コードの数字的性質は、これを機械可読にする。差分演算子を定義することによって、さらなる分析のためにグリカン構造同士間を定量的に区別することができる。このコードは、検索可能な形式で情報管理システムに組み込むことができる。固定長の英数コードを使用して、オリゴ糖の少なくとも一部の構造を表すための方法も提供される。

【発明の詳細な説明】
【関連出願の相互参照】
【0001】
[0001]本特許出願は、その全体が参照により本明細書に組み込まれている、2007年6月15日に出願された、米国特許仮出願第60/929,163号明細書に基づき、この明細書からの優先権を主張する。
【発明の背景】
【0002】
1.発明の分野
[0002]本発明は、コンピュータによって容易に記憶し、解釈することができる、グリカン構造を記述するためのシステムに関する。
【0003】
2.関連技術
[0003]グリカンは、細胞中のいくつかの構造的機能及び調節機能において極めて重要な役割を果たすオリゴ糖の複雑な鎖である。グリカンは、DNA及びタンパク質の後の最も重要なクラスの分子の1つと考えられているが、その研究を支え、進めるための情報科学的方法の開発は、他の種類のデータに利用可能なものより遅れている。グリカン構造及びその相互作用を分析するためのグリカンのデータベース及びアルゴリズムなどの情報科学資源の有用性が、ようやく近年になって増大してきた(Perez S、Mulloy B(2005)「Prospects for glycoinformatics」、Curr Opin Struct Biol 15:517〜524(「Perezら」)。そのような格差は、DNA及びタンパク質のより単純な直線構造と比較して、炭水化物の構造的複雑性に主に起因する。ヌクレオチド及びアミノ酸残基は、それぞれ4個及び20個の文字(letter)で表すことができるが、グリカン配列は、より大きな数の塩基残基から構成され、結合及び枝分れについての追加の情報を含む(von der Lieth CW(2004)「An endorsement to create open databases for analytical data of complex carbohydrates」、J Carbohydr Chem 23:277〜297(「von der Lieth I」);Laine RA(1994)「A calculation of all possible oligosaccharide isomers both branched and linear yields 1.05×10(12)structures for a reducing hexasaccharide:the Isomer Barrier to development of single−method saccharide sequencing or synthesis systems」、Glycobiology 6:759〜767)。その結果、いくつかの研究プロジェクトは、他の研究者が自由に利用可能であり、種々の用途で相互運用可能にするグリカンデータを表す、適当なデジタル形式の欠如に悩まされている(von der Lieth CW、Bohne−Lang A、Lohmann KK、Frank M(2004)「Bioinformatics for glycomics:status,methods,requirements and perspectives」、Brief Bioinform 5:164〜178)。したがって、科学者によって容易に理解され、コンピュータによっても判読可能な、グリカン構造の表示のための、単純、柔軟で多用途のデータ形式を開発することが必要である(Brazma A、Krestyaninova M、Sarkans U(2006)「Standards for systems biology」、Nat Rev Genet 7:593〜605)。
【0004】
[0004]現在、グリカン構造を記述するのに利用可能な数種の命名法が存在し、そのいくつかは図1a〜1dに例示されている。IUPAC−IUBMB(国際純正・応用化学連合及び国際生化学・分子生物学連合)では、グリカン構造を完全に記述するための拡張並びに省略されたテキスト形式が提供されている(McNaught AD(1997)「Nomenclature of carbohydrates」(recommendations 1996). Adv Carbohydr Chem Biochem 52:43〜177)。省略された3文字コードは、個々の単糖単位を表し、それぞれの単位は、アノマーの記述子、並びに立体化学及び連結情報を伴う。しかし、IUPAC記述は不明瞭であり、コンピュータで判読可能な形式ですべてのグリカンを包括的に記述するのに十分ではない。この制約を克服するために、LINUCS(LInear Notation for Unique description of Carbohydrate Sequence;炭水化物配列のユニークな記述のための線形表記法)が、グリコシド結合情報とともにIUPAC記述を拡張することによって、グリカンの線形表示を作り出すために開発された(Bohne−Lang A、Lang E、Forster T、von der Lieth CW(2001)「LINUCS:linear notation for unique description of carbohydrate sequences」、Carbohydr Res 336:1〜11)。別の利用可能な形式は、Glycomindsのリニアコード(Linear Code)(商標)であり、これは、枝分れの順序を求めるために特別な参照表を活用する(Banin E、Neuberger Y、Altshuler Y、Halevi A、Inbar O、Nir D、Dukler A(2002)「A novel linear code nomenclature for complex carbohydrates」、Trends Glycosci Glycotechnol 14:127〜137)。単糖単位及び連結は、この表示では1〜2文字によって表される。最近、データ記述言語として評判が高まりつつあるXMLは、GLYDEなどのXMLに基づくグリカン構造の表示の提案につながった(Sahoo SS、Thomas C、Sheth A、Henson C、York WS(2005)「GLYDE−an expressive XML standard for the representation of glycan structure」、Carbohydr Res 340:2802〜2807)、及びCabosML(Kikuchi N、Kameyama A、Nakaya S、Ito H、Sato T、Shikanai T、Takahashi Y、Narimatsu H(2005)「The carbohydrate sequence markup language(CabosML):an XML description of carbohydrate structures」、Bioinformatics 21:1717〜1718)。グリカン構造を記述するのに利用可能な追加の形式も存在し、これは他で概説されている(Perezら;von der Leith I;Toukach P、Joshi HJ、Ranzinger R、Knirel Y、von der Lieth CW(2007)「Sharing of worldwide distributed carbohydrate−related digital resources:online connection of the bacterial carbohydrate structure database and GLYCOSCIENCES.de」、Nucleic Acids Res 35:D280〜286)。
【0005】
[0005]哺乳動物細胞株は、組換えタンパク質を作製するのに理想的であり、これは、グリコシル化などの翻訳後修飾を必要とする。グリコシル化は、様々な生物学的特性、例えば折り畳み、安定性及び効力などに対する効果を有するので、分泌性タンパク質の質は、結合したグリカン構造の一貫性に依存する。したがって、タンパク質グリコシル化の多様性を制御する取組みにおいて複雑なグリコシル化反応経路を研究することは、非常に活発な領域の研究である。
【0006】
[0006]本発明は、これら及び他の課題を解決することに関する。
【発明の概要】
【0007】
[0007]したがって、本発明の主な目的は、コンピュータによって容易に記憶し、解釈することができる、グリカン構造を記述するためのコンパクトな表記法を提供することである。
【0008】
[0008]本発明の別の目的は、これらの複雑な経路を研究するためのコンピュータ支援分析手段の開発を促進することができる、グリカン構造の簡素化された英数(alpha−numerical)表示を提供することである。
【0009】
[0009]本発明のさらに別の目的は、テキストベースの表示と差し替えることができる、グリカン構造の簡素化された英数表示を提供することである。
【0010】
[00010]本発明のさらに別の目的は、オリゴ糖の少なくとも一部の構造を表すための方法を提供することである。
【0011】
[00011]本発明のこれら及び他の目的は、チャイニーズハムスター卵巣(CHO)細胞などの操作された哺乳動物細胞株由来の分泌性糖タンパク質中に一般に観察されるN結合型グリカン構造を記述するための、以下で「GlycoDigitコード」と呼ぶ英数コードによって実現される。
【0012】
[00012]本発明の一態様では、6字(character)の英数コードを使用することによって、コア構造の異なる分岐に結合した単糖鎖に基づいてグリカン構造を記述する。本発明の別の態様では、GlycoDigitコードにおける構造は、14字の全固定長に対して7つのディジット(digit)−文字対によって表される。英数コードの数字成分により、それぞれ構造についてのユニークな英数コードに基づいてグリカンを簡便に比較するための差分演算子及びアルゴリズムの開発が可能になる。
【0013】
[00013]本発明の他の目的、特徴、及び利点は、添付の図面を含めた本明細書を読むことによって当業者に明らかとなるであろう。
【0014】
[00014]本発明は、添付の図面を参照して、好適な実施形態の以下の詳細な説明を読むことによってより良好に理解され、図面中、同じ参照数字は、全体にわたって同じ要素を指す。
【図面の簡単な説明】
【0015】
【図1a】絵を用いて構造を表すためにオックスフォード糖鎖生物学研究所(UK)によって提案された命名法から採用された記号を使用した、N結合型グリカン構造の記号表示を示す図である。
【図1b】図1aのN結合型グリカン構造のフルワード表示を示す図である。
【図1c】LINUCS形式を使用した、図1aのN結合型グリカン構造の表示を示す図である。
【図1d】リニアコード(商標)を使用した、図1aのN結合型グリカン構造の表示を示す図である。
【図2】糖の追加の分岐が結合することができる可能な部位とともに、共通の五糖コア構造を共有するすべてのN結合型グリカンに共通の五糖コア構造を表す図である。
【図3】図2のコア構造からの可能な枝分れ、及び本発明のGlycoDigitコードの第1の実施形態による6字の英数コードについてそれぞれのディジットのアンテナリーへの対応位置を示す図である。
【図4a】複合N結合型グリカンを絵で表した表示、及び本発明によるGlycoDigitコードの第1の実施形態を使用した、その対応表示を示す図である。
【図4b】高マンノースN結合型グリカンを絵で表した表示、及び本発明によるGlycoDigitコードの第1の実施形態を使用した、その対応表示を示す図である。
【図4c】ハイブリッドN結合型グリカンを絵で表した表示、及び本発明によるGlycoDigitコードの第1の実施形態を使用した、その対応表示を示す図である。
【図5a】複合N結合型グリカンを絵で表した表示、及び本発明によるGlycoDigitコードの第2の実施形態を使用した、その対応表示を示す図である。
【図5b】高マンノースN結合型グリカンを絵で表した表示、及び本発明によるGlycoDigitコードの第2の実施形態を使用した、その対応表示を示す図である。
【図5c】ハイブリッドN結合型グリカンを絵で表した表示、及び本発明によるGlycoDigitコードの第2の実施形態を使用した、その対応表示を示す図である。
【図6a】本発明によるGlycoDigitコードの第2の実施形態を使用した、図6aに表した複合型構造について、対応するGlycoDigitコードの段階的表示を例示する図である。
【図6b】本発明によるGlycoDigitコードの第2の実施形態を使用した、図6aに表した複合型構造について、対応するGlycoDigitコードの段階的表示を例示する図である。
【図6c】本発明によるGlycoDigitコードの第2の実施形態を使用した、図6aに表した複合型構造について、対応するGlycoDigitコードの段階的表示を例示する図である。
【図6d】本発明によるGlycoDigitコードの第2の実施形態を使用した、図6aに表した複合型構造について、対応するGlycoDigitコードの段階的表示を例示する図である。
【図6e】本発明によるGlycoDigitコードの第2の実施形態を使用した、図6aに表した複合型構造について、対応するGlycoDigitコードの段階的表示を例示する図である。
【図6f】本発明によるGlycoDigitコードの第2の実施形態を使用した、図6aに表した複合型構造について、対応するGlycoDigitコードの段階的表示を例示する図である。
【図7】本発明の第1の実施形態による、2つのグリカンの対応するGlycoDigitコードを使用して、この2つのグリカンの間の構造的な差異を見出すために差分演算子を使用することを例示する図である。
【図8】本発明の第2の実施形態による複合グリカン構造とハイブリッドN結合型グリカン構造の対応するGlycoDigitコードを使用して、これらのグリカン構造の間の構造的な差異を見出すために差分演算子を使用することを例示する図である。
【図9】本発明によるGlycoDigitコードの第1の実施形態を使用した、1つの構造を別の構造に変換するのに必要な2つのグリカン及び反応ステップを示す図である。
【図10】グリカン反応の隣接行列にデータを入れるのに使用される、isrxn及びrxm行列関数についての擬似コードを示す図である。
【図11a】階層的な様式で配列された、64の2分岐グリカンの縮小したデータセットについてのグリカン及び反応リンクのネットワークの可視化の図である。
【図11b】図11a中で11bと示された範囲の拡大図である。
【図12a】階層的な様式で配列された、CHO細胞中で一般に分泌される1024種の複合型グリカンについての全体のグリコシル化ネットワークの可視化の図である。
【図12b】図12a中で12bと示された範囲の拡大図である。
【図12c】図12b中で12cと示された範囲の拡大図である。
【図13】図1a、2、3、4a〜4c、5a〜5f、6a〜6f、7、8、及び9において使用される記号についての凡例である。
【好適な実施形態の詳細な説明】
【0016】
[00038]図面に例示された本発明の好適な実施形態を説明することにおいて、特定の専門用語が明確さの目的で使用される。しかし、本発明は、そのように選択された特定の専門用語に限定されることは意図されておらず、それぞれの特定の要素は、同様の目的を果たすのに同様の様式で機能するすべての技術的な均等物を含むことが理解されるべきである。
【0017】
[00039]方法
[00040]本発明の一態様は、オリゴ糖の少なくとも一部の構造を表すための方法である。表示は、コンピュータで容易に記憶され、分析されるものであることが好ましい。以下に説明される本発明の方法は、本明細書に記載される特定の「GlycoDigit」コードを作成するのに適用することができるが、オリゴ糖の構造の異なる表示を作成するのにも適用することができることが理解されるであろう。
【0018】
[00041]本発明の方法の第1の部分では、表示システムを作成し、以下のステップを含む。
[00042](a)基本オリゴ糖構造を選択するステップと;
[00043](b)ステップ(a)で選択された基本構造上のいくつかの可能な置換ポイント(substitution point)を識別し、位置をそれぞれのポイントに割り当てるステップと;
[00044](c)ステップ(b)からの置換ポイントに2字コードを割り当てるステップであり、「字」は任意のユニークな識別子を意味し、2字コードは、1番目の字及び2番目の字を有する、割り当てるステップと;
[00045](d)1番目の字及び2番目の字が一緒に、ステップ(b)で識別された特定の置換ポイント上の残基を一意的に識別するように、2字コードの1番目の字に対して1つ又は複数のユニークな識別子、及び2字の2番目の字に対して1つ又は複数のユニークな識別子を割り当てるステップと;
[00046](e)ステップ(b)で識別されたそれぞれの置換ポイントが、その置換ポイントについての可能な残基を識別する1組の2字コードを有するように、それぞれの置換ポイントについてステップ(d)を繰り返すステップ。
【0019】
[00047]ステップ(a)では、基本オリゴ糖構造が選択される。この基本構造は、対象とする非常に多数のオリゴ糖構造中に存在するものであることが好ましい。基本構造が「より大きい」ほど(即ち、対象とするオリゴ糖中の共通の構造的特徴の数がより大きいほど)表示システムの複雑さは小さくてすむ。
【0020】
[00048]ステップ(b)では、基本構造上のそれぞれの可能な置換ポイントが識別される。一般に、それぞれの可能な置換ポイントに、1〜xの数字が割り当てられ、これは、最終の構造的表現における位置に対応することになる。置換ポイントの数が大きいほど、この方法は、より複雑な構造を表すことができる。ステップ(c)では、2字コードが選択され、「字」は、任意のユニークな識別子を意味する。一般に、1つの字(character)は数字であり、1つは文字(letter)であるが、両方とも数字又は文字とすることができる。非ローマアルファベット、例えば、ロシア語、ギリシャ語、ヘブライ語なども使用することができる。
【0021】
[00049]ステップ(d)では、ステップ(c)で選択された字の意味が割り当てられる。この例は、GlycoDigitコードに関して以下に詳細に論じるが、任意のシステムを使用することができる。それぞれの2字分類についての意味の組合せは、それぞれの予め選択された置換ポイントに存在する残基を具体的に定義するのに使用される。識別子は、対象とするすべてのものが網羅される限り、特定の置換ポイントのあらゆる1個の可能な残基を識別できる必要はないことに注意することは重要である。ステップ(e)では、ステップ(b)で識別されたそれぞれの置換ポイントについて、ステップ(d)が繰り返される。
【0022】
[00050]請求項に記載の方法の第2の部分では、上記で開発したシステムを特定のオリゴ糖に適用することを含む。
【0023】
[00051](f)ステップ(a)で選択された基本オリゴ糖構造、及び場合によりその基本構造上の1つ又は複数の残基を含むオリゴ糖構造の構造を再検討するするステップと;
[00052](g)2字コードを、ステップ(f)のオリゴ糖構造上の残基に割り当てることによって、ステップ(d)及び(e)で開発した2字コードを一致させ、これらをステップ(b)で割り当てた位置に記録するステップ。
【0024】
[00053]以下に詳細に説明されるGlycoDigitコードは、この方法を使用して適用することができることが、当業者に明らかとなるであろう。
【0025】
[00054]N結合型グリカン構造
[00055]N結合型グリコシル化は、図2に表した共通の五糖コア構造を共有するN結合型グリカンを有するすべての真核細胞において起こる。いくつかの単糖鎖は、様々なグリコシルトランスフェラーゼ酵素の作用によって、異なる連結位置でこのコア構造に結合することができる。N結合型グリカン構造は、高マンノース、複合、又はハイブリッドの亜型であることができる。高マンノースN結合型グリカンは、コア構造に連結したマンノース(Man)残基のみを含む一方、複合N結合型グリカンは、コアに結合したN−アセチルグルコサミン(GlcNAc)残基を有する。ハイブリッド亜型は、GlcNAc及び非置換マンノース残基の両方を有する分岐を含む。(Varki Aら(編)(1999)Essentials of glycobiology.New York(USA):Cold Spring Harbor Laboratory Press(「Varkiら」)。
【0026】
[00056]図4a〜4cに示した本発明の第1の実施形態では、6字の英数コードが使用されることによって、図2に示されたコア構造の異なる分岐に結合した単糖鎖に基づいてグリカン構造が記述される。最初の4つの字は、上部及び下部のコアマンノース残基に連結した4つの可能なアンテナリーに対応する一方、5番目及び6番目の字は、それぞれバイセクティング(bisecting)GlcNAc及びフコース基を表す。図3は、コア構造からの可能な枝分れ、またアンテナリーについてのそれぞれの字の対応位置を示す。
【0027】
[00057]分岐が複合型である場合、最初の4つの分岐は奇数で表される一方、高マンノース分岐は文字で表される。GlcNAc、ガラクトース又はノイラミン酸残基として終止する複合分岐は、それぞれ数字3、5又は7で表される。ハイブリッド及び高マンノースN結合型グリカンのマンノース残基は、文字A〜Fで表され、それぞれの文字は、偶数、即ち、A=2、B=4、C=6などとして指定される。それぞれの分岐について、文字値は、その分岐に結合したマンノース残基の数の2倍に相当し、即ち、A=2は、1個のマンノース残基が結合していることを意味し、B=4は、2個のマンノース残基が結合していることを意味するなどである。5番目及び6番目の字は、それぞれ、バイセクティングGlcNAc及びフコース残基が存在する場合、3の値を有する。分岐が存在しない場合、その対応するディジットは1である。構造に結合することができ、複合分岐と高マンノース分岐の組合せが可能であるマンノース残基の数を限定するさらなる法則が定義される。これらの定義から、GlycoDigitコードは、5100グリカンの構造を記述するのに使用することができる。
【0028】
[00058]グリコシルトランスフェラーゼは、グリカン構造に1回に1個の単糖を順次付加する酵素である。6種のGlcNAcトランスフェラーゼ(GlcNAcT I〜VI)は、異なる連結で3個のコアマンノースにGlcNAcを付加することができる。図2に示すように、α1−3連結コアマンノース上で、GlcNAcT I及びIVはそれぞれβ1−2及びβ1−4連結で残基を付加する。同様に、α1−6マンノース上で、GlcNAcT II、V及びVIは、β1−2、β1−6及びβ1−4連結残基を結合する。さらに、1つのバイセクティングGlcNAcは、β1−4連結を介して中央のコアマンノースに結合することができる(Campbell C、Stanley P(1984)「A dominant mutation to ricin resistance in Chinese hamster ovary cells induces UDP−GlcNAc:glycopeptide beta−4−N−acetylglucosaminyltransferase III activity」、J Biol Chem 259:13370〜13378;Sburlati AR、Umana P、Prati EG、Bailey JE(1998)「Synthesis of bisected glycoforms of recombinant IFN−beta by over−expression of beta−1,4−N−acetylglucosaminyltransferase III in Chinese hamster ovary cells」、Biotechnol Prog 14:189〜192(「Sburlati ら」);Umana P、Jean−Mairet J、Moudry R、Amstutz H、Bailey JE(1999)「Engineered glycoforms of an antineuroblastoma IgG1 with optimized antibody−dependent cellular cytotoxic activity」、Nat Biotechnol 17:176〜180(「Umanaら」))。最後に、フコース残基は、タンパク質上でアスパラギンアミノ酸に接続するコアGlcNAcにα1−6連結で結合することができる(Varkiら)。
【0029】
[00059]これらの7つの可能な連結部位に基づくと、図5a〜5cに示される本発明の第2の実施形態では、GlycoDigitコードは、7つのディジット−文字対を使用することによってグリカン構造を表す。GlycoDigitコードの第2の実施形態におけるそれぞれのディジット−文字対は、図2に例示されたコア構造から接続される分岐に対応する。最初の6つのディジット−文字対は、上部及び下部のコアマンノース残基に連結された6つの可能な分岐に対応する。マンノース同士間のバイセクティングGlcNAcは、6番目のディジット−文字対で表され、最後の7番目の位置は、フコース分子に対応し、これはコア又は周辺部のGlcNAc残基に結合することができる。それぞれの対のディジット部分は、その分岐に結合された単糖の数に相当する一方、文字は、付加される連結の型及び特定の糖分子についての追加の情報を含む表に対する指標として機能を果たす。
【0030】
[00060]表1は、GlycoDigitコードの第2の実施形態において、それぞれのディジット−文字対がどの連結に対応するかを列挙するものである。高マンノース構造及びハイブリッド構造は、最初の4つのディジット−文字対を使用して表すことによって、図2に示したようなコア構造中の2つのマンノース残基のそれぞれに結合した、α1−2、α1−3、及びα1−6連結マンノース鎖に対応することができる。複合分岐と高マンノース分岐を区別するために、マンノース残基の数は、数字の代わりに文字で表される。したがって、1つのGlcNAc分子を含む分岐は、「1a」で表される一方、1つのマンノース残基を含む分岐は、「Aa」で表される。より後出の文字は、分岐中のマンノースのより高い数字、即ち、B=2、C=3、D=4などに対応する。特定の分岐連結にグリカンがまったく結合していない場合、これは、「0x」と表される。文字「u」は、未知の連結で結合している単糖を表すために確保されている。バイセクティングGlcNAcを表す6番目のディジット−文字対について、結合した分子が存在するかしないかによって、2つの可能な値、即ち、「0x」又は「1a」だけが存在する。最後のディジット−文字対は、コア構造に結合したフコース残基、又は分岐GlcNAc分子に結合した任意の周辺部フコースの数をカウントするのに使用される。構造に付加することができるグリカンの型についてのさらなる詳細は、以下に説明する。
【0031】
【表1】

【0032】
[00061]GlcNAc、ガラクトース及びポリラクトサミン鎖
[00062]GlcNAc残基がコア構造に付加された後、いくつかの他の単糖はそれに順次結合することができる。ガラクトース(Gal)残基は、β1−4連結を介してGlcNAcに結合され、次いでこの分岐は、表2に列挙されるように「2a」と表される。このGalβ1−4GlcNAc構造はラクトサミン単位と呼ばれ、追加のラクトサミン単位は、β1−3連結を介して最初の構造に結合することによって、ポリラクトサミン鎖を形成することができる。GlycoDigitコードの第2の実施形態では、最大4つのラクトサミン単位が1つの分岐中に存在することが可能である。最初のGlcNAc及びガラクトース部分は個々に付加することができるが、さらなる付加は、これらは1つのラクトサミン単位として一緒に付加されなければならないという点において制限される。この事実は表2に反映されており、ラクトサミン単位のみを含む分岐についてのディジットの値は、偶数に割り当てられている。したがって、2つのラクトサミン単位を含む分岐は、「4a」で表され、3つの単位は「6a」で表されるなどである。ガラクトースは、β1−3連結を介してGlcNAc結合することによって、ネオラクトサミン単位を形成することもできる(Varkiら)。GlycoDigitコードでは、ネオラクトサミン単位を繰り返すことは可能ではなく、最初の単位は、表2に列挙されるように「2b」で表される。最外側のガラクトースは、それに結合したフコース又はシアル酸などの最終単糖を有することができる。
【0033】
【表2】

【0034】
[00063]末端残基
[00064]分岐中の最外側のガラクトース残基は、いくつかの末端単糖によってキャップすることができる。GlycoDigitコードの第2の実施形態において、ガラクトース単位の存在を意味するのに偶数が使用されているので、異なる末端の糖を表すのに奇数(3、5、7及び9)が使用される。表3にいくつかの異なる連結位置で最外側のガラクトースに付加することができる単糖を列挙する。
【0035】
【表3】

【0036】
[00065]シアル酸は、最外側のガラクトースに付加される最も一般的な型のグリカンであり、α2−3又はα2−6連結で結合されることが多い。シアル酸ファミリーは非常に様々であるが、N−アセチルノイラミン酸(NeuNAc)及びN−グリコリルノイラミン酸(NeuGc)は、最も一般的に観察されるシアル酸である。マウスは、ほとんど専らNeuGcを含む糖タンパク質を産生するが、CHO細胞は、大部分のNeuNAcと少量のNeuGcの混合物である(Baker KN、Rendall MH、Hills AE、Hoare M、Freedman RB、James DC(2001)「Metabolic control of recombinant protein N−glycan processing in NS0 and CHO cells」、Biotechnol Bioeng 73:188〜202)。NeuGcはヒトにはなく、これを含む糖タンパク質は、ヒトに対して実際に免疫原性である(Irie A、Koyama S、Kozutsumi Y、Kawasaki T、Suzuki A(1998)「The molecular basis for the absence of N−glycolylneuraminic acid in humans」、J Biol Chem 273:15866〜15871)。表3では、様々な連結でのNeuNAc及びNeuGcを表すのに、文字「a」〜「f」が割り当てられている。α2−3シアル酸に結合するα2−8連結シアル酸は、GlycoDigitコードの第2の実施形態では現在表されていない。
【0037】
[00066]最外側のガラクトースに結合することができる他の末端残基は、フコース(文字「g」で表される)及び追加のα1−3連結ガラクトース(文字「h」で表される)である。α1−2連結で末端ガラクトースに結合したフコース単位は、ルイスY及びルイスB抗原などのいくつかの血液型抗原において見出される(Varkiら)。マウス細胞中のα1−3ガラクトシル−トランスフェラーゼ酵素は、追加の末端ガラクトース残基を、β1−4連結ガラクトースに結合する(Butler M(2006)「Optimisation of the cellular metabolism of glycosylation for recombinant proteins produced by mammalian cell systems」、Cytotechnology 50:57〜76)。このGalα1−3Galβ1−4GlcNAc構造は、ヒトにおいて高度に免疫原性である(Jenkins N、Parekh RB、James DC(1996)「Getting the glycosylation right:implications for the biotechnology industry」、Nat Biotechnol 14:975〜981)。
【0038】
[00067]フコシル化
[00068]GlycoDigitコードの第2の実施形態における最後のディジット−文字対は、コアGlcNAc上、及びコア構造に結合した分岐中の最外側のGlcNAc残基上のフコシル化を表すのに使用される。フコースは、α1−6連結を介してコアGlcNAc残基に結合されるが、周辺部のフコシル化は、α1−3又はα1−4連結を介して起こり得る(Ma B、Simala−Grant JL、Taylor DE(2006)「Fucosylation in prokaryotes and eukaryotes」、Glycobiology 16:158R〜184R)。このディジット−文字対は、GlcNAcに結合したフコース分子のみをカウントし、最外側のガラクトースに結合したフコースは含まず、これは末端残基を表す場合に網羅されることに注意することは重要である。最後のディジット−文字対のディジット部分は、構造中でGlcNAcに結合したフコース分子の数をカウントする一方、文字は、どの分岐がフコシル化され、どの連結を介しているかを表すのに使用される。コードを可能な限り簡潔に維持するために、可能なフコシル化部位のすべての組合せが、GlycoDigitコードの第2の実施形態において表されているわけではない。分岐中の最外側のGlcNAc残基のみが、フコシル化されることが可能である。さらに、2つ以上の分岐がフコシル化される場合、すべてのフコース残基は、同じ型の連結を介して結合されなければならない。したがって、α1−3連結を介して外側の分岐上に結合した2つのフコース残基を含む構造を有することは可能であるが、α1−3連結を介して結合した一方のフコースと、α1−4連結を介した他方のフコースを有することは可能ではない。表4に、GlycoDigitコードの第2の実施形態によって表すことができる、フコシル化のすべての組合せを列挙する。
【0039】
【表4−1】


【表4−2】

【0040】
[00069]結果
[00070]GlycoDigitコードを用いたN結合型グリカンの表示
[00071]GlycoDigitコードは、複合型、高マンノース型及びハイブリッド型のN結合型グリカンを表すのに使用することができる。図4a〜4cは、異なる亜型の3つの異なるN結合型グリカン構造、及びGlycoDigitコードの第1の実施形態を使用したその対応する表示を表し、図5a〜5cは、3つの異なるグリカン構造、及びGlycoDigitコードの第2の実施形態でのその対応する表示を表す。図4a〜4c及び5a〜5cのすべてにおいて、丸で囲まれた数字は分岐位置を表し、丸で囲まれていない数字は、それぞれの分岐の末端の単糖を定義し、下線を引かれた英数コードは、それぞれの構造についてのGlycoDigitコード表示である。図4a〜4cにおいて陰影をつけた部分は、すべてのN結合型グリカンに共通のコア構造である。
【0041】
[00072]図4aは、コードに関して以下のディジットを有する複合型N結合型グリカンである。
[00073]1番目のディジット=7:分岐はNeuNAc(N−アセチルノイラミン酸)で終止する。
[00074]2番目のディジット=3:分岐はGlcNAc(N−アセチルグルコサミン)で終止する。
[00075]3番目のディジット=5:分岐はガラクトースで終止する。
[00076]4番目のディジット=1:分岐が存在しない。
[00077]5番目のディジット=1:この分岐にバイセクティングGlcNAcは結合されていない。
[00078]6番目のディジット=3:この構造にフコースが結合されている。
【0042】
[00079]したがって、図4a中の構造についての最終のコードは(7 3 5 1 1 3)である。それぞれの分岐において結合した単糖の詳細な連結情報は、表I中のディジットの値を調べることによって推定することができる。高マンノース型グリカン構造についてのコードを図4bに示す。それぞれのディジットの値は、それぞれの分岐に結合したマンノース残基の数に基づく。この形式により、以下に説明する、哺乳動物の分泌性糖タンパク質の場合のように、構造中に最大9つのマンノース残基を結合することが可能になることに注意することが重要である。図4b中の構造は、この最大の許容できる量のマンノースを含む。ハイブリッドグリカン構造及びその対応するコードを図4cに示す。方法に記載されるように、テトラアンテナリーN結合型グリカン中の分岐1と2、及び分岐3と4は、それぞれ同じ型、即ち、両方ともマンノース、又は両方とも複合型でなければならない。例えば、マンノース残基を含む分岐1と、GlcNAc残基を含む分岐2を有することは可能ではない。
【0043】
[00080]本明細書に記載される法則は、すべての種についてのN結合型グリカン構造を網羅することは意図されていない。いくつかの脊椎動物の構造は、5つの分岐を有し、3番目の分岐は、上部のコアマンノースに結合されていることが観察された(Varkiら)。CHO細胞では、同様の分岐は、グリコシル化経路の中間段階としてのみ存在することが観察された(Butler M.2006.「Optimisation of the cellular metabolism of glycosylation for recombinant proteins produced by mammalian cell systems」、Cytotechnology、50:57〜76)。さらに、可能な連結に対するいくつかの他の変形が他の種において観察された(Schachter H、Brockhausen I、Hull E.1989.「High−performance liquid chromatography assays for N−acetylglucosaminyltransferases involved in N− and O−glycan synthesis」、Methods Enzymol.、179:351〜397)。それにもかかわらず、GlycoDigitコードは、組換えタンパク質の製造において一般に使用される、ほとんどの哺乳動物種に十分に適用可能である。
【0044】
[00081]GlycoDigitコードの第1の実施形態は、すべての可能なグリカン構造を作成するための単純な手段を提供する。分岐1〜4について、分岐構造を記述するのに使用することができる10の可能な英数字(1、3、5、7、A、B、C、D、E及びF)がある一方、5番目及び6番目の分岐について2つの可能な数字がある(1、3)。したがって、10×10×10×10×2×2=40,000の異なる構造を、GlycoDigitコードの6つのディジット−文字対の実施形態で作成し、表示することができる。しかし、これらの構造のすべてが有効であるわけではない。無効な構造は、以下に説明される法則によって選別して除くことができ、したがって、GlycoDigitコードの6字の英数の実施形態で理論的に有効なグリカン構造とみなすことができる、4860種のN結合型グリカン構造を得る。もちろん、この法則をさらに洗練させて、適切な哺乳動物細胞株に関係するグリカン集団を生じさせることが可能である。
【0045】
[00082]表5は、GlycoDigitコードの第1の(6字の英数の)実施形態におけるそれぞれのディジットについての定義を要約し、完全な分岐構造及びアノマー連結情報も示す。空のセルは、そのディジットの位置について値が可能でないことを示す。
【0046】
【表4】

【0047】
[00083]3つの追加の法則が定義されることによって、GlycoDigitコードの6字の英数の実施形態により、CHO細胞由来の分泌性タンパク質のN結合型グリカン構造が記述される。
【0048】
[00084]法則1:分泌性哺乳動物細胞中の高マンノース及びハイブリッド亜型について、コア構造に結合されるマンノース残基の最大可能数は6であり、構造中のマンノース残基の総数を9に等しくする(トリマンノシルコア中の3つの残基をカウントして)(Varkiら)。
【0049】
[00085]法則2:GlycoDigitコードの6字の英数の実施形態では、1つの分岐中で、最大でも6のマンノースのみが可能になる。
【0050】
[00086]法則3:ハイブリッド構造について、分岐1と2、及び分岐3と4は、それぞれ同じ型、即ち、両方ともマンノース、又は両方とも複合型でなければならない。
【0051】
[00087]図5a中の複合型グリカン構造は、α1−3連結マンノースに接続された分岐上に結合したルイスY型エピトープを有するトリアンテナリー構造である。7つのディジット−文字対の実施形態では、この構造についてのGlycoDigitコードは[0x 3g 1a 3a 0x 0x 2c]である。図5b中のManGlcNAc構造は、高マンノース構造であり、これは、小胞体及びゴルジ体における、すべてのさらなるグリコシル化反応についての開始点である。マンノース残基は、数字の代わりに文字で表されるので、この構造に対応するコードは、[Ba 0x Ba Ba 0x 0x 0x]である。2つの高マンノース分岐及び2つの複合分岐を有するハイブリッド構造を図5cに示す。分岐GlcNAcに結合されたフコース残基を有する1番目の複合分岐中に、シアリルルイスX構造が存在する一方、ジラクトサミン鎖は、2番目の分岐中に示されている。図に示すように、この構造は、GlycoDigitコードによって、[3a 4a Aa Ba 0x 1a 2a]と表される。
【0052】
[00088]図6a〜6fは、図5a中に表された複合型構造についての、対応するGlycoDigitコード(7つのディジット−文字の実施形態)の段階的な表示を例示する。それぞれのディジット−文字対は、以下のようにコード化することができる。
[00089]1番目のディジット−文字対から開始して、この場合、対応する分岐は空であり、したがって表示は「0x」である。
[00090]α1−3コアマンノースに結合した2番目の分岐を見ると、これは3つの残基を有し、末端のフコースで終わる。その表示は、表3に列挙されたように「3g」である。
[00091]3番目のディジット−文字の位置における分岐は、1つのGlcNAc残基を有し、「1a」と表される。
[00092]4番目の分岐は、α2−3連結シアル酸で終わる3つの残基を有する。この分岐についてのコードは「3a」である。
[00093]5番目と6番目の分岐は空であり、したがって両方とも「0x」で表される。
[00094]最後のディジット−文字の位置についての値は「2c」であるが、これは、コアフコースに加えて、α1−3連結で2番目の分岐中のGlcNAcに結合したフコース残基も存在するためである(表4を参照されたい)。その分岐中のガラクトースに結合したフコースは、2番目の分岐についてのコードにおいて表されており、ここではカウントされない。
【0053】
[00095]したがって、全体の構造についてのコードは、[0x 3g 1a 3a 0x 0x 2c]となる。
【0054】
[00096]GlycoDigitコードは、すべての種に見出されるすべての可能なグリカン構造の包括的な適用範囲を提供することを目的としていないことに注意すべきである。代わりにGlycoDigitコードは、CHO細胞などの哺乳動物細胞株中の分泌性糖タンパク質に見出される構造に主に注目しているが、依然として拡張可能なままである。この理由のために、7つのディジット−文字対が選択されることによって、結合したフコース分子を記述する能力とともに、GlcNAc残基について、コア構造上の6つの連結部位が表される。現在、GlycoDigitコードは、中にマンノース、GlcNAc、ガラクトース、フコース及びシアル酸残基を有する構造を表すことができる。これは、NeuNAcとNeuGcを区別することができ、末端のガラクトース及びフコースを表すことができる。CHO細胞中で自然に発現されないいくつかの構造が、操作されたCHO細胞株中で作製された。これらには、バイセクティングGlcNAc(Sburlatiら;Umanaら)、繰り返しラクトサミン鎖(Sasaki H、Bothner B、Dell A、Fukuda M(1987)「Carbohydrate structure of erythropoietin expressed in Chinese hamster ovary cells by a human erythropoietin cDNA」J Biol Chem 262:12059〜12076)、及びルイス血液型構造(Thomas LJ、Panneerselvam K、Beattie DT、Picard MD、Xu B、Rittershaus CW、Marsh Jr HC、Hammond RA、Qian J、Stevenson T、Zopf D、Bayer RJ(2004)「Production of a complement inhibitor possessing sialyl Lewis X moieties by in vitro glycosylation technology」、Glycobiology 14:883〜893;Barrabes S、Pages−Pons L、Radcliffe CM、Tabares G、Fort E、Royle L、Harvey DJ、Moenner M、Dwek RA、Rudd PM、De Llorens R、Peracaula R(2007)「Glycosylation of serum ribonuclease 1 indicates a major endothelial origin and reveals an increase in core fucosylation in pancreatic cancer」、Glycobiology 17:388〜400)が含まれる。
【0055】
[00097]第2の実施形態に関して、他の場合を網羅するために追加の分岐が必要な場合、より多くのディジット−文字対をコードに加えることによってこれらを表すことができる。さらに、追加の連結情報を表すための指標に基づく文字は、さらなる連結及び残基の型の選択肢の容易な付加を可能にする。逆に、7つ未満の分岐が存在し、又は連結情報が必要でない場合、コードは単純化することができる。GlycoDigitコードにおいて、コードは数字成分を保持し、これは、いくつかのコンピュータ用途の基盤として機能を果たすことができるという事実が主に強調される。
【0056】
[00098]GlycoDigitコードの用途
[00099]グリカン構造の比較
[000100]BLAST(Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ(1990)「Basic local alignment search tool」、J Mol Biol 215:403〜410)(「Altschulら」)の開発は、生物学者が問ってきた基本的な疑問、即ち、ヌクレオチドとタンパク質の異なる配列の間の類似性をどのように測定するかを解決した。しかし、そのようなアルゴリズムは、そのツリー状構造のためにグリカンの比較に直接適用可能ではなかった。最近、グリカンを比較するためのいくつかの技法(Aoki KF、Yamaguchi A、Ueda N、Akutsu T、Mamitsuka H、Goto S、Kanehisa M(2004)「KCaM(KEGG Carbohydrate Matcher):a software tool for analyzing the structures of carbohydrate sugar chains」、Nucleic Acids Res 32:W267〜272(「Aokiら」);Aoki KF、Mamitsuka H、Akutsu T、Kanehisa M(2005)「A score matrix to reveal the hidden links in glycans」、Bioinformatics 21:1457〜1463)が開発されたが、この研究領域は依然としてその黎明期にある。GlycoDigitコードの6つ及び7つのディジット−文字対の実施形態の両方において、本発明者らは、差分演算子を定義し、これにより、異なるグリカン構造の容易な比較が可能になる。
【0057】
[000101]図7は、複合及びハイブリッドN結合型グリカン構造、並びにGlycoDigitコードの6字の英数の実施形態についてのその対応するGlycoDigitコードを表す。その構造の間に2つの差異があり、第1の構造は、分岐6に結合したフコース残基を欠いている一方、第2の構造は、分岐3に結合したガラクトース残基を有していない。この構造の間の差異は、(0 0 2 0 0 −2)として得られる。得られたコードは有効なグリカン構造ではないが、2つの入力構造の間の差異についての情報を提供する。ゼロ値は、両方の構造上の分岐が正確に同じであることを示す一方、ゼロでない値は、分岐が異なることを意味する。偶数は、比較されている両方の分岐が同じ型、即ち、両方とも複合、又は両方とも高マンノースであること意味する。奇数は、複合分岐が高マンノース分岐と比較されていることを意味する。上記例からの結果は、3番目及び6番目の分岐において、2つの構造の間に差異があることを立証する。
【0058】
[000102]参照表(表6)を定義することによって、差分演算子からの結果を使用して、構造同士間の特定の残基及び連結の差異を見出す。比較されているそれぞれ分岐について、2つの入力構造からのより大きいディジットが、すべての可能な得られる差異に対して指標が付けられる。複合型構造のみを考慮すると、例えば、値7を有する分岐(NeuNAc)は、値7(NeuNAc)、5(Gal)、3(GlcNAc)、及び1に対してのみ比較することができ、得られる差異は、0、±2、±4、及び±6となり得るだけであることを意味する(表6中の差異のカラムを参照されたい)。ゼロ値は変化のないことを意味し、参照表中に記録されない。これらの可能な差異のそれぞれについて、表は、第1の構造から第2の構造を得るために変更されなければならない連結を列挙する。正の差異については、連結は除かれなければならず、負の値については、連結は付加される。表6は、1つの分岐同士間の複合N結合型グリカンの比較についての参照表である。図7中で得られた結果のコードを使用して、2つの構造の間の正確な差異を見出すことができる。3番目の分岐についてのそれぞれの構造におけるディジットを考慮すると、2つのディジットの大きい方は5であり、その差異値は2であることが分かる。参照表中の対応する強調されたセルは、β1→4連結を介して結合したGlcNAc残基が、第2の構造において除かれていることを示す。同様に、6番目の分岐については、フコース残基がα1→6連結を介して付加されていることを示すことができる。
【0059】
【表5】

【0060】
[000103]参照表6は、構造同士間の個々の分岐の間の差異に必要な反応ステップの数についての情報も含む。それぞれの分岐についての反応ステップに必要な数は、2つの分岐間の差異の絶対値を2で除することによって得ることができる。上記例については、第1の構造を第2の構造に変換するために、2つの反応ステップ、即ち、GlcNAc残基の除去、及びフコースの付加が起こらなければならない。
【0061】
[000104]完全な参照表は、両方の入力が高マンノース型である場合の分岐を比較するときに起こる変化についての情報も含む。例えば、ディジットB(4の値)及びD(8の値)を有する、高マンノース構造の2つの分岐を比較することにおいて、差異は4であり、第1の構造に2つのマンノース残基を付加することとして記述することができる。ハイブリッドグリカン構造における複合分岐と高マンノース分岐の間の比較は、より複雑である。高マンノース構造を複合構造に変換するために、任意の他の単糖を結合することができる前に、すべてのマンノース残基が除かれなければならない。ディジットC及び7で表される分岐を比較することは、合計6つの反応ステップで、3つのマンノース残基が除かれなければならず、GlcNAc、ガラクトース及びNeuNAcが、付加されなければならなかったことを意味する。
【0062】
[000105]図8は、複合及びハイブリッドN結合型グリカン構造、並びに7つの文字−ディジット対の実施形態についてのその対応するGlycoDigitコードを表す。これらの構造の間に3つの差異があり、第1の差異は、コアGlcNAcに結合したフコース残基の欠落であり、第2の差異は下部の分岐中のガラクトース残基の欠落であり、最後に、4番目の分岐は、2つの構造において異なる型である。図8に示すように、これらの構造の間の差異は、[0 1 0 5 0 0 −1]として得られる。差分演算子は、コード中のディジットの値を比較するだけであり、文字の値を無視する。したがって、得られるコードは、2つの構造の間の差異についての情報を提供する。ゼロ値は、両方の構造上の分岐が正確に同じであることを示し、ゼロでない値は、分岐が異なることを意味する。高マンノース分岐が、複合分岐に対して比較されるとき、特別な場合が生じる。この状況では、分岐同士間の差異は、その分岐についての2つのディジットの値の合計として定義される。上記例からの結果は、2番目、4番目、及び7番目の分岐位置において、2つの構造の間に差異があることを立証する。
【0063】
[000106]差分演算子からの結果のコードを使用することによって、7つのディジット−文字対の実施形態について、1つの構造を別の構造に変換するのに必要な反応ステップの数を計算することができる。差異コード中のディジットの絶対値を加算することにより、第1の構造を第2の構造に変換するのに必要な反応の数が明らかになる。差異コードから、ステップの数を7(0+1+0+5+0+0+1)であると計算することができる。2つの複合分岐が比較されている場合、その分岐についての差異のディジットが正である場合、これは、変換の一部としてグリカンが付加されなければならないことを意味する一方、負の差異はグリカンが除かれなければならないことを意味する。ハイブリッドグリカン構造における複合分岐と高マンノース分岐の間の比較は、より複雑である。高マンノース分岐を複合分岐に変換するためには、任意の他の単糖を結合することができる前に、すべてのマンノース残基が最初に除かれなければならない。2つの構造においてそれぞれディジットB及び3で表される4番目の分岐を比較することは、合計5つの反応ステップについて、2つのマンノース残基が除かれなければならず、GlcNAc、ガラクトース及びNeuNAcが付加されなければならないことを意味する。表1〜3は、それぞれのディジットについてどの単糖が付加され、どの連結においてであるかを見出すのに使用することができる。この情報は、1つの構造から別の構造に変換する場合に、どの連結が除かれるかを見出すために逆に使用することができる。
【0064】
[000107]2つのN結合型グリカン構造の間の距離測定
[000108]式(1)は、GlycoDigitコードの6字の英数の実施形態について、反応距離に関して2つの有効なグリカン構造を比較するためのアルゴリズムを表す。
【数1】

【0065】
[000109]このアルゴリズムを使用して、2つの構造の間の類似スコアは単純に計算することができ、以下に説明するように、1つの構造を別の構造に変換するのに必要な反応ステップの数の判定を可能にする。このスコアはただ単純な近似であり、いずれの明らかな生物学的な有意性も有さないことに注意すべきである。
【0066】
[000110]図9は、2つのグリカン、及び1つの構造から別の構造に変換するのに必要な反応ステップを示す。これらの構造は、コード(7 1 1 1 1 1)及び(1 1 1 7 1 1)で表され、類似性スコアは84.2%である。
【0067】
[000111]最初の4つの分岐について、6つのマンノース残基を有する分岐を、末端のNeuNAc残基を有する分岐に変換するのに必要な反応の最大数は、9反応である。したがって、可能な反応の最大数は、(9×4)と、分岐5のバイセクティングGlcNAc及び分岐6のフコースのためのそれぞれ1つの反応、即ち、38の可能な反応である。そのときスコアは、以下のように定義することができる。
【数2】

【0068】
[000112]例として、図7中の最初と最後の2つの構造を使用すると、2つの構造の間の反応ステップに関する差異は2である。したがって、2つの構造の間の類似は、以下のように計算することができる。
【数3】

【0069】
[000113]図9の最初の構造を最後の構造に変換するのに、6つの反応ステップが必要である。したがって、図9の最初と最後の構造の間の類似は、式(1)を使用して84.2%と計算することができる。しかし、これらの構造は単に中間体であり、最後の構造は常に有効である。図9中の最初の構造と最後の変換された構造は互いに異性体であり、生物学的に区別不能な場合があり、実際は84.2%の類似性スコアで表されないことに注意されたい。より生物学的に関連したスコアリングシステムを確立するためにさらなる研究が必要である。以下に説明するように、現行のアルゴリズムを実行し、直観的な結果を提供するために、ウェブに基づくグラフィカルインターフェースが開発された。
【0070】
[000114]グリコシル化ネットワークの構築
[000115]グリコシル化反応ネットワークを、グリカン構造を表すノード、及び可能な酵素反応を示す端部を有するグラフとして考案することができる。1つのグリカン構造は、複数の反応に対する基質として作用することができ、いくつかの反応の最終生成物となることもでき、したがって高度に分岐したネットワークを作り出す。グリカンネットワークの別の特徴的な機能は、任意の中間構造を最終生成物とみなし、天然の系において見られる多種多様の構造に導く方法である。そのようなネットワークの可視化は、グリコシル化経路の理解を改善し、インシリコ実験のための基盤して機能を果たすことができる。
【0071】
[000116]記憶及び処理を容易にするために、対称隣接行列を作成することによって反応対を記憶した。5100×5100行列を作成し、それぞれの(i,j)値に、グリカンiがグリカンjと反応するかどうかを記録した。ゼロ値は、これらの2つのグリカンの間に反応がないことを意味する一方、1の値は、反応リンクがあることを意味する。第1の実施形態に関連して上述した差分演算子を、隣接行列にデータを入れる1対の関数を作成するのに使用した。これらの関数はMATLABで実行したとともに、その対応する擬似コード版を図10中に示す。関数isrxnは、入力として2つのグリカン構造をとり、一方の構造を他方の構造に変換するのに必要な唯一の反応がある場合、1を返す。グリカン構造の全リストがrxn_行列関数に通され、これは、隣接行列を作成し、2つのグリカンの間で反応があるごとに1をこれに代入する。
【0072】
[000117]グリコシル化ネットワークを可視化するために、グリカンを基本のコア構造から配置し、構造が完全にシアル化されるまで糖残基を付加した。グリカンを、コア構造からそれぞれのグリカンを分離した反応ステップの数に基づく群に分類した。複合型グリカンの場合について、GlycoDigitコードの第1の実施形態では、コア構造は、111111として表される一方、終点は、コード777733で表される、完全にシアル化された構造である。可視化アルゴリズムでは、それぞれの群中の個々のグリカン構造が描かれ、次いで反応リンクを有するこれらの構造間に線が引かれる。
【0073】
[000118]グリカン構造の2つのデータセットを作成することによって、可視化アルゴリズムを試験した。第1のセットは、19372の反応対を用いてGlycoDigitによって生成された、完全な5100の理論的グリカンであった。64の構造及び160の反応のみを含むはるかに小さいデータセットも作成し、これは、最初の4つの分岐のうちの2つのみが存在する複合型グリカンのみを含んでいた。両方の場合において、得られたネットワークは、高度に分岐されたツリー構造を示し、これは最初に分岐し、次いで集束した。ネットワークの開始時では、糖を結合するための多くの可能な部位があり、これは分岐する性質に導くが、これらが埋まるにつれて、可能な選択数が減少し、ネットワークは、最終の数個の構造に集束する。第1のネットワークは、15レベルの深さのツリー構造を示す一方、より小さいセットは、9の深さを有していた。両方の場合について、それぞれレベルにおけるグリカン及び反応の数を表7に要約する。図11a及び11bは、第2のデータセットについてのネットワーク分布を示す。
【0074】
【表6】

【0075】
[000119]グリカン構造への単糖単位の付加及び除去に関与する酵素のリストはKEGGから得た(Kanehisa M.、Goto S.、Hattori M.、Aoki−Kinoshita K.F.、Itoh M.、Kawashima S.、Katayama T.、Araki M.、及びHirakawa M.「From genomics to chemical genomics:new developments in KEGG」、Nucleic Acids Res.、34:D354〜357、2006)。GlycoDigitコードの第1の実施形態から、すべての3つの亜型の5100の理論的グリカンを得、グリカン構造の対について、19372の反応対を作成し、これは酵素反応と一緒にリンクさせた。
【0076】
[000120]GlycoDigitコードの第2の実施形態の数字指標を使用して、図12a〜12cに示すように、それぞれグリカン構造及び反応ステップに対応するノード及び端部を有するグラフとして表すことができる、N結合型グリコシル化ネットワークを構築した。
【0077】
[000121]GlycoDigitコードの第2の実施形態を使用して、本発明者らは、[0x 0x 0x 0x 0x 0x 0x]として表されるコア構造から開始して、CHO細胞中で一般に分泌されるすべての可能な複合型グリカン構造を列挙した。この列挙は、GlycoDigitコード中のそれぞれのディジットを1だけ増加させることによって単純に実施し、これは、糖残基、例えばGlcNAc、ガラクトース、フコース及びシアル酸などは、関連したグリコシルトランスフェラーゼによる酵素処理によってコア構造に順次結合されることを示す。このプロセスは、グリカンが、コード[3a 3a 3a 3a 0x 1a 1a]で表される、コアのフコシル化を伴った、テトラアンテナリーの完全にシアル化された構造になるまで継続し、こうして1024の複合型グリカン、及びそれぞれ2つの引き続くグリカンを連結する4096の反応ステップを作成した。
【0078】
[000122]構築したネットワークを可視化するために、得られたグラフを階層的な様式に整えた。最初に、結合した糖の数に基づいて、すべてのグリカンを異なる階層的な層に分類した。第1の層として、コア構造[0x 0x 0x 0x 0x 0x 0x]から開始し、その後、完全にシアル化されたグリカン構造[3a 3a 3a 3a 0x 1a 1a]を含む最後の層まで、コア構造のそれぞれに1つの糖を付加したグリカンからなる第2の層などとした。すべてのグリカンをその対応する層中に配置したら、グリカンの対を連結する関連した反応の端部を、ネットワークのグラフ内で可視化する。図12a〜12cは得られるネットワークを例示し、これは高度に分岐した構造であり、この中で個々のグリカン構造は、ネットワーク中でノードとして表される一方、端部は2つのグリカンの間の酵素反応ステップを表す。現行のネットワークは、CHO細胞中のグリコシル化経路の近似であるが、これは、酵素的な必要条件及び制限(Hossler P、Goh LT、Lee MM、Hu WS(2006)「GlycoVis:visualizing glycan distribution in the protein N−glycosylation pathway in mammalian cells」、Biotechnol Bioeng 95:946〜960(Hosslerら I)が、ネットワーク構築中に完全に考慮されなかったためであることに注意すべきである。
【0079】
[000123]多くの生物学的な経路は複雑であることが多く、その構造を可視化することは、これを研究することにおいて最も有用なステップの1つである。本明細書に記載されるネットワークは、グリカン構造を連結するための可能な経路を識別し、又は以前に知られているものより短い経路を見出すために使用することができる。現行のモデルでは、1つの構造から別の構造を得るのに、多くの場合、いくつかの可能な経路が存在するが、これらの経路は、常に生物学的に妥当であるとは限らない場合がある。どの種がモデルになっているかに応じて、グリカンが実際に反応して他のグリカンを形成することができる追加の法則を組み込むことによって、ネットワークをより現実的にすることができる。アルゴリズムのモジュール性により、利用者が反応対の独自のモデルを定義し、これを可視化することが可能になる。
【0080】
[000124]代謝フラックス分析は、視覚的インターフェースの存在から大いに利益を得る一用途である。追加の情報をデータモデルに加えることによって、経路のインシリコリエンジニアリングを可能にすることができる。可視化システムにより、この種類の分析用のモデルを構築するための良好な基盤が提供される。これは、対話型ユーザインターフェースを用いて実行することによって、実験データを組み込み、ウェブブラウザベースのサービスを提供することができる。
【0081】
[000125]考察
[000126]グライコームインフォマティクスの研究は、他の「オミクス」領域で行われてきた進展に、徐々に追いつきつつある。本明細書で説明したように、本発明によるGlycoDigitコードは、ほとんどの哺乳動物細胞中に一般に見出されるN結合型グリカンの、予め定義された枝分れ構造に基づく。グリカンのための他の標準的なテキスト表示と比較して、GlycoDigitコードは、個々の単糖単位を記述する以前の方法の代わりに分岐に注目しているので、はるかに短く、より直観的である。例えば、図2中に様々な形式で例示されたグリカン構造は、その構造を表すために、GlycoDigitコードの7つのディジットの実施形態によって、[0x 2a 1a 3a 0x 0x 1a]として単純にコード化される。より短い表示は、他のより長く、テキストベースの基準と異なって、手作業で入力するのが容易であり、誤植又は書式設定エラーをしにくい。
【0082】
[000127]GlycoDigitコードは、すべての可能なグリカン構造の包括的な適用範囲を提供することはできないかもしれないが、これは順応性があり、利用者の必要条件によってカスタマイズすることができる。例えば、構造中に許容される分岐の数は、ディジット−文字対の数を調節することによって増減させることができる一方、より多くの選択を文字指標に加えることによって様々な連結情報を表すことができる。GlycoDigitコードは相互運用可能でもあり、これを、実験室の糖情報管理システム中に検索可能な形式で組み込み、それによって生物医学的及び生物工学的用途のための有用な資源を提供することを可能にする(Hashimoto K、Goto S、Kawano S、Aoki−Kinoshita KF、Ueda N、Hamajima M、Kawasaki T、Kanehisa M(2006)「KEGG as a glycome informatics resource」、Glycobiology 16:63R〜70R;Lutteke T、Bohne−Lang A、Loss A、Goetz T、Frank M、von der Lieth CW(2006)「GLYCOSCIENCES.de:an Internet portal to support glycomics and glycobiology research」、Glycobiology 16:71R〜81R;Raman R、Venkataraman M、Ramakrishnan S、Lang W、Raguram S、Sasisekharan R(2006)「Advancing glycomics:implementation strategies at the consortium for functional glycomics」、Glycobiology 16:82R〜90R)。したがって、関連したグリカン構造は、容易に記憶、アクセス、検索し、その絵で表した形式に迅速に変換することができる。
【0083】
[000128]グリコシル化の多様性を制御するためのグリコシル化経路についての研究は、GlycoDigitコードから利益を得ることができる別の領域である。グリカン構造のテキストベースの表示の代わりに、簡素化された数字表示は、そのような複雑なネットワークを研究するためのコンピュータ支援分析手段の開発をさらに進めることができる(Hosslerら I)。本明細書に記載したGlycoDigitコードの形式は、グリカン相互作用のネットワークを構築及び可視化することに容易に適用することができる。この適用性は、テキストベースの表示によって容易に提供することはできない。さらに、図8a〜8cに例示したように、反応ステップに関してグリカン同士の間の差異を記述し、可能なグリカン構造の網羅的なリストを有することは、グリコシル化経路の数学的モデルを開発するための基盤を提供することになる(Hossler P、Mulukutla BC、Hu WS(2007)「Systems analysis of N−glycan processing in mammalian cells」、PLoS ONE 2(8):e713;Krambeck FJ、Betenbaugh MJ(2005)「A mathematical model of N−linked glycosylation」、Biotechnol Bioeng 92:711〜728;Umana P、Bailey JE(1997)「A mathematical model of N−linked glycoform biosynthesis」、Biotechnol Bioeng 55:890〜908)。
【0084】
[000129]GlycoDigitコードの脈絡において、グリカン構造の間の類似性の生物学的に意味のある尺度を定義するために、さらなる研究が必要である。タンパク質構造と同様に、グリカン構造の類似性は、同様に機能の類似性を意味することが予期される(Altschulら;Aokiら;Bertozzi CR、Kiessling LL(2001)「Carbohydrates and glycobiology review:chemical glycobiology」、Science 291:2357〜2364)。本発明によるGlycoDigitコードは、より多様な範囲のN結合型グリカン構造の表示を可能にするために拡張可能でもある。
【0085】
[000130]上記教示を踏まえると、当業者によって理解されるように、本発明の上述した実施形態の改変及び変形が可能である。したがって、添付の特許請求の範囲及びその均等物の範囲内で、本発明を、具体的に記載した以外の方法で実践することができることが理解されるべきである。

【特許請求の範囲】
【請求項1】
固定長の英数コードを含む、オリゴ糖の少なくとも一部を表すためのシステムであって、前記コードは、前記オリゴ糖に結合した残基の数及び位置を表すシステム。
【請求項2】
検索可能な形式で前記コードを組み込んでいる情報管理システムをさらに含む、請求項1に記載のシステム。
【請求項3】
前記オリゴ糖がN結合型グリカン構造である、請求項1に記載のシステム。
【請求項4】
前記N結合型グリカン構造が、複合型、高マンノース型及びハイブリッド型のうちの1つである、請求項3に記載のシステム。
【請求項5】
前記残基が、マンノース、N−アセチルグルコサミン、ガラクトース、フコース及びシアル酸残基からなる群から選択される、請求項1に記載のシステム。
【請求項6】
前記コードの数字部分が、N結合型グリカンのコア構造の分岐に結合した単糖の数を表す、請求項1に記載のシステム。
【請求項7】
英字部分が、N結合型グリカンのコア構造の分岐に結合した、連結の型及び特定の糖分子を表す、請求項1に記載のシステム。
【請求項8】
前記コードが、N結合型グリカンのコア構造上の6つの連結部位をそれぞれ表す6つの英数を含む、請求項1に記載のシステム
【請求項9】
前記分岐が複合型であり、高マンノース分岐が文字で表される場合、前記N結合型グリカンのコア構造の最初の4つの分岐は奇数で表される、請求項8に記載のシステム。
【請求項10】
GlcNAc、ガラクトース又はノイラミン酸残基として終止する複合分岐が、それぞれ数字3、5又は7で表され、
ハイブリッドN結合型グリカン及び高マンノースN結合型グリカンのマンノース残基が文字A〜Fで表され、それぞれの文字A、B、C、D、E、及びFが、それぞれ偶数2、4、6、8、10、及び12と指定されており、
それぞれ分岐について、前記文字値が、その分岐に結合したマンノース残基の数の2倍に対応し、
それぞれバイセクティングGlcNAc及びフコース残基が存在する場合、5番目及び6番目の字が、3の値を有するディジットであり、
分岐が存在しない場合、その対応する数は1である、
請求項9に記載のシステム。
【請求項11】
前記コードが7つの英数対を含む、請求項1に記載のシステム。
【請求項12】
1番目〜5番目の英数対はそれぞれ、N結合型グリカンのコア構造上の5つの連結部位を表し、6番目の英数対はマンノース同士間のバイセクティングGlcNAcを表し、7番目の位置は、コア又は周辺部のGlcNAc残基に結合することができるフコース分子に対応する、請求項11に記載のシステム。
【請求項13】
それぞれの英数対のディジット部分は、前記英数対で表される分岐に結合した単糖の数に対応し、
それぞれの英数対の文字部分は、付加される連結の型及び特定の糖分子についての追加の情報を含む表に対する指標として機能を果たす、請求項12に記載のシステム。
【請求項14】
前記7番目の英数対が、オリゴヌクレオチドに結合したN−アセチルグルコサミン残基上のフコシル化を表す、請求項11に記載のシステム。
【請求項15】
前記オリゴ糖がN−グリカン構造であり、哺乳動物細胞培養物に由来する分泌性糖タンパク質である、請求項1に記載のシステム。
【請求項16】
グリカン構造同士間を定性的に区別するために定義された差分演算子をさらに含む、請求項1に記載のシステム。
【請求項17】
オリゴ糖の少なくとも一部の構造を表すための方法であって、
(a)基本オリゴ糖構造を選択するステップと、
(b)ステップ(a)で選択された基本構造上のいくつかの可能な置換ポイントを識別し、位置をそれぞれのポイントに割り当てるステップと、
(c)ステップ(b)からの置換ポイントに2字コードを割り当てるステップであり、「字」は任意のユニークな識別子を意味し、前記2字コードは、1番目の字及び2番目の字を有する、前記割り当てるステップと、
(d)前記1番目の字及び前記2番目の字が一緒に、ステップ(b)で識別された特定の置換ポイント上の残基を一意的に識別するように、前記2字コードの前記1番目の字に対して1つ又は複数のユニークな識別子、及び前記2字の前記2番目の字に対して1つ又は複数のユニークな識別子を割り当てるステップと、
(e)ステップ(b)で識別されたそれぞれの置換ポイントが、その置換ポイントについての可能な残基を識別する1組の2字コードを有するように、それぞれの置換ポイントについてステップ(d)を繰り返すステップと、
(f)ステップ(a)で選択された基本オリゴ糖構造、及び場合によりその基本構造上の1つ又は複数の残基を含むオリゴ糖構造の構造を再検討するするステップと
(g)前記2字コードを、ステップ(f)のオリゴ糖構造上の残基に割り当てることによって、ステップ(d)及び(e)で得られた2字コードを一致させ、これらをステップ(b)で割り当てた位置に記録するステップと
を含む方法。
【請求項18】
ステップ(a)の前記基本オリゴ糖構造がN結合型グリカン構造である、請求項17に記載の方法。
【請求項19】
前記N結合型グリカン構造が、複合型、高マンノース型及びハイブリッド型のうちの1つである、請求項18に記載の方法。
【請求項20】
ステップ(d)における前記1番目及び2番目の字によって一意的に識別される前記残基が、マンノース、N−アセチルグルコサミン、ガラクトース、フコース及びシアル酸残基からなる群から選択される、請求項17に記載の方法。
【請求項21】
ステップ(c)の前記1番目の字が数字である、請求項18に記載の方法。
【請求項22】
前記数字が、N結合型グリカンのコア構造の置換ポイントに結合した単糖の数を表す、請求項21に記載の方法。
【請求項23】
ステップ(c)の前記2番目の字が文字である、請求項21に記載の方法。
【請求項24】
前記文字が、N結合型グリカンのコア構造の置換ポイントに結合した、連結の型及び特定の糖分子を表す、請求項23に記載の方法。
【請求項25】
ステップ(b)において6つの置換ポイントが選択される、請求項19に記載の方法。
【請求項26】
前記分岐が複合型である場合、前記N結合型グリカンのコア構造の最初の4つの置換ポイントは奇数で表され、高マンノース分岐は文字で表される、請求項25に記載の方法。
【請求項27】
ステップ(b)において7つの置換ポイントが選択される、請求項19に記載の方法。
【請求項28】
1番目〜5番目の置換ポイントの英数対は、N結合型グリカンのコア構造上の5つの連結部位を表し、6番目の置換ポイントはマンノース同士間のバイセクティングGlcNAcを表し、7番目の置換ポイントは、コア又は周辺部のGlcNAc残基に結合することができるフコース分子に対応する、請求項27に記載のシステム。
【請求項29】
ステップ(c)の前記1番目の字が数字である、請求項28に記載の方法。
【請求項30】
ステップ(c)の前記2番目の字が文字である、請求項29に記載の方法。
【請求項31】
前記1番目の字の数字が、前記2字コードで表される置換ポイントの分岐で結合した単糖の数に対応し、
前記2番目の字の文字が、付加される連結の型及び特定の糖分子についての追加の情報を含む表に対する指標として機能を果たす、請求項30に記載の方法。
【請求項32】
前記オリゴ糖がN−グリカン構造であり、哺乳動物細胞培養物に由来する分泌性糖タンパク質である、請求項18に記載の方法。

【図1a】
image rotate

【図1b】
image rotate

【図1c】
image rotate

【図1d】
image rotate

【図2】
image rotate

【図4a】
image rotate

【図4b】
image rotate

【図4c】
image rotate

【図5a】
image rotate

【図5b】
image rotate

【図5c】
image rotate

【図6a】
image rotate

【図6b】
image rotate

【図6c】
image rotate

【図6d】
image rotate

【図6e】
image rotate

【図6f】
image rotate

【図10】
image rotate

【図11a】
image rotate

【図11b】
image rotate

【図12a】
image rotate

【図12b−12c】
image rotate

【図3】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図13】
image rotate


【公表番号】特表2010−530021(P2010−530021A)
【公表日】平成22年9月2日(2010.9.2)
【国際特許分類】
【出願番号】特願2010−512128(P2010−512128)
【出願日】平成20年6月13日(2008.6.13)
【国際出願番号】PCT/SG2008/000212
【国際公開番号】WO2008/153504
【国際公開日】平成20年12月18日(2008.12.18)
【出願人】(503231882)エージェンシー フォー サイエンス,テクノロジー アンド リサーチ (179)
【Fターム(参考)】