遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法

【課題】測定誤差に対して頑健性を有する適切なクラスタリング結果を得られるようにする。
【解決手段】シフト量算出部１１０は、プロファイル記憶部１９１に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量αを遺伝子の組み合わせ毎に算出する。距離算出部１２０は、シフト量αだけプロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離ｄ_αを遺伝子の組み合わせ毎に算出する。クラスタリング部１３０は、各遺伝子間距離ｄ_αに基づいて各遺伝子に対する任意のクラスタリング処理（例えば、ＵＰＧＭＡ［非加重結合法］）を行い、各遺伝子のクラスタ情報を出力する。クラスタリング部１３０が生成した各遺伝子のクラスタ情報は、類似の特性を有する複数の遺伝子の特定など、各種の遺伝子解析に用いることができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、例えば、遺伝子をクラスタリングするために遺伝子プロファイルを処理する遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法に関するものである。
【背景技術】
【０００２】
遺伝子解析において、類似の特性を有する複数の遺伝子を特定するために、遺伝子の発現量を時系列に示すプロファイルデータ（タイムコースデータともいう。以下、プロファイルという）を遺伝子間で比較し、発現量の変化特性の類似性に基づいて遺伝子のクラスタリングが行われている。
このとき、遺伝子の発現量（絶対量）は測定条件によって変動するため、測定開始時点の発現量を基準として発現量の変化割合を示すように、プロファイルの正規化が行われている。以下、測定環境による発現量の差を「測定誤差」とし、測定開始時点の発現量を基準として発現量の変化割合を求める正規化を「Ｌｏｇ−ｒａｔｉｏ」とする。
【０００３】
例えば、プロファイルは、以下の配列ａに示すように、ｌ〜ｍ番目の各遺伝子について、各時刻Ｔ（Ｔ：ｔ_０〜ｔ_ｎ）の発現量ｘを示す。
【０００４】
【数３】

【０００５】
ここで、ｉ番目の遺伝子の発現量ｘ_ｉとｊ番目の遺伝子の発現量ｘ_ｊとを比較する際、観測開始時点の発現量に対する各時刻の発現量の割合ｘ_ｉ（ｔ_ｋ）／ｘ_ｉ（ｔ_０）、ｘ_ｊ（ｔ_ｋ）／ｘ_ｊ（ｔ_０）を求め（Ｌｏｇ−ｒａｔｉｏによる正規化）、求めた値ｘ_ｉ（ｔ_ｋ）／ｘ_ｉ（ｔ_０）、ｘ_ｊ（ｔ_ｋ）／ｘ_ｊ（ｔ_０）の差の累積値を以下の式ｂに示す距離関数ｄ_ｃｉｊで算出する。
【０００６】
【数４】

【０００７】
そして、各遺伝子の組み合わせについて距離関数ｄ_ｃｉｊにより算出した値を用いてクラスタリングが行われる。
【特許文献１】特表２００１−５０３５４６号公報
【特許文献２】特開平７−６４９４８号公報
【特許文献３】特開平６−１２４９５号公報
【発明の開示】
【発明が解決しようとする課題】
【０００８】
しかし、Ｌｏｇ−ｒａｔｉｏによる正規化は、観測開始時点の発現量に依存するため、観測開始時点と以降の時刻との測定誤差の影響により、プロファイルの比較に適した値が得られず、適切なクラスタリング結果が得られない場合がある。また、観測開始時点の発現量は微量であるため測定誤差の影響は大きい。
【０００９】
本発明は、例えば、測定誤差に対して頑健性を有する適切なクラスタリング結果を得られるようにすることを目的とする。
【課題を解決するための手段】
【００１０】
本発明の遺伝子プロファイル処理装置は、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部と、前記プロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｃｅｓｓｉｎｇＵｎｉｔ）を用いて算出するシフト量算出部と、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にＣＰＵを用いて算出する距離算出部と、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をＣＰＵを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング部とを備えることを特徴とする。
【００１１】
また、本発明の遺伝子プロファイル処理装置において、前記シフト量算出部は前記遺伝子間距離を最小にする前記シフト量を算出することを特徴とする。
【００１２】
また、本発明の遺伝子プロファイル処理装置において、前記プロファイル記憶部は、複数の項目について項目毎に発現量を示すプロファイルを前記発現量のプロファイルとして記憶し、前記シフト量算出部は、一方の遺伝子の各発現量と他方の遺伝子の各発現量に前記シフト量を加算した各比較量との差を項目毎に合計した値を前記遺伝子間距離として前記シフト量を算出することを特徴とする。
【００１３】
また、本発明の遺伝子プロファイル処理装置において、前記シフト量算出部は、以下の式１で表される遺伝子ｉと遺伝子ｊとの前記遺伝子間距離ｄ_αｉｊに対して、以下の式２により遺伝子ｉの各発現量ｘ_ｉ（ｔ_ｋ）に対して遺伝子ｊの各発現量ｘ_ｊ（ｔ_ｋ）に加算する前記シフト量α_ｉｊを算出することを特徴とする。
【００１４】
【数５】

【００１５】
本発明の遺伝子プロファイル処理装置は、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部と、前記プロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵを用いて算出するシフト量算出部と、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化部とを備えることを特徴とする。
【００１６】
本発明の遺伝子プロファイル処理プログラムは、シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵを用いて算出するシフト量算出処理と、距離算出部が、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にＣＰＵを用いて算出する距離算出処理と、クラスタリング部が、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をＣＰＵを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング処理とをコンピュータに実行させることを特徴とする。
【００１７】
また、本発明の遺伝子プロファイル処理プログラムにおいて、前記シフト量算出部は前記遺伝子間距離を最小にする前記シフト量を算出する
ことを特徴とする。
【００１８】
また、本発明の遺伝子プロファイル処理プログラムにおいて、前記プロファイル記憶部は、複数の項目について項目毎に発現量を示すプロファイルを前記発現量のプロファイルとして記憶し、前記シフト量算出部は、一方の遺伝子の各発現量と他方の遺伝子の各発現量に前記シフト量を加算した各比較量との差を項目毎に合計した値を前記遺伝子間距離として前記シフト量を算出することを特徴とする。
【００１９】
また、本発明の遺伝子プロファイル処理プログラムにおいて、前記シフト量算出部は、以下の式１で表される遺伝子ｉと遺伝子ｊとの前記遺伝子間距離ｄ_αｉｊに対して、以下の式２により遺伝子ｉの各発現量ｘ_ｉ（ｔ_ｋ）に対して遺伝子ｊの各発現量ｘ_ｊ（ｔ_ｋ）に加算する前記シフト量α_ｉｊを算出することを特徴とする。
【００２０】
【数６】

【００２１】
本発明の遺伝子プロファイル処理プログラムは、シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵを用いて算出するシフト量算出処理と、正規化部が、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化処理とをコンピュータに実行させることを特徴とする。
【００２２】
本発明の遺伝子プロファイル処理方法は、シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵを用いて算出するシフト量算出処理を行い、距離算出部が、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にＣＰＵを用いて算出する距離算出処理を行い、クラスタリング部が、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をＣＰＵを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング処理を行うことを特徴とする。
【００２３】
本発明の遺伝子プロファイル処理方法は、シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵを用いて算出するシフト量算出処理を行い、正規化部が、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化処理を行うことを特徴とする。
【発明の効果】
【００２４】
本発明によれば、プロファイルの正規化のためのシフト量を算出し、シフトしたプロファイルを比較して遺伝子間距離を算出し、遺伝子間距離に基づいて各遺伝子をクラスタリングすることにより、例えば、測定誤差に対して頑健性を有する適切なクラスタリング結果を得ることができる。そして、適切なクラスタリング結果を用いることにより、類似の特性を有する複数の遺伝子を特定するなど、各種の遺伝子解析を行うことができる。
【発明を実施するための最良の形態】
【００２５】
実施の形態１．
図１は、実施の形態１における遺伝子プロファイル処理装置１００の機能構成図である。
実施の形態１における遺伝子プロファイル処理装置１００の機能構成について、図１に基づいて以下に説明する。
【００２６】
遺伝子プロファイル処理装置１００はシフト量算出部１１０、距離算出部１２０、クラスタリング部１３０およびプロファイル記憶部１９１を備える。
プロファイル記憶部１９１は、複数の遺伝子について、発現量を時系列に示すプロファイル（例えば、前記配列ａ）を記憶機器を用いて記憶する。
シフト量算出部１１０は、プロファイル記憶部１９１に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量αを遺伝子の組み合わせ毎にＣＰＵを用いて算出する。
距離算出部１２０（正規化部）は、シフト量算出部１１０が算出したシフト量αだけプロファイルをシフトさせ、シフトさせたプロファイルに基づいて後述する遺伝子間距離ｄ_αを遺伝子の組み合わせ毎にＣＰＵを用いて算出する。このとき、距離算出部１２０は正規化したプロファイルとしてシフト後のプロファイルを記憶機器（出力機器の一例）に記憶する。
クラスタリング部１３０は、距離算出部１２０が算出した各遺伝子間距離ｄ_αに基づいて各遺伝子に対する任意のクラスタリング処理（例えば、ＵＰＧＭＡ：ＵｎｗｅｉｇｈｔｅｄＰａｉｒＧｒｏｕｐＭｅｔｈｏｄｗｉｔｈＡｒｉｔｈｍｅｔｉｃｍｅａｎ［非加重結合法］）をＣＰＵを用いて行い、各遺伝子のクラスタ情報を記憶機器（出力機器の一例）に記憶する。
【００２７】
クラスタリング部１３０が生成した各遺伝子のクラスタ情報は、類似の特性を有する複数の遺伝子の特定など、各種の遺伝子解析に用いることができる。
【００２８】
図２は、実施の形態１における遺伝子プロファイル処理装置１００のハードウェア資源の一例を示す図である。
図２において、遺伝子プロファイル処理装置１００は、プログラムを実行するＣＰＵ９１１（Ｃｅｎｔｒａｌ・Ｐｒｏｃｅｓｓｉｎｇ・Ｕｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう）を備えている。ＣＰＵ９１１は、バス９１２を介してＲＯＭ９１３、ＲＡＭ９１４、通信ボード９１５、表示装置９０１（例えば、ＣＲＴ（Ｃａｔｈｏｄｅ・Ｒａｙ・Ｔｕｂｅ）ディスプレイや液晶ディスプレイ）、キーボード９０２（Ｋｅｙ・Ｂｏａｒｄ：Ｋ／Ｂ）、マウス９０３、ＦＤＤ９０４（Ｆｌｅｘｉｂｌｅ・Ｄｉｓｋ・Ｄｒｉｖｅ）、ＣＤＤ９０５（コンパクトディスク装置）、プリンタ装置９０６、スキャナ装置９０７、マイク９０８、スピーカー９０９、磁気ディスク装置９２０と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置９２０の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
ＲＡＭ９１４は、揮発性メモリの一例である。ＲＯＭ９１３、ＦＤＤ９０４、ＣＤＤ９０５、磁気ディスク装置９２０の記憶媒体は、不揮発性メモリの一例である。これらは、記憶機器、記憶装置あるいは記憶部の一例である。また、入力データが記憶されている記憶機器は入力機器、入力装置あるいは入力部の一例であり、出力データが記憶される記憶機器は出力機器、出力装置あるいは出力部の一例である。
通信ボード９１５、キーボード９０２、スキャナ装置９０７、ＦＤＤ９０４などは、入力機器、入力装置あるいは入力部の一例である。
また、通信ボード９１５、表示装置９０１、プリンタ装置９０６などは、出力機器、出力装置あるいは出力部の一例である。
【００２９】
通信ボード９１５は、有線または無線により、ＬＡＮ（ローカルエリアネットワーク）、インターネット、ＷＡＮ（ワイドエリアネットワーク）、電話通信回線などのデータ通信網に接続されている。
【００３０】
磁気ディスク装置９２０には、ＯＳ９２１（オペレーティングシステム）、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。プログラム群９２３のプログラムは、ＣＰＵ９１１、ＯＳ９２１、ウィンドウシステム９２２により実行される。
【００３１】
上記プログラム群９２３には、実施の形態において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。
【００３２】
ファイル群９２４には、実施の形態において、「〜部」の機能を実行した際の「〜の判定結果」、「〜の計算結果」、「〜の処理結果」などの結果データ、「〜部」の機能を実行するプログラム間で受け渡しするデータ、その他の情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。正規化前・正規化後のプロファイル、シフト量α、後述する比較量ｌｏｇαｘ、遺伝子間距離ｄ_α、クラスタ情報などはファイル群９２４に含まれるものの一例である。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ９１１によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのＣＰＵの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のＣＰＵの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、実施の形態において説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、ＲＡＭ９１４のメモリ、ＦＤＤ９０４のフレキシブルディスク、ＣＤＤ９０５のコンパクトディスク、磁気ディスク装置９２０の磁気ディスク、その他光ディスク、ミニディスク、ＤＶＤ（Ｄｉｇｉｔａｌ・Ｖｅｒｓａｔｉｌｅ・Ｄｉｓｃ）等の記録媒体に記録される。また、データや信号値は、バス９１２や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
【００３３】
また、実施の形態において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明するものは、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等の記録媒体に記憶される。プログラムはＣＰＵ９１１により読み出され、ＣＰＵ９１１により実行される。すなわち、遺伝子プロファイル処理プログラムは、「〜部」としてコンピュータを機能させるものである。あるいは、「〜部」の手順や方法をコンピュータに実行させるものである。
【００３４】
図３は、実施の形態１における遺伝子プロファイル処理方法を示すフローチャートである。
実施の形態１における遺伝子プロファイル処理方法の処理の流れについて、図３に基づいて以下に説明する。
遺伝子プロファイル処理装置１００の各部は以下に説明する各処理をＣＰＵを用いて実行する。
【００３５】
＜Ｓ１１０：シフト量算出処理＞
シフト量算出部１１０は、プロファイル記憶部１９１に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量αを遺伝子の組み合わせ毎に算出する。
以下に、シフト量算出処理（Ｓ１１０）の詳細について説明する。
【００３６】
まず、シフト量算出部１１０はプロファイル記憶部１９１から各遺伝子のプロファイルを入力する。プロファイルは、予め、任意の方法により遺伝子の発現量を測定した結果として生成され、プロファイル記憶部１９１に記憶されているものとする。
図４は、実施の形態１におけるグラフ化したプロファイルの一例を示す。
プロファイル記憶部１９１に記憶されたプロファイルをグラフ化すると、ｌ番目の遺伝子（以下、遺伝子ｌとする）の発現量ｘ_ｌ（ｔ_ｋ）およびｍ番目の遺伝子（以下、遺伝子ｍとする）の発現量ｘ_ｍ（ｔ_ｋ）は、例えば、図４に示すような折れ線グラフ（波形グラフ）で表される。図４において、横軸は測定開始時からの経過時間ｔ_ｋ（目盛り：１時間単位）を示し、縦軸は発現量ｘの対数値（ｌｏｇｘ）を示している。以下において、プロファイルをグラフ化した各図の見方は図４と同様である。
図４では、実線で示す遺伝子ｌの発現量ｌｏｇｘ_ｌ（ｔ_ｋ）は測定開始から１時間の間に急激に増大し、以後、微増し続けている。また、点線で示す遺伝子ｍの発現量ｌｏｇｘ_ｍ（ｔ_ｋ）は測定開始から３時間経過時にピークとなり、６時間経過時まで減少を続け、以後、微増し続けている。
このように、各遺伝子は特性に応じて異なる発現の仕方を示す。
【００３７】
そして、シフト量算出部１１０は入力した各プロファイルに基づいてプロファイルを正規化するためのシフト量αを算出する。
ここで、プロファイルが示す遺伝子の発現量（絶対量）は測定環境（例えば、蛍光色素による標識誤差）によって変動するため、各遺伝子のプロファイルを単純に比較することはできない。そこで、シフト量算出部１１０は各遺伝子のプロファイルを比較可能に正規化するためにシフト量αを算出する。以下、シフト量αを「正規化係数」ともいう。
【００３８】
図５は、実施の形態１におけるシフト前のプロファイルとシフト量αによるシフト後のプロファイルとを示す。
例えば、図５において、実線で示す遺伝子ｉの発現量ｌｏｇｘ_ｉ（ｔ_ｋ）と点線で示すシフト前の遺伝子ｊの発現量ｌｏｇｘ_ｊ（ｔ_ｋ）とを比較する場合、遺伝子ｊの発現量ｌｏｇｘ_ｊ（ｔ_ｋ）をシフト量ｌｏｇα_ｉｊだけシフトすることにより、遺伝子ｉのプロファイルと遺伝子ｊのプロファイルとの比較が容易になる。一点鎖線がシフト量ｌｏｇα_ｉｊだけシフトしたシフト後の遺伝子ｊの発現量ｌｏｇα_ｉｊｘ_ｊ（ｔ_ｋ）を示す。
シフト量α_ｉｊ（または、ｌｏｇα_ｉｊ）は、図５に示すように、遺伝子ｉのプロファイルに対してシフトする遺伝子ｊのプロファイルのシフト量であり、遺伝子ｊのプロファイルを発現量の増減方向にシフトさせることにより遺伝子ｉと遺伝子ｊとのプロファイルを近似させるシフト量である。但し、シフト量α_ｉｊに基づいて遺伝子ｉのプロファイルをシフトさせても構わない。以下、シフト量α_ｉｊを加算したシフト後の遺伝子ｊの発現量ｌｏｇα_ｉｊｘ_ｊ（または、ｌｏｇｘ_ｊ＋ｌｏｇα_ｉｊ）を遺伝子ｉに対する遺伝子ｊの「比較量」ともいう。
【００３９】
図６は、実施の形態１におけるプロファイルに基づく遺伝子間距離ｄ_αの一例を示す。
ここで、「遺伝子間距離ｄ_αｉｊ」は、遺伝子ｉのプロファイルとシフト後の遺伝子ｊのプロファイルとの差を示し、遺伝子ｉの発現量ｌｏｇｘ_ｉ（ｔ_ｋ）とシフト後の遺伝子ｊの発現量ｌｏｇα_ｉｊｘ_ｉ（ｔ_ｋ）（遺伝子ｊの比較量）との差を測定時刻毎に合計した値とする。例えば、図６では、発現量を６回測定した際の各測定時刻（経過時間：３０分，１時間，３時間，６時間，１２時間、２４時間）における遺伝子ｉとシフト後の遺伝子ｊとの発現量の差の合計値（＝（ｄ_１^２＋ｄ_２^２＋ｄ_３^２＋ｄ_４^２＋ｄ_５^２＋ｄ_６^２）^１／２）が遺伝子間距離ｄ_αｉｊとなる。
遺伝子間距離ｄ_αｉｊは以下の式１に示す距離関数ｄ_αｉｊとして表される。以下、「遺伝子間距離ｄ_αｉｊ」と「距離関数ｄ_αｉｊ」とを同義とする。
【００４０】
【数７】

【００４１】
シフト量算出部１１０は遺伝子ｉのプロファイルと遺伝子ｊのプロファイルとを比較できるようにするために、距離関数ｄ_αｉｊを最小にする正規化係数α_ｉｊ（シフト量）を算出する。つまり、シフト量算出部１１０は以下の式１’を満たす正規化係数α_ｉｊを算出する。
【００４２】
【数８】

【００４３】
式１において、距離関数ｄ_αｉｊを最小にする正規化係数α_ｉｊは二乗した距離関数ｄ_αｉｊを最小にする正規化係数α_ｉｊに等しい。以下に、式１の距離関数ｄ_αｉｊを二乗した式１（ａ）を示す。
【００４４】
【数９】

【００４５】
ここで、式１（ａ）は以下の式１（ｂ）に置き換えることができ、式１（ｂ）においてｙを最小にするｘは式１（ｃ）で表すことができる。
【００４６】
【数１０】

【００４７】
つまり、式１（ｂ）において二乗した距離関数ｄ_αｉｊ^２を最小にするｌｏｇα_ｉｊは以下の式１（ｄ）で表すことができ、正規化係数α_ｉｊは以下の式２で表すことができる。
【００４８】
【数１１】

【００４９】
シフト量算出部１１０は各遺伝子の組み合わせについて式２を計算して遺伝子の組み合わせ毎に正規化係数α_ｉｊ（シフト量）を算出する。
【００５０】
図３に基づいて、実施の形態１における遺伝子プロファイル処理方法の説明を続ける。
【００５１】
＜Ｓ１２０：距離算出処理＞
距離算出部１２０は、シフト量算出部１１０が算出したシフト量αだけプロファイルをシフトさせ、シフトさせたプロファイル（正規化したプロファイル）に基づいて遺伝子間距離ｄ_αを遺伝子の組み合わせ毎に算出する。
以下に、距離算出処理（Ｓ１２０）の詳細について説明する。
【００５２】
まず、距離算出部１２０はシフト量算出部１１０が算出したシフト量αだけプロファイルをシフトさせ、正規化したプロファイルを生成する。このとき、距離算出部１２０は、遺伝子ｉに対してシフト後の遺伝子ｊの発現量ｌｏｇα_ｉｊｘ_ｊ（ｔ_ｋ）（比較量）を測定時刻ｔ_ｋ毎に算出し、算出した各比較量ｌｏｇα_ｉｊｘ_ｊ（ｔ_ｋ）を正規化したプロファイルとする。距離算出部１２０は各遺伝子の組み合わせについてプロファイルを正規化する。
【００５３】
そして、距離算出部１２０は正規化したプロファイルに基づいて遺伝子間距離ｄ_αを算出する。このとき、距離算出部１２０は、各比較量ｌｏｇα_ｉｊｘ_ｊ（ｔ_ｋ）に基づいて遺伝子ｉと遺伝子ｊとの遺伝子間距離ｄ_αｉｊを以下の式３を計算して算出する。式３は前記式１を時刻変数ｔ_ｋを用いて表した式である。距離算出部１２０は各遺伝子の組み合わせについて遺伝子間距離ｄ_αｉｊを算出する。
【００５４】
【数１２】

【００５５】
図７は、実施の形態１におけるシフト量算出処理（Ｓ１１０）の処理結果の一例を示す。
図８は、実施の形態１の距離算出処理（Ｓ１２０）における比較量ｌｏｇαｘについての処理結果の一例を示す。
図９は、実施の形態１の距離算出処理（Ｓ１２０）における遺伝子間距離ｄ_αについての処理結果の一例を示す。
シフト量算出処理（Ｓ１１０）において、シフト量算出部１１０は、図７に示すように、遺伝子の組み合わせ毎にシフト量αを算出し、算出した各シフト量αを記憶機器に記憶する。
また、距離算出処理（Ｓ１２０）において、距離算出部１２０は、図８に示すように、遺伝子の組み合わせ毎および測定時刻毎に比較量ｌｏｇαｘを算出し、算出した各比較量ｌｏｇαｘを正規化したプロファイルとして記憶機器に記憶する。
また、距離算出処理（Ｓ１２０）において、距離算出部１２０は、図９に示すように、遺伝子の組み合わせ毎に遺伝子間距離ｄ_αを算出し、算出した各遺伝子間距離ｄ_αを記憶機器に記憶する。
図７、図８および図９では、遺伝子の数を“５”、測定数を“３”としている。
シフト量算出部１１０、距離算出部１２０は算出したシフト量α、比較量ｌｏｇαｘ、遺伝子間距離ｄ_αをテーブルデータや配列データとして記憶する。
【００５６】
図３に基づいて、実施の形態１における遺伝子プロファイル処理方法の説明を続ける。
【００５７】
＜Ｓ１３０：クラスタリング処理＞
クラスタリング部１３０は距離算出部１２０が算出した各遺伝子間距離ｄ_αに基づいて各遺伝子に対する任意のクラスタリング処理を行い、各遺伝子のクラスタ情報を出力する。
例えば、クラスタリング部１３０は各遺伝子間距離ｄ_αに基づいてＵＰＧＭＡ（非加重結合法）でクラスタリングを行い、各遺伝子を複数のクラスタにグループ分けする。ここで、ＵＰＧＭＡとは、各遺伝子がそれぞれ１つのクラスタを構成するものとし、最も近いクラスタを段階的に結合していく方法である。結合したクラスタと他のクラスタとの遺伝子間距離ｄ_αは、結合したクラスタに含まれる各遺伝子と他のクラスタの遺伝子との遺伝子間距離ｄ_αの平均値となる。
クラスタリング部１３０は各遺伝子のクラスタ情報を記憶機器に記憶したり、プリンタ装置９０６から印刷したり、表示装置９０１に表示したりする。
クラスタリング部１３０が生成した各遺伝子のクラスタ情報は、類似の特性を有する複数の遺伝子の特定など、各種の遺伝子解析に用いることができる。
クラスタリング部１３０はＵＰＧＭＡ以外の方法によりクラスタリングしても構わず、例えば、Ｋ−平均値法（Ｋ−ｍｅａｎｓ）によりクラスタリングしても構わない。
【００５８】
次に、実施の形態１におけるシフト量αを用いた正規化の評価結果として、遺伝子プロファイルのクラスタリング処理結果を示す。
図１０は、実施の形態１における正規化前の遺伝子Ａと遺伝子Ｂとのプロファイルの一例を示す。
ここでは、評価用データの一例として、図１０において実線で表す１０個のプロファイルと点線で表す１０個のプロファイルとの計２０個のプロファイルを用いた。実線で表す各プロファイルは遺伝子Ａのプロファイルを示し、点線で表す各プロファイルは遺伝子Ｂのプロファイルを示す。そして、シフト量αを用いた正規化により、遺伝子Ａのプロファイルと遺伝子Ｂのプロファイルとにグループ分けするクラスタリング処理結果を得ることを目的とする。
なお、実線で表す遺伝子Ａの１０個のプロファイルは、実験により実際に得られた１つの標本的なプロファイルに対して測定時刻毎に０．５〜２．０倍の範囲でランダムに変動させた擬似的なプロファイルである。また、点線で表す遺伝子Ｂの１０個のプロファイルも同様である。
ここで、遺伝子発現量の測定値には測定環境（蛍光色素による識別誤差など）の変化に応じて一般的に０．５〜２．０倍程度の測定誤差が含まれる。そこで、測定誤差の範囲（０．５〜２．０倍）で変動させた擬似プロファイルが正しくクラスタリングできれば、実施の形態１におけるシフト量αを用いた遺伝子プロファイルの正規化方法が測定誤差に対して頑健性を有するクラスタリング結果を得ることができる方法であると考えられる。
【００５９】
図１１は、実施の形態１におけるシフト量αを用いた正規化後のプロファイルのクラスタリング処理結果を示す。
実施の形態１におけるシフト量αを用いて正規化した各プロファイルは、図１１に示すように実線で表す遺伝子Ａのプロファイル同士と点線で表す遺伝子Ｂのプロファイル同士とがそれぞれ比較的良くまとまっており、ＵＰＧＭＡによりクラスタリングした結果、図１１に示すように遺伝子Ａのプロファイル（実線）と遺伝子Ｂのプロファイル（点線）とに正しくグループ分けすることができた。つまり、クラスタリングの誤り率は「０％」であった。
なお、図１１において、太い実線と太い点線とはそれぞれ擬似プロファイル（細い実線および細い点線）の生成に用いた遺伝子Ａの標本プロファイル（ノミナル値）と遺伝子Ｂの標本プロファイル（ノミナル値）とを示している。ここでは、標本プロファイルに近似させるシフト量αを用いて各擬似プロファイルを正規化した。また、記号付き実線と記号付き点線とは各プロファイルの中央値を取ったプロファイルを示している。
【００６０】
図１２は、実施の形態１におけるＬｏｇ−ｒａｔｉｏによる正規化後のプロファイルのクラスタリング処理結果を示す。
一方、測定開始時点の発現量を基準として発現量の変化割合を求める正規化（Ｌｏｇ−ｔａｔｉｏ）による各プロファイルは、図１２に示すように遺伝子Ａのプロファイルと遺伝子Ｂのプロファイルとが重なり合っており、ＵＰＧＭＡによりクラスタリングした結果、図１２に示すように遺伝子Ｂのプロファイルの一部が遺伝子Ａのプロファイルのグループに含まれ、実線で表す１６個のプロファイルと点線で表す４個のプロファイルとに誤ってグループ分けされた。つまり、クラスタリングの誤り率は「３０％（＝６／２０）」であった。
なお、太線、記号付き線の意味は図１１と同じである。
【００６１】
図１３は、実施の形態１におけるシフト量αを用いた正規化方法および従来の各正規化方法により正規化したプロファイルに対するクラスタリング処理結果を示す。
実施の形態１におけるシフト量αを用いた正規化方法（以下、Ａｌｐｈａとする）と従来方法のＬｏｇ−ｒａｔｉｏの他、従来方法のＰｅａｒｓｏｎ法およびＵｎｃｅｎｔｅｒｅｄＰｅａｒｓｏｎ法についても上記図１０〜図１２で説明した評価実験を行った結果を図１３に示す。
図１３において、横軸は標本プロファイルに対するランダム変動の範囲を示している。例えば、「１．５」の変動範囲は「０．６７（＝１／１．５）〜１．５倍」である。また、縦軸は複数回行った実験結果におけるクラスタリングの誤り率（＝誤ったプロファイルの数／プロファイルの総数）の平均値を示している。
図１３に示すように、実施の形態１におけるシフト量αを用いた正規化方法（Ａｌｐｈａ）は、いずれの変動範囲においてもクラスタリングの誤り率が一番低い。つまり、実施の形態１におけるシフト量αを用いた正規化方法は、他の正規化方法に比べて、遺伝子のプロファイルをより適切に正規化し、各遺伝子を適切にクラスタリングすることができる。
【００６２】
実施の形態１では、正規化係数αを用い、波形の対数グラフ（例えば、図４に示すようなプロファイル）が良く重なるように正規化することを特徴とする。この正規化係数αの最適値は、２枚の対数グラフに別々のプロファイルを波形で描き、２枚の対数グラフを垂直方向（発現量の軸方向）にシフトさせたときに、図５に示すように、対数グラフが最もよく重なるようなシフト量である。
【００６３】
上記において、遺伝子のプロファイルは時系列データ（タイムコース）でなくても構わない。
例えば、遺伝子のプロファイルは農薬や肥料などの薬品の濃度毎に発現量を示すものでもよいし、気温や湿度などの環境ストレスに応じた発現量を示すものでもよい。つまり、プロファイルは、測定時刻、薬品濃度、気温、湿度などについて、各時刻、各濃度、各気温、各湿度を項目（要素）として、項目毎に遺伝子の発現量を示すものである。例えば、図４のようにプロファイルをグラフ化した場合、時間の経過、濃度の大小、気温の大小、湿度の大小が横軸項目となる。
【図面の簡単な説明】
【００６４】
【図１】実施の形態１における遺伝子プロファイル処理装置１００の機能構成図。
【図２】実施の形態１における遺伝子プロファイル処理装置１００のハードウェア資源の一例を示す図。
【図３】実施の形態１における遺伝子プロファイル処理方法を示すフローチャート。
【図４】実施の形態１におけるグラフ化したプロファイルの一例を示す。
【図５】実施の形態１におけるシフト前のプロファイルとシフト量αによるシフト後のプロファイルとを示す。
【図６】実施の形態１におけるプロファイルに基づく遺伝子間距離ｄ_αの一例を示す。
【図７】実施の形態１におけるシフト量算出処理（Ｓ１１０）の処理結果の一例を示す。
【図８】実施の形態１の距離算出処理（Ｓ１２０）における比較量αｘについての処理結果の一例を示す。
【図９】実施の形態１の距離算出処理（Ｓ１２０）における遺伝子間距離ｄ_αについての処理結果の一例を示す。
【図１０】実施の形態１における正規化前の遺伝子Ａと遺伝子Ｂとのプロファイルの一例を示す。
【図１１】実施の形態１におけるシフト量αを用いた正規化後のプロファイルのクラスタリング処理結果を示す。
【図１２】実施の形態１におけるＬｏｇ−ｒａｔｉｏによる正規化後のプロファイルのクラスタリング処理結果を示す。
【図１３】実施の形態１におけるシフト量αを用いた正規化方法および従来の各正規化方法により正規化したプロファイルに対するクラスタリング処理結果を示す。
【符号の説明】
【００６５】
１００遺伝子プロファイル処理装置、１１０シフト量算出部、１２０距離算出部、１３０クラスタリング部、１９１プロファイル記憶部、９０１表示装置、９０２キーボード、９０３マウス、９０４ＦＤＤ、９０５ＣＤＤ、９０６プリンタ装置、９０７スキャナ装置、９０８マイク、９０９スピーカー、９１１ＣＰＵ、９１２バス、９１３ＲＯＭ、９１４ＲＡＭ、９１５通信ボード、９２０磁気ディスク装置、９２１ＯＳ、９２２ウィンドウシステム、９２３プログラム群、９２４ファイル群。

【特許請求の範囲】
【請求項１】
複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部と、
前記プロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｃｅｓｓｉｎｇＵｎｉｔ）を用いて算出するシフト量算出部と、
前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にＣＰＵを用いて算出する距離算出部と、
前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をＣＰＵを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング部と
を備えることを特徴とする遺伝子プロファイル処理装置。
【請求項２】
前記シフト量算出部は前記遺伝子間距離を最小にする前記シフト量を算出する
ことを特徴とする請求項１記載の遺伝子プロファイル処理装置。
【請求項３】
前記プロファイル記憶部は、複数の項目について項目毎に発現量を示すプロファイルを前記発現量のプロファイルとして記憶し、
前記シフト量算出部は、一方の遺伝子の各発現量と他方の遺伝子の各発現量に前記シフト量を加算した各比較量との差を項目毎に合計した値を前記遺伝子間距離として前記シフト量を算出する
ことを特徴とする請求項２記載の遺伝子プロファイル処理装置。
【請求項４】
前記シフト量算出部は、以下の式１で表される遺伝子ｉと遺伝子ｊとの前記遺伝子間距離ｄ_αｉｊに対して、以下の式２により遺伝子ｉの各発現量ｘ_ｉ（ｔ_ｋ）に対して遺伝子ｊの各発現量ｘ_ｊ（ｔ_ｋ）に加算する前記シフト量α_ｉｊを算出する
ことを特徴とする請求項３記載の遺伝子プロファイル処理装置。
【数１】

【請求項５】
複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部と、
前記プロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｃｅｓｓｉｎｇＵｎｉｔ）を用いて算出するシフト量算出部と、
前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化部と
を備えることを特徴とする遺伝子プロファイル処理装置。
【請求項６】
シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｃｅｓｓｉｎｇＵｎｉｔ）を用いて算出するシフト量算出処理と、
距離算出部が、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にＣＰＵを用いて算出する距離算出処理と、
クラスタリング部が、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をＣＰＵを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング処理と
をコンピュータに実行させることを特徴とする遺伝子プロファイル処理プログラム。
【請求項７】
前記シフト量算出部は前記遺伝子間距離を最小にする前記シフト量を算出する
ことを特徴とする請求項６記載の遺伝子プロファイル処理プログラム。
【請求項８】
前記プロファイル記憶部は、複数の項目について項目毎に発現量を示すプロファイルを前記発現量のプロファイルとして記憶し、
前記シフト量算出部は、一方の遺伝子の各発現量と他方の遺伝子の各発現量に前記シフト量を加算した各比較量との差を項目毎に合計した値を前記遺伝子間距離として前記シフト量を算出する
ことを特徴とする請求項７記載の遺伝子プロファイル処理プログラム。
【請求項９】
前記シフト量算出部は、以下の式１で表される遺伝子ｉと遺伝子ｊとの前記遺伝子間距離ｄ_αｉｊに対して、以下の式２により遺伝子ｉの各発現量ｘ_ｉ（ｔ_ｋ）に対して遺伝子ｊの各発現量ｘ_ｊ（ｔ_ｋ）に加算する前記シフト量α_ｉｊを算出する
ことを特徴とする請求項８記載の遺伝子プロファイル処理プログラム。
【数２】

【請求項１０】
シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｃｅｓｓｉｎｇＵｎｉｔ）を用いて算出するシフト量算出処理と、
正規化部が、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化処理と
をコンピュータに実行させることを特徴とする遺伝子プロファイル処理プログラム。
【請求項１１】
シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｃｅｓｓｉｎｇＵｎｉｔ）を用いて算出するシフト量算出処理を行い、
距離算出部が、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にＣＰＵを用いて算出する距離算出処理を行い、
クラスタリング部が、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をＣＰＵを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング処理を行う
ことを特徴とする遺伝子プロファイル処理方法。
【請求項１２】
シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｃｅｓｓｉｎｇＵｎｉｔ）を用いて算出するシフト量算出処理を行い、
正規化部が、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化処理を行う
ことを特徴とする遺伝子プロファイル処理方法。

【図１】