説明

データ解析装置、プログラム、記録媒体、データ解析方法、およびタンパク質解析装置

【課題】複数の測定データにおいて対応するポイント同士の対応付けを行う際の時間と労力を削減するとともに、複数の測定データにおいて対応するポイント同士の対応付けに要する時間や生じる間違いを軽減すること。
【解決手段】測定データ内から検出される測定対象を表わすポイントについて、前記測定対象が関連するポイント同士の対応付けを行うデータ解析装置であって、複数の前記測定データと、前記測定データにおける複数の前記ポイントの出現位置を表わすポイント情報とを入力する入力手段と、前記測定データにおける前記ポイントの出現位置が異なる前記測定データ間において互いに類似している程度を示す類似度を前記ポイント情報に基づき算出し、当該類似度に基づき前記ポイント同士を対応付けたポイント対応付け情報を作成する対応ポイント検出手段と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、測定対象から得られる測定データにおいて測定対象の存在を示すポイントを検出し、複数の測定データにおいて対応するポイント同士の対応付けを行うデータ解析装置、プログラム、記録媒体、データ解析方法、およびタンパク質解析装置に関する。
【背景技術】
【0002】
2003年にヒトゲノムプロジェクトが終了した後、今日までに様々な疾患と生体高分子との関係性が明らかになりつつある。特に、生体高分子の1つであるタンパク質は、生体の細胞、器官、および臓器の機能に直接関与しており、タンパク質のアミノ酸配列または立体構造の相違、あるいは糖鎖またはリン酸化等の化学的修飾の有無等に起因して、多くの疾患が引き起こされる可能性があることが明らかになり始めている。
このような状況の中、プロテオーム解析が盛んに行われている。プロテオームとは、特定の細胞、器官、および臓器の中で翻訳生産されているタンパク質全体のことを意味している。その解析(プロテオーム解析)としては、タンパク質のプロファイリング、または機能解析等が挙げられる。タンパク質の翻訳後に生体内で合成されたタンパク質は、リン酸化等の翻訳後修飾によってタンパク質の機能を制御されていることが知られている。したがって、タンパク質の化学的修飾に関する情報の入手は、今後のプロテオーム解析において取り分け重要事項の1つとなり得る。そのため、複数のタンパク質が混在する試料を、高精度で分離および検出する方法が重要視されており、そのための装置の開発が進められている。
【0003】
現在では、タンパク質の分離検出方法として、液体クロマトグラフィー、またはゲル電気泳動等が利用されている。
液体クロマトグラフィーでは、個々のタンパク質の大きさ、吸着力、または疎水性等の性質の違いを利用してタンパク質を分離している。この液体クロマトグラフィーでは、タンパク質の性質により、タンパク質ごとにカラムを通過する通過速度が異なるため、カラムを通過している間にタンパク質ごとに分離される。その結果、液体クロマトグラフィーによって分離されたタンパク質は、経過時間に応じて光度計等によって検出される出力値を示す一次元データであるクロマトグラム上において出力値のピーク値(以下、ピークという)として検出される。
【0004】
一方、ゲル電気泳動では、個々のタンパク質が表面電荷および分子量において有している独特の性質を利用して分離している。例えば、タンパク質を電荷のみ、または分子量のみに依存して分離する一次元電気泳動と、両者を組み合わせて分離する二次元電気泳動とがある。中でも、二次元電気泳動は、一度に多くのタンパク質を分離し、網羅的に解析することが可能であるため、プロテオーム解析において広く利用されている。
【0005】
二次元電気泳動で分離されたタンパク質は、デジタル画像上で蛍光領域、または染色領域(以下、スポットという)として観察される。タンパク質の量は、スポットの積分値である体積に対応しており、分離されたタンパク質の量を定量化するために、当該スポットの位置の検出、および体積算出が行われる。
複数の試料、例えば正常細胞からの試料とがん細胞からの試料をそれぞれ二次元電気泳動させて撮影した二次元電気泳動画像間においてスポット体積を比較することにより、がんに関連したタンパク質、すなわちマーカータンパク質を発見することも行われている。
【0006】
この場合、複数の二次元電気泳動画像間において、同じタンパク質に由来するスポット同士を対応付ける必要がある。また、複数のクロマトグラム間においては、同じタンパク質に由来するピーク同士を対応付ける必要がある。なお、二次元電気泳動画像やクロマトグラム等の測定データに現れる測定対象の成分に由来した特性を示すスポットまたはピークを、あわせて、以下、ポイントという。
二次元電気泳動画像において、同じタンパク質に由来するスポットは、理想的には二次元電気泳動ごとに同じ位置に配置されるはずである。しかし、現実には、ゲルの柔軟性や実験ごとのばらつきのため、同じタンパク質に由来するスポットは、複数の画像間において同じ位置に配置されない。したがって、複数の画像間において同じタンパク質に由来するスポットの対応付けを人による目視で行う必要があり、膨大な時間と労力がかかっていた。
【0007】
また、スポットの対応付けにかかる時間と労力を短縮するために、同じタンパク質に由来するスポット同士の対応付けを、コンピュータを用いて行う方法が試みられている。
例えば、特許文献1には、選択された画像を平均化することにより生成されたマスター複合画像を用いて、新たな画像のスポットの対応付けを行う方法が開示されている。具体的には、マスター複合画像と新たな画像を整列した後、マスター複合画像からアンカーポイントとなるスポットのセットをオペレータが選択する。そして、このオペレータは、新たな画像に存在するアンカーポイントの検索を目視で行い、アンカーポイントの有無を調べる。次いで、オペレータは、マスター複合画像におけるアンカーポイントのスポットと、これに対応する新たな画像におけるアンカーポイントのスポットとの対応付けを行う。
このように、特許文献1では、マスター複合画像と新たな画像の整列において、オペレータが手動で、マスター複合画像のスポットとそれに対応する新たな画像のスポットとを選択する。その後、コンピュータが、オペレータの選択したスポットの位置に基づいて、マスター複合画像と新たな画像の位置揃えを行っている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特表2001−500614号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、特許文献1に開示されている方法では、マスター複合画像と新たな画像の整列に際して、オペレータが手動で、マスター複合画像のスポットとそれに対応する新たな画像のスポットとを選択する必要がある。このため、時間と労力がかかる上に、対応付けを行う人が異なると、同じタンパク質に由来しないスポット同士を選択する可能性がある。その結果、同じタンパク質に由来するスポットの対応付けの精度が低下するおそれがあった。
【0010】
そこで、本発明は上記従来技術の欠点に鑑みてなされたものであり、複数の測定データにおいて対応するポイント同士の対応付けを行う際の時間と労力を削減するとともに、複数の測定データにおいて対応するポイント同士の対応付けに要する時間の軽減や間違ったポイント同士の対応付けを防止することができるデータ解析装置、プログラム、記録媒体、データ解析方法、およびタンパク質解析装置を提供することにある。
【課題を解決するための手段】
【0011】
この発明は上述した課題を解決するためになされたもので、本発明の一態様によるデータ解析装置は、測定データ内から検出される測定対象を表わすポイントについて、前記測定対象が関連するポイント同士の対応付けを行うデータ解析装置であって、複数の前記測定データと、前記測定データにおける複数の前記ポイントの出現位置を表わすポイント情報とを入力する入力手段と、前記測定データにおける前記ポイントの出現位置が異なる前記測定データ間において互いに類似している程度を示す類似度を前記ポイント情報に基づき算出し、当該類似度に基づき前記ポイント同士を対応付けたポイント対応付け情報を作成する対応ポイント検出手段と、を備えることを特徴とする。
【0012】
上述のデータ解析装置において、前記対応ポイント検出手段は、前記類似度として、前記測定データにおける前記ポイントの出現強度を示す情報に基づき、異なる前記測定データの前記ポイント同士の相関係数を算出することを特徴とする。
【0013】
上述のデータ解析装置において、前記対応ポイント検出手段は、前記相関係数を算出する際、前記測定データに含まれる前記出現強度を示す情報の一部であって、少なくとも前記相関係数を算出する前記ポイントの出現を示す情報を含む前記出現強度を示す情報に基づき算出することを特徴とする。
【0014】
上述のデータ解析装置は、前記ポイント対応付け情報において対応付けられている前記ポイント同士が同一の測定対象を示していることの確からしさを示す情報を算出し、前記ポイント同士の対応付けが確からしいと判定される範囲として決められた閾値範囲に前記確からしさを示す情報が該当しないと判定された場合、前記ポイント対応付け情報における前記ポイント同士の対応付けを解除する確認手段をさらに備えることを特徴とする。
【0015】
上述のデータ解析装置において、前記確認手段は、前記ポイント対応付け情報においてそれぞれ対応付けられている前記ポイント同士のベクトルを算出し、算出した複数の前記ベクトルに基づき、各ベクトル同士の差を示す差ベクトルの長さを算出し、前記差ベクトルの長さに基づき、各ベクトルに対応する差ベクトルの長さを示す代表値を前記ベクトルごとに算出し、前記確からしさを示す情報を前記代表値とすることを特徴とする。
【0016】
上述のデータ解析装置において、前記代表値は、前記差ベクトルの長さの平均値、中央値、最頻値のうちいずれか1つであることを特徴とする。
【0017】
上述のデータ解析装置において、前記閾値範囲は、前記ポイント対応付け情報において対応付けられているポイントごとに、前記対応付けられているポイントの周辺に存在する他の前記ポイントとの位置関係に応じて決定されることを特徴とする。
【0018】
上述のデータ解析装置において、前記閾値範囲において、前記測定データにおいて出現している他の前記ポイントが密集する領域に前記対応付けられているポイントが存在する場合、前記ポイント同士の対応付けが確からしいと判定される範囲を狭くし、前記測定データにおいて出現している他の前記ポイントがまばらな領域に前記対応付けられているポイントが存在する場合、前記ポイント同士の対応付けが確からしいと判定される範囲を広くすることを特徴とする。
【0019】
上述のデータ解析装置において、前記閾値範囲は、前記ポイント対応付け情報において対応付けられているポイントと、前記測定データにおいて当該対応付けられているポイントと最も近い位置に存在する他のポイントとの距離であるポイント距離に基づき決定されることを特徴とする。
【0020】
上述のデータ解析装置において、前記閾値範囲は、前記ポイント距離に対して予め決められた0.1〜1の値の係数を乗算した値を閾値とする範囲であることを特徴とする。
【0021】
上述のデータ解析装置において、前記測定データは、二次元データにおいて複数の前記ポイントが出現するデータであって、前記ポイントの出現位置を前記二次元データにおける前記ポイントの位置によって示していることを特徴とする。
【0022】
上述のデータ解析装置において、前記測定データは、二次元電気泳動画像の画像データであって、当該二次元電気泳動画像におけるピクセル毎に画像の色や明るさの濃度を示す濃度値の高い部分が前記ポイントとして出現していることを特徴とする。
【0023】
この発明は上述した課題を解決するためになされたもので、本発明の一態様によるプログラムは、コンピュータを、上述に記載の入力手段、対応ポイント検出手段、あるいは、確認手段として機能させるためのプログラムであることを特徴とする。
この発明は上述した課題を解決するためになされたもので、本発明の一態様による記録媒体は、上述のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【0024】
この発明は上述した課題を解決するためになされたもので、本発明の一態様によるデータ解析方法は、測定対象を示すポイントが出現している測定データを用いて前記測定対象が関連するポイント同士の対応付けを行うデータ解析方法であって、複数の前記測定データと、前記測定データにおける複数の前記ポイントの出現位置を表わすポイント情報とを入力するステップと、前記測定データにおける前記ポイントの出現位置が異なる前記測定データ間において互いに類似している程度を示す類似度を前記ポイント情報に基づき算出し、当該類似度に基づき前記ポイント同士を対応付けたポイント対応付け情報を作成するステップと、を備えることを特徴とする。
【0025】
この発明は上述した課題を解決するためになされたもので、本発明の一態様によるタンパク質解析装置は、上述のデータ解析装置と、タンパク質を含む物質からタンパク質を分離して、分離されたタンパク質を前記ポイントとして示す前記測定データを生成し、前記データ解析装置に出力するタンパク質分離装置とを備えることを特徴とする。
【発明の効果】
【0026】
本発明によれば、測定対象から得られる測定データにおいて測定対象の存在を示すポイントを検出し、複数の測定データにおいて対応するポイント同士の対応付けを行う際の時間と労力を削減することができる。また、複数の測定データにおいて対応するポイント同士の対応付けに要する時間を軽減し、間違ったポイント同士の対応付けの発生を防止することができる。
【図面の簡単な説明】
【0027】
【図1】本発明の第1実施形態に係るデータ解析装置の構成の一例を示すブロック図である。
【図2】複数のタンパク質を含む試料を二次元電気泳動したものを撮影して得られた泳動結果である二次元電気泳動画像の一例を示す図である。
【図3】スポット情報を検出する一例を説明するための図である。
【図4】スポット情報を検出する一例を説明するための図である。
【図5】スポット情報を検出する一例を説明するための図である。
【図6】本発明の一実施形態に係るデータ解析装置によるデータ解析方法の一例を示すフローチャートである。
【図7】本発明の一実施形態に係るデータ解析装置によるスポット対応付け処理の一例を示すフローチャートである。
【図8】二次元電気泳動画像におけるスポットの位置について説明するための図である。
【図9】本発明の一実施形態に係るデータ解析装置による対応付け確認処理の一例を示すフローチャートである。
【図10】二次元電気泳動画像におけるスポットの位置について説明するための図である。
【図11】差ベクトルの一例について説明するための図である。
【図12】本発明の一実施形態に係るデータ解析装置による解析結果の出力例を示す図である。
【図13】本発明の一実施形態に係るデータ解析装置による解析結果の他の出力例を示す図である。
【図14】複数のタンパク質を含む試料を用いて液体クロマトグラフィーを行った結果であるクロマトグラムの一例を示す図である。
【図15】本発明の第3実施形態に係るタンパク質解析装置の構成の一例を示すブロック図である。
【図16】ポイント距離に乗算する係数の値について説明するための図である。
【図17】差ベクトルの一例を示す図である。
【発明を実施するための形態】
【0028】
[第1実施形態]
以下では、本発明の一実施形態について、図面を参照して詳細に説明する。
図1を参照して、本実施形態に係るデータ解析装置の概要について説明する。図1は、本実施形態に係るデータ解析装置100を含むデータ解析システムの構成の一例を示す図である。
図1に示すように、データ解析システムは、データ解析装置100と外部検出装置200を備える。このデータ解析装置100と外部検出装置200は、接続されている。外部検出装置200は、データ解析装置100によってデータ解析がなされる測定データ等をデータ解析装置100に出力する。
このデータ解析装置100は、制御装置101と、入力装置102と、データ処理装置103と、記憶装置104と、外部記憶装置105と、出力装置106とを備える。
データ処理装置103は、基準画像選択部131と、対応ポイント検出部132と、対応ポイント確認部133とを備える。
記憶装置104は、データ格納部141と、基準画像情報格納部142と、対応ポイント格納部143とを備える。
【0029】
本実施形態に係るデータ解析装置100は、測定対象を含む物質を測定して得られる測定データにおいて測定対象の存在を示すポイントを検出し、複数の測定データにおいて対応するポイント同士の対応付けを行う。この測定対象の存在を示すポイントとは、本実施形態において、測定データに現れる測定対象の成分に由来した特性を示すスポットまたはピークである。第1実施形態では、ポイントとしてスポットの対応付けを行うものについて説明する。また、第2実施形態では、ポイントとしてピークの対応付けを行うものについて説明する。
また、本実施形態において、測定データから検出される測定対象はタンパク質である。なお、本発明は測定対象がタンパク質であるものに限られず、例えば、ある物質を構成している成分を同定する際の任意の成分等であってもよい。
このデータ解析装置100は、複数の測定データに基づき、これら複数の測定データ間において、それぞれ対応するスポットまたはピークを対応付ける。
ここで、「対応するスポットまたはピーク」とは、同じ成分に由来する計測対象(ここではタンパク質)の存在を測定データにおいて表わす部分である。なお、スポットとは、二次元の測定データである画像内においてピーク値を含む一定の領域を示す概念である。ピークとは、一次元の測定データにおいてピーク値を示す一点である。
【0030】
以下では、データ解析装置100が、スポットを有する二次元データを用いて、複数の二次元データ間において対応するスポットを対応付ける場合の一例について説明する。ここでは、二次元データとして、二次元電気泳動の泳動結果の測定データ(以下、二次元電気泳動画像の画像データという)を用いた場合を例に挙げ説明する。
この二次元電気泳動とは、タンパク質の電気的な性質を利用して二次元に分離する手法である。二次元電気泳動は、タンパク質を電荷に依存して分離する等電点電気泳動と、分子量に依存して分離するドデシル硫酸ナトリウム−ポリアクリルアミドゲル電気泳動(SDS−PAGE)との2つの電気泳動からなる。
まず、一次元目では、等電点電気泳動ゲルを用いてタンパク質を等電点で分離する等電点電気泳動が行われる。この等電点電気泳動は、1次元目方向への分離であり、一定のpH勾配を有する等電点電気泳動ゲルを用いている。この等電点電気泳動では、当該ゲルの両端に電圧を印加した際に、各タンパク質の正味の電荷が0(等電点)となるpHまで移動する性質を利用して、各タンパク質の等電点を同定している。
【0031】
そして、二次元目では、ドデシル硫酸ナトリウム(SDS)を含むポリアクリルアミドゲルを用いてタンパク質を分子量で分離するSDS−ポリアクリルアミドゲル電気泳動(SDS−PAGE)が行われる。このSDS−PAGEは、二次元目方向への分離であり、陰イオン性界面活性剤の一種であるドデシル硫酸ナトリウム(SDS)を用いている。SDSは、強い負電荷を持つ分子であり、ポリペプチド鎖と複合体を形成する。SDS−PAGEでは、多孔性を有するポリアクリルアミドゲル(PAGE)に電圧を印加した際の、SDS−タンパク質複合体が当該ゲル中を移動する移動速度によって各タンパク質の分子量を同定する。
一次元目分離方向と二次元目の分離方向とは互いに直交する。これによって、一次元目方向と二次元目方向とに分離したタンパク質の分離パターンが得られる。
電気泳動ゲル上で分離されたタンパク質をクーマシーブリリアントブルー(CBB)、または蛍光色素等によって染色されることにより、視覚化される。そして、この視覚化されたものを、カメラまたはスキャナ等の画像読取装置が撮影してデジタル画像化されたものが二次元電気泳動画像である。図2に二次元電気泳動画像の一例を示す。図2は、複数のタンパク質を含む試料を二次元電気泳動して得られた泳動結果の測定データ(二次元電気泳動画像の画像データ)である。
【0032】
図2に示すように、得られた二次元電気泳動画像では、タンパク質が一次元目方向(図中のX軸方向)に等電点の違いによって分離しており、二次元目方向(図中のY軸方向)に分子量の違いによって分離している。二次元電気泳動画像上の黒い斑点で表される複数のスポットは、それぞれ種類の異なるタンパク質を表している。図2に示す二次元電気泳動画像では、等電点が、0からX軸の正方向にいくほど高くなり、分子量は、0からY軸の正方向にいくほど大きくなる。
上述したように、データ解析装置100は、スポットを有する測定データが複数あった場合、それら複数の測定データ間で、対応するスポットを対応付ける装置である。具体的に説明すると、データ解析装置100は、測定画像データである二次元電気泳動画像の画像データと、各二次元電気泳動画像に含まれるスポットの位置を示す情報とを用いて、複数の二次元電気泳動画像間において対応するスポット同士の対応付けを行う。処理内容について後ほど詳しく説明する。
【0033】
図1に戻って、本実施形態に係るデータ解析装置100の各構成部について説明する。
制御装置101は、データ解析装置100を統括的に制御する。
入力装置102は、外部(ユーザ)からの指示を入力するキーボードまたはポインティングデバイス等の装置である。ユーザはキーボードやポインティングデバイス等を利用して指示情報を入力装置102に入力する。また、入力装置102は、外部検出装置200と接続され、外部検出装置200からの情報を入力する。例えば、制御装置101が、入力装置102に対して外部検出装置200からの情報を読み込みを指示した場合、入力装置102は、外部検出装置200から情報を読み込む。
データ処理装置103は、プログラム制御によって動作し、電気泳動による測定ごとに得られた二次元電気泳動画像の画像データに基づいて、各処理を行う。例えば、データ処理装置103は、複数の二次元電気泳動画像の画像データの中から対応付けの対照基準となる基準画像を選択する基準画像選択処理を行う。また、データ処理装置103は、例えば、複数の測定データである二次元電気泳動画像間において対応するスポット同士の対応付けを行うスポット対応付け処理を行う。さらに、データ処理装置103は、例えば、スポット対応付け処理において対応付けられたスポットの対応付け関係の確認を行う対応付け確認処理等の各種処理を行う。
記憶装置104は、例えば、情報を一時的に記憶するランダムアクセスメモリ(RAM)である。
【0034】
外部記憶装置105は、例えば、情報を長期的に記憶するハードディスクドライブ(HDD)である。この外部記憶装置105は、外部から入力された情報を記憶するものである。本実施形態において、複数のタンパク質を含む試料に対して二次元電気泳動を行い得られた泳動結果である二次元電気泳動画像の画像データは、外部記憶装置105に記憶される。この場合、外部記憶装置105に記憶されている二次元電気泳動画像の画像データは、複数枚(1,2,・・・,n枚)ある。
この外部記録装置105には、例えば、複数の検体から採取した試料に対してそれぞれ二次元電気泳動を行い得られた泳動結果である二次元電気泳動画像の画像データが記憶されている。
さらに、外部記録装置105は、各二次元電気泳動画像に含まれるスポットに関するスポット情報(ポイント情報)を、各二次元電気泳動画像の画像データに対応付けて記憶している。このスポット情報とは、二次元電気泳動画像の画像データから検出された各スポットを識別するためのスポット識別情報と、二次元電気泳動画像における各スポットの位置を示すスポット位置情報とを含む。
例えば、制御装置100が、入力装置102に対して、外部検出装置200からの測定データの読み込みを指示すると、入力装置102が測定データを外部検出装置200から読み込む。この入力装置102から測定データを入力し、外部記憶装置105を入力する。なお、本実施形態において、外部記憶装置105が、データ解析装置100に内蔵されている例について説明するが、本発明はこれに限られず、外部の装置として設けられるものであって、データ解析装置100と接続されるものであってもよい。
出力装置106は、データ処理装置103の処理結果を外部に表示または印字する表示装置または印刷装置等である。
【0035】
[スポット情報の検出手法の一例]
ここで、スポット情報の検出手法の一例について、図3〜5を参照して説明する。
二次元電気泳動画像の画像データは、ピクセルを構成単位とするデータであって、ピクセル毎に画像の色や明るさの濃度を示す濃度値(すなわち画素値(あるいは輝度値))によって示される情報である。本実施形態において、スポット情報は、外部検出装置200によって検出され、データ解析装置100に入力される。
この外部検出装置200は、例えば、二次元電気泳動画像の画像データにおいて、隣り合うすべてのピクセルの濃度値よりも大きい濃度値を有するピクセルをスポットの中心位置として検出する。また、外部検出装置200は、本実施形態において、検出した各スポットにおいて濃度値が最も高いピクセルを、スポットの中心位置として検出する。
例えば、二次元電気泳動画像の画像データ内における各ピクセルの濃度値の関係を、図3に示す。図3は、二次元電気泳動画像の画像データ内における各ピクセルの濃度値の関係の一例を示すグラフである。図3において、横軸は同一の行あるいは同一の列のピクセルを示しており、縦軸は各ピクセルの濃度値を示している。なお、実際の二次元電気泳動画像は、X(行)方向とY(列)方向に複数のピクセルがマトリックス状に広がる二次元画像であるが、図3〜5では説明のため、グラフの横軸に1行あるいは1列のピクセルのみを示す。
【0036】
この外部検出装置200は、各ピクセルの濃度値に基づき、図3に示すようなピーク値の位置を検出する。このピーク値の位置は、二次元電気泳動画像内における座標P(Px,Py)によって表わすことができる。図3に示す例において、ピーク値1の位置(スポットの中心位置)は、例えば、スポット位置P1(Px,Py)である。ピーク値2の位置(スポットの中心位置)は、例えば、スポット位置P2(Px,Py)である。
【0037】
次に、外部検出装置200は、検出されたピーク値の位置ごとに、ガウス関数と二次元電気泳動画像の濃度値との間で最小二乗法によるフィッティングを行い、ガウス関数のパラメータを決定する。このとき、外部検出装置200は、ガウス関数の中心位置と二次元電気泳動画像のピーク位置とを一致させてフィッティングを行う。例えば、フィッティングを行ったものを図4に示す。図4は、ガウス関数の中心位置と二次元電気泳動画像のピーク位置とを一致させてフィッティングを行ったものの一例を示すグラフである。この図4に示すグラフでは、図3に示す値に重畳して、各ピーク値に対応するガウス関数を表示している。
外部検出装置200は、決定したガウス関数のパラメータのうち、ガウス関数の広がりを表すパラメータの値を用いてスポットにあたる画像領域を決定する。なお、ガウス関数の広がりとは、ピーク値を中心としてピクセル方向のパラメータの広がりを表わす。本実施形態において、外部検出装置200は、ガウス関数の広がりを表すパラメータの値をj倍した値を半径としスポット位置を中心とする楕円の内部をスポットにあたる画像領域と決定する。このスポットにあたる画像領域を、図5に示す。図5は、スポットにあたる画像領域の一例を示す図である。
【0038】
ここで、本実施形態に係るガウス関数の広がりとスポットにあたる画像領域の決定例について、具体的に説明する。
ガウス関数は、次式で表わすことができる。
【0039】
【数1】

【0040】
なお、式(1)において、cがガウス関数の広がりを表す値である。aはピーク高さ(濃度値)、bはピーク位置の座標(ピクセル)を示す。これらa〜cを図に示すと、図4に示す通りとなる。図示の通り、このガウス関数の広がりcの値は、ガウス関数の変曲点のx座標とピーク座標の間の距離である。
【0041】
さらに、ガウス関数の広がりがcの値になるときのyの値(つまり、x=b+cのときのyの値)は次のように計算することができる。
【0042】
【数2】

【0043】
よって、例えば、ガウス関数のピーク高さの約0.6065倍の高さにおけるガウス関数の幅がcの値となる。この場合、変曲点のx座標値[ピクセル]は(b+c)、変曲点のy座標値[濃度値]はガウス関数のピーク値a×約0.6065である。
なお、式(1)と式(2)において、xは、図3〜5の横軸である二次元電気泳動画像の位置(ピクセル)を示す。yは、図3〜5の縦軸である二次元電気泳動画像の各画素における濃度値を示す。
【0044】
本実施形態において、外部検出装置200は、このようにして算出されるガウス関数の広がりを表すパラメータの値cをj倍した値を半径としスポット位置を中心とする楕円の内部をスポットにあたる画像領域と決定している。このjの値は、スポット領域があまり狭くなく、かつ隣のスポットがあまり含まれない程度のスポット領域の大きさになるように経験的に決められる値である。
jの値は、0以下であるとスポットの領域がとれなくなる。また、ガウス関数がピーク位置から離れるに従いガウス関数の値は小さくなる。このため、jの値は、あまりに大きい値にしても、スポット領域が巨大にしてしまい、隣のスポットまで含まれてしまう可能性がある。よって、jの値は、0より大きく、隣のスポットまで含まれない程度の値であることが好ましい。本実施形態において、jの値を約1.665とすることで、隣のスポットまで含まれない程度の適当なスポット領域の大きさを決定することができる。
【0045】
このようにして、外部検出装置200は、測定データである二次元電気泳動画像の画像データに基づき、スポットにあたる画像領域を例えばスポット位置の座標P(Px,Py)で示すスポット位置情報と、各スポットを識別するために割り当てられる固有の情報であるスポット識別情報とをそれぞれ対応付けるスポット情報を検出する。つまり、スポット情報は、ひとつの二次元電気泳動画像の画像データについてひとつが対応している。
【0046】
次に、データ解析装置100が、複数の二次元電気泳動画像の画像データの間においてそれぞれ対応するスポット同士の対応付けを行うためのスポット対応付け処理の処理フローの一例について、図6に参照して、以下説明する。
図6は、本実施形態に係るデータ解析装置100が、複数の測定データである二次元電気泳動画像の画像データ間においてそれぞれ対応するスポット同士の対応付けを行うまでの流れを示すフローチャートである。
(ステップST201)
入力装置102に対して、ユーザから、測定データである二次元電気泳動画像における各スポットの対応付けを行う処理(スポット対応付け処理)の実行指示が入力されると、入力装置102は、実行指示を示す情報を、制御装置101、データ処理装置103および外部記憶装置105に出力する。
入力装置102から実行指示を示す情報を受けた外部記憶装置105は、自身が保持している二次元電気泳動画像の画像データおよびスポット情報を、データ格納部141に出力する。そして、データ格納部141は、この二次元電気泳動画像の画像データおよびスポット情報を格納する。
【0047】
(ステップST202)
また、上述の通り、入力装置102は、実行指示を示す情報を、データ処理装置103の基準画像選択部131にも出力している。この基準画像選択部131は、入力装置102から実行指示を示す情報を入力すると、データ格納部141から二次元電気泳動画像の画像データを読み込む。
【0048】
(ステップST203)
基準画像選択部131は、読み込んだ二次元電気泳動画像の画像データの中から基準画像の画像データを選択する。本実施形態において、基準画像選択部131は、n枚の二次元電気泳動画像の画像データのうち、対応付けられているスポット情報に含まれるスポット識別情報の数が最も多い画像を基準画像の画像データとして選択する。つまり、基準画像選択部131は、最も多くのスポット(ポイント)を含む二次元電気泳動画像の画像データ(測定データ)を、基準画像として選択する。なお、スポットが最も多い二次元電気泳動画像が複数枚存在する場合、基準画像選択部131は、これらの二次元電気泳動画像の中から任意の画像を選択する。
この基準画像選択部131は、基準画像として選択された二次元電気泳動画像の画像データが基準画像として選択された画像であることを示す情報を、基準画像情報格納部142に格納する。例えば、基準画像選択部131は、基準画像として選択した二次元電気泳動画像の画像データを識別する画像識別情報(画像ID)を、基準画像情報格納部142に格納する。
なお、この基準画像選択部131は、入力装置102を介して入力するユーザからの指示に従い、ユーザが指定した二次元電気泳動画像の画像データを選択画像の画像データとして選択するものであってもよい。また、制御装置101が予め決められた条件を満たす二次元電気泳動画像の画像データを選択画像の画像データとして選択するように、基準画像選択部131を制御するものであってもよい。
【0049】
さらに、基準画像選択部131は、基準画像の選択を終了したことを示す情報を、対応ポイント検出部132に出力する。基準画像選択部131から基準画像の選択を終了したことを示す情報を受けた対応ポイント検出部132は、データ格納部141から二次元電気泳動画像の画像データおよびスポット情報を読み込み、基準画像情報格納部142から基準画を示す画像識別情報を読み込む。
【0050】
(ステップST204)
対応ポイント検出部132は、二次元電気泳動画像間において対応するスポット同士を検出し、これらの対応付けを行う。なお、対応ポイント検出部132によるスポット同士の対応付けについては、図7を参照して、後述する。
ここで簡単に説明すると、対応ポイント検出部132が、データ格納部141に格納されている複数の二次元電気泳動画像画像データに含まれる基準画像以外の二次元電気泳動画像(以下、スレーブ画像という)の画像データと、基準画像の画像データとを比較して、スレーブ画像内に存在するスポットと、これに対応する基準画像内のスポットとの対応付けを行う。例えば、この対応ポイント検出部132は、複数の測定データである二次元電気泳動画像のうち基準画像以外のスレーブ画像と、基準画像とをそれぞれ比較し、基準画像に出現している複数のスポットの出現位置の関係を表わすパターン(以下、基準パターンという)に類似するパターンで出現しているスレーブ画像内のスポットと、基準画像において当該スレーブ画像内のスポットと対応する出現位置にあるスポットとを対応付けた情報(以下、ポイント対応付け情報という)を作成する。このポイント対応付け情報とは、それぞれ対応するスレーブ画像内のスポットのスポット識別情報と基準画像内のスポットのスポット識別情報とを対応付けた情報である。
本実施形態において、対応ポイント検出部132は、測定データにおけるポイントの出現位置が異なる測定データ間において互いに類似している程度を示す類似度をポイント情報に基づき算出し、類似度に基づきポイント同士を対応付けたポイント対応付け情報を作成している。
そして、対応ポイント検出部132は、作成したポイント対応付け情報を、対応ポイント格納部143に格納する。
【0051】
(ステップST205)
次いで、対応ポイント検出部132は、二次元電気泳動画像間において対応するスポット同士を対応付けるスポット対応付け処理が終了したことを示す情報を、対応ポイント確認部133に出力する。対応ポイント検出部132からスポット対応付け処理が終了したことを示す情報を受けた対応ポイント確認部133は、データ格納部141から二次元電気泳動画像の画像データおよびスポット情報を読み込むとともに、基準画像情報格納部142から基準画像情報を読み込み、さらに、対応ポイント格納部143からポイント対応付け情報を読み込む。
対応ポイント確認部133は、これら読み出した情報に基づき、対応ポイント検出部132によって対応付けられたスポット同士についてその対応付け関係の確からしさを確認するための確認処理を行う。そして、対応ポイント確認部133は、最終的なスポットの対応付けを行い、確認済ポイント対応付け情報を出力装置106に出力する。
ここで簡単に説明すると、対応ポイント確認部133は、ポイント対応付け情報において対応付けられているスポット同士が同一の測定対象を示していることの確からしさを示す情報を算出し、スポット同士の対応付けが確からしいと判定される範囲として決められた閾値範囲に確からしさを示す情報が含まれているか否かを判定する。スポット同士の対応付けが確からしいと判定される範囲として決められた閾値範囲に確からしさを示す情報が含まれていない場合、対応ポイント確認部133は、ポイント対応付け情報における当該スポット同士の対応付けを解除する。
【0052】
出力装置106は、対応ポイント確認部133から入力する確認済ポイント対応付け情報に基づき、最終的な二次元電気泳動画像間におけるスポットの対応付け結果を出力する。これにより、ユーザは、最終的な二次元電気泳動画像間におけるスポットの対応付け結果を確認することができる。
【0053】
なお、上述の実施形態では、データ解析装置100が、最終的な二次元電気泳動画像間におけるスポット同士の対応付け結果を出力装置106に出力する一例について説明したが、本発明は、特にこれに限定されるわけではない。例えば、基準画像選択部131による基準画像選択処理の結果と、対応ポイント検出部132による二次元電気泳動画像間におけるスポットの対応付け処理の結果と、対応ポイント確認部133による最終的な二次元電気泳動画像間におけるスポットの対応付け処理結果が、それぞれ、出力部106を介してユーザに出力されるような構成であってもよい。
【0054】
次に、データ解析装置100の各構成部による各処理の詳細について説明する。
[基準画像選択部131による基準画像選択処理]
以下では、基準画像選択部131による複数の二次元電気泳動画像の中から一枚だけ基準画像を選択する基準画像選択処理の一例について、詳しく説明する。なお、この基準画像選択処理は、図6のステップST203に対応する処理である。
上述のステップST201とST202において説明したとおり、基準画像選択部131は、入力装置102から二次元電気泳動画像におけるスポット同士の対応付けを行う処理の実行指示を受けると、データ格納部141から二次元電気泳動画像の画像データを読み込む。基準画像選択部131は、読み込んだ全ての二次元電気泳動画像の画像データを出力装置106に出力する。この出力装置106は、この全ての二次元電気泳動画像の画像データを出力し、ユーザに提示する。ユーザは、提示された二次元電気泳動画像に基づき、入力装置102を介して基準画像を選択し、ユーザが選択した二次元電気泳動画像が基準画像であることを示す情報を入力装置102に入力する。例えば、ユーザは、入力装置102であるマウスやポインティングデバイスを用いて、二次元電気泳動画像を選択する。本実施形態において、基準画像はスポットの数が最も多い二次元電気泳動画像であって、ユーザによって、この基準画像に該当する二次元電気泳動画像が選択される。
このとき、基準画像として選択できる画像は一枚のみである。このようにして選択された基準画像の画像識別情報は、基準画像選択部131によって基準画像情報格納部142に格納される。
【0055】
[対応ポイント検出部132による対応スポットの検出処理]
続いて、対応ポイント検出部132による二次元電気泳動画像間における対応するスポット同士の対応付け処理について、図7を参照して詳しく説明する。図7は、対応ポイント検出部132が二次元電気泳動画像間における対応するスポットの対応付けを行う処理の流れの一例を示すフローチャートである。なお、このスポット対応付け処理は、図6のステップST204に対応する処理である。
(ステップST301)
まず、対応ポイント検出部132では、基準画像選択部131から基準画像の選択を終了したことを示す情報を受けると、データ格納部141から二次元電気泳動画像の画像データおよびスポット情報を読み込むとともに、基準画像情報格納部142から基準画像を示す画像識別情報を読み込む。
対応ポイント検出部132は、読み込んだ基準画像の画像識別情報に基づき、二次元電気泳動画像の画像データを、基準画像の画像データと基準画像以外のスレーブ画像の画像データとに分ける。そして、対応ポイント検出部132は、基準画像以外のスレーブ画像の中から一枚のスレーブ画像を選択し、基準画像のスポットに対して基準画像以外のスレーブ画像の中から選択した一枚のスレーブ画像のスポットと、基準画像に含まれる出現位置が対応するスポットとを対応付けていく。
【0056】
(ステップST302)
この対応ポイント検出部132は、スポットの対応付けにおいて、まず基準画像のスポットとスレーブ画像のスポット間での類似度を算出する。具体的に説明すると、対応ポイント検出部132は、基準画像のスポットとスレーブ画像のスポット間における全ての組み合わせを示す対応表データを生成する。そして、対応ポイント検出部132は、それぞれの組み合わせにおける各スポット間の相関係数を算出し、この相関係数をスポット同士の類似度とする。
例えば、図8に、基準画像とスレーブ画像の一例を示す。図8に示す通り、基準画像501にはスポット4個が、スレーブ画像502にはスポット3個が、それぞれ存在するとする。なお、この基準画像501の二次元電気泳動画像の画像データに対応するスポット情報には、スポット識別情報511〜514が割り当てられたスポットの基準画像501内における位置を示すスポット位置情報P511〜P514がそれぞれ含まれている。また、スレーブ画像502の二次元電気泳動画像の画像データに対応するスポット情報には、スポット識別情報521〜523が割り当てられたスポットのスレーブ画像502内における位置を示すスポット位置情報P521〜P523がそれぞれ含まれている。
【0057】
この場合、対応ポイント検出部132は、基準画像501のスポット511〜514とスレーブ画像502のスポット521〜523間における全ての組み合わせを示す対応表データとして、次の表1に示すような対応表を示すデータを生成する。そして、対応ポイント検出部132は、それぞれのスポット同士の組み合わせについて、表1に示すような相関係数を算出する。
【0058】
【表1】

【0059】
なお、対応ポイント検出部132は、以下に示す式(3)の計算式に従って、各スポット間の相関係数を算出する。
【0060】
【数3】

【0061】
ここで、式(3)に示すxは、基準画像の画素値である。また、yは、スレーブ画像の画素値である。基準画像あるいはスレーブ画像のそれぞれにおいて、相関係数を求めるスポットのピーク位置を中心座標P(Px,Py)=(0,0)と仮に設定した場合、基準画像とスレーブ画像で同じ座標の画素の画素値をそれぞれx、yとする。
なお、上述の通り、相関係数を求めるスポットのピーク位置である中心座標P(Px,Py)は、相関係数の算出ごとに、スポットの位置に応じてその座標値が変わる。しかし、相関係数を算出する場合においては、式(3)における各中心座標を(0,0)と仮に設定する。例えば、スポット511とスポット521間の相関係数を算出する場合、基準画像501においてはスポット511のピーク位置を中心座標(0,0)、スレーブ画像502においてはスポット521のピーク位置を中心座標(0,0)とする。また、例えばスポット512とスポット523間の相関係数を算出する場合、基準画像501においてはスポット512のピーク位置を中心座標(0,0)、スレーブ画像502においてはスポット523のピーク位置を中心座標(0,0)とする。
【0062】
また、
【数4】

は、それぞれ基準画像あるいはスレーブ画像の相関係数を求める領域における画素値の平均値である。
つまり、対応ポイント検出部132は、二次元電気泳動画像の画像データにおけるスポットの出現強度を示す情報である濃度値に基づき、異なる二次元電気泳動画像の画像データのポイント同士の相関係数を算出している。
【0063】
なお、電気泳動における泳動距離のばらつきや、ゲルのゆがみのため、相関係数を求める基準画像501に出現している各スポットの中心位置(ピーク位置)を座標P(Px,Py)とした場合、ピーク位置から遠い位置にあるスレーブ画像502におけるスポットのピーク位置の座標P(Px,Py)では、基準画像501とスレーブ画像502間において各スポット位置のずれが大きくなる。言い換えると、「基準画像501とスレーブ画像502間において各スポット位置のずれが大きくなる」とは、基準画像に出現している複数のスポットの出現位置の関係を表わす基準パターンと、スレーブ画像に出現している複数のスポットの出現位置の関係を表わすスレーブパターンとを比較した場合、スレーブ画像のスポットの位置が基準パターンの対応するスポットの位置とのずれが大きくなることである。
スポット位置のずれが大きいスポットが存在する場合、スポット間の相関係数が小さくなる、つまり類似度が小さくなる。したがって、スポットの正しい対応付けが行われない可能性がある。
これを防ぐため、相関係数の算出領域は、画像全体ではなくて一定の大きさの部分領域であることが望ましい。つまり、対応ポイント検出部132は、相関係数を算出する際、二次元電気泳動画像の画像データに含まれる濃度値(出現強度を示す情報)の一部であって、少なくとも相関係数を算出する対象であるスポットと対応する濃度値を含む濃度値に基づき算出することが好ましい。このように、相関係数を算出する範囲を制限することによって、類似度の計算量を抑えることができる。
【0064】
一方、相関係数の算出領域を、相関係数を求めるスポットのみが含まれる程度の部分領域に設定したとする。この場合、個々のスポット形状は互いに似ているので、基準パターンとスレーブパターンにおいて出現位置が対応していないスポットにおいてもスポット間の相関係数は高くなる。つまり類似度が高くなる。したがって、スポットの正しい対応付けが行われない可能性がある。
よって、相関係数の算出領域は、相関係数を求めるスポットおよび少なくともそれ以外のスポット1個とが含まれる領域に設定することが望ましい。
これにより、相関係数を求めるスポットの周辺のスポットも含めた領域の類似度でスポット間の対応付けを判断することができ、正確なスポットの対応付けが可能となる。
【0065】
(ステップST303)
次に、対応ポイント検出部132は、相関係数が示す類似度に基づいて、基準パターンにおけるスポットの出現位置と最も類似しているスレーブ画像のスポットと当該基準画像のスポットとを対応付ける。この対応ポイント検出部132は、スレーブ画像のスポットごとに、類似度が最大となる基準画像のスポットを1つ選択し、それぞれを対応付けてポイント対応付け情報を作成する。
表1の場合で説明すると、スレーブ画像502のスポット521は、基準画像501のスポット511〜514のそれぞれとの間で類似度である相関係数が対応ポイント検出部132によって算出されている。このうち類似度である相関係数が最大なのは、スポット521とスポット511との組み合わせの場合である。したがって、対応ポイント検出部132は、スレーブ画像502のスポット521のスポット識別情報と、基準画像501のスポット511のスポット識別情報とを対応付けて、ポイント対応付け情報に書き込む。同様に、対応ポイント検出部132は、スレーブ画像501のスポット522、523についても対応付けを行う。表1に示す例において、対応ポイント検出部132は、スレーブ画像502のスポット522と、基準画像501のスポット512とを対応付ける。また、対応ポイント検出部132は、スレーブ画像502のスポット523と、基準画像501のスポット513とを対応付ける。
【0066】
このようにして、対応ポイント検出部132は、スレーブ画像502の全てのスポット521〜523について、類似度が最大となる基準画像501のスポット511〜514のいずれか1つを対応づけ、これらの対応関係を示すポイント対応付け情報を生成する。
以上のようにして、対応ポイント検出部132による基準画像とスレーブ画像間におけるスポットの対応付けが行われる。対応付け結果は、対応ポイント検出部132によって対応ポイント格納部143に格納される。
【0067】
ここで、対応ポイント検出部132は、基準画像と一のスレーブ画像間におけるスポットの対応付けを終了すると、基準画像以外のスレーブ画像の中からまだ対応付けを行っていない一のスレーブ画像を選択し、基準画像と新たなスレーブ画像との間でスポットの対応付けを開始する。
この際、対応ポイント検出部132がすべての画像についてスポットの対応付けをし終えるために、例えば、対応ポイント検出部132が、基準画像以外のスレーブ画像の数をカウントするカウンタ機能を備えても良い。具体的には、基準画像選択部131が、読み込んだ二次元電気泳動画像の画像データのうち、基準画像以外のスレーブ画像に対して1から順番に番号を割り振っておく。基準画像選択部131による基準画像の選択が完了すると、対応ポイント検出部132は、カウンタがカウントする値を1に設定して初期化し、基準画像の二次元電気泳動画像の画像データとそのスポット情報、および基準画像以外のスレーブ画像の中で1番目のスレーブ画像の二次元電気泳動画像の画像データとそのスポット情報をデータ格納部141から読み出す。そして、対応ポイント検出部132は、基準画像以外のスレーブ画像の中で1番目のスレーブ画像のスポットと基準画像のスポットとの対応付けが終了すると、カウンタがカウントする値を1つ上げ、基準画像以外のスレーブ画像の中で2番目のスレーブ画像の二次元電気泳動画像の画像データとそのスポット情報をデータ格納部141から読み出すようにする。このように、カウンタはスポット対応付け処理が終了したスレーブ画像の数に応じて順にカウントの値を上げていき、カウントの値が所定の数n−1になった場合に、対応ポイント検出部132が作業を終了するような構成にすると良い。
【0068】
[対応ポイント確認部133による対応スポットの確認処理]
最後に、対応ポイント確認部133による各スポットの対応付けの確認処理について、図9を参照して詳しく説明する。図9は、対応ポイント確認部133が各スポットの対応付けの確認をするまでの流れを示すフローチャートである。なお、この確認処理は、図6のステップST205に対応する処理である。
【0069】
(ステップST401)
まず、対応ポイント確認部133は、対応ポイント検出部132からスポットの対応付けが終了したことを示す情報を受けると、データ格納部141から複数の二次元電気泳動画像の画像データとそのスポット情報を、基準画像情報格納部142から基準画像を示す画像識別情報を、対応ポイント格納部143から対応スポット情報を、それぞれ読み込む。
【0070】
(ステップST402)
そして、対応ポイント確認部133は、読み込んだ基準画像を示す画像識別情報に基づき、複数の二次元電気泳動画像の画像データを、基準画像の画像データと基準画像以外のスレーブ画像の画像データに分け、基準画像以外のスレーブ画像の中から一枚のスレーブ画像を取り出す。対応ポイント確認部133は、スポット情報に基づき、基準画像とスレーブ画像間において対応付けられたスポット間のベクトルを算出する。
ここで、ステップST402の処理について、図10を参照して、具体的に例を挙げて説明する。図10は、図8に示した基準画像とスレーブ画像と異なる例を示す。図10(a)には、基準画像701とスレーブ画像702の一例を示す。図10(b)には、基準画像701からスレーブ画像702に対するベクトルを示す。
【0071】
図10(a)に示すように、基準画像701は6つのスポット711〜716を、スレーブ画像702の6つのスポット721〜726を、それぞれ含む。これらのスポット711〜716、721〜726については、対応ポイント検出部132によって、予め表2に示すような対応スポット情報が生成されている。
【0072】
【表2】

【0073】
この表2において、基準画像701とスレーブ画像702の画像上の原点、つまり各画像における左下の位置の座標(0,0)を基準にして、基準画像701とスレーブ画像702とを重ね合わせたものを図10(b)に示す。
【0074】
そして、対応ポイント確認部133は、スレーブ画像702のスポット721〜726から、それぞれが対応付けられている基準画像701のスポット711〜716へのベクトル(以下、マッチベクトルという)731〜736を算出する。この対応ポイント確認部133が算出したマッチベクトル731〜736を、例えば図10(b)に示す。
【0075】
(ステップST403)
次に、対応ポイント確認部133は、スレーブ画像702の各スポット721〜726におけるマッチベクトル731〜736において、マッチベクトルと他のマッチベクトル間の差ベクトルの長さを算出する。
そして、対応ポイント確認部133は、算出したマッチベクトル731〜736に基づき、一のマッチベクトルと他のマッチベクトルとの差を示す差ベクトルを、マッチベクトル731〜736ごとに算出する。
【0076】
ここで、差ベクトルについて具体的に例を挙げて説明する。
図11は、マッチベクトル731と他のマッチベクトル732〜736間の差ベクトル741〜745の一例を示す。なお、差ベクトル741〜745の長さは、次の表3に示すような値であったとする。
なお、図11と表3では、対応ポイント確認部133が算出した、マッチベクトル731についてのみ他のマッチベクトル732〜736との差ベクトル741〜745の長さを示したが、実際には、対応ポイント確認部133が、マッチベクトル732〜736についても同様に他のマッチベクトルとの差ベクトルを算出する。
【0077】
【表3】

【0078】
(ステップST404)
次に、対応ポイント確認部133は、スレーブ画像702の各スポット721〜726に対応するマッチベクトル732〜736について、ステップST403において算出した差ベクトルの長さに基づき、差ベクトルの長さの代表値を算出する。
具体的に例を挙げて説明する。対応ポイント確認部133は、例えば、マッチベクトル731に対応する差ベクトルの長さとして、表3に示すように、マッチベクトル732〜736のそれぞれに対応する5個の差ベクトル741〜745の長さを算出している。
対応ポイント確認部133は、この5個の差ベクトル741〜745の長さに基づき、マッチベクトル731に対応する代表値を算出する。対応ポイント確認部133は、代表値の算出方法として、各マッチベクトルに対応する全ての差ベクトルの長さの平均値、または中央値、または最頻値などによって代表値を算出することが可能である。ここでは例として、対応ポイント確認部133が、各マッチベクトルに対応する全ての差ベクトルの長さの中央値を各マッチベクトルに対応する代表値として算出する。
【0079】
ここで、表3で示された5個の差ベクトル741〜745の長さの中央値は3ピクセルである。したがって、対応ポイント確認部133は、マッチベクトル731に対応する差ベクトル741〜745の長さの代表値は3ピクセルと算出する。ここでは例として、対応ポイント確認部133が、マッチベクトル731についてのみ差ベクトル741〜745の長さの代表値を算出する例を説明したが、実際には、対応ポイント確認部133は、マッチベクトル732〜736についても同様に差ベクトルの長さの代表値を算出する。
例えば、対応ポイント確認部133は、次の表4に示すような、各マッチベクトル731〜736にそれぞれ対応する差ベクトルの長さの代表値を算出する。
【0080】
【表4】

【0081】
(ステップST405)
そして、対応ポイント確認部133は、スレーブ画像702の各スポット721〜726について、各スポット721〜726に対応するマッチベクトルの差ベクトルの長さの代表値が予め決められた閾値より大きいか否かをそれぞれ判定する。マッチベクトルの差ベクトルの長さの代表値が閾値より大きい場合、対応ポイント確認部133は、そのスポットの対応付けは間違いであったと判定し、対応スポット情報における対応付けを解除する。この対応ポイント確認部133は、例えば、そのスポットの対応付けは間違いであったと判定した場合、対応スポット情報における対応付けられている対応する2つのスポットを示す情報を削除する。
【0082】
なお、閾値の設定方法としては次のふたつが適用可能である。なお、この閾値とは、スポット同士の対応付けが確からしいと判定される範囲の境界値を示すものである。つまり、本実施形態において、確からしさを示す情報とは、マッチベクトルの差ベクトルの長さの代表値である。
ひとつめは、全てのスポットについて同じ閾値を適用する方法である。この場合、例えば閾値として、差ベクトルの長さの代表値の平均値、または中央値、または最頻値などを使用することが可能である。
ふたつめは、スポットごとに閾値を設定する方法である。例えば、スポットが密集している場合とまばらな場合を考える。スポットが密集している場合は、正しく対応するスポットの近傍にも多くのスポットが存在するため、間違って対応付けしても正しく対応するスポットの近傍のスポットに対応付けされる可能性が高い。したがって、マッチベクトルの差ベクトルの長さは小さくなる。一方、スポットがまばらな場合は、正しく対応するスポットから離れた位置に他のスポットが存在するため、間違って対応付けされたときは正しく対応するスポットから離れた位置に存在するスポットに対応付けされる可能性が高い。
したがって、マッチベクトルの差ベクトルの長さは大きくなる。
よって、全てのスポットについて同じ閾値を適用するよりは、スポットごとに閾値を設定するほうが望ましい。例えば、対応付けられているスポットが、二次元電気泳動画像の画像データにおいて出現している他のスポットが密集する領域に存在する場合、スポット同士の対応付けが確からしいと判定される範囲を狭くする。一方、対応付けられているスポットが、二次元電気泳動画像の画像データにおいて出現している他のスポットがまばらな領域に存在する場合、スポット同士の対応付けが確からしいと判定される範囲を広くする。
つまり、閾値は、ポイント対応付け情報において対応付けられているスポットごとに、対応付けられているスポットの周辺に存在する他のスポットとの位置関係に応じて決定されることが好ましい。
【0083】
また、スポットごとに閾値を設定する場合で、スポットが密集している場合は閾値を小さく、スポットがまばらな場合には閾値を大きくする方法の具体例として、以下のようなものがある。例えば、閾値を設定するスポットと、そのスポットの最近傍のスポット間の距離を基に、距離にある係数を乗算して閾値を算出する方法が適用可能である。つまり、閾値は、ポイント対応付け情報において対応付けられているスポットと、二次元電気泳動画像において、当該対応付けられているスポットと最も近い位置に存在する他のスポットとの距離であるポイント距離に基づき決定される。
ここで、対応ポイント確認部133は、設定する閾値が小さいと正しい対応付けの組み合わせも間違いと判断して解除してしまう可能性がある。一方、設定する閾値が大きいと、対応ポイント確認部133は、間違った対応付けも正しいと判断してしまう可能性がある。したがって、ポイント距離に乗算する係数の値は、0.1〜1の範囲が望ましい。
【0084】
例えば、図10(a)に示すスレーブ画像702のスポット721に対する閾値を設定する場合を考える。スレーブ画像702においてスポット721の最も近傍に存在するスポットは、スポット723であり、両スポット721とスポット723との間の距離が5ピクセルであったとする。ここでは例えば係数を0.8とすると、閾値は5×0.8=4ピクセルと算出できる。このように、対応ポイント確認部133は、閾値として、各スポットに対応する最も近傍に存在する他のスポットとの距離に予め決められた係数を乗算して得られる値を設定する。なお、ここでは例として、対応ポイント確認部133がスポット721についての閾値のみを算出したが、これに限られず、実際には、対応ポイント確認部133は、スポット722〜726についても同様に閾値を算出する。例として、対応ポイント確認部133は、次の表5に示すような各スポット721〜726にそれぞれ対応する閾値を算出する。
【0085】
【表5】

【0086】
ここで、表4と表5とを比較すると、スポット726での閾値は4ピクセルであり、スポット726におけるマッチベクトル736の差ベクトルの長さの代表値は9ピクセルである。したがって、対応ポイント確認部133は、スポット726におけるマッチベクトル736の差ベクトルの長さの代表値がスポット726での閾値より大きいと判定し、対応スポット情報におけるスポット726とスポット716との対応付けは間違いであると判定し対応付けを解除する。その他のスポット721〜725については閾値より差ベクトルの長さの代表値のほうが小さいため、対応ポイント確認部133は、各対応付けは正しいと判断し対応付けはそのままにしておく。
【0087】
以上のようにして、対応ポイント確認部133は、基準画像とスレーブ画像との間のスポットの対応付けの正確さの確認を行い、対応付けが間違いと判断された対応付けを解除する。
ここで、対応ポイント確認部133は、基準画像と一のスレーブ画像との間のスポットの対応付け確認を終了すると、基準画像以外のスレーブ画像の中からまだ対応付け確認を行っていない他のスレーブ画像を新たなスレーブ画像として、基準画像と新たなスレーブ画像との間でスポットの対応付け確認処理を開始する。
【0088】
この際、対応ポイント確認部133がすべての画像についてスポットの対応付け確認をし終えるために、例えば、対応ポイント確認部133に基準画像以外のスレーブ画像の数をカウントするカウンタ機能を備えても良い。具体的に説明すると、対応ポイント確認部133は、基準画像選択部131が読み込んだ二次元電気泳動画像のうち、基準画像以外のスレーブ画像に対して1から順番に番号を割り振っておく。そして、対応ポイント確認部133は、対応ポイント検出部132からスポットの対応付けが終了したことを示す情報を受けると、対応ポイント確認部133は、カウンタの値を1に設定して初期化し、基準画像の二次元電気泳動画像の画像データとそのスポット情報、および、基準画像以外のスレーブ画像の中で1番目のスレーブ画像の二次元電気泳動画像の画像データとそのスポット情報を、データ格納部141から読み込む構成にしても良い。
【0089】
そして、基準画像以外のスレーブ画像の中で1番目のスレーブ画像に対するスポットの対応付け確認が終了すると、カウンタがカウントした値を1つ上げる。そして、対応ポイント確認部133は、基準画像以外のスレーブ画像の中で2番目のスレーブ画像の二次元電気泳動画像の画像データとそのスポット情報をデータ格納部141から読み込む。このように、対応ポイント確認部133は、スポットの対応付け確認処理を行った順番にカウンタがカウントした値を上げていく。カウンタがカウントした値が予め決められた数n−1になった場合に、対応ポイント確認部133が作業を終了するような構成にすると良い。
【0090】
以上のように、本実施形態に係るデータ解析装置100は、複数の二次元電気泳動画像間において基準画像のスポットと全てのスレーブ画像とのスポットの組み合わせを生成し、組み合わせたスポット間における基準画像とスレーブ画像の相関係数を算出する。そして、データ解析装置100の対応ポイント検出部132は、算出した相関係数に基づいて基準画像のスポットとスレーブ画像のスポットとの対応付けを行う。これにより、本実施形態に係るデータ解析装置100は、人手によらないで、スレーブ画像に含まれるすべてのスポットを基準画像内のスポットと対応付けることができる。
【0091】
さらに、本実施形態に係るデータ解析装置100の対応ポイント確認部133は、スレーブ画像のスポットから基準画像のスポットへのマッチベクトル間における差ベクトルの長さを求め、この差ベクトルの長さに基づいて代表値を算出する。そして、データ解析装置100の対応ポイント確認部133は、算出したマッチベクトルの差ベクトルの長さの代表値と閾値を比較して、そのスポットの対応付けが正しいか間違いかを判定する。差ベクトルの長さの代表値が閾値よりも大きい場合、データ解析装置100の対応ポイント確認部133は、当該スポットの対応付けを間違いと判定し、当該スポットの対応付けを解除する。なお、このとき、対応ポイント確認部133は、スポットのマッチベクトルの差ベクトルの長さの代表値と比較される閾値をスポットごとに算出することで、そのスポットの対応付けが正しいか間違いかの判断結果の精度を向上させることができる。
【0092】
[検出装置1の表示画面例]
次に、データ解析装置100の出力装置106に表示される表示画像の一例について、図12および図13に示す。
例えば、対応ポイント検出部132が基準画像とスレーブ画像間において対応するスポットを検出した結果を出力装置106に出力する構成にした場合に、ユーザに表示する画像の一例を図12に示す。図12は、基準画像とスレーブ画像と、対応付けたスポットごとに相関係数が表示されている例である。
図12に示す例では、対応付けられたスポットは4個あり、基準画像とスレーブ画像においてそれぞれ対応付けられたスポットには同じIDが付けられている。例えば、図示の通り、M001〜M004のIDが付与された4つのスポットが基準画像とスレーブ画像の画像上に重畳して、それぞれ表示されている。なお、このM001〜M004のIDが付与された4つのスポットは、それぞれ、スポットのピークの位置に対応するピクセルから引き出された引き出し線により表されている。なお、ユーザが、図12に示す、例えば画面内のアイコンを対応ポイント確認結果ボタン901に合わせてクリックし、この対応ポイント確認結果ボタン901を選択する。これによって、出力装置106は、図12に示す画像に代えて、図13に示すような対応ポイント確認の結果を示す画像を表示することができる。
【0093】
例えば、対応ポイント確認部133が対応スポットの確認をした結果を出力装置106に出力する構成をデータ解析装置100に採用した場合、ユーザに表示する画面の一例を図13に示す。図13は、基準画像、スレーブ画像、対応スポットの確認の結果、および正しい対応付けである可能性が予め決められた可能性以上であると判定された対応スポットの表が出力装置106の画面に表示されている例を示す。正しい対応付けである可能性が予め決められた可能性以上であると判定された対応スポットの表には、対応スポットごとに、マッチベクトルの差ベクトルの長さの代表値と閾値が表示されている。
図13に示す例では、対応付けられたスポットのペアは3組である。一方、図12に示す例では、対応付けられたスポットのペアが4組であり、両者を比較すると、図13に示す例の方が、対応付けられたスポットのペアが1組少ないことがわかる。これは、対応ポイント確認部133による対応スポットの確認の結果、IDとしてM004が付与されたスポットの対応づけが間違った対応付けであると判定されたため、つまりマッチベクトルの差ベクトルの長さの代表値が閾値より大きかったために、対応ポイント確認部133が対応付けを解除したためである。ここで、図13に示す次の画面へと記載されたボタン902をユーザが選択することによって、データ解析装置100は、次のスレーブ画像と基準画像とのスポットの対応付けを行うことができる。
【0094】
[第2実施形態]
上述において、データ解析装置100が、測定画像データとして二次元データ、すなわち二次元電気泳動画像を用いる例について説明した。しかし、本発明はこれに限定されるわけではなく、測定画像データとして一次元データを用いることも可能である。本実施形態では、測定画像データとしてピーク値を有する一次元データが複数あった場合、データ解析装置100が、それら複数の測定画像データ間において、対応するピークを対応付ける場合を想定して以下説明する。なお、本実施形態は、第1実施形態の変形例であって、測定画像データである一次元データとして、液体クロマトグラフィーを行った結果のデータ(クロマトグラム)を用いた例について以下説明する。
【0095】
この液体クロマトグラフィーでは、個々のタンパク質の大きさ、吸着力、または疎水性等の性質の違いを利用してタンパク質を分離している。具体的に説明すると、複数のタンパク質を含む試料をカラムに通し、得られた試料に基づき、光度計等の検出装置によって経過時間ごとの出力値を検出する。この検出装置から出力される信号は、時間間隔が数百ms程度の時系列データであるクロマトグラムである。このクロマトグラムでは、縦軸に信号強度をとっており、横軸に保持時間をとっている。一般的に、得られた信号強度は、一定時間ごとにデジタル値に変換するデータ処理が行われる。
【0096】
上記のタンパク質の性質により、タンパク質ごとにカラムを通過する通過速度が異なるため、カラムを通過している間にタンパク質ごとに分離される。その結果、液体クロマトグラフィーによって分離されたタンパク質は、クロマトグラム上でピークとして観察される。図14にクロマトグラムの一例を示す。図14は、複数のタンパク質を含む試料を用いて液体クロマトグラフィーを行った結果(クロマトグラム)の一例を示す。
図14に示すように、得られたクロマトグラムでは、タンパク質が時間軸方向(図中の左右方向)にタンパク質の性質の違いに応じてタンパク質を分離して、ピーク値を形成している。クロマトグラム上の複数のピークは、それぞれ種類の異なるタンパク質を表している。本図では、左から右にいくほど経過時間(通過時間)が長いことを表している。
【0097】
本実施形態において、上述の第1実施形態の二次元電気泳動画像に相当するものがクロマトグラムであり、スポットに相当するものがピークである。したがって、二次元電気泳動画像がクロマトグラムであり、スポットがピークである点以外は、上記の実施形態とほぼ同様である。そのため、以下では、上記の実施形態とは異なる点についてのみ言及し、同様での構成については同一の符号を付して詳細な説明を省略する。
【0098】
測定画像データである複数のクロマトグラムは、予め外部記憶装置105に記憶されている。さらに、クロマトグラムごとに、各クロマトグラムに含まれるピークに関する情報であるピーク情報が対応付けられて、外部記憶装置105に記憶されている。本実施形態に係るピーク情報(ポイント情報)とは、クロマトグラムにおいて検出された複数のピークのクロマトグラムにおける位置を示すピーク位置情報である。このピーク情報は、例えば次のようにして検出することができる。クロマトグラムは、単位時間ごとに検出された信号強度を持っている。ピーク位置を検出する際には、クロマトグラムにおいて、隣り合うすべての単位時間の信号強度よりも大きい信号強度を有する単位時間をピーク位置として検出する。
【0099】
続いて、対応ポイント検出部132によるクロマトグラム間におけるピークの対応付けについて説明する。対応ポイント検出部132は、複数のクロマトグラムを基準クロマトグラムと基準クロマトグラム以外のスレーブクロマトグラムに分け、基準クロマトグラム以外のスレーブクロマトグラムの中からひとつのスレーブクロマトグラムを選択する。そして、対応ポイント検出部132は、基準クロマトグラムのピークに対して基準クロマトグラム以外のスレーブクロマトグラムの中から選択したひとつのスレーブクロマトグラムのピークを対応付けていく。
【0100】
ピークの対応付けにおいて、対応ポイント検出部132は、まず、基準クロマトグラムのピークとスレーブクロマトグラムのピーク間における類似度を算出する。具体的には、対応ポイント検出部132は、基準クロマトグラムに出現している複数のピークのそれぞれとスレーブクロマトグラムに出現している複数のピークのそれぞれとの組み合わせを生成し、それぞれの組み合わせにおいてピーク間の相関係数を算出し、相関係数を類似度とする。対応ポイント検出部132は、ピーク間の相関係数を、次式(4)に従って算出する。
【0101】
【数5】

【0102】
ここで、xは、それぞれ基準クロマトグラムの単位時間の信号強度である。yは、スレーブクロマトグラムの単位時間の信号強度である。基準クロマトグラムおよびスレーブクロマトグラムにおいて、相関係数を求めるピークのピーク位置を時間0とした場合、基準クロマトグラムとスレーブクロマトグラムで同じ時間の信号強度をそれぞれx、yとする。
【0103】
また、
【数6】

はそれぞれ基準クロマトグラム、スレーブクロマトグラムの相関係数を求める領域での信号強度の平均値である。
【0104】
なお、相関係数を算出する領域については、二次元電気泳動画像の場合と同じ理由により、相関係数を求めるピークおよび少なくともそれ以外のスポット1個とが含まれる領域に設定することが望ましい。さらに、相関係数を求めるピークから遠く離れた位置にある他のピークでは、基準クロマトグラムとスレーブクロマトグラム間でピーク位置のずれが大きくなる。ピーク位置のずれが大きいピークが存在する場合、ピーク間の相関係数が小さくなる、つまり類似度が小さくなる。したがって、ピークの正しい対応付けが行われない可能性がある。これを防ぐため、相関係数の算出領域は、クロマトグラム全体ではなくて一定の大きさの部分領域であることが望ましい。
【0105】
対応ポイント検出部132による類似度に基づいたピークの対応付けは、スレーブクロマトグラムのピークごとに、類似度が最大となる基準クロマトグラムのピークを対応付ける。
なお、基準クロマトグラムの選択方法、および対応スポットの確認処理、は上記二次元電気泳動画像の実施形態と同様であるため、ここでは言及を省略する。
【0106】
ところで、以上では、タンパク質の二次元電気泳動画像またはクロマトグラムを用いてスポットまたはピークを対応付ける例を挙げたが、DNAまたはRNA等の生体高分子の二次元電気泳動画像またはクロマトグラムを用いてスポットまたはピークの対応付けをしても良い。さらに、二次元電気泳動画像およびクロマトグラムに限定されるわけではなく、DNAマイクロアレイのようにスポットが平面状に散布している画像のスポット対応付け、あるいは複数の信号成分が一次元方向に散布したスペクトルのピーク対応付けに使用しても良い。
本発明は、上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0107】
[第3実施形態]
本実施形態は、第1、2実施形態において説明したデータ解析装置100を含むタンパク質解析装置300の一例について、図15を参照して説明する。図15は、本実施形態に係るタンパク質解析装置300の構成の一例を示す図である。
図15に示す通り、タンパク質解析装置300は、上述したデータ解析装置100とタンパク質分解装置400とを備える。なお、データ解析装置100は、上述したものと同様であるため、詳細な説明は省略する。
タンパク質分解装置400は、測定データである二次元電気泳動画像の画像データとそれに対応するスポット情報や、クロマトグラムとそれに対応するピーク情報を生成し、データ解析装置100に出力する。
この構成により、タンパク質解析装置300は、タンパク質分解装置400によって分解されたタンパク質について、データ解析装置100によって解析された情報をユーザに提供することができる。よって、ユーザは、タンパク質分解装置400によって得られた分解結果について、対応するスポット同士あるいはピーク同士がそれぞれ対応付けらえた情報を観察することができる。
【0108】
[ポイント距離に乗算する係数の値について]
上述において、ポイント距離に乗算する係数の値は、0.1〜1の範囲が望ましいと説明した。この係数の範囲は、対応ポイント確認部133による対応付けの正誤の判定の精度を向上させるためにより最適な値である。この係数の範囲は、以下のような具体例に基づき、正しい対応付けは解除することなく、間違った対応付けのみを解除することができるように決定することができる。
【0109】
この具体例について、図16、17を参照して説明する。
図16に、基準画像とスレーブ画像の一例を示す。図16(a)には、基準画像801とスレーブ画像802の一例を示す。図16(b)には、基準画像801からスレーブ画像802に対するベクトルを示す。
図16(a)に示すように、基準画像801は5つのスポット811〜815を、スレーブ画像802は5つのスポット821〜825を、それぞれ含む。
これらのスポット811〜815、821〜825について、対応ポイント検出部132による対応付けが行われ、表6に示すような対応スポット情報が生成されたとする。なお、スポット824とスポット825との距離は1である。
【0110】
【表6】

【0111】
例えば、スポット811とスポット821との位置を合わせて、基準画像801とスレーブ画像802とを重ねる。この場合、スポット812とスポット822、スポット813とスポット823とは、それぞれ重なる。一方、スポット814とスポット825は、重ならず、スポット814は、スポット824と重なる。
これは、スポット814とスポット824との対応付けが正しい対応づけであって、スポット814とスポット825との対応付けが間違っていることを表している。つまり、表6に示す対応スポット情報において、スポット814とスポット825との対応付けが間違っている。
【0112】
表6において、基準画像801とスレーブ画像802の画像上の原点、つまり各画像における左下の位置の座標(0,0)を基準にして、基準画像801とスレーブ画像802とを重ね合わせたものを図16(b)に示す。
図16(b)には、対応ポイント確認部133によって算出されたマッチベクトル831〜834を示す。なお、このマッチベクトル831〜834は、スレーブ画像802のスポット821〜823、825から、それぞれが対応付けられている基準画像801のスポット811〜814へのベクトルである。
【0113】
ここで、スポット814とスポット825との対応付けを確認するため、マッチベクトル834と他のマッチベクトル831〜833間の差ベクトル841〜843を算出する。図17は、この差ベクトル841〜843の一例を示す図である。
上述の通り、スポット824とスポット825との距離は1である。よって、差ベクトル841〜843の長さは、すべて1となる。つまり、差ベクトルの代表値として中央値をとった場合、差ベクトルの代表値は1となる。
【0114】
この例において、スポット824と最も近い位置に存在するスポットは、スポット825である。また、上述の通り、スポット824と825間の距離は1である。この距離に乗算する係数が1以上であった場合、閾値は1以上になる。したがって、差ベクトルの代表値≦閾値となり、スポット814と825の対応付けは、間違いであるとは判定されず、対応付けは解除されない。しかし、本来、スポット814とスポット825との対応付けは間違いであるため、解除されるようにする必要がある。
よって、スポット814とスポット825との対応付けを解除するため、距離に乗算する係数は1より小さい値である必要がある。
【0115】
一方、距離に乗算する係数が0より小さい場合、閾値は0より小さくなる。差ベクトルの代表値は0より小さくなることはない。よって、閾値が0より小さい場合、スポットの対応付けはすべて解除されてしまう。したがって、距離に乗算する係数は0以上である必要がある。
【0116】
[プログラムおよび記録媒体]
最後に、データ解析装置100に含まれている各部は、ハードウェアロジックによって構成すれば良い。または、次のように、CPUを用いてソフトウェアによって実現しても良い。
すなわち、データ解析装置100は、各機能を実現するプログラムの命令を実行するCPU、このプログラムを格納した、上記プログラムを実行可能な形式に展開するRAM、および上記プログラムと各種データとを格納するメモリ等の記憶装置(記録媒体)を備えている。この構成により、本発明の目的は、所定の記録媒体によっても達成できる。
この記録媒体は、上述した機能を実現するソフトウェアであるデータ解析装置100のプログラムのプログラムコード(実行形式プログラム,中間コードプログラム,ソースプログラム)をコンピュータで読み取り可能に記録していれば良い。検出装置1に、この記録媒体を供給する。これにより、コンピュータとしてのデータ解析装置100(またはCPUやMPU)が、供給された記録媒体に記録されているプログラムコードを読み出し、実行すれば良い。
【0117】
プログラムコードをデータ解析装置100に供給する記録媒体は、特定の構造または種類のものに限定されない。すなわちこの記録媒体は、例えば、磁気テープまたはカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスク、またはCD−ROM/MO/MD/DVD/BD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系等とすることができる。
また、データ解析装置100を通信ネットワークと接続可能に構成しても、本発明の目的を達成できる。この場合、上記のプログラムコードを、通信ネットワークを介して検出装置1に供給する。この通信ネットワークはデータ解析装置100にプログラムコードを供給できるものであれば良く、特定の種類または形態に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、または衛星通信網等であれば良い。
【0118】
この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な任意の媒体であれば良く、特定の構成または種類のものに限定されない。例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、またはADSL(Asymmetric Digital Subscriber Line)回線等の有線でも、IrDAまたはリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、または地上波デジタル網等の無線でも利用可能である。なお、本発明は上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【0119】
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【産業上の利用可能性】
【0120】
本発明は、タンパク質、DNA、またはRNA等の二次元電気泳動画像、クロマトグラム、あるいはDNAマイクロアレイ等のスポットまたはピークを有する測定データが複数あった場合、測定データ間で当該スポットまたはピークの対応付けを行う際に好適に用いられる。本発明に係るデータ解析装置100は、例えば、一般的な画像解析装置に比べて、このような産業分野において用いられることにより、相関係数の算出において、二次元電気泳動画像の濃度値をそのまま用いることができる。これにより、高精度な類似度を算出することができる。
一般的なパターン認識の技術では、画像の濃度値をそのまま用いて類似度を判定するのではなく、画像の特徴(形、色等)を何らかの方法で数値化した後、類似度を判定している。このため、画像の特徴の数値化の時点で、数値化されなかった特徴の情報は欠落している。本願発明によると、画像の濃度値をそのまま用いることができるため、画像の特徴を欠落させることなく類似度判定することができる。
【符号の説明】
【0121】
100・・・データ解析装置、102・・・入力装置、103・・・データ処理装置、104・・・記憶装置、105・・・外部記憶装置、106・・・出力装置、131・・・基準画像選択装置、132・・・対応ポイント検出部、133・・・対応ポイント確認部、141・・・データ格納部、142・・・基準画像情報格納部、143・・・対応ポイント格納部、200・・・外部検出装置、300・・・タンパク質解析装置、400・・・タンパク質分解装置、501・・・基準画像、502・・・スレーブ画像、511〜523・・・スポット、701・・・基準画像、702・・・スレーブ画像、711〜726・・・スポット、731〜736・・・マッチベクトル、741〜745・・・差ベクトル、801・・・基準画像、802・・・スレーブ画像、811〜825・・・スポット、831〜834・・・マッチベクトル、841〜843・・・差ベクトル、901・・・ボタン、902・・・ボタン

【特許請求の範囲】
【請求項1】
測定データ内から検出される測定対象を表わすポイントについて、前記測定対象が関連するポイント同士の対応付けを行うデータ解析装置であって、
複数の前記測定データと、前記測定データにおける複数の前記ポイントの出現位置を表わすポイント情報とを入力する入力手段と、
前記測定データにおける前記ポイントの出現位置が異なる前記測定データ間において互いに類似している程度を示す類似度を前記ポイント情報に基づき算出し、当該類似度に基づき前記ポイント同士を対応付けたポイント対応付け情報を作成する対応ポイント検出手段と、
を備えることを特徴とするデータ解析装置。
【請求項2】
前記対応ポイント検出手段は、
前記類似度として、前記測定データにおける前記ポイントの出現強度を示す情報に基づき、異なる前記測定データの前記ポイント同士の相関係数を算出することを特徴とする請求項1に記載のデータ解析装置。
【請求項3】
前記対応ポイント検出手段は、
前記相関係数を算出する際、前記測定データに含まれる前記出現強度を示す情報の一部であって、少なくとも前記相関係数を算出する前記ポイントの出現を示す情報を含む前記出現強度を示す情報に基づき算出することを特徴とする請求項2に記載のデータ解析装置。
【請求項4】
前記ポイント対応付け情報において対応付けられている前記ポイント同士が同一の測定対象を示していることの確からしさを示す情報を算出し、前記ポイント同士の対応付けが確からしいと判定される範囲として決められた閾値範囲に前記確からしさを示す情報が該当しないと判定された場合、前記ポイント対応付け情報における前記ポイント同士の対応付けを解除する確認手段をさらに備えることを特徴とする請求項1から3のいずれか一項に記載のデータ解析装置。
【請求項5】
前記確認手段は、
前記ポイント対応付け情報においてそれぞれ対応付けられている前記ポイント同士のベクトルを算出し、
算出した複数の前記ベクトルに基づき、各ベクトル同士の差を示す差ベクトルの長さを算出し、
前記差ベクトルの長さに基づき、各ベクトルに対応する差ベクトルの長さを示す代表値を前記ベクトルごとに算出し、
前記確からしさを示す情報を前記代表値とすることを特徴とする請求項4に記載のデータ解析装置。
【請求項6】
前記代表値は、
前記差ベクトルの長さの平均値、中央値、最頻値のうちいずれか1つであることを特徴とする請求項5に記載のデータ解析装置。
【請求項7】
前記閾値範囲は、
前記ポイント対応付け情報において対応付けられているポイントごとに、前記対応付けられているポイントの周辺に存在する他の前記ポイントとの位置関係に応じて決定されることを特徴とする請求項4に記載のデータ解析装置。
【請求項8】
前記閾値範囲において、
前記測定データにおいて出現している他の前記ポイントが密集する領域に前記対応付けられているポイントが存在する場合、前記ポイント同士の対応付けが確からしいと判定される範囲を狭くし、
前記測定データにおいて出現している他の前記ポイントがまばらな領域に前記対応付けられているポイントが存在する場合、前記ポイント同士の対応付けが確からしいと判定される範囲を広くする
ことを特徴とする請求項7に記載のデータ解析装置。
【請求項9】
前記閾値範囲は、
前記ポイント対応付け情報において対応付けられているポイントと、前記測定データにおいて当該対応付けられているポイントと最も近い位置に存在する他のポイントとの距離であるポイント距離に基づき決定されることを特徴とする請求項8に記載のデータ解析装置。
【請求項10】
前記閾値範囲は、
前記ポイント距離に対して予め決められた0.1〜1の値の係数を乗算した値を閾値とする範囲であることを特徴とする請求項9に記載のデータ解析装置。
【請求項11】
前記測定データは、二次元データにおいて複数の前記ポイントが出現するデータであって、前記ポイントの出現位置を前記二次元データにおける前記ポイントの位置によって示していることを特徴とする請求項1から10のうちいずれか一項に記載のデータ解析装置。
【請求項12】
前記測定データは、二次元電気泳動画像の画像データであって、当該二次元電気泳動画像におけるピクセル毎に画像の色や明るさの濃度を示す濃度値の高い部分が前記ポイントとして出現していることを特徴とする請求項11に記載のデータ解析装置。
【請求項13】
コンピュータを、請求項1から12のうちいずれか一項に記載の入力手段、対応ポイント検出手段、あるいは、確認手段として機能させるためのプログラム。
【請求項14】
請求項13に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項15】
測定対象を示すポイントが出現している測定データを用いて前記測定対象が関連するポイント同士の対応付けを行うデータ解析方法であって、
複数の前記測定データと、前記測定データにおける複数の前記ポイントの出現位置を表わすポイント情報とを入力するステップと、
前記測定データにおける前記ポイントの出現位置が異なる前記測定データ間において互いに類似している程度を示す類似度を前記ポイント情報に基づき算出し、当該類似度に基づき前記ポイント同士を対応付けたポイント対応付け情報を作成するステップと、
を備えることを特徴とするデータ解析方法。
【請求項16】
請求項1から12のうちいずれか一項に記載のデータ解析装置と、
タンパク質を含む物質からタンパク質を分離して、分離されたタンパク質を前記ポイントとして示す前記測定データを生成し、前記データ解析装置に出力するタンパク質分離装置と
を備えることを特徴とするタンパク質解析装置。

【図1】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図2】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−168014(P2012−168014A)
【公開日】平成24年9月6日(2012.9.6)
【国際特許分類】
【出願番号】特願2011−29103(P2011−29103)
【出願日】平成23年2月14日(2011.2.14)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】