生物種類判定方法

【課題】パターン認識を利用した生物種の判定において、あらかじめ定められたどのカテゴリーにも対応しない生物が未知サンプルに含まれている場合に、生物種の生物学的特長に応じて、誤った判定する可能性を低減することができる判定方法を提供すること。
【解決手段】既知生物ごとに固有の判定不能閾値を設けておき、これらの判定不能閾値を利用して、未知サンプルに対応する生物種を判定するか、しないかを決定し、判定をすると決定されたならば判定を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明はパターン認識を用いた生物種判定方法に関するものであり、特に、分析する方法としてＤＮＡマイクロアレイを用いた核酸配列解析システムに好適に適用でき、微生物の種類を判定する用途に用いるとその効果を発揮する。
【背景技術】
【０００２】
従来、ガラスなどからなる基板上に位置を定めて固定された、プローブと呼ばれる核酸断片を配備したＤＮＡマイクロアレイは未知の核酸サンプルの分析用として広く利用されてきた。このＤＮＡマイクロアレイを用いることで、未知の核酸断片サンプル（未知サンプルと称す）を解析し、未知サンプルがどの生物種に由来するかを判定する方法にも利用されてきた。この方法ではハイブリダイゼーション反応という、核酸の塩基対形成反応が利用される。
【０００３】
ハイブリダイゼーション反応とは何かを以下に説明する。生体内でほとんどの場合、ＤＮＡは２重らせん構造をしていて、その２本鎖の間の結合は塩基間の水素結合で実現されている。一方、ＲＮＡは１本で存在する場合が多い。塩基の種類はＤＮＡの場合はATGCの４種類、RNAの場合はAUGCの４種類であり、それぞれ水素結合ができる塩基対はA-T(U)、G-Cのペアとなっている。ハイブリダイゼーション反応とは、１本鎖状態の２つの核酸分子同士が適切な条件下で反応して、核酸中にある塩基配列を介して１つに結合するこという。
【０００４】
このことを踏まえ、従来の生物種を判定する方法を以下に説明する。基板上に固定されたプローブと、そのプローブと塩基対を形成することのできる相補的な塩基配列をもつ核酸断片とは、適切な反応条件のもとでハイブリダイゼーション反応を生じ、プローブと核酸断片が結合することができる。基板上に固定されたプローブが特定の生物に対応した塩基配列であって、かつハイブリダイゼーション反応が生じてプローブと核酸断片とが結合したことを認識できれば、核酸断片に対応する生物種はプローブに対応する生物種と同一であると判定可能である。すなわち未知サンプルに対応する生物種を判定することができる。
【０００５】
例えば、核酸断片に蛍光物質を付与することによってハイブリダイゼーション反応が生じたかどうかを光学的に認識することができる。基板上に固定されたプローブから蛍光が生じた場合、ハイブリダイゼーション反応が生じ、プローブと核酸断片との結合体が形成されたと認識できる。この結果に基づいて、核酸断片はプローブに対応する生物種と同一であると判定される。一方、プローブから蛍光が生じなかった場合、ハイブリダイゼーション反応が生じず、プローブと核酸断片との結合体が形成されなかったと認識され、核酸断片はプローブに対応する生物種ではないと判定される。この判定方法を利用すると、ひとつの未知サンプルが与えられた場合、どの生物種に対応するかを一度のハイブリダイゼーション反応で複数種類の生物種に関して判定することができる。すなわち、対応する生物種が既知のプローブを複数準備し、基板上に位置を定めて固定する。そのようにして作成したＤＮＡマイクロアレイに、未知サンプルを適切な反応条件のもとでハイブリダイゼーション反応をさせる。そして、基板上の位置から生物種を特定し、蛍光の有無でその生物種に対応するか否かを、判定する事ができる。つまり、基板上のどの位置のプローブから蛍光が生じるかを確認することによって、未知サンプルの生物種を判定することができる。
【０００６】
しかし実際には、未知サンプルとプローブのハイブリダイゼーション反応の結果、ただ一つの生物種に対応するプローブが蛍光を生じるわけではない。多くの場合、たとえ未知サンプルには一種類の生物種しか対応しないことが事前にわかっていても、ハイブリダイゼーション反応させると、生物種を特定するためのプローブとは別に、他のプローブから蛍光が生じる場合がある。これは核酸分子がその中にある塩基配列を介して部分的に他のプローブと結合する場合があるからであり、クロスハイブリダイゼーションと呼ばれる。このクロスハイブリダイゼーションが発生するために、上記のように基板上の位置と蛍光の有無、の二つの情報のみでは未知サンプルに対応する生物種を判定することができない場合が多い。たとえば未知サンプルを、複数種類の生物種に対応するプローブを備えたＤＮＡマイクロアレイとハイブリダイゼーションさせたとき、生物Ａと生物Ｂに対応するプローブから蛍光を生じたとしても、以下の結果を反映している可能性の検討が必要である。
【０００７】
すなわち、クロスハイブリダイゼーションの可能性を考慮すると、生物Ａのみ未知サンプルに含まれている場合、生物Ｂのみ含まれる場合、生物Ａと生物Ｂともに含まれる場合、などが考えられ、一意に未知サンプルに含まれる生物種を決定することができない。
【０００８】
一般的な傾向として、同じプローブに結合した核酸断片から発生する蛍光強度は、クロスハイブリダイゼーションして部分的にプローブに結合した場合に生じる蛍光強度よりハイブリダイゼーションしてほぼ完全に結合した場合に生じる蛍光強度の方が強い。よって、ＤＮＡマイクロアレイを利用して、未知サンプルを解析し、未知サンプルがどの生物種であるかを判定する場合には、プローブの位置情報と蛍光強度に代表されるシグナル強度の情報と、から総合的に生物種を判定する方法を選択するべきである。
【０００９】
なお、ＤＮＡマイクロアレイと未知サンプルとのハイブリダイゼーション反応後の蛍光強度はプローブ位置によって順序つけられたベクトルデータとして記憶手段に格納して利用することができる。
【００１０】
特表2002-533699号公報には、ＤＮＡマイクロアレイを利用して未知のサンプルから得られたベクトルデータを解析し、この未知のサンプルから得られたベクトルデータと最も似ている既知のベクトルデータを検索する方法が開示されている。この最も似ている既知のベクトルデータを検索するという情報処理は、パターン認識として知られ、非常に一般的である。パターン認識とは、観測されたパターンを予め定められた複数の「カテゴリー」のうちの一つに対応させる処理である。「カテゴリー」を説明する例として、ＯＣＲ（Optical Character Recognition）と呼ばれる技術分野では、紙に印刷、または手書きされた文字を一つのパターンとしてパターン認識する。このとき、認識対象を数字としたとすると、「紙に書かれている文字が０から９の数字のどれに一番近いか？」を既知のベクトルデータと照らし合わせて求める。パターン認識の問題において、この認識すべき０から９の10種類の数字が「カテゴリー」である。
【００１１】
通常、パターン認識の問題においては、認識すべきカテゴリーの数と種類が事前に定められている。例えば上記の例では、数字といえば０〜９であり、日本語なら3000字程度の漢字、英語のアルファベットなら26文字というようにカテゴリーの数と種類はあらかじめ定められている。
【特許文献１】特表2002-533699号公報
【発明の開示】
【発明が解決しようとする課題】
【００１２】
しかしながら、対応する生物種が未知の核酸断片サンプルをつかってＤＮＡマイクロアレイとハイブリダイゼーションさせた結果得られたベクトルデータを使って、パターン認識する場合、カテゴリーが事前に想定されるとは限らない場合が多い。例えば、未知サンプル中にある細菌が存在するかどうかを、ＤＮＡマイクロアレイを用いて判定する場合では、あらかじめプローブとして配備する核酸断片に対応する細菌の種類を決める。しかしながら実際に未知サンプル中に存在する生物が、プローブに対応した生物種の中で収まる可能性は低い。なぜなら、先に説明したＯＣＲと呼ばれる技術分野における０〜９までの９種類のカテゴリー、アルファベットＡからＺの２６種類のカテゴリー、または漢字ならば約３０００種類のカテゴリーに比べて、生物種全体の種類は圧倒的多数に上る。それゆえ、たとえ判定したい生物種を細菌に限ったとしても、想定すべきカテゴリーが膨大な数となり、あらかじめ全ての種類の細菌に関するカテゴリーを定めることは事実上不可能であるからである。したがって、未知サンプル中に存在すると想定される生物の種類をある程度限定してカテゴリーを定めることが必要である。
【００１３】
そのため、ＯＣＲなどの文字認識で利用される従来の方法をそのまま生物種の判定に適用するには問題があった。具体的には、未知サンプル内にあらかじめ定められていないカテゴリーの生物が含まれていた場合、この生物を定められたカテゴリーに無理に対応させてしまうといった誤った判定をしてしまうという問題があった。
【００１４】
本発明の目的は、パターン認識を利用した生物種の判定において、あらかじめ定められたどのカテゴリーにも対応しない生物が未知サンプルに含まれている場合に、生物種の生物学的特長に応じて、誤った判定する可能性を低減すること目的とする。
【課題を解決するための手段】
【００１５】
本発明の生物種判定方法は、生物に由来する物質が含まれていることが想定される物質を分析して、対応する生物の種類を判定する生物種判定方法において、
対応する生物種が判明している複数の既知サンプルを生物種分析方法により分析して、複数の分析データを得る工程と、
既知サンプルから得た該複数の分析データに基づいて、該既知サンプルに対応する生物種に関する判定不能閾値を設定する工程と、
対応する生物種が未知である未知サンプルを、前記生物種分析法により分析して、該未知サンプルに対応する生物種の特定のための分析データを得る工程と、
前記判定不能閾値に基づいて前記未知サンプルに対応する種類を判定するか、あるいは判定不能であるかを決定する工程と、
判定をすると決定されたならば、前記複数の分析データに基づいて前記未知サンプルの生物種を判定する工程と、
を有する生物種判定方法である。
【００１６】
また、本発明の生物種判定方法の他の態様は、生物に由来する物質が含まれていることが想定される物質を生物種分析方法にて分析して、対応する生物の種類を判定する生物種判定方法において、
（１）前記未知サンプルに対する判定結果として想定される生物種を選択する工程と、
（２）前記選択された生物類に属することが判明している複数の個体から得られる既知サンプルの各々から、該生物種に特徴的であって、パターン認識用として使用し得る複数の画像データからなる画像データ群を得る工程と、
（３）前記画像データ群から画像データを選択し、残りの画像データとの関係を用いて判定不能閾値を設定する工程と、
（４）未知サンプルからの画像データを得る工程と、
（５）前記未知サンプルからの画像データを前記判定不能閾値に基づいて、該未知サンプルに対応する生物種を判定するか判定が不能であるかを決定する工程と、
（６）前記（５）で判定を行うことが決定された場合は、前記画像データ群からなる識別辞書を用いて、生物種を判定する工程と、
を有することを特徴とする生物種類判定方法である。
【００１７】
本発明の生物種判定のための情報処理装置は、対応する生物種が判明している複数の既知サンプルを生物分析方法により分析して得られた複数の分析データ、及び、該複数の分析データに基づいて設定された判定不能閾値を記憶したメモリと、該メモリに記憶された判定不能閾値に基づいて、未知サンプルに対応する生物種が判定可能か否かを決定し、判定可能と決定した場合には、前記メモリに記憶された複数の分析データに基づいて前記未知サンプルに対応する生物種の判定を行う処理ユニットとから成る生物種判定のための情報処理装置である。
【００１８】
本発明の生物種判定のための情報処理装置の他の態様は、生物に由来する物質が含まれていることが想定される物質を分析して、対応する生物種を判定するための情報処理装置において、対応する生物種が判明している複数の既知サンプルを分析して得られる該生物種に特徴的な画像データを入力するための既知サンプル画像データ入力手段と、
未知サンプルを前記既知サンプルと同様に分析して得られる画像データを入力する未知サンプル画像データ入力手段と、
取り込まれた前記画像データを記憶する記憶手段と、
既知サンプルから得た該複数の分析データに基づいて、該既知サンプルに対応する生物種に関する判定不能閾値を設定する手段と、
未知サンプルからの画像データを前記判定不能閾値にもとづいて判定を行うかまたは判定を行わないかを決定し、判定を行うのであれば、未知サンプルに対応する生物種を判定する生物種判定手段と、
前記判定手段での判定結果を記憶する記憶手段と、
前記記憶手段に記憶された判定結果を出力する出力手段と
を有することを特徴とする生物種判定のための情報処理装置である。
【００１９】
本発明の生物種判定のためのプログラムは、未知サンプルに対応する生物種の判定をコンピュータに実行させるためのプログラムであって、
（１）未知サンプルに対する判定結果として想定される生物種に属する複数の異なる個体からの既知サンプルを分析して得られる該想定される生物種に特徴的な画像データに対応する複数の画像データを格納した記憶手段から、これらの複数の既知サンプル画像データを呼び出すステップと、
（２）未知サンプルを前記既知サンプルと同様にして分析して得られる画像データに対応する複数の画像データを格納した記憶手段から、該未知サンプル画像データを読み出すステップと、
（３）前記既知サンプル画像データから１つを選択し、選択された１つと残りの画像データとの関係を用いて判定不能閾値を設定するステップと、
（４）前記判定不能閾値に基づいて前記未知サンプル画像データを処理し、未知サンプルに対応する生物の種類を判定するステップと、
（５）前記判定ステップで得られた判定結果を記憶手段に格納させるステップと、
（６）前記記憶手段に格納された判定結果を出力するステップと
を有することを特徴とする生物種類判定用プログラムである。
【００２０】
本発明の生物種判定のための記録媒体は、生物種判定をコンピュータで実行するためのプログラムを読み取り可能に記録した記録媒体であって、該プログラムが上記構成の生物種判定のためのプログラムであることを特徴とする記録媒体である。
【００２１】
本発明の生物種判定方法の他の態様は、対応する生物種が判明している複数の既知サンプルを生物分析方法により分析して得られた複数の分析データと、該複数の分析データに基づいて設定された判定不能閾値を用い、前記判定不能閾値に基づいて、未知サンプルに対応する生物種が判定可能か否かを決定した後、判定可能と決定した場合には、前記複数の分析データに基づいて前記未知サンプルに対応する生物種の判定を行う生物種判定方法である。
【発明の効果】
【００２２】
本発明によれば、あらかじめ定められたどのカテゴリーにも対応しない生物が未知サンプルに含まれている場合に、判定不能と判断することができるので、適切な生物種判定結果が得られるという効果がある。また、生物種に対応するカテゴリーごとに判定不能の判断を行うためのパラメータを設定することができるので、生物種の生物学的特長に応じた最適な生物種判定結果が得られるという効果がある。
【発明を実施するための最良の形態】
【００２３】
本発明にかかる生物種の判定方法は、ベクトルデータを解析して、識別辞書の作成及び判定不能閾値を決定する方法が含まれる。本発明にかかる生物種の判定方法では、最初に生物種が判明している生物から抽出された核酸断片サンプル（既知サンプルと称す）を分析して得られたベクトルデータを外部記憶手段に格納する。この既知サンプルを分析して得られたベクトルデータを辞書のように参照して未知サンプルの生物種を判定するので、外部記憶手段に格納された既知サンプルを分析して得られた生物種判定用のベクトルデータの総体を、識別辞書と称することにする。
【００２４】
次に識別辞書として格納されたベクトルデータを用いて、判定不能閾値を設定する。この判定不能閾値の設定方法に関しては後ほど詳述する。設定された判定不能閾値に従って、対応する生物種を判定したい未知サンプルが作成した識別辞書で生物種を判定できるのか、または判定できない（判定不能）のかが判断される。
【００２５】
以下、既知サンプルおよび未知サンプルを分析した結果が画像データとして得られる場合について本発明の判定方法を説明する。
【００２６】
識別辞書を作成するための既知サンプルの選定に当たっては、まず判定対象としての生物が属すると想定される生物種類が選択される。例えば未知サンプル中に細菌が存在している可能性があって、細菌に関しての生物種判定を行いたい場合、細菌のなかから既知の生物種をあらかじめ選択する。この選択された生物種が、パターン認識を利用した生物種判定方法におけるカテゴリーに相当する。数字やアルファベットに比べ生物種全体の種類は圧倒的多数に上るので、ある程度限定してカテゴリーを定めることが必要であることは既に述べた。
【００２７】
次に、選択された各生物種の固体を用意し、各生物種の固体から抽出された核酸断片サンプルを得る。これを既知サンプルとして、既知サンプル及び未知サンプルから画像データを得るための分析方法を選択する。この分析方法は、パターン認識により生物種の判定が可能となる方法から選択される。例えば、ＤＮＡマイクロアレイなどを用いて、得られた画像データをベクトルデータとして認識する分析方法が好適に利用できる。
【００２８】
ＤＮＡマイクロアレイを利用して画像データをどのようにして得るかを説明する。プローブは、生物種ごとに用意されて、前述のように基板上の所定の位置（すなわち、どの生物種に対応するプローブがどの位置に配備されているかがあらかじめ定められた位置）に固定されている。核酸断片に例えば蛍光物質を付与することによって、ＤＮＡマイクロアレイと核酸断片とを適切な条件下で反応させたときに、ハイブリダイゼーション反応が生じたかどうかを光学的に認識することができる。
【００２９】
本発明では、１つのカテゴリーに対して、１つの既知サンプルから得た画像データから識別辞書を作成するのではなく、各カテゴリーにおいてそれぞれ２つ以上の既知サンプル（同種の生物の異なる２つ以上の個体）から得られる画像データに基づいて判定不能閾値を設定して、生物種類の判定を行なう。
【００３０】
なお、判定したい生物が微生物であれば、生物種類として微生物の「種（species）」を選択することができ、その他様々な生物に本発明が適用できることは言うまでもない。
【００３１】
以下、図面に基づいて本発明の一例について説明する。
【００３２】
図１は、本発明の生物種類判定方法の一例における処理手順を説明するフローチャートである。この生物種類判定方法は、ある未知サンプル中にターゲットとしての生物種を特定できるこの生物種に由来する物質が存在するか、存在するとすればそれが由来する生物は何の種類に属するかを判定する方法である。生物種類判定方法における棄却とは、ターゲットとして選択した生物種に由来する物質が未知サンプルに存在しないとの判定をすることである。なお、以下においては、微生物などのゲノム解析を用いる生物種類判定を主体として本発明を説明する。しかしながら、例えば、抗原抗体反応を用いた検査システムなどに対しても本発明の技術を適用できる。また、ＭＨＣなどの個体識別ゲノム領域などを分析するシステムにも適用してもよい。
【００３３】
本発明における未知サンプルの生物種判定処理の流れは、大きくみて、既知サンプルを用いて識別辞書を作成する学習フェーズと未知サンプルを判定する判定フェーズに分かれる。図１において、１０１から１０４が学習フェーズで、１０５から１０８が判定フェーズである。
【００３４】
以下に学習フェーズを説明する。ステップ１０１では、対応する生物の種類が既知の生物から抽出された核酸断片を含む既知サンプルを用意する。例えば、菌種が特定されている菌のゲノムなどを含む溶液などが既知サンプルに相当する。この既知サンプルを用いて一連のハイブリダイゼーション反応実験１０２を行ってデータを得る。詳細は後述するが、例えばＤＮＡマイクロアレイを用いた場合、まずＰＣＲ反応により既知サンプルに含まれる核酸断片を増幅し、蛍光物質を付与する。その後、ＤＮＡマイクロアレイとハイブリダイゼーション反応をして、それぞれのスポットの蛍光強度のデータを画像として認識して外部記憶手段に格納する。この画像データをもとに、判定不能閾値設定ステップ１０３と、辞書作成ステップ１０４で、判定不能閾値と識別辞書がそれぞれ作成される。
【００３５】
次に判定フェーズを説明する。未知のサンプルを用意し（ステップ１０５）、ステップ１０２と全く同じ手順でハイブリダイゼーション反応実験１０６を実施する。ハイブリダイゼーション反応により得られた画像データと、学習フェーズで得られた判定不能閾値、識別辞書とを照らし合わせることによって、未知サンプルに対して生物種の判定を行う（ステップ１０７）。その結果判定結果１０８として、「未知サンプルは生物種Ａに対応する」、「未知サンプルには生物種Ａ〜Ｃに由来する物質が含まれる」、「未知サンプルには生物種Ａ〜Ｚ以外で生物群αに含まれる生物に由来する物質が存在する」、「１０５の未知サンプルは判定できない（＝判定不能）」というような結果が得られる。
【００３６】
以上に説明した学習フェーズ中の、特に判定不能閾値の設定方法について異なる２通りの方法を以下に詳しく説明する。
【００３７】
まず同種であるが異なる生物個体から得られた既知サンプルを用意し、ＤＮＡマイクロアレイとハイブリダイゼーション反応させ画像データを得る。判定不能閾値の設定には、次の方法のいずれかを好ましく用いることができる。
・方法（１）３以上の既知サンプルの画像データから１つを選択して除外し、残りの既知サンプルの画像データから識別辞書を作成し、それを利用して判定不能閾値を設定する方法。
・方法（２）３以上の既知サンプルの画像データから選択した任意の２つの組み合わせの全てについてパターン認識アルゴリズムにより求めた距離を利用して判定不能閾値を設定する方法。
【００３８】
まず、上記の方法（１）の判定不能閾値を設定する方法について説明する。この方法の処理手順のフローチャートを図８に示す。まず、未知サンプルに対する生物種判定結果として想定されるｎ種の異なる生物種（Ｓ１〜Ｓｎ：ｎ≧２）、すなわちターゲットカテゴリーを選択する（ステップ８０２）。次に、選択されたターゲットカテゴリーごとに固有の判定不能閾値を得るための処理を行う。次にステップ８０２でターゲットカテゴリーとして選択されたカテゴリーの既知サンプルを用意して、ハイブリダイゼーションさせた結果、画像データを得ることができる。画像データは、識別辞書を作成するために外部記憶手段に格納される。この画像データの総体を学習データと呼ぶことにする。以下、ターゲットカテゴリーＳ１に属する生物種を例にあげて、（１）の判定不能閾値を設定する方法を説明する。
【００３９】
まず、ターゲットカテゴリーS1に属するｍ個の個体Ｓ１−X（１≦X≦ｍ、ｍ≧３）を用意する。用意した各個体から拡散断片を抽出し、ｍ個（ｍ≧３）の既知サンプルを得る。このｍ個の既知サンプルとDNAマイクロアレイとを適当な条件下でハイブリダイゼーションさせ、ｍ個（ｍ≧３）（Ｐｓ１−１〜Ｐｓ１−ｍ）の画像データ群を得る。次に、学習データ分割ステップ８０３において、これらの画像データから１つを選択して学習データから除去する。次に、１つの画像データを除いた残りのｍ−１個の学習データ８０４を用いて、辞書作成ステップ８０５において識別辞書８０６を作成する。この辞書作成ステップ８０５は、採用したパターン認識アルゴリズムに則って作成される。
【００４０】
パターン認識による未知パターンの判定には、公知の方法から選択した方法を利用することができる。パターン認識による判定や分類のための方法は、例えば、IEEE Transaction on Pattern Analysis and Machine Learning, Vol. 22, No. 1, January 2000, pp.4-pp.37にある"Statistical Pattern Recognition: A Review"Anil K. Jain, Robert P.W. Duin, and Jianchan Mao. の論文にレビューされている。具体的には、例えばk-Nearest-Neighbor法、分類木、Support Vector Machine、ベイズ識別法、ブースティング法、ニューラルネットなどのパターン認識の技術が利用できる。
【００４１】
例えばニューラルネットをパターン認識アルゴリズムとして採用したとすると、ネットワークの重みパラメータ集合が識別辞書として学習される。例えばSupport Vector Machineがパターン認識アルゴリズムとして採用されたとすると、いわゆるSupport Vectorと呼ばれる代表するサンプルベクトルとその重み付けが識別辞書として学習される。本発明において、識別辞書として学習される、もしくは学習する、とは、学習データに基づいて識別辞書を作成することと同義である。
【００４２】
次に、学習データから除いた一つの画像データを、識別辞書８０６を用いて判定する（ステップ８０８）。ここでは、例えば個体S1−１に対応する画像データＰｓ１−１を学習データから除いたとしよう。この時、注意すべきなのは、識別辞書８０６はステップ８０７で除いた１つの画像データを含まない。よって、識別辞書８０６に対して、ステップ８０７で除かれた個体S１−１は未知サンプルとなる。識別辞書を用いて判定を行う場合、外部記憶手段に格納されたベクトルデータ同士を比較するために、ユークリッドノルムに代表されるノルムをあらかじめ定義する必要がある。本発明の生物種判定方法にユークリッドノルムを採用した場合については後述されるが、もちろん一般の種々のノルムを採用してもかまわない。以上の工程を経て、判定指数８０９が得られる（ステップ８０９）。
【００４３】
一般にパターン認識アルゴリズムの判定結果は、数値データとなる。例えば判定確率であったり、類似度であったり、単にベクトルデータ同士の距離であったりする。このように、判定指数８０９はあらかじめ定義されたノルムを用いて算出された判定結果である数値データを意味する。
【００４４】
こうして、ｍ個の画像データのうち、学習データから一つの画像データを除いた学習データをもちいて作成した識別辞書を用いて、ターゲットカテゴリーＳ１についての一つの判定指数A１−１が得られる。
【００４５】
次に、上記の学習データ分割ステップ８０３で除かれなかったターゲットカテゴリーS1の画像データを新たにＳ１−X（１≦X≦ｍ、ｍ≧３）の中から選択して同様に除く。ここではS1−２に対応する画像データを選択したとしよう。同様の処理を行ない、ターゲットカテゴリーＳ１に関する判定指数A1−２を得る。すなわち上記の操作を同様にターゲットカテゴリーＳ１の各画像データに実行することによりｍ個の判定指数からなる判定指数集合｛A１｝を得る。判定指数集合｛A１｝は、m個の判定指数の元（げん）、A1−１、A−２、・・・A１−ｍ、からなる。
【００４６】
こうして得られた判定指数集合｛A１｝からターゲットカテゴリーS1に関する判定不能閾値を設定することができる。上記ではターゲットカテゴリーS１に関して例にあげて判定指数集合を得る方法を説明した。同様にして最初に選んだｎ種のターゲットカテゴリーのうち、ターゲットカテゴリーS1以外の他のターゲットカテゴリーに関してもそれぞれ判定指数集合を得る。その結果、ｎ個の判定指数集合を得ることができる。
【００４７】
図９に、ｎ個の判定指数集合のうちから一つの判定指数集合を選び、判定指数集合８１０の分布をヒストグラムで表示した例を示す。判定指数８０９が類似度を示している場合、判定不能閾値を、例えば、集合の最小値のα倍（α<1）に設定したり、集合の平均値や中央値のβ倍（β＞０）にしたりする。逆に、８０９の判定指数が非類似度を示している場合、判定不能閾値を、例えば、集合の最大値のα倍（α>1）に設定したり、集合の平均値や中央値のβ倍（β＞０）にしたりする。判定不能閾値を、判定指数集合に基づいてどのような値に設定するかは、検査対象としての生物の種類、パターン認識を用いる分析方法の種類、目的とする判定精度などに応じてターゲットカテゴリーごとに選択できる。このようにして定めた判定不能閾値の設定が適切かどうかを確認する方法として、選択したターゲットカテゴリーに含まれないことがあらかじめ判明しているサンプルを未知サンプル１０５として用いる方法がある。図１を用いて前述した未知サンプルの生物種判定処理を実行して、この未知サンプルについて「判定不能である」との結果がでるかどうかを試験して、判定不能閾値の設定が正しいかどうかを確認することができる。
【００４８】
つぎに、方法（２）の判定不能閾値を設定する方法を以下に説明する。図１０に判定不能閾値を設定する別の例を示す。パターン認識アルゴリズムとしてk-Nearest-Neighbor法（特にk=1）を選び、ノルムとしてユークリッドノルムを採用した場合の判定不能閾値設定方法を以下に説明する。この場合、未知サンプルを分析して得られた画像データから算出された判定指数が非類似度を示すとすると、定められた判定不能閾値より大きい時に「判定不能」という結果がでることになる。判定不能閾値を設定するために、まずひとつのターゲットカテゴリーS1を選び、S1に属する全ての既知サンプルをハイブリダイゼーションさせた結果、画像データを得て外部記憶手段に格納する。この格納された画像データの総体からS1に属する任意の２つの画像データの組み合わせを選択し、この２つの画像データをもとに認識されたプローブ位置によって順序つけられた蛍光強度からなるベクトルデータ同士のユークリッド距離を算出する。つづいて、上記で選ばれなかった２つの画像データの組み合わせを新しく選出し、同様にして、新しく選出された２つの画像データに基づいてユークリッド距離を算出する。このような手順で、S1に属し外部記憶手段に格納された画像データ群に関してそれぞれの組み合わせに基づいてユークリッド距離が算出される。ターゲットカテゴリーに属する既知サンプルが６つ用意された場合を図７に示す。この場合、２つの画像データをもとに算出されるユークリッド距離の個数は₆Ｃ₂＝１５となる。
【００４９】
ターゲットカテゴリーS1に属する全ての画像データの組み合わせに基づいて算出されたユークリッド距離を、判定指数をｘ軸としてヒストグラムを用いて示したものが図１０である。図１０は距離の分布に２つの山が存在する。カテゴリーに属するサンプルベクトルが２つの領域に局在することを意味する。このように、ヒストグラムからターゲットカテゴリーS１の性質を確認できるので、各ターゲットカテゴリーにごとに適切な判定不能閾値の設定方法を選ぶことができる。
例えば、この距離集合の平均値や中央値などの統計的代表値をもって判定不能閾値とすることができる。
【００５０】
次に、得られた判定不能閾値を、図１を用いて前述した未知サンプルの生物種判定処理を実行して、このようにして定めた判定不能閾値の設定が適切かどうかを、方法（１）と同じ方法で確認する。選択したターゲットカテゴリーに含まれないことがあらかじめ判明しているサンプルを未知サンプル１０５として用いる。この未知サンプルについて「判定不能である」との結果がでるかどうかを試験して、判定不能閾値の設定が正しいかどうかを確認する。
【００５１】
次に、上記の生物種類判定方法に用い得る情報処理装置としてのコンピュータシステム、プログラム、画像認識を用いた分析方法などの各処理について説明する。
【００５２】
以上説明した生物種類判定は、予め作成されたプログラムに従ったコンピュータ上での処理により自動化可能である。本発明にかかる生物種類判定のための情報処理装置は、生物に由来する物質が含まれていることが想定される物質を分析して、対応する生物種を判定するための情報処理装置である。この情報装置は以下の少なくとも手段を用いて構成することができる。
（１）対応する生物種が判明している複数の既知サンプルを分析して得られる該生物種に特徴的な画像データを入力するための既知サンプル画像データ入力手段。
（２）未知サンプルを前記既知サンプルと同様に分析して得られる画像データを入力する未知サンプル画像データ入力手段。
（３）取り込まれた前記画像データを記憶する記憶手段。
（４）既知サンプルから得た該複数の分析データに基づいて、該既知サンプルに対応する生物種に関する判定不能閾値を設定する手段。
（５）未知サンプルからの画像データを前記判定不能閾値にもとづいて処理し、未知サンプルの提供元である生物の種類を判定する生物種類判定手段。
（６）前記判定手段での判定結果を記憶する記憶手段。
（７）前記記憶手段に記憶された判定結果を出力する出力手段。
【００５３】
上記の判定不能閾値の設定は、記憶手段に３以上の個体からの画像データを記憶手段に記憶させておき、以下のステップを有するプログラムに基づいて実行されることが好ましい。
（ａ）３以上の画像データから１つの画像データを選択して除外し、残りの複数の画像データを用いて識別辞書を作成し、得られた識別辞書に基づいて先に除外した画像データを判定して判定指数を得る処理を、各画像データごとに行なって３以上の判定指数からなる判定指数集合を得るステップ。
（ｂ）前記判定指数集合から判定不能閾値を設定するステップ。
【００５４】
また、上記の判定不能閾値の設定は、次のようにして行われることが好ましい。すなわち、記憶手段に３以上の個体からの画像データを記憶手段に記憶させておく。そして、前記個体が３以上であり、前記記憶手段にこれらの個体からの画像データが記憶されており、前記判定不能閾値の設定が、少なくとも以下の工程を実行するプログラムに基づいて行われることも好ましい。
（Ａ）前記３以上の画像データから選択した任意の２つの画像データの全ての組み合せについて、２つの画像データ間の距離を求め、距離集合を得る工程。
（Ｂ）前記距離集合から判定不能閾値を決定する工程。
【００５５】
また、本発明にかかる生物種類判定のためのプログラムは、未知サンプルに対応する生物の種類の判定をコンピュータに実行させるためのプログラムであって、少なくとも以下のステップを実行するためのものである。
（１）未知サンプルに対する判定結果として想定される生物種に属する複数の異なる個体からの既知サンプルを分析して得られる該想定される生物種に特徴的な画像データに対応する複数の画像データを格納した記憶手段から、これらの複数の既知サンプル画像データを呼び出すステップ。
（２）未知サンプルを前記既知サンプルと同様にして分析して得られる画像データに対応する複数の画像データを格納した記憶手段から、該未知サンプル画像データを読み出すステップ。
（３）前記既知サンプル画像データから１つを選択し、選択された１つと残りの画像データとの関係を用いて判定不能閾値を設定するステップ。
（４）前記判定不能閾値に基づいて前記未知サンプル画像データを処理し、未知サンプルに対応する生物の種類を判定するステップ。
（５）前記判定ステップで得られた判定結果を記憶手段に格納させるステップ。
（６）前記記憶手段に格納された判定結果を出力するステップ。
【００５６】
上記の判定不能閾値の設定ステップは、個体を３以上とし、記憶手段にこれらの個体からの画像データが記憶を記憶させておき、少なくとも以下のステップによって行うことが好ましい。
（ａ）前記３以上の画像データから１つの画像データを選択して除外し、残りの複数の画像データを用いて識別辞書を作成し、得られた識別辞書に基づいて先に除外した画像データを判定して判定指数を得る処理を、各画像データごとに行なって３以上の判定指数からなる判定指数集合を得るステップ。
（ｂ）前記判定指数集合から判定不能棄却閾値を決定するステップ。
【００５７】
また、上記の判定不能閾値の設定ステップは、個体を３以上とし、記憶手段にこれらの個体からの画像データが記憶を記憶させておき、少なくとも以下のステップによって行うことが好ましい。
（Ａ）前記３以上の画像データから選択した任意の２つの画像データの全ての組み合せについて、２つの画像データ間の距離を求め、距離集合を得る工程。
（Ｂ）前記距離集合から判定不能閾値を決定する工程。
【００５８】
記憶手段に、多数の既知生物種類のそれぞれにおける判定不能閾値を格納しておき、未知サンプルの種類に応じて、未知試料に含まれる生物由来物質がその存在を示すことが想定される必要数のカテゴリーを選択するステップをプログラムに追加しておくとよい。このことにより、判定不能かどうかを検討するカテゴリー数を効果的に低減でき、より効率の良い判定処理が可能となる。
【００５９】
なお、上記のプログラムは、コンピュータシステムの記憶手段中に保持させておいてもよいし、記録媒体に格納して使用者に配布できるようにしてもよい。更には、ネットワークシステムを介して配布できるようにしてもよい。
【００６０】
図２に、生物種類判定方法を実行し得るコンピュータシステムを利用した情報処理装置の構成の一例のブロック図を示す。この装置は、外部記憶装置２０１、中央処理装置（CPU）２０２、メモリ２０３、入出力装置２０４を少なくとも有して構成される。外部記憶装置２０１には、生物種類判定を行なうための上述した構成のプログラムや、既知サンプル及び未知サンプルを対するハイブリダイゼーション反応を利用した分析の結果としての画像データが保持される。外部記憶装置２０１には、更に判定不能閾値を用いた決定の結果を保持させる。中央処理装置（CPU）２０２は、生物種類判定のためのプログラムを実行したり、すべての装置の制御を行なったりする。メモリ２０３は中央処理装置（CPU）２０２が使用するプログラム、及びサブルーチンやデータを一時的に記録する。入出力装置２０４は、ユーザーとのインタラクションを行う。多くの場合、プログラム実行のトリガーはこの入出力装置を介してユーザーが出す。また、ユーザーが結果を見たり、プログラムのパラメータ制御をこの入出力装置を介して行う。
【００６１】
図３はＤＮＡマイクロアレイ上のハイブリダイゼーションの様子を示した図である。生体内でほとんどの場合、ＤＮＡは２重らせん構造をしていて、その２本鎖の間の結合は塩基間の水素結合で実現されている。一方、ＲＮＡは１本で存在する場合が多い。塩基の種類はDNAの場合はATGCの４種類、RNAの場合はAUGCの４種類であり、それぞれ水素結合ができる塩基対はA-T(U)、G-Cのペアとなっている。一般にハイブリダイゼーション反応とは、１本鎖状態の核酸分子同士がその中にある部分塩基配列を介して部分的に結合する状態をいう。図３に示す例では、図中上側の基板にくっついた核酸分子（プローブ）の方が下側のサンプル中にある核酸分子より短い。サンプル中に存在する核酸分子がプローブの塩基配列を含む場合は、このハイブリダイゼーション反応はうまくいき、サンプル中の核酸分子はＤＮＡマイクロアレイにトラップされることとなる。
【００６２】
次に、図４を用いてＤＮＡマイクロアレイを用いて画像データを得るための実験手順全般について説明する。４０１の「サンプル」とは対象としている生物由来物質、例えば核酸（細胞に含まれている状態のものも含む）が含まれている、あるいは含まれていることが想定される液体や個体である。例えば、感染症の原因菌の特定をするために本発明を適用した場合、ヒト、家畜等の動物由来の血液、喀痰、胃液、膣分泌物、口腔内粘液等の体液、尿及び糞便のような排出物、人、動物などから採取した組織片等の細菌などの微生物やそれに由来する物質が存在すると思われるあらゆる物が未知サンプル４０１の供給元となる。また、食中毒、汚染の対象となる食品、飲料水及び温泉水のような環境中の水等、細菌による汚染が引き起こされる可能性のある媒体が未知サンプルの供給元として用いられることもある。さらに、輸出入時における検疫等の動植物も検体としてその対象となる。既知サンプルの場合には、種類が既知である微生物などから調製されたサンプルである。
【００６３】
次に、必要に応じて、４０２の"生化学的増幅"方法を用いて４０１のサンプルとしての核酸を増幅する。例えば感染症の原因菌の特定をするために本発明を適用した場合、16s rRNA検出用に設計されたＰＣＲ反応用プライマーを用いてＰＣＲ法によって対象核酸を増幅したり、或いはＰＣＲ増幅物を元にさらにＰＣＲ反応等を行なって調整したりする。また、ＰＣＲ以外のＬＡＭＰ法などの増幅方法により調整してもよい。
【００６４】
その後で、増幅されたサンプル、または４０１のサンプルそのものに、可視化のために各種標識法により標識する。この標識物質としては、通常Cy3, Cy5, Rodaminなどの蛍光物質が用いられる。また、４０２の生化学的増幅の実験手順の中で、標識分子を混入することもある。
【００６５】
そして、標識分子が付加された核酸を図１における、４０４のＤＮＡマイクロアレイとハイブリダイゼーション反応（４０５）を行う。この様子は、図３に示した通りである。例えば、感染症の原因菌の特定をするために本発明を適用した場合、４０４のＤＮＡマイクロアレイは、菌に特異的なプローブを基板に固定したものとなる。各菌のプローブの設計は、例えば16s rRNAをコーディングしているゲノム部分より、当該菌に対し非常に特異性が高く、十分かつそれぞれのプローブ塩基配列で"出来るだけ"ばらつきのないハイブリダイゼーション感度が期待できるように行う。４０４のＤＮＡマイクロアレイのプローブを固定する担体（基板）は、ガラス基板、プラスチック基板、シリコンウェハー等の平面基板が考えられる。また、凹凸のある三次元構造体、ビーズのような球状のもの、棒状、紐状、糸状のもの等を用いても、本発明の実景形態、効果には影響ない。
【００６６】
通常、基板の表面はプローブＤＮＡの固定化が可能なように処理したものが使用される。特に、表面に化学反応が可能となるように官能基を導入した物は、ハイブリダイゼーション反応の過程でプローブが安定に結合している為に、再現性の点で好ましい形態である。プローブの固定化方法としては、例えば、マレイミド基とチオール（−ＳＨ）基との組合わせを用いて基板上にプローブを固定化する方法が挙げられる。即ち、核酸プローブの末端にチオール（−ＳＨ）基を結合させておき、固相表面がマレイミド基を有するように処理しておくことで、固相表面に供給された核酸プローブのチオール基と固相表面のマレイミド基とが反応して核酸プローブを固定化する。ガラス基板へのマレイミド基の導入は、まず、ガラス基板にアミノシランカップリング剤を反応させ、次にそのアミノ基とＥＭＣＳ試薬（N-(6-Maleimidocaproyloxy)succinimide :Ｄｏｊｉｎ社製）との反応により行うことができる。ＤＮＡへのＳＨ基の導入は、ＤＮＡ自動合成機上5'-Thiol-ModifierC6（Glen Research社製）を用いる事により行なうことができる。固定化に利用する官能基の組合わせとしては、上記したチオール基とマレイミド基の組合わせ以外にも、例えばエポキシ基（固相上）とアミノ基（核酸プローブ末端）の組合わせ等が挙げられる。また、各種シランカップリング剤による表面処理も有効であり、該シランカップリング剤により導入された官能基と反応可能な官能基を導入したオリゴヌクレオチドが用いられる。さらに、官能基を有する樹脂をコーティングする方法も利用可能である。
【００６７】
ハイブリダイゼーション反応を行った後、４０４のＤＮＡマイクロアレイの表面を洗浄し、プローブと結合していない核酸を剥がした後で、通常は乾燥し、４０５の蛍光量を測定する。そして、ＤＮＡマイクロアレイの基板に励起光を照射し、蛍光強度を測定した画像（４０６）が得られる。この画像（４０６）が画像データとなる。画像データの一例を図６に示した。異なる既知サンプルに対応して、図６の６０１と６０２とで異なる画像データ（画像）が得られている。
【００６８】
次に、図５を用いて感染症の菌を特定する場合のＤＮＡマイクロアレイの原理を示す。図５で示したＤＮＡマイクロアレイは、例えば、黄色ブドウ球菌を特定する目的で作られている。左の列は、黄色ブドウ球菌野生株由来の処理系列であり、右の列は大腸菌野生株由来の処理系列である。例えば、左は黄色ブドウ球菌に感染した患者の血液を処理する流れで、右は大腸菌に感染した患者の血液を処理する流れだと考えてよい。
【００６９】
どちらも基本的には同じ処理を行う。つまり、まず初めに例えば菌感染患者の血液や、痰などからＤＮＡを抽出する。この際に、一般的には、患者の体細胞由来の人間のＤＮＡも含まれる可能性がある。
【００７０】
抽出されたＤＮＡが少ない場合、ＰＣＲ法などの方法で増幅を行う。この際に蛍光物質もしくは蛍光物質を結合させることができる物質を標識として混入させるのが一般的である。増幅をしない場合は、抽出されたＤＮＡを用いて、相補鎖を作りながら蛍光物質もしくは蛍光物質を結合させることができる物質を標識として混入させる、または、そのまま直接抽出されたＤＮＡに蛍光物質もしくは蛍光物質を結合させることができる物質を標識として付加させる。
【００７１】
通常、ＰＣＲ増幅を行う場合、感染症の菌特定目的であれば、いわゆる16s rRNAといわれるリボゾームＲＮＡを構成する塩基配列の部分を増幅するのが一般的である。この場合、左の黄色ブドウ球菌のＰＣＲプライマーと右の大腸菌のＰＣＲプライマーはほとんど同じものを使うこととなる。より具体的には、どんな菌の16s rRNAをコーディングしている部分でも増幅させることができるプライマーセットを用いて、マルチプレックスＰＣＲを行う。
【００７２】
黄色ブドウ球菌を判定する目的のために設計されたＤＮＡマイクロアレイが正しく動作するならば、左のハイブリ溶液では、スポットがポジティブに反応し、右のハイブリ溶液では、スポットがネガティブに反応する。これと全く同じように、大腸菌の存在を判定する目的のために設計されたＤＮＡマイクロアレイが正しく動作するならば、次の反応が生じる。すなわち、左のハイブリ溶液（ハイブリダイゼーション用溶液）では、スポットがネガティブに反応し、右のハイブリ溶液（ハイブリダイゼーション用溶液）では、スポットがポジティブに反応する。
【００７３】
ポジティブに反応したスポットからの蛍光強度を測定して図４で示すスキャン画像処理を行なうことで画像データを得ることができる。ここで、同じ種類に属する異なる個体からのサンプルを用いて同じ分析条件で画像データを得た場合に、常に同じ蛍光強度が得られれば、それを辞書として用いればよい。しかしながら、実際には、蛍光強度にバラツキが生じるので、未知サンプルからの画像データがこのバラツキの範囲内なのか、あるいはその範囲外で既知のカテゴリーに属さないと判定すべきかどうかの明確な基準を得ることが困難な場合がある。更に、後述の実施例で示すように、プローブによってはクロスハイブリダイゼーションを生じる。そこで本発明では、図８に示すように同一種類に属する多数の異なる個体からのサンプルを用いた識別辞書作成と判定不能閾値の設定より、カテゴリーごとに未知サンプルの判定を行なうかどうかの基準を明確としている。
【実施例】
【００７４】
以下、本発明の生物種類判定方法に利用し得る分析データの取得方法の具体例を挙げる。なお、本発明は、以下に述べる感染症の原因菌特定に限ったものではなく、ＭＨＣなどの人間の体質判定や、癌などの疾病に関わるＤＮＡ、ＲＮＡの解析に用いてもよい。
【００７５】
実施例１
＜プローブDNAの準備＞
Enterobacter cloacae菌検出用Probeとして以下に示す核酸配列（Ｉ−ｎ）（ｎは数字）を設計した。具体的には、16s rRNAをコーディングしているゲノム部分より、以下に示したプローブ塩基配列を選んだ。これらのプローブ塩基配列群は、当該菌に対し非常に特異性が高く、十分かつそれぞれのプローブ塩基配列で"出来るだけ"ばらつきのないハイブリダイゼーション感度が期待できるように設計されている。
I-1：CAgAgAgCTTgCTCTCgggTgA
I-2：gggAggAAggTgTTgTggTTAATAAC
I-3：ggTgTTgTggTTAATAACCACAgCAA
I-4：gCggTCTgTCAAgTCggATgTg
I-5：ATTCgAAACTggCAggCTAgAgTCT
I-6：TAACCACAgCAATTgACgTTACCCg
I-7：gCAATTgACgTTACCCgCAgAAgA
上記のプローブは、DNAマイクロアレイに固定するための官能基として、合成後、定法に従って核酸の5'末端にチオール基を導入した。官能基の導入後、精製し、凍結乾燥した。凍結乾燥した内部標準用プローブは、-30℃の冷凍庫に保存した。
【００７６】
一方、黄色ブドウ球菌（Ａ−ｎ）、表皮ブドウ球菌（Ｂ−ｎ）、大腸菌（Ｃ−ｎ）、肺炎桿菌（Ｄ−ｎ）、緑膿菌（Ｅ−ｎ）、セラチア菌（Ｆ−ｎ）、肺炎連鎖球菌（Ｇ−ｎ）、インフルエンザ菌（Ｈ−ｎ）、及びエンテロコッカス・フェカリス菌（Ｊ−ｎ）（ｎは数字）についても同様な手法により以下に示すプローブセットを設計した。
A-1：gAACCgCATggTTCAAAAgTgAAAgA
A-2：CACTTATAgATggATCCgCgCTgC
A-3：TgCACATCTTgACggTACCTAATCAg
A-4：CCCCTTAgTgCTgCAgCTAACg
A-5：AATACAAAgggCAgCgAAACCgC
A-6：CCggTggAgTAACCTTTTAggAgCT
A-7：TAACCTTTTAggAgCTAgCCgTCgA
A-8：TTTAggAgCTAgCCgTCgAAggT
A-9：TAgCCgTCgAAggTgggACAAAT
B-1：gAACAgACgAggAgCTTgCTCC
B-2：TAgTgAAAgACggTTTTgCTgTCACT
B-3：TAAgTAACTATgCACgTCTTgACggT
B-4：gACCCCTCTAgAgATAgAgTTTTCCC
B-5：AgTAACCATTTggAgCTAgCCgTC
B-6：gAgCTTgCTCCTCTgACgTTAgC
B-7：AgCCggTggAgTAACCATTTgg
C-1：CTCTTgCCATCggATgTgCCCA
C-2：ATACCTTTgCTCATTgACgTTACCCg
C-3：TTTgCTCATTgACgTTACCCgCAg
C-4：ACTggCAAgCTTgAgTCTCgTAgA
C-5：ATACAAAgAgAAgCgACCTCgCg
C-6：CggACCTCATAAAgTgCgTCgTAgT
C-7：gCggggAggAAgggAgTAAAgTTAAT
D-1：TAgCACAgAgAgCTTgCTCTCgg
D-2：TCATgCCATCAgATgTgCCCAgA
D-3：CggggAggAAggCgATAAggTTAAT
D-4：TTCgATTgACgTTACCCgCAgAAgA
D-5：ggTCTgTCAAgTCggATgTgAAATCC
D-6：gCAggCTAgAgTCTTgTAgAgggg
E-1：TgAgggAgAAAgTgggggATCTTC
E-2：TCAgATgAgCCTAggTCggATTAgC
E-3：gAgCTAgAgTACggTAgAgggTgg
E-4：gTACggTAgAgggTggTggAATTTC
E-5：gACCACCTggACTgATACTgACAC
E-6：TggCCTTgACATgCTgAgAACTTTC
E-7：TTAgTTACCAgCACCTCgggTgg
E-8：TAgTCTAACCgCAAgggggACg
F-1：TAgCACAgggAgCTTgCTCCCT
F-2：AggTggTgAgCTTAATACgCTCATC
F-3：TCATCAATTgACgTTACTCgCAgAAg
F-4：ACTgCATTTgAAACTggCAAgCTAgA
F-5：TTATCCTTTgTTgCAgCTTCggCC
F-6：ACTTTCAgCgAggAggAAggTgg
G-1：AgTAgAACgCTgAAggAggAgCTTg
G-2：CTTgCATCACTACCAgATggACCTg
G-3：TgAgAgTggAAAgTTCACACTgTgAC
G-4：gCTgTggCTTAACCATAgTAggCTTT
G-5：AAgCggCTCTCTggCTTgTAACT
G-6：TAgACCCTTTCCggggTTTAgTgC
G-7：gACggCAAgCTAATCTCTTAAAgCCA
H-1：gCTTgggAATCTggCTTATggAgg
H-2：TgCCATAggATgAgCCCAAgTgg
H-3：CTTgggAATgTACTgACgCTCATgTg
H-4：ggATTgggCTTAgAgCTTggTgC
H-5：TACAgAgggAAgCgAAgCTgCg
H-6：ggCgTTTACCACggTATgATTCATgA
H-7：AATgCCTACCAAgCCTgCgATCT
H-8：TATCggAAgATgAAAgTgCgggACT
J-1：TTCTTTCCTCCCgAgTgCTTgCA
J-2：AACACgTgggTAACCTACCCATCAg
J-3：ATggCATAAgAgTgAAAggCgCTT
J-4：gACCCgCggTgCATTAgCTAgT
J-5：ggACgTTAgTAACTgAACgTCCCCT
J-6：CTCAACCggggAgggTCATTgg
J-7：TTggAgggTTTCCgCCCTTCAg
＜検体増幅用PCR Primer の準備＞
起炎菌検出用の為の16s rRNA核酸（標的核酸）増幅用PCR Primerとして表１に示す核酸配列を設計した。具体的には、16s rRNAをコーディングしているゲノム部分を特異的に増幅するプローブセット、つまり約1500塩基長の16s rRNAコーディング領域の両端部分で、特異的な融解温度をできるだけ揃えたプライマーを設計した。なお、変異株や、ゲノム上に複数存在する16s rRNAコーディング領域も同時に増幅できるように複数種類のプライマーを設計した。
【００７７】
【表１】

【００７８】
表中に示したPrimerは、合成後、高速液体クロマトグラフィー（HPLC）により精製し、Forward Primer 3種、Reverse Primer 3種を混合し、それぞれのPrimer濃度が、最終濃度10 pmol/μl となるようにTE緩衝液に溶解した。
【００７９】
＜Enterobacter#cloacae Genome DNA（モデル検体）の抽出＞
（微生物の培養＆ Genome DNA 抽出の前処理）
まず、Enterobacter cloacae 標準株を、定法に従って培養した。この微生物培養液を1.5ml容量のマイクロチューブに1.0ml（OD600=0.7）採取し、遠心分離で菌体を回収した（8500rpm、5min、4℃）。上精を捨てた後、Enzyme Buffer（50mM Tris-HCl：p.H. 8.0、25mM EDTA）300μlを加え、ミキサーを用いて再縣濁した。再縣濁した菌液は、再度、遠心分離で菌体を回収した（8500rpm、5min、4℃）。上精を捨てた後、回収された菌体に、以下の酵素溶液を加え、ミキサーを用いて再縣濁した。
Lysozyme：50 μl （20 mg/ml in Enzyme Buffer）
N-Acetylmuramidase SG：50 μl （0.2 mg/ml in Enzyme Buffer）
次に、酵素溶液を加え再縣濁した菌液を、37℃のインキュベーター内で30分間静置し、細胞壁の溶解処理を行った。
【００８０】
（Genome抽出）
以下に示す微生物のGenome DNA抽出は、核酸精製キット（MagExtractor -Genome-：TOYOBO社製）を用いて行った。具体的には、まず、前処理した微生物縣濁液に溶解・吸着液750μlと磁性ビーズ40μlを加え、チューブミキサーを用いて、10分間激しく攪拌した（ステップ１）。次に、分離用スタンド（Magical Trapper）にマイクロチューブをセットし、30秒間静置して磁性粒子をチューブの壁面に集め、スタンドにセットした状態のまま、上精を捨てた（ステップ２）。次に、洗浄液 900 μl を加え、ミキサーで5sec程度攪拌して再縣濁を行った（ステップ３）。次に、分離用スタンド（Magical Trapper）にマイクロチューブをセットし、30秒間静置して磁性粒子をチューブの壁面に集め、スタンドにセットした状態のまま、上精を捨てた（ステップ４）。ステップ３、４を繰り返して2度目の洗浄（ステップ５）を行った後、70％エタノール 900 μl を加え、ミキサーで5sec程度攪拌して再縣濁した（ステップ６）。次に、分離用スタンド（Magical Trapper）にマイクロチューブをセットし、30秒間静置して磁性粒子をチューブの壁面に集め、スタンドにセットした状態のまま、上精を捨てた（ステップ７）。ステップ６、７を繰り返して70％エタノールによる2度目の洗浄（ステップ８）を行った後、回収された磁性粒子に純水 100 μl を加え、チューブミキサーで10分間攪拌を行った。
【００８１】
次に分離用スタンド（Magical Trapper）にマイクロチューブをセットし、30秒間静置して磁性粒子をチューブ壁面に集め、スタンドにセットした状態のまま、上精を新しいチューブに回収した。
【００８２】
（回収したGenome DNAの検査）
回収された微生物（Enterobacter cloacae 株）のGenome DNAは、定法に従って、アガロース電気泳動と260/280nmの吸光度測定を行い、その品質（低分子核酸の混入量、分解の程度）と回収量を検定した。本実施例では、約10μgのGenome DNA が回収され、GenomeDNAのデグラデーションやｒRNAの混入は認められなかった。回収したGenome DNAは、最終濃度50ng/μｌとなるようにTE緩衝液に溶解し、以下の工程に使用した。
【００８３】
＜DNAマイクロアレイの作製＞
［1］ガラス基板の洗浄
合成石英のガラス基板（サイズ：25mmｘ75mmｘ1mm、飯山特殊ガラス社製）を耐熱、耐アルカリのラックに入れ、所定の濃度に調製した超音波洗浄用の洗浄液に浸した。一晩洗浄液中で浸した後、20分間超音波洗浄を行った。続いて基板を取り出し、軽く純水ですすいだ後、超純水中で20分超音波洗浄をおこなった。次に80℃に加熱した１N水酸化ナトリウム水溶液中に10分間基板を浸した。再び純水洗浄と超純水洗浄を行い、DNAチップ用の石英ガラス基板を用意した。
【００８４】
［2］表面処理
シランカップリング剤KBM-603(信越シリコーン社製)を、1%の濃度となるように純水中に溶解させ、2時間室温で攪拌した。続いて、先に洗浄したガラス基板をシランカップリング剤水溶液に浸し、20分間室温で放置した。ガラス基板を引き上げ、軽く純水で表面を洗浄した後、窒素ガスを基板の両面に吹き付けて乾燥させた。次に乾燥した基板を120℃に加熱したオーブン中で1時間ベークし、カップリング剤処理を完結させ、基板表面にアミノ基を導入した。次いで同仁化学研究所社製のN-マレイミドカプロイロキシスクシイミドを、ジメチルスルホキシドとエタノールの1:1混合溶媒中に最終濃度が0.3mg/mlとなるように溶解させてEMCS溶液を用意した。なお、N-マレイミドカプロイロキシスクシイミド(N-(6-Maleimidocaproyloxy)succinimido)を以下EMCSと略す。ベークの終了したガラス基板を放冷し、調製したEMCS溶液中に室温で2時間浸した。この処理により、シランカップリング剤によって表面に導入されたアミノ基とEMCSのスクシイミド基が反応し、ガラス基板表面にマレイミド基が導入された。EMCS溶液から引き上げたガラス基板を、先述のMCSを溶解した混合溶媒を用いて洗浄し、さらにエタノールにより洗浄した後、窒素ガス雰囲気下で乾燥させた。
【００８５】
［3］プローブDNA
先に作製した微生物検出用プローブを純水に溶解し、それぞれ、最終濃度（インク溶解時）10μMとなるように分注した後、凍結乾燥を行い、水分を除いた。
【００８６】
［4］BJプリンターによるDNA吐出、および基板への結合
グリセリン7.5wt%、チオジグリコール7.5wt%、尿素7.5wt%、アセチレノールEH(川研ファインケミカル社製)1.0wt%を含む水溶液を用意した。続いて、先に用意した7種類のプローブ（表１）を上記の混合溶媒に規定濃度なるように溶解した。得られたDNA溶液をバブルジェットプリンター（商品名：BJF-850 キヤノン社製）用インクタンクに充填し、印字ヘッドに装着した。
【００８７】
なおここで用いたバブルジェットプリンターは平板への印刷が可能なように改造を施したものである。またこのバブルジェットプリンターは、所定のファイル作成方法に従って印字パターンを入力することにより、約5ピコリットルのDNA溶液を約120マイクロメートルピッチでスポッティングすることが可能となっている。続いて、この改造バブルジェットプリンターを用いて、1枚のガラス基板に対して、印字操作を行い、アレイを作製した。印字が確実に行われていることを確認した後、30分間加湿チャンバー内に静置し、ガラス基板表面のマレイミド基と核酸プローブ末端のチオール基とを反応させた。
【００８８】
［5］洗浄
30分間の反応後、100mMのNaClを含む10mMのリン酸緩衝液(pH7.0)により表面に残ったDNA溶液を洗い流し、ガラス基板表面に一本鎖DNAが固定したＤＮＡマイクロアレイを得た。
【００８９】
＜検体の増幅と標識化（PCR増幅＆蛍光標識の取り込み）＞
検体となる微生物ＤＮＡの増幅、および、標識化反応を以下に示す。
Premix PCR 試薬（TAKARA ExTaq）：25μl
Template Genome DNA：2μl (100ng)
Forward Primer mix： 2μl (20pmol/tube each)
Reverse Primer mix： 2μl (20pmol/tube each)
Cy-3 dUTP (1mM)： 2μl (2nmol/tube)
H₂0：17μl
（Total：50μl）
上記組成の反応液を以下のプロトコールに従って、市販のサーマルサイクラーで増幅反応を行った。
（ステップ１）95℃、10 min.
（ステップ２）92℃、45 sec.
（ステップ３）55℃、45 sec.
（ステップ４）72℃、45 sec.
（ステップ５）72℃、10 min.
（ステップ２〜４は３５回繰り返した。）
反応終了後、精製用カラム（QIAGEN QIAquick PCR Purification Kit）を用いてPrimerを除去した後、増幅産物の定量を行い、標識化検体とした。
【００９０】
＜ハイブリダイゼーション＞
＜DNAマイクロアレイの作製＞で作製したＤＮＡマイクロアレイと＜検体の増幅と標識化（PCR増幅＆蛍光標識の取り込み）＞で作製した標識化検体を用いて検出反応を行った。
【００９１】
（ＤＮＡマイクロアレイのブロッキング）
BSA（牛血清アルブミンFraction V：Sigma社製）を1wt％となるように100mM NaCl / 10mM Phosphate Bufferに溶解した。この溶液に＜DNAマイクロアレイの作製＞で作製したＤＮＡマイクロアレイを室温で2時間浸し、ブロッキングを行った。ブロッキング終了後、0.1wt％SDS（ドデシル硫酸ナトリウム）を含む２ｘSSC溶液（NaCl 300mM 、Sodium Citrate (trisodium citrate dihydrate, C6H5Na3・2H2O) 30mM、p.H. 7.0）で洗浄を行った。その後、純水でリンスしてからスピンドライ装置で水切りを行った。
【００９２】
（ハイブリダイゼーション）
水切りしたＤＮＡマイクロアレイをハイブリダイゼーション装置（Genomic Solutions Inc. Hybridization Station）にセットし、以下に示すハイブリダイゼーション溶液、条件でハイブリダイゼーション反応を行った。
【００９３】
＜ハイブリダイゼーション溶液＞
6 x SSPE / 10% Form amide / Target (2nd PCR Products 全量)
(6xSSPE: NaCl 900mM、NaH2PO4・H2O 60mM、EDTA 6mM、p.H. 7.4)
＜ハイブリダイゼーション条件＞
65 ℃、3min→92℃、2min→45℃、3hr→Wash、2ｘSSC/0.1% SDS、25℃→Wash、2 x SSC、20℃→(Rinse with H₂O: Manual)→Spin dry
＜微生物の検出（蛍光測定）＞
ハイブリダイゼーション反応終了後のＤＮＡマイクロアレイをＤＮＡマイクロアレイ用蛍光検出装置（Axon社製、GenePix 4000B）を用いで蛍光測定を行った。
【００９４】
この結果得られた画像データとしての画像の例を図６に示す。なお、図６においてより蛍光強度の強いプローブは、より濃い色で示している。６０１はＤＮＡマイクロアレイに黄色ブドウ球菌のゲノムを含むサンプルを反応させた画像で、６０２は大腸菌のゲノムを含むサンプルを反応させた画像の例である。図の左に書いているアルファベットは、プローブ配列のアルファベットである。ＡからＪまでそれぞれ、以下の各菌に特異的に結合するように設計されたプローブである。
（Ａ）黄色ブドウ球菌。
（Ｂ）表皮ブドウ球菌。
（Ｃ）大腸菌。
（Ｄ）肺炎桿菌。
（Ｅ）緑膿菌。
（Ｆ）セラチア菌。
（Ｇ）肺炎連鎖球菌。
（Ｈ）インフルエンザ菌。
（Ｉ）エンテロバクター・クロアカエ菌。
（Ｊ）エンテロコッカス・フェカリス菌。
【００９５】
理想的には、６０１のＡの行のプローブだけが蛍光強度が高くなり、かつ、６０２のＣの行のプローブだけが蛍光強度が高くなる。この６０１の理想的な結果は、図５に示した実験結果の例と同じである。
【００９６】
しかし、図６に示すように、実際は理想通りにはならない。つまり、いわゆる"クロスハイブリダイゼーション反応"がおこり、６０１の場合は、Ａ以外の行のプローブも蛍光強度が強く、また、６０２の場合は、Ｃ以外の行のプローブも蛍光強度が強い。更に、６０２の場合、Ｃの行でも蛍光強度の弱いプローブもある。
【００９７】
この状況を３つのプローブの系で説明したのが図７である。黄色ブドウ球菌（S. aureus）、表皮ブドウ球菌（S. epiderimidis）、大腸菌（E. coli）の3種類のプローブがあるＤＮＡマイクロアレイを用いてそれぞれの菌について６種類の既知サンプルの実験をしている。一般にプローブがＮ個ある場合、実験データはＮ次元のベクトルとなる。図６の場合、プローブが合計７２個あるので、７２次元のベクトル、図７の場合、プローブが３つあるので、３次元のベクトルが実験データとなる。
【００９８】
図７下の図で、３菌それぞれ6種類のサンプル（＝合計１８個のデータ）を3次元座標にプロットしてある。図に示した通り、３つのプローブが理想的にそれぞれ３つの菌に非常に特異的なプローブである場合、図７下のようにベクトルデータは、それぞれの軸のまわりに集中する。但し、データの揺らぎは存在し、１つの点に集中するわけではない。図７の例でいうと、３菌それぞれのデータ存在範囲の大きさは異なっており、大きい順で大腸菌（E. coli）、表皮ブドウ球菌（S. epiderimidis）、黄色ブドウ球菌（S. aureus）となっている。
【００９９】
さらに、各菌ごとに先に示した図１及び図８の方法に従って判定指数集合を導き、判定不能閾値を設定し、設定された判定不能閾値を用いて未知サンプルの供給元である菌の判定を行なうか、あるいは判定しない点を決定することができる。
【０１００】
実施例２
以下に肺炎桿菌とセラチア菌のＤＮＡマイクロアレイの実験データを示す。なお、プローブとしては以下の各菌の検出用のものを用いている。
黄色ブドウ球菌（S.aureus）（Ａ−ｎ）。
表皮ブドウ球菌（S.epidermidis）（Ｂ−ｎ）。
大腸菌（E.coli)（Ｃ−ｎ）、肺炎桿菌（K.pneumoniae)（Ｄ−ｎ）。
緑膿菌（P.aeruginosa）（Ｅ−ｎ）。
セラチア菌（S.marcescenes）（Ｆ−ｎ）。
肺炎連鎖球菌（S.neumoiae)（Ｇ−ｎ）。
インフルエンザ菌（H.influenzae)（Ｈ−ｎ）。
エンテロバクター・クロアカエ菌（Enterobacter cloacae）（Ｉ−ｎ）。
及びエンテロコッカス・フェカリス菌（E.faecelis)（Ｊ−ｎ）。
【０１０１】
なお、上記のカッコ内のｎは先に示したｎ＝１〜６である。結局、全プローブ数は１０×６＝６０個となる。
【０１０２】
まず、肺炎桿菌の１０個の異なるサンプルに対するＤＮＡマイクロアレイの実験データを図１１〜２０に示す。各図において左から右にプローブＡ−１、Ａ−２、・・・〜Ｊ−５、Ｊ−６の順で配列されている。図示した通り、ＤＮＡマイクロアレイの実験データは、６０個の蛍光輝度の値、つまり６０次元のベクトルとして得られる。まず、任意のベクトルの間の距離を定義するために、「ベクトルのノルムでベクトルの各要素を割る」正規化を行う。式で記述すると、
【０１０３】
【数１】

【０１０４】
式においてベクトルxが元のベクトルで、ベクトルyが正規化後のベクトル、となる。
このように正規化したベクトルはそのノルムが常に１となっている。なお、ここでn次元のベクトルxのノルム（ユークリッドノルム）とは次の式で定義される。
【０１０５】
【数２】

【０１０６】
そして、正規化後の２つのベクトル（ベクトルaとベクトルb）間の距離を次の式で定義する。
【０１０７】
【数３】

【０１０８】
本実施例では、k-th nearest neighborマッチングアルゴリズムの距離定義を上記のようにする。１０個のサンプルの間の任意の１組ずつの距離を計算し、ヒストグラムにしたものを図２１に示す。データの数は₁₀Ｃ₂＝４５個になる。この図から、肺炎桿菌に上記k-th nearest neighborのアルゴリズムを適用して判定するとすると、その判定不能閾値は最大値である0.057というのが一つの候補になる。少し余裕を持たせて、1.5倍とか２倍の値を使っても良い。
【０１０９】
次に、セラチア菌の同じく１０個のサンプルの実験データを図２２〜３１に示す。肺炎桿菌で行った正規化、距離計算を用いて、１０個のサンプルの任意の２サンプルの距離を計算し、ヒストグラムを取ったのが、図３２である。肺炎桿菌のヒストグラムと分布の形状が全く異なるのがわかる。大きく山が２つ存在するということは、１０個のベクトルの中で２つのクラスターが存在することが想定される。実際、先に示した１０サンプルの蛍光輝度グラフを見ても、大きく分けて２種類のパターンが存在することがわかる。この図から、肺炎桿菌に上記k-th nearest neighborのアルゴリズムを適用して判定する、とすると、その棄却値は１つ目の山の最大値である0.090というのが一つの候補になる。
【図面の簡単な説明】
【０１１０】
【図１】本発明の生物種類判定方法の一例を示す図である。
【図２】本発明の生物種類判定方法を実行するための情報処理装置の構成を示すブロック図である。
【図３】ハイブリダイゼーション反応を説明する図である。
【図４】ＤＮＡマイクロアレイを用いた実験手順を示すである。
【図５】感染症の判定用ＤＮＡマイクロアレイの実験手順を示すである。
【図６】ハイブリダイゼーション反応後の蛍光強度からなる画像の一例を示すである。
【図７】ベクトルデータの分布例を示すである。
【図８】判定不能値設定ステップを説明する図である。
【図９】判定指数集合の分布例を示すである。
【図１０】同一カテゴリー内の任意の２サンプルの距離集合例を示すである。
【図１１】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図１２】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図１３】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図１４】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図１５】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図１６】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図１７】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図１８】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図１９】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図２０】肺炎桿菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図２１】１０個の肺炎桿菌サンプル間の任意の１組ずつの距離に関するヒストグラムである。
【図２２】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図２３】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図２４】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図２５】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図２６】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図２７】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図２８】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図２９】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図３０】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図３１】セラチア菌サンプルに対するＤＮＡマイクロアレイの実験データを示す図である。
【図３２】１０個のセラチア菌サンプル間の任意の１組ずつの距離に関するヒストグラムである。

【特許請求の範囲】
【請求項１】
生物に由来する物質が含まれていることが想定される物質を分析して、対応する生物の種類を判定する生物種判定方法において、
対応する生物種が判明している複数の既知サンプルを生物種分析方法により分析して、複数の分析データを得る工程と、
既知サンプルから得た該複数の分析データに基づいて、該既知サンプルに対応する生物種に関する判定不能閾値を設定する工程と、
対応する生物種が未知である未知サンプルを、前記生物種分析法により分析して、該未知サンプルに対応する生物種の特定のための分析データを得る工程と、
前記判定不能閾値に基づいて前記未知サンプルに対応する種類を判定するか、あるいは判定不能であるかを決定する工程と、
判定をすると決定されたならば、前記複数の分析データに基づいて前記未知サンプルの生物種を判定する工程と、
を有する生物種判定方法。
【請求項２】
前記判定不能閾値は、一つの生物種における前記既知サンプルから得た記憶手段に格納された複数の分析データの総体から、任意の分析データを除外して、残りの分析データに基づいて学習した識別辞書を作成し、該除外した分析データを該識別辞書に基づいて判定して判定指数を導き、該判定指数に基づいて設定される請求項１に記載の生物種判定方法。
【請求項３】
生物に由来する物質が含まれていることが想定される物質を生物種分析方法にて分析して、対応する生物の種類を判定する生物種判定方法において、
（１）前記未知サンプルに対する判定結果として想定される生物種を選択する工程と、
（２）前記選択された生物類に属することが判明している複数の個体から得られる既知サンプルの各々から、該生物種に特徴的であって、パターン認識用として使用し得る複数の画像データからなる画像データ群を得る工程と、
（３）前記画像データ群から画像データを選択し、残りの画像データとの関係を用いて判定不能閾値を設定する工程と、
（４）未知サンプルからの画像データを得る工程と、
（５）前記未知サンプルからの画像データを前記判定不能閾値に基づいて、該未知サンプルに対応する生物種を判定するか判定が不能であるかを決定する工程と、
（６）前記（５）で判定を行うことが決定された場合は、前記画像データ群からなる識別辞書を用いて、生物種を判定する工程と、
を有することを特徴とする生物種類判定方法。
【請求項４】
前記判定不能閾値の設定が、
（１）前記個体として３以上の異なる個体を選択し、得られた３以上の画像データからなる画像データ群を得る工程と、
（２）前記画像データ群から１つの画像データを選択して除外し、残りの複数の画像データを用いて辞書を作成し、得られた辞書に基づいて先に除外した画像データを判定して判定指数を得る処理を、各画像データごとに行なってｍ個の判定指数からなる判定指数集合を得る工程と、
（３）前記判定指数集合から判定不能閾値を決定する工程と、
を有する方法により行われる請求項３に記載の生物種類判定方法。
【請求項５】
前記判定不能閾値の設定が、
（１）前記個体として３以上の異なる個体を選択し、得られた３以上の画像データからなる画像データ群を得る工程と、
（２）前記画像データ群から選択した任意の２つの画像データの全ての組み合せについて、２つの画像データ間の距離を求め、距離集合を得る工程と、
（３）前記距離集合から判定不能閾値を決定する工程と、
を有する方法により行われる請求項３に記載の生物種判定方法。
【請求項６】
前記生物種分析方法が、前記選択された生物に特徴的な塩基配列を有する標的核酸と特異的に結合し得るプローブを基板上に位置を定めて固定したプローブ固定担体に、既知または未知のサンプルとしての核酸試料を反応させ、前記基板上に形成された標的核酸とプローブの結合体を光学的に検出して、画像データを得る方法である請求項３記載の生物種判定方法。
【請求項７】
前記結合体の光学な検出が、該結合体に付与した蛍光標識からの蛍光を利用して行なわれる請求項６に記載の判定方法。
【請求項８】
対応する生物種が判明している複数の既知サンプルを生物分析方法により分析して得られた複数の分析データ、及び、該複数の分析データに基づいて設定された判定不能閾値を記憶したメモリと、該メモリに記憶された判定不能閾値に基づいて、未知サンプルに対応する生物種が判定可能か否かを決定し、判定可能と決定した場合には、前記メモリに記憶された複数の分析データに基づいて前記未知サンプルに対応する生物種の判定を行う処理ユニットとから成る生物種判定のための情報処理装置。
【請求項９】
生物に由来する物質が含まれていることが想定される物質を分析して、対応する生物種を判定するための情報処理装置において、対応する生物種が判明している複数の既知サンプルを分析して得られる該生物種に特徴的な画像データを入力するための既知サンプル画像データ入力手段と、
未知サンプルを前記既知サンプルと同様に分析して得られる画像データを入力する未知サンプル画像データ入力手段と、
取り込まれた前記画像データを記憶する記憶手段と、
既知サンプルから得た該複数の分析データに基づいて、該既知サンプルに対応する生物種に関する判定不能閾値を設定する手段と、
未知サンプルからの画像データを前記判定不能閾値にもとづいて判定を行うかまたは判定を行わないかを決定し、判定を行うのであれば、未知サンプルに対応する生物種を判定する生物種判定手段と、
前記判定手段での判定結果を記憶する記憶手段と、
前記記憶手段に記憶された判定結果を出力する出力手段と
を有することを特徴とする生物種判定のための情報処理装置。
【請求項１０】
前記判定不能閾値の設定が、
前記個体が３以上であり、前記記憶手段にこれらの個体からの画像データが記憶されており、
（ａ）前記３以上の画像データから１つの画像データを選択して除外し、残りの複数の画像データを用いて識別辞書を作成し、得られた識別辞書に基づいて先に除外した画像データを判定して判定指数を得る処理を、各画像データごとに行なって３以上の判定指数からなる判定指数集合を得るステップと、
（ｂ）前記判定指数集合から判定不能閾値を設定するステップと、
を有するプログラムに基づいて実行される請求項９に記載の情報処理装置。
【請求項１１】
前記判定不能閾値の設定が、前記個体が３以上であり、前記記憶手段にこれらの個体からの画像データが記憶されており、
（Ａ）前記３以上の画像データから選択した任意の２つの画像データの全ての組み合せについて、２つの画像データ間の距離を求め、距離集合を得る工程と、
（Ｂ）前記距離集合から判定不能閾値を決定する工程と、
を有するプログラムに基づいて実行される請求項９に記載の情報処理装置。
【請求項１２】
未知サンプルに対応する生物種の判定をコンピュータに実行させるためのプログラムであって、
（１）未知サンプルに対する判定結果として想定される生物種に属する複数の異なる個体からの既知サンプルを分析して得られる該想定される生物種に特徴的な画像データに対応する複数の画像データを格納した記憶手段から、これらの複数の既知サンプル画像データを呼び出すステップと、
（２）未知サンプルを前記既知サンプルと同様にして分析して得られる画像データに対応する複数の画像データを格納した記憶手段から、該未知サンプル画像データを読み出すステップと、
（３）前記既知サンプル画像データから１つを選択し、選択された１つと残りの画像データとの関係を用いて判定不能閾値を設定するステップと、
（４）前記判定不能閾値に基づいて前記未知サンプル画像データを処理し、未知サンプルに対応する生物の種類を判定するステップと、
（５）前記判定ステップで得られた判定結果を記憶手段に格納させるステップと、
（６）前記記憶手段に格納された判定結果を出力するステップと
を有することを特徴とする生物種類判定用プログラム。
【請求項１３】
前記判定不能閾値の設定が、
前記個体が３以上であり、前記記憶手段にこれらの個体からの画像データが記憶されており、（ａ）前記３以上の画像データから１つの画像データを選択して除外し、残りの複数の画像データを用いて識別辞書を作成し、得られた識別辞書に基づいて先に除外した画像データを判定して判定指数を得る処理を、各画像データごとに行なって３以上の判定指数からなる判定指数集合を得るステップと、
（ｂ）前記判定指数集合から判定不能閾値を決定するステップと、
を有する請求項１０に記載の生物種類判定用プログラム。
【請求項１４】
前記判定不能閾値の設定が、
前記個体が３以上のであり、前記記憶手段にこれらの個体からの画像データが記憶されており、（Ａ）前記３以上の画像データから選択した任意の２つの画像データの全ての組み合せについて、２つの画像データ間の距離を求め、距離集合を得る工程と、
（Ｂ）前記距離集合から判定不能閾値を決定する工程と、
を有する請求項１１に記載の生物種類判定用プログラム。
【請求項１５】
生物種判定をコンピュータで実行するためのプログラムを読み取り可能に記録した記録媒体であって、
前記プログラムが請求項１１〜１３のいずれかに記載のプログラムである
ことを特徴とする記録媒体。
【請求項１６】
対応する生物種が判明している複数の既知サンプルを生物分析方法により分析して得られた複数の分析データと、該複数の分析データに基づいて設定された判定不能閾値を用い、前記判定不能閾値に基づいて、未知サンプルに対応する生物種が判定可能か否かを決定した後、判定可能と決定した場合には、前記複数の分析データに基づいて前記未知サンプルに対応する生物種の判定を行う生物種判定方法。

【図１】