Ｃ型肝炎の病態判別システム

【課題】C型肝炎患者の病態を判別するために、従来は医師が血液検査の結果から病態を推定していた。その際、70% 程度の識別精度しかなく実用的ではなかった。一方、肝生検によって診断する場合、検査にかかる手間や危険性が問題となっていた。そこで、血液検査の結果を用いて簡便かつ高精度に肝炎の病態を判別するシステムを発明した。
【解決手段】C型肝炎患者の血液検査データの中から、肝炎の病態を識別するために有効である特徴（検査項目）を特徴選択アルゴリズムSFFS(Sequential Forward Floating Search)により抽出し、それらを用いてパターン認識の中で最も優秀な学習法の一つとされるSVM(Support Vector Machine)により病態を判別する。上記のシステムにより、94% の精度で病態を判別することに成功した。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、血液検査から容易にC型肝炎の病態判別を行えるシステムに関するものである。
【背景技術】
【０００２】
ウイルス性肝炎にはA型、B型、C型、D型、E型があり、日本ではA型、B型、C型が多数を占める。肝硬変や肝臓癌の原因となる肝炎ウイルスの約8割がC型肝炎である。また、C型急性肝炎患者の6〜8割が慢性肝炎に移行すると言われ、30年あまりかけて進行し肝硬変となる。そこで肝炎の状態に合わせて適切な治療をする必要がある。
【０００３】
肝炎の進行具合により適切な治療法があり、患者の病態を判別することはきわめて重要である。現在C型肝炎患者の検査として、主として行われる検査が血液検査である。血液検査の結果から病態を判別するには、医師がこれまでの経験に基づいて推定する。しかしその精度は70% 程度でありあまり実用的であるとは言えない。そこで確定診断を得るために肝生検と呼ばれる検査が行われている。
【０００４】
肝炎の病態は肝臓の線維化(F:Fibrosis)によって定義することができ、線維化の状態を知ることのできる検査が肝生検である。線維化はその度合いによって、門脈域から線維化が進展し小葉が改築され肝硬変へ進展する段階を線維化なし（F0）、門脈域の線維性拡大（F1）、bridging fibrosis（F2）、小葉のひずみを伴うbridging fibrosis（F3）までの4段階に区分する。さらに結節形成傾向が全体に認められる場合は肝硬変（F4）と分類する。
【０００５】
肝生検は、細く長い針を皮膚の表面から直接肝臓に刺して、肝臓の組織を採取し、顕微鏡で肝臓の状態を調べる検査である。肝生検は一番正確かつ信用できる肝炎の診断法であるが、患者に侵襲があり、数日間の入院を要する場合がある。このように肝生検においても手間や危険性といった問題点がある。
【非特許文献１】Desmet VJ, Gerber M, Hoofnagle JH, et al:"Classification of chronic hepatitis:Diagnosis, grading and staging.", Hepatology 19, pp1513-1520, 1994
【非特許文献２】Icida F, Tsujii T, Omata M, et al:"Classification report:New Inuyama classification for histological assessment of chronic hepatitis.", Internat Hepatol Comm 6, pp112-119, 1996
【非特許文献３】Batts KP, Ludwig J:"Chronic hepatitis:An update on terminology and reporting.", Am J Surg Pathol 19(12), pp1409-1417, 1995
【発明の開示】
【発明が解決しようとする課題】
【０００６】
従来手法では、医師が血液検査の結果から病態を推定する場合、70% 程度の識別精度しかなく実用的ではなかった。一方、肝生検によって診断する場合、検査にかかる手間や危険性が問題となっている。そこで、血液検査の結果から高精度に肝炎の病態を判別する手法を提案する。
【課題を解決するための手段】
【０００７】
統計的識別手法を用いて血液検査データから病態（線維化）を判別するためのシステムを提案する。肝炎の病態は肝臓の線維化によって定義でき、F1,F2,F3,F4の4つの線維化状態がある。本発明はF1,F2をクラスf1、F3,F4をクラスf2とし、これら2つのクラス分類を血液検査データから行うシステムである。
【０００８】
本発明で対象とするのは2クラス分類問題である。そこでこのような2クラス問題を解く上で最も適していると言われるSVM(Support Vector Machine)を用いてシステムを構築した。しかしSVMだけを用いて識別をした場合の識別率はあまり高くなく、識別を困難にする特徴が含まれると考えられる。そこで特徴選択の代表的な手法であるSFFS(Sequectial Forward Floating Search)を用いることで、SVMで識別を行うときに最適な特徴だけを抽出することができる。このように本発明では、図１に示すような特徴選択SFFSと識別器械SVMを組み合わせたシステムを提案した。
【０００９】
SVMはV.Vapnikによって提案されたパターン認識アルゴリズムである(Cortes,C,Vapnik,V : "Support-Vector Networks" Machine Learning, Vol.20, pp.273-297, 1995)。SVMはニューラルネットワークやnearest neighborなどの現在知られている多くの手法の中でも、最も認識性能の優れた学習モデルの一つである。SVMは線形SVM(Linear Support Vector Machine:LSVM)と非線形SVM(Nonlinear Support Vector Machine:NSVM)に大別できる。まずはじめにLSVMについて説明をし、次にNSVMを説明する。
【００１０】
LSVMは与えられたl個の学習データが超平面で誤りなく分離できる場合を考える。各々の学習データは、特徴ベクトルx_i∈Rⁿ（i=1,・・・,l）それに割り当てられたクラスy_i∈｛-1,1｝の組からなる。
【００１１】
正のサンプルと負のサンプルを分離する超平面（分離超平面）の方程式を
【００１２】
【数１】

【００１３】
とする。ここでwは超平面の法線ベクトルで、bは定数項である。これらのパラメータを変更することで識別面をコントロールできる。
【００１４】
次にd₊、d_-を分離超平面から最も近い正、負のサンプルまでの最短距離とする。このこの最短距離を分離超平面のマージンと呼ぶ。線形分離可能な場合、SVMはマージンが最大である分離超平面を求める問題である。
【００１５】
すべての学習データはH₀によって分離されるため、次の制約条件を満たさなければならない。
【００１６】
【数２】

【００１７】
学習データと超平面の距離は、
【００１８】
【数３】

【００１９】
したがって、最大マージンを持つ超平面を求めるには、数２の制約条件のもとで‖w‖²を最小化すればよい。以上より、SVMは次の制約付き最適化問題に定式化できる。
【００２０】
【数４】

【００２１】
【数５】

【００２２】
一般に制約付きの問題は、ラグランジュの乗数法を用いると、より簡単な問題に帰着することが多い。この問題を解くためにラグランジュの乗数法を用いると次式のようになる。
【００２３】
【数６】

【００２４】
【数７】

【００２５】
この問題を数値計算で解くと、多くのα_iが0となり、α_i≠0を満たすものが最小距離のサンプル（サポートベクター）に対応することが知られている。最適なαからwを得るには次式を用いる。
【００２６】
【数８】

【００２７】
ここまでに述べたSVMは、学習サンプルは超平面によって完全に分離できると仮定している。パターン認識の実問題で線形分離可能な場合は稀であり、実際的な問題にSVMを使うには多少の識別誤りは許すように制約を緩める必要がある。これをソフトマージンと呼ぶ。
【００２８】
ソフトマージンでは、反対側にどのくらいは入り込んだかの距離を、スラック変数ξ_i≧0（i=1,・・・,l）を用いて、ξ_i/‖w‖と表す。またξ_iの和、Σξ_iはできるだけ小さい方が望ましい。これを線形分離可能な場合の問題の目的関数、数４に加えたものをこの問題の目的関数とする。また制約条件を次のように緩める。
【００２９】
【数９】

【００３０】
【数１０】

【００３１】
ここでCは、第1項のマージンの大きさと、第2項のはみ出しの程度とのバランスを決めるパラメータであり、設定は実験的に行う必要がある。前節と同様にして、ラグランジュ乗数法を用いて定式化をすると次のようになる。
【００３２】
【数１１】

【００３３】
【数１２】

【００３４】
ソフトマージンを用いたとしても、本質的に非線形で複雑な識別問題に対しては、良い識別率を得ることができるとは限らない。このような問題に対しての解決法として、特徴ベクトルを非線形変換して、その空間で線形分離を行うカーネルトリックと呼ばれる方法がある。このカーネルトリックを用いたSVMがNSVMである。
【００３５】
一般に、線形分離の可能性はサンプル数が大きくなるほど困難になるが、特徴空間ベクトルの次元が大きくなるほど容易になる。今、写像
【００３６】
【数１３】

【００３７】
を用いて学習データをより高次元の空間R^qに写して、その空間で線形識別を行うことを考える。
【００３８】
一般に、このような非線形写像によって変換した特徴空間の次元は非常に大きくなりがちになり、結果的に膨大な計算量が必要となる。しかしSVMでは目的関数や識別関数が入力パターンの内積のみに依存した形になっており、内積が計算できれば最適な識別関数を求めることが可能である。つまり、非線形に写像した空間で二つの要素Φ（x₁）、Φ（x_２）の内積が
【００３９】
【数１４】

【００４０】
のように、入力特徴x₁、x_２のみから計算できるなら、非線形写像によって変換された特徴空間での特徴Φ（x₁）、Φ（x_２）を実際に計算する代わりに、K（x_1,x_２）から最適な非線形写像を求められる。このようなKのことをカーネルと呼ぶ。本発明では次に示すGaussカーネルを用いた。
【００４１】
【数１５】

【００４２】
このような写像を使うと、識別関数は数８より、
【００４３】
【数１６】

【００４４】
となる。同様に学習の問題も次のように書ける。
【００４５】
【数１７】

【００４６】
【数１８】

【００４７】
数１７の目的関数を解くためにいくつかの手法が提案されている。本発明では、Vijayakumar(Sethu Vijayakumar,Si Wu ： "Sequential Support Vector Classifiers and Regression" Int.Conf.Soft Computing, pp610-619, 1999)によって提案された反復的学習法を用いた。反復的学習法のアルゴリズムを図２に示す。ここでγは、学習の早さを制御するパラメータである。また、収束の判定はαの変化の割合によって行う。
【００４８】
以上が本発明で用いたパターン認識アルゴリズムSVMの説明である。次に本発明でもう一つの大きな特徴である、特徴選択に関して説明する。
【００４９】
パターン認識で扱うデータは、高次元である場合が多い。高次元データをそのまま識別器械で識別を行うと、計算コストが高くなる、あるいは、識別に関してあまり意味を持たない不要な特徴（ノイズ）により、最良の識別を行うことができないといった問題が生じる。
【００５０】
n次元のパターンは、n個の特徴量で表されている。このn個の中から単純にm個を選ぶことを特徴選択と言う。最も適当なm個を選ぶことが特徴選択の核心の問題である。特徴選択はパターンがベクトルで表されているとき、パターン空間の次元数を減らす機能を持つ。
【００５１】
特徴選択により識別に関して有効な特徴を取り出すことで、前述の問題を解決することができる。
【００５２】
n個の要素を持つオリジナルの特徴集合をY、所望の選択された部分集合X(X⊆Y)の要素数をdとする。また、集合Xに対する評価基準を与える関数をJ（X）と表す。評価値Jの値が高いほど良い特徴の集合であるといえる。J（・）を最大化するので、評価基準関数の一つとして認識率1-p_e（p_e：誤り確率）を用いることができる。ただし評価基準関数として誤り確率を用いることは、特徴選択が用いられる識別器械や、学習データとテストデータのセット数に依存してしまう。
【００５３】
特徴選択問題は、集合X⊆Yを求めることで、|X|=dと次式を満たすものである。
【００５４】
【数１９】

【００５５】
特徴選択アルゴリズムには様々な種類があり、Jain(Anil Jain,Douglas Zongker : "Feature Selection : Evaluation , Application , and Small Sample Performance" IEEE Trans.Pattern Analysis and Machine Intelligence, Vol.19, No.2, pp.153-158, 1997)により図２のように分類された。
【００５６】
その中の"Deterministic, Single-Solution Methods"カテゴリに分けられるアルゴリズムは、単一の解（特徴集合）を持ち、ターゲットとする基準を満たすまで繰り返し特徴を増やしたり減らしたりするものである。これらのアルゴリズムは、特徴選択において最も一般的に使われている手法である。
【００５７】
このカテゴリに属する手法は2つのグループに分けることができる。一つは、特徴数が0の状態からスタートし特徴を増やしていく方法であり、forward型と呼ばれるものである。もう一つは、全ての特徴を持つ状態からスタートし特徴を削除していく方法で、backward型と呼ばれるものである。foraward型アルゴリズムの代表例として、Whiteney(Whitney,A.W : "A direct method of nonparametric measurement selection" IEEE Trans.Comput.20, pp.1100-1103, 1997)が提案したSFS(Sequential Forward Selection)があり、backward型アルゴリズムの代表例として、Marill and Green(Marill,T.and D.M.Green : "On the effectiveness of receptors in recognition system" IEEE Trans.Inform.Theory 9, pp.11-17, 1963)が提案したSBS(Sequential Backward Selection)がある。これらの方法は、可能な全ての特徴の組合せを試せるわけではないので、最適な解を与えるという保証はないということに注意しなければならない。
【００５８】
これらは1方向だけの探索アルゴリズムであり、最良の特徴の組合せを求めることは困難である。そこでforward型とbackward型を組み合わせたfloating型アルゴリズムが研究された。このアルゴリズムの代表例として、Pudil et al(P.Pudil et al. : "Floating Search Methods in Feature Selection" Pattern Recognition Letters, Vol.15, No.11, pp.279-283, 1994)により提案されたSFFS(Sequential Forward Floating Serach)がある。
【００５９】
SFFSのアルゴリズムを図３に示した。SFFSはforward型をベースとしている。特徴数が0の状態からスタートし特徴を増やしていくが、特徴を1個増やしたあと、これまでに選択された特徴集合の中から特徴を1個削除する。評価値が大きくなる間はこのままExclusionステップを続け、評価値が下がれば削除をやめInclusionステップに戻る。
【００６０】
本発明では、C型肝炎患者の血液検査データから病態判別を行うために、図１に示すように2つのステージにより構成されるパターン認識システムを構築した。第1のステージである「特徴選択(Feature Selection)」は、関連のある特徴を選択し、関連のない特徴を省く。第2ステージの「識別器械(Classifier)」は、特徴選択により選択された特徴から属するクラスを決定する。
【００６１】
本発明では特徴選択としてSFFSを用い、評価基準をSVMによる識別率とした。また、識別器械にSVMを用いた。
【発明の効果】
【００６２】
本発明で構築したシステムにより、血液検査データから肝炎の病態判別を簡便かつ高精度に行うことができるので、従来のような医師による推定や肝生検を用いた診断に代わる、新しい病態判別のためのシステムになると考えられる。
【発明を実施するための最良の形態】
【００６３】
本発明を実施するための最良の形態について実施例を通して示す。
【実施例１】
【００６４】
本発明の実施例として、C型肝炎患者の血液検査データを用いて病態を判別した。
【００６５】
本発明で用いたデータは、名古屋大学医学部においてC型肝炎患者の血液検査データを収集したものである。それぞれのサンプルは、各患者はあらかじめ肝生検をうけたことで線維化(f:fibrosis)の段階がわかっている。線維化はその度合いによって、F0（正常）、F1（軽度線維化）、F2（中等度）、F3（高度線維化）、F4（肝硬変）の5段階に分けることができる。本発明ではF1,F2をクラスf1、F3,F4をクラスf2とし、これら2つのクラス分類を血液検査データから行うことを目的とする。
【００６６】
サンプル数は162で、各サンプルに33種類の検査項目が含まれている。具体的な検査項目を表１に示す。
【００６７】
【表１】

【００６８】
また、f1クラスに属するものは104パターン、f2クラスに属するものは58パターンである。
【００６９】
実験を行う前に各特徴量の優位性をそろえるために、データの正規化を行った。各次元ごとに値が[-1,1]の範囲となるようにした。
【００７０】
SVMで学習を行うためにはパターン数が多い方が望ましいが、本発明においてはパターン数が162であり、十分なサンプル数ではない。そこでleave one out法による実験を行った。またSVMの学習には反復的学習法を用いた。本発明で学習の終了条件として、αの収束ではなく反復的学習法（図２）のStep2の繰り返し回数を用いた。
【００７１】
識別能力の評価方法として、本発明で用いたデータはそれぞれのクラスサイズがアンバランスであるため、相乗平均を用いた。全体の識別率（RR_tot）は、f1クラスの識別率をRR₁、f2クラスの識別率をRR₂とするとき次式により求める。
【００７２】
【数２０】

【００７３】
本実験で用いたパラーメータ値は、σ＝０．８、C＝１００、γ＝０．０１、反復的学習法の繰り返し回数＝８０である。実験結果を図５に示す。図５の縦軸が全体の識別率、横軸がSFFSの繰り返し回数である。図５よりSFFSのループ回数が131回のとき最大の識別率94% を得た。そのときのエラー数はf1クラスが9サンプル(/104サンプル)、f2クラスが2サンプル(/58サンプル)であった。また、そのとき選択された特徴を表２に示す。
【００７４】
【表２】

【００７５】
これらの特徴のみでSVMにより識別を行うことで94% の識別率を得ることができた。またこれらの特徴のみを用いて、識別器械として1-nearest neighbor(1-nn)を用いたとき、識別率は34%であった。
【００７６】
一方、特徴選択を行わず全ての特徴を用いてSVMにより識別を行うと71% の識別率であった。以上の結果を表３にまとめた。
【００７７】
【表３】

【００７８】
特徴選択によりSVMを用いた識別に最適な特徴を選択し、それらの特徴のみでSVMで識別を行うことで識別率が大幅に向上した。
【産業上の利用可能性】
【００７９】
本発明のシステムを用いることで、簡便かつ高精度に血液検査のみから肝炎の病態判別を実現することができる。従来手法において血液検査から肝炎の病態を判別するには、医師の経験に基づく推定に頼っており、精度が低く実用的ではなかった。また確定診断を得るためには、患者に負担をかける肝生検しかなかった。以上の背景を踏まえ、本発明は肝炎の病態判別に大きな役割を果たすことができると考えられる。
【図面の簡単な説明】
【００８０】
【図１】本発明で提案した病態判別のシステム概略図。
【図２】反復的学習法のアルゴリズム。
【図３】Jainによる特徴選択アルゴリズムの分類図。
【図４】SFFSアルゴリズム。
【図５】SFFSによる全体の識別率の推移を示すグラフ。

【特許請求の範囲】
【請求項１】
C型肝炎患者の血液検査データの中から、肝炎の病態を判別するために有効である検査項目（特徴）を特徴選択アルゴリズムSFFS(Sequential Forward Floating Search)により抽出し、それらを用いてSVM(Support Vector Machine)により病態識別を行うシステムであって、肝炎の病態F1,F2,F3,F4について、F1,F2をクラスf1、F3,F4をクラスf2とし、これら2つのクラス分類を血液検査データを投入することから行うことを特徴とするシステム。

【図１】