説明

医薬及びその他のキャピタルインテンシブ製造プロセスの分析、改善のためのシステム

【課題】複雑な製造プロセス情報についてのビジュアル認識及び通信を行うために、ビジュアルプロセスシグネチャを表示する方法を提供する。
【解決手段】データプロセスソリューションには、データへのアクセス(101)、アクセスされたデータの条件付け(103)、分析(105)、及び分析結果の視覚化(107)が含まれる。各データ記憶装置は、少なくとも1つのプロセスコンポーネントに関連したプロセスデータレコードを含む複数のレコードを保持している。データ記憶装置から選択されたレコードのコピーからプロキシビジュアルデータベースが作られる。プロキシビジュアルデータベース内のレコードに統計学的分析オペレーションが適用されて、生産物の特性に対して重大な効果を有するプロセスコンポーネントなどが特定される。選択された統計学的分析オペレーションは3次元表示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般にプロセス制御に関し、より詳しくは、複数の異なるデータベースに分散されたバッチデータを用いて医薬及びその他のキャピタルインテンシブ製造プロセスの分析をして、所望の結果に強い影響を与えるプロセス変数の相互作用を説明することに関する。
【背景技術】
【0002】
不十分な製品を生じるプロセスパラメータの組み合わせを回避し、より優れた製品の生成可能性を高めるための製造プロセスの制御に対して、多大な努力が費やされている。一般に、医薬、食品と補助食品とヘルスケア製品やキャピタルインテンシブ製造プロセスほど、これが当てはまるものはない。欠陥のある製品は、消費者のリスク及びコストを増大させ、費用効果が優れる有効薬や他製品を作るべく適用できたリソースを浪費する。
【0003】
製造においてしばしば直面するデータ分析問題のクラスがあり、特定のシーケンスやイベントの組み合わせやプロセス変数が望ましくない結果、通常は不十分な製品を生み出す。このような状況では、望ましくない結果に関連するそれらの変数やそれらの変数の範囲や組み合わせなどを見つけることが切望されている。伝統的な統計的手法は、必要な情報を供給する能力に限界がある。それゆえ、これらのタイプのデータ分析問題を解決する方法を有し、プロセスオペレータ、監督者又は技術者によって使用可能なコンピュータにおいて、その方法を実行できるソフトウェアを有することが望ましい。
【0004】
主コンポーネント回帰(PCR)技術は、製造データのより効果的な分析を約束している。PCR分析は、プロセスデータをツー・ステップ・プロセスに委ねることによって製造に大きいインパクトを与える可能性のある制御可能なパラメータに注目することで重要性を示してきた。主コンポーネント分析(PCA)は、回帰の後に続いた。医薬及びその他のキャピタルインテンシブ製造中に生成されるような大きいデータセットのほとんどは、生のデータを用いた効果的なモデル化を禁止する属性を有する。独立変数と通常は多くの変数の間に、通常、かなりの相関がある。PCAを用いて、これらの属性がアドバンテージとなるように用いられる。これは、多くの相関変数をより少ない非相関変数のセットに置き換えるようにデータを変換することによってなされる。新しい変数の小さいセット(「主コンポーネント」という)は、測定誤差の範囲内の生のデータの大きいセットと実質的の同じ情報を含んでいる。
【0005】
伝統的な統計ソフトウエアツールは統計プロセス制御技術を利用可能なプロセスデータに適用することができる。例は、SAS、S−PLUS、StatServer、Statistica、Matlab、Impromptu、Mathematicam、及びJMPを含む。これらのパッケージのいくつかは、スタンダードトレンディングや棒グラフを表示できる良い2次元ディスプレイを有する。しかしながら、それぞれはプログラミングされたいくらかの量のコマンドラインを要求し、それらは強力でフレキシブルな視覚化をサポートしていない。これらのソフトウェアパッケージは一般的に学ぶことが難しい、なぜならそれらは包括的な統計技術のセットを含み、それらのほとんどはPCRを実行するために回避されなければならない。それらは、視覚パターン認識のために十分に強力で、フレキシブルで、直観的なグラフィックディスプレイ能力が不足している。多くは、医薬はその他のキャピタルインテンシブ製造環境に共通する非常に大きいデータセットを取り扱う能力に限界がある。要するに、それらは医薬はその他のキャピタルインテンシブ製造に特有の有用なポイントアンドクリックワークフローを供給する能力に限界がある。さらに、利用可能な方法のフロントエンドとバックエンドの両方に欠陥が存在する。フロントエンドには、意味のある統計分析を行うために必要な関連データへのアクセスがしばしば困難である。バックエンドでは、容易に識別できる方法でフォーマットして統計解析の結果を表示するツールが不足している。
【0006】
プロセスデータは集められて、様々な異なるデータストレージシステムに保存されるので、関連するプロセスデータへのアクセスが妨げられる。データを集めて格納するハードウェアシステムは、近年ますます高価ではなくなり、広く利用されるようになっている。非常に多くの測定システムは、非常に多くの生データを集めて保存している製造会社でインストールされる。これらの生データはそれ自体ではほとんど有用性がないが、製造プロセスの改良、トラブルシューティングと制御のための戦略的な資産でありえる。これらのデータは、情報の内容を抽出して、意思決定に用いられて初めてその価値が理解される。これは、医薬産業の中の広範囲にわたる課題である。プログラマーでない科学的な専門家によって容易に使用できる、よく統合化されたデータ解析と視覚化ソフトウェアシステムの欠如は、彼らの製造データから情報を抜き出す能力の妨げになっている。システムにとって、失われたバッチの取り消し、プロセス改善、トラブルシューティング及び技術移転でアシストすることが必要である。
【0007】
プロセスデータはしばしば、現代のデータベースアーキテクチャと同様に球システムに保存される。プロセスデータはしばしば様々なハードウェアにわたって、ときに様々な地理的ロケーションにわたって分散される。実際に、特定のデータセットを集めたいアナリストは、様々なソース、条件、リフォーマットでデータを要求し、解析ツールに互換性がある方法でデータのインポートとエクスポートをしなければならない。これらのプロセスは解析プロセスを遅れされ、使用することができる解析の種類を制限する。不幸にも、データ取得の困難さや遅れによって、関連するデータはしばしば分析に含まれない。
【0008】
バックエンドでは、統計分析ツールはしばしば生の数値を出力し、様々なプロセスデータのせいぜい2次元か、ときには3次元の表現を提供するだけである。これらの総計分析の静的表現は有用であるが、プロセス結果に影響を及ぼすプロセス相互作用の検出及び説明をするアナリストの能力を制限する。特に、食品、補助食品産業などの規制された産業では、用いられたプロセス制御技術及び静的プロセスコントロールによって提供される結果を説明する必要性が存在する。アナリストが関連するプロセスデータに容易にアクセスでき、静的分析の結果を視覚化することができるプロセス分析ツールの必要性が存在する。
【0009】
マーケットには、例えば、PV−WAVEやAdvancedVisualSystem(AVS)などの非常に能力のある3次元や4次元のグラフィックアプリケーションがいくつかある。これらのグラフィックアプリケーションは、広範囲にわたる洗練された展示を速く描画する能力があり、医薬製造に共通する大きいデータセットを取り扱うことができる。しかしながら、それらも必要な静的能力の範囲、及び/又は、PV−WAVE又はAVSの場合の目的構成におけるコマンドラインプログラムのための急勾配の学習曲線が不足している。
【0010】
規制された産業は、過去のバッチプロセスデータ分析という特有の必要性を有し、静的分析のための強力な能力と、パターン認識と、現在利用可能なシステムでは不十分なデータ視覚化が要求される。これらの産業は、プロセス等価のデモンストレーション、製品ロットのリリースに関連するデモンストレーションと製品仕様失敗の回避、を達成するのと同様に連続したプロセス改善が必要とされる。
【発明の概要】
【0011】
簡単に記述すると、本発明は、プロセスデータの容易な視覚認識及びコミュニケーションのためのプロセスシグニチャーを表示するための方法及びシステムに関する。プロセスデータは、複数のデータストアに保存され、各データストアは、プロセスデータを含んでいる複数のレコードを持ち、各レコードは、少なくとも1つのプロセスコンポーネントと関連付けられる。プロキシバーチャルデータベースは、データストアから選ばれるレコードからつくられる。統計分析操作は、プロキシ仮想データベース内に選択されたレコードに応用されて、生成された生成物の特徴に重要な影響を及ぼすプロセスコンポーネント及びプロセスコンポーネントの組合せを認識する。識別されたプロセスコンポーネントの少なくとも3つの特性は、二次元の表示装置の上に動画の三次元表現で視覚的に表示され、その視覚的表示は、生成される生成物の選ばれる特性に関する選択されたプロセスコンポーネントの特性の方向性と程度を示す。
【図面の簡単な説明】
【0012】
【図1】本発明によるプロセスの重要なステップを含むフローチャートである。
【図2】本発明によって実行されるシステムのブロック図である。
【図3】本発明によるPCRワークフローにおけるステップのフローチャートである。
【図4】プロセス変数パフォーマンスを示すために生成されるプロセスコントロールシグニチャーの例示的な三次元表現を示す。
【図5】プロセス変数パフォーマンスを示すために生成されるプロセスコントロールシグニチャーの例示的な三次元表現を示す。
【図6】プロセス変数パフォーマンスを示すために用いられるプロセスコントロールシグニチャーの代替の二次元表現を示す。
【図7】プロセス変数パフォーマンスを示すために用いられるプロセスコントロールシグニチャーの代替の二次元表現を示す。
【図8】本発明による視覚的プロセスシグニチャーの動画特徴を図示する。
【発明を実施するための形態】
【0013】
製造プロセスは、プロセスコンポーネントの複合シーケンスを含み、これらのコンポーネントが、材料の上に行われるプロセス及び操作に用いられる上記の材料を含む。プロセスコンポーネントはまた、オペレーションを実行、監視及び制御するために用いられる機械及びツールも含む。オペレーションは、原材料を中間材料に、そして中間材料を完成物に変化させる。
【0014】
本発明は、製造者が、プロセスの経済性を改善し、歩留り向上によって新しい工場建設を延期し、損失バッチの数を減少し、技術移転と収益期間を加速し、完成品のリリース時間を短縮することを可能にするシステムに関する。それは、非プログラマ製造職業者によって簡単に使用できる、企業範囲の集積データアクセス、解析及び視覚化ソフトウェアシステムのための、重大なニーズについて言及する。本発明は、統計値、グラフィクス及びレポート作成をミドルウェア内に集積して、企業にわたって分散されているデータソースにアクセスする。本発明は、企業中に分散されている異なるデータソースへのポイント及びクリックアクセスを可能にし、又、ポイント・アンド・クリックメカニズムを可能にして、分析されたデータを可視化してプロセス結果に影響を及ぼす重要な要素を発見するシステムとして、実行される。
【0015】
プロセスデータセット内に有益な関係を識別しコミュニケーションするためのシステムの重要な特徴はパターン認識である。パターンは実際のオペレーション中に測定されたプロセス変数とプロセス結果との間の関係である。その目的は、将来より良いプロセス制御のための動作を指示する解析結果を生成することである。これは、プロセス結果の可変性を減少し、プロセス歩留りがこれらの範囲のより有利な側に偏ることを可能にする。これらのツールが、また、反対のプロセスドリフトを逆流させ、生成物品質を改善し、プロセス安定性と規定準拠を示すことができる。これらの結果の全ては、規格ミス(specification failure)を最小にし、技術移転とスケールアップを援助し、製造プロセスを安定させることによって、製造コストを減少して、新薬の市場への投入を加速させることに役に立つ。
【0016】
2つの重要な目的は、プロセスが実際にどのように実行するのかに関する情報を引き出することと、それを他の情報にコミュニケートすることである。これらの目的を達成するために、本発明では、4つの密接に統合された機能が用いられる。これらは、データアクセス、コンディショニング、解析及び視覚化である。これらの第1及び最後の機能、また、これらの全ての総合は、現存ソリューションにおいて、適切に言及されていない。
【0017】
図1は、本発明による抽象プロセスの高いレベルの実例を示す。基本的に、完全なプロセスデータソリューションは、データにアクセスするステップ(101)と、アクセスされたデータをコンディショニングするステップ(103)と、解析するステップ(105)と、解析結果を視覚化するステップ(107)とを含む。以下のように更に詳細に記述されるこれらのステップは、繰り返し実行されて、製造プロセスデータを過去にさかのぼって分析し、結果に影響を及ぼす傾向を識別し、生成物品質とプロセスケイパビリティを示す。
【0018】
製造プロセスは、実際に2つの生成物を生成する。即ち、製造される材料自身と関連プロセスデータである。ここで使われている用語「プロセスデータ」はプロセスコンポーネントとプロセス結果を示すデータ及びメタデータを含む。原(raw)プロセスデータを収集し格納するためのハードウェアシステムは、近年ますますより低価に、より普及されるようになっていた。現在、プロセス開発及び製造設備は、慣例的に、その自身のインストルメンテーション、コントロールシステムとデータベース機能を備えるようになっている。ますます下がるコストのため、これらのシステムは現在、製造された生成物のあらゆるバッチによるルーチンベース上に、大量の原データを収集し格納する。
【0019】
図2は、本発明の実行に有用なデータアクセスツール基本アーキテクチャを図示する。解析アプリケーション201は、両方のグラフィカルユーザインターフェース(GUI)を含むユーザインターフェースを提供する。以下に記述される種々な解析機能を提供するために、解析アプリケーション201は、第三者ソフトウェアパッケージを含む多数の統計解析コンポーネントを含んでも良い。解析アプリケーション201も、仮想データベースエンジン202にインタフェースを実装する。
【0020】
仮想データベースエンジン202は、解析アプリケーション201内に組み込まれて、或は、解析アプリケーション201から分離されている別のコンポーネントを提供される。幾つかの市販データベースアプリケーションは、様々なデータ収集技術との接続を確立し維持するため、また、データベース管理ツールを提供してデータストアから情報を検索するための基本的な機能を提供する。仮想データベースエンジン202は、アダプター203を含み、多くの場合、特定のデータベースへの接続性を支持するプラグイン・モジュールとして、提供される。仮想データベースエンジン202は、解析アプリケーション201からリクエストと制御情報を受け取って、データストア特定接続リクエストとクエリを生成する。
【0021】
仮想データストア215は、任意の数の物理的データストアを含む。物理的データストアは、解析アプリケーション201を実装しているコンピュータから、地理的に離れてもよい。物理的データストアは、フラットファイル記憶、構造化クエリ言語(SQL)、オブジェクトオリエントクエリ言語(OOQL)などを含む任意の利用できるデータストア技術を用いて実行されてもよい。仮想データベースエンジン202は、物理的データストアにアクセスしそこからデータを検索するためのデータベース管理システムの種類及びと各物理的データ記憶装置のスキーマに関する十分な知識を含む。
【0022】
データストアの例は、多くの場合、装置を監視するために、又は、製造設備に用いられるプロセスパラメータを制御するために用いられる監視制御及びデータ収集(Supervisory ControlとData Acquisition(SCADA))データストア206を含むが、それに限定しない。研究室情報管理システム(Laboratory Information Management System(LIMS))データベース207は、中間及び最終生成物がどの程度規格を満たしているのかに関するデータを格納するために用いられる。フィールドにおける生成物性能も重要であり、これらのデータは、多くの場合、不利なイベント管理システム(Adverse Event Management System(AEMS))又は類似なデータベースで格納される。原料、反応物及びバッチに用いられるロット番号のデータは、製造実行システム(Manufacturing Execution System(MES))209或は企業資源計画(Enterprise Resources Planning (ERP))システム210に格納される。
【0023】
他のプロセスデータソースは、多くの場合、オラクル(Oracle)、シベース(Sybase)、アクセス(Access)、エクセル(Excel)及び他のデータベース管理ソフトウェアを用いるそれら自身の規格化されたデータベースを有する。エレクトロニックバッチレコードシステム(Electronic Batch Record Systems(EBRS))への遷移が完全するまでに、幾つのプロセスデータのために処理されるべきペーパーレコードもある。これらの他のソース213は、直接に、或はアダプター203と互換可能なインタフェースを提供するが他の遠隔データストアにアクセスするデータアプリケーション212を介して、アクセスされてもよい。企業にわたって分散されている単一生成物バッチに関する5つ以上のアイランドを見つけることは、稀ではない。
【0024】
全ての製造に関連するデータベースは、通常、ローカル・エリア・ネットワーク(LAN)、広域ネットワーク(WAN)のような共同ネットワーク、或はインターネットのようなまたは公衆ネットワーク、又は類似したデータ転送ネットワークに接続している。解析アプリケーション201で実行されるユーザインターフェースと共同ネットワークとの統合は、個々のデータベースへの、そして、その中のデータのサブセットへのポイント・アンド・クリック・アクセスを可能にする。別々のデータベースからの全てのデータをアセンブルして、1つのデータウェアハウスにデータを抽出する伝統的方法は、非常に高価でありえる。同期問題の複雑さのため、実装、維持及び使用も煩わしである。製薬産業では、そのような方法が、また、FDAによる変更制御要件およびエラーの導入及び伝達による制約と矛盾する。
【0025】
本発明によれば、仮想データベースエンジン202は、幾つか物理的データストアからデータをアクセスして、幾つかの物理データストアからの選択されたデータレコードの(オリジナルでない)コピーを含むユーザ選択仮想データストア215をつくる。これらのコピーされたレコードまたプロキシは、コスト効率的な様態で仮想データストアを作り上げる。解析作業、データコンディショニング等は、オリジナルではなく、プロキシレコード上に行われる。従って、オリジナルデータレコードの完全性は、危険にさらされることがない。さらに、仮想データベースは、いくつかの物理的データベースの原レクリエーションよりも遥かに小さく、よって、より小さくより効率的なハードウェアとソフトウェアを使用することを可能にする。
【0026】
製造データは一旦それぞれのオリジナル物理データストアに配置されると、FDAによって要求された変更制御保護のため、主に変更のないままに維持する。残念なことに、機器誤動作と人間のデータ入力の両方により、オリジナルデータに存在しうるあらゆるエラーは、それらのデータベースに残る傾向がある。従って、悪いデータの影響を最小にするためにデータをコンディショニングする(図1におけるステップ1)ためのメカニズムをユーザ与えることは、重要である。
【0027】
「悪い」データは基本的に以下の4種類がある。即ち、特定値の捕捉失敗からの欠測値と、電子回路または他のランダムな変動から生じる異常値と、故障している装置またはデータ処理エラーから生じる誤ったデータと、他のエラー生産プロセスから生じる損傷データとである。好ましくは、解析アプリケーション201及び/或は仮想データベースエンジン202は、これらの種類のエラーの影響を最小にするためにいくつかの方法中に選択する能力を含む。欠測値は、分析方法、セットにおける残留データに類似した可変性を有する値、或は選択されたインタポレーション機能によって生成する値によって、無視されるヌル値によって置換されることができる。異常値は、フォマール異常値ルールまたは視覚方法の使用によって、計算の目的のために、発見され除去されることができる。異常値は、また、欠測値を処理するために用いられる方法と同様な方法によって置換せれることもできる。誤った及び他の損傷データは、異常値として現れない限り、見つけるのが簡単でない。これらの識別は、よりユーザの判断に依存する。各ケースにおいて、どんなデータがどのようにコンディショニングされたかについてユーザに知らせるトラッキング方法が、必要である。ユーザは、彼らの選ばれたコンディショニング方法の分析に及ぼす影響にアクセスできることが必須である。ユーザは、また、オリジナルデータベースに戻って変化したデータを書き込むことがなく、将来の解析のためにデータコンディショニングを繰り返すことができなければならない。
【0028】
データ圧縮は、多くの場合、連続データに適用される。必要な記憶空間の量が減らされるように、データをデータベースに配置する前に、そのデータを圧縮するために使用されるいくつかの方法がある。1つの例は、連続的に測定されたプロセス変数の値がある期間にわたって不変のままである場合にある。この場合、新しい読み込みが若干のしきい値量によってその先行値と異なるまで、記憶空間は更なる読み込みを記録しないことによって節約されることができる。その結果、データコンディショニングのために必要となる追加の機能は、データが分析しやすくなるように、圧縮反転プロトコルを用いて、データを展開することである。
【0029】
そのタイプの統計分析は、単純な概略の統計からのデータ範囲及びより複雑なパターン認識方法論に対する回帰分析で有益なパターンを見つけるために使用された。それらは、リニアモデリング(例えばANOVA、MANOVA、その他)、数値解析(例えばパラメータ表示、最適化、機能フィッティング、その他)と潜在的変数の方法(例えばクラスタ分析、主成分分析、部分的なリース正方形分析、その他)と同様に従来の統計的プロセス制御(SPC)能力を含む。潜在的変数の方法は、性能がプロセス結果に最も大きい影響を及ぼす重要な2、3の成分に多数のプロセスパラメータを凝縮するために極めて有効である。好適な分析の実施は、主成分分析(PCA)を実施するための機構と図3に関して記述した主成分回帰(PCR)ワークフローを少なくとも含む様々なツールを含む。
【0030】
分析の結果を視覚化することは、データ及び/又は分析技術をよく知らない個人にプロセス性能を示す重要な能力であると同様に、アナリストに対しても認識サポートツールである。結果を表示する従来の方法は、表と二次元のグラフに依存する。カラーディスプレイとプリンタの広範囲にわたる有用性により、追加の視覚の「ディメンジョン」が、利用できるようになった。色が、分析の結果の表示の有意の特徴を指摘するために使用されることができる。高性能なグラフィックスソフトとハードウェアの増加した有用性により、実際的な多次元表示方法が使用されることができる。しかし、コマンドラインプログラミングが、障害である。本発明は、ポイント及びクリックインタフェースで適切なワークフローを通して利用できる視覚化能力を作る。
【0031】
バッチの全体的な性能又はバッチのグループを見ることは、単一のイメージにおいて非常に有効な能力である。これは、「視覚プロセスシグネチャ(Visual Process Signatures)」(VPS)と呼ばれている機構を使用した本発明に従って達成されることができる。VPSは、重要なプロセス・パラメータとプロセス結果との間の関係のグラフ図である。VPSは、ルーチン製造プロセス状況の報告のためにしばしば使用されるバッチ報告より進んでいる。ちょうど数の表とグラフのパネルを表示する代わりに、これらのイメージは、また、動画にされることができる単一の、有益な図のデータのマルチプル関係を図示することができる。それらも、異なるグループのバッチの視覚プロセスシグネチャを数学的に結合する可能性を提供し、イールドのような特定の結果パラメータによって定められるように、たとえばバッチのトップ10%とボトム10%との間に重要な差を表示する単一のイメージを導き出す。
【0032】
図3に、本発明の好適な実施に従った、主成分回帰のワークフローを図示する。このようなワークフローは、一般的なシステムとの間に差を生じ、真にユーザフレンドリーなガイドされたユーザインタフェースシステムと比較して、ユーザに、内蔵式統計(embedded statistics)とグラフィックエンジンの細部を学ぶことを強制する。後者は、ユーザに対して、典型的なビルトイン理解(built-in understanding)に基づく論理的ステップの順序で、最も一般的な分析方法論を利用できるようにする。これがないと、ユーザは、どのようにシステムを使用するかを理解することに彼らの時間の大きい部分を費やし、結果の分析と解釈において、むしろマニュアルプログラミングを行う。更に、彼らは、視覚化能力とデータと分析との間の容易な相互作用から来る力を失う。
【0033】
主成分回帰(PCR)を構成する統計学上の方法は、第1に、それらの固有値に基づいた最も重要な主成分の選択が続く主成分分析(PCA)から構成されている。ステップ-ワイズ(step-wise)(SMLR)が、次に加えられる。多数の値を有するリニアモデルが、しばしば何らかのデータに適合するために実行されることができる。このような大きいモデルは、通常非常に不十分な予測値を有する。この危険を最小にするために、PCAとSMLRによって導き出されるモデルは、クロスバリデーション(Cross Validation)によって試験されることができる。PCRローディングが導き出されると、それらをビジュアルプロセスシグネチャ(VPS)と呼ばれている有益な視覚映像で図示することが望ましい。
【0034】
本発明によるこれらの技術は、図3に示すPCRフローのコンテキストに更に詳細に記載されている。図3のワークフローにおいて、プロセスデータセットに従属又は独立変数を含む重要な変数が、ステップ301で、ユーザによって識別される。独立変数は、制御されることができるものであり、一方、従属変数は結果(results)若しくは結論(outcomes)を表す変数であり、そうでなければ直接制御されることができない変数である。本発明は、好ましくはユーザインタフェース機能を含み、変数選択ステップ301、直覚的な、「ポイント&クリック」動作をつくる。
【0035】
識別された変数のための相互/共分散マトリックスは、主成分分析のための出発点としてステップ303で計算される。相互と共分散は、変数の相関性の統計的手段である。
【0036】
最も大きなデータセット(医薬製造中に集められるもののようなデータ)は、効果的モデリングに対して機能する特性を有する。通常かなりの相互関係が独立変数間にあり、通常多数の変数がある。これらの特性が有利な条件にあることができるように、ステップ305で主成分分析が使用される。これは、データを変換することによってなされ、多数の相関変数が、かなり小さい一組の非相関変数によって交換される。新しい、より小さい一組の変数(「主成分」と呼ばれる)は、測定値誤差の範囲内の生のデータより大きなセットと実質的に同じ情報を含む。
【0037】
制御可能な独立変数を使用して、PCAステップ305が実行されると、2つの追加の特徴がもたらされる。第一は、オリジナルのプロセス変数内の情報を示す変数の新たな一組である一組の「スコア」である。第二は、オリジナルプロセス変数とスコアとの間の相関関係を表す一組の「ローディング」である。PCAを使用すると、2以上のファクタによりデータの寸法を低減することが、しばしば可能である。その理由は、従属する変数の可変性の大部分(しばしば90%を超える)は、主成分(すなわち最も高い固有値を伴うもの)の半分の数より少ないものによってしばしば占められることができるからである。
【0038】
PCAは、「潜在的変数の方法(latent variablemethods)」と称される技術のクラスのうちの1つである。これらの技術は、それらが「類似マトリックス」の根拠をもたらすという周知の事柄を有する。PCAの場合、類似マトリックスは共分散又は相関マトリックスであってそれは直交する。他の種類の潜在的変数の方法は、判別式分析、標準的な相関分析及び部分的な最小二乗法(PLS)を含む。 PCAは、それが解釈するのが比較的容易であり、望ましい統計学上の特性を有する結果をもたらすので、有利である。
【0039】
PCAによって生じたベクトルが直交するので、それらは、行列代数を使用して操作することとが比較的容易で、重回帰(multiple regression)のための統計的独立変数を提供する利点がある。最大の固有値を有するそれらの成分を選ぶことによって、PCA解法の次元は、最適化されることができ、必要な変数の最小限の数を保持して実験的な誤差の範囲内のオリジナルのデータを再生することができる。好ましい実施形態は、ステップ303の相関マトリックスを使用する。その理由は、オートスケーリング前処理が生のプロセス変数(測定値の異なるユニットを有する)の大きさとゼロポイントが、分析に影響しないことを確実にするからである。
【0040】
ステップ307で最も高い固有値を有する主要な成分が選択される。主成分が順番に取り込まれると、次に第1の主成分が選択され、データポイントの最大の変化の方向に向きが定められる。ここの変化は、誤差と有意な情報を含む。第2の主成分は、第一と直交するように選択されるが、最大の残留する変数の方向に向きを定められる。第3及びより高い主成分は、それらが前の主成分の全てと直交するように選択されるが、最大の残留する変数と整列する。主成分は、各々が説明する変量によって、最初から最後に又はランクの順序にされる。これをした後に、実質的に、データセットの変化の全てが、しばしば主成分の小さいサブセットによって記述されているとわかる。
【0041】
ステップ305と307で実行されるPCAの結果を説明するのに必要な2つのマトリックスが、ある。1つのマトリックスは「スコア」を含む。これらは、主成分軸上の目標の座標である。どうにか直接スコアを判断する方法がある場合、それらは、オリジナル変数を測定するのにより有効な変数である。それは、各々が、いかなる他のものが行うよりもデータの異なる特徴を測定するからであり、それは、データスペースで直交するからである。第2のマトリックスは、「ローディング」を含む。これらは、オリジナル変数軸と主成分との間の角度のコサインである。ローディングは、主成分にオリジナルの変数がどのように密接に関連しているかを記述していると考えられることができる。
【0042】
主成分が変数のようなので、それらは、他の変数として、多数の同じ手順を受けることができ、その1つはステップ309の重線形回帰である。これをするために、従属する変数(結論)が選択され、独立変数(主成分)をその従属する変数に関連させる係数の1セットが、計算される。多くの変数を有するデータセットに対して、回帰計算の最大の主成分の全てを残すことは、しばしば望ましくない。その理由は、主成分の全てが実際に従属変数と関連するというわけではないからである。それでも、関係が単に偶発的な場合であっても関係なく、重回帰は、係数を割り当てる。
【0043】
段階を追っての重線形回帰(SMLR)、ステップ309の好適な実施は、これを防止するためにデザインされている。SMLRは、最少の、最も有意の変数の独立ソースを見つけるために実行され、それらを所望のプロセス結論に適合させる。この技術では、独立変数は、それらがモデルの統計学的に有意の改良を提供するかどうかに基づいて、一度に加算(又は削除)される。変数の加算又は除去が有意の改良をもたらさないときに、プロセスは止まる。クロスバリデーションは、それからモデル予測能力を検査して、量的にその精度を評価するために使用される。
【0044】
PCAは、遡及(retrospective)データ分析のために使用されることができる利用可能ないくつかの技術のうちの1つである。それは、大きいデータセットから予測モデルを発展させる場合、他よりも、必ずしも優れている単一の技術がない。最良の選択は、データによって決定される。このため、本発明によれば多くの他の有効な技術は、また、フル機能のソフトウェア分析システムで利用できなければならない。
【0045】
PCAは線形モデル(非線形モデルは不必要に複雑である)であるので、PCAは特に製薬製造データの分析に役立つ。PCAは解読が比較的容易であるため、モデルの係数を評価する簡単な方法を提供する。殆ど同じ入力を使用するたびに、殆ど同じモデルを生成することが予想でき、複数の相関従属変数でさえ最適なモデルを展開することができる。PCAが貧弱なモデルを生成するとき、明白に不良な結果が報告される。PCAは、オーバーフィットモデルを生成する傾向にあり、PCAは不利である。このような理由で、好適な実施の形態によるワークフローは、PCRを生成するSMLRを含む。PCAもまた、非線形、不連続又は他の複雑な種類の問題、又は従属変数での可変性では良好に扱われない。
【0046】
ステップ311において、散布図が生成され、異例なサンプル(例えば分離値)及び異例な構造又はプロットしたデータの特徴を識別するために試験される。2つの変数は、ステップ311で発生する2つの次元の「分散ダイヤグラム」によって、直交座標系で表すことができる。このレンダリングでの2つの次元は直交する(他方に対して直角)。ポイント間で直線をプロットすることによって、2つの変数間のどんな単純な線形関係でも、容易にモデル化される。ステップ313において、棒グラフはプロセス変数及びプロセス結果(すなわちPCRローディング)の間における相関の指向性及び範囲を示す準備ができている。
【0047】
ステップ315において、交差評価による重回帰は、PCRモデルの予測の正確度を評価するために使用される。SMLPによって主要な構成要素を選択するために使用されるプロセスのため、モデルが役に立つ予測値を有するかどうかに関して疑いがあるかもしれない。交差評価は、モデルを有効でなくする統計学的にまぎらわしい動作が偶然に実行されたことを確認することによって、この関心について言及する直接の方法である。モデルが未知数を予測する作業に耐え得ることは、信頼を得るための単純なプロセスである。独立及び従属変数は、将来遭遇する値の同じ範囲、すなわち種々のモデルの一般的な制限にまたがると仮定する。
【0048】
交差評価は、一度に1つのデータセット(例えば1つの製造されたバッチ)から、値を無視することによって実行され、次に、残っているバッチから値を使用する線形モデルを計算する。このモデルは、結果として「未知数」(すなわち計算で無視される製造バッチ)を予測することに終わる。各データセットが一度無視されるまで、このプロセスは繰り返される。この情報は、回帰係数の安定度を調べ分離値を識別するために使用することができる。相互評価予測は、モデルの妥当性に対する信頼の基準を提供する相関係数を決定するために、プロセス結果の実効値と比較することができる。相互評価ステップ315で使用される独立変数は、SMLRによって決定される主要な構成要素である。
【0049】
ステップ319〜327は、視覚プロセスシグニチャー(VPS)を発生させ表示する種々の態様を表す。VPSは、キープロセスパラメータ及びプロセス結果間の関係のグラフ図である。VPSは、連続データから導かれる離散データの選択されたグループから、プロセスパラメータのグループの少なくとも3つの特性を選択することによって作成され、三次元の単一フレーム又はアニメ化された表現で選択された特性が視覚的に表現される。
【0050】
VPSで表示されるものの選択は、ステップ317でユーザによって行われ、特定の製造プロセスの詳細に依存する。PCA分析ステップ305で決定されるローディングは、結果に影響を及ぼすプロセス変数を識別し、VPSのために次元を選択するステップ319で使用される。次元は、x軸、y軸及びz軸のために選択される。VPSのx軸かy軸における位置を決定する各パラメーターの特性は、直接又はパーセンテージ(目盛を有する範囲)で表現される最小値又は最大値間の位置又はパラメーター値の位置である。好適には、ユーザもその平均または中央値からの偏差または変分によって各パラメーターをこの軸に配置するオプションを有し、上記平均又は中央値は、直接又はそのグループ若しくは全体的な平均からの標準偏差または分散の関数として示され、好適には自動目盛又は変動目盛で軸の中心における平均(すなわち中央平均)により示される。
【0051】
まだ決定されていないVPSのx軸またはy軸における位置を決定する各プロセスパラメータの特性は、そのパラメータ名又は表示の目的のための数または他の簡潔なテキストに変換されるパラメーター名である。この数は、プロセス順序で特定のパラメーターの位置を示すために便利に使用できる。
【0052】
VPSのz軸でその位置を決定するプロセスパラメータの各グループの特性は、以下から選択できるが、これに限定されない:すなわち、グループ平均、グループ範囲、グループ標準偏差、グループ関連標準偏差、グループ分散、グループ最大値、グループ最小値、グループ主要素回帰ローディング、グループ相関係数及び「P」値である。
【0053】
図4及び図5で示す特定の例として、各変数のためにパーセンテージとして最小値及び最大値間の範囲で位置を示すようにx軸が選択され、y軸はプロセス順序でプロセス変数のリストを示す。図4において、z軸は最大標準偏差(RSD)のパーセンテージを表す。従って、図4でピークが高くなればなる程、バッチのグループ内で対応するプロセス変数によって説明される偏差が大きくなる。図5において、z軸は最大PCRローディングのパーセンテージを示すように選択される。従って、図5でピークが高くなればなる程、プロセス結果に対応するプロセス変数の寄与が増大する。図4及び図5の例において、変数#10は、結果を表し、z軸でフルスケール出力に正規化することができ、視覚化を助ける。
【0054】
多次元でパラメータを表示することによって、本発明は一群のバッチの「高情報量スナップショット」を示し、ユーザーが統計的にバッチ間を比較し、データを処理することを可能にする。図4および図5に示される3Dプロットは、回転させることができ、異なる角度で見ることができ、プロファイルでき、また、内容を容易に見て理解できるように処理可能であるのが好ましい。図4および図5は、図解を容易にするために単に10のプロセス変数のみを使用しているが、何十あるいは何百ものプロセス変数を単一チャートで組合わせることが可能であり、ユーザーに変数間のインタラクションを視覚化できる。
【0055】
図6および図7は、カラー(固体領域により示される)を用いることによって、多数のバッチ上への視覚プロセス・シグニチャの二次元表現を示し、PCRロードの絶対値を示す。グラフィックインディケータによって、カバーされる区域は、対応するプロセス変数のPCRロードの絶対値を示す。図6は、貧弱なパフォーマンス(その範囲の低パーセントの値を有しているパフォーマンス示唆変数(#10)により示される)を有する一群のバッチを通じてされる実例を示し、一方、図7は、優れたパフォーマンスを有する一群のバッチ(その範囲の高パーセントの値を有しているパフォーマンス示唆変数(#10)により示される)を示す。
【0056】
一旦VPSが準備されると、製造工程の履歴パフォーマンスは一群のバッチのローリング平均VPSとして示されることが可能である。これは、プロセス変数の完全なセットか、或いは最も高いPCRロードといった最も関心の高い、プロセス変数の選択されたサブセット用に成されてもよい。マルチプルバッチからのデータを比較することによって、ユーザーは或る時間にわたって繰り返すパターンまたは他の役に立つオーダリングを識別可能である。
【0057】
本発明は、多次元データ表示に更なるステップを施し、製造キャンペーンのコースにわたる幾つかのバッチグループのステップ325および327のローリング平均のアニメーションを作成する。図8において、示唆されるように、複数のイメージがフレーム801a-801eでコンパイルされ、各イメージは、例えば特定シーケンスの特定のバッチグループを表す。アニメーションの各フレームは、シーケンスの次のバッチグループである。フレーム801a-801eは順番に表示され、フォワード、リバース、ストップモーションおよびシングルフレームを含む。これはよって、ユーザーは、プロセス履歴を通して、バッチ処理シグニチャ、プロセスパラメータ・グループ平均値の可変性を表示する相対的な標準偏差、および最も結果に影響を及ぼす主成分において、何が変化したのかを観察できる。
【0058】
動画の視覚プロセス・シグニチャは、移動平均、加重移動平均、移動範囲、可動標準偏差または可動分散で連続したフレームを表示する能力を有する。この種のフレームのディスプレイは、例えばVPSにおいて、表示されるパラメータのうちの1つをランキングすることによって、決められるオーダーで実行される。このランキングに使用されるパラメータは、異なるカラーでマークされるか、または他の手段によって、フレーム内の他のパラメータと識別される。図8の実例において、ピーク802は最適化されるプロセス結果変数を表す。フレーム801a-801eは、結果変数802の次第に増加するパフォーマンスの順に配置される。このオーダーでは、フレームごとの動画のディスプレイがディスプレイのコースを動き回ると、該ディスプレイは多くのより小さいピーク間の視覚トレンドを表す。
【0059】
ユーザーはまた、最古から最新、或いはその逆の日付によって、アニメーションのフレームを注文するオプションを有するのが望ましい。システムはまた、選択されたプロセスパラメータの最高および最悪のパフォーマンス間の差分をランキングすることによって、求められるオーダーで表示される移動平均、加重移動平均、移動範囲、可動標準偏差または可動分散としてオーダーされる連続したフレームを表示することによって、ユーザーがVPSをアニメーションにすることができるのが望ましい。この差分ランキング用に選ばれるパラメータは、異なるカラーでマークされるか、または他の手段によって、フレーム内の他のパラメータと識別される。このランキングは、最小差分から最大差分にか或いはその逆であってよい。
【0060】
プロファイリング・ツールは、x軸、y軸またはz軸を介してVPSの「スライス」を選択し、異なるウィンドウで結果として生じる2Dプロファイルを表示する機能を有して提供されるのが望ましい。この新規なウィンドウは、オリジナルデータのフルパラメータ名およびVPSのプロファイルのロケーションを表示できる。この新規なプロファイル・プロットは、プロファイルが交差するプロセスパラメータのプロファイルを形成する。
【0061】
製造日付をランキングすることによって、アニメーション化されるVPSによって、ユーザーは、時間と共に単独または共に変化するファクター(例えば季節的な変更によって、影響を受けるプロセスパラメータ)のプロセスへの効果を見ることができる。該ファクターに水のミネラル内容または空気の湿度の変化を導入してもよい。この多次元イメージアニメーション技術の別の有用なアプリケーションは、最悪パフォーミング・バッチから最高パフォーミング・バッチへのプログレッションとして、全てのプロセスパラメータの変化を同時に観察することである。これは、バッドランとグッドラン間のキーとなる差分を文字通りユーザーに「見せる」。
【0062】
過去にさかのぼってのバッチ・データ解析は、製造工程パフォーマンスを評価し改善するために製薬業および他の製造業で一般に実施されている。多数のアナリストが、上述されたPCR作業の流れは既存のソフトウェアパッケージを用いて実行するにはむずかしいと考えている。これは数学が新規なものであるという理由からではなく、解析を実行するのに有効ソフトウェアパッケージが、ポイント&クリック操作よりむしろコマンドライン・プログラミングを最も頻繁に要求するからである。さまざまな解析ステップは、一般的に製造データ解析に適した有用なアレンジメントには供されない。本発明は、ポイント&クリック・ギャザリング、プロセス・データの解析および処理を可能にする統合解を提供する。
【0063】
本発明は或る特定の程度で図と共に説明されているが、本開示は一例としてなされるだけで、部分の組合せおよびアレンジにおける多数の変更は、以下に特許請求の範囲として、本発明の精神と範囲から逸脱することなく当業者によって到達可能であることは理解されよう。

【特許請求の範囲】
【請求項1】
製造プロセスデータを分析して、生成される生成物の特性に影響を及ぼす製造プロセスコンポーネントを特定するコンピュータシステムであって、
プロセスデータを含む複数のレコードを記憶する複数のデータストアであって、各レコードが少なくとも一つのプロセスコンポーネントに関連付けられた、該複数のデータストアと、
前記複数のデータストア内からユーザにレコードを選択させるユーザインターフェースと、
前記ユーザインターフェースを介して選択されたレコードを前記複数のデータストアから読み出し、読み出したレコードのコピーを保存するプロキシ仮想データベースを生成する仮想データベースエンジンと、
前記プロキシ仮想データベース内のレコードに潜在的変数の方法による統計処理を適用することで、最大の固有値を有するプロセスコンポーネント又はプロセスコンポーネントのグループを特定し、特定された該プロセスコンポーネント又はプロセスコンポーネントのグループを用いて重線形回帰分析を実行することで、生成される生成物の特性を算出する統計解析エンジンと、
特定された前記プロセスコンポーネント又はプロセスコンポーネントのグループと、算出された前記生成物の特性との2次元の関係の散布図を表示装置上に表示し、PCRローディングの棒グラフを該表示装置上に表示することにより、特定されたプロセスコンポーネントと生成された生成物の特性との相関の方向性及び範囲を、3軸のグラフ上にプロットされた3次元表現で示すグラフィカルインターフェースコンポーネントと
を備えるコンピュータシステム。
【請求項2】
前記グラフィカルインターフェースが前記3次元表現を動画で示す、請求項1に記載のコンピュータシステム。
【請求項3】
前記動画が、プロセス結果のグループの大きさによって順序づけられたフレームの表示を含む、請求項2に記載のコンピュータシステム。
【請求項4】
前記動画が、選択されたプロセスコンポーネントのグループの大きさによって順序づけられたフレームの表示を含む、請求項2に記載のコンピュータシステム。
【請求項5】
前記動画が、製造日によって順序づけられたフレームの表示を含む、請求項2に記載のコンピュータシステム。
【請求項6】
前記動画が、バッチナンバーによって順序づけられたフレームの表示を含む、請求項2に記載のコンピュータシステム。
【請求項7】
前記動画が、ロットナンバーによって順序づけられたフレームの表示を含む、請求項2に記載のコンピュータシステム。
【請求項8】
プロセスデータの視覚認識及び通信のために、コンピュータシステムが視覚プロセス符号を表示する方法であって、
プロセスデータを含むと共にそれぞれが少なくとも一つのプロセスコンポーネントに関連づけられた複数のレコードを有する複数のデータストアにデータを記憶するステップと、
前記複数のデータストア内からレコードを選択するステップと、
選択されたレコードを前記複数のデータストアから読み出し、読み出されたレコードのコピーを保存するプロキシ仮想データベースを作るステップと、
プロキシ仮想データベース内のレコードに潜在的変数の方法による統計処理を適用することで、最大の固有値を有するプロセスコンポーネント又はプロセスコンポーネントのグループを特定し、特定された該プロセスコンポーネント又はプロセスコンポーネントのグループを用いて重線形回帰分析を実行することで、生成された生成物の特性を算出するステップと、
特定された前記プロセスコンポーネントの少なくとも3つの目的の特性を選択するステップと、
特定された前記プロセスコンポーネント又はプロセスコンポーネントのグループと、算出された前記生成物の特性との2次元の関係の散布図を表示装置上に表示し、PCRローディングの棒グラフを該表示装置上に表示することにより、特定されたプロセスコンポーネントと生成された生成物の特性との相関の方向性及び範囲を、3軸のグラフ上にプロットされた3次元表現で示すステップと
を含む方法。
【請求項9】
前記視覚プロセス符号が動画である、請求項8に記載の方法。
【請求項10】
前記動画が、プロセス結果のグループの大きさによってそれぞれ順序づけられた移動平均、加重移動平均、移動範囲、移動標準偏差、移動分散からなるグループから選択された方法によって順序づけられたフレームの表示を含む、請求項9に記載の方法。
【請求項11】
前記動画が、プロセスコンポーネントのグループの大きさによってそれぞれ順序づけられた移動平均、加重移動平均、移動範囲、移動標準偏差、移動分散からなるグループから選択された方法によって順序づけられたフレームの表示を含む、請求項9に記載の方法。
【請求項12】
前記動画が、プロセス結果の最良と最悪のグループの差の大きさによって、最も小さい差、あるいは逆に最も大きい差から順序づけられた移動平均、加重移動平均、移動範囲、移動標準偏差、移動分散からなるグループから選択された方法によるフレームの表示を含む、請求項9に記載の方法。
【請求項13】
前記動画が、選択されたプロセスコンポーネント又はオペレーションのグループの最大値と最小値の差の大きさによって、最も小さい差、あるいは逆に最も大きい差から順序づけられた移動平均、加重移動平均、移動範囲、移動標準偏差、移動分散からなるグループから選択された方法によるフレームの表示を含む、請求項9に記載の方法。
【請求項14】
前記動画が、製造日、バッチナンバー又はロットナンバーによって順序づけられた移動平均、加重移動平均、移動範囲、移動標準偏差、移動分散からなるグループから選択された方法によるフレームの表示を含む、請求項9に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−253526(P2011−253526A)
【公開日】平成23年12月15日(2011.12.15)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−103824(P2011−103824)
【出願日】平成23年5月6日(2011.5.6)
【分割の表示】特願2001−522478(P2001−522478)の分割
【原出願日】平成12年9月8日(2000.9.8)
【出願人】(502087725)イージス アナリティカル コーポレイション (1)
【Fターム(参考)】