説明

適応性のあるデータクリーニング

データクリーニングプロセスは、少なくとも2つのソースシステムからロードされたデータを検証するステップと、検証されたデータを正規化データクリーニングリポジトリに付加するステップと、ソースシステムの優先順位を選択するステップと、クリーンなデータベースを作成するステップと、クリーンなデータベースからの矛盾がなく、正規化され、かつ、クレンジングされたデータを、当該データを用いるデータシステムおよびソフトウェアツールが必要とするフォーマットにロードするステップと、レポートを作成するステップと、ソースシステムを更新することなくユーザによってクリーンなデータベースを更新するステップとを含む。データクリーニングプロセスは、矛盾のない分析を可能にする最適化モデルのために、異なるソースからのデータを収集および分析するプロセスを標準化する。データクリーニングプロセスはさらに、動的なデータセットを用いるデータシステムおよびソフトウェアツールの入力および出力に対する完全な監査可能性を提供する。データクリーニングプロセスは、たとえばサプライチェーン管理のために、軍用および商用の両方の航空機産業における応用例に適しているが、これに限定されない。

【発明の詳細な説明】
【技術分野】
【0001】
関連出願との相互参照
この出願は、2005年4月20日に出願された米国仮出願番号第60/673,420号の利益を主張する。
【背景技術】
【0002】
発明の背景
この発明は概してデータの処理および管理プロセスに関し、より詳細には、適応性のあるデータクリーニングのプロセスおよびシステムに関する。
【0003】
実世界の大型のデータセットの品質はいくつかの問題に依存するが、データのソースが決定的な要因である。データのエントリおよび取得は、本質的に、単純なエラーおよび複雑なエラーの両方を被りやすい。エントリエラーの低減に関してこのフロントエンドプロセスに対してしばしば非常に努力が行なわれるが、大型のデータセットの中のエラーはよく起こるという事実が多くの場合残る。大型のデータセットについてのフィールドエラー率は、典型的にはおよそ5%以上である。データ分析に必要な時間の半分までは、典型的にはデータのクリーニングのために費やされる。概して、データクリーニングは大型のデータセットに適用される。データクリーニングは、大型のデータセットの精度を向上させるための、データをかき集める(scrubbing)プロセスである。理想的には、データクリーニングは、明白な転写エラーを排除できるべきであり、誤った部品番号または無効なコードなどの誤ったエントリを補正できるべきであり、価格付けまたはリードタイムなどの欠落したデータを更新できるべきであり、データの複数のソースおよび定義が存在し得ることを認識できるべきである。効果的なデータクリーニングは、ルールに基づいたまたは手動の選択の根拠を説明するために電子注釈を組入れるべきであり、監査証跡を提供すべきであり、操作が容易であるべきである。
【発明の開示】
【発明が解決しようとする課題】
【0004】
データクリーニングはしばしば、骨が折れ、時間がかかり、かつエラーを被りやすい手動のプロセスを使用してなされる。その結果、大型のデータセットの中のエラーを自動検出できる方法またはエラーの検出を助ける方法が非常に興味深い。自動化されたデータクリーニングのプロセスは典型的には多面的であり、任意の特定のデータクリーニングの問題を解決するためにはいくつかの問題に対処しなければならない。概して、起こり得るエラータイプを定義および決定する必要があり、エラーの検索を行なう必要があり、エラーを識別する必要があり、発見されたエラーを補正する必要がある。
【0005】
たとえば、i2テクノロジーズ(i2 Technologies)、IBM、マニュジスティックス(Manugistics)、MCAソリューションズ(MCA Solutions)、システムズ・エクスチェンジ(Systems Exchange)、またはゼルス(Xelus)などの現在のサプライチェーンソフトウェアソリューションのベンダーは、内部データ構造を十分に開発し、考案してきた。これらの構造は、顧客のソースシステムにマッピングされなければならず、定期的に更新されなければならない。このマッピングは、実行中には「ハードワイヤード」であり、ソースまたはビジネスルールが変化したときには記録を必要とする。さらに、サプライチェーンソフトウェアへのローディングに先立って顧客データを記憶する中間データベースの開発がしばしば必要である。また、現在のサプライチェーンソフトウェアソリューションは、結果のアーカイブ、その結果に繋がる入力のアーカイブ、または時の経過に伴うデータのバージョニングを支援しない。これは、たとえば航空機、トラック、船または機械な
どの重機のストックの推奨に繋がる決定プロセスを顧客が監査することを妨げる。寿命が長い重機などの修理可能なアイテムについてのサービス部品のストックレベルが数千万ドルから数億ドルに達するので、監査可能性は多くの顧客にとって重要な要件である。
【0006】
ソースシステムと中間データベースとの間のギャップを橋渡しするために、抽出、変換およびロード(Extract, Transform, and Load)(ETL)ツールが典型的に使用される。ETLツールは、データベースソフトウェアの1つのオペレーティングシステムおよびブランドから別のものにデータを変換するために使用される。ETLツールは、データを変換およびフィルタリングするために限られたビジネスルールを適用する。ETLツールは、同じデータの複数のソースを扱うようには設計されていない。さらに、ビジネスルールは、データの複数のソースに適用されると、データ収集プロセス中に適用され、これは2つ以上のデータのソースに対する変更が後で目に見えるようになることを排除する。ETLツールはまた、時の経過に伴うデータの変更を追跡することを含むデータのバージョニングを支援しない。
【0007】
2000年に、アメリカ合衆国マサチューセッツ州ハーバード(Harvard)のベンタナ・システムズ・インコーポレイテッド(Ventana Systems, Inc)は、C−17空輸プログラムのためのサプライソフトウェアソリューションについて、アメリカ合衆国カリフォルニア州ロングビーチ(Long Beach)のボーイング・カンパニー(Boeing Company)のためにデータクリーニングソリューションを開発した。この先行技術のクリーニングソリューションは、オラクル(Oracle)およびC++で書かれており、エクセル(Excel)(登録商標)のようなユーザインターフェイスを有する。このデータクリーニングソリューションは、ユーザがデータベースにおけるデータを変更でき、変更されたデータを色分けすることによって、データに対する変更が単純な決定ツリー論理を使用して時の経過に伴って持続可能であるようにする方法を開発することによって、およびクリーニングしたいと思うデータ要素をユーザが選択できるようにすることによって、先行技術を進歩させている。それでも、この先行技術のデータクリーニングソリューションにはいくつかの制約が組入れられている。たとえば、サプライチェーンソフトウェアソリューションは、データのカプセル化の使用に対して、任意のルーチンによって変更され得る大域変数(global variable)を使用し、データクリーニングソリューションは、維持することを困難にする複雑な内部データ構造を使用し、アプリケーションによるデータのローディングは厳密な手順に準拠しなければならず、そうでなければデータは破損する可能性がある。
【0008】
分かるように、自動化されかつ複数のソースからのデータの選択を可能にするデータクリーニングのための方法が必要である。さらに、結果のアーカイブ、その結果に繋がる入力のアーカイブ、または時の経過に伴うデータのバージョニングのための支援を可能にするデータクリーニングプロセスが必要である。さらに、既存のデータ管理システムに容易に組込むことができるデータクリーニングプロセスが必要である。
【0009】
したがって、標準化された手順を提供し、企業の共通のデータウェアハウスプロジェクトを補完し、複数のソースからデータを選択するデータクリーニングのためのプロセスを提供する必要が生じてきた。さらに、異なる顧客が表面上同じデータ要素の異なるソースを見る必要があるかもしれないこと、および理論的には同じデータであるべきものの複数のバージョンが存在する可能性があることを認識するデータクリーニングのためのプロセスを提供する必要が生じてきた。さらに、分析のために使用されるデータおよび分析の結果の両方をアーカイブできる、適応性のあるデータクリーニングのためのプロセスを提供する必要が生じてきた。
【課題を解決するための手段】
【0010】
発明の概要
この発明の一局面においては、データクリーニングプロセスは、データフォーマッティングユーティリィティおよびデータクリーニングユーティリィティを用いて、少なくとも2つのソースシステムからロードされたデータを検証するステップと、検証されたデータを正規化データクリーニングリポジトリに付加するステップと、ソースシステムの優先順位を選択するステップと、クリーンなデータベースを作成するステップと、固有のデータ識別子間の相互参照を作成および維持するステップと、クリーンなデータベースからの矛盾がなく、正規化され、かつ、クレンジングされたデータを、当該データを用いるデータシステムおよびソフトウェアツールが必要とするフォーマットにロードするステップと、当該矛盾がなく、正規化され、かつ、クレンジングされたデータを用いて標準化データクリーニングおよび管理レポートを作成するステップと、ソースシステムを更新することなくユーザにより当該矛盾がなく、正規化され、かつ、クレンジングされたデータを更新するステップとを含む。クリーンなデータベースは、少なくとも2つのソースシステムからの各データ要素のための固有のデータ識別子を含む。
【0011】
この発明の別の局面においては、サプライチェーンのためのデータクリーニングプロセスは、複数のソースシステムからデータ要素およびソースのマスタテーブルにデータをロードするステップと、ソースシステムの優先度を選択するステップと、高ドライバおよびエラーレポートを検討するステップと、データ要素およびソースのマスタテーブルに含まれるロジスティックスデータをクリーニングするステップと、データ要素およびソースのマスタテーブルの矛盾がなく、正規化され、かつ、クレンジングされたデータを承認し、当該クレンジングされたデータを、当該データを用いるデータシステムおよびソフトウェアツールに供給するステップと、当該クレンジングされたデータを用いて、戦略的在庫表最適化モデルを用いるストックレベルおよび発注点の在庫表最適化を開始するステップと、ストックレベルおよび発注点の推奨を含む予備品分析を行うステップと、顧客監査証跡のための支援データをアーカイブするステップと、レポートを作成するステップと、当該レポートに従って不足をカバーするよう予備品を購入するステップとを含む。
【0012】
この発明のさらに他の局面においては、データクリーニングシステムは、データフォーマッティングユーティリィティ、データクリーニングユーティリィティ、正規化データクリーニングリポジトリ、ソース優先順位付けユーティリィティ、クリーンなデータベース、相互参照ユーティリィティ、およびデータクリーニングユーザインターフェースを含む。データフォーマッティングユーティリィティは、少なくとも2つのソースシステムからダウンロードされたデータを検証するのに用いられる。データクリーニングユーティリィティはデータをクリーニングするのに用いられる。ソース優先順位付けユーティリィティは、少なくとも2つのソースシステムの優先順位を選択するのに用いられる。正規化データクリーニングリポジトリは、フォーマットされ、かつ、クレンジングされたデータを受信する。クリーンなデータベースはクレンジングされたデータと優先順位が付けられたデータとを組み合わせる。クリーンなデータベースは、各データ要素のための最良値および固有のデータ識別子を含むアイテムデータの単一のソースである。相互参照ユーティリィティは、固有のデータ識別子間の相互参照を作成および維持するのに用いられる。データクリーニングユーザインターフェースにより、ユーザがクリーンなデータベースを更新することが可能となる。
【0013】
この発明のこれらおよび他の特徴、局面および利点は、添付の図面、以下の説明および添付の特許請求の範囲を参照するとよりよく理解されるだろう。
【発明を実施するための最良の形態】
【0014】
発明の詳細な説明
以下の詳細な説明は、現在のところ考えられる、この発明を実施する最良の形態である。この発明の範囲が添付の特許請求の範囲によって最もよく規定されるので、この説明は
限定的な意味で取られるべきではなく、この発明の一般的な原理を例示する目的でのみなされる。
【0015】
概して、この発明は、最適化モデルのために異なるソースからのデータを収集および分析するプロセスを標準化する、適応性のあるデータクリーニングのプロセスおよびシステムを提供する。この発明はさらに、時の経過に伴って変化する動的なデータセットを使用して周期的に実行される最適化モデルまたは他のツールもしくはモデルの入力および出力に対して完全な監査可能性を与えるデータクリーニングプロセスを概して提供する。この発明の一実施例におけるような適応性のあるデータクリーニングのプロセスおよびシステムは、矛盾がない分析を可能にし、1回限りのデータベースの符号化を排除し、変化するデータソースに合わせるのに必要な時間を低減し、たとえば在庫表最適化モデルのためにまたはサプライチェーンの提案の展開中に使用され得る。この発明の一実施例は、たとえばサプライチェーン管理についての、軍用機産業および民間航空機産業の両方での適用例に好適であるがそれに限定されないデータクリーニングプロセスを提供する。この発明の一実施例は、寿命が長い重機を利用する産業での適用例にさらに好適であるがそれに限定されないデータクリーニングプロセスを提供する。大型のデータベースを管理する必要がある場合、データベースが複数のソースからデータを受信する場合、たとえばいくつかのサブ組織からのデータを組合せる必要がある大企業の場合、および管理されるべきデータが運送業における重機などの高価値の商品に関連する場合に、この発明の一実施例におけるようなデータクリーニングプロセスが使用され得る。さらに、たとえば在庫表の管理、注文の管理、消費者データの管理のために、または工業用メンテナンスに関連して、この発明の一実施例におけるようなデータクリーニングプロセスが使用され得る。
【0016】
一実施例では、この発明は、複数のソースからデータを選択し、優先度に基づくヒューリスティックス(heuristics)を使用して複数のソースから最良のソースを選択し、予測のために最良値を選択するデータクリーニングプロセスを提供する。既存のETL(抽出、変換およびロード)ツールは、同じデータの複数のソースを扱うようには設計されていない。現在のETLツールは、複数のソースからデータをロードし得るが、別のソースに優先して1つのソースを選択するためにカスタム論理を作成するようにソフトウェア開発者またはユーザに要求し得る。さらに、ソフトウェア開発者またはユーザの手動の介入なしに典型的なETLツールを最初に組込んだ後は、ソースを追加または削除できない。先行技術に反して、この発明の一実施例におけるようなデータクリーニングプロセスによって、無限の数のデータ要素およびソースをいつでも追加または廃棄できる。先行技術のデータクリーニングプロセスに反して、この発明の一実施例におけるようなデータクリーニングプロセスは、顧客などの異なるユーザが、部品購入の内部値および部品販売の外部値を有し得る、単価などの表面上同じデータ要素の異なるソースを見る必要があるかもしれないことを認識し得る。この例では、価格の両方の値が有効であり、どちらの値が使用されるかはアプリケーションに依存する。この発明の一実施例におけるようなデータクリーニングプロセスは、異なるソースからの選択されたデータ要素の複数の値を表示する能力を有し得る。ユーザは、ソースシステムにおける情報よりも正確であり得る情報で元の選択をオーバーライドし得る。各データ要素の1つの値のみが目に見える伝統的なデータベースとは異なって、この発明の一実施例におけるようなデータクリーニングプロセスは、以前の値に対するバージョニングおよび異なるソースシステムから利用可能な各データ要素のすべてのバージョンに対するトレーサビリティを提供し得る。
【0017】
一実施例では、この発明は、データリポジトリエリアにおけるデータ要素に対してなされるすべての変更を取込みかつ識別する能力、およびその変更をユーザに戻すように再表示する能力を有するデータクリーニングプロセスを提供する。データ要素に対する変更についての情報は、その変更が画面の変更であるかまたは一括更新であるかにかかわらず、データを変更するユーザ、変更の日付、およびなぜ変更がなされたかを含むコメントを追
跡することによって取込まれ得る。これは、概して疑わしいデータのみにフラグを立てることができ、概して記録のシステムに対して変更がなされることを要求する先行技術のデータクリーニングプロセスと比較した利点である。多くの場合、記録のシステムは、データクリーナが更新権限を持たない顧客のデータベースまたは部門のデータベースである。その結果、ユーザが記録のシステムを更新せざるを得ない先行技術のデータクリーニングソリューションはしばしば実用的ではない。先行技術に反して、この発明の一実施例におけるようなデータクリーニングプロセスは、コンピュータモデルへの入力および出力の両方への日付の入ったバージョニング、時の経過に伴うデータに対する変更の追跡を提供する。既存のETLツールは、時の経過に伴うデータのバージョニングを支援しない。この発明の一実施例におけるようなデータクリーニングプロセスによって、結果ならびにその結果が依拠していたデータおよびデータソースの両方の監査可能性が可能になる。この発明の一実施例におけるようなデータクリーニングプロセスはさらに、ユーザが定義可能なビジネスルールに反するデータを選別することによってデータの完全性を保証する。さらに、この発明の一実施例におけるようなデータクリーニングプロセスによって、ユーザがたとえばソースシステムから部品番号に追加および削除することが可能になり、追加されたものに対するトレーサビリティを維持し、物理的にデータを削除するのではなくトレーサビリティのために削除されたデータにフラグを立てる。その結果、データは、削除されるときに電子的にタグを付けられるが、データリポジトリから物理的に除去されるわけではない。さらに、この発明の一実施例におけるようなデータクリーニングプロセスは、自動化された注を追加し、手製の注を考慮に入れ、これらは、各データ要素に添付されることができ、自動化された処理、フォーマット変換についての情報および他のデータ品質情報を提供し得る。これは、分析のためにデータを変換しなければならないとき、たとえばイギリスポンドからアメリカドルに通貨を正規化するときに、監査可能性を与える。
【0018】
一実施例では、この発明は、たとえばサプライチェーンソフトウェアツールに関連して使用されることができ、かつ、このようなサプライチェーンソフトウェアツールの結果をアーカイブおよび共有することを可能にし得るデータクリーニングプロセスを提供する。現在存在しているデータリポジトリは、分析を行なうのに必要な現在の入力データを記憶する。この発明の一実施例におけるようなデータクリーニングプロセスは、分析が行なわれたときに使用されたデータおよびその分析の結果の両方をアーカイブすることを可能にする。これは、データのソースおよびそのデータに基づくモデル結果に対して完全な監査可能性を与える。これは、たとえば、費用のかかるメンテナンス予備品の購入の背景にある根拠に対する監査可能性が必要な政府のサプライチェーン契約および民間の契約にとって重要である。データおよび結果のアーカイブを支援する公知のサプライチェーンツールは存在しない。さらに、この発明の一実施例におけるようなデータクリーニングプロセスによって、警告を与えるデータ要素レベルに閾値およびトリガを確立でき、この警告は、たとえば資産管理者およびデータ所有者に、特定のデータ要素が疑わしく、検討されるべきであることを通知する。これらの閾値は、大量のデータが更新されているときには特に重要である。なぜなら、エラーについて各々のおよびすべてのデータ要素をスキャンすることは物理的に不可能である可能性があり、エラーが発生しやすい可能性があるためである。さらに、この発明の一実施例におけるようなデータクリーニングプロセスは、手動の検討のために極めて重要な欠落したデータにフラグを立てる間に、欠落したデータを埋めるためにデフォルトを与える。これによって、全アイテムについての任意のデータ要素が欠落しているかまたは無効である場合に全アイテムを削除する伝統的なソリューションと比較して、すべての部分を分析の中に含める可能性がより高くなる。この発明の一実施例におけるようなデータクリーニングプロセスは、デフォルトが使用されたすべてのデータ要素に対するトレーサビリティを提供する。
【0019】
ここで図1を参照して、データクリーニングのハイレベルアーキテクチャ10がこの発明の一実施例に従って示される。データクリーニングのハイレベルアーキテクチャ10は
、既存のインターフェイス11に組込まれるデータクリーニングシステム20を含み得る。データクリーニングシステム20は、ETL(抽出、変換およびロード)ツール21と、データフォーマッティングユーティリティ22と、データクリーニングユーティリティ23と、正規化データクリーニングリポジトリ24と、ソース優先順位付けユーティリティ26と、データ要素およびソースのマスタテーブル30(図2にも図示)と、相互参照ユーティリティ27と、レポート28と、データクリーニングユーザインターフェイス29とを含み得る。既存のインターフェイス11は、企業、顧客および供給者データ12と、ETLツール13と、データウェアハウス14と、外部のデータソース15と、サプライチェーン在庫表最適化システム161、統合情報システム162、在庫表管理システム163、契約および価格付けシステム164、エンジニアリングシステム165、およびシミュレーションシステム166などのデータシステムならびにソフトウェアツール16とを含み得る。企業、顧客および供給者データ12は、ETLツール13を使用してデータウェアハウス14にロードされ得る。
【0020】
ETLツール21は、データウェアハウス14からまたは外部のデータソース15からデータを抽出でき、抽出されたデータをデータクリーニングのために共通のフォーマットに変換でき、変換されたデータをデータクリーニングシステム20にロードできる。この動作はまた、カスタムデータベースクエリーを使用して行なわれてもよい。データウェアハウス14および外部のデータソース15は、ソースデータのためのソースシステムまたはソースであり得る。データフォーマッティングユーティリティ22は、データ検証の一部として固有のデータ識別子を共通のフォーマットに調整するために使用され得る。
【0021】
データフォーマッティングユーティリティ22は、ダッシュまたは空白スペースを含むなどの固有のデータ識別子のわずかな変化によって、ダッシュまたは空白スペースがあるべきではないときに識別子が異なるアイテムとして解釈される可能性があるというデータエントリの問題を説明し得る。
【0022】
データクリーニングユーティリティ23は、データ検証の一部として、データウェアハウス14および外部のデータソース15などのソースシステムからのデータをクリーニングするために使用され得る。データクリーニングユーティリティ23は、各ソースシステム(データウェアハウス14または外部のデータソース15)からデータクリーニングフォーマットにロードされたデータの有効性を保証するために使用され得る。
【0023】
正規化データクリーニングリポジトリ24は、フォーマットされ、かつ、クレンジングされたデータを異なるソースシステムから受信し得る。正規化データクリーニングリポジトリ24は、データウェアハウス14および外部のデータソース15などの異なるソースシステムからのクレンジングされたデータをマスタデータテーブルにロードし得る。
【0024】
ソース優先順位付けユーティリティ26は、データウェアハウス14および外部のデータソース15などのデータソースの優先順位を選択するために使用され得る。データウェアハウス14および外部のデータソース15などのソースシステムは典型的には、異なる組織によってロードおよび維持されることができ、表面上同じデータ要素32であるもののために記憶されている異なる値に繋がる。これは、複数の部門を有する大きな組織内で、ならびに顧客、供給者および政府組織にわたって共通である。
【0025】
データ要素およびソースのマスタテーブル30(図2にも図示)は、複数のソースからのクレンジングされたデータと優先順位が付けられたデータとを組合せるクリーンなデータベースとして作成され得る。データ要素およびソースのマスタテーブル30は、各データ要素32の最良値を含むアイテムデータの単一のソースであり得る。
【0026】
相互参照ユーティリティ27は、固有のデータ識別子31間の相互参照を作成および維持するために使用され得る。異なるデータソースは、セクション参照、(NATO(North Atlantic Treaty Organization)(北大西洋条約機構)ストック番号または米国ストック番号のいずれかと定義される)NSN(NATO stock number or national stock number)、または部品番号および製造者のコードなどの異なる固有のデータ識別子31を使用し得る。多くの場合、固有のデータ識別子31は、特定のデータソース内で相互参照されることになる。これによって、クリーンなデータベースがデータウェアハウス14または外部のデータソース15などの複数のソースから作成されるときに相互参照を展開することが可能になり得る。アイテムごとに固有の参照番号を作成することがさらに可能であり得る。1つのスキームについての固有のデータ識別子31が別のスキームについての複数の固有のデータ識別子31にマッピングするとき、およびその逆のときに、相互参照において一対多、多対一または多対多の関係が生じる可能性がある。その結果、データ要素およびソースの、優先順位が付けられたデータクリーニングマスタテーブル30はしばしば、重複した固有のデータ識別子31を含み得る。相互参照ユーティリティ27は、不要な重複物を削除するためおよび相互参照における矛盾を補正するためにユーティリティを提供し得る。さらに、データクリーニングシステム20からデータを送られるデータシステム16が真に固有のデータ識別子番号を受信できるように固有の参照番号を作成し得る。これによって、データシステム16および接続されたアプリケーションは、相互参照が完璧であることを要求することなく実行可能であり得る。たとえば、4つのタイヤおよび予備タイヤを有する自動車についてのいくつかの適用例は、固有のアイテム識別子を複数回使用できるようにし得る。たとえば、特定のモデルのタイヤが好ましい供給者および最も最近に見積られた価格のみをリストにすることを要求する購入システムについての他の適用例は、一度だけ生じるように固有のアイテム識別子を要求し得る。この問題を解決するために、刻み目が付けられた(indentured)マスタデータアイテムリストを作成および維持し得る。必要なときに、マスタデータアイテムリストによって、固有のアイテム識別子を複数回使用できる。一例は軍用機の部品のリストである。たとえば、ヘリコプターは6つの回転翼の羽根を含んでいてもよく、前方パイロンアセンブリの一部として3つの羽根を含み、機尾パイロンアセンブリの一部として3つの羽根を含んでいてもよい。購入システム161は、回転翼の羽根についての年間の購入を知る必要があるだけでよいのに対して、在庫表最適化システム163は羽根当たりの要求される需要およびアセンブリに応じた羽根の数量を知りたいと思うかもしれない。1組のユーティリティによって、マスタデータアイテムリストにおける重複したデータをデータ要素およびソースのマスタテーブル30(図2に図示)における固有のアイテムデータとマージすることが可能であり得る。需要レートなどのデータ要素32について適切な比率を計算に入れることができる。このデータは次いで、適切なソフトウェアツール、たとえばサプライチェーンソフトウェア161で使用するために供給され得る。
【0027】
ETLツール21またはカスタムデータベースクエリーは、データ要素およびソースのマスタテーブル30からの矛盾がなく、正規化され、かつ、クレンジングされたデータを、サプライチェーンソフトウェア161、統合情報システム162、在庫表管理システム163、契約および価格付け164、エンジニアリング165、およびシミュレーション166などのデータシステムならびにソフトウェアツール16に必要なフォーマットにロードするために使用され得る。
【0028】
また、標準化されたデータクリーニングおよび管理レポート28を作成し得る。多くの場合、1つのシステムにおける管理レポートは、別のシステムにおける管理レポートと類似しているか、または全く同じでさえある。データクリーニングシステム20は、要素およびソースのマスタテーブル30に対して最も一般的なレポートのうちいくつかを提供し得る。たとえば、要素およびソースのマスタテーブル30(図2に図示)における固有のアイテム識別子31の番号を記録し得るラインカウントレポートを作成し得る。ラインカ
ウントは、異なるデータ要素32に対して相互作表され得る。たとえば、在庫表管理システム163が消耗部品の総数および修理可能な部品の総数を知りたい場合、この情報はラインカウントレポートから引出され得る。さらに、標準化された高ドライバレポート40(図3に図示)を作成し得る。標準化された高ドライバレポート40は、検討のためにデータを優先順位付けすることを可能にし得る。優先順位付けによって、一貫性および精度についてデータを検討するときに異常をすばやく突き止めることが可能になり得る。
【0029】
データクリーニングユーザインターフェイス29は、閉じループデータクリーニングを可能にし得る。データクリーニングは、ほとんどの場合、在庫表管理163などの実行システム(データシステムおよびソフトウェアツール16)のユーザによって「第一線」で行なわれる。これらのユーザは、新しい見積もりを求める間、またはたとえば顧客、供給者または修理店と協力しながらデータに補正を加える間、頻繁にデータを更新する。ユーザは、データウェアハウス14または外部のデータソース15などのソースシステムを更新することなくデータクリーニングシステム20を更新する方法を持たなければならない。これは、データウェアハウス14または外部のデータソース15などのソースシステムがしばしば別の組織またはさらには別の顧客もしくは供給者の管理下にあるために必要であり得る。その結果、ソースシステム(14および/または15)を更新することは実用的でない可能性があり、または実現可能でない可能性さえある。データクリーニングユーザインターフェイス29によって、データクリーニングシステム20によって提供されるクレンジングされたデータに基づいて決定を行なうデータシステムおよびソフトウェアツール16のユーザは、データクリーニングシステム20を更新することが可能であり得る。これによって、すべてのデータシステムおよびソフトウェアツール16、たとえばサプライチェーンソフトウェア161は、クレンジングされたデータへの更新に基づいて一貫性を維持できる。手動の更新は、日付および時刻を刻印することができ、更新を行なうユーザに対するトレーサビリティを含むことができ、ユーザにとって重要であると考えられる情報を取込むために共通のフィールドを含み得る。データクリーニングユーザインターフェイス29はウェブで可能となり得る。ソース優先順位付けユーティリティ26によって、データクリーニングシステム20からの情報に頼るデータシステムおよびソフトウェアツール16は、特定の要件に基づいて、このユーザ(または、サプライチェーンソフトウェア161などの特定のソフトウェアツールのユーザ)からの更新を選択できる場合もあれば、選択できない場合もある。手動の更新は、データウェアハウス14または外部のデータソース15などのソースシステムへのその後の更新中に時の経過に伴って持続する可能性がある。ソースデータが同じままであれば、データクリーニング値を使用し得る。ソースデータが(ユーザ指定の許容帯域内で)データクリーニング値と同じ値に変化する場合、ソースデータを選択でき、ソースシステムが更新されたときにデータクリーニング値にフラグを立て得る。ソースデータが変化するが、ユーザ指定の許容帯域外である場合には、手動の検討のためにデータ要素32にフラグを立て得る。
【0030】
データクリーニングシステム20は、コンピュータシステム(図示せず)に統合可能である。コンピュータシステムは、上述のETL(抽出、変換およびロード)ツール21、データフォーマッティングユーティリティ22、データクリーニングユーティリティ23、正規化データクリーニングリポジトリ24、ソース優先順位付けユーティリティ26、データ要素およびソースのマスタテーブル30(図2にも図示)、および相互参照ユーティリティ27などのユーティリティを実行するために使用され得る。データクリーニングシステム20を使用するデータクリーニングは、マイクロソフトのエクセル(登録商標)ファイルなどの直接的なスプレッドシートファイル、またはマイクロソフトのアクセス(ACCESS)(登録商標)もしくはFoxProテーブルなどのデータベーステーブルを使用して、またはデータクリーニングユーザインターフェイス29を介して、なされ得る。
【0031】
ここで図2を参照して、データ要素およびソースのマスタテーブル30のデータクリー
ニングテーブルのレイアウトがこの発明の一実施例に従って示される。データ要素およびソースのマスタテーブル30は、フィールド番号を含む列35と、フィールド名を含む列36と、エントリタイプを含む列37と、エントリ幅を含む列38と、説明を含む列39とを含み得る。テーブルの第1の行は、1つ以上の索引付けスキームからの固有のデータ識別子31を含み得る。図2に示すように、与えられる例では、部品は、たとえ固有の参照が1つだけ必要であるとしても、(a)DMC(domestic management code)(国内管理コード)およびIIN(item identification number)(アイテム識別番号)、(b)NSC(NATO (or national) supply classification code)(NATO(もしくは米国)サプライ分類コード)と、NCB(national codification bureau)(米国コード化局用コード)と、IIN(アイテム識別番号)とからなるNSN(NATOストック番号もしくは米国ストック番号)、または(c)Part no.(part number)(部品番号)およびCAGE(commercial and government entity code)(民間および政府のエンティティコード)によって固有に識別されることができる。固有のデータ識別子31に続いて、データ要素32をリストにすることができ、予備品プログラム110(図7に図示)などのプログラム名33が続く。データ要素およびソースのマスタテーブル30にさらにリストにされるのは、データ要素32の値321、(図1に示すデータウェアハウス14または外部のデータソース15などの)データ要素32のソース322、更新情報34、およびデータ要素32に添付されることができかつデータ処理中に使用され得るフラグ323であり得る。データ要素およびソースのマスタテーブル30の最後の行はテキストコメント341を含み得る。データ要素およびソースのマスタテーブル30によって、コードを修正することなくデータ要素およびソースを変更することが可能になり得る。データリポジトリのように、参照の整合性が慎重に実施されることはない。
【0032】
ここで図3を参照して、高ドライバレポート40の高ドライバ分析マトリックスがこの発明の一実施例に従って示される。高ドライバレポート40は、図1に示すようにデータクリーニングシステム20によって作成されたレポート28のうちの1つであり得る。高ドライバレポート40は、検討のためにアイテムを優先順位付けするために使用され得る。これによって、最も目立つエラーをすみやかに識別することが可能になり得て、しばしば制限される、利用可能な検討時間を最大にする。高ドライバは、図3に示す年間使用量、年間消費量、重み付けされた修理ターンアラウンド時間、調達リードタイム、スクラップ発生/不良品の設定率、価格、および予備品不足のコストなどのキーとなるデータドライバに従ってデータ要素32をソートし得る。
【0033】
ここで図4を参照して、データクリーニングプロセス50がこの発明の一実施例に従って示される。データクリーニングプロセス50は、第1のステップ51において、データクリーニングのために、データウェアハウス14などの企業、顧客および供給者ソースシステムからのデータまたは外部のデータソース15(図1に図示)からのデータを共通のフォーマットにロードすることを含み得る。ステップ51を実行するために、商業的に利用可能なETLツール21またはカスタムデータベースクエリーのいずれが使用されてもよい。
【0034】
ステップ52において、データクリーニングシステム20のデータフォーマッティングユーティリティ22(図1に図示)は、データ検証プロセスの一部として固有のデータ識別子31を共通のフォーマットに調整するために使用され得る。ステップ52は、先頭の空白を削除し、必要に応じて数字フィールドから文字フィールドへ固有のデータ識別子31(図2に図示)を変換し、データが数字としてロードされた場合には取除かれた先頭の0を入れ替えることを含み得る。ステップ52は、検討のために、無効で、認識されず、かつ、欠落したアイテム識別子にフラグを立てることをさらに含み得る。ステップ52は、データを共通のフォーマットに正規化することをさらに含み得る。たとえば、外貨をアメリカドルに換算すること、取得原価データを当年度の価格に上昇させること、またはパ
ッケージ数量当たりの需要を一つの単位当たりの需要に換算することである。
【0035】
ステップ53において、(図1に示される)データクリーニングシステム20のデータクリーニングユーティリティ23を用いて、データ検証プロセスの一環としてデータウェアハウス14または外部のデータソース15などのソースシステムからロードされたデータをクリーニングし得る。ステップ53は、重複するエントリを検討するステップと、異なるレポートを検討するステップと、ソースシステムからロードされたデータ間の違いを検討して、データの変化を検証し、データ変換およびロードエラーを検出するステップと、クレンジングされたデータを用いるソフトウェアの入力および出力(ソースデータおよび結果)の違いを検討して、入力データの変化によってもたらされる結果における変動を識別および理解するステップとを含む。ステップ53の間、重複したエントリにフラグが立てられ、データ要素についての矛盾する値がデータ要素32(図2)によって検討され、ソースデータをオーバーライドする手動の補正または更新が可能になり得る。ステップ53においては、固有のデータ識別子によって2つのデータテーブル間の違いを強調する自動化されたリポートが作成され得る。また、ステップ53において、特定のデータ要素32によってこれらのリポートに優先順位が付けられて、最大の財務的影響を与える高ドライバに対してデータ検討の焦点を合わせ得る。
【0036】
ステップ54において、検証されクレンジングされたデータが正規化データクリーニングリポジトリ24(図1)に付加され得る。当該データは、正規化データクリーニングリポジトリ24(図1)のマスタテーブルにロードされ得る。当該データは、各データ要素32(図2)および各ソースシステム、たとえば、データウェアハウス14または外部のデータソース15(図1)のためにロードされ得る。同じデータが同じソースシステムから予めロードされている場合、データがロードされる可能性はない。結果として、変更だけがロードされる。ロードされたデータの日付がソースデータに追加されることにより、最新データの識別が可能になり得る。データがロードされた状態でエラーが存在した場合、特定のデータソースのためにすべてのデータをパージし、それをリロードするためのオプションが存在し得る。パージすべきデータは最初に検証のために表示されてもよい。ユーザは、データクリーニングシステム20(図1)の完全性を確実にするためにデータを削除できるようアドミニストレータとして許可され得る。データクリーニングシステム20(図1に図示)は、データウェアハウス14または外部のデータソース15などの各ソースシステムからのすべてのバージョンのデータに対するトレーサビリティを与え得る。これにより、前のデータの値に対する監査証跡が与えられ、さらに、履歴上の時点でデータをプルすることが可能となり得る(バージョニング)。
【0037】
ステップ55において、データソースの優先順位が選択され得る。ステップ55は、固有のデータ要素32(図2)の番号を決定するステップと、各データ要素32のために(図1のデータウェアハウス14または外部のデータソース15などの)ソースシステムの番号を決定するステップとを含み得る。個々のデータ要素は、アプリケーションに応じて変わる可能性があり、時間が経つにつれてデータの使用が進行すると変わる可能性がある。データソースはアプリケーションに応じて変わる可能性があり、時間が経つにつれてデータの使用およびその品質の理解が変化すると変わる可能性がある。データクリーニングシステム20(図1)は、ソフトウェアソースコードに変更を加える必要なしに、データ要素32(図2)の追加および削除に適合し得る。ステップ55は、データに予め優先順位が付けられていた場合、ユーザが、特定のデータプルのためにデータソースの優先順位を更新することを可能にし得る。そうでない場合、ステップ55は、図1に示されるデータウェアハウス14または外部のデータソース15などの各データソースの優先順位をユーザが特定することを可能にし得る。第1の優先順位のソースからのデータが利用可能であれば、これが用いられる。そうでない場合、第2の優先順位のソースからのデータが選択されることとなる。ステップ55はさらに、ユーザが、データを選択する(たとえば、
ソースA、BおよびCから最高値を選択する)ために条件文を特定することを可能にし、データが(図1のデータウェアハウス14または外部のデータソース15などの)いかなるソースシステムからも利用可能でない場合、用いるべきデフォルトをユーザが選択することを可能にするステップを含み得る。特定のデータソースは、そのソースからのデータが考慮される必要がなければ選択されなくてもよいかもしれない。ステップ55はさらに、過去のある時点で用いられたデータ選択スキームがたとえば監査の目的で選択され得るように、以前の優先順位付けの履歴記録を維持するステップを含み得る。
【0038】
ステップ56において、(図1のデータウェアハウス14または外部のデータソース15などの)複数のソースからのクリーンなデータベースが(図2に示される)データ要素およびソースのマスタテーブル30の形で作成され得る。データ要素およびソースのマスタテーブル30は、各データ要素32の最良値を含むアイテムデータの単一のソースであり得る。ステップ56は、各データ要素のソースに対するトレーサビリティを維持し、ソースが固有のデータ識別子31によって変わり得ることを認識し、データをさらに理解させるために各データ要素に添付され得る注を維持するステップを含み得る。第1の優先順位のソースからのデータが利用可能であれば、これが利用されてもよい。そうでない場合、次に優先順位の高いソースからの有効なデータが選択され得る。各々の固有のデータ識別子31のために選択される(図1のデータウェアハウス14または外部のデータソース15などの)データソースのログを維持するステップがステップ56に含まれてもよい。データ要素32のために有効なデータが存在しない場合、ユーザ指定のデフォルトが選択されるかもしれない。次いで、デフォルトが適用されたことについて、データ記録に注釈が付けられてもよい。ステップ56においても、異なるアプリケーション、たとえば、サプライチェーン在庫表最適化システム161、在庫表管理システム163、財務および見積りシステム164、統合情報システム162、シミュレーションシステム166またはエンジニアリングシステム165(図1に図示)などは、異なる優先順位のシーケンスでデータ要素32(図2)を選択することができるだろう。各データ要素32は、たとえば、図2に図示のとおり、最良値321、最良データのソース322およびコメント341などの各々の固有のデータ識別子31についての3つの情報を含み得る。
【0039】
ステップ57において、固有のデータ識別子31間で相互参照が作成され得る。ステップ57は、固有のデータ識別子に基づいて、相互参照されたデータに優先順位を付けるステップを含み得る。たとえば、固有にアイテムを記述するための最良値としてスキームがセクション参照を識別し得るが、この後、NSN(NATOストック番号または米国ストック番号)が続き、次に、部品番号および製造者コードが続き得る。
【0040】
ステップ58において、固有のデータ識別子31間の相互参照がユーティリティによって維持され得る。ステップ58は、(図1のデータウェアハウス14または外部のデータソース15などの)複数のソースからデータベース(図20のデータ要素およびソースのマスタテーブル30)を作成する際に生じた不一致を検討し、各々の識別スキームのために主要な固有のデータ識別子を識別するステップを含み得る。部品についての最新の設計構成を検討するステップについては、たとえば、旧式の部品構成についての部品番号が最新の設計構成または販売されている最新の構成に変換され得るが、ステップ58の一部であり得る。さらに、データリポジトリにおけるデータに基づいた相互参照のためにすべてのオプションを識別するためのユーティリティが提供されてもよく、たとえば、部品番号および製造者コードが複数のNSNにマッピングしてもよく、NSNが、当該NSNの規格を満たす部品を供給する別の製造業者の番号付けスキームに基づいて多くの異なる部品番号にマッピングしてもよい。ステップ58はさらに、固有のデータ識別子の変化に伴ってインデックステーブルを維持するステップと、部品番号および製造者コードが変更された部品番号および製造者コードと取替えられるとインデックステーブルを維持するステップと、部品番号が無効な供給者に誤って相互参照されないことを確実にするために重複し
た部品番号と製造者コードとの組合せを検討するステップと、有効な固有のデータ識別子31のリストであり得るマスタデータアイテムリストを維持するステップとを含み得る。マスタデータアイテムリストに含まれないアイテムには、疑わしいものとして検討するためにフラグが立てられてもよい。
【0041】
ステップ59において、各データ要素32(図2)についての固有の参照番号が作成されて、データクリーニングシステム20(図1)からデータが供給され得るデータシステムおよびソフトウェアツール16(図1)が、真に固有のアイテム識別番号を受信することを可能にし得る。ステップ59はさらに、不要な重複物を削除するようユーティリティを提供し、相互参照における矛盾を補正するようユーティリティを提供するステップを含み得る。ステップ59において、データシステムおよびソフトウェアツール16(図1)などのアプリケーションは、相互参照を完璧にしなくても実行可能にされ得る。
【0042】
ステップ61において、固有のアイテム識別番号を含み得る刻み目が付けられたマスタデータアイテムリストが維持され得る。所望される場合、マスタデータアイテムリストは、固有のアイテム識別番号の複数回の使用を可能にし得る。ステップ61は、マスタデータアイテムリストにおける重複したアイテムデータをデータ要素およびソースのマスタテーブル30(図2)における固有のアイテムデータとマージするステップを含み得る。
【0043】
ステップ62において、矛盾がなく、正規化され、かつ、クレンジングされたデータが、データ要素およびソースのマスタテーブル30(図2)から、これらのデータを使用し得るデータシステムおよびソフトウェアツール16(図1)によって必要とされるフォーマットにロードされ得る。市販のETLツール21(図1)またはカスタムデータベースクエリを用いてステップ62を実行し得る。結果として、一貫した単位に正規化された、一貫した同じソースからのクレンジングされたデータが、図1に示されるデータシステムおよびソフトウェアツール16などの複数の意思決定システムにとって利用可能となり得る。すべての意思決定システムが、図1に示されるデータクリーニングシステム20によって与えられる同じ入力データから開始するので、結果が一貫したものになり得、サプライチェーン在庫表最適化システム161、在庫表管理システム163、財務および見積りシステム164、統合情報システム162、シミュレーションシステム166またはエンジニアリングシステム165(図1に図示)などのシステム間で有効な比較がなされ得る。たとえば個々の部品番号に関して決定を下すことを可能にし得る戦術意思決定ツールは、より長距離または広域のプラニングシステムツールとして作動し得る戦略意思決定ツールと同じデータにアクセスし得る。
【0044】
ステップ63において、ラインカウントレポートおよび高ドライバレポート40(図3)などの標準化データクリーニングおよび管理レポートが作成され得る。ラインカウントレポートは、データ要素およびソースのマスタテーブル30(図2)における番号または固有のアイテム識別子31を記録することによって作成され得、異なるデータ要素32に対して相互作表され得る。図3に示される高ドライバレポート40などの高ドライバレポートは、検討のためにアイテムに優先順位を付け、最も明らかなエラーの速やかな識別を可能にし得る。
【0045】
ステップ64において、データクリーニングシステム20(図1)は、データウェアハウス14および外部のデータソース15(図1)などのソースシステムを更新することなくユーザによって更新され得る。ステップ64は閉ループデータクリーニングを可能にし得る。
【0046】
図5を参照すると、サプライチェーン70におけるデータクリーニングアプリケーションが、この発明の別の実施例に従って示される。サプライチェーン70におけるデータク
リーニングアプリケーションは、データクリーニングシステム20(図1に図示)およびデータクリーニングプロセス50(図4に図示)のアプリケーションについての一例であり得る。サプライチェーン70は、埋込まれた(図1に示される)データクリーニングシステム20、(図1に示される)データクリーニングユーザインターフェイス29、統計的需要予測ユーティリティ72、戦略的在庫表最適化ツール73、シミュレーションツール74、戦術分析ユーティリティ75、ウェブポータル76、在庫表管理システム77、統制化されたプロセス78および分散ネットワーク最適化ツール79を有する統合情報システム71を含み得る。統合情報システム71は、(図1に示される)データクリーニングユーザインターフェイス29、統計的需要予測ユーティリティ72、戦略的在庫表最適化ツール73、シミュレーションツール74、戦術分析ユーティリティ75、ウェブポータル76および在庫表管理システム77との間でデータをやり取りし得る。統合情報システム71内に埋込まれた(図1に示される)データクリーニングシステム20によって、有効なデータクリーニングが提供され得る。(図4に示される)データクリーニングプロセス50は、正規化されてクレンジングされたデータの一貫したソースを介して、決定支援(78,72)、最適化(73,79)、シミュレーション(74)、報告(75,76)および在庫表管理ツール(77)をリンクすることによってサプライチェーン70を同期し得る。
【0047】
ここで図6を参照すると、サプライチェーン70のためのデータクリーニングプロセス80がこの発明の一実施例に従って示される。サプライチェーン70のためのデータクリーニングプロセス80は、ステップ81において(図1のデータウェアハウス14または外部のデータソース15などの)ソースシステムからのデータの抽出を開始するステップと、ステップ82において、ETLツール21(図1)を用いてデータ変換を実行するステップとを含み得る。データ要素およびソースのマスタテーブル30(図2)にデータをロードするステップがステップ83において追従し得る。ステップ84は、ソース優先順位付けユーティリティ26(図1)を用いてソースデータの優先度を選択するステップを含み得る。高ドライバおよびエラーレポートを検討するステップと、ロジスティックスデータをかき集めるステップとがステップ85において実行され得る。ステップ86は、予備品分析最適化計算のためのデータを承認するステップを含み得、次に、ステップ87において、戦略的モデルを用いることによってストックレベルおよび発注点の在庫表最適化を開始するステップが続き得る。レポート28(図1)およびウェブのビューでの予備品分析がステップ88において検討され、在庫表最適化がステップ89において承認され得る。ステップ91は、ストックレベルおよび発注点の推奨、戦略的モデル入力、ソース、および、サプライチェーンソフトウェア161(図1)の一部であり得る戦略的モデル73(図5)からのコメントをデータリポジトリ24(図1)にエクスポートし、顧客監査証跡のための支援データを維持するためにすべての入力および出力をアーカイブするステップを含み得る。ウェアハウス、供給者などによる部品、供給者、ストックレベル、発注点などのレポート28(図1)を作成するステップはステップ92において実行され得る。ステップ93において、在庫表の不足をカバーするための所望される予備品が購入され得、ステップ94において、ストックレベルおよび発注点の推奨が、在庫表管理システム163(図1)にエクスポートされ得る。最後のステップ95において、日常的な資産管理のために保持テーブルに見出されるレコードについて、在庫表管理システム163(図1)に対する更新が開始され得る。
【0048】
図7を参照すると、予備品モデリングプロセス110がこの発明の別の実施例に従って示される。予備品モデリングプロセス110は、データクリーニングプロセス50(図4)の実現例であり得る。在庫表管理システム163(図1)の一部であり得る予備品モデリングプロセス110は、ステップ111において機器モデルおよびシナリオを識別するステップと、ステップ112において目標を決定するステップと、ステップ113において取引調査機会を決定するステップとを含み得る。ステップ114は、ロジスティックス
データを収集するステップを含み得、この後、ステップ115においてデータクリーニングプロセス50(図4)が実行され得る。ストックレベルの戦略的在庫表最適化がステップ116においてエクスポートされ、リスクを減らすためのシミュレーション166(図1)がステップ117において実行され、ステップ118において内部の検討が実行され得る。ステップ119は、顧客の検討を実行するステップを含み得、この後、ステップ120において、モデルが繰返されるべきかどうかが決定され得る。モデルの繰返しが所望される場合、ステップ120はステップ114に戻るステップを含み得る。モデルの繰返しが必要でない場合、ステップ121において、提案レポートを作成するステップが実行され、この後、ステップ122において、提案を送出し、提案を獲得し、健全なプログラムを実行するステップが続き得る。予備品モデリングプロセス110では、ステップ115におけるデータクリーニングプロセス50(図4)によって与えられる矛盾がなく、正規化され、かつ、クレンジングされたデータのために、確実かつ実施可能な結果が提供され得る。
【0049】
上述のことがこの発明の具体的な実施例に関連しており、添付の特許請求の範囲に記載されるとおりこの発明の精神および範囲から逸脱することなく変更がなされ得ることが当然理解されるはずである。
【図面の簡単な説明】
【0050】
【図1】この発明の一実施例に従うデータクリーニングのハイレベルアーキテクチャのフローチャートである。
【図2】この発明の一実施例に従うデータクリーニングテーブルのレイアウトである。
【図3】この発明の一実施例に従う高ドライバ分析マトリックスである。
【図4】この発明の一実施例に従うデータクリーニングプロセスのフローチャートである。
【図5】この発明の別の実施例に従うサプライチェーンにおけるデータクリーニングアプリケーションのブロック図である。
【図6】この発明の一実施例に従うサプライチェーンのためのデータクリーニングプロセスのフローチャートである。
【図6A】この発明の一実施例に従うサプライチェーンのためのデータクリーニングプロセスのフローチャートである。
【図7】この発明の別の実施例に従う予備品モデリングプロセスのフローチャートである。

【特許請求の範囲】
【請求項1】
データクリーニングプロセスであって、
データフォーマッティングユーティリティおよびデータクリーニングユーティリティを用いて、少なくとも2つのソースシステムからロードされたデータを検証するステップと、
前記検証されたデータを正規化データクリーニングリポジトリに付加するステップと、
前記ソースシステムの優先順位を選択するステップと、
前記少なくとも2つのソースシステムからの各データ要素のための固有のデータ識別子を含むクリーンなデータベースを作成するステップと、
前記固有のデータ識別子間の相互参照を作成および維持するステップと、
前記クリーンなデータベースからの矛盾がなく、正規化され、かつ、クレンジングされたデータを、前記データを用いるデータシステムおよびソフトウェアツールが必要とするフォーマットにロードするステップと、
前記矛盾がなく、正規化され、かつ、クレンジングされたデータを用いて標準化データクリーニングおよび管理レポートを作成するステップと、
前記ソースシステムを更新することなく、ユーザによって前記矛盾がなく、正規化され、かつ、クレンジングされたデータを更新するステップとを含む、データクリーニングプロセス。
【請求項2】
抽出、変換およびロードツールを用いたデータクリーニングのために前記少なくとも2つのソースシステムからのデータを共通のフォーマットにロードするステップと、
前記データ要素の各々の最良値を含むアイテムデータの単一のソースとしてデータ要素およびソースのマスタテーブルを作成するステップと、
前記データ要素の各々に注を添付して、前記データ要素をさらに理解させ、前記データ要素およびソースのマスタテーブルにおける注を維持するステップと、
前記データ要素の各々の前記ソースシステムに対するトレーサビリティを維持するステップと、
前記データ要素の各々についての固有の参照番号を作成して、前記データシステムおよびソフトウェアツールが固有のアイテム識別番号を受信することを可能にするステップと、
前記固有のアイテム識別番号を含む刻み目が付けられたマスタデータアイテムリストを維持するステップとをさらに含む、請求項1に記載のデータクリーニングプロセス。
【請求項3】
前記データ検証ステップはさらに、
少なくとも2つのソースシステムからロードされた前記データを共通のフォーマットに正規化するステップと、
固有のデータ識別子を共通のフォーマットに調整するステップと、
検討のために、無効で、認識されず、かつ、欠落したアイテム識別子にフラグを立てるステップと、
少なくとも2つのソースシステムからロードされた前記データをクリーニングするステップとを含む、請求項1に記載のデータクリーニングプロセス。
【請求項4】
前記ソースシステムの各々からのすべてのバージョンのデータに対するトレーサビリティを提供するステップと、
履歴上の時点でプルすべきデータの以前の値に対する監査証跡を提供するステップとをさらに含む、請求項1に記載のデータクリーニングプロセス。
【請求項5】
固有のデータ要素の番号を決定するステップと、
前記固有のデータ要素の各々についての前記ソースシステムの番号を決定するステップ
と、
ユーザ指定の優先順位に従って前記固有のデータ要素の各々についての前記ソースシステムを選択するステップと、
ユーザによる特定のデータプルのために前記優先順位を更新するステップと、
すべての優先順位付けの履歴記録を維持するステップとをさらに含む、請求項1に記載のデータクリーニングプロセス。
【請求項6】
ラインカウントレポートを作成するステップと、
前記データ要素およびソースのマスタテーブルにおける前記固有のアイテム識別子の番号を記録するステップと、
異なるデータ要素に対して前記固有のアイテム識別子を相互作表するステップとをさらに含む、請求項1に記載のデータクリーニングプロセス。
【請求項7】
高ドライバレポートを作成するステップと、
検討のためにアイテムに優先順位を付けるステップと、
明らかなエラーを速やかに識別するステップとをさらに含む、請求項1に記載のデータクリーニングプロセス。
【請求項8】
前記ユーザが前記データ要素およびソースのマスタテーブルを更新することを可能にするデータクリーニングユーザインターフェイスを提供することにより、閉ループデータクリーニングを可能にするステップをさらに含む、請求項1に記載のデータクリーニングプロセス。
【請求項9】
サプライチェーンのためのデータクリーニングプロセスであって、
複数のソースシステムからのデータをデータ要素およびソースのマスタテーブルにロードするステップと、
前記ソースシステムの優先度を選択するステップと、
高ドライバおよびエラーレポートに基づいて前記データ要素およびソースのマスタテーブルに含まれるロジスティックスデータをクリーニングするステップと、
前記データ要素およびソースのマスタテーブルの矛盾がなく、正規化され、かつ、クレンジングされたデータを承認し、前記クレンジングされたデータを、前記データを用いるデータシステムおよびソフトウェアツールに供給するステップと、
前記クレンジングされたデータを用いて、戦略的在庫表最適化モデルを用いるストックレベルおよび発注点の在庫表最適化を開始するステップと、
ストックレベルおよび発注点の推奨を含む予備品分析を提供するステップと、
顧客監査証跡のための支援データをアーカイブするステップと、
レポートを作成するステップと、
前記レポートに従って不足をカバーするために予備品を購入するステップとを含む、サプライチェーンのためのデータクリーニングプロセス。
【請求項10】
前記ソースシステムから前記データを抽出するステップと、
データクリーニングのために前記データを共通のフォーマットに変換するステップと、
前記高ドライバおよびエラーレポートを検討するステップとをさらに含む、請求項9に記載のサプライチェーンのためのデータクリーニングプロセス。
【請求項11】
前記戦略的在庫表最適化モデルのために前記データ要素およびソースのマスタテーブルからデータを抽出および変換するステップと、
前記予備品分析のために前記データを前記戦略的在庫表最適化モデルから前記レポートにエクスポートするステップとをさらに含む、請求項9に記載のサプライチェーンのためのデータクリーニングプロセス。
【請求項12】
在庫表最適化を承認するステップと、
レポートおよびウェブのビューを用いて前記予備品分析を検討するステップと、
前記ストックレベルおよび発注点の推奨、戦略的モデル入力、ソースシステム情報ならびにコメントを前記戦略的在庫表最適化モデルからデータリポジトリにエクスポートするステップとをさらに含む、請求項9に記載のサプライチェーンのためのデータクリーニングプロセス。
【請求項13】
前記ストックレベルおよび前記発注点を在庫表管理システムにエクスポートするステップと、
資産管理のために、前記ストックレベルおよび前記発注点についての前記在庫表管理システムを在庫表管理データウェアハウスに更新するステップとをさらに含む、請求項9に記載のサプライチェーンのためのデータクリーニングプロセス。
【請求項14】
データクリーニングシステムであって、
データフォーマッティングユーティリティを含み、前記データフォーマッティングユーティリティは、少なくとも2つのソースシステムからダウンロードされたデータを検証するのに用いられ、前記データクリーニングシステムはさらに、
データクリーニングユーティリティを含み、前記データクリーニングユーティリティは、前記データをクリーニングするのに用いられ、前記データクリーニングシステムはさらに、
正規化データクリーニングリポジトリを含み、前記正規化データクリーニングリポジトリは前記フォーマットされクレンジングされたデータを受信し、前記データクリーニングシステムはさらに、
ソース優先順位付けユーティリティを含み、前記ソース優先順位付けユーティリティは、前記少なくとも2つのソースシステムの優先順位を選択するのに用いられ、前記データクリーニングシステムはさらに、
クリーンなデータベースを含み、前記クリーンなデータベースは、前記クレンジングされたデータおよび優先順位が付けられたデータを組合せ、前記クリーンなデータベースは、各データ要素のための最良値および固有のデータ識別子を含むアイテムデータの単一のソースであり、前記データクリーニングシステムはさらに、
相互参照ユーティリティを含み、前記相互参照ユーティリティは、前記固有のデータ識別子間の相互参照を作成および維持するのに用いられ、前記データクリーニングシステムはさらに、
データクリーニングユーザインターフェイスを含み、前記データクリーニングユーザインターフェイスは、ユーザが前記クリーンなデータベースを更新することを可能にする、データクリーニングシステム。
【請求項15】
抽出、変換およびロードツールをさらに含み、前記抽出、変換およびロードツールは、前記少なくとも2つのソースシステムから前記データを抽出し、データクリーニングのために前記データを共通のフォーマットに変換し、前記データを前記データクリーニングシステムにロードする、請求項14に記載のデータクリーニングシステム。
【請求項16】
前記抽出、変換およびロードツールは、前記クリーンなデータベースからの前記データを、前記データを用いるデータシステムおよびソフトウェアツールにとって必要なフォーマットにロードするのに用いられる、請求項15に記載のデータクリーニングシステム。
【請求項17】
前記クリーンなデータベースはデータ要素およびソースのマスタテーブルである、請求項14に記載のデータクリーニングシステム。
【請求項18】
標準化データクリーニングおよび管理レポートをさらに含み、前記レポートは、前記データ要素およびソースのマスタテーブルに含まれる前記データから作成され得る、請求項17に記載のデータクリーニングシステム。
【請求項19】
前記データクリーニングユーティリティは、前記ソースシステムから前記データクリーニングフォーマットにロードされるデータの有効性を確実にするために用いられる、請求項14に記載のデータクリーニングシステム。
【請求項20】
前記ソース優先順位付けユーティリティは以前の優先順位付けの履歴記録を維持する、請求項14に記載のデータクリーニングシステム。
【請求項21】
前記データ要素およびソースのマスタテーブルは各データ要素のソースに対するトレーサビリティを維持する、請求項14に記載のデータクリーニングシステム。
【請求項22】
前記データクリーニングシステムは前記少なくとも2つのソースシステムからデータを受信し、前記データクリーニングシステムは、前記データシステムおよびソフトウェアツールに対して、矛盾がなく、正規化され、かつ、クレンジングされたデータを供給し、ユーザは、前記ソースシステムを更新することなく前記データクリーニングシステムを更新し得る、請求項14に記載のデータクリーニングシステム。
【請求項23】
前記ソフトウェアツールはサプライチェーンソフトウェアである、請求項22に記載のデータクリーニングシステム。
【請求項24】
前記データシステムは在庫表管理システムである、請求項22に記載のデータクリーニングシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図6A】
image rotate

【図7】
image rotate


【公表番号】特表2008−537266(P2008−537266A)
【公表日】平成20年9月11日(2008.9.11)
【国際特許分類】
【出願番号】特願2008−507805(P2008−507805)
【出願日】平成18年4月17日(2006.4.17)
【国際出願番号】PCT/US2006/014553
【国際公開番号】WO2006/113707
【国際公開日】平成18年10月26日(2006.10.26)
【出願人】(500520743)ザ・ボーイング・カンパニー (773)
【氏名又は名称原語表記】The Boeing Company
【Fターム(参考)】