説明

障害発生確率算出システム,障害発生確率算出方法及びプログラム

【課題】コンピュータシステムの障害のうち利用者の操作に起因する障害が発生する確率を算出し得る障害発生確率算出システム,障害発生確率算出方法及び障害発生確率算出用プログラムを提供する。
【解決手段】障害時操作特徴値算出手段16が、コンピュータシステムの障害発生時の実行コマンド履歴を複数のカテゴリに分類しこの分類結果に基づいて障害時操作特徴値を算出して障害時データ記憶部17に蓄積すると共に、操作特徴値算出手段20が、評価対象のコンピュータシステムの実行コマンド履歴から障害時操作特徴値算出手段16と同様にして評価対象操作特徴値を算出し、この評価対象操作特徴値と同一又は近似する障害時操作特徴値の個数を障害数算出手段21が障害時データ記憶部17に蓄積された情報を検索して算出し、この算出された個数に基づいて評価対象のコンピュータシステムの障害発生確率を障害発生確率算出手段25が算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータシステムの障害発生の確率を、そのコンピュータシステムに係る情報に基づいて算出する障害発生確率算出システムに関する。
【背景技術】
【0002】
情報処理を行うコンピュータシステムは、様々な分野でサービスを提供するシステムとして利用されており、例えば、金融取引,交通の運行制御,行政サービス,会社内の情報管理などを効率的に実行するためのシステムとして活用されている。
【0003】
しかし、コンピュータの高性能化によりコンピュータシステムの利用範囲が拡大している一方で、コンピュータシステムが業務基盤を担うようになっているため、コンピュータシステムに不具合が発生すると、業務が停止もしくは遅延してしまうことになり、損害が生じてしまうという懸念がある。
【0004】
このため、コンピュータシステムを利用する機関は、そのシステムの保守管理を業者に依頼して、システムに障害が発生した際の早急な復旧や、システムに対する定期的な点検,ソフトウェアの更新などを行うのが一般的である。
【0005】
システムの保守管理を行う管理業者からこのシステムの利用機関に請求される保守料金は、そのシステムの開発費用に対して一定の割合とされることが多いが、想定される障害とその発生率はシステム毎に異なるので、個別に保守料金を見積もることが適当である。そのためには、システムの障害発生率を適正に算出する技術が必要であった。
【0006】
ここで、コンピュータシステムの保守に関連する技術が、特許文献1及び特許文献2に開示されている。特許文献1には、コンピュータシステムの過去に発生した複数の障害毎に、現象区分と要因区分と不稼動時間とを含む標本データを格納する障害情報データベースを備え、現象区分と、要因区分の組み合わせによる不稼働時間とを基に、不稼働時間の総和である総不稼働時間を算出し、該現象区分と要因区分の組み合わせと総不稼働時間とを基に線形確率計算を用い、未来における障害が発生する現象区分と要因区分の組み合わせと該組み合わせによる障害が発生する年月日及び障害発生確率を算出し、障害予知データベースに格納する障害予知機能部と、該障害予知データベースに格納した障害予知データの障害発生確率が予め設定した閾値を越えたときに予め設定された宛先に通知する障害発生高確率通知機能部とを備えた障害予知システムが開示されている。
【0007】
特許文献2には、コンピュータシステムの稼動状態に関する情報を収集し、この収集された情報間の相関関係を示す相関情報を記録し、相関情報を参照して、収集された情報から、コンピュータシステムで実行されるサービスに生じた障害を検出し、この検出された障害を回復するための処理を生成し、相関情報を参照して、生成された処理及び/又は前記入力された処理の実行によってコンピュータシステムに与えられる効果及び影響を判定し、効果及び影響が判定された処理の実行の要否、実行順序及び実行時刻の少なくとも一つを決定する、コンピュータシステムの制御方法が開示されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特願2007−199976号公報
【特許文献2】特願2008−9842号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、特許文献1及び2に開示された技術では、コンピュータシステムで発生が想定される障害のうち、ソフトウェアやハードウェアの不具合に起因する障害は、システムが関連する情報を出力するので判別可能であるが、システム利用者の操作ミスに起因する障害については判別できないという不都合があった。このため、システムの評価をするにあたって、現場での運用の仕方を考慮することができなかった。
【0010】
利用者の操作ミスによる障害を検出するためには、カメラやセンサーなどを用いて利用者の操作を監視する方法があるが、利用者をカメラなどで監視することは、利用者のプライバシーを侵害することになり、またセンサーを取り付けることは感覚的に嫌悪感を及ぼす可能性があるため現実的ではなかった。
【0011】
そこで、本発明は、前述した各関連技術における課題を解決し、利用者の操作に起因するコンピュータシステムの障害の発生確率を算出してシステムの保守を有効になし得るようにした障害発生確率算出システム,障害発生確率算出方法及び障害発生確率算出用プログラムを提供することを、その目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するため、本発明の障害発生確率算出システムは、監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段と、この収集されたコマンド履歴情報を蓄積するコマンド蓄積部と、前記監視対象のコンピュータシステムの障害を検出する障害検出手段と、この障害検出手段により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記コマンド蓄積部から抽出する障害時コマンド履歴抽出手段と、この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段と、この算出された障害時操作特徴値を蓄積する障害時データ記憶部と、評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する操作特徴値算出手段と、この算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を、前記障害時データ記憶部に蓄積された情報を検索して算出する障害数算出手段と、この障害数算出手段に算出された前記障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段とを備えている。
【0013】
また、本発明の障害発生確率算出方法は、監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報をコマンド収集手段が収集してコマンド蓄積部に蓄積すると共に、前記監視対象のコンピュータシステムの障害を障害検出手段が検出し、前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を障害時コマンド履歴抽出手段が前記コマンド蓄積部から抽出し、この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を障害時操作特徴値算出手段が算出し障害時データ記憶部に蓄積し、評価対象のコンピュータシステムの実行コマンド履歴を操作特徴値算出手段が入力して前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出し、前記算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を障害数算出手段が前記障害時データ記憶部に蓄積された情報を検索して算出し、この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を障害発生確率算出手段が算出することを特徴とする。
【0014】
また、本発明の障害発生確率算出用プログラムは、監視対象のコンピュータシステム側から当該システムに実行されたコマンド及びその実行日時を示すコマンド履歴情報を収集して記憶装置に蓄積するコマンド収集機能と、前記監視対象のコンピュータシステムの障害を検出する障害検出機能と、この障害検出機能により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記記憶装置から抽出する障害時コマンド抽出機能と、この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出し前記記憶装置に蓄積する障害時操作特徴値算出機能と、評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出機能と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する評価対象操作特徴値算出機能と、この算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を前記記憶装置に蓄積された情報を検索して算出する障害数算出機能と、この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出機能と、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0015】
本発明は、以上のように構成したので、これにより、監視対象システムの障害発生時の実行コマンド履歴からその特徴を表す障害時操作特徴値を算出して蓄積しておくと共に、これに基づいて上述したように評価対象システムの障害発生確率を算出するので、利用者の操作に起因するコンピュータシステムの障害の発生確率を有効に算出することが可能となり、コンピュータシステムに対して行われた操作内容の危険度を提示することができ、よって、コンピュータシステムの保守をその運用状況を考慮して適切に行うことができる。
【図面の簡単な説明】
【0016】
【図1】本発明にかかる一実施形態の障害発生確率算出システムの構成を示す機能ブロック図である。
【図2】図1に開示した実施形態におけるコマンド蓄積部に記憶されたコマンド履歴の一例を示す図である。
【図3】図1に開示した実施形態における障害時データ記憶部に記憶されたコマンド履歴の一例を示す図である。
【図4】図1に開示した実施形態における障害数分布表作成手段に作成される障害数分布表の一例を示す図である。
【図5】図1に開示した実施形態における監視対象情報記憶部に記憶された監視対象情報の一例を示す図である。
【図6】図1に開示した実施形態の障害発生確率算出システムのコマンド収集動作を示すフローチャートである。
【図7】図1に開示した実施形態の障害発生確率算出システムの障害検出動作を示すフローチャートである。
【図8】図1に開示した実施形態の障害発生確率算出システムの障害発生確率算出動作を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明にかかる一実施形態を、図面に基づいて説明する。
【0018】
図1は、本実施形態の障害発生確率算出システム1の構成を示す機能ブロック図である。図1に示すように、本実施形態の障害発生確率算出システム1は、監視対象のコンピュータシステム2−1〜2−n(nは自然数)と接続するインタフェース部11と、監視対象コンピュータシステム2−1〜2−nに定期的にアクセスしコンピュータシステム2−1〜2−nの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段12と、この収集されたコマンド履歴情報を蓄積するコマンド蓄積部13とを備えている。
【0019】
さらに、本実施形態の障害発生確率算出システム1は、監視対象コンピュータシステム2−1〜2−nに定期的にアクセスしコンピュータシステム2−1〜2−nの障害を検出する障害検出手段14と、この障害検出手段14によりコンピュータシステム2−1〜2−nの障害が検出された場合にこの障害が発生したコンピュータシステムにおける当該障害の発生時直前の一定時間分の実行コマンドの履歴をコマンド蓄積部13に蓄積された情報から抽出する障害時コマンド履歴抽出手段15と、この抽出された一定期間分のコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類するコマンド分類処理を実行しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段16と、この算出された障害時操作特徴値を蓄積する障害時データ記憶部17と、障害時操作特徴値算出手段16に算出された障害時操作特徴値が予め設定された複数の数値領域のいずれの領域に当てはまるかを判定し数値領域毎の障害時操作特徴値の数を示す障害数分布表を作成して障害時データ記憶部17に記憶させる障害数分布表作成手段26とを備えている。
【0020】
更に、本実施形態の障害発生確率算出システム1は、コンピュータシステム2−1〜2−nのうちの1つである評価対象のコンピュータシステムの指定された日時における障害発生確率の算出指令を外部入力する情報入力部18と、この指令に従って指定された日時直前の一定時間における評価対象コンピュータシステムの実行コマンドの履歴をコマンド蓄積部13から抽出する評価対象コマンド抽出手段19と、この抽出された一定期間分のコマンド履歴を障害時操作特徴値算出手段16と同様に分析処理して評価対象操作特徴値を算出する操作特徴値算出手段20と、この算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の数を障害時データ記憶部17に蓄積された情報を検索して算出する障害数算出手段21とを備えている。
【0021】
また更に、本実施形態の障害発生確率算出システム1は、監視対象のコンピュータシステム2−1〜2−nの識別情報とその監視開始日時とを示す監視対象情報を取得する監視対象情報登録手段22と、この監視対象情報を記憶する監視対象情報記憶部23と、この監視対象情報に基づいて監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する母数算出手段24と、障害数算出手段21に算出された数を母数算出手段24に算出された数で除算した値を評価対象コンピュータシステムの前記指定された日時における障害発生確率として算出し上位システム3へ出力する障害発生確率算出手段25とを備えている。
ここで、コマンド収集手段12と、コマンド蓄積部13と、障害検出手段14と、障害時コマンド履歴抽出手段15と、障害時操作特徴値算出手段16と、障害時データ記憶部17と、障害数分布表作成手段26とが、障害発生確率算出用データベース作成システムとなり、また、情報入力部18と、コマンド履歴抽出部19と、操作特徴値算出手段20と、障害時データ記憶部17と、障害数算出手段21と、母数算出手段24と、障害発生確率算出手段25とが、障害発生確率算出装置となる。
【0022】
監視対象のコンピュータシステム2−1〜2−nそれぞれは、同じ系統のオペレーティングシステム(OS)を搭載したシステムであり、例えば、UNIX(登録商標)系のOSを搭載したサーバなどである。また、コンピュータシステム2−1〜2−nそれぞれは、コマンドの実行履歴をとる機能を備えている。
【0023】
障害発生確率算出システム1におけるコマンド収集手段12は、コンピュータシステム2−1〜2−nそれぞれに対して定期的にアクセスし、コンピュータシステム2−1〜2−n側で記録された実行コマンド履歴情報を取得しコマンド蓄積部13へ送る機能を備えている。ここで、コマンド履歴情報は、実行コマンドとその実行日時とそのコマンドを実行したコンピュータシステムの識別情報とを少なくとも含む情報である。
【0024】
コマンド情報蓄積部13は、コマンド収集手段12に順次収集されたコマンド履歴情報を蓄積する。図2は、コマンド情報蓄積部13に記憶されたコマンド履歴情報のイメージの一例を示す図である。図2に示すように、コマンド情報蓄積部13に記憶されたコマンド履歴情報は、コマンド収集手段12によって採番されたコマンド情報の識別子である「識別ID」と、コマンドを実行したコンピュータシステムの識別情報である「実行システムID」と、実行されたコマンドである「実行コマンド」と、その実行日時である「実行日時」とを対応付けて示す情報である。図2に示すコマンド履歴情報は、コンピュータシステム2−1〜2−nがUNIX(登録商標)系のOSを搭載したシステムである場合の一例である。
【0025】
障害検出手段14は、コンピュータシステム2−1〜2−nそれぞれに対して定期的にアクセスし、コンピュータシステム2−1〜2−nで発生した障害を検出する機能を備えている。
【0026】
障害時コマンド履歴抽出手段15は、障害検出手段14によって障害が検出された場合に、この障害が発生したコンピュータシステム(2−1〜2−nのいずれか)の識別情報を入力して、この識別情報に対応する、当該障害発生時直前の一定期間分のコマンド履歴をコマンド蓄積部14に蓄積された情報から抽出する機能を備えている。ここで、一定期間分の実行コマンドとは、予め設定した一定の期間に実行されたコマンドであり、例えば、1時間内に実行されたコマンド、または、100回分の実行コマンドなどと設定すればよい。
【0027】
障害時操作特徴値算出手段16は、障害時コマンド履歴抽出手段15に抽出された一定期間分のコマンド履歴に含まれているコマンドを、カテゴリ別に分類するコマンド分類処理を実行すると共にこの分類処理による分類結果に基づいて障害時操作特徴値を算出する手段である。この障害時操作特徴値算出手段16は、コンピュータシステム2−1〜2−nに実行されうる全てのコマンドをカテゴリ別に示すデータテーブル(図示せず)を参照し、このデータテーブルに従って一定期間分のコマンド履歴に含まれているコマンドをカテゴリ別に分類するコマンド分類処理を実行する機能と、このコマンド分類処理の結果である各カテゴリのコマンド数のうちの少なくとも1つを障害時操作特徴値として算出する機能とを備えている。これにより、コンピュータシステムの障害発生時の操作傾向を数値化することができる。
【0028】
例えば、コマンド分類処理は、システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリにコマンドを分類する処理であればよい。監視対象のコンピュータシステムがUNIX機である場合には、UNIXコマンドのうち、「ifconfig」,「vmstat」,「top」,「ps」などを参照コマンドに設定し、「ifup」,「ifdown」,「chmod」,「chown」などを変更コマンドに設定すると共に、参照コマンド数及び変更コマンド数の2つの値を障害時操作特徴値として算出するようにするとよい。
これは、参照コマンドがシステムに関する情報を表示してユーザに閲覧させるためのコマンドで、変更コマンドがシステムの状態設定を変更するためのコマンドなので、システムが参照コマンドを実行したときは、ユーザにシステムの状態を把握させて勘違いによる設定ミスを防ぐ傾向が高まり、システムが変更コマンドを実行したときは設定ミスや操作ミスが生じた可能性が高いため、参照コマンドの数と変更コマンドの数は操作ミスが発生した可能性を表すと言えるからである。
【0029】
障害時データ記憶部17は、障害時操作特徴値算出手段16に算出された障害時操作特徴値を蓄積する。図3は、障害時データ記憶部17に記憶された障害時操作特徴値の一例を示す図である。図3では、前述した参照コマンド数及び変更コマンド数の2つの値が障害時操作特徴値となっている。
【0030】
図3に示すように、障害時データ記憶部17に記憶された障害時操作特徴値の一覧は、障害時操作特徴値算出手段16に採番された障害時操作特徴値の識別子である「識別ID」と、障害時操作特徴値である「参照コマンド数」及び「変更コマンド数」と、その障害が発生した日時である「発生日時」とを対応付けて示している。
【0031】
障害数分布表作成手段26は、障害時操作特徴値算出手段16が障害時操作特徴値を算出した時、若しくは定期的に起動し、障害時データ記憶部17に蓄積された全てのうちの予め設定された判定期間に生じた障害に係る障害時操作特徴値を複数の数値領域に振り分けた場合の各数値領域内の個数を示す障害数分布表を作成して、障害時データ記憶部17に記憶させる機能を備えている。この障害数分布表は、複数の数値領域とこの各数値領域に当てはまる障害操作特徴値の蓄積数とを対応付けたデータである。図4は、障害数分布表の一例を示す図である。図4は、前述した参照コマンド数及び変更コマンド数の2つの値を障害時操作特徴値とした場合の障害分布表である。
【0032】
図4に示す障害数分布表は、「参照コマンド数」の各数値領域を横軸、「変更コマンド数」の各数値領域を縦軸にとり、各数値領域における障害時操作特徴値の蓄積数を示している。
【0033】
また、障害数分布表作成手段26は、障害数分布表において当てはまる障害時操作特徴値数値がない数値領域(空欄領域とする)がある場合に、その空欄領域に隣接する数値領域内の個数の平均を算出し、算出した平均値を空欄領域の推定値として障害数分布表を完成させる機能を備えている。例えば、図4に示す表の場合は、上下4つの隣接領域の値の平均を推定値とすればよい。
【0034】
このように障害数分布表作成手段26が予め障害数分布表を作成することにより、障害数算出手段21が、評価対象操作特徴値と同一又は近似の障害時操作特徴値の個数を障害数分布表から迅速に算出することができる。
ここで、障害時操作特徴値算出手段16は、予め設定された判定期間内に生じた障害に係る障害時操作特徴値が障害時データ記憶部17に記憶されるように、新たな障害に係る障害時操作特徴値を障害時データ記憶部17に送出する際に判定期間を超えた古い情報を障害時データ記憶部17から削除するように構成してもよい。これにより、判定期間分の過去のデータが障害時データ記憶部17に蓄積されることになるので、障害数分布表作成手段26は、障害時データ記憶部17に蓄積された全ての障害時操作特徴値から障害数分布表を作成すれば、自動的に判定期間内の障害に係る障害数分布表が完成することになる。
【0035】
情報入力部18は、障害発生確率算出指令を入力する。ここで、障害発生確率算出指令には、評価対象のコンピュータシステム(2−1〜2−nのいずれか)の識別情報と、指定された日時とを含んでいる。情報入力部18は、キーボードやマウスなどの利用者の操作を受ける入力装置を有し、利用者の操作に応じて障害発生確率算出指令を入力するように構成されている。
【0036】
コマンド履歴抽出手段19は、情報入力部18に入力された障害発生確率算出指令に含まれている識別情報及び指定された日時に基づいて、この識別情報に対応する、指定された日時直前の一定期間分のコマンド履歴を、コマンド蓄積部16に蓄積された情報から抽出する機能を備えている。ここで、一定期間分のコマンド履歴とは、前述した通り、例えば、1時間内に実行されたコマンド、または、100回分の実行コマンドなどと設定すればよい。
【0037】
操作特徴値算出手段20は、コマンド履歴抽出手段19に抽出された一定期間分のコマンド履歴に含まれているコマンドを、前述したカテゴリ別に分類するコマンド分類処理を実行すると共にこの分類処理による分類結果に基づいて障害時操作特徴値を算出する手段である。これにより、評価対象のコンピュータシステムの操作傾向を数値化することができる。
【0038】
操作特徴値算出手段20は、障害時操作特徴値算出手段16と同様に、コンピュータシステム2−1〜2−nに実行されうる全てのコマンドをカテゴリ別に分類して示すデータテーブル(図示せず)を参照し、このデータテーブルに従って一定期間分のコマンド履歴に含まれているコマンドをカテゴリ別に分類するコマンド分類処理を実行する機能と、このコマンド分類処理の結果である各カテゴリのコマンド数のうちの少なくとも1つのコマンド数を障害時操作特徴値とする機能とを備えている。
【0039】
障害数算出手段21は、操作特徴値算出手段20に算出された評価対象操作特徴値を入力し、この評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を障害時データ記憶部17に記憶されている情報を検索して算出する手段である。本実施形態の障害数算出手段21は、障害時データ記憶部17に記憶されている障害数分布表を参照して、操作特徴値算出手段20に算出された評価対象操作特徴値が当てはまる数値領域内の個数を読み出すように構成されている。この障害数算出手段21によれば、評価対象のコンピュータシステムへの操作内容と同じような操作で、上述した判定期間内に障害が起こった回数を算出することができる。
【0040】
監視対象情報取得手段22は、監視対象のコンピュータシステム2−1〜2−nの識別情報とその監視開始日時とを示す監視対象情報を取得して、監視対象情報記憶部23に記憶させる手段である。
【0041】
監視対象情報記憶部23は、監視対象情報取得手段22に取得された監視対象情報を記憶する機能を備えている。図5は、監視対象情報記憶部23に記憶された監視対象情報のイメージの一例を示す図である。図5に示すように、監視対象情報は、監視対象情報収集手段22に採番された監視対象情報の識別子である「識別ID」と、監視対象のコンピュータシステムの識別子である「契約者ID」と、このコンピュータシステムのシステム名である「システム名」と、このコンピュータシステムの監視を開始した日時である「登録日時」とを対応付けて示す情報である。
【0042】
母数算出手段24は、監視対象情報記憶部23に記憶されている監視対象情報に基づいて、上述した判定期間における、監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する手段である。例えば、監視対象のコンピュータシステムが3つで、監視対象情報記憶部23に3つのシステムに係る監視対象情報が記憶されていた場合、現在日時を12月5日,判定期間を12月1日〜5日の5日間として、システムAの登録日時が12月1日、システムBの登録日時が12月3日、システムCの登録日時が12月5日であれば、システムAの監視期間を5日として、システムBの監視期間を3日,システムCの監視期間を1日とし、延べ監視期間は、5+3+1=9日となる。
【0043】
この母数算出手段24によれば、監視対象のコンピュータシステムが複数で、それぞれの監視開始日時が異なっている場合でも、延べ監視期間を算出することができる。
【0044】
障害発生確率算出手段25は、障害数算出手段21に算出された数を母数算出手段24に算出された数で除算した値を評価対象コンピュータシステムの指定された日時における障害発生確率として算出し上位システム3へ出力する機能を備えている。
【0045】
この障害発生確率算出手段25によれば、評価対象のコンピュータシステムの操作傾向と同一又は類似の操作傾向で、実際に障害が発生した単位期間(上述した例では1日)当たりの回数を障害発生確率として算出することができる。ここで、判定期間を指定する理由は、時代の変化に伴ってコンピュータシステムの操作者の世代が代わった場合にも対応して正確な確率を算出するためである。
【0046】
このように、本実施形態の障害発生確率算出システム1は、監視システムの障害発生時の実行コマンド履歴をコマンド蓄積部13に蓄積された情報から抽出する障害時コマンド履歴抽出手段15と、障害発生時の実行コマンド履歴に基づいて障害時の操作傾向を数値化して障害時操作特徴値を算出し障害時データ記憶部17に蓄積させる障害時操作特徴値算出手段16と、評価対象のコンピュータシステムの実行コマンド履歴から評価対象操作特徴値を算出する評価対象操作特徴値算出手段20と、評価対象操作特徴値と同一又は近似の障害時操作特徴値の個数を障害時データ記憶部17に記憶された情報を検索して算出する障害数算出手段21と、この障害時操作特徴値の個数に基づいて評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段25とを備えている。
【0047】
よって、本実施形態の障害発生確率算出システム1によれば、評価対象のコンピュータシステムに入力されたコマンドの履歴と同一又は類似したコマンド履歴で発生したシステム障害の回数を算出でき、コンピュータシステムに利用者の操作が原因の障害が発生する確率の算出を可能にしている。
【0048】
次に、本実施形態の障害発生確率算出システム1の動作について説明する。ここで、以下の動作説明は、本発明の障害発生確率算出方法の一実施形態となる。
【0049】
図6は、本実施形態の障害発生確率算出システム1のコマンド収集動作を示すフローチャートである。図6に示すように、障害発生確率算出システム1のコマンド収集動作は、まず、予め一定間隔に設定された監視時刻になったか否かをコマンド収集手段12が判断する(図6のステップS61)。コマンド収集手段12が、監視時刻になったと判断した場合に、監視対象のコンピュータシステム2−1〜2−nにアクセスする(図6のステップS62)。そして、コマンド収集手段12が、アクセスした監視対象のコンピュータシステム2−1〜2−nから実行コマンド履歴を取得し(図6のステップS63)、コマンド蓄積部13に送り、コマンド蓄積部13がコマンド履歴を記憶する(図6のステップS64)。
【0050】
続いて、コマンド収集手段12が、全ての監視対象のコンピュータシステム2−1〜2−nにアクセスしたか否かを判定し(図6のステップS65)、全てにアクセスした場合にはコマンド収集動作を終了する。
【0051】
図7は、本実施形態の障害発生確率算出システム1の障害検出動作を示すフローチャートである。図7に示すように、障害発生確率算出システム1の障害検出動作は、まず、予め一定間隔に設定された監視時刻になったか否かを障害検出手段14が判断する(図7のステップS71)。障害検出手段14が、監視時刻になったと判断した場合に、監視対象のコンピュータシステム2−1〜2−nにアクセスする(図7のステップS72)。
【0052】
続いて、障害検出手段14が、アクセスしたコンピュータシステム2−1〜2−nに障害が発生していたか否かを判定する(図7のステップS73)。障害を検出した場合、障害検出手段14がその障害が発生したコンピュータシステム(2−1〜2−nのいずれか)の識別情報と障害発生時刻とを取得して障害時コマンド履歴抽出手段15へ送り、障害時コマンド履歴抽出手段15が、この障害発生時刻直前の一定期間に識別情報に係るコンピュータシステムが実行したコマンドの履歴をコマンド蓄積部13に蓄積されたコマンド情報から識別情報を基に抽出する(図7のステップS74)。
【0053】
続いて、障害時操作特徴値算出手段16が、障害時コマンド履歴抽出手段15に抽出された一定期間分のコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類するコマンド分類処理を実行しこの分類結果に基づいて障害時操作特徴値を算出する(図7のステップS75)。この算出された障害時操作特徴値を障害時データ記憶部17が記憶する(図7のステップS76)。
【0054】
障害数分布表作成手段26が、障害時データ記憶部17に蓄積された全ての障害時操作特徴値を複数の数値領域に分けて各数値領域の数を示す障害数分布表を作成し、障害時データ記憶部17に記憶させる(図7のステップS77)。
【0055】
続いて、障害検出手段14が、全ての監視対象のコンピュータシステム2−1〜2−nにアクセスしたか否かを判定し(図7のステップS78)、全てにアクセスした場合には障害検出動作を終了する。
【0056】
図8は、本実施形態の障害発生確率算出システム1の障害発生確率算出動作を示すフローチャートである。図8に示すように、障害発生確率算出システム1の障害発生確率算出動作は、まず、情報入力部18が、評価対象のコンピュータシステム(2−1〜2−nのいずれか)の識別情報と指定された日時とを含む障害発生確率算出指令を入力し(図8のステップS81)、コマンド履歴抽出手段19が、障害発生確率算出指令に従って、評価対象のコンピュータシステムにおける指定された日時直前の一定期間分の実行コマンド履歴をコマンド蓄積部13から識別情報を基に抽出して操作特徴値算出手段20へ送り(図7のステップS82)、操作特徴値算出手段20が、コマンド履歴に基づいて評価対象特徴値を算出する(図7のステップS83)。
【0057】
続いて、障害数算出手段21が、操作特徴値算出手段20に算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を、障害時データ記憶部17に蓄積された情報を検索して算出する(図7のステップS84)。具体的には、障害時データ記憶部17に記憶された障害数分布表を参照して、評価対象操作特徴値が当てはまる数値領域の個数を読み出す。
【0058】
障害数算出手段21から障害数を受けた障害発生確率算出手段25が、母数算出手段24へ延べ監視期間の算出指示を送信し、指示を受けた母数算出手段24が、監視対象情報記憶部23に記憶された監視対象情報に基づいて延べ監視期間を算出し(図7のステップS85)、障害発生確率算出手段25へ送る。
【0059】
そして、障害発生確率算出手段25が、障害数算出手段21に算出された数を母数算出手段24に算出された数で除算した値を、評価対象のコンピュータシステムの障害発生確率として算出し(図7のステップS86)、上位システム3へ出力する。
【0060】
ここで、本実施形態の障害発生確率算出システム1におけるコマンド収集手段12,障害検出手段14,障害時コマンド履歴抽出手段15,障害時操作特徴値算出手段16,コマンド履歴抽出手段19,操作特徴値算出手段20,障害数算出手段21,監視対象取得手段22,母数算出手段24,障害発生確率算出手段25については、その機能内容をプログラム化してコンピュータに実行させるように構成してもよく、この場合、コマンド蓄積部13,障害蓄積部17,監視対象情報記憶部23については、コンピュータに取り付けられた補助記憶装置に実行させるように構成する。
【0061】
また、上記説明では、情報入力部18が確率算出指令を入力し、指令に従って操作特徴値算出手段20が評価対象のコマンド履歴をコマンド蓄積部13から抽出して操作特徴値算出手段20へ送出しているが、これに限らず、評価対象のコンピュータシステムの一定期間分の実行コマンド履歴を含む指令を情報入力部18が入力して、このコマンド履歴を操作特徴値算出手段20が直接受け取るように構成してもよい。このように構成することで、監視対象のシステム2−1〜2−nのいずれでもない別のコンピュータシステムを評価対象のコンピュータシステムとすることができる。
【0062】
また、情報入力部18は、利用者の操作に応じて情報を入力するように構成されているが、これに限らず、上位システム3と接続して指令を入力するように構成してもよい。
【0063】
以上のように、本実施形態の障害発生確率算出システム1は、監視システムの障害発生時の実行コマンド履歴に基づいて障害時の操作傾向を表す障害時操作特徴値を算出して蓄積しておくと共に、評価対象のコンピュータシステムの実行コマンド履歴から評価対象操作特徴値を算出し、評価対象操作特徴値との差が近似範囲内にある障害時操作特徴値の個数に基づいて評価対象のコンピュータシステムの障害発生確率を算出する。この算出される障害発生確率は、評価対象のシステムに対して行われた操作内容によって過去に何回の障害が発生したかを示しており、利用者の操作内容に起因するコンピュータシステムの障害発生確率である。
【0064】
よって、本実施形態の障害発生確率算出システム1によれば、障害の原因が分からなくてもコンピュータシステムの危険度を把握できる。また、実行コマンドは、操作者がコンピュータシステムに対して行った操作を示すので、入力ミスや実行順序の誤りなど、コンピュータシステムが正確に動作していても避けられない問題もシステムの評価対象にすることができる。これにより、システムの保守管理を行う管理業者は、保守料金を見積もる場合に、システムの性能だけでなく、システムの運用状態を考慮した料金を提示することができる。
【産業上の利用可能性】
【0065】
本発明は、コンピュータシステムに対する操作の内容を評価する技術に利用できる。
【符号の説明】
【0066】
1 障害発生確率算出システム
2−1〜2−n 監視対象のコンピュータシステム
3 上位システム
11 インタフェース部
12 コマンド収集手段
13 コマンド蓄積部
14 障害検出手段
15 障害時コマンド履歴手段
16 障害時操作特徴値算出手段
17 障害時データ記憶部
18 情報入力部
19 コマンド履歴抽出手段
20 操作特徴値算出手段
21 障害数算出手段
22 監視対象情報登録手段
23 監視対象情報記憶部
24 母数算出手段
25 障害発生確率算出手段
26 障害数分布表作成手段

【特許請求の範囲】
【請求項1】
監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段と、
この収集されたコマンド履歴情報を蓄積するコマンド蓄積部と、
前記監視対象のコンピュータシステムの障害を検出する障害検出手段と、
この障害検出手段により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記コマンド蓄積部から抽出する障害時コマンド履歴抽出手段と、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段と、
この算出された障害時操作特徴値を蓄積する障害時データ記憶部と、
評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する操作特徴値算出手段と、
この算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を、前記障害時データ記憶部に蓄積された情報を検索して算出する障害数算出手段と、
この障害数算出手段に算出された前記障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段とを備えたことを特徴とする障害発生確率算出システム。
【請求項2】
前記請求項1に記載の障害発生確率算出システムにおいて、
前記障害時操作特徴値算出手段は、前記コマンドの分類結果として特定された前記各カテゴリのコマンド数のうちの少なくとも1つを前記障害時操作特徴値として算出することを特徴とする障害発生確率算出システム。
【請求項3】
前記請求項2に記載の障害発生確率算出システムにおいて、
前記監視対象のコンピュータシステムの識別情報とその監視開始日時とを示す監視対象情報を記憶した監視対象情報記憶部と、この記憶された監視対象情報に基づいて前記監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する母数算出手段とを備え、
前記障害発生確率算出手段は、前記障害数算出手段に算出された数を前記母数算出手段に算出された数で除算した値を前記評価対象のコンピュータシステムの障害発生確率として算出することを特徴とする障害発生確率算出システム。
【請求項4】
前記請求項3に記載の障害発生確率算出システムにおいて、
前記障害時操作特徴値算出手段は、システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリに前記コマンドを分類し、当該参照コマンドの数及び当該変更コマンドの数の2つの値を前記障害時操作特徴値として算出することを特徴とする障害発生確率算出システム。
【請求項5】
監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報を収集するコマンド収集手段と、
この収集されたコマンド履歴情報を蓄積するコマンド蓄積部と、
前記監視対象のコンピュータシステムの障害を検出する障害検出手段と、
この障害検出手段により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記コマンド蓄積部から抽出する障害時コマンド履歴抽出手段と、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出する障害時操作特徴値算出手段と、
この算出された障害時操作特徴値を蓄積する障害時データ記憶部とを備えたことを特徴とする障害発生確率算出用データベース作成システム。
【請求項6】
評価対象のコンピュータシステムの一定期間分の実行コマンド履歴を入力しこのコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する操作特徴値算出手段と、
監視対象のコンピュータシステムの障害発生時直前の一定期間分のコマンド履歴の特徴を表す障害時操作特徴値を予め複数蓄積した障害時データ記憶部と、
前記操作特徴値算出手段に算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を、前記障害時データ記憶部に蓄積された情報を検索して算出する障害数算出手段と、
この障害数算出手段に算出された前記障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出手段とを備えたことを特徴とする障害発生確率算出装置。
【請求項7】
監視対象のコンピュータシステムの実行コマンド及びその実行日時を示すコマンド履歴情報をコマンド収集手段が収集してコマンド蓄積部に蓄積すると共に、
前記監視対象のコンピュータシステムの障害を障害検出手段が検出し、
前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を障害時コマンド履歴抽出手段が前記コマンド蓄積部から抽出し、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を障害時操作特徴値算出手段が算出し障害時データ記憶部に蓄積し、
評価対象のコンピュータシステムの実行コマンド履歴を操作特徴値算出手段が入力して前記障害時操作特徴値算出手段と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出し、
前記算出された評価対象操作特徴値と同一又は近似範囲内にある前記障害時操作特徴値の個数を障害数算出手段が前記障害時データ記憶部に蓄積された情報を検索して算出し、
この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を障害発生確率算出手段が算出することを特徴とする障害発生確率算出方法。
【請求項8】
前記請求項7に記載の障害発生確率算出方法において、
前記障害時操作特徴値を前記障害時操作特徴値算出手段が算出するに際しては、
前記コマンドの分類結果として特定された前記各カテゴリのコマンド数のうちの少なくとも1つを前記障害時操作特徴値として算出することを特徴とする障害発生確率算出方法。
【請求項9】
前記請求項8に記載の障害発生確率算出方法において、
前記障害発生確率を前記障害発生確率算出手段が算出する前に、
前記監視対象のコンピュータシステムの識別情報とその監視開始日時とを示す監視対象情報に基づいて母数算出手段が前記監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出し、
前記障害発生確率を前記障害発生確率算出手段が算出するに際しては、
前記障害数算出手段に算出された数を前記母数算出手段に算出された数で除算した値を前記評価対象の障害発生確率として算出することを特徴とする障害発生確率算出方法。
【請求項10】
前記請求項9に記載の障害発生確率算出方法において、
前記障害時操作特徴値を前記障害時操作特徴値算出手段が算出するに際しては、
システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリにコマンドを分類し、当該参照コマンド数及び当該変更コマンド数の2つの値を前記障害時操作特徴値として算出することを特徴とする障害発生確率算出方法。
【請求項11】
監視対象のコンピュータシステム側から当該システムに実行されたコマンド及びその実行日時を示すコマンド履歴情報を収集して記憶装置に蓄積するコマンド収集機能と、
前記監視対象のコンピュータシステムの障害を検出する障害検出機能と、
この障害検出機能により前記コンピュータシステムの障害が検出された場合にこの障害発生時直前の一定期間に当該コンピュータシステムが実行したコマンドの履歴を前記記憶装置から抽出する障害時コマンド抽出機能と、
この抽出されたコマンド履歴に含まれているコマンドを予め設定された複数のカテゴリに分類しこの分類結果に基づいて当該コマンド履歴の特徴を表す障害時操作特徴値を算出し前記記憶装置に蓄積する障害時操作特徴値算出機能と、
評価対象のコンピュータシステムの実行コマンド履歴を入力しこのコマンド履歴を前記障害時操作特徴値算出機能と同様に分析処理して当該コマンド履歴の特徴を表す評価対象操作特徴値を算出する評価対象操作特徴値算出機能と、
この算出された評価対象操作特徴値と同一又は近似範囲内にある障害時操作特徴値の個数を前記記憶装置に蓄積された情報を検索して算出する障害数算出機能と、
この算出された障害時操作特徴値の個数に基づいて前記評価対象のコンピュータシステムの障害発生確率を算出する障害発生確率算出機能と、をコンピュータに実行させることを特徴とする障害発生確率算出用プログラム。
【請求項12】
前記請求項11に記載の障害発生確率算出用プログラムにおいて、
前記障害時操作特徴値算出機能が、前記コマンドの分類結果として特定された前記各カテゴリのコマンド数のうちの少なくとも1つを前記障害時操作特徴値として算出する機能であることを特徴とする障害発生確率算出用プログラム。
【請求項13】
前記請求項12に記載の障害発生確率算出用プログラムにおいて、
前記監視対象のコンピュータシステムの識別情報とその監視開始日時とを示す監視対象情報に基づいて、前記監視対象のコンピュータシステム全体の監視期間の合計を延べ監視期間として算出する母数算出機能と共に、
前記障害発生確率算出機能を、前記障害数算出機能で算出された数を前記母数算出機能で算出された数で除算した値を前記評価対象の障害発生確率として算出する機能として前記コンピュータに実行させることを特徴とする障害発生確率算出用プログラム。
【請求項14】
前記請求項13に記載の障害発生確率算出用プログラムにおいて、
前記障害時操作特徴値算出機能が、システムの情報/状態を参照するための参照コマンドと、システムの情報/状態を変更するための変更コマンドと、その他のコマンドとの3つのカテゴリにコマンドを分類し、当該参照コマンド数及び当該変更コマンド数の2つの値を前記障害時操作特徴値として算出する機能を含むことを特徴とする障害発生確率算出用プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−218267(P2010−218267A)
【公開日】平成22年9月30日(2010.9.30)
【国際特許分類】
【出願番号】特願2009−64869(P2009−64869)
【出願日】平成21年3月17日(2009.3.17)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】