説明

判定装置、判定方法及びプログラム

【課題】システムにおいて発生した障害のエスカレーション先を自動で判定する。
【解決手段】判定装置200は、システムにおいて発生しうる障害を特定するメッセージと、前記障害が発生する装置と、前記障害の技術範囲とを含む障害に関する情報を記憶する障害要素記憶部310と、システムにおける障害に対応する解決者の担当する技術範囲と、前記解決者の担当する装置と、前記解決者の対応時間とを含む解決者に関する情報を記憶する解決者要素記憶部320と、システムにおいて発生した障害を特定するメッセージを、当該障害が発生した日時とともに受信する送受信部230と、送受信部230により受信された障害を特定するメッセージ及び障害が発生した日時と、各障害に関する情報と、各解決者に関する情報とに基づいて、システムにおいて発生した障害の解決者を判定する判定部240とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、判定装置、判定方法及びプログラムに関する。
【背景技術】
【0002】
現代のIT(Information Technology)システムは、複雑で関係者も多いため、ITシステムにおいて発生した障害のエスカレーション先(解決者)を、画一的に定義することは困難である。例えば、同じハードウェア障害でも、装置ごとにエスカレーション先の部門も異なれば、障害発生時間によっても異なる。例えば、装置AではX部門がエスカレーション先であり、装置BではY部門がエスカレーション先である場合がある。そのため、ITシステムを構成する要素毎にエスカレーション先を逐一定義する必要がある。
特許文献1には、内容に応じて分類される分類別重要度情報と、基点ごとに見直しを行う基点別重要度情報と、が付与された回送情報を、基点から基点に回送するエスカレーション方法が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004−246797号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、障害に対するエスカレーション先を定義しても、ITシステムにおける障害は様々な要因が関わりあっており、ケースバイケースで最適なエスカレーション先が変わり、高度な技術者以外では適切な判断が難しい。例えば、普段のエスカレーション先はX部門だが、夜間の場合にはY部門がエスカレーション先になるなど、時間帯に応じてエスカレーション先が異なる場合がある。
また、特許文献1に記載された技術では、各基点の担当者の主観に依存するため、担当者が判断ミスをした場合に、誤ったエスカレーション先が選択される場合がある。
【0005】
本発明は、上述の課題を解決することのできる判定装置、判定方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は上記の課題を解決するためになされたものであり、システムにおいて発生しうる障害を特定するメッセージと、前記障害が発生する装置と、前記障害の技術範囲とを含む障害に関する情報を記憶する障害要素記憶部と、前記システムにおける障害に対応する解決者の担当する技術範囲と、前記解決者の担当する装置と、前記解決者の対応時間とを含む解決者に関する情報を記憶する解決者要素記憶部と、前記システムにおいて発生した障害を特定するメッセージを、当該障害が発生した日時とともに受信する受信部と、前記受信部により受信された障害を特定するメッセージ及び障害が発生した日時と、前記障害要素記憶部に記憶される各障害に関する情報と、前記解決者要素記憶部に記憶される各解決者に関する情報とに基づいて、前記システムにおいて発生した障害の解決者を判定する判定部と、を備えることを特徴とする判定装置である。
【0007】
また、本発明の一態様は、判定装置が、システムにおいて発生した障害を特定するメッセージを当該障害が発生した日時とともに受信するステップと、前記判定装置が、受信した前記障害を特定するメッセージ及び前記障害が発生した日時と、前記システムにおいて発生しうる障害を特定するメッセージ、前記障害が発生する装置、及び前記障害の技術範囲を含む障害に関する情報と、前記システムにおける障害に対応する解決者の担当する技術範囲、前記解決者の担当する装置、及び前記解決者の対応時間を含む解決者に関する情報とに基づいて、前記システムにおいて発生した障害の解決者を判定するステップと、を有することを特徴とする判定方法である。
【0008】
また、本発明の一態様は、コンピュータに、システムにおいて発生した障害を特定するメッセージを当該障害が発生した日時とともに受信するステップと、受信した前記障害を特定するメッセージ及び前記障害が発生した日時と、前記システムにおいて発生しうる障害を特定するメッセージ、前記障害が発生する装置、及び前記障害の技術範囲を含む障害に関する情報と、前記システムにおける障害に対応する解決者の担当する技術範囲、前記解決者の担当する装置、及び前記解決者の対応時間を含む解決者に関する情報とに基づいて、前記システムにおいて発生した障害の解決者を判定するステップと、を実行させるためのプログラムである。
【発明の効果】
【0009】
本発明によれば、システムにおいて発生した障害のエスカレーション先を自動で判定することができる。
【図面の簡単な説明】
【0010】
【図1】本発明の一実施形態によるエスカレーション先判定システムの構成を示すブロック図である。
【図2】本実施形態による障害要素記憶部が記憶する障害要素テーブルのデータ構造及びデータ例を示す概略図である。
【図3】本実施形態による解決者要素記憶部が記憶する解決者要素テーブルのデータ構造及びデータ例を示す概略図である。
【図4】本実施形態によるエスカレーション先記憶部が記憶するエスカレーション先テーブルのデータ構造及びデータ例を示す概略図である。
【図5】本実施形態による障害対応履歴記憶部が記憶する障害対応履歴テーブルのデータ構造及びデータ例を示す概略図である。
【図6】本実施形態によるエスカレーション先を判定する動作の手順を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本実施形態によるエスカレーション先判定システムの構成を示すブロック図である。
エスカレーション先判定システムは、対象ITシステム100と、判定装置200と、ユーザ端末110とを含んで構成される。対象ITシステム100と、判定装置200と、ユーザ端末110とはLAN(Local Area Network)やインターネット等の通信網を介して通信する。
【0012】
対象ITシステム100は、サーバ装置やネットワーク機器等から構成されるITシステムである。
ユーザ端末110は、携帯電話機、スマートフォン、パーソナルコンピュータ等の端末装置であり、対象ITシステム100の監視者等のユーザが使用する。
【0013】
判定装置200は、コンピュータ等により構成され、対象ITシステム100において発生した障害のエスカレーション先を判定し、判定したエスカレーション先を発生した障害とともにユーザ端末110に通知する。エスカレーション先とは、障害に対応する(障害を解決する)解決者である。判定装置200は、送受信部230と、判定部240と、記憶部300とを含んで構成される。
送受信部230は、対象ITシステム100及びユーザ端末110と通信してデータを送受信する。例えば、送受信部230は、対象ITシステム100において発生した障害を特定するメッセージ(以下、障害メッセージとする)を当該障害が発生した日時(以下、発生日時とする)とともに対象ITシステム100から受信する。また、送受信部230は、対象ITシステム100において発生した障害のエスカレーション先を示すメッセージをユーザ端末110に送信する。
【0014】
記憶部300は、障害要素記憶部310と、解決者要素記憶部320と、エスカレーション先記憶部330と、障害対応履歴記憶部340とを含んで構成される。
障害要素記憶部310は、対象ITシステム100において発生しうる各障害に関する情報である障害要素テーブルを記憶する。障害要素テーブルの詳細は後述する。
解決者要素記憶部320は、対象ITシステム100における障害に対応する各解決者に関する情報を示す解決者要素テーブルを記憶する。解決者要素テーブルの詳細は後述する。
エスカレーション先記憶部330は、判定部240により判定された障害のエスカレーション先を示すエスカレーション先テーブルを記憶する。エスカレーション先テーブルの詳細は後述する。
障害対応履歴記憶部340は、対象ITシステム100において過去に発生した各障害のエスカレーション先(解決者)の履歴を示す障害対応履歴テーブルを記憶する。障害対応履歴テーブルの詳細は後述する。
【0015】
判定部240は、算出部210と学習部220とを含んで構成され、記憶部300に記憶された情報に基づいて、対象ITシステム100において発生した障害のエスカレーション先(解決者)を判定する。
算出部210は、送受信部230により受信された障害メッセージ及び発生日時と、障害要素テーブルと、解決者要素テーブルとに基づいて、対象ITシステム100において発生した障害のエスカレーション先(解決者)を判定する。
学習部220は、送受信部230により受信された障害メッセージ及び発生日時と、障害要素テーブルと、解決者要素テーブルと、障害対応履歴テーブルとに基づいて、対象ITシステム100において発生した障害のエスカレーション先(解決者)を判定する。具体的には、学習部220は、例えばGA(遺伝子的アルゴリズム)や機能論理アルゴリズム等の機械学習を用いて、障害対応履歴テーブルに基づいて、障害メッセージ及び発生日時とエスカレーション先との相関関係を学習する。そして、学習部220は、学習結果と、障害要素テーブルと、解決者要素テーブルと、障害対応履歴テーブルとに基づいて、対象ITシステム100において発生した障害の解決者を判定する。
【0016】
図2は、本実施形態による障害要素記憶部310が記憶する障害要素テーブルのデータ構造及びデータ例を示す概略図である。図示するように、障害要素テーブルは、行と列からなる2次元の表形式のデータであり、番号と、障害と、障害メッセージと、技術範囲と、発生装置と、発生時間との各項目を有している。このテーブルの各行は障害毎に存在する。障害要素テーブルにおける各データは、予めユーザにより登録されている。
番号は、障害の識別情報である。障害は、対象ITシステム100において発生しうる障害である。障害メッセージは、対応する障害が発生した場合に、対象ITシステム100が判定装置200に送信するメッセージである。技術範囲は、対応する障害の技術範囲である。発生装置は、対応する障害が発生する装置である。発生時間は、対応する障害が発生しうる時間である。
【0017】
図示する例では、障害Aは、障害メッセージ「システムがダウンしました。」であり、技術範囲「OS」であり、発生装置「サーバ1号機」であり、発生時間「平日日勤帯」である。また、障害Bは、障害メッセージ「ハードディスクが故障しました。」であり、技術範囲「ハードディスク」であり、発生装置「サーバ1号機」であり、発生時間「平日夜勤帯」である。また、障害Cは、障害メッセージ「アプリケーションでエラーが発生しました。」であり、技術範囲「アプリケーション」であり、発生装置「サーバ2号機」であり、発生時間「休日」である。
【0018】
図3は、本実施形態による解決者要素記憶部320が記憶する解決者要素テーブルのデータ構造及びデータ例を示す概略図である。図示するように、解決者要素テーブルは、行と列からなる2次元の表形式のデータであり、番号と、解決者と、担当技術範囲と、担当装置と、対応時間との各項目を有している。このテーブルの各行は解決者毎に存在する。解決者要素テーブルにおける各データは、予めユーザにより登録されている。
番号は、解決者の識別情報である。解決者は、対象ITシステム100における障害に対応する(障害を解決する)解決者である。本実施形態では、解決者は、障害を解決する部門である。担当技術範囲は、解決者が担当する技術範囲である。担当装置は、解決者が担当する装置である。対応時間は、解決者が対応可能な時間である。
【0019】
図示する例では、解決者「社内保守部門」は、担当技術範囲「OS」であり、担当装置「システム全体」であり、対応時間「平日日勤帯のみ」である。また、解決者「社内SE部門」は、担当技術範囲「アプリケーション」であり、担当装置「サーバ1号機及びサーバ2号機」であり、対応時間「平日日勤帯のみ」である。また、解決者「ベンダー保守部門」は、担当技術範囲「ハードウェア」であり、担当装置「サーバ1号機、サーバ2号機、サーバ3号機、サーバ4号機及びサーバ5号機」であり、対応時間「365日24時間」である。
【0020】
図4は、本実施形態によるエスカレーション先記憶部330が記憶するエスカレーション先テーブルのデータ構造及びデータ例を示す概略図である。図示するように、エスカレーション先テーブルは、行と列からなる2次元の表形式のデータであり、番号と、障害メッセージと、発生時間と、エスカレーション先と、問い合わせ先と、問い合わせする際の注意事項との各項目を有している。エスカレーション先テーブルには、判定部240により判定されたエスカレーション先に関する情報が格納される。エスカレーション先テーブルの各データは、判定部240により書き込まれる。
番号は、判定部240による判定結果の識別情報である。障害メッセージは、対象ITシステム100において発生した障害を特定するメッセージである。発生時間は、障害が発生した日時である。エスカレーション先は、判定部240により判定された障害のエスカレーション先である。問い合わせ先は、エスカレーション先の問い合わせ先(例えば、電話番号、メールアドレス、ウェブサイト等)である。問い合わせする際の注意事項は、エスカレーション先に問い合わせする際の注意事項である。問い合わせ先及び問い合わせする際の注意事項は、エスカレーション先毎に予め記憶部300に記憶されている。
【0021】
図示する例では、障害メッセージ「システムがダウンしました。」は、発生時間が「2011/08/15 9:00」であり、エスカレーション先「社内保守部門」であり、問い合わせ先「03−XXXX−XXXX」である。また、障害メッセージ「ハードディスクが故障しました。」は、発生時間が「2011/08/10 12:00」であり、エスカレーション先「ベンダー保守部門」であり、問い合わせ先「03−XXXX−XXXY」である。また、障害メッセージ「アプリケーションでエラーが発生しました。」は、発生時間が「2011/08/01 23:00」であり、エスカレーション先「社内SE部門」であり、問い合わせ先「03−XXXX−XXXZ」である。
【0022】
図5は、本実施形態による障害対応履歴記憶部340が記憶する障害対応履歴テーブルのデータ構造及びデータ例を示す概略図である。図示するように、障害対応履歴テーブルは、行と列からなる2次元の表形式のデータであり、番号と、障害メッセージと、発生時間と、発生装置と、被疑技術範囲と、エスカレーション先との各項目を有している。障害対応履歴テーブルの各データは、ユーザが手動で入力するか、或いは、他のシステムと連動しており障害が解決すると自動的に登録される。
番号は、履歴の識別情報である。障害メッセージは、障害を特定するメッセージである。発生時間は、障害が発生した日時である。発生装置は、障害が発生した装置である。被疑技術範囲は、発生した障害の原因となる技術範囲である。エスカレーション先は、障害に対応した(障害を解決した)解決者である。
【0023】
図示する例では、障害メッセージ「システムがダウンしました。」は、発生時間が「2011/08/15 9:00」であり、発生装置「サーバ1号機」であり、被疑技術範囲「ソフトウェア」であり、エスカレーション先「社内保守部門」である。また、障害メッセージ「ハードディスクが故障しました。」は、発生時間が「2011/08/10 12:00」であり、発生装置「サーバ1号機」であり、被疑技術範囲「ハードウェア」であり、エスカレーション先「ベンダー保守部門」である。
【0024】
次に、図6を参照して、本実施形態による判定装置200におけるエスカレーション先を判定する動作について説明する。図6は、本実施形態によるエスカレーション先を判定する動作の手順を示すフローチャートである。以下、判定装置200が、対象ITシステム100から障害メッセージ「システムがダウンしました。」を受信した場合を例に説明する。
まず、送受信部230が、対象ITシステム100から障害メッセージ「システムがダウンしました。」とともに当該障害メッセージの発生日時「2011/08/15 9:00」を受信する(ステップS101)。
次に、判定部240が、障害対応履歴テーブルに、障害対応履歴が所定数以上登録されているか否かを判定する。(ステップS102)。
【0025】
障害対応履歴が所定数以上登録されている場合(ステップS102:Yes)、学習部220が、障害のエスカレーション先を判定する(ステップS103)。具体的には、まず、学習部220は、機会学習により、障害対応履歴テーブルに基づいて、障害メッセージ及び発生日時とエスカレーション先との相関関係を学習する。そして、学習部220は、障害メッセージ「システムがダウンしました。」と発生日時「2011/08/15 9:00」とに対応するエスカレーション先が学習結果にある場合は、学習結果に基づいてエスカレーション先を判定する。一方、障害メッセージ「システムがダウンしました。」と発生日時「2011/08/15 9:00」とに対応するエスカレーション先が学習結果にない場合は、障害要素テーブルと、解決者要素テーブルとに基づいて、エスカレーション先を判定する。具体的には、まず、学習部220は、障害メッセージ「システムがダウンしました。」に対応する技術範囲「システム全体」と、発生装置「サーバ1号機」とを障害要素テーブルから読み出す。次に、学習部220は、担当技術範囲が読み出した技術範囲「OS」であって、担当装置が読み出した発生装置「サーバ1号機」を含み、対応時間が発生日時「2011/08/15 9:00」を含む解決者「社内保守部門」をエスカレーション先とする。
【0026】
一方、障害対応履歴が所定数より少ない場合(ステップS102:No)、算出部210が、障害のエスカレーション先を判定する(ステップS104)。具体的には、まず、算出部210は、障害メッセージ「システムがダウンしました。」に対応する技術範囲「システム全体」と、発生装置「サーバ1号機」とを障害要素テーブルから読み出す。次に、算出部210は、担当技術範囲が読み出した技術範囲「OS」であって、担当装置が読み出した発生装置「サーバ1号機」を含み、対応時間が発生日時「2011/08/15 9:00」を含む解決者「社内保守部門」をエスカレーション先とする。
【0027】
ステップS103又はS104に続いて、送受信部230が、受信した障害メッセージ「システムがダウンしました。」と、受信した発生日時「2011/08/15 9:00」と、判定されたエスカレーション先とをユーザ端末110に通知する(ステップS105)。例えば、送受信部230は、電子メールにより障害メッセージと発生日時とエスカレーション先とをユーザ端末110に送信してもよいし、障害メッセージと発生日時とエスカレーション先とをユーザ端末110の表示部に表示してもよい。
【0028】
このように、本実施形態によれば、障害要素テーブルと、解決者要素テーブルとを予め記憶し、受信した障害メッセージと、発生日時と、障害要素テーブルと、解決者要素テーブルとに基づいて、障害に対応するエスカレーション先を判定する。これにより、各障害のエスカレーション先を自動的に短時間で判定することができ、障害対応時間の短縮に繋がる。また、判定が個人の主観に依存しないため、画一的な対応が可能となる。
更に、過去の障害対応履歴を示す障害対応履歴テーブルに基づいて、障害メッセージ及び発生日時とエスカレーション先との相関関係を機械学習しているため、エスカレーション先をより精度良く判定することができる。
【0029】
また、図6に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、障害に対応するエスカレーション先を判定する処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0030】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0031】
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、上述した実施形態では、学習部220は、障害メッセージを受信してから、障害メッセージ及び発生日時とエスカレーション先との相関関係を機械学習しているが、例えば、障害対応履歴テーブルが更新されたときや所定時間毎等、他のタイミングで障害メッセージ及び発生日時とエスカレーション先との相関関係を機械学習してもよい。
【符号の説明】
【0032】
100…対象ITシステム 110…ユーザ端末 200…判定装置 210…算出部 220…学習部 230…送受信部 240…判定部 300…記憶部 310…障害要素記憶部 320…解決者要素記憶部 330…エスカレーション先記憶部 340…障害対応履歴記憶部

【特許請求の範囲】
【請求項1】
システムにおいて発生しうる障害を特定するメッセージと、前記障害が発生する装置と、前記障害の技術範囲とを含む障害に関する情報を記憶する障害要素記憶部と、
前記システムにおける障害に対応する解決者の担当する技術範囲と、前記解決者の担当する装置と、前記解決者の対応時間とを含む解決者に関する情報を記憶する解決者要素記憶部と、
前記システムにおいて発生した障害を特定するメッセージを、当該障害が発生した日時とともに受信する受信部と、
前記受信部により受信された障害を特定するメッセージ及び障害が発生した日時と、前記障害要素記憶部に記憶される各障害に関する情報と、前記解決者要素記憶部に記憶される各解決者に関する情報とに基づいて、前記システムにおいて発生した障害の解決者を判定する判定部と、
を備えることを特徴とする判定装置。
【請求項2】
各障害に対応した解決者の履歴を記憶する障害対応履歴記憶部を備え、
前記判定部は、前記障害対応履歴記憶部に記憶される各障害に対応した解決者の履歴に基づいて、前記システムにおいて発生した障害の解決者を判定する
ことを特徴とする請求項1に記載の判定装置。
【請求項3】
判定装置が、システムにおいて発生した障害を特定するメッセージを当該障害が発生した日時とともに受信するステップと、
前記判定装置が、受信した前記障害を特定するメッセージ及び前記障害が発生した日時と、前記システムにおいて発生しうる障害を特定するメッセージ、前記障害が発生する装置、及び前記障害の技術範囲を含む障害に関する情報と、前記システムにおける障害に対応する解決者の担当する技術範囲、前記解決者の担当する装置、及び前記解決者の対応時間を含む解決者に関する情報とに基づいて、前記システムにおいて発生した障害の解決者を判定するステップと、
を有することを特徴とする判定方法。
【請求項4】
コンピュータに、
システムにおいて発生した障害を特定するメッセージを当該障害が発生した日時とともに受信するステップと、
受信した前記障害を特定するメッセージ及び前記障害が発生した日時と、前記システムにおいて発生しうる障害を特定するメッセージ、前記障害が発生する装置、及び前記障害の技術範囲を含む障害に関する情報と、前記システムにおける障害に対応する解決者の担当する技術範囲、前記解決者の担当する装置、及び前記解決者の対応時間を含む解決者に関する情報とに基づいて、前記システムにおいて発生した障害の解決者を判定するステップと、
を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate