説明

運用管理障害対応システム及び運用管理障害対応方法

【課題】障害の事象から原因を特定し、有効な対策情報を運用管理担当者に通知する運用管理障害対応システムを提供すること。
【解決手段】障害対策機器101が、インターネット130を介して接続される複数のサイトから複数の障害事象に対する原因情報及び解決策情報を収集してナレッジ情報格納部102に格納し、監視対象システム110の監視サーバ111やコンピュータ112に発生した障害事象に対する原因情報及び解決策情報をナレッジ情報格納部102から抽出して運用管理担当者122のコンピュータ121に通知する運用管理障害対応システム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータシステムにおける運用管理において発生する障害の原因特定から解決策の提供を行うことができる運用管理障害対応システム及び運用管理障害対応方法に関する。
【背景技術】
【0002】
一般にコンピュータシステムは、サーバ・ネットワーク機器・クライアントコンピュータ等のハードウェアと、基本プログラム・アプリケーションプログラム等のソフトウェアとから構成され、障害が発生した場合、障害が発生したハードウェアやソフトウェアの特定と、この特定したハードウェアやソフトウェアの障害原因の特定と、この障害に対する対応策をシステムの運用管理担当者へ提起することが必要である。
【0003】
この障害対策に関する技術が記載された文献としては、例えば、下記の特許文献1が挙げられ、この特許文献1には、支援対象システムで発生した障害情報をスケジューラに登録する機能と、障害回復に必要な情報を登録管理する機能と、障害回復を管理する機能と、支援対象システムに関する情報を管理する機能と、障害の回復を確認し記録報告する機能と、障害対策者用携帯端末に障害情報を送受する送受機能とを有する支援センタ用機器とが記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開特開2004−30004号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
前記の特許文献1に記載された技術は、作業員が現場に出向く前に支援対象システムの技術情報を把握し、作業終了報告や障害登録を支援することができるものの、複数のハードウェア及びソフトウェアとから構成されるコンピュータシステムに障害が発生した場合、複数の要因の組み合わせによって発生する障害が多く、現場に出向く前のシステム技術情報のみからでは障害原因を特定することが困難であり、作業員が現場にて障害原因を判断することが多い。この作業員が現場にて判断した障害原因の特定や解決策の運用管理担当者への連絡は、手動で行われているため時間がかかると共に、障害原因の特定や解決策の提起は経験を多く積むことで対応することができるようになる属人的作業であり、正確且つ迅速に対応することが困難であるという課題があった。
【0006】
本発明の目的は、前述の従来技術による課題を解決しようとするものであり、障害の事象から原因を特定し、有効な障害対策情報を運用管理担当者に提供することができる運用管理障害対応システム及び運用管理障害対応方法を提供することである。
【課題を解決するための手段】
【0007】
前記目的を達成するために、請求項1記載の本発明は、障害の監視対象となる監視サーバ及びコンピュータを含む監視対象システムに接続され、障害事象に対する原因情報及び解決策情報とを格納するナレッジ情報格納部と、前記監視対象システムに発生した障害情報を収集して原因情報及び解決策情報を運用管理担当者に通知する障害対策機器とを備え、複数の障害事象に対する原因情報及び解決策情報とを記憶した複数のサイトにインターネットを介して接続される運用管理障害対応システムであって、前記障害対策機器が、前記インターネットに接続された複数のサイトから障害の原因情報及び解決策情報を収集する機能と、前記監視対象システムから障害情報を収集する機能と、前記ナレッジ情報格納部に蓄積した障害事象に対する原因情報及び解決策情報を抽出する機能と、前記抽出した原因情報及び解決策情報を運用管理担当者に通知する機能とを実行することを特徴とする。
【0008】
請求項2記載の発明は、障害の監視対象となる監視サーバ及びコンピュータを含む監視対象システムに接続され、障害事象に対する原因情報及び解決策情報とを格納するナレッジ情報格納部と、前記監視対象システムに発生した障害情報を収集して原因情報及び解決策情報を運用管理担当者に通知する障害対策機器とを備え、複数の障害事象に対する原因情報及び解決策情報とを記憶した複数のサイトにインターネットを介して接続されるコンピュータシステムの運用管理障害対応方法であって、前記障害対策機器に、前記インターネットに接続された複数のサイトから障害の原因特定及び解決策を収集する機能と、前記監視対象システムから障害情報を収集する機能と、前記ナレッジ情報格納部に蓄積した障害事象に対する原因情報及び解決策情報を抽出する機能と、前記抽出した原因情報及び解決策情報を運用管理担当者に通知する機能とを実行させることを特徴とする。
【発明の効果】
【0009】
本発明による運用管理障害対応システム及び運用管理障害対応方法は、前記障害対策機器が、インターネットを介して接続される複数のサイトから障害事象に対する原因情報及び解決策情報とを収集して前記ナレッジ情報格納部に格納し、監視対象システムに発生した障害事象に対する原因情報及び解決策情報をナレッジ情報格納部から抽出して運用管理担当者に通知することによって、障害の事象から原因を特定し、有効な障害対策情報を運用管理担当者に提供することができる。
【図面の簡単な説明】
【0010】
【図1】本発明の実施形態による運用管理障害対応システムの全体構成を示す図
【図2】本発明の実施形態による障害対策時の処理を示すフロー図
【図3】本発明の実施形態による運用コミュニティの構成を示す図
【図4】本発明の実施形態によるナレッジ構成例を示す図
【発明を実施するための形態】
【0011】
以下、本発明による運用管理障害対応方法を実現する運用管理障害対応システムの一実施形態を図面を参照して詳細に説明する。なお、本出願においては、障害に関する「原因情報」及び「解決策情報」を含む知識を「ナレッジ」と記載する。
本実施形態による運用管理障害対応システムは、図1に示す如く、障害の監視対象となる監視サーバ111やコンピュータ112等からなる監視対象システム110と、この監視対象システム110と専用回線によって接続され、障害を監視する障害対策機器101及び障害情報を格納するナレッジ情報格納部102から成る障害対策システム100と、運用管理担当者122が操作する運用管理担当者用コンピュータ121と、前記障害対策システム100と接続され、コンピュータシステムの障害事象に対する「原因情報」及び「解決策情報」を含む知識である「ナレッジ」を多種のサイトに蓄積したインターネット130とを備える。
【0012】
前記ナレッジ情報格納部102に格納される障害情報は、図4に示す如く、コンピュータシステムに発生する「障害内容」と、この「障害内容」の原因として想定される「障害の原因」と、前記「障害内容」に対応した「解決策」の各項目情報とから成り、例えば、「障害内容」が「サーバの動作遅延」であり、「障害の原因」が「メモリの容量不足」又は「サーバの高負荷」であり、「解決策」が「メモリ増設」又は「アクセス制御、該当機器の再起動」である旨を格納している。
【0013】
前記インターネット130は、通信回線網であるが、この通信回線網の先には多数サイトのサーバに格納した情報によってナレッジを構成する運用管理コミュニティ300が存在し、この運用管理コミュニティ300は、ナレッジ内容を機能別に図示した図3に示す如く、不特定多数の人が登録できないように登録者情報及び更新履歴を管理するアクセス管理部301と、複数の障害事象に対する原因情報や対策情報をインターネット上の複数のサイトから検索するナレッジ検索部304と、このナレッジ検索部304が検索した原因情報を格納する障害原因格納部302と、前記ナレッジ検索部304が検索した対策情報を格納する障害原因格納部303とを含むように構成され、これら構成は、特定のサイトのみに依存するものではなく、例えば、多数のハードウェアメーカやソフトウェアメーカに頻繁に訪ねられる質問と回答とを掲載したF&Q(Frequently Asked Questions)を有する複数のサイトや掲示板やブログその他のサイトが前記した各部位を構成するものである。
【0014】
前記障害対策機器101は、(a)インターネットを介して障害事象に対応した原因情報及び解決策情報を収集する機能と、(b)監視対象から障害事例を収集する機能と、(c)今までに収集・取得して蓄積したナレッジ情報から障害事例に対する原因情報や解決策情報を検索する機能と、(d)障害事象から原因情報を特定する機能と、(e)特定した原因情報から解決策情報の候補を選定する機能と、(f)運用管理担当者に対して選定した解決策情報の候補を提供(通知)する機能と、(g)有効な解決策でない場合に運用管理担当者に自動で通知する機能と、(h)蓄積した障害事象と障害情報と解決策情報の組み合わせを発生件数の多さや更新順等にソートして運用管理担当者に提供するとをソフトウェア又はハードウェアによって構築している。
【0015】
さて、このように構成された運用管理障害対応システムによる障害情報管理処理の手順は、図2に示す如く、障害対策機器101(図1)が、障害が発生したら運用管理の障害対策を開始するステップ201と、監視対象のサーバ・ネットワーク機器・コンピュータ等から障害事象を自動で収集するステップ202と、蓄積したナレッジやインターネットから障害事象と同じ事象が存在するか否かを検索するステップ203と、蓄積したナレッジや障害事象やインターネットからの障害原因情報を特定するステップ204と、この特定した障害の原因情報から解決策情報の候補を選定し、運用管理担当者122へ提供するステップ205と、運用管理担当者122への解決策情報が提供できたか否かを検証するステップ206と、運用管理担当者122の判断によって解決策がなかった場合や有効でない解決策の場合は管理者のコンピュータ121へ通知するステップ207と、解決策がない障害に関しては手動で対応するステップ208と、障害対策システムから提供された解決策に沿って障害に対応するステップ209と、障害対策を終了するステップ210とを実行することによって、障害発生時にインターネット上のナレッジを活用して障害事例への対応を支援することができる。
【0016】
このように本実施形態による運用管理障害対応システムは、発生した障害事象に対するナレッジをインターネット上に存在するコンピュータシステムの障害事象に対する原因情報及び対策情報を収集し、この収集した原因情報及び対策情報をナレッジ情報格納部102に格納し、運用管理担当者122のコンピュータ121へ通知することによって、障害の事象から原因を特定し、有効な対策情報を検索して提供することができる。
【符号の説明】
【0017】
100 障害対策システム、101 障害対策機器、102 ナレッジ情報格納部、
110 監視対象システム、111 監視サーバ、
121 運用管理担当者用コンピュータ、122 運用管理担当者、
130 インターネット、300 運用管理コミュニティ、
301 アクセス管理部、302 障害原因格納部、303 障害原因格納部、
304 ナレッジ検索部

【特許請求の範囲】
【請求項1】
障害の監視対象となる監視サーバ及びコンピュータを含む監視対象システムに接続され、障害事象に対する原因情報及び解決策情報とを格納するナレッジ情報格納部と、前記監視対象システムに発生した障害情報を収集して原因情報及び解決策情報を運用管理担当者に通知する障害対策機器とを備え、複数の障害事象に対する原因情報及び解決策情報とを記憶した複数のサイトにインターネットを介して接続される運用管理障害対応システムであって、前記障害対策機器が、前記インターネットに接続された複数のサイトから障害の原因情報及び解決策情報を収集する機能と、前記監視対象システムから障害情報を収集する機能と、前記ナレッジ情報格納部に蓄積した障害事象に対する原因情報及び解決策情報を抽出する機能と、前記抽出した原因情報及び解決策情報を運用管理担当者に通知する機能とを実行する運用管理障害対応システム。
【請求項2】
障害の監視対象となる監視サーバ及びコンピュータを含む監視対象システムに接続され、障害事象に対する原因情報及び解決策情報とを格納するナレッジ情報格納部と、前記監視対象システムに発生した障害情報を収集して原因情報及び解決策情報を運用管理担当者に通知する障害対策機器とを備え、複数の障害事象に対する原因情報及び解決策情報とを記憶した複数のサイトにインターネットを介して接続されるコンピュータシステムの運用管理障害対応方法であって、前記障害対策機器に、前記インターネットに接続された複数のサイトから障害の原因特定及び解決策を収集する機能と、前記監視対象システムから障害情報を収集する機能と、前記ナレッジ情報格納部に蓄積した障害事象に対する原因情報及び解決策情報を抽出する機能と、前記抽出した原因情報及び解決策情報を運用管理担当者に通知する機能とを実行させる用管理障害対応方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−118800(P2012−118800A)
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願番号】特願2010−268539(P2010−268539)
【出願日】平成22年12月1日(2010.12.1)
【出願人】(000152985)株式会社日立情報システムズ (409)
【Fターム(参考)】