説明

マルチプロセッサシステム及びその障害検出方法

【課題】マルチプロセッサシステムにおいて、各プロセッサの障害検出の処理負荷を小さくする。
【解決手段】共有メモリ13内に各プロセッサ11−1〜11−nからアクセスされてプロセッサ識別子を書き込まれる順序明示領域14を備え、各プロセッサは、自プロセッサ識別子と自プロセッサとは異なる所定のプロセッサ識別子を保持し、プロセッサ毎に所定アクセス周期で前記順序明示領域の内容を読み出し、該プロセッサ識別子が自プロセッサ識別子であるとき自プロセッサの保持する所定のプロセッサ識別子を前記順序明示領域に書き込み、読み出したプロセッサ識別子が自プロセッサ識別子でないとき自プロセッサの所定アクセス周期を待機期間に加算し、待機期間が所定値を超えたとき前記前記順序明示領域から読み出したプロセッサ識別子に対応するプロセッサの障害を検出して運転管理装置15に通知する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プロセッサを複数相互に接続したマルチプロセッサシステム及びその障害検出方法に関する。
【背景技術】
【0002】
近年、コアすなわちプロセッサを複数相互に接続し、複数のコアで分散処理を行うマルチプロセッサシステムが開発されている。
【0003】
図1は従来のプロセッサ障害検出システムの一例の構成図を示す。図1において、コア1はプロセッサでありハードウェア及びソフトウェアを有し独自の処理を実行する。コア1は所定時間T1毎にメモリ2に正常値を書き込む。監視部3は所定時間T2(T1<T2)毎にメモリ2の値を読み出した後に異常値を書き込む。
【0004】
監視部3はメモリ2から読み出した値が正常値であればコア1に障害はないと判定し、読み出した値が異常値であればコア1に障害発生と判定する。監視部3はコア1の障害発生と判定した場合には運転管理部4に障害検出を通知する。運転管理部4はコア1の障害検出を通知されると、コア1にリセット信号を供給してコア1を初期化することによりコア1を復旧させる。
【0005】
ところで、複数のプロセッサは所定の時間間隔で共有メモリのカウンタにアクセスし、自プロセッサのカウンタをクリア、他プロセッサのカウンタ値を+1進め、カウンタ値が一定値以上になったプロセッサは障害発生と判定する提案がなされている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平1−200441号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
複数のコアを相互に接続したマルチプロセッサシステムに従来のプロセッサ障害検出システムを適用した場合には、各コアに対して少なくともメモリと監視部を設けなければならず、コア数が増加すると回路規模が増大する。また、監視部に障害が発生した場合には、当該監視部が監視しているコアの障害を検出することができないという問題があった。
【0008】
また、特許文献1のような監視方法では、コア数の増加による回路規模の増大はないものの、共有メモリ内にプロセッサ数分のカウンタ領域を確保する必要があり、各プロセッサは自プロセッサ以外の複数プロセッサの障害検出を行うために、プロセッサ数が増加すると各プロセッサが障害検出を行う処理負荷が増大するという問題があった。
【0009】
開示のマルチプロセッサシステムは、各プロセッサの障害検出の処理負荷を小さくすることを目的とする。
【課題を解決するための手段】
【0010】
開示の一実施形態によるマルチプロセッサシステムは、複数のプロセッサを相互に接続するマルチプロセッサシステムにおいて、
各プロセッサからアクセスされてプロセッサ識別子を書き込まれる順序明示領域を有する共通保持手段と、
各プロセッサは、
自プロセッサ識別子と自プロセッサとは異なる所定のプロセッサ識別子を保持する保持手段と、
プロセッサ毎に所定アクセス周期で前記順序明示領域の内容を読み出す読み出し手段と、
前記読み出し手段で前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子であるとき自プロセッサの前記保持手段に保持する所定のプロセッサ識別子を前記順序明示領域に書き込む書き込み手段と、
前記読み出し手段で前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子でないとき自プロセッサの所定アクセス周期を待機期間に加算する加算手段と、
前記待機期間が所定値を超えたとき前記前記順序明示領域から読み出したプロセッサ識別子に対応するプロセッサの障害を検出する検出手段と、を有する。
【発明の効果】
【0011】
本実施形態によれば、各プロセッサの障害検出の処理負荷を小さくすることができる。
【図面の簡単な説明】
【0012】
【図1】従来のプロセッサ障害検出システムの一例の構成図である。
【図2】マルチプロセッサシステムの一実施形態の構成図である。
【図3】無線基地局装置の構成図である。
【図4】マルチプロセッサシステムの一実施形態の各部の詳細構成図である。
【図5】相互監視情報の一実施形態のデータ構成図である。
【図6】グループ管理情報の一実施形態のデータ構成図である。
【図7】グループ管理情報のチェーン構造を示す図である。
【図8】グループ管理情報のチェーン構造(複数グループ)を示す図である。
【図9】相互監視情報設定処理の一実施形態のフローチャートである。
【図10】監視処理の一実施形態のフローチャートである。
【図11】障害検出時処理の一実施形態のフローチャートである。
【図12】障害復旧時処理の一実施形態のフローチャートである。
【発明を実施するための形態】
【0013】
以下、図面に基づいて実施形態を説明する。
【0014】
<マルチプロセッサシステムの構成>
図2はマルチプロセッサシステムの一実施形態の構成図を示す。図2において、コア11−1〜11−nそれぞれはプロセッサでありハードウェア及びソフトウェアを有し、それぞれ独自の処理を実行する。コア11−1〜11−nは内部バス12に接続されており、内部バス12には共有メモリ13と運転管理装置15が接続されている。共有メモリ13内には順序明示領域14が設けられている。
【0015】
コア11−1〜11−nそれぞれは内部バス12を介して共有メモリ13内の順序明示領域14をアクセスして、自コア以外のコア11−1〜11−nの障害を検出する。また、コア11−1〜11−nのいずれかの障害を検出したコアは、内部バス12を介して運転管理装置15に対して障害検出通知を行う。障害検出通知を受けた運転管理装置15は障害の発生したコアの復旧処理を行う。
【0016】
なお、運転管理装置15はコア11−1〜11−nのいずれかに設けられる構成であっても良い。
【0017】
図2に示すマルチプロセッサシステムは、例えば図3に示す無線基地局装置に適用される。図3は、LTE(Long Term Evolution)システム等の移動体通信システムにおける無線基地局装置(eNB)の構成図を示す。無線基地局装置は、上位交換機との接続及びベースバンド処理を行う無線装置制御部(BBU:Base Band Unit)21と、移動端末との無線接続を行う無線装置(RRH:Remote Radio Head)22を有している。無線装置制御部21はハイウェイ部23、制御管理部24、ベースバンド処理部25を有している。ハイウェイ部23はネットワークを介して上位交換機であるS−GW(Serving−Gateway)やMME(Mobility Management Entity)に接続されると共に保守装置に接続されており、また、無線装置制御部21内の制御管理部24,ベースバンド処理部(BB部)25と接続されている。ハイウェイ部23はS−GW,MME,保守装置との間で情報の送受信を行う。
【0018】
制御管理部24は、無線装置制御部21及び無線装置22内の各部を接続されており、呼制御や無線基地局装置内の各部の制御を行う。また、制御管理部24は無線基地局装置内の各部の動作情報を管理する。ベースバンド処理部25は上りリンク及び下りリンクのベースバンド処理を行う。無線装置22はアンテナ制御部26を有している。アンテナ制御部26はアンテナ27を用いて無線信号の送受信を行う。
【0019】
なお、無線装置制御部21内の制御管理部24は複数のコアを有し、ハイウェイ部23、ベースバンド処理部25それぞれも一又は複数のコアを有し、各コアで分散処理を行っている。この無線装置制御部21内の各コアが図2のコア11−1〜11−nに対応する。
【0020】
<マルチプロセッサシステムの各部の詳細構成>
図4はマルチプロセッサシステムの一実施形態の各部の詳細構成図を示す。図4において、コア11−1は監視処理部31と再開処理部35を有している。監視処理部31は相互監視情報格納部32に相互監視情報を設定されている。監視処理部31内の相互監視部33は相互監視情報格納部32の相互監視情報を用いて共有メモリ13の順序明示領域14の内容を読み出し、読み出した内容が自コア識別子であれば相互監視情報の次コア識別子を共有メモリ13の順序明示領域14に書き込んで、他のコア11−2〜11−nの障害を監視する。相互監視部33は他のコア11−2〜11−nの障害を検出すると、障害を検出したコアの識別子(障害コア識別子)を障害通知送信部34に通知する。
【0021】
障害通知送信部34は上記障害コア識別子を含む障害メッセージを運転管理装置15に送信する。運転管理装置15内の障害管理部43は障害通知受信部44にて障害通知送信部34から送信された障害メッセージを受信する。障害通知受信部44は障害メッセージから障害コア識別子を取得して障害管理部43内の復旧処理部45に通知すると共に、グループ管理情報変更部46に通知する。
【0022】
復旧処理部45は障害コア識別子が指示するコアの再開処理部35に対し例えばリセットコマンドを送信して当該コアに復旧処理を指示する。なお、図4においては便宜上、障害コア識別子がコア11−1を指示するものとして作図しているが、実際には運転管理装置15に障害メッセージを送信したコアの識別子と、運転管理装置15からリセットコマンドを送信するコアの識別子とは異なっている。
【0023】
ところで、再開処理部35は自コアのリセットを実行して障害復旧が完了すると監視処理部31にその旨を通知し、監視処理部31の障害通知送信部34は自コアの識別子を含む障害復旧メッセージを生成して運転管理装置15に送信する。
【0024】
一方、グループ管理情報変更部46はグループ管理情報格納部41に格納されている複数のコア識別子から障害コア識別子を削除する。これにより、グループ管理情報格納部41は更新されたグループ管理情報を相互監視情報計算部42に供給する。ところで、運転管理装置15は例えば上位装置等のグループ管理情報設定部50から予めグループ管理情報格納部41にグループ管理情報を設定されている。
【0025】
相互監視情報計算部42は更新されたグループ管理情報からコア11−1〜11−nそれぞれで異なる相互監視情報を計算し、相互監視情報を含む相互監視情報メッセージを対応するコア11−1〜11−nそれぞれに送信する。相互監視情報は各コアの相互監視情報格納部32に格納される。
【0026】
<相互監視情報>
図5に相互監視情報の一実施形態のデータ構成図を示す。相互監視情報格納部32に格納される相互監視情報は、自コア識別子と次コア識別子とグループ識別子と順序明示領域アドレスを有する。自コア識別子はコア毎に割り当てられる識別子である。次コア識別子は自コアの次に監視処理を行うコアの識別子であり、自コアが順序明示領域14に書き込む内容である。グループ識別子は自コアが所属する監視グループの識別子である。順序明示領域アドレスは共有メモリ13における順序明示領域14のアドレスである。
【0027】
図6にグループ管理情報の一実施形態のデータ構成図を示す。グループ管理情報格納部41に格納されるグループ管理情報は、グループを構成する複数のコアそれぞれについて、コア識別子とグループ識別子と順序明示領域アドレスを有する。
【0028】
図6に示すグループ管理情報は1グループ分を表しており、図7に示すように、各コアが自コア識別子と次コア識別子を用いてリング状に連鎖する形態をとっている。これは、運転管理装置15の相互監視情報計算部42がコア毎の相互監視情報を計算して各コアに割り当てているからである。
【0029】
図7において、コア11ー1の相互監視情報は次コア識別子「1」でコア11ー2に連鎖することを示し、コア11ー2の相互監視情報は次コア識別子「2」でコア11ー3に連鎖することを示し、コア11ー3の相互監視情報は次コア識別子「0」でコア11ー1に連鎖することを示しており、コア11−1,11−2,11−3がリング状に連鎖している。
【0030】
図8(A)に示すグループ管理情報は2グループ分を表している。すなわち、コア識別子「0」,「1」,「3」それぞれのコア11−1,11−2,11−4が第1グループを形成し、コア識別子「2」,「4」それぞれのコア11−3,11−5が第2グループを形成している。第1グループは共有メモリ13のアドレス「0x80003000」を順序明示領域14として使用し、第2グループは共有メモリ13のアドレス「0x80003001」を順序明示領域14として使用する。なお、「0x」は16進表示を示している。
【0031】
これにより、第1グループは図8(B)に示すように、コア11−1,11−2,11−4がリング状に連鎖している。また、第2グループは図8(C)に示すように、コア11−3,11−5がリング状に連鎖している。
【0032】
ここで、図3に示す無線基地局装置においては、例えば制御管理部24を構成する複数のコアを第1グループとし、ベースバンド処理部25を構成する複数のコアを第2グループとし、ハイウェイ部23を構成する複数のコアを第3グループとすることが考えられる。
【0033】
<相互監視情報設定処理のフローチャート>
図9は運転管理装置15の相互監視情報計算部42が運用開始時に実行する相互監視情報設定処理の一実施形態のフローチャートを示す。
【0034】
図9において、相互監視情報計算部42はステップS1でグループ管理情報格納部41に既に格納されているグループ管理情報に複数のグループ識別子が設定されているかどうかによりグループ設定の有無を判別する。グループ識別子が1種類でグループ設定がなければ、相互監視情報計算部42はステップS2でグループ管理情報の全コアを1つのグループで管理するための相互監視情報(図7を参照)をコア毎に計算し、コア毎に上記相互監視情報を設定する。
【0035】
また、グループ識別子が複数種類でグループ設定がされていれば、相互監視情報計算部42はステップS3でグループ管理情報の全コアを複数グループで管理するための相互監視情報(図8を参照)をコア毎に計算し、コア毎に上記相互監視情報を設定する。上記ステップS2又はS3を実行した後、ステップS4で監視処理を実行する。
【0036】
<監視処理のフローチャート>
図10は各コアの相互監視部33が実行する監視処理の一実施形態のフローチャートを示す。各コアの相互監視部33はアクセス周期毎に図10の処理を実行する。なお、コア11−x(xは1からnまでの整数)はアクセス周期Tx毎に共通メモリ13の順序明示領域14をリードアクセスする。グループ期間Ttはコア11−xが属するグループの全コアのアクセス周期の総和であり、3コアのアクセス周期がT1,T2,T3の場合は、Tt=T1+T2+T3となる。また、待機期間Twは順序明示領域14の内容が自コア識別子と一致しない期間を表す。
【0037】
図10において、コア11−xの相互監視部33はステップS11で共有メモリ13の順序明示領域14の内容を読み出し、順序明示領域14の内容が自コア識別子と一致するか否かを判別する。順序明示領域14の内容が自コア識別子と一致した場合には、相互監視部33はステップS12で相互監視情報格納部32の次コア識別子を順序明示領域14に書き込み、ステップS13で待機期間Twに0をセットする。その後、相互監視部33はステップS14で待機期間Twに自コアのアクセス周期Txを加算し、ステップS15でアクセス周期Txだけ待機した後ステップS11に進む。
【0038】
一方、ステップS11で順序明示領域14の内容が自コア識別子と不一致の場合には、相互監視部33はステップS16で今回読み出した順序明示領域14の内容が前回読み出した順序明示領域14の内容と同一であるか否かを判別する。今回読み出した順序明示領域14の内容が前回読み出した順序明示領域14の内容から変化している場合には、相互監視部33はステップS13で待機期間Twに0をセットする。その後、相互監視部33はステップS14で待機期間Twに自コアのアクセス周期Txを加算し、ステップS15でアクセス周期Txだけ待機した後ステップS11に進む。
【0039】
また、ステップS16で今回読み出した順序明示領域14の内容が前回読み出した順序明示領域14の内容と同一の場合には、相互監視部33はステップS17で待機期間Twがグループ期間Tt超えているか否かを判別する。待機期間Twがグループ期間Tt以下であれば、相互監視部33はステップS14で待機期間Twに自コアのアクセス周期Txを加算し、ステップS15でアクセス周期Txだけ待機した後ステップS11に進む。
【0040】
また、ステップS17で待機期間Twがグループ期間Ttを超えていれば、相互監視部33は今回読み出した順序明示領域14の内容であるコア識別子を障害コア識別子としてステップS18で障害通知送信部34に通知し、障害通知送信部34に上記障害コア識別子を含む障害メッセージを運転管理装置15に送信させる。
【0041】
<障害検出時処理のフローチャート>
図11は障害検出時処理の一実施形態のフローチャートを示す。この処理は障害検出時に運転管理装置15で実行される。この他にも、グループ管理情報設定部50により実行することも可能である。
【0042】
図11において、運転管理装置15の障害管理部43はステップS21で任意のコアからの障害メッセージを受信し、障害メッセージから障害コア識別子を取り出してグループ管理情報変更部46に通知する。ステップS22でグループ管理情報変更部46はグループ管理情報格納部41に既に格納されているグループ管理情報から障害コア識別子を除外する(グループ管理情報変更)。この他にも、グループ管理情報設定部50が障害コア識別子を除外することも可能である。
【0043】
次に、相互監視情報計算部42はステップS23でグループ管理情報の全コアを一又は複数のグループで管理するための相互監視情報をコア毎に計算し、コア毎に上記相互監視情報を設定する。
【0044】
<障害復旧処理のフローチャート>
図12は障害復旧時処理の一実施形態のフローチャートを示す。この処理は障害復旧時に運転管理装置15で実行される。この他にも、グループ管理情報設定部50により実行することも可能である。
【0045】
図12において、運転管理装置15の障害管理部43はステップS31で障害が復旧したコアからの障害復旧メッセージ(障害が復旧したコアのコア識別子を含む)を受信し、障害復旧メッセージから上記コア識別子を取り出してグループ管理情報変更部46に通知する。
【0046】
ステップS32でグループ管理情報変更部46はグループ管理情報格納部41に格納されているグループ管理情報に上記コア識別子を追加する(グループ管理情報変更)。この他にも、グループ管理情報設定部50が障害から復旧したコアのコア識別子を追加することも可能である。
【0047】
次に、相互監視情報計算部42はステップS33でグループ管理情報の全コアを一又は複数のグループで管理するための相互監視情報をコア毎に計算し、コア毎に上記相互監視情報を設定する。
【0048】
上記実施形態では、グループを構成する複数のコアの相互監視情報がリング状に連鎖する形態とし、各コアが共有メモリ13の順序明示領域14の内容を読み出して自コア識別子と一致するとき次コア識別子を順序明示領域14に書き込むため、いずれかのコアで障害が発生して順序明示領域14の内容が書き換えられなくなると、待機期間Twがグループ期間Ttを超え、順序明示領域14に残されているコア識別子のコアで障害が発生したことを検出することができる。この場合、各コアはリング状に連鎖における自コア以外の全コアの障害を全て検出することができ、各コアの処理負荷はコア数が増加しても何ら増加することはない。
【0049】
また、障害が発生したコアを除外した後、複数のコアがリング状に連鎖するように各コアの相互監視情報を計算するため、障害のコアを除外した残りの複数のコアにおいて障害検出を行うことができる。すなわち、複数のコアで障害が発生した場合にも、これを検出することが可能となる。
【0050】
更に、障害復旧したコアを追加した後、複数のコアがリング状に連鎖するように各コアの相互監視情報を計算するため、障害復旧したコアを含む複数のコアにおいて障害検出を行うことができる。
【0051】
また、リング状に連鎖するコア数が増加するとグループ期間Ttが大きくなり障害検出に要する時間が長くなる。このような場合には、グループを分離することで各グループを構成するコア数を減少することができグループ期間Ttを小さくして障害検出に要する時間を短縮できる。
(付記1)
複数のプロセッサを相互に接続するマルチプロセッサシステムにおいて、
各プロセッサからアクセスされてプロセッサ識別子を書き込まれる順序明示領域を有する共通保持手段と、
各プロセッサは、
自プロセッサ識別子と自プロセッサとは異なる所定のプロセッサ識別子を保持する保持手段と、
プロセッサ毎に所定アクセス周期で前記順序明示領域の内容を読み出す読み出し手段と、
前記読み出し手段で前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子であるとき自プロセッサの前記保持手段に保持する所定のプロセッサ識別子を前記順序明示領域に書き込む書き込み手段と、
前記読み出し手段で前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子でないとき自プロセッサの所定アクセス周期を待機期間に加算する加算手段と、
前記待機期間が所定値を超えたとき前記前記順序明示領域から読み出したプロセッサ識別子に対応するプロセッサの障害を検出する検出手段と、
を有することを特徴とするマルチプロセッサシステム。
(付記2)
付記1記載のマルチプロセッサシステムにおいて、
前記複数のプロセッサがリング状に連鎖するよう前記複数のプロセッサそれぞれに設定する自プロセッサ識別子と所定のプロセッサ識別子を割り当てる割り当て手段を持つ運転管理装置を
有することを特徴とするマルチプロセッサシステム。
(付記3)
付記2記載のマルチプロセッサシステムにおいて、
各プロセッサは、
障害を検出されたプロセッサのプロセッサ識別子を送信する送信手段を有し、
前記運転管理装置は、
前記送信手段から送信された前記障害を検出されたプロセッサのプロセッサ識別子を前記リング状に連鎖する複数のプロセッサのプロセッサ識別子から除外して前記割り当て手段に供給する変更手段を
有することを特徴とするマルチプロセッサシステム。
(付記4)
付記3記載のマルチプロセッサシステムにおいて、
前記送信手段は、障害復旧を検出したプロセッサのプロセッサ識別子を送信し、
前記変更手段は、前記送信手段から送信された前記障害復旧を検出されたプロセッサのプロセッサ識別子を前記リング状に連鎖する複数のプロセッサのプロセッサ識別子に追加して前記割り当て手段に供給する
ことを特徴とするマルチプロセッサシステム。
(付記5)
付記2乃至4のいずれか1項記載のマルチプロセッサシステムにおいて、
前記割り当て手段は、前記複数のプロセッサが複数のグループそれぞれでリング状に連鎖するよう前記複数のプロセッサそれぞれに設定する次プロセッサ識別子を割り当てる
ことを特徴とするマルチプロセッサシステム。
(付記6)
複数のプロセッサを相互に接続するマルチプロセッサシステムの障害検出方法において、
各プロセッサからアクセスされてプロセッサ識別子を書き込まれる順序明示領域を有する共通保持手段を設け、
各プロセッサは、自プロセッサ識別子と自プロセッサとは異なる所定のプロセッサ識別子を保持しており、
プロセッサ毎に所定アクセス周期で前記順序明示領域の内容を読み出し、
前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子であるとき自プロセッサに保持する所定のプロセッサ識別子を前記順序明示領域に書き込み、
前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子でないとき自プロセッサの所定アクセス周期を待機期間に加算し、
前記待機期間が所定値を超えたとき前記前記順序明示領域から読み出したプロセッサ識別子に対応するプロセッサの障害を検出する、
ことを特徴とする障害検出方法。
(付記7)
付記6記載の障害検出方法において、
前記複数のプロセッサそれぞれに保持する自プロセッサ識別子と所定のプロセッサ識別子は、前記複数のプロセッサがリング状に連鎖するよう割り当てる
ことを特徴とする障害検出方法。
(付記8)
付記7記載の障害検出方法において、
前記障害を検出されたプロセッサのプロセッサ識別子を前記リング状に連鎖する複数のプロセッサのプロセッサ識別子から除外して前記複数のプロセッサがリング状に連鎖するよう割り当てる
ことを特徴とする障害検出方法。
(付記9)
付記8記載の障害検出方法において、
障害復旧を検出したプロセッサのプロセッサ識別子を前記リング状に連鎖する複数のプロセッサのプロセッサ識別子に追加して前記複数のプロセッサがリング状に連鎖するよう割り当てる
ことを特徴とする障害検出方法。
(付記10)
付記7乃至9のいずれか1項記載の障害検出方法において、
前記複数のプロセッサが複数のグループそれぞれでリング状に連鎖するよう前記複数のプロセッサそれぞれに設定する所定のプロセッサ識別子を割り当てる
ことを特徴とする障害検出方法。
【符号の説明】
【0052】
11−1〜11−n コア
12 内部バス
13 共有メモリ
14 順序明示領域
15 運転管理装置
21 無線装置制御部
22 無線装置
23 ハイウェイ部
24 制御管理部
25 ベースバンド処理部
26 アンテナ制御部
31 監視処理部
32 相互監視情報格納部
33 相互監視部
34 障害通知送信部
35 再開処理部
41 グループ管理情報格納部
42 相互監視情報計算部
43 障害管理部
44 障害通知受信部
45 復旧処理部
46 グループ管理情報変更部
50 グループ管理情報設定部


【特許請求の範囲】
【請求項1】
複数のプロセッサを相互に接続するマルチプロセッサシステムにおいて、
各プロセッサからアクセスされてプロセッサ識別子を書き込まれる順序明示領域を有する共通保持手段と、
各プロセッサは、
自プロセッサ識別子と自プロセッサとは異なる所定のプロセッサ識別子を保持する保持手段と、
プロセッサ毎に所定アクセス周期で前記順序明示領域の内容を読み出す読み出し手段と、
前記読み出し手段で前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子であるとき自プロセッサの前記保持手段に保持する所定のプロセッサ識別子を前記順序明示領域に書き込む書き込み手段と、
前記読み出し手段で前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子でないとき自プロセッサの所定アクセス周期を待機期間に加算する加算手段と、
前記待機期間が所定値を超えたとき前記前記順序明示領域から読み出したプロセッサ識別子に対応するプロセッサの障害を検出する検出手段と、
を有することを特徴とするマルチプロセッサシステム。
【請求項2】
請求項1記載のマルチプロセッサシステムにおいて、
前記複数のプロセッサがリング状に連鎖するよう前記複数のプロセッサそれぞれに設定する自プロセッサ識別子と所定のプロセッサ識別子を割り当てる割り当て手段を持つ運転管理装置を
有することを特徴とするマルチプロセッサシステム。
【請求項3】
請求項2記載のマルチプロセッサシステムにおいて、
各プロセッサは、
障害を検出したプロセッサのプロセッサ識別子を送信する送信手段を有し、
前記運転管理装置は、
前記送信手段から送信された前記障害を検出されたプロセッサのプロセッサ識別子を前記リング状に連鎖する複数のプロセッサのプロセッサ識別子から除外して前記割り当て手段に供給する変更手段を
有することを特徴とするマルチプロセッサシステム。
【請求項4】
請求項3記載のマルチプロセッサシステムにおいて、
前記送信手段は、障害復旧を検出したプロセッサのプロセッサ識別子を送信し、
前記変更手段は、前記送信手段から送信された前記障害復旧を検出されたプロセッサのプロセッサ識別子を前記リング状に連鎖する複数のプロセッサのプロセッサ識別子に追加して前記割り当て手段に供給する
ことを特徴とするマルチプロセッサシステム。
【請求項5】
請求項2乃至4のいずれか1項記載のマルチプロセッサシステムにおいて、
前記割り当て手段は、前記複数のプロセッサが複数のグループそれぞれでリング状に連鎖するよう前記複数のプロセッサそれぞれに設定する所定のプロセッサ識別子を割り当てる
ことを特徴とするマルチプロセッサシステム。
【請求項6】
複数のプロセッサを相互に接続するマルチプロセッサシステムの障害検出方法において、
各プロセッサからアクセスされてプロセッサ識別子を書き込まれる順序明示領域を有する共通保持手段を設け、
各プロセッサは、自プロセッサ識別子と自プロセッサとは異なる所定のプロセッサ識別子を保持しており、
プロセッサ毎に所定アクセス周期で前記順序明示領域の内容を読み出し、
前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子であるとき自プロセッサに保持する所定のプロセッサ識別子を前記順序明示領域に書き込み、
前記順序明示領域から読み出したプロセッサ識別子が前記自プロセッサ識別子でないとき自プロセッサの所定アクセス周期を待機期間に加算し、
前記待機期間が所定値を超えたとき前記前記順序明示領域から読み出したプロセッサ識別子に対応するプロセッサの障害を検出する、
ことを特徴とする障害検出方法。
【請求項7】
請求項6記載の障害検出方法において、
前記複数のプロセッサそれぞれに保持する自プロセッサ識別子と所定のプロセッサ識別子は、前記複数のプロセッサがリング状に連鎖するよう割り当てる
ことを特徴とする障害検出方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2011−107910(P2011−107910A)
【公開日】平成23年6月2日(2011.6.2)
【国際特許分類】
【出願番号】特願2009−261270(P2009−261270)
【出願日】平成21年11月16日(2009.11.16)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】