説明

光パス設定方法および光情報通信システム

【課題】光パス設定のサービス差別化と波長(光パス)有効利用が図れ、実環境で使用できる、複数のオンデマンドでの光パス設定方法と光情報通信システムを提供する。
【解決手段】光パス設定テーブルやリンク情報は、光パスが設定される場合に得られる報酬をサービスクラス毎に設定し、かつ、光パス設定が失敗したときのコストを設定し、報酬およびコストから導出した報酬関数が最大になるように各クラスの光パス設定要求の受け入れ可否を決定して、送信ノードにおける現在のリンク状態から次のリンク状態への最適行動を、報酬関数に基づき強化学習アルゴリズムを用いて導出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、光パスを用いてデータ伝送を行うWDM(Wavelength Division Multiplexing;波長分割多重)ネットワークの光パス設定方法の技術に関するものである。
【背景技術】
【0002】
WDM技術を用いた光ネットワークでは、送受信ノード間に設定された波長(光パス)を用いてデータ伝送する。近年、各ユーザがインターネット上で伝送するデータ量は劇的に増加しており、将来的には各ユーザが1ギガビット/秒程度のデータを伝送することが想定され、オンデマンドで光パスを設定して大容量データを伝送する利用方法の検討が進められている。
【0003】
オンデマンドでの光パス設定においては、利用料金に応じた複数の光パス設定サービスをユーザに提供するべく、各サービスクラスが設定できる最大光パス数を事前に決定する方法が研究されている(例えば、特許文献1、特許文献2を参照。)。
最大光パス数を事前に決定する方法では、高優先クラスの最大光パス設定数を低優先クラスの最大光パス設定数よりも多くするやり方が行われている。しかし、このやり方では、空き波長が多数存在する場合でも、低優先クラスは決められた光パス設定数以上の光パスを設定することができないため、高優先クラスの光パス設定要求頻度が低優先クラスの光パス設定要求頻度よりも少ない場合には波長利用率が低下し、波長資源が有効利用できないといった問題点がある。
【0004】
かかる問題を解決するため、マルコフ決定過程(MDP:Markov Decision Process)を用いた方法が提案されている。このマルコフ決定過程を用いた方法は、光パスの設定状況に応じて、どのクラスの光パス設定要求を受け入れるべきかを事前に決定するものである。すなわち、マルコフ決定過程によって各ノードがとるべき最適行動を導出し、各ノードは導出された最適行動に従って光パス設定の受け入れ可否を決定する。ここで、最適行動は、マルコフ決定過程において報酬関数に依存するものである。しかし、マルコフ決定過程を用いた方法では、送受信ノード間に設定された波長(光パス)数が大きくなると、報酬関数が収束しないことから、実環境での利用、すなわち、ネットワーク規模が大きくなった場合の利用に困難であるといった問題がある。また、ネットワーク全体のトポロジ情報や各リンク内の波長数などの情報が必要であり、分散環境では使用することができない.
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−279767号公報
【特許文献2】特開2008−17256号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述したように、ユーザがオンデマンドで光パスを設定して大容量データを伝送する利用方法において、従来技術では、サービスの差別化を重要視しすぎたり、柔軟性にかけるといった点から波長資源(光パスのチャネル資源)が有効利用できないといった問題点や、ネットワーク規模が大きくなった場合に使用する計算法が利用できないといった問題点があった。
また、従来の方法では、ネットワークトポロジーや使用可能な波長数、トラヒック情報などの収集可能な情報を活用して、光パスを設定することができなかった。
【0007】
上記状況に鑑みて、本発明は、光パス設定のサービス差別化と波長(光パス)有効利用が図れ、実環境で使用できる、複数のオンデマンドでの光パス設定方法と光情報通信システムを提供することを目的とする。
【0008】
また、本発明は、ネットワークトポロジーやトラヒック情報など収集可能な情報を活用し得る光パス設定方法を提供することを目的とする。また、ネットワークトポロジーやトラヒック情報などが得られない分散環境においても、同様の効果を提供できることを目的とする.
さらに、本発明は、ネットワーク上の各ノードの波長変換機能に制限がある場合にも適用できる。
【課題を解決するための手段】
【0009】
上記目的を達成すべく、本発明の第1の観点の光パス設定方法は、波長分割多重ネットワークにおける送信ノードから受信ノードへの複数のサービスクラスを有する光パス設定方法であって、各ノードには光パスが設定される場合に得られる報酬をサービスクラス毎に設定し、かつ、光パス設定が失敗したときのコストを設定し、報酬およびコストから導出した報酬関数を使用してQ関数を更新し、現在の状態に対する各行動のQ値が最大となるように各クラスの光パス設定要求の受け入れ可否を決定して、送信ノードにおける現在のリンク状態から次のリンク状態へのQ関数を報酬関数に基づき更新する構成とされる。
【0010】
かかる構成によれば、WDM技術を用いた光ネットワークにおいて、サービス品質の異なる複数のオンデマンド光パス設定サービスをユーザに提供でき、かつ、限られた波長資源を有効利用できる。
本発明では、WDM技術を用いた光ネットワークにおいて、強化学習を利用して光パスを設定する点が特徴である。具体的には、各ノードには光パスが設定される場合に得られる報酬をサービスクラス毎に設定し、また光パス設定が失敗したときのコストも設定し、これらの報酬から導出した報酬関数が最大になるように、各クラスの光パス設定要求の受け入れ可否を決定する。また、この最適な光パス設定の行動(最適行動)は、ネットワークの情報が得られる集中管理環境であれば、擬似ネットワーク環境下でモンテカルロシミュレーション等を事前に行うことによって獲得することができる。ネットワークの情報が全く得られず各ノードは隣接するリンクの波長数と提供すべきサービスクラス数しかわからない分散環境であれば、実際に運用してサービスを提供しながら徐々に最適行動を学習し獲得する。獲得した最適行動により、各ノードはグローバルな光パス設定情報を使用することなく、複数の品質の光パス設定サービスを提供しながら波長の有効利用が可能となるのである。
また、強化学習を用いることにより、マルコフ決定過程(MDP)のように、送受信ノード間に設定された波長(光パス)数が大きくなると、報酬関数が収束しないという問題がなく、使用可能な波長数が例えば10以上といった実環境での利用が可能となる。
【0011】
ここで、上記のリンク状態は、具体的には、光パス設定要求到着イベントを単位とする離散時間を考えた場合に、時刻(t)におけるクラス数Mのサービスクラスiの光パス設定数N(t)と、前回時刻(t−1)の光パス設定要求に対する受け入れ結果I(t−1)を用いて、下記数1で定義される。
【0012】
(数1)
t=(N(t),N(t),・・・,N(t),I(t−1))
【0013】
また、上記の報酬関数は、具体的には、現在のリンク状態stから行動atを取って、次のリンク状態s(t+1)=(N(t+1),N(t+1),・・・,N(t+1),I(t))へ遷移した時に、下記数2で定義される。なお、パラメータ変数Rは0以上1以下の値を取り、i<jの時Rj<Riとなり、パラメータCは0より大きい値を取り、パラメータ変数βは0以上1以下の値をとる。
【0014】
(数2)
t+1=β(R(t)+R(t)+・・・+R(t))−(1−β)CI(t) (但し、0<R<RM−1<・・・<R<・・・<R<R<=1,0<=β<=1,0<C)
【0015】
そして、報酬関数を基づいて、状態stに対する行動atの行動価値関数(Q関数)は下記数3で定義され、状態stに対して最も大きなQ値を持つ行動atを最適行動として光パス設定の受け入れ可否が決定される。
【0016】
(数3)
Q(st,at)← Q(st,at)+α[rt+1+γmaxQ(st+1,a)−Q(st,at)] (但し、0<α<=1,0<=γ<1)
【0017】
リンク状態および報酬関数を上記の定義とすることにより、サービスクラスに応じて光パスの設定のしやすさを変化でき、かつ、空き波長はできるだけ有効利用することが可能になる。
ここで、パラメータ変数Rは、各ノードには光パスが設定される場合に得られる報酬をサービスクラス毎に設定したものであり、またパラメータ変数Cは、光パス設定が失敗したときの設定コストである。パラメータ変数βを用いることで、光パス設定のサービス差別化と波長(光パス)有効利用が図れることになる。
【0018】
さらに、パラメータαは学習率であり、α=0のときは学習ができないので除外され、α=1のときは最新の情報だけを考慮する。パラメータγは割引率であり、過去の情報がどの程度影響するかを示している。パラメータγ=0のときは現在の報酬だけを考慮し、γ=1のときは過去の情報を長期間考慮しすぎるため除外される。
【0019】
また、上記の強化学習アルゴリズムは、ネットワークトポロジーやノード数,使用可能な波長数,トラヒック情報などが把握可能な集中管理環境の下では、
1)少なくともネットワークトポロジー,ノード数,使用可能な波長数,各クラスの平均光パス設定要求間隔,各クラスの平均光パス使用時間が与えられた擬似ネットワーク環境を構築するステップと、
2)擬似ネットワーク環境上で、疑似的に各クラスの光パス設定要求イベントと光パス使用終了イベントを発生させるステップと、
3)各ノードが状態sに応じた行動aをとりながら、Q値を更新していくステップと、
4)その都度変更された最適行動ペア(s,a)に従って光パス設定要求の受け入れ可否を決定していくステップと、
を備えた構成とされる。
【0020】
疑似ネットワーク環境下で、光パス設定要求イベント間隔と各クラスの平均光パス使用時間を基に、実際に光パスの設定要求イベントと光パス使用終了イベントを発生させる。この場合に、各ノードのリンク状態の初期値sを(0,0,0,0,…,0)とし、各リンク状態sに対する行動aをランダムに与えておく。そのようにすることにより、各ノードは、到着イベントが発生すると、リンク状態s=(0,0,0,…,0)に対する行動aに従って発生した光パス設定要求に対する行動aを実際に実行する。十分な学習が行われると各リンク状態sに対する最適な行動aが導出され、サービスの差別化と波長の有効利用が実現されることになる。
【0021】
次に、本発明の第2の観点の光パス設定方法は、波長分割多重ネットワークにおける送信ノードから受信ノードへの複数のサービスクラスを有する光パス設定を行う光パス設定方法であって、
1)各ノードに対して、光パスが設定される場合に得られる報酬をサービスクラス毎に設定し、また、光パス設定が失敗したときのコストを設定するステップと、
2)自ノードに隣接するリンクの波長数とサービスクラス数を設定するステップと、
3)光パス設定要求イベント又は光パス使用終了イベントが発生した場合に、リンク状態に応じた行動をとりながら、行動価値関数(Q関数)のQ値を更新していくステップと、
4)光パス設定要求イベントが発生した場合に、リンク状態と行動の最適行動ペアに従って、光パス設定要求イベントの受け入れ可否を決定していくステップと、を備えたことを特徴とする。
【0022】
また、本発明の光パス設定プログラムは、
波長分割多重ネットワークにおける送信ノードから受信ノードへの複数のサービスクラスを有する光パス設定を行うプログラムであって、
各ノードのコンピュータに、
1)光パスが設定される場合に得られる報酬をサービスクラス毎に設定し、また、光パス設定が失敗したときのコストを設定するステップと、
2)自ノードに隣接するリンクの波長数とサービスクラス数を設定するステップと、
3)光パス設定要求イベント又は光パス使用終了イベントが発生した場合に、リンク状態に応じた行動をとりながら、行動価値関数(Q関数)のQ値を更新していくステップと、
4)光パス設定要求イベントが発生した場合に、リンク状態と行動の最適行動ペアに従って、光パス設定要求イベントの受け入れ可否を決定していくステップと、
を実行させるものである。
【0023】
上記の第2の観点の光パス設定方法または上記の光パス設定プログラムによれば、疑似シミュレーションを全く行わずとも、最終的に最適な行動aを見つけることができる。
すなわち、疑似シミュレーションを全く行わずとも、上記の本発明の光パス設定プログラムを備えた光スイッチを波長分割多重ネットワークに置き、隣接するリンクの波長数と差別化すべきクラス数だけが分かっている状態(すなわちリンク状態sと行動aの取りうる範囲だけがわかっている状態)で、実際に光パス設定要求イベントと光パス使用終了イベントが発生したら、状態sに応じた行動aを行ってQ値を更新し、それに応じて状態sに対してとるべき行動aも変更されていくことで、最終的に最適な行動aが見つかるということになるのである。
なお、リンク状態sやQ値については、上述の本発明の第1の観点の光パス設定方法の説明と同様であるので、説明は省略する。
【0024】
本発明の光スイッチは、上記本発明のプログラムを搭載し、波長分割多重ネットワークにおける送信ノードから受信ノードへの複数のサービスクラスを有する光パス設定を行うものである。
本発明の光パス設定プログラムおよび本プログラムを搭載した光スイッチによれば、他のノードの情報が全く必要なく、分散環境で使用できるというメリットを有する。
【0025】
なお、本発明の光パス設定プログラムや光スイッチに対して、ネットワークトポロジーなどが既知の場合、疑似シミュレーションを用いて、ある程度学習させておいた値を初期値データとして使用させることでもかまわない。かかる場合、本発明の光パス設定プログラムや光スイッチに対して、ネットワークに導入して使用しながら追加の学習をさせることになる。
【0026】
また、本発明の光情報通信システムは、複数のサービスクラスを有する波長分割多重ネットワークにおける各ノードが、光送信手段と、光受信手段と、光電気変換手段と、電気光変換手段と、演算手段と、記憶手段を備え、記憶手段は、上述の光パス設定方法により設定されたリンク状態と最適行動のテーブル情報が記憶されており、演算手段は、サービスクラスiの光パス設定要求を受信した場合、テーブル情報を用いて、現在のリンク状態に対応した最適行動に従って、光パス設定要求を棄却するか否かを判別し、Q関数を用いた各状態に対する各行動のQ値を更新する構成とされる。
【0027】
ここで、上記の演算手段は、ネットワークトポロジー,ノード数,使用可能な波長数、各クラスの平均光パス設定要求間隔,各クラスの平均光パス使用時間に基づいて、テーブル情報をオンラインで生成することを特徴とする。
【0028】
また、上記の光情報通信システムは、サービス差別化と波長利用効率化の均衡を図る報酬関数のパラメータを調整できるパラメータ調整手段を更に備えた構成とされる。
【発明の効果】
【0029】
本発明の光パス設定方法ならびに光情報通信システムによれば、光パス設定のサービス差別化と波長(光パス)有効利用が図れ、実環境で使用できるといった効果を有する。
【図面の簡単な説明】
【0030】
【図1】WDMネットワークの説明図
【図2】WDMネットワークにおける光パス設定の説明図
【図3】WDMネットワークにおける各ノードの概略構成図
【図4】強化学習アルゴリズムの処理フロー図
【図5−1】実施例1の光パス設定の説明図(1)
【図5−2】実施例1の光パス設定の説明図(2)
【図6】実施例1の光パス設定の場合における棄却率を示すグラフ
【図7】実施例1の光パス設定の場合における棄却率を示すグラフ(パラメータγを横軸)
【図8】実施例1の光パス設定の場合における棄却率を示すグラフ(パラメータαを横軸)
【図9】実施例1の光パス設定の場合における棄却率を示すグラフ(波長数を横軸)
【発明を実施するための最良の形態】
【0031】
以下、本発明の実施形態について、図面を参照しながら詳細に説明していく。なお、本発明の範囲は、以下の実施例や図示例に限定されるものではなく、幾多の変更及び変形が可能である。
【0032】
図1に示すように、従来の光ネットワークが1本の光ファイバで1波長を使用してデータ伝送するものであるのに対し、WDMネットワークは、1本の光ファイバで複数の波長を多重化して数倍のデータ量を伝送でき通信を行う送受信ノード間(送信ノードと受信ノードの間)に複数波長のうち,他の送受信ノード間で使用されていない1以上の波長を割り当てることで、各送受信ノード間で伝送波長を占有して大容量データ伝送を実現するものであり、波長の使用終了後はただちに他のノードが使用できるようにして光ファイバの帯域を有効活用するものである。
【0033】
WDMネットワークでは、波長(光パス)を効率的に利用して光パスの確保の公平性を図るために、各ノードが自律的に波長(光パス)を選択し、送受信ノード間で物理的な通信チャネルである光パスを確保することが望ましいとされている。
【0034】
図2に示すようなWDMネットワークにおける光パス設定では、送信側コンピュータから受信側コンピュータに大容量データを送信する場合、先ず、送信側コンピュータ(ユーザ)から光パスの設定要求を行い、WDMネットワーク内の空き波長を使用して光パスを設定してから、データ伝送を行う。もし、空き波長がなければ光パスの設定に失敗することとなり、データ伝送は行わない。データ伝送を行う際は、送信側コンピュータと受信側コンピュータの間で1波長の帯域を占有することになる。
【0035】
ここで、図2に示す各ノードの概略構成について、図3を参照して説明する。WDMネットワークの光ファイバ11を介する信号は、分波/多重器(12,13)で分波または多重化される。分波された光は、光スイッチ14で、光信号の伝搬する物理チャネルが切り換えられる。光スイッチ14は、制御器15で制御されるものである。この制御器15は、光または電気チャネル8を介して送られてくるノード制御信号を、トランシーバ18を用いて受信する。また、制御器15は、メモリ16に蓄積された光パス設定テーブルやリンク情報などを参照して、光パス設定を行う。
【0036】
次に、各ノードの制御器15が参照するメモリ16に蓄積された光パス設定テーブルやリンク情報について、以下に説明する。
本発明においては、光パス設定テーブルやリンク情報は、光パスが設定される場合に得られる報酬をサービスクラス毎に設定し、かつ、光パス設定が失敗したときのコストを設定し、報酬およびコストから導出した報酬関数が最大になるように各クラスの光パス設定要求の受け入れ可否を決定して、送信ノードにおける現在のリンク状態から次のリンク状態への最適行動を、報酬関数に基づき強化学習アルゴリズムを用いて導出することとしている。
【0037】
各ノードにおける時刻tのリンク状態sは、s=(N(t),N(t),・・・,N(t),I(t−1))と定義する。
ここで、Mはサービスクラス数であり、N(t)は時刻tにおけるサービスクラスiの光パス設定数であり、I(t−1)は前回の光パス設定要求に対する受け入れ結果(失敗したら1、成功したら0)である。このIは、光パス設定が失敗したときのコストとなる。すなわち、後述する報酬関数において、Iに重み係数を乗算したものを減算して報酬を求めることとしており、光パス設定要求に失敗したら報酬が少なくなるようになっている。
また、現在のリンク状態stから行動aを取って、次の時刻t+1にリンク状態st+1へ遷移した場合、リンク状態st+1は、st+1=(N(t+1),N(t+1),・・・,N(t+1),I(t))と定義する。
【0038】
ここで、行動aは、Mのサービスクラスのうち、どのサービスクラスの光パス要求を受け入れ光パスを設定し、どのサービスクラスの光パス要求を棄却し光パスを設定しないかを示すものである。
サービスクラスがMある場合、取り得る行動aは、(2−1)通り存在する。例えば、サービスクラスが3の場合、取り得る行動aは以下の7通り存在する。
【0039】
1)サービスクラス1の光パス設定要求のみ受け入れる。
2)サービスクラス2の光パス設定要求のみ受け入れる。
3)サービスクラス3の光パス設定要求のみ受け入れる。
4)サービスクラス1とサービスクラス2の光パス設定要求のみ受け入れる。
5)サービスクラス2とサービスクラス3の光パス設定要求のみ受け入れる。
6)サービスクラス1とサービスクラス3の光パス設定要求のみ受け入れる。
7)全サービスクラス1,2,3の光パス設定要求を受け入れる。
【0040】
そして、報酬関数は、下記数4で定義される。この報酬関数を用いて、状態sで行動aを取り、状態がst+1へ遷移したときの報酬が算出できる。
ここで、パラメータ変数Rは、各ノードには光パスが設定される場合に得られる報酬をサービスクラス毎に設定したものであり、またパラメータ変数Cは、光パス設定が失敗したときの設定コストである。パラメータ変数βを用いることで、光パス設定のサービス差別化と波長(光パス)有効利用が図れることになる。パラメータ変数βの値が小さくなるにつれて、波長有効利用に対する重みが増加し、サービスの差別化が提供されにくくなる一方、波長を有効利用できるようになる。なお、パラメータ変数Rおよびパラメータ変数βは、1以下の正の値をとり、Cは正の値をとる。
【0041】
(数4)
t+1=β(R(t)+R(t)+・・・+R(t))−(1−β)CI(t)
【0042】
そして、強化学習アルゴリズムは、図4のフロー図に示すように、
(ステップ1)少なくともネットワークトポロジー,ノード数,使用可能な波長数,各クラスの平均光パス設定要求間隔,各クラスの平均光パス使用時間が与えられた擬似ネットワーク環境を構築するステップ
(ステップ2)擬似ネットワーク環境上で、擬似的に各クラスの光パス設定要求イベントと光パス使用終了イベントを発生させるステップ
(ステップ3)各ノードがリンク状態sに応じた行動aをとりながら、Q値を更新していくステップ
(ステップ4)その都度変更されるリンク状態sと行動aの最適行動ペア(s,a)に従って、光パス設定要求の受け入れ可否を決定していくステップ
から成る。
【0043】
各ノードの制御器またはノードとは別個独立のコンピュータ上で、光ネットワークのネットワークトポロジー,ノード数,使用可能な波長数,各クラスの平均光パス設定要求間隔,各クラスの平均光パス使用時間が与えられた模擬ネットワーク環境を構築して、モンテカルロシミュレーションを実行して、報酬関数の値を算出する。
【0044】
最後に、ステップ5として、報酬関数の値が最大となる最適行動ペア(s,a)に基づいて、リンク状態と最適行動の光パス設定テーブル情報を生成し、リンク状態と最適行動の光パス設定テーブル情報として各ノードのメモリ16に記憶させるのである。
各ノードでは、サービスクラスiの光パス設定要求を受信した場合、メモリ16に記憶された光パス設定テーブル情報を用いて、現在のリンク状態に対応した最適行動に従って、光パス設定要求を棄却するか否かを判別することとなる。
【0045】
上記の光パス設定方法ならびに光情報通信システムによれば、光パス設定のサービス差別化と波長(光パス)有効利用が図れ、実環境で使用できることになる。以下に、具体的な実施例を通じて説明する。
【実施例1】
【0046】
図5−1および図5−2は、ノード数が3の光ネットワークトポロジーの光パス設定の様子を示している。ここでは、サービスクラス数が3で、波長数が8の場合を想定している。
図5−1において、ノードBの時刻tにおける状態sは、(2,3,1,0)であり、2つの空き波長が存在している。この状態で、ノードAからノードCへサービスクラス2のデータ伝送要求が発生した場合を考える。状態s=(2,3,1,0)に対する最適行動aが“サービスクラス1とサービスクラス2の光パス設定要求のみ受け入れる”といった行動であるならば、サービスクラス2の光パス設定要求は受け入れされて、状態sは状態st+1=(2,4,1,0)に遷移することになる(光パス設定は成功)。
【0047】
次に、図5−2において、状態st+1で、ノードAからノードCへサービスクラス2のデータ伝送要求が発生した場合、状態st+1=(2,4,1,0)に対する最適行動at+1が“サービスクラス1の光パス設定要求のみ受け入れる”といった行動であるならば、サービスクラス2の光パス設定要求は受け入れられずに、状態st+1=(2,4,1,1)に遷移することになる(光パス設定は失敗)。
【0048】
次に、ノードAからノードCへの光パス設定を行う場合に、中継ノードBにおけるノードAからの光パス設定要求に対する棄却率について、従来の光パス設定方法と本発明の光パス設定方法を比較する。従来の光パス設定方法には、各クラスが設定可能な光パス数を固定した方式を用いている。波長数は8で、サービスクラス数は3としている。
また、Q関数のαは0.1、γは0.95、報酬関数のCが1.0で、R,R,Rは、0.05から1.0まで、0.05刻みで変化させることにした。但し、R<R<Rで、β=0.1である。
また、ユーザの要求として、サービスクラスiの失敗確率は、ζi以下としている。ξ1=0.4,ξ2=0.9,ξ3=1.0である。
【0049】
図6は、光パス設定の場合における棄却率を示すグラフを示している。従来の光パス設定方法と比較して、本発明の光パス設定方法では、サービスクラス1もサービスクラス2も棄却率が低減されており、サービスの差別化と波長の有効利用が更に改善されていることが理解できる。
【0050】
また、図7は、波長数が6,クラス数が3,Q関数のαが0.1、報酬関数のCが1.0で、R=0.8,R=0.4,R=0.2で、β=0.1の時に、パラメータγを横軸にとって、本発明の光パス設定方法を用いた場合の各クラスの棄却率を示している。
図7に示されるように、γが0.65より大きくなると学習によりサービスの差別化が実現できている。このことから、本発明の光パス設定方法の性能は、パラメータγの影響を受けることが理解できる。
【0051】
また、図8は、波長数が6,クラス数が3,Q関数のγが0.95、報酬関数のCが1.0で、R=0.8,R=0.4,R=0.2で、β=0.1の時に、パラメータαを横軸にとって、本発明の光パス設定方法を用いた場合の各クラスの棄却率を示している。
図8に示されるように、αが0から0.1に変化すると、サービスの差別化がより有効になっている。またαが1.0に近づくと棄却率の差が小さくなる。従って、本発明の光パス設定方法の性能はパラメータαの影響を受けることが理解できる。
【0052】
また、図9は、クラス数が3で、Q関数のγが0.95で、αが0.1、報酬関数のCが1.0で、R=0.8,R=0.4,R=0.2で、β=0.1の時に、波長数を横軸にとって、本発明の光パス設定方法を用いた場合の各クラスの棄却率を示している。
図9に示されるように、本発明の光パス設定方法を用いると波長数が100の時にでも利用可能であることがわかり、先行研究のマルコフ決定過程の方式よりも有効である。
【産業上の利用可能性】
【0053】
本発明は、遠隔医療や高精細動画ストリーミング,グリッドコンピューティングへの利用が期待される。
【符号の説明】
【0054】
1 光ファイバ
2 送信側コンピュータ
3 受信側コンピュータ
4 データ
5 光パス
7 光ネットワーク
8 ノード
11 光ファイバ
12、13 分波/多重器
14 光スイッチ
15 制御器
16 メモリ
17 トランシーバ
18 光または電気チャネル
21 光パス設定情報テーブル
22 リンク状態情報テーブル

【特許請求の範囲】
【請求項1】
波長分割多重ネットワークにおける送信ノードから受信ノードへの複数のサービスクラスを有する光パス設定方法であって、
各ノードには光パスが設定される場合に得られる報酬をサービスクラス毎に設定し、かつ、光パス設定が失敗したときのコストを設定し、
前記報酬およびコストから導出した報酬関数が最大になるように各クラスの光パス設定要求の受け入れ可否を決定して、
前記送信ノードにおける現在のリンク状態から次のリンク状態への最適行動を、報酬関数に基づき強化学習アルゴリズムを用いて導出することを特徴とする光パス設定方法。
【請求項2】
前記リンク状態は、
光パス設定要求到着イベントを単位とする離散時間tを導入し、
時刻(t)におけるクラス数Mのサービスクラスiの光パス設定数N(t)と、前回時刻(t−1)の光パス設定要求に対する受け入れ結果I(t−1)を用いて、下記数1で定義され、
前記報酬関数は、現在のリンク状態sから行動aを取って、次のリンク状態st+1へ遷移した時に、下記数2で定義され、
前記報酬関数を基づいて、下記数3で定義される行動価値関数(Q関数)から得られる状態stに対する各行動atのQ値を用いて、状態stに対して最も大きなQ値を持つ行動atを最適行動として光パス設定の受け入れ可否が決定されることを特徴とする請求項1に記載の光パス設定方法。
(数1)
t=(N(t),N(t),・・・,N(t),I(t−1))
(数2)
t+1=β(R(t)+R(t)+・・・+R(t))−(1−β)CI(t) (但し、0<R<RM−1<・・・<R<・・・<R<R<=1,0<=β<=1,0<C)
(数3)
Q(st,at)← Q(st,at)+α[rt+1+γmaxQ(st+1,a)−Q(st,at)] (但し、0<α<=1,0<=γ<1)
【請求項3】
前記強化学習アルゴリズムは、
少なくともネットワークトポロジー,ノード数,使用可能な波長数,各クラスの平均光パス設定要求間隔,各クラスの平均光パス使用時間が与えられた擬似ネットワーク環境を構築するステップと、
前記擬似ネットワーク環境上で、擬似的に各クラスの光パス設定要求イベントと光パス使用終了イベントを発生させるステップと、
各ノードが前記リンク状態sに応じた前記行動aをとりながら、前記Q値を更新していくステップと、
都度変更される前記リンク状態sと前記行動aの最適行動ペア(s,a)に従って、光パス設定要求の受け入れ可否を決定していくステップと、
を備えたものであることを特徴とする請求項2に記載の光パス設定方法。
【請求項4】
波長分割多重ネットワークにおける送信ノードから受信ノードへの複数のサービスクラスを有する光パス設定を行う光パス設定方法であって、
各ノードに対して、光パスが設定される場合に得られる報酬をサービスクラス毎に設定し、また、光パス設定が失敗したときのコストを設定するステップと、
自ノードに隣接するリンクの波長数とサービスクラス数を設定するステップと、
光パス設定要求イベント又は光パス使用終了イベントが発生した場合に、リンク状態に応じた行動をとりながら、行動価値関数(Q関数)のQ値を更新していくステップと、
光パス設定要求イベントが発生した場合に、リンク状態と行動の最適行動ペアに従って、光パス設定要求イベントの受け入れ可否を決定していくステップと、
を備えたことを特徴とする光パス設定方法。
【請求項5】
前記リンク状態は、
光パス設定要求到着イベントを単位とする離散時間tを導入し、
時刻(t)におけるクラス数Mのサービスクラスiの光パス設定数N(t)と、前回時刻(t−1)の光パス設定要求に対する受け入れ結果I(t−1)を用いて、下記数4で定義され、
前記報酬関数は、現在のリンク状態sから行動aを取って、次のリンク状態st+1へ遷移した時に、下記数5で定義され、
前記報酬関数を基づいて、下記数6で定義されるQ関数から得られる状態stに対する各行動atのQ値を用いて、状態stに対して最も大きなQ値を持つ行動atを最適行動として光パス設定の受け入れ可否が決定されることを特徴とする請求項4に記載の光パス設定方法。
(数4)
t=(N(t),N(t),・・・,N(t),I(t−1))
(数5)
t+1=β(R(t)+R(t)+・・・+R(t))−(1−β)CI(t) (但し、0<R<RM−1<・・・<R<・・・<R<R<=1,0<=β<=1,0<C)
(数6)
Q(st,at)← Q(st,at)+α[rt+1+γmaxQ(st+1,a)−Q(st,at)] (但し、0<α<=1,0<=γ<1)
【請求項6】
波長分割多重ネットワークにおける送信ノードから受信ノードへの複数のサービスクラスを有する光パス設定を行うプログラムであって、
各ノードのコンピュータに、
光パスが設定される場合に得られる報酬をサービスクラス毎に設定し、また、光パス設定が失敗したときのコストを設定するステップと、
自ノードに隣接するリンクの波長数とサービスクラス数を設定するステップと、
光パス設定要求イベント又は光パス使用終了イベントが発生した場合に、リンク状態に応じた行動をとりながら、行動価値関数(Q関数)のQ値を更新していくステップと、
光パス設定要求イベントが発生した場合に、リンク状態と行動の最適行動ペアに従って、光パス設定要求イベントの受け入れ可否を決定していくステップと、
を実行させるための光パス設定プログラム。
【請求項7】
前記リンク状態は、
光パス設定要求到着イベントを単位とする離散時間tを導入し、
時刻(t)におけるクラス数Mのサービスクラスiの光パス設定数N(t)と、前回時刻(t−1)の光パス設定要求に対する受け入れ結果I(t−1)を用いて、下記数7で定義され、
前記報酬関数は、現在のリンク状態sから行動aを取って、次のリンク状態st+1へ遷移した時に、下記数8で定義され、
前記報酬関数を基づいて、下記数9で定義されるQ関数から得られる状態stに対する各行動atのQ値を用いて、状態stに対して最も大きなQ値を持つ行動atを最適行動として光パス設定の受け入れ可否が決定されることを特徴とする請求項6に記載の光パス設定プログラム。
(数7)
t=(N(t),N(t),・・・,N(t),I(t−1))
(数8)
t+1=β(R(t)+R(t)+・・・+R(t))−(1−β)CI(t) (但し、0<R<RM−1<・・・<R<・・・<R<R<=1,0<=β<=1,0<C)
(数9)
Q(st,at)← Q(st,at)+α[rt+1+γmaxQ(st+1,a)−Q(st,at)] (但し、0<α<=1,0<=γ<1)
【請求項8】
請求項3に記載の強化学習アルゴリズムの光パス設定方法により得られた最適行動ペア(st,at)を初期値として設定するステップを、更に備えたことを特徴とする請求項6に記載の光パス設定プログラム。
【請求項9】
波長分割多重ネットワークにおける送信ノードから受信ノードへの複数のサービスクラスを有する光パス設定を行う光スイッチであって、
請求項6〜8のいずれかに記載のプログラムを搭載した光スイッチ。
【請求項10】
複数のサービスクラスを有する波長分割多重ネットワークにおける各ノードが、光送信手段と、光受信手段と、光電気変換手段と、電気光変換手段と、演算手段と、記憶手段を備え、
前記記憶手段は、請求項1〜5のいずれかに記載の光パス設定方法により設定された前記リンク状態と前記最適行動のテーブル情報が記憶されており、
前記演算手段は、サービスクラスiの光パス設定要求を受信した場合、前記テーブル情報を用いて、現在のリンク状態に対応した最適行動に従って、前記光パス設定要求を棄却するか否かを判別し、前記Q関数を用いた各状態に対する各行動の前記Q値を更新する、
ことを特徴とする光情報通信システム。
【請求項11】
前記演算手段は、ネットワークトポロジー,ノード数,使用可能な波長数、各クラスの平均光パス設定要求間隔,各クラスの平均光パス使用時間に基づいて、前記テーブル情報をオンラインで生成することを特徴とする請求項10に記載の光情報通信システム。
【請求項12】
サービス差別化と波長利用効率化の均衡を図る前記報酬関数のパラメータを調整できるパラメータ調整手段を更に備えたことを特徴とする請求項10に記載の光情報通信システム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5−1】
image rotate

【図5−2】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate