説明

周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム

【課題】マルコフ決定過程が周期性を有する場合に、既存の計算方法よりも効率的に最適施策を決定する方法、装置及びコンピュータプログラムを提供する。
【解決手段】少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する。状態空間の一部である部分空間を特定し、特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける。選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出し、算出した確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、周期性を有するマルコフ決定過程を用いて、演算処理負荷を軽減しつつ平均コストが最小となる最適施策を決定する方法、装置及びコンピュータプログラムに関する。
【背景技術】
【0002】
いわゆる「マルコフ決定過程」として定式化されている制御問題を解く方法は、ロボット、プラント、鉄道等の自律的制御問題を解決する手段として、様々な分野に適用することが可能な技術の1つである。「マルコフ決定過程」では、解決対象となる事象の時間に依存する状態遷移の制御問題を、理想とする状態遷移からの距離(コスト)を評価基準として解く。
【0003】
例えば特許文献1では、発電装置、蓄電装置、電気機器、電力ルータ他等で構成されるミニマル・クラスターのような発電、電力消費拠点において自動的な電力融通を担う電力取引管理システムが開示されており、マルコフ決定過程を用いて最適な取引施策を求めている。また、特許文献2では、被制御機器が状態遷移確率分布に従って次の状態へ遷移するマルコフ決定過程を用いた適応型制御器が開示されており、制御器を確率的制御器とすることにより、期待累積コストを計算する動的計画法、直接方策を探索する網羅的探索法等における計算量の削減を図っている。
【0004】
また、マルコフ決定過程を用いて最適施策を求める方法としては、価値反復(Value Iteration)、施策反復(Policy Iteration)、非特許文献1に開示されている、いわゆる線形計画等がある。また、マルコフ決定過程が特殊な構造を有する場合には、非特許文献2に開示されているように、特殊な構造自体を利用して最適施策を効率的に求めている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2011−022902号公報
【特許文献2】特開2005−084834号公報
【非特許文献】
【0006】
【非特許文献1】エム・エル・パターマン、マルコフ決定過程:ディスクリート ストカステック ダイナミック プログラミング、ウィリー、2005年(M.L.Puterman,Markov Decision Processes:Discrete Stochastic Dynamic Programming,Wiley,2005)
【非特許文献2】ジェイ・ランバート、ビー・ファン・フート、シー・ブロンディア、「ア ポリシー イタレーション アルゴリズム フォー マルコフ デシジョン プロセスイズ スキップフリー イン ワン ディレクション」、エスエムシーツールス、2007年(J.Lambert,B.Van Houdt, and C.Blondia,”A policy iteration algorithm for Markov decision processes skip−free in one direction“,SMCtools,2007)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、価値反復(Value Iteration)、施策反復(Policy Iteration)、線形計画等の方法では、解くことが可能な問題の規模が極めて限定的であり、一般的な問題に適用することは困難であるという問題点があった。また、非特許文献2に開示されている特殊な構造を利用する方法であっても、逆行列を算出する処理が煩雑であり、適用することが可能な問題の規模に制約があるという問題点もあった。
【0008】
本発明は斯かる事情に鑑みてなされたものであり、マルコフ決定過程が周期性を有する場合に、既存の計算方法よりも効率的に最適施策を決定する方法、装置及びコンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するために第1発明に係る方法は、少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置で実行する方法であって、状態空間の一部である部分空間を特定する工程と、特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける工程と、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する工程と、算出した確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する工程とを含む。
【0010】
また、第2発明に係る方法は、第1発明において、T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。
【0011】
また、第3発明に係る方法は、第1又は第2発明において、t番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する。
【0012】
また、第4発明に係る方法は、第1乃至第3発明のいずれか1つにおいて、T個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する。
【0013】
次に、上記目的を達成するために第5発明に係る装置は、少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置であって、状態空間の一部である部分空間を特定する部分空間特定部と、特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける選択受付部と、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出部と、算出した確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する再帰算出部とを備える。
【0014】
また、第6発明に係る装置は、第5発明において、T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。
【0015】
また、第7発明に係る装置は、第5又は第6発明において、t番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する。
【0016】
また、第8発明に係る装置は、第5乃至第7発明のいずれか1つにおいて、T個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する。
【0017】
次に、上記目的を達成するために第9発明に係るコンピュータプログラムは、少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置で実行することが可能なコンピュータプログラムであって、前記装置を、状態空間の一部である部分空間を特定する部分空間特定手段、特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける選択受付手段、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出手段、及び算出した確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する再帰算出手段として機能させる。
【発明の効果】
【0018】
本発明によれば、マルコフ決定過程が周期性を有する場合には、最適施策を求めることが可能な問題の規模を拡大することができ、従来の価値反復(Value Iteration)、施策反復(Policy Iteration)、リニアプログラミング等の方法では解くことができない問題であっても、最適施策を求めることが可能となる。
【図面の簡単な説明】
【0019】
【図1】本発明の実施の形態に係る情報処理装置の構成を模式的に示すブロック図である。
【図2】本発明の実施の形態に係る情報処理装置の機能ブロック図である。
【図3】本発明の実施の形態に係る情報処理装置のCPUの処理手順を示すフローチャートである。
【図4】本発明の実施の形態に係る情報処理装置で、マルコフ決定過程を用いて最適施策を求めた場合の演算処理時間を比較した表である。
【発明を実施するための形態】
【0020】
以下、本発明の実施の形態に係る、周期性を有するマルコフ決定過程を用いて、演算処理負荷を軽減しつつ平均コストが最小となる最適施策を決定する装置について、図面に基づいて具体的に説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。
【0021】
また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。
【0022】
以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した情報処理装置について説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、周期性を有するマルコフ決定過程に対して演算処理負荷を軽減し平均コストが最小となる最適施策を決定する装置というハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、DVD、CD、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。
【0023】
本発明の実施の形態によれば、マルコフ決定過程が周期性を有する場合には、最適施策を求めることが可能な問題の規模を拡大することができ、従来の価値反復(Value Iteration)、施策反復(Policy Iteration)、線形計画等の方法では解くことができない問題であっても、最適施策を求めることが可能となる。なお、マルコフ決定過程が周期性を有するとは、状態空間をT(Tは自然数)個の部分空間に分割することができ、どの施策を用いた場合であっても、t(tは自然数、t≦T)番目の部分空間からは(t+1)番目の部分空間にしか空間遷移しないことを意味している。ただし、(T+1)番目の部分空間は1番目の部分空間を意味するものとする。この場合、マルコフ決定過程は、長さTの周期を有すると定義し、t番目の部分空間は、時点tにおける状態空間と言い換えることもできる。
【0024】
図1は、本発明の実施の形態に係る情報処理装置の構成を模式的に示すブロック図である。本発明の実施の形態に係る情報処理装置1は、少なくともCPU(中央演算装置)11、メモリ12、記憶装置13、I/Oインタフェース14、ビデオインタフェース15、可搬型ディスクドライブ16、通信インタフェース17及び上述したハードウェアを接続する内部バス18で構成されている。
【0025】
CPU11は、内部バス18を介して情報処理装置1の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置13に記憶されたコンピュータプログラム100に従って、種々のソフトウェア的機能を実行する。メモリ12は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム100の実行時にロードモジュールが展開され、コンピュータプログラム100の実行時に発生する一時的なデータ等を記憶する。
【0026】
記憶装置13は、内蔵される固定型記憶装置(ハードディスク)、ROM等で構成されている。記憶装置13に記憶されたコンピュータプログラム100は、プログラム及びデータ等の情報を記録したDVD、CD−ROM等の可搬型記録媒体90から、可搬型ディスクドライブ16によりダウンロードされ、実行時には記憶装置13からメモリ12へ展開して実行される。もちろん、通信インタフェース17を介して接続されている外部コンピュータからダウンロードされたコンピュータプログラムであっても良い。
【0027】
通信インタフェース17は内部バス18に接続されており、インターネット、LAN、WAN等の外部のネットワークに接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。
【0028】
I/Oインタフェース14は、キーボード21、マウス22等の入力装置と接続され、データの入力を受け付ける。ビデオインタフェース15は、CRTディスプレイ、液晶ディスプレイ等の表示装置23と接続され、所定の画像を表示する。
【0029】
図2は、本発明の実施の形態に係る情報処理装置1の機能ブロック図である。図2において、情報処理装置1の部分空間特定部201は、状態空間の一部であるT(Tは自然数)個の部分空間を特定する。(式1)は、t(tは自然数、t≦T)番目の部分空間(部分空間t)を用いて表した、マルコフ決定過程が周期性を有する場合の、従来の方法の施策評価で解く連立方程式である。
【0030】
【数1】

【0031】
(式1)において、ベクトルct (t=1、・・・、T)は、T個の部分空間のうち部分空間tの各状態のコストを表しており、ベクトルctの第i成分は、部分空間tのi番目の状態のコストを示している。
【0032】
また、行列Pt,t+1 (t=1、・・・T)は、部分空間tの各状態から部分空間t+1の各状態への遷移確率を示している。行列Pt,t+1の第i、j成分は、部分空間tのi番目の状態にいる場合に、次に遷移する状態が部分空間t+1のj番目の状態である確率を表している。なお、行列PT,T+1は行列PT,1 と定義している。
【0033】
gは、ゲインを示す変数である。ここで、ゲインとは、当該施策においてマルコフ決定過程の1ステップ当たりで平均して得ることができる利得を表す。ベクトルht (t=1、・・・、T)は、部分空間tの各状態のバイアスを表す変数を示している。バイアスは各状態について定義され、ある状態からのバイアスとは、十分に大きいステップ数Nにおいて、その状態からNステップで得ることができる利得と平均的な状態からNステップで得ることができる利得gNとの差を表す。ベクトルhをT個のベクトル(h1 、h2 、・・・、hT )で構成されたベクトルと定義した場合、ベクトルhが求める解であるときには、ベクトルh+t×ベクトル1(「ベクトル1」は全ての成分が1であるベクトル)も解となる。連立方程式(式1)を解くことは、変数gとベクトルhを求めることになる。
【0034】
選択受付部202は、特定された部分空間のうち、t番目の部分空間の選択を受け付ける。本実施の形態では、T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。説明を簡単にするために、以下の説明ではt=1である場合を例に説明する。
【0035】
確率・コスト算出部203は、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する。
【0036】
(式2)は、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移する確率を(i、j)成分に含む行列Qを示している。(式2)では、一の状態から次の状態へと遷移する遷移確率行列Pを順次掛け合わせた行列Qを定義している。
【0037】
【数2】

【0038】
次に、(式3)では、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを定義している。
【0039】
【数3】

【0040】
そして、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移する確率を(i、j)成分に含む行列Q(式2)、及び選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを用いて、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を、(式4)に示す連立方程式の解として求める。
【0041】
【数4】

【0042】
(式4)において、行列Iは単位行列を、ベクトル1は全ての成分が1であるベクトルを、それぞれ示している。そして、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を求めることができ、再帰算出部204は、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)で定まる確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。
【0043】
具体的にはt=1であるので、次はベクトルht (t=T)を算出し、以下順次再帰的に算出する。すなわち、まず部分空間t(t=T)の各状態のバイアスを表す変数であるベクトルht (t=T)を求めることができ、以下(式5)に示すように、順次再帰的にベクトルht (t=T−1)、ベクトルht (t=T−2)、・・・、ベクトルht (t=2)を求めることができる。
【0044】
【数5】

【0045】
(式5)において、ベクトル1は、全ての成分が1であるベクトルを示す。(式1)に示すように、逆行列を計算してベクトルht (t=1、・・・、T)を直接求めるのではなく、まず最も状態数が少ない部分空間tについてベクトルht を算出し、そこから再帰的に他の部分空間についてのベクトルht を算出する。したがって、演算処理負荷を大幅に軽減することが可能となる。
【0046】
図3は、本発明の実施の形態に係る情報処理装置1のCPU11の処理手順を示すフローチャートである。図3において、情報処理装置1のCPU11は、状態空間の一部であるT(Tは自然数)個の部分空間を特定する(ステップS301)。CPU11は、特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける(ステップS302)。本実施の形態では、T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。
【0047】
CPU11は、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する遷移確率行列Qを算出する(ステップS303)。CPU11は、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移するまでのコストの期待値を第i成分に含むベクトルbを算出する(ステップS304)。
【0048】
そして、CPU11は、算出した行列Q、及びベクトルbを用いて、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を算出する(ステップS305)。CPU11は、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht を用いて、部分空間t−1の各状態のバイアスを表す変数であるベクトルht-1 を算出する(ステップS306)。なお、t=1の場合は、ベクトルht-1 はベクトルh0 =ベクトルhT を算出する。周期性を有するからである。
【0049】
CPU11は、ベクトルht+1 (t=1)を算出したか否かを判断する(ステップS307)。ベクトルht+1 まで算出した時点で一周期分のすべての部分空間について再帰的にベクトルhを算出したことになるからである。
【0050】
CPU11が、ベクトルht+1 を算出していないと判断した場合(ステップS307:NO)、CPU11は、ベクトルhの引数tを‘1’デクリメントし(ステップS308)、処理をステップS306へ戻して、上述した処理を繰り返す。CPU11が、ベクトルht+1 を算出したと判断した場合(ステップS307:YES)、CPU11は、処理を終了する。
【0051】
なお、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを定義する場合、将来的に発生するコストを割り引いても良い。すなわち、上述した(式3)に割引率λ(0<λ<1)を、状態遷移に応じて乗算すれば良い。(式6)に、将来的に発生するコストを割り引く場合の、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbの定義を示す。
【0052】
【数6】

【0053】
この場合、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移する確率を(i、j)成分に含む行列Q(式2)、及び選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを用いて、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を、(式7)に示す連立方程式の解として求める。
【0054】
【数7】

【0055】
(式7)において、行列Iは単位行列を示している。そして、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を求めることができ、再帰算出部204は、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)で定まる確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。
【0056】
具体的にはt=1であるので、次はベクトルht (t=T)を算出し、以下順次再帰的に算出する。すなわち、まず部分空間t(t=T)の各状態のバイアスを表す変数であるベクトルht (t=T)を求めることができ、以下(式8)に示すように、順次再帰的にベクトルht (t=T−1)、ベクトルht (t=T−2)、・・・、ベクトルht (t=2)を求めることができる。
【0057】
【数8】

【0058】
(式8)では(式5)とは異なり、ゲインgを用いない。これは、将来的に発生するコストを事前に割り引いているので、ゲインgは0(ゼロ)と考えても良いからである。
【0059】
以上のように本実施の形態によれば、マルコフ決定過程が周期性を有する場合には、最適施策を求めることが可能な問題の規模を拡大することができ、従来の価値反復(Value Iteration)、施策反復(Policy Iteration)、リニアプログラミング等の方法では解くことができない問題であっても、最適施策を求めることが可能となる。
【0060】
なお、上述した実施の形態では、ゲインgをマルコフ決定過程の1状態遷移当たりの平均利得として求めており、すべての状態に対してゲインが一意に定まると仮定している。しかし、現実の問題では、ゲインが状態ごとに異なる場合も想定される。この場合、ゲインgも、部分空間tごとのベクトル値として算出される。つまり、T(Tは自然数)個の部分空間それぞれに対する価値変数としてゲインベクトルgを算出し、マルコフ決定過程を最適化しても良い。
【0061】
したがって、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移する確率を(i、j)成分に含む行列Q(式2)、及び選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを用いて、ゲインを示す変数ベクトルgr (t=1)、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を、(式9)に示す連立方程式の解として求める。
【0062】
【数9】

【0063】
(式9)において、行列Iは単位行列を示している。そして、ゲインを示す変数ベクトルgt (t=1)、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を求めることができ、再帰算出部204は、ゲインを示す変数ベクトルgt (t=1)、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)で定まる確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。
【0064】
具体的にはt=1であるので、次はベクトルgt (t=T)を算出し、以下順次再帰的に算出する。すなわち、まず部分空間t(t=T)のゲインベクトルgt (t=T)を求めることができ、ゲインベクトルgt (t=T)を用いて、ベクトルht (t=T)を算出する。以下(式10)に示すように、順次再帰的にゲインベクトルgt (t=T−1)とベクトルht (t=T−1)とを算出し、ゲインベクトルgt (t=T−2)とベクトルht (t=T−2)とを算出し、以下順次ゲインベクトルgt とベクトルht とを一対として、再帰的に算出することができる。
【0065】
【数10】

【0066】
従来の価値反復(Value Iteration)、施策反復(Policy Iteration)、線形計画等の方法では解くことができない規模の問題に対して、上述した演算方法を適用した結果を図4に示す。図4は、本発明の実施の形態に係る情報処理装置1で、マルコフ決定過程を用いて最適施策を求めた場合の演算処理時間を比較した表である。
【0067】
図4では、解くべき問題の規模を、状態数と状態アクションペア数との積で示している。いわゆる汎用的な最適化エンジンであるCPLEXを使用する場合、問題4までが限界であり、問題5以上の規模となると解くことができない。周知の技術である施策反復(Policy Iteration)を適用した場合、規模が大きくなっても問題を解くことはできる。
【0068】
しかし、問題7では、20078秒と5時間近い演算処理時間を要し、実際に施策を決定する時間としては長すぎる。しかし、本実施の形態に係る方法を適用した場合、最も規模が大きい問題7でも3分強で最適施策を決定することができる。そして、問題の規模が大きくなるほど、演算処理の高速化効果は高まることがわかる。したがって、本実施の形態に係る方法は、マルコフ決定過程が周期性を有する場合には、問題の規模が大きくなるほど演算処理負荷を大きく軽減することができ、適用することが可能な問題の規模を拡大することが可能となる。
【0069】
上述した本実施の形態に係る、マルコフ決定過程が周期性を有する場合に、既存の計算方法よりも効率的に最適施策を決定する方法は、電力会社における発電計画にも適用することができる。例えば、発電計画として、次の30分間に発電する発電量を15分前に決定し、3分ごとの蓄電池の充放電量を決定することを想定する。この場合、は30分/3分=10の周期Tを有することになる。
【0070】
また、状態空間は、時刻tにおける「状態」を部分空間とするように分割され、時刻tの部分空間からは時刻(t+1)の部分空間にしか遷移しない。ここで「状態」は、時間t、予定発電量と使用電力量との差x、蓄電量y、設定済み発電ターゲット量zにより定義されるものとする。
【0071】
時刻tは、1、2、・・・、Tのいずれかであり、xは周期T内の時刻0から時刻tまでの発電予定量と使用電力実績量との差を、yは蓄電池の蓄電量を、zはt=5で決定された発電予定量と次の30分間の使用電力予測量との差を、それぞれ意味することになる。
【0072】
上記モデルにマルコフ決定過程を用いることで、各状態について最適なアクション、例えば次の3分間の充放電量と、t=5の時には次の30分間に発電する電力量を決定することができる。
【0073】
なお、(式1)における行列Pt,t+1 は、時点tの状態から時点t+1の状態への遷移確率を要素に含む行列を、ベクトルct は、時点tの各状態のコストを、それぞれ示す。本モデルにおけるコストとは、例えばアクションが充電である場合には、充電効率が1より小さいことによる次の3分間の電力損失に相当するコストを、あるいはt=Tである場合、充電による電力損失コストに加えて、発電予定量と使用電力実績の差に応じて発生するコストを、それぞれ意味する。発電予定量と使用電力実績の差に応じて発生するコストとは、例えば追加の電力を購入するコスト、余剰電力が生じたことによるペナルティー等である。
【0074】
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えば、上述した実施の形態では、t番目の部分空間における一又は複数の状態の価値及びコストの期待値を算出しているが、それぞれ平均値を算出して代表値としても良い。
【符号の説明】
【0075】
1 情報処理装置
11 CPU
12 メモリ
13 記憶装置
14 I/Oインタフェース
15 ビデオインタフェース
16 可搬型ディスクドライブ
17 通信インタフェース
18 内部バス
90 可搬型記録媒体
100 コンピュータプログラム

【特許請求の範囲】
【請求項1】
少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置で実行する方法であって、
状態空間の一部である部分空間を特定する工程と、
特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける工程と、
選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する工程と、
算出した確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する工程と
を含む方法。
【請求項2】
T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける請求項1に記載の方法。
【請求項3】
t番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する請求項1又は2に記載の方法。
【請求項4】
T個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置であって、
状態空間の一部である部分空間を特定する部分空間特定部と、
特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける選択受付部と、
選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出部と、
算出した確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する再帰算出部と
を備える装置。
【請求項6】
T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける請求項5に記載の装置。
【請求項7】
t番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する請求項5又は6に記載の装置。
【請求項8】
T個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する請求項5乃至7のいずれか一項に記載の装置。
【請求項9】
少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置で実行することが可能なコンピュータプログラムであって、
前記装置を、
状態空間の一部である部分空間を特定する部分空間特定手段、
特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける選択受付手段、
選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出手段、及び
算出した確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する再帰算出手段
として機能させるコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2013−80280(P2013−80280A)
【公開日】平成25年5月2日(2013.5.2)
【国際特許分類】
【出願番号】特願2011−218556(P2011−218556)
【出願日】平成23年9月30日(2011.9.30)
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【復代理人】
【識別番号】100117260
【弁理士】
【氏名又は名称】福永 正也
【Fターム(参考)】