電力取引管理システム、管理装置、電力取引方法、及び電力取引用コンピュータプログラム
【課題】ECOネットにおける電力取引を自動化する。
【解決手段】 発電電力消費が行われる拠点における電力売買を管理する電力取引管理システムであって、蓄電装置1と、電力売買に伴う電力の流入出を制御する電力制御部6と、電力の買売量と価格とを示す取引条件を決定する電力取引エージェント7と、を備え、電力取引エージェント7は、蓄電装置1における蓄電残量から取引条件を決定するための方策に従って、蓄電残量から取引条件を決定する決定部71と、取引条件を電力取引市場コンピュータ8に送信する送信部72と、決済量及び決済価格を電力取引市場コンピュータ8から受信する受信部73と、決済量に応じた電力の流入出を電力制御部6に行わせる取引実行処理部77と、を備え、決定部71は取引収支を含む報酬値が最大化するように方策の強化学習を行う。
【解決手段】 発電電力消費が行われる拠点における電力売買を管理する電力取引管理システムであって、蓄電装置1と、電力売買に伴う電力の流入出を制御する電力制御部6と、電力の買売量と価格とを示す取引条件を決定する電力取引エージェント7と、を備え、電力取引エージェント7は、蓄電装置1における蓄電残量から取引条件を決定するための方策に従って、蓄電残量から取引条件を決定する決定部71と、取引条件を電力取引市場コンピュータ8に送信する送信部72と、決済量及び決済価格を電力取引市場コンピュータ8から受信する受信部73と、決済量に応じた電力の流入出を電力制御部6に行わせる取引実行処理部77と、を備え、決定部71は取引収支を含む報酬値が最大化するように方策の強化学習を行う。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電力取引管理システム、管理装置、電力取引方法、及び電力取引用コンピュータプログラムに関するものである。
【背景技術】
【0002】
非特許文献1には、ECOネット(Electric Power Cluster Oriented Network)と呼ばれる分散型の電力ネットワーク構想が開示されている。このECOネットでは、発電や電力消費を行うミニマル・クラスター間で、余剰電力を融通して分け合う。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】松本吉彦、柳父悟、「新世代に向けた電力システム構造のビジョン」、電気学会論文誌B(電力・エネルギー部門誌)、Vol.123, No.12, pp.1436-1442, 2003
【発明の概要】
【発明が解決しようとする課題】
【0004】
前記ミニマル・クラスターは、太陽光発電、マイクロ水力発電、風力発電など非定常発電装置(供給)を備え時間に依存した電力負荷(需要)が存在する拠点であり、具体的には、一般家庭、小規模工場、共同住宅などが想定される。
【0005】
このようなミニマル・クラスター間で、余剰電力を分け合う際に、無償で分け合うのでは、ミニマル・クラスターが太陽電池などの発電装置を導入するインセンティブが働かず、再生エネルギー利用の普及を阻害する可能性がある。
【0006】
一方、固定価格で余剰電力を融通しようとすると、再生エネルギー発電の非定常性から実需給に合わない価格となる可能性があり、これも再生エネルギー利用のインセンティブを効率的に高めるとは言い難い。
【0007】
そこで、電力売買が自由に行える電力取引市場を創設し、市場価格で余剰電力を融通することが望まれる。
しかしながら、電力売買を世帯単位や小規模事業所単位で行うことは、新たな問題を生む。すなわち、各世帯等において誰が売買を行うかという問題である。各世帯等で誰か一名を電力売買のデイトレードのために割くという発想は非現実的である。
【0008】
そこで、本発明では、上記のミニマル・クラスターのような発電・電力消費拠点において自動的な電力融通を担う電力取引管理システム等を提供することを目的とする。
【課題を解決するための手段】
【0009】
(1)本発明は、発電及び/又は電力消費が行われる拠点における電力売買を管理する電力取引管理システムであって、前記拠点において発電した電力を蓄電するため、及び/又は蓄電された電力を前記拠点において消費するため、に用いられる蓄電装置と、電力の購入時は前記拠点外から電力の供給を受けて前記蓄電装置に蓄電するとともに、電力の販売時は、前記蓄電装置に蓄電された電力を前記拠点外に放出するように電力の流入出を制御する電力制御部と、電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する電力取引管理部と、を備え、前記電力取引管理部は、前記蓄電装置における蓄電残量を示す情報を含む状態情報から前記取引条件を決定するための方策に従って、前記状態情報から前記取引条件を決定する決定部と、前記決定部によって決定した取引条件を前記拠点外の電力取引市場コンピュータに送信する送信部と、前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信する受信部と、前記受信部によって受信した決済量に応じた電力の流入出を電力制御部に行わせる取引実行処理部と、を備え、前記決定部は、前記受信部によって受信した決済価格から算出される取引収支を含む報酬値が、最大化するように、前記状態情報から前記取引条件を決定するための方策の強化学習を行うことを特徴とする電力取引管理システムである。
【0010】
(2)前記報酬値は、前記取引収支に加えて、前記蓄電装置における蓄電量の容量オーバ発生、及び/又は前記蓄電装置における蓄電量不足発生が罰則値として反映されたものであるのが好ましい。
【0011】
(3)前記取引条件は、電力の購買量又は売却量と、購買価格又は販売価格と、の関係を規定した入札曲線として表されたものであるのが好ましい。
【0012】
(4)前記取引条件は、購入可能な最大限の電力量における購入価格と、売却可能な最大限の電力量における売却価格と、を示す情報を含んだものであるのが好ましい。
【0013】
(5)前記強化学習の学習則は、方策勾配法であるのが好ましい。
【0014】
(6)前記強化学習の学習則は、Natural Actor−Criticであるのが好ましい。
【0015】
(7)他の観点からみた本発明は、購入した電力を蓄電装置に蓄電するとともに前記蓄電装置に蓄電された電力を販売するために行われる電力の流入出を制御する電力制御部を管理する管理装置であって、前記蓄電装置の蓄電残量を示す情報を含む状態情報に基づいて、電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する決定部と、前記決定部によって決定した取引条件を、電力取引市場コンピュータに送信する送信部と、前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信する受信部と、前記受信部によって受信した決済量に応じた電力の流入出を前記電力制御部に行わせる取引実行処理部と、前記決定部は、前記受信部によって受信した決済価格から算出される取引収支を含む報酬値が、最大化するように、前記状態情報から前記取引条件を決定するための方策の強化学習を行うことを特徴とする管理装置である。
【0016】
(8)更に他の観点からみた本発明は、発電及び/又は電力消費が行われる拠点において発電した電力を蓄電するため、及び/又は蓄電された電力を前記拠点において消費するため、に用いられる蓄電装置と、電力の購入時は前記拠点外から電力の供給を受けて前記蓄電装置に蓄電するとともに、電力の販売時は、前記蓄電装置に蓄電された電力を前記拠点外に放出するように電力の流入出を制御する電力制御部と、電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する電力取引管理部と、を備えた電力取引管理システムにおける、電力取引方法であって、前記蓄電装置における蓄電残量を示す情報を含む状態情報から前記取引条件を決定するための方策に従って、前記状態情報から前記取引条件を決定するステップと、決定した前記取引条件を、前記拠点外の電力取引市場コンピュータに送信するステップと、前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信するステップと、受信した決済量に応じた電力の流入出を電力制御部に行わせるステップと、受信した決済価格から算出される取引収支を含む報酬値が最大化するように、前記方策の強化学習を行うステップと、を含むことを特徴とする電力取引方法である。
【0017】
(9)更に他の観点からみた本発明は、コンピュータに、前記(8)に記載の電力取引方法における各ステップを実行させるための電力取引用コンピュータプログラムである。
【発明の効果】
【0018】
本発明によれば、蓄電残量を示す状態情報から電力の取引条件を決定することができるため、自動的な電力取引を行うことができる。しかも、本発明では、取引収支を含む報酬値が、最大化するように、取引条件を決定するための方策の強化学習を行うため、適切な取引戦略を獲得することができる。
【図面の簡単な説明】
【0019】
【図1】ECOネットの概念図である。
【図2】ミニマル・クラスターにおける電力取引システムの構成図である。
【図3】電力取引ネットワークシステムの構成図である。
【図4】電力取引エージェントの構成図である。
【図5】入札曲線の例を示す図である。
【図6】電力市場決済の概念図である。
【図7】図7(a)は学習者の存在しない系での各エージェントの獲得報酬遷移を示し、図7(b)はA1のみが学習する系での各エージェントの獲得報酬遷移を示す。
【図8】図8(a)は学習初期の蓄電残量変化を示し、図8(b)は学習終期の蓄電残量半価を示す。
【図9】各ミニマル・クラスターの所持金の変化を示し、図9(a)は学習エージェントが存在しない場合を示し、図9(b)はエージェントA1のみが学習した場合を示す。
【図10】全エージェントが同時に学習した場合の各エージェントの獲得報酬変化を示す。
【図11】全エージェントが学習した場合の各ミニマル・クラスターの所持金の変化を示す。
【図12】ローカル・クラスター全体での1日の電力ロス和の最終100日平均値を示すグラフである。
【発明を実施するための形態】
【0020】
以下、本発明の好ましい実施形態について添付図面を参照しながら説明する。
[1.ECOネットの概要]
本発明に係る電力取引管理システム等は、例えば、非特許文献1記載のECOネットに適用することができる。図1はECOネットの概念図を示している。ECOネットには、発電・電力消費するミニマル・クラスター(電力の生産消費者拠点)が存在しており、それらが、自らの持つ蓄電装置に電力を蓄え、また、余剰・不足分については、電力ルータを通じて電力を融通し合う。
【0021】
このミニマル・クラスターが、地域社会内での各々の家庭や工場などに相当する。既存の電力システムでは大規模発電を行う電力系統を頂点とし、需要家を底辺に持つ放射状系統が基本であるのに対し、ECOネットでは分散型を成している。従来の電力ネットワーク構想が、少数の発電事業者と多数の末端消費者という二分法であったのに対して、全ての参加者を基本的に生産消費者(prosumer)として捉えるのがECOネットの特徴の一つである。
以下では、ECOネットに登場する概念の説明を行う。
【0022】
「電力クラスター」:ECOネット上での電力クラスターとは、巨大な単一システムではなく、複数の電力システム(太陽光発電や、風力発電、燃料電池など)からなる電力のネットワークで構成されたものである。電力クラスターは基本的に電力を自給自足するものとするが、それぞれ供給(発電)と需要(電力消費)に過不足が生じても良いものとする。また、電力クラスターに存在しうるものは必ずしも発電機能・需要機能を備えていなくても良い。例えば、発電だけを行うクラスターや、蓄電のみ、あるいは電力消費のみを行うクラスターというものも例外的に考えられる。
【0023】
「電力ルータ」:電力クラスターをノードとして、電力クラスター間の送電線をリンクとして、電力ネットワークが形成される。そして、電力クラスター間の電力のやり取りを制御する機能(電力制御部)が電力クラスターに備わっていなければならない。この機能を持つ装置を電力ルータとよぶ。電力ルータの基本機能は電気エネルギーのルーティングであり、どの近隣のクラスターを対象とするのか、エネルギーを送り出すのか受け取るのか、電力量の制御などである。なお、本実施形態における電力ルータは、電力売買における資金管理機能も有する。
【0024】
「ミニマル・クラスター」:電力ネットワークの最小単位をミニマル・クラスター(Minimal Cluster)と呼ぶ。構成要素は、各種電気機器、給電線、蓄電装置、発電装置、そして電力ルータである。このミニマル・クラスターは、発電及び電力消費が行われる電力生産消費者拠点であり、一般家庭、小規模工場、共同住宅などが想定される。従来の電力系統が単一方向の電力エネルギーの流れを想定しているのに対し、ミニマル・クラスター同士の双方向の電力エネルギーのやり取りを基本とする。
【0025】
「ローカル・クラスター」:ミニマル・クラスターを数個から一万個程度、ネットワーク接続した電力クラスターを、ローカル・クラスターと呼ぶ。ローカル・クラスターの構成要素は、中小規模発電装置(火力、水力、風力など)を持ち、そのローカル・クラスター内の電力が不足したミニマル・クラスターを支援し、近隣のローカル・クラスターとの電力の融通を行うための電力ルータを備える。
本実施形態では、電力取引市場として決済情報(決済条件)を各ミニマル・クラスターから集約し、市場決済する役割もローカル・クラスターが担う。つまり、ローカル・クラスターには、電力取引市場の市場決済処理を行う「電力取引市場コンピュータ」を構成要素として有している。
【0026】
[2.ミニマル・クラスターにおける電力取引管理システムの概要]
図2は、ミニマル・クラスターに設置される電力取引管理システムの機器構成を示している。電力取引管理システムは、蓄電装置1、各種電気機器などの電力負荷2、太陽光発電・マイクロ水力発電・風力発電など非定常性の発電装置3、電力ルータ4、及びこれらの機器2,3,4を接続する給電線5及びミニマル・クラスター外部に接続される給電線5を備えている。
【0027】
蓄電装置1は、そのミニマル・クラスターにおける発電装置3で発電した電力及びミニマル・クラスター外部から購入した電力を蓄電するためのものである。蓄電装置1に蓄電された電力は、そのミニマル・クラスターにおける電力負荷2での消費に用いられるとともに、ミニマル・クラスター外部への販売に用いられる。
蓄電装置1としては、具体的には、電気二重層コンデンサなどを採用することができる。なお、電力負荷2における消費電力量及び発電装置3における発電量は、時間に依存して変動する。
【0028】
電力ルータ4は、蓄電装置1、電力負荷2、発電装置3、及びミニマル・クラスター外部との間での電力の流れを制御するものであり、電力制御のための電力制御部6を備えている。
電力制御部6は、電力の流れを切り替える電力スイッチング機能を有しており、例えば、電力制御部6は、発電装置3から供給される電力を蓄電装置1又は負荷2に与える電力制御、ミニマル・クラスター外部から購入し供給される電力を蓄電装置1又は負荷2に与える電力制御、蓄電装置1に蓄電されている電力を負荷2に与える又はミニマル・クラスター外部に売却のために送電する電力制御などを行う。
【0029】
さらに電力ルータ4は、蓄電装置1の蓄電残量を監視し、この蓄電残量が不足したり、容量オーバが生じたりしないように、ミニマル・クラスター外部との間での電力取引を管理する。
ミニマル・クラスターは、発電装置3によって発電した電力を、蓄電装置1に蓄積しておいて、負荷2で消費するという電力の自給自足を基本とする。しかし、蓄電装置1の蓄電容量が十分でない場合、負荷2における電力消費量(需要)が、発電装置3における発電量(供給)を上回ると、蓄電残量が低下し、蓄電残量不足のためミニマル・クラスターにおいて停電が発生するおそれがある。また、発電装置3における発電量(供給)が、負荷2における電力消費(需要)を上回ると、蓄電残量が上昇し、発電量が蓄電装置1における蓄電容量をオーバしてしまい、発電ロスが発生するおそれがある。
【0030】
このような停電や発電ロスができるだけ生じないように、電力ルータ4は、蓄電残量不足が発生しそうであればミニマル・クラスター外部からの買電を行い、蓄電容量オーバが発生しそうであればミニマル・クラスター外部への売電を行う。このような電力売買を適切に行うことで、停電や発電ロスを回避することが可能である。
このような電力売買(自動電力取引)を管理するため、電力ルータ4は、電力取引エージェント7を備えている。電力ルータ4が自動電力取引機能を有しているため、人手によって取引を行う必要がなくなる。
【0031】
電力取引エージェント7の具体的な主たる機能は、a)電力取引のために蓄電残量を監視すること、b)電力の取引条件(売買量・売買価格)を決定し電力取引市場コンピュータに通信回線を介して送信すること、c)電力取引市場において決済された決済量及び決済価格を電子取引市場コンピュータから通信回線を介して受信すること、d)受信した決済量に応じて、ミニマル・クラスター外部との間での電力の流入出を電力制御部に行わせること、などである。
【0032】
これらの機能を実現するため、電力ルータ4は、処理装置・記憶装置・外部との通信機能などを有するコンピュータを備えている。上記の電力取引エージェント7の各機能は、当該機能を前記コンピュータに実現させるための電力取引用コンピュータプログラムが、前記コンピュータによって実行されることで達成される。
【0033】
[3.ローカル・クラスターにおける電力取引]
図3は、ローカル・クラスターに存在する複数のミニマル・クラスターA1〜Anが市場参加者となっている電力取引市場コンピュータネットワークシステムを示している。
この電力取引市場コンピュータネットワークシステムは、電力取引市場コンピュータ8及び電力取引市場コンピュータにネットワーク接続された電力取引エージェント7を有して構成されている。なお、電力取引市場コンピュータ9は、ローカル・クラスター用電力ルータ9の管理を行うこともできる。
【0034】
本実施形態の電力取引市場ネットワークシステムでは、複数のミニマル・クラスターの各電力取引エージェントは、自ミニマル・クラスターにおける電力の需要・供給曲線を電力取引市場に、定期的に提出することにより電力取引を行う。
【0035】
まず、電力市場におけるミニマル・クラスターの電力取引エージェントの集合をM={Ai:i=1,・・・,n}とする。エージェントAiは、自らのミニマル・クラスターの蓄電量及びその他の諸条件(時刻・天候など)を勘案して、希望する取引条件(電力の購買量又は売却量と、電力の購買価格又は売却価格と、を示す情報)を決定し、ネットワーク(通信回線)を介して、電力取引市場コンピュータ8に送信する。
【0036】
取引条件は、売買量siに対する単位電力量あたりの価格Pi(si)という形で表される。なお、売買量siは、正の値であるときにはその絶対値が購買量を示し、負の値であるときにはその絶対値が売却量を示すものとする。
【0037】
電力取引市場コンピュータ8は、各ミニマル・クラスターの電力取引エージェント7から取引条件を受信して集約し、市場決済を行う。具体的には、ローカル・クラスター内の全ての電力取引エージェント7の取引条件を積み上げる事によって、当該ローカル・クラスター内における需要曲線と供給曲線を決定する。その上で、両曲線の交点を計算することで、その時間の電力取引市場での電力量の単位当たり価格と各エージェントの取引量を決定して電力売買の決済を行う。
【0038】
ここで、各市場参加者が注文数量と価格を市場に提出し、そのマッチングをとることにより取引を行う方法を板寄せ方式と呼ぶ。一方、本実施形態の決済方式では、各電力取引エージェント7は、連続的な価格と注文数量の関係を規定した関数を取引条件として市場に提出するが、広い意味では板寄せ方式の一種といえる。
本実施形態では、全エージェントが入札を一斉に行った後に市場価格により各エージェントの電力取引量(決済量)と電力単価(決済価格)が決定されるために、自らが「売り」か「買い」かも決済の時点で決定する。
【0039】
そして、電力取引市場コンピュータ8は、決済価格及び各電力取引エージェント7についての決済量を含む決済収支情報を、各電力取引エージェント7に送信する。
各電力取引エージェント7は、電力取引コンピュータ8から、決済量及び決済価格を含む決済収支情報を受信する。そして、電力取引エージェント7は、電力制御部6に、決済量に応じた電力の流入出を行わせる。以上で、取引が完了する。
なお、上記のような取引条件の決定及び決済の詳細は後述する。
【0040】
[4.電力取引エージェント(管理装置)]
図4は、電力取引をおこなう電力取引エージェント(管理装置)7の機能ブロックを示している。
電力取引エージェント7は、取引条件を決定する決定部(強化学習部)71、取引条件を電力取引コンピュータ8に送信する送信部72、取引収支情報(決済価格及び決済量)を電力取引コンピュータ8から受信する受信部73、蓄電装置1における蓄電残量の検出値(蓄電残量を示す情報)を含む状態情報を生成する状態情報生成部74、電力超過・不足ペナルティを算出するペナルティ算出部75、取引収支情報及び電力超過・不足ペナルティから、強化学習のための報酬値を算出する報酬算出部76、受信した決算量に応じた電力の流入出を電力制御部6に行わせる取引実行処理部77を備えている。
【0041】
前記決定部71は、状態情報生成部74が生成した状態情報から、所定の方策πiに従って、取引条件uiを決定する。前記方策πiは、状態情報xi(蓄電残量情報Siなど)から、取引条件uiを決定するために前記決定部71が保有するルールであり、この方策πiは、取引を繰り返すことによって、強化学習により最適化される。本実施形態における強化学習は、観測される状態情報xi(蓄電残量情報Siなど)から取引条件uiを決定するための方策πiを、報酬値riが最大化するように最適化する。
【0042】
本実施形態における前記報酬値riは、主に、電力の取引収支(売買収支)miに基づいて決定される。取引収支miは、黒字である場合は正の値で表され、赤字である場合は負の値で表される。
前記報酬値riとして、電力の取引収支miのほか、蓄電装置1における蓄電量の容量オーバ発生、及び/又は蓄電量不足発生が負の値である罰則値として反映される。このため、電力超過・不足ペナルティ算出部75は、蓄電量の容量オーバ発生、及び/又は蓄電量不足発生が起こると、電力超過・不足ペナルティrip(=負の値)算出し、報酬算出部76は、電力の取引収支miと電力超過・不足ペナルティripの和を、報酬値riとして算出する。
【0043】
つまり、電力の取引収支miの黒字が多くなれば、基本的に、報酬値riは大きくなるが、蓄電容量の容量オーバを発生させて電力を無駄にした場合や蓄電量不足を発生させて停電が起きた場合にはそれをペナルティ(罰則値;負の値)として、報酬値riが小さくなる。電力の取引収支だけを報酬値として扱うことも可能ではあるが、電力の取引収支だけを考慮すると、電力のロスや停電が考慮されないため、電力のロスや停電を罰則的に扱うことで、電力取引が適正化される。
【0044】
さて、これまでの電力市場についての研究では、特に、既存の電力系統における電気事業者の価格決定を議論する場合が多く、ECOネットのように、生産消費者の集合として電力市場を捉えた場合の研究や、時々刻々と発電・消費量が変化する中での時間的な取引戦略の獲得についての研究については未だ少ない。
【0045】
定常的な発電を行う原子力発電などの大規模な事業者による発電が主と捉えられたシステムでは時間単位での状態変化はクリティカルな問題ではない。しかし、太陽光などの再生可能エネルギーの非定常性の特質および蓄電装置の容量制約を考慮すると、状態変化を有する系としてモデル化する必要がある。本実施形態ではマルコフ決定過程(MDP:Markov Decision Process)として各電力取引エージェント7によってのダイナミクスを捉える事で、決定部71が強化学習に基づく最適な取引戦略(方策)の獲得を行う。
【0046】
市場のような各々が利益を最大化しようと強化学習を行う集団は、マルチエージェント強化学習の系として捉えられる。しかし、この場合、複数の電力取引エージェント7が同時進行的に学習することにより各エージェントにとっての環境のMDP性が崩れ、学習が困難となる同時学習問題の存在がある。
【0047】
例えば、マルチエージェント強化学習では、他のエージェントの行動目標や行動・状態などを観測できないことが多く、部分観測マルコフ決定過程(POMDP:Partially Observable MDP)となっている。これらの問題に対応するために、profit-sharingを行う方法やタスク構造に合わせた報酬分割を行う方法もある。
【0048】
これに対し、通常のMDPに対する強化学習の学習則であっても、方策を直接探索する方策勾配法と呼ばれる手法は、Q−learnigやSARSA等の価値関数から間接的に方策を決定する手法に比べ、POMDP下でも頑強であると認識されている。
【0049】
前記決定部(強化学習部)71において採用できる強化学習の学習則は、特に限定されるものではないが、本実施形態では、POMDP下でも頑強である前記方策勾配法を採用する。しかも、方策勾配法の中でも、方策勾配の方向にパラメータ空間の情報幾何学的な特性を考慮した自然方策勾配法を採用する。なお、以下では、方策勾配法の一種であるNatural Actor-Criticに基づいて、取引戦略(方策)の適応的改善を行う。このNatural Actor-Criticは、一般的な方策勾配法よりも学習が効率的である。
【0050】
[5.方策勾配法とNatural Actor-Criticの概要]
以下では、方策勾配法と自然方策勾配法の一種であるNatural Actor-Criticについての一般的な説明を行う。
[5.1 方策勾配法]
MDPに基づく強化学習では、エージェントが時間tにおいて環境の状態xt∈Xを観測した後に、方策π(x,u)に従い、行動意思決定を行い、行動ut∈Uを環境に出力する。行動utを環境に出力した後に、遷移後の環境の状態xt+1を観測し、同時に報酬値rtがエージェントに与えられるという一連の流れを前提にしてエージェントが学習を行う。エージェントは将来に亘る獲得報酬の期待値を最大化するように学習を行う。
ここで、MDPとは、次状態の生起確率と報酬の期待値が現在の状態と行動のみに依存する事を指す。
【0051】
強化学習には、主に、Q−learnigやSARSA等といった行動価値関数を推定することで最適方策を求める価値に基づく方法と、Actor-Critic法のように「最適方策を直接推定する方策に基づく方法とが、ある。
後者の方策勾配法では、確率的な方策を陽に表現し、最適方策を直接近似するため、Q−learinigなどの価値に基づく方法のように行動価値関数の変化に対して急激に方策が変化する様なことが無い。そのため、評価関数を徐々に増加させるように、逐次的に方策自体を直接的に改善していけるため、ある程度のPOMDP下でも学習を進めることができる。
【0052】
また、方策勾配法では直接方策を近似するため、行動価値に基づく方法に比べ、方策の出力値を連続値として設計することが容易である。本実施形態においては、行動出力が、「取引条件」の指定に相当し、この値は連続的に変化する。
【0053】
方策勾配法では、次のように収益の期待値をJ(θ)で表す。
【数1】
【0054】
J(θ)は、将来に亘って得られる累積報酬の割引和になっており、この評価値を最大化するように方策を最適化することが強化学習の課題となる。ここで、方策πθ(x、u)=p(u|x;θ)はパラメータベクトルθによって表される方策であり、dπは割り引かれた状態分布である。次にJをパラメータベクトルθに関して偏微分し、J(θ)の勾配を求める。
【0055】
方策勾配法では、この勾配ベクトル∇θJを用いて方策のモデルパラメータθを次のように更新することで局所最適な方策を探索する。
【数2】
ここで、α>0は、学習率、勾配∇θJは収益の期待値におけるパラメータθの最急上昇方向を表すので方策勾配法は少なくとも局所最適解を得ることが出来る。
【0056】
[5.2 Natural Actor-Critic]
収益の期待値をパラメータθに関して偏微分した∇θJは、収益の期待値におけるθの最急上昇方向を表すとされるが、パラメータ空間が歪んでいるときにはプラトー減少などにより学習性能が悪化する。このプラトー問題を回避する有効な手段として提案された手法が自然勾配法である。自然勾配法では通常の勾配にフィッシャー情報行列Fの逆行列を乗ずる事で自然勾配を求めるが、強化学習においては自然勾配が比較的容易に計算し得る。
【0057】
Natural Actor-Criticとは、自然勾配法を方策勾配法に適用した自然方策勾配法の一つである。自然勾配はアドバンテージ関数を∇θlogπを基底関数として推定したときの係数ベクトルに一致することが知られている。アドバンテージ関数とは行動価値と状態価値の差分によって表される関数であり、状態価値の寄与を除いた行動の価値を表現する関数である。
具体的な実装としては、価値関数の推定方法としてLSTD−Q(λ)を用いた無限区間タスクでのNatural Actor-Criticを用いる。LSTD−Q(λ)は、価値関数の推定方法であり、旧来のTD学習がTD誤差に基づいて価値関数を更新するのに対し、価値関数が基底関数の線形和で表されることを利用し最小自乗法に基づき解く手法である。その解はTD学習により得られる最適解と共通である。
【0058】
Natural Actor-Criticでは、行動価値関数の一部であるアドバンテージ関数を正確に求める必要があるため、統計量から最適な価値関数を直接求める事のできるLSTD−Q(λ)を用いる。
【0059】
Natural Actor-Criticのアルゴリズムは、以下の通りである。
【数3】
【数4】
【0060】
本実施形態では、強化学習の学習則として、Natural Actor-Criticに基づく方策勾配法を用いる。なお、マルチエージェント系においては、方策更新を非同期にすることで、同時学習問題を緩和できるが、上記アルゴリズムを用いると、方策更新は価値関数の収束に伴い非同期的におこなわれるため、このような非同期的な方策更新を人為的に作り込むことなく自動的に生み出すことができる。
【0061】
[6.ミニマル・クラスター及び電力取引制度のモデル化]
ミニマル・クラスターにおける情報の流れを説明する。まず、ローカル・クラスターにおける複数の電力取引エージェントのうち、i番目のエージェントAiの時刻tでの発電量、電力消費量をそれぞれ、Ei(t)、Ci(t)とする。これらの差分Di(t)=Ei(t)−Ci(t)が、ミニマル・クラスター内部での蓄電装置1への流入出量となる。なお、差分Di(t)が正の値であれば、蓄電装置1への蓄電量を示し、負の値であれば蓄電装置1からの放電量を示す。
【0062】
また、時刻tにおける売買による流入出は、電力取引エージェントAiの決済量si(t)と等しくなる。なお、決済量si(t)は、正の値であれば電力購買量を示し、負の値であれば電力売却量を示す。
また、ミニマル・クラスターが有する蓄電装置1における、時刻tにおける蓄電残量をSi(t)とする。さらに、その蓄電装置1の最大容量をSimax、最小容量をSiminとする。蓄電装置1への電力の流入出により蓄電残量Si(t)は、次式に基づいて毎時刻変化する。なお、実際の電力取引管理システムでは、蓄電残量Si(t)は、蓄電装置1の蓄電残量検出装置(図示省略)から電力取引エージェント7に出力される。
【数5】
【0063】
本実施形態において、電力取引(取引条件の送信)は2時間に一度行われるものとし、2時間毎に時刻tは1加算される。ここでは、太陽光発電の下で、一定の生活パターンで居住者が生活する系を想定する。したがって、この系はノイズ程度の変化を除き24時間周期の周期性を持つものと考え、時刻情報として、24時間周期での時刻h(tを12(=24/2)で割った値)を用いる。
図4に示すように電力取引エージェント7の状態情報生成部74は、蓄電残量Si(t)を示す情報に、時刻情報hを不可して、状態情報xi=(Si(t),h)を生成する。なお、状態情報としては、少なくとも蓄電残量Si(t)が含まれていれば良く、その他の情報として、例えば、天候など、発電量や電力消費量に影響を与えるその他の情報が含まれても良い。
【0064】
電力エージェント7の決定部(強化学習部)71は、前記状態情報xiを取得し、この状態情報xiに基づき、方策πiに従って、取引条件uiの決定を行う。決定した取引条件(行動出力)uiは、送信部72によって、ネットワークを介して、電力取引コンピュータ8に送信される。
【0065】
本実施形態において、取引条件uiは、ui=(Pibuy,Pisell)という形式で表される。この取引条件は、それぞれ、購入可能な最大限の電力量(最大容量Simax−蓄電残量Si)における購入価格(Pibuy)と、売却可能な最大限の電力量(最小容量Simin−蓄電残量Si)における売却価格(Pisell)を示している。
【0066】
この取引条件は、電力の購買量又は売却量と、購買価格又は販売価格と、の関係を規定した入札曲線(需要・供給曲線;価格pから数量sへの関数)を示すものである。本実施形態では、図5に示すように、入札曲線をなす関数を、上下限を持つ一次関数に制約することで、入札曲線の端点二点の値で入札曲線を示すことができる。なお、数量sは、正の値であれば購入量を示し、負の値であれば売却量を示す。
図5に示す入札曲線si(p)は、下記式で表される。
【数6】
【0067】
このように、本実施形態では、購入可能な最大限の電力量(Simax−Si)から売却可能な最大限の電力量(Simin−Si)までの連続した範囲における取引条件uiを、購入可能な最大限の電力量、購入可能な最大限の電力量での購入価格、売却可能な最大限の電力量、及び売却可能な最大限の電力量での売却価格という、4つの情報で簡単に表すことができる。
なお、取引条件の表し方は上記のものに限定されるわけではない。より詳細な入札曲線を用いる場合は,多くの代表点やパラメータを用いて表現する。
【0068】
一般に、板寄せ方式の市場では取引量と価格を各取引主体が出力し、これを市場において合わせることで、需要・供給曲線が形成される。これと同様に、本実施形態の電力取引市場コンピュータ8も、各エージェント7から出力された取引条件uiを集約し、市場全体での需要・供給曲線を形成し、決済価格を決定する。
【0069】
つまり、図6に示すように、取引条件uiのうち、数量siの正の部分が買い手としての取引条件(需要曲線)であり、負の部分が売り手としての取引条件(供給曲線)である。電力取引市場コンピュータ8は、これらを数量の方向に足し合わせることで、市場全体の需要曲線・供給曲線を生成する。そして、需要曲線と供給曲線の交点を求めることで決済される際の価格P*が求まる。具体的には下記式を満たす均衡価格P*を決済価格とする。
【数7】
なお、各エージェントの決済量(購入量・売却量)siは、決済価格P*が決定されれば自ずと決定される。
【0070】
決済が行われると、電力取引市場コンピュータ8は、各電力取引エージェント7に対し、決済量si及び決済価格P*を、取引収支miを示す情報として送信する。電力取引エージェント7は、取引収支miを示す情報を受信部73によって受信すると、当該情報から報酬値riの算出や状態情報xiの生成を行う。
そして、決定部(強化学習部)71は、報酬値riが最大化するように、方策πiの最適化(強化学習)を行う。
【0071】
ここで、時刻tにおける、電力取引市場での決済価格をP*(t)とすると、電力取引エージェントAiの取引収支(売買収支)は、mi(t)=−si(t)×P*(t)となる。また、報酬値riは、取引収支miと電力超過・不足ペナルティ(罰則値)ripの和であり、電力超過・不足ペナルティ(罰則値)ripは、下記式に従って算出される。
【数8】
ここで、上記式における定数は、超過・不足自体に係るペナルティm+,m->0、超過・不足した単位電力あたりのペナルティζ+>0,ζ->0である。より他の評価を考慮する場合は報酬値は任意の関数で置き換えても構わない。
【0072】
このように系をモデル化することで、他のエージェント7の方策が一定であるとしたとき、この問題は他のエージェント7の蓄電残量を隠れ状態とし、周期的に変化する時間と自らの蓄電残量を状態とした強化学習課題として定式化される。これにより様々な強化学習手法をECOネット上の自動取引課題に適用することができる。
【0073】
[7.電力取引エージェントの決定部(強化学習部)のモデル化]
以下、電力取引エージェントの決定部(強化学習部)の強化学習則として、Natural Actor-Criticアルゴリズムを採用した場合の強化学習モデルについて説明する。なお、以下では、一つの電力取引エージェント7について述べるため、エージェントの添え字iは省略する。
【0074】
ここでは、方策関数π(x,u;θ)を、方策パラメータθ={θ1,θ2,σ1,σ2}とガウス関数を用いて下記のようにモデル化した。
【数9】
上式において、f1,f2は行動出力(取引条件)分布の中心を表し、それに標準偏差σ1,σ2のガウスノイズが足されることで、探索を行いながら価格決定がなされる。ここで、u1=Pbuy,u2=Psellとする。ここで、価値関数Vπ(x)およびfkを共通の基底関数φを用いて下記のように表す。
【0075】
【数10】
【0076】
また、アドバンテージ関数の係数ベクトルωについては、上記方策関数の定義に従い、式(6)に基づき定義するする。ここで基底関数φ(x)の第j成分φk(x)はクロネッカーのδijを用いて、
【数11】
と表されるとする。
【0077】
上段のクロネッカーのデルタで表される部分は、周期的に変化する時間に依存する項、下段の項は電池残量への依存性を三次の多項式で表現している。この前提の下で自然勾配計算のために∇θlogπ(x,u)を計算する。θkの第j成分をθkjとして、
【数12】
となる。ただし、ε1=Pbuy−f1,ε2=Psell−f2である。
【0078】
よって、Natural Actor-Criticにおける各の基底関数の更新については、
【数13】
となる。
【0079】
その後、Natural Actor-Criticアルゴリズムに沿って状態価値関数、アドバンテージ関数の近似式のパラメータベクトルを更新し、ある方向に収束したと判定されれば方策を更新する。収束判定は時間t+1と時間t−τの間のそれぞれのパラメータベクトルのなす角のcos値が十分1.0に近い閾値εに対し
【数14】
を満たせば収束したとみなし、方策パラメータを更新する。
【0080】
[8.シミュレーション実験結果]
本実験は、仮想的なローカル・クラスターを計算機環境に構築して行った。
[8.1 実験条件]
上記モデルにおける電力取引学習エージェント7にとって、発電量Eiと消費量Ciは直接的には意味が無く、蓄電装置1への流入出量Diのみが問題となる。本モデルでは、一日毎の発電・消費の周期性を仮定しているので、ミニマル・クラスターAiの時間tにおける流入出量Di(t)を以下のようにsin波形を用いて近似する。
【数15】
ここで、gi,ai,bi,ni(t)はそれぞれゲイン、パターンの時間方向のずれ、発電が消費に勝る度合い、ノイズ項となっている。本実験では、giに対して5%の程度の幅を持つノイズ項を一様乱数で生成し付加する。
【0081】
また、学習しないエージェントの方策、及び学習エージェントの初期方策は蓄電残量を参照しながら、十分に残量がある際には安く、少なくなった際には高く値付けするよう下記式に設定した。
【数16】
【0082】
つまり、θ1,12=20,θ1,13=−10、θ2,12=40,θ2,13=−20とした。初期方策では時間に対する依存性は自明でないので設計しなかった。さらに価格の出力の変動幅(ガウス分布に従う)は、σ1=σ2=0.5としている。また、出力する取引条件についてPisell>Pibuy>0を制約条件として与える。なお、実験結果は、状態遷移、行動等にノイズを含んでいるので各条件に対して5回実験を行い、その平均を示している。
【0083】
実験条件として、1日の取引回数は12回、学習率α=1×10-4、適格度トレースの割引率λ=0.98、十分統計量の保持率β=0.8、方策勾配の収束判定のウィンドウ幅Wh=12×7=1[week]及び収束判定の閾値ε=0.99とした。
また、報酬関数の係数m+=m-=1.0×102,ζ+=1.5×104,ζ-=1.0×104とした。
勾配については更新ベクトルのノルム最大値を1.0として、急激な変更がなされないよう制約を与えた。他のパラメータは、gi=20,bi=0,Simax=100,Simin=25とした。また、初期蓄電量はSi(0)=50とする。
【0084】
各ミニマル・クラスターの電力流入出の特性については、操作可能なパラメータが多い。本実験では、焦点を絞るために、式(32)のaiを変化させることで、各ミニマル・クラスター毎の違いを設計した。ローカル・クラスターの条件設定としては、giやbiに多様性を持たせる事も検討の上では重要である。しかし、一方でaiが同一で、各ミニマル・クラスターにおいて発電消費パターンが同期してしまった場合、あるミニマル・クラスターで電力余剰が発生するときには他のミニマル・クラスターでも電力余剰が発生し、あるミニマル・クラスターで電力不足が発生した場合には、他のミニマル・クラスターでも不足が発生するということが起きる。
【0085】
この場合、電力融通において適切な需給関係が構築できず、如何に学習エージェントが適切な電力売買を行っても電力ロスや停電を防ぐことはできなくなる。aiにずれが存在し、発電消費パターンが非同期であることはネットワーク化により平準化を行う事でメリットが発生するための前提条件となる。
【0086】
本実験では、6つのミニマル・クラスターにより構成されるローカル・クラスターを考える。各ミニマル・クラスターの発電消費の特性は(a1,a2,a3,a4,a5,a6)=(0,2,4,6,8,10)とし、発電消費パターンに十分な非同期性を持つように設定した。この条件下ではローカル・クラスター全体としては、全時刻で電力の流入と流出はバランスするため、適切に電力融通が行われれば電力ロスと停電を無くすことができる。
【0087】
[8.2 単一エージェント学習環境での実験]
まず、6つの電力取引エージェントA1〜A6のうち、エージェントA1のみに学習を行わせた。図7(a)は、全てのエージェントA1〜A6が学習しない場合の各エージェントの獲得報酬の遷移を示し、図7(b)は、エージェントA1のみが学習を行った場合の各エージェントの獲得報酬の遷移を示している。
【0088】
図では、1日の獲得報酬の各週毎の平均を示している。学習を通して、エージェントA1が停電・電力ロスによる無駄を避けつつ有利な取引を行うことで、より多くの報酬を得ていることがわかる。
【0089】
図8は、学習初期と学習終期での、エージェントA1の蓄電残量の時間的変化を比較するためのものである。学習初期には、蓄電残量がSimaxにしばしば達することで電力ロスを生じていたのが、適切な取引戦略(方策)を得ることにより、過不足無く蓄電残量をコントロール出来るようになっていることがわかる。
【0090】
また、学習を行うエージェントが存在しない場合と、エージェントA1のみが学習している場合での各ミニマル・クラスターの所持金(取引収支の累積値)の変化を図9に示す。エージェントA1が有利な取引を行う事で、電力の無駄をなくすのみならず、自らの所持金も増大させていることがわかる。
【0091】
[8.3 多数エージェントの同時学習環境での実験]
次に、より多くのエージェントが動じに学習する条件下で実験を行った。1体以上のエージェントが同時に学習する場合は、しばしば部分観測や同時学習の問題が発生するため、学習が正常に進行しない可能性がある。
【0092】
しかし、前述の理由により、方策勾配法、特に、Natural Actor-Criticはこれらの問題に対して、頑健性があると考えられ、多数のエージェントが動じに学習した場合でも、強化学習が適切に進行することが期待される。
実験を行った結果、多くの場合で問題なく、学習を行ったエージェントは獲得報酬を増大させることが出来た。図10に6体のエージェントが学習を行った場合の各エージェントの獲得報酬の変化を示す。ここでは6体ものエージェントが同時学習を行っているにも関わらず、学習はほぼ安定的に進行している。これによりNatural Actor-Criticはこのようなローカルな市場取引というマルチエージェント強化学習系において有効な手法であることが示された。
【0093】
本タスクは相互的な取引環境で競合的に学習を行っているために、一見、全員の報酬が同時に向上することのないゼロサム・ゲームとなるように感じられるが、実際には全エージェントが獲得報酬を像ださせている。これは、各エージェントが得る報酬のうち、ゼロサムであるのは金銭取引に関わる部分のみであり、電力ロスと停電に関わるペナルティはゼロサムではないためである。
【0094】
6体のエージェントが学習した場合の各ミニマル・クラスターの所持金の変化を図11に示す。学習エージェントが存在しない場合と比べ、金額の配分は変化しているが、金銭的報酬についてはゼロサム・ゲームである故に全エージェントを通じて増加していると言うことはないことがわかる。
しかしながら、系の内、1体ずつエージェントを学習ありに切り替えていった時には金銭的収益が増加することが観察された。これは実際に電力取引エージェントを組み込んだ電力ルータを市場投入する際に、ミニマル・クラスター所有者が電力ルータの導入を検討するインセンティブになると考えられ重要な点となる。
【0095】
次に発電した電力のロスに着目して比較を行った。エージェントA1〜Ak(kは図12のグラフの横軸の値)が学習した際のローカル・クラスター全体でも1日の電力ロス和の最終100日平均値を条件毎に図12に示す。横軸は何体のエージェントが学習しているかを示しており、縦軸は1日当たりの平均電力ロスを標準偏差とともに示している。これから、各エージェントが学習を行う事でミニマル・クラスターの電力ロスは低下し、その結果、ローカル・クラスター全体としても電力ロスが低減されていっていることがわかる。なお、5体が学習した場合と6体が学習した場合で、6体の時の方がロスが増大しているようにみえるが、有意差はなかった。
【0096】
これにより、各ミニマル・クラスターが電力ロスを低減しようとしながら、自らの利得が最大化されるように取引を行うことで、系全体としても電力ロスを低減することができた。
この系のようなマルチエージェント課題ではシングルエージェント用に開発された強化学習手法は必ずしもよい学習結果を得ることはできないと考えられている。これに対し、Natural Actor-Criticが頑健であった理由としては、方策を直接探索している点、及びLSTDにより勾配方向を決定するため、バッチ的な更新に成らざるを得ず、学習過程で各エージェントが断続的な定常状態を繰り返すために非同期的な更新が案目的に実現されているために動じ学習問題を回避できているなどの点が考えられる。
【0097】
[9.付記]
なお、上記において開示した事項は、例示であって、本発明を限定するものではなく、様々な変形が可能である。
【符号の説明】
【0098】
1 蓄電装置
2 電力負荷
3 発電装置
4 電力ルータ
5 電力線
6 電力制御部
7 電力取引エージェント
8 電力取引市場コンピュータ
9 ローカル・クラスター用電力ルータ
71 決定部(強化学習部)
72 送信部
73 受信部
74 状態情報生成部
75 電力超過・不足ペナルティ算出部
76 報酬算出部
77 取引実行処理部
【技術分野】
【0001】
本発明は、電力取引管理システム、管理装置、電力取引方法、及び電力取引用コンピュータプログラムに関するものである。
【背景技術】
【0002】
非特許文献1には、ECOネット(Electric Power Cluster Oriented Network)と呼ばれる分散型の電力ネットワーク構想が開示されている。このECOネットでは、発電や電力消費を行うミニマル・クラスター間で、余剰電力を融通して分け合う。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】松本吉彦、柳父悟、「新世代に向けた電力システム構造のビジョン」、電気学会論文誌B(電力・エネルギー部門誌)、Vol.123, No.12, pp.1436-1442, 2003
【発明の概要】
【発明が解決しようとする課題】
【0004】
前記ミニマル・クラスターは、太陽光発電、マイクロ水力発電、風力発電など非定常発電装置(供給)を備え時間に依存した電力負荷(需要)が存在する拠点であり、具体的には、一般家庭、小規模工場、共同住宅などが想定される。
【0005】
このようなミニマル・クラスター間で、余剰電力を分け合う際に、無償で分け合うのでは、ミニマル・クラスターが太陽電池などの発電装置を導入するインセンティブが働かず、再生エネルギー利用の普及を阻害する可能性がある。
【0006】
一方、固定価格で余剰電力を融通しようとすると、再生エネルギー発電の非定常性から実需給に合わない価格となる可能性があり、これも再生エネルギー利用のインセンティブを効率的に高めるとは言い難い。
【0007】
そこで、電力売買が自由に行える電力取引市場を創設し、市場価格で余剰電力を融通することが望まれる。
しかしながら、電力売買を世帯単位や小規模事業所単位で行うことは、新たな問題を生む。すなわち、各世帯等において誰が売買を行うかという問題である。各世帯等で誰か一名を電力売買のデイトレードのために割くという発想は非現実的である。
【0008】
そこで、本発明では、上記のミニマル・クラスターのような発電・電力消費拠点において自動的な電力融通を担う電力取引管理システム等を提供することを目的とする。
【課題を解決するための手段】
【0009】
(1)本発明は、発電及び/又は電力消費が行われる拠点における電力売買を管理する電力取引管理システムであって、前記拠点において発電した電力を蓄電するため、及び/又は蓄電された電力を前記拠点において消費するため、に用いられる蓄電装置と、電力の購入時は前記拠点外から電力の供給を受けて前記蓄電装置に蓄電するとともに、電力の販売時は、前記蓄電装置に蓄電された電力を前記拠点外に放出するように電力の流入出を制御する電力制御部と、電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する電力取引管理部と、を備え、前記電力取引管理部は、前記蓄電装置における蓄電残量を示す情報を含む状態情報から前記取引条件を決定するための方策に従って、前記状態情報から前記取引条件を決定する決定部と、前記決定部によって決定した取引条件を前記拠点外の電力取引市場コンピュータに送信する送信部と、前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信する受信部と、前記受信部によって受信した決済量に応じた電力の流入出を電力制御部に行わせる取引実行処理部と、を備え、前記決定部は、前記受信部によって受信した決済価格から算出される取引収支を含む報酬値が、最大化するように、前記状態情報から前記取引条件を決定するための方策の強化学習を行うことを特徴とする電力取引管理システムである。
【0010】
(2)前記報酬値は、前記取引収支に加えて、前記蓄電装置における蓄電量の容量オーバ発生、及び/又は前記蓄電装置における蓄電量不足発生が罰則値として反映されたものであるのが好ましい。
【0011】
(3)前記取引条件は、電力の購買量又は売却量と、購買価格又は販売価格と、の関係を規定した入札曲線として表されたものであるのが好ましい。
【0012】
(4)前記取引条件は、購入可能な最大限の電力量における購入価格と、売却可能な最大限の電力量における売却価格と、を示す情報を含んだものであるのが好ましい。
【0013】
(5)前記強化学習の学習則は、方策勾配法であるのが好ましい。
【0014】
(6)前記強化学習の学習則は、Natural Actor−Criticであるのが好ましい。
【0015】
(7)他の観点からみた本発明は、購入した電力を蓄電装置に蓄電するとともに前記蓄電装置に蓄電された電力を販売するために行われる電力の流入出を制御する電力制御部を管理する管理装置であって、前記蓄電装置の蓄電残量を示す情報を含む状態情報に基づいて、電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する決定部と、前記決定部によって決定した取引条件を、電力取引市場コンピュータに送信する送信部と、前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信する受信部と、前記受信部によって受信した決済量に応じた電力の流入出を前記電力制御部に行わせる取引実行処理部と、前記決定部は、前記受信部によって受信した決済価格から算出される取引収支を含む報酬値が、最大化するように、前記状態情報から前記取引条件を決定するための方策の強化学習を行うことを特徴とする管理装置である。
【0016】
(8)更に他の観点からみた本発明は、発電及び/又は電力消費が行われる拠点において発電した電力を蓄電するため、及び/又は蓄電された電力を前記拠点において消費するため、に用いられる蓄電装置と、電力の購入時は前記拠点外から電力の供給を受けて前記蓄電装置に蓄電するとともに、電力の販売時は、前記蓄電装置に蓄電された電力を前記拠点外に放出するように電力の流入出を制御する電力制御部と、電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する電力取引管理部と、を備えた電力取引管理システムにおける、電力取引方法であって、前記蓄電装置における蓄電残量を示す情報を含む状態情報から前記取引条件を決定するための方策に従って、前記状態情報から前記取引条件を決定するステップと、決定した前記取引条件を、前記拠点外の電力取引市場コンピュータに送信するステップと、前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信するステップと、受信した決済量に応じた電力の流入出を電力制御部に行わせるステップと、受信した決済価格から算出される取引収支を含む報酬値が最大化するように、前記方策の強化学習を行うステップと、を含むことを特徴とする電力取引方法である。
【0017】
(9)更に他の観点からみた本発明は、コンピュータに、前記(8)に記載の電力取引方法における各ステップを実行させるための電力取引用コンピュータプログラムである。
【発明の効果】
【0018】
本発明によれば、蓄電残量を示す状態情報から電力の取引条件を決定することができるため、自動的な電力取引を行うことができる。しかも、本発明では、取引収支を含む報酬値が、最大化するように、取引条件を決定するための方策の強化学習を行うため、適切な取引戦略を獲得することができる。
【図面の簡単な説明】
【0019】
【図1】ECOネットの概念図である。
【図2】ミニマル・クラスターにおける電力取引システムの構成図である。
【図3】電力取引ネットワークシステムの構成図である。
【図4】電力取引エージェントの構成図である。
【図5】入札曲線の例を示す図である。
【図6】電力市場決済の概念図である。
【図7】図7(a)は学習者の存在しない系での各エージェントの獲得報酬遷移を示し、図7(b)はA1のみが学習する系での各エージェントの獲得報酬遷移を示す。
【図8】図8(a)は学習初期の蓄電残量変化を示し、図8(b)は学習終期の蓄電残量半価を示す。
【図9】各ミニマル・クラスターの所持金の変化を示し、図9(a)は学習エージェントが存在しない場合を示し、図9(b)はエージェントA1のみが学習した場合を示す。
【図10】全エージェントが同時に学習した場合の各エージェントの獲得報酬変化を示す。
【図11】全エージェントが学習した場合の各ミニマル・クラスターの所持金の変化を示す。
【図12】ローカル・クラスター全体での1日の電力ロス和の最終100日平均値を示すグラフである。
【発明を実施するための形態】
【0020】
以下、本発明の好ましい実施形態について添付図面を参照しながら説明する。
[1.ECOネットの概要]
本発明に係る電力取引管理システム等は、例えば、非特許文献1記載のECOネットに適用することができる。図1はECOネットの概念図を示している。ECOネットには、発電・電力消費するミニマル・クラスター(電力の生産消費者拠点)が存在しており、それらが、自らの持つ蓄電装置に電力を蓄え、また、余剰・不足分については、電力ルータを通じて電力を融通し合う。
【0021】
このミニマル・クラスターが、地域社会内での各々の家庭や工場などに相当する。既存の電力システムでは大規模発電を行う電力系統を頂点とし、需要家を底辺に持つ放射状系統が基本であるのに対し、ECOネットでは分散型を成している。従来の電力ネットワーク構想が、少数の発電事業者と多数の末端消費者という二分法であったのに対して、全ての参加者を基本的に生産消費者(prosumer)として捉えるのがECOネットの特徴の一つである。
以下では、ECOネットに登場する概念の説明を行う。
【0022】
「電力クラスター」:ECOネット上での電力クラスターとは、巨大な単一システムではなく、複数の電力システム(太陽光発電や、風力発電、燃料電池など)からなる電力のネットワークで構成されたものである。電力クラスターは基本的に電力を自給自足するものとするが、それぞれ供給(発電)と需要(電力消費)に過不足が生じても良いものとする。また、電力クラスターに存在しうるものは必ずしも発電機能・需要機能を備えていなくても良い。例えば、発電だけを行うクラスターや、蓄電のみ、あるいは電力消費のみを行うクラスターというものも例外的に考えられる。
【0023】
「電力ルータ」:電力クラスターをノードとして、電力クラスター間の送電線をリンクとして、電力ネットワークが形成される。そして、電力クラスター間の電力のやり取りを制御する機能(電力制御部)が電力クラスターに備わっていなければならない。この機能を持つ装置を電力ルータとよぶ。電力ルータの基本機能は電気エネルギーのルーティングであり、どの近隣のクラスターを対象とするのか、エネルギーを送り出すのか受け取るのか、電力量の制御などである。なお、本実施形態における電力ルータは、電力売買における資金管理機能も有する。
【0024】
「ミニマル・クラスター」:電力ネットワークの最小単位をミニマル・クラスター(Minimal Cluster)と呼ぶ。構成要素は、各種電気機器、給電線、蓄電装置、発電装置、そして電力ルータである。このミニマル・クラスターは、発電及び電力消費が行われる電力生産消費者拠点であり、一般家庭、小規模工場、共同住宅などが想定される。従来の電力系統が単一方向の電力エネルギーの流れを想定しているのに対し、ミニマル・クラスター同士の双方向の電力エネルギーのやり取りを基本とする。
【0025】
「ローカル・クラスター」:ミニマル・クラスターを数個から一万個程度、ネットワーク接続した電力クラスターを、ローカル・クラスターと呼ぶ。ローカル・クラスターの構成要素は、中小規模発電装置(火力、水力、風力など)を持ち、そのローカル・クラスター内の電力が不足したミニマル・クラスターを支援し、近隣のローカル・クラスターとの電力の融通を行うための電力ルータを備える。
本実施形態では、電力取引市場として決済情報(決済条件)を各ミニマル・クラスターから集約し、市場決済する役割もローカル・クラスターが担う。つまり、ローカル・クラスターには、電力取引市場の市場決済処理を行う「電力取引市場コンピュータ」を構成要素として有している。
【0026】
[2.ミニマル・クラスターにおける電力取引管理システムの概要]
図2は、ミニマル・クラスターに設置される電力取引管理システムの機器構成を示している。電力取引管理システムは、蓄電装置1、各種電気機器などの電力負荷2、太陽光発電・マイクロ水力発電・風力発電など非定常性の発電装置3、電力ルータ4、及びこれらの機器2,3,4を接続する給電線5及びミニマル・クラスター外部に接続される給電線5を備えている。
【0027】
蓄電装置1は、そのミニマル・クラスターにおける発電装置3で発電した電力及びミニマル・クラスター外部から購入した電力を蓄電するためのものである。蓄電装置1に蓄電された電力は、そのミニマル・クラスターにおける電力負荷2での消費に用いられるとともに、ミニマル・クラスター外部への販売に用いられる。
蓄電装置1としては、具体的には、電気二重層コンデンサなどを採用することができる。なお、電力負荷2における消費電力量及び発電装置3における発電量は、時間に依存して変動する。
【0028】
電力ルータ4は、蓄電装置1、電力負荷2、発電装置3、及びミニマル・クラスター外部との間での電力の流れを制御するものであり、電力制御のための電力制御部6を備えている。
電力制御部6は、電力の流れを切り替える電力スイッチング機能を有しており、例えば、電力制御部6は、発電装置3から供給される電力を蓄電装置1又は負荷2に与える電力制御、ミニマル・クラスター外部から購入し供給される電力を蓄電装置1又は負荷2に与える電力制御、蓄電装置1に蓄電されている電力を負荷2に与える又はミニマル・クラスター外部に売却のために送電する電力制御などを行う。
【0029】
さらに電力ルータ4は、蓄電装置1の蓄電残量を監視し、この蓄電残量が不足したり、容量オーバが生じたりしないように、ミニマル・クラスター外部との間での電力取引を管理する。
ミニマル・クラスターは、発電装置3によって発電した電力を、蓄電装置1に蓄積しておいて、負荷2で消費するという電力の自給自足を基本とする。しかし、蓄電装置1の蓄電容量が十分でない場合、負荷2における電力消費量(需要)が、発電装置3における発電量(供給)を上回ると、蓄電残量が低下し、蓄電残量不足のためミニマル・クラスターにおいて停電が発生するおそれがある。また、発電装置3における発電量(供給)が、負荷2における電力消費(需要)を上回ると、蓄電残量が上昇し、発電量が蓄電装置1における蓄電容量をオーバしてしまい、発電ロスが発生するおそれがある。
【0030】
このような停電や発電ロスができるだけ生じないように、電力ルータ4は、蓄電残量不足が発生しそうであればミニマル・クラスター外部からの買電を行い、蓄電容量オーバが発生しそうであればミニマル・クラスター外部への売電を行う。このような電力売買を適切に行うことで、停電や発電ロスを回避することが可能である。
このような電力売買(自動電力取引)を管理するため、電力ルータ4は、電力取引エージェント7を備えている。電力ルータ4が自動電力取引機能を有しているため、人手によって取引を行う必要がなくなる。
【0031】
電力取引エージェント7の具体的な主たる機能は、a)電力取引のために蓄電残量を監視すること、b)電力の取引条件(売買量・売買価格)を決定し電力取引市場コンピュータに通信回線を介して送信すること、c)電力取引市場において決済された決済量及び決済価格を電子取引市場コンピュータから通信回線を介して受信すること、d)受信した決済量に応じて、ミニマル・クラスター外部との間での電力の流入出を電力制御部に行わせること、などである。
【0032】
これらの機能を実現するため、電力ルータ4は、処理装置・記憶装置・外部との通信機能などを有するコンピュータを備えている。上記の電力取引エージェント7の各機能は、当該機能を前記コンピュータに実現させるための電力取引用コンピュータプログラムが、前記コンピュータによって実行されることで達成される。
【0033】
[3.ローカル・クラスターにおける電力取引]
図3は、ローカル・クラスターに存在する複数のミニマル・クラスターA1〜Anが市場参加者となっている電力取引市場コンピュータネットワークシステムを示している。
この電力取引市場コンピュータネットワークシステムは、電力取引市場コンピュータ8及び電力取引市場コンピュータにネットワーク接続された電力取引エージェント7を有して構成されている。なお、電力取引市場コンピュータ9は、ローカル・クラスター用電力ルータ9の管理を行うこともできる。
【0034】
本実施形態の電力取引市場ネットワークシステムでは、複数のミニマル・クラスターの各電力取引エージェントは、自ミニマル・クラスターにおける電力の需要・供給曲線を電力取引市場に、定期的に提出することにより電力取引を行う。
【0035】
まず、電力市場におけるミニマル・クラスターの電力取引エージェントの集合をM={Ai:i=1,・・・,n}とする。エージェントAiは、自らのミニマル・クラスターの蓄電量及びその他の諸条件(時刻・天候など)を勘案して、希望する取引条件(電力の購買量又は売却量と、電力の購買価格又は売却価格と、を示す情報)を決定し、ネットワーク(通信回線)を介して、電力取引市場コンピュータ8に送信する。
【0036】
取引条件は、売買量siに対する単位電力量あたりの価格Pi(si)という形で表される。なお、売買量siは、正の値であるときにはその絶対値が購買量を示し、負の値であるときにはその絶対値が売却量を示すものとする。
【0037】
電力取引市場コンピュータ8は、各ミニマル・クラスターの電力取引エージェント7から取引条件を受信して集約し、市場決済を行う。具体的には、ローカル・クラスター内の全ての電力取引エージェント7の取引条件を積み上げる事によって、当該ローカル・クラスター内における需要曲線と供給曲線を決定する。その上で、両曲線の交点を計算することで、その時間の電力取引市場での電力量の単位当たり価格と各エージェントの取引量を決定して電力売買の決済を行う。
【0038】
ここで、各市場参加者が注文数量と価格を市場に提出し、そのマッチングをとることにより取引を行う方法を板寄せ方式と呼ぶ。一方、本実施形態の決済方式では、各電力取引エージェント7は、連続的な価格と注文数量の関係を規定した関数を取引条件として市場に提出するが、広い意味では板寄せ方式の一種といえる。
本実施形態では、全エージェントが入札を一斉に行った後に市場価格により各エージェントの電力取引量(決済量)と電力単価(決済価格)が決定されるために、自らが「売り」か「買い」かも決済の時点で決定する。
【0039】
そして、電力取引市場コンピュータ8は、決済価格及び各電力取引エージェント7についての決済量を含む決済収支情報を、各電力取引エージェント7に送信する。
各電力取引エージェント7は、電力取引コンピュータ8から、決済量及び決済価格を含む決済収支情報を受信する。そして、電力取引エージェント7は、電力制御部6に、決済量に応じた電力の流入出を行わせる。以上で、取引が完了する。
なお、上記のような取引条件の決定及び決済の詳細は後述する。
【0040】
[4.電力取引エージェント(管理装置)]
図4は、電力取引をおこなう電力取引エージェント(管理装置)7の機能ブロックを示している。
電力取引エージェント7は、取引条件を決定する決定部(強化学習部)71、取引条件を電力取引コンピュータ8に送信する送信部72、取引収支情報(決済価格及び決済量)を電力取引コンピュータ8から受信する受信部73、蓄電装置1における蓄電残量の検出値(蓄電残量を示す情報)を含む状態情報を生成する状態情報生成部74、電力超過・不足ペナルティを算出するペナルティ算出部75、取引収支情報及び電力超過・不足ペナルティから、強化学習のための報酬値を算出する報酬算出部76、受信した決算量に応じた電力の流入出を電力制御部6に行わせる取引実行処理部77を備えている。
【0041】
前記決定部71は、状態情報生成部74が生成した状態情報から、所定の方策πiに従って、取引条件uiを決定する。前記方策πiは、状態情報xi(蓄電残量情報Siなど)から、取引条件uiを決定するために前記決定部71が保有するルールであり、この方策πiは、取引を繰り返すことによって、強化学習により最適化される。本実施形態における強化学習は、観測される状態情報xi(蓄電残量情報Siなど)から取引条件uiを決定するための方策πiを、報酬値riが最大化するように最適化する。
【0042】
本実施形態における前記報酬値riは、主に、電力の取引収支(売買収支)miに基づいて決定される。取引収支miは、黒字である場合は正の値で表され、赤字である場合は負の値で表される。
前記報酬値riとして、電力の取引収支miのほか、蓄電装置1における蓄電量の容量オーバ発生、及び/又は蓄電量不足発生が負の値である罰則値として反映される。このため、電力超過・不足ペナルティ算出部75は、蓄電量の容量オーバ発生、及び/又は蓄電量不足発生が起こると、電力超過・不足ペナルティrip(=負の値)算出し、報酬算出部76は、電力の取引収支miと電力超過・不足ペナルティripの和を、報酬値riとして算出する。
【0043】
つまり、電力の取引収支miの黒字が多くなれば、基本的に、報酬値riは大きくなるが、蓄電容量の容量オーバを発生させて電力を無駄にした場合や蓄電量不足を発生させて停電が起きた場合にはそれをペナルティ(罰則値;負の値)として、報酬値riが小さくなる。電力の取引収支だけを報酬値として扱うことも可能ではあるが、電力の取引収支だけを考慮すると、電力のロスや停電が考慮されないため、電力のロスや停電を罰則的に扱うことで、電力取引が適正化される。
【0044】
さて、これまでの電力市場についての研究では、特に、既存の電力系統における電気事業者の価格決定を議論する場合が多く、ECOネットのように、生産消費者の集合として電力市場を捉えた場合の研究や、時々刻々と発電・消費量が変化する中での時間的な取引戦略の獲得についての研究については未だ少ない。
【0045】
定常的な発電を行う原子力発電などの大規模な事業者による発電が主と捉えられたシステムでは時間単位での状態変化はクリティカルな問題ではない。しかし、太陽光などの再生可能エネルギーの非定常性の特質および蓄電装置の容量制約を考慮すると、状態変化を有する系としてモデル化する必要がある。本実施形態ではマルコフ決定過程(MDP:Markov Decision Process)として各電力取引エージェント7によってのダイナミクスを捉える事で、決定部71が強化学習に基づく最適な取引戦略(方策)の獲得を行う。
【0046】
市場のような各々が利益を最大化しようと強化学習を行う集団は、マルチエージェント強化学習の系として捉えられる。しかし、この場合、複数の電力取引エージェント7が同時進行的に学習することにより各エージェントにとっての環境のMDP性が崩れ、学習が困難となる同時学習問題の存在がある。
【0047】
例えば、マルチエージェント強化学習では、他のエージェントの行動目標や行動・状態などを観測できないことが多く、部分観測マルコフ決定過程(POMDP:Partially Observable MDP)となっている。これらの問題に対応するために、profit-sharingを行う方法やタスク構造に合わせた報酬分割を行う方法もある。
【0048】
これに対し、通常のMDPに対する強化学習の学習則であっても、方策を直接探索する方策勾配法と呼ばれる手法は、Q−learnigやSARSA等の価値関数から間接的に方策を決定する手法に比べ、POMDP下でも頑強であると認識されている。
【0049】
前記決定部(強化学習部)71において採用できる強化学習の学習則は、特に限定されるものではないが、本実施形態では、POMDP下でも頑強である前記方策勾配法を採用する。しかも、方策勾配法の中でも、方策勾配の方向にパラメータ空間の情報幾何学的な特性を考慮した自然方策勾配法を採用する。なお、以下では、方策勾配法の一種であるNatural Actor-Criticに基づいて、取引戦略(方策)の適応的改善を行う。このNatural Actor-Criticは、一般的な方策勾配法よりも学習が効率的である。
【0050】
[5.方策勾配法とNatural Actor-Criticの概要]
以下では、方策勾配法と自然方策勾配法の一種であるNatural Actor-Criticについての一般的な説明を行う。
[5.1 方策勾配法]
MDPに基づく強化学習では、エージェントが時間tにおいて環境の状態xt∈Xを観測した後に、方策π(x,u)に従い、行動意思決定を行い、行動ut∈Uを環境に出力する。行動utを環境に出力した後に、遷移後の環境の状態xt+1を観測し、同時に報酬値rtがエージェントに与えられるという一連の流れを前提にしてエージェントが学習を行う。エージェントは将来に亘る獲得報酬の期待値を最大化するように学習を行う。
ここで、MDPとは、次状態の生起確率と報酬の期待値が現在の状態と行動のみに依存する事を指す。
【0051】
強化学習には、主に、Q−learnigやSARSA等といった行動価値関数を推定することで最適方策を求める価値に基づく方法と、Actor-Critic法のように「最適方策を直接推定する方策に基づく方法とが、ある。
後者の方策勾配法では、確率的な方策を陽に表現し、最適方策を直接近似するため、Q−learinigなどの価値に基づく方法のように行動価値関数の変化に対して急激に方策が変化する様なことが無い。そのため、評価関数を徐々に増加させるように、逐次的に方策自体を直接的に改善していけるため、ある程度のPOMDP下でも学習を進めることができる。
【0052】
また、方策勾配法では直接方策を近似するため、行動価値に基づく方法に比べ、方策の出力値を連続値として設計することが容易である。本実施形態においては、行動出力が、「取引条件」の指定に相当し、この値は連続的に変化する。
【0053】
方策勾配法では、次のように収益の期待値をJ(θ)で表す。
【数1】
【0054】
J(θ)は、将来に亘って得られる累積報酬の割引和になっており、この評価値を最大化するように方策を最適化することが強化学習の課題となる。ここで、方策πθ(x、u)=p(u|x;θ)はパラメータベクトルθによって表される方策であり、dπは割り引かれた状態分布である。次にJをパラメータベクトルθに関して偏微分し、J(θ)の勾配を求める。
【0055】
方策勾配法では、この勾配ベクトル∇θJを用いて方策のモデルパラメータθを次のように更新することで局所最適な方策を探索する。
【数2】
ここで、α>0は、学習率、勾配∇θJは収益の期待値におけるパラメータθの最急上昇方向を表すので方策勾配法は少なくとも局所最適解を得ることが出来る。
【0056】
[5.2 Natural Actor-Critic]
収益の期待値をパラメータθに関して偏微分した∇θJは、収益の期待値におけるθの最急上昇方向を表すとされるが、パラメータ空間が歪んでいるときにはプラトー減少などにより学習性能が悪化する。このプラトー問題を回避する有効な手段として提案された手法が自然勾配法である。自然勾配法では通常の勾配にフィッシャー情報行列Fの逆行列を乗ずる事で自然勾配を求めるが、強化学習においては自然勾配が比較的容易に計算し得る。
【0057】
Natural Actor-Criticとは、自然勾配法を方策勾配法に適用した自然方策勾配法の一つである。自然勾配はアドバンテージ関数を∇θlogπを基底関数として推定したときの係数ベクトルに一致することが知られている。アドバンテージ関数とは行動価値と状態価値の差分によって表される関数であり、状態価値の寄与を除いた行動の価値を表現する関数である。
具体的な実装としては、価値関数の推定方法としてLSTD−Q(λ)を用いた無限区間タスクでのNatural Actor-Criticを用いる。LSTD−Q(λ)は、価値関数の推定方法であり、旧来のTD学習がTD誤差に基づいて価値関数を更新するのに対し、価値関数が基底関数の線形和で表されることを利用し最小自乗法に基づき解く手法である。その解はTD学習により得られる最適解と共通である。
【0058】
Natural Actor-Criticでは、行動価値関数の一部であるアドバンテージ関数を正確に求める必要があるため、統計量から最適な価値関数を直接求める事のできるLSTD−Q(λ)を用いる。
【0059】
Natural Actor-Criticのアルゴリズムは、以下の通りである。
【数3】
【数4】
【0060】
本実施形態では、強化学習の学習則として、Natural Actor-Criticに基づく方策勾配法を用いる。なお、マルチエージェント系においては、方策更新を非同期にすることで、同時学習問題を緩和できるが、上記アルゴリズムを用いると、方策更新は価値関数の収束に伴い非同期的におこなわれるため、このような非同期的な方策更新を人為的に作り込むことなく自動的に生み出すことができる。
【0061】
[6.ミニマル・クラスター及び電力取引制度のモデル化]
ミニマル・クラスターにおける情報の流れを説明する。まず、ローカル・クラスターにおける複数の電力取引エージェントのうち、i番目のエージェントAiの時刻tでの発電量、電力消費量をそれぞれ、Ei(t)、Ci(t)とする。これらの差分Di(t)=Ei(t)−Ci(t)が、ミニマル・クラスター内部での蓄電装置1への流入出量となる。なお、差分Di(t)が正の値であれば、蓄電装置1への蓄電量を示し、負の値であれば蓄電装置1からの放電量を示す。
【0062】
また、時刻tにおける売買による流入出は、電力取引エージェントAiの決済量si(t)と等しくなる。なお、決済量si(t)は、正の値であれば電力購買量を示し、負の値であれば電力売却量を示す。
また、ミニマル・クラスターが有する蓄電装置1における、時刻tにおける蓄電残量をSi(t)とする。さらに、その蓄電装置1の最大容量をSimax、最小容量をSiminとする。蓄電装置1への電力の流入出により蓄電残量Si(t)は、次式に基づいて毎時刻変化する。なお、実際の電力取引管理システムでは、蓄電残量Si(t)は、蓄電装置1の蓄電残量検出装置(図示省略)から電力取引エージェント7に出力される。
【数5】
【0063】
本実施形態において、電力取引(取引条件の送信)は2時間に一度行われるものとし、2時間毎に時刻tは1加算される。ここでは、太陽光発電の下で、一定の生活パターンで居住者が生活する系を想定する。したがって、この系はノイズ程度の変化を除き24時間周期の周期性を持つものと考え、時刻情報として、24時間周期での時刻h(tを12(=24/2)で割った値)を用いる。
図4に示すように電力取引エージェント7の状態情報生成部74は、蓄電残量Si(t)を示す情報に、時刻情報hを不可して、状態情報xi=(Si(t),h)を生成する。なお、状態情報としては、少なくとも蓄電残量Si(t)が含まれていれば良く、その他の情報として、例えば、天候など、発電量や電力消費量に影響を与えるその他の情報が含まれても良い。
【0064】
電力エージェント7の決定部(強化学習部)71は、前記状態情報xiを取得し、この状態情報xiに基づき、方策πiに従って、取引条件uiの決定を行う。決定した取引条件(行動出力)uiは、送信部72によって、ネットワークを介して、電力取引コンピュータ8に送信される。
【0065】
本実施形態において、取引条件uiは、ui=(Pibuy,Pisell)という形式で表される。この取引条件は、それぞれ、購入可能な最大限の電力量(最大容量Simax−蓄電残量Si)における購入価格(Pibuy)と、売却可能な最大限の電力量(最小容量Simin−蓄電残量Si)における売却価格(Pisell)を示している。
【0066】
この取引条件は、電力の購買量又は売却量と、購買価格又は販売価格と、の関係を規定した入札曲線(需要・供給曲線;価格pから数量sへの関数)を示すものである。本実施形態では、図5に示すように、入札曲線をなす関数を、上下限を持つ一次関数に制約することで、入札曲線の端点二点の値で入札曲線を示すことができる。なお、数量sは、正の値であれば購入量を示し、負の値であれば売却量を示す。
図5に示す入札曲線si(p)は、下記式で表される。
【数6】
【0067】
このように、本実施形態では、購入可能な最大限の電力量(Simax−Si)から売却可能な最大限の電力量(Simin−Si)までの連続した範囲における取引条件uiを、購入可能な最大限の電力量、購入可能な最大限の電力量での購入価格、売却可能な最大限の電力量、及び売却可能な最大限の電力量での売却価格という、4つの情報で簡単に表すことができる。
なお、取引条件の表し方は上記のものに限定されるわけではない。より詳細な入札曲線を用いる場合は,多くの代表点やパラメータを用いて表現する。
【0068】
一般に、板寄せ方式の市場では取引量と価格を各取引主体が出力し、これを市場において合わせることで、需要・供給曲線が形成される。これと同様に、本実施形態の電力取引市場コンピュータ8も、各エージェント7から出力された取引条件uiを集約し、市場全体での需要・供給曲線を形成し、決済価格を決定する。
【0069】
つまり、図6に示すように、取引条件uiのうち、数量siの正の部分が買い手としての取引条件(需要曲線)であり、負の部分が売り手としての取引条件(供給曲線)である。電力取引市場コンピュータ8は、これらを数量の方向に足し合わせることで、市場全体の需要曲線・供給曲線を生成する。そして、需要曲線と供給曲線の交点を求めることで決済される際の価格P*が求まる。具体的には下記式を満たす均衡価格P*を決済価格とする。
【数7】
なお、各エージェントの決済量(購入量・売却量)siは、決済価格P*が決定されれば自ずと決定される。
【0070】
決済が行われると、電力取引市場コンピュータ8は、各電力取引エージェント7に対し、決済量si及び決済価格P*を、取引収支miを示す情報として送信する。電力取引エージェント7は、取引収支miを示す情報を受信部73によって受信すると、当該情報から報酬値riの算出や状態情報xiの生成を行う。
そして、決定部(強化学習部)71は、報酬値riが最大化するように、方策πiの最適化(強化学習)を行う。
【0071】
ここで、時刻tにおける、電力取引市場での決済価格をP*(t)とすると、電力取引エージェントAiの取引収支(売買収支)は、mi(t)=−si(t)×P*(t)となる。また、報酬値riは、取引収支miと電力超過・不足ペナルティ(罰則値)ripの和であり、電力超過・不足ペナルティ(罰則値)ripは、下記式に従って算出される。
【数8】
ここで、上記式における定数は、超過・不足自体に係るペナルティm+,m->0、超過・不足した単位電力あたりのペナルティζ+>0,ζ->0である。より他の評価を考慮する場合は報酬値は任意の関数で置き換えても構わない。
【0072】
このように系をモデル化することで、他のエージェント7の方策が一定であるとしたとき、この問題は他のエージェント7の蓄電残量を隠れ状態とし、周期的に変化する時間と自らの蓄電残量を状態とした強化学習課題として定式化される。これにより様々な強化学習手法をECOネット上の自動取引課題に適用することができる。
【0073】
[7.電力取引エージェントの決定部(強化学習部)のモデル化]
以下、電力取引エージェントの決定部(強化学習部)の強化学習則として、Natural Actor-Criticアルゴリズムを採用した場合の強化学習モデルについて説明する。なお、以下では、一つの電力取引エージェント7について述べるため、エージェントの添え字iは省略する。
【0074】
ここでは、方策関数π(x,u;θ)を、方策パラメータθ={θ1,θ2,σ1,σ2}とガウス関数を用いて下記のようにモデル化した。
【数9】
上式において、f1,f2は行動出力(取引条件)分布の中心を表し、それに標準偏差σ1,σ2のガウスノイズが足されることで、探索を行いながら価格決定がなされる。ここで、u1=Pbuy,u2=Psellとする。ここで、価値関数Vπ(x)およびfkを共通の基底関数φを用いて下記のように表す。
【0075】
【数10】
【0076】
また、アドバンテージ関数の係数ベクトルωについては、上記方策関数の定義に従い、式(6)に基づき定義するする。ここで基底関数φ(x)の第j成分φk(x)はクロネッカーのδijを用いて、
【数11】
と表されるとする。
【0077】
上段のクロネッカーのデルタで表される部分は、周期的に変化する時間に依存する項、下段の項は電池残量への依存性を三次の多項式で表現している。この前提の下で自然勾配計算のために∇θlogπ(x,u)を計算する。θkの第j成分をθkjとして、
【数12】
となる。ただし、ε1=Pbuy−f1,ε2=Psell−f2である。
【0078】
よって、Natural Actor-Criticにおける各の基底関数の更新については、
【数13】
となる。
【0079】
その後、Natural Actor-Criticアルゴリズムに沿って状態価値関数、アドバンテージ関数の近似式のパラメータベクトルを更新し、ある方向に収束したと判定されれば方策を更新する。収束判定は時間t+1と時間t−τの間のそれぞれのパラメータベクトルのなす角のcos値が十分1.0に近い閾値εに対し
【数14】
を満たせば収束したとみなし、方策パラメータを更新する。
【0080】
[8.シミュレーション実験結果]
本実験は、仮想的なローカル・クラスターを計算機環境に構築して行った。
[8.1 実験条件]
上記モデルにおける電力取引学習エージェント7にとって、発電量Eiと消費量Ciは直接的には意味が無く、蓄電装置1への流入出量Diのみが問題となる。本モデルでは、一日毎の発電・消費の周期性を仮定しているので、ミニマル・クラスターAiの時間tにおける流入出量Di(t)を以下のようにsin波形を用いて近似する。
【数15】
ここで、gi,ai,bi,ni(t)はそれぞれゲイン、パターンの時間方向のずれ、発電が消費に勝る度合い、ノイズ項となっている。本実験では、giに対して5%の程度の幅を持つノイズ項を一様乱数で生成し付加する。
【0081】
また、学習しないエージェントの方策、及び学習エージェントの初期方策は蓄電残量を参照しながら、十分に残量がある際には安く、少なくなった際には高く値付けするよう下記式に設定した。
【数16】
【0082】
つまり、θ1,12=20,θ1,13=−10、θ2,12=40,θ2,13=−20とした。初期方策では時間に対する依存性は自明でないので設計しなかった。さらに価格の出力の変動幅(ガウス分布に従う)は、σ1=σ2=0.5としている。また、出力する取引条件についてPisell>Pibuy>0を制約条件として与える。なお、実験結果は、状態遷移、行動等にノイズを含んでいるので各条件に対して5回実験を行い、その平均を示している。
【0083】
実験条件として、1日の取引回数は12回、学習率α=1×10-4、適格度トレースの割引率λ=0.98、十分統計量の保持率β=0.8、方策勾配の収束判定のウィンドウ幅Wh=12×7=1[week]及び収束判定の閾値ε=0.99とした。
また、報酬関数の係数m+=m-=1.0×102,ζ+=1.5×104,ζ-=1.0×104とした。
勾配については更新ベクトルのノルム最大値を1.0として、急激な変更がなされないよう制約を与えた。他のパラメータは、gi=20,bi=0,Simax=100,Simin=25とした。また、初期蓄電量はSi(0)=50とする。
【0084】
各ミニマル・クラスターの電力流入出の特性については、操作可能なパラメータが多い。本実験では、焦点を絞るために、式(32)のaiを変化させることで、各ミニマル・クラスター毎の違いを設計した。ローカル・クラスターの条件設定としては、giやbiに多様性を持たせる事も検討の上では重要である。しかし、一方でaiが同一で、各ミニマル・クラスターにおいて発電消費パターンが同期してしまった場合、あるミニマル・クラスターで電力余剰が発生するときには他のミニマル・クラスターでも電力余剰が発生し、あるミニマル・クラスターで電力不足が発生した場合には、他のミニマル・クラスターでも不足が発生するということが起きる。
【0085】
この場合、電力融通において適切な需給関係が構築できず、如何に学習エージェントが適切な電力売買を行っても電力ロスや停電を防ぐことはできなくなる。aiにずれが存在し、発電消費パターンが非同期であることはネットワーク化により平準化を行う事でメリットが発生するための前提条件となる。
【0086】
本実験では、6つのミニマル・クラスターにより構成されるローカル・クラスターを考える。各ミニマル・クラスターの発電消費の特性は(a1,a2,a3,a4,a5,a6)=(0,2,4,6,8,10)とし、発電消費パターンに十分な非同期性を持つように設定した。この条件下ではローカル・クラスター全体としては、全時刻で電力の流入と流出はバランスするため、適切に電力融通が行われれば電力ロスと停電を無くすことができる。
【0087】
[8.2 単一エージェント学習環境での実験]
まず、6つの電力取引エージェントA1〜A6のうち、エージェントA1のみに学習を行わせた。図7(a)は、全てのエージェントA1〜A6が学習しない場合の各エージェントの獲得報酬の遷移を示し、図7(b)は、エージェントA1のみが学習を行った場合の各エージェントの獲得報酬の遷移を示している。
【0088】
図では、1日の獲得報酬の各週毎の平均を示している。学習を通して、エージェントA1が停電・電力ロスによる無駄を避けつつ有利な取引を行うことで、より多くの報酬を得ていることがわかる。
【0089】
図8は、学習初期と学習終期での、エージェントA1の蓄電残量の時間的変化を比較するためのものである。学習初期には、蓄電残量がSimaxにしばしば達することで電力ロスを生じていたのが、適切な取引戦略(方策)を得ることにより、過不足無く蓄電残量をコントロール出来るようになっていることがわかる。
【0090】
また、学習を行うエージェントが存在しない場合と、エージェントA1のみが学習している場合での各ミニマル・クラスターの所持金(取引収支の累積値)の変化を図9に示す。エージェントA1が有利な取引を行う事で、電力の無駄をなくすのみならず、自らの所持金も増大させていることがわかる。
【0091】
[8.3 多数エージェントの同時学習環境での実験]
次に、より多くのエージェントが動じに学習する条件下で実験を行った。1体以上のエージェントが同時に学習する場合は、しばしば部分観測や同時学習の問題が発生するため、学習が正常に進行しない可能性がある。
【0092】
しかし、前述の理由により、方策勾配法、特に、Natural Actor-Criticはこれらの問題に対して、頑健性があると考えられ、多数のエージェントが動じに学習した場合でも、強化学習が適切に進行することが期待される。
実験を行った結果、多くの場合で問題なく、学習を行ったエージェントは獲得報酬を増大させることが出来た。図10に6体のエージェントが学習を行った場合の各エージェントの獲得報酬の変化を示す。ここでは6体ものエージェントが同時学習を行っているにも関わらず、学習はほぼ安定的に進行している。これによりNatural Actor-Criticはこのようなローカルな市場取引というマルチエージェント強化学習系において有効な手法であることが示された。
【0093】
本タスクは相互的な取引環境で競合的に学習を行っているために、一見、全員の報酬が同時に向上することのないゼロサム・ゲームとなるように感じられるが、実際には全エージェントが獲得報酬を像ださせている。これは、各エージェントが得る報酬のうち、ゼロサムであるのは金銭取引に関わる部分のみであり、電力ロスと停電に関わるペナルティはゼロサムではないためである。
【0094】
6体のエージェントが学習した場合の各ミニマル・クラスターの所持金の変化を図11に示す。学習エージェントが存在しない場合と比べ、金額の配分は変化しているが、金銭的報酬についてはゼロサム・ゲームである故に全エージェントを通じて増加していると言うことはないことがわかる。
しかしながら、系の内、1体ずつエージェントを学習ありに切り替えていった時には金銭的収益が増加することが観察された。これは実際に電力取引エージェントを組み込んだ電力ルータを市場投入する際に、ミニマル・クラスター所有者が電力ルータの導入を検討するインセンティブになると考えられ重要な点となる。
【0095】
次に発電した電力のロスに着目して比較を行った。エージェントA1〜Ak(kは図12のグラフの横軸の値)が学習した際のローカル・クラスター全体でも1日の電力ロス和の最終100日平均値を条件毎に図12に示す。横軸は何体のエージェントが学習しているかを示しており、縦軸は1日当たりの平均電力ロスを標準偏差とともに示している。これから、各エージェントが学習を行う事でミニマル・クラスターの電力ロスは低下し、その結果、ローカル・クラスター全体としても電力ロスが低減されていっていることがわかる。なお、5体が学習した場合と6体が学習した場合で、6体の時の方がロスが増大しているようにみえるが、有意差はなかった。
【0096】
これにより、各ミニマル・クラスターが電力ロスを低減しようとしながら、自らの利得が最大化されるように取引を行うことで、系全体としても電力ロスを低減することができた。
この系のようなマルチエージェント課題ではシングルエージェント用に開発された強化学習手法は必ずしもよい学習結果を得ることはできないと考えられている。これに対し、Natural Actor-Criticが頑健であった理由としては、方策を直接探索している点、及びLSTDにより勾配方向を決定するため、バッチ的な更新に成らざるを得ず、学習過程で各エージェントが断続的な定常状態を繰り返すために非同期的な更新が案目的に実現されているために動じ学習問題を回避できているなどの点が考えられる。
【0097】
[9.付記]
なお、上記において開示した事項は、例示であって、本発明を限定するものではなく、様々な変形が可能である。
【符号の説明】
【0098】
1 蓄電装置
2 電力負荷
3 発電装置
4 電力ルータ
5 電力線
6 電力制御部
7 電力取引エージェント
8 電力取引市場コンピュータ
9 ローカル・クラスター用電力ルータ
71 決定部(強化学習部)
72 送信部
73 受信部
74 状態情報生成部
75 電力超過・不足ペナルティ算出部
76 報酬算出部
77 取引実行処理部
【特許請求の範囲】
【請求項1】
発電及び/又は電力消費が行われる拠点における電力売買を管理する電力取引管理システムであって、
前記拠点において発電した電力を蓄電するため、及び/又は蓄電された電力を前記拠点において消費するため、に用いられる蓄電装置と、
電力の購入時は前記拠点外から電力の供給を受けて前記蓄電装置に蓄電するとともに、電力の販売時は、前記蓄電装置に蓄電された電力を前記拠点外に放出するように電力の流入出を制御する電力制御部と、
電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する電力取引管理部と、を備え、
前記電力取引管理部は、
前記蓄電装置における蓄電残量を示す情報を含む状態情報から前記取引条件を決定するための方策に従って、前記状態情報から前記取引条件を決定する決定部と、
前記決定部によって決定した取引条件を前記拠点外の電力取引市場コンピュータに送信する送信部と、
前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信する受信部と、
前記受信部によって受信した決済量に応じた電力の流入出を電力制御部に行わせる取引実行処理部と、を備え、
前記決定部は、前記受信部によって受信した決済価格から算出される取引収支を含む報酬値が、最大化するように、前記状態情報から前記取引条件を決定するための方策の強化学習を行うことを特徴とする電力取引管理システム。
【請求項2】
前記報酬値は、前記取引収支に加えて、前記蓄電装置における蓄電量の容量オーバ発生、及び/又は前記蓄電装置における蓄電量不足発生が罰則値として反映されたものである請求項1記載の電力取引管理システム。
【請求項3】
前記取引条件は、電力の購買量又は売却量と、購買価格又は販売価格と、の関係を規定した入札曲線として表されたものである請求項1又は2記載の電力取引管理システム。
【請求項4】
前記取引条件は、購入可能な最大限の電力量における購入価格と、売却可能な最大限の電力量における売却価格と、を示す情報を含んだものである請求項1〜3のいずれか1項に記載の電力取引管理システム。
【請求項5】
前記強化学習の学習則は、方策勾配法である請求項1〜4のいずれか1項に記載の電力取引管理システム。
【請求項6】
前記強化学習の学習則は、Natural Actor−Criticである請求項1〜5のいずれか1項に記載の電力取引管理システム。
【請求項7】
購入した電力を蓄電装置に蓄電するとともに前記蓄電装置に蓄電された電力を販売するために行われる電力の流入出を制御する電力制御部を管理する管理装置であって、
前記蓄電装置の蓄電残量を示す情報を含む状態情報に基づいて、電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する決定部と、
前記決定部によって決定した取引条件を、電力取引市場コンピュータに送信する送信部と、
前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信する受信部と、
前記受信部によって受信した決済量に応じた電力の流入出を前記電力制御部に行わせる取引実行処理部と、
前記決定部は、前記受信部によって受信した決済価格から算出される取引収支を含む報酬値が、最大化するように、前記状態情報から前記取引条件を決定するための方策の強化学習を行うことを特徴とする管理装置。
【請求項8】
発電及び/又は電力消費が行われる拠点において発電した電力を蓄電するため、及び/又は蓄電された電力を前記拠点において消費するため、に用いられる蓄電装置と、
電力の購入時は前記拠点外から電力の供給を受けて前記蓄電装置に蓄電するとともに、電力の販売時は、前記蓄電装置に蓄電された電力を前記拠点外に放出するように電力の流入出を制御する電力制御部と、
電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する電力取引管理部と、を備えた電力取引管理システムにおける、電力取引方法であって、
前記蓄電装置における蓄電残量を示す情報を含む状態情報から前記取引条件を決定するための方策に従って、前記状態情報から前記取引条件を決定するステップと、
決定した前記取引条件を、前記拠点外の電力取引市場コンピュータに送信するステップと、
前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信するステップと、
受信した決済量に応じた電力の流入出を電力制御部に行わせるステップと、
受信した決済価格から算出される取引収支を含む報酬値が最大化するように、前記方策の強化学習を行うステップと、
を含むことを特徴とする電力取引方法。
【請求項9】
コンピュータに、請求項8に記載の電力取引方法における各ステップを実行させるための電力取引用コンピュータプログラム。
【請求項1】
発電及び/又は電力消費が行われる拠点における電力売買を管理する電力取引管理システムであって、
前記拠点において発電した電力を蓄電するため、及び/又は蓄電された電力を前記拠点において消費するため、に用いられる蓄電装置と、
電力の購入時は前記拠点外から電力の供給を受けて前記蓄電装置に蓄電するとともに、電力の販売時は、前記蓄電装置に蓄電された電力を前記拠点外に放出するように電力の流入出を制御する電力制御部と、
電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する電力取引管理部と、を備え、
前記電力取引管理部は、
前記蓄電装置における蓄電残量を示す情報を含む状態情報から前記取引条件を決定するための方策に従って、前記状態情報から前記取引条件を決定する決定部と、
前記決定部によって決定した取引条件を前記拠点外の電力取引市場コンピュータに送信する送信部と、
前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信する受信部と、
前記受信部によって受信した決済量に応じた電力の流入出を電力制御部に行わせる取引実行処理部と、を備え、
前記決定部は、前記受信部によって受信した決済価格から算出される取引収支を含む報酬値が、最大化するように、前記状態情報から前記取引条件を決定するための方策の強化学習を行うことを特徴とする電力取引管理システム。
【請求項2】
前記報酬値は、前記取引収支に加えて、前記蓄電装置における蓄電量の容量オーバ発生、及び/又は前記蓄電装置における蓄電量不足発生が罰則値として反映されたものである請求項1記載の電力取引管理システム。
【請求項3】
前記取引条件は、電力の購買量又は売却量と、購買価格又は販売価格と、の関係を規定した入札曲線として表されたものである請求項1又は2記載の電力取引管理システム。
【請求項4】
前記取引条件は、購入可能な最大限の電力量における購入価格と、売却可能な最大限の電力量における売却価格と、を示す情報を含んだものである請求項1〜3のいずれか1項に記載の電力取引管理システム。
【請求項5】
前記強化学習の学習則は、方策勾配法である請求項1〜4のいずれか1項に記載の電力取引管理システム。
【請求項6】
前記強化学習の学習則は、Natural Actor−Criticである請求項1〜5のいずれか1項に記載の電力取引管理システム。
【請求項7】
購入した電力を蓄電装置に蓄電するとともに前記蓄電装置に蓄電された電力を販売するために行われる電力の流入出を制御する電力制御部を管理する管理装置であって、
前記蓄電装置の蓄電残量を示す情報を含む状態情報に基づいて、電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する決定部と、
前記決定部によって決定した取引条件を、電力取引市場コンピュータに送信する送信部と、
前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信する受信部と、
前記受信部によって受信した決済量に応じた電力の流入出を前記電力制御部に行わせる取引実行処理部と、
前記決定部は、前記受信部によって受信した決済価格から算出される取引収支を含む報酬値が、最大化するように、前記状態情報から前記取引条件を決定するための方策の強化学習を行うことを特徴とする管理装置。
【請求項8】
発電及び/又は電力消費が行われる拠点において発電した電力を蓄電するため、及び/又は蓄電された電力を前記拠点において消費するため、に用いられる蓄電装置と、
電力の購入時は前記拠点外から電力の供給を受けて前記蓄電装置に蓄電するとともに、電力の販売時は、前記蓄電装置に蓄電された電力を前記拠点外に放出するように電力の流入出を制御する電力制御部と、
電力の購買量又は売却量と購買価格又は売却価格とを示す情報を含む取引条件を決定する電力取引管理部と、を備えた電力取引管理システムにおける、電力取引方法であって、
前記蓄電装置における蓄電残量を示す情報を含む状態情報から前記取引条件を決定するための方策に従って、前記状態情報から前記取引条件を決定するステップと、
決定した前記取引条件を、前記拠点外の電力取引市場コンピュータに送信するステップと、
前記電力取引市場コンピュータにおいて決済された決済量及び決済価格を、前記電力取引市場コンピュータから受信するステップと、
受信した決済量に応じた電力の流入出を電力制御部に行わせるステップと、
受信した決済価格から算出される取引収支を含む報酬値が最大化するように、前記方策の強化学習を行うステップと、
を含むことを特徴とする電力取引方法。
【請求項9】
コンピュータに、請求項8に記載の電力取引方法における各ステップを実行させるための電力取引用コンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2011−22902(P2011−22902A)
【公開日】平成23年2月3日(2011.2.3)
【国際特許分類】
【出願番号】特願2009−168860(P2009−168860)
【出願日】平成21年7月17日(2009.7.17)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成21年2月23日 立命館大学主催の「2008年度卒業研究論文発表会」において文書をもって発表
【出願人】(593006630)学校法人立命館 (359)
【Fターム(参考)】
【公開日】平成23年2月3日(2011.2.3)
【国際特許分類】
【出願日】平成21年7月17日(2009.7.17)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成21年2月23日 立命館大学主催の「2008年度卒業研究論文発表会」において文書をもって発表
【出願人】(593006630)学校法人立命館 (359)
【Fターム(参考)】
[ Back to top ]