パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法

【課題】無線通信網の状態に応じたユースケースの適用を学習するために強化学習を行う場合における学習効率が向上する。
【解決手段】移動体通信網３の状態変数に応じて移動体通信網３の制御パラメータを設定するパラメータ設定装置２は、状態変数ｓｔに応じた各最適化処理の行動価値Ｑ（ｓ，ａ）を定める共通の価値関数３０に従い、無線通信網３内の異なる複数の範囲（６ａ、６ｂ）の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲（６ａ、６ｂ）の各々について、範囲内の状態変数ｓｔに応じた報酬ｒｔを決定する処理と、この範囲毎に決定された報酬ｒｔ毎に、報酬ｒｔに応じて共通の価値関数３０を更新する強化学習を行う強化学習処理を実行するプロセッサ１０を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本明細書で論じられる実施態様は、移動体通信網の制御パラメータの設定に関する。
【背景技術】
【０００２】
移動体通信網における各機器の制御パラメータの自動最適化のために、ＳＯＮ（Self-Organizing Network）の適用が検討されている。ＳＯＮの利用が検討されている移動体通信網の規格の一例として、３ＧＰＰ(Third Generation Partnership Project)で標準化しているＬＴＥ(Long Term Evolution)がある。ＳＯＮでは、制御パラメータを最適化するための様々なユースケースが検討されている。
【０００３】
また、最適化アルゴリズムとして、機械学習(Machine learning)の一種である強化学習(Reinforcement Learning)が知られている。強化学習は、エージェント(agent)が、環境(environment)の状態変数を参照することにより環境との相互作用から学習して、最終的に受け取る報酬(reward)の総量を最大化するように、方策(policy)を改善する。
【０００４】
なお、１本以上のＤＳＬ回線を含む第１のＤＳＬ回線セットの動作を制御する方法が知られている。この方法は、１本以上のＤＳＬ回線を含む制御ＤＳＬ回線セットを提供するステップと、前記制御ＤＳＬ回線セットのサブセット内の、制御パラメータベクトルの第１の値を使用して、前記制御ＤＳＬ回線セットを動作させるステップと、前記制御ＤＳＬ回線セットの前記サブセット内の前記制御パラメータベクトルの前記第１の値を使用した、前記制御ＤＳＬ回線セットの動作に関する動作データを収集するステップと、前記収集された動作データを解析するステップと、前記第１のＤＳＬ回線セットのうちの少なくとも１本の回線の、少なくとも１つの制御パラメータの値を調整するステップを含む。そして、前記収集された動作データを解析するステップは、前記収集された動作データを複数のクラスタに分類するステップと、前記複数のクラスタ内の各クラスタについて、パフォーマンス測定基準を評価するステップと、第１のクラスタを、前記第１のクラスタの前記パフォーマンス測定基準に基づいて選択するステップと、前記制御ＤＳＬ回線セットの前記制御パラメータベクトルの値を、前記選択されたクラスタの制御パラメータベクトル値に一致するように更新するステップとを含む。
【０００５】
また、所与の地点における受信電界強度を推定する電界強度推定装置が知られている。電界強度推定装置は、所与の地点の地理的計算条件を示す地理的数値から、補正前の電界強度推定値を求める予備推定部と、入力層、１つ以上の中間層及び出力層を有するニューラルネットワークの出力値の計算及び重み付け係数の更新を行うニューラルネットワーク処理部とを有する。推定モードの場合、地理的数値が入力層への入力値として使用され、出力層からの出力値に基づいて補正値が算出され、該補正値と補正前の電界強度推定値とを加えることで、補正後の電界強度推定値が算出及び出力される。学習モードの場合、推定モードで算出された補正値と、補正前の電界強度推定値及び実測値から導出された目標補正値との間の誤差が、出力層の出力値として設定され、ニューラルネットワーク処理部は、誤差逆伝搬法により、重み付け係数を更新する。
【０００６】
また、センサを設置したネットワークであるセンサネットワークにおけるモデルを学習するモデル学習装置と、当該センサネットワークにおける特異的な観測値を検出する特異パターン検出装置とを有する特異パターン検出システムが知られている。モデル学習装置は、観測値データベースから、センサネットワークに設置された各センサの観測値のデータを受信し、この観測データと、事前知識データベースから得たセンサに関する事前知識とから各センサの親センサ群を求め、求められたセンサと親センサ群との依存関係を元に、センサ観測値の統計的なパラメータを求めて特異パターン検出装置に送信する。特異パターン検出装置は、観測値データベースから、特異パターン検出対象となる各観測時刻の観測データである観測パターンを受信し、親センサ群の情報と統計的なパラメータを用いて、受信した観測パターンの特異性を判定し、異常を検出する。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特表２００８−５４６２９７号公報
【特許文献２】特開２０１０−１６６１８５号公報
【特許文献３】特開２００８−２６９２１５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
開示の装置及び方法は、移動体通信網の状態に応じたユースケースの適用を学習するために強化学習を行う場合における学習効率を向上することを目的とする。
【課題を解決するための手段】
【０００９】
装置の一観点によれば、移動体通信網の状態変数に応じて移動体通信網の制御パラメータを設定するパラメータ設定装置が与えられる。パラメータ設定装置は、状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、移動体通信網内の異なる複数の範囲の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲の各々について、範囲内の状態変数に応じた報酬を決定する処理と、この範囲毎に決定された報酬毎に、報酬に応じて共通の価値関数を更新する強化学習を行う強化学習処理を実行するプロセッサを備える。
【００１０】
コンピュータプログラムの一観点によれば、移動帯通信網の状態変数に応じて移動帯通信網の制御パラメータを設定するコンピュータプログラムが与えられる。コンピュータプログラムは、状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、移動体通信網内の異なる複数の範囲の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲の各々について、範囲内の状態変数に応じた報酬を決定する処理と、この範囲毎に決定された報酬毎に、報酬に応じて共通の価値関数を更新する強化学習を行う強化学習処理をコンピュータに実行させる。
【００１１】
方法の一観点によれば、移動帯通信網の状態変数に応じて移動体通信網の制御パラメータを設定するパラメータ設定方法が与えられる。パラメータ設定方法はコンピュータに、状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、移動体通信網内の異なる複数の範囲の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲の各々について、範囲内の状態変数に応じた報酬を決定する処理と、この範囲毎に決定された報酬毎に、報酬に応じて共通の価値関数を更新する強化学習を行う強化学習処理を実行させる。
【発明の効果】
【００１２】
本件開示の装置又は方法によれば、移動体通信網の状態に応じたユースケースの適用を学習するために強化学習を行う場合における学習効率が向上する。
【図面の簡単な説明】
【００１３】
【図１】通信システムの全体構成例を示す図である。
【図２】パラメータ設定装置のハードウエア構成の第１例を示す図である。
【図３】強化学習のモデルの説明図である。
【図４】価値関数の一例の説明図である。
【図５】強化学習が提供されるＳＯＮコントローラの説明図である。
【図６】学習処理の第１実施例の説明図である。
【図７】エージェントの処理の第１例の説明図である。
【図８】パラメータ設定装置のハードウエア構成の第２例を示す図である。
【図９】（Ａ）及び（Ｂ）は、学習処理の第２実施例の説明図である。
【図１０】エージェントの処理の第２例の説明図である。
【図１１】価値関数の類似度の説明図である。
【図１２】合成する価値関数の決定処理の説明図である。
【図１３】類似度のソート及び選択の説明図である。
【図１４】（Ａ）及び（Ｂ）は、学習処理の第３実施例の説明図である。
【図１５】エージェントの処理の第３例の説明図である。
【図１６】（Ａ）及び（Ｂ）は、学習処理の第４実施例の説明図である。
【図１７】パラメータ設定装置のハードウエア構成の第３例を示す図である。
【発明を実施するための形態】
【００１４】
＜１．システム構成例＞
以下、添付する図面を参照しての実施例について説明する。図１は、通信システムの全体構成例を示す図である。通信システム１は、パラメータ設定装置２及び移動体通信網３を備える。移動体通信網３は、基地局装置４ａ〜４ｃ及び移動局装置５ａ〜５ｃによって形成される。参照符号６ａ〜６ｃは、それぞれ基地局４ａ〜４ｃによってカバーされるセルを示している。なお、以下の説明において、基地局装置及び移動局装置をそれぞれ基地局及び移動局と表記することがある。また、以下の説明において、基地局４ａ〜４ｃ、移動局５ａ〜５ｃ及びセル６ａ〜６ｃを総称して、それぞれ「基地局４」、「移動局５」及び「セル６」と表記することがある。
【００１５】
パラメータ設定装置２は、基地局４及び移動局５から移動体通信網３の状態を収集し、移動体通信網３の状態に応じて基地局４及び移動局５を制御する制御パラメータを最適化する。移動体通信網３の状態の収集と制御パラメータの送信のため、パラメータ設定装置２は基地局４と有線ネットワークによって接続されていてよい。パラメータ設定装置２は、想定したユースケースに基づいて制御パラメータを自動的に最適化するため制御手段として、複数のＳＯＮアプリケーション（ＳＯＮＡｐｐｌｉｃａｔｉｏｎ）を備える。また、パラメータ設定装置２は、移動体通信網３の状態に応じて適切なＳＯＮアプリケーションを選択して動作させるＳＯＮコントローラを備える。
【００１６】
＜２．ハードウエア構成＞
続いて、パラメータ設定装置２の構成について説明する。図２は、パラメータ設定装置のハードウエア構成の第１例を示す図である。パラメータ設定装置２は、ＣＰＵ１０と、記憶装置１１と、有線インタフェース１２を備えるコンピュータである。なお、図２に示すハードウエア構成は、あくまでパラメータ設定装置２を実現する構成例の１つである。本明細書において後述する処理を実行するものであれば、他のどのようなハードウエア構成が採用されてもよい。
【００１７】
記憶装置１１には、パラメータ設定プログラム１４及びデータ１５が記憶される。記憶部１１は、ランダムアクセスメモリ（RAM: Random Access Memory）や、読み出し専用メモリ（ROM: Read Only Memory）や不揮発性メモリやハードディスクなどを記憶素子として含んでいてよい。ＣＰＵ１０は、記憶装置１１に記憶されるパラメータ設定プログラム１４を実行することにより、制御パラメータを設定するための後述の処理を実行する。有線インタフェース１２は、基地局４との通信処理を行う。ＣＰＵ１０と、記憶装置１１と、有線インタフェース１２は、バス１３で接続されている。
【００１８】
パラメータ設定装置２は、コンピュータに読み取り可能な可搬型記録媒体に記憶されたデータを読み取るための図示しないリムーバブルメディア読取部を備えていてもよい。リムーバブルメディア読み取り部は、例えばＣＤ−ＲＯＭドライブ装置やＤＶＤ−ＲＯＭドライブ装置、フレキシブルディスクドライブ装置、ＣＤ−Ｒドライブ装置や、ＤＶＤ−Ｒドライブ装置、ＭＯドライブ装置、フラッシュメモリ装置へのアクセス装置であってよい。ある実施例では、パラメータ設定プログラム１４はコンピュータ読み取り可能な可搬型記録媒体に格納されて頒布され、リムーバブルメディア読み取り部から記憶装置１１にインストールされてよい。
【００１９】
他の実施例でパラメータ設定装置２は、ローカルエリアネットワーク（ＬＡＮ）やインターネット等などのネットワークとの間でプログラムや各種データを入出力するネットワークインタフェースを備えていてもよい。パラメータ設定プログラム１４は、ネットワークインタフェースを経由して記憶装置１１にインストールされてもよい。
【００２０】
パラメータ設定プログラム１４は、複数のエージェントプログラム２０−１〜２０−ｎを備える。なお、以下の説明及び添付する図面においてエージェントプログラムを「エージェント」と表記することがある。また、エージェント２０−１〜２０−ｎを総称して「エージェント２０」と表記することがある。
【００２１】
ＳＯＮアプリケーションプログラム２１〜２６は、ＣＰＵ１０により実行されることにより、制御パラメータを自動的に最適化するＳＯＮアプリケーションとしてパラメータ設定装置２を動作させるコンピュータプログラムである。以下の説明及び添付する図面において、特に説明がない限り「ＳＯＮアプリケーションプログラム」を「ＳＯＮアプリケーション」と表記する。
【００２２】
ＳＯＮアプリケーション２１は、ＩＣＩＣ（セル間干渉調整: Inter Cell Interference Coordination）最適化を実施する。ＳＯＮアプリケーション２１は、干渉情報の収集周期の調整、及びエッジ／センタ間における無線リソース配分を最適化する。ＳＯＮアプリケーション２２は、各セルにおけるハンドオーバパラメータを最適化するＭＬＢ（モビリティロードバランス: Mobility Load Balance）を実施する。
【００２３】
ＳＯＮアプリケーション２３は、呼受付閾値を最適化するＡＣ（アドミッション制御: Admission Control）最適化を実施する。ＳＯＮアプリケーション２４は、接続中の呼の強制切断の要否の基準となる輻輳状態の判定閾値を最適化するＣＣ（輻輳制御: Congestion Control）最適化を実施する。
【００２４】
ＳＯＮアプリケーション２５は、基地局４のアンテナのチルト及びアジマスの設定、並びに送信電力を最適化するＣＣＯ（カバレッジ及び容量の最適化: Coverage & Capacity Optimization）を実施する。ＳＯＮアプリケーション２６は、セル６の電波送信器の電源投入及び電源切断を最適化するＥＳ（エナジーセービング: Energy Saving）を実施する。
【００２５】
なお、上記列挙したＳＯＮアプリケーション２１〜２６の処理は、移動体通信網３の制御パラメータを最適化する最適化処理の例示である。パラメータ設定装置２は、他の最適化処理を行うＳＯＮアプリケーションを備えてもよい。例えばパラメータ設定装置２は、ＭＲＯ（モビリティロバストネス最適化:Mobility Robustness Optimization）、ＬＬＲ（リンクレベル再送スキーム: Link level retransmission scheme）を行うＳＯＮアプリケーションを備えてもよい。また、例えばパラメータ設定装置２は、ＴＡＯ（呼び出しエリア最適化: Tracking Areas Optimization）を行うＳＯＮアプリケーションを備えてもよい。
【００２６】
エージェント２０は、パラメータ設定装置２をＳＯＮコントローラとして動作させる。各エージェント２０には１つ又はそれより多いセルが割り当てられる。各エージェント２０は、割り当てられたセルの状態に応じてＳＯＮアプリケーション２１〜２６の動作／不動作を制御し、ＳＯＮアプリケーションを動作させる場合には、ＳＯＮアプリケーション２１〜２６のうちいずれかを選択して動作させる。
【００２７】
エージェント２０は、移動体通信網３の状態に応じたＳＯＮアプリケーションの起動の要否を学習し、及び移動体通信網３の状態に応じていずれのＳＯＮアプリケーションを起動するかを学習する。この学習は、強化学習によって行われる。記憶装置１１には、強化学習に使用される価値関数３０−１〜価値関数３０−ｋがデータ１５として格納される。以下の説明において、価値関数３０−１〜価値関数３０−ｋを総称して「価値関数３０」と表記することがある。
【００２８】
＜３．強化学習＞
図３は、強化学習のモデルの説明図である。強化学習は、エージェント２０が、環境１００との相互作用から学習して最終的に受け取る報酬ｒｔの総量を最大化するように方策を改善する行程である。このような強化学習の例としては、例えばＱ−Ｌｅａｒｎｉｎｇが挙げられる。エージェント２０は、以下の手順（１）及び（２）で学習する。
【００２９】
（１）エージェント２０は、時刻ｔにおいて採るべき行動ａｔを環境１００の状態ｓｔに応じて選択する。
【００３０】
このとき、エージェント２０は、価値関数Ｑ（ｓ，ａ）に基づいて、状態ｓｔにおいて最大な報酬を得られる行動ａｔをある確率で優先的に選択する。価値関数Ｑ（ｓ，ａ）の例を図４に示す。価値関数Ｑ（ｓ，ａ）は、状態ｓで行動ａをした場合の行動価値を与える。例えば、図４の価値関数Ｑ（ｓ，ａ）によると、状態ｓｔの個々の構成要素である状態構成要素１、２及び３の値がそれぞれ「１ａ」、「２ａ」及び「３ａ」である場合に、行動「ａｃ２」を実行する行動価値は「０．５」となる。
【００３１】
状態ｓの状態構成要素１〜３がそれぞれ「１ａ」、「２ａ」及び「３ａ」ならば、最も行動価値が高い行動は「ａｃ１」である。例えば、εグリーディ方策が採用される場合には、最も行動価値が高い行動ａｃ１を選択する確率は「１−ε＋ε／｜Ａ（ｓ）｜」により定められ、それ以外の行動ａｃ２を選択する確率は「ε／｜Ａ（ｓ）｜」により定められる。ここで、値「ε」は、０≦ε≦１の設定値であり、値「｜Ａ（ｓ）｜」は、状態ｓにおいてエージェント２０が選択可能な行動の数である。図４の例では、選択可能な行動の例はａｃ１及びａｃ２の２個である。
【００３２】
（２）エージェント２０の行動ａｔにより、環境はｓｔ＋１へ状態遷移し、その遷移に応じた報酬ｒｔがエージェント２０に与えられる。エージェント２０は、報酬ｒｔに応じて、価値関数Ｑ（ｓ，ａ）を更新する。これにより価値関数から導出する方策が改善される。例えば、エージェント２０は、以下のような数式に従いＱ（ｓ，ａ）を更新してよい。設定値「α」及び「γ」はそれぞれ学習率及び割引率である。
【００３３】
【数１】

【００３４】
なお、価値関数として、図４に示すテーブル形式の価値関数以外の関数も使用可能である。例えば、他の実施例では価値関数Ｑ（ｓ，ａ）として、状態ｓ及び行動ａと、係数α１、α２、…を有する数式によって価値を算出する関数を使用してもよい。この場合にエージェント２０は、報酬ｒｔに応じて係数α１、α２、…を更新する。また、他の実施例では、εグリーディ方策に替えて他の方策を採用してもよい。他の実施例は、例えば、ソフトマックス法を採用してもよい。
【００３５】
次に、ＳＯＮコントローラによるＳＯＮアプリケーションの起動処理の学習に対してどのように強化学習が適用されるかを説明する。図５は、強化学習が適用されるＳＯＮコントローラの説明図である。ＳＯＮコントローラに強化学習を適用する場合、一つのセル６または複数のセルによって構成されるシステムに一つの状態ｓｔと、エージェント２０を一つ設け、エージェント２０がいずれかのＳＯＮアプリケ−ションを行動ａｔとしてを選択する。
【００３６】
状態ｓｔは、状態構成要素を離散化した値を組合せて形成される。例えば、状態構成要素は、セルエッジ/セル・スループット、セルエッジ/セル平均・パケット転送効率、セルエッジ/セル平均・干渉レベル、呼接続成功率、呼損率、無線リソース使用率、移動局分布、Energy Savingモード、隣接セル負荷であってよい。
【００３７】
一方、報酬ｒｔは、以下の報酬構成要素を重み付けしたのちにスカラー化することによって決定される。例えば、報酬構成要素は、例えば、セル・スループット、呼接続成功率、呼損率、無線リソース使用率、負荷偏在度であってよい。そして、例えば、呼接続成功率、呼損率、無線リソース使用率を重みづけ係数Ｗ１〜Ｗ３により、次式のように重みづけした後にスカラー値に変換する。
【００３８】
報酬ｒｔ＝Ｗ１×（呼接続成功率）＋Ｗ２×（１−呼損率）＋Ｗ３×（１−無線リソース使用率）
【００３９】
これにより、例えば、エージェントは、呼接続成功率、呼損率が悪く、無線リソース使用率が高いが、移動局がセル全体に一様に分布(移動局分布)している場合は、ＭＬＢではなく、ＣＣＯ最適化を起動して、負荷分散及び負荷低減を図るように学習することが期待される。このような学習効果が期待されるのは、ハンドオーバパラメータを調整して、移動局の接続セルを変更することで、負荷分散するＭＬＢは、セルエッジの移動局にしか効果を発揮することができないからである。
【００４０】
＜４．第１実施例＞
続いて、通信システム１の動作の実施例について説明する。図６は、学習処理の第１実施例の説明図である。エージェント２０−１は、セル６ａの状態に応じてＳＯＮアプリケーション２１〜２６を選択し、セル６ａ内における移動体通信網３の制御パラメータを最適化する。エージェント２０−２は、セル６ｂの状態に応じてＳＯＮアプリケーション２１〜２６を選択し、セル６ｂ内における移動体通信網３の制御パラメータを最適化する。なお、各エージェント２０が制御パラメータを最適化する範囲は、単一セルであってもよく、複数のセルを集合した範囲であってもよい。
【００４１】
このとき、エージェント２０−１は、セル６ａで測定される状態構成要素に基づいて状態を決定し、決定した状態に応じてＳＯＮアプリケーション２１〜２６のいずれかを選択して動作させる。エージェント２０−２は、セル６ｂで測定される状態構成要素に基づいて状態を決定し、決定した状態に応じてＳＯＮアプリケーション２１〜２６のいずれかを選択して動作させる。エージェント２０−１及び２０−２は、共通の価値関数３０−１に基づいて、ＳＯＮアプリケーション２１〜２６の動作又は不動作を選択し、動作させるアプリケーションを選択する。
【００４２】
エージェント２０−１は、セル６ａで測定される報酬構成要素に応じて報酬を決定し、決定した報酬に応じて、共通の価値関数３０−１の強化学習をエージェント２０−２とは別に実行する。一方で、エージェント２０−２は、セル６ｂで測定される報酬構成要素に応じて報酬を決定し、決定した報酬に応じて共通の価値関数３０−１の強化学習をエージェント２０−１とは別に実行する。このように、複数のエージェントが異なる範囲で決定した報酬に基づいて、共通の価値関数３０−１の学習を独立して行うことにより、エージェント間で学習効果が共有される。
【００４３】
図７は、エージェント２０の処理の第１例の説明図である。なお、以下、図６を参照して説明する一連の処理は複数の手順を含む方法と解釈してよい。この場合に「オペレーション」を「ステップ」と読み替えてもよい。図１０、図１２及び図１５に示す処理も同様である。
【００４４】
オペレーションＡＡにおいて各エージェント２０−１及び２０−２は、初期値が設定されている価値関数３０−１に従い、それぞれ割り当てられたセル６ａ及び６ｂで測定される状態に応じて実行させるＳＯＮアプリケーション２１〜２６を選択する。各エージェント２０−１及び２０−２は、選択したアプリケーションを実行することにより、セル６ａ及び６ｂにおける制御パラメータを最適化する。オペレーションＡＢにおいて各エージェント２０−１及び２０−２は、それぞれ割り当てられたセル６ａ及び６ｂで測定される報酬構成要素に応じて報酬を決定する。オペレーションＡＣにおいて各エージェント２０−１及び２０−２は、それぞれ決定した報酬に基づいて共通の価値関数３０−１の強化学習を実行する。オペレーションＡＤにおいて各エージェント２０−１及び２０−２は、学習結果を反映した価値関数３０−１に従い、セル６ａ及び６ｂで測定される状態に応じて実行させるＳＯＮアプリケーション２１〜２６を選択する。各エージェント２０−１及び２０−２は、選択したアプリケーションを実行することにより、セル６ａ及び６ｂにおける制御パラメータを最適化する。以下、オペレーションＡＢ〜ＡＤを反復する。
【００４５】
本実施例によれば、複数のエージェントがそれぞれ異なる範囲で決定した報酬に基づいて行う学習結果がエージェント間で共有される。したがって、単一のエージェントがそれぞれ固有の価値関数の学習を行う場合に比べて、同じ期間内に反映される学習効果を増加することができる。この結果、学習効率が向上することになる。
【００４６】
＜５．第２実施例＞
続いて、他の実施例について説明する。本実施例では、特性が似通った複数のセルの制御パラメータの最適化をそれぞれ行う複数のエージェントによって、共通の価値関数の学習を行う。図８は、パラメータ設定装置のハードウエア構成の第２例を示す図である。図２に示す構成要素と同様の構成要素には図２で使用した参照符号と同じ参照符号を付し、同一の機能については説明を省略する。
【００４７】
記憶装置１１には、強化学習に使用される第１価値関数３１−１〜価値関数３１−ｍと、第２価値関数３２−１〜価値関数３２−ｋがデータ１５として格納される。以下の説明において、第１価値関数３１−１〜価値関数３１−ｍを総称して「第１価値関数３１」と表記することがある。また、第２価値関数３２−１〜価値関数３２−ｋを総称して「第２価値関数３２」と表記することがある。
【００４８】
また、パラメータ設定プログラム１４は、エージェント２０による価値関数の学習を制御する学習コントローラプログラム２７を備える。以下の説明及び添付する図面において学習コントローラプログラムを「学習コントローラ」と表記することがある。
【００４９】
図９の（Ａ）及び図９の（Ｂ）は、学習処理の第２実施例の説明図である。以下の第２実施例〜第５実施例において、学習処理が、第１段階と第２段階に分けられる。図９の（Ａ）及び図９の（Ｂ）は、それぞれ学習処理の第１段階及び第２段階を示す。
【００５０】
第１段階では、エージェント２０−１〜２０−４は、それぞれセル６ａ〜６ｄにおける報酬を決定し、決定した報酬に応じて個別の第１価値関数３１−１〜３１−４の強化学習を実行する。またエージェント２０−１〜２０−４は、学習結果を反映した第１価値関数３１−１〜３１−４にそれぞれ従い、セル６ａ〜６ｄで測定される状態に応じて実行させるＳＯＮアプリケーション２１〜２６を選択する。エージェント２０−１〜２０−４は、それぞれ選択したアプリケーションを実行することで各セル６ａ〜６ｄにおける制御パラメータを最適化する。第１価値関数３１−１〜３１−４の学習及び制御パラメータの最適化は、所定期間に亘って反復される。
【００５１】
その後、学習コントローラ２７は、第１価値関数３１相互間の類似度を判断する。学習コントローラ２７は、類似度の高い第１価値関数３１同士を合成することにより第２価値関数３２を定める。図９の（Ｂ）は、第１価値関数３１−１と第１価値関数３１−２が合成されて第２価値関数３２−１が定められ、第１価値関数３１−３と第１価値関数３１−４が合成されて第２価値関数３２−２が定められた状態を示す。
【００５２】
第２段階では、各エージェント２０は、それぞれ第１段階で学習させていた第１価値関数３１を合成して定められた第２価値関数３２の強化学習を行う。また、エージェント２０は、第１段階で学習させていた第１価値関数３１を合成して定められた第２価値関数３２に従って、それぞれが制御パラメータを最適化するセル６で実行するＳＯＮアプリケーション２１〜２６を選択する。
【００５３】
図９の（Ｂ）の例では、エージェント２０−１及び２０−２は、それぞれセル６ａ及び６ｂにおける報酬を独立して決定し、決定した報酬に応じて共通の第２価値関数３２−１の強化学習を独立して実行する。エージェント２０−３及び２０−４は、それぞれセル６ｃ及び６ｄにおける報酬を独立して決定し、決定した報酬に応じて共通の第２価値関数３２−２の強化学習を独立して実行する。
【００５４】
また、エージェント２０−１及び２０−２は、学習結果を反映した共通の第２価値関数３２−１に従い、セル６ａ及び６ｂで測定される状態に応じて実行させるＳＯＮアプリケーション２１〜２６を選択する。エージェント２０−３及び２０−４は、学習結果を反映した共通の第２価値関数３２−２に従い、セル６ｃ及び６ｄで測定される状態に応じて実行させるＳＯＮアプリケーション２１〜２６を選択する。
【００５５】
図１０を参照して、上述のエージェント２０の処理を説明する。オペレーションＢＡ〜ＢＣの反復ループが上述の第１段階に相当し、オペレーションＢＧ〜ＢＩの反復処理が上述の第２段階に相当する。
【００５６】
オペレーションＢＡにおいて各エージェント２０は、第１の学習処理を行う。第１の学習処理において各エージェント２０は、それぞれに割り当てられたセル６における報酬を決定し、決定した報酬に応じて個別の第１価値関数３１の強化学習を実行する。
【００５７】
オペレーションＢＢにおいて各エージェント２０は、学習結果を反映した第１価値関数３１に従い、各セルで測定される状態に応じて実行させるＳＯＮアプリケーション２１〜２６をそれぞれ選択する。各エージェント２０は、選択したアプリケーションを実行することにより各セルにおける制御パラメータを最適化する。
【００５８】
オペレーションＢＣにおいて学習コントローラ２７は、反復ループＢＡ〜ＢＣが所定期間繰り返されたか否かを判断する。反復ループＢＡ〜ＢＣが所定期間繰り返された場合には（オペレーションＢＣ：Ｙ）処理はオペレーションＢＤに進む。反復ループＢＡ〜ＢＣが所定期間繰り返されていない場合には（オペレーションＢＣ：Ｎ）処理はオペレーションＢＡに戻る。
【００５９】
オペレーションＢＤにおいて学習コントローラ２７は、第１価値関数３１間の類似度を決定する。オペレーションＢＥにおいて学習コントローラ２７は、類似度に従って合成する第１価値関数３１の組合せを決定する。オペレーションＢＦにおいて学習コントローラ２７は、第１価値関数３１を合成する。
【００６０】
オペレーションＢＧにおいて各エージェント２０は、第２の学習処理を行う。第２の学習処理において各エージェント２０は、それぞれに割り当てられたセル６における報酬を決定する。各エージェント２０は、決定した報酬に応じて、第１の学習処理（オペレーションＢＡ）で学習させていた第１価値関数３１を合成して定められた第２価値関数３２の強化学習を独立して実行する。
【００６１】
オペレーションＢＨにおいて各エージェント２０は、第１段階で学習させていた第１価値関数３１を合成して定められた第２価値関数３２に従い、割り当てのセル６の制御パラメータを最適化するＳＯＮアプリケーション２１〜２６を選択し、実行する。
【００６２】
オペレーションＢＩにおいて学習コントローラ２７は、反復ループＢＧ〜ＢＩが所定期間繰り返されたか否かを判断する。反復ループＢＧ〜ＢＩが所定期間繰り返された場合には（オペレーションＢＩ：Ｙ）処理はオペレーションＢＤに戻る。反復ループＢＧ〜ＢＩが所定期間繰り返されていない場合には（オペレーションＢＩ：Ｎ）処理はオペレーションＢＧに戻る。
【００６３】
続いて、オペレーションＢＥ及びＢＦにおける類似度の決定処理と価値関数の合成処理の例を説明する。図１１は、価値関数の類似度の説明図である。例示する第１価値関数３１及び第２価値関数３２は、図４を参照して説明した情報要素の他に情報要素「学習経験回数」を備えている。「学習経験回数」は、エージェント２０が、各状態ｓｔにおいて各行動ａｔに対応するＳＯＮアプリケーションを実行した回数、すなわち各状態ｓｔ及び各行動ａｔに対応する行動価値Ｑ（ｓ，ａ）の更新回数を示す。例えば、第１価値関数３１−１の例の場合には、状態構成要素ｓｔ１、ｓｔ２及びｓｔ３がそれぞれ「１ａ」「２ａ」及び「３ａ」である状態において、行動ａｃ１が５回選択されている。
【００６４】
学習コントローラ２７は、第１価値関数３１の類似度を決定する場合、それぞれの状態ｓｔ毎に行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔが一致するか否かを判断し、行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔが一致する程度に応じて類似度を定める。例えば、図１１の例では、状態構成要素ｓｔ１、ｓｔ２及びｓｔ３がそれぞれ「１ａ」「２ａ」及び「３ａ」である状態における行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔは、第１価値関数３１−１及び３１−２のいずれにおいても「ａｃ１」である。このため、この状態では、第１価値関数３１−１及び３１−２間において行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔが一致する。
【００６５】
一方で、状態構成要素ｓｔ１、ｓｔ２及びｓｔ３がそれぞれ「１ａ」「２ａ」及び「３ｂ」である状態における行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔは、第１価値関数３１−１及び３１−２においてそれぞれ「ａｃ２」及び「ａｃ１」である。このため、この状態では、第１価値関数３１−１及び３１−２間において行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔが一致しない。学習コントローラ２７は、第１価値関数３１の状態ｓｔが取り得る値の数に対する、行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔが一致する状態の数の比率を類似度として定める。
【００６６】
ある実施例において、学習コントローラ２７は、行動価値が学習された状態のみを対象として、行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔの比較を行う。例えば、第１価値関数３１−１の構成要素ｓｔ１、ｓｔ２及びｓｔ３がそれぞれ「１ａ」「２ａ」及び「３ｃ」である状態では、行動ａｃ１が一度も選択されていない。行動ａｃ１に対応する行動価値Ｑ（ｓ，ａ）の値「１．０」は、プログラムによって設定された初期値であり、学習された値ではない。このため、第１価値関数３１−１の構成要素ｓｔ１、ｓｔ２及びｓｔ３がそれぞれ「１ａ」、「２ａ」及び「３ｃ」である状態の行動価値は、まだ学習されていない。
【００６７】
学習コントローラ２７は行動価値が学習された状態のうち、行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔが一致する状態の数を求め、学習コントローラ２７は行動価値が学習された状態に対する比率を類似度として定める。他の実施例では、学習コントローラ２７は、学習経験回数が所定回数以上である状態のみを対象として行動価値Ｑ（ｓ，ａ）が最も大きい行動ａｔの比較を行ってもよい。
【００６８】
第１価値関数３１を合成して第２価値関数３２を決定する場合には、学習コントローラ２７は、第１価値関数３１が取り得る状態ｓｔ及び行動ａｔを、第２価値関数３２が取り得る状態ｓｔ及び行動ａｔとして使用する。そして、各状態ｓｔ及び各行動ａｔ毎に、合成される第１価値関数３１の間で行動価値Ｑ（ｓ，ａ）の値を平均して、それぞれ対応する状態ｓｔ及び行動ａｔにおける第２価値関数３２の行動価値Ｑ（ｓ，ａ）の値を定める。他の実施例では、平均値に代えて、合成される第１価値関数３１の間における行動価値Ｑ（ｓ，ａ）の最小値や最大値を第２価値関数３２の行動価値Ｑ（ｓ，ａ）の値としてもよい。
【００６９】
次に、合成する価値関数の組合せの決定処理の例について説明する。図１２は、合成する価値関数の決定処理の説明図である。以下の説明において第１価値関数３１−ｎと第１価値関数３１−ｍと間の類似度を「ｎ−ｍ」と表記する（ｎ及びｍは、各々１以上の整数である）。
【００７０】
オペレーションＣＡにおいて学習コントローラ２７は、第１価値関数３１同士の全ての組合せについて決定された類似度を高い順にソートする。類似度がソートされた状態を図１３に示す。図１３の例では、第１価値関数３１−１〜３１−５について定めた類似度が示されている。各類似度は、類似度１−２、２−３、４−５、１−４、２−４、１−５、２−５、…、１−３の順に高い。また、類似度１−２、２−３、４−５、１−４、２−４、１−５、２−５は所定の閾値以上であり、類似度１−３は所定の閾値よりも小さい。
【００７１】
オペレーションＣＢにおいて学習コントローラ２７は、閾値以上の類似度で、まだ以下のオペレーションＣＣ〜ＣＭで処理されていない類似度があるか否かを判断する。１回目のオペレーションＣＢの判断では、閾値よりも高い類似度１−２、２−３、４−５、１−４、２−４、１−５、２−５、…、が未処理であるため（オペレーションＣＢ：Ｙ）、処理はオペレーションＣＣに進む。閾値よりも高い未処理の類似度がある間、オペレーションＣＢ〜ＣＭが反復され、閾値よりも高い未処理の類似度が無くなると（オペレーションＣＢ：Ｎ）と、処理は終了する。
【００７２】
オペレーションＣＣにおいて学習コントローラ２７は、未処理の類似度のうち最大の類似度ｎ−ｍを選択する。本例では類似度１−２が選択される。オペレーションＣＤにおいて学習コントローラ２７は、第１価値関数３１−ｎが第１価値関数３１−ｍ以外の他の第１価値関数３１と合成されることが、それまでに実行したオペレーションＣＣ〜ＣＭによって既に決定されているかを判断する。第１価値関数３１−ｎが第１価値関数３１−ｍ以外の他の第１価値関数３１と合成されることが決定されている場合には（オペレーションＣＤ：Ｙ）処理はオペレーションＣＥへ進む。第１価値関数３１−ｎがどの第１価値関数３１とも合成されることが決定されていない場合には（オペレーションＣＤ：Ｎ）処理はオペレーションＣＦへ進む。
【００７３】
オペレーションＣＥにおいて学習コントローラ２７は、第１価値関数３１−ｎ及び第１価値関数３１−ｎと合成されることが決定されている第１価値関数３１とからなる第１価値関数のグループを形成する。以下、このグループを合成グループａと呼ぶ。その後、処理はオペレーションＣＧへ進む。一方、オペレーションＣＦにおいて学習コントローラ２７は、合成グループａを第１価値関数３１−ｎだけで形成する。その後、処理はオペレーションＣＧへ進む。本例では、この時点で第１価値関数３１−１はまだどの第１価値関数とも合成されるとも決定されていないため（オペレーションＣＤ：Ｎ）、オペレーションＣＦにおいて第１価値関数３１−１のみの合成グループａが形成される。
【００７４】
オペレーションＣＧにおいて学習コントローラ２７は、第１価値関数３１−ｍが第１価値関数３１−ｎ以外の他の第１価値関数３１と合成されることが、それまでに実行したオペレーションＣＣ〜ＣＭによって既に決定されているかを判断する。第１価値関数３１−ｍが第１価値関数３１−ｎ以外の他の第１価値関数３１と合成されることが決定されている場合には（オペレーションＣＧ：Ｙ）処理はオペレーションＣＨへ進む。第１価値関数３１−ｍがどの第１価値関数３１とも合成されることが決定されていない場合には（オペレーションＣＧ：Ｎ）処理はオペレーションＣＩへ進む。
【００７５】
オペレーションＣＨにおいて学習コントローラ２７は、第１価値関数３１−ｍ及び第１価値関数３１−ｍと合成されることが決定されている第１価値関数３１とからなる第１価値関数のグループを形成する。以下、このグループを合成グループｂと呼ぶ。その後、処理はオペレーションＣＪへ進む。一方、オペレーションＣＩにおいて学習コントローラ２７は、合成グループｂを第１価値関数３１−ｍだけで形成する。その後、処理はオペレーションＣＪへ進む。本例では、この時点で第１価値関数３１−２はまだどの第１価値関数とも合成されるとも決定されていないため（オペレーションＣＧ：Ｎ）、オペレーションＣＩにおいて第１価値関数３１−２のみの合成グループｂが形成される。
【００７６】
オペレーションＣＪにおいて学習コントローラ２７は、合成グループａ及びｂに含まれる第１価値関数３１の組合せの全てにおいて、類似度が閾値よりも大きいか否かを判断する。類似度が閾値よりも大きい場合には（オペレーションＣＪ：Ｙ）処理はオペレーションＣＬへ進む。類似度が閾値よりも大きくない場合には（オペレーションＣＪ：Ｎ）は、処理はオペレーションＣＫへ進む。オペレーションＣＫにおいて学習コントローラ２７は、第１価値関数３１−ｎ及び３１−ｍを合成すると決定せずに類似度ｎ−ｍを処理済みの類似度にする。その後に処理はオペレーションＣＢに戻る。
【００７７】
本例では、この時点で、合成グループａ及びｂに含まれる第１価値関数３１の組合せは、第１価値関数３１−１及び３１−２だけであり、類似度１−２は閾値を超えるので（オペレーションＣＪ：Ｙ）処理はオペレーションＣＬへ進む。
【００７８】
オペレーションＣＬにおいて学習コントローラ２７は合成グループａ及びｂに含まれる第１価値関数３１同士を合成すると決定する。オペレーションＣＭにおいて学習コントローラ２７は、合成グループａ及びｂに含まれる第１価値関数３１の組合せの全ての類似度を処理済みの類似度にする。本例では、この時点で、第１価値関数３１−１及び３１−２を合成すると決定され類似度１−２が処理済みになる。そして処理がオペレーションＣＢに戻る。
【００７９】
次のループでは、オペレーションＣＣにおいて２番目に大きい類似度２−３が選択される。第１価値関数３１−ｎである関数３１−２は、第１価値関数３１−１と合成されることが決定されているので、オペレーションＣＤの判断によって学習コントローラ２７はオペレーションＣＥを実行する。オペレーションＣＥにおいて学習コントローラ２７は、第１価値関数３１−１及び３１−２を含む合成グループａを形成する。
【００８０】
一方で第１価値関数３１−ｍである関数３１−３は、まだどの第１価値関数３１とも合成されることが決定されていない。このためオペレーションＣＧの判断によって学習コントローラ２７はオペレーションＣＩを実行する。オペレーションＣＩにおいて学習コントローラ２７は、第１価値関数３１−３のみを含む合成グループｂを形成する。
【００８１】
ペレーションＣＪにおいて学習コントローラ２７は、合成グループａ及びｂに含まれる第１価値関数３１の組合せの全てにおいて、類似度が閾値よりも大きいか否かを判断する。この時点では、第１価値関数３１の組合せは第１価値関数３１−１〜３１−３の組合せであり、類似度１−３が閾値より小さいので（オペレーションＣＪ：Ｎ）処理はオペレーションＣＫへ進む。オペレーションＣＫにおいて学習コントローラ２７は、第１価値関数３１−２及び３１−３を合成すると決定せずに類似度２−３を処理済みの類似度にする。そして処理がオペレーションＣＢに戻る。
【００８２】
次のループでは、オペレーションＣＣにおいて３番目に大きい類似度４−５が選択される。この時点では、第１価値関数３１−ｎである関数３１−４と、第１価値関数３１−ｍである関数３１−５は、いずれの第１価値関数３１とも合成されることが決まっていない。従って、第１価値関数３１−１及び３１−２の場合と同様に、オペレーションＣＤ、ＣＦ、ＣＧ、ＣＩ、ＣＪ〜ＣＭにおいて学習コントローラ２７は、第１価値関数３１−４及び３１−５を合成すると決定する。そして処理がオペレーションＣＢに戻る。
【００８３】
次のループでは、オペレーションＣＢにおいて４番目に大きい類似度１−４が選択される。第１価値関数３１−ｎである関数３１−１は、第１価値関数３１−２と合成されることが決定されているので、オペレーションＣＤの判断によって学習コントローラ２７はオペレーションＣＥを実行する。オペレーションＣＥにおいて学習コントローラ２７は、第１価値関数３１−１及び３１−２を含む合成グループａを形成する。
【００８４】
また、第１価値関数３１−ｍである関数３１−４は、第１価値関数３１−５と合成されることが決定されているので、オペレーションＣＧの判断によって学習コントローラ２７はオペレーションＣＨを実行する。オペレーションＣＨにおいて学習コントローラ２７は、第１価値関数３１−４及び３１−５を含む合成グループｂを形成する。
【００８５】
ペレーションＣＪにおいて学習コントローラ２７は、合成グループａ及びｂに含まれる第１価値関数３１の組合せの全てにおいて、類似度が閾値よりも大きいか否かを判断する。この時点では、第１価値関数３１の組合せは第１価値関数３１−１、３１−２、３１−４及び３１−５の組合せである。これらの価値関数間の類似度１−２、１−４、１−５、２−４、２−５及び４−５は全て閾値を超えるので（オペレーションＣＪ：Ｙ）処理はオペレーションＣＬへ進む。
【００８６】
オペレーションＣＬにおいて学習コントローラ２７は合成グループａ及びｂに含まれる数３１−１、３１−２、３１−４及び３１−５を合成すると決定する。オペレーションＣＭにおいて学習コントローラ２７は、合成グループａ及びｂに含まれる第１価値関数３１の組合せの全ての類似度を処理済みの類似度にする。このため新たに類似度２−４、１−５及び２−５が処理済みの類似度になる。そして処理がオペレーションＣＢに戻る。以下、閾値よりも高い未処理の類似度がなくなるまで、オペレーションＣＢ〜ＣＭが反復される。
【００８７】
以上のように、類似度が高い組合せから順に各組合せの第１価値関数の合成可否を判断する。その際に、一方の第１価値関数が、他方の第１価値関数以外の更に他の第１価値関数と合成されることが決定されていれば、他方の第１価値関数と更に他の第１価値関数との類似度に応じて合成可否を判断する。これによって、３個以上の第１価値関数３１を合成して１つの第２価値関数３２を合成するに際して、類似度が閾値を超えない第１価値関数３１同士が合成されることを防止しつつ、類似度が高い第１価値関数３１同士をより優先して合成することができる。
【００８８】
本実施例では、特性が類似する複数のセルの制御パラメータの最適化をそれぞれ行う複数のエージェントによって、共通の価値関数の強化学習を行うことができる。このため、複数のセルにおける学習効果を共通の価値関数に反映させて学習速度を向上させるとともに、セルの特性に応じた価値関数の学習を行うことができる。
【００８９】
＜６．第３実施例＞
続いて、他の実施例について説明する。本実施例では、上述の第２実施例と同様に第１価値関数３１を合成して共通の第２価値関数３２を定めた後に、第１価値関数３１間の類似度が閾値よりも小さくなるか否かを判断する。第１価値関数３１間の類似度が閾値より小さくなった場合には、第２価値関数３２の学習と、第２価値関数３２に従うＳＯＮアプリケーションの選択を停止し、第１価値関数３１の学習と、第１価値関数３１に従うＳＯＮアプリケーションの選択を再開する。第２価値関数３２の学習及び第２価値関数３２に従うＳＯＮアプリケーションの選択を停止し、第１価値関数３１の学習と第１価値関数３１に従うＳＯＮアプリケーションの選択を再開することを第２価値関数３２を「分解する」と表現することがある。
【００９０】
図１４の（Ａ）及び図１４の（Ｂ）は、学習処理の第３実施例の説明図である。図１４の（Ａ）に示すセル６ａ〜６ｃ、エージェント２０−１〜２０−４、第１価値関数３１−１〜３１−４及び第２価値関数３２−１〜３２−２の関係は、上記「５．第２実施例」で説明した関係と同様である。
【００９１】
エージェント２０−１及び２０−２は、第２価値関数３２−１の学習と併行してそれぞれ第１価値関数３１−１及び３１−２の学習を行う。エージェント２０−３及び２０−４は、第２価値関数３２−２の学習と併行してそれぞれ第１価値関数３１−３及び３１−４の学習を行う。
【００９２】
その後に、第２価値関数３２−１に合成された第１価値関数３１−１及び３１−２間の類似度が閾値よりも低くなる場合を想定する。この場合に、学習コントローラ２７は、第２価値関数３２−１の学習を分解する。この状態を図１４の（Ｂ）に示す。
【００９３】
図１５を参照して、上述のエージェント２０の処理を説明する。オペレーションＤＡ〜ＤＤは、図１０を参照して説明したオペレーションＢＡ〜ＢＤと同様である。オペレーションＤＥにおいて学習コントローラ２７は、分解する第２価値関数３２を決定する。この場合に学習コントローラ２７は、各第２価値関数３２に合成されている第１価値関数３１のいずれかの組合せにおいて類似度が閾値を超えない場合に、第２価値関数３２を分解すると判断する。このため各エージェント２０は、後述の通り、下記オペレーションＤＩにおいて第２価値関数３２の学習と併行して、第１段階（オペレーションＤＡ〜ＤＣ）で学習させていた第１価値関数３１も学習させる。
【００９４】
オペレーションＤＦにおいて学習コントローラ２７は、オペレーションＤＥで決定した第２価値関数を分解する。オペレーションＤＧ、ＤＨ、ＤＪ及びＤＫは、図１０を参照して説明したオペレーションＢＥ、ＢＦ、ＢＨ及びＢＩと同様である。オペレーションＤＩにおいて各エージェント２０は、第２の学習処理を行う。各エージェント２０は、それぞれに割り当てられたセル６における報酬を決定する。各エージェント２０は、決定した報酬に応じて、第１の学習処理（オペレーションＤＡ）で学習させていた第１価値関数３１と、第１価値関数３１を合成して定められた第２価値関数３２の強化学習を、他のエージェント２０とは独立して実行する。
【００９５】
本実施例によれば、第２価値関数に合成された第１価値関数間の類似度が低下した場合に第２価値関数を分解することにより、類似度の低いセルの学習効果が同じ価値関数に及ぼす影響によって学習効率が低下することを防止できる。
【００９６】
＜７．第４実施例＞
続いて、他の実施例について説明する。本実施例では、特性が類似すると予想されるセル毎に分類された、複数のセルを含むセルのグループが形成される。各セルが割り当てられたエージェント２０は、学習処理の第１段階において、セルのグループ毎に共通の第１価値関数３１の学習を行う。
【００９７】
図１６の（Ａ）及び図１６の（Ｂ）は、学習処理の第４実施例の説明図である。本例では、セル６ａ及び６ｂが１つのセルグループを形成し、セル６ｃ及び６ｄが１つのセルグループを形成し、セル６ｅ及び６ｆが１つのセルグループを形成する。例えば、セル６ａ及び６ｂはマクロセルであり、セル６ｃ及び６ｄはフェムトセルであり、セル６ｅ及び６ｆはピコセルである。
【００９８】
マクロセル、ピコセル及びフェムトセルの順に送信電力が大きい。このように送信電力の違いに基づいてセルをグループ化してよい。また、ピコセルは屋内に配置される場合もあるが、ビルの陰など屋外に配置される場合もあり、この場合は屋外に配置されるか屋内に配置されるかに応じて異なる複数のピコセルのグループを形成してもよい。すなわち、基地局の設置状態の違いに基づいてセルをグループ化してもよい。
【００９９】
エージェント２０−１〜２０−６は、それぞれセル６ａ〜６ｆで測定される状態構成要素に基づいて状態を決定し、決定した状態に応じてＳＯＮアプリケーション２１〜２６のいずれかを選択して動作させて、セル６ａ〜６ｆ内における制御パラメータを最適化する。
【０１００】
エージェント２０−１及び２０−２は、共通の第１価値関数３１−１に基づいて、ＳＯＮアプリケーション２１〜２６の動作又は不動作を選択し、動作させるアプリケーションを選択する。また、エージェント２０−３及び２０−４は、共通の第１価値関数３１−２に基づいて、ＳＯＮアプリケーション２１〜２６の動作又は不動作を選択し、動作させるアプリケーションを選択する。エージェント２０−５及び２０−６は、共通の第１価値関数３１−３に基づいて、ＳＯＮアプリケーション２１〜２６の動作又は不動作を選択し、動作させるアプリケーションを選択する。
【０１０１】
エージェント２０−１は、セル６ａで測定される報酬構成要素に応じて報酬を決定し、決定した報酬に応じて共通の第１価値関数３１−１の強化学習を実行する。一方で、エージェント２０−２は、セル６ｂで測定される報酬構成要素に応じて報酬を決定し、決定した報酬に応じて共通の第１価値関数３１−１の強化学習を実行する。他の実施例では、第１価値関数３１−１の学習が、エージェント２０−１及び２０−２が決定した報酬の平均値に基づいて行われてもよい。
【０１０２】
エージェント２０−３及び２０−４も同様に共通の第１価値関数３１−２の強化学習を実行し、エージェント２０−５及び２０−６も同様に共通の第１価値関数３１−３の強化学習を実行する。
【０１０３】
その後、学習コントローラ２７は、第１価値関数３１相互間の類似度を判断する。学習コントローラ２７は、類似度の高い第１価値関数３１同士を合成することにより第２価値関数３２を定める。図１６の（Ｂ）は、第１価値関数３１−２と第１価値関数３１−３が合成されて第２価値関数３２−１が定められた状態を示す。
【０１０４】
第２段階では、第２価値関数３２に合成された第１価値関数３１の学習を第１段階で行っていた各エージェント２０によって、この第２価値関数３２の強化学習が実行される。また、これらのエージェント２０は、第１段階で学習させていた第１価値関数３１を合成した第２価値関数３２に従って、それぞれが制御パラメータを最適化するセル６で実行するＳＯＮアプリケーション２１〜２６を選択する。
【０１０５】
図１６の（Ｂ）の例では、エージェント２０−３〜２０−６は、それぞれセル６ｃ〜６ｆにおける報酬を独立して決定し、決定した報酬に応じて共通の第２価値関数３２−１の強化学習を独立して実行する。また、エージェント２０−３〜２０−６は、学習結果を反映した共通の第２価値関数３２−１に従い、セル６ｃ〜６ｆで測定される状態に応じて実行させるＳＯＮアプリケーション２１〜２６を選択する。
【０１０６】
本実施例によれば、学習の第１段階から、複数セルにおける学習効果を共通の価値関数に及ぼすことができるため、学習効果が更に向上する。
【０１０７】
＜８．第５実施例＞
続いて、他の実施例について説明する。本実施例では、学習の第１段階を計算機シミュレーションによって行い、学習の第２段階を、実際の移動体通信網で行う。図１７は、パラメータ設定装置のハードウエア構成の第３例を示す図である。図８に示す構成要素と同様の構成要素には図８で使用した参照符号と同じ参照符号を付し、同一の機能については説明を省略する。
【０１０８】
記憶装置１１には、シミュレーションプログラム１６が格納される。シミュレーションプログラムは、疑似基地局、疑似セル、疑似移動局をシミュレートするプログラムモジュールを動作させ、設定された制御パラメータに対して、実際の移動体通信網がなると予想される状態を算出する。
【０１０９】
学習の第１段階では、パラメータ設定プログラム１４及びエージェント２０は、シミュレーションプログラム１６が模擬した疑似移動体通信網に対して学習処理及び最適化処理を行う。このため、パラメータ設定プログラム１６は、実際の移動体通信網において学習処理を行った場合と比べて、第１段階の実行時間を大幅に短縮することが可能となる。例えば、図１０のオペレーションＢＡ〜ＢＣの反復を１時間行う場合に、シミュレーションプログラム１６による計算によれば同程度の学習を５分で実行できる。
【０１１０】
以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
移動体通信網の状態変数に応じて前記移動体通信網の制御パラメータを設定するパラメータ設定装置であって、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
を実行するプロセッサを備えることを特徴とするパラメータ設定装置。
（付記２）
前記プロセッサは、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた各最適化処理の行動価値を定める第１価値関数を強化学習により学習する第１学習処理と、
前記範囲毎に学習した第１価値関数を合成することにより第２価値関数を前記共通の価値関数として定める合成処理と、を実行し、
共通の前記第２価値関数に合成される第１価値関数の学習が各々行われた複数の前記範囲について決定される前記報酬毎に、前記報酬に応じて前記共通の第２価値関数を更新する強化学習を行う第２学習処理を、前記強化学習処理として実行することを特徴とする付記１に記載のパラメータ設定装置。
（付記３）
前記プロセッサは、
第１価値関数間の類似度を決定する類似度決定処理と、
前記合成処理において第１価値関数を合成するか否かを、前記第１価値関数間の類似度に応じて定める可否判断処理と、
を実行することを特徴とする付記２に記載のパラメータ設定装置。
（付記４）
前記類似度決定処理において前記プロセッサは、同一の状態変数に対して最大の行動価値を有する最適化処理が一致する程度に応じて、第１価値関数間の類似度を決定することを特徴とする付記３に記載のパラメータ設定装置。
（付記５）
前記類似度決定処理において、前記第１学習処理において行動価値が学習された状態変数の数に対する、最大の行動価値を有する最適化処理が一致する状態変数の数の比率に応じて、第１価値関数間の類似度を決定することを特徴とする付記４に記載のパラメータ設定装置。
（付記６）
前記合成可否判断処理において前記プロセッサは、
第１価値関数を合成するか否かを、第１価値関数間の類似度が高い組合せから順に判断し、
一対の第１価値関数を合成するか否かを判断する場合に、前記一対の第１価値関数の一方の第１価値関数が、前記一対の第１価値関数の他方の第１価値関数以外の更に他の第１価値関数と合成されることが決定されている場合に、前記他方の第１価値関数と前記更に他の第１価値関数との類似度に応じて判断することを特徴とする付記３〜５のいずれか一項に記載のパラメータ設定装置。
（付記７）
前記合成処理において前記プロセッサは、合成される第１価値関数間における行動価値の平均値を、第２価値関数の行動価値として定める付記２〜６のいずれか一項に記載のパラメータ設定装置。
（付記８）
第２価値関数の合成後に前記プロセッサは、
前記第２価値関数に合成された前記第１価値関数を強化学習により学習する処理と、
前記第１価値関数の学習が各々行われる複数の範囲において、前記第１価値関数に従い複数の最適化処理のうちいずれかを選択して実行する処理と、を実施し、
前記第１価値関数の学習が各々行われる複数の範囲において、前記第２価値関数に従い最適化処理を選択して実行する処理を停止することを特徴とする付記２〜７のいずれか一項に記載のパラメータ設定装置。
（付記９）
前記プロセッサは、前記第２価値関数に合成された前記第１価値関数間の類似度を決定する処理を実行し、
前記類似度が所定の条件を満たす場合には、前記第２価値関数に従い最適化処理を選択して実行する処理を停止して、前記第１価値関数に従い最適化処理のうちいずれかを選択して実行することを特徴とする付記８に記載のパラメータ設定装置。
（付記１０）
前記プロセッサは、
複数のセルをグループ化して形成されるセルのグループ毎に、共通の第１価値関数に従い、セル内の状態変数に応じて複数の最適化処理のうちいずれかを選択して実行する処理と、
セル内の状態変数に応じた報酬を決定する処理と、を実行し、
前記第１学習処理において、前記報酬に応じて前記共通の第１価値関数を更新する強化学習を行うことを特徴とする付記２〜９のいずれか一項に記載のパラメータ設定装置。
（付記１１）
前記セルのグループは、基地局からの送信電力の相違及び／又は設置状態の相違に基づき分類されたグループであることを特徴とする付記１０に記載のパラメータ設定装置。
（付記１２）
前記プロセッサは、前記移動体通信網の制御パラメータに対する状態変数の変化をシミュレートすることにより、前記第１学習処理を実行することを特徴とする請求項２〜１１のいずれか一項に記載のパラメータ設定装置。
（付記１３）
移動体通信網の状態変数に応じて前記移動体通信網の制御パラメータを設定するコンピュータプログラムであって、
前記コンピュータプログラムは、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて、前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
をコンピュータに実行させることを特徴とするコンピュータプログラム。
（付記１４）
移動体通信網の状態変数に応じて該移動体通信網の制御パラメータを設定するパラメータ設定方法であって、
コンピュータに、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて、前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
を実行させることを特徴とするパラメータ設定方法。
【符号の説明】
【０１１１】
１通信システム
２パラメータ設定装置
３移動体通信網
４基地局装置
５移動局装置
６セル
１０ＣＰＵ
１１記憶装置
１４パラメータ設定プログラム
２０エージェント
３０価値関数
３１第１価値関数
３２第２価値関数

【特許請求の範囲】
【請求項１】
移動体通信網の状態変数に応じて前記移動体通信網の制御パラメータを設定するパラメータ設定装置であって、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
を実行するプロセッサを備えることを特徴とするパラメータ設定装置。
【請求項２】
前記プロセッサは、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた各最適化処理の行動価値を定める第１価値関数を強化学習により学習する第１学習処理と、
前記範囲毎に学習した第１価値関数を合成することにより第２価値関数を前記共通の価値関数として定める合成処理と、を実行し、
共通の前記第２価値関数に合成される第１価値関数の学習が各々行われた複数の前記範囲について決定される前記報酬毎に、前記報酬に応じて前記共通の第２価値関数を更新する強化学習を行う第２学習処理を、前記強化学習処理として実行することを特徴とする請求項１に記載のパラメータ設定装置。
【請求項３】
前記プロセッサは、
第１価値関数間の類似度を決定する類似度決定処理と、
前記合成処理において第１価値関数を合成するか否かを、前記第１価値関数間の類似度に応じて定める可否判断処理と、
を実行することを特徴とする請求項２に記載のパラメータ設定装置。
【請求項４】
前記類似度決定処理において前記プロセッサは、同一の状態変数に対して最大の行動価値を有する最適化処理が一致する程度に応じて、第１価値関数間の類似度を決定することを特徴とする請求項３に記載のパラメータ設定装置。
【請求項５】
前記合成可否判断処理において前記プロセッサは、
第１価値関数を合成するか否かを、第１価値関数間の類似度が高い組合せから順に判断し、
一対の第１価値関数を合成するか否かを判断する場合に、前記一対の第１価値関数の一方の第１価値関数が、前記一対の第１価値関数の他方の第１価値関数以外の更に他の第１価値関数と合成されることが決定されている場合に、前記他方の第１価値関数と前記更に他の第１価値関数との類似度に応じて判断することを特徴とする請求項３〜４のいずれか一項に記載のパラメータ設定装置。
【請求項６】
前記合成処理において前記プロセッサは、合成される第１価値関数間における行動価値の平均値を、第２価値関数の行動価値として定める請求項２〜５のいずれか一項に記載のパラメータ設定装置。
【請求項７】
第２価値関数の合成後に前記プロセッサは、
前記第２価値関数に合成された前記第１価値関数を強化学習により学習する処理と、
前記第１価値関数の学習が各々行われる複数の範囲において、前記第１価値関数に従い複数の最適化処理のうちいずれかを選択して実行する処理と、を実施し、
前記第１価値関数の学習が各々行われる複数の範囲において、前記第２価値関数に従い最適化処理を選択して実行する処理を停止することを特徴とする請求項２〜６のいずれか一項に記載のパラメータ設定装置。
【請求項８】
前記プロセッサは、前記第２価値関数に合成された前記第１価値関数間の類似度を決定する処理を実行し、
前記類似度が所定の条件を満たす場合には、前記第２価値関数に従い最適化処理を選択して実行する処理を停止して、前記第１価値関数に従い最適化処理のうちいずれかを選択して実行することを特徴とする請求項７に記載のパラメータ設定装置。
【請求項９】
前記プロセッサは、
複数のセルをグループ化して形成されるセルのグループ毎に、共通の第１価値関数に従い、セル内の状態変数に応じて複数の最適化処理のうちいずれかを選択して実行する処理と、
セル内の状態変数に応じた報酬を決定する処理と、を実行し、
前記第１学習処理において、前記報酬に応じて前記共通の第１価値関数を更新する強化学習を行うことを特徴とする請求項２〜８のいずれか一項に記載のパラメータ設定装置。
【請求項１０】
前記プロセッサは、前記移動体通信網の制御パラメータに対する状態変数の変化をシミュレートすることにより、前記第１学習処理を実行することを特徴とする請求項２〜９のいずれか一項に記載のパラメータ設定装置。
【請求項１１】
移動体通信網の状態変数に応じて前記移動体通信網の制御パラメータを設定するコンピュータプログラムであって、
前記コンピュータプログラムは、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて、前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
をコンピュータに実行させることを特徴とするコンピュータプログラム。
【請求項１２】
移動体通信網の状態変数に応じて該移動体通信網の制御パラメータを設定するパラメータ設定方法であって、
コンピュータに、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて、前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
を実行させることを特徴とするパラメータ設定方法。

【図１】