説明

パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法

【課題】無線通信網の状態に応じたユースケースの適用を学習するために強化学習を行う場合における学習効率が向上する。
【解決手段】移動体通信網3の状態変数に応じて移動体通信網3の制御パラメータを設定するパラメータ設定装置2は、状態変数stに応じた各最適化処理の行動価値Q(s,a)を定める共通の価値関数30に従い、無線通信網3内の異なる複数の範囲(6a、6b)の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲(6a、6b)の各々について、範囲内の状態変数stに応じた報酬rtを決定する処理と、この範囲毎に決定された報酬rt毎に、報酬rtに応じて共通の価値関数30を更新する強化学習を行う強化学習処理を実行するプロセッサ10を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本明細書で論じられる実施態様は、移動体通信網の制御パラメータの設定に関する。
【背景技術】
【0002】
移動体通信網における各機器の制御パラメータの自動最適化のために、SON(Self-Organizing Network)の適用が検討されている。SONの利用が検討されている移動体通信網の規格の一例として、3GPP(Third Generation Partnership Project)で標準化しているLTE(Long Term Evolution)がある。SONでは、制御パラメータを最適化するための様々なユースケースが検討されている。
【0003】
また、最適化アルゴリズムとして、機械学習(Machine learning)の一種である強化学習(Reinforcement Learning)が知られている。強化学習は、エージェント(agent)が、環境(environment)の状態変数を参照することにより環境との相互作用から学習して、最終的に受け取る報酬(reward)の総量を最大化するように、方策(policy)を改善する。
【0004】
なお、1本以上のDSL回線を含む第1のDSL回線セットの動作を制御する方法が知られている。この方法は、1本以上のDSL回線を含む制御DSL回線セットを提供するステップと、前記制御DSL回線セットのサブセット内の、制御パラメータベクトルの第1の値を使用して、前記制御DSL回線セットを動作させるステップと、前記制御DSL回線セットの前記サブセット内の前記制御パラメータベクトルの前記第1の値を使用した、前記制御DSL回線セットの動作に関する動作データを収集するステップと、前記収集された動作データを解析するステップと、前記第1のDSL回線セットのうちの少なくとも1本の回線の、少なくとも1つの制御パラメータの値を調整するステップを含む。そして、前記収集された動作データを解析するステップは、前記収集された動作データを複数のクラスタに分類するステップと、前記複数のクラスタ内の各クラスタについて、パフォーマンス測定基準を評価するステップと、第1のクラスタを、前記第1のクラスタの前記パフォーマンス測定基準に基づいて選択するステップと、前記制御DSL回線セットの前記制御パラメータベクトルの値を、前記選択されたクラスタの制御パラメータベクトル値に一致するように更新するステップとを含む。
【0005】
また、所与の地点における受信電界強度を推定する電界強度推定装置が知られている。電界強度推定装置は、所与の地点の地理的計算条件を示す地理的数値から、補正前の電界強度推定値を求める予備推定部と、入力層、1つ以上の中間層及び出力層を有するニューラルネットワークの出力値の計算及び重み付け係数の更新を行うニューラルネットワーク処理部とを有する。推定モードの場合、地理的数値が入力層への入力値として使用され、出力層からの出力値に基づいて補正値が算出され、該補正値と補正前の電界強度推定値とを加えることで、補正後の電界強度推定値が算出及び出力される。学習モードの場合、推定モードで算出された補正値と、補正前の電界強度推定値及び実測値から導出された目標補正値との間の誤差が、出力層の出力値として設定され、ニューラルネットワーク処理部は、誤差逆伝搬法により、重み付け係数を更新する。
【0006】
また、センサを設置したネットワークであるセンサネットワークにおけるモデルを学習するモデル学習装置と、当該センサネットワークにおける特異的な観測値を検出する特異パターン検出装置とを有する特異パターン検出システムが知られている。モデル学習装置は、観測値データベースから、センサネットワークに設置された各センサの観測値のデータを受信し、この観測データと、事前知識データベースから得たセンサに関する事前知識とから各センサの親センサ群を求め、求められたセンサと親センサ群との依存関係を元に、センサ観測値の統計的なパラメータを求めて特異パターン検出装置に送信する。特異パターン検出装置は、観測値データベースから、特異パターン検出対象となる各観測時刻の観測データである観測パターンを受信し、親センサ群の情報と統計的なパラメータを用いて、受信した観測パターンの特異性を判定し、異常を検出する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特表2008−546297号公報
【特許文献2】特開2010−166185号公報
【特許文献3】特開2008−269215号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
開示の装置及び方法は、移動体通信網の状態に応じたユースケースの適用を学習するために強化学習を行う場合における学習効率を向上することを目的とする。
【課題を解決するための手段】
【0009】
装置の一観点によれば、移動体通信網の状態変数に応じて移動体通信網の制御パラメータを設定するパラメータ設定装置が与えられる。パラメータ設定装置は、状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、移動体通信網内の異なる複数の範囲の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲の各々について、範囲内の状態変数に応じた報酬を決定する処理と、この範囲毎に決定された報酬毎に、報酬に応じて共通の価値関数を更新する強化学習を行う強化学習処理を実行するプロセッサを備える。
【0010】
コンピュータプログラムの一観点によれば、移動帯通信網の状態変数に応じて移動帯通信網の制御パラメータを設定するコンピュータプログラムが与えられる。コンピュータプログラムは、状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、移動体通信網内の異なる複数の範囲の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲の各々について、範囲内の状態変数に応じた報酬を決定する処理と、この範囲毎に決定された報酬毎に、報酬に応じて共通の価値関数を更新する強化学習を行う強化学習処理をコンピュータに実行させる。
【0011】
方法の一観点によれば、移動帯通信網の状態変数に応じて移動体通信網の制御パラメータを設定するパラメータ設定方法が与えられる。パラメータ設定方法はコンピュータに、状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、移動体通信網内の異なる複数の範囲の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲の各々について、範囲内の状態変数に応じた報酬を決定する処理と、この範囲毎に決定された報酬毎に、報酬に応じて共通の価値関数を更新する強化学習を行う強化学習処理を実行させる。
【発明の効果】
【0012】
本件開示の装置又は方法によれば、移動体通信網の状態に応じたユースケースの適用を学習するために強化学習を行う場合における学習効率が向上する。
【図面の簡単な説明】
【0013】
【図1】通信システムの全体構成例を示す図である。
【図2】パラメータ設定装置のハードウエア構成の第1例を示す図である。
【図3】強化学習のモデルの説明図である。
【図4】価値関数の一例の説明図である。
【図5】強化学習が提供されるSONコントローラの説明図である。
【図6】学習処理の第1実施例の説明図である。
【図7】エージェントの処理の第1例の説明図である。
【図8】パラメータ設定装置のハードウエア構成の第2例を示す図である。
【図9】(A)及び(B)は、学習処理の第2実施例の説明図である。
【図10】エージェントの処理の第2例の説明図である。
【図11】価値関数の類似度の説明図である。
【図12】合成する価値関数の決定処理の説明図である。
【図13】類似度のソート及び選択の説明図である。
【図14】(A)及び(B)は、学習処理の第3実施例の説明図である。
【図15】エージェントの処理の第3例の説明図である。
【図16】(A)及び(B)は、学習処理の第4実施例の説明図である。
【図17】パラメータ設定装置のハードウエア構成の第3例を示す図である。
【発明を実施するための形態】
【0014】
<1.システム構成例>
以下、添付する図面を参照しての実施例について説明する。図1は、通信システムの全体構成例を示す図である。通信システム1は、パラメータ設定装置2及び移動体通信網3を備える。移動体通信網3は、基地局装置4a〜4c及び移動局装置5a〜5cによって形成される。参照符号6a〜6cは、それぞれ基地局4a〜4cによってカバーされるセルを示している。なお、以下の説明において、基地局装置及び移動局装置をそれぞれ基地局及び移動局と表記することがある。また、以下の説明において、基地局4a〜4c、移動局5a〜5c及びセル6a〜6cを総称して、それぞれ「基地局4」、「移動局5」及び「セル6」と表記することがある。
【0015】
パラメータ設定装置2は、基地局4及び移動局5から移動体通信網3の状態を収集し、移動体通信網3の状態に応じて基地局4及び移動局5を制御する制御パラメータを最適化する。移動体通信網3の状態の収集と制御パラメータの送信のため、パラメータ設定装置2は基地局4と有線ネットワークによって接続されていてよい。パラメータ設定装置2は、想定したユースケースに基づいて制御パラメータを自動的に最適化するため制御手段として、複数のSONアプリケーション(SON Application)を備える。また、パラメータ設定装置2は、移動体通信網3の状態に応じて適切なSONアプリケーションを選択して動作させるSONコントローラを備える。
【0016】
<2.ハードウエア構成>
続いて、パラメータ設定装置2の構成について説明する。図2は、パラメータ設定装置のハードウエア構成の第1例を示す図である。パラメータ設定装置2は、CPU10と、記憶装置11と、有線インタフェース12を備えるコンピュータである。なお、図2に示すハードウエア構成は、あくまでパラメータ設定装置2を実現する構成例の1つである。本明細書において後述する処理を実行するものであれば、他のどのようなハードウエア構成が採用されてもよい。
【0017】
記憶装置11には、パラメータ設定プログラム14及びデータ15が記憶される。記憶部11は、ランダムアクセスメモリ(RAM: Random Access Memory)や、読み出し専用メモリ(ROM: Read Only Memory)や不揮発性メモリやハードディスクなどを記憶素子として含んでいてよい。CPU10は、記憶装置11に記憶されるパラメータ設定プログラム14を実行することにより、制御パラメータを設定するための後述の処理を実行する。有線インタフェース12は、基地局4との通信処理を行う。CPU10と、記憶装置11と、有線インタフェース12は、バス13で接続されている。
【0018】
パラメータ設定装置2は、コンピュータに読み取り可能な可搬型記録媒体に記憶されたデータを読み取るための図示しないリムーバブルメディア読取部を備えていてもよい。リムーバブルメディア読み取り部は、例えばCD−ROMドライブ装置やDVD−ROMドライブ装置、フレキシブルディスクドライブ装置、CD−Rドライブ装置や、DVD−Rドライブ装置、MOドライブ装置、フラッシュメモリ装置へのアクセス装置であってよい。ある実施例では、パラメータ設定プログラム14はコンピュータ読み取り可能な可搬型記録媒体に格納されて頒布され、リムーバブルメディア読み取り部から記憶装置11にインストールされてよい。
【0019】
他の実施例でパラメータ設定装置2は、ローカルエリアネットワーク(LAN)やインターネット等などのネットワークとの間でプログラムや各種データを入出力するネットワークインタフェースを備えていてもよい。パラメータ設定プログラム14は、ネットワークインタフェースを経由して記憶装置11にインストールされてもよい。
【0020】
パラメータ設定プログラム14は、複数のエージェントプログラム20−1〜20−nを備える。なお、以下の説明及び添付する図面においてエージェントプログラムを「エージェント」と表記することがある。また、エージェント20−1〜20−nを総称して「エージェント20」と表記することがある。
【0021】
SONアプリケーションプログラム21〜26は、CPU10により実行されることにより、制御パラメータを自動的に最適化するSONアプリケーションとしてパラメータ設定装置2を動作させるコンピュータプログラムである。以下の説明及び添付する図面において、特に説明がない限り「SONアプリケーションプログラム」を「SONアプリケーション」と表記する。
【0022】
SONアプリケーション21は、ICIC(セル間干渉調整: Inter Cell Interference Coordination)最適化を実施する。SONアプリケーション21は、干渉情報の収集周期の調整、及びエッジ/センタ間における無線リソース配分を最適化する。SONアプリケーション22は、各セルにおけるハンドオーバパラメータを最適化するMLB(モビリティロードバランス: Mobility Load Balance)を実施する。
【0023】
SONアプリケーション23は、呼受付閾値を最適化するAC(アドミッション制御: Admission Control)最適化を実施する。SONアプリケーション24は、接続中の呼の強制切断の要否の基準となる輻輳状態の判定閾値を最適化するCC(輻輳制御: Congestion Control)最適化を実施する。
【0024】
SONアプリケーション25は、基地局4のアンテナのチルト及びアジマスの設定、並びに送信電力を最適化するCCO(カバレッジ及び容量の最適化: Coverage & Capacity Optimization)を実施する。SONアプリケーション26は、セル6の電波送信器の電源投入及び電源切断を最適化するES(エナジーセービング: Energy Saving)を実施する。
【0025】
なお、上記列挙したSONアプリケーション21〜26の処理は、移動体通信網3の制御パラメータを最適化する最適化処理の例示である。パラメータ設定装置2は、他の最適化処理を行うSONアプリケーションを備えてもよい。例えばパラメータ設定装置2は、MRO(モビリティロバストネス最適化:Mobility Robustness Optimization)、LLR(リンクレベル再送スキーム: Link level retransmission scheme)を行うSONアプリケーションを備えてもよい。また、例えばパラメータ設定装置2は、TAO(呼び出しエリア最適化: Tracking Areas Optimization)を行うSONアプリケーションを備えてもよい。
【0026】
エージェント20は、パラメータ設定装置2をSONコントローラとして動作させる。各エージェント20には1つ又はそれより多いセルが割り当てられる。各エージェント20は、割り当てられたセルの状態に応じてSONアプリケーション21〜26の動作/不動作を制御し、SONアプリケーションを動作させる場合には、SONアプリケーション21〜26のうちいずれかを選択して動作させる。
【0027】
エージェント20は、移動体通信網3の状態に応じたSONアプリケーションの起動の要否を学習し、及び移動体通信網3の状態に応じていずれのSONアプリケーションを起動するかを学習する。この学習は、強化学習によって行われる。記憶装置11には、強化学習に使用される価値関数30−1〜価値関数30−kがデータ15として格納される。以下の説明において、価値関数30−1〜価値関数30−kを総称して「価値関数30」と表記することがある。
【0028】
<3.強化学習>
図3は、強化学習のモデルの説明図である。強化学習は、エージェント20が、環境100との相互作用から学習して最終的に受け取る報酬rtの総量を最大化するように方策を改善する行程である。このような強化学習の例としては、例えばQ−Learningが挙げられる。エージェント20は、以下の手順(1)及び(2)で学習する。
【0029】
(1)エージェント20は、時刻tにおいて採るべき行動atを環境100の状態stに応じて選択する。
【0030】
このとき、エージェント20は、価値関数Q(s,a)に基づいて、状態stにおいて最大な報酬を得られる行動atをある確率で優先的に選択する。価値関数Q(s,a)の例を図4に示す。価値関数Q(s,a)は、状態sで行動aをした場合の行動価値を与える。例えば、図4の価値関数Q(s,a)によると、状態stの個々の構成要素である状態構成要素1、2及び3の値がそれぞれ「1a」、「2a」及び「3a」である場合に、行動「ac2」を実行する行動価値は「0.5」となる。
【0031】
状態sの状態構成要素1〜3がそれぞれ「1a」、「2a」及び「3a」ならば、最も行動価値が高い行動は「ac1」である。例えば、εグリーディ方策が採用される場合には、最も行動価値が高い行動ac1を選択する確率は「1−ε+ε/|A(s)|」により定められ、それ以外の行動ac2を選択する確率は「ε/|A(s)|」により定められる。ここで、値「ε」は、0≦ε≦1の設定値であり、値「|A(s)|」は、状態sにおいてエージェント20が選択可能な行動の数である。図4の例では、選択可能な行動の例はac1及びac2の2個である。
【0032】
(2)エージェント20の行動atにより、環境はst+1へ状態遷移し、その遷移に応じた報酬rtがエージェント20に与えられる。エージェント20は、報酬rtに応じて、価値関数Q(s,a)を更新する。これにより価値関数から導出する方策が改善される。例えば、エージェント20は、以下のような数式に従いQ(s,a)を更新してよい。設定値「α」及び「γ」はそれぞれ学習率及び割引率である。
【0033】
【数1】

【0034】
なお、価値関数として、図4に示すテーブル形式の価値関数以外の関数も使用可能である。例えば、他の実施例では価値関数Q(s,a)として、状態s及び行動aと、係数α1、α2、…を有する数式によって価値を算出する関数を使用してもよい。この場合にエージェント20は、報酬rtに応じて係数α1、α2、…を更新する。また、他の実施例では、εグリーディ方策に替えて他の方策を採用してもよい。他の実施例は、例えば、ソフトマックス法を採用してもよい。
【0035】
次に、SONコントローラによるSONアプリケーションの起動処理の学習に対してどのように強化学習が適用されるかを説明する。図5は、強化学習が適用されるSONコントローラの説明図である。SONコントローラに強化学習を適用する場合、一つのセル6または複数のセルによって構成されるシステムに一つの状態stと、エージェント20を一つ設け、エージェント20がいずれかのSONアプリケ−ションを行動atとしてを選択する。
【0036】
状態stは、状態構成要素を離散化した値を組合せて形成される。例えば、状態構成要素は、セルエッジ/セル・スループット、セルエッジ/セル平均・パケット転送効率、セルエッジ/セル平均・干渉レベル、呼接続成功率、呼損率、無線リソース使用率、移動局分布、Energy Savingモード、隣接セル負荷であってよい。
【0037】
一方、報酬rtは、以下の報酬構成要素を重み付けしたのちにスカラー化することによって決定される。例えば、報酬構成要素は、例えば、セル・スループット、呼接続成功率、呼損率、無線リソース使用率、負荷偏在度であってよい。そして、例えば、呼接続成功率、呼損率、無線リソース使用率を重みづけ係数W1〜W3により、次式のように重みづけした後にスカラー値に変換する。
【0038】
報酬rt=W1×(呼接続成功率)+W2×(1−呼損率)+W3×(1−無線リソース使用率)
【0039】
これにより、例えば、エージェントは、呼接続成功率、呼損率が悪く、無線リソース使用率が高いが、移動局がセル全体に一様に分布(移動局分布)している場合は、MLBではなく、CCO最適化を起動して、負荷分散及び負荷低減を図るように学習することが期待される。このような学習効果が期待されるのは、ハンドオーバパラメータを調整して、移動局の接続セルを変更することで、負荷分散するMLBは、セルエッジの移動局にしか効果を発揮することができないからである。
【0040】
<4.第1実施例>
続いて、通信システム1の動作の実施例について説明する。図6は、学習処理の第1実施例の説明図である。エージェント20−1は、セル6aの状態に応じてSONアプリケーション21〜26を選択し、セル6a内における移動体通信網3の制御パラメータを最適化する。エージェント20−2は、セル6bの状態に応じてSONアプリケーション21〜26を選択し、セル6b内における移動体通信網3の制御パラメータを最適化する。なお、各エージェント20が制御パラメータを最適化する範囲は、単一セルであってもよく、複数のセルを集合した範囲であってもよい。
【0041】
このとき、エージェント20−1は、セル6aで測定される状態構成要素に基づいて状態を決定し、決定した状態に応じてSONアプリケーション21〜26のいずれかを選択して動作させる。エージェント20−2は、セル6bで測定される状態構成要素に基づいて状態を決定し、決定した状態に応じてSONアプリケーション21〜26のいずれかを選択して動作させる。エージェント20−1及び20−2は、共通の価値関数30−1に基づいて、SONアプリケーション21〜26の動作又は不動作を選択し、動作させるアプリケーションを選択する。
【0042】
エージェント20−1は、セル6aで測定される報酬構成要素に応じて報酬を決定し、決定した報酬に応じて、共通の価値関数30−1の強化学習をエージェント20−2とは別に実行する。一方で、エージェント20−2は、セル6bで測定される報酬構成要素に応じて報酬を決定し、決定した報酬に応じて共通の価値関数30−1の強化学習をエージェント20−1とは別に実行する。このように、複数のエージェントが異なる範囲で決定した報酬に基づいて、共通の価値関数30−1の学習を独立して行うことにより、エージェント間で学習効果が共有される。
【0043】
図7は、エージェント20の処理の第1例の説明図である。なお、以下、図6を参照して説明する一連の処理は複数の手順を含む方法と解釈してよい。この場合に「オペレーション」を「ステップ」と読み替えてもよい。図10、図12及び図15に示す処理も同様である。
【0044】
オペレーションAAにおいて各エージェント20−1及び20−2は、初期値が設定されている価値関数30−1に従い、それぞれ割り当てられたセル6a及び6bで測定される状態に応じて実行させるSONアプリケーション21〜26を選択する。各エージェント20−1及び20−2は、選択したアプリケーションを実行することにより、セル6a及び6bにおける制御パラメータを最適化する。オペレーションABにおいて各エージェント20−1及び20−2は、それぞれ割り当てられたセル6a及び6bで測定される報酬構成要素に応じて報酬を決定する。オペレーションACにおいて各エージェント20−1及び20−2は、それぞれ決定した報酬に基づいて共通の価値関数30−1の強化学習を実行する。オペレーションADにおいて各エージェント20−1及び20−2は、学習結果を反映した価値関数30−1に従い、セル6a及び6bで測定される状態に応じて実行させるSONアプリケーション21〜26を選択する。各エージェント20−1及び20−2は、選択したアプリケーションを実行することにより、セル6a及び6bにおける制御パラメータを最適化する。以下、オペレーションAB〜ADを反復する。
【0045】
本実施例によれば、複数のエージェントがそれぞれ異なる範囲で決定した報酬に基づいて行う学習結果がエージェント間で共有される。したがって、単一のエージェントがそれぞれ固有の価値関数の学習を行う場合に比べて、同じ期間内に反映される学習効果を増加することができる。この結果、学習効率が向上することになる。
【0046】
<5.第2実施例>
続いて、他の実施例について説明する。本実施例では、特性が似通った複数のセルの制御パラメータの最適化をそれぞれ行う複数のエージェントによって、共通の価値関数の学習を行う。図8は、パラメータ設定装置のハードウエア構成の第2例を示す図である。図2に示す構成要素と同様の構成要素には図2で使用した参照符号と同じ参照符号を付し、同一の機能については説明を省略する。
【0047】
記憶装置11には、強化学習に使用される第1価値関数31−1〜価値関数31−mと、第2価値関数32−1〜価値関数32−kがデータ15として格納される。以下の説明において、第1価値関数31−1〜価値関数31−mを総称して「第1価値関数31」と表記することがある。また、第2価値関数32−1〜価値関数32−kを総称して「第2価値関数32」と表記することがある。
【0048】
また、パラメータ設定プログラム14は、エージェント20による価値関数の学習を制御する学習コントローラプログラム27を備える。以下の説明及び添付する図面において学習コントローラプログラムを「学習コントローラ」と表記することがある。
【0049】
図9の(A)及び図9の(B)は、学習処理の第2実施例の説明図である。以下の第2実施例〜第5実施例において、学習処理が、第1段階と第2段階に分けられる。図9の(A)及び図9の(B)は、それぞれ学習処理の第1段階及び第2段階を示す。
【0050】
第1段階では、エージェント20−1〜20−4は、それぞれセル6a〜6dにおける報酬を決定し、決定した報酬に応じて個別の第1価値関数31−1〜31−4の強化学習を実行する。またエージェント20−1〜20−4は、学習結果を反映した第1価値関数31−1〜31−4にそれぞれ従い、セル6a〜6dで測定される状態に応じて実行させるSONアプリケーション21〜26を選択する。エージェント20−1〜20−4は、それぞれ選択したアプリケーションを実行することで各セル6a〜6dにおける制御パラメータを最適化する。第1価値関数31−1〜31−4の学習及び制御パラメータの最適化は、所定期間に亘って反復される。
【0051】
その後、学習コントローラ27は、第1価値関数31相互間の類似度を判断する。学習コントローラ27は、類似度の高い第1価値関数31同士を合成することにより第2価値関数32を定める。図9の(B)は、第1価値関数31−1と第1価値関数31−2が合成されて第2価値関数32−1が定められ、第1価値関数31−3と第1価値関数31−4が合成されて第2価値関数32−2が定められた状態を示す。
【0052】
第2段階では、各エージェント20は、それぞれ第1段階で学習させていた第1価値関数31を合成して定められた第2価値関数32の強化学習を行う。また、エージェント20は、第1段階で学習させていた第1価値関数31を合成して定められた第2価値関数32に従って、それぞれが制御パラメータを最適化するセル6で実行するSONアプリケーション21〜26を選択する。
【0053】
図9の(B)の例では、エージェント20−1及び20−2は、それぞれセル6a及び6bにおける報酬を独立して決定し、決定した報酬に応じて共通の第2価値関数32−1の強化学習を独立して実行する。エージェント20−3及び20−4は、それぞれセル6c及び6dにおける報酬を独立して決定し、決定した報酬に応じて共通の第2価値関数32−2の強化学習を独立して実行する。
【0054】
また、エージェント20−1及び20−2は、学習結果を反映した共通の第2価値関数32−1に従い、セル6a及び6bで測定される状態に応じて実行させるSONアプリケーション21〜26を選択する。エージェント20−3及び20−4は、学習結果を反映した共通の第2価値関数32−2に従い、セル6c及び6dで測定される状態に応じて実行させるSONアプリケーション21〜26を選択する。
【0055】
図10を参照して、上述のエージェント20の処理を説明する。オペレーションBA〜BCの反復ループが上述の第1段階に相当し、オペレーションBG〜BIの反復処理が上述の第2段階に相当する。
【0056】
オペレーションBAにおいて各エージェント20は、第1の学習処理を行う。第1の学習処理において各エージェント20は、それぞれに割り当てられたセル6における報酬を決定し、決定した報酬に応じて個別の第1価値関数31の強化学習を実行する。
【0057】
オペレーションBBにおいて各エージェント20は、学習結果を反映した第1価値関数31に従い、各セルで測定される状態に応じて実行させるSONアプリケーション21〜26をそれぞれ選択する。各エージェント20は、選択したアプリケーションを実行することにより各セルにおける制御パラメータを最適化する。
【0058】
オペレーションBCにおいて学習コントローラ27は、反復ループBA〜BCが所定期間繰り返されたか否かを判断する。反復ループBA〜BCが所定期間繰り返された場合には(オペレーションBC:Y)処理はオペレーションBDに進む。反復ループBA〜BCが所定期間繰り返されていない場合には(オペレーションBC:N)処理はオペレーションBAに戻る。
【0059】
オペレーションBDにおいて学習コントローラ27は、第1価値関数31間の類似度を決定する。オペレーションBEにおいて学習コントローラ27は、類似度に従って合成する第1価値関数31の組合せを決定する。オペレーションBFにおいて学習コントローラ27は、第1価値関数31を合成する。
【0060】
オペレーションBGにおいて各エージェント20は、第2の学習処理を行う。第2の学習処理において各エージェント20は、それぞれに割り当てられたセル6における報酬を決定する。各エージェント20は、決定した報酬に応じて、第1の学習処理(オペレーションBA)で学習させていた第1価値関数31を合成して定められた第2価値関数32の強化学習を独立して実行する。
【0061】
オペレーションBHにおいて各エージェント20は、第1段階で学習させていた第1価値関数31を合成して定められた第2価値関数32に従い、割り当てのセル6の制御パラメータを最適化するSONアプリケーション21〜26を選択し、実行する。
【0062】
オペレーションBIにおいて学習コントローラ27は、反復ループBG〜BIが所定期間繰り返されたか否かを判断する。反復ループBG〜BIが所定期間繰り返された場合には(オペレーションBI:Y)処理はオペレーションBDに戻る。反復ループBG〜BIが所定期間繰り返されていない場合には(オペレーションBI:N)処理はオペレーションBGに戻る。
【0063】
続いて、オペレーションBE及びBFにおける類似度の決定処理と価値関数の合成処理の例を説明する。図11は、価値関数の類似度の説明図である。例示する第1価値関数31及び第2価値関数32は、図4を参照して説明した情報要素の他に情報要素「学習経験回数」を備えている。「学習経験回数」は、エージェント20が、各状態stにおいて各行動atに対応するSONアプリケーションを実行した回数、すなわち各状態st及び各行動atに対応する行動価値Q(s,a)の更新回数を示す。例えば、第1価値関数31−1の例の場合には、状態構成要素st1、st2及びst3がそれぞれ「1a」「2a」及び「3a」である状態において、行動ac1が5回選択されている。
【0064】
学習コントローラ27は、第1価値関数31の類似度を決定する場合、それぞれの状態st毎に行動価値Q(s,a)が最も大きい行動atが一致するか否かを判断し、行動価値Q(s,a)が最も大きい行動atが一致する程度に応じて類似度を定める。例えば、図11の例では、状態構成要素st1、st2及びst3がそれぞれ「1a」「2a」及び「3a」である状態における行動価値Q(s,a)が最も大きい行動atは、第1価値関数31−1及び31−2のいずれにおいても「ac1」である。このため、この状態では、第1価値関数31−1及び31−2間において行動価値Q(s,a)が最も大きい行動atが一致する。
【0065】
一方で、状態構成要素st1、st2及びst3がそれぞれ「1a」「2a」及び「3b」である状態における行動価値Q(s,a)が最も大きい行動atは、第1価値関数31−1及び31−2においてそれぞれ「ac2」及び「ac1」である。このため、この状態では、第1価値関数31−1及び31−2間において行動価値Q(s,a)が最も大きい行動atが一致しない。学習コントローラ27は、第1価値関数31の状態stが取り得る値の数に対する、行動価値Q(s,a)が最も大きい行動atが一致する状態の数の比率を類似度として定める。
【0066】
ある実施例において、学習コントローラ27は、行動価値が学習された状態のみを対象として、行動価値Q(s,a)が最も大きい行動atの比較を行う。例えば、第1価値関数31−1の構成要素st1、st2及びst3がそれぞれ「1a」「2a」及び「3c」である状態では、行動ac1が一度も選択されていない。行動ac1に対応する行動価値Q(s,a)の値「1.0」は、プログラムによって設定された初期値であり、学習された値ではない。このため、第1価値関数31−1の構成要素st1、st2及びst3がそれぞれ「1a」、「2a」及び「3c」である状態の行動価値は、まだ学習されていない。
【0067】
学習コントローラ27は行動価値が学習された状態のうち、行動価値Q(s,a)が最も大きい行動atが一致する状態の数を求め、学習コントローラ27は行動価値が学習された状態に対する比率を類似度として定める。他の実施例では、学習コントローラ27は、学習経験回数が所定回数以上である状態のみを対象として行動価値Q(s,a)が最も大きい行動atの比較を行ってもよい。
【0068】
第1価値関数31を合成して第2価値関数32を決定する場合には、学習コントローラ27は、第1価値関数31が取り得る状態st及び行動atを、第2価値関数32が取り得る状態st及び行動atとして使用する。そして、各状態st及び各行動at毎に、合成される第1価値関数31の間で行動価値Q(s,a)の値を平均して、それぞれ対応する状態st及び行動atにおける第2価値関数32の行動価値Q(s,a)の値を定める。他の実施例では、平均値に代えて、合成される第1価値関数31の間における行動価値Q(s,a)の最小値や最大値を第2価値関数32の行動価値Q(s,a)の値としてもよい。
【0069】
次に、合成する価値関数の組合せの決定処理の例について説明する。図12は、合成する価値関数の決定処理の説明図である。以下の説明において第1価値関数31−nと第1価値関数31−mと間の類似度を「n−m」と表記する(n及びmは、各々1以上の整数である)。
【0070】
オペレーションCAにおいて学習コントローラ27は、第1価値関数31同士の全ての組合せについて決定された類似度を高い順にソートする。類似度がソートされた状態を図13に示す。図13の例では、第1価値関数31−1〜31−5について定めた類似度が示されている。各類似度は、類似度1−2、2−3、4−5、1−4、2−4、1−5、2−5、…、1−3の順に高い。また、類似度1−2、2−3、4−5、1−4、2−4、1−5、2−5は所定の閾値以上であり、類似度1−3は所定の閾値よりも小さい。
【0071】
オペレーションCBにおいて学習コントローラ27は、閾値以上の類似度で、まだ以下のオペレーションCC〜CMで処理されていない類似度があるか否かを判断する。1回目のオペレーションCBの判断では、閾値よりも高い類似度1−2、2−3、4−5、1−4、2−4、1−5、2−5、…、が未処理であるため(オペレーションCB:Y)、処理はオペレーションCCに進む。閾値よりも高い未処理の類似度がある間、オペレーションCB〜CMが反復され、閾値よりも高い未処理の類似度が無くなると(オペレーションCB:N)と、処理は終了する。
【0072】
オペレーションCCにおいて学習コントローラ27は、未処理の類似度のうち最大の類似度n−mを選択する。本例では類似度1−2が選択される。オペレーションCDにおいて学習コントローラ27は、第1価値関数31−nが第1価値関数31−m以外の他の第1価値関数31と合成されることが、それまでに実行したオペレーションCC〜CMによって既に決定されているかを判断する。第1価値関数31−nが第1価値関数31−m以外の他の第1価値関数31と合成されることが決定されている場合には(オペレーションCD:Y)処理はオペレーションCEへ進む。第1価値関数31−nがどの第1価値関数31とも合成されることが決定されていない場合には(オペレーションCD:N)処理はオペレーションCFへ進む。
【0073】
オペレーションCEにおいて学習コントローラ27は、第1価値関数31−n及び第1価値関数31−nと合成されることが決定されている第1価値関数31とからなる第1価値関数のグループを形成する。以下、このグループを合成グループaと呼ぶ。その後、処理はオペレーションCGへ進む。一方、オペレーションCFにおいて学習コントローラ27は、合成グループaを第1価値関数31−nだけで形成する。その後、処理はオペレーションCGへ進む。本例では、この時点で第1価値関数31−1はまだどの第1価値関数とも合成されるとも決定されていないため(オペレーションCD:N)、オペレーションCFにおいて第1価値関数31−1のみの合成グループaが形成される。
【0074】
オペレーションCGにおいて学習コントローラ27は、第1価値関数31−mが第1価値関数31−n以外の他の第1価値関数31と合成されることが、それまでに実行したオペレーションCC〜CMによって既に決定されているかを判断する。第1価値関数31−mが第1価値関数31−n以外の他の第1価値関数31と合成されることが決定されている場合には(オペレーションCG:Y)処理はオペレーションCHへ進む。第1価値関数31−mがどの第1価値関数31とも合成されることが決定されていない場合には(オペレーションCG:N)処理はオペレーションCIへ進む。
【0075】
オペレーションCHにおいて学習コントローラ27は、第1価値関数31−m及び第1価値関数31−mと合成されることが決定されている第1価値関数31とからなる第1価値関数のグループを形成する。以下、このグループを合成グループbと呼ぶ。その後、処理はオペレーションCJへ進む。一方、オペレーションCIにおいて学習コントローラ27は、合成グループbを第1価値関数31−mだけで形成する。その後、処理はオペレーションCJへ進む。本例では、この時点で第1価値関数31−2はまだどの第1価値関数とも合成されるとも決定されていないため(オペレーションCG:N)、オペレーションCIにおいて第1価値関数31−2のみの合成グループbが形成される。
【0076】
オペレーションCJにおいて学習コントローラ27は、合成グループa及びbに含まれる第1価値関数31の組合せの全てにおいて、類似度が閾値よりも大きいか否かを判断する。類似度が閾値よりも大きい場合には(オペレーションCJ:Y)処理はオペレーションCLへ進む。類似度が閾値よりも大きくない場合には(オペレーションCJ:N)は、処理はオペレーションCKへ進む。オペレーションCKにおいて学習コントローラ27は、第1価値関数31−n及び31−mを合成すると決定せずに類似度n−mを処理済みの類似度にする。その後に処理はオペレーションCBに戻る。
【0077】
本例では、この時点で、合成グループa及びbに含まれる第1価値関数31の組合せは、第1価値関数31−1及び31−2だけであり、類似度1−2は閾値を超えるので(オペレーションCJ:Y)処理はオペレーションCLへ進む。
【0078】
オペレーションCLにおいて学習コントローラ27は合成グループa及びbに含まれる第1価値関数31同士を合成すると決定する。オペレーションCMにおいて学習コントローラ27は、合成グループa及びbに含まれる第1価値関数31の組合せの全ての類似度を処理済みの類似度にする。本例では、この時点で、第1価値関数31−1及び31−2を合成すると決定され類似度1−2が処理済みになる。そして処理がオペレーションCBに戻る。
【0079】
次のループでは、オペレーションCCにおいて2番目に大きい類似度2−3が選択される。第1価値関数31−nである関数31−2は、第1価値関数31−1と合成されることが決定されているので、オペレーションCDの判断によって学習コントローラ27はオペレーションCEを実行する。オペレーションCEにおいて学習コントローラ27は、第1価値関数31−1及び31−2を含む合成グループaを形成する。
【0080】
一方で第1価値関数31−mである関数31−3は、まだどの第1価値関数31とも合成されることが決定されていない。このためオペレーションCGの判断によって学習コントローラ27はオペレーションCIを実行する。オペレーションCIにおいて学習コントローラ27は、第1価値関数31−3のみを含む合成グループbを形成する。
【0081】
ペレーションCJにおいて学習コントローラ27は、合成グループa及びbに含まれる第1価値関数31の組合せの全てにおいて、類似度が閾値よりも大きいか否かを判断する。この時点では、第1価値関数31の組合せは第1価値関数31−1〜31−3の組合せであり、類似度1−3が閾値より小さいので(オペレーションCJ:N)処理はオペレーションCKへ進む。オペレーションCKにおいて学習コントローラ27は、第1価値関数31−2及び31−3を合成すると決定せずに類似度2−3を処理済みの類似度にする。そして処理がオペレーションCBに戻る。
【0082】
次のループでは、オペレーションCCにおいて3番目に大きい類似度4−5が選択される。この時点では、第1価値関数31−nである関数31−4と、第1価値関数31−mである関数31−5は、いずれの第1価値関数31とも合成されることが決まっていない。従って、第1価値関数31−1及び31−2の場合と同様に、オペレーションCD、CF、CG、CI、CJ〜CMにおいて学習コントローラ27は、第1価値関数31−4及び31−5を合成すると決定する。そして処理がオペレーションCBに戻る。
【0083】
次のループでは、オペレーションCBにおいて4番目に大きい類似度1−4が選択される。第1価値関数31−nである関数31−1は、第1価値関数31−2と合成されることが決定されているので、オペレーションCDの判断によって学習コントローラ27はオペレーションCEを実行する。オペレーションCEにおいて学習コントローラ27は、第1価値関数31−1及び31−2を含む合成グループaを形成する。
【0084】
また、第1価値関数31−mである関数31−4は、第1価値関数31−5と合成されることが決定されているので、オペレーションCGの判断によって学習コントローラ27はオペレーションCHを実行する。オペレーションCHにおいて学習コントローラ27は、第1価値関数31−4及び31−5を含む合成グループbを形成する。
【0085】
ペレーションCJにおいて学習コントローラ27は、合成グループa及びbに含まれる第1価値関数31の組合せの全てにおいて、類似度が閾値よりも大きいか否かを判断する。この時点では、第1価値関数31の組合せは第1価値関数31−1、31−2、31−4及び31−5の組合せである。これらの価値関数間の類似度1−2、1−4、1−5、2−4、2−5及び4−5は全て閾値を超えるので(オペレーションCJ:Y)処理はオペレーションCLへ進む。
【0086】
オペレーションCLにおいて学習コントローラ27は合成グループa及びbに含まれる数31−1、31−2、31−4及び31−5を合成すると決定する。オペレーションCMにおいて学習コントローラ27は、合成グループa及びbに含まれる第1価値関数31の組合せの全ての類似度を処理済みの類似度にする。このため新たに類似度2−4、1−5及び2−5が処理済みの類似度になる。そして処理がオペレーションCBに戻る。以下、閾値よりも高い未処理の類似度がなくなるまで、オペレーションCB〜CMが反復される。
【0087】
以上のように、類似度が高い組合せから順に各組合せの第1価値関数の合成可否を判断する。その際に、一方の第1価値関数が、他方の第1価値関数以外の更に他の第1価値関数と合成されることが決定されていれば、他方の第1価値関数と更に他の第1価値関数との類似度に応じて合成可否を判断する。これによって、3個以上の第1価値関数31を合成して1つの第2価値関数32を合成するに際して、類似度が閾値を超えない第1価値関数31同士が合成されることを防止しつつ、類似度が高い第1価値関数31同士をより優先して合成することができる。
【0088】
本実施例では、特性が類似する複数のセルの制御パラメータの最適化をそれぞれ行う複数のエージェントによって、共通の価値関数の強化学習を行うことができる。このため、複数のセルにおける学習効果を共通の価値関数に反映させて学習速度を向上させるとともに、セルの特性に応じた価値関数の学習を行うことができる。
【0089】
<6.第3実施例>
続いて、他の実施例について説明する。本実施例では、上述の第2実施例と同様に第1価値関数31を合成して共通の第2価値関数32を定めた後に、第1価値関数31間の類似度が閾値よりも小さくなるか否かを判断する。第1価値関数31間の類似度が閾値より小さくなった場合には、第2価値関数32の学習と、第2価値関数32に従うSONアプリケーションの選択を停止し、第1価値関数31の学習と、第1価値関数31に従うSONアプリケーションの選択を再開する。第2価値関数32の学習及び第2価値関数32に従うSONアプリケーションの選択を停止し、第1価値関数31の学習と第1価値関数31に従うSONアプリケーションの選択を再開することを第2価値関数32を「分解する」と表現することがある。
【0090】
図14の(A)及び図14の(B)は、学習処理の第3実施例の説明図である。図14の(A)に示すセル6a〜6c、エージェント20−1〜20−4、第1価値関数31−1〜31−4及び第2価値関数32−1〜32−2の関係は、上記「5.第2実施例」で説明した関係と同様である。
【0091】
エージェント20−1及び20−2は、第2価値関数32−1の学習と併行してそれぞれ第1価値関数31−1及び31−2の学習を行う。エージェント20−3及び20−4は、第2価値関数32−2の学習と併行してそれぞれ第1価値関数31−3及び31−4の学習を行う。
【0092】
その後に、第2価値関数32−1に合成された第1価値関数31−1及び31−2間の類似度が閾値よりも低くなる場合を想定する。この場合に、学習コントローラ27は、第2価値関数32−1の学習を分解する。この状態を図14の(B)に示す。
【0093】
図15を参照して、上述のエージェント20の処理を説明する。オペレーションDA〜DDは、図10を参照して説明したオペレーションBA〜BDと同様である。オペレーションDEにおいて学習コントローラ27は、分解する第2価値関数32を決定する。この場合に学習コントローラ27は、各第2価値関数32に合成されている第1価値関数31のいずれかの組合せにおいて類似度が閾値を超えない場合に、第2価値関数32を分解すると判断する。このため各エージェント20は、後述の通り、下記オペレーションDIにおいて第2価値関数32の学習と併行して、第1段階(オペレーションDA〜DC)で学習させていた第1価値関数31も学習させる。
【0094】
オペレーションDFにおいて学習コントローラ27は、オペレーションDEで決定した第2価値関数を分解する。オペレーションDG、DH、DJ及びDKは、図10を参照して説明したオペレーションBE、BF、BH及びBIと同様である。オペレーションDIにおいて各エージェント20は、第2の学習処理を行う。各エージェント20は、それぞれに割り当てられたセル6における報酬を決定する。各エージェント20は、決定した報酬に応じて、第1の学習処理(オペレーションDA)で学習させていた第1価値関数31と、第1価値関数31を合成して定められた第2価値関数32の強化学習を、他のエージェント20とは独立して実行する。
【0095】
本実施例によれば、第2価値関数に合成された第1価値関数間の類似度が低下した場合に第2価値関数を分解することにより、類似度の低いセルの学習効果が同じ価値関数に及ぼす影響によって学習効率が低下することを防止できる。
【0096】
<7.第4実施例>
続いて、他の実施例について説明する。本実施例では、特性が類似すると予想されるセル毎に分類された、複数のセルを含むセルのグループが形成される。各セルが割り当てられたエージェント20は、学習処理の第1段階において、セルのグループ毎に共通の第1価値関数31の学習を行う。
【0097】
図16の(A)及び図16の(B)は、学習処理の第4実施例の説明図である。本例では、セル6a及び6bが1つのセルグループを形成し、セル6c及び6dが1つのセルグループを形成し、セル6e及び6fが1つのセルグループを形成する。例えば、セル6a及び6bはマクロセルであり、セル6c及び6dはフェムトセルであり、セル6e及び6fはピコセルである。
【0098】
マクロセル、ピコセル及びフェムトセルの順に送信電力が大きい。このように送信電力の違いに基づいてセルをグループ化してよい。また、ピコセルは屋内に配置される場合もあるが、ビルの陰など屋外に配置される場合もあり、この場合は屋外に配置されるか屋内に配置されるかに応じて異なる複数のピコセルのグループを形成してもよい。すなわち、基地局の設置状態の違いに基づいてセルをグループ化してもよい。
【0099】
エージェント20−1〜20−6は、それぞれセル6a〜6fで測定される状態構成要素に基づいて状態を決定し、決定した状態に応じてSONアプリケーション21〜26のいずれかを選択して動作させて、セル6a〜6f内における制御パラメータを最適化する。
【0100】
エージェント20−1及び20−2は、共通の第1価値関数31−1に基づいて、SONアプリケーション21〜26の動作又は不動作を選択し、動作させるアプリケーションを選択する。また、エージェント20−3及び20−4は、共通の第1価値関数31−2に基づいて、SONアプリケーション21〜26の動作又は不動作を選択し、動作させるアプリケーションを選択する。エージェント20−5及び20−6は、共通の第1価値関数31−3に基づいて、SONアプリケーション21〜26の動作又は不動作を選択し、動作させるアプリケーションを選択する。
【0101】
エージェント20−1は、セル6aで測定される報酬構成要素に応じて報酬を決定し、決定した報酬に応じて共通の第1価値関数31−1の強化学習を実行する。一方で、エージェント20−2は、セル6bで測定される報酬構成要素に応じて報酬を決定し、決定した報酬に応じて共通の第1価値関数31−1の強化学習を実行する。他の実施例では、第1価値関数31−1の学習が、エージェント20−1及び20−2が決定した報酬の平均値に基づいて行われてもよい。
【0102】
エージェント20−3及び20−4も同様に共通の第1価値関数31−2の強化学習を実行し、エージェント20−5及び20−6も同様に共通の第1価値関数31−3の強化学習を実行する。
【0103】
その後、学習コントローラ27は、第1価値関数31相互間の類似度を判断する。学習コントローラ27は、類似度の高い第1価値関数31同士を合成することにより第2価値関数32を定める。図16の(B)は、第1価値関数31−2と第1価値関数31−3が合成されて第2価値関数32−1が定められた状態を示す。
【0104】
第2段階では、第2価値関数32に合成された第1価値関数31の学習を第1段階で行っていた各エージェント20によって、この第2価値関数32の強化学習が実行される。また、これらのエージェント20は、第1段階で学習させていた第1価値関数31を合成した第2価値関数32に従って、それぞれが制御パラメータを最適化するセル6で実行するSONアプリケーション21〜26を選択する。
【0105】
図16の(B)の例では、エージェント20−3〜20−6は、それぞれセル6c〜6fにおける報酬を独立して決定し、決定した報酬に応じて共通の第2価値関数32−1の強化学習を独立して実行する。また、エージェント20−3〜20−6は、学習結果を反映した共通の第2価値関数32−1に従い、セル6c〜6fで測定される状態に応じて実行させるSONアプリケーション21〜26を選択する。
【0106】
本実施例によれば、学習の第1段階から、複数セルにおける学習効果を共通の価値関数に及ぼすことができるため、学習効果が更に向上する。
【0107】
<8.第5実施例>
続いて、他の実施例について説明する。本実施例では、学習の第1段階を計算機シミュレーションによって行い、学習の第2段階を、実際の移動体通信網で行う。図17は、パラメータ設定装置のハードウエア構成の第3例を示す図である。図8に示す構成要素と同様の構成要素には図8で使用した参照符号と同じ参照符号を付し、同一の機能については説明を省略する。
【0108】
記憶装置11には、シミュレーションプログラム16が格納される。シミュレーションプログラムは、疑似基地局、疑似セル、疑似移動局をシミュレートするプログラムモジュールを動作させ、設定された制御パラメータに対して、実際の移動体通信網がなると予想される状態を算出する。
【0109】
学習の第1段階では、パラメータ設定プログラム14及びエージェント20は、シミュレーションプログラム16が模擬した疑似移動体通信網に対して学習処理及び最適化処理を行う。このため、パラメータ設定プログラム16は、実際の移動体通信網において学習処理を行った場合と比べて、第1段階の実行時間を大幅に短縮することが可能となる。例えば、図10のオペレーションBA〜BCの反復を1時間行う場合に、シミュレーションプログラム16による計算によれば同程度の学習を5分で実行できる。
【0110】
以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
移動体通信網の状態変数に応じて前記移動体通信網の制御パラメータを設定するパラメータ設定装置であって、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
を実行するプロセッサを備えることを特徴とするパラメータ設定装置。
(付記2)
前記プロセッサは、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた各最適化処理の行動価値を定める第1価値関数を強化学習により学習する第1学習処理と、
前記範囲毎に学習した第1価値関数を合成することにより第2価値関数を前記共通の価値関数として定める合成処理と、を実行し、
共通の前記第2価値関数に合成される第1価値関数の学習が各々行われた複数の前記範囲について決定される前記報酬毎に、前記報酬に応じて前記共通の第2価値関数を更新する強化学習を行う第2学習処理を、前記強化学習処理として実行することを特徴とする付記1に記載のパラメータ設定装置。
(付記3)
前記プロセッサは、
第1価値関数間の類似度を決定する類似度決定処理と、
前記合成処理において第1価値関数を合成するか否かを、前記第1価値関数間の類似度に応じて定める可否判断処理と、
を実行することを特徴とする付記2に記載のパラメータ設定装置。
(付記4)
前記類似度決定処理において前記プロセッサは、同一の状態変数に対して最大の行動価値を有する最適化処理が一致する程度に応じて、第1価値関数間の類似度を決定することを特徴とする付記3に記載のパラメータ設定装置。
(付記5)
前記類似度決定処理において、前記第1学習処理において行動価値が学習された状態変数の数に対する、最大の行動価値を有する最適化処理が一致する状態変数の数の比率に応じて、第1価値関数間の類似度を決定することを特徴とする付記4に記載のパラメータ設定装置。
(付記6)
前記合成可否判断処理において前記プロセッサは、
第1価値関数を合成するか否かを、第1価値関数間の類似度が高い組合せから順に判断し、
一対の第1価値関数を合成するか否かを判断する場合に、前記一対の第1価値関数の一方の第1価値関数が、前記一対の第1価値関数の他方の第1価値関数以外の更に他の第1価値関数と合成されることが決定されている場合に、前記他方の第1価値関数と前記更に他の第1価値関数との類似度に応じて判断することを特徴とする付記3〜5のいずれか一項に記載のパラメータ設定装置。
(付記7)
前記合成処理において前記プロセッサは、合成される第1価値関数間における行動価値の平均値を、第2価値関数の行動価値として定める付記2〜6のいずれか一項に記載のパラメータ設定装置。
(付記8)
第2価値関数の合成後に前記プロセッサは、
前記第2価値関数に合成された前記第1価値関数を強化学習により学習する処理と、
前記第1価値関数の学習が各々行われる複数の範囲において、前記第1価値関数に従い複数の最適化処理のうちいずれかを選択して実行する処理と、を実施し、
前記第1価値関数の学習が各々行われる複数の範囲において、前記第2価値関数に従い最適化処理を選択して実行する処理を停止することを特徴とする付記2〜7のいずれか一項に記載のパラメータ設定装置。
(付記9)
前記プロセッサは、前記第2価値関数に合成された前記第1価値関数間の類似度を決定する処理を実行し、
前記類似度が所定の条件を満たす場合には、前記第2価値関数に従い最適化処理を選択して実行する処理を停止して、前記第1価値関数に従い最適化処理のうちいずれかを選択して実行することを特徴とする付記8に記載のパラメータ設定装置。
(付記10)
前記プロセッサは、
複数のセルをグループ化して形成されるセルのグループ毎に、共通の第1価値関数に従い、セル内の状態変数に応じて複数の最適化処理のうちいずれかを選択して実行する処理と、
セル内の状態変数に応じた報酬を決定する処理と、を実行し、
前記第1学習処理において、前記報酬に応じて前記共通の第1価値関数を更新する強化学習を行うことを特徴とする付記2〜9のいずれか一項に記載のパラメータ設定装置。
(付記11)
前記セルのグループは、基地局からの送信電力の相違及び/又は設置状態の相違に基づき分類されたグループであることを特徴とする付記10に記載のパラメータ設定装置。
(付記12)
前記プロセッサは、前記移動体通信網の制御パラメータに対する状態変数の変化をシミュレートすることにより、前記第1学習処理を実行することを特徴とする請求項2〜11のいずれか一項に記載のパラメータ設定装置。
(付記13)
移動体通信網の状態変数に応じて前記移動体通信網の制御パラメータを設定するコンピュータプログラムであって、
前記コンピュータプログラムは、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて、前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
をコンピュータに実行させることを特徴とするコンピュータプログラム。
(付記14)
移動体通信網の状態変数に応じて該移動体通信網の制御パラメータを設定するパラメータ設定方法であって、
コンピュータに、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて、前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
を実行させることを特徴とするパラメータ設定方法。
【符号の説明】
【0111】
1 通信システム
2 パラメータ設定装置
3 移動体通信網
4 基地局装置
5 移動局装置
6 セル
10 CPU
11 記憶装置
14 パラメータ設定プログラム
20 エージェント
30 価値関数
31 第1価値関数
32 第2価値関数

【特許請求の範囲】
【請求項1】
移動体通信網の状態変数に応じて前記移動体通信網の制御パラメータを設定するパラメータ設定装置であって、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
を実行するプロセッサを備えることを特徴とするパラメータ設定装置。
【請求項2】
前記プロセッサは、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた各最適化処理の行動価値を定める第1価値関数を強化学習により学習する第1学習処理と、
前記範囲毎に学習した第1価値関数を合成することにより第2価値関数を前記共通の価値関数として定める合成処理と、を実行し、
共通の前記第2価値関数に合成される第1価値関数の学習が各々行われた複数の前記範囲について決定される前記報酬毎に、前記報酬に応じて前記共通の第2価値関数を更新する強化学習を行う第2学習処理を、前記強化学習処理として実行することを特徴とする請求項1に記載のパラメータ設定装置。
【請求項3】
前記プロセッサは、
第1価値関数間の類似度を決定する類似度決定処理と、
前記合成処理において第1価値関数を合成するか否かを、前記第1価値関数間の類似度に応じて定める可否判断処理と、
を実行することを特徴とする請求項2に記載のパラメータ設定装置。
【請求項4】
前記類似度決定処理において前記プロセッサは、同一の状態変数に対して最大の行動価値を有する最適化処理が一致する程度に応じて、第1価値関数間の類似度を決定することを特徴とする請求項3に記載のパラメータ設定装置。
【請求項5】
前記合成可否判断処理において前記プロセッサは、
第1価値関数を合成するか否かを、第1価値関数間の類似度が高い組合せから順に判断し、
一対の第1価値関数を合成するか否かを判断する場合に、前記一対の第1価値関数の一方の第1価値関数が、前記一対の第1価値関数の他方の第1価値関数以外の更に他の第1価値関数と合成されることが決定されている場合に、前記他方の第1価値関数と前記更に他の第1価値関数との類似度に応じて判断することを特徴とする請求項3〜4のいずれか一項に記載のパラメータ設定装置。
【請求項6】
前記合成処理において前記プロセッサは、合成される第1価値関数間における行動価値の平均値を、第2価値関数の行動価値として定める請求項2〜5のいずれか一項に記載のパラメータ設定装置。
【請求項7】
第2価値関数の合成後に前記プロセッサは、
前記第2価値関数に合成された前記第1価値関数を強化学習により学習する処理と、
前記第1価値関数の学習が各々行われる複数の範囲において、前記第1価値関数に従い複数の最適化処理のうちいずれかを選択して実行する処理と、を実施し、
前記第1価値関数の学習が各々行われる複数の範囲において、前記第2価値関数に従い最適化処理を選択して実行する処理を停止することを特徴とする請求項2〜6のいずれか一項に記載のパラメータ設定装置。
【請求項8】
前記プロセッサは、前記第2価値関数に合成された前記第1価値関数間の類似度を決定する処理を実行し、
前記類似度が所定の条件を満たす場合には、前記第2価値関数に従い最適化処理を選択して実行する処理を停止して、前記第1価値関数に従い最適化処理のうちいずれかを選択して実行することを特徴とする請求項7に記載のパラメータ設定装置。
【請求項9】
前記プロセッサは、
複数のセルをグループ化して形成されるセルのグループ毎に、共通の第1価値関数に従い、セル内の状態変数に応じて複数の最適化処理のうちいずれかを選択して実行する処理と、
セル内の状態変数に応じた報酬を決定する処理と、を実行し、
前記第1学習処理において、前記報酬に応じて前記共通の第1価値関数を更新する強化学習を行うことを特徴とする請求項2〜8のいずれか一項に記載のパラメータ設定装置。
【請求項10】
前記プロセッサは、前記移動体通信網の制御パラメータに対する状態変数の変化をシミュレートすることにより、前記第1学習処理を実行することを特徴とする請求項2〜9のいずれか一項に記載のパラメータ設定装置。
【請求項11】
移動体通信網の状態変数に応じて前記移動体通信網の制御パラメータを設定するコンピュータプログラムであって、
前記コンピュータプログラムは、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて、前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
をコンピュータに実行させることを特徴とするコンピュータプログラム。
【請求項12】
移動体通信網の状態変数に応じて該移動体通信網の制御パラメータを設定するパラメータ設定方法であって、
コンピュータに、
前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて、前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、
前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、
前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、
を実行させることを特徴とするパラメータ設定方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2013−106202(P2013−106202A)
【公開日】平成25年5月30日(2013.5.30)
【国際特許分類】
【出願番号】特願2011−248944(P2011−248944)
【出願日】平成23年11月14日(2011.11.14)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】