説明

コンテンツ転送時間帯決定方法

【課題】無線リンクを接続することなく、確率的に最適なコンテンツ転送時間帯を事前に決定できるコンテンツ転送時間帯決定方法を提供する。
【解決手段】コンテンツ転送時間帯選択部101は、今回のコンテンツ転送時間帯timeを決定方策πに従って選択する。コンテンツ転送部102は、選択された今回のコンテンツ転送時間帯timeを待ってコンテンツ転送を実行する。収益算出部103は、今回のコンテンツ転送の結果に基づいて、実現可能な通信品質を表す収益rを算出する。誤差算出部104は、行動価値予測における誤差δを算出する。更新部105は、コンテンツ転送が行われた今回の転送時間帯timeに関して、その行動価値関数Q (time)を前記誤差δに基づいて更新する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ転送の実績に基づいて高品質の転送時間帯を学習し、コンテンツ転送の要求が検知されると、学習結果に基づいて確率的に最適なコンテンツ転送時間帯を決定するコンテンツ転送時間帯決定方法に関する。
【背景技術】
【0002】
無線データ通信において、無線リソースを有効利用する観点から、データトラヒックのリアルタイム性の要求の程度に着目し、高いリアルタイム性を要求するデータトラヒックに高い優先順位を設定し、優先的に無線リソース(時間、周波数、電力)を割り当てる技術が特許文献1に開示されている。
【0003】
しかしながら、特許文献1ではリアルタイム性の極めて低いデータトラヒックにも相応の優先度が割り当てられるので無線リソースが相応に消費されてしまい、より優先度の高いデータトラヒックのスループット向上を妨げていた。
【0004】
このような技術課題に対して、特許文献2には、無線端末へコンテンツをダウンロードする際にスループットを常時測定し、スループットが基準値を下回った時点で無線リンクを切断し、所定の時間が経過した後にダウンロードを再開する技術が開示されている。この特許文献2には更に、無線端末からコンテンツをアップロードする際に、アップロードのために実現可能なスループット情報を基地局から受信し、スループットが基準値を下回った時点で無線リンクを切断し、所定の時間が経過した後にアップロードを再開する技術も開示されている。
【0005】
一方、環境から供給される報酬を取得することを目標にして、この目標を達成するための制御方法を試行錯誤しながら学習していくような機械学習は、広い意味で強化学習と称されており、例えば非特許文献1に開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2003−169363号公報
【特許文献2】特願2009−70456号
【非特許文献】
【0007】
【非特許文献1】「強化学習」Richard S.Sutton,Andrew G.Barto.三上貞芳 皆川雅章訳
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献2によれば、優先度の低いデータトラヒックにはコンテンツ転送のための通信機会が一時的に割り当てられるのみで、それ以外の時間帯では優先度の低いデータトラヒックによって無線リソースが消費されることが無いので、優先度の高いデータトラヒックに対してより多くの無線リソースを割り当てられるようになる。
【0009】
一方、優先度の低いデータトラヒックであっても、通信機会を一時的に割り当てる際には、スループットのより高い高品質の転送時間帯を割り当てることが望ましい。しかしながら、十分なスループットが得られる転送時間帯であるか否かを判断するためには無線リンクを一時的に接続する必要があり、無線リソースが消費されてしまうという技術課題があった。
【0010】
本発明の目的は、上記した従来技術の課題を解決し、無線リンクを接続することなく、事前に適切なコンテンツ転送時間帯を決定できるコンテンツ転送時間帯決定方法を提供することにある。
【課題を解決するための手段】
【0011】
上記の目的を達成するために、本発明は、コンテンツ転送の実績に基づいて各転送時間帯の通信品質を学習し、コンテンツ転送の要求が検知されると、学習結果に基づいて確率的に最適な転送時間帯を決定するコンテンツ転送時間帯決定方法において、以下のような手順を具備した点に特徴がある。
【0012】
(1)各転送時間帯の行動価値関数を初期化する手順と、現在のコンテンツ転送時間帯決定方策に従って今回の転送時間帯timeを選択する手順と、選択された転送時間帯でコンテンツを転送する手順と、今回のコンテンツ転送の通信品質を評価する手順と、評価結果に基づいて収益を算出する手順と、収益に基づいて行動価値予測における誤差を算出する手順と、誤差に基づいて今回の転送時間帯の行動価値関数を更新する手順とを含み、これ以後のコンテンツ転送要求に応答して、前記転送時間を選択する手順から行動価値関数を更新する手順までを繰り返すことを特徴とする。
【0013】
(2)各転送時間帯の行動価値関数を初期化する手順と、現在のコンテンツ転送時間帯決定方策に従って、コンテンツ転送の要求が検知された時間帯ptimeをパラメータとして今回の転送時間帯timeを選択する手順と、選択された転送時間帯でコンテンツを転送する手順と、今回のコンテンツ転送の通信品質を評価する手順と、評価結果に基づいて収益を算出する手順と、収益に基づいて行動価値予測における誤差を算出する手順と、誤差に基づいて前記今回の転送時間帯の行動価値関数を更新する手順とを含み、これ以後のコンテンツ転送要求に応答して、前記転送時間を選択する手順から行動価値関数を更新する手順までを繰り返すことを特徴とする。
【0014】
(3)コンテンツ転送時間帯を決定するための各手順が、コンテンツを転送する無線端末ごとに実行されることを特徴とする。
【0015】
(4)無線端末が無線基地局を経由してコンテンツを転送する際に、前記コンテンツ転送時間帯を決定するための各手順が、各無線端末を収容する無線基地局ごとに実行されることを特徴とする。
【0016】
(5)無線端末が無線基地局を経由してコンテンツを転送する際に、前記コンテンツ転送時間帯を決定するための各手順が、所定の通信エリアごとに実行されることを特徴とする。
【0017】
(6)無線端末が無線基地局を経由してコンテンツを転送する際に、前記コンテンツ転送時間帯を決定するための各手順が一部の通信エリアで実行され、一の通信エリアで更新された行動価値関数と他の一の通信エリアで更新された行動価値関数とに基づいて更に他の一の通信エリアの行動価値関数を推定し、当該更に他の一の通信エリアでは、前記推定された行動価値関数に基づいてコンテンツの転送時間帯が決定されることを特徴とする。
【発明の効果】
【0018】
本発明によれば、以下のような効果が達成される。
(1)コンテンツ転送の時間帯決定に強化学習を適用し、通信品質を収益として更新された行動価値関数に基づいてコンテンツ転送時間帯timeが決定されるようにしたので、通信品質に関して確率的に最適な転送時間帯を選択できるようになる。
(2)コンテンツ転送の時間帯決定に強化学習を適用し、コンテンツ転送の要求が検知された時間帯ptimeをパラメータとし、通信品質を収益として更新された行動価値関数に基づいてコンテンツ転送時間帯timeが決定されるようにしたので、通信品質に関して確率的に最適かつより早い時刻の転送時間帯を選択できるようになる。
(3)強化学習を適用したコンテンツ転送の時間帯決定手順が無線端末ごとに実施されるので、無線端末ごとにコンテンツ転送の環境が異なる場合でも、無線端末ごとに確率的に最適な転送時間帯を選択できるようになる。
(4)強化学習を適用したコンテンツ転送の時間帯決定手順が、無線端末を収容する無線基地局ごとに実施されるので、行動価値関数の更新頻度が高くなり、無線リンク利用状況の変化に対する追随性が向上する。
(5)強化学習を適用したコンテンツ転送の時間帯決定手順が、所定の通信エリアごとに実施されるので、行動価値関数の更新頻度が更に高くなり、無線リンク利用状況の変化に対する追随性が更に向上する。
(6)強化学習を適用したコンテンツ転送の時間帯決定手順が一部の通信エリアにおいてのみ実施され、他の通信エリアでは、前記一部の通信エリアで得られた行動価値関数から推定された行動価値関数を利用するので、設備コストや行動価値関数の更新処理に必要な通信量を減らすことができる。
【図面の簡単な説明】
【0019】
【図1】本発明が適用される転送ネットワークの第1の構成を示した図である。
【図2】転送時間帯決定部の第1実施形態の構成を示したブロック図である。
【図3】本発明の第1実施形態の動作を示したフローチャートである。
【図4】転送時間帯決定部の第2実施形態の構成を示したブロック図である。
【図5】本発明の第2実施形態の動作を示したフローチャートである。
【図6】本発明が適用される転送ネットワークの第2の構成を示した図である。
【図7】本発明が適用される転送ネットワークの第3の構成を示した図である。
【図8】本発明が適用される転送ネットワークの第4の構成を示した図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して本発明の実施の形態について詳細に説明する。本発明では、リアルタイム性の低いデータトラヒック(ここでは、コンテンツ転送)に対して割り当てたコンテンツ転送時間帯とその実績スループットとに基づいて、将来のコンテンツ転送時間帯とその推定スループットとを強化学習し、最適なコンテンツ転送時間帯を割り当てることを考える。
【0021】
図1は、本発明が適用される転送ネットワークの構成を示した図であり、転送ネットワーク1には、複数の携帯無線端末MNを収容する無線基地局1およびコンテンツ送受信ノード3が接続されており、各無線端末MNの端末ユーザがコンテンツ転送の要求操作を入力すると、これに応答して無線端末MNにコンテンツの転送時間帯が割り当てられる。無線端末MNは、自身に割り当てられた転送時間帯を待ってコンテンツを送信または受信(以下、転送で総称する場合もある)する。
【実施例1】
【0022】
図2は、各無線端末MNに実装されてコンテンツ転送の時間帯を決定する転送時間帯決定部10の構成を示したブロック図である。
【0023】
コンテンツ転送時間帯選択部101は、今回のコンテンツ転送時間帯timeを決定方策πに従って選択する。本実施形態では、行動価値関数Q (time)に基づく強化比較法に基づき、次式(1)によって算出される確率に従ってコンテンツ転送時間帯timeが選択される。但し、εはコンテンツ転送時間帯の最小選択確率、τは温度係数と呼ばれる定数であり、Q (time'),Q (time'')は、各コンテンツ転送時間帯time',time''について推定された行動価値関数である。
【0024】
【数1】

【0025】
コンテンツ転送部102は、前記コンテンツ転送時間帯timeを待ってコンテンツ転送を実行する。収益算出部103は、今回のコンテンツ転送の結果に基づいて、実現可能な通信品質を表す収益rを算出する。本実施形態では、収益rがコンテンツ転送の際に連続して転送されたコンテンツサイズによって与えられる。誤差算出部104は、行動価値予測における誤差δを次式(2)に基づいて算出する。なお、time*はQ (time')を最大化する最適なコンテンツ転送時間帯time'であり、次式(3)で与えられる。また、γは割引率パラメータと呼ばれる定数である。
【0026】
【数2】

【0027】
【数3】

【0028】
更新部105は、コンテンツ転送が行われた今回の転送時間帯timeに関して、その行動価値関数Q (time)を次式(4)に基づいて更新する。但し、αはステップサイズパラメータと呼ばれる定数である。
【0029】
【数4】

【0030】
次いで、フローチャートを参照して本実施形態の動作を詳細に説明する。図3は、本実施形態における転送時間帯timeの決定手順を示したフローチャートであり、ここでは、各無線端末MNが実際にコンテンツ転送を行いながら以下の処理を実行する。
【0031】
ステップS1では、選択し得る転送時間帯の集合TIMEに含まれる全てのコンテンツ転送時間帯time(∈TIME)に関して、その行動価値関数Q(time)が「A」に初期化される。但し、初期値Aは収益rに比べて十分大きな値を持つ定数とする。ステップS2において、コンテンツ転送の要求が検知されるとステップS3へ進み、前記コンテンツ転送時間帯選択部101において、現在のコンテンツ転送時間帯決定方策πに従い、上式(1)によって算出される確率に基づいてコンテンツ転送時間帯timeが選択される。
【0032】
ステップS4では、前記コンテンツ転送部102において、前記選択された今回のコンテンツ転送時間帯timeを待ってコンテンツ転送が実施される。ステップS5では、前記収益算出部103において、コンテンツ転送の結果に基づいて実現可能な通信品質を表す収益rが算出される。ステップS6では、前記誤差算出部104において、行動価値予測における誤差δが上式(2),(3)に基づいて算出される。
【0033】
ステップS7では、前記更新部105において、コンテンツ転送が行われた今回の転送時間帯timeに関して、その行動価値関数Q (time)が上式(4)に基づいて更新される。上記ステップS3〜S7の処理は、ステップS2でコンテンツ転送要求が検知されるごとに繰り返される。
【0034】
本実施形態によれば、各無線端末はステップS7において更新された行動価値関数に基づき、ステップ3においてコンテンツ転送時間帯timeを決定することにより、高い通信品質を実現できる行動価値関数の値が大きな時間帯を、大きな確率で選択することができる。また、ステップ3において、必ずしも実現できる通信品質が高くない、行動価値関数の値が小さな時間帯も、小さな確率で選択することによって、常に探査が行われ、今まで実現できる通信品質が高くなかった時間帯において、高い通信品質が実現できるようになった等の無線リンク利用状況の変化を検知して、変化に追随することができる。
【実施例2】
【0035】
図4は、本実施形態において、各無線端末MNに実装されてコンテンツ転送の時間帯を決定する転送時間帯決定部10の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。本実施形態では、コンテンツ転送の要求が検知された時間帯ptimeからコンテンツ転送時間帯timeまでの経過時間がパラメータに追加されている。
【0036】
コンテンツ転送時間帯選択部201は、今回のコンテンツ転送時間帯timeを決定方策πに従って選択する。本実施形態では、行動価値関数Q (ptime,time)に基づく強化比較法に基づき、次式(5)により算出される確率に基づいてコンテンツ転送時間帯timeが選択される。但し、「ε」はコンテンツ転送時間帯の最小選択確率、「τ」は温度係数と呼ばれる定数であり、Q (ptime,time'),Q (ptime,time'')は、コンテンツ転送の要求が検知された時間帯ptimeに対する各コンテンツ転送時間帯time',time''について推定された行動価値関数である。
【0037】
【数5】

【0038】
コンテンツ転送部102は、前記コンテンツ転送時間帯timeを待ってコンテンツ転送を実行する。収益算出部203は、今回のコンテンツ転送の結果に基づいて、実現可能な通信品質を表す収益rを算出する。収益rは、例えばコンテンツ転送の際に連続して転送されたコンテンツサイズの増加と共に大きくなり、コンテンツ転送の要求が検知された時間帯ptimeからの時間差(time−ptime)の増加と共に減少する値とする。
【0039】
誤差算出部204は、行動価値予測における誤差δを次式(6)に基づいて算出する。なお、time*はQ (ptime, time')を最大化する最適なコンテンツ転送時間帯time'であり、次式(7)で与えられる。
【0040】
【数6】

【0041】
【数7】

【0042】
更新部205は、コンテンツ転送が行われた今回の転送時間帯timeに関して、その行動価値関数Q (ptime, time)を次式(8)に基づいて更新する。
【0043】
【数8】

【0044】
次いで、フローチャートを参照して本実施形態の動作を詳細に説明する。図5は、第2実施形態における転送時間帯timeの決定手順を示したフローチャートであり、本実施形態でも、各々の無線端末が実際にコンテンツ転送を行いながら以下の処理を実行する。
【0045】
ステップS11では、選択し得る転送時間帯の集合TIMEに含まれる全てのコンテンツ転送時間帯time(∈TIME)およびコンテンツ転送の要求が検知された時間帯ptimeのペアに関して、行動価値関数Q (ptime, time) が「A」に初期化される。但し、Aは収益rに比べて十分大きな値を持つ定数である。ステップS12において、コンテンツ転送の要求が検知されるとステップS13へ進み、前記コンテンツ転送時間帯選択部201において、現在のコンテンツ転送時間帯決定方策πに従って、上式(5)によって算出される確率に従ってコンテンツ転送時間帯timeが選択される。
【0046】
ステップS14では、前記コンテンツ転送部102において、前記選択された今回のコンテンツ転送時間帯timeを待ってコンテンツが転送される。ステップS15では、前記収益算出部203において、コンテンツ転送の結果に基づいて、実現可能な通信品質を表す収益rが算出される。ステップS16では、前記誤差算出部204において、行動価値予測における誤差δが上式(6),(7)に基づいて算出される。
【0047】
ステップS17では、前記更新部205において、コンテンツ転送を行った時間帯timeに対して、行動価値関数Q (ptime, time) が上式(8)に基づいて更新される。但し、「α」はステップサイズパラメータと呼ばれる定数である。上記ステップS13〜S17の処理は、ステップS12でコンテンツ転送要求が検知されるごとに繰り返される。
【0048】
本実施形態によれば、各々の無線端末は、ステップS17において更新された行動価値関数とコンテンツ転送の要求が検知された時間帯とに基づき、ステップS13においてコンテンツ転送時間帯を決定することにより、高い通信品質が得られる早い時間帯を、大きな確率で選択することができる。またステップS13において、必ずしも通信品質が高く早い時間帯ではない、行動価値関数の値が小さな時間帯も、小さな確率で選択することによって常に探査が行われ、今まで実現できる通信品質が高くなかった時間帯において、高い通信品質が実現できるようになった等の無線リンク利用状況の変化を検知して、変化に追随することができる。
【他の実施例】
【0049】
なお、上記の各実施形態では、コンテンツを転送する無線端末MNごとにコンテンツ転送の実績に基づいて高い通信品質を実現できる転送時間帯timeを学習し、コンテンツ転送の要求が検知されると、学習結果に基づいて確率的に最適なコンテンツ転送の時間帯を決定するものとして説明したが、本発明はこれのみに限定されるものではなく、このような強化学習の単位は、(1)無線基地局単位、あるいは(2)複数の無線基地局を含む通信エリア単位であってもよく、さらには(3)一部の通信エリアの強化学習結果に基づいて他の通信エリアの強化学習結果を推定するようにしても良い。
【0050】
さらに具体的に説明すれば、(1)強化学習を無線基地局単位で実行するのであれば、図6に一例を示したように、前記転送時間帯決定部10を実装した学習サーバ機能4を無線基地局2に付加し、収容する複数の無線端末MNが実際に行うコンテンツ転送の結果に基づき、学習サーバ機能4が無線基地局対応の行動価値関数の更新処理を行い、行動価値関数あるいは行動価値関数に基づいて決定された転送時間帯timeを、収容する各無線端末MNに通知する。このように、基地局対応の行動価値関数を利用することにより、行動価値関数の更新頻度が高くなり、無線リンク利用状況の変化に対する追随性が向上する。
【0051】
また、(2)強化学習を通信エリア単位で実行するのであれば、図7に一例を示したように、複数の通信エリアについて通信エリアごとに学習サーバ5(5a,5b)を設けて前記転送時間帯決定部10を実装し、通信エリア内で動作している複数の無線端末が実際に行うコンテンツ転送の結果に基づき、通信エリア対応の行動価値関数の更新処理を行い、行動価値関数あるいは行動価値関数に基づいて決定されたコンテンツ転送時間帯を、通信エリア内の各無線端末に通知する。
【0052】
ここで、通信エリアは住宅地域、商業地域、ビジネス地域等に区別される。このように、通信エリア対応の行動価値関数を利用することにより、更に行動価値関数の更新頻度が高くなり、無線リンク利用状況の変化に対する追随性が向上する。
【0053】
さらに、(3)学習サーバを設けられる通信エリアが一部に限定されるのであれば、図8に一例を示したように、限られた通信エリアごとに設けられた学習サーバ5(5a,5b)が各通信エリア対応の行動価値関数の更新処理を行い、更新された行動価値関数から、学習サーバを持たない他の通信エリアの行動価値関数を推定する。例えば、典型的な商業地域である通信エリアにおける行動価値関数および典型的なビジネス地域である通信エリアにおける行動価値関数を平均化することにより、商業地域とビジネス地域が混在している通信エリアの行動価値関数を推定する。このように、限られた一部の通信エリアのみに学習サーバ5を設けることにより、学習サーバ等の設備コストや行動価値関数の更新処理に必要な通信量を減らすことができる。
【符号の説明】
【0054】
1…転送ネットワーク、2…無線基地局、3…コンテンツ送受信ノード、10…転送時間帯決定部、101,201…コンテンツ転送時間帯選択部、102…コンテンツ転送部、103,203…収益算出部、104,204…誤差算出部、105,205…更新部

【特許請求の範囲】
【請求項1】
コンテンツ転送の実績に基づいて各転送時間帯の通信品質を学習し、コンテンツ転送の要求が検知されると、学習結果に基づいて確率的に最適な転送時間帯を決定するコンテンツ転送時間帯決定方法において、
選択し得る転送時間帯の行動価値関数を初期化する手順と、
現在のコンテンツ転送時間帯決定方策に従って今回の転送時間帯を選択する手順と、
前記選択された転送時間帯でコンテンツを転送する手順と、
今回のコンテンツ転送の通信品質を評価する手順と、
前記評価結果に基づいて収益を算出する手順と、
前記収益に基づいて行動価値予測における誤差を算出する手順と、
前記誤差に基づいて前記今回の転送時間帯の行動価値関数を更新する手順とを含み、
これ以後のコンテンツ転送要求に応答して、前記転送時間を選択する手順から行動価値関数を更新する手順までを繰り返すことを特徴とするコンテンツ転送時間帯決定方法。
【請求項2】
コンテンツ転送の実績に基づいて各転送時間帯の通信品質を学習し、コンテンツ転送の要求が検知されると、学習結果に基づいて確率的に最適な転送時間帯を決定するコンテンツ転送時間帯決定方法において、
選択し得る転送時間帯の行動価値関数を初期化する手順と、
現在のコンテンツ転送時間帯決定方策に従って、コンテンツ転送の要求が検知された時間帯をパラメータとして今回の転送時間帯を選択する手順と、
前記選択された転送時間帯でコンテンツを転送する手順と、
今回のコンテンツ転送の通信品質を評価する手順と、
前記評価結果に基づいて収益を算出する手順と、
前記収益に基づいて行動価値予測における誤差を算出する手順と、
前記誤差に基づいて前記今回の転送時間帯の行動価値関数を更新する手順とを含み、
これ以後のコンテンツ転送要求に応答して、前記転送時間を選択する手順から行動価値関数を更新する手順までを繰り返すことを特徴とするコンテンツ転送時間帯決定方法。
【請求項3】
前記コンテンツ転送時間帯を決定するための各手順が、コンテンツを転送する無線端末ごとに実行されることを特徴とする請求項1または2に記載のコンテンツ転送時間帯決定方法。
【請求項4】
無線端末が無線基地局を経由してコンテンツを転送する際に、前記コンテンツ転送時間帯を決定するための各手順が、各無線端末を収容する無線基地局ごとに実行されることを特徴とする請求項1または2に記載のコンテンツ転送時間帯決定方法。
【請求項5】
無線端末が無線基地局を経由してコンテンツを転送する際に、前記コンテンツ転送時間帯を決定するための各手順が、所定の通信エリアごとに実行されることを特徴とする請求項1または2に記載のコンテンツ転送時間帯決定方法。
【請求項6】
無線端末が無線基地局を経由してコンテンツを転送する際に、前記コンテンツ転送時間帯を決定するための各手順が一部の通信エリアで実行され、一の通信エリアで更新された行動価値関数と他の一の通信エリアで更新された行動価値関数とに基づいて更に他の一の通信エリアの行動価値関数を推定し、当該更に他の一の通信エリアでは、前記推定された行動価値関数に基づいてコンテンツの転送時間帯が決定されることを特徴とする請求項1または2に記載のコンテンツ転送時間帯決定方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−34188(P2011−34188A)
【公開日】平成23年2月17日(2011.2.17)
【国際特許分類】
【出願番号】特願2009−177713(P2009−177713)
【出願日】平成21年7月30日(2009.7.30)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】