説明

Fターム[5H004KD61]の内容

フィードバック制御一般 (10,654) | 制御部 (227) | 学習制御(ニューロコントローラを除く) (114)

Fターム[5H004KD61]の下位に属するFターム

Fターム[5H004KD61]に分類される特許

1 - 20 / 23


【課題】無線通信網の状態に応じたユースケースの適用を学習するために強化学習を行う場合における学習効率が向上する。
【解決手段】移動体通信網3の状態変数に応じて移動体通信網3の制御パラメータを設定するパラメータ設定装置2は、状態変数stに応じた各最適化処理の行動価値Q(s,a)を定める共通の価値関数30に従い、無線通信網3内の異なる複数の範囲(6a、6b)の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲(6a、6b)の各々について、範囲内の状態変数stに応じた報酬rtを決定する処理と、この範囲毎に決定された報酬rt毎に、報酬rtに応じて共通の価値関数30を更新する強化学習を行う強化学習処理を実行するプロセッサ10を備える。 (もっと読む)


【課題】物体初期状態から目標状態までの軌道を、探索に制約を伴わずに少ない計算コスト、かつ高い精度で求めることのできる軌道計画システムを提供する。
【解決手段】軌道計画システムは、状態空間において、該目標状態を根とし、予め複数の区域に分割された状態空間のそれぞれの区域に含まれる枝のノードの数を制限することによって枝を集約した逆方向探索木を作成する探索木作成部101と、該状態空間において、該逆方向探索木上の点に対して、その領域内であれば、該逆方向探索木にしたがって該目標状態に到達しうる、移行可能領域を定める移行可能領域決定部103と、探索木及び移行可能領域を記憶する探索木記憶部104と、該逆方向探索木を使用して該移行可能領域内の点から該根までの、該物体の軌道を定める軌道作成部105と、を備える。 (もっと読む)


【課題】従来、報酬関数を構成する多数の項の間で発生するトレードオフが、ロボットの運動学習の妨げとなっていた。
【解決手段】制御対象の環境に関する1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、1以上の第一種環境パラメータの値を報酬関数に代入し、報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出手段と、1以上の制御パラメータの値を制御対象に対して出力する制御パラメータ値出力手段と、仮想外力に関連する1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、1以上の第二種環境パラメータを仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、仮想外力を制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置により、すばやくかつ安定して、ロボットの運動学習が行える。 (もっと読む)


【課題】データの統計量に従って、自動的にシステムの行動を決定することができ、かつ、ある特定のアクションを何回も繰り返し生成する現象を起こさないPOMDPによる行動制御装置等を提供する。
【解決手段】アクションの連続出現回数をアクション継続長とし、アクション継続長の確率をアクション継続長確率として予め記憶しておき、現在の状態の確率分布を引数として、各アクションに対するスコアを求め、一つ前のアクションと最もよいスコアに対応するアクションとが同じ場合には、最もよいスコアに対応するアクションの実時間アクション継続長に対応するアクション継続長確率から得られる値と一様乱数との大小関係に応じて、最もよいスコアに対応するアクションを、または、最もよいスコアに対応するアクションとは異なるアクションを、システムがとるべきアクションとして決定する。 (もっと読む)


【課題】物体の種々の初期状態から目標状態までの軌道を、探索に制約を伴わずに少ない計算コストで求めることのできる軌道計画システム、及び求めた軌道にしたがって目標状態までの軌道を制御することのできる軌道計画・制御システムを提供する。
【解決手段】軌道計画システムは、状態空間において、該目標状態を根とし、該目標状態に至るまでの状態を枝として、予め区分された状態空間の複数のセルのそれぞれに一つの枝を有する探索木を予め作成する探索木作成部(101)と、該探索木を記憶する探索木記憶部(103)と、該物体の現在の状態を求め、該現在の状態に対応する該探索木の枝を求め、該現在の状態に対応する該探索木の枝から該根までの探索木上の経路を、物体の軌道として求める軌道作成部(105)と、を備える。軌道計画・制御システムは、さらに目標状態までの軌道を制御する軌道制御部(107)を備える。 (もっと読む)


【課題】マニピュレーターのリーチング動作や移動ロボットの移動など、自動機械の移動を好適に制御する。
【解決手段】自動機械の現在位置及び最終目標位置をパラメトリック曲線の端末とみなし、これら2点を結ぶパラメトリック曲線を内分比r:1−rで内分する内分点を、仮想バネ・ダンパ系の平衡点、すなわち仮目標位置として算出する。そして、この仮目標位置を2次のフィルターで鈍らせ、目標位置xdの生成を行なう。複雑な経路への追従制御が実現されるとともに、ベースとなるオンライン目標位置整形の特徴である対外乱適応能力を両立した移動制御器を構成できる。 (もっと読む)


【課題】未知の環境を効率的に学習する。
【解決手段】状態価値算出部32は、エージェントの行動によって、状態が遷移する、行動ごとの状態遷移モデルの各状態について、現在状態等の所定の状態に近い状態への遷移確率が大きい状態ほど、値が大きくなる、現在状態を基準とする状態価値を算出し、行動価値算出部33は、状態遷移モデルの各状態、及び、エージェントが可能な各行動について、現在状態を基準とする状態価値が大きい状態への遷移確率が大きいほど、値が大きくなる行動価値を算出する。目標状態設定部34は、行動価値のばらつきが大きい状態を、エージェントが行う行動によって到達する目標となる目標状態に設定し、行動選択部35は、目標状態に向かう行動を選択する。本発明は、例えば、自律的に行動するエージェントが未知の環境を学習する場合に適用できる。 (もっと読む)


【課題】オペレータの操作負担を軽減できる運転支援装置及び運転支援方法を提供する。
【解決手段】 入力インターフェース71は、予測シミュレーションの目的を指定し、判定手段72は、仮想操作変数に基づく定常状態予測シミュレータ5による予測結果が、前記目的を満たすか否かを判定する。判定の結果、前記予測結果が前記目的を満たさない場合に、入力手段73は、前記仮想操作変数を更新して前記定常状態予測シミュレータ5に入力する。 (もっと読む)


【課題】
目標値と目標値の重みをキーボードから入力する必要が無く、局所解からの脱出を容易にし、パラメーターの入力による計算結果のグラフ表示・グラフの変形による最適化結果のパラメーター表示の双方向オペレーションを可能にする最適化シミュレーション技術を提供する。
【解決手段】
初期パラメーターに基づきプログラムは関数の計算をおこない、計算結果をグラフ表示する。プログラムは、ユーザーがグラフをマウスなどのポインティング装置を用いて所望の形状に近づくように変形させることができる機能を持つ。さらにマウスカーソルがグラフのデーター点を通過した回数に応じて最適化に使用する重みを増やす機能を持つ。プログラムは、変形されたグラフのデーター点を目標値として、最適化手法を用いてパラメーターを最適化する。最適化後のパラメーターを初期パラメーターとして上記手順を繰り返し、所望の目標値に近づけていく。 (もっと読む)


【課題】自然勾配法を適用した、計算時間の短い強化学習システム及び強化学習方法を提供する。
【解決手段】学習制御システムは、状態Sに対応する行動価値Oの更新量を求める第1の学習器103と、状態Sをさらに分割した状態Si,jに対応する行動価値Oi,jの更新量を求める第2の学習器105と、第1及び第2の学習器による行動価値の更新量の、行動価値の空間(O,Oi,j)における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新する行動価値決定器107とを備えている。 (もっと読む)


【課題】学習の際に使用されるトレーニングデータの統計的不確定性を考慮し、同時にメモリスペース需要と計算時間に関して効率的な、技術システムの閉ループ制御および/または開ループ制御の学習方法を提供する。
【解決手段】技術システムの運転中の求められた、状態、活動および連続状態を含むトレーニングデータに基づいて、品質関数と活動選択ルールを学習するステップ;品質関数および活動選択ルールの学習中に、品質関数の統計的不確定性に対する尺度を、不確定性伝播によって求めるステップ;該統計的不確定性に対する尺度と、品質関数への統計的に緩和された要求に相当する確率パラメータとに基づいて、モデル化された品質関数を決定するステップ;モデル化された品質関数に基づいて、活動選択ルールを学習するステップ。 (もっと読む)


【課題】デュアル位置フィードバック制御を行って加工目的に応じた位置偏差の低減を実現するサーボ制御装置を提供する。
【解決手段】サーボ制御装置が、モータの位置を検出する第1の位置検出部と、被駆動体の位置を検出する第2の位置検出部と、位置指令とモータ位置フィードバックとに基づいて第1の位置偏差を演算する第1の位置偏差演算部と、位置指令と被駆動体位置フィードバックとに基づいて第2の位置偏差を演算する第2の位置偏差演算部と、第1の位置偏差と第2の位置偏差との差分を、時定数回路を通して第1の位置偏差に加算することにより、位置制御に使用される第3の位置偏差を演算する第3の位置偏差演算部と、第2の位置偏差又は第3の位置偏差のいずれか一方を選択して出力する切替部と、該切替部からの出力を学習し、第3の位置偏差に対する補正量を出力する学習制御部と、を備える。 (もっと読む)


本発明は、エネルギー使用制御システムにおける調整ノードを提供する。調整ノードは、エネルギー消費ノードからトレードオフ関数を受け取る。調整ノード及びエネルギー消費ノードは集合的にドメインを形成する。エネルギー消費ノードからのトレードオフ関数は、エネルギー消費ノードによるエネルギー消費結果と前記結果に対する満足度との間の関係を記述する。調整ノードは、受け取ったトレードオフ関数に基づき、エネルギー消費ノードについてそれぞれの方針を創成する。方針のそれぞれは少なくとも1つの目標及び/又は少なくとも1つの手順を含み、エネルギー使用を制御するようにそれぞれのエネルギー消費ノードを導き、エネルギー消費ノードがドメインのために最適エネルギー節約を集合的に達成するようにする。
(もっと読む)


【課題】試行回数(学習時間)を減少させて、実タスクへ適用可能な方策勾配法のアルゴリズムを利用した制御器を提供する。
【解決手段】制御信号を制御対象に与える処理を行って、制御対象の状態量を観測器(たとえば、位置センサ、角度センサ、加速度センサ、角加速度センサなど)で観測し、この観測結果により定常分布の対数の偏微分を推定し、これを用いて、新しい自然方策勾配である「自然定常方策勾配」を推定して、方策パラメータを更新し、これにより方策を更新する。そして、更新された方策により、さらに、制御対象が制御される。 (もっと読む)


【課題】計算量を減少させて、実タスクへ適用可能な方策勾配法のアルゴリズムを利用した制御器を提供する。
【解決手段】制御信号を制御対象に与える処理を行って、制御対象の状態量を観測器(たとえば、位置センサ、角度センサ、加速度センサ、角加速度センサなど)で観測し、この観測結果により定常分布の対数の偏微分を推定することで、方策の勾配を推定し、推定結果に基づいて、方策を更新する。そして、更新された方策により、さらに、制御対象が制御される。 (もっと読む)


【課題】ワークの種類毎にねじれ剛性の調整をすることなく、一対のサーボモータ間の干渉を抑制する制御を行うことができ、高精度加工を能率良く実施できる工作機械用制御装置を提供する。
【解決手段】一対のサーボモータ7a,7bの相互干渉を抑制するための非干渉補正器10を備え、この非干渉補正器10が、一対のサーボモータからそれぞれ検出された位置フィードバック値FB1,FB2の差分値と、ワークにねじれが生じるように、一対のサーボモータに対して与えられたねじり剛性測定用のトルク指令値とに基づいてワークのねじり剛性を推定するねじり剛性推定ブロックと、一対のサーボモータからそれぞれ検出された速度フィードバック値FB3,FB4の差分値と、ねじり剛性推定ブロックにより推定されたねじり剛性とに基づいて、一対のサーボモータのトルク指令値を補正するためのトルク指令補正値を推定するトルク指令値補正ブロックと、を備える。 (もっと読む)


【課題】被冷却物の冷却特性に応じた温度制御系統の構築を図ることである。
【解決手段】蒸発器(14)で冷却された冷却油を工作機械の主軸(21)との間で循環させる冷却油回路(20)を備えている。冷却油の冷却温度の変動状態を示す複数の評価パラメータに対して重み付けを定める重み付け設定部(33)と、蒸発器(14)における冷却状態を調節するための複数の制御パラメータを重み付けに応じて各評価パラメータを評価しながら各制御パラメータの最適値を学習制御する学習制御部(34)とを備えている。 (もっと読む)


【課題】強化学習法は自律移動ロボット等に応用される知的動作の一つであり、未知の環境での動作が可能であるなど優れた面を持つシステムであるが、不完全知覚問題という基礎的な課題を持っている。いろいろな解決策が提案されているが、決め手はなく、システムも複雑なものになり兼ねない。簡単で効果的な解決方法が望まれている。
【解決手段】状態行動価値を複素数で定義する複素価値関数を導入する。時系列情報は複素数値の位相部分に取り込むことにする。これにより、複雑なアルゴリズムを用いることなく時系列情報が価値関数に取り込まれ、簡便な実装により不完全知覚問題が有効に解決される。 (もっと読む)


【課題】 様々な情報家電を簡単に操作し、ユーザがその情報家電の状態を簡単に知ることができるように情報家電とユーザとの間を仲介するインタフェース装置を提供する
【解決手段】 インタフェース装置は、状態信号と反応信号とを関連付けて蓄積部15へ登録する登録部14と、蓄積部の状態信号と信号取得部からの状態信号とを照合する第1の照合部16と、蓄積部の反応信号と反応取得部からの反応信号とを照合する第2の照合部17とを備え、他の状態信号を取得した場合に他の状態信号と蓄積部の状態信号とを照合し、対応する場合、状態信号に関連付けられた反応信号をユーザへ表現し、対応しない場合、他の状態信号をユーザへ表現し、このときユーザからの反応信号を他の状態信号と関連付けて登録し、他の反応信号を取得した場合、第2の照合部が他の反応信号と蓄積部の反応信号とを照合し、対応する場合には、反応信号に関連付けられた状態信号を電気製品へ出力する。 (もっと読む)


【課題】
エージェントが事前学習に用いたシミュレータの特性とプラントの特性に誤差があった場合においても、適切な制御パラメータ調整ガイダンスを提供できる運転支援装置および運転支援方法を提供することにある。
【解決手段】
エージェント600は、プラントシミュレータを用いて計算したプロセス値を入力とし、所定の対象プロセス値とその目標値との偏差を評価指標として制御回路の制御パラメータ値を修正する。エージェント600は、制御パラメータの修正結果に対する評価指標値の変化量に基づいて制御パラメータの増加または減少の方向性と修正量を学習する評価・学習部630と、実プラントのプロセス値の計測値情報を用いてプラントとプラントモデルのプロセス値の応答特性を一致させるモデル調整部450と、制御パラメータ設定部650によって、制御パラメータ値の増加量または減少量をガイダンスとしてCRT710に表示する。 (もっと読む)


1 - 20 / 23