2011 IEEE Symposium on Adaptive Dynamic Programming And Reinforcement Learning, ADPRL 2011, Paris, France, April 12-14, 2011 - researchr publication

researchr

You are not signed in
Sign in
Sign up

2011 IEEE Symposium on Adaptive Dynamic Programming And Reinforcement Learning, ADPRL 2011, Paris, France, April 12-14, 2011. IEEE, 2011. [doi]

Conference: adprl2011

Abstract is missing.

Higher-level application of Adaptive Dynamic Programming/Reinforcement Learning - a next phase for controls and system identification?George G. Lendaris. [doi]

Approximate reinforcement learning: An overviewLucian Busoniu, Damien Ernst, Bart De Schutter, Robert Babuska. 1-8 [doi]

Parametric value function approximation: A unified viewMatthieu Geist, Olivier Pietquin. 9-16 [doi]

On learning with imperfect representationsShivaram Kalyanakrishnan, Peter Stone. 17-24 [doi]

Active exploration for robot parameter selection in episodic reinforcement learningOliver Kroemer, Jan Peters. 25-31 [doi]

Active learning for personalizing treatmentKun Deng, Joelle Pineau, Susan A. Murphy. 32-39 [doi]

Active exploration by searching for experiments that falsify the computed control policyRaphael Fonteneau, Susan A. Murphy, Louis Wehenkel, Damien Ernst. 40-47 [doi]

Optimistic planning for sparsely stochastic systemsLucian Busoniu, Rémi Munos, Bart De Schutter, Robert Babuska. 48-55 [doi]

Adaptive sample collection using active learning for kernel-based approximate policy iterationChunming Liu, Xin Xu, Haiyun Hu, Bin Dai. 56-61 [doi]

Tree-based variable selection for dimensionality reduction of large-scale control systemsAndrea Castelletti, Stefano Galelli, Marcello Restelli, Rodolfo Soncini-Sessa. 62-69 [doi]

High-order local dynamic programmingYuval Tassa, Emanuel Todorov. 70-75 [doi]

Safe reinforcement learning in high-risk tasks through policy improvementFrancisco Javier García-Polo, Fernando Fernández-Rebollo. 76-83 [doi]

Agent self-assessment: Determining policy quality without executionAlexander Hans, Siegmund Duell, Steffen Udluft. 84-90 [doi]

Reinforcement learning algorithms for solving classification problemsMarco A. Wiering, Hado van Hasselt, Auke-Dirk Pietersma, Lambert Schomaker. 91-96 [doi]

Reinforcement learning in multidimensional continuous action spacesJason Pazis, Michail G. Lagoudakis. 97-104 [doi]

Grounding subgoals in information transitionsSander G. van Dijk, Daniel Polani. 105-111 [doi]

Directed exploration of policy space using support vector classifiersIoannis Rexakis, Michail G. Lagoudakis. 112-119 [doi]

Protecting against evaluation overfitting in empirical reinforcement learningShimon Whiteson, Brian Tanner, Matthew E. Taylor, Peter Stone. 120-127 [doi]

Higher order Q-LearningAshley Edwards, William M. Pottenger. 128-134 [doi]

Bayesian active learning with basis functionsIlya O. Ryzhov, Warren B. Powell. 143-150 [doi]

Evolutionary value function approximationMohsen Davarynejad, Jelmer van Ast, Jos L. M. Vrancken, Jan van den Berg. 151-155 [doi]

Enhancing the episodic natural actor-critic algorithm by a regularisation term to stabilize learning of control structuresAndreas Witsch, Roland Reichle, Kurt Geihs, Sascha Lange, Martin Riedmiller. 156-163 [doi]

Application of reinforcement learning-based algorithms in CO2 allowance and electricity marketsVishnuteja Nanduri. 164-169 [doi]

Model-building semi-Markov adaptive criticsAbhijit Gosavi, Susan L. Murray, Jiaqiao Hu. 170-175 [doi]

Dynamic lead time promisingMatthew J. Reindorp, Michael C. Fu. 176-183 [doi]

N-step optimal time-invariant trajectory tracking control for a class of nonlinear systemsRuizhuo Song, Huaguang Zhang. 184-189 [doi]

Data-based adaptive critic design for discrete-time zero-sum games using output feedbackLili Cui, Huaguang Zhang, Xin Zhang, Yanhong Luo. 190-195 [doi]

Global optimal strategies of a class of finite-horizon continuous-time nonaffine nonlinear zero-sum game using a new iteration algorithmXin Zhang, Huaguang Zhang, Lili Cui, Yanhong Luo. 196-201 [doi]

Path integral control and bounded rationalityDaniel A. Braun, Pedro A. Ortega, Evangelos Theodorou, Stefan Schaal. 202-209 [doi]

Adaptive dynamic programming with balanced weights seeking strategyJian Fu, Haibo He, Zhen Ni. 210-217 [doi]

Moving least-squares approximations for linearly-solvable MDPMingyuan Zhong, Emanuel Todorov. 218-225 [doi]

Near optimal control of mobile robot formationsTravis Dierks, Bryan Brenner, Sarangapani Jagannathan. 234-241 [doi]

Adaptive dynamic programming for optimal control of unknown nonlinear discrete-time systemsDerong Liu, Ding Wang, Dongbin Zhao. 242-249 [doi]

Online adaptive learning of optimal control solutions using integral reinforcement learningKyriakos G. Vamvoudakis, Draguna Vrabie, Frank L. Lewis. 250-257 [doi]

Online near optimal control of unknown nonaffine systems with application to HCCI enginesHassan Zargarzadeh, Sarangapani Jagannathan, James A. Drallmeier. 258-263 [doi]

An approximate Dynamic Programming based controller for an underactuated 6DoF quadrotorPetru Emanuel Stingu, Frank L. Lewis. 271-278 [doi]

Improved neural fitted Q iteration applied to a novel computer gaming and learning benchmarkThomas Gabel, Christian Lutz, Martin Riedmiller. 279-286 [doi]

Fitted policy searchMartino Migliavacca, Alessio Pecorino, Matteo Pirotta, Marcello Restelli, Andrea Bonarini. 287-294 [doi]

A reinforcement learning approach for sequential mastery testingEl-Sayed M. El-Alfy. 295-301 [doi]

Information space receding horizon controlSuman Chakravorty, R. Scott Erwin. 302-309 [doi]

Feedback controller parameterizations for Reinforcement LearningJohn W. Roberts, Ian R. Manchester, Russ Tedrake. 310-317 [doi]

Supervised adaptive dynamic programming based adaptive cruise controlDongbin Zhao, Zhaohui Hu. 318-323 [doi]

An adaptive-learning framework for semi-cooperative multi-agent coordinationAbdeslem Boukhtouta, Jean Berger, Warren B. Powell, Abraham P. George. 324-331 [doi]

Structure search of probabilistic models and data correction for EDA-RLHisashi Handa. 332-337 [doi]

Complex object manipulation with hierarchical optimal controlAlex Simpkins, Emanuel Todorov. 338-345 [doi]

runs on WebDSL