ADPRL - researchr conference series publications

researchr

You are not signed in
Sign in
Sign up

Viewing Publication 1 - 100 from 153

2014

2014 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning, ADPRL 2014, Orlando, FL, USA, December 9-12, 2014IEEE, 2014. [doi]

Multi-objective reinforcement learning for AUV thruster failure recoverySeyed Reza Ahmadzadeh, Petar Kormushev, Darwin G. Caldwell. adprl 2014: 1-8 [doi]

A two stage learning technique for dual learning in the pursuit-evasion differential gameAhmad A. Al-Talabi, Howard M. Schwartz. adprl 2014: 1-8 [doi]

Heuristics for multiagent reinforcement learning in decentralized decision problemsMartin W. Allen, David Hahn, Douglas C. MacFarland. adprl 2014: 1-8 [doi]

Information-theoretic stochastic optimal control via incremental sampling-based algorithmsOktay Arslan, Evangelos A. Theodorou, Panagiotis Tsiotras. adprl 2014: 1-8 [doi]

Approximate real-time optimal control based on sparse Gaussian process modelsJoschka Boedecker, Jost Tobias Springenberg, Jan Wülfing, Martin A. Riedmiller. adprl 2014: 1-8 [doi]

An analysis of optimistic, best-first search for minimax sequential decision makingLucian Busoniu, Rémi Munos, Elod Pall. adprl 2014: 1-8 [doi]

Active learning for classification: An optimistic approachTimothe Collet, Olivier Pietquin. adprl 2014: 1-8 [doi]

Adaptive aggregated predictions for renewable energy systemsBalázs Csanád Csáji, András Kovács, József Váncza. adprl 2014: 1-8 [doi]

An adaptive dynamic programming algorithm to solve optimal control of uncertain nonlinear systemsXiaohong Cui, Yanhong Luo, Huaguang Zhang. adprl 2014: 1-6 [doi]

Pareto Upper Confidence Bounds algorithms: An empirical studyMadalina M. Drugan, Ann Nowé, Bernard Manderick. adprl 2014: 1-8 [doi]

Using supervised training signals of observable state dynamics to speed-up and improve reinforcement learningDaniel L. Elliott, Charles Anderson. adprl 2014: 1-8 [doi]

Convergence of value iterations for total-cost MDPs and POMDPs with general state and action setsEugene A. Feinberg, Pavlo O. Kasyanov, Michael Z. Zgurovsky. adprl 2014: 1-8 [doi]

Using approximate dynamic programming for estimating the revenues of a hydrogen-based high-capacity storage deviceVincent François-Lavet, Raphaël Fonteneau, Damien Ernst. adprl 2014: 1-8 [doi]

Reinforcement learning-based optimal control considering L computation time delay of linear discrete-time systemsTaishi Fujita, Toshimitu Ushio. adprl 2014: 1-6 [doi]

Tunable and generic problem instance generation for multi-objective reinforcement learningDeon Garrett, Jordi Bieger, Kristinn R. Thórisson. adprl 2014: 1-8 [doi]

Subspace identification for predictive state representation by nuclear norm minimizationHadrien Glaude, Olivier Pietquin, Cyrille Enderli. adprl 2014: 1-8 [doi]

Beyond exponential utility functions: A variance-adjusted approach for risk-averse reinforcement learningAbhijit Gosavi, Sajal K. Das, Susan L. Murray. adprl 2014: 1-8 [doi]

Neural network-based adaptive optimal consensus control of leaderless networked mobile robotsHaci Mehmet Guzey, Hao Xu, Sarangapani Jagannathan. adprl 2014: 1-6 [doi]

Cognitive control in cognitive dynamic systems: A new way of thinking inspired by the brainSimon Haykin, Ashkan Amiri, Mehdi Fatemi. adprl 2014: 1-7 [doi]

Theoretical analysis of a reinforcement learning based switching schemeAli Heydari. adprl 2014: 1-6 [doi]

Near-optimality bounds for greedy periodic policies with application to grid-level storageYuhai Hu, Boris Defourny. adprl 2014: 1-8 [doi]

On-policy Q-learning for adaptive optimal controlSumit Kumar Jha, Shubhendu Bhasin. adprl 2014: 1-6 [doi]

A comparison of approximate dynamic programming techniques on benchmark energy storage problems: Does anything work?Daniel R. Jiang, Thuy V. Pham, Warren B. Powell, Daniel F. Salas, Warren R. Scott. adprl 2014: 1-8 [doi]

Convergent reinforcement learning control with neural networks and continuous action searchMinwoo Lee, Charles W. Anderson. adprl 2014: 1-8 [doi]

Adaptive dynamic programming-based optimal tracking control for nonlinear systems using general value iterationXiaofeng Lin, Qiang Ding, Weikai Kong, Chunning Song, Qingbao Huang. adprl 2014: 1-6 [doi]

Neural-network-based adaptive dynamic surface control for MIMO systems with unknown hysteresisLei Liu, Zhanshan Wang, Zhengwei Shen. adprl 2014: 1-6 [doi]

Adaptive dynamic programming for discrete-time LQR optimal tracking control problems with unknown dynamicsYang Liu, Yanhong Luo, Huaguang Zhang. adprl 2014: 1-6 [doi]

ADP-based optimal control for a class of nonlinear discrete-time systems with inequality constraintsYanhong Luo, Geyang Xiao. adprl 2014: 1-5 [doi]

Accelerated gradient temporal difference learning algorithmsDominik Meyer, Remy Degenne, Ahmed Omrane, Hao Shen. adprl 2014: 1-8 [doi]

Closed-loop control of anesthesia and mean arterial pressure using reinforcement learningRegina Padmanabhan, Nader Meskin, Wassim M. Haddad. adprl 2014: 1-8 [doi]

Nonparametric infinite horizon Kullback-Leibler stochastic controlYunpeng Pan, Evangelos A. Theodorou. adprl 2014: 1-8 [doi]

Policy gradient approaches for multi-objective sequential decision making: A comparisonSimone Parisi, Matteo Pirotta, Nicola Smacchia, Luca Bascetta, Marcello Restelli. adprl 2014: 1-8 [doi]

Event-based optimal regulator design for nonlinear networked control systemsAvimanyu Sahoo, Hao Xu, Sarangapani Jagannathan. adprl 2014: 1-8 [doi]

Continuous-time differential dynamic programming with terminal constraintsWei Sun, Evangelos A. Theodorou, Panagiotis Tsiotras. adprl 2014: 1-6 [doi]

Optimal self-learning battery control in smart residential grids by iterative Q-learning algorithmQinglai Wei, Derong Liu, Guang Shi, Yu Liu, Qiang Guan. adprl 2014: 1-7 [doi]

Model-based multi-objective reinforcement learningMarco A. Wiering, Maikel Withagen, Madalina M. Drugan. adprl 2014: 1-6 [doi]

Adaptive fault identification for a class of nonlinear dynamic systemsLi-bing Wu, Dan Ye, Xin-Gang Zhao. adprl 2014: 1-6 [doi]

Model-free Q-learning over finite horizon for uncertain linear continuous-time systemsHao Xu, Sarangapani Jagannathan. adprl 2014: 1-6 [doi]

Annealing-pareto multi-objective multi-armed bandit algorithmSaba Q. Yahyaa, Madalina M. Drugan, Bernard Manderick. adprl 2014: 1-8 [doi]

Pseudo-MDPs and factored linear action modelsHengshuai Yao, Csaba Szepesvári, Bernardo Avila Pires, Xinhua Zhang. adprl 2014: 1-9 [doi]

Data-driven partially observable dynamic processes using adaptive dynamic programmingXiangnan Zhong, Zhen Ni, Yufei Tang, Haibo He. adprl 2014: 1-8 [doi]

A data-based online reinforcement learning algorithm with high-efficient explorationYuanheng Zhu, Dongbin Zhao. adprl 2014: 1-6 [doi]

2013

Proceedings of the 2013 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning, ADPRL 2013, IEEE Symposium Series on Computational Intelligence (SSCI), 16-19 April 2013, SingaporeIEEE, 2013. [doi]

Exponential moving average Q-learning algorithmM. D. Awheda, H. M. Schwartz. adprl 2013: 31-38 [doi]

Reinforcement learning to train Ms. Pac-Man using higher-order action-relative inputsLuuk Bom, Ruud Henken, Marco Wiering. adprl 2013: 156-163 [doi]

Optimistic planning for continuous-action deterministic systemsLucian Busoniu, A. Daniels, Rémi Munos, Robert Babuska. adprl 2013: 69-76 [doi]

A combined hierarchical reinforcement learning based approach for multi-robot cooperative target searching in complex unknown environmentsYifan Cai, Simon X. Yang, Xin Xu. adprl 2013: 52-59 [doi]

Optimistic planning for belief-augmented Markov Decision ProcessesRaphaël Fonteneau, Lucian Busoniu, Rémi Munos. adprl 2013: 77-84 [doi]

The second order temporal difference error for Sarsa(λ)Qi-ming Fu, Quan Liu, Fei Xiao, Guixin Chen. adprl 2013: 60-68 [doi]

On the coordination system for the dimensionality-reduced inputs of marioHisashi Handa. adprl 2013: 170-176 [doi]

Local stability analysis of high-order recurrent neural networks with multi-step piecewise linear activation functionsYujiao Huang, Huaguang Zhang, Dongsheng Yang. adprl 2013: 1-5 [doi]

Optimized look-ahead trees: Extensions to large and continuous action spacesT. Jung, D. Ernst, F. Maes. adprl 2013: 85-92 [doi]

A reinforcement learning algorithm developed to model GenCo strategic bidding behavior in multidimensional and continuous state and action spacesA. Y. F. Lau, Dipti Srinivasan, Thomas Reindl. adprl 2013: 116-123 [doi]

Bias-corrected Q-learning to control max-operator bias in Q-learningDonghun Lee, Boris Defourny, Warren B. Powell. adprl 2013: 93-99 [doi]

Optimal control for a class of nonlinear systems with state delay based on Adaptive Dynamic Programming with ε-error boundXiaofeng Lin, Nuyun Cao, Yuzhang Lin. adprl 2013: 177-182 [doi]

Exploring the relationship of reward and punishment in reinforcement learningRobert Lowe, Tom Ziemke. adprl 2013: 140-147 [doi]

An integrated design for intensified direct heuristic dynamic programmingXiong Luo, Jennie Si, Yuchao Zhou. adprl 2013: 183-190 [doi]

Scalarized multi-objective reinforcement learning: Novel design techniquesKristof Van Moffaert, Madalina M. Drugan, Ann Nowé. adprl 2013: 191-199 [doi]

Real-time tracking on adaptive critic design with uniformly ultimately bounded conditionZhen Ni, Xiao Fang, Haibo He, Dongbin Zhao, Xin Xu. adprl 2013: 39-46 [doi]

Adaptive optimal control for nonlinear discrete-time systemsChunbin Qin, Huaguang Zhang, Yanhong Luo. adprl 2013: 13-18 [doi]

A study on the efficiency of learning a robot controller in various environmentsSachiko Soga, Ichiro Kobayashi. adprl 2013: 164-169 [doi]

Optimal control for a class of nonlinear system with controller constraints based on finite-approximation-errors ADP algorithmRuizhuo Song, Wendong Xiao, Yanhong Luo. adprl 2013: 19-23 [doi]

Delayed insertion and rule effect moderation of domain knowledge for reinforcement learningTeck-Hou Teng, Ah-Hwee Tan. adprl 2013: 132-139 [doi]

Free energy based policy gradientsEvangelos Theodorou, Jiri Najemnik, Emanuel Todorov. adprl 2013: 124-131 [doi]

Reinforcement learning in the game of Othello: Learning against a fixed opponent and learning from self-playM. van der Ree, M. Wiering. adprl 2013: 108-115 [doi]

Fault accommodation for complete synchronization of complex neural networksZhanshan Wang, Fufei Chu, Hongjing Liang, Huaguang Zhang. adprl 2013: 200-205 [doi]

A novel approach for constructing basis functions in approximate dynamic programming for feedback controlJian Wang, Zhenhua Huang, Xin Xu. adprl 2013: 47-51 [doi]

Finite horizon stochastic optimal control of uncertain linear networked control systemHao Xu, Sarangapani Jagannathan. adprl 2013: 24-30 [doi]

Analyzing collective behavior in evolutionary swarm robotic systems based on an ethological approachToshiyuki Yasuda, Nanami Wada, Kazuhiro Ohkura, Yoshiyuki Matsumura. adprl 2013: 148-155 [doi]

Finite-horizon optimal control design for uncertain linear discrete-time systemsQiming Zhao, Hao Xu, Sarangapani Jagannathan. adprl 2013: 6-12 [doi]

Value function approximation and model predictive controlMingyuan Zhong, M. Johnson, Yuval Tassa, Tom Erez, Emo Todorov. adprl 2013: 100-107 [doi]

2011

2011 IEEE Symposium on Adaptive Dynamic Programming And Reinforcement Learning, ADPRL 2011, Paris, France, April 12-14, 2011IEEE, 2011. [doi]

An adaptive-learning framework for semi-cooperative multi-agent coordinationAbdeslem Boukhtouta, Jean Berger, Warren B. Powell, Abraham P. George. adprl 2011: 324-331 [doi]

Path integral control and bounded rationalityDaniel A. Braun, Pedro A. Ortega, Evangelos Theodorou, Stefan Schaal. adprl 2011: 202-209 [doi]

Approximate reinforcement learning: An overviewLucian Busoniu, Damien Ernst, Bart De Schutter, Robert Babuska. adprl 2011: 1-8 [doi]

Information space receding horizon controlSuman Chakravorty, R. Scott Erwin. adprl 2011: 302-309 [doi]

Evolutionary value function approximationMohsen Davarynejad, Jelmer van Ast, Jos L. M. Vrancken, Jan van den Berg. adprl 2011: 151-155 [doi]

Near optimal control of mobile robot formationsTravis Dierks, Bryan Brenner, Sarangapani Jagannathan. adprl 2011: 234-241 [doi]

Higher order Q-LearningAshley Edwards, William M. Pottenger. adprl 2011: 128-134 [doi]

A reinforcement learning approach for sequential mastery testingEl-Sayed M. El-Alfy. adprl 2011: 295-301 [doi]

Adaptive dynamic programming with balanced weights seeking strategyJian Fu, Haibo He, Zhen Ni. adprl 2011: 210-217 [doi]

Improved neural fitted Q iteration applied to a novel computer gaming and learning benchmarkThomas Gabel, Christian Lutz, Martin Riedmiller. adprl 2011: 279-286 [doi]

Safe reinforcement learning in high-risk tasks through policy improvementFrancisco Javier García-Polo, Fernando Fernández-Rebollo. adprl 2011: 76-83 [doi]

Model-building semi-Markov adaptive criticsAbhijit Gosavi, Susan L. Murray, Jiaqiao Hu. adprl 2011: 170-175 [doi]

Structure search of probabilistic models and data correction for EDA-RLHisashi Handa. adprl 2011: 332-337 [doi]

Agent self-assessment: Determining policy quality without executionAlexander Hans, Siegmund Duell, Steffen Udluft. adprl 2011: 84-90 [doi]

Active exploration for robot parameter selection in episodic reinforcement learningOliver Kroemer, Jan Peters. adprl 2011: 25-31 [doi]

Higher-level application of Adaptive Dynamic Programming/Reinforcement Learning - a next phase for controls and system identification?George G. Lendaris. adprl 2011: [doi]

Application of reinforcement learning-based algorithms in CO2 allowance and electricity marketsVishnuteja Nanduri. adprl 2011: 164-169 [doi]

Reinforcement learning in multidimensional continuous action spacesJason Pazis, Michail G. Lagoudakis. adprl 2011: 97-104 [doi]

Dynamic lead time promisingMatthew J. Reindorp, Michael C. Fu. adprl 2011: 176-183 [doi]

Directed exploration of policy space using support vector classifiersIoannis Rexakis, Michail G. Lagoudakis. adprl 2011: 112-119 [doi]

Bayesian active learning with basis functionsIlya O. Ryzhov, Warren B. Powell. adprl 2011: 143-150 [doi]

Complex object manipulation with hierarchical optimal controlAlex Simpkins, Emanuel Todorov. adprl 2011: 338-345 [doi]

Grounding subgoals in information transitionsSander G. van Dijk, Daniel Polani. adprl 2011: 105-111 [doi]

Reinforcement learning algorithms for solving classification problemsMarco A. Wiering, Hado van Hasselt, Auke-Dirk Pietersma, Lambert Schomaker. adprl 2011: 91-96 [doi]

Enhancing the episodic natural actor-critic algorithm by a regularisation term to stabilize learning of control structuresAndreas Witsch, Roland Reichle, Kurt Geihs, Sascha Lange, Martin Riedmiller. adprl 2011: 156-163 [doi]

Online near optimal control of unknown nonaffine systems with application to HCCI enginesHassan Zargarzadeh, Sarangapani Jagannathan, James A. Drallmeier. adprl 2011: 258-263 [doi]

Moving least-squares approximations for linearly-solvable MDPMingyuan Zhong, Emanuel Todorov. adprl 2011: 218-225 [doi]

Links

Filter by Year
OR AND NOT 1

Filter by Tag

Filter by Author

[+]
OR AND NOT 1

Filter by Top terms

[+]
OR AND NOT 1

ADPRL (adprl)

Viewing Publication 1 - 100 from 153

2014

2013

2011

Links

Filter by YearOR AND NOT 1

Filter by Tag

Filter by Author [+]OR AND NOT 1

Filter by Top terms [+]OR AND NOT 1

ADPRL (adprl)

Viewing Publication 1 - 100 from 153

2014

2013

2011

Filter by Year
OR AND NOT 1

Filter by Author

[+]
OR AND NOT 1

Filter by Top terms

[+]
OR AND NOT 1