<  Retour au portail Polytechnique Montréal

TDprop : does adaptive optimization with Jacobi preconditioning help temporal difference learning?

Joshua Romoff, Peter Henderson, David Kanaa, Emmanuel Bengio, Ahmed Touati, Pierre-Luc Bacon et Joelle Pineau

Communication écrite (2021)

Un lien externe est disponible pour ce document
Département: Département de génie informatique et génie logiciel
URL de PolyPublie: https://publications.polymtl.ca/49068/
Nom de la conférence: 20th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2021)
Date(s) de la conférence: 2021-05-03 - 2021-05-07
Maison d'édition: International Foundation for Autonomous Agents and Multiagent Systems (IFAAMAS)
URL officielle: https://www.ifaamas.org/Proceedings/aamas2021/pdfs...
Date du dépôt: 18 avr. 2023 15:00
Dernière modification: 05 avr. 2024 11:51
Citer en APA 7: Romoff, J., Henderson, P., Kanaa, D., Bengio, E., Touati, A., Bacon, P.-L., & Pineau, J. (mai 2021). TDprop : does adaptive optimization with Jacobi preconditioning help temporal difference learning? [Communication écrite]. 20th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2021) (9 pages). https://www.ifaamas.org/Proceedings/aamas2021/pdfs/p1082.pdf

Statistiques

Aucune statistique n'est disponible.

Actions réservées au personnel

Afficher document Afficher document