Guillem Duran Ballester
Machine Learning / ES
Ebury
06 October 2018, 13:00 - 13:25
Hackeando el Reinforcement Learning
A pesar de los recientes avances en el campo del aprendizaje por refuerzo (Reinforcement Learning), generar fácilmente datasets de ejemplos de buena calidad sigue siendo un auténtico infierno. Por suerte, si nos permitimos hacer un poco de trampas y utilizar algoritmos de planificación, es posible conseguirlo. En hackeando el Reinforcement Learning, presentaremos una nueva familia de algoritmos de planificación capaces de obtener puntuaciones sobrehumanas utilizando muy pocos recursos de computación.
El objetivo de esta charla es ofrecer una explicación intuitiva de cómo funciona esta nueva familia de algoritmos mediante animaciones visuales y demostraciones en vivo. Esta charla estará dividida en cuatro apartados que se corresponden con los pasos a seguir para hackear cualquier sistema.
-
Recopilación de información: En esta es una breve introducción a los conceptos necesarios para poder seguir la charla y entender el probema que queremos resolver.
-
Escaneo y detección de vulnerabilidades: Aquí explicaremos con animaciones visuales y sin entrar en detalles matemáticos en qué consisten los nuevos algoritmos presentados y cómo se integran con el aprendizaje por refuerzo.
-
Explotación del sistema: Python ofrece una gran cantidad de librerias y herramientas para trabajar con problemas de aprendizaje por refuerzo. En esta sección realizaremos una prueba de concepto en la que mostraremos como generar partidas de Ms.Pacman de calidad sobrehumana en tan solo unos minutos. Además, se mostraran ejemplos de como integrar los algoritmos presentados con las liberías ya existentes.
-
Mantener el acceso y gestionar huellas: Por último, se explicará que tipo de problemas pueden ser resueltos eficientemente, qué resultados hemos obtenido en diferentes pruebas, y dónde encontrar recursos adicionales para aprender más sobre el tema.
Esta charla es una adaptación de Hacking reinforcement learning, presentada en EuroPython2018.