Categoría: Aprendizaje por refuerzo

Una técnica de aprendizaje automático en la que un agente aprende a tomar decisiones en un entorno interactivo para maximizar una recompensa.