By Blog de CEUPE on Lunes, 04 Abril 2022
Category: TECNOLOGÍA

Aprendizaje por refuerzo: Concepto, características y ejemplo

El tipo de aprendizaje en el cual las máquinas aprenden y perfeccionan sus técnicas en base a su propia experiencia, utilizan la metodología del aprendizaje por refuerzo.

Es una instrucción que consiste en alcanzar el rendimiento ideal a través de aciertos y errores.

Definición de aprendizaje por refuerzo

El aprendizaje por refuerzo es una rama del machine learning en la cual la máquina guía su propio aprendizaje a través de recompensas y castigos. Es decir, consiste en un sistema de instrucción autónomo cuyo camino es indicado según sus aciertos y errores.

Consta de un aprendizaje empírico, por lo que el agente informático está en constante búsqueda de aquellas decisiones que le premien de algún modo, a la par que evita aquellos caminos que, por experiencia propia, son penalizados.

También, se puede decir que el aprendizaje reforzado es un concepto similar al que utilizan los seres vivos. Esto es, las máquinas aprenden qué decisiones tomar de acuerdo a la situación en la que se encuentren. Además, son capaces de desarrollar estrategias con una visión a largo plazo.

Ejemplo: ¿Cómo funciona el aprendizaje por refuerzo?

A continuar, se presenta un ejemplo sencillo sobre cómo funciona el aprendizaje por refuerzo.

En primer lugar, hay que tener en cuenta que en el aprendizaje reforzado hay 6 variables principales;

  1. Ambiente: Es el entorno donde el agente se mueve e interactúa. Contiene todos los elementos que constituye el estado. Establece las reglas y las limitaciones del sitio.

  2. Estado: Es la situación actual del ambiente, teniendo en cuenta todos sus elementos y variables. En pocas palabras, es un indicador actual del ambiente.

  3. Agente: Es la máquina o el modelo al cual se le aplica inteligencia por refuerzo. Es el autor del escenario y el que toma las decisiones por autonomía propia.

  4. Acciones: Son las posibles decisiones que puede tomar el agente en diversas circunstancias.

  5. Recompensas: Son los premios que se le otorgan al agente por acertar o tomar el camino correcto.

  6. Penalizaciones: Son los castigos que se le otorgan al agente por fallar o tomar el camino incorrecto.

Veamos estas variables en un ejemplo simple:

Bien, en este juego, el ambiente es el juego en sí. El estado es la situación actual del juego. El agente es el que toma las decisiones. La acción es la elección de la casilla. La recompensa es la victoria, y la penalización es la derrota.

Aplicaciones del aprendizaje por refuerzo

Características del aprendizaje por refuerzo

Leave Comments