¿Qué es el aprendizaje reforzado?
El aprendizaje por refuerzo se define como un método de aprendizaje automático que se relaciona con la forma en que los agentes de software deben actuar en un entorno. El aprendizaje reforzado es parte del método de aprendizaje en profundidad que le ayuda a maximizar algunas de las recompensas acumulativas.
Este método de aprendizaje de redes neuronales le ayuda a aprender cómo lograr un objetivo complejo u optimizar una función específica en muchos pasos.
En el tutorial de aprendizaje reforzado, aprenderá:
Términos clave utilizados en el método de aprendizaje reforzado profundo
A continuación, se muestran algunos términos importantes que se utilizan en el refuerzo de IA:
- Agente: Es una entidad receptora que realiza actividades en un entorno a cambio de una recompensa.
- Entorno (s): Una situación que debe abordar un agente.
- Recompensa (R): Un retorno inmediato que se le da a un agente cuando realiza una acción o tarea específica.
- Estado (s): Estado se refiere a la situación actual en la que ha regresado el entorno.
- Política (π): Es una estrategia que implementa el agente para determinar la siguiente acción en función de la situación actual.
- Valor (V): Se espera un rendimiento a largo plazo con un descuento, en comparación con la recompensa a corto plazo.
- Valor de la función: Eso Se indica el valor del estado, que es el monto total de la recompensa. Es un agente que debe esperarse a partir de ese estado.
- Modelo medioambiental: Esto es similar al comportamiento del medio ambiente. Le ayuda a sacar conclusiones y también a decidir cómo se comportará el entorno.
- Métodos basados en modelos: Es un método para resolver problemas de aprendizaje reforzado que utiliza métodos basados en modelos.
- Valor Q o valor de actividad (Q): El valor de Q es bastante similar a un valor. La única diferencia entre los dos es que toma un parámetro adicional como acción actual.
¿Cómo funciona el aprendizaje por refuerzo?
Veremos un ejemplo sencillo que le ayudará a ilustrar el mecanismo de aprendizaje reforzado.
Considere un escenario para enseñarle nuevos trucos a su gato
- Debido a que un gato no entiende inglés ni ningún otro idioma humano, no podemos decirle exactamente qué hacer. En cambio, seguimos una estrategia diferente.
- Imitamos una situación y el gato intenta responder de muchas formas diferentes. Si la respuesta del gato es la forma deseada, le daremos un pescado.
- Ahora, cada vez que el gato se expone a la misma situación, el gato realiza una acción similar mientras espera con mayor diligencia obtener más recompensa (comida).
- Eso es como aprender lo que un gato obtiene de «qué hacer» a partir de experiencias positivas.
- Al mismo tiempo, el gato también aprende qué no hacer cuando tiene experiencias negativas.
Explicación de ejemplo:
En este caso,
- Es un agente para gatos que están expuestos al medio ambiente. En este caso, es tu casa. Un ejemplo de un estado es que tu gato está sentado y usas una palabra específica para que un gato camine.
- Nuestro agente reacciona transfiriendo la actividad de un «estado» a otro «estado».
- Por ejemplo, tu gato pasa de estar sentado a caminar.
- La reacción de un agente es una acción y la política es un método para seleccionar la acción a la luz de un estado que espera mejores resultados.
- Después de la transferencia, pueden recibir una recompensa o un reembolso.
Algoritmos de aprendizaje reforzados
Hay tres enfoques para implementar un algoritmo de aprendizaje reforzado.
Basado en valor:
En el modo de aprendizaje reforzado basado en valores, debe intentar maximizar una función de valor V (s). En este método, el agente espera que los estados actuales vuelvan a la política a largo plazo. π.
Basado en la política:
En un método de RL basado en políticas, intenta establecer una política de este tipo que ayudará a que las medidas tomadas en cada estado le proporcionen la mayor recompensa en el futuro.
Hay dos tipos de enfoques basados en políticas:
- Decisivo: Para cualquier estado, es la política que produce la misma acción π.
- Estocástico: cada acción tiene una cierta probabilidad, que está determinada por la siguiente ecuación. Política estocástica:
n{as) = PA, = aS, =S]
Basado en modelo:
En este modo de aprendizaje reforzado, debe crear un modelo virtual para cada entorno. El agente aprende a funcionar en ese entorno específico.
Características del aprendizaje reforzado
Estos son atributos importantes del aprendizaje reforzado
- No hay supervisor, solo un número real o una muestra de recompensa
- Toma de decisiones secuencial
- El tiempo juega un papel vital en los problemas de refuerzo
- La retroalimentación siempre se retrasa, no es instantánea
- Las acciones de un agente determinan los datos posteriores que recibe
Tipos de aprendizaje reforzado
Hay dos tipos de métodos de aprendizaje reforzados:
Positivo:
Se define como un incidente que ocurre debido a un comportamiento particular. Aumenta la fuerza y frecuencia del comportamiento y tiene un efecto positivo sobre la acción realizada por el agente.
Este tipo de refuerzo le ayuda a maximizar el rendimiento y mantener el cambio durante un período de tiempo más largo. Sin embargo, la sobreoptimización del estado puede generar demasiados refuerzos, lo que puede afectar los resultados.
Negativo:
El refuerzo negativo se define como el refuerzo de la conducta que se produce debido a una condición negativa que debe detenerse o evitarse. Le ayuda a definir el soporte de rendimiento más pequeño. La desventaja de este método, sin embargo, es que proporciona lo suficiente para cumplir con el comportamiento mínimo.
Modelos de aprendizaje reforzados
Hay dos modelos de aprendizaje importantes en el aprendizaje reforzado:
- Proceso de decisión de Markov
- Q aprendizaje
Proceso de decisión de Markov
Los siguientes parámetros se utilizan para obtener una solución:
- Serie de acciones- A.
- -S serie estatal
- Recompensa- R.
- Política- n
- Valor- V.
El enfoque matemático de la solución está mapeado en Aprendizaje reforzado como un proceso de decisión de Markov o (MDP).
Q-Learning
Aprender Q es un método basado en valores para proporcionar información para informar las acciones que debe tomar un agente.
Entendemos este método por el siguiente ejemplo:
- Un edificio tiene cinco habitaciones adosadas a puertas.
- Cada habitación tiene números del 0 al 4
- El exterior del edificio puede ser una gran área al aire libre (5)
- Las puertas 1 y 4 ingresan al edificio desde la habitación 5
Luego, debe asignar un valor de recompensa a cada puerta:
- Las puertas que conducen directamente a la meta tienen una recompensa de 100
- Las puertas que no están conectadas directamente a la habitación de destino no ofrecen ninguna recompensa.
- Porque las puertas son de dos vías y a cada habitación se le asignan dos flechas
- Cada flecha en la imagen de arriba tiene un valor de recompensa inmediato
Explicación:
En esta imagen, puede ver que la habitación es un estado.
El movimiento de un agente de una habitación a otra representa acción.
En la imagen siguiente, un estado se describe como un nodo y las flechas muestran la acción.
Por ejemplo, un agente cruza de la habitación número 2 a la 5
- Posición inicial = estado 2
- Estado 2-> estado 3
- Estado 3 -> estado (2,1,4)
- Estado 4-> estado (0,5,3)
- Estado 1-> estado (5,3)
- Estado 0-> estado 4
Aprendizaje reforzado frente a aprendizaje supervisado
Parámetros | Aprendizaje reforzado | Aprendizaje supervisado |
Estilo de decisión | el aprendizaje reforzado le ayuda a tomar sus decisiones de forma secuencial. | En este método, la entrada dada se determina al principio. |
Funciona en | Trabaja en la interacción con el medio ambiente. | Funciona con muestras o datos de muestra dados. |
Dependencia de la decisión | En el modo RL, la decisión de aprendizaje depende. Por lo tanto, debe etiquetar todas las decisiones dependientes. | Aprenda a supervisar decisiones que son independientes entre sí, por lo que todas las decisiones están etiquetadas. |
Más adecuado | Apoya y funciona mejor en IA, donde prevalece la interacción humana. | Se opera principalmente con un sistema o aplicación de software interactivo. |
Ejemplo | Un juego de ajedrez | Reconocimiento objetivo |
Aplicación de aprendizaje reforzado
Las aplicaciones de aprendizaje reforzado son:
- Robótica para automatización industrial.
- Planificación de la estrategia empresarial
- Aprendizaje automático y procesamiento de datos
- Le ayuda a crear sistemas de formación que proporcionan instrucción y materiales personalizados de acuerdo con las necesidades de los estudiantes.
- Control de aeronaves y control de movimiento de robots
¿Por qué utilizar el aprendizaje reforzado?
Estas son algunas de las razones clave para utilizar el aprendizaje por refuerzo:
- Te ayuda a descubrir qué situación necesita acción.
- Le ayuda a saber qué acción ofrece la mayor recompensa durante un período más largo.
- El aprendizaje reforzado también proporciona una función de recompensa para el agente de aprendizaje.
- También le permite encontrar el mejor método para obtener grandes recompensas.
¿Cuándo no utilizar el aprendizaje reforzado?
No se puede aplicar el modelo de aprendizaje reforzado a todo el escenario. Aquí hay algunas condiciones en las que no debe utilizar un modelo de aprendizaje reforzado.
- Cuando tenga suficientes datos para resolver el problema con un método de aprendizaje supervisado
- Debe recordar que el aprendizaje por refuerzo es una computadora intensiva y requiere mucho tiempo. especialmente cuando el espacio de actividades es grande.
Desafíos del aprendizaje reforzado
Estos son los principales desafíos que enfrentará al obtener Reforzado:
- Un diseño de elemento / recompensa que debería estar muy involucrado
- Los parámetros pueden afectar la velocidad de aprendizaje.
- Los entornos realistas pueden tener visibilidad parcial.
- Demasiados refuerzos pueden causar una sobrecarga de estado que podría reducir los resultados.
- Los entornos realistas pueden no ser estacionarios.
Resumen:
- El aprendizaje reforzado es un método de aprendizaje automático
- Le ayuda a saber qué acción ofrece la mayor recompensa durante un período más largo.
- Tres métodos para el aprendizaje reforzado son 1) Aprendizaje basado en valores 2) Aprendizaje basado en políticas y modelos.
- Agente, Estado, Recompensa, Entorno, Valor de función Modelo medioambiental, Métodos basados en modelos, son términos importantes cuando se utilizan en el método de aprendizaje de RL
- Un ejemplo de aprendizaje reforzado es que es un agente para un gato que está expuesto al entorno.
- La principal característica de este método es que no hay supervisor, solo un número real o una muestra de recompensa.
- Dos tipos de aprendizaje reforzado son 1) Positivo 2) Negativo
- Dos modelos de aprendizaje ampliamente utilizados son 1) Proceso de decisión de Markov 2) Aprendizaje Q
- El método de aprendizaje reforzado funciona en la interacción con el entorno, pero el método de aprendizaje supervisado funciona en una muestra o muestra en particular.
- Los métodos de aplicación o aprendizaje por refuerzo son: Robótica para automatización industrial y planificación de estrategias comerciales.
- No debe usar este método cuando tenga suficientes datos para resolver el problema
- El principal desafío de este método es que los parámetros pueden afectar la velocidad de aprendizaje