Saltar al contenido

Que es, algoritmos, aplicaciones, ejemplo

¿Qué es el aprendizaje reforzado?

El aprendizaje por refuerzo se define como un método de aprendizaje automático que se relaciona con la forma en que los agentes de software deben actuar en un entorno. El aprendizaje reforzado es parte del método de aprendizaje en profundidad que le ayuda a maximizar algunas de las recompensas acumulativas.

Este método de aprendizaje de redes neuronales le ayuda a aprender cómo lograr un objetivo complejo u optimizar una función específica en muchos pasos.

En el tutorial de aprendizaje reforzado, aprenderá:

Términos clave utilizados en el método de aprendizaje reforzado profundo

A continuación, se muestran algunos términos importantes que se utilizan en el refuerzo de IA:

¿Cómo funciona el aprendizaje por refuerzo?

Veremos un ejemplo sencillo que le ayudará a ilustrar el mecanismo de aprendizaje reforzado.

Considere un escenario para enseñarle nuevos trucos a su gato

Explicación de ejemplo:

Cómo funciona el aprendizaje reforzado

En este caso,

Algoritmos de aprendizaje reforzados

Hay tres enfoques para implementar un algoritmo de aprendizaje reforzado.

Basado en valor:

En el modo de aprendizaje reforzado basado en valores, debe intentar maximizar una función de valor V (s). En este método, el agente espera que los estados actuales vuelvan a la política a largo plazo. π.

Basado en la política:

En un método de RL basado en políticas, intenta establecer una política de este tipo que ayudará a que las medidas tomadas en cada estado le proporcionen la mayor recompensa en el futuro.

Hay dos tipos de enfoques basados ​​en políticas:

Basado en modelo:

En este modo de aprendizaje reforzado, debe crear un modelo virtual para cada entorno. El agente aprende a funcionar en ese entorno específico.

Características del aprendizaje reforzado

Estos son atributos importantes del aprendizaje reforzado

Tipos de aprendizaje reforzado

Hay dos tipos de métodos de aprendizaje reforzados:

Positivo:

Se define como un incidente que ocurre debido a un comportamiento particular. Aumenta la fuerza y ​​frecuencia del comportamiento y tiene un efecto positivo sobre la acción realizada por el agente.

Este tipo de refuerzo le ayuda a maximizar el rendimiento y mantener el cambio durante un período de tiempo más largo. Sin embargo, la sobreoptimización del estado puede generar demasiados refuerzos, lo que puede afectar los resultados.

Negativo:

El refuerzo negativo se define como el refuerzo de la conducta que se produce debido a una condición negativa que debe detenerse o evitarse. Le ayuda a definir el soporte de rendimiento más pequeño. La desventaja de este método, sin embargo, es que proporciona lo suficiente para cumplir con el comportamiento mínimo.

Modelos de aprendizaje reforzados

Hay dos modelos de aprendizaje importantes en el aprendizaje reforzado:

Proceso de decisión de Markov

Los siguientes parámetros se utilizan para obtener una solución:

El enfoque matemático de la solución está mapeado en Aprendizaje reforzado como un proceso de decisión de Markov o (MDP).

Q-Learning

Aprender Q es un método basado en valores para proporcionar información para informar las acciones que debe tomar un agente.

Entendemos este método por el siguiente ejemplo:

Luego, debe asignar un valor de recompensa a cada puerta:

Explicación:

En esta imagen, puede ver que la habitación es un estado.

El movimiento de un agente de una habitación a otra representa acción.

En la imagen siguiente, un estado se describe como un nodo y las flechas muestran la acción.

Por ejemplo, un agente cruza de la habitación número 2 a la 5

Aprendizaje reforzado frente a aprendizaje supervisado

ParámetrosAprendizaje reforzadoAprendizaje supervisado
Estilo de decisiónel aprendizaje reforzado le ayuda a tomar sus decisiones de forma secuencial.En este método, la entrada dada se determina al principio.
Funciona enTrabaja en la interacción con el medio ambiente.Funciona con muestras o datos de muestra dados.
Dependencia de la decisiónEn el modo RL, la decisión de aprendizaje depende. Por lo tanto, debe etiquetar todas las decisiones dependientes.Aprenda a supervisar decisiones que son independientes entre sí, por lo que todas las decisiones están etiquetadas.
Más adecuadoApoya y funciona mejor en IA, donde prevalece la interacción humana.Se opera principalmente con un sistema o aplicación de software interactivo.
EjemploUn juego de ajedrezReconocimiento objetivo

Aplicación de aprendizaje reforzado

Las aplicaciones de aprendizaje reforzado son:

¿Por qué utilizar el aprendizaje reforzado?

Estas son algunas de las razones clave para utilizar el aprendizaje por refuerzo:

¿Cuándo no utilizar el aprendizaje reforzado?

No se puede aplicar el modelo de aprendizaje reforzado a todo el escenario. Aquí hay algunas condiciones en las que no debe utilizar un modelo de aprendizaje reforzado.

Desafíos del aprendizaje reforzado

Estos son los principales desafíos que enfrentará al obtener Reforzado:

Resumen: