Aprendizaje sin supervisión
Aprendizaje sin supervisión es una técnica de aprendizaje automático que no requiere que los usuarios supervisen el modelo. En cambio, permite que el modelo funcione por sí solo para descubrir patrones e información no descubiertos previamente. Se ocupa principalmente de los datos no etiquetados.
Algoritmos de aprendizaje no supervisados
Algoritmos de aprendizaje no supervisados permitiendo a los usuarios realizar tareas de procesamiento más complejas en comparación con el aprendizaje supervisado. Sin embargo, el aprendizaje no supervisado puede ser más predecible en comparación con otros métodos de aprendizaje naturales. Los algoritmos de aprendizaje no supervisados incluyen agrupamiento, detección de anomalías, redes neuronales, etc.
En este tutorial, aprenderá:
Ejemplo de aprendizaje automático no supervisado
Tomemos una funda para bebé y un perro de la familia.
Ella conoce a este perro y lo reconoce. Unas semanas más tarde, un amigo de la familia trae un perro con él e intenta jugar con el bebé.
El bebé no había visto a este perro antes. Pero reconoce que su perro tiene muchas características (2 orejas, ojos, caminar sobre 4 patas). Ella identifica al nuevo animal como un perro. Este es un aprendizaje no supervisado, en el que solo se le enseña a aprender de los datos (en este caso, detalles sobre un perro). Si se tratara de un aprendizaje supervisado, el amigo de la familia le habría dicho al niño que es un perro.
¿Qué aprendizaje no supervisado?
Estas son las principales razones para utilizar el aprendizaje no supervisado:
- El aprendizaje automático no supervisado encuentra todo tipo de patrones desconocidos en los datos.
- Los métodos no supervisados lo ayudan a encontrar características que pueden ser útiles para la categorización.
- Se realiza en tiempo real, por lo que todos los datos de entrada se analizan y etiquetan en presencia de los alumnos.
- Los datos sin etiquetar son más fáciles de obtener de una computadora que los datos etiquetados, lo que requiere intervención manual.
Tipos de aprendizaje no supervisado
Los problemas de aprendizaje no supervisados se agrupan además en problemas de agrupación y asociación.
Agrupación
La agrupación es un concepto importante para el aprendizaje no supervisado. Se trata principalmente de encontrar una estructura o patrón en una recopilación de datos sin categorizar. Los algoritmos de agrupación procesarán sus datos y recuperarán agrupaciones naturales (grupos) si existen en los datos. También puede modificar cuántos clústeres deben reconocer sus algoritmos. Le permite ajustar la granulosidad de estos grupos.
Hay diferentes tipos de clústeres que puede utilizar:
Exclusivo (partición)
En este modo de agrupamiento, los datos se agrupan de tal manera que un grupo pertenece a un solo dato.
Ejemplo: recurso K
Aglomeración
En esta técnica de agrupación, todos los datos son una agrupación. Las uniones repetitivas entre los dos conglomerados más cercanos reducen el número de conglomerados.
Ejemplo: agrupamiento jerárquico
Superposición
En esta técnica, se utilizan conjuntos difusos para agrupar datos. Cada punto puede tener dos o más puntos con etapas de membresía separadas.
Aquí, los datos se relacionarán con un valor de membresía apropiado. Ejemplo: C-Media difuso
Probable
Esta técnica utiliza la distribución de probabilidad para crear los conglomerados.
Ejemplo: seguir palabras clave
- «un zapato de hombre».
- «zapato de mujer».
- «Guante de mujer».
- «miedo al guante».
se pueden agrupar en dos categorías, «zapato» y «guante» o «hombre» y «mujer».
Tipos de clústeres
- Agrupación jerárquica
- Agrupación de K-medias
- K-NN (k vecinos más cercanos)
- Análisis de componentes clave
- Valor singular de descomposición
- Análisis independiente de componentes
Agrupación jerárquica:
La agrupación en clústeres jerárquica es un algoritmo que toma una jerarquía de clústeres. Comienza con todos los datos asignados a un clúster propio. Aquí, habrá dos grupos densos en el mismo grupo. Este algoritmo finaliza cuando solo queda un grupo.
Agrupación de K-medias
K significa que es un algoritmo de agrupamiento iterativo que lo ayuda a obtener el valor más alto para cada iteración. Primero, se selecciona el número requerido de clústeres. En este modo de agrupación, debe agrupar los puntos de datos en grupos. K significa grupos más pequeños con más granulosidad de la misma manera. Una k más baja significa grupos más grandes con menos granularidad.
La salida del algoritmo es un grupo de «etiquetas». Asigna un punto de datos a uno de los grupos k. En la agrupación de k-means, cada grupo se define mediante la creación de un núcleo para cada grupo. Las centrífugas son como el núcleo del grupo, que toma los puntos más cercanos a ellos y los agrega al grupo.
La agrupación de K-mean define dos subgrupos:
- Aglomeración de aglomeraciones
- Dendrograma
Agrupación de aglomeraciones:
Este tipo de agrupación en clústeres de capacidad K comienza con un número fijo de clústeres. Distribuye todos los datos en el número exacto de clústeres. Este método de agrupación no requiere la cantidad de K agrupaciones como entrada. El proceso de aglomeración comienza formando todos los datos como un solo grupo.
Este método utiliza varias medidas de área, reduce el número de grupos (uno en cada iteración) a través del proceso de fusión. Finalmente, tenemos un gran grupo que contiene todas las cosas.
Dendrograma:
En el modo de grupo dendrograma, cada nivel tendrá un grupo potencial. La altura del dendrograma muestra el nivel de similitud entre dos grupos articulados. Más cerca de ellos hay un grupo más similar al final del proceso, que el grupo descubre a partir de un dendrograma que es en gran parte antinatural y subjetivo.
K- Los vecinos más cercanos
El vecino más cercano K es el más simple de todos los clasificadores de aprendizaje automático. Se diferencia de otras técnicas de aprendizaje automático en que no produce un modelo. Es un algoritmo simple que almacena todos los casos disponibles y clasifica los casos nuevos en función de una medida de similitud.
Funciona muy bien cuando hay una distancia entre muestras. El ritmo de aprendizaje es lento cuando el conjunto de entrenamiento es grande y el cálculo de la distancia es innecesario.
Análisis de componentes clave:
Donde necesitas espacio tridimensional. Debe elegir una base para ese espacio y solo las 200 puntuaciones más importantes en esa base. Esta base se denomina componente clave. El subconjunto que seleccione es un nuevo espacio de tamaño pequeño en comparación con el espacio original. Conserva la mayor complejidad de los datos posible.
Asociación
Las reglas de asociación le permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos. Esta técnica sin supervisión implica encontrar relaciones interesantes entre variables en grandes bases de datos. Por ejemplo, es más probable que las personas que compran una casa nueva compren muebles nuevos.
Otros ejemplos:
- Un subgrupo de pacientes con cáncer agrupados por sus medidas de expresión génica
- Grupos de compradores según su historial de navegación y compras
- Grupo de películas de acuerdo con la calificación otorgada por los espectadores de películas
Aprendizaje automático supervisado frente a no supervisado
Parámetros | Técnica de aprendizaje automático supervisada | Técnica de aprendizaje automático sin supervisión |
Datos de entrada | Los algoritmos se entrenan utilizando datos etiquetados. | Los algoritmos se utilizan contra datos no etiquetados |
Complejidad computacional | El aprendizaje supervisado es un método más simple. | El aprendizaje no supervisado está informatizado |
Precisión | Método muy preciso y confiable. | Método menos preciso y confiable. |
Rendimiento de aprendizaje automático sin supervisión
Las siguientes son algunas funciones de las técnicas de aprendizaje automático no supervisadas:
- La agrupación en clústeres divide automáticamente el conjunto de datos en grupos según sus similitudes
- Los detectores de anomalías pueden detectar puntos de datos anormales en su conjunto de datos. Es útil para detectar transacciones fraudulentas.
- La minería de asociaciones identifica conjuntos de bienes que ocurren con frecuencia en su conjunto de datos
- Los modelos de variantes tardías se utilizan ampliamente para el preprocesamiento de datos. Como reducir la cantidad de elementos en un conjunto de datos o descomponer el conjunto de datos en múltiplos
Desventajas del aprendizaje no supervisado
- No puede obtener información de clasificación de datos precisa, y la salida se etiqueta como datos utilizados en el aprendizaje no supervisado y se desconoce.
- Los resultados son menos precisos porque los datos de entrada son desconocidos y no están etiquetados de antemano. Esto significa que la máquina debe hacerlo por sí misma.
- Las clases de espectro no siempre se corresponden con las clases de información.
- El usuario debe dedicar tiempo a interpretar y etiquetar las clases que siguen esa clasificación.
- Las propiedades espectrales de las clases pueden cambiar con el tiempo para que no tenga la misma información de clase al pasar de una imagen a otra.
Resumen
- El aprendizaje no supervisado es una técnica de aprendizaje automático en la que no es necesario supervisar el modelo.
- El aprendizaje automático no supervisado lo ayuda a encontrar todo tipo de patrones desconocidos en los datos.
- El agrupamiento y la asociación son dos tipos de aprendizaje no supervisado.
- Cuatro tipos de métodos de agrupación son 1) Exclusivo 2) Agregado 3) Superposición 4) Probable.
- Los tipos importantes de agrupación son: 1) Agrupación jerárquica 2) Agrupación de recursos K 3) K-NN 4) Análisis de componentes clave 5) Descomposición de valores singulares 6) Análisis de componentes independientes.
- Las reglas de asociación le permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos.
- En el aprendizaje supervisado, los algoritmos se entrenan utilizando datos etiquetados y en el aprendizaje no supervisado, los algoritmos se utilizan contra datos no etiquetados.
- Los detectores de anomalías pueden encontrar puntos de datos importantes en su conjunto de datos que son útiles para detectar transacciones fraudulentas.
- La mayor desventaja del aprendizaje no supervisado es que no puede obtener información precisa sobre la clasificación de datos.