Saltar al contenido

Aprendizaje automático no supervisado: qué es, algoritmos, ejemplo

Aprendizaje sin supervisión

Aprendizaje sin supervisión es una técnica de aprendizaje automático que no requiere que los usuarios supervisen el modelo. En cambio, permite que el modelo funcione por sí solo para descubrir patrones e información no descubiertos previamente. Se ocupa principalmente de los datos no etiquetados.

Algoritmos de aprendizaje no supervisados

Algoritmos de aprendizaje no supervisados permitiendo a los usuarios realizar tareas de procesamiento más complejas en comparación con el aprendizaje supervisado. Sin embargo, el aprendizaje no supervisado puede ser más predecible en comparación con otros métodos de aprendizaje naturales. Los algoritmos de aprendizaje no supervisados ​​incluyen agrupamiento, detección de anomalías, redes neuronales, etc.

En este tutorial, aprenderá:

Ejemplo de aprendizaje automático no supervisado

Tomemos una funda para bebé y un perro de la familia.

Ella conoce a este perro y lo reconoce. Unas semanas más tarde, un amigo de la familia trae un perro con él e intenta jugar con el bebé.

El bebé no había visto a este perro antes. Pero reconoce que su perro tiene muchas características (2 orejas, ojos, caminar sobre 4 patas). Ella identifica al nuevo animal como un perro. Este es un aprendizaje no supervisado, en el que solo se le enseña a aprender de los datos (en este caso, detalles sobre un perro). Si se tratara de un aprendizaje supervisado, el amigo de la familia le habría dicho al niño que es un perro.

¿Qué aprendizaje no supervisado?

Estas son las principales razones para utilizar el aprendizaje no supervisado:

Tipos de aprendizaje no supervisado

Los problemas de aprendizaje no supervisados ​​se agrupan además en problemas de agrupación y asociación.

Agrupación

La agrupación es un concepto importante para el aprendizaje no supervisado. Se trata principalmente de encontrar una estructura o patrón en una recopilación de datos sin categorizar. Los algoritmos de agrupación procesarán sus datos y recuperarán agrupaciones naturales (grupos) si existen en los datos. También puede modificar cuántos clústeres deben reconocer sus algoritmos. Le permite ajustar la granulosidad de estos grupos.

Hay diferentes tipos de clústeres que puede utilizar:

Exclusivo (partición)

En este modo de agrupamiento, los datos se agrupan de tal manera que un grupo pertenece a un solo dato.

Ejemplo: recurso K

Aglomeración

En esta técnica de agrupación, todos los datos son una agrupación. Las uniones repetitivas entre los dos conglomerados más cercanos reducen el número de conglomerados.

Ejemplo: agrupamiento jerárquico

Superposición

En esta técnica, se utilizan conjuntos difusos para agrupar datos. Cada punto puede tener dos o más puntos con etapas de membresía separadas.

Aquí, los datos se relacionarán con un valor de membresía apropiado. Ejemplo: C-Media difuso

Probable

Esta técnica utiliza la distribución de probabilidad para crear los conglomerados.

Ejemplo: seguir palabras clave

se pueden agrupar en dos categorías, “zapato” y “guante” o “hombre” y “mujer”.

Tipos de clústeres

Agrupación jerárquica:

La agrupación en clústeres jerárquica es un algoritmo que toma una jerarquía de clústeres. Comienza con todos los datos asignados a un clúster propio. Aquí, habrá dos grupos densos en el mismo grupo. Este algoritmo finaliza cuando solo queda un grupo.

Agrupación de K-medias

K significa que es un algoritmo de agrupamiento iterativo que lo ayuda a obtener el valor más alto para cada iteración. Primero, se selecciona el número requerido de clústeres. En este modo de agrupación, debe agrupar los puntos de datos en grupos. K significa grupos más pequeños con más granulosidad de la misma manera. Una k más baja significa grupos más grandes con menos granularidad.

La salida del algoritmo es un grupo de “etiquetas”. Asigna un punto de datos a uno de los grupos k. En la agrupación de k-means, cada grupo se define mediante la creación de un núcleo para cada grupo. Las centrífugas son como el núcleo del grupo, que toma los puntos más cercanos a ellos y los agrega al grupo.

La agrupación de K-mean define dos subgrupos:

Agrupación de aglomeraciones:

Este tipo de agrupación en clústeres de capacidad K comienza con un número fijo de clústeres. Distribuye todos los datos en el número exacto de clústeres. Este método de agrupación no requiere la cantidad de K agrupaciones como entrada. El proceso de aglomeración comienza formando todos los datos como un solo grupo.

Este método utiliza varias medidas de área, reduce el número de grupos (uno en cada iteración) a través del proceso de fusión. Finalmente, tenemos un gran grupo que contiene todas las cosas.

Dendrograma:

En el modo de grupo dendrograma, cada nivel tendrá un grupo potencial. La altura del dendrograma muestra el nivel de similitud entre dos grupos articulados. Más cerca de ellos hay un grupo más similar al final del proceso, que el grupo descubre a partir de un dendrograma que es en gran parte antinatural y subjetivo.

K- Los vecinos más cercanos

El vecino más cercano K es el más simple de todos los clasificadores de aprendizaje automático. Se diferencia de otras técnicas de aprendizaje automático en que no produce un modelo. Es un algoritmo simple que almacena todos los casos disponibles y clasifica los casos nuevos en función de una medida de similitud.

Funciona muy bien cuando hay una distancia entre muestras. El ritmo de aprendizaje es lento cuando el conjunto de entrenamiento es grande y el cálculo de la distancia es innecesario.

Análisis de componentes clave:

Donde necesitas espacio tridimensional. Debe elegir una base para ese espacio y solo las 200 puntuaciones más importantes en esa base. Esta base se denomina componente clave. El subconjunto que seleccione es un nuevo espacio de tamaño pequeño en comparación con el espacio original. Conserva la mayor complejidad de los datos posible.

Asociación

Las reglas de asociación le permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos. Esta técnica sin supervisión implica encontrar relaciones interesantes entre variables en grandes bases de datos. Por ejemplo, es más probable que las personas que compran una casa nueva compren muebles nuevos.

Otros ejemplos:

Aprendizaje automático supervisado frente a no supervisado

Parámetros Técnica de aprendizaje automático supervisada Técnica de aprendizaje automático sin supervisión
Datos de entradaLos algoritmos se entrenan utilizando datos etiquetados.Los algoritmos se utilizan contra datos no etiquetados
Complejidad computacionalEl aprendizaje supervisado es un método más simple.El aprendizaje no supervisado está informatizado
PrecisiónMétodo muy preciso y confiable.Método menos preciso y confiable.

Rendimiento de aprendizaje automático sin supervisión

Las siguientes son algunas funciones de las técnicas de aprendizaje automático no supervisadas:

Desventajas del aprendizaje no supervisado

Resumen