Modelos de Clustering

Existen mucho Modelos de Clustering, por ello, en este post trataremos de ver a detalle de algunos de estos modelos.

Como vimos en el post anterior

Clustering están dentro de la familia del aprendizaje no supervisado, por lo tanto, este tiene lugar cuando no se dispone de datos “etiquetados” para el entrenamiento.

Clustering vs Clasificación

Son técnicas que se utilizan en la minería de datos para analizar los datos recopilados.

La clasificación se usa para etiquetar datos, por otro lado la agrupación en clústeres se usa para agrupar instancias de datos similares.

Clasificación

Se conoce el número de clases.

Se requieren datos de entrenamiento (recopilación de instancias etiquetadas).

Según los datos de entrenamiento, el modelo de clasificación se utiliza para clasificar instancias futuras en clases ya definidas.

Los algoritmos populares para la clasificación incluyen el clasificador Naive Bayes, los árboles de decisión y los bosques aleatorios.

Agrupación

Se desconoce el número de clases.

No se requieren datos de entrenamiento.

La agrupación en clústeres se utiliza para dar sentido a los datos existentes.

Los algoritmos populares que se utilizan para la agrupación en clústeres incluyen K-Means, Agrupación de desplazamiento medio y Agrupación espacial basada en densidad de aplicaciones con ruido.

Clustering vs Clasificación
Clustering vs Clasificación

Los Modelos de Clustering son:

Modelos de Clustering
Modelos de Clustering

K-MEDIAS

Pasos

  • Inicialización
  • Asignación objetos a los centroides
  • Actualización centroides

Dónde se puede utilizar K-MEDIAS

  • Segmentación de clientes
  • Agrupación de textos que hablan de temas similares
  • Geoestadística
  • Comunidades de redes sociales

DBSCAN

Al contrario de la estrategia seguida por k-Means, DBSCAN (Density-Based Spatial Clustering of Applications with Noise) (Agrupación espacial basada en densidad de aplicaciones con ruido)

Se puede usar para identificar agrupaciones de cualquier forma en un conjunto de datos que contiene ruido y valores atípicos.

Dónde se puede utilizar DBSCAN

  • Para detectar centros de actividad urbana
  • Agrupar nubes de puntos en tiempo real
  • Mapas de calor

MEAN SHIFT

Es un método iterativo utilizado para la clasificación y segmentación de puntos dentro de una imagen.

Para ello, define una región alrededor de ese punto y encuentra su media, cambiando la situación de la media actual a la nueva (shift). Repite el proceso hasta que converja.

Dónde se puede utilizar MEAN SHIFT

  • Algoritmos de segmentación de imágenes
  • Algoritmos de suavizado de imágenes

AGNES

Es un algoritmo de clustering aglomerativo, es decir, va construyendo una jerarquía creciente de clusters desde los clusters más pequeños posibles.

Hasta el mayor cluster posible, que agrupa todos los puntos del dataset.

Deja un comentario