Machine learning

Table of Content

Table of Content

Table of Content

Clustering

🧩 ¿Qué es?

El clustering (o agrupamiento) es una técnica de Machine Learning no supervisado que se utiliza para descubrir grupos naturales dentro de un conjunto de datos sin necesidad de que esos datos estén previamente etiquetados. A diferencia de la clasificación y la regresión, donde el modelo aprende a partir de ejemplos conocidos, en clustering el sistema detecta patrones y similitudes por sí mismo, agrupando los datos que comparten características comunes.

🔧 ¿Cómo funciona?

El algoritmo analiza el conjunto de datos y calcula similitudes entre ellos según ciertos criterios, como la distancia entre puntos en un espacio multidimensional. La distancia euclídea es la más común en espacios numéricos: cuanto menor sea la distancia entre dos puntos, mayor será su similitud.

A partir de estas similitudes, forma grupos o clústeres, de manera que los elementos dentro de un mismo grupo sean más parecidos entre sí que con los de otros grupos. Estos grupos no están definidos de antemano, sino que el modelo los construye automáticamente en función de los datos.

🧠 ¿Cuándo se utiliza?

El clustering es muy útil cuando no se tiene una variable objetivo conocida, pero se quiere explorar o segmentar los datos para comprender su estructura. En entornos industriales o logísticos usando TOKII, se puede aplicar a:

  • Segmentación de equipos o sensores según comportamiento operativo similar.

  • Agrupación de patrones de consumo energético para detectar zonas de eficiencia o desperdicio.

  • Detección de comportamientos atípicos al identificar puntos que no encajan en ningún grupo.

  • Clasificación de activos en función de su historial de mantenimiento o rendimiento.

🎯 Ejemplo práctico: Agrupación de edificios

Imagina que gestionas varios edificios y tienes sensores que registran variables como temperatura interior, consumo de energía, número de personas y uso del sistema de climatización. No sabes de antemano qué tipo de comportamiento tiene cada edificio, pero te interesa saber si existen patrones de uso.

Con clustering, puedes aplicar un algoritmo como K-Means o DBSCAN a esos datos históricos. El modelo agrupará los edificios según sus patrones similares: por ejemplo, puede detectar que unos tienen un perfil de alta ocupación y alto consumo (posiblemente oficinas), otros con baja ocupación y consumo estable (almacenes), y otros con uso intermitente (centros de eventos).

Lo interesante es que no necesitas decirle al modelo cuántos tipos de edificios hay ni cómo se comportan: el algoritmo los descubre por ti. Esto te permite tomar decisiones específicas por grupo, optimizar el mantenimiento, o configurar alertas diferenciadas según el tipo de uso real detectado.