No-code ML-Lab

Table of Content

Table of Content

Table of Content

Crea un entrenamiento

Inicia el proceso desde el módulo de IA haciendo clic en el botón “Crear”. Asigna un nombre y una descripción al entrenamiento para identificarlo fácilmente entre múltiples sesiones.

📊 Selecciona el dataset o vista de dataset

Elige el conjunto de datos que se utilizará como base para el modelo. Este debe estar previamente cargado en la sección Datasets del entorno de trabajo de TOKII (ver sección de datasets). También puedes seleccionar una vista derivada del dataset original si has definido filtrados o transformaciones.

🧠 Define el tipo de aprendizaje

🧩 Aprendizaje supervisado

Se basa en un conjunto de datos con una variable objetivo conocida, es decir, una columna cuyo valor queremos predecir.

  • Clasificación: predice categorías discretas, como por ejemplo el estado del equipo (normal / fallo).

  • Regresión: estima valores numéricos continuos, como el consumo energético o la temperatura futura.

🧭 Aprendizaje no supervisado

No requiere una variable objetivo. El sistema detecta automáticamente estructuras o grupos dentro de los datos.

  • Clustering: agrupa registros similares sin etiquetas previas. Útil para detectar patrones de uso, segmentos de comportamiento o tendencias en sensores.

🧮 Selecciona el algoritmo específico

En función del tipo de aprendizaje elegido, TOKII ofrece un conjunto de algoritmos listos para entrenar:

🧾 Clasificación

🔹 Regresión Logística

Es uno de los algoritmos más simples y eficaces para tareas de clasificación binaria, es decir, cuando el objetivo es predecir entre dos clases (como activo/inactivo, falla/no falla). Aunque su nombre incluye “regresión”, se usa para clasificación, ya que estima la probabilidad de que un dato pertenezca a una clase u otra. Su principal ventaja es la rapidez y la facilidad de interpretación.

🔹 Árbol de Decisión

Este modelo construye un conjunto de reglas del tipo “si-entonces” para tomar decisiones, dividiendo los datos en ramas según sus características. Es intuitivo, fácil de visualizar y útil cuando se quiere comprender por qué se ha asignado una determinada clase. Se adapta bien a conjuntos de datos estructurados con variables categóricas o numéricas.

🔹 Bosque Aleatorio

Es una extensión del árbol de decisión. En lugar de usar un único árbol, construye múltiples árboles y combina sus resultados (votación). Esto mejora la precisión y reduce el riesgo de que el modelo se sobreajuste a los datos de entrenamiento. Es muy robusto y funciona bien en entornos con ruido o muchos atributos.

🔹 Clasificador de Aumento de Gradiente

Este algoritmo entrena varios modelos simples de forma secuencial, mejorando en cada iteración los errores cometidos por los modelos anteriores. Es uno de los métodos más potentes y precisos actualmente disponibles, aunque puede requerir más tiempo de entrenamiento. Es ideal para tareas complejas donde se busca el máximo rendimiento predictivo.

🔹 K-Vecinos más Cercanos (K-NN)

Clasifica cada dato nuevo en función de los datos más parecidos a él (vecinos más cercanos) según una métrica de distancia. Es sencillo y no necesita una fase de entrenamiento como tal. Su eficacia depende de tener datos bien distribuidos y no demasiado ruidosos. Es útil para casos en los que las relaciones entre variables son claras.

🔹 Naive Bayes

Este modelo aplica principios de probabilidad (teorema de Bayes) y asume que las variables de entrada son independientes entre sí. Aunque esta suposición rara vez se cumple totalmente, funciona sorprendentemente bien en la práctica, especialmente en clasificación de texto, alertas categorizadas y procesos rápidos.

🔹 Red Neuronal (MLP)

Este algoritmo simula el funcionamiento de las neuronas humanas y permite modelar relaciones complejas y no lineales. Es muy flexible y puede adaptarse a una amplia variedad de problemas, aunque requiere más datos y es menos transparente (una especie de “caja negra”). Es útil para tareas sofisticadas donde otros modelos no logran buen rendimiento.

📉 Regresión

🔹 Regresión Lineal

Es el modelo más simple de regresión. Busca ajustar una línea recta que describa la relación entre una variable de entrada y una variable de salida. Por ejemplo, si a mayor temperatura se consume más energía, este modelo identificará esa tendencia lineal. Es fácil de interpretar y rápido de entrenar, pero su precisión se limita a problemas con relaciones proporcionales y directas.

🔹 Regresión de Ridge

Esta variante de la regresión lineal introduce una penalización para evitar que el modelo se ajuste demasiado a los datos (sobreajuste). Esto es especialmente útil cuando hay muchas variables de entrada que pueden estar correlacionadas. Ridge permite mantener un buen equilibrio entre simplicidad y capacidad predictiva, mejorando la generalización del modelo.

🔹 Regresión Lasso

Al igual que Ridge, Lasso agrega una penalización, pero con la capacidad adicional de eliminar por completo variables que no aportan valor al modelo. Esto lo convierte en una herramienta eficaz para simplificar modelos cuando se tienen muchos datos. Es ideal cuando se busca no solo predecir bien, sino también identificar qué variables son realmente relevantes.

🔹 Red Elástica (Elastic Net)

Combina las penalizaciones de Ridge y Lasso, obteniendo lo mejor de ambos mundos: controla el sobreajuste y realiza selección de variables. Es especialmente útil cuando hay muchas variables predictoras y algunas de ellas están correlacionadas. Esta flexibilidad lo hace una opción sólida para problemas complejos sin perder interpretabilidad.

🔹 Regresor Árbol de Decisión

Este algoritmo divide los datos en ramas, tomando decisiones simples del tipo “si... entonces...” hasta llegar a un valor estimado. Es capaz de modelar relaciones no lineales y manejar variables categóricas o numéricas. Su estructura jerárquica lo hace fácil de visualizar, pero puede sobreajustarse si no se regula bien.

🔹 Regresor Bosque Aleatorio

Se trata de una combinación de múltiples árboles de decisión entrenados con diferentes subconjuntos de datos. Al promediar sus predicciones, se obtiene un modelo más robusto y preciso. Es muy útil para datos con ruido, múltiples variables o comportamientos complejos, y requiere muy poca preparación previa de los datos.

🔹 Regresor de Aumento de Gradiente

Es uno de los modelos más potentes de regresión. Funciona construyendo árboles de decisión secuencialmente, donde cada nuevo árbol corrige los errores del anterior. Aunque más lento de entrenar, suele ofrecer resultados altamente precisos, siendo ideal para tareas exigentes como predicción de series temporales o consumo energético preciso.

🔹 Regresor K-Vecinos más Cercanos (K-NN)

Este modelo predice el valor de salida buscando los "k" datos más parecidos al nuevo dato y promediando sus valores. No requiere entrenamiento previo, pero su rendimiento depende de tener datos bien distribuidos. Es intuitivo y eficaz cuando hay relaciones locales claras entre los datos.

🔹 Regresor Red Neuronal (MLP)

Inspirado en el funcionamiento del cerebro humano, este modelo conecta múltiples capas de "neuronas" artificiales que permiten aprender relaciones complejas y no lineales entre los datos. Aunque menos interpretable que otros modelos, su capacidad para detectar patrones ocultos lo hace muy útil en entornos industriales con múltiples factores interrelacionados.

🧩 Clustering

🔹 K-Means

K-Means es uno de los algoritmos de clustering más conocidos y utilizados. Su funcionamiento se basa en dividir los datos en un número fijo de grupos (k) de forma que los elementos dentro de cada grupo estén lo más cerca posible de su “centroide” (el punto medio del grupo). Es muy rápido y eficiente para grandes volúmenes de datos, siempre que los grupos tengan formas redondeadas y tamaños similares. Es ideal para segmentaciones simples y bien definidas, aunque puede no funcionar bien si los clústeres tienen formas irregulares o tamaños desiguales.

🔹 DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Este algoritmo agrupa los datos según la densidad, es decir, crea clústeres cuando hay suficiente concentración de puntos en una región, y trata los puntos aislados como “ruido”. Es especialmente útil cuando se trabaja con datos que contienen grupos de forma irregular o con valores atípicos. DBSCAN no requiere especificar el número de grupos por adelantado y es robusto frente a valores extremos, lo que lo hace muy eficaz para tareas como detección de anomalías o agrupación en entornos industriales con ruido operativo.

🔹 Clustering Jerárquico

Este método construye una estructura tipo árbol (llamada dendrograma) que representa cómo se agrupan progresivamente los datos entre sí. Puede ejecutarse de forma ascendente (uniendo elementos hasta formar un gran grupo) o descendente (dividiendo un grupo en subgrupos). Es muy útil cuando se quiere entender la relación entre los datos y no se conoce de antemano el número de clústeres. Permite visualizar niveles de agrupamiento y elegir el más adecuado según el análisis.

🔹 Clustering Espectral

El algoritmo espectral transforma los datos en un espacio matemático diferente utilizando técnicas de álgebra lineal (matrices y grafos), donde se hace más fácil identificar estructuras complejas no visibles en el espacio original. A continuación, aplica un algoritmo de agrupamiento como K-Means sobre esa nueva representación. Este método es muy eficaz para problemas donde los datos tienen formas no lineales o relaciones más sutiles, como curvas o agrupaciones interconectadas.

🔹 Desplazamiento Promedio (Mean Shift)

IEste algoritmo no requiere especificar el número de clústeres por adelantado. En lugar de eso, detecta regiones con alta densidad de puntos y desplaza iterativamente cada dato hacia el centro de densidad más cercano. Es muy útil cuando los datos tienen múltiples concentraciones naturales de información, aunque puede ser más costoso computacionalmente.

🔹 Mezcla Gaussiana (Gaussian Mixture Model - GMM)

Este algoritmo modela los datos como una combinación de distribuciones gaussianas (curvas en forma de campana). A diferencia de K-Means, asigna una probabilidad a cada dato de pertenecer a cada grupo, lo que permite agrupaciones más flexibles y suaves. Es ideal para situaciones donde los clústeres pueden solaparse o tener diferentes formas y tamaños.