No-code ML-Lab
Configura un entrenamiento
Define las variables de entrada, el objetivo (si aplica), el tamaño del conjunto de prueba, y los parámetros del modelo.
⚙️ Configuración del modelo
Permite definir las variables que se utilizarán para el entrenamiento:
Características: campos seleccionados como variables independientes (inputs del modelo).
Variable objetivo: campo que el modelo intentará predecir (solo en aprendizaje supervisado).
Tamaño de test: proporción del dataset que se usará para evaluar el modelo (por ejemplo, 20%).
Estado aleatorio: número opcional que controla la aleatoriedad de la partición (para reproducibilidad).

🧪 Hiperparámetros
Muestra los parámetros específicos del algoritmo seleccionado. Varían según el estimador. En el caso de un árbol de decisión, por ejemplo:
Criterion: criterio de división (ej.
gini
,entropy
).max_depth: profundidad máxima del árbol.
min_samples_split: mínimo de muestras para dividir un nodo.
min_samples_leaf: mínimo de muestras en una hoja del árbol.
Estos parámetros afectan directamente cómo se construye el modelo y su rendimiento.
🧼 Detalles de preprocesamiento
En la interfaz de configuración de preprocesamiento del módulo No-code ML de TOKII, cada variable del dataset puede configurarse de forma personalizada antes del entrenamiento del modelo.

Las opciones disponibles por campo permiten al usuario ajustar el tratamiento de los datos mediante tres operaciones clave:
✅ Escalado
Permite aplicar técnicas de normalización o estandarización para que las variables numéricas estén en una escala comparable. Esto es especialmente importante para algoritmos sensibles a la magnitud de los datos (como regresión, redes neuronales o K-means). Opciones típicas incluyen:
MinMax (normaliza entre 0 y 1).
Z-score (media 0, desviación estándar 1).
🧩 Codificación
Transforma variables categóricas (como “On/Off” o nombres de regiones) en formatos numéricos compatibles con los algoritmos. Algunos ejemplos:
One-hot encoding: crea una columna por categoría.
Label encoding: asigna un número a cada valor distinto.
🩹 Estrategia de imputación
Define cómo tratar los valores faltantes (nulos o vacíos) para que el modelo no falle por ausencia de datos. Estrategias comunes incluyen:
Media o mediana para variables numéricas.
Valor más frecuente para categóricas.
Eliminación del registro (aunque no siempre recomendable si hay muchos datos perdidos).
Además, hay una opción global para eliminar duplicados del dataset antes del entrenamiento, útil para evitar redundancia en los datos y mejorar la calidad del modelo.
📊 Estadísticas del dataset
Incluye:
Histograma por variable: muestra la distribución de los valores para cada campo.
Variables categóricas: se visualizan como proporciones.
Es útil para entender el comportamiento de los datos antes de entrenar el modelo.
➕ Sesiones
Aquí se gestionan las ejecuciones de entrenamiento. Puedes:
CREAR nuevas sesiones de entrenamiento con la configuración actual.
Visualizar resultados de cada sesión posteriormente (estado, métricas, descripciones, etc.).