3.2 Los datos: la base de cualquier modelo

noviembre 04, 2025

La Importancia de los Datos en Machine Learning

Introducción

¡Bienvenido al tutorial sobre el componente fundamental de cualquier proyecto de Machine Learning: los datos! En esta guía aprenderás por qué los datos son cruciales y los desafíos comunes para obtener datos de calidad.

📊 Sección 1: Los Datos - El Corazón del Machine Learning

¿Por qué son importantes los datos?

Analogía: Así como los ingredientes determinan la calidad de una comida, los datos determinan la calidad de tu modelo
Principio fundamental: Malos datos = Modelo mal entrenado
Resultado ideal: Buenos datos = Capacidad de crear predicciones precisas

El mito de la cantidad vs. calidad

Tener muchos datos ≠ tener datos útiles
La calidad siempre supera a la cantidad
Ejemplo: 10,000 registros limpios y relevantes son mejores que 1,000,000 de registros sucios e irrelevantes

⏰ Sección 2: La Realidad del Tiempo en Proyectos ML

Distribución del tiempo en proyectos reales:

80% del tiempo: Obtención y preparación de datos
20% del tiempo: Modelado y algoritmos

Fuentes comunes de datos:

Bases de datos corporativas
Repositorios públicos
Dispositivos IoT en tiempo real
Aplicaciones y sitios web
APIs externas

🧹 Sección 3: Limpieza y Preparación de Datos

Problemas comunes en datos crudos:

Errores e inconsistencias
Valores vacíos o faltantes
Datos duplicados
Información irrelevante
Formatos inconsistentes

Proceso de limpieza:

Datos crudos → Limpieza → Datos de calidad → Modelo efectivo

🔍 Sección 4: Selección de Características Relevantes

Ejemplo: Predicción de precios de viviendas

✅ Características relevantes:

Número de habitaciones
Número de baños
Presencia de alberca
Cercanía a transporte público
Antigüedad de la propiedad
Ubicación geográfica

❌ Características irrelevantes:

Nombre del dueño actual
Nombre del cartero
Color favorito del vendedor

Peligro de características irrelevantes:

Los modelos pueden encontrar patrones falsos
Ejemplo: "Si el nombre empieza con H, el precio es más alto"
Esto genera sobreajuste y predicciones incorrectas

🎯 Sección 5: División de Datos para Entrenamiento

Estructura recomendada:

# División típica de datos
datos_totales = 100%
entrenamiento = 80%   # Para enseñar al modelo
pruebas = 20%        # Para evaluar el modelo

Analogía educativa:

Conjunto de entrenamiento: Como las clases y ejercicios en escuela
Conjunto de pruebas: Como el examen final con preguntas nuevas
Objetivo: Asegurar que el modelo generaliza en lugar de memorizar

📋 Checklist de Datos de Calidad

Antes de entrenar tu modelo, verifica que tus datos:

Son relevantes para el problema
Están limpios de errores e inconsistencias
No tienen valores faltantes importantes
Incluyen variedad suficiente
Están libres de características irrelevantes
Están divididos en entrenamiento y prueba
Representan adecuadamente el problema real

✅ Conclusión

Puntos clave:

Los datos son la base de cualquier proyecto de ML exitoso
Obtener y limpiar datos consume la mayor parte del tiempo
Calidad > Cantidad siempre
La selección de características evita patrones falsos
La división adecuada asegura una evaluación honesta

Próximos pasos:

En la siguiente lección exploraremos las librerías y herramientas que utilizaremos para implementar estos conceptos en código real.

💡 Recuerda

"Sin datos de calidad, incluso el algoritmo más sofisticado fallará. Con datos excelentes, incluso algoritmos simples pueden lograr resultados sorprendentes."

Buscar este blog

Introducción a la IA con Python