Calidad de datos: basura entra, basura sale
Evalúa si tus datos son confiables antes de usarlos.
"Garbage In, Garbage Out" (GIGO) es el principio más importante y más ignorado del análisis de datos. No importa qué tan sofisticado sea tu modelo o qué tan bonito tu dashboard: si los datos de entrada son malos, las conclusiones serán malas.
El costo real de la mala calidad de datos
Estadísticas que deberían preocuparte
- El 27% de los ingresos de las empresas se pierden por problemas de calidad de datos (Experian)
- Los trabajadores pasan 50% de su tiempo buscando, corrigiendo y confirmando datos (Harvard Business Review)
- Solo el 3% de los datos de las empresas cumplen con estándares básicos de calidad (MIT Sloan)
- El costo promedio de mala calidad de datos es de $12.9 millones por año (Gartner)
Ejemplos de desastres por mala calidad de datos
1. NASA Mars Climate Orbiter (1999)
Una nave de $125 millones se estrelló en Marte porque un equipo usó unidades métricas y otro usó unidades imperiales. Nadie validó la consistencia de los datos.
2. Knight Capital (2012)
Un algoritmo de trading con datos de configuración erróneos perdió $440 millones en 45 minutos. La empresa quebró.
3. Target y el embarazo (2012 - pero diferente)
Antes del caso famoso de predicción, Target envió cupones de productos para bebé a direcciones incorrectas por duplicados en su base de datos. Demandas legales siguieron.
4. Votación Brexit (2016)
Múltiples estudios mostraron que datos de encuestas mal recolectados y con sesgo de selección llevaron a predicciones completamente erradas.
Las seis dimensiones de calidad de datos
La calidad de datos no es un concepto vago. Se mide en seis dimensiones específicas:
1. Completitud (Completeness)
¿Están todos los campos que deberían estar?
| Evaluación | Descripción | Ejemplo |
|---|---|---|
| Alta | 95%+ de campos poblados | Base de clientes con email, teléfono, dirección |
| Media | 70-94% poblados | Algunos sin teléfono, la mayoría con email |
| Baja | <70% poblados | Muchos registros con solo nombre y email |
Preguntas para evaluar:
- ¿Cuántos registros tienen campos vacíos?
- ¿Los campos obligatorios realmente lo son en el sistema?
- ¿Hay patrones en lo que falta? (ej: datos de cierta región siempre incompletos)
Trampas comunes:
- Campos "obligatorios" que se llenan con "N/A" o "." para pasar validación
- Valores default que parecen datos reales (ej: fecha 01/01/1900)
2. Precisión (Accuracy)
¿Los datos reflejan la realidad?
| Evaluación | Descripción | Ejemplo |
|---|---|---|
| Alta | Verificable contra fuente de verdad | Email validado por confirmación |
| Media | Probablemente correcto | Email ingresado por usuario sin verificar |
| Baja | Frecuentemente incorrecto | Email capturado por vendedor de oído |
Preguntas para evaluar:
- ¿Cómo se capturó este dato originalmente?
- ¿Hay verificación o validación al momento de entrada?
- ¿Cuándo fue la última vez que se confirmó?
Señales de alarma:
- Datos que no cambian nunca (¿el teléfono del cliente de hace 10 años es el mismo?)
- Valores que parecen estimaciones redondas (todos los montos terminan en 000)
- Direcciones que no existen según Google Maps
3. Consistencia (Consistency)
¿Los datos son uniformes a través de sistemas y tiempo?
| Evaluación | Descripción | Ejemplo |
|---|---|---|
| Alta | Mismo formato siempre | Fechas siempre DD/MM/YYYY |
| Media | Variaciones menores | Fechas a veces DD/MM/YYYY, a veces MM/DD/YYYY |
| Baja | Caos total | Fechas en 5 formatos diferentes |
Ejemplos de inconsistencias comunes:
| Campo | Variaciones encontradas |
|---|---|
| Nombre de empresa | "Apple Inc.", "Apple, Inc", "APPLE", "Apple Computer" |
| País | "México", "Mexico", "MX", "MEX", "Estados Unidos Mexicanos" |
| Teléfono | "555-1234", "5551234", "+52 55 5123 4567", "(55) 5123-4567" |
| Estado de cliente | "Activo", "ACTIVO", "A", "1", "active" |
Preguntas para evaluar:
- ¿Hay estándares documentados de cómo se deben capturar los datos?
- ¿Los diferentes sistemas usan los mismos códigos y formatos?
- ¿Los datos históricos siguen el mismo formato que los actuales?
4. Oportunidad (Timeliness)
¿Los datos están disponibles cuando se necesitan?
| Evaluación | Descripción | Ejemplo |
|---|---|---|
| Alta | Tiempo real o near-real-time | Dashboard actualiza cada minuto |
| Media | Actualización diaria | Reporte disponible cada mañana |
| Baja | Semanas o meses de retraso | Datos de ventas llegan 2 semanas después |
Preguntas para evaluar:
- ¿Cuándo fue la última actualización?
- ¿El retraso es aceptable para la decisión que debo tomar?
- ¿Hay procesos que dependen de datos más frescos de los que tienen?
Contexto importa:
- Para una decisión estratégica anual, datos del mes pasado pueden ser suficientes
- Para detección de fraude, un retraso de minutos puede ser inaceptable
5. Validez (Validity)
¿Los datos cumplen con las reglas definidas?
| Evaluación | Descripción | Ejemplo |
|---|---|---|
| Alta | Todos cumplen reglas | Emails con formato válido, fechas posibles |
| Media | Mayoría cumple | Algunos emails sin @, fechas futuras en campo de nacimiento |
| Baja | Muchas violaciones | Campos numéricos con texto, fechas imposibles |
Reglas de validación comunes:
| Campo | Regla | Violación |
|---|---|---|
| Debe contener @ y dominio | "juanmail.com" | |
| Fecha de nacimiento | Debe ser pasada y razonable | "15/03/2030" o "01/01/1800" |
| Código postal | Debe existir en catálogo | "99999" (no existe) |
| Precio | Debe ser positivo | "-50.00" |
| Cantidad | Debe ser entero | "2.5 unidades" |
6. Unicidad (Uniqueness)
¿Cada entidad está representada una sola vez?
| Evaluación | Descripción | Ejemplo |
|---|---|---|
| Alta | Sin duplicados | Cada cliente tiene un único registro |
| Media | Algunos duplicados identificados | 5% de clientes tienen registros dobles |
| Baja | Duplicados rampantes | El mismo cliente aparece 3-4 veces con variaciones |
Causas comunes de duplicados:
- Múltiples fuentes de entrada (web, llamada, punto de venta)
- Errores de tipeo que crean registros "nuevos"
- Fusiones de empresas sin consolidación de datos
- Falta de validación al crear registros
Impacto de duplicados:
- Sobreestimación de métricas (parece que tienes más clientes)
- Comunicaciones múltiples al mismo cliente
- Segmentación incorrecta
- Análisis distorsionados
Framework de evaluación: El scorecard de calidad
Usa esta plantilla para evaluar la calidad de cualquier dataset:
| Dimensión | Peso | Score (1-5) | Score ponderado | Notas |
|---|---|---|---|---|
| Completitud | 20% | |||
| Precisión | 25% | |||
| Consistencia | 15% | |||
| Oportunidad | 15% | |||
| Validez | 15% | |||
| Unicidad | 10% | |||
| Total | 100% |
Interpretación del score:
- 4.5-5.0: Calidad excelente, listo para análisis críticos
- 3.5-4.4: Buena calidad, monitorear dimensiones bajas
- 2.5-3.4: Calidad aceptable para algunos usos, necesita mejora
- 1.5-2.4: Calidad pobre, usar con precaución extrema
- 1.0-1.4: No confiable, no usar para decisiones
Problemas comunes de calidad y cómo detectarlos
1. El problema del "Excel humano"
Síntoma: Datos que claramente fueron manipulados manualmente antes de llegar al sistema.
Señales:
- Redondeos sospechosos (todos los números terminan en 0 o 5)
- Patrones demasiado perfectos
- Campos de texto que deberían ser numéricos
Ejemplo:
Mes | Ventas reportadas | Ventas reales probable
Enero | $100,000 | $98,543
Febrero | $105,000 | $104,892
Marzo | $110,000 | $108,234
2. El problema del "dato zombie"
Síntoma: Datos que debieron actualizarse pero no lo hicieron.
Señales:
- Campos que nunca cambian (dirección, teléfono por años)
- Fechas de "última actualización" muy antiguas
- Estados que no reflejan realidad (cliente "activo" que no compra hace 3 años)
3. El problema de la "frontera de sistemas"
Síntoma: Datos que cambian de formato al pasar entre sistemas.
Señales:
- Truncamiento (nombres cortados, códigos incompletos)
- Conversiones de encoding (caracteres especiales rotos: "José" en vez de "José")
- Pérdida de precisión (decimales que desaparecen)
4. El problema del "default silencioso"
Síntoma: Valores que parecen datos pero son defaults del sistema.
Ejemplos comunes:
| Campo | Valor sospechoso | Por qué |
|---|---|---|
| Fecha de nacimiento | 01/01/1900 | Default común en sistemas |
| País | "Estados Unidos" | Default de formulario en inglés |
| Teléfono | 000-000-0000 | Placeholder |
| noemail@empresa.com | Entrada falsa para pasar validación |
5. El problema de la "verdad múltiple"
Síntoma: El mismo dato tiene valores diferentes en distintos sistemas.
Ejemplo:
| Sistema | Nombre del cliente | Dirección | Teléfono |
|---|---|---|---|
| CRM | "Acme Corp" | "Av. Reforma 123" | "555-1234" |
| Facturación | "ACME Corporation SA" | "Reforma #123" | "52-55-5551234" |
| Soporte | "acme" | "reforma 123 cdmx" | "5512345" |
¿Cuál es la "verdad"? Sin una fuente maestra, nadie sabe.
Estableciendo estándares de calidad
Paso 1: Define qué es "suficientemente bueno"
No todos los datos necesitan el mismo nivel de calidad. Define umbrales por criticidad:
| Categoría | Ejemplo | Umbral de calidad |
|---|---|---|
| Crítico | Datos financieros, compliance | 99%+ en todas las dimensiones |
| Alto | Datos de cliente para comunicación | 95%+ completitud, precisión |
| Medio | Datos operativos | 90%+ completitud |
| Bajo | Datos para análisis exploratorio | 80%+ completitud |
Paso 2: Asigna responsables
Cada dataset necesita:
- Data Owner: Responsable del negocio de la calidad
- Data Steward: Responsable técnico del mantenimiento
- Usuarios: Reportan problemas identificados
Paso 3: Establece procesos de validación
| Momento | Validación | Responsable |
|---|---|---|
| Al capturar | Reglas de formato, campos obligatorios | Sistema |
| Al integrar | Detección de duplicados, mapeo de códigos | ETL/Ingeniería |
| Periódicamente | Auditorías de calidad, limpieza | Data Steward |
| Al usar | Sentido común, validación vs. expectativa | Usuario final |
Paso 4: Monitorea continuamente
Implementa alertas para:
- Caídas repentinas de completitud
- Aumento de duplicados
- Valores fuera de rango esperado
- Retrasos en actualización
Qué hacer cuando encuentras datos malos
Opción 1: Limpiar
Cuándo: Tienes acceso a la fuente original o puedes inferir el valor correcto.
Ejemplos:
- Estandarizar formatos ("México" y "MEXICO" → "México")
- Corregir errores obvios ("2023-13-45" → probablemente invalido, revisar)
- Completar datos faltantes con fuentes alternativas
Opción 2: Excluir
Cuándo: El dato malo distorsionaría el análisis y no puedes corregirlo.
Ejemplos:
- Registros de prueba mezclados con datos reales
- Outliers que son claramente errores
- Duplicados identificados
Importante: Documenta siempre qué excluiste y por qué.
Opción 3: Marcar
Cuándo: No quieres perder el dato pero debes señalar su calidad.
Ejemplos:
- Flag de "datos sin verificar"
- Indicador de "potencial duplicado"
- Calificación de confiabilidad
Opción 4: Escalar
Cuándo: El problema es sistémico y requiere cambios en el proceso de captura.
Ejemplos:
- El formulario web no valida emails
- El CRM permite crear clientes sin identificador único
- La integración entre sistemas corrompe datos
Ejercicio práctico: Auditoría de calidad
Elige un dataset que uses frecuentemente y evalúalo:
1. Evaluación rápida
| Pregunta | Sí/No | Evidencia |
|---|---|---|
| ¿Puedo identificar la fuente de cada dato? | ||
| ¿Hay campos vacíos significativos? | ||
| ¿Los formatos son consistentes? | ||
| ¿Los datos están actualizados? | ||
| ¿Hay duplicados obvios? | ||
| ¿Los valores tienen sentido? |
2. Análisis de una dimensión
Elige la dimensión más crítica para tu uso y profundiza:
Dimensión elegida: _____________
Análisis:
- ¿Cuál es el estado actual? (% de calidad)
- ¿Cuál es el impacto de la baja calidad?
- ¿Qué causas identificas?
- ¿Qué acción inmediata puedes tomar?
3. Plan de mejora
| Problema identificado | Acción | Responsable | Fecha límite |
|---|---|---|---|
Puntos clave de esta lección
- GIGO (Garbage In, Garbage Out) es la ley fundamental del análisis de datos
- La mala calidad de datos cuesta en promedio $12.9 millones por año a las empresas
- Las seis dimensiones de calidad son: Completitud, Precisión, Consistencia, Oportunidad, Validez, y Unicidad
- Los problemas más comunes incluyen: datos zombie, defaults silenciosos, y verdades múltiples
- Cada dataset necesita un dueño responsable y estándares definidos
- Cuando encuentras datos malos, tus opciones son: limpiar, excluir, marcar, o escalar
Próxima lección
En el siguiente módulo, entraremos al mundo de las métricas e indicadores: qué son los KPIs, cómo distinguir vanity metrics de métricas accionables, y cómo elegir las métricas correctas para tu negocio.
Quiz de comprensión
- ¿Qué significa el principio GIGO?
- ¿Cuáles son las seis dimensiones de calidad de datos?
- ¿Qué es un "dato zombie" y cómo lo identificas?
- ¿Por qué un valor de "01/01/1900" en fecha de nacimiento es sospechoso?
- ¿Cuáles son las cuatro opciones cuando encuentras datos de mala calidad?
Completaste esta leccion?
Marca esta leccion como completada. Tu progreso se guardara en tu navegador.