Calidad de datos: basura entra, basura sale

"Garbage In, Garbage Out" (GIGO) es el principio más importante y más ignorado del análisis de datos. No importa qué tan sofisticado sea tu modelo o qué tan bonito tu dashboard: si los datos de entrada son malos, las conclusiones serán malas.

El costo real de la mala calidad de datos

Estadísticas que deberían preocuparte

El 27% de los ingresos de las empresas se pierden por problemas de calidad de datos (Experian)
Los trabajadores pasan 50% de su tiempo buscando, corrigiendo y confirmando datos (Harvard Business Review)
Solo el 3% de los datos de las empresas cumplen con estándares básicos de calidad (MIT Sloan)
El costo promedio de mala calidad de datos es de $12.9 millones por año (Gartner)

Ejemplos de desastres por mala calidad de datos

1. NASA Mars Climate Orbiter (1999)

Una nave de $125 millones se estrelló en Marte porque un equipo usó unidades métricas y otro usó unidades imperiales. Nadie validó la consistencia de los datos.

2. Knight Capital (2012)

Un algoritmo de trading con datos de configuración erróneos perdió $440 millones en 45 minutos. La empresa quebró.

3. Target y el embarazo (2012 - pero diferente)

Antes del caso famoso de predicción, Target envió cupones de productos para bebé a direcciones incorrectas por duplicados en su base de datos. Demandas legales siguieron.

4. Votación Brexit (2016)

Múltiples estudios mostraron que datos de encuestas mal recolectados y con sesgo de selección llevaron a predicciones completamente erradas.

Las seis dimensiones de calidad de datos

La calidad de datos no es un concepto vago. Se mide en seis dimensiones específicas:

1. Completitud (Completeness)

¿Están todos los campos que deberían estar?

Evaluación	Descripción	Ejemplo
Alta	95%+ de campos poblados	Base de clientes con email, teléfono, dirección
Media	70-94% poblados	Algunos sin teléfono, la mayoría con email
Baja	<70% poblados	Muchos registros con solo nombre y email

Preguntas para evaluar:

¿Cuántos registros tienen campos vacíos?
¿Los campos obligatorios realmente lo son en el sistema?
¿Hay patrones en lo que falta? (ej: datos de cierta región siempre incompletos)

Trampas comunes:

Campos "obligatorios" que se llenan con "N/A" o "." para pasar validación
Valores default que parecen datos reales (ej: fecha 01/01/1900)

2. Precisión (Accuracy)

¿Los datos reflejan la realidad?

Evaluación	Descripción	Ejemplo
Alta	Verificable contra fuente de verdad	Email validado por confirmación
Media	Probablemente correcto	Email ingresado por usuario sin verificar
Baja	Frecuentemente incorrecto	Email capturado por vendedor de oído

Preguntas para evaluar:

¿Cómo se capturó este dato originalmente?
¿Hay verificación o validación al momento de entrada?
¿Cuándo fue la última vez que se confirmó?

Señales de alarma:

Datos que no cambian nunca (¿el teléfono del cliente de hace 10 años es el mismo?)
Valores que parecen estimaciones redondas (todos los montos terminan en 000)
Direcciones que no existen según Google Maps

3. Consistencia (Consistency)

¿Los datos son uniformes a través de sistemas y tiempo?

Evaluación	Descripción	Ejemplo
Alta	Mismo formato siempre	Fechas siempre DD/MM/YYYY
Media	Variaciones menores	Fechas a veces DD/MM/YYYY, a veces MM/DD/YYYY
Baja	Caos total	Fechas en 5 formatos diferentes

Ejemplos de inconsistencias comunes:

Campo	Variaciones encontradas
Nombre de empresa	"Apple Inc.", "Apple, Inc", "APPLE", "Apple Computer"
País	"México", "Mexico", "MX", "MEX", "Estados Unidos Mexicanos"
Teléfono	"555-1234", "5551234", "+52 55 5123 4567", "(55) 5123-4567"
Estado de cliente	"Activo", "ACTIVO", "A", "1", "active"

Preguntas para evaluar:

¿Hay estándares documentados de cómo se deben capturar los datos?
¿Los diferentes sistemas usan los mismos códigos y formatos?
¿Los datos históricos siguen el mismo formato que los actuales?

4. Oportunidad (Timeliness)

¿Los datos están disponibles cuando se necesitan?

Evaluación	Descripción	Ejemplo
Alta	Tiempo real o near-real-time	Dashboard actualiza cada minuto
Media	Actualización diaria	Reporte disponible cada mañana
Baja	Semanas o meses de retraso	Datos de ventas llegan 2 semanas después

Preguntas para evaluar:

¿Cuándo fue la última actualización?
¿El retraso es aceptable para la decisión que debo tomar?
¿Hay procesos que dependen de datos más frescos de los que tienen?

Contexto importa:

Para una decisión estratégica anual, datos del mes pasado pueden ser suficientes
Para detección de fraude, un retraso de minutos puede ser inaceptable

5. Validez (Validity)

¿Los datos cumplen con las reglas definidas?

Evaluación	Descripción	Ejemplo
Alta	Todos cumplen reglas	Emails con formato válido, fechas posibles
Media	Mayoría cumple	Algunos emails sin @, fechas futuras en campo de nacimiento
Baja	Muchas violaciones	Campos numéricos con texto, fechas imposibles

Reglas de validación comunes:

Campo	Regla	Violación
Email	Debe contener @ y dominio	"juanmail.com"
Fecha de nacimiento	Debe ser pasada y razonable	"15/03/2030" o "01/01/1800"
Código postal	Debe existir en catálogo	"99999" (no existe)
Precio	Debe ser positivo	"-50.00"
Cantidad	Debe ser entero	"2.5 unidades"

6. Unicidad (Uniqueness)

¿Cada entidad está representada una sola vez?

Evaluación	Descripción	Ejemplo
Alta	Sin duplicados	Cada cliente tiene un único registro
Media	Algunos duplicados identificados	5% de clientes tienen registros dobles
Baja	Duplicados rampantes	El mismo cliente aparece 3-4 veces con variaciones

Causas comunes de duplicados:

Múltiples fuentes de entrada (web, llamada, punto de venta)
Errores de tipeo que crean registros "nuevos"
Fusiones de empresas sin consolidación de datos
Falta de validación al crear registros

Impacto de duplicados:

Sobreestimación de métricas (parece que tienes más clientes)
Comunicaciones múltiples al mismo cliente
Segmentación incorrecta
Análisis distorsionados

Framework de evaluación: El scorecard de calidad

Usa esta plantilla para evaluar la calidad de cualquier dataset:

Dimensión	Peso	Score (1-5)	Score ponderado	Notas
Completitud	20%
Precisión	25%
Consistencia	15%
Oportunidad	15%
Validez	15%
Unicidad	10%
Total	100%

Interpretación del score:

4.5-5.0: Calidad excelente, listo para análisis críticos
3.5-4.4: Buena calidad, monitorear dimensiones bajas
2.5-3.4: Calidad aceptable para algunos usos, necesita mejora
1.5-2.4: Calidad pobre, usar con precaución extrema
1.0-1.4: No confiable, no usar para decisiones

Problemas comunes de calidad y cómo detectarlos

1. El problema del "Excel humano"

Síntoma: Datos que claramente fueron manipulados manualmente antes de llegar al sistema.

Señales:

Redondeos sospechosos (todos los números terminan en 0 o 5)
Patrones demasiado perfectos
Campos de texto que deberían ser numéricos

Ejemplo:

Mes     | Ventas reportadas | Ventas reales probable
Enero   | $100,000         | $98,543
Febrero | $105,000         | $104,892
Marzo   | $110,000         | $108,234

2. El problema del "dato zombie"

Síntoma: Datos que debieron actualizarse pero no lo hicieron.

Señales:

Campos que nunca cambian (dirección, teléfono por años)
Fechas de "última actualización" muy antiguas
Estados que no reflejan realidad (cliente "activo" que no compra hace 3 años)

3. El problema de la "frontera de sistemas"

Síntoma: Datos que cambian de formato al pasar entre sistemas.

Señales:

Truncamiento (nombres cortados, códigos incompletos)
Conversiones de encoding (caracteres especiales rotos: "JosÃ©" en vez de "José")
Pérdida de precisión (decimales que desaparecen)

4. El problema del "default silencioso"

Síntoma: Valores que parecen datos pero son defaults del sistema.

Ejemplos comunes:

Campo	Valor sospechoso	Por qué
Fecha de nacimiento	01/01/1900	Default común en sistemas
País	"Estados Unidos"	Default de formulario en inglés
Teléfono	000-000-0000	Placeholder
Email	noemail@empresa.com	Entrada falsa para pasar validación

5. El problema de la "verdad múltiple"

Síntoma: El mismo dato tiene valores diferentes en distintos sistemas.

Ejemplo:

Sistema	Nombre del cliente	Dirección	Teléfono
CRM	"Acme Corp"	"Av. Reforma 123"	"555-1234"
Facturación	"ACME Corporation SA"	"Reforma #123"	"52-55-5551234"
Soporte	"acme"	"reforma 123 cdmx"	"5512345"

¿Cuál es la "verdad"? Sin una fuente maestra, nadie sabe.

Estableciendo estándares de calidad

Paso 1: Define qué es "suficientemente bueno"

No todos los datos necesitan el mismo nivel de calidad. Define umbrales por criticidad:

Categoría	Ejemplo	Umbral de calidad
Crítico	Datos financieros, compliance	99%+ en todas las dimensiones
Alto	Datos de cliente para comunicación	95%+ completitud, precisión
Medio	Datos operativos	90%+ completitud
Bajo	Datos para análisis exploratorio	80%+ completitud

Paso 2: Asigna responsables

Cada dataset necesita:

Data Owner: Responsable del negocio de la calidad
Data Steward: Responsable técnico del mantenimiento
Usuarios: Reportan problemas identificados

Paso 3: Establece procesos de validación

Momento	Validación	Responsable
Al capturar	Reglas de formato, campos obligatorios	Sistema
Al integrar	Detección de duplicados, mapeo de códigos	ETL/Ingeniería
Periódicamente	Auditorías de calidad, limpieza	Data Steward
Al usar	Sentido común, validación vs. expectativa	Usuario final

Paso 4: Monitorea continuamente

Implementa alertas para:

Caídas repentinas de completitud
Aumento de duplicados
Valores fuera de rango esperado
Retrasos en actualización

Qué hacer cuando encuentras datos malos

Opción 1: Limpiar

Cuándo: Tienes acceso a la fuente original o puedes inferir el valor correcto.

Ejemplos:

Estandarizar formatos ("México" y "MEXICO" → "México")
Corregir errores obvios ("2023-13-45" → probablemente invalido, revisar)
Completar datos faltantes con fuentes alternativas

Opción 2: Excluir

Cuándo: El dato malo distorsionaría el análisis y no puedes corregirlo.

Ejemplos:

Registros de prueba mezclados con datos reales
Outliers que son claramente errores
Duplicados identificados

Importante: Documenta siempre qué excluiste y por qué.

Opción 3: Marcar

Cuándo: No quieres perder el dato pero debes señalar su calidad.

Ejemplos:

Flag de "datos sin verificar"
Indicador de "potencial duplicado"
Calificación de confiabilidad

Opción 4: Escalar

Cuándo: El problema es sistémico y requiere cambios en el proceso de captura.

Ejemplos:

El formulario web no valida emails
El CRM permite crear clientes sin identificador único
La integración entre sistemas corrompe datos

Ejercicio práctico: Auditoría de calidad

Elige un dataset que uses frecuentemente y evalúalo:

1. Evaluación rápida

Pregunta	Sí/No	Evidencia
¿Puedo identificar la fuente de cada dato?
¿Hay campos vacíos significativos?
¿Los formatos son consistentes?
¿Los datos están actualizados?
¿Hay duplicados obvios?
¿Los valores tienen sentido?

2. Análisis de una dimensión

Elige la dimensión más crítica para tu uso y profundiza:

Dimensión elegida: _____________

Análisis:

¿Cuál es el estado actual? (% de calidad)
¿Cuál es el impacto de la baja calidad?
¿Qué causas identificas?
¿Qué acción inmediata puedes tomar?

3. Plan de mejora

Problema identificado	Acción	Responsable	Fecha límite

Puntos clave de esta lección

GIGO (Garbage In, Garbage Out) es la ley fundamental del análisis de datos
La mala calidad de datos cuesta en promedio $12.9 millones por año a las empresas
Las seis dimensiones de calidad son: Completitud, Precisión, Consistencia, Oportunidad, Validez, y Unicidad
Los problemas más comunes incluyen: datos zombie, defaults silenciosos, y verdades múltiples
Cada dataset necesita un dueño responsable y estándares definidos
Cuando encuentras datos malos, tus opciones son: limpiar, excluir, marcar, o escalar

Próxima lección

En el siguiente módulo, entraremos al mundo de las métricas e indicadores: qué son los KPIs, cómo distinguir vanity metrics de métricas accionables, y cómo elegir las métricas correctas para tu negocio.

Quiz de comprensión

¿Qué significa el principio GIGO?
¿Cuáles son las seis dimensiones de calidad de datos?
¿Qué es un "dato zombie" y cómo lo identificas?
¿Por qué un valor de "01/01/1900" en fecha de nacimiento es sospechoso?
¿Cuáles son las cuatro opciones cuando encuentras datos de mala calidad?

El costo real de la mala calidad de datos

Estadísticas que deberían preocuparte

Ejemplos de desastres por mala calidad de datos

Las seis dimensiones de calidad de datos

1. Completitud (Completeness)

2. Precisión (Accuracy)

3. Consistencia (Consistency)

4. Oportunidad (Timeliness)

5. Validez (Validity)

6. Unicidad (Uniqueness)

Framework de evaluación: El scorecard de calidad

Problemas comunes de calidad y cómo detectarlos

1. El problema del "Excel humano"

2. El problema del "dato zombie"

3. El problema de la "frontera de sistemas"

4. El problema del "default silencioso"

5. El problema de la "verdad múltiple"

Estableciendo estándares de calidad

Paso 1: Define qué es "suficientemente bueno"

Paso 2: Asigna responsables

Paso 3: Establece procesos de validación

Paso 4: Monitorea continuamente

Qué hacer cuando encuentras datos malos

Opción 1: Limpiar

Opción 2: Excluir

Opción 3: Marcar

Opción 4: Escalar

Ejercicio práctico: Auditoría de calidad

1. Evaluación rápida

2. Análisis de una dimensión

3. Plan de mejora

Puntos clave de esta lección

Próxima lección

Quiz de comprensión

Completaste esta leccion?