Lección 6 de 28Tipos de Datos y Fuentes

Calidad de datos: basura entra, basura sale

Evalúa si tus datos son confiables antes de usarlos.

10 minutos

"Garbage In, Garbage Out" (GIGO) es el principio más importante y más ignorado del análisis de datos. No importa qué tan sofisticado sea tu modelo o qué tan bonito tu dashboard: si los datos de entrada son malos, las conclusiones serán malas.

El costo real de la mala calidad de datos

Estadísticas que deberían preocuparte

  • El 27% de los ingresos de las empresas se pierden por problemas de calidad de datos (Experian)
  • Los trabajadores pasan 50% de su tiempo buscando, corrigiendo y confirmando datos (Harvard Business Review)
  • Solo el 3% de los datos de las empresas cumplen con estándares básicos de calidad (MIT Sloan)
  • El costo promedio de mala calidad de datos es de $12.9 millones por año (Gartner)

Ejemplos de desastres por mala calidad de datos

1. NASA Mars Climate Orbiter (1999)

Una nave de $125 millones se estrelló en Marte porque un equipo usó unidades métricas y otro usó unidades imperiales. Nadie validó la consistencia de los datos.

2. Knight Capital (2012)

Un algoritmo de trading con datos de configuración erróneos perdió $440 millones en 45 minutos. La empresa quebró.

3. Target y el embarazo (2012 - pero diferente)

Antes del caso famoso de predicción, Target envió cupones de productos para bebé a direcciones incorrectas por duplicados en su base de datos. Demandas legales siguieron.

4. Votación Brexit (2016)

Múltiples estudios mostraron que datos de encuestas mal recolectados y con sesgo de selección llevaron a predicciones completamente erradas.

Las seis dimensiones de calidad de datos

La calidad de datos no es un concepto vago. Se mide en seis dimensiones específicas:

1. Completitud (Completeness)

¿Están todos los campos que deberían estar?

Evaluación Descripción Ejemplo
Alta 95%+ de campos poblados Base de clientes con email, teléfono, dirección
Media 70-94% poblados Algunos sin teléfono, la mayoría con email
Baja <70% poblados Muchos registros con solo nombre y email

Preguntas para evaluar:

  • ¿Cuántos registros tienen campos vacíos?
  • ¿Los campos obligatorios realmente lo son en el sistema?
  • ¿Hay patrones en lo que falta? (ej: datos de cierta región siempre incompletos)

Trampas comunes:

  • Campos "obligatorios" que se llenan con "N/A" o "." para pasar validación
  • Valores default que parecen datos reales (ej: fecha 01/01/1900)

2. Precisión (Accuracy)

¿Los datos reflejan la realidad?

Evaluación Descripción Ejemplo
Alta Verificable contra fuente de verdad Email validado por confirmación
Media Probablemente correcto Email ingresado por usuario sin verificar
Baja Frecuentemente incorrecto Email capturado por vendedor de oído

Preguntas para evaluar:

  • ¿Cómo se capturó este dato originalmente?
  • ¿Hay verificación o validación al momento de entrada?
  • ¿Cuándo fue la última vez que se confirmó?

Señales de alarma:

  • Datos que no cambian nunca (¿el teléfono del cliente de hace 10 años es el mismo?)
  • Valores que parecen estimaciones redondas (todos los montos terminan en 000)
  • Direcciones que no existen según Google Maps

3. Consistencia (Consistency)

¿Los datos son uniformes a través de sistemas y tiempo?

Evaluación Descripción Ejemplo
Alta Mismo formato siempre Fechas siempre DD/MM/YYYY
Media Variaciones menores Fechas a veces DD/MM/YYYY, a veces MM/DD/YYYY
Baja Caos total Fechas en 5 formatos diferentes

Ejemplos de inconsistencias comunes:

Campo Variaciones encontradas
Nombre de empresa "Apple Inc.", "Apple, Inc", "APPLE", "Apple Computer"
País "México", "Mexico", "MX", "MEX", "Estados Unidos Mexicanos"
Teléfono "555-1234", "5551234", "+52 55 5123 4567", "(55) 5123-4567"
Estado de cliente "Activo", "ACTIVO", "A", "1", "active"

Preguntas para evaluar:

  • ¿Hay estándares documentados de cómo se deben capturar los datos?
  • ¿Los diferentes sistemas usan los mismos códigos y formatos?
  • ¿Los datos históricos siguen el mismo formato que los actuales?

4. Oportunidad (Timeliness)

¿Los datos están disponibles cuando se necesitan?

Evaluación Descripción Ejemplo
Alta Tiempo real o near-real-time Dashboard actualiza cada minuto
Media Actualización diaria Reporte disponible cada mañana
Baja Semanas o meses de retraso Datos de ventas llegan 2 semanas después

Preguntas para evaluar:

  • ¿Cuándo fue la última actualización?
  • ¿El retraso es aceptable para la decisión que debo tomar?
  • ¿Hay procesos que dependen de datos más frescos de los que tienen?

Contexto importa:

  • Para una decisión estratégica anual, datos del mes pasado pueden ser suficientes
  • Para detección de fraude, un retraso de minutos puede ser inaceptable

5. Validez (Validity)

¿Los datos cumplen con las reglas definidas?

Evaluación Descripción Ejemplo
Alta Todos cumplen reglas Emails con formato válido, fechas posibles
Media Mayoría cumple Algunos emails sin @, fechas futuras en campo de nacimiento
Baja Muchas violaciones Campos numéricos con texto, fechas imposibles

Reglas de validación comunes:

Campo Regla Violación
Email Debe contener @ y dominio "juanmail.com"
Fecha de nacimiento Debe ser pasada y razonable "15/03/2030" o "01/01/1800"
Código postal Debe existir en catálogo "99999" (no existe)
Precio Debe ser positivo "-50.00"
Cantidad Debe ser entero "2.5 unidades"

6. Unicidad (Uniqueness)

¿Cada entidad está representada una sola vez?

Evaluación Descripción Ejemplo
Alta Sin duplicados Cada cliente tiene un único registro
Media Algunos duplicados identificados 5% de clientes tienen registros dobles
Baja Duplicados rampantes El mismo cliente aparece 3-4 veces con variaciones

Causas comunes de duplicados:

  • Múltiples fuentes de entrada (web, llamada, punto de venta)
  • Errores de tipeo que crean registros "nuevos"
  • Fusiones de empresas sin consolidación de datos
  • Falta de validación al crear registros

Impacto de duplicados:

  • Sobreestimación de métricas (parece que tienes más clientes)
  • Comunicaciones múltiples al mismo cliente
  • Segmentación incorrecta
  • Análisis distorsionados

Framework de evaluación: El scorecard de calidad

Usa esta plantilla para evaluar la calidad de cualquier dataset:

Dimensión Peso Score (1-5) Score ponderado Notas
Completitud 20%
Precisión 25%
Consistencia 15%
Oportunidad 15%
Validez 15%
Unicidad 10%
Total 100%

Interpretación del score:

  • 4.5-5.0: Calidad excelente, listo para análisis críticos
  • 3.5-4.4: Buena calidad, monitorear dimensiones bajas
  • 2.5-3.4: Calidad aceptable para algunos usos, necesita mejora
  • 1.5-2.4: Calidad pobre, usar con precaución extrema
  • 1.0-1.4: No confiable, no usar para decisiones

Problemas comunes de calidad y cómo detectarlos

1. El problema del "Excel humano"

Síntoma: Datos que claramente fueron manipulados manualmente antes de llegar al sistema.

Señales:

  • Redondeos sospechosos (todos los números terminan en 0 o 5)
  • Patrones demasiado perfectos
  • Campos de texto que deberían ser numéricos

Ejemplo:

Mes     | Ventas reportadas | Ventas reales probable
Enero   | $100,000         | $98,543
Febrero | $105,000         | $104,892
Marzo   | $110,000         | $108,234

2. El problema del "dato zombie"

Síntoma: Datos que debieron actualizarse pero no lo hicieron.

Señales:

  • Campos que nunca cambian (dirección, teléfono por años)
  • Fechas de "última actualización" muy antiguas
  • Estados que no reflejan realidad (cliente "activo" que no compra hace 3 años)

3. El problema de la "frontera de sistemas"

Síntoma: Datos que cambian de formato al pasar entre sistemas.

Señales:

  • Truncamiento (nombres cortados, códigos incompletos)
  • Conversiones de encoding (caracteres especiales rotos: "José" en vez de "José")
  • Pérdida de precisión (decimales que desaparecen)

4. El problema del "default silencioso"

Síntoma: Valores que parecen datos pero son defaults del sistema.

Ejemplos comunes:

Campo Valor sospechoso Por qué
Fecha de nacimiento 01/01/1900 Default común en sistemas
País "Estados Unidos" Default de formulario en inglés
Teléfono 000-000-0000 Placeholder
Email noemail@empresa.com Entrada falsa para pasar validación

5. El problema de la "verdad múltiple"

Síntoma: El mismo dato tiene valores diferentes en distintos sistemas.

Ejemplo:

Sistema Nombre del cliente Dirección Teléfono
CRM "Acme Corp" "Av. Reforma 123" "555-1234"
Facturación "ACME Corporation SA" "Reforma #123" "52-55-5551234"
Soporte "acme" "reforma 123 cdmx" "5512345"

¿Cuál es la "verdad"? Sin una fuente maestra, nadie sabe.

Estableciendo estándares de calidad

Paso 1: Define qué es "suficientemente bueno"

No todos los datos necesitan el mismo nivel de calidad. Define umbrales por criticidad:

Categoría Ejemplo Umbral de calidad
Crítico Datos financieros, compliance 99%+ en todas las dimensiones
Alto Datos de cliente para comunicación 95%+ completitud, precisión
Medio Datos operativos 90%+ completitud
Bajo Datos para análisis exploratorio 80%+ completitud

Paso 2: Asigna responsables

Cada dataset necesita:

  • Data Owner: Responsable del negocio de la calidad
  • Data Steward: Responsable técnico del mantenimiento
  • Usuarios: Reportan problemas identificados

Paso 3: Establece procesos de validación

Momento Validación Responsable
Al capturar Reglas de formato, campos obligatorios Sistema
Al integrar Detección de duplicados, mapeo de códigos ETL/Ingeniería
Periódicamente Auditorías de calidad, limpieza Data Steward
Al usar Sentido común, validación vs. expectativa Usuario final

Paso 4: Monitorea continuamente

Implementa alertas para:

  • Caídas repentinas de completitud
  • Aumento de duplicados
  • Valores fuera de rango esperado
  • Retrasos en actualización

Qué hacer cuando encuentras datos malos

Opción 1: Limpiar

Cuándo: Tienes acceso a la fuente original o puedes inferir el valor correcto.

Ejemplos:

  • Estandarizar formatos ("México" y "MEXICO" → "México")
  • Corregir errores obvios ("2023-13-45" → probablemente invalido, revisar)
  • Completar datos faltantes con fuentes alternativas

Opción 2: Excluir

Cuándo: El dato malo distorsionaría el análisis y no puedes corregirlo.

Ejemplos:

  • Registros de prueba mezclados con datos reales
  • Outliers que son claramente errores
  • Duplicados identificados

Importante: Documenta siempre qué excluiste y por qué.

Opción 3: Marcar

Cuándo: No quieres perder el dato pero debes señalar su calidad.

Ejemplos:

  • Flag de "datos sin verificar"
  • Indicador de "potencial duplicado"
  • Calificación de confiabilidad

Opción 4: Escalar

Cuándo: El problema es sistémico y requiere cambios en el proceso de captura.

Ejemplos:

  • El formulario web no valida emails
  • El CRM permite crear clientes sin identificador único
  • La integración entre sistemas corrompe datos

Ejercicio práctico: Auditoría de calidad

Elige un dataset que uses frecuentemente y evalúalo:

1. Evaluación rápida

Pregunta Sí/No Evidencia
¿Puedo identificar la fuente de cada dato?
¿Hay campos vacíos significativos?
¿Los formatos son consistentes?
¿Los datos están actualizados?
¿Hay duplicados obvios?
¿Los valores tienen sentido?

2. Análisis de una dimensión

Elige la dimensión más crítica para tu uso y profundiza:

Dimensión elegida: _____________

Análisis:

  • ¿Cuál es el estado actual? (% de calidad)
  • ¿Cuál es el impacto de la baja calidad?
  • ¿Qué causas identificas?
  • ¿Qué acción inmediata puedes tomar?

3. Plan de mejora

Problema identificado Acción Responsable Fecha límite

Puntos clave de esta lección

  • GIGO (Garbage In, Garbage Out) es la ley fundamental del análisis de datos
  • La mala calidad de datos cuesta en promedio $12.9 millones por año a las empresas
  • Las seis dimensiones de calidad son: Completitud, Precisión, Consistencia, Oportunidad, Validez, y Unicidad
  • Los problemas más comunes incluyen: datos zombie, defaults silenciosos, y verdades múltiples
  • Cada dataset necesita un dueño responsable y estándares definidos
  • Cuando encuentras datos malos, tus opciones son: limpiar, excluir, marcar, o escalar

Próxima lección

En el siguiente módulo, entraremos al mundo de las métricas e indicadores: qué son los KPIs, cómo distinguir vanity metrics de métricas accionables, y cómo elegir las métricas correctas para tu negocio.


Quiz de comprensión

  1. ¿Qué significa el principio GIGO?
  2. ¿Cuáles son las seis dimensiones de calidad de datos?
  3. ¿Qué es un "dato zombie" y cómo lo identificas?
  4. ¿Por qué un valor de "01/01/1900" en fecha de nacimiento es sospechoso?
  5. ¿Cuáles son las cuatro opciones cuando encuentras datos de mala calidad?

Completaste esta leccion?

Marca esta leccion como completada. Tu progreso se guardara en tu navegador.