Lección 17 de 28Detectar Sesgos y Errores

Errores estadísticos comunes

Promedios engañosos, muestras pequeñas, outliers.

10 minutos

No necesitas ser estadistico para usar datos en tus decisiones. Pero si necesitas conocer los errores mas comunes que pueden hacer que los numeros te engañen.

En esta leccion, aprenderemos sobre tres categorias de errores estadisticos que frecuentemente llevan a conclusiones erroneas: promedios engañosos, problemas de muestreo, y el impacto de los valores atipicos.

Por que los numeros pueden mentir

Los numeros tienen una apariencia de precision y objetividad. Pero un numero siempre es el resultado de decisiones: que contar, como agruparlo, que formula usar.

Cada decision puede introducir distorsiones. Y a diferencia de las opiniones, los numeros rara vez se cuestionan.

Error 1: Promedios engañosos

El promedio (media aritmetica) es la estadistica mas usada y tambien la mas mal usada.

El problema fundamental del promedio

El promedio es muy sensible a valores extremos. Un solo numero muy alto o muy bajo puede distorsionar completamente el resultado.

Ejemplo clasico:

Imagina una sala con 10 empleados. Sus salarios anuales son:

  • $30K, $32K, $35K, $38K, $40K, $42K, $45K, $48K, $50K

Promedio salarial: $40K

Ahora entra el CEO ganando $2 millones.

Nuevo promedio salarial: $215K

El promedio se quintuplicó aunque nadie recibio aumento. El CEO "arrastro" el promedio.

Cuando el promedio engaña

Situacion Por que engaña
Ingresos/salarios Pocos ingresos muy altos distorsionan
Precios de vivienda Propiedades de lujo inflan el promedio
Tiempos de respuesta Un incidente largo distorsiona el promedio
Transacciones Compras muy grandes sesgan el promedio

La solucion: Usar la mediana

La mediana es el valor del medio cuando ordenas todos los datos. No se ve afectada por extremos.

Ejemplo anterior:

  • Sin CEO: Mediana = $40K (igual al promedio)
  • Con CEO: Mediana = $41K (apenas cambio)

La mediana cuenta una historia mas honesta cuando hay valores extremos.

Ejemplo empresarial

Reporte: "El tiempo promedio de respuesta a tickets es 4 horas."

Esto parece aceptable, pero:

  • 90% de tickets se resuelven en menos de 1 hora
  • 10% de tickets tardan 30+ horas (casos complejos)
  • Esos 10% arrastran el promedio

Mejor reporte: "El 90% de tickets se resuelven en menos de 1 hora. El tiempo mediano es 45 minutos."

Cuando usar que metrica

Metrica Usar cuando...
Promedio (media) Los datos son simetricos, sin extremos
Mediana Hay valores extremos, distribucion sesgada
Moda Quieres el valor mas frecuente
Percentiles Quieres entender la distribucion completa

Regla practica: Si el promedio y la mediana son muy diferentes, hay valores extremos. Usa la mediana.

Error 2: Muestras pequeñas y no representativas

El peligro de las muestras pequeñas

Con pocas observaciones, el azar puede dominar los resultados. Lo que parece un patron puede ser solo ruido.

Ejemplo:

Lanzas 10 campañas de email:

  • Campana A: 5% de conversion (50 emails, 2.5 conversiones redondeado)
  • Campana B: 2% de conversion (50 emails, 1 conversion)

Conclusion: "A es 2.5 veces mejor que B!"

Realidad: Con muestras tan pequeñas, la diferencia podria ser puro azar. Una conversion mas o menos cambia drasticamente los porcentajes.

Como saber si la muestra es suficiente

Reglas aproximadas (no exactas, pero utiles):

Tipo de analisis Muestra minima sugerida
Porcentajes/tasas 100+ eventos por grupo
Comparacion de grupos 50+ por grupo
Tendencias 20+ puntos de datos
Segmentacion 30+ por segmento

Señal de alerta: Si pequeños cambios en los datos brutos alteran significativamente la conclusion, la muestra es muy pequeña.

Ejemplo empresarial: El "mejor vendedor"

Situacion: El nuevo vendedor tiene 100% de conversion en su primera semana.

Los datos:

  • Vendedor nuevo: 3 de 3 (100%)
  • Vendedor senior: 15 de 50 (30%)

Conclusion tentadora: "El nuevo vendedor es excepcional!"

Realidad: Con solo 3 intentos, cualquier resultado es posible por azar. El senior con 50 intentos tiene datos mas confiables. Hay que esperar mas datos del nuevo.

El problema de muestras no representativas

Incluso con muchos datos, si la muestra no representa la poblacion de interes, las conclusiones no aplican.

Ejemplos de muestras no representativas:

Muestra usada Poblacion de interes Problema
Clientes que responden encuestas Todos los clientes Solo responden satisfechos o muy insatisfechos
Usuarios de app Todos los clientes Usuarios de app son mas tecnologicos
Compradores de Black Friday Clientes tipicos Black Friday atrae cazadores de ofertas
Early adopters Mercado masivo Early adopters son atipicos

Pregunta clave: "Quienes estan en esta muestra y quienes NO estan?"

Caso de estudio: La encuesta sesgada

Situacion: Encuesta de satisfaccion muestra NPS de 65. "Excelente resultado!"

Analisis de la muestra:

  • Se envio a todos los clientes activos
  • Respondio el 8%
  • El 8% que responde es autoseleccionado

Quienes tienden a responder encuestas:

  • Muy satisfechos (quieren agradecer)
  • Muy insatisfechos (quieren quejarse)
  • Los moderados ignoran la encuesta

Conclusion real: El NPS de 65 representa a los clientes con opiniones fuertes. No sabemos que piensa el 92% silencioso.

Error 3: Ignorar o mal manejar outliers

Que son los outliers

Los outliers son valores atipicos que difieren significativamente del resto de los datos.

El dilema de los outliers

  • Eliminarlos puede ocultar informacion valiosa
  • Incluirlos puede distorsionar el analisis
  • La decision correcta depende del contexto

Tipos de outliers

1. Errores de datos

  • Errores de captura o digitacion
  • Problemas de sistema
  • Deben corregirse o eliminarse

2. Eventos extraordinarios

  • Black Friday, crisis, lanzamientos
  • Legitimos pero atipicos
  • Analizar por separado

3. Señales importantes

  • Comportamiento anomalo de clientes
  • Fraude o problemas
  • Deben investigarse, no eliminarse

4. Variacion natural extrema

  • Parte normal de la distribucion
  • Deben incluirse en el analisis

Ejemplo: Ventas diarias

Datos de ventas de 30 dias:

  • 28 dias: Entre $8K y $12K
  • 1 dia: $45K (Black Friday)
  • 1 dia: $500 (error de sistema)

Opciones de analisis:

Enfoque Resultado Cuando es apropiado
Incluir todo Promedio distorsionado Casi nunca
Eliminar ambos outliers Promedio $10K Para entender operacion "normal"
Eliminar error, mantener BF Promedio $11.5K Para proyeccion anual
Analizar BF por separado Entender evento especial Para planificar promociones

Framework para manejar outliers

Paso 1: Identificar

  • Valores muy alejados del resto?
  • Usando reglas estadisticas (ej: 3 desviaciones estandar) o juicio experto

Paso 2: Investigar

  • Es error de datos? Corregir o eliminar
  • Es evento conocido? Documentar
  • Es anomalia inexplicable? Investigar

Paso 3: Decidir

  • Cual es el objetivo del analisis?
  • Incluir o excluir segun proposito
  • DOCUMENTAR la decision

Paso 4: Comunicar

  • Siempre reportar que se hizo con outliers
  • Mostrar resultados con y sin outliers si es relevante

Ejemplo empresarial: Tiempo de cierre de ventas

Datos de 100 oportunidades cerradas:

  • 95 oportunidades: Entre 15 y 45 dias
  • 5 oportunidades: Entre 180 y 365 dias

Preguntas a investigar:

  • Las 5 oportunidades lentas, son del mismo tipo? (ej: Enterprise vs SMB)
  • Hubo problemas identificables? (ej: decision de presupuesto anual)
  • Son realmente comparables con las otras 95?

Posibles conclusiones:

  • Si son Enterprise: Reportar ciclos separados por segmento
  • Si son anomalias: Excluir del promedio normal
  • Si son señal de problema: Investigar y resolver

Combinacion de errores: Caso integrado

Situacion presentada: "El nuevo feature tiene 90% de satisfaccion, el doble que el producto base (45%)."

Analisis critico:

Error de muestra:

  • Nuevo feature: 20 respuestas
  • Producto base: 2,000 respuestas
  • 20 respuestas son muy pocas para concluir

Error de representatividad:

  • Quienes usan el nuevo feature? Early adopters entusiastas
  • Son comparables con los usuarios generales del producto base?

Error de promedio:

  • El 45% del producto base, es promedio o mediana?
  • Puede estar arrastrado por usuarios de segmentos problematicos

Conclusion: No se puede concluir que el feature tenga mejor satisfaccion. Muestras incomparables, tamaños muy diferentes, poblaciones distintas.

Checklist anti-errores estadisticos

Antes de aceptar una conclusion numerica, verifica:

Sobre promedios:

  • El promedio y la mediana son similares?
  • Si son muy diferentes, cual se esta reportando?
  • Hay valores extremos que distorsionan?

Sobre muestras:

  • Cual es el tamaño de muestra?
  • Es suficientemente grande para el analisis?
  • La muestra representa la poblacion de interes?
  • Quienes estan excluidos de la muestra?

Sobre outliers:

  • Se identificaron valores atipicos?
  • Se investigo su origen?
  • Se documento que se hizo con ellos?
  • La conclusion cambia si los incluyes/excluyes?

Frases de alerta que debes cuestionar

Frase Pregunta a hacer
"El promedio es..." "Cual es la mediana? Hay extremos?"
"El X% de usuarios..." "De cuantos usuarios estamos hablando?"
"Basado en datos de..." "Esa muestra representa a quien nos interesa?"
"Eliminamos algunos outliers" "Cuales, por que, y cambia la conclusion?"
"Es estadisticamente significativo" "Con que nivel de confianza? Cual es el efecto real?"

Ejercicio practico

Identifica el error estadistico en cada caso:

Caso 1: "Nuestros clientes tienen un ingreso promedio de $150K anuales." (El rango va de $30K a $5M, con la mayoria entre $40K-$80K)

Caso 2: "El nuevo proceso redujo errores 50%." (Antes: 4 errores en 100 casos. Despues: 2 errores en 50 casos)

Caso 3: "Eliminamos a los 'super usuarios' del analisis porque distorsionaban los datos." (Los super usuarios son el 5% pero generan el 40% de los ingresos)

Caso 4: "La encuesta muestra 95% de satisfaccion." (Encuesta enviada solo a clientes que hicieron una compra en los ultimos 30 dias)

Puntos clave de esta leccion

  • El promedio puede engañar cuando hay valores extremos; considera la mediana
  • Muestras pequeñas producen resultados inestables que pueden ser solo ruido
  • Las muestras deben representar la poblacion de interes, no solo ser grandes
  • Los outliers no deben eliminarse automaticamente; requieren investigacion
  • Siempre pregunta: "Como cambiaria la conclusion con diferentes decisiones metodologicas?"

Proxima leccion

En la siguiente leccion integraremos todo lo aprendido en un framework de pensamiento critico con datos: como cuestionar analisis de manera constructiva y tomar mejores decisiones.


Quiz de comprension

  1. Cuando deberiamos usar la mediana en lugar del promedio?
  2. Por que una muestra grande no garantiza resultados confiables?
  3. En que situaciones es apropiado excluir outliers del analisis?
  4. Que preguntas deberias hacer cuando te reportan un porcentaje?

Respuestas del ejercicio:

  1. Promedio engañoso: La mayoria gana $40-80K pero el promedio es $150K por los ingresos altos extremos. La mediana seria mas representativa.
  2. Muestra pequeña: De 4 a 2 errores puede ser azar. Ademas, la muestra post es la mitad del tamaño.
  3. Outliers mal manejados: Los "super usuarios" son criticos para el negocio. Excluirlos oculta informacion vital.
  4. Muestra no representativa: Solo clientes recientes. No representa a clientes inactivos o insatisfechos que no compran.

Completaste esta leccion?

Marca esta leccion como completada. Tu progreso se guardara en tu navegador.