Errores estadísticos comunes
Promedios engañosos, muestras pequeñas, outliers.
No necesitas ser estadistico para usar datos en tus decisiones. Pero si necesitas conocer los errores mas comunes que pueden hacer que los numeros te engañen.
En esta leccion, aprenderemos sobre tres categorias de errores estadisticos que frecuentemente llevan a conclusiones erroneas: promedios engañosos, problemas de muestreo, y el impacto de los valores atipicos.
Por que los numeros pueden mentir
Los numeros tienen una apariencia de precision y objetividad. Pero un numero siempre es el resultado de decisiones: que contar, como agruparlo, que formula usar.
Cada decision puede introducir distorsiones. Y a diferencia de las opiniones, los numeros rara vez se cuestionan.
Error 1: Promedios engañosos
El promedio (media aritmetica) es la estadistica mas usada y tambien la mas mal usada.
El problema fundamental del promedio
El promedio es muy sensible a valores extremos. Un solo numero muy alto o muy bajo puede distorsionar completamente el resultado.
Ejemplo clasico:
Imagina una sala con 10 empleados. Sus salarios anuales son:
- $30K, $32K, $35K, $38K, $40K, $42K, $45K, $48K, $50K
Promedio salarial: $40K
Ahora entra el CEO ganando $2 millones.
Nuevo promedio salarial: $215K
El promedio se quintuplicó aunque nadie recibio aumento. El CEO "arrastro" el promedio.
Cuando el promedio engaña
| Situacion | Por que engaña |
|---|---|
| Ingresos/salarios | Pocos ingresos muy altos distorsionan |
| Precios de vivienda | Propiedades de lujo inflan el promedio |
| Tiempos de respuesta | Un incidente largo distorsiona el promedio |
| Transacciones | Compras muy grandes sesgan el promedio |
La solucion: Usar la mediana
La mediana es el valor del medio cuando ordenas todos los datos. No se ve afectada por extremos.
Ejemplo anterior:
- Sin CEO: Mediana = $40K (igual al promedio)
- Con CEO: Mediana = $41K (apenas cambio)
La mediana cuenta una historia mas honesta cuando hay valores extremos.
Ejemplo empresarial
Reporte: "El tiempo promedio de respuesta a tickets es 4 horas."
Esto parece aceptable, pero:
- 90% de tickets se resuelven en menos de 1 hora
- 10% de tickets tardan 30+ horas (casos complejos)
- Esos 10% arrastran el promedio
Mejor reporte: "El 90% de tickets se resuelven en menos de 1 hora. El tiempo mediano es 45 minutos."
Cuando usar que metrica
| Metrica | Usar cuando... |
|---|---|
| Promedio (media) | Los datos son simetricos, sin extremos |
| Mediana | Hay valores extremos, distribucion sesgada |
| Moda | Quieres el valor mas frecuente |
| Percentiles | Quieres entender la distribucion completa |
Regla practica: Si el promedio y la mediana son muy diferentes, hay valores extremos. Usa la mediana.
Error 2: Muestras pequeñas y no representativas
El peligro de las muestras pequeñas
Con pocas observaciones, el azar puede dominar los resultados. Lo que parece un patron puede ser solo ruido.
Ejemplo:
Lanzas 10 campañas de email:
- Campana A: 5% de conversion (50 emails, 2.5 conversiones redondeado)
- Campana B: 2% de conversion (50 emails, 1 conversion)
Conclusion: "A es 2.5 veces mejor que B!"
Realidad: Con muestras tan pequeñas, la diferencia podria ser puro azar. Una conversion mas o menos cambia drasticamente los porcentajes.
Como saber si la muestra es suficiente
Reglas aproximadas (no exactas, pero utiles):
| Tipo de analisis | Muestra minima sugerida |
|---|---|
| Porcentajes/tasas | 100+ eventos por grupo |
| Comparacion de grupos | 50+ por grupo |
| Tendencias | 20+ puntos de datos |
| Segmentacion | 30+ por segmento |
Señal de alerta: Si pequeños cambios en los datos brutos alteran significativamente la conclusion, la muestra es muy pequeña.
Ejemplo empresarial: El "mejor vendedor"
Situacion: El nuevo vendedor tiene 100% de conversion en su primera semana.
Los datos:
- Vendedor nuevo: 3 de 3 (100%)
- Vendedor senior: 15 de 50 (30%)
Conclusion tentadora: "El nuevo vendedor es excepcional!"
Realidad: Con solo 3 intentos, cualquier resultado es posible por azar. El senior con 50 intentos tiene datos mas confiables. Hay que esperar mas datos del nuevo.
El problema de muestras no representativas
Incluso con muchos datos, si la muestra no representa la poblacion de interes, las conclusiones no aplican.
Ejemplos de muestras no representativas:
| Muestra usada | Poblacion de interes | Problema |
|---|---|---|
| Clientes que responden encuestas | Todos los clientes | Solo responden satisfechos o muy insatisfechos |
| Usuarios de app | Todos los clientes | Usuarios de app son mas tecnologicos |
| Compradores de Black Friday | Clientes tipicos | Black Friday atrae cazadores de ofertas |
| Early adopters | Mercado masivo | Early adopters son atipicos |
Pregunta clave: "Quienes estan en esta muestra y quienes NO estan?"
Caso de estudio: La encuesta sesgada
Situacion: Encuesta de satisfaccion muestra NPS de 65. "Excelente resultado!"
Analisis de la muestra:
- Se envio a todos los clientes activos
- Respondio el 8%
- El 8% que responde es autoseleccionado
Quienes tienden a responder encuestas:
- Muy satisfechos (quieren agradecer)
- Muy insatisfechos (quieren quejarse)
- Los moderados ignoran la encuesta
Conclusion real: El NPS de 65 representa a los clientes con opiniones fuertes. No sabemos que piensa el 92% silencioso.
Error 3: Ignorar o mal manejar outliers
Que son los outliers
Los outliers son valores atipicos que difieren significativamente del resto de los datos.
El dilema de los outliers
- Eliminarlos puede ocultar informacion valiosa
- Incluirlos puede distorsionar el analisis
- La decision correcta depende del contexto
Tipos de outliers
1. Errores de datos
- Errores de captura o digitacion
- Problemas de sistema
- Deben corregirse o eliminarse
2. Eventos extraordinarios
- Black Friday, crisis, lanzamientos
- Legitimos pero atipicos
- Analizar por separado
3. Señales importantes
- Comportamiento anomalo de clientes
- Fraude o problemas
- Deben investigarse, no eliminarse
4. Variacion natural extrema
- Parte normal de la distribucion
- Deben incluirse en el analisis
Ejemplo: Ventas diarias
Datos de ventas de 30 dias:
- 28 dias: Entre $8K y $12K
- 1 dia: $45K (Black Friday)
- 1 dia: $500 (error de sistema)
Opciones de analisis:
| Enfoque | Resultado | Cuando es apropiado |
|---|---|---|
| Incluir todo | Promedio distorsionado | Casi nunca |
| Eliminar ambos outliers | Promedio $10K | Para entender operacion "normal" |
| Eliminar error, mantener BF | Promedio $11.5K | Para proyeccion anual |
| Analizar BF por separado | Entender evento especial | Para planificar promociones |
Framework para manejar outliers
Paso 1: Identificar
- Valores muy alejados del resto?
- Usando reglas estadisticas (ej: 3 desviaciones estandar) o juicio experto
Paso 2: Investigar
- Es error de datos? Corregir o eliminar
- Es evento conocido? Documentar
- Es anomalia inexplicable? Investigar
Paso 3: Decidir
- Cual es el objetivo del analisis?
- Incluir o excluir segun proposito
- DOCUMENTAR la decision
Paso 4: Comunicar
- Siempre reportar que se hizo con outliers
- Mostrar resultados con y sin outliers si es relevante
Ejemplo empresarial: Tiempo de cierre de ventas
Datos de 100 oportunidades cerradas:
- 95 oportunidades: Entre 15 y 45 dias
- 5 oportunidades: Entre 180 y 365 dias
Preguntas a investigar:
- Las 5 oportunidades lentas, son del mismo tipo? (ej: Enterprise vs SMB)
- Hubo problemas identificables? (ej: decision de presupuesto anual)
- Son realmente comparables con las otras 95?
Posibles conclusiones:
- Si son Enterprise: Reportar ciclos separados por segmento
- Si son anomalias: Excluir del promedio normal
- Si son señal de problema: Investigar y resolver
Combinacion de errores: Caso integrado
Situacion presentada: "El nuevo feature tiene 90% de satisfaccion, el doble que el producto base (45%)."
Analisis critico:
Error de muestra:
- Nuevo feature: 20 respuestas
- Producto base: 2,000 respuestas
- 20 respuestas son muy pocas para concluir
Error de representatividad:
- Quienes usan el nuevo feature? Early adopters entusiastas
- Son comparables con los usuarios generales del producto base?
Error de promedio:
- El 45% del producto base, es promedio o mediana?
- Puede estar arrastrado por usuarios de segmentos problematicos
Conclusion: No se puede concluir que el feature tenga mejor satisfaccion. Muestras incomparables, tamaños muy diferentes, poblaciones distintas.
Checklist anti-errores estadisticos
Antes de aceptar una conclusion numerica, verifica:
Sobre promedios:
- El promedio y la mediana son similares?
- Si son muy diferentes, cual se esta reportando?
- Hay valores extremos que distorsionan?
Sobre muestras:
- Cual es el tamaño de muestra?
- Es suficientemente grande para el analisis?
- La muestra representa la poblacion de interes?
- Quienes estan excluidos de la muestra?
Sobre outliers:
- Se identificaron valores atipicos?
- Se investigo su origen?
- Se documento que se hizo con ellos?
- La conclusion cambia si los incluyes/excluyes?
Frases de alerta que debes cuestionar
| Frase | Pregunta a hacer |
|---|---|
| "El promedio es..." | "Cual es la mediana? Hay extremos?" |
| "El X% de usuarios..." | "De cuantos usuarios estamos hablando?" |
| "Basado en datos de..." | "Esa muestra representa a quien nos interesa?" |
| "Eliminamos algunos outliers" | "Cuales, por que, y cambia la conclusion?" |
| "Es estadisticamente significativo" | "Con que nivel de confianza? Cual es el efecto real?" |
Ejercicio practico
Identifica el error estadistico en cada caso:
Caso 1: "Nuestros clientes tienen un ingreso promedio de $150K anuales." (El rango va de $30K a $5M, con la mayoria entre $40K-$80K)
Caso 2: "El nuevo proceso redujo errores 50%." (Antes: 4 errores en 100 casos. Despues: 2 errores en 50 casos)
Caso 3: "Eliminamos a los 'super usuarios' del analisis porque distorsionaban los datos." (Los super usuarios son el 5% pero generan el 40% de los ingresos)
Caso 4: "La encuesta muestra 95% de satisfaccion." (Encuesta enviada solo a clientes que hicieron una compra en los ultimos 30 dias)
Puntos clave de esta leccion
- El promedio puede engañar cuando hay valores extremos; considera la mediana
- Muestras pequeñas producen resultados inestables que pueden ser solo ruido
- Las muestras deben representar la poblacion de interes, no solo ser grandes
- Los outliers no deben eliminarse automaticamente; requieren investigacion
- Siempre pregunta: "Como cambiaria la conclusion con diferentes decisiones metodologicas?"
Proxima leccion
En la siguiente leccion integraremos todo lo aprendido en un framework de pensamiento critico con datos: como cuestionar analisis de manera constructiva y tomar mejores decisiones.
Quiz de comprension
- Cuando deberiamos usar la mediana en lugar del promedio?
- Por que una muestra grande no garantiza resultados confiables?
- En que situaciones es apropiado excluir outliers del analisis?
- Que preguntas deberias hacer cuando te reportan un porcentaje?
Respuestas del ejercicio:
- Promedio engañoso: La mayoria gana $40-80K pero el promedio es $150K por los ingresos altos extremos. La mediana seria mas representativa.
- Muestra pequeña: De 4 a 2 errores puede ser azar. Ademas, la muestra post es la mitad del tamaño.
- Outliers mal manejados: Los "super usuarios" son criticos para el negocio. Excluirlos oculta informacion vital.
- Muestra no representativa: Solo clientes recientes. No representa a clientes inactivos o insatisfechos que no compran.
Completaste esta leccion?
Marca esta leccion como completada. Tu progreso se guardara en tu navegador.