Correlación no es causalidad
El error más común y costoso en análisis de datos.
Este es, sin duda, el error mas costoso y frecuente en el analisis de datos empresariales. Confundir correlacion con causalidad ha llevado a decisiones millonarias erroneas, campanas de marketing fallidas y estrategias de negocio contraproducentes.
En esta leccion, aprenderemos a distinguir claramente entre ambos conceptos y desarrollaremos un marco mental para evitar caer en esta trampa.
Por que este error es tan peligroso
Imagina esta situacion: Tu equipo de analytics descubre que los clientes que compran el producto A tambien tienden a comprar el producto B. La conclusion inmediata es "debemos promocionar A para aumentar ventas de B". Se invierte un presupuesto significativo en la campana... y no funciona.
El problema: Que dos cosas ocurran juntas no significa que una cause la otra.
El costo real de confundir correlacion con causalidad
| Tipo de decision | Error tipico | Costo potencial |
|---|---|---|
| Marketing | Invertir en canal equivocado | 20-40% del presupuesto desperdiciado |
| Producto | Agregar features que no generan valor | 6-12 meses de desarrollo perdido |
| RRHH | Contratar perfil incorrecto | Costo de rotacion (1.5-2x salario) |
| Operaciones | Cambiar proceso que no era el problema | Ineficiencia sostenida |
Que es la correlacion
La correlacion mide la relacion estadistica entre dos variables. Cuando dos cosas tienden a moverse juntas (ambas suben o ambas bajan), decimos que estan correlacionadas.
Tipos de correlacion
Correlacion positiva: Cuando una variable aumenta, la otra tambien tiende a aumentar.
- Ejemplo: Temperatura y ventas de helados
- Ejemplo: Horas de estudio y calificaciones
Correlacion negativa: Cuando una variable aumenta, la otra tiende a disminuir.
- Ejemplo: Precio y demanda (en productos elasticos)
- Ejemplo: Distancia al trabajo y satisfaccion laboral
Sin correlacion: Las variables no muestran patron conjunto.
- Ejemplo: Color de ojos y desempeno laboral
- Ejemplo: Numero de zapato y salario
Como se mide la correlacion
El coeficiente de correlacion (r) va de -1 a +1:
| Valor de r | Interpretacion |
|---|---|
| +0.7 a +1.0 | Correlacion positiva fuerte |
| +0.4 a +0.69 | Correlacion positiva moderada |
| +0.1 a +0.39 | Correlacion positiva debil |
| -0.1 a +0.1 | Sin correlacion significativa |
| -0.1 a -0.39 | Correlacion negativa debil |
| -0.4 a -0.69 | Correlacion negativa moderada |
| -0.7 a -1.0 | Correlacion negativa fuerte |
Que es la causalidad
La causalidad implica que un evento (la causa) produce directamente otro evento (el efecto). Para establecer causalidad, necesitamos evidencia mucho mas solida que una simple correlacion.
Los tres requisitos de la causalidad
Para afirmar que A causa B, debemos demostrar:
- Asociacion: A y B estan relacionados (correlacionados)
- Precedencia temporal: A ocurre antes que B
- Eliminacion de alternativas: No hay otra variable (C) que explique la relacion
Por que la correlacion no implica causalidad
Existen varias situaciones donde dos variables estan correlacionadas pero no existe relacion causal directa:
1. Variable oculta (Confounding)
Dos variables parecen relacionadas porque ambas son causadas por una tercera variable que no estamos observando.
Ejemplo clasico:
- Observacion: Las ciudades con mas iglesias tienen mas crimenes
- Conclusion erronea: Las iglesias causan crimen
- Realidad: Ambas cosas correlacionan con el tamano de la poblacion (variable oculta)
Ejemplo de negocios:
- Observacion: Los empleados que usan el gimnasio corporativo tienen mejor desempeno
- Conclusion tentadora: El gimnasio mejora el desempeno
- Variable oculta probable: La motivacion personal. Empleados mas motivados hacen ambas cosas
2. Causalidad inversa
A veces asumimos que A causa B, cuando en realidad B causa A.
Ejemplo:
- Observacion: Las empresas con mas capacitacion tienen mejores resultados
- Conclusion tentadora: La capacitacion causa mejores resultados
- Realidad alternativa: Las empresas exitosas tienen mas recursos para invertir en capacitacion
Ejemplo de negocios:
- Observacion: Los clientes con app movil gastan mas
- Conclusion tentadora: La app aumenta el gasto
- Causalidad inversa: Los clientes que mas gastan estan mas motivados a descargar la app
3. Coincidencia (Correlacion espuria)
A veces dos variables correlacionan por puro azar, especialmente cuando buscamos en conjuntos grandes de datos.
Ejemplos famosos de correlaciones espurias:
- El consumo de queso per capita correlaciona con muertes por enredarse en sabanas
- El numero de peliculas de Nicolas Cage correlaciona con ahogamientos en piscinas
- Las ventas de helados correlacionan con los ataques de tiburones
Estos ejemplos absurdos ilustran un punto serio: si buscas suficientes correlaciones, encontraras algunas falsas.
Casos reales de confusion correlacion-causalidad en negocios
Caso 1: El mito del email matutino
Situacion: Una empresa descubrio que los empleados que envian emails antes de las 7am tienen 40% mejor desempeno.
Decision erronea: Implementar politica de llegar temprano.
La realidad: Los empleados de alto desempeno tienden a ser madrugadores por naturaleza. Obligar a todos a madrugar no mejoro el desempeno; solo genero resentimiento.
Caso 2: El espejismo del engagement en redes
Situacion: Los posts con mas emojis generan mas engagement.
Decision erronea: Agregar emojis a todos los posts.
La realidad: Los posts mas autenticos y emocionales naturalmente usan mas emojis Y generan mas engagement. Agregar emojis artificialmente no genero el mismo efecto.
Caso 3: El premium que no convierte
Situacion: Los usuarios premium tienen 5x mayor retencion.
Decision tentadora: Convertir a todos en premium para aumentar retencion.
La realidad: Los usuarios que ya estan muy comprometidos son quienes deciden pagar premium. El compromiso causa ambas cosas (retencion y disposicion a pagar), no el status premium.
Framework para evaluar causalidad: Las 5 preguntas
Antes de asumir que una correlacion implica causalidad, hazte estas preguntas:
Pregunta 1: Hay precedencia temporal?
"El supuesto efecto ocurre despues de la supuesta causa?"
Si B ocurre antes que A, es imposible que A cause B.
Como verificarlo: Ordena tus datos cronologicamente. Analiza secuencias de eventos.
Pregunta 2: Cual podria ser una variable oculta?
"Existe algo que pueda estar causando ambas variables?"
Ejercicio mental: Lista 3 posibles variables ocultas para cualquier correlacion que encuentres.
Pregunta 3: Es posible la causalidad inversa?
"Podria ser que B cause A en lugar de A cause B?"
Test: Argumenta la relacion en ambas direcciones. Si ambos argumentos son plausibles, necesitas mas evidencia.
Pregunta 4: Existe un mecanismo causal logico?
"Tiene sentido que A cause B? Cual seria el mecanismo?"
Si no puedes explicar COMO A causaria B, la relacion probablemente no es causal.
Pregunta 5: Se ha validado con experimento controlado?
"Se ha probado esta relacion en un experimento donde se controlen otras variables?"
La unica forma definitiva de establecer causalidad es mediante experimentos controlados (A/B tests, ensayos clinicos, etc.).
Como establecer causalidad correctamente
El estandar de oro: Experimentos controlados
Para probar que A causa B:
- Grupo de tratamiento: Recibe A
- Grupo de control: No recibe A
- Asignacion aleatoria: Evita sesgos de seleccion
- Medicion: Compara resultados de B en ambos grupos
Ejemplo: Para probar que un nuevo onboarding aumenta retencion:
- Grupo A: Nuevo onboarding
- Grupo B: Onboarding actual
- Asignacion aleatoria de nuevos usuarios
- Medir retencion a 30 dias
Cuando no puedes experimentar
A veces los experimentos no son eticos o practicos. En esos casos:
- Busca "experimentos naturales": Situaciones donde el cambio ocurrio sin tu intervencion
- Usa multiples fuentes de evidencia: Si la relacion aparece en diferentes contextos, es mas probable que sea causal
- Controla estadisticamente por variables confusoras conocidas
- Se conservador: Reporta correlaciones como correlaciones, no como causalidades
Checklist para reportar hallazgos
Antes de presentar un hallazgo de datos a stakeholders, verifica:
- He identificado si es correlacion o causalidad comprobada?
- He buscado posibles variables ocultas?
- He considerado la causalidad inversa?
- El mecanismo causal tiene sentido logico?
- He usado lenguaje apropiado ("asociado con" vs "causa")?
- He mencionado las limitaciones del analisis?
El lenguaje importa: Como comunicar correctamente
Frases que implican causalidad (usar con precaucion)
- "X causa Y"
- "X produce Y"
- "X genera Y"
- "Debido a X, ocurre Y"
- "X es responsable de Y"
Frases que indican correlacion (mas seguras)
- "X esta asociado con Y"
- "X y Y tienden a ocurrir juntos"
- "Existe una relacion entre X e Y"
- "Cuando observamos X, tambien observamos Y"
- "X correlaciona con Y"
Ejercicio practico
Analiza las siguientes afirmaciones y determina si la conclusion es valida:
Afirmacion 1: "Los clientes que leen nuestro blog compran 2x mas. Conclusion: Debemos invertir mas en el blog para aumentar ventas."
Afirmacion 2: "Las sucursales con mejor clima laboral tienen mayores ventas. Conclusion: Mejorar el clima laboral aumentara las ventas."
Afirmacion 3: "Despues de implementar el nuevo CRM, las ventas aumentaron 15%. Conclusion: El CRM causo el aumento."
Para cada una, preguntate:
- Es correlacion o causalidad?
- Cual podria ser una variable oculta?
- Es posible la causalidad inversa?
- Que experimento probaria la relacion causal?
Puntos clave de esta leccion
- Correlacion significa que dos variables se mueven juntas; causalidad significa que una produce la otra
- La confusion entre ambas es el error analitico mas costoso en negocios
- Variables ocultas, causalidad inversa y coincidencias pueden crear correlaciones falsas
- La unica forma definitiva de probar causalidad es mediante experimentos controlados
- Usar lenguaje preciso protege tu credibilidad y previene decisiones erroneas
Proxima leccion
En la siguiente leccion aprenderemos a hacer las preguntas correctas: un framework de 5 preguntas que debes hacer ante cualquier analisis de datos para extraer insights accionables.
Quiz de comprension
- Por que dos variables pueden estar correlacionadas sin que una cause la otra?
- Cuales son los tres requisitos para establecer causalidad?
- Como es un "experimento natural" y cuando es util?
- Por que el lenguaje que usamos para reportar hallazgos es tan importante?
Completaste esta leccion?
Marca esta leccion como completada. Tu progreso se guardara en tu navegador.