Lección 10 de 28Pensamiento Analítico

Correlación no es causalidad

El error más común y costoso en análisis de datos.

15 minutos

Este es, sin duda, el error mas costoso y frecuente en el analisis de datos empresariales. Confundir correlacion con causalidad ha llevado a decisiones millonarias erroneas, campanas de marketing fallidas y estrategias de negocio contraproducentes.

En esta leccion, aprenderemos a distinguir claramente entre ambos conceptos y desarrollaremos un marco mental para evitar caer en esta trampa.

Por que este error es tan peligroso

Imagina esta situacion: Tu equipo de analytics descubre que los clientes que compran el producto A tambien tienden a comprar el producto B. La conclusion inmediata es "debemos promocionar A para aumentar ventas de B". Se invierte un presupuesto significativo en la campana... y no funciona.

El problema: Que dos cosas ocurran juntas no significa que una cause la otra.

El costo real de confundir correlacion con causalidad

Tipo de decision Error tipico Costo potencial
Marketing Invertir en canal equivocado 20-40% del presupuesto desperdiciado
Producto Agregar features que no generan valor 6-12 meses de desarrollo perdido
RRHH Contratar perfil incorrecto Costo de rotacion (1.5-2x salario)
Operaciones Cambiar proceso que no era el problema Ineficiencia sostenida

Que es la correlacion

La correlacion mide la relacion estadistica entre dos variables. Cuando dos cosas tienden a moverse juntas (ambas suben o ambas bajan), decimos que estan correlacionadas.

Tipos de correlacion

Correlacion positiva: Cuando una variable aumenta, la otra tambien tiende a aumentar.

  • Ejemplo: Temperatura y ventas de helados
  • Ejemplo: Horas de estudio y calificaciones

Correlacion negativa: Cuando una variable aumenta, la otra tiende a disminuir.

  • Ejemplo: Precio y demanda (en productos elasticos)
  • Ejemplo: Distancia al trabajo y satisfaccion laboral

Sin correlacion: Las variables no muestran patron conjunto.

  • Ejemplo: Color de ojos y desempeno laboral
  • Ejemplo: Numero de zapato y salario

Como se mide la correlacion

El coeficiente de correlacion (r) va de -1 a +1:

Valor de r Interpretacion
+0.7 a +1.0 Correlacion positiva fuerte
+0.4 a +0.69 Correlacion positiva moderada
+0.1 a +0.39 Correlacion positiva debil
-0.1 a +0.1 Sin correlacion significativa
-0.1 a -0.39 Correlacion negativa debil
-0.4 a -0.69 Correlacion negativa moderada
-0.7 a -1.0 Correlacion negativa fuerte

Que es la causalidad

La causalidad implica que un evento (la causa) produce directamente otro evento (el efecto). Para establecer causalidad, necesitamos evidencia mucho mas solida que una simple correlacion.

Los tres requisitos de la causalidad

Para afirmar que A causa B, debemos demostrar:

  1. Asociacion: A y B estan relacionados (correlacionados)
  2. Precedencia temporal: A ocurre antes que B
  3. Eliminacion de alternativas: No hay otra variable (C) que explique la relacion

Por que la correlacion no implica causalidad

Existen varias situaciones donde dos variables estan correlacionadas pero no existe relacion causal directa:

1. Variable oculta (Confounding)

Dos variables parecen relacionadas porque ambas son causadas por una tercera variable que no estamos observando.

Ejemplo clasico:

  • Observacion: Las ciudades con mas iglesias tienen mas crimenes
  • Conclusion erronea: Las iglesias causan crimen
  • Realidad: Ambas cosas correlacionan con el tamano de la poblacion (variable oculta)

Ejemplo de negocios:

  • Observacion: Los empleados que usan el gimnasio corporativo tienen mejor desempeno
  • Conclusion tentadora: El gimnasio mejora el desempeno
  • Variable oculta probable: La motivacion personal. Empleados mas motivados hacen ambas cosas

2. Causalidad inversa

A veces asumimos que A causa B, cuando en realidad B causa A.

Ejemplo:

  • Observacion: Las empresas con mas capacitacion tienen mejores resultados
  • Conclusion tentadora: La capacitacion causa mejores resultados
  • Realidad alternativa: Las empresas exitosas tienen mas recursos para invertir en capacitacion

Ejemplo de negocios:

  • Observacion: Los clientes con app movil gastan mas
  • Conclusion tentadora: La app aumenta el gasto
  • Causalidad inversa: Los clientes que mas gastan estan mas motivados a descargar la app

3. Coincidencia (Correlacion espuria)

A veces dos variables correlacionan por puro azar, especialmente cuando buscamos en conjuntos grandes de datos.

Ejemplos famosos de correlaciones espurias:

  • El consumo de queso per capita correlaciona con muertes por enredarse en sabanas
  • El numero de peliculas de Nicolas Cage correlaciona con ahogamientos en piscinas
  • Las ventas de helados correlacionan con los ataques de tiburones

Estos ejemplos absurdos ilustran un punto serio: si buscas suficientes correlaciones, encontraras algunas falsas.

Casos reales de confusion correlacion-causalidad en negocios

Caso 1: El mito del email matutino

Situacion: Una empresa descubrio que los empleados que envian emails antes de las 7am tienen 40% mejor desempeno.

Decision erronea: Implementar politica de llegar temprano.

La realidad: Los empleados de alto desempeno tienden a ser madrugadores por naturaleza. Obligar a todos a madrugar no mejoro el desempeno; solo genero resentimiento.

Caso 2: El espejismo del engagement en redes

Situacion: Los posts con mas emojis generan mas engagement.

Decision erronea: Agregar emojis a todos los posts.

La realidad: Los posts mas autenticos y emocionales naturalmente usan mas emojis Y generan mas engagement. Agregar emojis artificialmente no genero el mismo efecto.

Caso 3: El premium que no convierte

Situacion: Los usuarios premium tienen 5x mayor retencion.

Decision tentadora: Convertir a todos en premium para aumentar retencion.

La realidad: Los usuarios que ya estan muy comprometidos son quienes deciden pagar premium. El compromiso causa ambas cosas (retencion y disposicion a pagar), no el status premium.

Framework para evaluar causalidad: Las 5 preguntas

Antes de asumir que una correlacion implica causalidad, hazte estas preguntas:

Pregunta 1: Hay precedencia temporal?

"El supuesto efecto ocurre despues de la supuesta causa?"

Si B ocurre antes que A, es imposible que A cause B.

Como verificarlo: Ordena tus datos cronologicamente. Analiza secuencias de eventos.

Pregunta 2: Cual podria ser una variable oculta?

"Existe algo que pueda estar causando ambas variables?"

Ejercicio mental: Lista 3 posibles variables ocultas para cualquier correlacion que encuentres.

Pregunta 3: Es posible la causalidad inversa?

"Podria ser que B cause A en lugar de A cause B?"

Test: Argumenta la relacion en ambas direcciones. Si ambos argumentos son plausibles, necesitas mas evidencia.

Pregunta 4: Existe un mecanismo causal logico?

"Tiene sentido que A cause B? Cual seria el mecanismo?"

Si no puedes explicar COMO A causaria B, la relacion probablemente no es causal.

Pregunta 5: Se ha validado con experimento controlado?

"Se ha probado esta relacion en un experimento donde se controlen otras variables?"

La unica forma definitiva de establecer causalidad es mediante experimentos controlados (A/B tests, ensayos clinicos, etc.).

Como establecer causalidad correctamente

El estandar de oro: Experimentos controlados

Para probar que A causa B:

  1. Grupo de tratamiento: Recibe A
  2. Grupo de control: No recibe A
  3. Asignacion aleatoria: Evita sesgos de seleccion
  4. Medicion: Compara resultados de B en ambos grupos

Ejemplo: Para probar que un nuevo onboarding aumenta retencion:

  • Grupo A: Nuevo onboarding
  • Grupo B: Onboarding actual
  • Asignacion aleatoria de nuevos usuarios
  • Medir retencion a 30 dias

Cuando no puedes experimentar

A veces los experimentos no son eticos o practicos. En esos casos:

  1. Busca "experimentos naturales": Situaciones donde el cambio ocurrio sin tu intervencion
  2. Usa multiples fuentes de evidencia: Si la relacion aparece en diferentes contextos, es mas probable que sea causal
  3. Controla estadisticamente por variables confusoras conocidas
  4. Se conservador: Reporta correlaciones como correlaciones, no como causalidades

Checklist para reportar hallazgos

Antes de presentar un hallazgo de datos a stakeholders, verifica:

  • He identificado si es correlacion o causalidad comprobada?
  • He buscado posibles variables ocultas?
  • He considerado la causalidad inversa?
  • El mecanismo causal tiene sentido logico?
  • He usado lenguaje apropiado ("asociado con" vs "causa")?
  • He mencionado las limitaciones del analisis?

El lenguaje importa: Como comunicar correctamente

Frases que implican causalidad (usar con precaucion)

  • "X causa Y"
  • "X produce Y"
  • "X genera Y"
  • "Debido a X, ocurre Y"
  • "X es responsable de Y"

Frases que indican correlacion (mas seguras)

  • "X esta asociado con Y"
  • "X y Y tienden a ocurrir juntos"
  • "Existe una relacion entre X e Y"
  • "Cuando observamos X, tambien observamos Y"
  • "X correlaciona con Y"

Ejercicio practico

Analiza las siguientes afirmaciones y determina si la conclusion es valida:

Afirmacion 1: "Los clientes que leen nuestro blog compran 2x mas. Conclusion: Debemos invertir mas en el blog para aumentar ventas."

Afirmacion 2: "Las sucursales con mejor clima laboral tienen mayores ventas. Conclusion: Mejorar el clima laboral aumentara las ventas."

Afirmacion 3: "Despues de implementar el nuevo CRM, las ventas aumentaron 15%. Conclusion: El CRM causo el aumento."

Para cada una, preguntate:

  1. Es correlacion o causalidad?
  2. Cual podria ser una variable oculta?
  3. Es posible la causalidad inversa?
  4. Que experimento probaria la relacion causal?

Puntos clave de esta leccion

  • Correlacion significa que dos variables se mueven juntas; causalidad significa que una produce la otra
  • La confusion entre ambas es el error analitico mas costoso en negocios
  • Variables ocultas, causalidad inversa y coincidencias pueden crear correlaciones falsas
  • La unica forma definitiva de probar causalidad es mediante experimentos controlados
  • Usar lenguaje preciso protege tu credibilidad y previene decisiones erroneas

Proxima leccion

En la siguiente leccion aprenderemos a hacer las preguntas correctas: un framework de 5 preguntas que debes hacer ante cualquier analisis de datos para extraer insights accionables.


Quiz de comprension

  1. Por que dos variables pueden estar correlacionadas sin que una cause la otra?
  2. Cuales son los tres requisitos para establecer causalidad?
  3. Como es un "experimento natural" y cuando es util?
  4. Por que el lenguaje que usamos para reportar hallazgos es tan importante?

Completaste esta leccion?

Marca esta leccion como completada. Tu progreso se guardara en tu navegador.