Zentricx – Going Beyond Data-Driven → Big data y las trampas de las correlaciones espurias

Big data y las trampas de las correlaciones espurias

En España, se estima que alrededor del 68% de las empresas industriales son consideradas "novatos digitales" o "seguidores digitales", lo que indica que aún no han adoptado completamente la digitalización en sus negocios y necesitan hacerlo para mejorar su competitividad. Al analizar grandes conjuntos de datos, se advierte sobre el peligro de encontrar correlaciones espurias, donde variables pueden parecer relacionadas sin tener un sentido real o donde una tercera variable podría estar influyendo. Por lo tanto, es fundamental interpretar los datos con cautela, recordando que la correlación no implica causalidad, y ser conscientes de cómo se construyen los gráficos y visualizaciones para evitar conclusiones erróneas.

Manuel Allegue
July 4, 2023

La velocidad del entorno puede llevarnos a caer en trampas estadísticas a la hora de interpretar los datos. Ante un volumen enorme de información, se requiere una mirada atenta, informada y no sesgada que permita una lectura más eficiente.

Las estimaciones señalan que el 68% de las empresas industriales españolas son “digital novices” o “digital followers”. Esto quiere decir, unas 130.000 empresas – la mayoría de menos de 10 empleados- aún tienen que meterse de lleno en la digitalización de sus negocios y mejorar su competitividad.

Ante un escenario donde se generan millones y millones de datos, quien pueda interpretar mejor esa información tiene una clara ventaja competitiva, dado que estará en mejores condiciones de tomar decisiones de negocios. Si Big Data es la puerta para alcanzar mejores resultados, también hay que poner el foco en cómo gestionarla.

Un punto muy importante al que me quiero referir en este sentido tiene que ver con el peligro de descubrir infinitas correlaciones en esos enormes conjuntos de datos. ¿Por qué existe un riesgo potencial? La alarma se enciende porque dada una gran cantidad de datos, es posible encontrar variables que se correlacionan incluso cuando no deberían. En bases de datos muy grandes, aparecen siempre correlaciones arbitrarias, no debidas necesariamente a la naturaleza de los datos, sino meramente debido a su volumen.

Primero vayamos a las definiciones: cuando hablamos de correlación nos referimos a que dos cosas varían juntas. Sin embargo, si bien la correlación implica asociación, no necesariamente implica causalidad. Esto se debe a que dos variables pueden estar relacionadas, pero una no ser causa de la otra. A la inversa, la causalidad implica asociación, pero no necesariamente correlación.

De manera que, las llamadas “correlaciones espurias”, relacionan dos variables que a un nivel matemático pueden tener sentido, pero que objetivamente (si la miramos desde una visión contextual más amplia o específica) no tienen ningún sentido o bien puede estar influyendo una tercera variable que no está siendo considerada en el análisis.

Los ejemplos para entender estos errores de interpretación de los datos son conocidos y ya célebres, desde “las cigüeñas traen los bebés” (basado en un fenómeno curioso del norte de Europa, en la época medieval, donde las parejas se casaban en el solsticio de verano y las cigüeñas regresaban de su migración desde África a la primavera siguiente, exactamente nueve meses después) hasta encontrar una relación entre el número mensual de ahogamientos en una playa con la cantidad de helados vendidos en el mismo período. ¿Son los helados la causa de mayores ahogamientos? No, pero las personas suelen comer más helados en los días calurosos, cuando también es más probable que vayan a nadar, es decir la temperatura es una tercera variable implicada en la consideración general.

Es importante tener en cuenta que puede existir una relación causal entre dos variables pero, aun así, la correlación no señala la dirección de la causalidad. El ejemplo claro de esto se ilustra con ejemplos como el vínculo entre los estilos de vida activos cómo “garantía” de un mejor funcionamiento cognitivo de las personas mayores. Hay evidencia que señala que la dirección causal es la opuesta: un funcionamiento cognitivo más alto puede resultar en un estilo de vida más activo.

Todas estas advertencias en términos de cómo interpretar los datos, se hacen aún más evidentes cuando hablamos de su visualización y de la necesidad de entender cómo se construyen los ejes y los interrogantes que guían la lectura de los gráficos y las propias visualizaciones. El objetivo es no caer en correlaciones erróneas y también poder adoptar este hábito al momento de aplicar estrategias de ciencias de datos en nuestras organizaciones.

Es muy útil en este sentido el sitio de Tyler Vigen, estudiante de criminología de Harvard. Virgin creó un programa cuyos algoritmos detectan correlaciones entre grupos de datos aleatorios que van desde lo más gracioso a lo más ridículo: encuentra relaciones entre el gasto en I+D de EE.UU. y el número de suicidios por ahorcamiento, estrangulamiento o asfixia a lo largo de una década; entre el consumo de queso per cápita y la cantidad de personas que fallecieron enredadas en las sábanas de su cama o el vínculo entre la edad promedio de Miss América con las muertes por uso de vaporizadores, u objetos calientes.

Imaginemos caer frecuentemente en este tipo de engaños al momento de analizar los datos del negocio: ¿Cuáles serían los resultados? Suena absurdo si lo llevamos a un extremo como el que plantea Virgin, pero este ejercicio extremo nos muestra que es mucho más común de lo que pensamos tropezarnos con estas trampas que la estadística y – mucho más el Big Data – nos pueden tender.

La velocidad del contexto nos puede llevar a buscar resultados cada vez más automáticos pero por el contrario, lo que necesitamos es hacer una pausa e interpretar los datos con más detenimiento desde una visión macro e informada.

Julio Cesar Blanco – 27 de julio del 2022