La definición de la escala de los datos tiene todo que ver con el contexto humano
Big Data es una combinación de enormes volúmenes de datos estructurados, semiestructurados y no estructurados que son demasiado complejos para ser analizados y procesados por las herramientas de software típicas para procesar, almacenar y analizar datos. Big Data también se puede definir utilizando las tres V: Volumen, Velocidad y Variedad. El volumen se refiere a la cantidad de datos generados cada segundo; velocidad significa la velocidad a la que se reciben y procesan los datos; y variedad se refiere a los diferentes formatos de datos.
Si algunos años atrás los datos solían significar documentos y papeles, tal vez con algunas fotos o videos, ahora significan mucho más que eso. Es casi imposible estimar la cantidad de datos que producimos. Se cree que cada día se generan casi 2,5 quintillones de bytes de datos, en virtud de que nos encontramos en la era digital, que incluye todos los datos web generados por correos electrónicos, apps, sitios web y plataformas sociales. Gracias al creciente número de dispositivos digitales y al crecimiento de internet de las cosas, esa cifra aumenta aún más.
Small Data por su lado, es una “parte” del Big Data, concretamente, sería como segmentar el Big Data en pequeñas dosis, “muchos Small Data” hacen posible el Big Data. Se trata de datos lo suficientemente pequeños como para almacenarse convenientemente en una sola máquina, particularmente servidores locales o una computadora portátil, y son fácilmente accesibles.
Big Data: ¿El “intratable”?
En el año 1989, el periodista Erik Larson utilizó por primera vez el término “Big Data” en los términos que actualmente conocemos, en un artículo donde buscó ver a futuro la relación del marketing y el uso que se le daría a los datos de los clientes.
Esos eran los años de la masividad de internet consolidándose, con el nacimiento de Google y próximos a los 2000s, década que vio nacer las empresas que generan y almacenan grandes cantidades de datos gestados de la colaboración y las redes sociales. El término se popularizó porque el volumen, velocidad y variedad de datos creció exponencialmente.
Ahora, quisiera detenerme en lo siguiente. Se suele argumentar que Big Data es “intratable” e “inabarcable”; sin embargo, creo que la pregunta correcta sería: “¿Para quién?”. Es preciso entender que “Big” o “Small” no es más que un concepto que se define en relación con el contexto.
Desde la escritura cuneiforme -el más antiguo sistema de escritura conocido- hasta los centros de datos modernos, los seres humanos siempre han recopilado información, pero: ¿Cuántos datos son “muchos” o “pocos”? ¿Cuál es el parámetro?
Existen expertos en Big Data que sitúan su historia desde mucho antes que 1989, incluso, hay quienes lo sitúan en el paleolítico, porque la clave está en pensarlo de manera relacional: ¿Qué implicaba la noción “muchos datos” para entonces? ¿Cuál era la forma que tomaban las “tres V”? Seguramente, tendría que ver con la capacidad de generar y recopilar información en ese momento. Con seguridad, no era -en términos conceptuales- lo mismo que lo que vino después, me refiero al creciente volumen de datos que se fue generando en los períodos históricos que siguieron, con las revoluciones industriales y el enorme impacto de la revolución digital. La noción “muchos” o “pocos” datos debió mutar necesariamente en cada periodo histórico. Big Data, entonces, tiene menos que ver con una equis cantidad de datos sino con el contexto humano y la capacidad de generar, procesar y gestionar esa información.
El punto es que una buena recomendación para iniciarse en el mundo del Big Data es comenzar por Small Data, aplicada por ejemplo al área comercial, ventas o producción. Lanzarse a Big Data requiere un aprendizaje y un entrenamiento que Small Data puede brindar, de lo contrario, sería cómo lanzarse al océano sin saber nadar cuando el camino más lógico sería arrancar por una piscina.
Julio Cesar Blanco – 12 de septiembre del 2022