Big Data

Qué es el Big Data y cómo funciona

Qué es el Big Data, cuál es su historia, para qué sirve, cuáles son sus ventajas o cómo funciona. Los expertos de B12 resuelven tus dudas.

Por Redacción España, el 24/06/2019

auto ¿Te ha gustado nuestro artículo? ¡Vota!

Los términos Big Data e Inteligencia Artificial copan las conversaciones en el ámbito empresarial. Gracias a su auge, la carrera de matemáticas ha disparado su empleabilidad hasta el 100% y la nota de corte para entrar en la facultad se situó en 2018 en 12,68 sobre 14. La información es poder, la óptima gestión de esa información es venta, la venta es éxito. Te explicamos qué es el Big Data, cómo funciona y cómo impacta en el crecimiento de las compañías.


Big Data: definición

Big Data es la gestión y el análisis masivo de datos a un coste accesible: un conjunto de datos estructurados, semiestructurados y no estructurados, de gran volumen, complejos y de diferente índole que requieren una serie de aplicaciones informáticas concretas y específicas para su procesamiento y uso. También recibe otros nombres, como datos masivos o a gran escala, macrodatos o inteligencia de datos.

Explicado de manera simplificada, se trata de un enorme batiburrillo de datos. Ese batiburrillo es tan amplio y tan diverso que, para gestionarlo, no se pueden utilizar las herramientas de procesamiento de datos tradicionales. Digamos que los software de antaño se quedan cortos o su coste era prohibitivo para casi todas las organizaciones. El Big Data precisa herramientas especiales que almacenan y ordenan los datos, les dan sentido y hacen que sean útiles, esto es, los convierte en información valiosa.

El Big Data engloba:

  • Un conjunto masivo de datos.
  • Las herramientas donde se almacenan esos datos.
  • Los software con los que se procesan esos datos.
  • Cómo se aplican esos datos: qué se hace con esa información una vez procesada.

En el año 2001, el analista de Gartner Doug Laney definió el Big Data en base a tres factores: variedad, volumen y velocidad. Las 3Vs que definen la inteligencia de datos.

Velocidad

Los datos llegan a una gran velocidad. Los lagos de datos son alimentados continuamente con más datos. El Big Data los recibe y analiza en tiempo real, creando algoritmos de procesamiento que cada vez son más complejos, precisamente para gestionar la información más rápido.

Dado que los datos llegan continuamente, la enorme masa que compone el lago de datos está en un constante cambio, por lo que requieren un análisis continuo.

Volumen

Como emitimos datos a todas horas, las bases de datos crecen sin parar, por lo que alcanzan volúmenes inimaginables, tanto que, normalmente, se miden en unidades de almacenamiento a partir de los terabytes. Un terabyte equivale a 1.099.511.627.776 bytes; un petabyte, a 1.125.899.906.842.624; un exabyte, a 1.152.921.504.606.846.976.

Variedad

Los datos tienen diferentes formatos y proceden de fuentes diversas. Pueden ser producidos por personas (el rastro que dejamos al interactuar en internet); pueden provenir de fuentes biométricas (desde una huella dactilar hasta un acceso por reconocimiento facial, por ejemplo); pueden ser generados por máquinas (intercambios de datos machine to machine), entre otras opciones.

Este es uno de los grandes puntos fuertes del Big Data. Mientras la analítica convencional empleaba datos estructurados, ahora también se usan datos no estructurados. Los datos estructurados suelen provenir de bases de datos relacionales, archivos de texto ordenados y fácilmente procesables.

Los no estructurados carecen de una estructura interna que se pueda identificar, esto es, están desordenados y no tienen interconexión. Estos datos por sí solos no tienen valor. Adquieren su valor una vez son identificados y organizados.


A las 3Vs de Laney se han ido añadiendo otras características para definir el Big Data: veracidad, visualización, valor y variabilidad.

Veracidad

Conocer la veracidad de los datos con los que trabajamos es fundamental para que su aplicación sea correcta. El Big Data debe eliminar las inexactitudes al recopilar los datos para que las predicciones que se hagan en base a ellos sean lo más acertadas posible, es decir, seleccionar los datos de alta calidad y descartar los que impliquen más imprevisibilidad.

Visualización

Los datos requieren unas herramientas de visualización óptimas, que nos muestren los resultados del procesamiento de forma clara y nos permitan hacer un análisis y tomar decisiones en base a ellos.

Valor

Los datos deben tener un valor. De la enorme cantidad de datos en constante crecimiento de la que hablamos hay que extraer aquellos que tengan valor para un uso concreto, los que se puedan rentabilizar en un contexto en particular.

Variabilidad

Los datos son variables, es decir, susceptibles de someterse a diferentes interpretaciones. Por eso, son necesarios los métodos estadísticos que nos ayuden a interpretarlos correctamente y, así, a emplearlos para hacer predicciones acertadas.


Historia del Big Data

Precedentes Big Data

Las predecesoras del Big Data fueron las primeras bases de datos, que se desarrollaron entre los 60 y los 70. A partir de los 70, empezaron a surgir sistemas como Teradata, precedentes a lo que ahora llamamos Big Data. Sin embargo, presentaban dos problemas:

  • Su elevado coste los hacía accesibles solo a compañías muy grandes.
  • Ingestaban solamente datos estructurados, con lo que era necesario desarrollar preprocesos ad-hoc para estructurar la información.

Los sistemas de inteligencia de datos que preceden de modo inmediato al Big Data, se desarrollaron desde los 80 hasta la aparición del Big Data. Se denominaban Business Intelligence y se basaban en un almacenamiento centralizado y estructurado de todos los datos relativos a los procesos de negocio de la organización, enriquecidos con datos externos (Data Warehouse). Esencialmente, realizaban las mismas funciones que los sistemas Big Data actuales para las necesidades existentes en ese momento.

Con la llegada de la era digital, las cosas cambiaron. La forma en la que navegamos por internet (las páginas que visitamos, el tiempo que estamos en ellas, los botones en los que clicamos, etcétera), la interactuación con nuestras redes sociales, con las newsletters que recibimos, las compras online que realizamos… todo eso deja un rastro y ese rastro se convierte en datos.

No obstante, desde la llegada de la world wide web en la década de los 90, las trabas en este campo residían en cómo almacenar esos datos y en cómo gestionar esos datos. Dada la magnitud de la información, era necesario el desarrollo de nuevas herramientas. La respuesta llegó con los nuevos gestores de data y los sistemas de almacenamiento en la nube.

Las tecnologías Big Data actuales resuelven estos retos. Las nuevas tecnologías permiten:

  • Un menor coste de desarrollo, almacenamiento y procesamiento.
  • Una mayor facilidad y velocidad de ingesta de todo tipo de datos (estructurados, semiestructurados y no estructurados), tanto en modo programado por lotes como en tiempo real.

Si a esto añadimos el cambio que introducen los sistemas Big Data en clouds públicas (como Amazon Web Services, Microsoft Azure o Google Cloud), que permiten pasar de un modelo de Inversión (CAPEX) a un modelo de Consumo (OPEX) mediante el estricto pago por uso de servicios gestionados de infraestructura y software sin coste de inversión inicial, estamos hablando de una verdadera revolución en la democratización del acceso a la Inteligencia de Negocio.


Procesamiento de datos

El gran punto de inflexión en el procesamiento de datos llegó de la mano de Google. En 2004, el gigante lanzó MapReduce. Se trata de un modelo de programación que permite la gestión de grandes volúmenes de datos gracias a la computación en paralelo, que permitía reducir el tiempo necesario para procesar la información.

Esta fue la solución de la empresa para procesar todos los datos de todas las webs indexadas y calcular el Page Rank, es decir, el ranking de resultados que aparece cada vez que hacemos una consulta en el buscador, y todo ello a un coste razonable.

Antes de eso, Google había tanteado primero a los grandes proveedores de hardware y había valorado lo que le costaría montar las máquinas, redes… necesarios para gestionar el volumen ingente de datos que necesitaban procesar y almacenar. Ante la magnitud de los costes, el buscador decidió investigar por su cuenta. Como casi siempre, fue un problema de ROI lo que impulsó a Google a crear esta nueva tecnología.

El 1 de abril de 2006 se dio un paso más en este terreno, con el lanzamiento de Hadoop, de Mike Cafarella y Doug Cutting. Se trata de un software de trabajo de licencia libre que permite que las aplicaciones trabajen con grandes volúmenes de datos, un proyecto de la fundación Apache, especializada en desarrollos colaborativos de código abierto.


Almacenamiento de datos

El mismo año del lanzamiento de MapReduce, Google comenzó a desarrollar otro gestor al que llamó Cloud Bigtable, un sistema de base de datos NoSQL constituido dentro del Google File System, que permite almacenar datos en la nube. Sus antecesores se habían lanzado a finales del siglo XX, pero no eran capaces de llegar a esos volúmenes.

Los expertos en la materia lo consideran predecesor de Cassandra, HBase y otros sistemas de almacenamiento de datos NoSQL, que son los que se utilizan en la actualidad para trabajar con grandes volúmenes de datos.


Para qué sirve el Big Data

Big Data

El análisis de un gran volumen de datos mediante técnicas de Ciencia de Datos o Data Science permite hacer predicciones de comportamiento certeras. Las empresas emplean los resultados, mayoritariamente, para adelantarse a posibles problemas y para detectar qué necesitan sus clientes actuales y sus clientes potenciales.

Al final, la inclusión del Big Data combinado con la Ciencia de Datos deriva en negocios más eficientes, porque podemos adelantarnos y dar las respuestas antes incluso de que lleguen preguntas.

En este contexto, una de las características del Big Data es que es un habilitador tecnológico para la Ciencia de Datos. Es decir, que permite que los modelos de Ciencia de Datos se construyan sobre un volumen virtualmente infinito de datos. Al mismo tiempo, permite procesar y entrenar los modelos de modo mucho más rápido.

De este modo, conseguimos modelos mucho más acertados y en mucho menos tiempo. Esta velocidad mayor redunda en un aspecto clave en Ciencia de Datos e Innovación, como es la aceleración en la Innovación, al poder fallar rápido y con un coste mínimo (Fail Fast).

Como el Big Data está en constante actualización (recibiendo, almacenando y procesando datos en tiempo real), hay un aprendizaje continuo. El volumen de datos con los que se alimentan las predicciones es cada vez mayor, por lo que éstas son cada vez más acertadas y están continuamente supeditadas a posibles cambios.


Usos del Big Data

Las empresas emplean la información que extraen de los datos procesados con fines comerciales, pero también se pueden utilizar para alcanzar otros objetivos. Por ejemplo, para ganar unas elecciones. El Big Data permite, entre otras cosas, conocer cuáles son las preocupaciones de los indecisos, de modo que puedas darles respuesta durante la campaña electoral.

Big Data elecciones Obama

El primer candidato a unas presidenciales que hizo uso de esta tecnología durante su campaña fue Barack Obama. El expresidente de Estados Unidos llegó a la Casa Blanca empleando estos mecanismos predictivos que le permitieron segmentar a sus posibles votantes. Gracias a esto, pudo:

  • Conocer los mensajes que enviarles: qué necesitaban oír sus votantes potenciales.
  • Conocer el formato de esos mensajes: mítines, carteles, publicidad en medios de comunicación, reuniones con determinados colectivos, etcétera.
  • Conocer la vía para que sus mensajes les llegaran: conocer a los votantes potenciales implica saber qué revistas leen, qué programas de televisión ven, en qué páginas navegan… Así, la inversión publicitaria es mucho más acertada. Por ejemplo, Obama encontró un segmento de seguidores de The Walking Dead e incluyó anuncios en las pausas para publicidad de la famosa serie.
  • Conocer quiénes eran los indecisos, por qué aún no tenían claro a quién votar y cómo convencerles.
  • Conocer las debilidades del rival: a qué segmentos tradicionalmente republicanos se podía persuadir (y de nuevo, cómo llegar a ellos).


Otros usos del Big Data

El Big Data se puede utilizar prácticamente en cualquier campo, además de con fines comerciales y electorales. Por ejemplo, su uso se ha aplicado en la industria sanitaria. La información sobre los pacientes permite hacer diagnósticos más acertados y aplicar tratamientos más certeros.

También se emplea para ajustar la producción: si conoces cómo se van a comportar tus clientes, puedes hacer predicciones de venta y ajustar la producción en las fábricas, para que no haya producto sobrante. De igual modo, permite que la compra de materia prima a los posibles proveedores sea mucho más ajustada. Ambos reducen los costes generales de las empresas productoras.

En publicidad, como en una campaña electoral, la inteligencia de datos permite saber quiénes son tus clientes potenciales, conocer qué les gusta, cuáles son sus dudas y cómo llegar a ellos. Por ejemplo, ¿a través de redes sociales? Si es así, ¿de qué redes sociales? ¿A través del móvil, de la tablet o del ordenador?


Ventajas del Big Data

El Big Data ha revolucionado sectores de diferente ámbito, desde el turístico o el político hasta el sanitario, el empresarial o el financiero. Las principales ventajas del Big Data son las siguientes.

Mejora en la toma de decisiones

En lugar de tomar decisiones a ciegas, el Big Data permite predecir de forma certera qué va a pasar y, por tanto, elaborar estrategias cada vez más encauzadas a conseguir los objetivos, tomar las decisiones en base a hechos.

Reducción de costes

Esas predicciones basadas en la data ayudan a ajustar y optimizar los recursos. Por ejemplo, una empresa puede conocer cuáles son sus puntos fuertes de venta y focalizarse en ellos. Del mismo modo, puede identificar sus puntos débiles y el por qué de los mismos, y tomar decisiones que cambien las tornas en este sentido.

Realimentación en tiempo real

Como los datos son recibidos y procesados en tiempo real, se pueden identificar los cambios de comportamiento mientras están pasando y, por tanto, reajustar las estrategias para que estén constantemente optimizadas.

Velocidad en la toma de decisiones

De esa constante realimentación deriva también una ventaja importante: la velocidad en la toma de decisiones. No hay que esperar para ver cómo está funcionando una estrategia, por lo que las decisiones se pueden tomar rápidamente y, de nuevo, en base a hechos.

Detección de nuevas oportunidades

Con los datos, segmentamos a la población y encontramos nuevas oportunidades. Esto es aplicable tanto a una campaña electoral (por ejemplo, como explicábamos permite encontrar segmentos que tradicionalmente votaban al rival pero susceptibles de cambiar su voto), como a un negocio (encontrar nuevos segmentos a los que hacer llegar los productos de una empresa).


Cómo funciona el Big Data

Como generamos data

Cada vez que hacemos clic en un botón al navegar por internet, cada vez que hacemos scroll en una página, cada vez que hacemos una transacción bancaria o que leemos una newsletter, generamos un dato. Cada vez que un móvil envía una llamada a un smartwatch o que compartimos contenido entre la tablet y la televisión, nuestros dispositivos generan un dato. Explicado de forma muy simplificada, el Big Data:

  • Recibe los datos.
  • Los almacena.
  • Los distribuye entre distintos procesadores (para poder procesarlos a mayor velocidad).
  • Procesa los datos.
  • Reúne de nuevo los datos.
  • Utiliza algoritmos predictivos y prescriptivos para interpretarlos (mediante técnicas de Ciencia de Datos).
  • Extrae la información requerida (patrones de comportamiento, oportunidades de negocio, predicciones de venta, etcétera).

El factor humano entra en el siguiente paso: el Big Data no toma las decisiones finales, sino que da información a las personas para que estas puedan tomar resoluciones más satisfactorias. No obstante, la industria 4.0 trabaja desde hace tiempo en cerrar el círculo mediante la aplicación de modelos predictivos y prescriptivos.

La idea es realimentar los sistemas de producción con prescripciones automáticas provenientes de los modelos prescriptivos. Los humanos definen estos modelos y los modelos emiten prescripciones/acciones a llevar a cabo (en base a una definición de acciones posibles previamente definidas en función de los resultados de los modelos).

TAGS:
Imagen del autor Redacción España

Equipo de redacción de B12 España: Marketing, Big Data, Inteligencia Artificial y Ventas.

Ponte en contacto con nosotros:

+34 916 629 534

madrid@agenciab12.com

Calle Alcalá, 21, 8ºD. 28014 - Madrid