Big Data

¿En qué consiste un Data Lake?

Los data lakes son herramientas de vital importancia para las empresas de la era digital. Te contamos en qué consisten los lagos de datos.

Por Redacción España, el 13/10/2020

auto ¿Te ha gustado nuestro artículo? ¡Vota!

La transformación digital implica un crecimiento desproporcionado de los datos. Unos datos de vital importancia para tomar decisiones corporativas. Por ello, se necesitan herramientas y conocimientos específicos que ayuden a gestionar y la organizar la información en bruto.

En este sentido, la mejor opción es conservar todos los datos mediante diferentes fuentes de información y después, comenzar una labor de gestión y análisis. Uno de los métodos de almacenamiento mayoritarios son los data lakes, ya que se pueden realizar múltiples acciones que tienen campos de uso muy diversos. Te explicamos más en profundidad el término.

Definición Data Lake

Un data lake o lago de datos es un repositorio de datos que conecta diferentes BBDD y que sirve para almacenar la información. Este sistema permite reestructurar la información de las bases de datos según la necesidad del usuario.

No están formados por un esquema predefinido y por tanto, se pueden almacenar y procesar datos sin esquema y en cualquier formato. Esta característica evita que sean necesarios complejos procesos ETL (Extracción, Transformación y Carga) de limpieza y preparación.

El término fue designado por James Dixon, director tecnológico de Pentaho, la aplicación de software para la Gestión de la Inteligencia Empresarial (Business Intelligence y Big Data).

Por su parte, un data lake se compone de un repositorio de datos capaz de contener cantidades masivas de datos, ya sean estructurados o no estructurados, los cuales se encuentran descritos mediante metadatos.

Su capacidad de almacenamiento está configurada en base a un clúster (local o cloud) que le permite manejar el crecimiento continuo de trabajo de manera masiva, ya que se sirve de plataformas específicas como por ejemplo, Hadoop o Apache Spark cuya principal característica es la escalabilidad.


Beneficios de un Data Lake

La implementación de un data lake en los procesos operacionales de las compañías trae consigo una serie de beneficios asociados. Estos son algunos de los más destacables:

  • Fomenta la centralización de los datos en un mismo espacio, independientemente de la fuente de la que provengan
  • Permite el análisis en tiempo real de los datos.
  • Promueve la eliminación de silos de datos.
  • Proporciona una vista unificada en toda la organización.
  • Otorga acceso a los datos desde cualquier lugar.
  • Facilita la automatización de datos. Aspecto que permite ahorrar tiempo y recursos a los analistas de datos.

Data Lake versus Data Warehouse

Los conceptos de data lake y el data warehouse son similares a primera vista. Ambos sistemas están diseñados para permitir el almacenamiento de una gran cantidad de datos. Sin embargo, son conceptos con claras diferencias.

Por su parte, los data lakes están formados por todo tipo de datos (estructurados, semiestructurados y desestructurados). Un data warehouse solo incluye datos estructurados.

Los data lakes son más flexibles y pueden configurarse según la tarea que se quiera desempeñar. Por otro lado, cambiar la estructura de un data warehouse es un proceso largo y tedioso debido a la gran cantidad de procesos intrínsecos.

Otra característica de los data lakes es que permiten el acceso a todos los usuarios de una misma compañía, mientras que los data warehouse requieren perfiles muy específicos.

En los data lakes los costes de almacenamiento son bastante bajos en comparación con los de un data warehouse. Gracias a Hadoop, una plataforma diseñada para ser instalada en hardware de bajo coste.

Arquitectura de un Data Lake

Para comprender la arquitectura de un data lake es importante diferenciar dos de sus componentes mayoritarios:

  • Capacidad de almacenamiento.
  • Computación.

Ambos componentes pueden albergarse de forma local o en la nube. En función de la estructura se ofrecen distintas combinaciones de arquitectura en un data lake.

Cabe mencionar que no son excluyentes, es posible albergar la información en local, en cloud o aprovechar las ventajas de cada uno de ellos utilizando un modelo híbrido.

No existe una única forma de arquitectura, variará en función de las necesidades de la organización que decida implementar un data lake a sus procesos. Así pues existen diferentes opciones, entre las que podríamos destacar: Azure, AWS y Hadoop.

TAGS:
Imagen del autor Redacción España

Equipo de redacción de B12 España: Marketing, Big Data, Inteligencia Artificial y Ventas.

Ponte en contacto con nosotros:

+34 916 629 534

madrid@agenciab12.com

Calle Alcalá, 21, 8ºD. 28014 - Madrid