Big Data

Qué es Data Warehouse y cómo se usa en una empresa

El Data Warehouse es el primer paso antes de llegar al Business Intelligence. Un tipo de BBDD caracterizada por su capacidad para integrar y depurar información de una o más fuentes. Te contamos más.

Por Redacción España, el 06/04/2020

auto ¿Te ha gustado nuestro artículo? ¡Vota!

Un Data Warehouse es un almacén electrónico donde generalmente una empresa u organización mantiene una gran cantidad de información. Los datos de un Data Warehouse deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de administrar.


Origen del Data Warehouse

En la década de los setenta, los datos comenzaron a proliferar y las organizaciones empezaron a necesitar una forma de almacenar y acceder a esa información. El científico de cómputo Bill Inmon, considerado el padre de los data warehouses, comenzó a definir el concepto en la década de 1970 y se le acredita haber adoptado el término.

Esta misma figura publicó Building the Data Warehouse (Construcción del almacén de datos), un libro aclamado como fuente fundamental de la tecnología de los almacenes de datos. Inmon describía un data warehouse como una colección de datos orientada a un tema específico, integrado, variante en el tiempo y no volátil, que soporta el proceso de toma de decisiones.

Ralph Kimball, otro experto en tecnología que publicó The Data Warehouse Toolkit (Herramientas para almacenes de datos) a mediados de la década de 1990. Empleó una táctica ligeramente diferente en torno al concepto de los data warehousing con su enfoque "ascendente", donde se integran depósitos de datos individuales para crear un data warehouse.

Los almacenes de datos siguen siendo relevantes en la actualidad, aunque están evolucionando conforme la industria cambia para acomodar el almacenaje en la nube y la analítica en tiempo real.


Data Lake y Data Warehouse

El Data Lake y el Data Warehouse son similares a primera vista: ambos sistemas están diseñados para permitir el almacenamiento de una gran cantidad de datos. Sin embargo, no son lo mismo, estas son sus diferencias más importantes:

Datos

Los data lakes tienen todo tipo de datos (estructurados, semiestructurados y desestructurados) y es posible que muchos de ellos no se utilicen nunca, aunque se conserven todos. Sin embargo, un data warehouse solo incluye datos estructurados y aquellos que se necesitan para informar o responder preguntas específicas del negocio.


Agilidad

Dado que un data lake carece de estructura, es relativamente fácil hacer cambios tanto en modelos como en consultas, ya que son más flexibles y pueden configurarse y reconfigurarse según sea necesario y dependiendo de para qué se necesiten. Sin embargo, es mucho más engorroso y lleva mucho más tiempo cambiar la estructura de un data warehouse debido a la gran cantidad de procesos empresariales que hay relacionados.


Usuarios

Generalmente, los científicos de datos son los que acceden a la información en los data lakes porque tienen las habilidades necesarias para realizar un análisis profundo. Técnicamente, los data lakes pueden admitir a todos los usuarios y estar disponibles para ellos, mientras que los data warehouse son utilizados para usuarios de negocio, muy específicos, con el objetivo de informar y extraer un significado particular de la información que se definió al configurarlo. Generalmente, los almacenes son demasiado restrictivos para los científicos de datos que necesitan ir más allá de los límites que imponen estos para obtener nuevos análisis de la información.


Seguridad

Dado que los data warehouses son más maduros que los data lakes, su seguridad también es más sólida. Existe cierta preocupación por que todos los datos se almacenen en un repositorio como los data lakes, porque hace que sean más vulnerables. Lo que sí es cierto es que tener una sola tienda para administrar facilita la auditoría y el cumplimiento de normativas.

En resumen, ambas herramientas son diferentes y sirven a distintos propósitos. Si la empresa ya tiene un depósito de datos establecido, puede optar por implementar un data lake cercano para solucionar algunas de las limitaciones que experimenta el primero (como ya hemos visto). Para determinar qué solución es la mejor para su caso, debe comenzar por poner encima de la mesa el objetivo que quiere alcanzar y utilizar.

El Data Lake y Data Warehouse no son excluyentes. Ambos complementan los esfuerzos existentes y dan soporte al descubrimiento de nuevas preguntas. Una vez que se descubren esas preguntas se optimizan las respuestas. Y optimizar puede significar moverse fuera del data lake para ir a un data mart o al data warehouse.


¿Cuándo implementar un Data Warehouse en la empresa?

La complejidad de las operaciones es uno de los factores determinantes para plantearse la construcción de un almacén de este tipo. Cuando el volumen de datos a procesar y analizar es casi abrumador, hace falta tener un buen plan de gestión de la información, no se puede improvisar.

Minimizar el riesgo depende de decisiones como ésta. Y es que, métodos tradicionales como las hojas de cálculo, están diseñados para funcionar con una cantidad fija de datos que, si se supera, comienza a generar problemas de agilidad, de confiabilidad o de completitud.

Es mucho más sencillo controlar la calidad de los datos en un almacén de datos centralizado. Y mucho más eficiente. Estos son algunos de sus beneficios:

  • Agilización del reporting: optimizar el tiempo necesario para la generación de informes es uno de los primeros signos del trabajo con un data warehouse. Ya no hace falta recurrir a diferentes fuentes para comprobar si se actualizan los datos, o para mantener manualmente su actualización. Ya no existe información perdida. Todo el mundo sabe que todos los datos, en las mejores condiciones de calidad, están en el almacén central.
  • Reducción de los tiempos de espera: procesos ineficaces, frustración y desmotivación en la plantilla, tensiones entre departamentos...  a veces a los usuarios les falta tiempo para poder ocuparse de compartir determinada información y, otras, el problema es que ni siquiera saben dónde encontrar los datos que resuelven la consulta que deben gestionar. La implementación de un almacén de datos puede ayudar a centralizar los datos y poner información de calidad a disposición de todos los miembros de la organización de forma más eficaz.
  • Versión única de la verdad: cuántas veces no han aparecido discrepancias entre informes procedentes de distintos departamentos, e incluso entre datos e informes. ¿Cuál es la opción válida? ¿En cuál se puede confiar? Se necesita mucho tiempo para resolver este tipo de conflictos que, de no detectarse, conducen a errores de graves consecuencias. Sin embargo, al entender qué es un data warehouse e implementar uno, se eliminan los registros duplicados, desaparecen los errores e inconsistencias, y la información que se emplea como base para el reporting es precisa, completa y está actualizada.
TAGS:
Imagen del autor Redacción España

Equipo de redacción de B12 España: Marketing, Big Data, Inteligencia Artificial y Ventas.

Ponte en contacto con nosotros:

+34 916 629 534

madrid@agenciab12.com

Calle Alcalá, 21, 8ºD. 28014 - Madrid