Big Data

¿Qué son los procesos ETL?

Los procesos ETL (Extract, Transform and Load, por sus siglas en inglés) son imprescindibles para la recopilación e integración de datos a gran escala.

Por Redacción España, el 09/06/2021

auto ¿Te ha gustado nuestro artículo? ¡Vota!

Los procesos ETL (Extract, Transform and Load) son un conjunto de tecnologías, herramientas y técnicas que permiten extraer grandes volúmenes de datos de múltiples fuentes, incluyendo su transformación y carga en un almacén final.

El diseño de los procesos ETL será crítico para cualquier proyecto de Business Intelligence, como veremos a continuación.

ETL y Data Driven

El volumen y la complejidad de los datos con los que trabajan muchas organizaciones imposibilita su procesamiento con métodos tradicionales.

Para simplificar esta labor surgen las herramientas ETL o ETL tools, que permiten que empresas que manejan datos a gran escala puedan convertirse en compañías Data Driven: organizaciones que utilizan la ciencia de los datos como el núcleo de su estrategia de negocio.

Cualquier proyecto de Business Intelligence requerirá de procesos ETL. Su diseño y correcta ejecución será primordial y llevará buena parte de la carga de trabajo. Se estima que estos procesos consumen entre el 60 y el 80% del tiempo de desarrollo y testeo de cualquier proyecto de BI.

Funcionamiento de los procesos ETL

Como su propio nombre indica, los procesos ETL (Extract, Transform and Load) constan de tres fases críticas:

  1. Fase de extracción: generalmente, desde múltiples fuentes y con diversos formatos. Esta etapa también incluye la preparación de los datos en un formato que permita iniciar la siguiente fase, la de transformación. Antes de poner la extracción en marcha, es importante entender que, si el volumen de datos es muy grande, podría ralentizar o incluso, colapsar el sistema de origen. Por ello, las operaciones grandes de extracción suelen programarse en horarios o fechas de poco impacto.
  2. Fase de transformación: esta etapa requiere la manipulación de los datos con el fin de homogeneizarlos, mediante la aplicación de una serie de reglas. Por ejemplo, seleccionar solo determinadas columnas o dividirlas, codificar valores, calcular totales, unir datos, generar nuevos campos, etc. Los datos que estén OK, pasarán a la fase de carga, mientras que los datos que se consideren erróneos seguirán otro tratamiento o darán lugar a campos erróneos o nulos.
  3. Fase de carga: es la fase final, la fase de almacenamiento en el sistema de destino. Esta etapa puede ser más o menos compleja, en función de la naturaleza de los datos y de su finalidad. En ciertas bases de datos, la información antigua se sobrescribe con los datos nuevos.
    Es el caso de las bases de datos tipo Data Warehouse, que incluyen un histórico de registros. La carga se realiza mediante un proceso denominado Rolling, que conserva diversos grados de jerarquía o granulidad. Se trata de un método de almacenamiento de la información por niveles en una o varias magnitudes (por ejemplo, minutos, horas, días, semanas, meses…).

Aplicaciones de las herramientas ETL

Ya hemos visto que los procesos ETL son imprescindibles para el análisis y la interpretación de ingentes cantidades de datos. Pero, ¿qué tipo de aplicaciones tienen este tipo de herramientas?

En sentido estricto, podríamos decir que sus aplicaciones son prácticamente ilimitadas. Y esto es así porque ayudan a cualquier organización a tomar decisiones, a identificar nuevas oportunidades de negocio y problemas, incluso antes de que aparezcan. Es lo que hoy en día se conoce como Data Driven Decisions. 

¿Qué tipo de organismos o sectores demandan más este tipo de aplicaciones? En plena era digital, cualquier empresa es proclive a manejar una importante cantidad de datos en bruto. Sin embargo, para determinados sectores, este tipo de herramientas son sencillamente imprescindibles.

Nos referimos, por ejemplo, al sector energético, de retail, supply chain, transportes, seguridad, comunicaciones o cualquier servicio que requiera de un tratamiento anonimizado de datos.

Historia de los procesos ETL

procesos

Los procesos ETL empiezan a conocerse en los años 70, pero es en los 90 cuando se popularizan. Y lo hicieron de la mano de los Data Warehouse, de los que hemos hablado anteriormente.

A medida que los Data Warehouse fueron ganando importancia en las grandes compañías, los procesos ETL basados en sistemas de programación como PL-SQL, empezaron a volverse demasiado difíciles de entender y controlar.

Es entonces, a mediados de los 90, cuando empresas como SAS, Oracle o IBM lanzaron sus primeras y potentes herramientas dedicadas al desarrollo y diseño de procesos ETL. Una de las principales ventajas es que no era necesario programarlas exclusivamente en código. Pero no era su única virtud. Además, estos sistemas permitían:

  • Manejo desde un entorno intuitivo y visual.
  • Mayor facilidad de mantenimiento.
  • Mejor conectividad con los sistemas de origen.
  • Simplifican las labores de mantenimiento.
  • Administración sencilla de errores mediante estadísticas de ejecución y logs.
  • Permiten la integración y envío a sistemas de clientes y proveedores.
  • Descentralizan todos los procesos y la ejecución.
  • Capacidad de de Arquitectura Orientada a Servicios (SOA)

Otra caracteristica de estos softwares, aunque no tan ventajosa, era su alto coste. Soluciones como IBM Datastage, ODI SAS Data Integrator, PowerCenter ofrecían unos altísimos costes por licencia, solo aptos para grandes coporaciones.

Como respuesta, pronto aparecieron empresas OpenSource que ofrecían soluciones para presupuestos más ajustados. Algunas de ellas son KETL, Talend, Jaspersoft ETL, o Scriptella.

Con la irrupción de los sistemas Big Data y la necesidad de procesar datos a tiempo real, la capacidad de los procesos ETL está en entredicho. Por el momento estamos asistiendo al nacimiento de soluciones híbridas, donde conviven las nuevas tecnologías Big Data con procesos ETL tradicionales (Hadoop ETL, SAP HANA, PowerCenter Big Data, etc).

TAGS:
Imagen del autor Redacción España

Equipo de redacción de B12 España: Marketing, Big Data, Inteligencia Artificial y Ventas.

Ponte en contacto con nosotros:

+34 916 629 534

madrid@agenciab12.com

Calle Alcalá, 21, 8ºD. 28014 - Madrid