ETL: del inglés Extract, transform and load, en español, extraer transformar y cargar. Sirve para lo que la definición indica, para extraer, conjuntos de datos, realizar las transformaciones y operaciones requeridas con dichos datos y volverlos a cargar.
Las ETL sirven y se utilizan para explotar los datos, y después, volverlos a cargar para que puedan estar disponibles por ejemplo, en las herramientas de visualización que facilitan la comprensión de dichos datos.
¿Qué son los procesos ETL?
Los procesos ETL definen el proceso por el que pasa el dato desde que se extrae de una fuente de información hasta que es visualizado o utilizado dando acceso a la información requerida y necesaria para la toma de decisiones.
Por ejemplo, pensemos en una compañía que tiene un sistema de reporting o herramientas de visualización para monitorear los cuadros de mando y distintos informes que requieren los distintos departamentos de una empresa, como por ejemplo el departamento de ventas, y quiere construir un data mart o data lake para explotarlos.
La empresa necesitará construir un proceso que sea capaz de extraer los datos, transformarlos y cargarlos para dotarlos de valor.
Extract (Extraer)
Lo primero que deberá hacer será extraer los datos de la aplicación o sistema que recoge la información de las ventas. Esta información ha sido cargada en el sistema por el departamento de contabilidad por ejemplo
Transform (Transformar)
El conjunto de datos extraídos de las distintas fuentes de información, como lo son las bases de datos de las diferentes aplicaciones o sistemas de una empresa son utilizadas en alguna de las diferentes herramientas ETL (más abajo enumeramos algunas) que transforman esos datos para que sean útiles para el negocio, calculando diferentes ratios o KPI’s.
Si los datos se extraen de una base de datos transaccional, en este parte del proceso podrás agregarlos y calcular las ventas en cada uno de los meses del año de cada cliente, podrás construir una nueva variable que recoja la rentabilidad de cada uno de tus clientes, o podrás calcular los costes de cada venta, por ejemplo. Las transformaciones de estos datos van a depender de las necesidades de cada negocio o proyecto.
Load (Cargar)
Una vez transformados los datos, estos volverán a ser cargados en base de datos para que estén disponibles y puedan ser utilizados.
Lo más común es que estos datos puedan ser utilizados en herramientas de visualización o monitoring, como por ejemplo, Power BI, Click View, Tableau o SAP, para mostrar informes o cuadros de mando (en el ámbito empresarial) que permitan tener el dato disponible para las consultas o tomas de decisiones.
Herramientas ETL más importantes
- SAP Data Services
- SSIS: Microsoft SQL Server Integration Services
- Informática PowerCenter
- IBM Infosphere DataStage
- Oracle Data Integrator
- SAS Data Manager
- Talend Open Studio
- Pentaho Data Integration
- Hadoop
También te puede interesar: