Data Integration (ETL)
Los procesos de Extracción, Transformación, y Carga (ETL) son componentes críticos para la carga de Data Warehouse, sistemas de Business Intelligence, o plataformas de Big Data.
Aunque invisibles para la mayoría de los usuarios de plataformas de BI, los procesos de ETL recuperan los datos de los sistemas operacionales, y los pre-procesan, para su posterior explotación en herramientas de reporting y analytics.
La complejidad de estos procesos se resume en 3 simples pasos:
Extracción (Extract)
Extracción de los datos de las aplicaciones y bases de datos productivas (ERP , CRM, RDBMS , archivos , etc.)
Transformación (Transform)
La transformación de datos para reconciliarlo a través de los sistemas de origen , realizar cálculos o parseo de cadenas , enriquecerlo con información externa , y también coincidirlo con el formato requerido por el sistema de destino.
Carga (Loading)
Cargar los datos resultantes en aplicaciones de Business Intelligence y Analytics: Data Warehouse o Enterprise Data Warehouse, Data Marts, Online Analytical Processing (OLAP), etc.
Funcionalidades de las herramientas ETL:
- Control de la extracción de los datos y su automatización, disminuyendo el tiempo empleado en el descubrimiento de procesos no documentados, minimizando el margen de error y permitiendo mayor flexibilidad.
- Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware, software, datos y recursos humanos existentes.
- Proporcionar la gestión integrada del Data Warehouse y los Data Marts existentes, integrando la extracción, transformación y carga para la construcción del Data Warehouse corporativo y de los Data Marts.
- Uso de la arquitectura de metadatos, facilitando la definición de los objetos de negocio y las reglas de consolidación.
- Acceso a una gran variedad de fuentes de datos diferentes.
- Manejo de excepciones.
- Gestión de la planificación de todos los procesos necesarios para la carga del DW.
- Interfaz independiente de hardware.
- Soporte en la explotación del Data Warehouse.
Otros usos para las herramientas de ETL:
- Tareas de Bases de datos como Consolidar, Migrar y Sincronizar bases de datos operativas.
- Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de aplicativos.
- Sincronización entre diferentes sistemas operacionales (por ejemplo, nuestro entorno ERP y la Web de ventas).
- Consolidación de datos: sistemas con grandes volúmenes de datos que son consolidados en sistemas paralelos para mantener históricos o para procesos de purga en los sistemas originales.
- Interfaces con sistemas externos: envío de información a clientes, proveedores.
- Otros usos: Actualización de usuarios a sistemas paralelos, preparación de procesos masivos (mailings, newsletter), etc.
Articulos sobre Business Intelligence:
ETL: La Columna Vertebral del BI Moderno
Herramientas ETL en las que tenemos experiencia:
Informatica Power Center
IBM Websphere DataStage
Microsoft SQL Server Integration Services
Oracle Data Integrator
SAS Data Integration Studio
AB Initio
Pentaho Data Integration
Talend Open Studio