Integración y Automatización de Datos Empresariales 

 
Santiago Rivera Montoya 

 
Informe de Práctica presentado para optar al título de Ingeniero de Sistemas 

 
Modalidad de Práctica 

Semestre de Industria o Práctica Empresarial 

 
Asesores​

Carlos Andrés Mera Banguero, Doctor en Ingeniería de Sistemas e Informática 

Olivia Jun Ikeda Miura, Especialista en Datos y Análisis Master 

 
​ 

Universidad de Antioquia 

Facultad de Ingeniería 

Ingeniería de Sistemas 

​Medellín, Antioquia, Colombia​  

2026 

 
Cita (Rivera Montoya, 2025) 

Referencia 
 

Estilo APA 7 (2020) 

Rivera Montoya, S. (504). Integración y automatización de datos empresariales. 
Trabajo de grado profesional, Ingeniería de Sistemas, Universidad de 
Antioquia, Medellín, Antioquia, Colombia, 2026.  

  
Centro de Documentación Ingeniería (CENDOI) 

 
Repositorio Institucional: http://bibliotecadigital.udea.edu.co 

 
Universidad de Antioquia - www.udea.edu.co 

 
El contenido de esta obra corresponde al derecho de expresión de los autores y no compromete el pensamiento 
institucional de la Universidad de Antioquia ni desata su responsabilidad frente a terceros. Los autores asumen la 
responsabilidad por los derechos de autor y conexos 

 
Integración y Automatización de Datos Empresariales 
 

Tabla de Contenido 

 
Resumen​ 5 

Abstract​ 6 

1. Introducción​ 7 

2. Objetivos​ 8 

2.1 Objetivo general​ 8 

2.2 Objetivos específicos​ 8 

3. Marco teórico​ 9 

4. Metodología​ 11 

5. Análisis de resultados​ 13 

6. Conclusiones y recomendaciones​ 18 

Referencias​ 19 

  
Integración y Automatización de Datos Empresariales 
 

Lista de figuras 

 
Figura 1  Onboarding de compañías​ 13 

Figura 2  Interfaz de Airbyte​ 13 

Figura 3  Ejemplo de Dataform​ 15 

Figura 4  Arquitectura ETL​ 15 

Figura 5  Interfaz de Airflow​ 15 

Figura 6  Ejemplo de DAG​ 16 

Figura 7  Ejemplo de dashboard​ 17 

 
Integración y Automatización de Datos Empresariales 
 

Resumen 

  
Este documento describe el desarrollo de un proyecto orientado al diseño, implementación y 

optimización de pipelines de datos para integrar información empresarial proveniente de diversas 

compañías en un único data warehouse. El objetivo principal fue consolidar datos dispersos y 

heterogéneos en una plataforma centralizada que fortaleciera los procesos de gobernanza, 

mejorará la calidad de la información y habilitará su uso para análisis estratégicos y 

visualizaciones de negocio. 

El proyecto incluyó el onboarding de cuatro compañías, de las cuales una fue finalizada en su 

totalidad y tres alcanzaron niveles de avance entre el 40% y el 60%. Para ello, se establecieron 

conexiones a sus fuentes de datos mediante Airbyte, integrando información proveniente de 

sistemas SAP, bases de datos SQL y archivos almacenados en SharePoint, con destino a 

BigQuery como data warehouse central. 

Una vez cargada la información, se implementó una arquitectura ETL basada en capas utilizando 

Dataform, estructurando el flujo de datos en las capas raw, source, staging, core y mart, 

aplicando las buenas prácticas de ingeniería de datos. Posteriormente, se configuraron DAGs en 

Airflow para orquestar y automatizar la actualización periódica de las tablas y modelos, 

garantizando la consistencia y disponibilidad continua de la información. 

Los resultados demuestran mejoras en la trazabilidad, la estandarización, la accesibilidad y la 

calidad general de los datos. El proyecto destaca la importancia de contar con prácticas de 

ingeniería y marcos de gobernanza sólidos para lograr conjuntos de datos fiables e integrados que 

respalden la inteligencia empresarial y el análisis avanzado. 

 
Palabras clave: ingeniería de datos, data warehouse, gobernanza de datos, automatización. 

 
Integración y Automatización de Datos Empresariales 
 

Abstract 

 
This document presents the development of a project focused on the design, implementation, and 

optimization of data pipelines to integrate enterprise information from multiple companies into a 

single data warehouse. The main objective was to consolidate dispersed and heterogeneous data 

into a centralized platform that strengthens data governance processes, improves data quality, and 

enables its use for strategic analysis and business visualizations. 

The project involved the onboarding of four companies, one of which was fully completed, while 

the remaining three reached completion levels between 40% and 60%. To achieve this, 

connections to their data sources were established using Airbyte, integrating information from 

SAP systems, SQL databases, and files stored in SharePoint into BigQuery as the central data 

warehouse. 

Once the data was ingested, a layered ETL architecture was implemented using Dataform, 

structuring the data flow into raw, source, staging, core, and mart layers in accordance with data 

engineering best practices. Subsequently, DAGs were configured in Airflow to orchestrate and 

automate the periodic updates of tables and models, ensuring data consistency and continuous 

availability. 

The results demonstrate improvements in data traceability, standardization, accessibility, and 

overall data quality. The project highlights the importance of robust engineering practices and 

data governance frameworks to achieve reliable and integrated datasets that support business 

intelligence and advanced analytics. 

 
Keywords: data engineering, data warehouse, automation, data governance. 

 
Integración y Automatización de Datos Empresariales 
 

1. Introducción 

En el contexto actual, las organizaciones requieren sistemas de datos centralizados, confiables y 

accesibles para soportar procesos de análisis, toma de decisiones y optimización operativa. Sin 

embargo, cuando los datos provienen de distintas compañías, tecnologías y plataformas, surgen 

retos relacionados con la fragmentación, la inconsistencia, la duplicidad y la falta de 

estandarización. 

Ante esta problemática, este trabajo se desarrolló con el propósito de diseñar y optimizar 

pipelines de datos que integrarán información procedente de diferentes empresas en un único 

data warehouse. El proyecto buscó mejorar la gobernanza de datos, garantizar su calidad y crear 

una base sólida para la generación de tableros de control e insights de valor para el negocio.  

El desarrollo incluyó el onboarding técnico de cuatro compañías, estableciendo conexiones 

seguras y ordenadas a sus fuentes de datos. Cada integración implicó el uso de herramientas 

modernas de ingeniería de datos, como Airbyte para la captura de información, Airflow para la 

orquestación de procesos y BigQuery como plataforma de almacenamiento analítico. Asimismo, 

se implementó Dataform para construir y mantener las capas formales del pipeline ETL, 

respetando principios de arquitectura escalable, mantenible y reproducible. 

El documento presenta la metodología empleada, los resultados obtenidos durante la 

implementación y las conclusiones derivadas del proceso, con el propósito de dejar un marco 

técnico claro para trabajos futuros. 

 
Integración y Automatización de Datos Empresariales 
 

2. Objetivos 

 
2.1 Objetivo general  

 
Desarrollar, automatizar y optimizar pipelines de datos end-to-end que permitan integrar 

información proveniente de múltiples compañías en un data warehouse centralizado, 

garantizando calidad, gobernanza, disponibilidad y valor analítico 

 
2.2 Objetivos específicos 

 
●​ Implementar procesos de extracción de datos desde diversas fuentes mediante Airbyte. 

●​ Diseñar y construir flujos de orquestación con Airflow para automatizar las 

actualizaciones. 

●​ Diseñar, construir y mantener pipelines ETL (Extraction, Transformation and Loading) 

que integren información proveniente de múltiples fuentes empresariales en un data 

warehouse centralizado. 

●​ Estandarizar y depurar datos para asegurar consistencia, trazabilidad y cumplimiento de 

buenas prácticas. 

●​ Evaluar la calidad y el desempeño de los pipelines desarrollados. 

 
Integración y Automatización de Datos Empresariales 
 

3. Marco Teórico 

 
La ingeniería de datos es una disciplina encargada del diseño, implementación y mantenimiento 

de sistemas que permiten la captura, transformación, almacenamiento y disponibilidad de grandes 

volúmenes de información de manera eficiente y confiable. Esta disciplina constituye el soporte 

técnico fundamental para que las organizaciones desarrollen análisis avanzados y sistemas de 

soporte a la toma de decisiones basados en información estructurada, accesible y de alta calidad. 

En este contexto, los procesos ETL (Extraction, Transformation and Loading) representan un 

componente esencial, ya que permiten integrar datos provenientes de fuentes heterogéneas 

mediante la aplicación de reglas de negocio que garantizan coherencia, estandarización y 

gobernanza de la información (Kimball & Ross, 2013; Inmon, 2005). 

Los pipelines de datos modernos se apoyan en herramientas especializadas que facilitan la 

automatización y escalabilidad de los procesos de ingestión y transformación. Entre estas, 

Airbyte (Airbyte, Inc., 2023) se ha posicionado como una solución de código abierto orientada a 

la extracción e integración de datos mediante conectores reutilizables, permitiendo la conexión 

con bases de datos transaccionales, servicios en la nube y archivos estructurados. 

Complementariamente, Apache Airflow (Apache Software Foundation, 2023) es ampliamente 

reconocido como un orquestador de flujos de trabajo basado en grafos acíclicos dirigidos (DAG), 

utilizado para programar, monitorear y coordinar la ejecución de pipelines de datos de forma 

confiable y repetible en entornos empresariales. 

En cuanto al almacenamiento analítico, los data warehouses desempeñan un papel central al 

consolidar datos estructurados con fines de análisis, garantizando consistencia, disponibilidad y 

rendimiento. El surgimiento de plataformas en la nube ha fortalecido este enfoque, destacándose 

BigQuery como una solución escalable que permite ejecutar consultas analíticas de alto volumen 

mediante un motor de procesamiento distribuido, eliminando la necesidad de administrar 

infraestructura física y ofreciendo tiempos de respuesta adecuados para escenarios de inteligencia 

de negocio (Google Cloud, 2023). 

Desde la perspectiva del modelamiento y transformación de datos, herramientas como Dataform 

(Google Cloud, 2023) facilitan la construcción de modelos modulares y versionados utilizando 

 
Integración y Automatización de Datos Empresariales 
 

SQL, organizados en arquitecturas por capas que representan distintas etapas del procesamiento 

de datos. Estas capas permiten separar la ingesta de los datos crudos, los procesos de limpieza, 

transformación y consolidación, y la generación de productos analíticos finales, lo cual 

contribuye a mejorar la trazabilidad, la reproducibilidad y la gobernanza de la información. 

La gobernanza y calidad de los datos constituyen elementos transversales en los entornos de 

ingeniería de datos. La implementación de mecanismos de validación, monitoreo y control de 

accesos permite asegurar que la información sea precisa, consistente y alineada con las políticas 

organizacionales, reduciendo los riesgos asociados a datos incompletos, inconsistentes o 

desactualizados. 

Finalmente, el desarrollo de soluciones de ingeniería de datos se ve fortalecido por la adopción de 

metodologías ágiles como Scrum (Schwaber & Sutherland, 2020), las cuales permiten un enfoque 

iterativo e incremental, promoviendo la retroalimentación continua y la adaptación rápida a los 

requerimientos del negocio. La aplicación de marcos ágiles facilita la coordinación entre equipos 

técnicos y funcionales, incrementando la transparencia, la calidad del producto y la alineación 

entre los objetivos técnicos y estratégicos del proyecto. 

 
Integración y Automatización de Datos Empresariales 
 

4. Metodología 

 
La metodología aplicada en este proyecto se basó en un enfoque práctico y aplicado, apoyado en 

la implementación del marco de trabajo ágil Scrum (Schwaber & Sutherland, 2020), lo cual 

permitió gestionar el desarrollo de manera iterativa, estructurada y adaptable a las necesidades 

cambiantes de cada compañía integrada al sistema. 

En este contexto, se realizó un análisis técnico de las fuentes de datos disponibles en cada 

empresa, identificando su tipo, estructura, nivel de limpieza y disponibilidad. Este levantamiento 

permitió definir los procesos de integración y las transformaciones necesarias dentro del pipeline 

de datos, así como establecer las configuraciones requeridas para garantizar la correcta ingestión, 

organización y actualización de la información en el data warehouse. 

La gestión del trabajo se organizó mediante Scrum, con sprints de dos semanas, lo que facilitó la 

planificación incremental y la entrega continua de funcionalidades. Las actividades clave dentro 

del marco Scrum fueron: 

●​ Dailies tres veces por semana (lunes, miércoles y viernes), con el fin de revisar 

impedimentos, priorizar actividades y mantener sincronía entre los integrantes del equipo. 

●​ Backlog refinement cada 2 semanas, donde se definían las tareas a desarrollar en el 

siguiente periodo. 

●​ Toda la gestión, seguimiento, asignación de tareas, registro de evidencias se realizó en 

JIRA, lo cual permitió mantener una trazabilidad completa del ciclo de vida de cada 

desarrollo. 

Una vez finalizada cada tarea, esta pasó a una etapa de validación por parte del Product Owner 

(PO). El PO revisaba la calidad funcional de los resultados, verificaba que la implementación 

cumpliera los criterios de aceptación y autorizaba el paso a producción únicamente cuando las 

entregas cumplían con los estándares del proyecto. 

El proceso metodológico técnico se estructuró en las siguientes fases: 

 
Integración y Automatización de Datos Empresariales 
 

1.​ Onboarding de compañías: análisis inicial de accesos, identificación de fuentes de datos 

y validación de la compatibilidad técnica para su ingestión. 

2.​ Extracción e ingestión con Airbyte: configuración de conectores hacia SAP, 

PostgreSQL, SharePoint y otras fuentes de datos; definición de replicaciones completas e 

incrementales; monitoreo de ejecuciones. 

3.​ Construcción del pipeline ETL con Dataform: desarrollo de las capas raw, source, 

staging, core y mart bajo principios de modularidad, versionamiento, gobernanza y 

reproducibilidad. En esta etapa también se realizaron ajustes a la lógica de múltiples 

campos, garantizando mayor calidad en los reportes, datos más coherentes, reglas de 

negocio actualizadas y alineación con las necesidades en tiempo real de cada compañía. 

4.​ Orquestación con Airflow: creación de DAGs para automatizar cargas, definir 

dependencias, ejecutar procesos diarios de actualización de cada capa y manejar alertas y 

errores. 

5.​ Evaluación y documentación: se realizó una evaluación continua de la calidad y el 

desempeño de los pipelines, a través del seguimiento de ejecuciones, revisión de errores, 

validación de actualizaciones y control de la consistencia de los datos. Paralelamente, se 

llevó a cabo una documentación técnica de modelos, transformaciones y decisiones 

arquitectónicas, facilitando el mantenimiento y la mejora continua del sistema. 

La combinación de una arquitectura escalable, procesos automatizados y prácticas ágiles permitió 

una ejecución eficiente e iterativa del proyecto, alineada con los objetivos de estandarización, 

calidad, gobernanza y generación de valor analítico. 

 
Integración y Automatización de Datos Empresariales 
 

5. Análisis de Resultados 

Durante el desarrollo del proyecto se llevó a cabo el proceso de onboarding de cuatro compañías. 

Una se completó al 100%, mientras que las restantes avanzaron entre un 50% y un 90% (Figura 

1), lo cual estuvo condicionado por la complejidad de las fuentes de datos, así como por la 

disponibilidad, calidad y estructura de la información requerida en cada organización. 

 
Figura 1. Onboarding de compañías 

Estos resultados se lograron mediante la ejecución de las acciones descritas a continuación. 

5.1 Integración de múltiples fuentes 

Se establecieron conexiones exitosas a diversas fuentes empresariales, incluyendo sistemas SAP, 

bases de datos SQL como MySQL y archivos alojados en plataformas colaborativas como 

SharePoint. Cada una de estas integraciones requirió configuraciones específicas de extractores 

en Airbyte y la definición de pipelines independientes según la tecnología de origen (Figura 2). 

 
Figura 2. Interfaz Airbyte 

 
Integración y Automatización de Datos Empresariales 
 

5.2 Estandarización de estructuras 

Una vez los datos fueron incorporados al data warehouse a través de Airbyte, se utilizaron Visual 

Studio Code y Dataform (Figura 3) se crearon las tablas en BigQuery siguiendo una arquitectura 

de 5 capas, denominadas raw, source, staging, core y mart (Figura 4). Cada capa cumple una 

función específica dentro del pipeline de datos, como se describe a continuación. 

●​ Raw: almacena los datos en su estado original, sin aplicar transformaciones, preservando 

la información tal como es extraída de las fuentes de origen. 

●​ Source: aplica procesos de limpieza, deduplicación y estandarización, garantizando 

consistencia en los tipos de datos y cumplimiento de reglas básicas de calidad. 

●​ Staging: integra y transforma datos relacionados dentro de una misma fuente, preparando 

la información para su posterior consolidación. 

●​ Core: consolida las principales entidades del negocio, como ventas, clientes o productos, 

y actúa como fuente de verdad para la organización. 

●​ Mart: contiene los productos analíticos finales, desde donde se generan reportes y 

tableros de inteligencia de negocio. 

Esta arquitectura por capas permitió mejorar significativamente la trazabilidad de la información, 

facilitando la actualización de la lógica de los campos, la corrección de errores y la 

refactorización de bloques de código en las distintas capas cuando fue necesario. Asimismo, 

contribuyó a la estandarización de formatos y al incremento de la calidad general de los datos 

procesados, lo que facilitó su uso confiable para análisis y la toma de decisiones. 

5.3 Automatización de procesos 

Para garantizar la actualización automática y periódica de la información de las tablas y reportes, 

se implementaron DAGs (Directed Acyclic Graphs) en Airflow (Figura 5). Estos DAGs permiten 

ejecutar tareas diarias sin intervención humana, reduciendo el riesgo de errores manuales y 

mejorando los tiempos de procesamiento. 

 
Integración y Automatización de Datos Empresariales 
 

                  Figura 3. Ejemplo de Dataform​ ​ ​   Figura 4. Arquitectura ETL 

 
Figura 5. Interfaz de Airflow 

 
Específicamente, la Figura 6 muestra un ejemplo de un DAG implementado en la interfaz de 

Apache Airflow, en esta se puede observar el estado y comportamiento de las ejecuciones 

programadas del pipeline de datos. Esta figura evidencia las distintas tareas que componen el 

flujo, así como su historial de ejecuciones exitosas y fallidas, lo que permitió monitorear de 

manera sencilla el correcto funcionamiento del proceso. Esto también facilitó la supervisión 

 
Integración y Automatización de Datos Empresariales 
 

continua de las cargas de datos, la detección temprana de errores y la verificación de que la 

información se actualiza de forma consistente y ordenada, contribuyendo así a la confiabilidad y 

estabilidad de los reportes generados a partir del data warehouse.   

 
Figura 6. Ejemplo de DAG 

5.5 Reportes 

La integración de múltiples compañías permitió evidenciar la efectividad de la arquitectura por 

capas, así como el impacto positivo de la automatización de procesos mediante Airflow y la 

estandarización de transformaciones con Dataform. Estos componentes, al operar de manera 

conjunta, fortalecen la gobernanza de datos, mejoran la trazabilidad de la información y 

garantizan la consistencia de los datos a lo largo de las diferentes capas de la arquitectura. 

Como resultado, la organización dispone de información confiable y oportuna que respalda el 

análisis del desempeño operativo y financiero, facilitando la identificación de tendencias, 

desviaciones y oportunidades de mejora. Este enfoque integral no solo optimiza la generación de 

reportes, sino que también sienta las bases para una toma de decisiones más informada y 

estratégica, alineada con los objetivos del negocio, como se muestra en el dashboard presentado 

en la Figura 7. 

 
Integración y Automatización de Datos Empresariales 
 

Figura 7. Ejemplo de un dashboard implementado 

 
Integración y Automatización de Datos Empresariales 
 

6. Conclusiones y Recomendaciones 

 
6.1 Conclusiones 

 
●​ La centralización de datos provenientes de compañías diversas exige una arquitectura 

robusta y herramientas especializadas; el uso combinado de Airbyte, Airflow, BigQuery y 

Dataform demostró ser efectivo y escalable. 

●​ La implementación por capas facilitó la estandarización y permitió garantizar la calidad 

de la información, convirtiéndose en un factor crítico para asegurar gobernanza y 

trazabilidad. 

●​ El avance del onboarding demuestra que, aunque cada empresa presenta desafíos únicos, 

el proceso puede replicarse de forma organizada y eficiente. 

●​ La automatización logró reducir tiempos de procesamiento y mitigar errores manuales, 

aumentando la confiabilidad del sistema. 

●​ La integración lograda constituye una base sólida para el desarrollo de dashboards, 

analítica avanzada e iniciativas futuras orientadas al aprovechamiento del dato. 

 
6.2 Recomendaciones 

 
●​ Completar los onboarding restantes siguiendo el mismo estándar de documentación, 

validaciones y pruebas. 

●​ Continuar implementando buenas prácticas de versionamiento y revisión de código. 

●​ Explorar la incorporación de monitoreo avanzado (por ejemplo, alertas vía Slack u otros 

canales). 

●​ Facilitar la capacitación interna para que equipos futuros puedan mantener y extender la 

arquitectura creada. 

 
Integración y Automatización de Datos Empresariales 
 

Referencias 

Apache Software Foundation. (2023). Apache Airflow documentation. 
https://airflow.apache.org/docs/ 

Apache Software Foundation. (2023). Apache Airflow: Workflow management platform. 
https://www.apache.org/ 

Airbyte, Inc. (2023). Airbyte documentation. https://docs.airbyte.com/ 

Google Cloud. (2023). BigQuery documentation. Google LLC. 
https://cloud.google.com/bigquery/docs 

Google Cloud. (2023). Dataform documentation. Google LLC. 
https://cloud.google.com/dataform/docs 

IBM. (2016). Data governance: A practical guide. IBM Press. 

Inmon, W. H. (2005). Building the data warehouse (4th ed.). John Wiley & Sons. 

Kimball, R., & Ross, M. (2013). The data warehouse toolkit: The definitive guide to dimensional 
modeling (3rd ed.). John Wiley & Sons. 

Meyer, M., Sedlmair, M., & Munzner, T. (2020). Criteria for rigor in visualization design study. 
IEEE Transactions on Visualization and Computer Graphics, 26(1), 87–97. 
https://doi.org/10.1109/TVCG.2019.2934539 

Schwaber, K., & Sutherland, J. (2020). The Scrum guide: The definitive guide to Scrum. 
Scrum.org. https://scrumguides.org/scrum-guide.html 

 
https://airflow.apache.org/docs/
https://airflow.apache.org/docs/
https://www.apache.org/
https://www.apache.org/
https://docs.airbyte.com/
https://cloud.google.com/bigquery/docs
https://cloud.google.com/bigquery/docs
https://cloud.google.com/dataform/docs
https://cloud.google.com/dataform/docs
https://doi.org/10.1109/TVCG.2019.2934539
https://scrumguides.org/scrum-guide.html

	Resumen 
	Abstract 
	1. Introducción 
	 
	 
	2. Objetivos 
	2.1 Objetivo general  
	2.2 Objetivos específicos 

	3. Marco Teórico 
	 
	 
	5. Análisis de Resultados 
	5.1 Integración de múltiples fuentes 
	5.2 Estandarización de estructuras 
	5.3 Automatización de procesos 
	5.5 Reportes 

	6. Conclusiones y Recomendaciones 
	Referencias