Integración y Automatización de Datos Empresariales Santiago Rivera Montoya Informe de Práctica presentado para optar al título de Ingeniero de Sistemas Modalidad de Práctica Semestre de Industria o Práctica Empresarial Asesores​ Carlos Andrés Mera Banguero, Doctor en Ingeniería de Sistemas e Informática Olivia Jun Ikeda Miura, Especialista en Datos y Análisis Master ​ Universidad de Antioquia Facultad de Ingeniería Ingeniería de Sistemas ​Medellín, Antioquia, Colombia​ 2026 Cita (Rivera Montoya, 2025) Referencia Estilo APA 7 (2020) Rivera Montoya, S. (504). Integración y automatización de datos empresariales. Trabajo de grado profesional, Ingeniería de Sistemas, Universidad de Antioquia, Medellín, Antioquia, Colombia, 2026. Centro de Documentación Ingeniería (CENDOI) Repositorio Institucional: http://bibliotecadigital.udea.edu.co Universidad de Antioquia - www.udea.edu.co El contenido de esta obra corresponde al derecho de expresión de los autores y no compromete el pensamiento institucional de la Universidad de Antioquia ni desata su responsabilidad frente a terceros. Los autores asumen la responsabilidad por los derechos de autor y conexos Integración y Automatización de Datos Empresariales Tabla de Contenido Resumen​ 5 Abstract​ 6 1. Introducción​ 7 2. Objetivos​ 8 2.1 Objetivo general​ 8 2.2 Objetivos específicos​ 8 3. Marco teórico​ 9 4. Metodología​ 11 5. Análisis de resultados​ 13 6. Conclusiones y recomendaciones​ 18 Referencias​ 19 Integración y Automatización de Datos Empresariales Lista de figuras Figura 1 Onboarding de compañías​ 13 Figura 2 Interfaz de Airbyte​ 13 Figura 3 Ejemplo de Dataform​ 15 Figura 4 Arquitectura ETL​ 15 Figura 5 Interfaz de Airflow​ 15 Figura 6 Ejemplo de DAG​ 16 Figura 7 Ejemplo de dashboard​ 17 Integración y Automatización de Datos Empresariales Resumen Este documento describe el desarrollo de un proyecto orientado al diseño, implementación y optimización de pipelines de datos para integrar información empresarial proveniente de diversas compañías en un único data warehouse. El objetivo principal fue consolidar datos dispersos y heterogéneos en una plataforma centralizada que fortaleciera los procesos de gobernanza, mejorará la calidad de la información y habilitará su uso para análisis estratégicos y visualizaciones de negocio. El proyecto incluyó el onboarding de cuatro compañías, de las cuales una fue finalizada en su totalidad y tres alcanzaron niveles de avance entre el 40% y el 60%. Para ello, se establecieron conexiones a sus fuentes de datos mediante Airbyte, integrando información proveniente de sistemas SAP, bases de datos SQL y archivos almacenados en SharePoint, con destino a BigQuery como data warehouse central. Una vez cargada la información, se implementó una arquitectura ETL basada en capas utilizando Dataform, estructurando el flujo de datos en las capas raw, source, staging, core y mart, aplicando las buenas prácticas de ingeniería de datos. Posteriormente, se configuraron DAGs en Airflow para orquestar y automatizar la actualización periódica de las tablas y modelos, garantizando la consistencia y disponibilidad continua de la información. Los resultados demuestran mejoras en la trazabilidad, la estandarización, la accesibilidad y la calidad general de los datos. El proyecto destaca la importancia de contar con prácticas de ingeniería y marcos de gobernanza sólidos para lograr conjuntos de datos fiables e integrados que respalden la inteligencia empresarial y el análisis avanzado. Palabras clave: ingeniería de datos, data warehouse, gobernanza de datos, automatización. Integración y Automatización de Datos Empresariales Abstract This document presents the development of a project focused on the design, implementation, and optimization of data pipelines to integrate enterprise information from multiple companies into a single data warehouse. The main objective was to consolidate dispersed and heterogeneous data into a centralized platform that strengthens data governance processes, improves data quality, and enables its use for strategic analysis and business visualizations. The project involved the onboarding of four companies, one of which was fully completed, while the remaining three reached completion levels between 40% and 60%. To achieve this, connections to their data sources were established using Airbyte, integrating information from SAP systems, SQL databases, and files stored in SharePoint into BigQuery as the central data warehouse. Once the data was ingested, a layered ETL architecture was implemented using Dataform, structuring the data flow into raw, source, staging, core, and mart layers in accordance with data engineering best practices. Subsequently, DAGs were configured in Airflow to orchestrate and automate the periodic updates of tables and models, ensuring data consistency and continuous availability. The results demonstrate improvements in data traceability, standardization, accessibility, and overall data quality. The project highlights the importance of robust engineering practices and data governance frameworks to achieve reliable and integrated datasets that support business intelligence and advanced analytics. Keywords: data engineering, data warehouse, automation, data governance. Integración y Automatización de Datos Empresariales 1. Introducción En el contexto actual, las organizaciones requieren sistemas de datos centralizados, confiables y accesibles para soportar procesos de análisis, toma de decisiones y optimización operativa. Sin embargo, cuando los datos provienen de distintas compañías, tecnologías y plataformas, surgen retos relacionados con la fragmentación, la inconsistencia, la duplicidad y la falta de estandarización. Ante esta problemática, este trabajo se desarrolló con el propósito de diseñar y optimizar pipelines de datos que integrarán información procedente de diferentes empresas en un único data warehouse. El proyecto buscó mejorar la gobernanza de datos, garantizar su calidad y crear una base sólida para la generación de tableros de control e insights de valor para el negocio. El desarrollo incluyó el onboarding técnico de cuatro compañías, estableciendo conexiones seguras y ordenadas a sus fuentes de datos. Cada integración implicó el uso de herramientas modernas de ingeniería de datos, como Airbyte para la captura de información, Airflow para la orquestación de procesos y BigQuery como plataforma de almacenamiento analítico. Asimismo, se implementó Dataform para construir y mantener las capas formales del pipeline ETL, respetando principios de arquitectura escalable, mantenible y reproducible. El documento presenta la metodología empleada, los resultados obtenidos durante la implementación y las conclusiones derivadas del proceso, con el propósito de dejar un marco técnico claro para trabajos futuros. Integración y Automatización de Datos Empresariales 2. Objetivos 2.1 Objetivo general Desarrollar, automatizar y optimizar pipelines de datos end-to-end que permitan integrar información proveniente de múltiples compañías en un data warehouse centralizado, garantizando calidad, gobernanza, disponibilidad y valor analítico 2.2 Objetivos específicos ●​ Implementar procesos de extracción de datos desde diversas fuentes mediante Airbyte. ●​ Diseñar y construir flujos de orquestación con Airflow para automatizar las actualizaciones. ●​ Diseñar, construir y mantener pipelines ETL (Extraction, Transformation and Loading) que integren información proveniente de múltiples fuentes empresariales en un data warehouse centralizado. ●​ Estandarizar y depurar datos para asegurar consistencia, trazabilidad y cumplimiento de buenas prácticas. ●​ Evaluar la calidad y el desempeño de los pipelines desarrollados. Integración y Automatización de Datos Empresariales 3. Marco Teórico La ingeniería de datos es una disciplina encargada del diseño, implementación y mantenimiento de sistemas que permiten la captura, transformación, almacenamiento y disponibilidad de grandes volúmenes de información de manera eficiente y confiable. Esta disciplina constituye el soporte técnico fundamental para que las organizaciones desarrollen análisis avanzados y sistemas de soporte a la toma de decisiones basados en información estructurada, accesible y de alta calidad. En este contexto, los procesos ETL (Extraction, Transformation and Loading) representan un componente esencial, ya que permiten integrar datos provenientes de fuentes heterogéneas mediante la aplicación de reglas de negocio que garantizan coherencia, estandarización y gobernanza de la información (Kimball & Ross, 2013; Inmon, 2005). Los pipelines de datos modernos se apoyan en herramientas especializadas que facilitan la automatización y escalabilidad de los procesos de ingestión y transformación. Entre estas, Airbyte (Airbyte, Inc., 2023) se ha posicionado como una solución de código abierto orientada a la extracción e integración de datos mediante conectores reutilizables, permitiendo la conexión con bases de datos transaccionales, servicios en la nube y archivos estructurados. Complementariamente, Apache Airflow (Apache Software Foundation, 2023) es ampliamente reconocido como un orquestador de flujos de trabajo basado en grafos acíclicos dirigidos (DAG), utilizado para programar, monitorear y coordinar la ejecución de pipelines de datos de forma confiable y repetible en entornos empresariales. En cuanto al almacenamiento analítico, los data warehouses desempeñan un papel central al consolidar datos estructurados con fines de análisis, garantizando consistencia, disponibilidad y rendimiento. El surgimiento de plataformas en la nube ha fortalecido este enfoque, destacándose BigQuery como una solución escalable que permite ejecutar consultas analíticas de alto volumen mediante un motor de procesamiento distribuido, eliminando la necesidad de administrar infraestructura física y ofreciendo tiempos de respuesta adecuados para escenarios de inteligencia de negocio (Google Cloud, 2023). Desde la perspectiva del modelamiento y transformación de datos, herramientas como Dataform (Google Cloud, 2023) facilitan la construcción de modelos modulares y versionados utilizando Integración y Automatización de Datos Empresariales SQL, organizados en arquitecturas por capas que representan distintas etapas del procesamiento de datos. Estas capas permiten separar la ingesta de los datos crudos, los procesos de limpieza, transformación y consolidación, y la generación de productos analíticos finales, lo cual contribuye a mejorar la trazabilidad, la reproducibilidad y la gobernanza de la información. La gobernanza y calidad de los datos constituyen elementos transversales en los entornos de ingeniería de datos. La implementación de mecanismos de validación, monitoreo y control de accesos permite asegurar que la información sea precisa, consistente y alineada con las políticas organizacionales, reduciendo los riesgos asociados a datos incompletos, inconsistentes o desactualizados. Finalmente, el desarrollo de soluciones de ingeniería de datos se ve fortalecido por la adopción de metodologías ágiles como Scrum (Schwaber & Sutherland, 2020), las cuales permiten un enfoque iterativo e incremental, promoviendo la retroalimentación continua y la adaptación rápida a los requerimientos del negocio. La aplicación de marcos ágiles facilita la coordinación entre equipos técnicos y funcionales, incrementando la transparencia, la calidad del producto y la alineación entre los objetivos técnicos y estratégicos del proyecto. Integración y Automatización de Datos Empresariales 4. Metodología La metodología aplicada en este proyecto se basó en un enfoque práctico y aplicado, apoyado en la implementación del marco de trabajo ágil Scrum (Schwaber & Sutherland, 2020), lo cual permitió gestionar el desarrollo de manera iterativa, estructurada y adaptable a las necesidades cambiantes de cada compañía integrada al sistema. En este contexto, se realizó un análisis técnico de las fuentes de datos disponibles en cada empresa, identificando su tipo, estructura, nivel de limpieza y disponibilidad. Este levantamiento permitió definir los procesos de integración y las transformaciones necesarias dentro del pipeline de datos, así como establecer las configuraciones requeridas para garantizar la correcta ingestión, organización y actualización de la información en el data warehouse. La gestión del trabajo se organizó mediante Scrum, con sprints de dos semanas, lo que facilitó la planificación incremental y la entrega continua de funcionalidades. Las actividades clave dentro del marco Scrum fueron: ●​ Dailies tres veces por semana (lunes, miércoles y viernes), con el fin de revisar impedimentos, priorizar actividades y mantener sincronía entre los integrantes del equipo. ●​ Backlog refinement cada 2 semanas, donde se definían las tareas a desarrollar en el siguiente periodo. ●​ Toda la gestión, seguimiento, asignación de tareas, registro de evidencias se realizó en JIRA, lo cual permitió mantener una trazabilidad completa del ciclo de vida de cada desarrollo. Una vez finalizada cada tarea, esta pasó a una etapa de validación por parte del Product Owner (PO). El PO revisaba la calidad funcional de los resultados, verificaba que la implementación cumpliera los criterios de aceptación y autorizaba el paso a producción únicamente cuando las entregas cumplían con los estándares del proyecto. El proceso metodológico técnico se estructuró en las siguientes fases: Integración y Automatización de Datos Empresariales 1.​ Onboarding de compañías: análisis inicial de accesos, identificación de fuentes de datos y validación de la compatibilidad técnica para su ingestión. 2.​ Extracción e ingestión con Airbyte: configuración de conectores hacia SAP, PostgreSQL, SharePoint y otras fuentes de datos; definición de replicaciones completas e incrementales; monitoreo de ejecuciones. 3.​ Construcción del pipeline ETL con Dataform: desarrollo de las capas raw, source, staging, core y mart bajo principios de modularidad, versionamiento, gobernanza y reproducibilidad. En esta etapa también se realizaron ajustes a la lógica de múltiples campos, garantizando mayor calidad en los reportes, datos más coherentes, reglas de negocio actualizadas y alineación con las necesidades en tiempo real de cada compañía. 4.​ Orquestación con Airflow: creación de DAGs para automatizar cargas, definir dependencias, ejecutar procesos diarios de actualización de cada capa y manejar alertas y errores. 5.​ Evaluación y documentación: se realizó una evaluación continua de la calidad y el desempeño de los pipelines, a través del seguimiento de ejecuciones, revisión de errores, validación de actualizaciones y control de la consistencia de los datos. Paralelamente, se llevó a cabo una documentación técnica de modelos, transformaciones y decisiones arquitectónicas, facilitando el mantenimiento y la mejora continua del sistema. La combinación de una arquitectura escalable, procesos automatizados y prácticas ágiles permitió una ejecución eficiente e iterativa del proyecto, alineada con los objetivos de estandarización, calidad, gobernanza y generación de valor analítico. Integración y Automatización de Datos Empresariales 5. Análisis de Resultados Durante el desarrollo del proyecto se llevó a cabo el proceso de onboarding de cuatro compañías. Una se completó al 100%, mientras que las restantes avanzaron entre un 50% y un 90% (Figura 1), lo cual estuvo condicionado por la complejidad de las fuentes de datos, así como por la disponibilidad, calidad y estructura de la información requerida en cada organización. Figura 1. Onboarding de compañías Estos resultados se lograron mediante la ejecución de las acciones descritas a continuación. 5.1 Integración de múltiples fuentes Se establecieron conexiones exitosas a diversas fuentes empresariales, incluyendo sistemas SAP, bases de datos SQL como MySQL y archivos alojados en plataformas colaborativas como SharePoint. Cada una de estas integraciones requirió configuraciones específicas de extractores en Airbyte y la definición de pipelines independientes según la tecnología de origen (Figura 2). Figura 2. Interfaz Airbyte Integración y Automatización de Datos Empresariales 5.2 Estandarización de estructuras Una vez los datos fueron incorporados al data warehouse a través de Airbyte, se utilizaron Visual Studio Code y Dataform (Figura 3) se crearon las tablas en BigQuery siguiendo una arquitectura de 5 capas, denominadas raw, source, staging, core y mart (Figura 4). Cada capa cumple una función específica dentro del pipeline de datos, como se describe a continuación. ●​ Raw: almacena los datos en su estado original, sin aplicar transformaciones, preservando la información tal como es extraída de las fuentes de origen. ●​ Source: aplica procesos de limpieza, deduplicación y estandarización, garantizando consistencia en los tipos de datos y cumplimiento de reglas básicas de calidad. ●​ Staging: integra y transforma datos relacionados dentro de una misma fuente, preparando la información para su posterior consolidación. ●​ Core: consolida las principales entidades del negocio, como ventas, clientes o productos, y actúa como fuente de verdad para la organización. ●​ Mart: contiene los productos analíticos finales, desde donde se generan reportes y tableros de inteligencia de negocio. Esta arquitectura por capas permitió mejorar significativamente la trazabilidad de la información, facilitando la actualización de la lógica de los campos, la corrección de errores y la refactorización de bloques de código en las distintas capas cuando fue necesario. Asimismo, contribuyó a la estandarización de formatos y al incremento de la calidad general de los datos procesados, lo que facilitó su uso confiable para análisis y la toma de decisiones. 5.3 Automatización de procesos Para garantizar la actualización automática y periódica de la información de las tablas y reportes, se implementaron DAGs (Directed Acyclic Graphs) en Airflow (Figura 5). Estos DAGs permiten ejecutar tareas diarias sin intervención humana, reduciendo el riesgo de errores manuales y mejorando los tiempos de procesamiento. Integración y Automatización de Datos Empresariales Figura 3. Ejemplo de Dataform​ ​ ​ Figura 4. Arquitectura ETL Figura 5. Interfaz de Airflow Específicamente, la Figura 6 muestra un ejemplo de un DAG implementado en la interfaz de Apache Airflow, en esta se puede observar el estado y comportamiento de las ejecuciones programadas del pipeline de datos. Esta figura evidencia las distintas tareas que componen el flujo, así como su historial de ejecuciones exitosas y fallidas, lo que permitió monitorear de manera sencilla el correcto funcionamiento del proceso. Esto también facilitó la supervisión Integración y Automatización de Datos Empresariales continua de las cargas de datos, la detección temprana de errores y la verificación de que la información se actualiza de forma consistente y ordenada, contribuyendo así a la confiabilidad y estabilidad de los reportes generados a partir del data warehouse. Figura 6. Ejemplo de DAG 5.5 Reportes La integración de múltiples compañías permitió evidenciar la efectividad de la arquitectura por capas, así como el impacto positivo de la automatización de procesos mediante Airflow y la estandarización de transformaciones con Dataform. Estos componentes, al operar de manera conjunta, fortalecen la gobernanza de datos, mejoran la trazabilidad de la información y garantizan la consistencia de los datos a lo largo de las diferentes capas de la arquitectura. Como resultado, la organización dispone de información confiable y oportuna que respalda el análisis del desempeño operativo y financiero, facilitando la identificación de tendencias, desviaciones y oportunidades de mejora. Este enfoque integral no solo optimiza la generación de reportes, sino que también sienta las bases para una toma de decisiones más informada y estratégica, alineada con los objetivos del negocio, como se muestra en el dashboard presentado en la Figura 7. Integración y Automatización de Datos Empresariales Figura 7. Ejemplo de un dashboard implementado Integración y Automatización de Datos Empresariales 6. Conclusiones y Recomendaciones 6.1 Conclusiones ●​ La centralización de datos provenientes de compañías diversas exige una arquitectura robusta y herramientas especializadas; el uso combinado de Airbyte, Airflow, BigQuery y Dataform demostró ser efectivo y escalable. ●​ La implementación por capas facilitó la estandarización y permitió garantizar la calidad de la información, convirtiéndose en un factor crítico para asegurar gobernanza y trazabilidad. ●​ El avance del onboarding demuestra que, aunque cada empresa presenta desafíos únicos, el proceso puede replicarse de forma organizada y eficiente. ●​ La automatización logró reducir tiempos de procesamiento y mitigar errores manuales, aumentando la confiabilidad del sistema. ●​ La integración lograda constituye una base sólida para el desarrollo de dashboards, analítica avanzada e iniciativas futuras orientadas al aprovechamiento del dato. 6.2 Recomendaciones ●​ Completar los onboarding restantes siguiendo el mismo estándar de documentación, validaciones y pruebas. ●​ Continuar implementando buenas prácticas de versionamiento y revisión de código. ●​ Explorar la incorporación de monitoreo avanzado (por ejemplo, alertas vía Slack u otros canales). ●​ Facilitar la capacitación interna para que equipos futuros puedan mantener y extender la arquitectura creada. Integración y Automatización de Datos Empresariales Referencias Apache Software Foundation. (2023). Apache Airflow documentation. https://airflow.apache.org/docs/ Apache Software Foundation. (2023). Apache Airflow: Workflow management platform. https://www.apache.org/ Airbyte, Inc. (2023). Airbyte documentation. https://docs.airbyte.com/ Google Cloud. (2023). BigQuery documentation. Google LLC. https://cloud.google.com/bigquery/docs Google Cloud. (2023). Dataform documentation. Google LLC. https://cloud.google.com/dataform/docs IBM. (2016). Data governance: A practical guide. IBM Press. Inmon, W. H. (2005). Building the data warehouse (4th ed.). John Wiley & Sons. Kimball, R., & Ross, M. (2013). The data warehouse toolkit: The definitive guide to dimensional modeling (3rd ed.). John Wiley & Sons. Meyer, M., Sedlmair, M., & Munzner, T. (2020). Criteria for rigor in visualization design study. IEEE Transactions on Visualization and Computer Graphics, 26(1), 87–97. https://doi.org/10.1109/TVCG.2019.2934539 Schwaber, K., & Sutherland, J. (2020). The Scrum guide: The definitive guide to Scrum. Scrum.org. https://scrumguides.org/scrum-guide.html https://airflow.apache.org/docs/ https://airflow.apache.org/docs/ https://www.apache.org/ https://www.apache.org/ https://docs.airbyte.com/ https://cloud.google.com/bigquery/docs https://cloud.google.com/bigquery/docs https://cloud.google.com/dataform/docs https://cloud.google.com/dataform/docs https://doi.org/10.1109/TVCG.2019.2934539 https://scrumguides.org/scrum-guide.html Resumen Abstract 1. Introducción 2. Objetivos 2.1 Objetivo general 2.2 Objetivos específicos 3. Marco Teórico 5. Análisis de Resultados 5.1 Integración de múltiples fuentes 5.2 Estandarización de estructuras 5.3 Automatización de procesos 5.5 Reportes 6. Conclusiones y Recomendaciones Referencias