Desarrollo de una metodología para realizar análisis modal de emisiones vehiculares Óscar David Hincapié García Trabajo de investigación presentado para optar por el título de Magíster en Ingeniería Mecánica con énfasis en Investigación Director Andrés Felipe Agudelo Santamaría, (PhD) en Energías Renovables y Eficiente Energética Universidad de Antioquia Facultad de Ingeniería Maestría en Ingeniería Mecánica con énfasis en Investigación Medellín, Antioquia, Colombia 2024 Maestría en Ingeniería Mecánica con énfasis en Investigación, Cohorte VI Grupo de Investigación de Manejo Eficiente de la Energía — GIMEL Centro de Investigación Ambiental — CIA Centro de documentación UdeA Repositorio Institucional: http://bibliotecadigital.udea.edu.co Universidad de Antioquia - www.udea.edu.co El contenido de esta obra corresponde al derecho de expresión de los autores y no compromete el pensamiento institucional de la Universidad de Antioquia ni desata su responsabilidad frente a terceros. Los autores asumen la responsabilidad por los derechos de autor y conexos. Cita O. D. Hincapié García [1] Referencia Estilo IEEE (2020) [1] O. D. Hincapié García, “Desarrollo de una metodología para realizar análisis modal de emisiones vehiculares”, Tesis de maestría, Maestría en Ingeniería Mecánica con énfasis en Investigación, Universidad de Antioquia, Medellín, 2024 Facultad de Ingenieŕıa Departamento de Ingenieŕıa Mecánica 2023 Desarrollo de una metodoloǵıa para realizar análisis modal de emisiones vehiculares Trabajo de investigación para optar por el t́ıtulo de Maestŕıa en Ingenieŕıa Mecánica con Énfasis en Investigación Desarrollado por: Óscar David Hincapié Garćıa Supervisado por: Andrés Felipe Agudelo Santamaŕıa Resumen Esta investigación se enfoca en el desarrollo de una metodoloǵıa que facilite la creación y uti- lización de modelos de análisis modal de emisiones (AME), utilizando datos de posicionamiento global medidos con sensores GPS. Estos modelos estiman factores de emisión, los cuales cuantifi- can las emisiones en relación con la masa de contaminantes y la actividad del veh́ıculo. Éstos se diseñaron para los veh́ıculos más representativos de la región del Área Metropolitana del Valle de Aburrá, considerando condiciones locales, como la calidad de los combustibles, la topograf́ıa y los patrones de conducción. La metodoloǵıa propuesta se divide en tres etapas: creación, validación y aplicación de modelos de emisiones contaminantes. Ésta se materializó mediante el desarrollo de flujos de procesamiento de datos y la creación de modelos de aprendizaje de máquina (Machine Learning – ML). Inicialmente se presenta el procesamiento de los datos, en el cual, se procesan las mediciones experimentales de variables dinámicas, emisiones contaminantes y datos de posicionamiento global; aplicando técnicas de procesamiento y calculando variables a partir de formulaciones matemáticas propuestas en la literatura. Este procesamiento se hizo mediante la creación de fases para cada una de las etapas de la metodoloǵıa (creación, validación y uso). Estas fases incorporan técnicas de procesamiento como la sincronización de señales, la depuración de desconexiones de GPS, el filtrado de señales, y la depuración de mediciones experimentales. Además, se calculó variables a partir de las mediciones, tales como la aceleración, la pendiente, las inercias del veh́ıculo, la potencia espećıfica vehicular, el estrés del motor, y los flujos másicos de las emisiones contaminantes. Después, se aplicó un análisis de incertidumbre en la metodoloǵıa mediante el cálculo de las incertidumbres para equipos de medición y la propagación de éstas en algunas etapas de la me- todoloǵıa. Este análisis permite tener precisión y exactitud cuando se crean modelos AME y se reportan los resultados de factores de emisión para fuentes móviles. También, se analizaron las incertidumbres de los factores de emisión basados en datos instantáneos obtenidos con PEMS mediante la metodoloǵıa de la norma ASME PTC 19.1 y simulaciones Monte Carlo. Se encontró 1 que ambas técnicas son válidas para obtener las incertidumbres dado que se obtuvieron resultados idénticos. Finalmente, se aplicaron diversas técnicas de creación de modelos AME utilizando las variables depuradas en el procesamiento de datos. La metodoloǵıa incluyó la formación de grupos de datos con comportamientos similares para estimar emisiones contaminantes. Estos grupos se generaron mediante la distribución de densidad de probabilidad, técnicas de interpolación y aproximación, o técnicas estad́ısticas de aprendizaje de datos. De este modo, se seleccionó el mejor modelo para estimar emisiones solo con nuevos datos GPS. Además, se utilizaron modelos existentes (MOVES, IVE, AMVA) para comparar con los modelos desarrollados en este trabajo. Palabras claves: Análisis modal de emisiones, potencia espećıfica vehicular, veh́ıculos de ser- vicio pesados, técnicas de análisis de datos, técnicas de aprendizaje de datos. 2 Índice Agradecimientos 12 1. Introducción 14 1.1. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.1. Emisiones contaminantes de fuentes móviles . . . . . . . . . . . . . . . . . . 16 1.1.2. Análisis modal de emisiones vehiculares . . . . . . . . . . . . . . . . . . . . . 17 1.1.3. Metodoloǵıa para desarrollar modelos de análisis modal de emisiones . . . . 19 1.1.3.1. Creación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.1.3.2. Validación de los modelos . . . . . . . . . . . . . . . . . . . . . . . 21 1.1.3.3. Implementación de los modelos . . . . . . . . . . . . . . . . . . . . 22 1.1.3.4. Procesamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . 23 1.1.3.5. Variables de entrada del modelo . . . . . . . . . . . . . . . . . . . . 25 1.1.3.6. Creación de grupos – binning . . . . . . . . . . . . . . . . . . . . . 27 1.1.3.7. Manejo de errores e incertidumbres . . . . . . . . . . . . . . . . . . 28 1.2. Contexto de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.2.1. Veh́ıculos de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.2.2. Otros aspectos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.3. Planteamiento del problema y objetivos . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.2. Objetivos espećıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.4. Estructura del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2. Procesamiento de datos 34 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.1.1. Datos experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.1.2. Patrones de conducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.1.3. Zona de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2. Metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.2.1. Formulación matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3 2.2.1.1. Datos de movilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.2.1.2. Datos de pruebas en ruta . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.2. Etapas de procesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.2.1. Procesamiento de datos MD . . . . . . . . . . . . . . . . . . . . . . 40 2.2.2.2. Procesamiento de datos MV . . . . . . . . . . . . . . . . . . . . . . 42 2.2.2.3. Procesamiento para validación . . . . . . . . . . . . . . . . . . . . . 44 2.3. Técnicas de procesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.3.1. Depuración de desconexiones de GPS . . . . . . . . . . . . . . . . . . . . . . 45 2.3.1.1. Segmentación a partir del tiempo . . . . . . . . . . . . . . . . . . . 46 2.3.1.2. Segmentación a partir de la velocidad . . . . . . . . . . . . . . . . . 47 2.3.2. Filtrado de señales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.3.3. Depuración de mediciones experimentales . . . . . . . . . . . . . . . . . . . . 49 2.3.4. Sincronización de señales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.3.4.1. Sincronización mediante eventos súbitos . . . . . . . . . . . . . . . 52 2.3.4.2. Sincronización mediante correlaciones . . . . . . . . . . . . . . . . . 55 2.4. Cálculo de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.4.1. Velocidad del veh́ıculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.4.2. Aceleración del veh́ıculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.4.3. Pendiente de la v́ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.4.3.1. Estimación de la pendiente con múltiples mediciones (G) . . . . . . 60 2.4.3.2. Estimación de la pendiente basado en una sola medición (G⇤) . . . 62 2.4.4. Inercias del veh́ıculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.4.5. Potencia Espećıfica Vehicular - VSP . . . . . . . . . . . . . . . . . . . . . . . 65 2.4.6. Estrés del Motor – ES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.4.7. Flujos másicos de emisiones contaminantes . . . . . . . . . . . . . . . . . . . 67 2.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3. Incertidumbres 69 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.2. Incertidumbres para mediciones con PEMS . . . . . . . . . . . . . . . . . . . . . . . 72 3.2.1. Para datos medidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.2.2. Para datos calculados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.3. Incertidumbres para datos consolidados con mediciones PEMS . . . . . . . . . . . . 77 3.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4. Metodoloǵıa para crear modelos de AME 79 4 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.2. Aprendizaje automático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.2.1. Supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.2.2. No supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.3. Metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.3.1. Definición de modos de conducción . . . . . . . . . . . . . . . . . . . . . . . 84 4.3.2. Creación de nuevos descriptores . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.3.3. Transformación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.3.4. Creación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.3.4.1. Implementación de modelos de referencia . . . . . . . . . . . . . . . 86 4.3.4.2. Creación de modelos basados en la distribución de la VSP . . . . . 87 4.3.4.3. Creación de modelos con técnicas de aprendizaje supervisado . . . . 87 4.3.4.4. Creación de grupos con técnicas de aprendizaje no supervisado . . . 89 4.3.4.5. Emisiones representativas de cada grupo . . . . . . . . . . . . . . . 91 4.3.5. Validación de los modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.4.1. Modos de conducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.4.2. Técnicas de visualización de datos . . . . . . . . . . . . . . . . . . . . . . . . 94 4.4.3. Creación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.4.3.1. Modelos de referencia . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.4.3.2. Modelos basados en la distribución de la VSP . . . . . . . . . . . . 97 4.4.3.3. Modelos con técnicas de aprendizaje supervisado . . . . . . . . . . 99 4.4.3.4. Modelos con técnicas de aprendizaje no supervisado . . . . . . . . . 102 4.4.4. Validación de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.4.4.1. Modelos de clasificación . . . . . . . . . . . . . . . . . . . . . . . . 105 4.4.4.2. Modelos de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.4.5. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5. Conclusiones y Recomendaciones 110 5.1. Śıntesis de la metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.1.1. Para el procesamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.1.2. Para las incertidumbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.1.3. Para la creación de modelos AME . . . . . . . . . . . . . . . . . . . . . . . . 112 5.1.4. Para la validación de modelos AME . . . . . . . . . . . . . . . . . . . . . . . 113 5 5.1.5. Para el uso de modelos AME . . . . . . . . . . . . . . . . . . . . . . . . . . 113 5.2. Relativas con el procesamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.2.1. Para los conjuntos MD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.2.2. Para los conjuntos MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.3. Relativas con las incertidumbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.4. Relativas con los modelos de estimación de emisiones . . . . . . . . . . . . . . . . . 116 A. Anexos 124 A.1. Patrones de conducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 A.2. Inercias de veh́ıculos de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 A.3. Resultados por pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 A.3.1. Reproducibilidad de pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 A.3.2. Factores de emisión para las mediciones experimentales . . . . . . . . . . . . 135 A.3.3. Correlaciones de concentraciones de emisiones y la VSP . . . . . . . . . . . . 137 A.3.4. Correlaciones de flujos másicos de emisiones y la VSP . . . . . . . . . . . . . 141 A.4. Incertidumbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 A.4.1. Incertidumbre para el cálculo a través de mediciones experimentales . . . . . 143 A.4.2. Memoria de cálculo para la propagación de incertidumbres . . . . . . . . . . 144 A.4.3. Resultados de incertidumbres para los factores de emisión . . . . . . . . . . . 144 A.5. Flujos para estimar de pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 A.5.1. Metodoloǵıas de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 A.5.2. Errores de estimación para pruebas de validación . . . . . . . . . . . . . . . 151 6 Índice de figuras 1. Metodoloǵıa para desarrollar análisis modal de emisiones vehiculares . . . . . . . . . 18 2. Metodoloǵıa para la creación de modelos de análisis modal de emisiones . . . . . . . 20 3. Metodoloǵıa para la validación de modelos de análisis modal . . . . . . . . . . . . . 21 4. Metodoloǵıa para la implementación de modelos . . . . . . . . . . . . . . . . . . . . 22 5. Distribución de emisiones contaminantes del Valle de Aburrá . . . . . . . . . . . . . 29 6. Emisiones contaminantes de fuentes móviles en el Valle de Aburrá . . . . . . . . . . 30 7. Montaje experimental para recolectar datos de movilidad y emisiones . . . . . . . . 36 8. Caracteŕısticas de la ruta de mediciones . . . . . . . . . . . . . . . . . . . . . . . . . 37 9. Metodoloǵıa general de procesamiento de datos . . . . . . . . . . . . . . . . . . . . 40 10. Metodoloǵıa para procesar los datos del conjunto MD . . . . . . . . . . . . . . . . 41 11. Metodoloǵıa para procesar los datos de conjunto MV . . . . . . . . . . . . . . . . . 43 12. Corrección de desconexiones en los datos de GPS . . . . . . . . . . . . . . . . . . . 46 13. Ejemplo del efecto de filtrado de señales (conjunto MVk) . . . . . . . . . . . . . . . 48 14. Metodoloǵıa para sincronizar señales . . . . . . . . . . . . . . . . . . . . . . . . . . 51 15. Ejemplo de eventos súbitos identificados mediante el criterio C2(i) . . . . . . . . . . 54 16. Ejemplo de resultados de sincronización mediante correlaciones . . . . . . . . . . . . 56 17. Ejemplo de los resultados del proceso de sincronización para un prueba . . . . . . . 57 18. Comparación entre las dos formas de determinación de la pendiente . . . . . . . . . 63 19. Sistema masa-equivalente para la transmisión de un veh́ıculo . . . . . . . . . . . . . 64 20. Componentes del error de un conjunto de mediciones. Adaptado de la ASME PTC 19.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 21. Fuentes de Incertidumbre para la concentración de CO2 de una prueba en ruta . . . 74 22. Incertidumbre sistemática para la concentración de CO2 de una prueba en ruta . . . 75 23. Propagación de incertidumbre para una variable calculada a través de datos medidos con PEMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 24. Propagación de incertidumbre para la VSP a través de datos medidos con PEMS . . 77 25. Metodoloǵıa para desarrollar modelos AMEV . . . . . . . . . . . . . . . . . . . . . 82 26. Metodoloǵıa para implementar modelos de referencia . . . . . . . . . . . . . . . . . 86 27. Metodoloǵıa para crear modelos basados en la VSP . . . . . . . . . . . . . . . . . . 87 7 28. Metodoloǵıa para crear modelos con algoritmo de regresión XGBRegressor . . . . . 88 29. Metodoloǵıa para crear modelos con algoritmos de agrupamiento . . . . . . . . . . . 90 30. Metodoloǵıa de validación de modelos AMEV . . . . . . . . . . . . . . . . . . . . . 91 31. Metodoloǵıa de estimación de factores de emisión con modelos de análisis modal . . 92 32. Representación 2D de para el modo de conducción 1 - AS (aceleración + subida) para el veh́ıculo B1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 33. Modelo para la emisión CO2 con los modelos de referencia para el veh́ıculo V1 . . . 96 34. Modelo para la emisión CO2 con el grupos que contengan el 5% de los datos para el veh́ıculo V1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 35. Agrupamiento k-Means para el modo 1 - AS del B1. En la figura t-SNE (izquierda) y PCA (derecha) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 36. Agrupamiento A�nity Propagation para el modo 1 - AS del B1. En la figura t-SNE (izquierda) y PCA (derecha) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 37. Parámetros dinámicos para los microviajes que conforman los patrones de conduc- ción para los veh́ıculos pesados del Area Metropolitana . . . . . . . . . . . . . . . . 124 38. Patrón de conducción para buses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 39. Patrón de conducción para camiones . . . . . . . . . . . . . . . . . . . . . . . . . . 126 40. Patrón de conducción para volquetas . . . . . . . . . . . . . . . . . . . . . . . . . . 127 41. Flujo de estimación para pruebas MV utilizando modelos de referencia con enfoque de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 42. Flujo de estimación para pruebas MV utilizando modelos de A�nity Propagation y K-Means con enfoque de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . 149 43. Flujo de estimación para pruebas MV utilizando modelos de referencia con enfoque de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 44. Flujo de estimación para pruebas MV utilizando modelos XGBRegressor de datos con enfoque de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 8 Índice de tablas 1. Veh́ıculos pesados representativos del Área Metropolitana del Valle de Aburrá . . . 31 2. Cantidad de registros (pruebas) para la creación y validación de modelos . . . . . . 44 3. Ejemplo de caracteŕısticas de pruebas para las etapas de creación y validación . . . 44 4. Criterios de depuración de mediciones . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5. Parámetros por variable para implementar sincronización con procesos de derivación 52 6. Cálculo de criterios para determinar eventos súbitos . . . . . . . . . . . . . . . . . . 53 7. Criterios de búsqueda de eventos súbitos . . . . . . . . . . . . . . . . . . . . . . . . 54 8. Variables óptimas para obtener puntos de sincronización con procesos de correlación 57 9. Resultados de la pendiente de la v́ıa usando varias pruebas . . . . . . . . . . . . . . 61 10. Parámetros para cálculo de la VSP . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 11. Rangos de VSP y V para obtener el divisor de velocidad . . . . . . . . . . . . . . . 67 12. Correlaciones entre el flujo de gases en el escape y las concentraciones de emisiones de gases contaminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 13. Fuentes de incertidumbre para el equipo de medición HORIBA OBS ONE . . . . . 73 14. Fuentes de incertidumbre para la velocidad . . . . . . . . . . . . . . . . . . . . . . . 75 15. Espacio de búsqueda de hiperparámetros para el algoritmo XGBoost . . . . . . . . 89 16. Datos por modo de conducción para las tres formas de cálculo de la pendiente . . . 94 17. Rangos de VSP [kW/ton] creados con n = 0.05 para la función de densidad acumu- lada para el veh́ıculo B1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 18. Parámetros estad́ısticos para distribución de la bondad de ajuste r 2 . . . . . . . . . 100 19. Bondad de ajuste en la emisiones, comparando las dos formas de determinar la pendiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 20. Importancia de variables de los modelos XGBoost . . . . . . . . . . . . . . . . . . . 101 21. Resultados de agrupamiento con técnicas de aprendizaje no supervisadas . . . . . . 102 22. Errores de estimación de modelos de referencia (Clasificación) . . . . . . . . . . . . 105 23. Errores de estimación para modelos basados en la CPDF de la VSP (Clasificación) . 105 24. Errores de estimación para modelos creados a partir de agrupamientos con KM y AP (Clasificación) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 25. Errores de estimación para modelos de referencia creados con técnicas de regresión . 106 9 26. Errores de estimación para modelos creados a partir de la CPDF de la VSP (Regresión)107 27. Errores de estimación para modelos creados mediante la técnica XGBRegressor (Re- gresión) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 28. Errores de estimación para los modelos desarrollados . . . . . . . . . . . . . . . . . 108 29. Coeficiente de inercia representativo para autobuses . . . . . . . . . . . . . . . . . . 128 30. Coeficiente de inercia representativo para camiones grandes . . . . . . . . . . . . . . 128 31. Coeficiente de inercia representativo para camiones pequeños . . . . . . . . . . . . . 129 32. Coeficiente de inercia representativo para volquetas . . . . . . . . . . . . . . . . . . 129 33. Calidad de pruebas para buses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 34. Calidad de pruebas para camiones grandes . . . . . . . . . . . . . . . . . . . . . . . 132 35. Calidad de pruebas para camiones pequeños . . . . . . . . . . . . . . . . . . . . . . 133 36. Calidad de pruebas para volquetas . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 37. Factores de emisión por prueba para los buses . . . . . . . . . . . . . . . . . . . . . 135 38. Factores de emisión por prueba para los camiones grandes . . . . . . . . . . . . . . 136 39. Factores de emisión por prueba para los camiones pequeños . . . . . . . . . . . . . . 136 40. Factores de emisión por prueba para las volquetas . . . . . . . . . . . . . . . . . . . 137 41. Correlaciones concentraciones de emisiones vs. VSP para los buses . . . . . . . . . . 138 42. Correlaciones concentraciones de emisiones vs. VSP para los camiones grandes . . . 139 43. Correlaciones concentraciones de emisiones vs. VSP para los camiones pequeños . . 139 44. Correlaciones concentraciones de emisiones vs. VSP para las volquetas . . . . . . . . 140 45. Correlaciones flujos másicos de emisiones vs. VSP para los buses . . . . . . . . . . . 141 46. Correlaciones flujos másicos de emisiones vs. VSP para los camiones grandes . . . . 142 47. Correlaciones flujos másicos de emisiones vs. VSP para los camiones pequeños . . . 142 48. Correlaciones flujos másicos de emisiones vs. VSP para las volquetas . . . . . . . . . 143 49. Incertidumbre para los factores de emisiones para los buses . . . . . . . . . . . . . . 145 50. Incertidumbres para los factores de emisiones para los camiones grandes . . . . . . . 146 51. Incertidumbres para los factores de emisiones para los camiones pequeños . . . . . . 147 52. Incertidumbres para los factores de emisión para las volquetas . . . . . . . . . . . . 148 53. Errores de estimación para los veh́ıculos B1 y B2 con un enfoque de regresión . . . . 151 54. Errores de estimación para los veh́ıculos B3 y B4 con un enfoque de regresión . . . . 152 55. Errores de estimación para los veh́ıculos CG-1 y CG-2 con un enfoque de regresión . 153 56. Errores de estimación para los veh́ıculos CP-1 y CP-2 con un enfoque de regresión . 154 57. Errores de estimación para los veh́ıculos V1 y V2 con un enfoque de regresión . . . 154 58. Errores de estimación para los veh́ıculos B1 y B2 con un enfoque de clasificación . . 155 59. Errores de estimación para los veh́ıculos B3 y B4 con un enfoque de clasificación . . 156 10 60. Errores de estimación para los veh́ıculos CG-1 y CG-2 con un enfoque de clasificación157 61. Errores de estimación para los veh́ıculos CP-1 y CP-2 con un enfoque de clasificación158 62. Errores de estimación para los veh́ıculos V1 y V2 con un enfoque de clasificación . . 159 11 Agradecimientos A la Universidad de Antioquia, por ser esa puerta abierta donde se encuentra un universo inmenso de conocimiento, de diversidad y de cultura. A los profesores Andrés Felipe Agudelo, John Ramiro Agudelo y Ricardo Moreno Sanchez por su apoyo durante mi formación como investigador y como persona. Al profesor Mauricio Osses de la Universidad Técnica Federico Santa Maŕıa de Chile, por sus valiosas contribuciones en la discusión de la metodoloǵıa del Análisis Modal de Emisiones, y por sus recomendaciones para llevar a cabo la campaña experimental. Un agradecimiento especial a todo el equipo de trabajo del grupo de manejo eficiente de la enerǵıa (GIMEL) por su entrega incondicional para que este proyecto saliera adelante de la mejor manera posible. Al instituto colombiano del Petróleo (IPC) de ECOPETROL por facilitarle a los proyectos FEVA-I y FEVA-II un equipo humano de gran capacidad técnica y un control experimental rigu- roso. Gracias a Sandro González, José Luis Sarmiento, Freddy Giovanni Melo y Carlos Jaramillo por su entrega y dedicación en la campaña experimental. Al Área Metropolitana del Valle de Aburrá y a la subdirección de calidad de aire, por promover los proyectos desarrollados con el grupo GIMEL. Gracias a todos los que directa o indirectamente estuvieron vinculados con la ejecución del proyecto FEVA-II, entre otros: Al profesor John Jairo Posada de la Facultad de Minas de la Universidad Nacional de Co- lombia, por facilitarnos datos GPS que permitieron obtener los registros de geolocalización y velocidad instantánea de las volquetas. Al Departamento de Transporte de la Universidad de Antioquia por facilitarnos veh́ıculos de la Universidad para realizar mediciones. A la empresa Sofasa S.A., por la donación de un veh́ıculo Logan Dynamique modelo 2016, que ha sido usado en pruebas desde el comienzo de FEVA-I, y que sirvió como veh́ıculo de apoyo en las pruebas en ruta de FEVA-II. 12 A Coordinadora Mercantil por facilitar dos veh́ıculos C2 pequeños para realizar pruebas en ruta. A TCC por facilitar sus bases de datos de geolocalización y velocidad instantáneas para el Valle de Aburrá de gran parte de su flota. A la secretaŕıa de infraestructura f́ısica de la Alcald́ıa de Medelĺın por facilitar una volqueta Euro IV para las mediciones. A la empresa UMO, por su ayuda en la adaptación de los sistemas de escape de todos los veh́ıculos de prueba. A DEVIMED por su autorización y acompañamiento durante las pruebas en la Autopista Medelĺın-Bogotá. 13 1 Introducción La contaminación atmosférica representa uno de los mayores desaf́ıos que deben enfrentar ac- tualmente los grandes centros urbanos para garantizar la calidad de aire. Para controlar la con- taminación atmosférica se deben identificar y cuantificar las fuentes de emisión. Estas fuentes de contaminación se clasifican principalmente como fijas y móviles. Las fuentes móviles son los veh́ıculos de transporte personal, de carga, y de pasajeros, aśı como aeronaves, embarcaciones, y maquinaria de trabajo pesado. Éstas contribuyen aproximadamente con el 82% de las emisiones de PM2.5 (Material particulado de tamaño 2.5µm) primario emitido en el Área Metropolitana del Valle de Aburrá [1]. Estas fuentes utilizan combustibles (CxHyOz), y mediante procesos de com- bustión convierten éstos en enerǵıa térmica y productos de combustión, de los cuales algunos son contaminantes. Dichos productos pasan por sistemas de postratamiento, y se expulsan al medio ambiente, generando diversos problemas a la salud pública y al medio ambiente. Una de las formas de cuantificar las emisiones contaminantes de un veh́ıculo es a través de los factores de emisión, los cuales representan un ı́ndice de emisión espećıfica en términos de masa de contaminante (gramos, número) por unidad de actividad (distancia recorrida en km). Los principales contaminantes emitidos por las fuentes móviles son CO, CO2, óxidos de nitrógeno – NOx, hidrocarburos sin quemar – HC (incluyen compuestos orgánicos volátiles), y material par- ticulado – PM (cuando se mide su masa) y PN (cuando se mide el número de part́ıculas). La emisión de CO2 representa un aporte al calentamiento global. Las emisiones de THC están relacio- nadas con efectos serios sobre la salud humana [2]. Los NOx están directamente relacionados con la generación de compuestos como los peroxi-axil-nitratos (PAN), altamente canceŕıgenos. Tam- bién están relacionados con la acidificación de las lluvias y con la formación de ozono atmosférico, el cual genera irritación en el sistema respiratorio de seres humanos y animales [3]. El material particulado, especialmente las part́ıculas más pequeñas, denominadas ultrafinas, suelen ser más peligrosas porque permanecen suspendidas en el aire durante mayores periodos, facilitando que los seres humanos y los animales las respiremos. Adicionalmente, al ser tan pequeñas, tienen más 14 facilidad de llegar hasta los alvéolos pulmonares y al torrente sangúıneo [4]. Por esta razón, se suelen asociar las part́ıculas con la mortalidad y morbilidad de seres humanos [2]. La Organización Mundial de la Salud -OMS-, apoyada en las evidencias reportadas por la Agen- cia Internacional de Investigación en Cáncer (IARC), declaró en 2012 que las emisiones de veh́ıculos diesel (tanto gaseosas como de material particulado) son carcinogénicas para el ser humano [5]. Según el Departamento Nacional de Planeación (DNP) de la República de Colombia, en 2015, aproximadamente 8,000 muertes podŕıan estar relacionadas con la mala calidad del aire en el páıs, más de 7,000 muertes estaŕıan relacionadas con enfermedades cardiovasculares, cerca de 700 por cáncer de pulmón en personas mayores de 44 años, y alrededor de 20 en niños menores de 5 años. En términos de morbilidad, el estudio del DNP reporta que la mala calidad del aire supondŕıa para el páıs más de 124 mil atenciones hospitalarias por enfermedades en v́ıas respiratorias, y cerca de 4,000 casos por bronquitis crónica. Según el DNP, a la nación le cuesta entre 1.9 y 12.3 billones de pesos la morbilidad y mortalidad por mala calidad del aire, lo que equivale entre 0.2% y 1.5% del producto interior bruto (PIB) de 2015 de Colombia [6]. Desde hace aproximadamente un par de décadas, se reportan modelos que permiten estimar emisiones contaminantes de veh́ıculos en función de algunos modos de conducción, que obecen a la dinámica que experimenta el veh́ıculo en un recorrido (Análisis Modal de Emisiones – AME), la mayoŕıa de los cuales se ha desarrollado para veh́ıculos livianos. Algunos de estos modelos son el IVE (International Vehicle Emissions Model)[7], COPERT (Computer Model to Calculate Emissions from Road Tra�c)[8], y MOVES (Motor Vehicle Emission Simulator)[9]. Estos modelos generalmente se basan en la potencia espećıfica vehicular como descriptor principal (Vehicle Specific Power – VSP). La VSP representa la potencia instantánea por unidad de masa que un veh́ıculo utiliza para poder desplazarse en sus recorridos. En algunos casos se emplean otros descriptores, como la velocidad, la aceleración, o el estrés del motor (Engine Stress – ES) [10]. Estos modelos buscan predecir las emisiones de CO, CO2, HC, NOx y PM, y se desarrollan con información instantánea obtenida de un veh́ıculo, y de las emisiones medidas directamente en el tubo de escape. La base de datos de emisiones se discretiza en grupos (binning) según los descriptores de cada modelo. Estos grupos permiten la predicción posterior, usando únicamente datos de movilidad del veh́ıculo. En la literatura se reportan algunos casos donde se tienen errores de predicción significativamente grandes [9, 11, 12]. Existen diferentes formas de desarrollar un modelo de AME. Demir et al. [13] exponen seis modelos diferentes de análisis modal de emisiones para estimar el consumo de combustible. Sin embargo, ninguno de estos modelos está relacionado con la VSP. Esto se debe a que la incorporación de esta variable en estudios de actividad vehicular, comienza a tomar fuerza a partir del trabajo de 15 Jiménez en 1999 [14]. Los modelos reportados en la referencia [13] datan desde la década de 1980, y las principales variables descriptoras son la velocidad y la aceleración. Este trabajo comparativo muestra que las metodoloǵıas pioneras buscan explicar datos de movilidad en función de eventos dinámicos y del estado de mantenimiento, para hacer estimaciones del consumo de combustible, o de las emisiones contaminantes. En este trabajo se presenta una metodoloǵıa que permite crear modelos de análisis modal de emisiones para veh́ıculos pesados, representativos de la región del Valle de Aburrá con combusti- ble comercial. La metodoloǵıa propuesta incluye técnicas y algoritmos de procesamiento de datos propuestos recientemente por diversos investigadores. El insumo principal son datos medidos ins- tantáneamente de emisiones contaminantes y datos dinámicos del veh́ıculo. La metodoloǵıa plan- teada requiere definir un número de grupos que contengan los datos de emisiones contaminantes asociadas con todos los eventos dinámicos del veh́ıculo, de modo que en cada grupo queden datos con caracteŕısticas similares. En la literatura cient́ıfica se suele presentar una división por grupos en función de la dinámica del veh́ıculo, y dichos grupos son iguales para todas las emisiones [9, 10]. Adicionalmente, la metodoloǵıa incorpora un análisis de incertidumbres que tiene en cuenta los errores aleatorios, los inducidos por los instrumentos de medición y los asociados con las técnicas de procesamiento. 1.1. Estado del arte A continuación se presenta una revisión de trabajos relevantes relacionados con el análisis modal de emisiones vehiculares, los cuales contemplan la medición de emisiones contaminantes, el cálculo de parámetros dinámicos, el efecto de estos parámetros en las emisiones, aśı como la metodoloǵıa, las diferentes técnicas de procesamiento de datos, la creación de grupos, y la propagación de errores. 1.1.1. Emisiones contaminantes de fuentes móviles El fenómeno de la combustión en motores es un proceso tan rápido y complejo, que es dif́ıcil medirlo y estudiarlo. Este proceso busca extraer enerǵıa en un tiempo muy corto (un tiempo menor que la frecuencia de muestreo de los instrumentos) mediante la oxidación de combusti- bles, transformando compuestos qúımicos con estructura de hidrocarburos en una serie de gases y part́ıculas denominadas emisiones vehiculares o contaminantes. Estas emisiones se miden en fun- ción del tiempo, registrando un número n de datos por segundo para cada señal medida. Existen diferentes formas de medir los gases contaminantes producto de la combustión en motores. En particular, se destacan las pruebas estacionarias desarrolladas en banco de motores, y las pruebas 16 dinámicas de veh́ıculos, desarrolladas en banco de rodillos o en ruta, con equipos de medición a bordo (Portable Emissions Measurement Systems – PEMS). En las pruebas en banco de motores se estudian las emisiones en función del régimen de giro del motor y el par en el eje. En este caso, las emisiones se reportan como un ı́ndice de masa emitida por unidad de enerǵıa generada, es decir, g/kWh. En las pruebas dinámicas de veh́ıculos, tanto en banco de rodillos como en ruta, se reproduce un ciclo o patrón de conducción determinado (un perfil de velocidad vs. tiempo). En este caso, se reportan los factores de emisión (FE), los cuales son ı́ndices que informan sobre la masa emitida de los contaminantes, asociada a la actividad del veh́ıculo, y por lo tanto se suelen dar en g/km. En algunos casos, se incluye información adicional sobre la actividad espećıfica, como el peso del veh́ıculo (g/km-ton), o el número de pasajeros (g/km-pasajero). El factor de emisión de un veh́ıculo en conducción real es diferente al respectivo valor de homo- logación [15, 16, 17]. Esto se debe principalmente a la diferencia en las caracteŕısticas de los ciclos de homologación y la conducción real. Por otro lado, la dinámica vehicular y la topograf́ıa de una región influyen en el desarrollo de modelos de análisis modal de emisiones [14, 18, 19, 20, 21], y son factores claves a la hora de estudiar los impactos de las emisiones de fuentes móviles sobre el ambiente y sobre la salud [22, 23]. Las mediciones en banco de rodillos y en ruta, especialmente las últimas, brindan información más realista de las emisiones instantáneas, en función de la dinámica del veh́ıculo. Sin embargo, reproducir un ciclo de conducción en ruta es bastante dif́ıcil, debido a las incidencias del tráfico en las v́ıas. Además, las pruebas en ruta son significativamente más costosas, y requieren una loǵıstica más compleja, la cual generalmente implica otros veh́ıculos de apoyo. Por este motivo, se suele seguir un patrón de conducción relativamente corto, y también se recurre a mediciones en conducción libre (según el tráfico de la v́ıa, sin ceñirse a un patrón) [24, 25, 26, 27]. 1.1.2. Análisis modal de emisiones vehiculares El análisis modal de emisiones es una metodoloǵıa que busca relacionar las emisiones contami- nantes (gaseosas y PM) con la dinámica vehicular [27]. Esta metodoloǵıa permite usar mediciones experimentales realizadas bajo ciertas condiciones, para estimar las emisiones contaminantes bajo condiciones dinámicas diferentes, sin necesidad de realizar mediciones adicionales. La metodoloǵıa general se presenta en la figura 1. Esta metodoloǵıa es una recopilación de procedimientos expe- rimentales y de análisis de datos presentados en varios trabajos [9, 7, 28, 27, 26]. En la figura se muestran las diferentes etapas que de un estudio amplio, enfocado a caracterizar las emisiones contaminantes de una región espećıfica. 17 Figura 1: Metodoloǵıa para desarrollar análisis modal de emisiones vehiculares Los recuadros sombreados son etapas donde se necesita medir datos. El núcleo del modelo es el resultado más importante de esta metodoloǵıa, y es aquel que contiene la relación o enlace entre las emisiones y la dinámica para un veh́ıculo determinado. El modelo es una segmentación de un espacio vectorial donde cada segmento tiene un flujo másico representativo para cada emisión. Las variables que comprenden ese espacio vectorial son descriptores dinámicos, entre los cuales la VSP es el más común [14]. Otros descriptores usados son la velocidad [28, 29], aceleración [24], y ES [10]. Los grupos de datos que se generan con esta metodoloǵıa reciben el nombre de bins, y en conjunto recogen toda la información de los posibles eventos dinámicos durante la conducción. Estos grupos de emisión o bins deben ser estad́ısticamente diferentes entre śı. Existen particularidades de estos modelos, relacionadas con los criterios que se utilizan para sincronizar emisiones, depurar los datos, calcular variables y determinar los bins. La predicción de emisiones se hace a partir de dichos grupos, y de datos de movilidad (velocidad y posición) obtenidos en una ruta de interés. 18 A través del perfil de velocidad y de pendiente de la ruta se obtienen las variables del modelo y se hace el agrupamiento preestablecido. Es decir, se clasifica cada dato a través de los modelos. Con esto, se puede conocer cuántos datos quedan en cada grupo. Finalmente, la masa emitida de cada contaminante para uno de los grupos, es el producto entre el flujo másico representativo en este (resultado previo del modelo) y el tiempo correspondiente a la cantidad de datos en dicho grupo, según las condiciones dinámicas para la estimación. La masa total de cada contaminante se halla como la suma de la masa de todos los grupos [24]. 1.1.3. Metodoloǵıa para desarrollar modelos de análisis modal de emisiones Existen tres etapas para desarrollar e implementar un modelo de análisis modal de emisiones: la primera es la creación del modelo, el cual se construye a través de los datos de emisiones contaminantes y datos dinámicos del veh́ıculo. La segunda es la validación del modelo, mediante mediciones adicionales de emisiones contaminantes y datos dinámicos. Los datos dinámicos se utilizan para estimar las emisiones y posteriormente, comparar estas emisiones con las reales. La tercer etapa es la implementación del modelo, usando únicamente datos de mediciones GPS. Esta etapa es muy sensible, debido a que depende de la calidad del dispositivo móvil que adquiere los datos, aśı como de las variables disponibles. Existen diferentes estudios que se centran en proponer y estudiar técnicas de procesamiento de datos, definir variables, modelar las emisiones en función de parámetros dinámicos, creando los diferentes grupos o bins, y finalmente, determinar el impacto que poseen los errores e incertidumbres en las variables, en las técnicas de procesamiento, en la creación de modelos para la estimación de contaminantes [9, 7, 10, 14, 28, 18, 24, 26, 27, 29]. El registro de datos de veh́ıculos en ruta con equipos PEMS se puede realizar siguiendo un patrón de conducción en una ruta, lo cual permite comparar los resultados de varias pruebas repetibles, o también se puede conducir libremente según el tráfico de las v́ıas, sin seguir ningún patrón determinado. Esta forma de medir puede llegar a ser más realista, pero puede limitar los análisis al reducir la representatividad de las mediciones por falta de estándares y de repetibilidad. También se puede optar por usar datos obtenidos en banco de rodillos siguiendo ciclos de conducción. Sin embargo, estos datos pueden no contener los efectos de la conducción real. La primera aproximación permite identificar inconsistencias en los datos, evaluar repetibilidad en las mediciones y estudiar los datos obtenidos mediante un diseño de experimentos. Sin em- bargo, esto puede generar que no se tenga todo un mapeo de los posibles eventos de conducción, dado que la movilidad se sintetiza mediante un ciclo de conducción. Por otro lado, la segunda aproximación permite hacer un mapeo completo de todos los posibles eventos dinámicos, pero se 19 pueden presentar problemas de inconsistencias de datos, debido a que no hay una forma ágil de obtener indicadores para representar la calidad de las mediciones. No obstante, la finalidad de estos datos es independiente de su origen, debido a que se usan para crear modelos predictivos, por lo que ambas aproximaciones son igual de válidas. En este trabajo, la mayoŕıa de datos proviene de la primera aproximación, dado que se utilizaron patrones y se usó un mismo tramo de v́ıa para realizar dichas pruebas. Sin embargo, también se cuenta con algunas mediciones que no siguieron ningún patrón de conducción (usadas para la validación). 1.1.3.1 Creación de modelos La metodoloǵıa para crear un modelo de análisis modal se presenta en la figura 2. Estos modelos buscan una relación entre las emisiones (y) con los parámetros dinámicos (x), es decir, formular numéricamente la relación y = f̂(x), de modo que f̂(x) describa lo mejor posible las emisiones y que tenga una alta capacidad predictiva en la etapa de implementación. Esta capacidad de predicción se cuantifica en la validación del modelo. Figura 2: Metodoloǵıa para la creación de modelos de análisis modal de emisiones Existen diferentes formas de procesar los datos, aśı como diversas variables involucradas y formas 20 de crear los modelos. La aproximación más extendida consiste en definir rangos de una o más variables (llamadas descriptores), creando una segmentación para un conjunto de variables, donde cada segmento se denomina grupo o bin. De alguna manera, esta forma de proceder está relacionada con un modelo de regresión lineal. Por este motivo, autores como Duarte et al. [30] presentan investigaciones en donde incorporan análisis de regresión en esta metodoloǵıa. 1.1.3.2 Validación de los modelos Cuando se crea un modelo, es decir, cuando se define o ajusta una función f̂ , es posible que ésta aprenda o represente bien los datos con los cuales se creó, pero cuando se utiliza para estimar, puede perder precisión y generar errores de predicción altos. Esto se debe a que el modelo no aprendió lo suficiente (underfitting), o se aprendió de memoria los datos (overfitting). Ambos casos son extremos, y representan un problema para modelos de regresión o clasificación. Figura 3: Metodoloǵıa para la validación de modelos de análisis modal Es por esto que una parte de las mediciones se utiliza para validar el modelo. El objetivo es esti- mar las emisiones de estos datos dinámicos con los modelos, y compararlas con las emisiones reales 21 medidas (ver 3). Se utilizan métricas de error, como el error absoluto medio, el error cuadrático medio, y el ajuste cuadrático. En general, los errores de validación son menores para el CO2, y mayores para las demás emisiones contaminantes [7, 31, 28]. 1.1.3.3 Implementación de los modelos La figura 4 muestra la metodoloǵıa para la implementación de los modelos de análisis modal de emisiones. Esta parte consiste en aplicar un modelo existente, usando únicamente información dinámica (medida mediante sensores GPS) de una ruta determinada. Los datos de GPS se procesan, se determinan parámetros dinámicos, y se categoriza cada dato con su respectivo grupo o bin, para obtener aśı la emisión instantánea. Finalmente, se determina el factor de emisión, usando la suma de la masa de cada bin, y la distancia total recorrida en la ruta. Figura 4: Metodoloǵıa para la implementación de modelos 22 1.1.3.4 Procesamiento de datos Esta etapa se divide en dos partes. En la primera se usan técnicas para la depuración, la sin- cronización, y el filtrado de señales. En la segunda se calculan las variables de entrada para la creación e implementación de los modelos. A continuación se resumen algunas técnicas y variables que son importantes para la metodoloǵıa. Depuración datos de emisiones: Permite identificar y corregir o eliminar valores anómalos en los datos. Los datos reportados por los equipos PEMS en ocasiones presentan valores negativos de caudal de gases y de la concentración de contaminantes. Zhang et al. [32] sugieren llevar estos valores a cero, debido a que son eventos de poca duración, son valores cercanos a cero, y son significativamente más bajos que los máximos positivos. Sin embargo, en caso de que haya una cantidad signi- ficativa de datos at́ıpicos contiguos, se debe omitir toda esta franja de datos en el análisis. La ventaja de realizar mediciones bajo un patrón o un ciclo de conducción, es que se puede evaluar la repetibilidad de los datos y determinar aquellos que son at́ıpicos frente a las demás mediciones. Depuración datos GPS: La medición de datos de posicionamiento global mediante satélites es una práctica extendida actualmente. Incluso la mayoŕıa de teléfonos móviles se pueden usar como sensores GPS. Este tipo de datos se compone principalmente por las variables latitud, longitud y altitud. Adi- cionalmente, es común reportar el tiempo (más común en sensores GPS dedicados), lo cual facilita el procesamiento posterior. Estos datos se pueden almacenar para diferentes usos. Por ejemplo, permiten calcular la velocidad cuando se hacen estudios vehiculares basados en la velocidad instantánea [33]. Sin embargo, dependiendo de la sensibilidad del dispositivo de medida, las mediciones de GPS serán más sensibles a la interferencia de cuerpos como puentes, edificios y árboles, por lo cual se presentan interrupciones temporales durante las pruebas, lo cual genera discontinuidades en los datos registrados. Estas discontinuidades se deben identificar y depurar, ya que de lo contrario, se pueden tener velocidades puntua- les at́ıpicamente altas, del orden de varios cientos de km/h, que conllevan a aceleraciones desproporcionadamente altas. Por este motivo, es importante procesar mediciones obtenidas con GPS para identificar las discontinuidades, y en caso de ser necesario, dividir la ruta en sub-rutas, de modo que se garanticen segmentos continuos. Sincronización: Es uno de los procesos más importantes y sensibles del análisis, el cual consiste en corregir el 23 desfase temporal entre las señales medidas, de modo que las emisiones se puedan describir a través del comportamiento dinámico del veh́ıculo. Cuando se procesan los datos de emisiones de forma simultánea con los datos de movilidad, se suele observar un desfase temporal entre las señales. Este desfase es común cuando se miden variables a bordo, y tiene varias causas: (1) la falta de sincronización a la hora de iniciar la toma de datos en cada equipo de medición; (2) el transporte de los contaminantes desde el motor hasta la salida del tubo de escape, y desde este punto hasta cada sensor; (3) la velocidad de respuesta de cada sensor [34]. El desfase entre las señales dinámicas y las emisiones puede ser diferente según la emisión [35, 26], además de que puede presentar variación temporal. Sin embargo, en la práctica se suele asumir un desfase constante [35, 26]. Lindhjem et al. [35] presentan una técnica de sincronización que depende de los datos de cada emisión. Se hizo coincidir el primer pico de cada contaminante con el respectivo pico de VSP. Estos autores encontraron que las señales de CO2, CO y HC, teńıan el mismo desfase. Las emisiones de NOx presentaron un desfase diferente. Zhang et al. [36] evalúan dos técnicas para poner en fase las señales. La primera consiste en comparar la curva de velocidad y la curva de cada emisión en un evento de aceleración súbita. Al analizar la velocidad con cada emisión, se observó que cuando ocurre un evento de aceleración súbita, las emisiones incrementan también. La segunda técnica consistió en realizar la sincronización con las emisiones y la VSP. Se fijó la VSP y se desplazaron temporalmente las emisiones, calculando una suma de errores cuadráticos, con la finalidad de buscar la ubicación temporal de las emisiones que minimizara dicho valor [36]. Esta última técnica también la usó Franco [37]. Sin embargo, este autor utiliza en su propuesta de sincronización diferentes métricas de similitud de datos entre estas variables: suma de residuales cuadráticos – SSR, suma de desviaciones absolutas – SAD y la correlación cruzada – r. La métrica ideal es usar la correlación cruzada, debido a que permite medir el retraso entre señales, dado que esta métrica no se ve afectada por la escala de medición. Filtrado: Permite suavizar los cambios bruscos de las señales, especialmente las de velocidad y de altitud. Debido a la frecuencia de muestreo y a la precisión de los sensores, algunas señales presentan cambios bruscos que pueden generar variaciones significativas en otras variables. Por ejemplo, en el caso de la velocidad, estos cambios se pueden traducir en aceleraciones superiores a 10 m/s 2, lo cual no es razonable. Por esta razón, se usan técnicas de filtrado de datos, las cuales permiten disminuir el ruido de la señal. En este trabajo se usó la técnica de filtrado propuesta por Savitzky y Golay [38], la cual consiste en ajustar un polinomio 24 de determinado grado a una ventana móvil con una cantidad impar de datos. Se asigna el valor estimado con este polinomio al dato central de la ventana tomada. Esto permite eliminar cambios bruscos en los datos, obteniendo un mejor comportamiento de las señales, y permitiendo derivar las señales necesarias. 1.1.3.5 Variables de entrada del modelo En esta etapa, se calculan los diferentes parámetros de dinámica del veh́ıculo, aśı como la pen- diente de la v́ıa, para posteriormente calcular los descriptores dinámicos. Adicionalmente, se de- terminan los flujos másicos de las emisiones, a partir de la concentración de cada contaminante y el flujo másico de gases de escape en condiciones estándar. Velocidad: Comúnmente, la velocidad se obtiene instrumentando una quinta rueda (en esta investiga- ción se usó un sensor láser instalado en el veh́ıculo, y apuntando hacia la calzada). Esta señal presenta cierto grado de ruido (falta de suavidad en la curva), debido a la precisión y estabilidad de los sistemas de medición. Para obtener datos de velocidad adecuados, se implementa una técnica de filtrado de señales. Otra forma de estimar la velocidad es a través de datos de latitud y longitud, medidos mediante un sensor GPS. Sin embargo, estos datos se deben depurar previamente, debido a que los sensores GPS pueden presentar desconexiones, dependiendo de su calidad, y por causa de la interferencia de cuerpos como puentes, árboles, túneles, etc. Aceleración: La aceleración se determina como la derivada temporal de la velocidad. Para determinar esta variable se implementan esquemas de diferenciación numérica de alto orden, que permiten obtener resultados confiables [39]. Pendiente: La pendiente es la relación entre los incrementos de elevación y los de distancia horizontal de la v́ıa. La distancia se determina a través de la velocidad medida, empleando un método de integración numérica. El perfil de altitud de la v́ıa se obtiene a través de sensores GPS. Sin embargo, esta medida es poco confiable [32, 18, 19]. Por este motivo, se suele recurrir a mapas digitales de elevación. Estos mapas se pueden obtener mediante la técnica de detección de luz y barrido (Light Detection and Ranging Data – LIDAR) [32]. Esta técnica es costosa, y no se cuenta con datos disponibles para muchas regiones. Por esta razón, se puede recurrir a datos de elevación obtenidos por otros métodos, los cuales cubren más regiones, y están disponibles 25 públicamente. Otra opción para estimar cambios de elevación es medir la presión atmosférica, mediante un barómetro. Esto es relativamente sencillo y brinda confiabilidad. Boroujeni et al. [18, 19], Wyatt et al. [40], Sento↵ et al. [20] y Gallus et al. [21], resaltan la importancia de la pendiente de la v́ıa en los modelos de análisis modal de emisiones. Sento↵ et al. [20] comparan resultados obtenidos con el modelo MOVES de la Agencia Ambiental de Estados Unidos – EPA, y muestran que la pendiente introduce cambios considerables en la VSP y en los modos de operación del modelo. Por este motivo, se puede llegar a tener errores de predicción entre el 10% y el 48%. Boroujeni et al. [18] y Wyatt et al. [40] proponen técnicas para determinar la pendiente de la v́ıa a través del desarrollo de un sistema de medición con sensores GPS. Boroujeni et al. [19] presentan una técnica confiable que consiste en determinar la pendiente por segmentos fijos de distancia de la v́ıa, que vaŕıan entre 80 m y 400 m. Se implementa una regresión lineal con datos de elevación y de distancia recorrida en cada uno de estos segmentos. La pendiente de la ĺınea recta obtenida mediante la regresión es por definición la pendiente de la v́ıa en el segmento correspondiente. Gallus et al. en 2017 [21] evaluaron el efecto de la pendiente y las condiciones dinámicas a través de datos obtenidos de ”Google Elevation data”(un mapa de elevación digital), implementando la técnica descrita por Boroujeni et al.[19]. Inercia del veh́ıculo: Cuando un veh́ıculo se traslada, tiene asociada una inercia como conjunto. Sin embargo, hay muchas partes rotativas en el tren motriz, las cuales pueden tener un efecto significativo en la dinámica del veh́ıculo. El efecto de las inercias de rotación se introduce a través de un coeficiente de inercia equivalente ("), el cual permite expresar la inercia de los componentes rotativos como una fracción de la masa total del veh́ıculo. Este parámetro depende de la marcha en la cual se encuentre la transmisión, el régimen de giro del motor, y con los momentos de inercia de los componentes rotativos. En la práctica, se suele usar un valor constante para cada categoŕıa vehicular [9, 7]. Flujos másicos de emisiones contaminantes Las emisiones contaminantes se dividen en dos grupos, emisiones gaseosas y part́ıculas. Las emisiones gaseosas se estudian a través del flujo másico. En el caso de las emisiones de part́ıculas, se usa el flujo másico (PM), el conteo (número de part́ıculas emitidas en un segundo, para PN), y en algunos estudios, se incluye la distribución de su tamaño. Estos flujos másicos se determinan en función del flujo volumétrico de gases de escape, medido comúnmente en el tubo de escape a través de un tubo pitot, y de la concentración molar (moles de gas por mol de gases contaminantes) para el caso de las emisiones gaseosas, o 26 volumétrica (gramos ó número de part́ıculas por unidad de volumen) para las part́ıculas. Para las emisiones gaseosas hay otro factor a considerar: las propiedades del gas en condiciones estándar [40] a Tref = 293,15 [K] y pref = 101,325 [kPa]. 1.1.3.6 Creación de grupos – binning El agrupamiento o binning consiste en distribuir los datos de emisiones en paquetes discretos llamados bins (grupos). En el año 2002, la EPA presentó el modelo MOVES (MOtor Vehicle Emission Simulator), que se constituyó en la referencia internacional para el análisis modal de emisiones [9]. En esta primera versión, el criterio original para definir los grupos consistió en usar rangos de VSP para crear 14 grupos, de modo que cada uno posea máximo el 10% de la información de la base de datos. Esta aproximación se modificó en 2015 [31], definiendo 19 grupos en función de rangos de VSP y velocidad, más un grupo para marcha mı́nima del motor (ralent́ı), y dos grupos de desplazamiento sin presionar el acelerador (coasting), uno a baja velocidad y otro a alta velocidad, con lo cual se tiene un total de 22 grupos. El IVE (International Vehicle Emissions) es una iniciativa internacional para determinar factores de emisión vehiculares [7]. En este modelo se utiliza la VSP como descriptor principal, la cual se usa para crear 20 grupos. Posteriormente, se divide cada grupo en tres sub-grupos, según los niveles de una variable nueva, llamada estrés del motor – ES [41]. En total se tienen 60 grupos. Otras investigaciones definen los grupos en función de rangos de VSP y velocidad [28], aśı como en función de la velocidad y aceleración [25, 29]. Zhang et al. [24] presentan dos modelos, uno en función de la VSP solamente, y otro que toma la aceleración como único criterio. Xu et al. [28] definen los grupos separando inicialmente los datos por rangos de VSP cada 1 kW/ton. Para cada grupo se calcula el promedio de la emisión de CO2, la cantidad de datos y la fracción de CO2 en el grupo con respecto a todos los datos. Con estos tres parámetros, se plantea una metodoloǵıa para determinar grupos óptimos. Se utiliza la VSP como criterio, y se usa la velocidad como descriptor adicional (tres rangos). Zhang et al. [24] definen los grupos en función de la VSP y de la aceleración para veh́ıculos pesados. Definen inicialmente un agrupamiento con la aceleración, obteniendo 11 grupos que permiten analizar la distribución de los datos en eventos de aceleración. Algo similar se hace con la velocidad. Posteriormente, se definen los grupos en función de rangos de VSP. 27 1.1.3.7 Manejo de errores e incertidumbres La EPA [31] determina la incertidumbre para cada grupo únicamente en función de la desviación estándar de los datos que contiene. Esta incertidumbre se reporta como un intervalo de confianza. La Sociedad Americana Ingenieros Mecánicos – ASME propone técnicas más robustas en la norma PTC 19.1 de 2013 [42]. En esta norma se presentan procedimientos para determinar incertidumbres debido a la variabilidad de los datos y a los instrumentos de medición. Sayegh [43] presenta un enfoque robusto, en el cual realiza análisis de incertidumbre y de errores en modelos de predicción basados en flujos de tráfico, a través de métodos de ensamble y técnicas de optimización. Bielaczyc et al. [44] implementaron técnicas estad́ısticas y matemáticas para determinar las incertidumbres en la medición de gases de escape en un banco dinamométrico de rodillos, conside- rando la los efectos de dilución de los gases de escape. Por otra parte, Cordero et al. [45] propone técnicas estocásticas para calcular la incertidumbre de integrales para datos medidos con simula- ciones de Monte Carlo . En el cálculo de los factores de emisión, se integra en el tiempo un flujo másico para determinar la masa total de un contaminante. 1.2. Contexto de la investigación La región metropolitana del Valle de Aburrá está compuesta por diez municipios1, los cuales están regidos por una única autoridad ambiental, llamada el Área Metropolitana del Valle de Aburrá – AMVA. Según el inventario de emisiones de la región [1], las fuentes móviles son las responsables de la mayoŕıa de las emisiones NOx, PM2.5, y VOC, según muestra la figura 5. 1Municipios de Medelĺın, Barbosa, Bello, Caldas, Copacabana, Envigado, Girardota, Itagǘı, La Estrella, Sabaneta 28 Figura 5: Distribución de emisiones contaminantes del Valle de Aburrá Los factores de emisión usados en el inventario de emisiones de la región se toman comúnmente de modelos internacionales, los cuales no tienen datos suficientemente adecuados en cuanto a com- bustibles y tecnoloǵıa de veh́ıculos para su aplicación en la región del Valle de Aburrá. Además, la región del Valle de Aburrá presenta una topograf́ıa caracterizada por pendientes altas, lo cual tam- poco está reflejado en los modelos internacionales para la estimación de emisiones contaminantes. Por este motivo, el AMVA emprendió un proyecto para determinar los factores de emisión reales de los veh́ıculos que circulan en la región, usando los combustibles comerciales en ésta. En una primera fase se midieron veh́ıculos livianos y motocicletas [46], y en una fase posterior se midieron veh́ıculos pesados de transporte de carga y de pasajeros [47]. Este trabajo de investigación está enmarcado en la segunda fase mencionada. 1.2.1. Veh́ıculos de prueba De acuerdo con los datos suministrados por las secretaŕıas de movilidad de los municipios que conforman el Valle de Aburrá, el parque automotor para el año 2018 se conformaba de 1,550,973 veh́ıculos, de los cuales el 7.16% representa camiones, taxis, autos de servicio especial, buses de servicio especial y volquetas [1]. Aunque su porcentaje de participación en el parque automotor es bajo, las categoŕıas de buses, camiones y volquetas representan un gran aporte en las emisiones de PM2.5, de NOx y de VOC (ver figura 6). 29 Figura 6: Emisiones contaminantes de fuentes móviles en el Valle de Aburrá Adicionalmente, a través del AMVA se consolidaron bases de datos basadas en: (1) información de las autoridades municipales de tránsito del Valle de Aburrá para el año de 2015 y actualizados por el Registro Único Nacional de Tránsito – RUNT, de 2018, y (2) con bases de datos de Centros de Diagnóstico Automotriz – CDA, a octubre de 2018. Estos datos se utilizaron para delimitar los veh́ıculos representativos de la región del AMVA. La selección de veh́ıculos se hizo a través de un análisis descriptivo que caracteriza el parque automotor en función del tipo de combustible, año de modelo y cilindraje de los veh́ıculos. Ini- cialmente, se comparan las distribuciones por año y tipo de combustible. Este análisis mostró que en los veh́ıculos pesados se usa predominantemente combustible diesel. Por lo tanto, la siguiente etapa consistió en analizar los veh́ıculos a diesel por quinquenios, y se determinaron las cantidades de veh́ıculos por cilindrada y por año de modelo. En este último paso, se compararon los resultados con los datos de los CDA. Finalmente, la selección se realizó considerando la mayor concentración de veh́ıculos registrados por cilindrada y por quinquenio (año de modelo) [47]. Se determinan los veh́ıculos representativos de la región para las categoŕıas de Buses y Busetas (B), Camiones (C) y Volquetas (V). Las especificaciones de estos veh́ıculos se presentan en la tabla 1, la cual incluye información sobre el peso de los veh́ıculos durante las pruebas. El personal técnico y los equipos de medición suman aproximadamente 1,000 kg. En algunos veh́ıculos se simuló carga situando bidones de agua o material de construcción, de modo que se tiene información 30 con diferentes condiciones de carga. En las volquetas no fue posible usar carga adicional a la de equipos y personal técnico, dado que éstos ocupaban todo el espacio disponible para la carga útil. Los autobuses no cuentan con el dato de peso vehicular, ya que esta categoŕıa no tiene permitido ingresar en la báscula para veh́ıculos pesados. En estos veh́ıculos se usaron datos de peso bruto vehicular, y se añadió carga mediante bidones con agua. En los autobuses el peso añadido dependió de la limitación de espacio en el habitáculo del veh́ıculo para ubicar los bidones con agua. Además, la cantidad de 600 kg representa aproximadamente 8-10 pasajeros, lo cual corresponde al 50% de la capacidad en muchos de los veh́ıculos. En el caso de los camiones pequeños, este peso estaba limitado por el espacio disponible en la zona de carga. En la tabla, se presentan los pesos de los veh́ıculos (con carga/sin carga). Tabla 1: Veh́ıculos pesados representativos del Área Metropolitana del Valle de Aburrá Categoŕıa Referencia Cilindraje [cc] Modelo Capacidad Peso [Ton] HDV - B B1 4,570 2003 28 pasajeros 9.6/9.0 HDV - B B2 7560 2009 37 pasajeros 9.6/9.0 HDV - B B3 5193 2016 19 pasajeros 5.6/5.0 HDV - B B4 5193 2016 42 pasajeros 9.6/9.0 HDV - C CG-1 6000 1993 10 Ton. 12.5/8.5 HDV - C CG-2 6692 2017 10 Ton. 12.5/8.5 HDV - C CP-1 2771 2006 2.65 Ton. 5.3/4.7 HDV - C CP-2 2999 2016 2.45 Ton. 5.3/4.7 HDV - V V1 6000 1995 10 Ton. 8.7/8.7 HDV - V V2 7790 2018 10 Ton. 8.7/8.7 1.2.2. Otros aspectos La calidad del combustible vaŕıa dependiendo de la región y del páıs. En esta investigación se usó diesel comercial, el cual contiene 10% v. de biodiesel de aceite de palma, y tiene una composición qúımica aproximada de C14,96373H29,2778O0,154 [48], con 50 ppm de Azufre. El Valle de Aburrá está situado en la cordillera de los Andes, y posee un relieve acentuado que comprende cambios de elevación considerables. La topograf́ıa se estudia mediante la pendiente de la v́ıa. En este trabajo, se define una metodoloǵıa para estimar de manera confiable esta variable. 31 1.3. Planteamiento del problema y objetivos Es clara la necesidad de monitorear la contaminación de la región, debido a efectos de las emisiones de las fuentes móviles sobre la salud y sobre el medio ambiente. Por estas razones es relevante contar con metodoloǵıas para crear modelos que permitan estimar estas emisiones y, de esta manera definir poĺıticas públicas para controlar la contaminación. También se conoce la relevancia de los aspectos locales que influyen en estas metodoloǵıas y la sensibilidad que pueden tener en los modelos y análisis. A partir de estas consideraciones se formula el siguiente problema de investigación: Se requiere una metodoloǵıa confiable para la estimación de emisiones contami- nantes en veh́ıculos pesados para las condiciones locales (calidad de combustibles, topograf́ıa, y patrones de conducción). Para responder este problema, se deben resolver las siguientes preguntas de investigación: 1. ¿Cuál es la forma más conveniente de procesar los datos brutos de las mediciones para determinar las variables de entrada del modelo? 2. ¿Cuáles descriptores y qué criterios de agrupamiento permiten disminuir el error de predicción del modelo? 3. ¿Cuál es la contribución de las variables de entrada en el error del modelo? 1.3.1. Objetivo general Desarrollar una metodoloǵıa para la estimación de emisiones contaminantes para veh́ıculos pe- sados, válido para regiones con pendientes pronunciadas. 1.3.2. Objetivos espećıficos 1. Obtener una base de datos confiable que sirva como punto de partida para la metodoloǵıa de estimación de emisiones contaminantes, a través de técnicas anaĺıticas adecuadas para procesar los datos experimentales. 2. Determinar una discretización de los datos que arroje errores de predicción bajos para las emisiones, mediante la evaluación de diferentes descriptores y criterios de agrupamiento. 3. Cuantificar el efecto de las variables de entrada en los errores de predicción, a través de un 32 análisis de incertidumbre. 1.4. Estructura del documento Esta memoria se divide en cinco caṕıtulos y cuenta con cinco anexos que muestran resultados detallados, metodoloǵıas e información complementaria. El segundo caṕıtulo presenta le metodoloǵıa de procesamiento de datos. Éste expone el trata- miento que se debe aplicar a los datos medidos experimentalmente para definir una base de datos confiable, y se compone de tres partes: (1) metodoloǵıa general de procesamiento de datos, (2) técnicas de procesamiento de datos de la metodoloǵıa de AME, dentro de las cuales destacan la sincronización de señales y la depuración de mediciones GPS; y (3) memoria de cálculos para obtener nuevas variables a partir de mediciones experimentales. El tercer caṕıtulo presenta el análisis de incertidumbres que permite incorporar en la metodo- loǵıa diferentes errores, tales como el error inducido por los diferentes equipos de medición, por aproximaciones en cálculos, por la conducción real (al comparar un patrón de conducción), y por las técnicas de procesamiento de datos en la metodoloǵıa de AME. Esto permite: (1) determinar las incertidumbres de las mediciones experimentales, (2) implementar la técnica de propagación de incertidumbres para calcular las incertidumbres de las variables obtenidas a través de medicio- nes experimentales con las ecuaciones presentadas en la memoria de cálculo, y (3) determinar las incertidumbres de los factores de emisión. El cuarto caṕıtulo describe la metodoloǵıa para crear modelos de AME, que permitan estimar emisiones contaminantes a partir de nuevos datos GPS. Este caṕıtulo se compone de cuatro partes: (1) inicialmente se introducen conceptos asociados al aprendizaje automático (Machine Learning – ML), el cual es un sub-dominio de la Inteligencia Artificial; (2) se presenta la metodoloǵıa para crear modelos de AME a partir de los datos generados en el caṕıtulo 2, la cual consiste en hacer un agrupamiento inicial a través de modos de conducción, en crear nuevos descriptores dinámicos, en implementar técnicas de reducción de dimensión para garantizar variables no correlacionadas, en crear modelos basados en diferentes criterios, y en validar estos modelos; (3) se muestran los resultados en el mismo orden que se presentó la metodoloǵıa; y (4) se realiza una discusión y análisis de los resultados considerando tiempos de entrenamiento, complejidad de los modelos y sensibilidad por aproximaciones e incertidumbres. Finalmente, se presenta el caṕıtulo de conclusiones, en el cual se verifica el cumplimiento de los objetivos espećıficos planteados, y se resaltan los principales aportes de este trabajo. 33 2 Procesamiento de datos El objetivo de este caṕıtulo es desarrollar la primera parte de la metodoloǵıa, orientada a la obtención de variables dinámicas, datos instantáneos de emisiones contaminantes, y datos de po- sicionamiento global, provenientes de mediciones en veh́ıculos. Para asegurar la calidad de los datos obtenidos, se aplican diversas técnicas de procesamiento en cada una de las tres etapas de la metodoloǵıa de AME: creación, validación e implementación. En primer lugar se presentan aspectos metodológicos relacionados con los sistemas de medición, la adquisición de los datos, la topograf́ıa de la zona, y las mediciones experimentales. También se explica cómo se utilizan los datos en las diferentes etapas de la metodoloǵıa. Después, se describen las técnicas de procesamiento utilizadas que incluyen la sincronización de señales, la depuración de datos GPS, el filtrado de señales, y la depuración inicial de los datos dinámicos y de emisiones. Luego, se detalla el cálculo para los descriptores dinámicos, a partir de formulaciones matemáticas propuestas en la literatura cient́ıfica. Finalmente, se cuantifica el impacto de las técnicas de proce- samiento y de las aproximaciones matemáticas mediante un análisis de sensibilidad, especialmente para la – VSP y la pendiente – G. 2.1. Introducción En este tipo de investigaciones se miden variables dinámicas del veh́ıculo como la velocidad – V , el posicionamiento global (latitud – �, longitud – � y altitud – h), aśı como variables de operación, tales como el flujo de gases – V̇g y las concentraciones de emisiones contaminantes. Estas variables se miden mediante varios dispositivos, los cuales usan diferentes principios de medición y frecuencia de toma de datos. La frecuencia de muestreo (cantidad de datos obtenidos por segundo) es una caracteŕıstica importante de los sistemas de medición. Este parámetro influye en el cálculo de variables para representar eventos dinámicos de manera confiable. Los principios de medición utilizados para 34 obtener emisiones contaminantes experimentalmente son: (1) para el CO y el CO2, la técnica absorción infrarroja no dispersiva (NDIR); (2) para los HC, la técnica de detección de ionización de llama (FID); (3) para los NOx, la técnica ultravioleta no dispersivo (NDUV); (4) para material particulado, el impacto electrostático a baja presión (ELPI – Electrical Low Pressure Impactor). 2.1.1. Datos experimentales Los datos experimentales en esta investigación se dividen en dos grupos. El primer grupo, llamado MV, contiene datos de mediciones de posicionamiento global para rutas de veh́ıculos pesados, usados para determinar los patrones de conducción de las diferentes categoŕıas vehiculares, aśı como para poner a punto la metodoloǵıa de procesamiento de este tipo de datos. El segundo grupo, llamado MD, contiene datos de mediciones de velocidad de los veh́ıculos, de la marcha de la transmisión, de posicionamiento global, y de emisiones contaminantes para diez veh́ıculos representativos de la región. En total, se tienen 6,862,889 datos medidos en el grupo MV y 18,308,818 datos medidos para 22 variables en el grupo MD, correspondientes a 23.11 horas de medición. Datos de movilidad – MV El conjunto de datos MV contiene información de posicionamiento global en varias zonas de la ciudad y en horarios diferentes. Con estos datos se establecieron patrones de conducción para la recolección de datos en la campaña de medición de 2018. Usando estos patrones (ciclos) de conducción, se obtuvo el conjunto de datos MD para diez veh́ıculos representativos. Es importante señalar que la obtención de estos datos se realiza a una frecuencia de 1 Hz. Para los buses, camiones y volquetas, se registraron aproximadamente 54, 240, y 195 horas, respectivamente. Esto corresponde a 196,095, 864,463 y 704,188 registros temporales y a 67, 39 y 59 pruebas independientes para cada categoŕıa vehicular. Estos datos se obtienen mediante un GPS en el veh́ıculo o un dispositivo móvil con una aplicación de rastreo GPS. Datos de pruebas en ruta – MD El conjunto de datos MD contiene cuatro grupos de mediciones: (1) datos de velocidad, medidos con una quinta rueda implementada mediante un sensor láser, y datos de marcha de la transmisión, registrados manualmente durante el recorrido; (2) datos de posicionamiento global medidos con el 35 GPS del equipo HORIBA OBS ONE; (3) datos de concentraciones instantáneas de contaminantes gaseosos y condiciones del flujo en el tubo de escape, medidos con módulos independientes del HORIBA OBS ONE; y (4) datos de concentración de masa y número de part́ıculas medidos con el equipo DEKATI ELPI. Los tres primeros grupos se midieron con una frecuencia de 10 Hz, y el último con una frecuencia de 1 Hz. Cada uno de los diez veh́ıculos de prueba (ver tabla 1) se instrumentó según el montaje experi- mental de la figura 7, y se realizaron entre tres y cuatro mediciones válidas, usando los patrones de conducción correspondientes, en la zona de medición, tanto en ascenso como en descenso. Figura 7: Montaje experimental para recolectar datos de movilidad y emisiones En algunos veh́ıculos se realizaron pruebas simulando carga, y en otros se midió únicamente con el peso de los equipos de medición y personal técnico. También se realizaron mediciones sin seguir el patrón de conducción, llamadas pruebas de çonducción libre”. En total se tienen 55 pruebas. Estas pruebas se llevaron a cabo en diferentes d́ıas y franjas horarias. Cada prueba consta de un archivo generado por el equipo de medición de gases, flujo y GPS; dos archivos generados por el sensor de velocidad (uno para ascenso y otro para descenso); y un archivo generado por el sensor de part́ıculas. 2.1.2. Patrones de conducción En el proyecto FEVA 2 se sintetizaron patrones de conducción para cada categoŕıa vehicular a partir del conjunto de datos MV. La construcción de estos patrones se realizó mediante una aproximación estocástica basada en microviajes [49, 50], empleando un análisis de componentes principales y un análisis de agrupamiento [46]. El patrón de conducción para buses se determinó con 67 recorridos obtenidos mediante GPS en dispositivos móviles y el aplicativo CICAMET, desarrollado por el grupo de investigación GIMEL. El patrón para camiones se determinó con 39 recorridos suministrados por la empresa de transporte 36 de mercanćıas TCC, y el patrón para volquetas se determinó con 59 recorridos obtenidos por el grupo de investigación GIMEL, con equipos facilitados por la Facultad de Minas de la Universidad Nacional. Esto introdujo diversidad en los datos de entrada, en cuanto al tipo de conductor, veh́ıculo y movilidad en diferentes franjas horarias. Para más información, el Anexo A.1 presenta más detalles sobre estos patrones. 2.1.3. Zona de medición Se recopilaron datos en ambos sentidos de la autopista Medelĺın-Bogotá, debido a que el segmento de v́ıa usado tiene un ascenso de 121,91± 6,01 m en 3,01± 0,16 km2 al rodear la montaña, como se muestra en la figura 8. La banda en verde claro del perfil de elevación representa un intervalo de confianza obtenido con los cambios de elevación de todas las pruebas medidas en ruta. (a) Localización AMVA (b) Zona de medición (c) Perfil de elevación del segmento Figura 8: Caracteŕısticas de la ruta de mediciones La topograf́ıa de la zona de medición afecta principalmente a la VSP. Al no considerarse la inclinación de la v́ıa, se asume que no hay aportes o gastos de enerǵıa potencial gravitacional. Esta aproximación no es válida en regiones con topograf́ıas variables que presentan corredores viales con pendientes pronunciadas. En la región del Valle de Aburrá, por ejemplo, se pueden encontrar pendientes por encima del 20%. Este impacto se evidencia en los factores de emisión obtenidos a partir de las mediciones en ascenso comparados con los obtenidos en descenso (ver anexo A.3.2). 2El valor presentado es un intervalo de confianza del 95% de la distancia recorrida y el cambio de elevación. 37 2.2. Metodoloǵıa Esta sección presenta las consideraciones utilizadas en el procesamiento de datos para los con- juntos MD y MV, aśı como las secuencias de procesamiento en cada etapa de la metodoloǵıa de análisis modal. Como resultado se obtienen varias bases de datos útiles para la creación de los modelos. Para el conjunto MD se administraron los datos creando diferentes sub-bases de datos, cada una compuesta por diez archivos, uno por veh́ıculo. Para el conjunto MV se adoptó una metodoloǵıa similar, pero en vez de tener un veh́ıculo, se tiene un recorrido de una ruta arbitraria en la ciudad. Las metodoloǵıas se codificaron en Python, y el control de versiones del repositorio de código se realizó a través de GitHub, disponible como un paquete de Python. 2.2.1. Formulación matemática A continuación se definen algunas representaciones matemáticas aplicables a las fuentes de in- formación disponibles para esta investigación. Estas definiciones permiten la implementación de las metodoloǵıas y códigos presentados en este caṕıtulo y en los anexos. 2.2.1.1 Datos de movilidad Se define el conjunto de variables MV (sin negrita en el texto) como una parte del conjunto MV correspondiente a una prueba. Para la prueba k -ésima se define como: MVk = {(xi)}ni=1 ) xi = [�i,�i, tj, hi, VGPS,i] (1) Donde � es latitud, � es longitud, t es tiempo, h es elevación y VGPS es la velocidad obtenida mediante el sensor de GPS. La mayoŕıa de sensores GPS proporcionan todas las variables men- cionadas anteriormente. Sin embargo, algunas aplicaciones y dispositivos sólo registran [�i,�i, hi], como es el caso de los buses. Los datos GPS son sensibles a desconexiones que se reflejan en discon- tinuidades temporales. Por tanto, es necesario dividir el conjunto de datos en segmentos continuos con un número mı́nimo de datos. El tiempo de desconexión se determina a través del tiempo t. En los casos donde MV sea xi = [�i,�i, hi], el tiempo de desconexión se desconoce, y por lo tanto se asume como de 1 s, lo cual distorsiona la medición, como lo demuestran los resultados de la sección 2.3. Las desconexiones del GPS conllevan a la pérdida de información, y por tanto, los factores de emisión deben reportarse considerando el porcentaje de datos útiles de cada conjunto MV. 38 MVk = {(xi)}ni=1 ) xi = {xt0:t1 ,xt1:t2 , ...,xtn:tn+1} Finalmente, se puede definir el conjunto MV como la unión de todos los conjuntos MV: MV = {MV1,MV2, ...,MVkv} 2.2.1.2 Datos de pruebas en ruta Se define el conjunto de variables MD (sin negrita en el texto) como los datos obtenidos ex- perimentalmente en la zona de medición, reproduciendo el patrón de conducción bajo el montaje experimental de la figura 7 para una prueba de un veh́ıculo en particular. Este conjunto de datos se define como: MDk = {ds} = {(xi,yi)}ni=1 (2) donde el supeŕındice s representa un parámetro asociado a las condiciones de pendiente durante el diseño experimental de las pruebas en ruta. Este parámetro puede tomar valores de 1 para pruebas con patrón en ascenso, -1 para pruebas con patrón en descenso y 0 para pruebas obtenidas sin seguir el patrón de conducción (conducción libre). Además, n ⇠= 8000 registros para emisiones gaseosas y variables dinámicas y para part́ıculas n ⇠= 800. Debido a que se tienen variables con diferentes frecuencias de muestreo, se optó por estandarizar los datos a una frecuencia de 10 Hz. Esto implica que aquellos datos con frecuencia de 1 Hz se interpolan para obtener datos entre cada segundo. En la ecuación anterior se utiliza la notación y para representar el vector de variables respuesta (emisiones contaminantes) y x para representar el vector de variables descriptoras o caracteŕısticas de entrada (variables dinámicas). El sub́ındice i nos ubica en una posición espećıfica del vector de datos, que está asociado a un instante de tiempo de la prueba. Adicionalmente, se define el conjunto MD como la unión de todos los conjuntos MD, es decir: MD = {MD1,MD2, ...,MDkd} Donde 1, 2, . . . , kd se refiere a las pruebas. 2.2.2. Etapas de procesamiento Para garantizar la efectividad de la metodoloǵıa para el análisis modal de emisiones, es crucial definir una secuencia de procesamiento adecuada. Para cada una de las tres etapas de la meto- 39 doloǵıa (creación, validación, e implementación) se usan técnicas de procesamiento y se calculan descriptores basados en mediciones (ver figura 9). Figura 9: Metodoloǵıa general de procesamiento de datos El conjunto de datos MD se utiliza para crear los modelos. Para validar éstos, se emplean conjuntos de datos MD que sirvan como pruebas de validación. 2.2.2.1 Procesamiento de datos MD La metodoloǵıa propuesta para procesar datos del conjunto MD busca consolidar y estructurar este conjunto de datos para establecer una relación adecuada entre las emisiones contaminantes y las variables dinámicas. Esta se presenta en la figura 10 y se aplica a cada conjunto de datos MD 2 Rp donde p representa 18 variables en este caso (se descartan algunos datos de GPS, aśı como la concentración H2O). 40 Figura 10: Metodoloǵıa para procesar los datos del conjunto MD En primer lugar se preparan los datos para su procesamiento. Para cada conjunto MD: (1) se calcula la distancia recorrida en función de la velocidad, sin aplicar ninguna técnica de procesa- miento; (2) se estandarizan las marchas de la caja de cambios3; (3) se obtienen datos de altitud a través de los mapas de elevación digital de la misión SRTM4[51]; (4) se calculan los flujos másicos; (5) se aplica un filtro para suavizar la señal de velocidad, con el fin de obtener valores aceptables de aceleración [38]; (6) se calcula la aceleración mediante diferenciación numérica, con un esquema de cuarto orden [52]. El segundo paso consiste en utilizar las pruebas para calcular la pendiente de la v́ıa en la zona de medición. Es decir, obtener un perfil de pendiente de la v́ıa, en función de la elevación (h) y de la distancia recorrida (d): G = f(MD) = f(h, d). El detalle del cálculo se presenta más adelante en este caṕıtulo. La pendiente (G) es un insumo necesario antes de proceder al análisis individual del conjunto MD de cada prueba. El tercer paso consiste en detectar datos at́ıpicos, para identificar pruebas con comportamientos 3La estandarización consiste en representar con un número cada marcha de la caja de cambios. Por ejemplo, si un veh́ıculo posee caja con cambios 1, 1A, 2, 2A la estandarización seŕıa 1, 2, 3, 4. 4Shuttle Radar Topographic Mission es un proyecto internacional entre la NGA y la NASA para crear un mapa de elevación digital del planeta. 41 inusuales y garantizar la repetibilidad (calidad) de las mediciones que se utilizan en la etapa de creación del modelo. Para ello, se usaron los cuartiles y la desviación estándar de los datos. Este proceso permitió identificar y algunas pruebas con comportamientos at́ıpicos. El cuarto paso de la metodoloǵıa consiste en sincronizar las variables dinámicas con: (1) las concentraciones de los contaminantes, (2) el flujo de gases de escape y, (3) la velocidad obtenida con el GPS. Para esto se usaron técnicas de sincronización basadas en eventos súbitos y correlaciones entre señales. El primero obtiene los desfases de cada contaminante con la velocidad buscando cambios significativos en la primera y segunda derivadas de cada señal x. El segundo paso parte del resultado del paso anterior, y modifica la sincronización buscando un punto de máxima correlación entre los variables a sincronizar y una serie de variables de referencia. El detalle del proceso se presenta en la sección 2.3.4. El quinto paso consiste en asignar a cada conjunto MD la pendiente con base en los resultados del segundo paso, calcular la VSP y el ES, aśı como el flujo másico de las emisiones. Finalmente, el sexto paso consiste en determinar los resultados de la metodoloǵıa: distancia recorrida y factores de emisión. Los conjuntos MD en esta figura tienen tres estados. El primero, identificado como E (Estruc- turado) representa los datos brutos organizados. El segundo estado, identificado como D (sincro- nización con derivadas), representa los datos del estado E, incluyendo la sincronización de señales usando eventos súbitos, los cuales se identifican mediante la primera y segunda derivadas. Fi- nalmente, el tercer estado, identificado como C (Correlaciones), toma los datos del estado D, y modifica la sincronización inicial, maximizando el coeficiente de correlación entre las señales. Los pasos 5 y 6 de la metodoloǵıa se pueden aplicar a los tres estados del conjunto de datos MD. 2.2.2.2 Procesamiento de datos MV La metodoloǵıa propuesta tiene como objetivo determinar variables dinámicas para estimar factores de emisión a partir de datos de movilidad vehicular, tales como los que contiene el conjunto MV. La figura 11 muestra las etapas usadas para procesar las mediciones obtenidas con GPS. Este proceso se aplica a conjuntos de datos MVk 2 Rp, donde p, vaŕıa entre 3 y 5 variables dependiendo del dispositivo móvil utilizado para obtener los datos. Después del procesamiento se generan nuevos datos, correspondientes a velocidad, aceleración, VSP, y ES, entre otros. La versión final del conjunto de datos que contiene estas variables nuevas, se denomina MV (S). 42 Figura 11: Metodoloǵıa para procesar los datos de conjunto MV El primer paso consiste en obtener datos de una prueba que contenga información estructurada como en los conjuntos MVk. Estos datos pasan a la segunda etapa, e la cual se detectan disconti- nuidades mediante diferentes criterios: si sólo se tienen datos de latitud, longitud y altitud (p = 3), se usa la velocidad, y si p > 3 (se tiene al menos el tiempo), se usa el tiempo. Luego, en la tercera etapa se procesan los conjuntos de datos con p > 3, corrigendo las discontinuidades menores a 5 s, mediante interpolación polinomial de tercer orden. En caso contrario, se separa la prueba en varios segmentos continuos. En la cuarta etapa se filtra la señal de velocidad para los conjuntos de datos continuos, con el fin de obtener valores razonables de aceleración mediante diferenciación numérica Los parámetros de filtrado se escogieron verificando los valores máximos de aceleración obtenidos. En la quinta etapa se calculan los descriptores usados en la metodoloǵıa (G, VSP, y ES), usando parámetros propios de cada veh́ıculo. Los resultados de esta etapa se almacenan el conjunto de datos MV (S). Finalmente, en la sexta etapa se determinan algunas caracteŕısticas de las pruebas, tales como distancia recorrida, tiempo de desconexión del GPS, velocidad promedio, aceleraciones máxima y mı́nima, etc. 43 2.2.2.3 Procesamiento para validación Para validar la metodoloǵıa se utilizan aquellas mediciones del conjunto de datos MD que corresponden a pruebas libres o sin carga. Es decir, pruebas definidas para la validación desde el diseño experimental. Por un lado, se emplea la metodoloǵıa de la figura 10 para determinar el comportamiento real de la dinámica y las emisiones de los veh́ıculos. Por otro lado, se utiliza la metodoloǵıa de la figura 11 para calcular los descriptores dinámicos y estimar las emisiones a partir de los datos de GPS. Esto permite evaluar y cuantificar las diferencias que existen entre el comportamiento real y las estimaciones para los descriptores dinámicos y para las emisiones contaminantes. La metodoloǵıa emplea una cantidad significativa de datos y pruebas para crear y validar los modelos. La tabla 2 presenta la cantidad de registros (datos de un instante) y pruebas (mostradas entre paréntesis) usados en este proceso, para los veh́ıculos de prueba. Cada registro corresponde a 18 variables. Tabla 2: Cantidad de registros (pruebas) para la creación y validación de modelos Tipo Prueba B1 B2 B3 B4 CG-1 CG-2 CP-1 CP-2 V1 V2 Validación 16,511 (2) 16,478 (2) 16,528 (2) 20,800 (3) 20,346 (3) 19,450 (3) 19,960 (3) 4,814 (1) 6,897 (1) 4,513 (1) Creación 65,999 (8) 32,904 (4) 66,029 (8) 66,107 (8) 44,291 (6) 44,367 (6) 89,545 (12) 44,782 (6) 59,197 (6) 157,766 (16) Es importante tener en cuenta que algunas pruebas de validación tienen condiciones dinámicas diferentes a las usadas en la creación de los modelos, como lo evidencia la tabla 3, donde se presentan algunas caracteŕısticas de las pruebas para tres veh́ıculos. Tabla 3: Ejemplo de caracteŕısticas de pruebas para las etapas de creación y validación t d V amin amax %idle %acel %decel %cruise %G<0 %G=0 %G>0 Veh́ıculo Prueba Dirección [s] [km] [km/h] [m/s 2] [m/s 2] V1 068-1175 0 689.7 6.04 31.54 -1.74 1.58 1.33 28.45 19.54 0.50 0.41 0.09 0.50 065-1172 -1 988.7 2.84 10.34 -1.83 2.11 12.27 29.18 26.35 0.11 0.81 0.19 0.00 1 983.7 2.55 9.32 -2.06 2.00 11.80 29.92 23.91 0.11 0.00 0.17 0.83 CG-1 039-1144 0 567.2 6.08 38.60 -1.67 1.32 2.43 41.75 25.00 0.30 0.43 0.09 0.48 036-1141 -1 738.8 2.79 13.61 -2.04 1.72 11.95 37.28 29.02 0.16 0.91 0.09 0.00 1 737.2 2.60 12.68 -2.34 1.64 12.11 40.71 30.17 0.12 0.00 0.13 0.87 B4 054-1160 -1 828.2 2.83 12.32 -2.24 2.70 15.15 34.01 31.44 0.06 0.89 0.11 0.00 1 825.8 2.52 11.00 -2.53 2.59 16.25 33.66 32.80 0.03 0.00 0.10 0.90 058-1164 0 427.7 6.07 51.08 -2.57 1.54 1.94 41.43 31.35 0.25 0.45 0.10 0.45 44 2.3. Técnicas de procesamiento Las técnicas de procesamiento permiten: (1) depurar los datos de velocidad y tiempo obtenidos a través de mediciones GPS para identificar discontinuidades; (2) reducir el ruido inducido por los sensores en los datos, lo cual afecta el cálculo de los descriptores dinámicos; (3) corregir desfases temporales inducidos por los sensores de medición y por la diversidad de equipos usados en campaña experimental; (4) determinar cuales pruebas tienen información confiable, para excluir aquellas con comportamientos extraños. 2.3.1. Depuración de desconexiones de GPS Existen dos posibles formas de realizar este proceso, dependiendo de la cantidad de variables obtenidas con el GPS. La primera forma se basa en el tiempo, y la segunda en la velocidad calculada a partir de los datos de GPS (según la ecuación 3). En ambos casos hay pérdida de información por ausencia de datos, pero la depuración con la velocidad induce un error temporal en las mediciones como se observa en la parte superior de la figura 12. Los datos necesarios para el procesamiento son �, � y h. Sin embargo, es vital contar con el tiempo t en formato “AAAA-MM-DD HH:MM:SS”, para obtener el instante exacto de registro de las mediciones. �Xi = 2R arcsin s sin2 ✓ �� 2 ◆ + cos�i cos�i+1 sin 2 ✓ �� 2 ◆ [km] (3) Donde: �� = �i+1 � �i y �� = �i+1 � �i Por lo tanto, la velocidad se calcula como: VH = �X �t (4) Donde el cambio en el tiempo está asociado con la frecuencia de medida. 45 Figura 12: Corrección de desconexiones en los datos de GPS 2.3.1.1 Segmentación a partir del tiempo Se debe tener una representación del tiempo en segundos, en el rango t 2 [0, 86400] [s]. Las discontinuidades están en aquellos puntos que cumplan la condición t(i+ 1)� t(i) 6= f donde f es la frecuencia de muestreo. Dependiendo del sensor, es posible que las desconexiones sean frecuentes con intervalos cortos (desconexiones entre 1 y 5 segundos) o desconexiones grandes. Aśı mismo, se puede calcular el tiempo de desconexión del sensor, el cual representa la pérdida de información en una ruta. Para eliminar discontinuidades cortas (inferiores a 5 segundos) se utilizó la interpolación de datos. De esta manera, la pérdida de información disminuye para los camiones de 15.2% a 8.2%, y para las volquetas del 7.67% a 2.88%. En autobuses no se cuenta con datos de tiempo. 46 2.3.1.2 Segmentación a partir de la velocidad Esta técnica determina la velocidad del veh́ıculo a través de los datos de �, �, mediante la ecuación 4. Posteriormente se identifican los puntos de discontinuidad como aquellos que cumplan la condición |VH(i + 1) � VH(i)| � 50 km/h. Es decir, que se considera at́ıpico un cambio de velocidad de 50 km/h en 1 s. Luego, se implementa una corrección de los ı́ndices temporales para tener el punto exacto de discontinuidad. Esta técnica puede obviar discontinuidades cortas y no permite calcular el tiempo de desconexión entre puntos de discontinuidad en la prueba. 2.3.2. Filtrado de señales El filtrado de una señal implica suavizar su comp