Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/35518
Título : Uso de arquitecturas de inteligencia artificial para la determinación y análisis de sentimientos en tweets
Autor : Aguiar Valencia, Daniela
metadata.dc.contributor.advisor: Botia Valderrama, Javier Fernando
metadata.dc.subject.*: Análisis de sentimientos
Sentiment Analysis
Minería de datos
Data Mining
Análisis de regresión logística
Tweets
Embedding
Fecha de publicación : 2023
Resumen : RESUMEN : El presente trabajo tiene como finalidad poder realizar un análisis de sentimientos en tweets en español. En una primera instancia se ha de tener en cuenta un tratamiento de los datos que involucran una normalización del lenguaje donde se eliminaran palabras vac´ıas (stopwords), emojis, menciones entre otros. Después de estos se evaluaran diferentes métricas de desempe˜no de clasificación en cada uno de los modelos planteados, teniendo en cuenta diferentes formas de vectorización de los conjuntos de datos y tambi´en diferentes distribuciones de los mismos, esto con el fin de comparar primero la eficacia de cada modelo y adem´as si influye o no la porci´on de datos que se utilice para entrenar y testear y adem´as la forma de representar los mismos. Los mejores modelos que se encontraron fueron una regresión logística con una representaci´on de los datos dada por un embebimiento y un clasificador de stacking con una representaci´on de los datos dada por una vectorización Count Vectorizer.
ABSTRACT : The purpose of this paper is to perform an analysis of sentiments in tweets in Spanish. In the first instance, a treatment of the data that involves a normalization of the language must be taken into account where stopword, emojis, mentions, among others, will be eliminated. After these, different classification performance metrics will be evaluated in each of the proposed models, taking into account different forms of vectorization of the data sets and also different distributions of the same, this in order to first compare the effectiveness of each model and also if it influences or not the portion of data that is used to train and test and also the way of representing them. The best models found were a logistic regression with a representation of the data given by an embedding and a stacking classifier with a representation of the data given by a Count Vectorizer.
Aparece en las colecciones: Especializaciones de la Facultad de Ingeniería

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
AguiarDaniela_2023_AnalisisSentimientosTweets.pdfTrabajo de grado de especialización2.31 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons