Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML

Mazo Correa, Julián David

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/24326

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Arias Londoño, Julian David	-
dc.contributor.author	Mazo Correa, Julián David	-
dc.date.accessioned	2021-11-24T16:59:21Z	-
dc.date.available	2021-11-24T16:59:21Z	-
dc.date.issued	2021	-
dc.identifier.uri	http://hdl.handle.net/10495/24326	-
dc.description.abstract	RESUMEN : El desarrollo del presente trabajo se basa en identificar las palabras claves que manifiestan la carga de sentimiento clasificados como positivo, negativo y neutral sobre un conjunto de tweets. Se diseñaron 7 modelos, dos de ellos con redes neuronales convolucionales y redes neuronales recurrentes para el etiquetado de sentimiento como ejercicio de ilustración ya que los tweets están previamente anotados, un baseline que implementan 3 estrategias de preprocesamiento de texto para la salida e implementación de arquitecturas con capas de BERT y RoBERTa, estos para detectar las palabras claves del tweet que poseen la carga de sentimiento el cual es objetivo principal de la tarea. El modelo que mejor resultados arrojó según la métrica del índice de Jaccard fue el implementado con RoBERTa con un valor de 0.749, es importante anotar que uno de los baseline implementado con una capa de embedding a partir de una matriz de coocurrencia generada por la técnica Glove haya obtenido un valor de 0.586 del promedio del índice de Jaccard por encima de la implementación con BERT que fue del 0.549 sobre la misma métrica. La exploración de los datos evidenció que la eliminación de caracteres especiales y palabras con poco significado semántico permiten mejorar el desempeño de los modelos además la creación de estrategias de preprocesamiento de texto para la variable objetivo ayuda a implementar un baseline con un buen desempeño para regirse como punto de referencia en el diseño de modelos más robustos.	spa
dc.description.abstract	ABSTRACT : The present work is focused on identifying the keywords that manifest the sentiment load classified as positive, negative, and neutral on a set of tweets. 7 models were designed, two of them with convolutional neural networks and recurrent neural networks for the labeling of sentiment as an illustration exercise since the tweets are previously annotated, a baseline that implements 3 text preprocessing strategies for the output and implementation of architectures with layers of BERT and RoBERTa, these to detect the keywords of the tweet that have the sentiment load which is the main objective of the task. The model that produced the best results according to the Jaccard index metric was the one implemented with RoBERTa with a value of 0.749, it is important to note that one of the baselines implemented with an embedding layer from a co-occurrence matrix generated by the Glove technique obtained a value of 0.586 from the average of the Jaccard index above the implementation with BERT which was 0.549 on the same metric. The exploration of the data showed that the elimination of special characters and words with little semantic meaning allow to improve the performance of the models, and the creation of text preprocessing strategies for the target variable helps to implement a baseline with a good performance to be governed as benchmark for the design of more robust models.	spa
dc.format.mimetype	application/pdf	spa
dc.language.iso	spa	spa
dc.type.hasversion	info:eu-repo/semantics/draft	spa
dc.rights	info:eu-repo/semantics/openAccess	spa
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/2.5/co/	*
dc.title	Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML	spa
dc.type	info:eu-repo/semantics/other	spa
oaire.version	http://purl.org/coar/version/c_b1a7d7d4d402bcce	spa
dc.rights.accessrights	http://purl.org/coar/access_right/c_abf2	spa
thesis.degree.name	Especialista en Analítica y Ciencia de Datos	spa
thesis.degree.level	Especialización	spa
thesis.degree.discipline	Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos	spa
thesis.degree.grantor	Universidad de Antioquia	spa
dc.rights.creativecommons	https://creativecommons.org/licenses/by-nc-sa/4.0/	spa
dc.publisher.place	Medellín	spa
dc.type.coar	http://purl.org/coar/resource_type/c_46ec	spa
dc.type.redcol	http://purl.org/redcol/resource_type/COther	spa
dc.type.local	Tesis/Trabajo de grado - Monografía - Especialización	spa
dc.subject.lemb	Lingüística computacional	-
dc.subject.lemb	Lexicografía-procesamiento de datos	-
dc.subject.lemb	Lexicología-procesamiento de datos	-
dc.subject.lemb	Redes neurales (computadores)	-
dc.subject.agrovoc	Aprendizaje electrónico	-
dc.subject.agrovoc	Machine learning	-
dc.subject.proposal	Carga de sentimiento	spa
dc.subject.proposal	Twitter	spa
dc.subject.agrovocuri	http://aims.fao.org/aos/agrovoc/c_49834	-
Aparece en las colecciones:	Especializaciones de la Facultad de Ingeniería

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
MazoJulian_2021_PalabrasDeteccionSentimiento.pdf	Trabajo de grado de especialización	959.83 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons