Sentiment Analysis of News Articles in Spanish Using Predicate Features

Tamayo Herrera, Antonio Jesús; Arias Londoño, Julián David; Quiróz Herrera, Gabriel Ángel; Burgos Herrera, Diego Alberto

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/14178

Título :	Sentiment Analysis of News Articles in Spanish Using Predicate Features
Otros títulos :	Análisis de sentimientos en artículos de prensa en español usando predicados como características Analyse de sentiments dans des articles de presse en espagnol en utilisant des prédicats en tant que caractéristiques
Autor :	Tamayo Herrera, Antonio Jesús Arias Londoño, Julián David Quiróz Herrera, Gabriel Ángel Burgos Herrera, Diego Alberto
metadata.dc.subject.*:	Supervised learning (Machine learning) Dimension reduction (Statistics) Investigación lingüística Linguistic research Sintaxis Syntax Semántica Semantics Lingüística informática Computational linguistics Análisis semántico Semantic analysis Aprendizaje automático (inteligencia artificial) http://id.loc.gov/authorities/subjects/sh94008290 http://id.loc.gov/authorities/subjects/sh2010000188 http://vocabularies.unesco.org/thesaurus/concept12899 http://vocabularies.unesco.org/thesaurus/concept11611 http://vocabularies.unesco.org/thesaurus/concept13409 http://vocabularies.unesco.org/thesaurus/concept3411
Fecha de publicación :	2019
Editorial :	Universidad del Valle, Escuela de Ciencias del Lenguaje
Resumen :	RESUMEN: La predicción automática del modo de proceder de los agentes involucrados en las tendencias sociales o económicas es un desafío preponderante en la actualidad. Sin embargo, es una tarea difícil debido al hecho de que la postura u opinión a menudo se extiende a través de documentos extensos y complejos, como los artículos de noticias. El presente trabajo evalúa los predicados de oraciones como características para determinar automáticamente la postura del escritor en los artículos de noticias. Capturamos la semántica y la postura del texto codificando características como el atributo de oraciones copulativas, el predicado de oraciones transitivas, sintagmas adjetivales y la sección del artículo. Bajo el supuesto de que estas características son lo suficientemente informativas para modelar la semántica del texto, cada secuencia de palabras se desambigua y se le asigna un valor de sentimiento con reglas de ponderación. Se realizaron diferentes experimentos empleando SentiWordNet y ML-Senticon para determinar la opinión de las palabras. Los vectores de características se construyen automáticamente para completar una base de datos que se prueba mediante el uso de dos algoritmos de aprendizaje automático. Se logró una eficiencia del 69 % utilizando una SVM con kernel gaussiano junto con una estrategia de selección de características. Esta puntuación superó la línea de base de la técnica de "bag of words" en un 12 %. Estos resultados son prometedores si tenemos en cuenta que el análisis de sentimientos se hace en documentos muy complejos en español. ABSTRACT: The automatic prediction of the course of action of agents involved in social or economic trends is an imperative challenge nowadays. However, it is a difficult task because stance or opinion is often spread throughout long, complex texts, such as news articles. The current study tests sentence predicates as features to automatically determine the writer’s stance in news articles. We capture the semantics and stance of the text by encoding features such as the attribute of copulative sentences, the predicate of transitive sentences, adjectival phrases, and the section of the article. Under the assumption that these features are informative enough to model the semantics of the text, each word sequence is disambiguated and assigned a sentiment value using weighting rules. Different experiments were run using either SentiWordNet and ML-Senticon to determine words’ sentiment. Feature vectors are automatically built to populate a database that is tested using two machine learning algorithms. An efficiency of 69% was achieved using a SVM with Gaussian kernel along with a feature selection strategy. This score outperformed the bag-of-words baseline in 12%. These results are promising considering that the sentiment analysis is performed on very complex texts written in Spanish. RESUMEN: La predicción automática del modo de proceder de los agentes involucrados en las tendencias sociales o económicas es un desafío preponderante en la actualidad. Sin embargo, es una tarea difícil debido al hecho de que la postura u opinión a menudo se extiende a través de documentos extensos y complejos, como los artículos de noticias. El presente trabajo evalúa los predicados de oraciones como características para determinar automáticamente la postura del escritor en los características como el atributo de oraciones copulativas, el predicado de oraciones transitivas, sintagmas adjetivales y la sección del artículo. Bajo el supuesto de que estas características son lo suficientemente informativas para modelar la semántica del texto, cada secuencia de palabras se desambigua y se le asigna un valor de sentimiento con reglas de ponderación. Se realizaron diferentes experimentos empleando SentiWordNet y ML-Senticon para determinar la opinión de las palabras. Los vectores de características se construyen automáticamente para completar una base de datos que se prueba mediante el uso de dos algoritmos de aprendizaje automático. Se logró una eficiencia del 69 % utilizando una SVM con kernel gaussiano junto con una estrategia de selección de características. Esta puntuación superó la línea de base de la técnica de "bag of words" en un 12 %. Estos resultados son prometedores si tenemos en cuenta que el análisis de sentimientos se hace en documentos muy complejos en español. RÉSUMÉ: La prédiction automatique des façons d’agir des agents impliqués dans les tendances sociales ou économiques est un défi impératif de nos jours. Cependant, cette tâche s´avère difficile étant donné que les avis s’entendent dans des documents longs et complexes, tels que des articles de presse. Le présent travail évalue les prédicats de phrases en tant que caractéristiques pour déterminer systématiquement le point de vue de l’écrivain dans les articles de presse. Il s’agit de capturer la sémantique et la posture du texte en décodant des caractéristiques telles que l'attribut de phrases copulatives, le prédicat de phrases transitives, de syntagmes adjectivaux et la section de l'article. En supposant que ces fonctionnalités soient suffisamment informatives pour modéliser la sémantique du texte, chaque séquence de mots est désambiguïsée et une valeur de sentiment est attribuée à l'aide de règles de pondération. Différentes expériences ont été réalisées à l'aide de SentiWordNet et de ML-Senticon afin de déterminer l’avis des mots. Les vecteurs de fonctionnalités sont construits de façon automatique pour alimenter une base de données testée à l'aide de deux algorithmes d'apprentissage automatique. Une efficacité de 69% a été obtenue avec un SVM à noyau gaussien et une stratégie de sélection des fonctionnalités. Ce score a dépassé la base de référence de la technique «bag of words» dans 12%. Ces résultats sont prometteurs compte tenu du fait que l'analyse des sentiments est effectuée sur des documents très complexes en espagnol.
metadata.dc.identifier.eissn:	2539-3804
ISSN :	0120-3479
Aparece en las colecciones:	Artículos de Revista en Idiomas

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TamayoAntonio_2019_SentimentAnalysisFeatures.pdf	Artículo de investigación	1.31 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons