Demographic information retrieval from text for subject characterization and market segmentation

Escobar Grisales, Daniel

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/28986

Título :	Demographic information retrieval from text for subject characterization and market segmentation
Autor :	Escobar Grisales, Daniel
metadata.dc.contributor.advisor:	Orozco Arroyave, Juan Rafael Vásquez Correa, Juan Camilo
metadata.dc.subject.*:	Procesamiento de lenguaje natural Natural Language Processing Almacenamiento y recuperación de la información Information storage and retrieval Estudio de mercado Market research Lingüística computacional Computational linguistics Redes neurales (computadores) Neural networks (Computer science) Aprendizaje automático (inteligencia artificial) Machine learning Perfilamiento de autor Segmentación de mercados http://vocabularies.unesco.org/thesaurus/concept3325
Fecha de publicación :	2022
Resumen :	ABSTRACT : In recent years, the most important trends to improve customer services in the e-commerce industry are focused on customer customization and the use of automated dialogue systems to enhance the support experience. On one hand, demographic traits from a subject/customer such as gender, nationality, and age can help to strengthen marketing strategies or even improve customer empathy with the product or the advisor. On the other hand, the service of automated dialogue can help to improve the ability to serve multiple users. However, in order to improve the customer service support, the dialogue system should correctly recognize the customer requirements. This research work aims to improve customer services based on text data from the subject/customer, considering both scenarios, demographic trait recognition, and evaluation of effectiveness in conversations between humans and chatbots. For demographic trait recognition, this work proposes the use of recurrent and convolutional neural networks and a transfer learning strategy to recognize three demographic traits: gender, variety of language according to nationality, and age. Models are tested in two different document types, Tweets (documents written in informal language) and call-center conversations (documents written in formal language). In documents in informal language, accuracies of up to 75% and 92% are achieved for the recognition of gender and language variety, respectively, and an unweighted average recall of up to 50% is achieved for age recognition. In documents in formal language, accuracies of up to 70%, 72%, and 68% are achieved for the recognition of gender, variety language, and age respectively. Results indicate that for the traits of gender and variety of language it is possible to transfer the knowledge from a system trained on a specific type of expression to another, where the structure is completely different, and its amount of data is scarcer. In addition, the learning acquired by the models to recognize language varieties in Spanish-speaking countries can be successfully used to fine-tune models to recognize more subtle language varieties, such as the ones within the same country. For evaluation of effectiveness in conversations with chatbots, we pro- pose a new methodology for automatic evaluation of chatbot effectiveness in real production environments. The analysis considers convolutional neural networks, using two parallel convolutional layers to evaluate questions and answers independently. This methodology is tested upon real conversations of chatbots that provide service to two different companies. The results are compared to baseline models based on classical techniques with different pre-trained word embedding models. According to our results, the proposed approach provides accuracies between 78% and 80%, which outperforms the best result of the baseline models by 2.9%. RESUMEN : En los últimos años, las tendencias más importantes para mejorar los servicios de atención al cliente en el sector del comercio electrónico se centran en la personalización del cliente y el uso de sistemas de diálogo automatizados para mejorar la experiencia de asistencia. Por un lado, los rasgos demográficos de un sujeto/cliente, como el género, la nacionalidad y la edad, pueden ayudar a reforzar las estrategias de marketing o incluso a mejorar la empatía del cliente con el producto o el asesor. Por otro lado, el servicio de diálogo automatizado puede ayudar a mejorar la capacidad de atender a múltiples usuarios. Sin embargo, para mejorar el servicio de atención al cliente, el sistema de diálogo debe reconocer correctamente los requisitos del cliente. Este trabajo de investigación tiene como objetivo mejorar los servicios de atención al cliente basados en datos textuales del sujeto/cliente, considerando ambos escenarios, el reconocimiento de rasgos demográficos y la evaluación de la eficacia en las conversaciones entre humanos y chatbots. Para el reconocimiento de rasgos demográficos, este trabajo propone el uso de redes neuronales recurrentes y convolucionales y una estrategia de aprendizaje por transferencia para reconocer tres rasgos demográficos: el género, la variedad de idioma según la nacionalidad y la edad. Los modelos se prueban en dos tipos de documentos diferentes, Tweets (documentos escritos en lenguaje informal) y conversaciones de call-center (documentos escritos en lenguaje formal). En los documentos en lenguaje informal, se obtienen precisiones de hasta el 75% y el 92% para el reconocimiento del género y la variedad lingüística, respectivamente, y una media no ponderada de reconocimiento de hasta el 50% para el reconocimiento de la edad. En los documentos en lenguaje formal, se alcanzan precisiones de hasta el 70%, el 72% y el 68% para el reconocimiento del género, la variedad lingüística y la edad, respectivamente. Los resultados indican que para los rasgos de género y variedad de lenguaje es posible transferir el conocimiento de un sistema entrenado en un tipo específico de expresión a otro, donde la estructura es completamente diferente, y su cantidad de datos es más escasa. Además, el aprendizaje adquirido por los modelos para reconocer las variedades lingüísticas de los países hispanohablantes puede utilizarse con éxito para afinar los modelos para reconocer variedades lingüísticas más sutiles, como las que se dan dentro del mismo país. Para la evaluación de la eficacia en las conversaciones con los chatbots, se plantea una nueva metodología para la evaluación automática de la eficacia de los chatbots en entornos reales de producción. El análisis considera redes neuronales convolucionales, utilizando dos capas convolucionales paralelas para evaluar preguntas y respuestas de forma independiente. Esta metodología se prueba con conversaciones reales de chatbots que prestan servicio a dos empresas diferentes. Los resultados se comparan con modelos de referencia basados en técnicas clásicas con diferentes modelos de incrustación de palabras preentrenados. Según nuestros resultados, el enfoque propuesto proporciona precisiones entre el 78% y el 80%, lo que supera el mejor resultado de los modelos de referencia en un 2,9%.
Aparece en las colecciones:	Maestrías de la Facultad de Ingeniería

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
EscobarDaniel_2022_CaracterizacionSujetoTexto.pdf	Tesis de maestría	4.7 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons