Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/24705
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorBotia Valderrama, Javier Fernando-
dc.contributor.authorGarcía Patiño, Carolina-
dc.date.accessioned2021-12-09T18:38:54Z-
dc.date.available2021-12-09T18:38:54Z-
dc.date.issued2021-
dc.identifier.urihttp://hdl.handle.net/10495/24705-
dc.description.abstractRESUMEN : El presente trabajo aborda el desarrollo de un modelo de analítica para el procesamiento natural del lenguaje, más específicamente la clasificación multiclase para los comentarios de películas extraídas de la plataforma de reseñas Rotten Tomatoes. La importancia de este tipo de algoritmos, reside en el conocimiento de la expectativa y experiencia de los usuarios frente al consumo de un bien o servicio. Esto genera una migración de los modelos tradicionales de evaluación de satisfacción del cliente, donde se otorgan puntuaciones en escalas cualitativas, hacia una retroalimentación personal y detallada frente a su experiencia. El dataset inicial consta de 156.060 comentarios en inglés con clases desbalanceadas, adicional, como se menciona en la descripción en la página de competición Kaggle (Kaggle, 2014) presenta particulares obstáculos frente al sarcasmo, ambigüedad en el lenguaje y la brevedad en las reseñas. Se plantea abordar el problema con la metodología planteada para procesamiento del lenguaje en una revisión de la literatura por Jain et al. (2021), la cual abarca, en el marco del procesamiento de los datos, tokenización, remoción de stopwords y lematización sobre el remanente de palabras. Posteriormente durante la extracción de características, se usan dos tipos de metodologías, seleccionadas de acuerdo con el tipo de modelo aplicado, para los modelos denominados como soft clasiffier se aplica la vectorización del vocabulario a través de un Term Frecuency Inverse Document Frecuency (TF-IDF), mientras que para el modelo de Deep Learning se aplica una red tipo Embedding. Como resultados generales, se obtiene un modelo con un accuracy del 73.02% y una tasa de F1-Score Micro y Macro del 73.01% y 72.11% respectivamente.spa
dc.format.extent23spa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.type.hasversioninfo:eu-repo/semantics/draftspa
dc.rightsinfo:eu-repo/semantics/openAccessspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/2.5/co/*
dc.titleAnálisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoesspa
dc.typeinfo:eu-repo/semantics/otherspa
oaire.versionhttp://purl.org/coar/version/c_b1a7d7d4d402bccespa
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2spa
thesis.degree.nameEspecialista en Analítica y Ciencia de Datosspa
thesis.degree.levelEspecializaciónspa
thesis.degree.disciplineFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datosspa
thesis.degree.grantorUniversidad de Antioquiaspa
dc.rights.creativecommonshttps://creativecommons.org/licenses/by-nc-sa/4.0/spa
dc.publisher.placeMedellínspa
dc.type.coarhttp://purl.org/coar/resource_type/c_46ecspa
dc.type.redcolhttp://purl.org/redcol/resource_type/COtherspa
dc.type.localTesis/Trabajo de grado - Monografía - Especializaciónspa
dc.subject.lembAprendizaje automático (inteligencia artificial)-
dc.subject.lembMachine learning-
dc.subject.lembLingüística computacional-
dc.subject.lembComputational linguistics-
dc.subject.lembLexicografía-procesamiento de datos-
dc.subject.lembLexicography Data processing-
dc.subject.proposalAnálisis de sentimientospa
Aparece en las colecciones: Especializaciones de la Facultad de Ingeniería

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
GarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdfTrabajo de grado de especialización899.2 kBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons