Proyecto-Master-DataScience-Evolve-IvanMartinez

Análisis de reseñas de clientes con NLP

Proyecto de Procesamiento del Lenguaje Natural (NLP) orientado al análisis automático de reseñas de clientes para extraer insights de negocio a partir de texto no estructurado.

El objetivo del proyecto es transformar miles de opiniones escritas por usuarios en información útil mediante técnicas de limpieza de texto, análisis de sentimiento, modelado de temas (topic modeling) y visualización de resultados.

Objetivos del proyecto

Este análisis se centra en cinco objetivos principales:

Extracción y limpieza de datos
Análisis del sentimiento global de las reseñas
Descubrimiento automático de topics
Análisis del sentimiento por topic
Comparación temática con otras empresas del mismo sector

Tecnologías y herramientas utilizadas

Python
Pandas
NumPy
Scikit-learn
Transformers (Hugging Face)
Datasets (Hugging Face)
Matplotlib
Jupyter Notebook

Metodología

1. Carga del dataset

Se carga un conjunto de reseñas desde Hugging Face y se transforma en un DataFrame para facilitar su análisis.

2. Limpieza y preprocesado del texto

Se realiza una normalización completa del texto:

Conversión a minúsculas
Eliminación de URLs
Eliminación de signos y números
Eliminación de espacios extra
Homogeneización del contenido textual

Esto permite mejorar la calidad del análisis posterior.

3. Análisis de sentimiento

Se aplica un modelo preentrenado de sentiment analysis basado en Transformers para clasificar cada reseña como:

Positiva
Negativa

Esto permite medir la percepción general de los clientes.

4. Topic Modeling

Para descubrir automáticamente los principales temas de conversación se utiliza:

TF-IDF Vectorizer
NMF (Non-negative Matrix Factorization)

Esto permite identificar patrones frecuentes en las reseñas.

5. Visualización y análisis comparativo

Se generan visualizaciones para interpretar:

Distribución del sentimiento
Frecuencia de topics
Relación entre sentimiento y topic
Comparativa con otras empresas del mismo sector

Principales hallazgos

Los temas más frecuentes detectados en las reseñas están relacionados con:

Parking y transporte al aeropuerto
Atención al cliente
Precios y servicios adicionales
Problemas con reembolsos y cancelaciones

El análisis de sentimiento permite identificar claramente los puntos de mejora y las áreas mejor valoradas por los clientes.

Estructura del repositorio

Proyecto-Master-DataScience-Evolve-IvanMartinez/
│
├── analisis_resenas_nlp.ipynb   # Notebook principal
├── trustpilot-reviews-123k.csv  # Dataset utilizado
└── README.md

Cómo ejecutar el proyecto

1. Clonar el repositorio

git clone https://github.com/ivanmartiolme/Proyecto-Master-DataScience-Evolve-IvanMartinez.git

2. Instalar dependencias

pip install pandas numpy scikit-learn transformers datasets matplotlib jupyter

3. Ejecutar el notebook

jupyter notebook

Abrir:

analisis_resenas_nlp.ipynb