El caso de negocio
En la administración de Pullman Sea temple Resort, en las costas de Australia, constantemente revisan los comentarios online que dejan sus usuarios para mejorar su servicio. Sin embargo, es difícil tener una visión sistemática del contenido textual de los reviews, especialmente para compara la evolución de la satisfacción y tendencias escondidas en los textos.
El plan de análisis
En esta oportunidad haremos un análisis de reputación usando técnicas de Procesamiento de Lenguaje Natural (o analíticas de texto) mezclando varios métodos: Clasificación semi-supervisada, Análisis de sentimientos y series de tiempo.
Analizaremos el contenido de los review en TripAdvisor que han dejado los pasajeros del Resort durante varios años, buscando tendencias y patrones.
Las tendencias
Después de extraer y limipiar los datos de reviews, comenzamos explorando las tendencias generales de la Experencia de los clientes a través de los comentarios online en TripAdvisor. Sea Template está ubicado en Queensland, al norte de Australia, en un clima tropical, cercano al Daintree (Selva trópical) y la famosísima Gran Barrera de Coral.
Al revisar los puntajes (o burbujas) que los usuarios dan, podemos observar que existe un sesgo hacía puntajes altos. Esto es un fenómeno común en las encuestas de satisfacción, por lo que nos obliga a mirar con mayor atención la distribución de puntajes en el tiempo.

Sin embargo, cuando aplicamos un poco de análisis de series de tiempo, nos damos cuenta que:
- El número promedio de cometarios a aumentado a través de los años, aunque
- La evolución de los puntajes muestra una tendencia decreciente en años recientes, y
- cuando contamos la proporción de los comentarios por puntaje, descubrimos que apesar de que los comentarios positivos siguen siendo mayoría, los negativos están ganando predominancia
- Cuando revisamos los valores absolutos, vemos que los comentarios negativos se mantienen igual, pero hay cada vez menos comentarios positivos en proporción.

El contenido del texto
Para enteder la experiencia de usuarios y por qué los puntajes están declinando, ejecutamos varios tipos de análisis textuales de lo propios comentarios para descubri que:
- Usando varias estrategias, extrajímos las
frase clavemás comunes y así ver que factores son los más importantes para los clientes. Por ejemplo: la piscina gigante, la distancia del hotel al pueblo o el personal. - Aplicando
Similitud Vectorial, construimos unclasificador de oraciones semi-supervisadopara agrupar el texto según si el contenido pertenecia a una de 5 categorías pre-establecidas: Recepción, infra estructura y mantenimiento, aseo y un "otras". Posteriormente, revisamos si la prevalencia de estas categorías variaba en el tiempo, sin embargo, resultaron relevantes durante todo el periodo análizado!

- También usamos técnicas completamente sin supervisar, es decir, sin determinar el contenido a priori, sino dejando que el algoritmo descubra temáticas por sí mismo. Esto es
Modelado de tópicos, que nos permitieran descubrir otras temáticas que podríamos haber obviado en el primer análisis. Este análisis nos mostró de nuevo que la distancia al pueblo, la piscina y el personal (especialmente el de recepción) eran los más importantes, pero además que:
- El restaurante y el servicio a la habitación son importantes para un número de huespédes, esto apesar de que
- La mayoría de los cuartos son departamentos con equipo completo de cocina y lavandería.
- Esto último es muy importante para familias con muchos hijos, el cual es probablemente el perfil más común de cliente.
- La configuración del hotel y los diferentes tipos de edificios son importantes,
- La atmósfera que generan también lo es (lujoso y tropical)
- Y obviamente, las atracciones naturales del destino como el arrecife de coral o el Daintree.

-
Luego, aplicamos
Análisis de sentimientos, para asignar un puntaje específico a las partes del texto que se referían a alguna de las 5 categorías en que logramos clasificar. Aquí nos dimos cuenta que el aseo tenía el puntaje más bajo, mientras que la recepción la más alta.
-
Finalmente, usamos
decomposicion de señalessobre los puntajes de sentimiento a través del tiempo. Esto nos permite extraer patrones de la señal, como:
- Al analizar la estacionalidad, vemos que la temporada alta genera presión sobre los departamentos de alimentación y aseo.
- El ambiente y la infraestructura pueden estar necesitando renovación, ya que su novedad va decayendo con el tiempo.
- Ya que los cuartos son departamentos completamente funcionales, incluso algunos cuentan con acceso independiente, algunas personas los han comprado de manera privada y los arriendan por otros medios como AirBnB. Esos arriendos no incluyen los servicios del hotel, pero impactan los puntajes de los comentarios ya que son indistingibles para el cliente.

El resultado
En conclusión, la caída de la reputación no se debe solo a un fallo visible, sino a una combinación de presión operativa en áreas clave (limpieza), el desgaste de la infraestructura y el impacto de los arriendos privados.
Los métodos analíticos de NLP empleados nos permitieron tener una visión más global de los problemas, sin el sesgo que genera el "último review" más fresco en nuestra memoria. Además pudimos extraer aspectos de la experiencia de los usuarios que son las más valoradas y las que les generan mayor fricción.
Notas
Esta análisis empleó técnicas originales de Natural Language Processing(NLP), que son técnicas de Machine Learning del campo de la Inteligencia Artificial, que dió origen a los Grandes Modelos de Lenguaje (LLM). A diferencia de la técnicas que usan LLM, estas técnicas permiten mucho más control y dominio sobre los resultados y son recomendables para extraer datos e indicadores específicos y especializados de bases de datos con campos de texto.
Si tienes un caso en que deseas análizar bases de tados reclamos o las ventas de manera sistemática y trazable, no dudes en contactarnos a [email protected].