TransDayOfVisibility breve análisis sobre Tweets de la jornada

Juan-José Boté-Vericad
3 min readMar 31, 2021

--

Con motivo del día internacional de la Visibilidad Trans se analizan tweets escritos en español durante un periodo de tiempo concreto. En este caso, los tweets publicados durante la mañana.

Objetivos

El objetivo de este ejercicio es analizar los tweets del dia 31 de marzo de 2021 que es El día internacional de la Visibilidad Trans. En Twitter este día se emplea el hashtag #TransDayOfVisibility. Por otro lado, se pretende realizar un análisis de tópicos de los tweets empleando técnicas de Machine learning.

Metodologia

La metodología empleada ha sido la siguiente:

a) Creación en modo local de una base de datos en MYSQL, con un tabla y sus campos correspondientes.

b) Llamada a la API de Twitter para la descarga de los tweets correspondientes.

c) Registro en MYSQL en modo local de los Tweets

d) Consulta de los tweets desde la base de datos y posterior análisis.

Resultados

Primero de todo se han descargado los tweets y se han eliminado aquellas variables que en principio no eran necesarias

Eliminación de variables innecesarias

Esto se puede observar a través de la variable TransDaysofVisibility y TransDaysofVisibility2.

Una vez realizado esto y guardado en la base datos, en su lectura se ha procedido con la libreria udpipe a lematizar y filtrar todas las palabras que nos podían interesar. También se ha aplicado un filtro con stopwords.

Se ha generado una matriz de términos ordenada por frecuencia de palabras. Finalmente, se ha generado una nube de palabras con los términos más relevantes.

Nube de palabras del #TransDayOfVisibility

Una vez realizado esto, se ha procedido a aplicar LDA para saber los términos más relevantes en función de las cuentas que hacen el tweets. S eha determinado que una buena agrupación serían 5 temas como indica la gráfica que hay a continuación.

Selección del número óptimo de temas
Selección de temas

En estos temas se puede observar que hay un término que se repite en todos, pero no aparece con la misma frecuencia.

Tweets por minutos y horas

En el caso de los tweets por minuto, ha habido que recurrir a la función de series de tiempo ts_plot. No obstante, también se podía haber empleado la función ggplot, dado que ya tenía segmentado los tweets por hora.

Tweets por minuto

En la siguiente gráfica se puede observar el número de tweets por hora en una franja horaria desde las 00:00 hasta las 13:00 que es cuando se han recogido los datos.

Tweets por hora

Conclusiones

Se pueden extraer varias conclusiones de este miniproyecto. Algunos gráficos se mejoraron con respecto a una entrada similar, la jornada organizada por el grupo #GENDIMS. La entrada que corresponde al evento, la puedes consultar aquí.

Por otro lado, aunque el algoritmo LDA parece indicado para el análisis de texto no estructurado es posible que Knn posiblemente (habría que probarlo), diera mejor resultado.

--

--