Análisis PNL de las cuentas de Twitter de las Bibliotecas Nacionales de Ecuador, Perú y Chile
En este artículo se va a analizar mediante la técnica de procesamiento de lenguaje natural (PNL) las cuentas de Twitter de las Bibliotecas Nacionales de Ecuador (https://twitter.com/_BNEE — 518 seguidores), Perú (https://twitter.com/BibliotecaPeru — 19700 seguidores) y Chile (https://twitter.com/bcnchile — 21200 seguidores). Todos los seguidores son los que indica la cuenta en el momento del planteamiento del análisis (29/01/2021). La formación y parte del código que se va a emplear en R ha sido facilitado por Roberto Esteves en el curso de Procesamiento de Lenguaje Natural de la Sociedad Ecuatoriana de Estadística.
Vamos a realizar el análisis de las 3 cuentas de Twitter antes mencionadas. Supongo de entrada que las bibliotecas nacionales además de actividades que a veces realizan localmente en la ciudad donde están, también promocionan el patrimonio que custodian. Es esta la comparación análitica que quiero realizar.
Cuestiones técnicas
Una de las cosas que suceden en este análisis es el nombre de la Biblioteca Nacional de Ecuador cuyo nombre empieza con “_”. Esto puede dificultar en algún momento el análisis para algunas funciones de R. Para unificar criterios, _BNEE será BNEc, BibliotecaPeru será BNPr y bcnchile será BNCh.
La forma en que he realizado el cambio está explicado en el sitio YoAutorCientifico.
Por otro lado, usaremos la funcion stopwords de la librería TM riesgo de que aparezcan algunos carácteres indeseados en el análisis.
De todos los campos que tiene una cuenta de Twitter (90) sólo se van a emplear para el análisis 4: screen_name (nombre del perfil), created_at (fecha), text (texto del Tweet) y status_id (Identificador del Tweet).
Análisis hacia atrás
En la opción gratuita de la API de Twitter podemos análizar 3200 tweets de una cuenta y 18000 tweets cada 15 minutos.
Análisis exploratorio
Lo primero que vamos a ver es el número de tweets con los que contamos y si distribución temporal.
Inicialmente lo que se observa en la gráfica anterior es que Biblioteca Nacional de chile tiene más tweets distribuidos en el tiempo y la Biblioteca Nacional de Ecuador los tiene concentrados entre Julio de 2020 y febrero de 2021. En el caso de Perú tiene más volumen de tweets y también concentrados en ese periodo de tiempo. Esto tiene sentido dado que sólo descargo 1000 tweets de cada uno de ellos.
Quizás esto se ve más claro en la imagen siguiente:
Número de palabras
Como resultado, tenemos que en número de palabras, la Biblioteca Nacional de Perú publica un volumen de palabras más alto.
En números
Biblioteca Nacional de Perú: 22594 palabras
Biblioteca Nacional de Chile: 17497 palabras
Biblioteca Nacional de Ecuador: 5200 palabras
Por otro lado, nos interesa también las palabras distintas que publica cada cuenta. Así
1 BNCh 3304
2 BNEc 1241
3 BNPr 4387
Longitud media de los tweets
En la siguiente imagen se puede ver que los Tweets de la Biblioteca Nacional de Ecuador tienen una longitud media superior a las otras dos bibliotecas.
Número de palabras con los textos limpios
A pesar de que he comentado antes que empleo la función StopWords, tiene sus riesgos ya que en Twitter se publican a veces expresiones que no forman parte del vocabulario normal que esté en los diccionarios. Esto es etiqueta o direcciones acortadas o simplemente direcciones web enteras.
Esto convertido a nubes de palabras nos quedaría de la siguiente forma:
En esta nube que agrupa a las 3 tenemos que el término “ley” aparece quizás como el más representativo. Esto puede deberse a que entre las tres bibliotecas divulguen mucho esta palabras. También nos aparecen en términos secundarios “biblioteca”, “nacional”, “perú”, “chile”, pero…no aparece remarcada “ecuador”. Vamos a ver lo mismo pero biblioteca por biblioteca.
Si observamos gráficos anteriores (Ej. Imagen 6) estas nubes de palabras tienen cierto sentido dado que la BN Perú publica un volumen de palabras más alto.
Correlación de entre cuentas
Realizamos una correlación de Pearson con las tres cuentas de la siguiente forma:
a) BNEcuador y BNPerú
b) BNEcuador y BNChile
c) BNChile y BNPerú
En la primera gráfica (BNEc/BNPr) se puede observar que hay palabras en común y con alta correlación como “bibliotecas”, “facebook”, o incluso “ conéctate”.
En la segunda gráfica (BNEc/BNCh) se acerca a la correlación el término “biblioteca”, “nacional”, o “vía”, y seguimos con “año” y “hoy”.
En la tercera gráfica (BNCh/BNPr) hay una alta correlación con el término “biblioteca”, “vivo” o “dia”. El término ley que se apreciaba en la nube de palabras prácticamente es un término sólo empleado por la BNChile ya que prácticamente no existe correlación.
Palabras comunes entre bibliotecas
Para entender un poco mejor el gráfico de correlación tenemos las palabras comunes entre cada biblioteca:
“Número de palabras comunes entre Bib. Nac. Ecuador y Bib. Nac. Perú 556”
“Número de palabras comunes entre Bib. Nac. Ecuador y Bib. Nac. Chile 404”
“Número de palabras comunes entre Bib. Nac. Chile y Bib. Nac. Perú 1015”
Si observamos, por ejemplo el tercer gráfico por la derecha que corresponde a BNCh/BNP vemos que también el gráfico en si es un poco más “espeso” en palabras.
Esto nos lleva al siguiente apartado que son los bigramas, conjuntos de dos palabras que tienen algún significado.
Exploración de bigramas entre las bibliotecas
En este primer gráfico, tenemos los bigramas con mayor frecuencia de aparición entre las 3 bibliotecas.
Es posible que algunos términos no signifiquen nada en términos semánticos pero también forma parte de las limitaciones de stopwords. Por ejemplo el caso de “p m”, que puede tener varios significados.
Dado el límite temporal vemos que en Ecuador, el término “diciembre h” aparece con más frecuencia seguidode “vía streaming” y “facebook live”.
En el caso de Chile, el térmio ley acompañado de otro término aparece varias veces con más frecuencia. Habría que observar un análisis con n-gramas para saber a qué ley se refiere ya que parece tener su importancia.
En el caso de Perú, hay términos muy representativos como “p m”, pero también el término biblioteca nacional.
Conclusiones
A pesar de ser bibliotecas de diferentes paises y por lo tanto, parecería no haber una conexión entre ellas, se ha podido observar que en el análisis de correlación hay términos dentro de las palabras empleadas que si guardan alguna correlación.
Por otro lado, como se indicaba al principio de la entrada se esperaba que quizás surgieran términos vinculados al patrimonio cultural de cada país y aparecen pocos términos vinculados.
Así por ejemplo, en el caso de Ecuador tenemos en los bigramas “biodeterioro fúngico”, “conservación emergente” o “buenas prácticas”.
En el caso de Chile, aparece el término “chile historia” y en el caso de Perú los términos ·”efemerides bnp hoy”, ”hoy conmemoramos”, “perú resguarda” o “colecciones fuentes” que podrían tener relación con eventos para visualizar online patrimonio (estamos en pandemia y no se pueden visitar museos ni bibliotecas).
Finalmente en tanto en el caso de Perú y Ecuador se puede observar en las frecuencias de bigramas que el término “facebook live”, “fb live” o “streaming” tienen una alta aparición dado que ambas bibliotecas realizan eventos en directo.