Análisis PNL de las cuentas de Twitter de las Bibliotecas Nacionales de Ecuador, Perú y Chile

Juan-José Boté-Vericad
6 min readJan 29, 2021

--

En este artículo se va a analizar mediante la técnica de procesamiento de lenguaje natural (PNL) las cuentas de Twitter de las Bibliotecas Nacionales de Ecuador (https://twitter.com/_BNEE — 518 seguidores), Perú (https://twitter.com/BibliotecaPeru — 19700 seguidores) y Chile (https://twitter.com/bcnchile — 21200 seguidores). Todos los seguidores son los que indica la cuenta en el momento del planteamiento del análisis (29/01/2021). La formación y parte del código que se va a emplear en R ha sido facilitado por Roberto Esteves en el curso de Procesamiento de Lenguaje Natural de la Sociedad Ecuatoriana de Estadística.

Fuente: Pixabay: https://pixabay.com/es/photos/la-colecci%C3%B3n-de-arquitectura-5641389/

Vamos a realizar el análisis de las 3 cuentas de Twitter antes mencionadas. Supongo de entrada que las bibliotecas nacionales además de actividades que a veces realizan localmente en la ciudad donde están, también promocionan el patrimonio que custodian. Es esta la comparación análitica que quiero realizar.

Cuestiones técnicas

Una de las cosas que suceden en este análisis es el nombre de la Biblioteca Nacional de Ecuador cuyo nombre empieza con “_”. Esto puede dificultar en algún momento el análisis para algunas funciones de R. Para unificar criterios, _BNEE será BNEc, BibliotecaPeru será BNPr y bcnchile será BNCh.

La forma en que he realizado el cambio está explicado en el sitio YoAutorCientifico.

Por otro lado, usaremos la funcion stopwords de la librería TM riesgo de que aparezcan algunos carácteres indeseados en el análisis.

De todos los campos que tiene una cuenta de Twitter (90) sólo se van a emplear para el análisis 4: screen_name (nombre del perfil), created_at (fecha), text (texto del Tweet) y status_id (Identificador del Tweet).

Análisis hacia atrás

En la opción gratuita de la API de Twitter podemos análizar 3200 tweets de una cuenta y 18000 tweets cada 15 minutos.

Análisis exploratorio

Lo primero que vamos a ver es el número de tweets con los que contamos y si distribución temporal.

Fig. 1 — Núm. de Tweets por fecha de publicación

Inicialmente lo que se observa en la gráfica anterior es que Biblioteca Nacional de chile tiene más tweets distribuidos en el tiempo y la Biblioteca Nacional de Ecuador los tiene concentrados entre Julio de 2020 y febrero de 2021. En el caso de Perú tiene más volumen de tweets y también concentrados en ese periodo de tiempo. Esto tiene sentido dado que sólo descargo 1000 tweets de cada uno de ellos.

Quizás esto se ve más claro en la imagen siguiente:

Fig 2. — Gráfico de líneas de publicación temporal de tweets

Número de palabras

Como resultado, tenemos que en número de palabras, la Biblioteca Nacional de Perú publica un volumen de palabras más alto.

Fig. 3. — Gráfico de volumen de palabras

En números

Biblioteca Nacional de Perú: 22594 palabras

Biblioteca Nacional de Chile: 17497 palabras

Biblioteca Nacional de Ecuador: 5200 palabras

Por otro lado, nos interesa también las palabras distintas que publica cada cuenta. Así

1 BNCh 3304
2 BNEc 1241
3 BNPr 4387

Fig. 4. — Gráfico de palabras distintas entre bibliotecas

Longitud media de los tweets

En la siguiente imagen se puede ver que los Tweets de la Biblioteca Nacional de Ecuador tienen una longitud media superior a las otras dos bibliotecas.

Fig. 5. — Gráfico de longitud media de los tweets

Número de palabras con los textos limpios

A pesar de que he comentado antes que empleo la función StopWords, tiene sus riesgos ya que en Twitter se publican a veces expresiones que no forman parte del vocabulario normal que esté en los diccionarios. Esto es etiqueta o direcciones acortadas o simplemente direcciones web enteras.

Figura 6. — Frecuencia de palabras aplicando la función stopwords

Esto convertido a nubes de palabras nos quedaría de la siguiente forma:

En esta nube que agrupa a las 3 tenemos que el término “ley” aparece quizás como el más representativo. Esto puede deberse a que entre las tres bibliotecas divulguen mucho esta palabras. También nos aparecen en términos secundarios “biblioteca”, “nacional”, “perú”, “chile”, pero…no aparece remarcada “ecuador”. Vamos a ver lo mismo pero biblioteca por biblioteca.

Fig. 7. — De izquierda a derecha, BN Chile, BN Ecuador y BN Perú

Si observamos gráficos anteriores (Ej. Imagen 6) estas nubes de palabras tienen cierto sentido dado que la BN Perú publica un volumen de palabras más alto.

Correlación de entre cuentas

Realizamos una correlación de Pearson con las tres cuentas de la siguiente forma:

a) BNEcuador y BNPerú

b) BNEcuador y BNChile

c) BNChile y BNPerú

Fig. 8. — Gráficos de correlación entre palabras comunes entre bibliotecas

En la primera gráfica (BNEc/BNPr) se puede observar que hay palabras en común y con alta correlación como “bibliotecas”, “facebook”, o incluso “ conéctate”.

En la segunda gráfica (BNEc/BNCh) se acerca a la correlación el término “biblioteca”, “nacional”, o “vía”, y seguimos con “año” y “hoy”.

En la tercera gráfica (BNCh/BNPr) hay una alta correlación con el término “biblioteca”, “vivo” o “dia”. El término ley que se apreciaba en la nube de palabras prácticamente es un término sólo empleado por la BNChile ya que prácticamente no existe correlación.

Palabras comunes entre bibliotecas

Para entender un poco mejor el gráfico de correlación tenemos las palabras comunes entre cada biblioteca:

“Número de palabras comunes entre Bib. Nac. Ecuador y Bib. Nac. Perú 556”

“Número de palabras comunes entre Bib. Nac. Ecuador y Bib. Nac. Chile 404”

“Número de palabras comunes entre Bib. Nac. Chile y Bib. Nac. Perú 1015”

Si observamos, por ejemplo el tercer gráfico por la derecha que corresponde a BNCh/BNP vemos que también el gráfico en si es un poco más “espeso” en palabras.

Esto nos lleva al siguiente apartado que son los bigramas, conjuntos de dos palabras que tienen algún significado.

Exploración de bigramas entre las bibliotecas

En este primer gráfico, tenemos los bigramas con mayor frecuencia de aparición entre las 3 bibliotecas.

Fig. 9. — Bigramas entre las 3 bibliotecas

Es posible que algunos términos no signifiquen nada en términos semánticos pero también forma parte de las limitaciones de stopwords. Por ejemplo el caso de “p m”, que puede tener varios significados.

Fig. 10. — Bigramas de la BN Ecuador

Dado el límite temporal vemos que en Ecuador, el término “diciembre h” aparece con más frecuencia seguidode “vía streaming” y “facebook live”.

Fig. 11. — Bigramas de la BNChile

En el caso de Chile, el térmio ley acompañado de otro término aparece varias veces con más frecuencia. Habría que observar un análisis con n-gramas para saber a qué ley se refiere ya que parece tener su importancia.

Fig. 12. — Bigramas de la BNPerú

En el caso de Perú, hay términos muy representativos como “p m”, pero también el término biblioteca nacional.

Conclusiones

A pesar de ser bibliotecas de diferentes paises y por lo tanto, parecería no haber una conexión entre ellas, se ha podido observar que en el análisis de correlación hay términos dentro de las palabras empleadas que si guardan alguna correlación.

Por otro lado, como se indicaba al principio de la entrada se esperaba que quizás surgieran términos vinculados al patrimonio cultural de cada país y aparecen pocos términos vinculados.

Así por ejemplo, en el caso de Ecuador tenemos en los bigramas “biodeterioro fúngico”, “conservación emergente” o “buenas prácticas”.

En el caso de Chile, aparece el término “chile historia” y en el caso de Perú los términos ·”efemerides bnp hoy”, ”hoy conmemoramos”, “perú resguarda” o “colecciones fuentes” que podrían tener relación con eventos para visualizar online patrimonio (estamos en pandemia y no se pueden visitar museos ni bibliotecas).

Finalmente en tanto en el caso de Perú y Ecuador se puede observar en las frecuencias de bigramas que el término “facebook live”, “fb live” o “streaming” tienen una alta aparición dado que ambas bibliotecas realizan eventos en directo.

--

--