El Proyecto Gutenberg es una iniciativa desarrollada por Michael Hart con el fin de ofrecer gratuitamente libros electrónicos. En este script se descargan cuatro libros: uno en español, otro en inglés, otro en francés y el último en alemán y se estudia la frecuencia de las cinco vocales en cada uno de los textos.
#INICIO -------------------------
rm(list=ls(all=TRUE))
#Cargamos el paquete tidytext para conseguir que los datos de texto estén adecuadamente organizados
library(tidytext)
#Cargamos el paquete magrittr para poder usar la función %>%
library(magrittr)
#Cargamos el paquete dplyr para poder usar la función anti_join
library(dplyr)
#Cargamos el paquete gutenbergr para poder acceder a libros
library(gutenbergr)
#Creamos una pantalla dividida en 4 gráficos (2x2)
split.screen(c(2,2))
##########
#Descargamos un libro de Pío Baroja en español: "Mala hierba" (nº de ebook 43017)
pbar<-gutenberg_download(43017)
#Organizamos el texto del libro y obtenemos las frecuencias absolutas y relativas de las cinco vocales
tidy_pbar <- pbar %>%
unnest_tokens(word, text) %>%
anti_join(stop_words)
ggg<-paste(tidy_pbar$word,collapse=" ")
y <- tolower(strsplit(ggg, "")[[1]])
y <- y[y %in% letters]
z<-table(y)
z<-as.data.frame(z)
u<-z[z$y=="a"|z$y=="e"|z$y=="i"|z$y=="o"|z$y=="u",]
vocal<-u$y;fabs<-u$Freq;frel<-round(fabs/sum(fabs),3)
VOCALES_español<-data.frame(vocal,fabs,frel)
screen(1)
barplot(frel,names=c("a","e","i","o","u"),col='yellow',main='Español')
##########
#Descargamos un libro de Charles Dickens en inglés: "A Tale of Two Cities" (nº de ebook 98)
cdic<-gutenberg_download(98)
tidy_cdic <- cdic %>%
unnest_tokens(word, text) %>%
anti_join(stop_words)
ggg<-paste(tidy_cdic$word,collapse=" ")
y <- tolower(strsplit(ggg, "")[[1]])
y <- y[y %in% letters]
z<-table(y)
z<-as.data.frame(z)
u<-z[z$y=="a"|z$y=="e"|z$y=="i"|z$y=="o"|z$y=="u",]
vocal<-u$y;fabs<-u$Freq;frel<-round(fabs/sum(fabs),3)
VOCALES_inglés<-data.frame(vocal,fabs,frel)
screen(2)
barplot(frel,names=c("a","e","i","o","u"),col='blue',main='Inglés')
##########
#Descargamos un libro de Honoré de Balzac en francés: "Contes Bruns" (nº de ebook 11766)
hbal<-gutenberg_download(11766)
tidy_hbal <- hbal %>%
unnest_tokens(word, text) %>%
anti_join(stop_words)
ggg<-paste(tidy_hbal$word,collapse=" ")
y <- tolower(strsplit(ggg, "")[[1]])
y <- y[y %in% letters]
z<-table(y)
z<-as.data.frame(z)
u<-z[z$y=="a"|z$y=="e"|z$y=="i"|z$y=="o"|z$y=="u",]
vocal<-u$y;fabs<-u$Freq;frel<-round(fabs/sum(fabs),3)
VOCALES_francés<-data.frame(vocal,fabs,frel)
screen(3)
barplot(frel,names=c("a","e","i","o","u"),col='red',main='Francés')
##########
#Descargamos un libro de Franz Grillparzer en alemán: "Die Argonauten" (nº de ebook 7943)
fgri<-gutenberg_download(7943)
tidy_fgri <- fgri %>%
unnest_tokens(word, text) %>%
anti_join(stop_words)
ggg<-paste(tidy_fgri$word,collapse=" ")
y <- tolower(strsplit(ggg, "")[[1]])
y <- y[y %in% letters]
z<-table(y)
z<-as.data.frame(z)
u<-z[z$y=="a"|z$y=="e"|z$y=="i"|z$y=="o"|z$y=="u",]
vocal<-u$y;fabs<-u$Freq;frel<-round(fabs/sum(fabs),3)
VOCALES_alemán<-data.frame(vocal,fabs,frel)
screen(4)
barplot(frel,names=c("a","e","i","o","u"),col='grey',main='Alemán')
VOCALES_español
VOCALES_inglés
VOCALES_francés
VOCALES_alemán
#FIN -------------------------
No hay comentarios:
Publicar un comentario