bearloga/wikipedia_multilang_subtitles.R

## wikipedia_multilang_subtitles.R
suppressMessages({
  # Preamble ========================================
  # ======== Web Scraping ===========================
  library(rvest) # install.packages('rvest')
  library(magrittr)
  # ======== I/O ====================================
  library(httr) # install.packages('httr')
})

html <- read_html("https://wikipedia.org")

wikipedias <- html %>%
  html_nodes('div[data-el-section="secondary links"] ul li a') %>%
  { data.frame(href = paste0("https:", html_attr(., "href")), name = html_text(.)) }

subtitles <- do.call(rbind, apply(wikipedias, 1, function(wikipedia) {
  html <- read_html(paste0(wikipedia['href'], "wiki/MediaWiki:Sitesubtitle"))

  title <- html %>%
    html_nodes("title") %>%
    html_text()

  subtitle <- html %>%
    html_nodes("#mw-content-text p") %>%
    html_text()

  return(data.frame(title = title, subtitle = subtitle, stringsAsFactors = FALSE))
}))

subtitles$title %<>%
  sub("MediaWiki:Sitesubtitle.{3}", "\\1", .) %>%
  sub(", .*", "", .)
	suppressMessages({
	# Preamble ========================================
	# ======== Web Scraping ===========================
	library(rvest) # install.packages('rvest')
	library(magrittr)
	# ======== I/O ====================================
	library(httr) # install.packages('httr')
	})

	html <- read_html("https://wikipedia.org")

	wikipedias <- html %>%
	html_nodes('div[data-el-section="secondary links"] ul li a') %>%
	{ data.frame(href = paste0("https:", html_attr(., "href")), name = html_text(.)) }

	subtitles <- do.call(rbind, apply(wikipedias, 1, function(wikipedia) {
	html <- read_html(paste0(wikipedia['href'], "wiki/MediaWiki:Sitesubtitle"))

	title <- html %>%
	html_nodes("title") %>%
	html_text()

	subtitle <- html %>%
	html_nodes("#mw-content-text p") %>%
	html_text()

	return(data.frame(title = title, subtitle = subtitle, stringsAsFactors = FALSE))
	}))

	subtitles$title %<>%
	sub("MediaWiki:Sitesubtitle.{3}", "\\1", .) %>%
	sub(", .*", "", .)