rexarski/read_folders.R

## read_folders.R
library(dplyr)
library(tidyr)
library(purrr)
library(readr)

training_folder <- "data-folder"

# a function that reads all files from a folder into a data frame
read_folder <- function(infolder) {
  tibble(file = dir(infolder, full.names = TRUE)) %>%
    mutate(text = map(file, read_lines)) %>%
    transmute(id = basename(file), text) %>%
    unnest(text)
}

# use unnest() and map() to apply read_folder to each subfolder
raw_text <- tibble(folder = dir(training_folder, full.names = TRUE)) %>%
  mutate(folder_out = map(folder, read_folder)) %>%
  unnest(cols = c(folder_out)) %>%
  transmute(newsgroup = basename(folder), id, text)

raw_text
	library(dplyr)
	library(tidyr)
	library(purrr)
	library(readr)

	training_folder <- "data-folder"

	# a function that reads all files from a folder into a data frame
	read_folder <- function(infolder) {
	tibble(file = dir(infolder, full.names = TRUE)) %>%
	mutate(text = map(file, read_lines)) %>%
	transmute(id = basename(file), text) %>%
	unnest(text)
	}

	# use unnest() and map() to apply read_folder to each subfolder
	raw_text <- tibble(folder = dir(training_folder, full.names = TRUE)) %>%
	mutate(folder_out = map(folder, read_folder)) %>%
	unnest(cols = c(folder_out)) %>%
	transmute(newsgroup = basename(folder), id, text)

	raw_text