jlmelville/words.R

## words.R
words_canon <- function(words) {
  words$canon <- apply(words, 1,
                      function(x) {
                        paste(
                          stringr::str_sort(
                            unlist(
                              strsplit(
                                tolower(as.character(x)), split = "",
                                fixed = TRUE))),
                          collapse = "")
                        }
                      )
  words
}


words_length <- function(x) {
  sapply(x, nchar)
}


word_find <- function(words, word) {
  subwords <- word

  while (TRUE) {
    if (length(subwords) == 0) {
      return("Sorry, got nothing")
    }
    new_subwords <- c()
    len <- nchar(subwords[1])
    message("Searching words of length ", len)
    lwords <- words[words$length == len, ]
    for (subword in subwords) {
      res <- lwords[grep(join(c("^", word_canon(subword), "$")), lwords$canon), 1]
      if (nrow(res) > 0) {
        return(res)
      }
      new_subwords <- c(new_subwords, make_subwords(subword))
    }
    subwords <- unique(sort(new_subwords))
  }
}

word_findl <- function(word_list, word) {
  subwords <- word_canon(word)

  while (TRUE) {
    if (length(subwords) == 0) {
      return("Sorry, got nothing")
    }
    new_subwords <- list()
    len <- nchar(subwords[1])
    message("Searching words of length ", len)
    nsubwords <- length(subwords)
    for (i in 1:nsubwords) {
      subword <- subwords[[i]]
      res <- word_list[[subword]]
      if (length(res) > 0) {
        return(res)
      }
      new_subwords[[i]] <- make_subwords(subword)
    }
    subwords <- unique(unlist(new_subwords))
  }
}

wordl_findl <- function(wordl_list, word) {
  subwords <- word_canon(word)

  while (TRUE) {
    if (length(subwords) == 0) {
      return("Sorry, got nothing")
    }
    new_subwords <- list()
    len <- nchar(subwords[1])
    message("Searching words of length ", len)
    wordl_sublist <- wordl_list[[as.character(len)]]
    nsubwords <- length(subwords)
    for (i in 1:nsubwords) {
      subword <- subwords[[i]]
      res <- wordl_sublist[[subword]]
      if (length(res) > 0) {
        return(res)
      }
      new_subwords[[i]] <- make_subwords(subword)
    }
    subwords <- unique(unlist(new_subwords))
  }
}


words_to_list <- function(words) {
  res <- list()
  for (i in 1:nrow(words)) {
    word_row <- words[i, ]
    word <- word_row[1]
    anagrams <- res[[word_row$canon]]
    if (is.null(anagrams)) {
      anagrams <- word
    }
    else {
      anagrams <- c(anagrams, word)
    }
    res[[word_row$canon]] <- anagrams
  }
  res
}

wordl_len <- function(word_list) {
  res <- list()
  anagrams <- names(word_list)
  nanagrams <- length(anagrams)
  for (i in 1:nanagrams) {
    anagram <- anagrams[[i]]
    len <- as.character(nchar(anagram))
    words <- unlist(word_list[[anagram]])
    names(words) <- NULL
    lwords <- res[[len]]
    if (is.null(lwords)) {
      lwords <- list()
    }
    lwords[[anagram]] <- words
    res[[len]] <- lwords
    if (i %% 1000 == 0) {
      message("Finished ", i, " / ", nanagrams)
    }
  }
  res
}

chars <- function(word) {
  strsplit(word, split = "", fixed = TRUE)[[1]]
}

join <- function(chs) {
  paste0(chs, collapse = "")
}

joinc <- function(chs) {
  stringi::stri_paste(chs, collapse = "")
}

word_canon <- function(word) {
  joinc(
    sort(
      chars(word)
  ))
}

make_subwords <- function(word) {
  chs <- sort(chars(word))
  nchs <- length(chs)
  res <- rep("", nchs)
  for (i in 1:nchs) {
    res[[i]] <- join(chs[-i])
  }
  unique(res)
}
	words_canon <- function(words) {
	words$canon <- apply(words, 1,
	function(x) {
	paste(
	stringr::str_sort(
	unlist(
	strsplit(
	tolower(as.character(x)), split = "",
	fixed = TRUE))),
	collapse = "")
	}
	)
	words
	}


	words_length <- function(x) {
	sapply(x, nchar)
	}



	word_find <- function(words, word) {
	subwords <- word

	while (TRUE) {
	if (length(subwords) == 0) {
	return("Sorry, got nothing")
	}
	new_subwords <- c()
	len <- nchar(subwords[1])
	message("Searching words of length ", len)
	lwords <- words[words$length == len, ]
	for (subword in subwords) {
	res <- lwords[grep(join(c("^", word_canon(subword), "$")), lwords$canon), 1]
	if (nrow(res) > 0) {
	return(res)
	}
	new_subwords <- c(new_subwords, make_subwords(subword))
	}
	subwords <- unique(sort(new_subwords))
	}
	}

	word_findl <- function(word_list, word) {
	subwords <- word_canon(word)

	while (TRUE) {
	if (length(subwords) == 0) {
	return("Sorry, got nothing")
	}
	new_subwords <- list()
	len <- nchar(subwords[1])
	message("Searching words of length ", len)
	nsubwords <- length(subwords)
	for (i in 1:nsubwords) {
	subword <- subwords[[i]]
	res <- word_list[[subword]]
	if (length(res) > 0) {
	return(res)
	}
	new_subwords[[i]] <- make_subwords(subword)
	}
	subwords <- unique(unlist(new_subwords))
	}
	}

	wordl_findl <- function(wordl_list, word) {
	subwords <- word_canon(word)

	while (TRUE) {
	if (length(subwords) == 0) {
	return("Sorry, got nothing")
	}
	new_subwords <- list()
	len <- nchar(subwords[1])
	message("Searching words of length ", len)
	wordl_sublist <- wordl_list[[as.character(len)]]
	nsubwords <- length(subwords)
	for (i in 1:nsubwords) {
	subword <- subwords[[i]]
	res <- wordl_sublist[[subword]]
	if (length(res) > 0) {
	return(res)
	}
	new_subwords[[i]] <- make_subwords(subword)
	}
	subwords <- unique(unlist(new_subwords))
	}
	}


	words_to_list <- function(words) {
	res <- list()
	for (i in 1:nrow(words)) {
	word_row <- words[i, ]
	word <- word_row[1]
	anagrams <- res[[word_row$canon]]
	if (is.null(anagrams)) {
	anagrams <- word
	}
	else {
	anagrams <- c(anagrams, word)
	}
	res[[word_row$canon]] <- anagrams
	}
	res
	}

	wordl_len <- function(word_list) {
	res <- list()
	anagrams <- names(word_list)
	nanagrams <- length(anagrams)
	for (i in 1:nanagrams) {
	anagram <- anagrams[[i]]
	len <- as.character(nchar(anagram))
	words <- unlist(word_list[[anagram]])
	names(words) <- NULL
	lwords <- res[[len]]
	if (is.null(lwords)) {
	lwords <- list()
	}
	lwords[[anagram]] <- words
	res[[len]] <- lwords
	if (i %% 1000 == 0) {
	message("Finished ", i, " / ", nanagrams)
	}
	}
	res
	}

	chars <- function(word) {
	strsplit(word, split = "", fixed = TRUE)[[1]]
	}

	join <- function(chs) {
	paste0(chs, collapse = "")
	}

	joinc <- function(chs) {
	stringi::stri_paste(chs, collapse = "")
	}

	word_canon <- function(word) {
	joinc(
	sort(
	chars(word)
	))
	}

	make_subwords <- function(word) {
	chs <- sort(chars(word))
	nchs <- length(chs)
	res <- rep("", nchs)
	for (i in 1:nchs) {
	res[[i]] <- join(chs[-i])
	}
	unique(res)
	}