nassimhaddad/glove.R

## glove.R
# download the trained word vectors (~100mb)
download_to <- tempfile()
download.file('http://www-nlp.stanford.edu/data/glove.6B.50d.txt.gz',
              download_to)

# prepare the data
data <- read.table(download_to, sep = " ", header = FALSE,
                 quote = NULL, comment.char = "", row.names = 1,
                 nrows = -1)
data <- as.matrix(data)


if (!(require(FNN))){
  install.packages("FNN")
  require(FNN)
}

allwords <- row.names(data)

# quick function
get_closest <- function(x, k = 10){
  knns <- get.knnx(data, t(x), k=k)
  data.frame(words = allwords[knns$nn.index],
             dist = as.vector(knns$nn.dist))
}

# find closest words
get_closest(data["wine",])

# arithmetic based on words
comp <- data["king",] - data["son",] + data["daughter",]
get_closest(comp)

# cleanup: delete the temporary file
file.remove(download_to)
	# download the trained word vectors (~100mb)
	download_to <- tempfile()
	download.file('http://www-nlp.stanford.edu/data/glove.6B.50d.txt.gz',
	download_to)

	# prepare the data
	data <- read.table(download_to, sep = " ", header = FALSE,
	quote = NULL, comment.char = "", row.names = 1,
	nrows = -1)
	data <- as.matrix(data)


	if (!(require(FNN))){
	install.packages("FNN")
	require(FNN)
	}

	allwords <- row.names(data)

	# quick function
	get_closest <- function(x, k = 10){
	knns <- get.knnx(data, t(x), k=k)
	data.frame(words = allwords[knns$nn.index],
	dist = as.vector(knns$nn.dist))
	}

	# find closest words
	get_closest(data["wine",])

	# arithmetic based on words
	comp <- data["king",] - data["son",] + data["daughter",]
	get_closest(comp)

	# cleanup: delete the temporary file
	file.remove(download_to)