tomhopper/dt_merge_nodups.R

## dt_merge_nodups.R
library(data.table)

# See \link{http://stackoverflow.com/questions/11792527/filtering-out-duplicated-non-unique-rows-in-data-table}
# for a discussion of how to eliminate duplicate rows.
# The problem is that the \code{unique()} function will use a key, if it exists. We need to
# eliminate the key.

# Create one column of data
temp1 <- data.table(sample(letters,size = 15, replace = FALSE))
temp2 <- data.table(sample(letters,size = 15, replace = FALSE))

# Merge the data.table
temp3 <- rbind(temp1, temp2)
# By listing the columns, unique() treats temp3 as having no key.
temp3 <- unique(temp3[,list(V1)])

# Create two or more columns of data
temp1 <- data.table(sample(letters,size = 50, replace = TRUE), sample(letters,size = 50, replace = TRUE))
temp2 <- data.table(sample(letters,size = 50, replace = TRUE), sample(letters,size = 50, replace = TRUE))

# Merge and eliminate duplicates
temp3 <- rbind(temp1, temp2)
temp3 <- unique(temp3[,list(V1, V2)])

# Merge, set the key to null, then eliminate duplicates
temp3 <- rbind(temp1, temp2)
temp3 <- setkey(temp3, NULL)
temp3 <- unique(temp3)
	library(data.table)

	# See \link{http://stackoverflow.com/questions/11792527/filtering-out-duplicated-non-unique-rows-in-data-table}
	# for a discussion of how to eliminate duplicate rows.
	# The problem is that the \code{unique()} function will use a key, if it exists. We need to
	# eliminate the key.

	# Create one column of data
	temp1 <- data.table(sample(letters,size = 15, replace = FALSE))
	temp2 <- data.table(sample(letters,size = 15, replace = FALSE))

	# Merge the data.table
	temp3 <- rbind(temp1, temp2)
	# By listing the columns, unique() treats temp3 as having no key.
	temp3 <- unique(temp3[,list(V1)])

	# Create two or more columns of data
	temp1 <- data.table(sample(letters,size = 50, replace = TRUE), sample(letters,size = 50, replace = TRUE))
	temp2 <- data.table(sample(letters,size = 50, replace = TRUE), sample(letters,size = 50, replace = TRUE))

	# Merge and eliminate duplicates
	temp3 <- rbind(temp1, temp2)
	temp3 <- unique(temp3[,list(V1, V2)])

	# Merge, set the key to null, then eliminate duplicates
	temp3 <- rbind(temp1, temp2)
	temp3 <- setkey(temp3, NULL)
	temp3 <- unique(temp3)