sdaza/sampling_example.R

## sampling_example.R
# stratified sampling example and weighted means

set.seed(1)
library(data.table)

dat =  data.table(
  ID = 1:100,
  A = sample(c("AA", "BB", "CC", "DD", "EE"), 100, replace = TRUE),
  B = rnorm(100), C = abs(round(rnorm(100), digits=1)),
  D = sample(c("CA", "NY", "TX"), 100, replace = TRUE),
  E = sample(c("M", "F"), 100, replace = TRUE),
  W = runif(100, 3, 10))

table(dat$A)
table(dat$D)

# samples with replacement
samples = list()
for (i in 1:10) {
    samples[[i]] = dat[,.SD[ sample(.N, replace = TRUE)], .(A, D)]
}

anyDuplicated(dat[, ID])
anyDuplicated(samples[[1]][, ID])
anyDuplicated(samples[[2]][, ID])


table(samples[[3]]$A)
table((samples[[3]]$D))

table(dat$A)
table(dat$D)

# weighted mean
dat[, weighted.mean(C, W)]
dat[, mean(C)]
	# stratified sampling example and weighted means

	set.seed(1)
	library(data.table)

	dat = data.table(
	ID = 1:100,
	A = sample(c("AA", "BB", "CC", "DD", "EE"), 100, replace = TRUE),
	B = rnorm(100), C = abs(round(rnorm(100), digits=1)),
	D = sample(c("CA", "NY", "TX"), 100, replace = TRUE),
	E = sample(c("M", "F"), 100, replace = TRUE),
	W = runif(100, 3, 10))

	table(dat$A)
	table(dat$D)

	# samples with replacement
	samples = list()
	for (i in 1:10) {
	samples[[i]] = dat[,.SD[ sample(.N, replace = TRUE)], .(A, D)]
	}

	anyDuplicated(dat[, ID])
	anyDuplicated(samples[[1]][, ID])
	anyDuplicated(samples[[2]][, ID])


	table(samples[[3]]$A)
	table((samples[[3]]$D))

	table(dat$A)
	table(dat$D)

	# weighted mean
	dat[, weighted.mean(C, W)]
	dat[, mean(C)]