zdepablo/split_strat_scale.r

## split_strat_scale.r
library(caret)

## select training indices preserving class distribution
in.train <- createDataPartition(yclass, p=0.8, list=FALSE)
summary(factor(yclass))
ytra <- yclass[in.train]; summary(factor(ytra))
ytst <- yclass[-in.train]; summary(factor(ytst))

## standardize features: training parameters of scaling for test-part
Xtra <- scale(X[in.train,])
Xtest <- scale(X[-in.train,],
               center = attr(Xtra,"scaled:center"),
               scale = attr(Xtra,"scaled:scale"))

## stratified folds for cross-validation: say Y is a factor
table(Y)
foldInds <- createFolds(Y, k=10, list=TRUE, returnTrain=FALSE)
lapply(foldInds, function(ii) table(Y[ii])) ## verify stratification
## set returnTrain=TRUE if supplyinf these indiced to train-function,
##  see https://stat.ethz.ch/pipermail/r-help/2011-May/277722.html
	library(caret)

	## select training indices preserving class distribution
	in.train <- createDataPartition(yclass, p=0.8, list=FALSE)
	summary(factor(yclass))
	ytra <- yclass[in.train]; summary(factor(ytra))
	ytst <- yclass[-in.train]; summary(factor(ytst))

	## standardize features: training parameters of scaling for test-part
	Xtra <- scale(X[in.train,])
	Xtest <- scale(X[-in.train,],
	center = attr(Xtra,"scaled:center"),
	scale = attr(Xtra,"scaled:scale"))

	## stratified folds for cross-validation: say Y is a factor
	table(Y)
	foldInds <- createFolds(Y, k=10, list=TRUE, returnTrain=FALSE)
	lapply(foldInds, function(ii) table(Y[ii])) ## verify stratification
	## set returnTrain=TRUE if supplyinf these indiced to train-function,
	## see https://stat.ethz.ch/pipermail/r-help/2011-May/277722.html