lievcin/crossValidate2.py

## crossValidate2.py
def crossValidate(dataset, folds):
    shuffle(dataset)
    predictions = []
    ground_truth = []
    foldSize = int(len(dataset)/folds)
    #preProcess and tokenize once!
    dataset = [(t[0], toFeatureVector(preProcess(t[1])), t[2]) for t in dataset]

    for i in range(0,len(dataset), foldSize):
        trainFolds = dataset[:i] + dataset[i+foldSize:]
        validationFold = dataset[i: i+foldSize]

        training_set = [(t[1], t[2]) for t in trainFolds]
        classifier = trainClassifier(training_set)
        validation_set = [(t[0], t[1]) for t in validationFold]
        predictions.append(predictLabels(validationFold, classifier))
        ground_truth.append([ l[2] for l in validationFold])

    return ground_truth, predictions

def predictLabels(reviewSamples, classifier):
    return classifier.classify_many(map(lambda t: t[1], reviewSamples))
	def crossValidate(dataset, folds):
	shuffle(dataset)
	predictions = []
	ground_truth = []
	foldSize = int(len(dataset)/folds)
	#preProcess and tokenize once!
	dataset = [(t[0], toFeatureVector(preProcess(t[1])), t[2]) for t in dataset]

	for i in range(0,len(dataset), foldSize):
	trainFolds = dataset[:i] + dataset[i+foldSize:]
	validationFold = dataset[i: i+foldSize]

	training_set = [(t[1], t[2]) for t in trainFolds]
	classifier = trainClassifier(training_set)
	validation_set = [(t[0], t[1]) for t in validationFold]
	predictions.append(predictLabels(validationFold, classifier))
	ground_truth.append([ l[2] for l in validationFold])

	return ground_truth, predictions

	def predictLabels(reviewSamples, classifier):
	return classifier.classify_many(map(lambda t: t[1], reviewSamples))