otaviomguerra/select_k_rows.py

## select_k_rows.py
import pandas as pd
import random

filename = "data.csv"
n = sum(1 for line in open(filename)) - 1 #numero de linhas no arquivo
s = 10000 #numero de amostras desejado (linhas do dataset que se quer)
skip = sorted(random.sample(range(1,n+1),n-s)) #the 0-indexed header will not be included in the skip list
df = pd.read_csv(filename, skiprows=skip)
	import pandas as pd
	import random

	filename = "data.csv"
	n = sum(1 for line in open(filename)) - 1 #numero de linhas no arquivo
	s = 10000 #numero de amostras desejado (linhas do dataset que se quer)
	skip = sorted(random.sample(range(1,n+1),n-s)) #the 0-indexed header will not be included in the skip list
	df = pd.read_csv(filename, skiprows=skip)