tkazusa/load_data.py

## load_data.py
def load_train_data():
    paths = sorted(glob.glob('../data/train/*.csv.gz'))

    with Pool() as p:
        df = pd.concat(p.map(read_csv, paths), ignore_index=True, axis=0, copy=False)
    logger.info('data size {}'.format(df.shape))
    return df


def load_val_data():
    paths = sorted(glob.glob('../data/val/*.csv.gz'))

    with Pool() as p:
        df = pd.concat(p.map(read_csv, paths), ignore_index=True, axis=0, copy=False)
    logger.info('data size {}'.format(df.shape))
    return df


def load_test_data():
    paths = sorted(glob.glob('../data/test/*.csv.gz'))

    with Pool() as p:
        df = pd.concat(p.map(read_csv, paths), ignore_index=True, axis=0, copy=False)
    logger.info('data size {}'.format(df.shape))
    return df


def load_all_data():
    paths = sorted(glob.glob('../data/*.csv.gz')) + \
        sorted(glob.glob('../data/*.csv.gz')) + sorted(glob.glob('../data/*.csv.gz'))

    with Pool() as p:
        df = pd.concat(p.map(read_csv, paths), ignore_index=True, axis=0, copy=False)
    logger.info('data size {}'.format(df.shape))
    return df
	def load_train_data():
	paths = sorted(glob.glob('../data/train/*.csv.gz'))

	with Pool() as p:
	df = pd.concat(p.map(read_csv, paths), ignore_index=True, axis=0, copy=False)
	logger.info('data size {}'.format(df.shape))
	return df


	def load_val_data():
	paths = sorted(glob.glob('../data/val/*.csv.gz'))

	with Pool() as p:
	df = pd.concat(p.map(read_csv, paths), ignore_index=True, axis=0, copy=False)
	logger.info('data size {}'.format(df.shape))
	return df


	def load_test_data():
	paths = sorted(glob.glob('../data/test/*.csv.gz'))

	with Pool() as p:
	df = pd.concat(p.map(read_csv, paths), ignore_index=True, axis=0, copy=False)
	logger.info('data size {}'.format(df.shape))
	return df


	def load_all_data():
	paths = sorted(glob.glob('../data/*.csv.gz')) + \
	sorted(glob.glob('../data/.csv.gz')) + sorted(glob.glob('../data/.csv.gz'))

	with Pool() as p:
	df = pd.concat(p.map(read_csv, paths), ignore_index=True, axis=0, copy=False)
	logger.info('data size {}'.format(df.shape))
	return df