klahrich/csv_to_hdf5.py

## csv_to_hdf5.py
# Step 1: export to hdf5 chunks
for i, chunk in enumerate(pd.read_csv('bigfile.csv', chunksize=1_000_000)):
  df_chunk = vaex.from_pandas(chunk, copy_index=False)
  df_chunk.export_hdf5(f'bigfile_part_{i}.hdf5')

df = vaex.open('bigfile_part_*.hdf5')

# Step 2: Combine back into one big hdf5 file
df.export_hdf5('bigfile.hdf5')
	# Step 1: export to hdf5 chunks
	for i, chunk in enumerate(pd.read_csv('bigfile.csv', chunksize=1_000_000)):
	df_chunk = vaex.from_pandas(chunk, copy_index=False)
	df_chunk.export_hdf5(f'bigfile_part_{i}.hdf5')

	df = vaex.open('bigfile_part_*.hdf5')

	# Step 2: Combine back into one big hdf5 file
	df.export_hdf5('bigfile.hdf5')