heuermh/duckdb-to-parquet.sh

## duckdb-to-parquet.sh
#!/bin/bash

echo "converting FASTQ to tab-delimited text format, one read per line..."
dsh-bio fastq-to-text -i seqkit-benchmark-data/dataset_C.fq -o seqkit-benchmark-data/dataset_C.txt

echo "dataset_C.txt:"
head -n 2 seqkit-benchmark-data/dataset_C.txt

echo "CREATE TABLE reads(description VARCHAR, sequence VARCHAR, quality VARCHAR);" > convert.sql
echo "COPY reads FROM 'seqkit-benchmark-data/dataset_C.txt' (AUTO_DETECT TRUE);" >> convert.sql
echo "COPY reads TO 'dataset_C-zstd.parquet' (FORMAT 'PARQUET', CODEC 'ZSTD');" >> convert.sql

echo "converting text format to Parquet with zstd compression via duckdb..."
duckdb dataset_C.duckdb < convert.sql

echo "file sizes:"
du -h dataset*
	#!/bin/bash

	echo "converting FASTQ to tab-delimited text format, one read per line..."
	dsh-bio fastq-to-text -i seqkit-benchmark-data/dataset_C.fq -o seqkit-benchmark-data/dataset_C.txt

	echo "dataset_C.txt:"
	head -n 2 seqkit-benchmark-data/dataset_C.txt

	echo "CREATE TABLE reads(description VARCHAR, sequence VARCHAR, quality VARCHAR);" > convert.sql
	echo "COPY reads FROM 'seqkit-benchmark-data/dataset_C.txt' (AUTO_DETECT TRUE);" >> convert.sql
	echo "COPY reads TO 'dataset_C-zstd.parquet' (FORMAT 'PARQUET', CODEC 'ZSTD');" >> convert.sql

	echo "converting text format to Parquet with zstd compression via duckdb..."
	duckdb dataset_C.duckdb < convert.sql

	echo "file sizes:"
	du -h dataset*