fedarko/split_metadata_by_run.py

## split_metadata_by_run.py
# NOTE: Assumes that there's a SAMPLE_METADATA environment variable declared pointing to a metadata file
# NOTE: Assumes that this metadata file contains BarcodeSequence and seq_run_ord columns
import pandas as pd
import os


md = pd.read_csv(os.environ["SAMPLE_METADATA"], sep="\t", index_col=0)
print("There are {} unique barcode sequences in this metadata file.".format(len(md["BarcodeSequence"].unique())))
runs = tuple(md["seq_run_ord"].unique())
print("Also, the {} runs listed in this metadata file are {}.".format(len(runs), runs))

for run_id in runs:
    md_subset = md[md["seq_run_ord"] == run_id]
    md_subset_name = "metadata-{}.tsv".format(run_id)
    md_subset.to_csv(md_subset_name, sep="\t")
    print("Generated a subset of the metadata called {}".format(md_subset_name))
	# NOTE: Assumes that there's a SAMPLE_METADATA environment variable declared pointing to a metadata file
	# NOTE: Assumes that this metadata file contains BarcodeSequence and seq_run_ord columns
	import pandas as pd
	import os


	md = pd.read_csv(os.environ["SAMPLE_METADATA"], sep="\t", index_col=0)
	print("There are {} unique barcode sequences in this metadata file.".format(len(md["BarcodeSequence"].unique())))
	runs = tuple(md["seq_run_ord"].unique())
	print("Also, the {} runs listed in this metadata file are {}.".format(len(runs), runs))

	for run_id in runs:
	md_subset = md[md["seq_run_ord"] == run_id]
	md_subset_name = "metadata-{}.tsv".format(run_id)
	md_subset.to_csv(md_subset_name, sep="\t")
	print("Generated a subset of the metadata called {}".format(md_subset_name))