afrendeiro/process_csv.py

## process_csv.py
import os
import pandas as pd
from argparse import ArgumentParser


# Parse command-line arguments
parser = ArgumentParser(
    prog="CSV parser",
    description="Gets some column out of CSVs."
)
parser.add_argument(
    dest="root_dir",
    help="Directory to be crawled for CSV files.",
    type=str)
parser.add_argument(
    "-o", "--output",
    dest="output_file",
    help="Output file.",
    default="processed_data.csv",
    type=str)
args = parser.parse_args()

# Process directory
print("Processing directory '{}'.".format(args.root_dir))

res = pd.DataFrame()
times = dict()
for file in os.listdir(os.path.abspath(args.root_dir)):
    if os.path.isdir(file) or ("CSV" not in file.upper()) or (file == args.output_file):
        continue

    print("Processing file '{}'.".format(os.path.join(args.root_dir, file)))

    header = pd.read_csv(
        os.path.join(args.root_dir, file),
        nrows=12, encoding="latin1", sep=";", decimal=",", index_col=0)
    data = pd.read_csv(
        os.path.join(args.root_dir, file),
        skiprows=21, encoding="latin1", sep=";", decimal=",")
    name = header.loc["Sample", "Data"] + " " + header.loc["Date", "Data"]
    times[name] = header.loc["Time", "Data"]
    res[name] = data['Raw[cnt]']

order = pd.Series(times).sort_values()
res[order.index].to_csv(os.path.join(args.root_dir, args.output_file))
	import os
	import pandas as pd
	from argparse import ArgumentParser


	# Parse command-line arguments
	parser = ArgumentParser(
	prog="CSV parser",
	description="Gets some column out of CSVs."
	)
	parser.add_argument(
	dest="root_dir",
	help="Directory to be crawled for CSV files.",
	type=str)
	parser.add_argument(
	"-o", "--output",
	dest="output_file",
	help="Output file.",
	default="processed_data.csv",
	type=str)
	args = parser.parse_args()

	# Process directory
	print("Processing directory '{}'.".format(args.root_dir))

	res = pd.DataFrame()
	times = dict()
	for file in os.listdir(os.path.abspath(args.root_dir)):
	if os.path.isdir(file) or ("CSV" not in file.upper()) or (file == args.output_file):
	continue

	print("Processing file '{}'.".format(os.path.join(args.root_dir, file)))

	header = pd.read_csv(
	os.path.join(args.root_dir, file),
	nrows=12, encoding="latin1", sep=";", decimal=",", index_col=0)
	data = pd.read_csv(
	os.path.join(args.root_dir, file),
	skiprows=21, encoding="latin1", sep=";", decimal=",")
	name = header.loc["Sample", "Data"] + " " + header.loc["Date", "Data"]
	times[name] = header.loc["Time", "Data"]
	res[name] = data['Raw[cnt]']

	order = pd.Series(times).sort_values()
	res[order.index].to_csv(os.path.join(args.root_dir, args.output_file))