endrebak/kde_auc.py

## kde_auc.py
from scipy.stats import gaussian_kde
import numpy as np
import pandas as pd

df = pd.read_table(f, sep="\t")

values = df.CorrelationSum.sort_values()

gk = gaussian_kde(values)

vals = np.linspace(values.min(), values.max(), 1000)

res = np.array([gk.integrate_box_1d(0, v) for v in vals])

result = []
for cutoff in [0.001, 0.01, 0.05, 0.1]:
    cutoff_idx = len(res[res < cutoff])
    cutoff_value = vals[cutoff_idx]
    number = (values < cutoff_value).sum()
    percentage = 100 * (number / len(values))
    result.append({"Cutoff": cutoff, "CutoffValue": cutoff_value, "Number": number, "Percentage": percentage})

result = pd.DataFrame.from_dict(result)

print(result)

result.to_csv(o, sep="\t", index=False, float_format="%.3f")
	from scipy.stats import gaussian_kde
	import numpy as np
	import pandas as pd

	df = pd.read_table(f, sep="\t")

	values = df.CorrelationSum.sort_values()

	gk = gaussian_kde(values)

	vals = np.linspace(values.min(), values.max(), 1000)

	res = np.array([gk.integrate_box_1d(0, v) for v in vals])

	result = []
	for cutoff in [0.001, 0.01, 0.05, 0.1]:
	cutoff_idx = len(res[res < cutoff])
	cutoff_value = vals[cutoff_idx]
	number = (values < cutoff_value).sum()
	percentage = 100 * (number / len(values))
	result.append({"Cutoff": cutoff, "CutoffValue": cutoff_value, "Number": number, "Percentage": percentage})

	result = pd.DataFrame.from_dict(result)

	print(result)

	result.to_csv(o, sep="\t", index=False, float_format="%.3f")