ravila4/parse_drugbank_xml.py

## parse_drugbank_xml.py
import xmltodict
import pandas as pd

with open("full_database.xml") as db:
    doc = xmltodict.parse(db.read())

values = []
for item in doc['drugbank']['drug']:
    logp = None
    try:
        ID = item['drugbank-id']['#text']
        prop = item['experimental-properties']
        calc = item['calculated-properties']
        if prop is not None:
            # Iterate through the list of propterties
            prop_list = prop['property']
            if type(prop_list) is not list:
                prop_list = [prop_list]
            for p in prop_list:
                if p['kind'] == logP:
                    logp = p['value']
        if logp is not None:
            for prop in calc['property']:
                if prop['kind'] == SMILES:
                    smiles = prop['value']
                if prop['kind'] == logP:
                    logp_exp = prop['value']
            values.append((ID, smiles, logp, logp_exp))
    except:
        pass

values_df = pd.DataFrame(values)
columns = ["DrugBankID", "SMILES", "expLogP", "calcLogP"]
values_df.columns = columns
values_df.to_csv("logp_values.csv", index=False)
	import xmltodict
	import pandas as pd

	with open("full_database.xml") as db:
	doc = xmltodict.parse(db.read())

	values = []
	for item in doc['drugbank']['drug']:
	logp = None
	try:
	ID = item['drugbank-id']['#text']
	prop = item['experimental-properties']
	calc = item['calculated-properties']
	if prop is not None:
	# Iterate through the list of propterties
	prop_list = prop['property']
	if type(prop_list) is not list:
	prop_list = [prop_list]
	for p in prop_list:
	if p['kind'] == logP:
	logp = p['value']
	if logp is not None:
	for prop in calc['property']:
	if prop['kind'] == SMILES:
	smiles = prop['value']
	if prop['kind'] == logP:
	logp_exp = prop['value']
	values.append((ID, smiles, logp, logp_exp))
	except:
	pass

	values_df = pd.DataFrame(values)
	columns = ["DrugBankID", "SMILES", "expLogP", "calcLogP"]
	values_df.columns = columns
	values_df.to_csv("logp_values.csv", index=False)