baoilleach/Download_from_PubChem.py

## Download_from_PubChem.py
import urllib
import random
import pdb
import pybel

def getfromPubChem(N = 100, filenames = None):
    """Download N random PubChem molecules as 2D and 3D"""

    if filenames == None:
        filenames = ["2Ddataset.sdf", "3Ddataset.sdf"]
    assert len(filenames) == 2

    baseurl = ("http://pubchem.ncbi.nlm.nih.gov/summary/"
               "summary.cgi?cid=%d&disopt=%sDisplaySDF")
    tot = 0
    ans = [[], []]
    while tot < N:
        cid = random.randint(1, 24000000)
        try:
            data3d = urllib.urlopen(baseurl % (cid, "3D")).read().rstrip()
            if data3d.find("<html>") >= 0:
                continue
            mol = pybel.readstring("sdf", data3d)
##            pdb.set_trace()
            if mol.data['PUBCHEM_COMPONENT_COUNT'] != '1':
                continue
            # Must have stereo
            smi = mol.write("smi").rstrip()
            if smi.find("@") < 0:
                continue
            data2d = urllib.urlopen(baseurl % (cid, "")).read().rstrip()
        except IOError:
            pass
        else:
            ans[1].append(data3d)
            ans[0].append(data2d)
            tot += 1
    for i in range(2):
        print >> open(filenames[i], "w"), "\n".join(ans[i])

if __name__ == "__main__":
    N = 100
    getfromPubChem(N)
	import urllib
	import random
	import pdb
	import pybel

	def getfromPubChem(N = 100, filenames = None):
	"""Download N random PubChem molecules as 2D and 3D"""

	if filenames == None:
	filenames = ["2Ddataset.sdf", "3Ddataset.sdf"]
	assert len(filenames) == 2

	baseurl = ("http://pubchem.ncbi.nlm.nih.gov/summary/"
	"summary.cgi?cid=%d&disopt=%sDisplaySDF")
	tot = 0
	ans = [[], []]
	while tot < N:
	cid = random.randint(1, 24000000)
	try:
	data3d = urllib.urlopen(baseurl % (cid, "3D")).read().rstrip()
	if data3d.find("<html>") >= 0:
	continue
	mol = pybel.readstring("sdf", data3d)
	## pdb.set_trace()
	if mol.data['PUBCHEM_COMPONENT_COUNT'] != '1':
	continue
	# Must have stereo
	smi = mol.write("smi").rstrip()
	if smi.find("@") < 0:
	continue
	data2d = urllib.urlopen(baseurl % (cid, "")).read().rstrip()
	except IOError:
	pass
	else:
	ans[1].append(data3d)
	ans[0].append(data2d)
	tot += 1
	for i in range(2):
	print >> open(filenames[i], "w"), "\n".join(ans[i])

	if __name__ == "__main__":
	N = 100
	getfromPubChem(N)