oleksandriegorov/datascrape.py

## datascrape.py
from lxml import html
import requests
import argparse

parser = argparse.ArgumentParser()
parser.add_argument('company', help='company name')
args = parser.parse_args()
company=args.company

page = requests.get("https://lei.info/fullsearch?for={}".format(company))
tree = html.fromstring(page.content)
r=tree.xpath('//*[@class="results-list"]/li/a')
for i in r:
  print(i.text,' - ',i.values())

r=tree.xpath('//*[@class="pagination"]/li/a[@title]')
last=len(r)-1
rvalues=r[last].values()
m=len(rvalues)-1
lastpagedata=r[last].values()[m].split('=')
l=len(lastpagedata)-1
#lastpage=int(lastpagedata[l])
lastpage=2
print(lastpage)

for pagenum in range(2,lastpage+1):
  page = requests.get("https://lei.info/fullsearch?for={0}&page={1}".format(company,pagenum))
  tree = html.fromstring(page.content)
  r=tree.xpath('//*[@class="results-list"]/li/a')
  for i in r:
    print(i.text,' - ',i.values())
	from lxml import html
	import requests
	import argparse

	parser = argparse.ArgumentParser()
	parser.add_argument('company', help='company name')
	args = parser.parse_args()
	company=args.company

	page = requests.get("https://lei.info/fullsearch?for={}".format(company))
	tree = html.fromstring(page.content)
	r=tree.xpath('//*[@class="results-list"]/li/a')
	for i in r:
	print(i.text,' - ',i.values())

	r=tree.xpath('//*[@class="pagination"]/li/a[@title]')
	last=len(r)-1
	rvalues=r[last].values()
	m=len(rvalues)-1
	lastpagedata=r[last].values()[m].split('=')
	l=len(lastpagedata)-1
	#lastpage=int(lastpagedata[l])
	lastpage=2
	print(lastpage)

	for pagenum in range(2,lastpage+1):
	page = requests.get("https://lei.info/fullsearch?for={0}&page={1}".format(company,pagenum))
	tree = html.fromstring(page.content)
	r=tree.xpath('//*[@class="results-list"]/li/a')
	for i in r:
	print(i.text,' - ',i.values())