nukeop/scrape.py

## scrape.py
import requests
import re
import urllib.request
import tqdm
from bs4 import BeautifulSoup, SoupStrainer

page = requests.get('http://mightandmagic.wikia.com/wiki/Category:Heroes_V_hero_icons')
page = page.text
page = BeautifulSoup(page, 'lxml')
page = page.find_all('a', href=re.compile('.*File:Hero.*png'))
links = ['http://mightandmagic.wikia.com' + x.get('href') for x in page]
links = list(set(links))


for x in tqdm.tqdm(links):
	avatarpage = requests.get(x)
	avatarpage = avatarpage.text
	avatarpage = BeautifulSoup(avatarpage, 'lxml')
	avatarpage = avatarpage.find_all('a', href=re.compile('.*vignette.*png.*format=original.*'))
	avatarlink = avatarpage[0].get('href')

	urllib.request.urlretrieve(avatarlink, avatarlink.split('/')[7])
	import requests
	import re
	import urllib.request
	import tqdm
	from bs4 import BeautifulSoup, SoupStrainer

	page = requests.get('http://mightandmagic.wikia.com/wiki/Category:Heroes_V_hero_icons')
	page = page.text
	page = BeautifulSoup(page, 'lxml')
	page = page.find_all('a', href=re.compile('.File:Hero.png'))
	links = ['http://mightandmagic.wikia.com' + x.get('href') for x in page]
	links = list(set(links))


	for x in tqdm.tqdm(links):
	avatarpage = requests.get(x)
	avatarpage = avatarpage.text
	avatarpage = BeautifulSoup(avatarpage, 'lxml')
	avatarpage = avatarpage.find_all('a', href=re.compile('.vignette.png.format=original.'))
	avatarlink = avatarpage[0].get('href')

	urllib.request.urlretrieve(avatarlink, avatarlink.split('/')[7])