jayrambhia/getKunisPics.py

## getKunisPics.py
from BeautifulSoup import BeautifulSoup
import urllib2
import os
import re

def getLinks(URL, pics=[]):
    print len(pics), "pics yet."
    print "fetching", URL
    try:
        page = urllib2.urlopen(URL)
    except urllib2.HTTPError:
        print "Reddit restricts bots"
        print "Couldn't fetch"
        print URL
        print "Returning all the pics. Hope it works."
        print len(pics)
        return pics
    print "page fetched"
    soup = BeautifulSoup(page.read())

    links = soup.findAll("a")
    for link in links:
        pic_url = link.get("href")
        if pic_url and "http://i.imgur.com/" in pic_url:
            pics.append(pic_url)
    pics = list(set(pics))
    #print pics
    next = soup.find("a", rel="nofollow next")
    if next:
        next_url = next.get("href")
        if next_url:
            getLinks(next_url, pics)
    return pics

def fetchPics(pics, default_dir):
    print len(pics), "pics"
    #pics = list(set(pics))
    for pic in pics:
        data = opener.open(pic)
        filename = re.split("/",pic)[-1]
        filename = default_dir+"/"+"Mila_Kunis_"+filename
        print "downloading and saving to", filename
        f = open(filename, "wb")
        f.write(data.read())
        f.close()
#URL = "http://www.reddit.com/r/MilaKunis/search?q=wallpaper&restrict_sr=on"
URLs = ["http://www.reddit.com/r/MilaKunis/", "http://www.reddit.com/r/MilaKunis/search?q=wallpaper&restrict_sr=on"]
default_dir = os.path.join(os.path.expanduser("~"),"Pictures/")
for URL in URLs:
    pics = getLinks(URL)
    fetchPics(pics, default_dir)
	from BeautifulSoup import BeautifulSoup
	import urllib2
	import os
	import re

	def getLinks(URL, pics=[]):
	print len(pics), "pics yet."
	print "fetching", URL
	try:
	page = urllib2.urlopen(URL)
	except urllib2.HTTPError:
	print "Reddit restricts bots"
	print "Couldn't fetch"
	print URL
	print "Returning all the pics. Hope it works."
	print len(pics)
	return pics
	print "page fetched"
	soup = BeautifulSoup(page.read())

	links = soup.findAll("a")
	for link in links:
	pic_url = link.get("href")
	if pic_url and "http://i.imgur.com/" in pic_url:
	pics.append(pic_url)
	pics = list(set(pics))
	#print pics
	next = soup.find("a", rel="nofollow next")
	if next:
	next_url = next.get("href")
	if next_url:
	getLinks(next_url, pics)
	return pics

	def fetchPics(pics, default_dir):
	print len(pics), "pics"
	#pics = list(set(pics))
	for pic in pics:
	data = opener.open(pic)
	filename = re.split("/",pic)[-1]
	filename = default_dir+"/"+"Mila_Kunis_"+filename
	print "downloading and saving to", filename
	f = open(filename, "wb")
	f.write(data.read())
	f.close()
	#URL = "http://www.reddit.com/r/MilaKunis/search?q=wallpaper&restrict_sr=on"
	URLs = ["http://www.reddit.com/r/MilaKunis/", "http://www.reddit.com/r/MilaKunis/search?q=wallpaper&restrict_sr=on"]
	default_dir = os.path.join(os.path.expanduser("~"),"Pictures/")
	for URL in URLs:
	pics = getLinks(URL)
	fetchPics(pics, default_dir)