luxinyan/get_pic.py

## get_pic.py
import re
import urllib2
import urllib
import sys
import time

#get html of page
def getHtml(url):
    page = urllib2.urlopen(url)
    html = page.read()

    return html

#get url of image
def getImg(html):
    re_rule = r'<img src="(.+?sinaimg.+?.jpg)" />'
    imgre = re.compile(re_rule)
    imglist = re.findall(imgre, html)

    for img in imglist:
        time_name = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime())
        try:
            urllib.urlretrieve(img,
                r'/Users/alex/Desktop/pic/{0}.jpg'.format(time_name))
        except:
            pass


def download(url):
    html = getHtml(url)
    getImg(html)

url = sys.argv[1]
begin_page = int(sys.argv[2])
end_page = int(sys.argv[3])

for i in range(end_page):
    try:
        page = begin_page - i
        page_str = 'page-%s#comments' %page
        download_url = url + page_str
        download(download_url)
        print download_url
        download_url = url
    except:
        print 'Error', page
	import re
	import urllib2
	import urllib
	import sys
	import time

	#get html of page
	def getHtml(url):
	page = urllib2.urlopen(url)
	html = page.read()

	return html

	#get url of image
	def getImg(html):
	re_rule = r'<img src="(.+?sinaimg.+?.jpg)" />'
	imgre = re.compile(re_rule)
	imglist = re.findall(imgre, html)

	for img in imglist:
	time_name = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime())
	try:
	urllib.urlretrieve(img,
	r'/Users/alex/Desktop/pic/{0}.jpg'.format(time_name))
	except:
	pass


	def download(url):
	html = getHtml(url)
	getImg(html)

	url = sys.argv[1]
	begin_page = int(sys.argv[2])
	end_page = int(sys.argv[3])

	for i in range(end_page):
	try:
	page = begin_page - i
	page_str = 'page-%s#comments' %page
	download_url = url + page_str
	download(download_url)
	print download_url
	download_url = url
	except:
	print 'Error', page