jbarciauskas/crawler.py

## crawler.py
#!/usr/bin/python

import sys
import urllib
from BeautifulSoup import BeautifulSoup, SoupStrainer
import re

filename = sys.argv[1]

with open(filename) as f:
    for line in f:
        print "Opening " + line
        html = urllib.urlopen(line).read()
        linksToBob = SoupStrainer('a', re.compile('bob.com/'))
        soup = BeautifulSoup.BeautifulSoup(html,parseOnlyThis=linksToBob)
        for tag in soup:
            try:
                print(tag['href'].encode('latin-1'))
            except KeyError:
                pass
	#!/usr/bin/python

	import sys
	import urllib
	from BeautifulSoup import BeautifulSoup, SoupStrainer
	import re

	filename = sys.argv[1]

	with open(filename) as f:
	for line in f:
	print "Opening " + line
	html = urllib.urlopen(line).read()
	linksToBob = SoupStrainer('a', re.compile('bob.com/'))
	soup = BeautifulSoup.BeautifulSoup(html,parseOnlyThis=linksToBob)
	for tag in soup:
	try:
	print(tag['href'].encode('latin-1'))
	except KeyError:
	pass