miketahani/wtf.py

## wtf.py
import re
from sys import argv
from bs4 import BeautifulSoup as bs
from pyquery import PyQuery as pq
from lxml import etree

filename = argv[-1]
anchors = re.compile('<a.+?>.+?<\/a>', re.DOTALL|re.I)

with open(filename, 'r') as infile:
    raw = infile.read()
    doc_bs4 = bs(raw, 'lxml')
    doc_pq  = pq(raw)
    print 'bs4: %d' % len(doc_bs4.find_all('a'))
    print 'pq: %d' % len(doc_pq('a'))
    print 're: %d' % len(anchors.findall(raw))

'''
produces:
bs4: 244
pq: 301
re: 8313
'''
	import re
	from sys import argv
	from bs4 import BeautifulSoup as bs
	from pyquery import PyQuery as pq
	from lxml import etree

	filename = argv[-1]
	anchors = re.compile('<a.+?>.+?<\/a>', re.DOTALL\|re.I)

	with open(filename, 'r') as infile:
	raw = infile.read()
	doc_bs4 = bs(raw, 'lxml')
	doc_pq = pq(raw)
	print 'bs4: %d' % len(doc_bs4.find_all('a'))
	print 'pq: %d' % len(doc_pq('a'))
	print 're: %d' % len(anchors.findall(raw))

	'''
	produces:
	bs4: 244
	pq: 301
	re: 8313
	'''