mlouielu/taiwan_labor.py

## taiwan_labor.py
# -*- coding: utf-8 -*-

import re
import requests
from collections import defaultdict
from lxml import etree

URL = 'https://jobhelper.g0v.ronny.tw/package/show/%d'
REGEX = '第\\d+條第\\d+項第\\d+款|第\\d+條第\\d+項|第\\d+條'


def getit(id):
    r = requests.get(URL % id)
    root = etree.HTML(r.text)
    trs = root.xpath('//table[@class="table"][1]/tbody/tr')

    d = defaultdict(int)
    for tr in trs:
        reason = re.findall(REGEX,
                            tr[2].text.strip().split('(')[0].replace(' ', '').strip())
        for r in reason:
            d[r] += 1

    return sorted(d.items(), key=lambda kv: kv[1], reverse=True)


if __name__ == '__main__':
    d = getit(1)

    print(sum([i[1] for i in d]))
    for k, v in d:
        print("%s\t%s" % (k, v))
	# -- coding: utf-8 --

	import re
	import requests
	from collections import defaultdict
	from lxml import etree

	URL = 'https://jobhelper.g0v.ronny.tw/package/show/%d'
	REGEX = '第\\d+條第\\d+項第\\d+款\|第\\d+條第\\d+項\|第\\d+條'


	def getit(id):
	r = requests.get(URL % id)
	root = etree.HTML(r.text)
	trs = root.xpath('//table[@class="table"][1]/tbody/tr')

	d = defaultdict(int)
	for tr in trs:
	reason = re.findall(REGEX,
	tr[2].text.strip().split('(')[0].replace(' ', '').strip())
	for r in reason:
	d[r] += 1

	return sorted(d.items(), key=lambda kv: kv[1], reverse=True)


	if __name__ == '__main__':
	d = getit(1)

	print(sum([i[1] for i in d]))
	for k, v in d:
	print("%s\t%s" % (k, v))