kimdwkimdw/learn_crawl.py

## learn_crawl.py
'''
how to crawl data?
'''
base_url = "https://www.sw.or.kr/intro/i_imm_list.jsp?searchType=&searchKeyword=&page=1&pageSize=2000&areaDvsn=&funcClsf=&bsnsType=&indtClsf="

import urllib2
from HTMLParser import HTMLParser
parser = HTMLParser()
import codecs

ll = urllib2.urlopen(base_url).read()
l2 = ll.split("</a></td>")[1:]


with codecs.open("names.txt","w","utf-8") as fw:
	for item in l2:
		fw.write(parser.unescape(item.split("</td>")[0].split("<td>")[1]) + "\n")
	'''
	how to crawl data?
	'''
	base_url = "https://www.sw.or.kr/intro/i_imm_list.jsp?searchType=&searchKeyword=&page=1&pageSize=2000&areaDvsn=&funcClsf=&bsnsType=&indtClsf="

	import urllib2
	from HTMLParser import HTMLParser
	parser = HTMLParser()
	import codecs

	ll = urllib2.urlopen(base_url).read()
	l2 = ll.split("</a></td>")[1:]



	with codecs.open("names.txt","w","utf-8") as fw:
	for item in l2:
	fw.write(parser.unescape(item.split("</td>")[0].split("<td>")[1]) + "\n")