andering/test.scrape.py

## test.scrape.py
from urllib import request
from bs4 import BeautifulSoup
from pprint import pprint
from pathlib import Path
import re, os

regexp_get_id = re.compile("[0-9]{8}")
regexp_remove_non_alphanumeric = re.compile(r'[^a-zA-Z0-9]+')

quote_page = 'http://feeds.gty.org/gtyradiobroadcast'
page = request.urlopen(quote_page)
soup = BeautifulSoup(page,'lxml')

list_mp3 = soup.find_all('item')

for one_mp3 in list_mp3:
    title = one_mp3.title.text.lower()
    title = regexp_remove_non_alphanumeric.sub('_',title)

    link = one_mp3.find('feedburner:origlink').text
    id = regexp_get_id.search(link).group(0)

    filename = id + '_' + title + '.mp3'
    filepath = os.path.join(Path.home(), 'PODCAST', filename)

    print(link + '  ->  ' + filepath)
    request.urlretrieve(link,filepath)
	from urllib import request
	from bs4 import BeautifulSoup
	from pprint import pprint
	from pathlib import Path
	import re, os

	regexp_get_id = re.compile("[0-9]{8}")
	regexp_remove_non_alphanumeric = re.compile(r'[^a-zA-Z0-9]+')

	quote_page = 'http://feeds.gty.org/gtyradiobroadcast'
	page = request.urlopen(quote_page)
	soup = BeautifulSoup(page,'lxml')

	list_mp3 = soup.find_all('item')

	for one_mp3 in list_mp3:
	title = one_mp3.title.text.lower()
	title = regexp_remove_non_alphanumeric.sub('_',title)

	link = one_mp3.find('feedburner:origlink').text
	id = regexp_get_id.search(link).group(0)

	filename = id + '_' + title + '.mp3'
	filepath = os.path.join(Path.home(), 'PODCAST', filename)

	print(link + ' -> ' + filepath)
	request.urlretrieve(link,filepath)