xflr6/iceportal.py

## iceportal.py
"""Download all available audio books from DB ICE Portal."""

import json
import os
import urllib.parse
import urllib.request

BASE = 'http://iceportal.de/api1/rs/'


def load_json(url: str, *, verbose: bool = True):
    if verbose:
        print(url)
    with urllib.request.urlopen(url) as f:
        doc = json.load(f)
    return doc


def get_page(href: str, *,
             base: str = urllib.parse.urljoin(BASE, 'page/')):
    url = urllib.parse.urljoin(base, href.lstrip('/'))
    return load_json(url)


def retrieve(source, target, *,
             base: str = urllib.parse.urljoin(BASE, 'audiobooks/path/')) -> None:
    sheet = urllib.parse.urljoin(base, source.lstrip('/'))
    path = load_json(sheet)['path']
    url = urllib.parse.urljoin(base, path)
    urllib.request.urlretrieve(url, filename=target)


audiobooks = get_page('hoerbuecher')

for group in audiobooks['teaserGroups']:
    for item in group['items']:
        print('', item['title'], sep='\n')
        page = get_page(item['navigation']['href'])

        dirname = page['title']
        # fix invalid
        dirname = dirname.replace('.', '_')
        for remove_char in ('"', '?', '&', '/', '|'):
            dirname = dirname.replace(remove_char, '')
        dirname, _, _ = dirname.partition(':')

        if not os.path.exists(dirname):
            os.makedirs(dirname)

        for file in page['files']:
            url = file['path']
            target = os.path.join(dirname,
                                  '{:d} - {}'.format(file['serialNumber'],
                                                     url.rpartition('/')[2]))
            if not os.path.exists(target):
                retrieve(url, target)
	"""Download all available audio books from DB ICE Portal."""

	import json
	import os
	import urllib.parse
	import urllib.request

	BASE = 'http://iceportal.de/api1/rs/'


	def load_json(url: str, *, verbose: bool = True):
	if verbose:
	print(url)
	with urllib.request.urlopen(url) as f:
	doc = json.load(f)
	return doc


	def get_page(href: str, *,
	base: str = urllib.parse.urljoin(BASE, 'page/')):
	url = urllib.parse.urljoin(base, href.lstrip('/'))
	return load_json(url)


	def retrieve(source, target, *,
	base: str = urllib.parse.urljoin(BASE, 'audiobooks/path/')) -> None:
	sheet = urllib.parse.urljoin(base, source.lstrip('/'))
	path = load_json(sheet)['path']
	url = urllib.parse.urljoin(base, path)
	urllib.request.urlretrieve(url, filename=target)


	audiobooks = get_page('hoerbuecher')

	for group in audiobooks['teaserGroups']:
	for item in group['items']:
	print('', item['title'], sep='\n')
	page = get_page(item['navigation']['href'])

	dirname = page['title']
	# fix invalid
	dirname = dirname.replace('.', '_')
	for remove_char in ('"', '?', '&', '/', '\|'):
	dirname = dirname.replace(remove_char, '')
	dirname, _, _ = dirname.partition(':')

	if not os.path.exists(dirname):
	os.makedirs(dirname)

	for file in page['files']:
	url = file['path']
	target = os.path.join(dirname,
	'{:d} - {}'.format(file['serialNumber'],
	url.rpartition('/')[2]))
	if not os.path.exists(target):
	retrieve(url, target)