suqingdong/downsub.py

## downsub.py
#!/usr/bin/env python
# -*- coding=utf-8 -*-
"""
Download subtitle from YouTube Viedos.
Update: add playlist url parse
"""
import os
import re
import sys
import json
import argparse
import bs4
import requests


def get_response(url):

    return requests.get(url, proxies=Proxies, headers=Headers)


def get_sub_url(url):

    full_url = '{}?url={}'.format(BaseURL, url)
    response = get_response(full_url)
    soup = bs4.BeautifulSoup(response.text, 'html.parser')
    sub_url = BaseURL + soup.select('#show b a')[0].attrs['href']

    return sub_url


def get_sub_url_list(url):

    sub_url_list = []

    response = get_response(url)
    # soup = bs4.BeautifulSoup(response.text, 'html.parser')
    result = re.findall(r'window\["ytInitialData"\] = ({.*?});', response.text)
    data = json.loads(result[0])
    playlist = data['contents']['twoColumnBrowseResultsRenderer']['tabs'][0]['tabRenderer']\
        ['content']['sectionListRenderer']['contents'][0]['itemSectionRenderer']['contents']\
        [0]['playlistVideoListRenderer']['contents']

    for each in playlist:
        videoId = each['playlistVideoRenderer']['videoId']
        videoURL = 'https://www.youtube.com/watch?v=' + videoId
        sub_url_list.append(videoURL)

    return sub_url_list


def get_sub_name(sub_url):

    sub_name = re.findall(r'title=(.*?)&url', sub_url)[0]
    sub_name = sub_name.replace('+', ' ')
    sub_name = sub_name.replace('%23', '#')
    sub_name += '.srt'

    return sub_name


def save_sub(sub_url, outdir):

    response = get_response(sub_url)
    sub_name = get_sub_name(sub_url)
    outpath = os.path.join(outdir, sub_name)

    with open(outpath, 'w') as out:
        out.write(response.text)

    print 'Succesfully download subtitle: "%s"' % outpath


def main(infile, outdir):

    if not os.path.exists(outdir):
        os.makedirs(outdir)

    with open(infile) as f:
        for line in f:
            url = line.strip()

            sub_url_list = [url]
            if 'playlist' in url:
                print 'This is a playlist url: %s' % url
                sub_url_list = get_sub_url_list(url)

            for url in sub_url_list:
                try:
                    sub_url = get_sub_url(url)
                    save_sub(sub_url, outdir)
                except:
                    print 'Could not find a subtitle for url: "%s"' % url


if __name__ == "__main__":

    parser = argparse.ArgumentParser(formatter_class=argparse.RawTextHelpFormatter)

    parser.add_argument('-i', '--infile', help='The URL list file.', required=True)
    parser.add_argument('-o', '--outdir', help='The output dir[default: "%(default)s"].', default='subs')
    parser.add_argument('-p', '--proxies', help='The Proxies[default: %(default)s].', default='http://127.0.0.1:1088')

    args = vars(parser.parse_args())

    infile = args.get('infile')
    outdir = args.get('outdir')
    proxies = args.get('proxies')

    BaseURL = 'http://downsub.com/'
    Proxies = {
        'http': proxies,
        'https': proxies
    }
    Headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
    }

    main(infile, outdir)
	#!/usr/bin/env python
	# -- coding=utf-8 --
	"""
	Download subtitle from YouTube Viedos.
	Update: add playlist url parse
	"""
	import os
	import re
	import sys
	import json
	import argparse
	import bs4
	import requests


	def get_response(url):

	return requests.get(url, proxies=Proxies, headers=Headers)


	def get_sub_url(url):

	full_url = '{}?url={}'.format(BaseURL, url)
	response = get_response(full_url)
	soup = bs4.BeautifulSoup(response.text, 'html.parser')
	sub_url = BaseURL + soup.select('#show b a')[0].attrs['href']

	return sub_url


	def get_sub_url_list(url):

	sub_url_list = []

	response = get_response(url)
	# soup = bs4.BeautifulSoup(response.text, 'html.parser')
	result = re.findall(r'window\["ytInitialData"\] = ({.*?});', response.text)
	data = json.loads(result[0])
	playlist = data['contents']['twoColumnBrowseResultsRenderer']['tabs'][0]['tabRenderer']\
	['content']['sectionListRenderer']['contents'][0]['itemSectionRenderer']['contents']\
	[0]['playlistVideoListRenderer']['contents']

	for each in playlist:
	videoId = each['playlistVideoRenderer']['videoId']
	videoURL = 'https://www.youtube.com/watch?v=' + videoId
	sub_url_list.append(videoURL)

	return sub_url_list


	def get_sub_name(sub_url):

	sub_name = re.findall(r'title=(.*?)&url', sub_url)[0]
	sub_name = sub_name.replace('+', ' ')
	sub_name = sub_name.replace('%23', '#')
	sub_name += '.srt'

	return sub_name


	def save_sub(sub_url, outdir):

	response = get_response(sub_url)
	sub_name = get_sub_name(sub_url)
	outpath = os.path.join(outdir, sub_name)

	with open(outpath, 'w') as out:
	out.write(response.text)

	print 'Succesfully download subtitle: "%s"' % outpath


	def main(infile, outdir):

	if not os.path.exists(outdir):
	os.makedirs(outdir)

	with open(infile) as f:
	for line in f:
	url = line.strip()

	sub_url_list = [url]
	if 'playlist' in url:
	print 'This is a playlist url: %s' % url
	sub_url_list = get_sub_url_list(url)

	for url in sub_url_list:
	try:
	sub_url = get_sub_url(url)
	save_sub(sub_url, outdir)
	except:
	print 'Could not find a subtitle for url: "%s"' % url


	if __name__ == "__main__":

	parser = argparse.ArgumentParser(formatter_class=argparse.RawTextHelpFormatter)

	parser.add_argument('-i', '--infile', help='The URL list file.', required=True)
	parser.add_argument('-o', '--outdir', help='The output dir[default: "%(default)s"].', default='subs')
	parser.add_argument('-p', '--proxies', help='The Proxies[default: %(default)s].', default='http://127.0.0.1:1088')

	args = vars(parser.parse_args())

	infile = args.get('infile')
	outdir = args.get('outdir')
	proxies = args.get('proxies')

	BaseURL = 'http://downsub.com/'
	Proxies = {
	'http': proxies,
	'https': proxies
	}
	Headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
	}

	main(infile, outdir)