felipsmartins/hyuuga.py

## hyuuga.py
#!/usr/bin/env python
#coding: utf-8
"""Captura os links de download direto do portal hyuugadownloads.com.br.
	$ hyuuga.py --help
"""
import sys
import os
import tempfile
import argparse
import urllib2
from urllib import urlencode
# lxml (libxml) está instalado?
try:
	from lxml import etree
	import lxml.html
except ImportError:
	print 'A pacote "lxml" não está instalado.\nVá para {}'.format(
		"http://lxml.de/installation.html")
	sys.exit()


__author__ = "Kazumi (Felipe Martins) - https://github.com/felipsmartins"
__maintainer__ = "Kazumi"
__version__ ="1.0.1"
__date__ = "Mar 2015"

MAIN_URL = "http://www.hyuugadownloads.com.br"
FILENAME_CACHE = os.path.join(tempfile.gettempdir(), "hyuuga.html")

parser = argparse.ArgumentParser(description=__doc__, version=__version__)
parser.add_argument("url", help="O link principal do anime")
parser.add_argument("sharing_server", type=int,	help="""O servidor de compartilhamento (Drive, Mega, etc).
						Um número referente a ordem disposta no site deve ser provido""")
parser.add_argument("-m", "--most-recent", dest="most_recent", action="store_true", default=False,
	help="Usa o conteúdo anteriormente baixado, se existir")
# Isso é necessário porque o site usa paginação de resultados
parser.add_argument("-p", "--page", dest="page", action="store", default=1,
	help="A página da qual deve se baixar os links de episódios. Por padrão é 1")
parser.add_argument("-i", "--interactive", dest="interactive", action="store_true", default=False,
	help="Para cada episódio, pergunta se deseja-se obter o link direto para download")

def get_main_links(source, sharing_server):
	"""Analisa o conteúdo HTML e catura os links principais (protetores de link)

		Args:
			source (str): URL ou path de arquivo
			sharing_server (int): O número do servidor de compartilhamento.
				Isso é baseado na ordem que está no site
		Returns:
			list: Uma lista de tuplas

	"""
	dom = lxml.html.parse(source)
	xpatheval = etree.XPathDocumentEvaluator(dom)
	nodes = xpatheval('//*[@id="inner-lista"]/div[@class="episodio"]')
	# quando não encontra episódios
	if not nodes:
		return 0

	ep_titles, ep_links  = [], []
	sharing_server_index = (sharing_server - 1)
	for node in nodes:
		# títulos
		info = node.xpath('div[@class="infos"]/a/strong')[0].text
		ep_titles.append(info.strip().encode("utf-8"))
		# links
		link = node.xpath('div[@class="caixa_mirror"]/table/tbody/tr')
		link = link[sharing_server_index].find("td/a").get("href") # path link do protetor
		ep_links.append("{url}/{path}".format(url=MAIN_URL, path=link))

	return zip(ep_titles, ep_links)

def get_download_link(link_protector):
	""" Captura o real link protegido

	Args:
		link_protector (str): Uma URL
	Returns:
		str: O link direto para download

	"""
	content = get_request_content(link_protector)
	dom = lxml.html.parse(link_protector)
	xpatheval = etree.XPathDocumentEvaluator(dom)
	# A estrutura dessa página é simples, só precisamos capturar o link com id=link
	nodes = xpatheval('//body/a[@id="link"]')
	if nodes:
		return nodes[0].get("href")

def get_request_content(url, data=None):
	"""GET/POST - Faz uma requisição HTTP retornando o resultado

	Args:
		url (str): URL
		data (dict): Um dicionários de dados para
			requisições POST
	Returns:
		str: O conteúdo da página requisitada
	"""
	if data:
		data = urlencode(data)
	request = urllib2.Request(args.url, data)
	response = urllib2.urlopen(request)

	return response.read()

def main():
	main_links = get_main_links(FILENAME_CACHE, args.sharing_server)
	# porque o html do site pode ter mudado
	if not main_links:
		print "links não encontrados"
		sys.exit()
	for title, link in main_links:
		if args.interactive:
			res = raw_input("\nObter link para [{}]? (s/n)\n".format(title))
			if "n" == res.lower():
				continue # pula para o próximo link se a resposta for "não"
		print "Buscando link para {} ...".format(title)
		print get_download_link(link)


# ====================================================
#                      Execução
# ====================================================

if "__main__" == __name__:
	args = parser.parse_args()
	data = {"p": args.page} # por padrão é 1

	if not args.most_recent:
		response_content = get_request_content(args.url, data)
		#salva
		with open(FILENAME_CACHE, "w+") as f:
			f.write(response_content) # fazemos cache do resultado

	# execute
	main()
	#!/usr/bin/env python
	#coding: utf-8
	"""Captura os links de download direto do portal hyuugadownloads.com.br.
	$ hyuuga.py --help
	"""
	import sys
	import os
	import tempfile
	import argparse
	import urllib2
	from urllib import urlencode
	# lxml (libxml) está instalado?
	try:
	from lxml import etree
	import lxml.html
	except ImportError:
	print 'A pacote "lxml" não está instalado.\nVá para {}'.format(
	"http://lxml.de/installation.html")
	sys.exit()


	__author__ = "Kazumi (Felipe Martins) - https://github.com/felipsmartins"
	__maintainer__ = "Kazumi"
	__version__ ="1.0.1"
	__date__ = "Mar 2015"

	MAIN_URL = "http://www.hyuugadownloads.com.br"
	FILENAME_CACHE = os.path.join(tempfile.gettempdir(), "hyuuga.html")

	parser = argparse.ArgumentParser(description=__doc__, version=__version__)
	parser.add_argument("url", help="O link principal do anime")
	parser.add_argument("sharing_server", type=int, help="""O servidor de compartilhamento (Drive, Mega, etc).
	Um número referente a ordem disposta no site deve ser provido""")
	parser.add_argument("-m", "--most-recent", dest="most_recent", action="store_true", default=False,
	help="Usa o conteúdo anteriormente baixado, se existir")
	# Isso é necessário porque o site usa paginação de resultados
	parser.add_argument("-p", "--page", dest="page", action="store", default=1,
	help="A página da qual deve se baixar os links de episódios. Por padrão é 1")
	parser.add_argument("-i", "--interactive", dest="interactive", action="store_true", default=False,
	help="Para cada episódio, pergunta se deseja-se obter o link direto para download")

	def get_main_links(source, sharing_server):
	"""Analisa o conteúdo HTML e catura os links principais (protetores de link)

	Args:
	source (str): URL ou path de arquivo
	sharing_server (int): O número do servidor de compartilhamento.
	Isso é baseado na ordem que está no site
	Returns:
	list: Uma lista de tuplas

	"""
	dom = lxml.html.parse(source)
	xpatheval = etree.XPathDocumentEvaluator(dom)
	nodes = xpatheval('//*[@id="inner-lista"]/div[@class="episodio"]')
	# quando não encontra episódios
	if not nodes:
	return 0

	ep_titles, ep_links = [], []
	sharing_server_index = (sharing_server - 1)
	for node in nodes:
	# títulos
	info = node.xpath('div[@class="infos"]/a/strong')[0].text
	ep_titles.append(info.strip().encode("utf-8"))
	# links
	link = node.xpath('div[@class="caixa_mirror"]/table/tbody/tr')
	link = link[sharing_server_index].find("td/a").get("href") # path link do protetor
	ep_links.append("{url}/{path}".format(url=MAIN_URL, path=link))

	return zip(ep_titles, ep_links)

	def get_download_link(link_protector):
	""" Captura o real link protegido

	Args:
	link_protector (str): Uma URL
	Returns:
	str: O link direto para download

	"""
	content = get_request_content(link_protector)
	dom = lxml.html.parse(link_protector)
	xpatheval = etree.XPathDocumentEvaluator(dom)
	# A estrutura dessa página é simples, só precisamos capturar o link com id=link
	nodes = xpatheval('//body/a[@id="link"]')
	if nodes:
	return nodes[0].get("href")

	def get_request_content(url, data=None):
	"""GET/POST - Faz uma requisição HTTP retornando o resultado

	Args:
	url (str): URL
	data (dict): Um dicionários de dados para
	requisições POST
	Returns:
	str: O conteúdo da página requisitada
	"""
	if data:
	data = urlencode(data)
	request = urllib2.Request(args.url, data)
	response = urllib2.urlopen(request)

	return response.read()

	def main():
	main_links = get_main_links(FILENAME_CACHE, args.sharing_server)
	# porque o html do site pode ter mudado
	if not main_links:
	print "links não encontrados"
	sys.exit()
	for title, link in main_links:
	if args.interactive:
	res = raw_input("\nObter link para [{}]? (s/n)\n".format(title))
	if "n" == res.lower():
	continue # pula para o próximo link se a resposta for "não"
	print "Buscando link para {} ...".format(title)
	print get_download_link(link)


	# ====================================================
	# Execução
	# ====================================================

	if "__main__" == __name__:
	args = parser.parse_args()
	data = {"p": args.page} # por padrão é 1

	if not args.most_recent:
	response_content = get_request_content(args.url, data)
	#salva
	with open(FILENAME_CACHE, "w+") as f:
	f.write(response_content) # fazemos cache do resultado

	# execute
	main()