scrapehero’s gists

## zillow.py
from lxml import html
import requests
import unicodecsv as csv
from exceptions import ValueError
import argparse

def parse(zipcode,filter=None):

	if filter=="newest":
		url = "https://www.zillow.com/homes/for_sale/{0}/0_singlestory/days_sort".format(zipcode)

## yelp_search.py
from lxml import html
import unicodecsv as csv
import requests
from time import sleep
import re
import argparse
import json


def parse(url):

## zillow.py
from lxml import html
import requests
import unicodecsv as csv
import argparse
import json


def clean(text):
    if text:
        return ' '.join(' '.join(text).split())

## captcha_resolver.py
import pytesseract
import sys
import argparse
try:
    import Image
except ImportError:
    from PIL import Image
from subprocess import check_output


## geocoder.py
from requests import get
from pprint import pprint
from json import dump
from csv import QUOTE_ALL, DictWriter
API_KEY = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'
def address_resolver(json):
    final = {}
    if json['results']:
        data = json['results'][0]
        for item in data['address_components']:

## ebay_scraper.py
import argparse
from pprint import pprint
from traceback import format_exc

import requests
import unicodecsv as csv
from lxml import html


def parse(brand):

## expedia.py
import json
import requests
from lxml import html
from collections import OrderedDict
import argparse

def parse(source,destination,date):
	for i in range(5):
		try:
			url = "https://www.expedia.com/Flights-Search?trip=oneway&leg1=from:{0},to:{1},departure:{2}TANYT&passengers=adults:1,children:0,seniors:0,infantinlap:Y&options=cabinclass%3Aeconomy&mode=search&origref=www.expedia.com".format(source,destination,date)

## yahoo_finance.py
from lxml import html
import requests
from time import sleep
import json
import argparse
from collections import OrderedDict
from time import sleep

def parse(ticker):
	url = "http://finance.yahoo.com/quote/%s?p=%s"%(ticker,ticker)

## linkedin_scraper.py
from lxml import html
import csv, os, json
import requests
from exceptions import ValueError
from time import sleep


def linkedin_companies_parser(url):
    for i in range(5):
        try:

## yelp_business_details.py
from lxml import html
import json
import requests
from exceptions import ValueError
from time import sleep
import re,urllib
import argparse

def parse(url):
	# url = "https://www.yelp.com/biz/frances-san-francisco"
	from lxml import html
	import requests
	import unicodecsv as csv
	from exceptions import ValueError
	import argparse

	def parse(zipcode,filter=None):

	if filter=="newest":
	url = "https://www.zillow.com/homes/for_sale/{0}/0_singlestory/days_sort".format(zipcode)
	import pytesseract
	import sys
	import argparse
	try:
	import Image
	except ImportError:
	from PIL import Image
	from subprocess import check_output
	from requests import get
	from pprint import pprint
	from json import dump
	from csv import QUOTE_ALL, DictWriter
	API_KEY = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'
	def address_resolver(json):
	final = {}
	if json['results']:
	data = json['results'][0]
	for item in data['address_components']:
	import argparse
	from pprint import pprint
	from traceback import format_exc

	import requests
	import unicodecsv as csv
	from lxml import html


	def parse(brand):
	import json
	import requests
	from lxml import html
	from collections import OrderedDict
	import argparse

	def parse(source,destination,date):
	for i in range(5):
	try:
	url = "https://www.expedia.com/Flights-Search?trip=oneway&leg1=from:{0},to:{1},departure:{2}TANYT&passengers=adults:1,children:0,seniors:0,infantinlap:Y&options=cabinclass%3Aeconomy&mode=search&origref=www.expedia.com".format(source,destination,date)
	from lxml import html
	import requests
	from time import sleep
	import json
	import argparse
	from collections import OrderedDict
	from time import sleep

	def parse(ticker):
	url = "http://finance.yahoo.com/quote/%s?p=%s"%(ticker,ticker)
	from lxml import html
	import csv, os, json
	import requests
	from exceptions import ValueError
	from time import sleep


	def linkedin_companies_parser(url):
	for i in range(5):
	try: