scrapehero’s gists

## amazon_review_scraper.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Written as part of https://www.scrapehero.com/how-to-scrape-amazon-product-reviews-using-python/
from lxml import html
import json
import requests
import json,re
from dateutil import parser as dateparser
from time import sleep

## indeed.json
{
   "_id":"indeed",
   "startUrl":[
      "https://www.indeed.com/jobs?q=accountant&l=Los+Angeles,+CA&rbl=Anaheim,+CA&jlid=a05ccab40146becb&jt=fulltime"
   ],
   "selectors":[
      {
         "id":"listings",
         "type":"SelectorElement",
         "parentSelectors":[

## ebay_scraper.py
import argparse
from pprint import pprint
from traceback import format_exc

import requests
import unicodecsv as csv
from lxml import html


def parse(brand):

## yahoo_finance.py
from lxml import html
import requests
from time import sleep
import json
import argparse
from collections import OrderedDict
from time import sleep

def parse(ticker):
	url = "http://finance.yahoo.com/quote/%s?p=%s"%(ticker,ticker)

## zillow.py
from lxml import html
import requests
import unicodecsv as csv
import argparse
import json


def clean(text):
    if text:
        return ' '.join(' '.join(text).split())

## cars.json
{
   "_id":"cars",
   "startUrl":[
      "https://www.cars.com/for-sale/searchresults.action/?mdId=22162&mkId=20053&page=1&perPage=20&rd=10&searchSource=GN_REFINEMENT&shippable-dealers-checkbox=true&showMore=false&sort=relevance&stkTypId=28881&trId=24731&trId=24209&yrId=35797618&yrId=36362520&zc=20005&localVehicles=false"
   ],
   "selectors":[
      {
         "id":"car_links",
         "type":"SelectorElementClick",
         "parentSelectors":[

## fandango.py
from lxml import html, etree
import datetime
import requests
import re
import os
import sys
import unicodecsv as csv
import argparse
import json
# from exceptions import ValueError

## target.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
import re
from time import time
import json
import argparse

def get_store(store):
	store_name = store['Name']

## captcha_resolver.py
import pytesseract
import sys
import argparse
try:
    import Image
except ImportError:
    from PIL import Image
from subprocess import check_output


## amazon_reviews.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Written as part of https://www.scrapehero.com/how-to-scrape-amazon-product-reviews-using-python/
from lxml import html
from json import dump,loads
from requests import get
import json
from re import sub
from dateutil import parser as dateparser
from time import sleep
	#!/usr/bin/env python
	# -- coding: utf-8 --
	# Written as part of https://www.scrapehero.com/how-to-scrape-amazon-product-reviews-using-python/
	from lxml import html
	import json
	import requests
	import json,re
	from dateutil import parser as dateparser
	from time import sleep
	{
	"_id":"indeed",
	"startUrl":[
	"https://www.indeed.com/jobs?q=accountant&l=Los+Angeles,+CA&rbl=Anaheim,+CA&jlid=a05ccab40146becb&jt=fulltime"
	],
	"selectors":[
	{
	"id":"listings",
	"type":"SelectorElement",
	"parentSelectors":[
	import argparse
	from pprint import pprint
	from traceback import format_exc

	import requests
	import unicodecsv as csv
	from lxml import html


	def parse(brand):
	{
	"_id":"cars",
	"startUrl":[
	"https://www.cars.com/for-sale/searchresults.action/?mdId=22162&mkId=20053&page=1&perPage=20&rd=10&searchSource=GN_REFINEMENT&shippable-dealers-checkbox=true&showMore=false&sort=relevance&stkTypId=28881&trId=24731&trId=24209&yrId=35797618&yrId=36362520&zc=20005&localVehicles=false"
	],
	"selectors":[
	{
	"id":"car_links",
	"type":"SelectorElementClick",
	"parentSelectors":[
	from lxml import html, etree
	import datetime
	import requests
	import re
	import os
	import sys
	import unicodecsv as csv
	import argparse
	import json
	# from exceptions import ValueError
	import pytesseract
	import sys
	import argparse
	try:
	import Image
	except ImportError:
	from PIL import Image
	from subprocess import check_output