arunshaji95/Scrapy Tutorial.py

## Scrapy Tutorial.py
import scrapy

class BookSpider(scrapy.Spider):
    name = 'bookspider'
    start_urls = [
        'http://books.toscrape.com/'
    ]

    def parse(self, response):
        for link in response.xpath('//article[@class="product_pod"]/div/a/@href').extract():
            yield response.follow(link, callback=self.parse_detail)
        next_page = response.xpath('//li[@class="next"]/a/@href').extract_first()
        if next_page:
            yield response.follow(next_page, callback=self.parse)

    def parse_detail(self, response):
        title = response.xpath('//div[contains(@class, "product_main")]/h1/text()').extract_first()
        price = response.xpath('//div[contains(@class, "product_main")]/'
                               'p[@class="price_color"]/text()').extract_first()
        availability = response.xpath('//div[contains(@class, "product_main")]/'
                                      'p[contains(@class, "availability")]/text()').extract()
        availability = ''.join(availability).strip()
        upc = response.xpath('//th[contains(text(), "UPC")]/'
                             'following-sibling::td/text()').extract_first()
        yield {
            'title': title,
            'price': price,
            'availability': availability,
            'upc': upc
        }
	import scrapy

	class BookSpider(scrapy.Spider):
	name = 'bookspider'
	start_urls = [
	'http://books.toscrape.com/'
	]

	def parse(self, response):
	for link in response.xpath('//article[@class="product_pod"]/div/a/@href').extract():
	yield response.follow(link, callback=self.parse_detail)
	next_page = response.xpath('//li[@class="next"]/a/@href').extract_first()
	if next_page:
	yield response.follow(next_page, callback=self.parse)

	def parse_detail(self, response):
	title = response.xpath('//div[contains(@class, "product_main")]/h1/text()').extract_first()
	price = response.xpath('//div[contains(@class, "product_main")]/'
	'p[@class="price_color"]/text()').extract_first()
	availability = response.xpath('//div[contains(@class, "product_main")]/'
	'p[contains(@class, "availability")]/text()').extract()
	availability = ''.join(availability).strip()
	upc = response.xpath('//th[contains(text(), "UPC")]/'
	'following-sibling::td/text()').extract_first()
	yield {
	'title': title,
	'price': price,
	'availability': availability,
	'upc': upc
	}