tananin/readmy.md

## readmy.md

      
    Raw
  

              readmy.md
            
          
    Scrapy фреймвор для парсинга, сбора данных


Устанавливаем Scrapy pip install scrapy
Создаём проект Scrapy scrapy startproject my_name_project
Переходим в терминале в созданную директорию cd my_name_project
Создаём паука scrapy genspider example www.example.ru (имя паука и проекта не должны совподать)
Открываем созданный файл паука /spiders/example.py
Запуск паука scrapy crawl example

Отладка


Name: name
Module name: scrapy
Parametrs: crawl spider01
Working dirrectory: add name

Scrapy shell


Запустим scrapy shell **scrapy shell "https://domain.com"
Начинаем исследование сайта, запустим в шеле команду view(response)
Получим ссылки с каталога: response.css(".top-bar-left .vertical.menu a::attr(href)").getall()

Функция parse

Пример сбора ссылок с одной страницы
# items link
hrefs =  response.css(".catalog_main_table a::attr(href)").getall()
for href in hrefs:
    url = response.urljoin(href)
    yield scrapy.Request(url)
    
# вместо цикла можно использовать
yield from response.follow_all(hrefs)


## spider.py
    def parse(self, response):
        # pagination
        pages = response.css("a.pagination-item::attr(href)").getall()
        yield from response.follow_all(pages)

        # items link
        hrefs =  response.css(".catalog_main_table a::attr(href)").getall()
        yield from response.follow_all(hrefs, callback=self.parse_item)

    def parse_item(self):
        pass
	def parse(self, response):
	# pagination
	pages = response.css("a.pagination-item::attr(href)").getall()
	yield from response.follow_all(pages)

	# items link
	hrefs = response.css(".catalog_main_table a::attr(href)").getall()
	yield from response.follow_all(hrefs, callback=self.parse_item)

	def parse_item(self):
	pass