- Устанавливаем Scrapy pip install scrapy
- Создаём проект Scrapy scrapy startproject my_name_project
- Переходим в терминале в созданную директорию cd my_name_project
- Создаём паука scrapy genspider example www.example.ru (имя паука и проекта не должны совподать)
- Открываем созданный файл паука /spiders/example.py
- Запуск паука scrapy crawl example
- Name: name
- Module name: scrapy
- Parametrs: crawl spider01
- Working dirrectory: add name
- Запустим scrapy shell **scrapy shell "https://domain.com"
- Начинаем исследование сайта, запустим в шеле команду view(response)
- Получим ссылки с каталога: response.css(".top-bar-left .vertical.menu a::attr(href)").getall()
Пример сбора ссылок с одной страницы
# items link
hrefs = response.css(".catalog_main_table a::attr(href)").getall()
for href in hrefs:
url = response.urljoin(href)
yield scrapy.Request(url)
# вместо цикла можно использовать
yield from response.follow_all(hrefs)