Skip to content

Instantly share code, notes, and snippets.

@Lurunchik
Last active May 10, 2018 11:55
Show Gist options
  • Save Lurunchik/b02b66f0f0f1a66d2713d15d858e1201 to your computer and use it in GitHub Desktop.
Save Lurunchik/b02b66f0f0f1a66d2713d15d858e1201 to your computer and use it in GitHub Desktop.

Реализовать сервис, который обходит произвольный сайт (например https://ria.ru/, http://www.vesti.ru/, http://echo.msk.ru/, http://tass.ru/ural, https://lenta.ru/) с глубиной 2 и сохраняет html, url и title страницы в произвольное хранилище (на ваш выбор)

Оптимизировать прогрузку по потреблению памяти и по времени.

По урлу сайта из хранилища можно получить n прогруженных страниц (url и title)

обращение из командной строки

spider.py load http://www.vesti.ru/ --depth 2
>> ok, execution time: 10s, peak memory usage: 100 Mb
spider.py get http://www.vesti.ru/ -n 2
>> http://www.vesti.ru/news/: "Вести.Ru: новости, видео и фото дня"
>> http://www.vestifinance.ru/: "Вести Экономика: Главные события российской и мировой экономики, деловые новости,  фондовый рынок"

Язык реализации Python3

Стек технологий - произвольный

Решение оформить как проект на github

Описать в Readme установку и запуск (egg|whl|файл запуска main.py|debian - любой способ)

@St1muL045
Copy link

Все в принципе понятно.
Два момента остались не понятны, что значит "с глубиной 2"?
И "можно получить n прогруженных страниц" - Он должен какие-то определенные страницы дергать?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment