Реализовать сервис, который обходит произвольный сайт (например https://ria.ru/, http://www.vesti.ru/, http://echo.msk.ru/, http://tass.ru/ural, https://lenta.ru/) с глубиной 2 и сохраняет html, url и title страницы в произвольное хранилище (на ваш выбор)
Оптимизировать прогрузку по потреблению памяти и по времени.
По урлу сайта из хранилища можно получить n прогруженных страниц (url и title)
обращение из командной строки
spider.py load http://www.vesti.ru/ --depth 2
>> ok, execution time: 10s, peak memory usage: 100 Mb
spider.py get http://www.vesti.ru/ -n 2
>> http://www.vesti.ru/news/: "Вести.Ru: новости, видео и фото дня"
>> http://www.vestifinance.ru/: "Вести Экономика: Главные события российской и мировой экономики, деловые новости, фондовый рынок"
Язык реализации Python3
Стек технологий - произвольный
Решение оформить как проект на github
Описать в Readme установку и запуск (egg|whl|файл запуска main.py|debian - любой способ)
Все в принципе понятно.
Два момента остались не понятны, что значит "с глубиной 2"?
И "можно получить n прогруженных страниц" - Он должен какие-то определенные страницы дергать?