Какую библиотеку использовать для парсинга большого количества страниц?

Пробовал разные - aiohttp+asyncio+bs4 / grequests+bs4 / requests+bs4 / multiprocessing+requests+bs4 / multithreads+requests+bs4.
Сейчас появилась задача спарсить данные с 2млн+ страниц, и вот не знаю, что справится с задачей быстрее и качественнее.
Также хотелось бы услышать комментарии по поводу Scrapy - скорость/удобство
  • Вопрос задан
  • 239 просмотров
Пригласить эксперта
Ответы на вопрос 3
@Kirill-Gorelov
С ума с IT
Да сделай ты уже на хоть чем-то))))

Ну будет у тебя разница в скорости между инструментами варьироваться час-два.....
А так я за хардкор. чистый requests.
Ответ написан
fox_12
@fox_12 Куратор тега Python
Расставляю биты, управляю заряженными частицами
Вы бы определились - с чем именно проблемы могут возникнуть в вашем случае.
Толку от быстрой библиотеки парсинга страницы не будет если сайт вам страницу полминуты отдавать будет...
Толку от обычного подхода парсинга не будет, если страницу для получения данных на стороне броузера рендерить надо будет или какие-то действия выполнять.
Толку от большого количества запросов в единицу времени не будет, - если сервер будет в бан отправлять за частые запросы.
Ну и т.п.... Так что правильно вам говорят - беритесь уже хоть за что нибудь, да решайте проблемы по мере поступления.
Ответ написан
Комментировать
firedragon
@firedragon
Senior .NET developer
Монопенисуально.
допустим вы обрабатываете страницу за 500 ms (что кстати быстро)
Добавляете в пул 100 воркеров, хотя я бы таких клиентов выкидывал бы.
Итак в самом хорошем варианте у вас получается обход за 2.8 часа.
Это нагрузка не о чем для вашего компа.
Пусть страница 100 kb.
вот с такой скоростью вы будете скачивать с сервера 160 mbps
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы