Какую библиотеку использовать для парсинга большого количества страниц?

Question

Ninzalo @Ninzalo

Какую библиотеку использовать для парсинга большого количества страниц?

Пробовал разные - aiohttp+asyncio+bs4 / grequests+bs4 / requests+bs4 / multiprocessing+requests+bs4 / multithreads+requests+bs4.
Сейчас появилась задача спарсить данные с 2млн+ страниц, и вот не знаю, что справится с задачей быстрее и качественнее.
Также хотелось бы услышать комментарии по поводу Scrapy - скорость/удобство

Вопрос задан 19 часов назад
239 просмотров

5 комментариев

Подписаться 3 Простой 5 комментариев

Влад Григорьев @Vaindante

эммн, а какой смысл в связке requests + aoihttp?

Написано 13 часов назад
Ninzalo @Ninzalo Автор вопроса

Влад Григорьев, через aiohttp.ClientSession создаю сессию, через asyncio создаю задачи для парсинга с использованием этой сессии

Написано 10 часов назад
Влад Григорьев @Vaindante

Ninzalo, суть в том что requests синхронный и полностью блокирует поток, и при такой связки все плюсы который может дать aiohttp теряются

Написано 10 часов назад
shurshur @shurshur

Ninzalo, aiohttp полностью заменяет requests, причём он разработан явно с оглядкой на requests и по сути повторяет все его плюсы.

Написано 6 часов назад
Ninzalo @Ninzalo Автор вопроса

shurshur, Влад Григорьев, в голову мне что-то похоже ударило, только сейчас понял что написал
текст вопроса поправил

Написано 5 часов назад

Пригласить эксперта

Ответы на вопрос 3

5 комментариев

Ninzalo @Ninzalo Автор вопроса

парсеры я уже написал практически на всем, что перечислил
но вот только по самым скромным подсчетам парсинг займет около 120 часов, что мне не очень нравится. Вот и хотел узнать, есть ли способы ускорить данный процесс

Написано 17 часов назад
Кирилл Горелов @Kirill-Gorelov

Ninzalo, буквально вчера был подобный вопрос....
Там такой ссылкой поделились.
https://habr.com/ru/company/vdsina/blog/499750/

Написано 17 часов назад
Роман Мирр @2ord

Кирилл Горелов,

Там такой ссылкой поделились.
насколько я понял, там про сканирование комп. сетей, а не про скачивание контента по HTTP.

Написано 16 часов назад
Кирилл Горелов @Kirill-Gorelov

Роман Мирр, да, верно.
Тогда поделюсь еще ссылкой на свой вопрос, который я точно такой же задавал
https://qna.habr.com/q/1023898
Ninzalo, тут может что-то поможет тебе...

Написано 10 часов назад
Ninzalo @Ninzalo Автор вопроса

Кирилл Горелов, спасибо

Написано 4 часа назад

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Почему Python такой, как им пользуются?
- 1 подписчик
- 6 часов назад
- 54 просмотра
1

ответ
Python

+1 ещё

Простой
Как cпарсить тег конкретный тег html если его класс повторяется мне это надо сделать через beautifulsou?
- 1 подписчик
- 6 часов назад
- 12 просмотров
1

ответ
Python

+1 ещё

Простой
Ошибка в sqlite3, поможете?
- 1 подписчик
- 8 часов назад
- 43 просмотра
2

ответа
Python

+1 ещё

Простой
Как брать текст только из одного тега в bs4?
- 1 подписчик
- 10 часов назад
- 36 просмотров
2

ответа
Python

Средний
Как задать кнопке координаты и угол наклона в PySimpleGUI?
- 1 подписчик
- 11 часов назад
- 39 просмотров
1

ответ
Python

+3 ещё

Простой
Расчёт нагрузки и выбор сервера для Telegram бота?
- 2 подписчика
- 11 часов назад
- 87 просмотров
1

ответ
Python

+2 ещё

Простой
Как результат каждого процесса записать в отдельный соответствующий файл (Multiprocessing, Python)?
- 1 подписчик
- 12 часов назад
- 31 просмотр
1

ответ
Python

Простой
Как сделать бесконечный цикл но только при ответе «yes»?
- 1 подписчик
- 14 часов назад
- 71 просмотр
1

ответ
Python

+1 ещё

Простой
Как использовать условия в парсинге на Python?
- 1 подписчик
- 15 часов назад
- 54 просмотра
0

ответов
Python

Простой
Как изменить переменную в другом скрипте?
- 1 подписчик
- 17 часов назад
- 61 просмотр
2

ответа
Показать ещё Загружается…

Разработчик Python

СтратоСфера • Зеленоград

от 70 000 до 140 000 ₽

Python Developer

Сбер • Москва

от 170 000 ₽

Python-разработчик

Сбер • Москва

от 250 000 ₽

Парсер/проверка номера телефона в соц сетях

25 нояб. 2021, в 22:13

40000 руб./за проект

Исправить проблему интеграции сайта и мой склад

27 нояб. 2021, в 08:11

2000 руб./за проект

Администратирование proxmox

27 нояб. 2021, в 07:38

2000 руб./за проект

эммн, а какой смысл в связке requests + aoihttp?
Влад Григорьев, через aiohttp.ClientSession создаю сессию, через asyncio создаю задачи для парсинга с использованием этой сессии
Ninzalo, суть в том что requests синхронный и полностью блокирует поток, и при такой связки все плюсы который может дать aiohttp теряются
Ninzalo, aiohttp полностью заменяет requests, причём он разработан явно с оглядкой на requests и по сути повторяет все его плюсы.
shurshur, Влад Григорьев, в голову мне что-то похоже ударило, только сейчас понял что написал
текст вопроса поправил

Answer 1 · 2021-11-26 15:12:25

Да сделай ты уже на хоть чем-то))))

Ну будет у тебя разница в скорости между инструментами варьироваться час-два.....
А так я за хардкор. чистый requests.

Answer 2 · 2021-11-26 15:26:26

Вы бы определились - с чем именно проблемы могут возникнуть в вашем случае.
Толку от быстрой библиотеки парсинга страницы не будет если сайт вам страницу полминуты отдавать будет...
Толку от обычного подхода парсинга не будет, если страницу для получения данных на стороне броузера рендерить надо будет или какие-то действия выполнять.
Толку от большого количества запросов в единицу времени не будет, - если сервер будет в бан отправлять за частые запросы.
Ну и т.п.... Так что правильно вам говорят - беритесь уже хоть за что нибудь, да решайте проблемы по мере поступления.

Answer 3 · 2021-11-26 15:30:50

Монопенисуально.
допустим вы обрабатываете страницу за 500 ms (что кстати быстро)
Добавляете в пул 100 воркеров, хотя я бы таких клиентов выкидывал бы.
Итак в самом хорошем варианте у вас получается обход за 2.8 часа.
Это нагрузка не о чем для вашего компа.
Пусть страница 100 kb.
вот с такой скоростью вы будете скачивать с сервера 160 mbps

Какую библиотеку использовать для парсинга большого количества страниц?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт