Комментарии 16
Интересно, почему вы называете этот процесс атакой?
Атака на информационную систему — это совокупность преднамеренных действий злоумышленника, направленных на нарушение одного из трех свойств информации — доступности, целостности или конфиденциальности
Исходя из этого определения на вики, у вас не происходит нарушения доступности, целостности или конфиденциальности.
Как указал в начале, я не рассматриваю юридические и этические вопросы, связанные с парсингом данных. Для владельцев e-commerce ресурсов - это именно атака, так как данные о ценах, остатках товаров в магазинах, характеристики товаров - ценная информация и ее использование конкурентами влечет реальные коммерческие убытки для владельцев данных.
Простите, а если у вас будет магазин продуктов, то вы обяжите охрану пресовать покупателей, фотографирующих стелажи, товары или ценники?
Решения подобного рода принимают владельцы e-commerce, будь то физический магазин или онлайн-каталог, я не могу ответить за всех e-commerce.
Ха-ха, видел и такое. Фотографируешь в магазине ценник, и тут появляется какой-нибудь хрен с претезниями, кто мол съему разрешал и вообще "удоли!!!1111".
Для владельцев e-commerce ресурсов - это именно атака
Владельцы e-commerce ресурсов могут как-угодно это называть. Хоть горшком, хоть террористическим актом. Они же не пишут статью на профильный ресурс.
я не рассматриваю юридические и этические вопросы, связанные с парсингом данных
Так это не этический и не юридический вопрос. Это вопрос профессиональной терминологии. Я не против того, что люди с этим борются, просто не понимаю почему называют это "атакой".
Если Вам интересно технически верное определение, то тогда Вы, наверное, согласитесь с признанным определением от OWASP. Они используют термин threat ("угроза"):
Scraping is an automated threat.
Также эта угроза относится к типу атак Abuse of functionality:
OWASP Attack Category / Attack IDs:
Abuse of Functionality
Лет несколько назад искал нужную мне вещь на авито. Найти и купить ее по вменяемой цене удалось только после написания простенького парсера.
Для чего препятствовать парсингу понятно: к примеру, чтобы "пользователь" (а точнее - пользуемый) не мог ослеживать динамику цен и радостно покупался на акции невиданной щедрости из серии "получи скидку 50% от утроенной цены".
Статья из серии как сделать Интернет еще хуже.
nginx-ultimate-bad-bot-blocker вроде неплохо справляется.
Почему не упомянут 100% надежный способ борьбы с парсингом? Убрать цены нахрен с сайта! Хотите что-нибудь купить — пишите заверенное нотариусом письмо и вам вышлют прайс в экселе. Хотя, пардон, какой эксель? Его же легко обработать. Нет, только скан распечатки внутри PDF, только хардкор!
Это и есть настоящий Ё-commerce!
Невозможно избавиться от грамотных парсеров, а подобные защиты - это защиты от студентов
Бот-трафик и парсинг цен – взгляд со стороны владельца e-commerce и методы защиты от парсинга