URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID8
Нить номер: 8034
[ Назад ]

Исходное сообщение
"Защита web-сервера от парсинга"

Отправлено deatwisedog , 07-Июл-16 11:55 
Добрый день, коллеги!
Перешел на новый проект и появилась новая для меня задача.

Дано: VDS с Centos 6 на борту.
Развёрнут сайт на очень сильно перепиленном  bitrix.
Нужно защитить контент (Которого много и он уникальный) от парсинга/краулинга/скреппинга (Называйте как хотите).

1) Можно ли натравить на отслеживание парсинга fail2ban? Может есть готовый мануал? Сейчас он отслеживает только попытки брутфорса ssh.

2) Есть ли какие-то специализированные решения для bitrix?

3) Как вообще можно отследить парсинг? При условии, что парсер использует, скажем 10/100/1000 геораспределенных прокси?

ПыСы: Чувствую, что решение будет в чём-то схоже с защитой от DDoS, но обосновать не могу.


Содержание

Сообщения в этом обсуждении
"Защита web-сервера от парсинга"
Отправлено _ , 07-Июл-16 18:10 
> Нужно защитить контент (Которого много и он уникальный) от парсинга/краулинга/скреппинга
> (Называйте как хотите).

Назовём это тупостью и жадностью. Ибо это оно и есть.
Расскжи начальству что есть много компаний которые ежемесячно платят CDN-ам за доставку "контента (Которого много и он уникальный)" суммы в миллион раз превышающие стоимость вашей лавки :)

> ПыСы: Чувствую, что решение будет в чём-то схоже с защитой от DDoS, но обосновать не могу.

Прикрутите рэйт-лимиты, но оно тоже не сильно поможет, а клиенты будут недовольны.


"Защита web-сервера от парсинга"
Отправлено Павел Самсонов , 08-Июл-16 11:55 
>[оверквотинг удален]
> Развёрнут сайт на очень сильно перепиленном  bitrix.
> Нужно защитить контент (Которого много и он уникальный) от парсинга/краулинга/скреппинга
> (Называйте как хотите).
> 1) Можно ли натравить на отслеживание парсинга fail2ban? Может есть готовый мануал?
> Сейчас он отслеживает только попытки брутфорса ssh.
> 2) Есть ли какие-то специализированные решения для bitrix?
> 3) Как вообще можно отследить парсинг? При условии, что парсер использует, скажем
> 10/100/1000 геораспределенных прокси?
> ПыСы: Чувствую, что решение будет в чём-то схоже с защитой от DDoS,
> но обосновать не могу.

Контент защищается паролем. Рассмотри возможность авторизации на сайте.


"Защита web-сервера от парсинга"
Отправлено deatwisedog , 08-Июл-16 12:31 
Пароль - не вариант, это каталог. Вопрос именно в том, как защитить работу фотографа/дизайнера/копирайтера и прочих. Само собой, стопроцентной защиты не будет никогда, но нужно осложнить парсинг ровно настолько, чтобы он стал просто нецелесообразным


"Защита web-сервера от парсинга"
Отправлено fail , 08-Июл-16 14:57 
> Пароль - не вариант, это каталог. Вопрос именно в том, как защитить
> работу фотографа/дизайнера/копирайтера и прочих. Само собой, стопроцентной защиты не
> будет никогда, но нужно осложнить парсинг ровно настолько, чтобы он стал
> просто нецелесообразным

- js, с сеансовыми токенами(и подобное)
- на графику можно прикрутить "водяные знаки"


"Защита web-сервера от парсинга"
Отправлено keir , 08-Июл-16 14:32 
1. То, что попало в интернет - навсегда останется в интернете.
2. Защитить сайт от парсинга - невозможно. Любой сайт для парсера - html код, а он очень хорошо структурирован и парсить его нет проблем. Можно придумать разные извращения, но их изобретательство встанет вам в разы дороже чем возможные потенциальные убытки.
3. Раз у вас каталог с графическим материалом, его можно защищать водяными знаками или не выкладывать полные оригиналы (Делать обрезку обрамления и хранить оригинал в недоступном никому месте. В дальнейшем это даст выиграть в суде борьбу за авторство).
4. см. пункт 1.