Добрый день, коллеги!
Перешел на новый проект и появилась новая для меня задача.Дано: VDS с Centos 6 на борту.
Развёрнут сайт на очень сильно перепиленном bitrix.
Нужно защитить контент (Которого много и он уникальный) от парсинга/краулинга/скреппинга (Называйте как хотите).1) Можно ли натравить на отслеживание парсинга fail2ban? Может есть готовый мануал? Сейчас он отслеживает только попытки брутфорса ssh.
2) Есть ли какие-то специализированные решения для bitrix?
3) Как вообще можно отследить парсинг? При условии, что парсер использует, скажем 10/100/1000 геораспределенных прокси?
ПыСы: Чувствую, что решение будет в чём-то схоже с защитой от DDoS, но обосновать не могу.
> Нужно защитить контент (Которого много и он уникальный) от парсинга/краулинга/скреппинга
> (Называйте как хотите).Назовём это тупостью и жадностью. Ибо это оно и есть.
Расскжи начальству что есть много компаний которые ежемесячно платят CDN-ам за доставку "контента (Которого много и он уникальный)" суммы в миллион раз превышающие стоимость вашей лавки :)> ПыСы: Чувствую, что решение будет в чём-то схоже с защитой от DDoS, но обосновать не могу.
Прикрутите рэйт-лимиты, но оно тоже не сильно поможет, а клиенты будут недовольны.
>[оверквотинг удален]
> Развёрнут сайт на очень сильно перепиленном bitrix.
> Нужно защитить контент (Которого много и он уникальный) от парсинга/краулинга/скреппинга
> (Называйте как хотите).
> 1) Можно ли натравить на отслеживание парсинга fail2ban? Может есть готовый мануал?
> Сейчас он отслеживает только попытки брутфорса ssh.
> 2) Есть ли какие-то специализированные решения для bitrix?
> 3) Как вообще можно отследить парсинг? При условии, что парсер использует, скажем
> 10/100/1000 геораспределенных прокси?
> ПыСы: Чувствую, что решение будет в чём-то схоже с защитой от DDoS,
> но обосновать не могу.Контент защищается паролем. Рассмотри возможность авторизации на сайте.
Пароль - не вариант, это каталог. Вопрос именно в том, как защитить работу фотографа/дизайнера/копирайтера и прочих. Само собой, стопроцентной защиты не будет никогда, но нужно осложнить парсинг ровно настолько, чтобы он стал просто нецелесообразным
> Пароль - не вариант, это каталог. Вопрос именно в том, как защитить
> работу фотографа/дизайнера/копирайтера и прочих. Само собой, стопроцентной защиты не
> будет никогда, но нужно осложнить парсинг ровно настолько, чтобы он стал
> просто нецелесообразным- js, с сеансовыми токенами(и подобное)
- на графику можно прикрутить "водяные знаки"
1. То, что попало в интернет - навсегда останется в интернете.
2. Защитить сайт от парсинга - невозможно. Любой сайт для парсера - html код, а он очень хорошо структурирован и парсить его нет проблем. Можно придумать разные извращения, но их изобретательство встанет вам в разы дороже чем возможные потенциальные убытки.
3. Раз у вас каталог с графическим материалом, его можно защищать водяными знаками или не выкладывать полные оригиналы (Делать обрезку обрамления и хранить оригинал в недоступном никому месте. В дальнейшем это даст выиграть в суде борьбу за авторство).
4. см. пункт 1.