Последнее время значительно возросла активность web-ботов, индексирующих трафик. Помимо корректно работающих ботов распространение получили "неистовые" боты, игнорирующие правила индексирования robots.txt, лезущие с десятков тысяч разных IP, притворяющиеся легитимными пользователями и не придерживающиеся разумной политики интенсивности отправки запросов. Данные боты создают огромную паразитную нагрузку на серверы, нарушают нормальную работоспособность систем и отнимают время администраторов. Активность подобных ботов воспринимается многими как вредоносные действия...Подробнее: https://www.opennet.me/opennews/art.shtml?num=63163
> так как при случайной индексации подобной ловушки ботом Google
> случайной:D)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
Имелось ввиду, что если накосячишь с настройкой ловушки и она по ошибке сработает для Google Bot, то мало не покажется.
У бота гугла до сих пор нет лимитов на размер загружаемого содержимого?
П - профессионализм.
так это будет в лимита загрузки, но вне лимита распаковки
Распаковка по-хорошему производится по мере загрузки.
Никогда не удивляло, что gzip/bzip2/xz/zstd файл для распаковки целиком в память не загружают?
В том-то и дело, что есть, и не только на размер. И если любая защита срабатывает — значит сайт и у обычного пользователя тоже нормально работать не будет, значит и рекомендовать пользователям посещать этот сайт не нужно. Все такие подозрительные урлы в поисковом индексе в итоге помечаются как вредоносные, а по достижению определённого лимита вредоносным помечается весь домен. На этом в принципе можно и попрощаться, убрать домен из списка вредоносных может занять несколько месяцев. Если это мелкий магазин, как было у моего клиента, то может оказаться дешевле провести ребрендинг и сменить название, чем держать склад без движения.
Если такая защита срабатывает на х***ю, которую обычный пользователь не закачает никогда - эта защита - полная х***я и чисто рекламный ход.
Ты наверное не очень хорошо представляешь с каким скамом приходится иметь дело поисковым системам. Есть множество частных случаев, но общий подход такой: если на странице есть хоть что-то нестандартное, странное (для произвольных определений странности — это мегабайты кода, буквально), и даже отдалённо напоминающее попытки манипуляций поисковой выдачей, то сайт начинает «тонуть» по рейтингу, при чём чем больше срабатываний, тем быстрее. Поэтому совет от гуру пикапа: брать кунг с лючком, и не совать на свои страницы ничего эдакого, особенно «х***ю, которую обычный пользователь не закачает никогда», если сайт нужен для ведения бизнеса.
> весь домен. На этом в принципе можно и попрощаться, убрать домен
> из списка вредоносных может занять несколько месяцев. Если это мелкий магазин,
> как было у моего клиента, то может оказаться дешевле провести ребрендинг
> и сменить название, чем держать склад без движения.Проще использовать другие методы рекламы :)
Если вашего бизнеса нет в выдаче самого популярного поисковика в мире, значит вашего бизнеса нет и в интернете.
Хреновый у вас бизнес.
Я не жалуюсь, на сытую жизнь в недешёвой стране хватает и ещё остаётся. Но раз ты говоришь хреновый, завтра же займусь ликвидацией и вернусь обратно работать на какого-нибудь провайдера за зарплатку. У меня правда в резюме перерыв в почти десять лет которые я нигде и никем не числился, думаешь хотя бы джуном возьмут?
Да, займись, всё какое-то занятие.
Посмотрел сколько на деле платят сеньорам в FAANG (куда меня даже джуном вряд ли возьмут), и передумал ликвидироваться. Лучше с хреновым бизнесом, зато сыт и в тепле, чем вкалывать по 40-50 часов в неделю за эту «достойную оплату труда».
Пункт 1 на Диком Западе: Шериф всегда прав.
> Пункт 1 на Диком Западе: Шериф всегда прав.Не, на диком западе не так. Там кто первый выстрелил и не промазал - тот и прав. Поэтому шерифу лучше не хлопать клювом и уметь стрелять метко и быстро. Иначе не долго он шерифом будет.
Добавят в ботов лимит на размер содержимого, и всё.
Так и лимит на количество запросов могли бы добавить, но чего-то не хватило.
Новомодные боты лезут с разных IP, не большой 10-20 запросов с одного. Лезут из Китая, Вьетнама, Бразилии. На днях фильтровал AI-ботов и только список /24 подсетей составил около 5000 строк за день. Всего под сотню тысяч разных IP было, непонятно где они их берут, на ботнет не походит.
IP разные, а запросы одинаковые, потому и получается фильтровать. 100 тысяч IP, подозреваю, даже особо активный Аноним Опеннет может нагенерировать с двух телефонов.
Я не особенно активный аноним, но мне очень интересно, как сгенерить 100 000 ipv4 с двух телефонов.
Сейчас будет танец "ви таки меня не так поняли" :)
Он просто путает соединения и IP. Он просто неграмотный.
Запросы все разные, с разных реалистичных User Agent. Боты индексируют разные страницы без повторов и вся свора ботов синхронизирована (видимо задания на загрузку формируются заранее и распределяются). Без штук типа anubis от реальных пользователей их не отличишь.
Почему? боты аля-curl не грузят всякие css, как триггер геморно, но можно. с селениумами сложнее, но в целом тоже можно..половина сайтов современных выдает кучу уведомлений, от куки до рекламы, или около рекламы, так что большая часть страницы перекрывается, бот этот попап закрывать не станет, а юзер да - и если бот посмотрел страницу и ничего не закрыл, то для нового запроса можно бан или последнее китайское, в общем не вижу проблемы.
>бот этот попап закрывать не станет
>а юзер даНормальный юзер тоже не станет, т.к. эти банеры у этого юзера скрыты юблоком и юзер юаннер не видит в принципе.
> бот этот попап закрывать не станетЧего вдруг? Мои и закрывают, и на куки соглашаются, и как только людьми не прикидываются. Даже мышкой по странице елозят весьма убедительно. Это не так сложно сделать, как тебе кажется.
> Мои и закрывают,Аха... попался ! :)
Я и не прятался. Занимаюсь скрапингом давно и не думаю бросать. Сабж и прочие жалкие попытки защитить от невидимых угроз никому не нужные сайты считаю смехотворными. Как и большую часть местных комментариев в духе «так их, иродов!». С анубисом или без, 99% сайтов не представляют для скрапинга никакого коммерческого интереса, и попасть туда можно только по ошибке. Эти безумные ИИ боты тоже скоро научатся игнорировать весь шлак. И обходить «защиты» тоже.
> Я и не прятался.Да шучу просто.
>> бот этот попап закрывать не станет
> Чего вдруг? Мои и закрывают, и на куки соглашаются, и как только
> людьми не прикидываются. Даже мышкой по странице елозят весьма убедительно. Это
> не так сложно сделать, как тебе кажется.А ты майнер запусти. Если закрыли страницу - значит человеки. Не закрыли? Зашиьись, поднавались, еше мегахэшей накиньте, и побольше!
Новые крипто"тапалки" появились.
Чел ставит себе на комп нечто на електроне. И "отдаёт часть ресурсов ПК на общее благо", а за это ему копейки щиткойнов капают.
> Чел ставит себе на компна смартфон.
> нечто на електроне.
моднейший фонарик, в которое встроен интересный API.
программсты фонарика имеют откат от авторов API,
авторы API сдают прокси в аренду.
всем хорошо кроме сайтовладельцев.
на швабре описывали такой сценарий.
Полный размер становится известен только после распаковки. Отдаётся вполне себе небольшой файл, укладывающийся в лимиты. Степень сжатия в таком файле может быть как 1:10 так и 1:1000000.
Не "после", а "во время". Плюс распаковка потоковая, весь контент читать не обязательно. Но это слишком сложно, я понимаю.
Хотя в принципе могу понять, считать целиком, потом загнать в распаковку - старая добрая привычка скриптеров, вообще не понимающих, что делают. Им и положено страдать от таких zip-"бомб", пусть страдают :)
эмм а что это за содержимое такое на 100 тб? типа набор рандомных случайных данных? или все серии ванписа?))
/dev/zero, написано же
Рандомные данные плохо сжимаются, хороши сжимаются повторяющиеся данные - в данном случае нули. Архиватор представит 0000....000 виде "0:количество"
> Рандомные данные плохо сжимаются, хороши сжимаются повторяющиеся данные - в данном случае
> нули. Архиватор представит 0000....000 виде "0:количество"о как, понял благодарю
Вот только в реальности архиватор потатил 80+ метров диска на хранение 100ТБ *нулей*. Похоже, что sparse-файлы не такая уж плохая идея (как минимум, для больших и однородных данных). И упаковка/распаковка почти бесплатная.
> Вот только в реальности архиватор потатил 80+ метров диска на хранение 100ТБ
> *нулей*. Похоже, что sparse-файлы не такая уж плохая идея (как минимум,
> для больших и однородных данных). И упаковка/распаковка почти бесплатная.Понимаешь в чем нюанс? Хранить 80 мегов нулей по современным меркам - почти бесплатно, и за стораж ты 1 раз платишь. А вот 100 Тб трафика на 1 бота...
1) А скольким ботам ты по 100Тб трафа вообще с твоего сервера нальешь?
2) И во сколько тебе это обойдется? Дешевле чем хранение 80 мегов?Хотя если тебе сервак снесут за неоплату петабайтов трафика - боты конечно обломаются. Но вот тебе то радости с этого?
Речь о том, что для представления 100ТБ однородных байт в виде "[01]:количество" нужно 48 бит. 1 бит хранит двоичное "0 или 1" и 47 бит хранит число байт (минимально адресуемое) - 10^14 (~2^47). То есть 6 байт должно быть достаточно. А получилось в миллион раз больше.
да хоть карта с местонахождением ванписа. главное чтоб жалось хорошо.
Когда я лет 7 назад такого бота делал, оно качало только текст и видео/аудио с новостных сайтов. Соответственно всякие zip, gz и тп оно не качало. На некоторых добрых сайтах даже особо разбирать html не нужно было, просто можно было понять как у них систематизированы видео-текст и просто перебирать .../1.html .../1.mp4 или как-то так.
И да, robots.txt оно игнорировало, надо же как-то данные для тренировки моделей собирать.
Когда ты запрашиваешь .html сервер отдаёт его тебе сжатым, если браузер выставляет заголовок "Accept-Encoding: deflate, gzip, brotli...", а сервер поддерживает сжатие.
Зачем подсказываете? Пусть бы дальше собирал "данные для обучения моделей" :)
В некоторых странах шариата таким умникам руку могут отрубить, так-что будь осторожен, я тебя предупредил.
И что ты ему сделаешь?
Разве что "поцелуешь в уста не говорящие на фламандском"(С) ЛоУШ :-D
> На практике предложенный метод применять не рекомендуется, так как сайт может быть занесён Google в чёрный список и начнёт помечаться вредоносным в браузере Chrome с включённым режимом "Safe Browsing".И в чем смысл? Показать какой администратор умный? Не стоило новости.
> Показать какой администратор умный?Скорее наоборот. Ибо предполагает, что авторы ботов настолько дураки, что не додумаются при потоковой распаковке добавить проверку содержимого, и отбрасывать все, что начинается с этих нулей вместо "<!DOCTYPE html>" и т.п.
Наивность метода просто поражает.
> Ибо предполагает, что авторы ботов настолько дуракиТы и не представляешь насколько...
Ну он и не догадался, что после <!DOCTYPE html> можно отправлять пробелы...
> Ну он и не догадался, что после <!DOCTYPE html> можно отправлять пробелы...Ну да, ведь остановиться на размере 10-30 мегабайт при потоковой распаковке у ребят ну никак не получиться.
С вероятностью 99.99% там нет никакой потоковой обработки, зовётся метод на петоне (как вариант на go) в параметрах урл, в ответе распакованный ответ. Вот в распакованном ответе внезапно может случится терабайт пробелов..
С такой же вероятностью этот скрипт запускается гипервизором с лимитом памяти на процесс.
Он просто упадёт с исключением и бот продолжит работу в нормальном режиме.
И будет выкачивать этот файл падать
выкачивать файл падать короче непонятно в чем профит
> И будет выкачивать этот файл падать
> выкачивать файл падать короче непонятно в чем профитТолько у особо жопоруких.
У нормальных пару раз упадёт и больше туда ходить не будет.
И падение это займёт времени не больше чем любой другой реквест, так что в целом и по×ую.
>> И будет выкачивать этот файл падать
>> выкачивать файл падать короче непонятно в чем профит
> Только у особо жопоруких.
> У нормальных пару раз упадёт и больше туда ходить не будет."Mission Accomplished". Бота же отвадили, грузить серваки не будет, что вам еще было надо? :)
Наивные методы таки работают, хоть и не всегда. Простой пример защиты от спам-ботов: спам-боты часто не видят html-комментарии. Защита банальна: сунуть скрытое поле формы внутрь html-комментария и проверить, кто это поле передаст в post запросе. Браузеры такое поле в тело post запроса не передадут, а боты - вполне, ибо не разбирают DOM-дерево, а юзают регулярки. Не со всеми прокатывает, но со многими.
Шел 2025 год, а люди так и не поняли почему нельзя парсить html регулярками.
Ну забью нулями посередине документа,или другим паттерном легитимного html.
> Ну забью нулями посередине документа,или другим паттерном легитимного html.А остановить распаковку на пятом десятке легитимного HTML ну никак нельзя, да?
> Ибо предполагает, что авторы ботов настолько дураки, что не додумаются при потоковой распаковке добавить проверку содержимогоКак эта проверка может выглядеть? Первый байт контента нулевой? Или надо проверить первые 1000 байт? И чё? Если все 1000 байт нулевые то отбрасываем, а если хотя бы 1 байт ненулевой то нет? А если я в zip-бомбу положу 1024 не нуля, прежде чем дописывать два терабайта нулей? Или ещё я могу не парится, и создать файл на два петабайта двоичных 1. Они легко пройдут проверку на нули, а сжиматься будут не хуже нулей. Ещё неплохо должны сжиматься паттерны типа 10101010101..., 0101010101, 100100100100100..., и тп. Я не знаю деталей всяких этих deflate и brotli, насколько им важны границы между байтов и имеет ли смысл эти паттерны делать размеров кратными 2^N, но это легко выяснить экспериментально.
На стороне бота не автор бота проверяет, что надо, а что нет, а тупая программа. И вот её как раз очень легко подвести к граблям, чтобы она на них наступила. Писать же программы, которые не наступают на грабли, или не так просто наступают, гораздо-гораздо сложнее. И дороже.
> Как эта проверка может выглядеть? Первый байт контента нулевой? Или надо проверить первые 1000 байт? И чё?Элементарно: проверяются первые несколько байт на наличие заголовка. Это элементарная проверка, так все браузеры делают.
Или ты думал, они все куском распаковывают, а уже потом пытаются понять, что внутри?
> Или ты думал, они все куском распаковывают, а уже потом пытаются понять,
> что внутри?В классических краулерах и AI-индексаторах для загрузки и разбора используются разные процессы.
Следующий шаг - делать архив не из нулей, а из повторяющегося триллионы раз легитимного заголовка файла (например, того же самого <!DOCTYPE html>). Файлик не сильно больше получится.
Проверять отношение сжатого к несжатому перед распаковкой ещё во времена фидо придумали, когда зип-бомбы получили такую популярность.
Я не знаю сообщают ли http заголовке о размере распакованного body, но даже если они сообщают, то сервер может наврать об этом, и потом клиент радостно будет распаковывать. И я заверяю тебя, он будет распаковывать до конца, потому что Postel's law: "be conservative in what you send, be liberal in what you accept".Но я сомневаюсь, что сервер сообщает о длине распакованного. В любом случае, сервер может просто прекратить сообщать _всегда_, чтобы боты были бы вынуждены либо отказываться вообще работать с сайтом, либо работать в отсутствие предсказуемости длины распакованного.
Это не сервер передаёт, это в заголовке компрессии указывается.
Речь о Accept-Encoding: deflate. Это rfc1951, ты можешь открыть его и поискать там что-нибудь про заголовки. У меня есть подозрение, что gz encoding имеет какие-то заголовки и сложнее, чем deflate, но deflate совершенно точно не имеет никаких заголовков, это тупо поток байт для декомпрессии.
Распаковывается nate.html , а в нем 100 млн раз повторен большой морской загиб Петра Великого. Чем это тебе поможет ??
Народ так еще и не понял, что дешевле отдать контент, чем городить все эти "защиты".Все, к чему это приводит, это то, что приходится скрабить такой ресурс еще раз.
Особенно забавно с популярными. Если стоит задача получить дамп, они думают что "мусорные" данные кого-то остановят?
У вас сайт просто приляжет, если безграничное кол-во скриптов будет его выкачивать целиком. Можно будет контент себе с локалхоста на локалхост щедро отдавать.
Ну если сайт кладёт кнопку "скачать" за пейвол, то не удивительно, что посетители скачивают текст скриптами.
> Ну если сайт кладёт кнопку "скачать" за пейвол,Вообще не об этом статья. За пей-волом рандомный робот не скачает.
читать даёт постранично, скачать целиком - нет. Очевидно возникает желание всё равно эту информацию скачать. Раньше для этого использовался scrapbook, но теперь он не совместим с принципами файерфокс, и скрапить приходится питоном
щас бы нейрокравлеров посетителями называть..
>Если стоит задача получить дамп, они думают что "мусорные" данные кого-то остановят?Если стоит задача получить МУСОРНЫЙ дамп, то "мусорные" данные ни кого не остановят.
А вот если стоит задача получить НЕ МУСОРНЫЙ дамп, то "мусорные" данные конечно остановят. Не сразу конечно, но ресурс для бота будет включён в чёрный список.И я использую cloudflare, их защита от ботов реально работает.
Только их защита не только от ботов но и от пользователей работает к сожалению.
Ага. Если случайно попал, пройдя по ссылке - тут же закрыть, не глядя.
> Только их защита не только от ботов но и от пользователей работает к сожалению.Это вообще не проблема, потому что количество пользователей с подозрительными (по мнению Cloudflare) запросами - это капля в море по сравнению с нагрузкой, которую делает даже один единственный бот.
Ну вот вы сами восстанавливаете пользователей против себя.Веб мастера плачутся, что каждый труд должен быть оплачен, а пользователь отключает рекламу, гад такой.
Пользователь плачется, что он каждый день убивает десяток минут жизни совокупно на преодоление клаудвафли, и при таких расходах уже сайт должен пользователю, а не наоборот.
А зарабатывают на этом ни те, и ни другие.
> Пользователь плачется, что он каждый день убивает десяток минут жизни совокупно на преодоление клаудвафлПользователи с подключением к интернету не плачутся. Плачутся только те, кому вместо подключения к интернету продали доступ к провайдерской локалоке с интернетом через cgNAT. Показывать таким капчу это как после посещения туалета руки мыть — вопрос обычной гигиены.
> Ну вот вы сами восстанавливаете пользователей против себя.Написано же, что процент таких пользователей - статистическая погрешность.
И проблема всегда на из стороне: подозрительная сеть, древний браузер (или какойй-то васянофорк Хрома), и т.п.
> А зарабатывают на этом ни те, и ни другие
Еще как зарабатывает - спасением денег и времени от ботов, сношающих серверные мощностя.
> или какойй-то васянофорк Хромато есть если меня не устраивает хром или лиса и пользуюсь соответственно ungoggledchromium или librewolf - то можно меня не учитывать? Типа универсальный клиент-серверный веб протокол придумали идиоты, и никаких клиентов быть не должно, кроме хрома?
Вот реально, после такого хочется самому занятся ботоводством.
> И я использую cloudflare, их защита от ботов реально работает.Она и от людей защищает. Я заколебался доказывать что не бот при каждом переходе
Меня кстати клаудфларь меньше всех достает. Зачастую нужно просто галочку поставить и никаких ребусов не решать. Хуже всех в РФ этом отношении Яндекс: даже аутентифицированному мне может выдать три капчи подряд
А вы попробуйте заблокировать доступ к канвасу, чтобы фингрепринтинг не ходил.
У меня они один-два раза галочку показывают и пропускают. А вот, если гугловская встретится... Ну что же, пара минут выборов велосипедов обеспечены, ибо, в первые попытки обязательно попросят "попробовать снова", пусть всё и правильно выбрано
Если еще проблемы нет с багами в Cloudflare, как это было недавно, когда они написали, что откатились, решают проблему, а по факту - нет.
Я всё отдал бы, у меня зеркало Слаквари, но боты весь месячный трафик за пару дней высасывают.
> Я всё отдал бы, у меня зеркало Слаквари, но боты весь месячный трафик
> за пару дней высасывают.Что за зеркало такое лажовое что ему боты траф высаживают? А пользователи с него не качают чтоли? Тогда и зеркало можно просто снести - никто и не заметит.
ну сейчас по сути любое среднее зеркало которое хотя как-то индексируется в интернете и хостится на сервисе с месячным лимитом траффика. потому что в отличие от пользователей аи боты качают всё подряд некоторые ещё и по несколько раз а потом часто даже не смотрят в эти данные или не понимают их и качают снова.
> Что за зеркало такое лажовое что ему боты траф высаживают?Бот легко может твой сайтик выкачивать каждые шесть часов. И таких ботов может быть десяток или больше.
> пользователи с него не качают чтоли?
Этих пользователей быть может сто штук и качают они раз в месяц отсилы. Причём качают они не всё, а только то, что надо.
> Бот легко может твой сайтик выкачивать каждые шесть часов. И таких ботов
> может быть десяток или больше.Наиболее наглых, с диким RPS, может иметь затро(тт)лить по критерию "с этой подсети дофига запросов". После чего они становятся довольно безобидные.
Как очевидная мишень - китайцы, у них довольно жирные аллокации айпишников с которых некультурные боты с ломовым RPS лезут. Эти господа понимают только банхаммером в репу. При том какие легитимные пользователи вам на сервак придут с вот именно айпишников китайских хостингов?
> Этих пользователей быть может сто штук и качают они раз в месяц
> отсилы. Причём качают они не всё, а только то, что надо.Тем не менее вот это все без гарантий. Решит кто-то допустим репу зеркальнуть с зеркала... :). Но вон то на самом деле довольно легко лечится, см выше. Несколько рулесов iptables или что там у вас по наиболее агрессивным подсетям - и они в ауте.
> Народ так еще и не понял, что дешевле отдать контент, чем городить все эти "защиты".О, ты из тех, кто надеется изменить общественное мнение? Так они тоже надеются, и твоим же способом: сделав скрабинг дороже тебе. Успехов повышать друг-другу косты, владельцы датацентров будут рады.
> О, ты из тех, кто надеется изменить общественное мнение? Так они тоже
> надеются, и твоим же способом: сделав скрабинг дороже тебе. Успехов повышать
> друг-другу косты, владельцы датацентров будут рады.Как говорится, добрым словом и питолетом^W зипбомбой можно достичь большего чем одним только добрым словом :)
Так дешевле соблюдать robots.txt и рейт-лимит. Но что-то "умные" боты до этого не додумались.
99% ботов не умеет в сжатие контента
Есть подозрение, что написаны оные на нодежсах с пыхтонами, которые просто вызовы библиотек "скачай мне это" - там васянская библиотека сама попробует распаковать, с немного предсказуемым результатом.
> 99% ботов не умеет в сжатие контентаС чего ты взял?
Делал эту бомбу много лет назад, периодически смотрю логи.
> Делал эту бомбу много лет назад, периодически смотрю логи.Звездишь. Ибо сам факт остутствия Accept-Encoding сам по себе говорило бы, что это бот.
> 99% ботов не умеет в сжатие контентаИх можно было бы влет отсеять по критерию "не умеет сжатие -> пшелнафиг"
Тем, кто не прислал вменяемый Accept-Encoding, можно сразу 400 отдавать. Это точно и не человек, и не полезный бот.
глупость какая, если бот распаковывает архив, то он может в заголовке архива посмотреть оригинальный размер содержимого и не распаковывать его
Там нет "архива" и нет "размера содержимого".
Другое дело, что распаковывать-то надо потоком при закачке, а не всё целиком. Ну или хотя бы лимит распаковщику отдавать.
Вы только заголовок прочитали?
в распаковку еще надо внести код учитывающий зип-бомбы :) обычно такого нет.
ибо дать четкое алгоритм, что вот этот архив с сжатием в 5 раз не зип-бомба а вот со сжатием в 10 раз зип-бомба нет.
Это вообще не проблема, ибо данные распаковываются потоково.Если после распоковки первой сотни килобайт у тебя там нули или другой мусор вместо <!DOCTYPE..., то дальше можно не продолжать.
Если после первого же такого документа бот отвалится от сайта - задача выполнена.
А если нет - можно и продолжить. Дать боту легитимный хтмл, из которого тот нахарвестит линков на лайв-видосики неограниченной продолжительности сплошного чёрного ухд - и пусть он их качает до второго пришествия.
> сайт может быть занесён Google в чёрный списокв обход nofollow? тогда ясно кто
Новые Дон Кихоты и Санчо Пансы на борьбу с ботами вышли)
В наш век, нейронки выкачивают через ботов весь интернет.
И здесь двояко - можно постоянно вычислять и запрещать (боты постоянно меняю поведение и подстраиваются под ваши защиты + у каких нибудь дипсиков будут весьма ограниченные знания о вашем сайте/организации), либо искать какой то компромисс и банить только особо безбашенные боты)
Ну, мой ответ прост - внешний сайт перевести тупо на статику, оставив только приветственную картинку как делают многие китайцы работающие с внешним миром, если не хватает канала - ограничить каждый ip парочкой соединений(чем не гнушается даже гитхаб), можно даже с шейпингом для особо ретивых, или каптчу по превышении количества запрошенных ресурсов. У меня подобные боты быстро вспоминают, что такое интернет на скорости 2 кбод.
Внутренние рабочие ресурсы для удаленных сотрудников отдавать только с помощью запрещенной к упоминанию технологии из 3 букв.Мы все же не в 90-еы живем, когда было модно выставлять на улицу всякие скрипты гостевых книг и форумы. Тогда боты больше емайлы собирали для спама, вот для них у меня и были скрытые ссылки на скрипты подготовлены, которые генерировали кучу динамически-рандомных емайлов, по сотне за раз.
да тут какбы можно и клаудфлейровскую защиту купить если у тебя высоконагруженный комерческий сервис, а вот когда ты малый вебсервер держишь который тебе денег много не приносит то ты чем всё это оплатишь? веселее челам у которых невысоконагруженные аписервисы на облаках с оплатой за запрос хостятся так что пользователи никогда за месячную бесплатную квоту не выбиваются, а аишные боты запросами за минуту могут всю квоту выбить.. и радуйся если у тебя было настроено отключение по достижению лимита иначе потом можно получить счёт на несколько тысяч долларов.
> а вот когда ты малый вебсервер держишь который тебе денег много не приносит то ты чем всё это оплатишь?А сколько «всего этого» надо оплачивать? У меня в точности как ты описал: малый вебсервер (ещё и хостящийся под кроватью), тех денег что он приносит даже на домен не хватает. Естественно он за CloudFlare, чтобы не палить домашние адреса. Стоит мне это удовольствие аж целых $0.0 каждый месяц вот уже два года, кроме ноября 2024, когда на мой сайт налетело ИИ-ботов из-за одной публикации. Тот ноябрь обошёлся мне аж в $1.74. Но уже к декабрю безумие прекратилось и всё вернулось на круги своя за $0.0.
Держишь сайт для себя - так заблоч их всех нафиг. Здесь друзья-девопсы кучу рецептов выложили. Другой вопрос - компания, фирма. Хотят они чтоб о них нейронки знали или нет.
Держу сайт для всех, но не «компания, фирма». Мелкий частный бизнес в одно лицо. С клаудфларью нет проблем вообще.
>а вот когда ты малый вебсервер держишь который тебе денег много не приносит то ты чем всё это оплатишь?тогда зачем ты его держишь?
если не ради прибыли, значит ради хобби,
а за хобби, извините, у нас принято платить!
ведь ты же не придешь в магазин с требованием "дайте мне лыжи\мотоцикл\яхту, я кататься буду"(вместо лыж подставьте что нибудь из вашего любимого).
>аписервисы на облаках с оплатой за запросЕсли ты не можешь сделать сам, поднять сервер, настроить сервисы - плати за это другим.
Бесплатно у нас пока никто работать не хочет.
Если тебя не устраивают какие то тарифные планы - уходи к другому хостеру.
Или тебя насильно гвоздями заставили пользоваться именно этим тарифом?> получить счёт на несколько тысяч долларов.
ситуация уровня "сам себе злобный буратина".
> В наш век, нейронки выкачивают через ботов весь интернетЭтот "наш век" продлится ровно до краха очередного IT-пузыря. Когда основателей стартюпов на тему "мы разрабатываем систему ИИ" охрана инвестфонда будет выкидывать на мороз - сразу всё буйство ботов волшебным образом прекратится.
> банить только особо безбашенные ботыС простым критерием - если бот распознаётся как бот, то это безбашенный бот.
ААА, все пропало, гипс снимают, клиент уезжает. Все эти... плохие парни со своими ИИ скоро положат весь интернет. Срочно всех заблокировать!
Хотим мы или нет - ИИ это действительность, сколько угодно можем ворчать, ругаться - ничего от этого не изменится и количества ботов не изменится, а скорее увеличится. Не, есть вариант заблочить всех нафиг, и так каждое утро начинать с этого.
Лет 15 назад была проблема со спамом на почтовиках, не буду вдаваться в подробности, приняли стандарты, приучили всех тех спамеров к порядку - и сейчас все норм. Так и здесь - нужен "стандарт", система.
>Хотим мы или нет - ИИ это действительностьА шо, его таки изобрели уже?
Это всё AI-скрейперы, корпорации тренируют модели нового поколения. Ставьте себе Anubis, его создал хитрый жук, и у него есть ещё и хитрый план: https://github.com/TecharoHQ/anubis/discussions/258#discussi...P.S.: специально посмотрю, удалят ли и этот комментарий, потому, что мои абсолютно безобидные комментарии трут бесжалостно последние полгода как минимум.
> Это всё AI-скрейперы, корпорации тренируют модели нового поколения.
> Ставьте себе Anubis, его создал хитрый жук,Еще не хватало этот квази-майнер ставить, беся пользователей. Осталось еще блин начать майнить на пользователях - и тогда боты вообще станут всячески велкам :). А если удалось задетектить бота - и начать майнить на нем дольше и наглее... ммм... так можно и подзаработать даже. На ботах. Если они сдуру JS отрастят.
Альтернатива? Критиковать-то мы все горазды. Я лично знаю только три: 1. опять чёрные/белые списки, и в итоге туда попадают вообще невиновные; 2. опять капча; 3. платить денюжку. Я уж лучше подожду пока меня Анубис пустит.
> Альтернатива? Критиковать-то мы все горазды. Я лично знаю только три: 1. опять
> чёрные/белые списки, и в итоге туда попадают вообще невиновные; 2. опять
> капча; 3. платить денюжку. Я уж лучше подожду пока меня Анубис пустит.Я лично просто вкатил request rate limits на "проблемные" AS. Благо их не особо много, в основном китайцы, и в основном с откровенно "хостинговых" диапазонов. И как только начинают наглеть - самозабаниваются. Можно сделать и на уровне вебсервера, и на уровне фаера.
А плач этого анубиса про боты с рандомных айпишников - фигня. Я вижу вполне конкретные фирмы и их хостинговые AS в большей части запросов. Потому что выискивать по помойкам левые проксики это все же гемор и стоит денег. Фигарить оптом с своих серваков - проще.
Аутентификация парой ключей, секретный выдаётся по паспорту.
Anubis - это гадость, не пускает на сайт Гнома.
Откройте https://gitlab.gnome.org/GNOME/gtkmm-documentation/tree/mast.../Вот что он пишет:
"Making sure you're not a bot!
Calculating...
Difficulty: 4, Speed: 0kH/s
Why am I seeing this?
Protected by Anubis from Techaro. Made with ❤️ in 🇨🇦."И всё, не пускает.
Включи жабоскрипт
Да, наверняка нет жабоскрипта и куки напрочь отключены. Хардкор, короче.
Всё включено. Просто виснет
пустило же
Какой браузер? У меня даже на древнем планшете с Android 5 открывается в Fennec, пусть и с тормозами, а на домашнем компе вообще за 2 сек.
Яндекс Бр. Из Андроида открывает, а из Linux - нет
С васянофорками всегда только проблемы. Не надо ими пользоваться.
Открывается из IOs, Safari.
И из iPhone, Safari.
>Anubis - это гадость, не пускает на сайт Гнома.Какая кавайная капча \>_</
> Anubis - это гадость, не пускает на сайт Гнома.
> Откройте https://gitlab.gnome.org/GNOME/gtkmm-documentation/tree/mast.../Вот отлично гнумно решило самозабанить гиков с своего сайта. Пусть умрут жестокой смертью.
Банишь все ASN с type == Hosting и наслаждаешься тишиной на сайте :)
не все боты живут на бесплатных фермах гугл лабс и амазон.
некоторые уже построены на ботнетах из роутеров и камер с уязвимостями.
Вы таких от обычных пользователей только по поведению самого юзер-агента можете отличить. Идея (под)резать ASN откуда не будет стучаться злой на медленную закачку клиент намного адекватнее звучит, чем превращать свой сайт в неиндексируемую помойку из белых страниц с ссылками на js.
Поинтересуйся сколько стоит residential proxy. Их на вес продают. Поэтому что-то там по ASN фильтровать — только память под фильтр впустую тратить. Скрейпинг не вчера в openai придумали, с этой ветряной мельницей интернет борется уже десятилетия.
Иди с такими предложениями, ты так пользователей с впн отрежешь, а им почти все пользуются сейчас, по понятным причинам
> может быть занесён Google в чёрный список
> и начнёт помечаться вредоносным в браузере Chrome с включённым режимом
> "Safe Browsing".Так это ж вообще не баг а фича. Банит с сервера не только ботов - но и иди0тов с "safe" browsing от spyware corp.
Я так понимаю речь идёт о конторе Netcup которая долбит тысячами запросов в секунду с разных ipv6 на сайты которые закрыты через клаудфларе.
Вопрос, кто тут еще самый умный буратина:
админы домашнего локалхоста, которые зачем то выпустили свою тушку наружу, без защиты соединения из трех буков,
или админы вебсерверов, получающих за это зарплату, но почему то до сих пор не внедривших защиту от ботов, или не переехавших к надежному хостеру с защитой.
Ты из каких будешь? Или продавец платных защит от хостера?
"Во время золотой лихорадки выгоднее продавать лопаты".
и что.. ну умрет один fork у бота, ядрое его пристрелит. дальше то все по прежнему будет работать
а почему бы не переключать их на dev/random ?
Читать дев рандом и отдавать клиенту - проигрышно по ресурсам, по сравнению с затратами клиента. Сервер выполнит в 2 раза больше работы, чем клиент.
Какие цели у вашей идеи? Чтобы было прикольнее?
> а почему бы не переключать их на dev/random ?Зазипуй выдачу из /dev/random (на сколько терпения хватит) и сравни размер зипа и оригинала. Потом зазипуй выдачу /dev/zero и тоже сравни размеры.
Чтобы создать /dev/random, нужно куда больше процессорных мощностей чтобы создать /dev/zero.Зачем тебе это.
Каждое поколение обречено придумывать зип бомбы вновь и вновь.
Не кэширование ответов бэкэнда, не рейтлимиты, нет.Горе-админам (я так понимаю, админы этого сайта тоже к ним относятся) надо себя спросить, что они будут делать, если на их сайты вдруг случайно начнет ходить больше людей. Будет нагрузка 100-1000 rps (вместо привычных 0-1) в зависимости от времени дня. Что тогда? Тоже зип бомбы?
Нули в гзипе никто дочитывать не будет и одним куском в память класть тоже. Некоторые шансы на краш есть только когда ответ мимикрирует под нормальные данные и доходит до парсера html и выполнения JS. Само сырье в гзипе для этого не обязательно большое (я использовал меньше гига). Чем скорее полезная^Wвредная нагрузка попадет на обработку, тем лучше.
Не любой код на JS кладет клиенты. Лучшие результаты наблюдались с вечными циклами, заполняющими планировщик. Складывало даже довольно мощные машины в глухое зависание с перезагрузками по питанию.
> Будет нагрузка 100-1000 rps (вместо привычных 0-1) в зависимости от времени дня. Что тогда? Тоже зип бомбы?Тогда можно денег зарабатывать в 100-1000 раз больше, а значит можно больше платить хостеру за железо. Оплачивать же железо, чтобы боты могли бы его гонять никто не хочет.
> Нули в гзипе никто дочитывать не будет и одним куском в память класть тоже.
1. Откуда ж ты знаешь?
2. А если браузер столкнётся с http контентом, который начинается с мегабайта нулей, что он будет делать? Скипнёт нули? Отличный способ защитить контект от ботов. Бот небось после первой сотни килобайт оборвёт соединение. Превосходно: можно не обращаться к бд и в целом не заниматься генерацией ответа.
Порадовали рассуждения ботовладельцев о детектировании зип-бомб.
А кто сказал, что зип-бомба может быть только из /dev/zero и выдаваться только в ответ на запрос html-документа? А картинку дофигалиард на дофигалиард белых пикселей не хотите? А PDF с такой картинкой? А нескончаемый лайвстрим радикального чёрного цвета HD/UHD? А вы не забыли про модный нынче подход к созданию сайтов, когда сервер отдаёт html-документ без контента, но с жабаскриптом, который скачивает и отображает контент? Там серверу и отдавать мегабайты сжатых нулей не надо - жабаскрипт сам на месте всё сделает. И вместо урожая данных хозяин бота получит записи в логе о прибитом ООМ-киллером безголовом хроме. И так далее, и так далее...
Какая-то чушь, если честно. У воркера вполне ограниченные ресурсы на работу и он не станет долбиться вечно. Если что не так, добавляем сайт в чёрный список и удаляем из выдачи. Чтобы вернуть, платите деньги потом.
А ведь корпы могут позволить себе перераспределить немного ресурсов, чтобы долбить умников посильнее. Ещё в большем минусе останутся.
> удаляем из выдачиТоварищи санитары, тут скрипткидди возомнил себя Гуглом.
То-то и оно, детишкам подгадить сможешь чуть (которые и не могли быть проблемой), зато следом прилетит сполна. Вполне по заслугам.
> рассуждения ботовладельцев о детектировании зип-бомбЧто ты можешь знать о ботовладельцах, создающщих серверы на неттопах c Avito.
Можно стстистические справочники отдавать,в селичинами подкорректированными процентов на 20 в произвольную сторону. Чтоб у них нейронки галлюцинировали.
> Можно стстистические справочники отдавать,в селичинами подкорректированными процентов
> на 20 в произвольную сторону. Чтоб у них нейронки галлюцинировали.Ну нейронка пока что не очень умная.
Из диалога с GPT, понял что она выдает мне ответы которые я хотел бы услышать.
Потому как если начать уточнять, начать туда сюда вокруг термина вопорса, то ответы GPT, меняются. И могут быть каардинально противоположные, главное чтобы пользователю нравится.А так же замалчивание потенциально правильных ответов, иногда. Тоесть когда 1 или 2, а ответ, решение в 3 м.
О нет, вы догадались о страшнейшей защите от ботов, перед которым дрогнет любой CDN. О нет, я не могу раскрыть корпоративный секрет, что таким простым способом вы сможете справится самостоятельно. Вот чёрт, я проболтался
Есть и другие способы.
Делаем TLS сертификат с RSA на 16384 бита, форсим connection close и всё :)
> Есть и другие способы.
> Делаем TLS сертификат с RSA на 16384 бита, форсим connection close и всё :)И наслаждаемся CPU в полку у сервака? Самоуничтожение цели конечно валидный вариант, и боты обломаются, если сервак слишком занят считая хендщейки, но....
А если вы думали что у вон того датацентра откуда боты лезут меньше вычислительных ресурсов чем у вас - это совсем не факт.
Просто несимметричную задачу на 5 секунд. Типа запрос на человека появляется только после решения этой задачи.
Бот Просто организует исключение на размер ответа.
Ну можно зашифровать, zip бомбу, под нечто стандартное.
А если исключить шифования, то многие мессенджеры, например используют шифрование, конфедициальность данных.
Кстати , тут промелькнула здравая идея - вместо зип-бомб отдавать про то, что: Американцев не было на луне ,ВИЧ - был разработан ЦРУ , про прикладную эфиродинамику и всемирный заговор релятивистов, про то, что масоны заставили Рузвельта плыть по канализации в рамках обряда инициации, от чего он и захворал поиломелилитом . В общем, всю чушь, Весь СПИД-инфо - чтоб нейросети натренировались на всякой гадости..
было уже.
иначе почему нейронки генереруют тебе глупые ответы, а не правильные?
> чтоб нейросети натренировались на всякой гадости.Нейросети не тренируются на этой гадости, они берут информацию из источников которые ты не можешь редактировать.
Только если GPT, выдаст тебе ссылку на сайт. Но не сама модель GPT.
Легче просто отдавать им идеалы коммунизма. Может чему и научаться :)
> отдавать им идеалы коммунизма.Бесплатная газировка, все дела.
> , про прикладную эфиродинамику и всемирный заговор релятивистов, про то, что
> масоны заставили Рузвельта плыть по канализации в рамках обряда инициации, от
> чего он и захворал поиломелилитом . В общем, всю чушь, Весь
> СПИД-инфо - чтоб нейросети натренировались на всякой гадости..А за трафик вы будете платить? Тогда любой каприз за ваши деньги. Этот ваш спидинфо сжимается намного хуже чем нулей пачка. А с нулями - налил гаду мег, а он жует цать гигов, и посмотрим как ему столько проца и оперативы на процессинг ЭТОГО :)
Следующим этапом, в новостях:>Владельца сайта судят за несанкционированный доступ к компьютерной информации. Его сайт отдал боту эксплоит, владелец бота оценил ущерб в олимпиард.
Что только не придумают, лиж бы не учится...
-A INPUT -p tcp --dport 80 -m limit --limit 25/minute --limit-burst 100 -j ACCEPT
>--dport 80Так только себя можно заблочить.
> Так только себя можно заблочить.Это пример ! "Dont try at home" А себя надо всегда ставить чуть-чуть выше в правилах ;)
Мой бот прямо сейчас качает сайт какой-то местечковой продуктовой сети, вместе со всеми ассетами, с 400 _разных_ айпи-адресов, принадлежащих каким-то людям проживающим в том регионе. Качается сайт с понедельника по несколько часов в день, к воскресенью должен уже закончить. Сайт за CloudFlare, кстати (это к впросу об эффективности противодействия). Ни один айпишник не был забанен и не упёрся в капчу. С такими лимитами как у тебя я бы и быстрее управился наверное.
А зачем это качать?
> А зачем это качать?Ему наверное интересно - сможет он одним ботом задолбать целый клаудфларь? А таки - не сможет. Клаудфларь 400 конекций как-нибудь переживет.
Клаудфларь задолбать так же просто, как её не задалбывать. Это совершенно не интересно. Я это делаю за деньги.
Конкурирующая сеть заплатила за слив каталога и апдейт инфы в течение полугода.
> Качается сайт с понедельника по несколько часов в деньДа проблема не скрeйперах, если они не чокнуто-агрессивные, а по большей части "секьюрити" анализаторы (или наоборот, те самые которые прикидываются) ломящиеся с AWS, Azure и GCP.
А если бот не распаковывает? А если бот достаточно умный, чтоб проверить степень сжатия, напр? А если бот просто игнорирует сжатые файлы? Тогда что?