URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 138300
[ Назад ]

Исходное сообщение
"Google опубликовал Magika 1.0, инструментарий для определения типа содержимого файлов "

Отправлено opennews , 07-Ноя-25 14:28 
Компания Google представила релиз инструментария Magika 1.0, предназначенного для определения типа содержимого на основе анализа имеющихся в файле данных. Magika может точно определять в содержимом используемые языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки, форматы звука, видео, документов и изображений. Связанный с проектом инструментарий и готовая модель машинного обучения распространяются под лицензией Apache 2.0. Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go...

Подробнее: https://www.opennet.me/opennews/art.shtml?num=64201


Содержание

Сообщения в этом обсуждении
"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 14:28 
Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

> Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go.

Хорошо, что сишные программы такой мусор юзать не будут.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено НяшМяш , 07-Ноя-25 15:07 
Интересно, что гугл на это даже ответить попытался: https://securityresearch.google/magika/additional-resources/...

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Bob , 07-Ноя-25 15:11 
Максимально оптимизируют, ибо всетмощности надо под ИИ освобождать. Ту же Гемини и чё там ещё понавыпускали.

Анализирця и обучаясь на файлах со своего диска и прочих сервисах.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 15:59 
File такая кривая дрянь что это уже не смешно. Даже распознавание zip файлов регулярно ломают. Если хотя бы будет работать, то 200 мегабайт не жалко.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:09 
https://github.com/horsicq/Detect-It-Easy?tab=readme-ov-file

Вот еще хороший вариани.

А пихать нейронку в этот тип софта - та еще затея.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:09 
> отличается применением методов машинного обучения

Ого, т.е. будут галлюцинации и ложные результаты.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:23 
> Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

На основании чего такие "чувства"? Увидели фразу "машинное обучение" - и дальше все как в тумане?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:59 
Если ты настолько несведущ в слабых сторонах ИИ, то лучше тебе вообще эту тему не комментировать.
ИИ хорош только как помощник человека. Финальное решение должен делать ТОЛЬКО человек, ибо ИИ неспособен В ПРИНЦИПЕ объяснить свои выводы. Так что да, когда слышу применение ИИ, "дальше всё как в тумане" - у применятелей ИИ.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 21:11 
> Если ты настолько несведущ в слабых сторонах ИИ

Хотелось бы услышать конкретику в контексте сабжа.

> Финальное решение должен делать ТОЛЬКО человек

Ну так сиди парси файлики вручную в HEX-редакторе. Разае сабж тебе мешает это делать?

> неспособен В ПРИНЦИПЕ объяснить свои выводы

Я хз, к чему ты приплел необходимость "объяснять", но вообще-то уже давно существуют "рассуждающие" ИИ, которые могут тебе дать буквально пошаговую цепочку своих рассуждений, из которых вытекает вывод.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:34 
> Уже чувствую
> мусор

Окрестили софт мусором на основе своих "чуств"? Ну, это качественная опеннетная экспертиза.

> Хорошо, что сишные программы такой мусор юзать не будут.

А что за сишные программы?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:46 
> А что за сишные программы?

Которые CVE производят.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:56 
>> А что за сишные программы?
> Которые CVE производят.

А, понятно. Ну, главное, что они "Растовый мусор" не используют. С CVE-то мы всегда жили, а вот с Растом - погибель...


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Хлебан , 07-Ноя-25 14:34 
А вот интересно, что произойдет, если этот определитель типа начнет бредить (или как еще аккуратно говорят, галлюцинировать)? Какой простор для творчества вирусописателей.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Жор , 07-Ноя-25 14:45 
Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:11 
> может просто ошибиться

Супер! Ошибётся, запустит гифку и сломает систему.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено 12yoexpert , 07-Ноя-25 16:57 
так это совсем другое дело

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:00 
> Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации

Нейронке не обязательно быть генеративной, чтобы галлюцинировать. "Галлюцинирование" в контексте нейронок - это когда мизерные различия входных данных приводят к разным результатам.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:01 
Меня всегда озадачивают люди типа тебя, которые вдруг придумывают своё собственно определение для термина, и совершенно безосновательно утверждают, что это единственно верное утверждение. Что интересно вас сподвигает на такое поведение? Считаете ли вы его нормальным и допустимым в приличном обществе, или делаете это ради троллинга?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 14:49 
> А вот интересно, что произойдет, если этот определитель типа начнет бредить

Забавно, как люди одним вопросом показывают свою полнейшую некомпетентность в вопросе.

Такая нейронка не может галючинировать. Вы можете попробовать подобрать содержимое файла так, чтобы она ошиблась. И... на этом все. Точно также вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты автоматического детекта типа.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 15:29 
> вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты

И как вы это себе представляете? Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов? Как вы собираетесь "вводить в заблуждение" инструменты, если они определяют тип файла тем же способом что и программы которые собственно работают с этими файлами — по их структуре?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 18:13 
Например, есть такой контейнерный формат ISOBMFF, который используется в MP4, JPEG2000, MJPEG, FMP4. В теории можно использовать атомы одного типа в файле другого, чтобы заставить подобные штуки ошибиться.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:10 
> Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов?

А это очень интересный вопрос. Если, допустим, у меня есть покоцанный zip архив с винрарным содержымым. Он покоцан до уровня, когда ни одна реализация zip не может его распаковать. Будет ли правильно называть этот файл zip-архивом или бессмысленным набором байтов?

Ответ наверное зависит от целей, например если я пытаюсь данные восстановить с порушенной файловой системы, выудил оттуда цепочку инодов, и пытаюсь понять что там, то было бы неплохо узнать, что это японский текст в utf8, даже если начало текста не найдено на диске. Или узнать о том, что это zip-архив. Пускай покоцанный, не все его иноды найдены, но они может найдутся ещё, а я уже сейчас знаю что это. Может я даже какие-то блоки смогу разжать и глянуть, что внутре?

С другой стороны, эта теория о том, как лучше утилите поступать зависит от целей, страдает от того, что мне не придумать применения этой утилите, когда будет лучше, если она про покоцанный файл скажет "бессмысленный набор байт" чем "zip-архив". У тебя есть идеи, когда так будет лучше?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено devl547 , 07-Ноя-25 18:01 
>вирусописателей

Квайн-вирусы?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 14:37 
> Magika is used at scale to help improve Google users' safety by routing Gmail, Drive, and Safe Browsing files to the proper security and content policy scanners
> improve Google users' safety

Верим?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено ryoken , 07-Ноя-25 14:45 
Гуглу-то..?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Bob , 07-Ноя-25 15:20 
Это пресс релиз - для колхозников (юзеров гугла). Дачники (думающее) - идут мимо)

Копирайт по медиа, кряки с кейгенами по софту, дообучение своего ИИ на файлах юзеров.

Зачем вести базу "небезопасных" сайтов, если их можно сразу репортить хостеру и говорить: сноси или с выдачи уберём уже тебя)

С файлами - не всё так просто. Есть 100% вирусы, общеизвестные. А есть параноидальная шиза на любой ехе, bat, sh и т.п. файл. Ибо юзер не планктон и посмел что-то накодить или такое качнуть.

Доходит до идиотизма, когда самопальный ps или bash скрипт гугл диск как "опасный" определяет, а он пингует инет по ipv4 / ipv6 и меняет dns на гугловский)


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним10084 и 1008465039 , 07-Ноя-25 15:16 
Утилита file больше не нужна, получается?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 18:34 
Зато нужна GTX100500 LLM и проц помощнее.
Ну и скажут тебе примерно тоже самое - "это файл, но это не точно" )

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:22 
> Зато нужна GTX100500 LLM и проц помощнее.

Тем временем в новости:

"После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU"


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:08 
> Тем временем в новости

Нет времени читать!
Комментировать нужно!


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено BrainFucker , 07-Ноя-25 21:16 
> После загрузки модели время формирования вывода составляет 5 мс
> После загрузки модели

Померил утилиту file, результат примерно тот же, только время на загрузку модели тратить не надо.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:36 
> Утилита file больше не нужна, получается?

Нужна, конечно, как и детерминированный алгоритм, а не вот это вот "ой, не знаю, почему такое расширение, такая модель..."


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 15:29 
а в чем была проблема юзать binwalk? он даже на их любимом расте переписан

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 15:32 
Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули, почему бы из них хоть каплю пользы не выдоить для сабжа и подобных задач?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:38 
> Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули,
> почему бы из них хоть каплю пользы не выдоить для сабжа
> и подобных задач?

Молодой человек, не нужно таких вопросов задавать. Производители процессоров волнуются. А вообще пройдите в эту комнату, да тут не ловит телефон, не волнуйтесь.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:16 
Абсолютно не нужный мусор существующий только из-за искусственного поддержания пузыря в IT. Подобный софт давно существовал и без всякого псевдо-"ИИ".

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:30 
Напоминаю, что magicka работает через откусывание от файла блока из начала, конца и середины. То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть, при этом это нейронка, то есть не строгий алгоритмический парсинг, какой используется в реализациях, а штука, которой можно подсунуть adversarial куски, но при этом строгим парсером они всё равно будут парситься как надо. По-настоящему любой формат детектится только через попытку парсинга. На практике надо тип файла детектить по расширению, если контейнер - то парсить контейнер тоже, если тип запрещён - то ффтопку, если выглядит не запрещённым - то парсить безопасным парсером. Если не парсится - то ффтопку, если парсится - значит тот тип, что написан в расширении (даже если это химера). Либа имела бы существенную ценность для реверсинга, если бы была трансформером на индивидуальных битах и выдавала бы не тип файла, а тип данных (тип компрессии или кодировки, тип инта или тип флоата), а так это просто кусок хайпожорного дерьма, который на практике бесполезен.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:37 
> То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть

Так можно обмануть любой алгоритм определения типа файла. Хз, что ты хотел этим сказать.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:44 
>> То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть
> Так можно обмануть любой алгоритм определения типа файла. Хз, что ты хотел
> этим сказать.

Очевидно, что на хрусте сделали снова ненужное.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:25 
Нет, обмануть сочетание расширения и структуры - нельзя. Расширение тебе говорит, что ты ожидаешь в файле найти. А парсер тебе говорит, нашёл ли ты именно то, что ожидаешь. И не используйте говнософт, который гадает, вместо того, чтобы полагаться на идентифкаторы. Особенно держитесь подальше от ImageMagick.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:53 
Зашли с коллегой на их сайт в раздел DEMO
Файл a.sh (UTF-8) с содержимым что-то типа "sudo <cmd> <cmd params>".
Строк 4-5, ничего специфического.
Определило как "Batch" (виндовый .bat) и выдало score = 87%

Как-то несолидно


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Мемоним , 07-Ноя-25 17:00 
> Sudo for Windows is a new way for users to run elevated commands (as an administrator) directly from an unelevated console session on Windows.

А в Powershell давно есть алиасы для всяких cp/mv/rm. Так что не все так просто.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 17:05 
> Magika может точно определять

Сказал - сделай )


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 17:17 
Поочередно кинул три файла Гимпа в формате xcf с какими-то своими каляками.
1) wav 19%, tiff 9%, psd 9%, vba 5%, hlp 5%
2) tar 21%, pebin 9%, mp3 6%, psd 6%, tiff 5%
3) wav 24%, hlp 16%, tiff 13%, jpeg 3%, psd 3%

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:12 
> Поочередно кинул три файла Гимпа в формате xcf

Так это и не удивительно.
Они скорее всего и не обучали сетку на каком-то маргинальном формате, который используется только в одной васяно-софтине.
Попробуйте на чем-то нормальном, напр. на файлах photoshop :)


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 21:04 
Вот и всё, что нужно знать о "нейронках". :)

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:26 
А теперь давай выкладывай свои каляки...

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:13 
Вряд ли они в проде используют прям тоже самое.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 17:04 
> Magika может точно определять

Спорим ? )


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 17:34 
Спорь!

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 18:40 
А вы знаете значение слово "точно" ? (это анониму выше)

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 17:33 
А что если определяя что файл это картинка она заодно отправит на аналог вирустотала для проверки на мыслепреступление?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 18:14 
Раст победил! Даже гугл отказался от go ради Раста! Только бездари не умеют в Раст. Где нужно думать головой, а не жо...й.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:33 
Жду, когда выпустят новую программу dir, которая отображает список файлов и директорий. Естественно нужно ,чтобы эта программа была обязательно на искусственном интеллекте и обучалась на типичных домашних каталогах пользователей.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено аролп5 , 07-Ноя-25 19:52 
Это будет клиент, который будет в Майкрософт отправлять ваши файлы, анализировать и сообщать клиенту, директория это или файл )))

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено аролп5 , 07-Ноя-25 19:51 
"The client and the bindings are already open source, and more is coming soon!" Не понял, этой штуке что ли стабильный канал интернета нужен будет для работы?!

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено ProfessorNavigator , 07-Ноя-25 19:58 
> Задействование методов глубокого машинного обучения

А что, бывают ещё методы "мелкого" машинного обучения?))


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:17 
> А что, бывают ещё методы "мелкого" машинного обучения?))

Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено ProfessorNavigator , 07-Ноя-25 20:33 
>> А что, бывают ещё методы "мелкого" машинного обучения?))
> Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.

А с какой величины заканчивается мелкое и начинается глубокое?))



"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 21:06 
Мне вот "глубокое" по ___й, а вам по колено будет :)

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:06 
"В Google система (magika) используется для классификации файлов в сервисах Gmail, Drive ..."

Подсматривать нехорошо


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 21:06 
Нехорошо. Но это если всем об этом рассказывать.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:17 
Прям запах свободы и демократии.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:16 
Но есть и плюс: можно создать нужный тебе "профиль" в гугле просто загружая нужную инфу.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:20 
> На MacBook Pro (M4) производительность движка позволяет обрабатывать около 1000 файлов в секунду.

Это данные для блондинок? Может стоит написать параметры железа на тестах и тестовые данные дать, чтобы можно было желающим прогнать не на макпукпро? Не серьезно.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:30 
> Изначально проект развивался на языке Python, но при подготовке релиза 1.0 движок для определения типов контента был переписан на языке Rust, что позволило добиться более высокой производительности, сохранив должный уровень защищённости кода.

Ловко сформулировано:

> сохранив должный уровень защищённости кода

То есть код на питоне безопаснее? Тут не спорим.

> что позволило добиться более высокой производительности

Какой? К сожалению никто не ответит, да и зачем манагерам лишать себя премии за ненужные переписывания. Такого ведь никогда не было. Ведь правда?