The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Google опубликовал Magika 1.0, инструментарий для определения типа содержимого файлов "
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Google опубликовал Magika 1.0, инструментарий для определения типа содержимого файлов "  +/
Сообщение от opennews (??), 07-Ноя-25, 14:28 
Компания Google представила релиз инструментария Magika 1.0, предназначенного для определения типа содержимого на основе анализа имеющихся в файле данных. Magika может точно определять в содержимом используемые языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки, форматы звука, видео, документов и изображений. Связанный с проектом инструментарий и готовая модель машинного обучения распространяются под лицензией Apache 2.0. Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go...

Подробнее: https://www.opennet.me/opennews/art.shtml?num=64201

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Аноним (1), 07-Ноя-25, 14:28   +4 +/
Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

> Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go.

Хорошо, что сишные программы такой мусор юзать не будут.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #13, #16, #23, #24, #42

5. Сообщение от Хлебан (?), 07-Ноя-25, 14:34   +/
А вот интересно, что произойдет, если этот определитель типа начнет бредить (или как еще аккуратно говорят, галлюцинировать)? Какой простор для творчества вирусописателей.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #7, #10, #36

6. Сообщение от Кошкажена (?), 07-Ноя-25, 14:37   +1 +/
> Magika is used at scale to help improve Google users' safety by routing Gmail, Drive, and Safe Browsing files to the proper security and content policy scanners
> improve Google users' safety

Верим?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #9, #18

7. Сообщение от Жор (?), 07-Ноя-25, 14:45   +4 +/
Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #25, #29

9. Сообщение от ryoken (ok), 07-Ноя-25, 14:45   +4 +/
Гуглу-то..?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6

10. Сообщение от Аноним (10), 07-Ноя-25, 14:49   –4 +/
> А вот интересно, что произойдет, если этот определитель типа начнет бредить

Забавно, как люди одним вопросом показывают свою полнейшую некомпетентность в вопросе.

Такая нейронка не может галючинировать. Вы можете попробовать подобрать содержимое файла так, чтобы она ошиблась. И... на этом все. Точно также вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты автоматического детекта типа.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #19

11. Сообщение от Анонимусс (?), 07-Ноя-25, 14:53   –6 +/
> Изначально проект развивался на языке Python
> был переписан на языке Rust

Идеальная связка - прототипируем и отлаживаем на интерпритируемом языке. Реализацию пишем на современном безопасном компилируемом языке.

> обеспечивает сканирование нескольких миллионов файлов в секунду
> и нескольких сотен миллиардов файлов в неделю.

Хехе, теперь каждый раз, когда растохейтер будет открывать файлик в гуглдоксе, он будет знать, что файлик был отпроцессен софтиной на расте :)

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #12, #22

12. Сообщение от Аноним (12), 07-Ноя-25, 15:05    Скрыто ботом-модератором+/
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11 Ответы: #14, #15

13. Сообщение от НяшМяш (ok), 07-Ноя-25, 15:07   +/
Интересно, что гугл на это даже ответить попытался: https://securityresearch.google/magika/additional-resources/...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

14. Сообщение от Аноним (-), 07-Ноя-25, 15:08    Скрыто ботом-модератором–1 +/
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

15. Сообщение от Анонимусс (?), 07-Ноя-25, 15:08   –1 +/
> что-то ты рано начал накиды^W разжигать, причем начал первый

Накинули еще в первом сообщении
"Хорошо, что сишные программы такой мусор юзать не будут."


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

16. Сообщение от Bob (??), 07-Ноя-25, 15:11   +1 +/
Максимально оптимизируют, ибо всетмощности надо под ИИ освобождать. Ту же Гемини и чё там ещё понавыпускали.

Анализирця и обучаясь на файлах со своего диска и прочих сервисах.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

17. Сообщение от Аноним10084 и 1008465039 (?), 07-Ноя-25, 15:16   +1 +/
Утилита file больше не нужна, получается?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #39

18. Сообщение от Bob (??), 07-Ноя-25, 15:20   +2 +/
Это пресс релиз - для колхозников (юзеров гугла). Дачники (думающее) - идут мимо)

Копирайт по медиа, кряки с кейгенами по софту, дообучение своего ИИ на файлах юзеров.

Зачем вести базу "небезопасных" сайтов, если их можно сразу репортить хостеру и говорить: сноси или с выдачи уберём уже тебя)

С файлами - не всё так просто. Есть 100% вирусы, общеизвестные. А есть параноидальная шиза на любой ехе, bat, sh и т.п. файл. Ибо юзер не планктон и посмел что-то накодить или такое качнуть.

Доходит до идиотизма, когда самопальный ps или bash скрипт гугл диск как "опасный" определяет, а он пингует инет по ipv4 / ipv6 и меняет dns на гугловский)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6

19. Сообщение от Аноним (19), 07-Ноя-25, 15:29   +/
> вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты

И как вы это себе представляете? Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов? Как вы собираетесь "вводить в заблуждение" инструменты, если они определяют тип файла тем же способом что и программы которые собственно работают с этими файлами — по их структуре?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10 Ответы: #37

20. Сообщение от Аноним (20), 07-Ноя-25, 15:29    Скрыто ботом-модератором+/
Ответить | Правка | Наверх | Cообщить модератору

21. Сообщение от Аноним (21), 07-Ноя-25, 15:32   +1 +/
Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули, почему бы из них хоть каплю пользы не выдоить для сабжа и подобных задач?
Ответить | Правка | Наверх | Cообщить модератору

22. Сообщение от хрустишкапереписишка (?), 07-Ноя-25, 15:36    Скрыто ботом-модератором+1 +/
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11

23. Сообщение от Аноним (23), 07-Ноя-25, 15:59   –3 +/
File такая кривая дрянь что это уже не смешно. Даже распознавание zip файлов регулярно ломают. Если хотя бы будет работать, то 200 мегабайт не жалко.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

24. Сообщение от Аноним (24), 07-Ноя-25, 16:09   +/
> отличается применением методов машинного обучения

Ого, т.е. будут галлюцинации и ложные результаты.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

25. Сообщение от Аноним (24), 07-Ноя-25, 16:11   +1 +/
> может просто ошибиться

Супер! Ошибётся, запустит гифку и сломает систему.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

26. Сообщение от Аноним (26), 07-Ноя-25, 16:16   +3 +/
Абсолютно не нужный мусор существующий только из-за искусственного поддержания пузыря в IT. Подобный софт давно существовал и без всякого псевдо-"ИИ".
Ответить | Правка | Наверх | Cообщить модератору

27. Сообщение от Аноним (27), 07-Ноя-25, 16:30   +1 +/
Напоминаю, что magicka работает через откусывание от файла блока из начала, конца и середины. То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть, при этом это нейронка, то есть не строгий алгоритмический парсинг, какой используется в реализациях, а штука, которой можно подсунуть adversarial куски, но при этом строгим парсером они всё равно будут парситься как надо. По-настоящему любой формат детектится только через попытку парсинга. На практике надо тип файла детектить по расширению, если контейнер - то парсить контейнер тоже, если тип запрещён - то ффтопку, если выглядит не запрещённым - то парсить безопасным парсером. Если не парсится - то ффтопку, если парсится - значит тот тип, что написан в расширении (даже если это химера). Либа имела бы существенную ценность для реверсинга, если бы была трансформером на индивидуальных битах и выдавала бы не тип файла, а тип данных (тип компрессии или кодировки, тип инта или тип флоата), а так это просто кусок хайпожорного дерьма, который на практике бесполезен.
Ответить | Правка | Наверх | Cообщить модератору

28. Сообщение от Аноним (28), 07-Ноя-25, 16:53   +/
Зашли с коллегой на их сайт в раздел DEMO
Файл a.sh (UTF-8) с содержимым что-то типа "sudo <cmd> <cmd params>".
Строк 4-5, ничего специфического.
Определило как "Batch" (виндовый .bat) и выдало score = 87%

Как-то несолидно

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #30, #33

29. Сообщение от 12yoexpert (ok), 07-Ноя-25, 16:57   +1 +/
так это совсем другое дело
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

30. Сообщение от Мемоним (?), 07-Ноя-25, 17:00   +/
> Sudo for Windows is a new way for users to run elevated commands (as an administrator) directly from an unelevated console session on Windows.

А в Powershell давно есть алиасы для всяких cp/mv/rm. Так что не все так просто.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28 Ответы: #32

31. Сообщение от Аноним (39), 07-Ноя-25, 17:04   +/
> Magika может точно определять

Спорим ? )

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #35, #40

32. Сообщение от Аноним (39), 07-Ноя-25, 17:05   +1 +/
> Magika может точно определять

Сказал - сделай )

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #30

33. Сообщение от Аноним (33), 07-Ноя-25, 17:17   +2 +/
Поочередно кинул три файла Гимпа в формате xcf с какими-то своими каляками.
1) wav 19%, tiff 9%, psd 9%, vba 5%, hlp 5%
2) tar 21%, pebin 9%, mp3 6%, psd 6%, tiff 5%
3) wav 24%, hlp 16%, tiff 13%, jpeg 3%, psd 3%
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28

34. Сообщение от Аноним (35), 07-Ноя-25, 17:33   +/
А что если определяя что файл это картинка она заодно отправит на аналог вирустотала для проверки на мыслепреступление?
Ответить | Правка | Наверх | Cообщить модератору

35. Сообщение от Аноним (35), 07-Ноя-25, 17:34    Скрыто ботом-модератором+/
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #31

36. Сообщение от devl547 (ok), 07-Ноя-25, 18:01   +/
>вирусописателей

Квайн-вирусы?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5

37. Сообщение от Аноним (37), 07-Ноя-25, 18:13   +/
Например, есть такой контейнерный формат ISOBMFF, который используется в MP4, JPEG2000, MJPEG, FMP4. В теории можно использовать атомы одного типа в файле другого, чтобы заставить подобные штуки ошибиться.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #19

38. Сообщение от Аноним (38), 07-Ноя-25, 18:14    Скрыто ботом-модератором+/
Ответить | Правка | Наверх | Cообщить модератору

39. Сообщение от Аноним (39), 07-Ноя-25, 18:34   –1 +/
Зато нужна GTX100500 LLM и проц помощнее.
Ну и скажут тебе примерно тоже самое - "это файл, но это не точно" )
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17 Ответы: #41

40. Сообщение от Аноним (39), 07-Ноя-25, 18:40    Скрыто ботом-модератором+/
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #31

41. Сообщение от Аноним (42), 07-Ноя-25, 19:22   +/
> Зато нужна GTX100500 LLM и проц помощнее.

Тем временем в новости:

"После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU"

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #39

42. Сообщение от Аноним (42), 07-Ноя-25, 19:23   +/
> Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

На основании чего такие "чувства"? Увидели фразу "машинное обучение" - и дальше все как в тумане?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру