URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 133510
[ Назад ]

Исходное сообщение
"Релиз инструмента для анонимизации баз данных nxs-data-anonymizer 1.4.0"

Отправлено opennews , 24-Апр-24 14:03 
Опубликован nxs-data-anonymizer 1.4.0 - инструмент для анонимизации дампа баз данных PostgreSQL и MySQL/MariaDB/Percona. Утилита поддерживает анонимизацию данных на основе шаблонов и функций библиотеки Sprig. Среди прочего, для заполнения можно использовать значения других столбцов для той же строки.   Допустимо использовать инструмент через неименованные каналы (pipe) в командной строке и перенаправить дамп из исходной БД непосредственно в целевую БД с необходимыми преобразованиями. Инструмент написан на языке Go и  выпускается под лицензией Apache License 2.0...

Подробнее: https://www.opennet.me/opennews/art.shtml?num=61062


Содержание

Сообщения в этом обсуждении
"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 14:04 
Для непросвященных - какая область применения? Нутром чую что где-то кому-то такое надо. А вот кому и в какой ситуации - ума не приложу.

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 14:18 
> Для непросвященных - какая область применения? Нутром чую что где-то кому-то такое
> надо. А вот кому и в какой ситуации - ума не
> приложу.

Например если ты должен провести анализ базы, а допуска у сотрудника нету.
Просто анонимизируешь и с чистой совестью отдаешь.
Примерно такая же ситуация на аутсорсе.


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено КО , 24-Апр-24 15:09 
И что он там будет анализировать без переменных?

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 16:15 
Все переменные на месте. А вот значения переменных подменяются случайными строками так, чтобы программный код, использующий базу данных мог работать с базой как с настоящей.

Анализировать можно скорость и эффективность работы с базой. Могут быть задачи по описанию бизнес логики предприятия (да, так бывает, что не могут понять точно кто что зачем делает на предприятии и нанимают аудит для наведения порядка). И самое очевидное: нанятый разработчик, без доступа к реальным данным, пишет и отлаживает какую-либо программу, использующую базу данных.


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 16:45 
Мда, рекомендую взглянуть на процессы The Libertators. Там два мужика разрабатывают методологии для компаний и их изучают. Довольно неплохие иллюстрации делают для этих процессов.

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 17:15 
А как это гуглить? Куда глядеть?

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 21:02 
https://theliberators.com/
Внизу ссылка на их соцсети, где follow us написано. Я лично смотрю их канал через LinkedIn, но насколько я понял у вас он запрещён (что наверно верное решение). Но там есть выбор и насколько я понимаю они на курсах зарабатывают.

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 21:20 
Вот я например открываю их medium и одна из первых статей:
  Секретный соус успешных инициатив по изменениям
https://medium.com/the-liberators/the-secret-sauce-of-succes...

Правда у них были и более сильные статьи. Если постоянно читать, можно много интересного почерпнуть.


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 21:35 
Или вот: Раскройте Scrum в своей организации с помощью нашего нового комплекта
https://medium.com/the-liberators/unleash-scrum-in-your-orga...
Просто гляньте на картинку что делает скрам успешным. И вот у них таких иллюстраций интересных много.
Если понять эти процессы, то продуктивность можно существенно повысить. Но есть небольшой нюанс — хорошие менеджеры организовывают работу так что команда/ы начинают развиваться самостоятельно и в какой-то момент они становятся не нужны. Но сокращение такого менеджера будет ошибкой, так как процессы периодически требуют корректировки — проверенный факт. В целом менеджмент/синьеры-лиды на постсоветском пространстве это мрак и ужас, потому что этому тоже нужно учиться и много, а это только один из источников я описал.

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 16:09 
> Для непросвященных - какая область применения? Нутром чую что где-то кому-то такое надо. А вот кому и в какой ситуации - ума не приложу.

В тестировании и отладке. Из продуктива берутся реальные данные, анонимизируются и отдаются тестировшикам. Автоматические тесты работают с такой копией. Данные из такой копии можно для примера отдавать разработчику для работы над найденными багами.

Разработчики бывают из другого юр.лица. Т.е. совсем посторонние.

В банках распространено, например.


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 20:14 
Не проще ли тогда тупо СГЕНЕРИРОВАТЬ фэйковую базу и отдать?!

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 21:07 
Потому что в реальной базе иногда могут случаться такие комбинации данных, который ни один генератор или ИИ не нагенерит.. и именно на таком сочетании оно делает кряк, и не работает.. База данных это врядли одна плоская табличка которую фором из дев рандома набил и готово. там связи и иногда не очевидные.

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Фняк , 24-Апр-24 23:04 
Если было бы проще, все бы так и делали. А на деле это нифига не просто сделать такую базу чтобы данные статистически не сильно отличались от реальных, чтобы не создавались невозможные комбинации данные и при этом воспроизводились странные ситуации когда часть записей создавалось в одной версии системы, часть в другой, а обрабатываются они третьей версией

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 25-Апр-24 15:21 
> Не проще ли тогда тупо СГЕНЕРИРОВАТЬ фэйковую базу и отдать?!

Это невозможно сделать надёжно.

Т.к.

- программируют максимально дёшево, максимально быстро,
- люди приходят и уходят,
- через некоторое время стоимость надёжного генератора тест-базы с нуля становится ооочень высокой, слишком много человеко-часов нужно на обратный инженеринг программного кода, когда множество авторов измений которого давно ушли.

Самое обычное в крупном бизнесе.


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 25-Апр-24 15:43 
> слишком много человеко-часов нужно на обратный инженеринг программного кода, когда множество авторов измений которого давно ушли.

Так у них, что, документации нет как факт, на собственно генеренный код?


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено нах. , 24-Апр-24 23:23 
> Разработчики бывают из другого юр.лица. Т.е. совсем посторонние.

как будто своим кто-то доверять собрался. Ты на их рожи протокольные глянь - я всегда когда к ним иду, мобилу в стол прячу.

А то отвлекут и не заметишь как сперли.

А тут база с реальными деньгами и номерами. Да кто ж им дасть-то...


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено нах. , 24-Апр-24 17:21 
> Для непросвященных - какая область применения?

ну это когда начальнега говорит - сдампи продовую базу и отдай разработчикам, пусть у себя на стенде ищут что вчера поломали. Только удали из нее персональные данные и все емейлы замени на devnull@localhost

А ты sed'ом пользоваться не умеешь...


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 20:16 
Да никакая, тупо баловство!

Хочешь сделать "анонимную" базу - да тупо сгенери фэйковые записи, зачем ещё влезать в продакшен базу?!!


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено нах. , 24-Апр-24 23:21 
патамушта на фейковых трех записях все работало, тут ровно, тут выпирает, как в ТЗ.
А на нефейковой терабайтной ой.. упало. Ашипка-ашипка насяльника.


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 25-Апр-24 15:44 
А еще есть вариант, когда ты накатываешь данные из "анонимизатора",
и внезапно все начинает работать, как требуется.

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Аноним , 24-Апр-24 14:42 
еще мы пользовались таким вариантом когда нужна реальная база с прода, но мы не хотим чтобы она както пересекалась с реальными данными и там не сработали дублирующие нотификации в виде отправки email

несколько раз тоже нужно было заменить клиентские данные чтобы можно было отдать на тест запросов для новичков для практики написания sql запросов (когда локально, у меня ничего не тормозит, а на проде джойн долго отрабатывает)


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Хухрымухры , 24-Апр-24 14:46 
Пример бы где-то глянуть.

Типа дамп до и после.


"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено nixys , 24-Апр-24 14:59 
В репозитории описали пример до\после, скрипты тоже описаны: https://github.com/nixys/nxs-data-anonymizer?tab=readme-ov-f...

"Релиз инструмента для анонимизации баз данных nxs-data-anony..."
Отправлено Электрон , 26-Апр-24 07:08 
Инструмент... скорее фреймворк. Анонимизация - это алгоритмы, а не "вот вам ручка, там как-нибудь сами напишите рандомизацию".

Именно анонимизировать данные - очень сложно. Уверен, у каждой большой компании на эту тему были статьи или проекты. Помню статью Яндекса на Хабре, там какой-то тестовый датасет готовили.

Пример из жизни: Web of Trust (mywot-com) "закончился" после того, как журналисту вместе со спецами удалось соотнести "анонимизированные" данные, которые, как оказалось, WoT собирал и продавал, с данными из других маркетинговых источников, для определения полицейского в датасете. Так как аудитория у WOT была повернутая на безопасности-приватности, то исход пользователей был массовый. WOT пришлось сделать ребрендинг, как у них сейчас дела - не знаю.

Это еще не говоря о расширенном "OSINT", который в т.ч. включает в себя анализ маркетинговых трекинговых данных. Соотнеси несколько "анонимизированных" источников и получишь что надо. Но для галочки и законодателей хватит.