URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 138840
[ Назад ]

Исходное сообщение
"Выпуск кластерной ФС Lustre 2.17"

Отправлено opennews , 31-Дек-25 11:37 
Опубликован релиз кластерной файловой системы Lustre 2.17, используемой в большей части крупнейших Linux-кластеров, содержащих десятки тысяч узлов.  Ключевыми компонентами Lustre являются серверы обработки и хранения метаданных (MDS), управляющие серверы (MGS), серверы хранения объектов (OSS), хранилище объектов (OST, поддерживается работа поверх ext4 и ZFS) и клиенты.  Код проекта распространяется под лицензией GPLv2...

Подробнее: https://www.opennet.me/opennews/art.shtml?num=64533


Содержание

Сообщения в этом обсуждении
"Выпуск кластерной ФС Lustre 2.17"
Отправлено aname , 31-Дек-25 11:47 
Непонятно, это лучше BTRFS, или нет?

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 31-Дек-25 13:28 
Это другое. Она надстройка над обычными ФС.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено faa , 31-Дек-25 14:20 
Это что-то типа NFS, только круче.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 31-Дек-25 19:56 
Человек попытался объяснить незнайке простыми словами, а другой незнайка обиделся на человека.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 31-Дек-25 14:25 
ZFS Ван лав

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 31-Дек-25 21:30 
Архаика...

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 31-Дек-25 11:55 
Непонятно а как это на локалхосте поднять...

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Фонтимос , 31-Дек-25 12:47 
Если непонятно, значит не нужно

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 31-Дек-25 13:29 
Наделать кучу виртуалок и над ними поднять.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 31-Дек-25 19:42 
и что будет, если одна, или несколько виртуалок будут загашены\выйдут из строя?

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 31-Дек-25 19:58 
Итог будет зависеть от того, как Вы настроите репликацию в Lustre.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено kusb , 31-Дек-25 22:23 
Может быть это нужно только если у тебя в квартире много компьютеров и ты что-то считаешь на них.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено kusb , 31-Дек-25 22:23 
Например облачный кластер на балконе и несколько оптических проводочков идёт к ним.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 01-Янв-26 00:23 
Хранители рутрекера и держатели кластеров редких торрентами поддерживают.    

"Выпуск кластерной ФС Lustre 2.17"
Отправлено torvn77 , 01-Янв-26 13:50 
>Непонятно а как это на локалхосте поднять...

Это имеет смысл только если тебе надо слить в один накопитель несколько накопителей на разных хостах и их так много что тебе их никак не собрать на одном сервере.


"Выпуск кластерной ФС Lustre 2.17"
Отправлено chemistmail , 31-Дек-25 12:54 
Какой к хренам раст, lustre fs уже работала когда раста даже в планах не было....

Какой нафиг btrfs, это кластерная система заточенная под грид вычисления, там где нужна низкая латентность...

Легко, но нафиг не надо.

По сути штука специфичная но для тех целей для которых она разрабатывалась весьма не плоха. Лет 20 назад  использовал, петабайтов не было, но грузовик жестких дисков был заюзан.


"Выпуск кластерной ФС Lustre 2.17"
Отправлено faa , 31-Дек-25 14:21 
Lustre еще используется на суперкомпьютерах.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 31-Дек-25 14:33 
Все кому нужно распределенное хранилище с действительно важными данными не используют опенсорсное без гарантии. Они используют решения на ос RAIDIX.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено онанист , 31-Дек-25 16:28 
какая глупая реклама

"Выпуск кластерной ФС Lustre 2.17"
Отправлено warlock , 01-Янв-26 00:12 
Как будто неопенсорсное даёт какие-то гарантии...

"Выпуск кластерной ФС Lustre 2.17"
Отправлено Аноним , 01-Янв-26 00:21 
Ты просто не понимаешь что такое коммерческая поддержка.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено анони , 01-Янв-26 12:19 
Какие гарантии даёт поддержка?

"Выпуск кластерной ФС Lustre 2.17"
Отправлено torvn77 , 01-Янв-26 13:53 
Если тебе проприетарная поддержка скажет УПС... то в отличии от СПО ты даже помыслить о том чтоб за кучу денег нанять спасательную команду не сможешь.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено morphe , 31-Дек-25 14:40 
Архитектурно выглядит очень похоже на ceph, но в чём преимущества? Я так понял блочное хранилище внутреннее нельзя использовать отдельно от FS, в то время как в ceph cephfs это лишь надстройка

"Выпуск кластерной ФС Lustre 2.17"
Отправлено daemontux , 31-Дек-25 20:03 
Поддерживаю этого оратора, тоже хотелось бы понять +- в чем разница и почему бы на кластерах ceph не юзать.

"Выпуск кластерной ФС Lustre 2.17"
Отправлено none , 01-Янв-26 11:27 
Короткий ответ: Ceph не для этого был придуман.

Заранее извинияюсь за сильное упрощение и прошу умных людей не сильно пинать меня за упущения.

Длинный ответ требует постановку задачи, для чего придумывали кластерные файловые системы:

Вот, например, у вас есть небольшой вычислительный кластер, скажем, узлов (серверов) на 200-300. Занимаетесь вы обработкой данных физических экспериментов или какой-нибудь сейсморазведкой. Т.е. у вас не модельные данные, а вполне себе зарегистрированные цифровые результаты каких-то физических процессов. Их тоже не очень много, ну, скажем, примерно петабайт. Из которых 4/5 - это результаты предыдущих обсчётов, а 200T - это тот датасет, с которым сейчас _активно_ работает кластер. Софт, с которым вы работаете, написан не вами, а какой-то другой группой разработчиков, которые собаку съели на физике и оптимизировали некие "решатели" под разные архитектуры CPU/GPU. Софт работает с обычной файловой структурой, создаёт кучу индексов, поддерживает собственный внутренний формат БД для работы с данными, читает данные, визуализирует их, пишет логи и результаты параллельно со всех серверов в одном дереве файлов. Данные терять нельзя, производительность _имеет значение_, как по задержкам, так и по пропускной способности. Дополнительное требование: в следующем году расширить систему хранения на 30%.

И вот, вооружившись собственным мозгом и интернетом, вы начинаете изучать вопрос: а как "большие дяди" решают такие задачки. На выбор: Lustre, BeeGFS, pNFS (Panasas или NetApp), вычёркиваете Intel DAOS, т.к. она блочная, вычёркиваете Exellero, по той же причиние, смотрите в сторону VAST Data и прикидываете в уме ценник на коробочное решения.

Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками.

Давайте, грубо, посмотрим на цепочку открытия некоторого файла с данными, в качестве примера:

В случае Ceph:
- Приложение хочет открыть некий файл (/distributed/data/path/to/file) и дёргает ядро.
- Ядро смотрит, что за этот кусок отвечает NFS клиент.
- NFS клиент в составе ядра обращается к одному из серверов NFS Ganesha
- Запрос пошёл по сети.
- ядро на NFS сервере (который Ganesha), перебросило данные  из пространства ядра в процесс Ganesha.
- NFS Ganesha запрос получил.
- Дёрнул RadosGW (для простоты они на одной машине)
- RadosGW дёрнул сервер метаданных Ceph.
- В этот момент опять произошло переключение контекста.
- Запрос пошёл по сети.
- Сервер метаданных ответил какие бакеты Ceph надо забрать из OST, в которых будут метаданные файлов.
- RadosGW отправляет запрос/запросы по сети на полученные OST. Опять с переключением контекста.
- запросы пошли по сети, ждём приезда данных (бакеты фиксиорованно размера, какого, кстати?)
- Ждём, когда все данные приедут и мы отдадим их Ganesha. Ещё одно переключение контекста.
- Данные приехали и Ganesha мысленно поставил себе галочку, что с данным файлом работают. Проверяет какие у него права доступа, заблокирован ли он кем-то ещё и если всё в порядке, то возвращает клиенту некий дескриптор открытого файла.
- Клиент NFS радостно рапортует, что файл открыт.

Дальше мы хотим прочитать кусок данных из файла. Вся цепочка повторяется, но с удлиннением, вместо метаданных файла, мы будем получать некоторую кучку бакетов, которые потом будем через NFS передавать клиенту, запоминая по дороге, где находится текущий указатель на чтение.

Как это будет происходить в Luste/BeeGFS:
- Приложение хотет открыть файл и дёргает ядро.
- Ядро понимает, что за этот путь в виртуальной файловой системе отвечает клиент Lustre (который тоже в составе ядра) и сразу дёргает его.
- Клиент Lustre не покидая пространства ядра, делает запрос к серверу метаданных
- Запрос уходит по сети сразу из ядра.
- Получает ответ, что файл открыт, если права пользователей позволяют, т.к. сервер метаданных хранит не только карту блоков содержимого файлов, но и права доступа, владельца и все остальные атрибуты.
- Клиент Lustre сообщает ядру, что файл открыт.
- Ядро возвращает приложению: файл открыт.

В случае чтения какого-то блока из файла:
- Клиент просит сместиться внутри файла на 100Gb и прочитать блок данных размером 10M.
- Ядро дёргает клиента Lustre (который всё тот же модуль ядра).
- Клиент Lustre запрашивает у сервера метаданных какие сервера OST отвечают за этот диапазон.
- Запрос уходит в сеть из ядра (нет переключения контекста).
- Сервер метаданных проверяет блокировки этого диапазона и, если противопоказаний нет, то возвращает список и номера блоков.
- Клиент Lustre (не покидая пространства ядра) параллельно запрашивает нужные блоки у серверов OST.
- Запросы уходят по сети (кстати, это может быть Infiniband с RDMA, что ещё немного сокращает задержки)
- Получив данные он либо оставляет их в кэше и делает memory map для приложения, либо копирует данные в пространство приложения (тут происходит переключение контекста), в зависимости от того, как именно приложение просило открыть себе файл и как читает данные.

Ну и напоследок. Наступает новый финансовый год. Планов - громадьё. Руководство, в своей бесконечной мудрости, решает, что надо бы расширить кластер и увеличить объём хранения данных процентов эдак на 30%. Закупает железо. А все проекты идут и активно работают. Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?


"Выпуск кластерной ФС Lustre 2.17"
Отправлено none , 01-Янв-26 11:44 
Рассказывать про запись данных на ceph не буду, но там появятся такие милые сердцу ожидания, пока данные лягут в две из трёх реплик (мы же помним, что терять данные нельзя и храним 3 реплики).

Вот кстати, отдельная задачка - посчитать стоимость хранения за минимальный "строительный блок" для расширения на 100Tb, с учётом всех OST, RadosGW, серверов NFS и тремя репликами данных.