Опубликован релиз кластерной файловой системы Lustre 2.13, используемой в большей части крупнейших Linux-кластеров, содержащих десятки тысяч узлов. Масштабируемость на столь крупных системах достигается благодаря многокомпонентной архитектуре. Ключевыми компонентами Lustre являются серверы обработки и хранения метаданных (MDS), управляющие серверы (MGS), серверы хранения объектов (OSS), хранилище объектов (OST, поддерживается работа поверх ext4 и ZFS) и клиенты...Подробнее: https://www.opennet.me/opennews/art.shtml?num=51994
у меня есть кластер из стационарного компютера и ноутбука. Как задействоват lustre FS
оно тебе не надо
Сперва придётся купить infiniband-карты на оба узла и раз уж пошла такая пьянка -- очевидно, infiniband-коммутатор тоже понадобится. </>
Ой сострил, ну просто молодец, Петросян нервно курит в сторонке.
Можно соединять напрямую (без коммутатора)
Сводки Top500.org не содержат указаний на типы используемых файловых систем. Ссылка на этот ресурс неуместна.
Поддерживаю. Модераторы, плз, отредактируйте новость, так как ссылка на Top500.org вставлена произвольно и без всяких оснований.
А если бы не было ссылки, что бы спросил? Типа, о каких таких "крупнейших Linux-кластерах" идет речь и почему нет ссылки.
Всё ттх относящееся к Lustre, находится на сайте Lustre - оттуда и надо брать соответствующую информацию. А бубнёж и левую дезинформацию следует из новости удалить, так как она отношения к топику никакого не имеет. На топ500 не детализируют фс, а значит в новости написана произвольная отсебятна. Всё это довольно очевидно, но, видимо, господин Штунц встал сегодня не с той ноги или решил заняться демагогией и поводить вилами по воде.
можно еще погуглить Cray XC + Sonecsion + Lustre
к тому же это _вычислительные_ кластеры, а люстра совершенно не для них придумана
> к тому же это _вычислительные_ кластеры, а люстра совершенно не для них
> придуманаИнтегрированная ФС и вычислительному кластеру не помешала бы. А то туда прогресс, сюда прогресс, а на узлах-то NFS.
у вас какой-то допопотопный кластер. вот Cray XC поставляется с Lustre, IBM - с GPFS.. а что бы с NFS.. можно - но типа Васяна на коленки из 20 узлов. Или как вот с железкой которую разработали под новосибом.
> у вас какой-то допопотопный кластер. вот Cray XC поставляется с Lustre, IBM
> - с GPFS.. а что бы с NFS.. можно - но
> типа Васяна на коленки из 20 узлов. Или как вот с
> железкой которую разработали под новосибом.Да мы вообще лохи, фули. И выделенной электростанции, что питать Cray или IBM, у нас тоже нет.
Ну, и как сбрасывать большие файлы с модулей?
на 8" дискетах ? :) или лучше на пленках как в 1046 было :)
просто вычислительному кластеру - совсем необязательно нужна такая большая, даже если он из top500.хотя, конечно, nfs там окажется - навряд ли.
Петабайты и тыщи узлов, однако. Что туда совать-то предложите? PanFS ещё видал, да.
Как мало ты Миша видел... Топ1 пользует https://www.ibm.com/support/knowledgecenter/en/SSFKCN_4.1.0/...ибо IBM.
> Как мало ты Миша видел...Так я и не претендую :-) Бимерская установка в соседнем зале стояла (поди, там же и стоит), но её и видеть особо не хотелось.
Кстати, да -- там в трёх соседних машзалах три разные кластерные файловые системы применялись, получается.
PS: хотя вряд ли здесь так уж много тех, кто видал *исходники* panfs.
Точно-точно не для них?
везде где есть слово Cray, можете читать Lustre.IBM толкает свою GPFS. остальное - где что, Dell / EMC - это Lustre
...вообще, откуда дровишки насчёт "большей части систем"?
если не путать системы с петабайтными хламохранилищами с top500 выислительных -то, наверное, правильно - "а что, еще кто-то есть?"И принадлежат все эти системы - гуглю, гуглю, и, еще вот - гуглю, например.
> если не путать системы с петабайтными хламохранилищами с top500 выислительных -то, наверное,
> правильно - "а что, еще кто-то есть?"
> И принадлежат все эти системы - гуглю, гуглю, и, еще вот
> - гуглю, например.Так ведь, кажется, у гугля свой внук^W googleFS есть?
у гугла поменьше чем в каком нить ORNL..
ну и по факту эти Top500 это смесь люстры + GPFS и всяких object storage - где-то HDF5 - где-то NVMe over fabric..
>>если не путать системы с петабайтными хламохранилищами с top500 выислительных -то, наверное, правильно - "а что, еще кто-то есть?"
>И принадлежат все эти системы - гуглю, гуглю, и, еще вот - гуглю, например.Вы говорите, говорите ... (c)
от тех кто эти системы из Top500 руками шупает и cапортит.Видим слова Cray, DDN, Dell, HPe, EMC - читаем слово Lustre.
видим слова IBM - читаем GPFS.
Видим enterprise storage - читаем GlusterFS
А-А-А-А-А-А-А!
вот сколько щупал грязными лапами машины из Top500 - не на одной не видел GlusterFS.
Даже у крупных ентерпрайс клиентов - glusterFS не пахнет.
Им пахнет только там где пытались играть в виртуалочки.. и все.
Top500 - ни разу не enterprise. Это штучные, заказные изделия, а типичный enterprise это типовое, стандартное решение. Крупный enterprise, типа РЖД, ну или хотя бы гугля - это тоже заказные решения и свои даже не отделы, а целые департаменты разработчиков, там ИТ-отдел по кол-ву сотрудников не влезает в целую фирма из "среднего" бизнеса. :)
glusterFS, OpenFlow и прочие SDN это да - там где "играются в виртуалочки". с количеством нод в несколько сотен минимум, парой дестяков СХД и геозащитой.
Top500 это нефига не штучные изделия.
Это обычная линейка NetAPP, DDN, Seagate (теперь Cray) - которая может использоваться и там и там..
Эти же хранилки стоят в куче контор поменьше.. сильно меньше.
То что изделие собранно из стандартных кирпичиков не отменяет его штучности.
ох.. поверке тому кто эту колбасу видит постоянно. Нету там штучности особенно в области хранения.
> вот сколько щупал грязными лапами машины из Top500он же вам про энтерпрайз - которые ип...ся за деньги, а не устраивают шоу "сегодня трахнул слона, завтра кита, послезавтра иду трахать Левиафана"
> Даже у крупных ентерпрайс клиентов - glusterFS не пахнет.
> Им пахнет только там где пытались играть в виртуалочки.. и все.с какого боку он к виртуалочкам? Он для них совершенно непригоден, поскольку все варианты "distributed" в современных версиях имеют пометочку "MapReduce usage only", а в несовременных - "осторожно, мины!"
но ссыкотно, да. Я локации тех ентер-прайс клиентов, которые купили RHGS (а пуще того тех которые не купили, а схватили 6ешплатное) как раз и пытаюсь осторожно выяснить, дабы обходить десятой дорогой.
> он же вам про энтерпрайз - которые ип...ся за деньги, а не устраивают шоу "сегодня трахнул слона, завтра кита, послезавтра иду трахать Левиафана"Да хоть про какой. Весь этот top500 сделан из типовых решений, которые тупо маштабируются количеством.
Что compute node - которые типовая стойка с лезвиями которые имеют свой свич и подключаются дальше в дерево.
что стораджи - которые типовая дисковая полка - которых можно поставить хоть 2 - хоть 200..Не хочется искать по NetAPP / DDN. Вот пример шаблонной полки Сегейта которая идет типа Sonexion в кластерах
https://www.span.com/product/Seagate-EXOS-X-5U84-RAID-X5U84-...
(первое что у гугле нашлось - можно еще поискать Seagate 5U84) - 2U24 вообще что-то стороннее.> с какого боку он к виртуалочкам?
Шапочка двигала ее так. Как там на самом деле - я не знаю.
> Весь этот top500 сделан из типовых решений, которые тупо маштабируются количеством.Мне кажется, скорее "из типовых решений двух-трёхлетней перспективы для ДЦ". Т.е. обкатка как раз на HPC, затем "сползает" в ынтерпрайзъ.
> от тех кто эти системы из Top500 руками шупает и cапортит.
> Видим слова Cray, DDN, Dell, HPe, EMC - читаем слово Lustre.Тут, кстати, одни знакомые интересовались люстроводами -- если вдруг Вы прочтёте это письмо и интересно, маякните мне на mike@altlinux.org, пожалуйста.
https://01.org/lustre-softwareLustre is the most widely-used file system in supercomputing, powering over 60 percent of the TOP100 supercomputing sites worldwide.
http://wiki.lustre.org/images/6/64/LustreArchitecture-v4.pdfThe majority of the top 100 fastest computers, as measured by top500.org, use Lustre for their high performance, scalable storage.
В прошлом году пвытались сделать вариант Top500 по производительности ввода/вывода, но инициатива заглохла https://www.vi4io.org/io500/start
> https://01.org/lustre-software...ссылается на top500.org "вообще"
> http://wiki.lustre.org/images/6/64/LustreArchitecture-v4.pdf
...то же.
Я как бы не против этого изделия, но хотелось бы видеть более конкретные сведения.
Потому что, когда я вижу слова IBM или Dell, я читаю IBM или Dell, а вот: "when you assume, you're making an ass both of you and me".
IO500 сейчас цветет и пахнет.
как оно по сравнению с ceph?
Честно скажу, Lustre не щупал, чисто по архитектуре.
Lustre нужно тем, у кого очень много storage я так понимаю и у кого много денег. Там куча компонент и каждая не дай бог чтобы упала, должно быть все 10 раз зарезервировано.
Ceph работает немного по-другому, там изначально object storage, желательно полностью дисками управлять. И дизайн такой, что не важно качество железа, не нужно чтобы можно было процы заменять вживую и т.п. Все распределено и падающий сервер - это не исключительная ситуация. Естественно, будут небольшие проседания если что-то отвалится, но в общем все живучее.
Т.е. архитектура ceph не требует гиперживучести от железа, так и дает возможность легко делать upgrade-ы и проводить работы. Да и компонентов не много, можно совмещать все на тех же серверах, где хранение идет. Меньше исключений - проще и дешевле обслуживание.
Не надо вводить в заблуждение.> Там куча компонент и каждая не дай бог чтобы упала, должно быть все 10 раз зарезервировано.
там 2 компоненты - MDT / OST. На первом - метаданные - втором данные. для резервирования достаточно простой корзины с jbod - которая доступна с двух контролеров. Совмещать из можно даже на одном сервере.
Основная разница это в хранении.
Если у вас очень много денег - вы можете поставить несколько сторожей с однаковым объемом для зеркалирования в ceph - то у вас будет защита данных.
Так как в lustre mirror - это вещь очень опциональная - за защиту данных отвечает локальный рейд + сетевое recovery.При этом по прозводительности ceph по меньше.. по меньше..
> там 2 компоненты - MDT / OSTА на картинке в статейке - четыре (роутер, внезапно, тоже компонент, и тоже нужно резервировать) не считая собственно OST (в роли какового вроде бы по сей день обычные hw raid, да?). Мне кажется, кто-то хочет нас обмануть?
вы старые картинки не смотрите..роутер нужен для конвертации интерфейсов - если у вас один тип сети - то вам это не надо.
MSG + MDT - в одной компоненте - это штатный сетап.. вот и получается что у вас 2 типа компонент.
>по сей день обычные hw raid,
какой рейд - вы чего? JBOD за уши хватает.
> какой рейд - вы чего? JBOD за уши хватает.а резервирование данных-то в этом случае кто делать будет? Нам же сказали что люстриный mirror - неправильно, мы и поверили.
Попробовать собрать, что-ли, пока есть на чем... хотя толку от линукс-онли хранилища...
dm :) или md в ядре. Один фик это быстрее чем нынче аппаратные рейды.
PS. если кто-то сильно хочет - может поискать старую версию Lustre работающую через FUSE. работало даже на маке.
Интересно, как там POHMELFS/elliptics поживает?.. Когда-то автор целился в конкуренты люстре.
> Интересно, как там POHMELFS/elliptics поживает?.. Когда-то автор целился в конкуренты
> люстре.А никак. он в конкуренты не целился абсолютно. хотя бы тем что i_mutex у него глобальный - а значит запись с двух клиентов в один файл не возможна в принципе. Он сам об этом говорил и сказал что менять эту логику не собирается.