The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 дней работы, opennews (??), 03-Июн-23, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


83. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +1 +/
Сообщение от Ivan_83 (ok), 04-Июн-23, 00:15 
У меня 1300x странно сломался - через 2-4 суток аптайма вешался или ребутался.
Смена материнки и настроек биоса ничего не меняла, смена проца - решила проблему.
Ответить | Правка | Наверх | Cообщить модератору

84. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +2 +/
Сообщение от Аноним (-), 04-Июн-23, 00:26 
Проблема скорее в материнке или её биосе. У меня тоже такое было, что проц на одной материнке глючил, вешался и ребутился. Дугой проц в эту же материнку - работает. Но самое интересное, когда вставляю якобы нерабочий проц для проверки в ещё одну другую материнку - тоже работает вообще идеально.
Ответить | Правка | Наверх | Cообщить модератору

143. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +1 +/
Сообщение от Ivan_83 (ok), 04-Июн-23, 13:01 
Я его переставлял в 3 или 4 разных материнки, везде результат был один и тот же.
Ответить | Правка | Наверх | Cообщить модератору

99. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  –1 +/
Сообщение от dalco (ok), 04-Июн-23, 04:34 
На одной из моих прошлых работ фирменные интеловские мамки интересно из строя выходили - они прекрасно включались, работали, но ровно через час после запуска перезагружались (или висли?). Можно было часы сверять :)

Но, надо отдать должное - мамки эти отпахали лет по 10+. Им так и так дорога на помойку была.

Ответить | Правка | К родителю #83 | Наверх | Cообщить модератору

139. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  –4 +/
Сообщение от n00by (ok), 04-Июн-23, 11:21 
Точно час, а не 30 минут? Intel ME обычно через столько перегружает, когда ему что-либо не нравится.
Ответить | Правка | Наверх | Cообщить модератору

162. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +1 +/
Сообщение от dalco (ok), 04-Июн-23, 17:14 
Не могу утверждать с точностью 100%, но мне так помнится, что именно час. Юзер комп включит, попьёт кофе, втянется в работу и...
Сначала так одна машина хулиганила (ну, мало ли), потом две (хм, забавное совпадение), потом ещё несколько (о, да тут закономерность!). Мамки были или на 845 или на 865 чипсете, одна конкретная модель, именно производства Intel.
Благо, это были уже времена, когда этот хлам, даже исправный, массово начали заменять в конторе на что-то более современное на 8x/9x-чипсетах.
Ответить | Правка | Наверх | Cообщить модератору

170. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  –5 +/
Сообщение от n00by (ok), 04-Июн-23, 19:15 
На тех старых чипсетах может и час, не знаю. По симптомам очень похоже, зачетная фича. :)
Ответить | Правка | Наверх | Cообщить модератору

120. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Аноним (115), 04-Июн-23, 05:41 
> У меня 1300x странно сломался - через 2-4 суток аптайма вешался или
> ребутался. Смена материнки и настроек биоса ничего не меняла,
> смена проца - решила проблему.

А вот так воткнешь файлуху с чексумами и узнаешь много нового о своем железе, потому что "вешался через 2-4 суток" случается при достаточно частых сбоях. А если сбои реже - может и 2-4 месяца работать. Или года. И поди там разбери чего оно раз в год ребутнулось...

Ответить | Правка | К родителю #83 | Наверх | Cообщить модератору

146. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +1 +/
Сообщение от Ivan_83 (ok), 04-Июн-23, 13:08 
Там не было ZFS, но была ECC память.
Ответить | Правка | Наверх | Cообщить модератору

194. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 04-Июн-23, 20:48 
Вот здесь скорее всего и причина подвиса. Разгона по памяти не было часом? Возможно говённая плата память не вытаскивала, и она глючила, в результате - вставание раком.
Ответить | Правка | Наверх | Cообщить модератору

211. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +1 +/
Сообщение от Аноним (115), 05-Июн-23, 01:13 
В случае ECC памяти - ее сбои достаточно заметны мягко говоря. Хрен знает как в фре а в линухе точно есть драйвер который видит факапы ECC на амдшках (EDAC).

Бывают и более странные вещи. Никогда не видели сбой ECC в кеше проца? А так тоже бывает. Я правда видел это лишь 1 раз в жизни и это был transient. Видимо космическая частица в проц попала. Просто необычный лог с MCE.

Ответить | Правка | Наверх | Cообщить модератору

269. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 08-Июн-23, 07:20 
> Никогда не видели сбой ECC в кеше проца?

Why not? Ничего необычного в этих логах нет, кста.

И в самих кешах, в основном это как ни странно L1 был, видимо потому, что наиболее высокочастотный и хрупкий, хотя чессгря площадь у него микронная, т.е. это скорее даже не комическая частица, а просто где-то с питальника пульсация проскочила, кочерга раз в жизни тоже стреляет. И в ассоциативных линейках uopcache (tag parity error) на раннем первом райзене, опять неладно помянутом, видел - там это штатная, к сожалению, ситуация, ибо uopcache упорот. И полудохлые процы, стреляющие совершенно разными MCE, тоже видел.

Ответить | Правка | Наверх | Cообщить модератору

272. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Аноним (272), 08-Июн-23, 16:13 
> Why not? Ничего необычного в этих логах нет, кста.

Да просто редкая фигня. Мне по моему только 1 раз в жизни и попадался. При том откровенный transient: больше на той железке не было никаких намеков на повтор этого.

> И в самих кешах, в основном это как ни странно L1 был,
> видимо потому, что наиболее высокочастотный и хрупкий, хотя чессгря площадь у
> него микронная, т.е. это скорее даже не комическая частица,

Кеши это SRAM, еще и с специфичными требованиями, и площадь у них ни в раз не микронная. И у проца кеши занимают чуть ли не большую часть кристалла.

> а просто где-то с питальника пульсация проскочила, кочерга раз в жизни тоже стреляет.

Это кажется маловероятным. Проц жрет короткими мощными импульсами и на это расчитано. Для покрытия быстрых вещей сотни керамики, более медленных - дофига емких полимеров или сильноточных электролитов. Что там в основном питальнике оно и близко не видит - из 12 вольт делает Vcore многофазным, шустрым DCDC который очень резво реагирует на любые изменения. Если там что-то не так - глюков будет сразу и много. Раз в эн лет? Не, так не бывает. Если оно близко к margins, глюки будут достаточно регулярно повторяться в силу характера потребления проца.

> полудохлые процы, стреляющие совершенно разными MCE, тоже видел.

Я вот видел даже проц который ничем не стреляет. Но иногда считает, цуко, неправильно. Очень изредка. Пойман btrfs'ом, "csum failed" лезущими без особых причин. При том только после прогрева. Вот это кстати совсем не удивительно - не все чипы созданы одинаковыми. И не всегда фабричные тесты отлавливают все косяки.

Ответить | Правка | Наверх | Cообщить модератору

274. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 08-Июн-23, 21:04 
> Кеши это SRAM, еще и с специфичными требованиями, и площадь у них ни в раз не микронная

L3-да, здоровый. А L1 так себе (у того же Zen2 - ~20-25% от ядра L1I/L1D вместе).
Плюс эта шляпа (L1) в тех же зенах например использует не типовое питание SRAM, а питание самого ядра, и посему к нему приделан хитрый многоуровневый буст при записи, именно таковой в принципе может выдавать сюрпризы, и отчасти поэтому там и приляпан ECC.

> Это кажется маловероятным. Проц жрет короткими мощными импульсами

Именно в этом и фигня. VRM не осилил, проскочила отрицательная пульсация. Буст свалился при записи, битик флипнулсо. Могут быть и другие причины, но эта совершенно не исключена.


Ответить | Правка | Наверх | Cообщить модератору

275. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 08-Июн-23, 21:05 
(особенно вероятно в около-idle, при низких вольтажах, или при спрыгивании с таковых)
Ответить | Правка | Наверх | Cообщить модератору

276. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Аноним (263), 09-Июн-23, 08:57 
> L3-да, здоровый. А L1 так себе (у того же Zen2 - ~20-25%
> от ядра L1I/L1D вместе).

Вселенная умеет прикалываться, так что даже маловероятные вещи сильно отличаются от невозможных. Если шанс что вон та штука сегодня сломается 1 на миллион, если у нас только 1 девайс, мы можем не дожить до его кончины. Но может и помереть, буквально завтра, столь же валидно. А если поставить парк из миллиона, в среднем каждый день будет что-то ломаться. А иногда и пару в день.

> Плюс эта шляпа (L1) в тех же зенах например использует не типовое
> питание SRAM, а питание самого ядра,

Что есть "типовое питание SRAM"? Системный SDRAM? Он не SRAM, он DRAM. И питание у него свое, регламентированое стандартом. А кеш почти часть ядра проца, он близко к нему и логично что питается от того же Vcore с общем случае. А то что совсем наружу чипа - через трансляторы уровней, конечно. Даже современные микроконтроллеры норовят Vcore сильно ниже IO делать, просто потому что работать на высоком Vcore крайне неэффективно по энергии.

> может выдавать сюрпризы, и отчасти поэтому там и приляпан ECC.

ECC в процовых кешах не новая тема и точно появился задолго до рязаней и эпиков. Я так понимаю что это частично помогает детектить бракованые чипы заодно еще производителю.

> Именно в этом и фигня. VRM не осилил, проскочила отрицательная пульсация.

Там конденсаторов немеряно, как она проскочит? И на мамке, и даже на самом проце по Vcore. Настолько по детски сейчас производители мамок имхо не лажаются. Да и раньше не лажали. И единственный способ что-то такое увидеть который я знаю это опухшие электролиты, когда они свою функцию перестают выполнять. При этом глюки быстро прогрессируют - проблемные электролиты греются еще сильнее и процесс кончины самоускоряется. Но в современных мамках с полимерами и нормальным охлаждением вокруг сокетов оно сильно менее актуально.

> но эта совершенно не исключена.

Хызы, ни разу не видел факапы такого плана именно раз в эн лет. И если что-то работало на грани, оно обычно ппри прогреве начинает весьма заметно и относитель но часто глюкать.

Скажем упомянутый проц пойманый btrfs на холодную считал ок но если минут 10 прогрузить в полку, достаточно часто флипал биты, btrfs раз в несколько минут орал csum failed. А при менее полной нагрузке системы - нагрева могло и не хватить для дестабилизации.

Там на самом деле фокус в том что электрические параметры чипов не совсем одинаковые. Повторяемость не 100% 1 в 1. Оттуда же и разблюддовка по частотам, самые отборные кристаллы идут как самые топовые и высокочастотные, у них изначально margins самые большие. Остальнму скидывают частоты и повторяют тесты еще раз, и так несколько раз, получая разные модели. Иногда могут отключать дефектные блоки еще, чтобы не выкидывать чип совсем а продать как более скромный по ядрам/кешу/частотам/etc. А китайцы этим вообще не парятся, вот вам RAW выхлоп фабы и в мане "до 2.5ГГц" - а сколько конкретный чип потянет без дестабилизации сами и замеряйте :)

Ответить | Правка | К родителю #274 | Наверх | Cообщить модератору

278. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 09-Июн-23, 14:18 
> Что есть "типовое питание SRAM"?

Линия питания SRAM внутри проца. Она отдельная внезапно. А вот L1 у зенов сидят на линии питания ядра.

По следующим пунктам не поясняю, потому что.

Ответить | Правка | Наверх | Cообщить модератору

279. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 09-Июн-23, 14:19 
[независимость линии отчасти связана это с тем, что ядро можно в "простое" по вольтажу уронить, а вот с SRAM такой фокус не катит]
Ответить | Правка | Наверх | Cообщить модератору

280. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Аноним (263), 09-Июн-23, 15:23 
> Линия питания SRAM внутри проца. Она отдельная внезапно.

Будем честны, я не смотрел для этих процов пинаут от и до, поэтому интересно кого в этом контексте SRAM называют? Системный кеш? Что-то из регионов какого-нибудь PSP? Что-то еще?

> А вот L1 у зенов сидят на линии питания ядра. По следующим пунктам не поясняю, потому что.

Ну как бы L1 логично там сидеть. Он там наверное у много кого. Чтобы вольтажи между core и кешом не транслировать. Скоростные трансляторы уровней способные на тех частотах стабильно с полной скоростью работать - это такой сильно отдельный гимор.

Ответить | Правка | К родителю #278 | Наверх | Cообщить модератору

281. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 09-Июн-23, 22:19 
> Будем честны, я не смотрел для этих процов пинаут от и до, поэтому интересно кого в этом контексте SRAM называют?

Вся SRAM, кроме ядра (L1 в последней). И кеши, и не только. И там не только пинаут, а ещё и внутренняя организация.

> Ну как бы L1 логично там сидеть. Он там наверное у много кого. Чтобы вольтажи между core и кешом не транслировать.

Дело не только в уровнях, ещё в тайминге (нагрузка импульсная) и наличии помех.
У такого дизайна есть один большой минус - для SRAM в режимах энергосбережения ядра необходимо большее напряжение, нежели для самого ядра. Поэтому там хитровыделанный буст.


Ответить | Правка | Наверх | Cообщить модератору

287. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Аноним (287), 13-Июн-23, 12:04 
> Вся SRAM, кроме ядра (L1 в последней).

Сколько я себя помню - кеши обычно всегда жили рядом с core и было бы странно если бы уж как минимум L1 питался чем-то отличным от Vcore. Так вообще делали?

В более простых SoC - структурально обычно большая часть чипа живет на Vcore в районе 1 .. 1.5 вольт, кроме аналоговых блоков (включая тактовые генераторы/PLL/adc/dac/etc) у которых есть специальные требования где они хотят вольтаж выше вон того - и IO. GPIO обычно выходит наружу через группу трансляторов уровня известную как "IO ring". У скоростных интерфейсов типа sata/pcie/DRAM/usb/... бывают свои кастомные "phy" - и кастомное питание, потребное для вот именно их структуры IO. И это даже не столько для развязки от пульсаций сколько потому что им нужны разные напряжения. Хотя как минимум аналог обычно пытаются отвязать от остального, цифра шумит.

> И кеши, и не только. И там не только пинаут, а ещё и внутренняя организация.

Просто по логике кеш живет рядом с core, работает на полной скорости, и трансляторы уровней на эти скорости - отдельная прожорливая и проблемная штука, их ставят как last resort, если иначе не получилось. Ну да, если Vcore 1.2 вольта максимум а IO должно на 1.8 если не 3 вольтах работать, там без вариантов. А логика на 1.2 вольта не то чтобы распостранена, да и DVFS может менять его, остальной логике меняющееся напряжение Vcore никто не вывешивает.

> Дело не только в уровнях, ещё в тайминге (нагрузка импульсная) и наличии помех.

Нагрузка импульсная. Поэтому подается через кучу лапок и развязано кондерами от души. Так что в нормальном дизайне не особо разлетается дальше, покрываясь "локальной" керамикой. А на более медленные изменения есть вон те емкие электролиты (на частоте гигагерц они бесполезны из-за ESL но это от них и не требуется).

> У такого дизайна есть один большой минус - для SRAM в режимах
> энергосбережения ядра необходимо большее напряжение, нежели для самого ядра.

А чего там все же SRAM называют в этом контексте? L2/L3/PSP SRAM? Более того - а у PSP там нету каких-нибудь приватных I/D кешей, как это обычно у ARMов бывает?

> Поэтому там хитровыделанный буст.

Именно буст? Просто вокруг ядра полно более высоких напряжений и DCDC, и это было бы очень странным решением. Нельзя ли какой-то линк на все это описывающий технологию?

Ответить | Правка | Наверх | Cообщить модератору

290. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 13-Июн-23, 23:18 
> чем-то отличным от Vcore. Так вообще делали?

L2 и L3 в зенах живут отдельно от питания ядра.
Ну и ядро - это не совсем Vcore, кстати. Там внутри множество разных схем питания. Часть сидит на Vcore, часть нет.

> Именно буст?

Да, именно буст :) Ламповый, тьфу, то есть конденсаторный.

> Нельзя ли какой-то линк на все это описывающий технологию?

Можно. Смотрите на викичипах (wikichip.org), там много всего. Даже кое-какие грабли отмечены.


Ответить | Правка | К родителю #287 | Наверх | Cообщить модератору

291. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 13-Июн-23, 23:27 
> Более того - а у PSP там нету каких-нибудь приватных I/D кешей

SP вообще отдельный CPU (Cortex A?), его можно в контексте собственно x86 проца не рассматривать.
У него своё всё. И кеши, и много чего ещё.

Ответить | Правка | К родителю #287 | Наверх | Cообщить модератору

292. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Аноним (292), 14-Июн-23, 00:02 
> SP вообще отдельный CPU (Cortex A?),

Насколько я помню, да.

> его можно в контексте собственно x86 проца не рассматривать.

Ага, лол, не рассматривать его - учитывая что он DRAM training делает и x86 запускает :)

> У него своё всё. И кеши, и много чего ещё.

Однако вот именно совсем отдельные вольтажи и проч врядли ему сделают. А зачем? Техпроцессы же те же самые.

Ответить | Правка | К родителю #291 | Наверх | Cообщить модератору

294. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 14-Июн-23, 09:52 
> Ага, лол, не рассматривать его - учитывая что он DRAM training делает и x86 запускает :)

Не ссуть. Оно всё равно оторвано, и общается c x86 по шинам, без интеграции.

>> У него своё всё. И кеши, и много чего ещё.
> Однако вот именно совсем отдельные вольтажи и проч врядли ему сделают.

В смысле. Оно отдельный набор совершенно. У которого всё своё.


Ответить | Правка | К родителю #292 | Наверх | Cообщить модератору

236. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Ivan_83 (ok), 06-Июн-23, 02:19 
Перечитайте ещё раз: материнки менял, 3-4 разных пробовал.
ЕЦЦ показывает ошибки если они есть, сразу.
Ответить | Правка | К родителю #194 | Наверх | Cообщить модератору

238. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 06-Июн-23, 08:20 
"Типичный" ЕЦЦ показывает ошибки в 1 бит, при ошибке в 2 бита ставит систему колом, более серьёзные может и не заметить. Судя по тому, что решилось заменой проца - какая-то фигня в комбинации, возможно связка VRM + контроллер памяти. Может и проц битый попался, да.
Ответить | Правка | Наверх | Cообщить модератору

242. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Tron is Whistling (?), 06-Июн-23, 10:05 
Ну и опять же - какие материнки.
Я обычно беру топовый чипсет и пристойный VRM, как раз чтобы избежать вот этого всего.
Вы ж не берёте на серверы супермокро, в самом деле. Или берёте?
Ответить | Правка | К родителю #236 | Наверх | Cообщить модератору

210. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Аноним (115), 05-Июн-23, 01:08 
> Там не было ZFS, но была ECC память.

Ну я вот btrfs'ом нашел вот именно сбоящий ПРОЦ. ECC память на это не реагирует ни как, именно сам проц иногда считает неправильно, флипает где-то в недрах битик-другой. Да еще не сразу. Сперва прогреть хорошенько надо. По другому его б и не заметил никто. А тут, вот, редкие писки про CSUM ERROR - намекали.

Вот так изначально система с такого не падает. Просто под нагрузкой появляются какие-то мелкие странные аномалии. Ну и данные изредка подзасир@ются. Если месяцок погонять то может и повиснет или ребутнется, или очень активно работающая программа может упасть, но это настолько редко что только btrfs его такого и вычислил в результате. Да, сторажи и оперативка оказались там исправными.

Ответить | Правка | К родителю #146 | Наверх | Cообщить модератору

127. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +1 +/
Сообщение от Доктор Лиза (?), 04-Июн-23, 08:32 
Надо было просто кэш УО-псов отключить!
А когда ВДРУГ не поможет, тогда уже можно и другое плацебо прописать... и так до тех пор, пока пока гарантия не закончится.

https://youtu.be/WutowgJBTvs

Ответить | Правка | К родителю #83 | Наверх | Cообщить модератору

144. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..."  +/
Сообщение от Ivan_83 (ok), 04-Июн-23, 13:05 
Так он до этого пару лет отработал без проблем.
Я его просто подарил другу с предупреждением об особенностях работы а себе взял другой проц, один фиг этот 1300х покупался как временное решение на старте продаж райзенов.
Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру