Видимо наступило время умирать старому железу.
Содержание предыдущих серий. У меня тут много тем по старым железкам купленным мною в свою же контору 10-12 лет назад. Верой и правдой они служили мне. В основном это были сервера на intel s3200sh и hp 160 и 180 g5-6.Итак предыстория. Есть сервер с 2008 года для резервного копирования оперативной информации. Стоял он на centos в начале 5 потом 6 потом 7. Материнская плата была intel старая десктопная такая https://hard.rozetka.com.ua/intel_boxd2500hn/p220441/ с 2 гигами оперативки. Туда же в 2008 году был водружен контроллер еще на 2 sata разъема и вставлено 3 диска. 2 по 500 Гб, один на 300 (делалось в спешке, что было то было). Было разбито каждый 500-к на 2 раздела 300 + 200.
300+300+300 = 5 raid для резервных копий
200 + 200 = 1 raid для всякого ненужного редкого и прочего.неделю назад получил на 5 рейде ошибку при попытке зарать файл по ftp.
Зашел локально выполнил
# cp up.part15.rar /tmp/up.part15.rar
cp: error reading 'up.part15.rar': Input/output error
cp: failed to extend '/tmp/up.part15.rar': Input/output error
Я человек который "делает бэкапы бэкапов". Страшного ничего не было. Гугл нашел статьи что могут быть проблемы с оперативной памятью.Но меня это несколько напугало.
# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4] [raid0]
md0 : active raid0 sda4[1] sdc4[0]
351548416 blocks super 1.2 512k chunks
md126 : active raid5 sdc1[0] sda1[1] sdb1[3]
619161600 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
bitmap: 1/3 pages [4KB], 65536KB chunkmd127 : active raid1 sdc2[0] sdb2[2] sda2[1]
976320 blocks super 1.2 [3/3] [UUU]
bitmap: 0/1 pages [0KB], 65536KB chunkunused devices: <none>
С райдом все ок. Откуда тогда ошибка такая? Это же не единичный диск. Там если что должно же с 2-х других по контрольной сумме итп.
dmesg пуст, как голова студентки соцпеда. Т.е. там нет ничего о проблемах с дисками.Неделю назад эти диски вставил все 3 в другой сервер, чтобы все другой.
И оппа - снова словил такую ошибку на свежесозданном файле.
Удалил его, И снова через 3 дня на большом файле такая ошибка.
Ок. сказал я. Я знаю баш на уровне школьника, и у меня есть свободное время. Я создал 230 файлов по 1 Гб с сожержимым "1". И прочитал их. 1 файл имеет такие проблемы. Удалил все, снова создал ( но в каждый записал букву z) файлы та же история. 1 файл битый.Как же так? Отказа дисков нет. Смарт в норме. RAID 5-й.
Что это? Как с этим жить и как бороться?
проверка консистенции рейда проходит?
> проверка консистенции рейда проходит?да. проходит
>> проверка консистенции рейда проходит?
> да. проходитТогда чекайте FS на живость
ну и dmesg посмотрите
>>> проверка консистенции рейда проходит?
>> да. проходит
> Тогда чекайте FS на живость
> ну и dmesg посмотритеВсе отчекалось. dmesg пуст. Вопрос больше филосвский "как так, да на 5 рейде?".
железо сменил от слова "всё", т.е. и диски и не диски. Хоть бэкапы хранятся в 2-х местах, но надо быть уверенным.
> Все отчекалось. dmesg пуст. Вопрос больше филосвский "как так, да на 5
> рейде?".
> железо сменил от слова "всё", т.е. и диски и не диски. Хоть
> бэкапы хранятся в 2-х местах, но надо быть уверенным.Во время проверки FS были ли какие либо сообщения об ошибках?
Скорее всего ошибка диска, но он её не отрабатывает правильно в силу возраста, ошибок firmware(обновляли?).
Что smartctl говорит?
ЗЫ.
У вас все новое, лучше сдать по гарантии пока хуже не стало.
> Скорее всего ошибка диска, но он её не отрабатывает правильно в силу
> возраста, ошибок firmware(обновляли?).
> Что smartctl говорит?
> ЗЫ.
> У вас все новое, лучше сдать по гарантии пока хуже не стало.Старый парк. 2008 год. !0 лет и дискам и железу.
Доброго дня.> Как же так? Отказа дисков нет. Смарт в норме. RAID 5-й.
> Что это? Как с этим жить и как бороться?А диски все три - рейдовые?
Предположение, исходя из того, как я вижу мир :) :
При рейд-контроллере имеем 2 уровня коррекции неуверенного чтения дисков: коррекция контроллером самого диска и далее, если коррекция не удалась или длится дольше, чем готов ждать рейд-контроллер (из-за того, что у рейдовых дисков против десктопных время на коррекцию собственным контроллером уменьшено) - коррекция рейдом. И при этом ошибки, восстанавливаемые контроллером самого диска, ещё не неисправность диска. И вот, если стоят десктопные диски и уже два из них начали "подгребать", возможна такая ситуация...
Ну, или за годы труда скорости чтения дисков значимо расползлись друг от друга...