Как стать автором
Обновить

Мониторинг начинается с метрик, или Как не сделать из алертов белый шум

Блог компании ITSumma Высокая производительность *Системное администрирование *IT-стандарты *Серверное администрирование *
Всего голосов 36: ↑36 и ↓0 +36
Просмотры 6.1K
Комментарии 1

Комментарии 1

По аппаратным рейдам всё хуже. Состояние батарейки контролировать надо. Если рейд тупой, то плохой батарейкой он превратит данные в кашу при внезапном power off. Если рейд умный и сам тестирует батарейку периодически, то плохая батарейка превратит writeback в writethrough, то есть (для не high-end устройств) превратит быстрый сервер в калеку с "непонятно почему всё тормозит" (а тормозить будут fsync/flush).

У рейдов состояние дисков куда более сложное, чем кажется. Medium Error автоматически не приводит к выкидыванию диска из рейда, если происходит редко, но его наличие в рейде может оставить массив без возможности ребилда.

Сами диски могут оказаться "полудохлыми" и работать, но на очень низких скоростях (из-за вибраций, например) - когда в продакшене HDD выдаёт 1Мб/с, это даже хуже, чем просто сдохший диск.

nvme может начать срать PCI-E recoverable ошибками

[2366832.539549] pcieport 0000:00:1d.0: AER: Multiple Corrected error received: 0000:00:1d.0
[2366832.539587] pcieport 0000:00:1d.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[2366832.539597] pcieport 0000:00:1d.0:   device [8086:9d18] error status/mask=00000001/00002000
[2366832.539609] pcieport 0000:00:1d.0:    [ 0] RxErr                  (First)
[2366832.539620] pcieport 0000:00:1d.0: AER:   Error of this Agent is reported first
[2366832.539636] nvme 0000:3c:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[2366832.539645] nvme 0000:3c:00.0:   device [1179:0115] error status/mask=00000001/00000000
[2366832.539655] nvme 0000:3c:00.0:    [ 0] RxErr                  (First)
[2380387.918974] pcieport 0000:00:1d.0: AER: Corrected error received: 0000:00:1d.0
[2380387.919072] pcieport 0000:00:1d.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[2380387.919087] pcieport 0000:00:1d.0:   device [8086:9d18] error status/mask=00000001/00002000
[2380387.919103] pcieport 0000:00:1d.0:    [ 0] RxErr                  (First)

И вы точно не хотите такое на сервере (хоть на nvme нет ошибок).

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.