порядок действий при отказе диска в raid

Слова для поиска: failure fail


Задача:

Как действовать в случе выхода из строя диска чтобы ничего не испортить

Решение:

  1. Отключаем отказавший винт, вытаскиваем из сервера.
  2. Подключаем отказавший винт к «просто» SCSI-контроллеру (HBA, не RAID) и проверяем утилитой вендора винта.
  3. Если винт исправен - подключаем его обратно и делаем Rebuild, либо, если был hot-spare - помечаем как hot-spare именно этот винт.Если неисправен - меняем на заведомо исправный, потом делаем то, что описано выше в п.3 для исправного.
  4. Очень желательно - выполняем Check Consistency/Verify/как оно еще называется у вендоров, смысл - проверка целостности массива.

Ни в коем случае нельзя

- Нельзя вытаскивать и быстро вставлять обратно винт: помните, и у контроллера, и у SAF-TE процессора корзины есть время между опросом винтов, и если Вы умудритесь сделать описанное выше за меньшее, чем это, время - реакция контроллера может быть непредсказуемой: с большой вероятностью массив просто развалится. Просто подождите от 30 секунд до минуты, прежде чем совать винт обратно. - Переставлять на Degraded или Failed массиве винты местами: Drive Roaming позволяет контроллеру опознавать принадлежность винтов к конкретным массивам при смене SCSI ID - не работает, и если Вы забудете, где какой винт стоял (а это, поверьте, совсем не сложно) - убьете информацию на массиве гарантированно.

Ссылки: