Colobridge WIKI

определение необходимости замены hdd

Применимость: SSD, SAS,SATA

Слова для поиска:


Как определить нужна ли замена диска?

Эта статья не определяет строгий регламент замены дисков. Используйте эту информацию к сведению.

Разумеется вы хотите чтобы ваши диски никогда не отказывали, но увы это может случиться рано или поздно. Чтобы снизить вероятность потери данных рекомендуется использовать отказоустойчивые конфигурации RAID с различными алгоритмами избыточности. Однако даже при этих условиях отказы вероятны.

Вы можете встретить рекомендации о профилактической замене дисков как можно чаще, но это не всегда верно.

Надо учесть, что интенсивность отказов электронных компонентов (отношение числа отказавших объектов в единицу времени к среднему числу объектов, исправно работающих в данный отрезок времени) неравномерно распределяются по времени

Типичная зависимость интенсивности отказов от времени: I — влияние скрытых дефектов, период приработки и отказов некачественных изделий; II — период нормальной эксплуатации; III — период старения (отказы вызваны износом деталей, диффузией или старением материалов)

Потому новый диск может оказаться менее надежным чем тот, что уже был в эксплуатации. И разумеется следует избегать использования для важных данных устройств с признаками старения.

Для определения текущего состояния диска мы рекомендуем использовать утилиты производителя диска:

  • Intel® SSD Toolbox
  • Seagate SeaTools
  • HGST Windows Drive Fitness Test

Для определения статуса диска обычно используется технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя - S.M.A.R.T. (англ. self-monitoring, analysis and reporting technology)

ID# ATTRIBUTE_NAME FLAG TYPE UPDATED WHEN_FAILED

В отчетах S.M.A.R.T. содержатся данные:

  • ID# — идентификационный номер. Каждый атрибуты имеет уникальный ID, который должен быть одинаковым для всех фирм производителей дисков.
  • ATTRIBUTE_NAME – название атрибута. Так как разные фирмы производители дисков могут называть атрибуты по своему (сокращать, синонимы), лучше всего ориентироваться по ID атрибута.
  • VALUE - текущее значение метрики
  • THRESH - минимальное пороговое значения метрики
  • WORST - самое худшее значение метрики за все время работы накопителя
  • RAW_VALUE - абсолютное значение метрики
  • TYPE - некоторые из программ в данном необязательном поле отображают информацию из флажков атрибутов или признаки их критичности (Critical или Pre-Fail , отражающих ухудшение характеристик оборудования, и Old-age для атрибутов, отражающих выработку ресурса);

Из таблицы SSD дисков INTEL

ID# ATTRIBUTE_NAME Вес Описание Примечания
5 Reallocated_Sector_Ct 2 Число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным» и переносит данные в специально отведённую резервную область. Этот процесс называют remapping, а переназначенный сектор — remap. У разных производителей разный порог для замены, но при значении счетчика более 10 или при быстром росте пора беспокоится о замене
9 Power_On_Hours_and_Msec 0 Число часов (минут, секунд — в зависимости от производителя), проведённых во включенном состоянии. Для вычисления реального времени работы некоторых SSD INTEL из значения Power_On_Hours_and_Msec надо вычесть 894794. Например видим 928307h. 928307- 894794 = 33513 часов или 1396 дней. Большие значения не означают неисправность. Многие диски работают по 10 и больше лет
10 Spin_Retry_Count 2 количество повторов запуска шпинделя, если первая попытка оказалась неудачной Основные причины увеличения параметра — плохой контакт диска с БП или неспособность БП выдать нужный ток для питания диска.
11 Calibration_Retry_Count 0 содержит количество повторных попыток сброса накопителя (установки БМГ на нулевую дорожку) при неудачной первой попытке Косвенно говорит о здоровье диска. Чем больше значение — тем хуже. Однако нельзя однозначно судить о здоровье диска по этому параметру, не рассматривая другие атрибуты.
196 Reallocated_Event_Count 2 количество операций переназначения секторов Обычно совпадает с параметром 5
197 Current_Pending_Sector 1 Число секторов, являющихся кандидатами на замену. Cчитывание с них отличается от чтения стабильного сектора, это так называемые подозрительные сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения (remapping). Рост значения может говорить о физической деградации жёсткого диска.
198 Offline_Uncorrectable 2 означает то же самое, что и атрибут 197, но отличие в том, что данный атрибут содержит количество секторов-кандидатов, обнаруженных при одном из видов самотестирования диска — оффлайн-тестировании, которое диск запускает в простое в соответствии с параметрами, заданными прошивкой Ненулевое значение говорит о неполадках на диске (точно так же, как и 197, не конкретизируя, кто виноват).
201 Soft_Read_Error_Rate 1 частота программных ошибок при операциях чтения.
232 Available_Reservd_Space 0 Количество оставшихся резервных блоков. Нормализованное значение начинается со 100, что соответствует 100% доступности зарезервированного пространства. Пороговое значение для этого атрибута составляет 10%.
233 Media_Wearout_Indicator 0 Для SSD-дисков этот атрибут интерпретируется как Remaining Life - указатель износа носителя. Количество циклов работы носителя NAND. Линейно снижается от 100 до 1 по мере увеличения среднего количества циклов стирания от 0 до максимального. Нормализованное значение перестанет уменьшаться после достижения 1, но, по всей вероятности, устройство выдержит значительный дополнительный износ. Косвенно говорит о здоровье диска. Однако нельзя однозначно судить о здоровье диска по этому параметру, не рассматривая другие атрибуты.
241 Host_Writes_32MiB 0 Общее количество записанных секторов LBA. Значение Raw Value : совокупное количество секторов, записанных системой. Значение увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой.
242 Host_Reads_32MiB 0 Общее количество прочитанных секторов LBA. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), прочитываемых системой.
249 NAND_Writes_1GiB 0 Total NAND Writes. Raw value reports the number of writes to NAND in 1 GB increments. Соотношение значений счетчиков 249 и 241 указывает на коэффициент усиления записи

Весовые значения параметров - чем больше тем важнее. Значение 0 определено для параметров имеющих в основном статистическое значение.

У SSD дисков есть ограничение на количество циклов перезаписи. Производители для разных моделей иногда сообщают о лимите от 3000 до 100000 циклов. А параметры 233, 241, 242, 249 позволяют оценить какая часть этого ресурса уже использована.

Многие значения S.M.A.R.T. сами по себе не дают оснований для замены. Например, если фирменная утилита производителя диска выдает сообщение S.M.A.R.T. Status: Good или значения Value либо Worst атрибута будут больше Threshold сервис-центры могут отказываться признавать диск неисправным. Однако быстрый рост счетчиков ошибок не дает оснований для оптимизма и диск таки лучше заменить.

  • BIOS или RAID-контроллер не обнаруживает или не распознает жесткий диск
  • Диск издает резкий звук и щелчки при работе.
  • Возраст диска более 10 лет.
  • Производительность диска значительно снижена и вы отмечаете большие задержки.
  • Если утилита производителя диска сообщает о неисправности диска.
  • Если значение счетчиков Value или Worst атрибута будут меньше порога Threshold
  • Значение счетчика 232 достигло 10.
  • Счетчики 5, 10, 11, 196, 197, 198, 201 растут в таблице S.M.A.R.T..
  • Значение счетчика 9 более более 43800h. (Примечание: для SSD INTEL вычесть из значения счетчика 894794)
  • Значение счетчика 233 для SSD достигло 50

Иногда причиной проблем с дисками могут быть соединительные кабели, разъемы, драйверы контроллера, прошивка RAID контроллера, SAS Expander и прочие промежуточные элементы.