Применимость: SSD, SAS,SATA
Слова для поиска:
Как определить нужна ли замена диска?
Эта статья не определяет строгий регламент замены дисков. Используйте эту информацию к сведению.
Разумеется вы хотите чтобы ваши диски никогда не отказывали, но увы это может случиться рано или поздно. Чтобы снизить вероятность потери данных рекомендуется использовать отказоустойчивые конфигурации RAID с различными алгоритмами избыточности. Однако даже при этих условиях отказы вероятны.
Вы можете встретить рекомендации о профилактической замене дисков как можно чаще, но это не всегда верно.
Надо учесть, что интенсивность отказов электронных компонентов (отношение числа отказавших объектов в единицу времени к среднему числу объектов, исправно работающих в данный отрезок времени) неравномерно распределяются по времени
Типичная зависимость интенсивности отказов от времени: I — влияние скрытых дефектов, период приработки и отказов некачественных изделий; II — период нормальной эксплуатации; III — период старения (отказы вызваны износом деталей, диффузией или старением материалов)
Потому новый диск может оказаться менее надежным чем тот, что уже был в эксплуатации. И разумеется следует избегать использования для важных данных устройств с признаками старения.
Для определения текущего состояния диска мы рекомендуем использовать утилиты производителя диска:
Для определения статуса диска обычно используется технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя - S.M.A.R.T. (англ. self-monitoring, analysis and reporting technology)
ID# ATTRIBUTE_NAME FLAG TYPE UPDATED WHEN_FAILED
В отчетах S.M.A.R.T. содержатся данные:
Из таблицы SSD дисков INTEL
ID# | ATTRIBUTE_NAME | Вес | Описание | Примечания |
---|---|---|---|---|
5 | Reallocated_Sector_Ct | 2 | Число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным» и переносит данные в специально отведённую резервную область. Этот процесс называют remapping, а переназначенный сектор — remap. | У разных производителей разный порог для замены, но при значении счетчика более 10 или при быстром росте пора беспокоится о замене |
9 | Power_On_Hours_and_Msec | 0 | Число часов (минут, секунд — в зависимости от производителя), проведённых во включенном состоянии. | Для вычисления реального времени работы некоторых SSD INTEL из значения Power_On_Hours_and_Msec надо вычесть 894794. Например видим 928307h. 928307- 894794 = 33513 часов или 1396 дней. Большие значения не означают неисправность. Многие диски работают по 10 и больше лет |
10 | Spin_Retry_Count | 2 | количество повторов запуска шпинделя, если первая попытка оказалась неудачной | Основные причины увеличения параметра — плохой контакт диска с БП или неспособность БП выдать нужный ток для питания диска. |
11 | Calibration_Retry_Count | 0 | содержит количество повторных попыток сброса накопителя (установки БМГ на нулевую дорожку) при неудачной первой попытке | Косвенно говорит о здоровье диска. Чем больше значение — тем хуже. Однако нельзя однозначно судить о здоровье диска по этому параметру, не рассматривая другие атрибуты. |
196 | Reallocated_Event_Count | 2 | количество операций переназначения секторов | Обычно совпадает с параметром 5 |
197 | Current_Pending_Sector | 1 | Число секторов, являющихся кандидатами на замену. Cчитывание с них отличается от чтения стабильного сектора, это так называемые подозрительные сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения (remapping). | Рост значения может говорить о физической деградации жёсткого диска. |
198 | Offline_Uncorrectable | 2 | означает то же самое, что и атрибут 197, но отличие в том, что данный атрибут содержит количество секторов-кандидатов, обнаруженных при одном из видов самотестирования диска — оффлайн-тестировании, которое диск запускает в простое в соответствии с параметрами, заданными прошивкой | Ненулевое значение говорит о неполадках на диске (точно так же, как и 197, не конкретизируя, кто виноват). |
201 | Soft_Read_Error_Rate | 1 | частота программных ошибок при операциях чтения. | |
232 | Available_Reservd_Space | 0 | Количество оставшихся резервных блоков. Нормализованное значение начинается со 100, что соответствует 100% доступности зарезервированного пространства. | Пороговое значение для этого атрибута составляет 10%. |
233 | Media_Wearout_Indicator | 0 | Для SSD-дисков этот атрибут интерпретируется как Remaining Life - указатель износа носителя. Количество циклов работы носителя NAND. Линейно снижается от 100 до 1 по мере увеличения среднего количества циклов стирания от 0 до максимального. Нормализованное значение перестанет уменьшаться после достижения 1, но, по всей вероятности, устройство выдержит значительный дополнительный износ. | Косвенно говорит о здоровье диска. Однако нельзя однозначно судить о здоровье диска по этому параметру, не рассматривая другие атрибуты. |
241 | Host_Writes_32MiB | 0 | Общее количество записанных секторов LBA. Значение Raw Value : совокупное количество секторов, записанных системой. | Значение увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой. |
242 | Host_Reads_32MiB | 0 | Общее количество прочитанных секторов LBA. | Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), прочитываемых системой. |
249 | NAND_Writes_1GiB | 0 | Total NAND Writes. Raw value reports the number of writes to NAND in 1 GB increments. | Соотношение значений счетчиков 249 и 241 указывает на коэффициент усиления записи |
Весовые значения параметров - чем больше тем важнее. Значение 0 определено для параметров имеющих в основном статистическое значение.
У SSD дисков есть ограничение на количество циклов перезаписи. Производители для разных моделей иногда сообщают о лимите от 3000 до 100000 циклов. А параметры 233, 241, 242, 249 позволяют оценить какая часть этого ресурса уже использована.
Многие значения S.M.A.R.T. сами по себе не дают оснований для замены. Например, если фирменная утилита производителя диска выдает сообщение S.M.A.R.T. Status: Good или значения Value либо Worst атрибута будут больше Threshold сервис-центры могут отказываться признавать диск неисправным. Однако быстрый рост счетчиков ошибок не дает оснований для оптимизма и диск таки лучше заменить.
Иногда причиной проблем с дисками могут быть соединительные кабели, разъемы, драйверы контроллера, прошивка RAID контроллера, SAS Expander и прочие промежуточные элементы.