Как стать автором
Обновить

Backblaze: надёжность жёстких дисков падает год от года. Это актуально для HDD большинства производителей

Время на прочтение 3 мин
Количество просмотров 11K
Всего голосов 49: ↑48 и ↓1 +47
Комментарии 67

Комментарии 67

Можно подумать что у SSD надёжность растёт.

Растет, но, конечно, не у всех.

Samsung, XPG. Qumo - каждый 10 в первый же год на мусорку. C HDD я такого не припомню.

WD тоже не айс :(

Seagate Barracuda? Первые партии были очень ломучие, при чем в короткий срок.

C HDD я такого не припомню.

А у меня до сих пор лежит мёртвый DTLA для напоминания. И Seagate ES 1ТБ из "той самой" серии (которая была с косячной прошивкой) есть - он сдох, но был восстановлен.

Растёт, но надёжность SSD до надёжности HDD все равно существенно не дотягивает. Именно потому HDD продолжают использоваться несмотря на форсинг SSD.

Я в бизнесе энтерпрайзных дисковых хранилищ в этом году будет уже 20 лет, и лет наверное 12 как наблюдаю за SSD. Статистика, показывающая более высокую надежность SSD над HDD основывается как на вендорских данных, так и на независимых научных исследованиях, на популяциях в сотни тысяч дисков, как тех, так и других. Вот уже как минимум 10 лет как SSD надежнее HDD.
А у вас откуда источники ваших утверждений? "Личное наблюдение"? ;)

Полагаю абсолютное большинство хабровчан сталкиваются с consumer models. Не удивлюсь, если "личная статистика" отличается от серверных моделей.

Но вон Backblaze принципиально использует только consumer-grade, и у них, несмотря на то, что количество SSD у них не так велико, как количество HDD, результаты ненамного отличаются от уже упомянутых, SSD по уровню отказов лучше, чем HDD.

Если брать серверные модели SSD, то стоимость терабайта сразу начинает сильно кусаться.

Но Backblaze не использует "серверные модели SSD".

К тому же "серверные модели" технически мало чем отличаются от "consumer", там обычно другая прошивка, да, что связано с их преимущественным использованием с RAID-контроллерами, ну и условия гарантии другие, оттого выше цена.

Ну про то что технически не отличаются, это вы приукрасили. Консьюмерский самсунговский терабайтник 870 QVO построен на 4битовой QLC и сотрется по TBW через 360ТБ данных. Серверный самсунговский терабайтник SM883 построен на 2битовой MLC и имеет TBW в 5 петабайт. Разница на порядок.

Вообще на профиль нагрузки надо смотреть, какие там в backblaze основные, читать данные - одно, а записывать много на ссд не получится, какая-нить здоровая редиска за неделю снапшотами ссд ушатает.

Backblaze это сервис бэкапов. У них нагрузка на накопители преимущественно типа WORM (write-once-read-many). Им на TBW, мягко скажем, начхать)

А кто все эти люди у которых бэкапы имеют профиль worm? У меня как-то получается что Every day i'm writing, а read, ну там раз в месяц проверить разворачиваемость.

А почему вы берете 870 qvo, а не 860 pro для сравнения?

Хм. Вы уже второй кто приводит в пример 860 прошку, мне ее где-то с полгода назад на пекабе советовали. Хорошие были диски, жалко что в продаже они кончились. Правда цена у них тоже была "повыше" евошек.

Ветка то как раз и началась с тезиса что у ссд чёт роста надёжности не наблюдается.

а для холодных данных (записать, положить на полку) что лучше?

Лента, что-нибудь из последних LTO.

На Хабре была история о том как забытый в помещении без кондиционера ноутбук за лето потерял все данные. :-(

Хранить SSD можно либо в морозилке холодильника, либо включённым.

Хранить данные на микросхемах памяти (флешки, ССД) на полке - плохая идея из-за постепенно разряжающихся и, соответственно, теряющих информацию ячейках. Через несколько месяцев такого лежания очень высока вероятность того, что устройство станет "как из магазина".

Попахивает техносказкой.

Заряд всё равно стекает и это такая вот физика. Но разве контроллер в подключенной флеш памяти занимается восстановлением заряда в ячейках?

Вообще говоря, да, начиная с какого-то момента об этом озаботились. Мало того, иногда он ещё и перезапись выполняет в незанятые ячейки, если при чтении наткнется на ошибку, которую исправит ЕСС (но это ещё позднее запилили).

Вообще говоря, да, начиная с какого-то момента об этом озаботились

Ну и с какого же?

Да много что "такая физика", я про "Через несколько месяцев такого лежания очень высока вероятность" полагаю, что это скорее "сказка про черную руку" ;)

Я правильно понимаю, что SSD для домашних компьютеров и для энтерпрайза это два очень разных SSD с очень разным количеством перезаписей?

С механической точки зрения SSD понадёжнее выглядят... т.к. в них в общем-то вроде и нет никакой механики.

Чтоб ваше утверждение не выглядело голословным, вот данные от тех же Backblaze

Можно подумать что у SSD надёжность растёт.

У нас за последние 5 лет не накрылся ни один ssd, но накрылось уже 5 дисков.
Надоело, в результате сейчас у нас всё на ssd, кроме одного hdd для совсем глубоких бакапов (все же опасаемся утечки заряда на ssd) и одного hdd который куплен лет 8 назад и до сих пор живее всех живых (хотя более свежие все накрылись).
Тут выше упоминали утечку заряда на ssd, скорее всего что-то такое есть, но имхо, в реальности не всё так страшно, есть большой ssd, достаем его с полки раз в квартал для бакапов туда, до сих пор ничего не потерялось на нем (проверяем каждый раз старые записи). Может за полгода-год что-то и случилось бы, но у нас и hdd купленный из последних - за полгода лежания скопытился, гарантийный сервис сказал что что-то там внутри "слиплось" от того, что долго лежал без работы.

Косячные партии/модели всегда были. Включая 100% отказов в течение года.

Выводы высосаны из пальца. Вон, рядом тот же сегейт на 16 терабайт с AFR 0,7% и гигантской статистикой (176 отказов 27433 диска).

Статистика "сверхнадёжного" (0,68%) 6ТБ диска основана на 6 случаях отказов. Разница с 0,7% меньше дискретности измерений. Если через 5 минут после написания отчета сгорит всего 1 диск будет уже 0,8% и выводы статьи будут противоположные.

А делать выводы по 2 (двум) отказам вообще не серьёзно. Они могли в одной коробке лежать которую при погрузке уронили.

Хотя исходные данные любопытны.

А делать выводы по 2 (двум) отказам вообще не серьёзно

Самое смешное, что рядовой юзер обычно делает выводы вообще по одному отказу. Seagate умер → бежит на WD → WD умер → бежит на Toshiba, а дальше по кругу.

Чего далеко ходить, эта тема уже переполнена ценным личным опытом)

"Личный опыт" еще осложнен тем, что, в случае HDD, выбор, строго говоря, есть между WD и Seagate. Ну и Toshiba еще есть немного.
В случае же SSD пользователя, как ни бей по рукам, он тянет в рот себе в комп всякое... И ладно бы какой-нибудь кондовый китайский массмаркет, но ведь и всякие кадавры типа Somnambulist, Anacomda, или вот, находка последнего времени "1080 PRO V-Nand SSD", 2300 рублей за "4TB"

Чуть более продвинутый рядовой юзер ещё иногда в интернет ходит и видит сотню отзывов на то, что умер сигейт и полтора аналогичных отзыва про вд. Ещё более продвинутый смотрит модель, к которой относится отзыв, но это уже не сказать что рядовой.

Чуть более продвинутый рядовой юзер ещё иногда в интернет ходит и видит сотню отзывов на то, что умер сигейт и полтора аналогичных отзыва про вд

А самый продвинутый смотрит на количество продаж, жаль только ему это количество не показывают.

На самом деле некоторый резон купить другой винт (хотябы из другой партии) есть.

Т.к. мы уже купили хард и уже выяснили что он сбойный, то вероятность попасть на косячную партию в этом случае пропорциональна не общему количеству винтов, а количеству сбойных, а она в косячных партиях кратно больше.

Что, конечно, не даёт оснований делать глобальные выводы как в статье.

Ну, не скажите циррозные фуджики и стеклянные дятлы до сих пор помнят...

Пользуюсь Тошиба более 15 лет. Ничего плохого сказать не могу, кроме шума, в отличие от Сигейта, которые во одно время дохли одни за одним. Правда давно было..

Мой Тошиба на 3Гб умер. А черепичный я сам выкинул - пользоваться им невозможно.

У меня в закрытом боксе smr сигейт стоит, не нарадуюсь, тихий, холодный. Остальное всё на 7200 будет :(

Попробуйте гелиевые модели, они тихие. Имел достаточно большой опыт с Тошибой MG/MD серий, не в масштабах бэкблэйз, но тоже в тысячах штук измеряется. Самыми неудачными считаю MG06 10ТБ - и дохли часто и в собранном рейде суммарная скорость не радовала. После перехода на гелиевые MG07 очень положительно отзовусь.

А утечка гелия через какое время приведёт к сбою диска?

Не могу сказать. Пока аптайм 5 лет, каких-либо массовых отказов, которые можно было бы объяснить истечением срока годности гелия, не было. Субъективно дохнут они меньше чем безгелиевые, объективно потому что у них и пробег меньше, у десятилетнего диска явно больше должна быть вероятность поломки при одинаковой нагрузке чем у пятилетнего.

Я если честно так до конца и не понимаю механизм этого гелиевого исхода, он как-то самопроизвольно должен диффузировать из области пониженного давления в область повышенного? А через энный промежуток времени у нас внутри чистый вакуум образуется?

>диффузировать из области пониженного давления в область повышенного?

Для газов имеет значение только парциальное давление. Снаружи у вас именно что гелиевый вакуум :)

Мой опыт: пользуюсь Сигейтами, начиная с Барракуды на своем первом ПК (собран в 2005 и до сих пор работает домашним файловым сервером и при необходимости печатной машинкой- ни единого бэда до сих пор). Сейчас активно использую четыре внешними HDD от Сигейта, купленные один в 2010 и три в 13 году и использующиеся весьма активно - и все так же неплохо. Впрочем, возможно мне везет - у меня за все долгое время общения с компьютерами умер только один HDD (Самсунг какой-то на старом ноуте), и то не до конца - несмотря на почти 400 бэдов и реаллокаций, вполне себе работал, правда, системе это не нравилось - она временами дико тормозила.

>начиная с Барракуды

Ну тогда вы должны знать про "муху сс". Ни один единичный пример "у меня работает" не может ничего сказать о надёжности линейки/фирмы в целом, более того - об её изменении со временем. Тем и ценна стата от бекблейзов.

Так я потому и акцентирую, что это лично мой опыт, и что, наверное, мне повезло. К тому же, про муху, ЕМНИП, стали массово писать году в 2007-2008, а мой Барракуда был ни то 2004, ни то 2005 года производства.
UPD: да, я не ошибся, поглядел, у меня стоит и до сих пор потихоньку работает 7200.9 2005 года, а муха появилась, кажется, в 11 сериях.

Кстати, "муха СС" не фатальная. Я словил ее на одном из моих двух ST3500320NS (Barracuda ES.2). Починил и они у меня еще долго работали, пока не перешел на SSD. До сих пор лежат, вполне рабочие, просто не пользуюсь.

У меня до сих пор даже платка с адаптером валяется для перепрошивки. Времена)

У меня есть старый 500 Гб диск, использую его под фильмы, инсталляторы и прочий активно скачиваемый контент. И всё жду когда он уже сдохнет, а он всё ни как не хочет даже начинать сыпаться. За годы только скорость упала (либо она была изначально такая медленная), что нельзя одновременно смотреть HD фильм и оставлять торрент.

Тут скорее может быть что чтение, условно, на большем радиусе, а запись куда-нибудь ближе к центру, и голове диска приходится всё время летать от края к краю.

Может оказаться так, что торренты сильно фрагментируют диск, резервируя дисковые объемы по чуть-чуть, пока качаются.

Зависит от клиента. Я как-то поставил на закачку 10+ГБ чего-то, на uTorrent 2.2.1, а он мне запросил у винХР 10+ГБ нулей в нескольких файлах, и минуты 4 тупил, пока файлы создавались, но запись потом шла в уже выделенные области файловой системы. Возможно, в более новых клиентах используют под такое sparse files или частичное выделение объема, но по логике не должны, так как в данных торрента по умолчанию нет нулевых кусков.

Обычно можно включить выделение места сразу при начале загрузки, например, в uTorrent называется "Pre-allocate all files". Довольно существенно снижает фрагментацию.

Самая жопа, что два диска из одной линейки, отличающиеся одной буковкой в имени модели, имеют в 4 раза отличающуюся статистику поломок. Я про huh721212ale604 vs huh721212aln604 (сектора 512 vs 4k)

Эта статистика строится из неявного предположения, что все диски Backblaze эксплуатируются в одинаковых условиях. Но это очевидно не так. Как минимум у них разная нагрузка.

Я, на протяжении длительного срока эксплуатировал несколько RAID массивов собранных в одинаковой конфигурации из дисков HGST Travelstar 7K1000 (нынче переименованных в WD).

Эти диски появились на рынке больше 10ти лет назад и производятся/продаются до сих пор.

Первые года три отказов вообще не было. Потом диски стали выходить из строя изредка, и заменяться на новые. Однако, новые диски аналогичной модели стали показывать на порядки большую смертность, и умирали гораздо быстрее и чаще чем старые. И, по мере замены старых дисков на новые, общая частота отказов стала увеличиваться, при том, что большая часть отказов происходила как раз из-за новых дисков.

Проблема усугублялась со временем, и, примерно через 7 лет после начала эксплуатации этих дисков, дальнейшая эксплуатация потеряла всякий смысл. Ибо все новые купленные диски этой модели приходилось менять на новые примерно через полтора-два года эксплуатации.

Экономически оказалось целесообразнее заменить их на недорогие SSD вроде Samsung 860 QVO 2 TB, несмотря на удвоение-утроение стоимости одного терабайта.

Вместо покупки новых экземпляров 7K1000 массив, в котором требовалась замена, при её отсутствии полностью переводился на SSD, а работоспособные диски из этого массива использовались для замены дисков в других массивах, пока не заканчивались.

Таким образом, происходил "естественный отбор" самых живучих экземпляров из которых собран последний, на данный момент, оставшийся в живых массив на 7K1000.

Вот из чего он собран в данный момент:

(smartctl -a /dev/sda & smartctl -a /dev/sdb && smartctl -a /dev/sdc & smartctl -a /dev/sdd & smartctl -a /dev/sde & smartctl -a /dev/sdf & smartctl -a /dev/sdg & smartctl -a /dev/sdh ) | grep 'Power_On_Hours'
  9 Power_On_Hours          0x0012   001   001   000    Old_age   Always       -       87020
  9 Power_On_Hours          0x0012   001   001   000    Old_age   Always       -       73473
  9 Power_On_Hours          0x0012   001   001   000    Old_age   Always       -       81802
  9 Power_On_Hours          0x0012   001   001   000    Old_age   Always       -       81796
  9 Power_On_Hours          0x0012   001   001   000    Old_age   Always       -       81800
  9 Power_On_Hours          0x0012   001   001   000    Old_age   Always       -       87020
  9 Power_On_Hours          0x0012   001   001   000    Old_age   Always       -       87021
  9 Power_On_Hours          0x0012   001   001   000    Old_age   Always       -       81799

Итого, мы можем наблюдать, что самый "новый" из "выживальщиков" имеет больше 8ми лет непрерывной эксплуатации. При этом, большая их часть находится в диапазоне 9-10 лет непрерывной эксплуатации.

Что именно случилось с "новыми" 7K1000 остается только гадать. Но, судя по всему, "надежные" диски пропали где-то 8 лет назад.

Возможно, за 8 лет на RAID нагрузка росла каждый год кратно, но все они дохли условно через 30 ТБ.

Тогда бы в первую очередь умирали самые старые диски в массиве. А умирали, как раз, самые новые.

В чем смысл в рейд втыкать офисные SSD, с ресурсом в 360 полных циклов перезаписи?

В отказоустойчивости. Получается массив с ресурсом 360 полных циклов перезаписи. Самый первый из созданных SSD массивов за три года эксплуатации даже одного полного цикла не прошел. Нагрузка типа WORM, используется в качестве хранилища холодных данных с быстрым доступом на чтение.

Вопрос немного сбоку от темы. А дефрагментация в случае с SSD вообще имеет смысл? Или же она только вредит?

Вместо дефрагментации современные операционки делают TRIM на неиспользуемые области, вот это имеет смысл. Именно дефрагментация больше ресурс износит, чем реально поможет.

>А дефрагментация в случае с SSD вообще имеет смысл? Или же она только вредит?

В целом нет. Она вредит в том смысле, что съедает ресурс флеша, т.к. любая дефрагментация - очень много перемещений с полагающейся write amplification.

Хотите лайфхак? У меня два рабочих ssd. Раз в месяц я подключаю диск с полки и делаю бэкап системного диска ghostом. После чего меняю их местами, диск со свежим бэкапом становится в машину, а старый системный уходит на полку. Три в одном - бэкап, проверка бэкапа и дефрагментация, причём правильная - и на уровне файловой системы, и на уровне транслятора.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.