Поскольку твердотельные накопители на основе технологии флэш-памяти становятся основным средством постоянного хранения данных в центрах обработки данных, важно понимать, насколько они надежны.
На сегодняшний день проведено большое количество лабораторных исследований микросхем флэш-памяти с использованием синтетических тестов, однако информация об их поведении в полевых условиях отсутствует. Эта статья основана на результатах масштабного полевого исследования, охватывающего миллионы дней использования жестких дисков, 10 различных моделей твердотельных накопителей, различных технологий флэш-памяти (MLC, eMLC, SLC) и более 6 лет оперативного использования в данных Google. центры.
Мы рассмотрели широкий спектр характеристик надежности этих устройств и пришли к ряду неожиданных выводов.
Например, по мере изнашивания диска частота необработанных битовых ошибок (RBER) увеличивается гораздо медленнее, чем можно было бы предположить с помощью экспоненциальной скорости, и, что более важно, она не позволяет предсказать появление неисправимых ошибок или других типов ошибок.
Широко используемый показатель UBER (частота неисправимых битовых ошибок) не является значимым показателем надежности, поскольку мы не увидели взаимосвязи между количеством операций чтения и количеством неисправимых ошибок.
Мы также не нашли доказательств того, что диски на основе одноуровневой архитектуры SLC более надежны, чем диски MLC, в течение обычного срока службы твердотельного накопителя.
По сравнению с традиционными жесткими дисками твердотельные накопители на базе флэш-памяти имеют значительно более низкую скорость замены, но у них более высокий уровень неисправимых ошибок.
1. Введение
Популярность использования твердотельных флэш-накопителей на основе технологии NAND в дата-центрах постоянно растет. Чем больше данных можно разместить на таком диске, тем больше сохранность и доступность информации зависит от надежности самой флешки.Хотя преимущества твердотельных накопителей в производительности по сравнению с жесткими дисками хорошо известны, характеристики отказов флэш-накопителей недостаточно изучены.
Данные, предоставленные производителями флэш-памяти, дают лишь расплывчатые гарантии, такие как количество циклов стирания до полного износа устройства.
Типичное понимание вопроса основано на исследованиях, проверяющих надежность флэш-накопителей посредством контролируемых лабораторных экспериментов (например, ускоренных испытаний на выносливость).
Он использует небольшое количество случайно выбранных устройств для тестирования синтетических рабочих нагрузок.
Недостаточно исследований, связывающих результаты лабораторных испытаний с надежностью флэш-накопителей в реальных условиях использования.
В этой статье представлены подробные результаты полевого исследования надежности флеш-накопителей на основе данных, собранных за 6 лет их эксплуатации в дата-центрах Google. Эти данные охватывают миллионы дней жизни накопителей (точное количество накопителей и использующих их устройств является конфиденциальной информацией для Google, поэтому мы не можем предоставить точные цифры.
Однако мы смогли проверить статистическую значимость предоставленных нам данных), десять разных моделей флешек, различные флэш-технологии (MLC, eMLC и SLC) с техпроцессом от 24 до 50 нм.
Мы использовали эти данные, чтобы лучше понять надежность работы флэш-памяти.
В частности, мы проанализировали следующие аспекты надежности устройства:
- Различные типы ошибок, возникающих во флеш-памяти и частота их появления в полевых условиях (раздел 3).
- Коэффициент битовых ошибок (RBER), как на него влияют такие факторы, как износ, возраст диска и рабочая нагрузка, а также как RBER связан с другими типами ошибок (раздел 4).
- Неисправимые ошибки, их частота и влияние на них различных факторов (раздел 5).
- Полевые характеристики различных типов отказов оборудования, включая сложные отказы, отказы микросхем, а также показатели ремонта и замены дисков (раздел 6).
- 5. Сравнение надежности различных флэш-технологий (MLC, eMLC, SLC накопителей) (раздел 7) и сравнение надежности SSD и HDD (раздел 8).
Мы надеемся, что наша работа послужит стимулом для дальнейших исследований в этой области.
Таблица 1. Характеристики модулей, принявших участие в полевых испытаниях.
2. Справочная информация о данных и системах
2.1. Флэш-накопители
В нашем исследовании использовались готовые высокопроизводительные SSD-накопители на базе коммерческих флэш-чипов, но мы использовали специальный интерфейс PCIe, специальную прошивку и драйвер.Мы сосредоточились на двух поколениях накопителей, где все накопители одного поколения используют один и тот же драйвер устройства и одну и ту же прошивку.
Это означает, что они также используют одни и те же коды коррекции ошибок (ECC) для обнаружения и исправления дефектных битов и одни и те же алгоритмы обнаружения износа.
Основное различие между моделями накопителей одного поколения заключается в типе используемого чипа памяти.
Наше исследование было сосредоточено на 10 моделях накопителей, основные характеристики которых приведены в таблице 1. Мы выбрали модели четырех производителей, каждый из которых имел несколько миллионов дней эксплуатации, с использованием трех наиболее распространенных типов флэш-памяти (MLC, SLC, ЭМЛЦ).
2.2. Используемые данные
Мы использовали данные ежедневного мониторинга флешек в полевых условиях за 6-летний период эксплуатации.Кроме того, ежедневно подсчитывались различные типы ошибок, составлялась статистика загруженности, включая количество операций записи и стирания, а также подсчитывалось количество сбойных блоков, возникающих в течение дня.
В число операций чтения, записи и стирания входило как количество пользовательских операций, так и количество внутренних сервисных операций по «сборке мусора».
Записи также использовались для фиксации случаев выхода из строя чипов, а также случаев ремонта или замены SSD.
3. Распространенность разных типов ошибок
Начнем с некоторой базовой статистики о частоте различных типов ошибок в этой области.Мы различаем прозрачные ошибки, которые не заметны для пользователя, и непрозрачные ошибки, которые приводят к сбою операций пользователя.
Драйвер флешки сообщает о следующих типах прозрачных ошибок: Исправляемая ошибка: во время операции чтения обнаруженная ошибка исправляется встроенной функцией коррекции ошибок ECC.
- Ошибка чтения: ошибка, возникающая в процессе чтения (для памяти без исправления ошибок без ECC), исправляемая при повторном чтении;
- Ошибка записи: операция записи не удалась и завершилась успешно после повторной попытки.
- Ошибка стирания: операция стирания блока завершилась неудачно.
- Неисправимая ошибка: во время операции возникает больше поврежденных битов, чем ECC может исправить.
- Ошибка финального чтения: ошибка, возникшая при чтении, не исправляется повторными попытками;
- Ошибка финальной записи: ошибка, возникшая при записи, не исправляется после повторных попыток;
- Мета-ошибка Мета-ошибка: ошибка доступа к метаданным внутреннего диска.
- Ошибка таймаута: операция прерывается через 3 секунды.
Обратите внимание, что ошибки различаются по серьезности воздействия.
Помимо разницы между прозрачными и непрозрачными ошибками, различается серьезность самих непрозрачных ошибок.
В частности, некоторые из этих ошибок (фатальная ошибка чтения, неисправимая ошибка, метаошибка) приводят к потере данных, если в системе нет избыточности на более высоких уровнях, поскольку диск не может предоставить пользователю данные, принятые на хранение.
Мы рассматривали только накопители, выпущенные не менее 4 лет назад (накопители eMLC были выпущены 3 года назад, поскольку это более новый тип флэш-накопителей), а также ошибки, возникшие в течение первых 4 лет использования.
В таблице 2 показана доля каждой модели накопителя, которая была подвержена различным типам ошибок, если эти ошибки возникали хотя бы один раз (верхняя половина таблицы), а также доля дней использования, в течение которых накопители были подвержены ошибкам определенного типа.
ошибка (нижняя половина таблицы).
Таблица 2. Распространенность различных типов ошибок.
В верхней половине таблицы показана доля дисков, на которых возникли ошибки; нижняя половина показывает долю дней использования дисков, в течение которых возникали ошибки различного типа.
3.1. Непрозрачные ошибки
Мы считаем, что наиболее распространенными непрозрачными ошибками являются ошибки окончательного чтения, т. е.ошибки, которые невозможно исправить повторением операции чтения.
В зависимости от модели диска не менее 20–63% устройств сталкивались с этой ошибкой в течение 2–6 дней из 1000 дней использования диска.
Мы пришли к выводу, что количество окончательных ошибок чтения сильно коррелирует с количеством неисправимых ошибок и что эти окончательные ошибки чтения происходят исключительно потому, что повреждение битов не может быть исправлено с помощью ECC. Для всех моделей дисков ошибки окончательного чтения возникают на 2 порядка чаще (в зависимости от количества дней использования дисков, когда возникли эти ошибки), чем любой другой тип непрозрачных ошибок.
В отличие от ошибок чтения, ошибки записи редко превращаются в непрозрачные ошибки.
В зависимости от модели только у 1,5-2,5% дисков возникала постоянная ошибка записи в течение 1-4 дней из 10 000 дней использования, т.е.
неудачная операция записи, которая не была исправлена после повторных попыток.
Эта разница в окончательной частоте ошибок чтения и записи, вероятно, связана с тем, что неудачная операция записи была просто исправлена путем записи в другое место на диске в область с неповрежденными битами.
Таким образом, хотя сбой операции чтения может быть вызван всего несколькими ошибочными битами, постоянный сбой записи указывает на более серьезную аппаратную проблему.
Мета-ошибки возникают с частотой, сравнимой с частотой ошибок записи, но опять же гораздо реже, чем ошибки окончательного чтения.
Это неудивительно, учитывая, что диск содержит гораздо меньше метаданных, чем объем реальных данных, что снижает количество ошибок доступа к метаданным.
Другие непрозрачные ошибки (ошибки тайм-аута и ошибки ответа) встречаются довольно редко и обычно затрагивают менее 1% дисков в течение 1 дня из 100 000 дней жизни диска.
3.2. Прозрачные ошибки
Неудивительно, что исправимые ошибки являются наиболее распространенным типом прозрачных ошибок.Практически все накопители имеют как минимум несколько исправимых ошибок, которые возникают на протяжении большей части срока службы накопителя (61–90%).
Исправления ошибок, включая исследования частоты ошибок по битам (RBER), более подробно обсуждаются в разделе 4 этой статьи.
Следующими наиболее распространенными типами прозрачных ошибок являются ошибки записи и стирания.
Обычно они встречаются у 6-10% накопителей, но у некоторых моделей SSD достигают целых 40-68%.
В большинстве случаев подобные ошибки возникают менее чем через 5 дней из 10 000 дней эксплуатации.
Согласно нашим исследованиям, ошибки записи и стирания указывают на повреждение блока; этот вопрос подробно обсуждается в разделе 6. Ошибки, возникающие во время операций чтения, встречаются реже, чем прозрачные ошибки, вероятно, потому, что, за исключением оперативного исправления ошибок с использованием ECC, проблема не устраняется повторными операциями.
Ошибки неполного чтения, т. е.
ошибки чтения, которые можно исправить повторными попытками, возникают менее чем у 2% накопителей и длятся менее 2–8 дней из 100 000 дней жизни диска.
В результате, помимо исправимых ошибок, возникающих за большое количество дней жизни диска, прозрачные ошибки возникают реже по сравнению со всеми типами непрозрачных ошибок.
Самый распространенный тип непрозрачных ошибок — это неисправимые ошибки, которые возникают 2–6 дней из 1000 дней жизни диска.
4. Коэффициент битовых ошибок (RBER)
Стандартной метрикой, используемой для оценки надежности флэш-накопителей, является коэффициент битовых ошибок накопителя (RBER), определяемый как отношение количества поврежденных битов к количеству прочитанных битов (включая случаи как исправимых, так и неисправимых ошибок).Второе поколение накопителей (модели eMLC-A и eMLC-B) обеспечивает точное количество поврежденных и прочитанных битов, что позволяет с высокой точностью определять RBER. Диски первого поколения сообщают точное количество прочитанных битов, но для каждой страницы из 16 блоков данных в качестве количества поврежденных бит указывается только тот блок данных, который имел наибольшее количество поврежденных битов.
В результате в наихудшем статистическом случае, когда все блоки содержат ошибки и количество ошибок одинаково, коэффициент RBER может быть в 16 раз выше, чем показатель, полученный из отчета о работоспособности диска.
Этот вопрос не имеет большого значения, пока сравниваются накопители одного поколения, но его следует учитывать при сравнении накопителей разных поколений.
Таблица 3. Сводная частота ошибок по битам RBER для различных моделей твердотельных накопителей.
4.1. Рассмотрение RBER на высоком уровне
В таблице 3 показано медианное значение RBER для каждой модели накопителя для всех накопителей в этой модели, а также 95-й и 99-й процентили.Мы решили работать с медианами и процентилями, поскольку обнаружили, что средние значения сильно искажаются из-за нескольких выбросов, что затрудняет выявление каких-либо тенденций.
Мы видим большие различия в RBER для разных моделей накопителей: от 5,8e-10 до более чем 3e-08 для накопителей первого поколения.
Эти различия становятся еще больше, если рассматривать не медианное значение RBER, а 95-й или 99-й процентиль.
Например, 99-й процентиль RBER варьируется от 2,2e-08 для модели SLC-B до 2,7e-05 для модели MLC-D. Даже внутри линейки приводов одной и той же модели существуют большие различия: RBER накопителя на 99-м процентиле имеет тенденцию быть как минимум на порядок выше, чем медианный RBER накопителя той же модели.
Разницу в RBER между моделями можно частично объяснить различиями в базовой технологии флэш-памяти.
Значение RBER моделей MLC выше, чем у моделей SLC, поэтому более высокая цена моделей SLC учитывает более низкое значение RBER. В разделе 5 этой статьи мы увидим, как эти различия приводят к различиям в непрозрачных ошибках, видимых пользователю.
Модели eMLC сообщают о значениях RBER, которые на несколько порядков выше, чем у других моделей накопителей.
Даже с учетом того, что RBER накопителей первого поколения в худшем случае может быть в 16 раз выше, существующая разница коэффициентов на порядок больше.
Мы подозреваем, что здесь имеет значение размерный фактор, поскольку две модели eMLC имеют самые маленькие микроэлектронные литографические чипы среди всех других моделей приводов.
Наконец, нет ни одного производителя, продукция которого имела бы преимущества перед продукцией других производителей.
В группе накопителей SLC и eMLC один и тот же производитель производит как одну из худших, так и одну из лучших моделей в группе.
В общем, RBER сильно различается между разными моделями накопителей, а также между SDD одной и той же модели.
Это мотивирует нас к дальнейшему изучению факторов, влияющих на RBER.
4.2. Какие факторы влияют на значение RBER
В этом разделе мы рассмотрим влияние на RBER ряда факторов:- износ, вызванный циклами программирования/стирания (PE);
- физический возраст, т.е.
количество месяцев, в течение которых устройство эксплуатировалось в полевых условиях, независимо от циклов Ф?;
- рабочая нагрузка, измеряемая количеством операций чтения, записи и стирания, а также количеством операций на страницу, которые потенциально могут повредить окружающие ячейки памяти;
- наличие других типов ошибок.
Мы использовали визуальные доказательства, построив график влияния факторов на RBER, и исследовали количественные показатели влияния с помощью коэффициента корреляции.
Мы использовали коэффициент ранговой корреляции Спирмена, поскольку он может фиксировать монотонные нелинейные зависимости в непараметрических методах, в отличие, например, от коэффициента корреляции Пирсона.
Прежде чем детально проанализировать отдельные факторы, мы создали сводный график, показанный на рисунке 1.
Рис.
1. Зависимость коэффициента ранговой корреляции Спирмена между значением RBER в течение месяца эксплуатации диска и другими факторами.
Это показывает взаимосвязь между коэффициентом ранговой корреляции Спирмена между значением RBER в течение месяца жизни диска и такими факторами, как количество предыдущих циклов PE, количество операций чтения, записи или стирания в этом месяце, значение RBER в предыдущем месяце.
и количество неисправимых ошибок (UE) в этом месяце.
предыдущий месяц.
Значение коэффициента ранговой корреляции Спирмена может варьироваться от -1 (сильная отрицательная корреляция) до +1 (сильная положительная корреляция).
Каждая группа меток показывает коэффициенты корреляции между RBER и одним конкретным фактором (см.
расшифровку оси X), а разные метки в каждой группе соответствуют различным моделям привода.
Все коэффициенты корреляции заслуживают доверия более 95%.
Мы убедились, что все факторы, за исключением возникновения неисправимых ошибок в предыдущем месяце, демонстрируют четкую связь с RBER, по крайней мере, для некоторых моделей.
Мы также отметили, что некоторые из этих взаимосвязей могут быть ложными, поскольку некоторые факторы могут коррелировать друг с другом, поэтому мы рассмотрели каждый фактор более подробно в следующем подразделе.
4.2.1. RBER и износ
Поскольку срок службы ячейки флэш-памяти ограничен, RBER увеличивается с увеличением циклов программирования/стирания (PE).Высокие коэффициенты корреляции между циклами RBER и PE на рисунке 2 свидетельствуют об их взаимосвязи.
Рис.
2. Зависимость медианы и 95-го процентиля RBER от количества циклов Ф?.
Рисунок 2 позволяет более детально рассмотреть зависимость медианы и 95-го процентиля RBER от количества циклов PE. Мы получили эти графики, разделив все дни в пути в наших данных по различным контейнерам на основе количества циклов PE, а затем определили медиану и 95-й процентиль RBER для всех дней эксплуатации в контейнере.
Как и ожидалось, мы подтвердили, что RBER увеличивается с увеличением количества циклов PE, как с точки зрения медианы, так и 95-го процентиля RBER. Однако темпы роста медленнее, чем обычно предполагаемый экспоненциальный рост, и больше напоминают линейный рост. Мы проверили это наблюдение посредством подбора кривой: мы подобрали к данным линейную и экспоненциальную модели и обнаружили, что линейная модель подходит лучше, чем экспоненциальная модель.
Второе интересное наблюдение заключается в том, что значения RBER износа значительно различаются среди разных моделей дисков, даже среди тех моделей, которые имеют очень схожие значения RBER для циклов с низким PE. Например, четыре модели MLC работали с почти одинаковым RBER при очень низких циклах PE, но к тому времени, когда они достигли предела циклов PE (3000 для всех моделей MLC), между самым высоким и самым низким RBER модели возникла четырехкратная разница.
Наконец, мы обнаружили, что увеличение RBER происходит удивительно плавно, даже когда диск пересекает ожидаемую линию окончания срока службы (см.
, например, модель MLC-D с предельным циклом PE = 3000).
Обратите внимание, что ускоренные тесты на долговечность показали быстрый рост RBER только после достижения в 3 раза предела цикла PE, установленного производителем устройства, что говорит о том, что поставщики очень консервативны в выборе предела цикла PE. Продолжение следует здесь.
Спасибо, что остаетесь с нами.
Вам нравятся наши статьи? Хотите увидеть больше интересных материалов? Поддержите нас, разместив заказ или порекомендовав друзьям, Скидка 30% для пользователей Хабра на уникальный аналог серверов начального уровня, который мы придумали для вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от 20$ или как правильно раздать сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40 ГБ DDR4).
Dell R730xd в 2 раза дешевле? Только здесь 2 x Intel TetraDeca-Core Xeon, 2 x E5-2697v3, 2,6 ГГц, 14C, 64 ГБ DDR4, 4 твердотельных накопителя по 960 ГБ, 1 Гбит/с, 100 ТВ от 199 долларов США в Нидерландах! Dell R420 — 2x E5-2430, 2,2 ГГц, 6C, 128 ГБ DDR3, 2 твердотельных накопителя по 960 ГБ, 1 Гбит/с, 100 ТБ — от 99 долларов США! Прочтите об этом Как построить корпоративную инфраструктуру класса, используя серверы Dell R730xd E5-2650 v4 стоимостью 9000 евро за копейки? Теги: #Хостинг #it-инфраструктура #Хранение данных #Устройства хранения данных #флэш-память
-
Что Такое Панель Инструментов Google?
19 Oct, 24 -
Нка: Игры Без Знания Планов Других
19 Oct, 24 -
Избавление От Иллюзий
19 Oct, 24