Надежность флэш-памяти: ожидаемая и неожиданная.
Часть 1. XIV конференция ассоциации USENIX. Технологии хранения файлов
4.2.2. RBER и возраст диска (исключая циклы PE).
На рисунке 1 показана значительная корреляция между RBER и возрастом, то есть количеством месяцев, в течение которых диск находился в полевых условиях.
Однако это может быть ложной корреляцией, поскольку вполне вероятно, что старые диски имеют больше PE, и поэтому RBER больше коррелирует с циклами PE. Чтобы исключить влияние возраста на износ, вызванный циклами PE, мы сгруппировали все месяцы службы в контейнеры, используя в качестве границы между контейнерами децили распределения циклов PE, например, первый контейнер содержит все месяцы срока службы дисков до первый дециль распределения цикла PE и т. д. Далее.
Мы проверили, что внутри каждого контейнера корреляция между циклами PE и RBER довольно мала (поскольку каждый контейнер охватывает лишь небольшой диапазон циклов PE), а затем рассчитали коэффициент корреляции между RBER и возрастом диска отдельно для каждого контейнера.
Мы провели этот анализ отдельно для каждой модели, поскольку любые наблюдаемые корреляции обусловлены не различиями между младшей и старшей моделями, а исключительно возрастом накопителей одной и той же модели.
Мы заметили, что даже после ограничения влияния циклов PE описанным выше способом для всех моделей накопителей все еще наблюдалась значительная корреляция между количеством месяцев, в течение которых привод находился в эксплуатации, и его RBER (коэффициенты корреляции варьировались от 0,2 до 0,4).
).
Рис.
3. Зависимость между RBER и количеством циклов PE для новых и старых дисков показывает, что возраст диска влияет на значение RBER независимо от циклов PE, вызванных износом.
Мы также графически визуализировали влияние возраста диска, разделив дни использования диска в «молодом» возрасте до 1 года и дни использования диска в возрасте старше 4 лет, а затем построили график RBER каждого группировать по количеству циклов PE. На рисунке 3 показаны эти результаты для модели привода MLC-D. Мы видим заметную разницу значений RBER между группами старых и новых дисков на протяжении всех циклов PE. Из этого мы делаем вывод, что возраст, измеряемый днями использования диска в полевых условиях, оказывает значительное влияние на RBER, независимо от износа ячеек памяти из-за воздействия циклов PE. Это означает, что большую роль в физическом износе диска играют другие факторы, такие как старение кремния.
4.2.3. RBER и рабочая нагрузка.
Считается, что битовые ошибки вызваны одним из четырех механизмов:
- ошибки хранения.
Ошибки хранения, когда ячейка памяти со временем теряет данные.
Ошибки нарушения чтения, при которых операция чтения повреждает содержимое соседней ячейки;
- Ошибки записи, при которых операция чтения повреждает содержимое соседней ячейки;
- Ошибки неполного стирания, когда операция стирания не удаляет содержимое ячейки полностью.
В недавнем исследовании «Масштабное исследование сбоев флэш-памяти в полевых условиях» (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. «Масштабное исследование сбоев флэш-памяти в полевых условиях) В материалах Международной конференции ACM SIGMETRICS по измерению и моделированию компьютерных систем 2015 г.
, Нью-Йорк, 2015 г.
, SIGMETRICS '15, ACM, стр.
177–190) пришел к выводу, что в полевых условиях преобладают ошибки хранения, в то время как ошибки чтения весьма незначительны.
На рисунке 1 показана значимая связь между значением RBER в данный месяц жизни диска и количеством операций чтения, записи и стирания в том же месяце для некоторых моделей (например, коэффициент корреляции выше 0,2 для MLC-B).
модели и выше 0,6 для SLC-B).
Однако возможно, что это ложная корреляция, поскольку ежемесячная рабочая нагрузка может быть связана с общим количеством циклов PE. Мы использовали ту же методологию, описанную в разделе 4.2.2, чтобы изолировать влияние рабочей нагрузки от эффектов циклов PE, изолируя месяцы работы накопителя на основе предыдущих циклов PE, а затем определяя коэффициенты корреляции отдельно для каждого контейнера.
Мы увидели, что корреляция между количеством операций чтения за определенный месяц жизни диска и значением RBER в этом месяце сохранялась для моделей MLC-B и SLC-B даже при ограничении циклов PE. Мы также повторили аналогичный анализ, исключив влияние операций чтения на количество одновременных записей и стираний и пришли к выводу, что корреляция между RBER и количеством операций чтения справедлива и для модели SLC-B. На рисунке 1 также показана корреляция между RBER и операциями записи и стирания, поэтому мы повторили тот же анализ для операций чтения, записи и стирания.
Мы пришли к выводу, что за счет ограничения влияния циклов PE и чтения не существует связи между значением RBER и количеством операций записи и стирания.
Таким образом, существуют модели дисков, в которых ошибки нарушения чтения оказывают существенное влияние на RBER. С другой стороны, нет никаких доказательств того, что на RBER влияют ошибки нарушения записи и ошибки неполного стирания.
4.2.4. RBER и литография.
Различия в размерах объектов могут частично объяснить различия в значениях RBER между моделями накопителей, использующих одну и ту же технологию, то есть MLC или SLC. (Обзор литографии различных моделей, включенных в это исследование, см.
в Таблице 1).
Например, 2 модели SLC с 34-нм литографией (модели SLC-A и SLC-D) имеют RBER на порядок выше, чем у 2 моделей с 50-нм микроэлектронной литографией (модели SLC-B и SLC-C).
Что касается моделей MLC, только модель 43 нм (MLC-B) имеет средний RBER, который на 50% выше, чем у трех других моделей с литографией 50 нм.
Более того, эта разница в RBER увеличивается в 4 раза по мере износа накопителей, как показано на рисунке 2. Наконец, более тонкая литография может объяснить более высокий RBER накопителей eMLC по сравнению с накопителями MLC. В целом, у нас есть четкие доказательства того, что литография влияет на RBER.
4.2.5. Наличие других ошибок.
Мы исследовали связь между RBER и другими типами ошибок, такими как неисправимые ошибки, ошибки тайм-аута и т. д., в частности, становится ли значение RBER выше после месяца воздействия других типов ошибок.
На рисунке 1 показано, что, хотя RBER за предыдущий месяц позволяет прогнозировать будущие значения RBER (коэффициент корреляции более 0,8), значимой корреляции между неисправимыми ошибками и RBER (крайняя правая группа элементов на рисунке 1) нет. Для других типов ошибок коэффициент корреляции еще ниже (на рисунке не показано).
Далее мы исследовали связь между RBER и неисправимыми ошибками в разделе 5.2 этой статьи.
4.2.6. Влияние других факторов.
Мы обнаружили доказательства того, что существуют факторы, которые оказывают существенное влияние на RBER, но наши данные не могут быть учтены.
В частности, мы заметили, что RBER для конкретной модели диска варьируется в зависимости от кластера, в котором развернут диск.
Хорошим примером является рисунок 4, на котором показана зависимость RBER от циклов PE для накопителей MLC-D в трех различных кластерах (пунктирные линии) и проведено сравнение с RBER для этой модели относительно общего числа накопителей (сплошная линия).
Мы обнаружили, что эти различия сохраняются даже тогда, когда мы ограничиваем влияние таких факторов, как возраст диска или количество операций чтения.
Одним из возможных объяснений этого являются различия в типах рабочей нагрузки между кластерами, поскольку мы наблюдаем, что кластеры, рабочие нагрузки которых имеют самые высокие коэффициенты чтения/записи, имеют самый высокий RBER.
Рис.
4 а), б).
Медианные значения RBER как функция циклов PE для трех разных кластеров и зависимость коэффициента чтения/записи от количества циклов PE для трех разных кластеров.
Например, на рисунке 4(b) показаны соотношения чтения/записи различных кластеров для модели накопителя MLC-D. Однако соотношение чтения/записи не объясняет различия между кластерами для всех моделей, поэтому могут существовать и другие факторы, которые не учитываются нашими данными, например факторы окружающей среды или другие параметры внешней рабочей нагрузки.
4.3. RBER во время ускоренных испытаний на долговечность.
Большинство научных работ, а также испытаний, проводимых при закупке носителей в промышленных масштабах, прогнозируют надежность устройств в полевых условиях на основе результатов ускоренных испытаний на долговечность.
Мы решили разобраться, насколько результаты таких тестов соответствуют практическому опыту эксплуатации твердотельных носителей информации.
Анализ результатов испытаний, проведенных по общей методике ускоренных испытаний для оборудования, поставляемого в дата-центры Google, показал, что полевые значения RBER существенно превышают прогнозируемые.
Например, для модели eMLC-а медиана RBER для дисков, работающих в полевых условиях (в конце тестирования число циклов PE достигло 600), составила 1e-05, тогда как по результатам предварительного ускоренного тестирования этот RBER значение должно соответствовать более 4000 циклам PE. Это указывает на то, что очень сложно точно предсказать значение RBER в полевых условиях на основе оценок RBER, полученных в результате лабораторных испытаний.
Также мы отметили, что некоторые виды ошибок довольно сложно воспроизвести при ускоренном тестировании.
Например, в случае модели MLC-B почти 60% накопителей в полевых условиях испытывают неисправимые ошибки, а почти 80% накопителей образуют сбойные блоки.
Однако в ходе ускоренных испытаний на долговечность ни одно из шести устройств не выявило неисправимых ошибок до тех пор, пока приводы не достигли более чем трехкратного предела цикла PE. Для моделей eMLC неисправимые ошибки возникали более чем в 80% накопителей в полевых условиях, тогда как при ускоренном тестировании такие ошибки возникали после достижения 15 000 циклов PE. Мы также изучили RBER, о котором сообщалось в предыдущей исследовательской работе, основанной на экспериментах в контролируемой среде, и пришли к выводу, что диапазон значений чрезвычайно широк.
Например, LM Grupp и другие в своей работе за 2009–2012 годы сообщают о значениях RBER для приводов, близких к достижению пределов цикла PE. Например, для устройств SLC и MLC с литографическими размерами, аналогичными использованным в нашей работе (25-50 нм), значение RBER находится в диапазоне от 1e-08 до 1e-03, при этом большинство протестированных моделей приводов имеют значение RBER, близкое к 1e- 06. В нашем исследовании три модели приводов, достигшие предела цикла PE, имели значения RBER от 3e-08 до 8e-08. Даже принимая во внимание, что наши цифры являются нижними границами и могут быть в 16 раз больше в абсолютном худшем случае, или принимая во внимание 95-й процентиль RBER, наши значения все равно значительно ниже.
В целом, хотя фактические значения RBER в полевых условиях выше, чем прогнозируемые значения, основанные на ускоренных испытаниях на долговечность, они все же ниже, чем у большинства RBER для аналогичных устройств, указанных в других исследовательских работах и рассчитанных на основе лабораторных испытаний.
тесты.
Это означает, что вам не следует полагаться на прогнозируемые значения RBER поля, полученные в результате ускоренных испытаний на долговечность.
5. Неисправимые ошибки.
Учитывая широкое распространение неисправимых ошибок (UE), о которых говорилось в разделе 3 данной статьи, в этом разделе мы рассмотрим их характеристики более подробно.
Мы начнем с обсуждения того, какую метрику использовать для измерения UE, как она связана с RBER и как на UE влияют различные факторы.
5.1. Почему соотношение UBER не имеет смысла.
Стандартной метрикой, характеризующей неисправимые ошибки, является коэффициент неисправимых битовых ошибок UBER, то есть отношение количества неисправимых битовых ошибок к общему количеству прочитанных битов.
Эта метрика неявно предполагает, что количество неисправимых ошибок каким-то образом привязано к количеству прочитанных бит и поэтому должно быть нормализовано по этому числу.
Это предположение справедливо для исправимых ошибок, когда количество ошибок, наблюдаемых в данном месяце, сильно коррелирует с количеством чтений за тот же период времени (коэффициент корреляции Спирмена больше 0,9).
Причина такой сильной корреляции заключается в том, что даже один плохой бит, если его можно исправить с помощью ECC, будет продолжать увеличивать количество ошибок при каждой операции чтения, к которой он обращается, поскольку оценка ячейки, содержащей плохой бит, не сразу исправляется при обнаружении ошибки (диски лишь периодически перезаписывают страницы с поврежденными битами).
Это же предположение не применимо к неисправимым ошибкам.
Неисправимая ошибка исключает дальнейшее использование поврежденного блока, поэтому однажды обнаруженный такой блок не повлияет на количество ошибок в дальнейшем.
Для формального подтверждения этого предположения мы использовали различные метрики для измерения связи между количеством операций чтения за данный месяц жизни диска и количеством неисправимых ошибок за тот же период времени, включая различные коэффициенты корреляции (Пирсона, Спирмена, Кендалла).
, а также визуальный осмотр графиков .
Помимо количества неисправимых ошибок, мы также рассмотрели частоту возникновения неисправимых ошибок (т. е.
вероятность того, что на диске произойдет хотя бы один такой инцидент в течение заданного периода времени) и их связь с операциями чтения.
Мы не обнаружили доказательств корреляции между количеством прочтений и количеством неисправимых ошибок.
Для всех моделей накопителей коэффициенты корреляции были ниже 0,02, а на графиках не наблюдалось увеличения UE по мере увеличения количества операций чтения.
В разделе 5.4 этой статьи мы обсуждаем, что операции записи и стирания также не имеют отношения к неисправимым ошибкам, поэтому альтернативное определение UBER, которое нормализуется операциями записи или стирания вместо операций чтения, не имеет смысла.
Таким образом, мы приходим к выводу, что UBER не является значимым показателем, за исключением, возможно, тестирования в контролируемых средах, где количество чтений задается экспериментатором.
Если UBER будет использоваться в качестве метрики во время полевых испытаний, это искусственно снизит частоту ошибок для дисков с большим количеством операций чтения и искусственно завысит частоту ошибок для дисков с низким числом операций чтения, поскольку неисправимые ошибки возникают независимо от количества операций чтения.
5.2. Неисправимые ошибки и RBER.
Актуальность RBER объясняется тем, что он служит мерой определения общей надежности накопителя, в частности, на основе вероятности возникновения неисправимых ошибок.В своей работе Н.
Мильке и др.
в 2008 году первыми предложили определять ожидаемую частоту неисправимых ошибок как функцию RBER. С тех пор многие разработчики систем использовали подобные методы, такие как оценка ожидаемой частоты неисправимых ошибок в зависимости от типа RBER и ECC. Цель этого раздела — охарактеризовать, насколько хорошо RBER прогнозирует неисправимые ошибки.
Начнем с рисунка 5а, на котором показано медианное значение RBER для ряда моделей накопителей первого поколения в зависимости от процента дней их использования, в течение которых наблюдались неисправимые ошибки UE. Следует отметить, что некоторые из 16 моделей, представленных на графике, не включены в таблицу 1 из-за отсутствия аналитической информации.
Рис.
5а.
Связь между медианным RBER и неисправимыми ошибками для различных моделей приводов.
Рис.
5б.
Связь между медианным RBER и неисправимыми ошибками для разных накопителей одной модели.
Напомним, что все модели одного поколения используют один и тот же механизм ECC, поэтому различия между моделями не зависят от различий ECC. Мы не увидели корреляции между инцидентами RBER и UE. Мы создали тот же график для 95-го процентиля RBER в зависимости от вероятности UE и снова не увидели никакой корреляции.
Далее мы повторили анализ на детальном уровне для отдельных накопителей, т. е.
попытались выяснить, есть ли накопители, у которых более высокое значение RBER соответствует более высокой частоте UE. В качестве примера на рисунке 5b показано медианное значение RBER для каждого диска модели MLC-c в зависимости от количества UE (результаты аналогичны результатам, полученным для 95-го процентиля RBER).
Опять же, мы не увидели никакой корреляции между RBER и UE. Наконец, мы провели более точный временной анализ, чтобы проверить, будут ли месяцы работы накопителей с более высоким RBER соответствовать месяцам, в течение которых возникали UE. Рисунок 1 уже показал, что коэффициент корреляции между неисправимыми ошибками и RBER очень низок.
Мы также экспериментировали с различными способами построения графика вероятности UE как функции RBER и не обнаружили никаких доказательств корреляции.
Таким образом, мы приходим к выводу, что RBER является ненадежной метрикой для прогнозирования UE. Это может означать, что механизмы отказа, приводящие к RBER, отличаются от механизмов, приводящих к неисправимым ошибкам (например, ошибки, содержащиеся в отдельных ячейках, по сравнению с более крупными проблемами, возникающими во всем устройстве).
5.3. Неисправимые ошибки и износ.
Поскольку износ является одной из основных проблем флэш-памяти, на рисунке 6 показана ежедневная вероятность неисправимых ошибок накопителя в зависимости от циклов PE.
Рисунок 6. Суточная вероятность возникновения неисправимых ошибок привода в зависимости от циклов PE.
Отметим, что вероятность возникновения UE постоянно увеличивается с возрастом накопителя.
Однако, как и в случае с RBER, рост происходит медленнее, чем обычно предполагается: графики показывают, что UE растут линейно, а не экспоненциально с циклами PE. Два вывода, которые мы сделали для RBER, также применимы к UE: во-первых, нет явного увеличения вероятности ошибки после достижения предела цикла PE, как, например, на рисунке 6 для модели MLC-D, предел цикла PE которого равен 3000. Во-вторых, во-вторых , частота ошибок варьируется в зависимости от модели, даже в пределах одного класса.
Однако эти различия не так велики, как для RBER. Наконец, в подтверждение наших выводов, сделанных в разделе 5.2, мы обнаружили, что в пределах одного класса моделей (MLC и SLC) модели с наименьшими значениями RBER для заданного количества циклов PE не обязательно являются моделями с наименьшими значениями.
вероятность возникновения У?.
Например, более 3000 циклов PE модели MLC-D имели значения RBER в 4 раза ниже, чем модели MLC-B, но вероятность UE для того же количества циклов PE была несколько выше для моделей MLC-D, чем для MLC-B. модели.
Рисунок 7. Ежемесячная вероятность возникновения неисправимых ошибок накопителя в зависимости от наличия предыдущих ошибок различных типов.
5.4. Неисправимые ошибки и загруженность.
По тем же причинам, по которым рабочая нагрузка может повлиять на RBER (см.
раздел 4.2.3), можно ожидать, что она также повлияет на UE. Например, поскольку мы заметили, что ошибки нарушения чтения влияют на RBER, операции чтения также могут увеличить вероятность возникновения неисправимых ошибок.
Мы провели детальное исследование влияния рабочей нагрузки на УП.
Однако, как отмечалось в разделе 5.1, мы не обнаружили связи между UE и количеством чтений.
Мы повторили тот же анализ для операций записи и стирания и снова не обнаружили корреляции.
Обратите внимание, что на первый взгляд это противоречит нашему предыдущему наблюдению о том, что неисправимые ошибки коррелируют с циклами PE. Поэтому вполне можно ожидать корреляции с количеством операций записи и стирания.
Однако в нашем анализе влияния циклов PE мы сравнили количество неисправимых ошибок в данном месяце с общим количеством циклов PE, которые привод испытал на протяжении всего своего срока службы на сегодняшний день, чтобы измерить эффект износа.
При изучении влияния рабочей нагрузки мы рассматривали те месяцы работы накопителя, в которых было наибольшее количество операций чтения/записи/стирания в конкретном месяце, которые также имели более высокий шанс возникновения неисправимых ошибок, т. е.
мы не принимали во внимание учитывать общее количество операций чтения/записи/стирания.
стирание.
В результате мы пришли к выводу, что ошибки нарушения чтения, нарушения записи и ошибки неполного стирания не являются основными факторами развития неисправимых ошибок.
Спасибо, что остаетесь с нами.
Вам нравятся наши статьи? Хотите увидеть больше интересных материалов? Поддержите нас, разместив заказ или порекомендовав друзьям, Скидка 30% для пользователей Хабра на уникальный аналог серверов начального уровня, который мы придумали для вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от 20$ или как правильно расшарить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40 ГБ DDR4).
Dell R730xd в 2 раза дешевле? Только здесь 2 x Intel TetraDeca-Core Xeon, 2 x E5-2697v3, 2,6 ГГц, 14C, 64 ГБ DDR4, 4 твердотельных накопителя по 960 ГБ, 1 Гбит/с, 100 ТВ от 199 долларов США в Нидерландах! Dell R420 — 2x E5-2430, 2,2 ГГц, 6C, 128 ГБ DDR3, 2 твердотельных накопителя по 960 ГБ, 1 Гбит/с, 100 ТБ — от 99 долларов США! Прочтите об этом Как построить корпоративную инфраструктуру класса, используя серверы Dell R730xd E5-2650 v4 стоимостью 9000 евро за копейки? Теги: #Хостинг #it-инфраструктура #Хранение данных #Устройства хранения данных #флэш-память
-
Пруст, Жозеф Луи
19 Oct, 24 -
Гуссерль, Эдмунд
19 Oct, 24 -
Небольшой Эпизод Покорения Луны
19 Oct, 24 -
Разработка Системы Мониторинга На Aws
19 Oct, 24