ТЛ;ДР: Вводная статья, описывающая различные варианты хранения данных.
Будут обсуждены принципы, описаны преимущества и недостатки, а также предпочтительные варианты использования.
Почему все это?
Хранение данных — одно из важнейших направлений развития компьютеров, возникшее после появления энергонезависимых запоминающих устройств.Системы хранения данных различных размеров используются повсеместно: в банках, магазинах, на предприятиях.
По мере роста требований к хранимым данным увеличивается сложность хранилищ данных.
Надежное хранение больших объемов данных и устойчивость к сбоям физические носители – очень интересная и сложная инженерная задача.
Хранилище данных
Под хранением обычно понимается запись данных на какие-то устройства хранения данных с целью их (данных) дальнейшего использования.Опустим исторические варианты организации хранения и подробно рассмотрим классификацию систем хранения по различным критериям.
Критерии классификации я выбрал следующие: по способу подключения, по типу используемого носителя, по форме хранения данных, по реализации.
По способу подключения существуют следующие варианты:
- Внутренний.
Сюда входит классическое подключение дисков в компьютерах; Диски с данными устанавливаются непосредственно в тот же корпус, где они будут использоваться.
Типичные шины для подключения — SATA, SAS, устаревшие шины — IDE, SCSI.
подключение дисков к серверу
- Внешний.
Подразумевается подключение накопителей с использованием какой-либо внешней шины, например FC, SAS, IB, или с помощью высокоскоростных сетевых карт.
дисковая полка, подключенная через FC В зависимости от типа используемых приводов можно выделить:
- Диск.
Чрезвычайно простой и, наверное, самый распространенный на данный момент вариант, они используются в качестве устройств хранения данных.
- Лента.
Используется как запоминающее устройство устройства хранения данных на магнитной ленте .
Наиболее распространенное использование – организация резервного копирования .
- Вспышка.
Используется как запоминающее устройство твердотельные накопители , они тоже SSD. Самый перспективный и быстрый способ организации хранения данных, емкость SSD уже почти равна жестким дискам (местами даже емче).
Однако они все равно дороже с точки зрения затрат на хранение.
- Гибридный.
Объединение жестких дисков и SSD в одной системе.
Они являются промежуточным вариантом, сочетающим в себе преимущества и недостатки дискового и флэш-накопителя.
- Файлы (именованные области данных).
Самый популярный тип хранения данных – структура подразумевает хранение данных, одинаковое для пользователя и для накопителя.
- Блоки.
Области одинакового размера со структурой данных, указанной пользователем.
Характерной особенностью является оптимизация скорости доступа за счет отсутствия слоя преобразования блоков в файлы, присутствовавшего в предыдущем методе.
- Объекты.
Данные хранятся в плоской файловой структуре в виде объектов с метаданными.
Четких границ в плане реализации провести достаточно сложно, но отметить можно:
- аппаратное обеспечение, например Рейд и HBA-контроллеры, специализированные системы хранения данных.
RAID-контроллер от Fujitsu.
- Программное обеспечение.
Пример реализации Рейд , включая файловые системы (например, BtrFS), специализированные сетевые файловые системы (NFS) и протоколы (iSCSI), а также Паспорт безопасности
пример организации LVM с шифрованием и избыточностью на виртуальной машине Linux в облаке Azure Рассмотрим подробнее некоторые технологии, их преимущества и недостатки.
ДАС
Хранилище с прямым подключением исторически является первым вариантом подключения носителей и используется до сих пор.Привод, с точки зрения компьютера, в котором он установлен, используется исключительно; накопитель обрабатывается поблочно, обеспечивая максимальную скорость обмена данными с накопителем с минимальными задержками.
Это также самый дешевый вариант организации системы хранения данных, но он не лишен недостатков.
Например, если вам необходимо организовать хранение данных предприятия на нескольких серверах, то такой способ организации не позволяет совместно использовать диски разных серверов друг с другом, поэтому система хранения данных не будет оптимальной: на некоторых серверах будет не хватать дискового пространства.
пространство, а у других оно не будет полностью переработано:
Конфигурации системы с одним диском чаще всего используются для нетребовательных рабочих нагрузок, обычно для домашнего использования.
Для профессиональных целей, а также промышленного применения чаще всего используют несколько приводов, объединенных в RAID-массив программное обеспечение или использование аппаратной карты RAID для обеспечения отказоустойчивости и/или более высокой скорости, чем у одного диска.
Также кэширование возможно наиболее часто используемые данные на более быстрый, но менее емкий твердотельный накопитель для достижения как большой емкости, так и высокой скорости работы дисковой подсистемы компьютера.
САН
Сеть хранения данных, также известная как сеть хранения данных, — это технология организации системы хранения данных с использованием выделенной сети, позволяющая подключать диски к серверам с помощью специализированного оборудования.
Это решает проблему использования дискового пространства серверами, а также исключает точки отказа, которые неизбежно присутствуют в системах хранения данных на базе DAS. Сеть хранения данных чаще всего использует технологию Fibre Channel, но явной связи с технологией передачи данных нет. Приводы используются в блочном режиме; Для связи с накопителями используются протоколы SCSI и NVMe, инкапсулированные в кадры FC или в стандартные TCP-пакеты, например, при использовании сети SAN на базе iSCSI.
Давайте рассмотрим устройство SAN более подробно; для этого логически разделим его на две важные части: серверы с HBA и дисковыми полками в качестве конечных устройств, а также коммутаторы (в больших системах — маршрутизаторы) и кабели как средства построения сети.
HBA — это специализированный контроллер, расположенный на сервере, подключенном к SAN. Через этот контроллер сервер будет «видеть» диски, размещённые в дисковых полках.
Серверы и дисковые массивы не обязательно должны располагаться рядом друг с другом, хотя это рекомендуется для обеспечения высокой производительности и низкой задержки.
Серверы и полки подключаются к свитчу, который организует общую среду передачи данных.
Коммутаторы также могут подключаться друг к другу с помощью межкоммутационных соединений; совокупность всех переключателей и их соединений называется фабрикой.
Есть разные варианты реализации фабрики, я не буду здесь вдаваться в подробности.
Для отказоустойчивости рекомендуется подключать как минимум две фабрики к каждому HBA в сервере (иногда устанавливается несколько HBA) и к каждой дисковой полке, чтобы коммутаторы не стали точкой отказа для SAN. Недостатками такой системы являются ее высокая стоимость и сложность, так как для обеспечения отказоустойчивости необходимо предусмотреть несколько путей доступа (многопутевого) серверов к дисковым полкам, а значит, как минимум, дублировать фабрики.
Также из-за физических ограничений (скорость света в целом и пропускная способность информационной матрицы коммутаторов в частности), хотя и существует возможность неограниченного соединения устройств друг с другом, на практике чаще всего возникают ограничения на количество соединений (в том числе между свитчами), количество дисковых полок и тому подобное.
НАН
Сетевое хранилище или сетевое хранилище файлов представляет дисковые ресурсы в виде файлов (или объектов), например, с использованием сетевых протоколов.Принципиально основан на DAS, но ключевым отличием является возможность обмена файлами.
Поскольку работа ведется по сети, то сама СХД может находиться сколь угодно далеко от потребителей (в разумных пределах, конечно), но это также является недостатком в случае организации на предприятиях или дата-центрах, поскольку для работы используется основная пропускная способность сети – что, однако, это можно смягчить, используя выделенные сетевые карты для доступа к NAS. Также по сравнению с SAN упрощается работа клиентов, поскольку все вопросы по совместному использованию и т. д. берет на себя NAS-сервер.
Единое хранилище
Универсальные системы, позволяющие совмещать функции NAS и SAN. Чаще всего реализацией является SAN, в которой можно активировать файловый доступ к дисковому пространству.
Для этого устанавливаются дополнительные сетевые карты (или используются существующие, если SAN построена на их основе), после чего на каком-то блочном устройстве создается файловая система — и через какой-то файл она раздается по сети клиентам протокол, например NFS.
Паспорт безопасности
Программно-определяемое хранилище — это программно-определяемое хранилище данных на базе DAS, в котором дисковые подсистемы нескольких серверов логически объединены в кластер, предоставляющий своим клиентам доступ к общему дисковому пространству.Наиболее яркими представителями являются ГлюстерФС И Цеф , но подобные вещи можно сделать и традиционными средствами (например, на базе LVM2, программной реализации iSCSI и NFS).
Н.Б.
редактор
: У вас есть возможность изучить технологию сетевого хранения Ceph для использования в своих проектах для повышения отказоустойчивости, на наш практический курс Ceph .В начале курса вы получите системные знания основных понятий и терминов, а в конце вы узнаете, как полностью установить, настроить и управлять Ceph. Подробности и полная программа курса Здесь .
Пример SDS на основе GlusterFS Одним из преимуществ SDS является то, что можно построить отказоустойчивую, высокопроизводительную систему хранения реплицируемых данных, используя обычное, возможно, даже устаревшее оборудование.
Если убрать зависимость от основной сети, то есть добавить выделенные сетевые карты для работы SDS, то получится решение с преимуществами больших SAN\NAS, но без присущих им недостатков.
Я считаю, что за такими системами будущее, особенно если учесть, что быстрая сетевая инфраструктура более универсальна (ее можно использовать для других целей), а также дешевеет гораздо быстрее, чем специализированное оборудование для построения SAN. Недостатком является увеличение сложности по сравнению с обычным NAS, а также чрезмерная перегруженность (необходимо больше оборудования) в небольших СХД.
Гиперконвергентные системы
Подавляющее большинство систем хранения данных используется для организации дисков виртуальных машин; при использовании SAN неизбежно возрастает стоимость инфраструктуры.Но если объединить серверные дисковые системы с помощью SDS, а ресурсы процессора и оперативной памяти предоставить виртуальным машинам, используя дисковые ресурсы этого SDS, с помощью гипервизоров, можно сэкономить немало денег.
Такой подход тесной интеграции хранилища с другими ресурсами называется гиперконвергенцией.
Ключевой особенностью здесь является возможность практически бесконечного роста при нехватке ресурсов, так как при нехватке ресурсов достаточно добавить в общую систему еще один сервер с дисками для ее расширения.
На практике обычно есть ограничения, но в целом расширять гораздо проще, чем чистую SAN. Недостатком является то, что такие решения обычно довольно дороги, но в целом общая стоимость владения обычно снижается.
Облака и эфемерное хранилище
Логическим продолжением перехода к виртуализации является запуск сервисов в облаках.В крайнем случае сервисы разбиваются на функции, которые запускаются по требованию (бессерверные вычисления, бессерверные вычисления).
Важной особенностью здесь является отсутствие состояния, то есть сервисы запускаются по требованию и потенциально может быть запущено столько экземпляров приложения, сколько требуется для текущей нагрузки.
Большинство провайдеров (GCP, Azure, Amazon и другие) облачных решений также предлагают доступ к хранилищам, в том числе файловым и блочным, а также объектным.
Некоторые дополнительно предлагают облачные базы данных, чтобы приложение, предназначенное для работы в таком облаке, могло легко работать с аналогичными системами хранения данных.
Чтобы все работало, достаточно вовремя оплатить эти услуги; для небольших приложений поставщики обычно предлагают бесплатное использование ресурсов на определенный период времени или даже навсегда.
Из минусов: могут заблокировать аккаунт, на котором все работает, что может привести к простою.
Также могут возникнуть проблемы с подключением и/или доступностью таких сервисов по сети, поскольку такие хранилища полностью зависят от корректной и корректной работы глобальной сети.
Заключение
Надеюсь, статья была полезна не только новичкам.Предлагаю обсудить в комментариях дополнительные возможности систем хранения данных, а также написать о своем опыте построения систем хранения данных.
Теги: #ssd #Системное администрирование #Хранение данных #Администрирование сервера #amazon #ceph #azure #BTRFS #storage #raid #gcp #программно определяемое хранилище #sds #ленточные накопители #iscsi #SAN #дисковые накопители #флэш-накопители #гибридные накопители # СХД с прямым подключением #Сеть хранения данных #Сетевое хранилище
-
Значок Google Снова Обновился.
19 Oct, 24 -
Утекла База Данных Хэшей Linkedin?
19 Oct, 24 -
Как Выучить 2000 Английских Слов За Месяц
19 Oct, 24 -
На Htc Hero Началось Обновление Клиента Fota
19 Oct, 24 -
Linkmeup. Выпуск 1
19 Oct, 24