Базы данных, сети распространения контента, большие данные, искусственный интеллект, машинное обучение — все эти сценарии, основанные на данных, требуют высокой производительности всей ИТ-инфраструктуры.
По подсистеме хранения все решается просто — установкой высокоскоростных NVMe и SSD вместо SAS и SATA. С вычислительной частью все сложнее — центральные процессоры не справляются со многими операциями, очень чувствительными ко времени.
Чтобы устранить это узкое место, ScaleFlux разработала новые типы носителей.
Внутри них, рядом с памятью 3D NAND, находятся компоненты FPGA, выполняющие многие типичные операции с данными.
В этом посте мы подробно объясним решение ScaleFlux.
Принцип действия
CSS в случае ScaleFlux — это вычислительная система хранения.
Обычно это устройство имеет формат карты расширения PCI-E или накопителя U.2. Внутри находится быстрая флэш-память — 1,6 ТБ, 3,2 ТБ или 6,4 ТБ — а также полупроводниковый компонент со сложным названием «программируемая вентильная матрица», более известный как FPGA.
В инфраструктуре с обычными твердотельными накопителями центральный процессор выполняет все вычислительные операции.
Включая те, которые наиболее тесно связаны с данными.
Например, сжатие – осуществляется приложениями, работающими с большими объемами информации, с целью экономии дискового пространства (GZIP-сжатие).
В инфраструктуре с CSS ScaleFlux сжатие выполняется непосредственно на диске.
Как и другие частые операции.
Например:
- Стирающее кодирование
- Поиск хранилищ «ключ-значение»
- Шифрование AES-128/256
- Хеширование SHA-3
Принцип работы понятен, сейчас расскажем, как он работает в реальных условиях.
ScaleFlux в популярных приложениях
Наша главная цель — чтобы CSS ScaleFlux можно было использовать без танцев с бубном.Вместе с устройством мы поставляем пакет программного обеспечения для Linux (требуется ядро версии 2.6 или выше).
Пакет настраивает FPGA, вычислительную часть CSS, за считанные минуты, к которым системы получают доступ через совместимый API. На данный момент мы выпустили программное обеспечение для использования в девяти популярных системах, управляемых данными: MySQL, PostgreSQL, Hadoop, Aerospike, HBase, Hortonworks, RockDB, Spark, Vitesse Data.
Чтобы понять, стоит ли развивать поддержку той или иной системы, мы проводим бенчмарки, в которых сравниваем производительность аналогичных конфигураций с картами NVMe и CSS ScaleFlux. Вот результаты:
Более подробные есть на нашем сайте Результаты для каждого сценария с графиками и тестовыми конфигурациями
В список официально поддерживаемых платформ пока не вошли несколько известных: MongoDB, Cassandra, Vertica и др.
Мы работаем над совместимостью с этими системами и добавим их, когда устраним все возможные шероховатости.
Если вы используете CSS в приложениях без официальной поддержки, вы получите стандартный NVMe с блочным хранилищем.
А потом, при необходимости, вы легко сможете перейти к поддерживаемым системам и воспользоваться вычислительной частью.
Защита данных и общие вопросы
CSS ScaleFlux может использовать различные технологии для защиты информации: flash RAID, избыточную запись, сканирование и исправление ошибок.Контрольные точки постоянно создаются для критически важной информации, такой как таблицы адресов.
Для защиты от сбоев питания в УСБ установлены дополнительные конденсаторы.
При отсутствии внешнего питания их достаточно, чтобы записать необходимую информацию без потерь.
Для работы в условиях высоких температур предусмотрено дросселирование.
По цене CSS ScaleFlux сравним с обычными NVMe-картами: разница обычно не превышает 9%.
На практике часто случается, что эта разница компенсируется сравнительной экономией места, достигаемой при «делегированном» сжатии.
Гарантия CSS ScaleFlux составляет три года при условии пяти полных перезаписей данных в день.
Можем поделиться опытом внедрения.
Один из наших финансовых клиентов осуществляет 4 миллиарда транзакций по картам в год, записывает все данные в HBase и анализирует их для создания новых предложений.
После внедрения ScaleFlux объём, занимаемый его данными для анализа, сократился вдвое, как и время запросов к базе данных.
Другой клиент, разрабатывающий инструменты цифровой безопасности, использует другую базу данных — Aerospike. Он заменил шесть твердотельных накопителей SATA на одну систему ScaleFlux и в результате удвоил скорость транзакций.
Если вы хотите просмотреть и протестировать CSS ScaleFlux, вы можете связаться с нами по форма , в комментариях к посту, на почту [email protected] или по телефону +7-495-762-45-85. Теги: #Машинное обучение #ИТ-инфраструктура #Высокая производительность #данные #Большие данные #производительность #ScaleFlux
-
Профилирование Приложений Python
19 Oct, 24