Розничный бизнес ВТБ обслуживают более 150 систем, и все нуждается в надежной защите.
Какие-то системы критичны, какие-то жестко привязаны друг к другу — в общем, задача масштабная.
В этом посте вы узнаете, как это решилось.
Чтобы даже если на один из дата-центров упадет метеорит, работа банка не будет прервана, а данные останутся в безопасности.
Разработка проекта
Изначально мы планировали реализовать катастрофоустойчивое решение из двух одинаковых дата-центров, основного и резервного, с «ручным» переключением на резервную площадку.Но при такой схеме резервный сайт будет простаивать, хотя и потребует такого же обслуживания, как и основной.
В результате решили использовать схему «активный-активный», при которой оба дата-центра (разнесенные на расстоянии 40 км) работают в обычном режиме и обслуживают бизнес-системы одновременно.
В результате общая емкость и производительность удваиваются, что особенно важно при пиковых нагрузках (нет необходимости масштабирования).
А обслуживание можно проводить без ущерба для бизнес-процессов.
Создание катастрофоустойчивой системы дата-центра было разделено на два этапа.
На первом было зарезервировано около 50 важных бизнес-систем, для которых RPO должен быть близок к нулю – в том числе АБС, система борьбы с мошенничеством, процессинг, CRM и система дистанционного банковского обслуживания, обеспечивающая онлайн-подключения как физических, так и юридических лиц.
сущности.
Такое разнообразие систем стало основной трудностью при разработке предварительных решений резервной инфраструктуры.
В первом приближении всё строилось на стандартных решениях.
Но когда скетч начали применять к реальным бизнес-системам, оказалось, что с файлом предстоит очень много работы: многие компоненты просто невозможно описать стандартными решениями.
В таких случаях приходилось искать индивидуальные подходы, например, для крупнейшей бизнес-системы — АБС «Главная книга».
Стандартное решение для Oracle также пришлось перепроектировать, поскольку оно не отвечало требованию нулевой потери данных.
То же самое произошло с базами данных Microsoft SQL и рядом других систем.
Среди критических оказались внутренние информационные шины, по которым другие системы обмениваются данными.
В частности, USBS-передний и USBS-задний.
Схема резервирования USBS-front IS
Схема резервирования микросхем с USB-обратной связью
Схема резервного копирования MS SQL Server
Помимо двух основных дата-центров, работающих в режиме «активный-активный», был создан третий дата-центр, содержащий устройства, выполняющие функции координаторов.
Это сделано для того, чтобы в случае разрыва связи между двумя основными сайтами не возникло ситуации разделения мозгов.
Сеть двух основных дата-центров плоская, без маршрутизации, построена на оборудовании Cisco, использует туннель L2-L3 через OTV, а сами площадки соединены сетью MPLS по оптоволокну (работающему по двум разным путям).
Сеть передачи данных использует канал 160 Гбит/с, а сеть хранения данных — канал 256 Гбит/с.
В сети хранения оба узла соединены оптоволоконным кабелем.
Схема сети передачи данных
Инфраструктура
Для реализации проекта мы закупили только 40% оборудования, остальные 60% уже были на складе.На обеих площадках системы хранения объединены, а для универсального внешнего доступа к серверу приложений создан кластер балансировщиков F5 BIG-IP. Для виртуальных машин был построен расширенный кластер VMware, использованы виртуализаторы EMC VPLEX и дисковые массивы EMC Vmax и Hitachi VSP, объединенные на площадках в кластер виртуализаторов.
Файловый сервис растянут между двумя дата-центрами и построен на технологиях Hitachi: Hitachi GAD используется для синхронизации данных между площадками, а кластерные устройства HNAS, расположенные в обоих дата-центрах, используются для предоставления файлового сервиса.
Схема взаимодействия дисковых массивов VMware и VPLEX
Для баз данных мы используем встроенную репликацию: Oracle Data Guard для Oracle и Always On для серверов Microsoft SQL. Чтобы избежать потери данных, Always On работает в синхронном режиме, а Oracle одновременно записывает повтор на другой сайт, это позволит восстановить его состояние в последний момент. Методика разработана, отлажена и документирована.
Для баз данных многих систем используются серверы IBM Power и 1700 блейд-серверов x86 Hewlett Packard разных поколений, в основном двухпроцессорные.
Сеть построена на оборудовании Cisco Nexus 7000, сеть SAN построена на Brocade DCX разных поколений.
По площадкам также распределены инженерные системы Oracle: Exadata, SuperCluster, Exalogic.
Схема файлового сервиса
Полезная емкость зарезервированных систем в каждом из двух основных дата-центров составляет примерно 2 петабайта.
Аппаратное резервное копирование выполняется только для хранилища, систем виртуальных машин и файловых служб.
Все остальные базы данных и прикладные системы поддерживаются программным обеспечением.
Синхронизация между массивами осуществляется в файловом сервисе с использованием технологии Hitachi GAD. Во всех остальных случаях данные реплицируются с использованием самих баз данных или приложений.
Диаграмма СРК
Тестирование
После завершения первого этапа — резервного копирования около 50 наиболее критичных бизнес-систем — мы с коллегами из «Инфосистемы Джет» проверили работу всех элементов: сети, дисковых массивов, виртуализации хранения и прочего.Мы тестировали работу каждой бизнес-системы при одновременном использовании дата-центров и при переключении между ними: помещали систему в катастрофоустойчивую среду, затем полностью переключались в другой дата-центр, проверяли там работу системы и возвращали ее обратно в нормальная производственная среда.
В ходе всех тестов измерялась производительность и оценивалась динамика.
При любых схемах работы и коммутации производительность не снижалась и доступность не ухудшалась.
В результате мы обеспечили бесшовную связь между дата-центрами на уровне физических серверов (конфигурация кластера), виртуальной инфраструктуры (распределенный кластер), систем хранения данных (зеркалирование) и сетей передачи данных (резервирование сетевых ядер).
Впереди новый этап – переход к катастрофоустойчивой модели остальных бизнес-систем банка.
Проект реализует компания «Инфосистемы Джет» .
Теги: #ит-инфраструктура #отказоустойчивость #втб
-
Московская Фонологическая Школа
19 Oct, 24 -
Предприниматель, Ставший Сапожником
19 Oct, 24 -
Идеальные Наушники-Вкладыши За 5 Минут
19 Oct, 24 -
Осенние Открытые Лекции По Игровой Индустрии
19 Oct, 24 -
Зона Java Вернулась
19 Oct, 24 -
Гармоничный Поиск. Поиск Гармонии
19 Oct, 24