Три Дата-Центра Без Швов, Или Как Втб Защищает Бизнес-Системы

Розничный бизнес ВТБ обслуживают более 150 систем, и все нуждается в надежной защите.

Какие-то системы критичны, какие-то жестко привязаны друг к другу — в общем, задача масштабная.

В этом посте вы узнаете, как это решилось.

Чтобы даже если на один из дата-центров упадет метеорит, работа банка не будет прервана, а данные останутся в безопасности.



Три дата-центра без швов, или как ВТБ защищает бизнес-системы



Разработка проекта

Изначально мы планировали реализовать катастрофоустойчивое решение из двух одинаковых дата-центров, основного и резервного, с «ручным» переключением на резервную площадку.

Но при такой схеме резервный сайт будет простаивать, хотя и потребует такого же обслуживания, как и основной.

В результате решили использовать схему «активный-активный», при которой оба дата-центра (разнесенные на расстоянии 40 км) работают в обычном режиме и обслуживают бизнес-системы одновременно.

В результате общая емкость и производительность удваиваются, что особенно важно при пиковых нагрузках (нет необходимости масштабирования).

А обслуживание можно проводить без ущерба для бизнес-процессов.



Три дата-центра без швов, или как ВТБ защищает бизнес-системы

Создание катастрофоустойчивой системы дата-центра было разделено на два этапа.

На первом было зарезервировано около 50 важных бизнес-систем, для которых RPO должен быть близок к нулю – в том числе АБС, система борьбы с мошенничеством, процессинг, CRM и система дистанционного банковского обслуживания, обеспечивающая онлайн-подключения как физических, так и юридических лиц.

сущности.

Такое разнообразие систем стало основной трудностью при разработке предварительных решений резервной инфраструктуры.

В первом приближении всё строилось на стандартных решениях.

Но когда скетч начали применять к реальным бизнес-системам, оказалось, что с файлом предстоит очень много работы: многие компоненты просто невозможно описать стандартными решениями.

В таких случаях приходилось искать индивидуальные подходы, например, для крупнейшей бизнес-системы — АБС «Главная книга».

Стандартное решение для Oracle также пришлось перепроектировать, поскольку оно не отвечало требованию нулевой потери данных.

То же самое произошло с базами данных Microsoft SQL и рядом других систем.

Среди критических оказались внутренние информационные шины, по которым другие системы обмениваются данными.

В частности, USBS-передний и USBS-задний.



Три дата-центра без швов, или как ВТБ защищает бизнес-системы

Схема резервирования USBS-front IS

Три дата-центра без швов, или как ВТБ защищает бизнес-системы

Схема резервирования микросхем с USB-обратной связью

Три дата-центра без швов, или как ВТБ защищает бизнес-системы

Схема резервного копирования MS SQL Server Помимо двух основных дата-центров, работающих в режиме «активный-активный», был создан третий дата-центр, содержащий устройства, выполняющие функции координаторов.

Это сделано для того, чтобы в случае разрыва связи между двумя основными сайтами не возникло ситуации разделения мозгов.

Сеть двух основных дата-центров плоская, без маршрутизации, построена на оборудовании Cisco, использует туннель L2-L3 через OTV, а сами площадки соединены сетью MPLS по оптоволокну (работающему по двум разным путям).

Сеть передачи данных использует канал 160 Гбит/с, а сеть хранения данных — канал 256 Гбит/с.

В сети хранения оба узла соединены оптоволоконным кабелем.



Три дата-центра без швов, или как ВТБ защищает бизнес-системы

Схема сети передачи данных

Инфраструктура

Для реализации проекта мы закупили только 40% оборудования, остальные 60% уже были на складе.

На обеих площадках системы хранения объединены, а для универсального внешнего доступа к серверу приложений создан кластер балансировщиков F5 BIG-IP. Для виртуальных машин был построен расширенный кластер VMware, использованы виртуализаторы EMC VPLEX и дисковые массивы EMC Vmax и Hitachi VSP, объединенные на площадках в кластер виртуализаторов.

Файловый сервис растянут между двумя дата-центрами и построен на технологиях Hitachi: Hitachi GAD используется для синхронизации данных между площадками, а кластерные устройства HNAS, расположенные в обоих дата-центрах, используются для предоставления файлового сервиса.



Три дата-центра без швов, или как ВТБ защищает бизнес-системы

Схема взаимодействия дисковых массивов VMware и VPLEX Для баз данных мы используем встроенную репликацию: Oracle Data Guard для Oracle и Always On для серверов Microsoft SQL. Чтобы избежать потери данных, Always On работает в синхронном режиме, а Oracle одновременно записывает повтор на другой сайт, это позволит восстановить его состояние в последний момент. Методика разработана, отлажена и документирована.

Для баз данных многих систем используются серверы IBM Power и 1700 блейд-серверов x86 Hewlett Packard разных поколений, в основном двухпроцессорные.

Сеть построена на оборудовании Cisco Nexus 7000, сеть SAN построена на Brocade DCX разных поколений.

По площадкам также распределены инженерные системы Oracle: Exadata, SuperCluster, Exalogic.

Три дата-центра без швов, или как ВТБ защищает бизнес-системы

Схема файлового сервиса Полезная емкость зарезервированных систем в каждом из двух основных дата-центров составляет примерно 2 петабайта.

Аппаратное резервное копирование выполняется только для хранилища, систем виртуальных машин и файловых служб.

Все остальные базы данных и прикладные системы поддерживаются программным обеспечением.

Синхронизация между массивами осуществляется в файловом сервисе с использованием технологии Hitachi GAD. Во всех остальных случаях данные реплицируются с использованием самих баз данных или приложений.



Три дата-центра без швов, или как ВТБ защищает бизнес-системы

Диаграмма СРК

Тестирование

После завершения первого этапа — резервного копирования около 50 наиболее критичных бизнес-систем — мы с коллегами из «Инфосистемы Джет» проверили работу всех элементов: сети, дисковых массивов, виртуализации хранения и прочего.

Мы тестировали работу каждой бизнес-системы при одновременном использовании дата-центров и при переключении между ними: помещали систему в катастрофоустойчивую среду, затем полностью переключались в другой дата-центр, проверяли там работу системы и возвращали ее обратно в нормальная производственная среда.

В ходе всех тестов измерялась производительность и оценивалась динамика.

При любых схемах работы и коммутации производительность не снижалась и доступность не ухудшалась.

В результате мы обеспечили бесшовную связь между дата-центрами на уровне физических серверов (конфигурация кластера), виртуальной инфраструктуры (распределенный кластер), систем хранения данных (зеркалирование) и сетей передачи данных (резервирование сетевых ядер).

Впереди новый этап – переход к катастрофоустойчивой модели остальных бизнес-систем банка.

Проект реализует компания «Инфосистемы Джет» .

Теги: #ит-инфраструктура #отказоустойчивость #втб

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.