От Базы Данных К Озеру Данных: Фундаментальные Различия Между Двумя Технологиями



От базы данных к озеру данных: фундаментальные различия между двумя технологиями

Озеро Берриесса, замок Шатогриф Существуют фундаментальные различия в работе с базами данных и озерами данных.

Команда разработчиков облачных сервисов Большие данные в облаке Mail.ru перевел небольшую статью об устройстве Data Lake. Будет полезно тем, у кого нет большого опыта работы с реляционными базами данных.



Серверы хранения и обработки никак не связаны между собой.

Сервер хранения и вычислительный сервер работают отдельно друг от друга, что является ключевым отличием озера данных от базы данных.

В традиционных базах данных (и самых ранних озерах для Hadoop) хранилище тесно связано с серверами для вычислений: хранилище встроено в сервер или сервер напрямую подключен к хранилищу.

В современной архитектуре облачного озера данных хранилище не зависит от вычислительной платформы.

Данные хранятся в облачном объектном хранилище, обычно в открытом формате, таком как Parquet. Для вычислений используются серверы без сохранения состояния; их можно включать и выключать по мере необходимости.

Преимущества этого подхода:

  • Сокращение вычислительных затрат .

    Серверы не работают постоянно; во время простоя их можно отключить и тем самым снизить эксплуатационные расходы.

  • Масштабируемость .

    Вам не нужно приобретать оборудование для работы с пиковыми нагрузками.

    Количество серверов, процессоров и модулей памяти можно увеличить или уменьшить в зависимости от потребностей.

  • Автономия .

    Серверы и вычислительные кластеры могут одновременно считывать одни и те же данные.

    Таким образом, разные команды могут читать данные в одних и тех же кластерах параллельно, не мешая друг другу.

Вполне ожидаемое размещение от команды переводчиков О структуре нашего объектного хранилища можно прочитать здесь: Архитектура S3: 3 года эволюции Облачное хранилище Mail.ru .



Необработанные данные важнее обработанных данных

В базе данных данные берутся из исходных систем, преобразуются и загружаются в таблицу, после чего больше не используются.

В озере данных данные сохраняются навсегда и рассматриваются как ценный актив.

Но бизнес-пользователи обычно не могут работать с необработанными данными.

Таким образом, данные обрабатываются, чтобы улучшить качество, сделать их структурированными и работоспособными.

Наконец, эти данные сохраняются, чтобы их могли использовать аналитики и бизнес-пользователи.



От базы данных к озеру данных: фундаментальные различия между двумя технологиями

Обработка данных в озере.

Источник Бизнес-пользователи видят только обработанные данные и поэтому ценят их гораздо выше, чем необработанные данные, из которых они были получены.

Но реальная ценность озер данных заключается в необработанных данных и в том, как они с ними работают. В некотором смысле обработанные данные подобны материализованному представлению, которое можно обновить в любое время.

Основные преимущества:

  • в любой момент необходимые данные можно воссоздать из оригинала;
  • их можно воссоздать, используя улучшенные методы обработки;
  • Данные могут быть представлены по-разному в зависимости от конкретного анализа.



Схема обработки может быть изменена в любой момент.

Требования к информации часто меняются, и некоторые данные, которые изначально не были включены в выборку, возможно, придется проанализировать позже.

В случае с базой данных необработанные данные теряются навсегда, если они не сохранены.

Озера данных работают по-другому: если вы сегодня решите, что определенные данные не нужно загружать в систему обработки, то ничего страшного не произойдет — их можно будет добавить позже.

Все данные надежно хранятся в озере данных, а источник необработанных данных можно воссоздать в любое время.



От базы данных к озеру данных: фундаментальные различия между двумя технологиями

Изменение схемы обработки данных.

Источник Основные преимущества:

  • не нужно создавать одну общую схему обработки данных на все случаи жизни, если она не нужна прямо сейчас;
  • создать схему обработки данных можно итеративно, добавляя только те поля, которые нужны прямо сейчас;
  • Если вам нужны дополнительные поля, вы можете добавить их в любой момент и повторить обработку.



Заключение

Озера данных не являются заменой баз данных, и каждый инструмент имеет свои сильные и слабые стороны.

Нелогично использовать озера данных для OLTP, как нелогично использовать базы данных для хранения неструктурированных данных.

Надеюсь, моя статья помогла вам понять различия между этими двумя системами.

Удалось сервис обработки больших данных можно получить на платформе «Облачные решения Mail.ru».

Мы дарим 3000 бонусов новым пользователям платформы после полной верификации аккаунта.

Вы можете повторить сценарий из статьи и попробовать поработать с объектным хранилищем S3, DBaaS. и другие наши услуги .

Еще по теме:
  1. Вебинар «Современные базы данных для аналитики: почему СХД лучше строить в облаке» .

  2. Форматы файлов в больших данных: краткий ликбез .

  3. Наш телеграм-канал с новостями технологий .

Теги: #Облачные вычисления #облачные решения vk #облачные решения vk #Big Data #облачные решения mail.ru #озеро данных #объектное хранилище #базы данных
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.