Моделирование данных существенно упрощает взаимодействие разработчиков, аналитиков и маркетологов, а также сам процесс отчетности.
Вот почему я перевел Статья IBM Cloud Education о ценности моделирования и от себя добавил информацию о способах преобразования данных для моделирования.
Моделирование данных
Узнайте, как моделирование данных использует абстракцию для представления и лучшего понимания природы данных в информационной системе предприятия.
Что такое моделирование данных
Моделирование данных — это создание визуального представления всей информационной системы или ее части.Цель — проиллюстрировать типы данных, которые используются и хранятся в системе, отношения между этими типами данных, то, как данные группируются и организуются, их форматы и атрибуты.
Модели данных строятся на основе потребностей бизнеса.
Правила и требования к модели данных определяются заранее на основе отзывов бизнеса, поэтому их можно включить в разработку новой системы или адаптировать к существующей.
Данные можно моделировать на разных уровнях абстракции.
Процесс начинается со сбора бизнес-требований от заинтересованных сторон и конечных пользователей.
Эти бизнес-правила затем преобразуются в структуры данных.
Модель данных можно сравнить с дорожной картой, архитектурным планом или любой формальной диаграммой, которая способствует более глубокому пониманию того, что разрабатывается.
При моделировании данных используются стандартизированные конструкции и формальные методы.
Это обеспечивает последовательный и предсказуемый способ управления данными внутри или за пределами организации.
В идеале модели данных — это живые документы, которые развиваются вместе с потребностями бизнеса.
Они играют важную роль в поддержке бизнес-процессов и планировании ИТ-архитектуры и стратегии.
Модели данных можно передавать поставщикам, партнерам и коллегам.
Преимущества моделирования данных Моделирование облегчает разработчикам, архитекторам данных, бизнес-аналитикам и другим заинтересованным сторонам просмотр и понимание взаимосвязей между данными.
Кроме того, моделирование данных помогает:
- Уменьшите количество ошибок при разработке программного обеспечения и баз данных.
- Унифицировать документацию на предприятии.
- Повышение производительности приложений и баз данных.
- Упростите видимость данных в вашей организации.
- Улучшите сотрудничество между разработчиками и командами бизнес-аналитики.
- Упростите и ускорьте процесс проектирования базы данных на концептуальном, логическом и физическом уровнях.
Типы моделей данных
Разработка баз данных и информационных систем начинается на высоком уровне абстракции и с каждым шагом становится все более точной и конкретной.По степени абстракции модели данных можно разделить на три категории.
Процесс начинается с концептуальной модели, переходит к логической модели и заканчивается физической моделью.
- Концептуальные модели данных.
Они описывают общую картину: что будет содержать система, как она будет организована и какие бизнес-правила будут задействованы.
Концептуальные модели обычно создаются в процессе первоначального сбора требований к проекту.
Обычно они включают классы сущностей (вещи, которые важно для бизнеса представлять в модели данных), их характеристики и ограничения, отношения между сущностями, требования к безопасности и целостности данных.
Любые обозначения обычно просты.
- Логические модели данных уже не являются столь абстрактными и предоставляют более подробную информацию о концепциях и взаимосвязях в рассматриваемой области.
Они содержат атрибуты данных и показывают отношения между сущностями.
Логические модели данных не определяют никаких технических требований к системе.
Этот шаг часто пропускают в Agile или DevOps -практики.
Логические модели данных могут быть полезны для проектов, ориентированных на данные по своей природе.
Например, для проектирования хранилища данных или разработку системы отчетности.
- Физические модели данных представляют собой диаграмму того, как данные будут храниться в базе данных.
Фактически, это наименее абстрактные из всех моделей.
Они предлагают окончательный дизайн, который можно реализовать как реляционная база данных , который включает таблицы связей, иллюстрирующие отношения между сущностями, а также первичные и внешние ключи для связывания данных.
Процесс моделирования данных
Моделирование данных начинается с согласования того, какие символы используются для представления данных, как располагаются модели и как передаются бизнес-требования.Это формализованный рабочий процесс, включающий ряд задач, которые необходимо выполнять итеративно.
Сам процесс обычно выглядит так:
- Определите сущности.
Каждая сущность должна быть целостной и логически отделенной от всех остальных.
- Определите ключевые свойства каждой сущности.
Например, сущность клиента может иметь такие атрибуты, как имя, фамилия, номер телефона и т. д. Сущность адреса может включать название и номер улицы, город, страну и почтовый индекс.
- Определите отношения между сущностями.
В приведенном выше примере каждый клиент «живет» по указанному адресу.
Если бы эта модель была расширена и включила в себя сущность «заказы», каждый заказ также был бы отправлен по определенному адресу.
Эти отношения обычно документируются с использованием унифицированного языка моделирования (UML).
- Полностью сопоставьте атрибуты с сущностями.
Широко используются несколько формальных шаблонов моделирования данных.
Объектно-ориентированные разработчики часто используют шаблоны анализа или шаблоны проектирования, в то время как заинтересованные стороны из других областей бизнеса могут обратиться к другим шаблонам.
- Назначьте ключи по мере необходимости и определите степень нормализации .
Нормализация — это метод организации моделей данных, при котором группам данных присваиваются числовые идентификаторы (ключи) для установления связей между ними без повторения данных.
Например, если каждому покупателю назначен ключ, этот ключ можно связать как с его адресом, так и с историей заказов, без необходимости повторять эту информацию в таблице имен клиентов.
Нормализация помогает уменьшить объем дискового пространства, требуемого базе данных, но может повлиять на производительность запросов.
- Завершите и проверьте модель данных.
Типы моделирования данных
Моделирование данных развивалось вместе с системами управления базами данных (СУБД), причем типы моделей становились все более сложными по мере роста потребностей предприятия в хранении данных.Иерархические модели данных представляют отношения один-ко-многим в древовидном формате.
В модели этого типа каждая запись имеет один корень или родительский элемент, который сопоставляется с одной или несколькими дочерними таблицами.
Эта модель была реализована в IBM Information Management System (IMS) в 1966 году и быстро нашла широкое применение, особенно в банковской сфере.
Хотя этот подход менее эффективен, чем недавно разработанные модели баз данных, он все еще используется в системах расширяемого языка разметки (XML) и географических информационных системах (ГИС).
Реляционные модели данных были предложены исследователем IBM?.
Ф.
Коддом в 1970 году.
Они до сих пор встречаются во многих реляционных базах данных, обычно используемых в корпоративных вычислениях.
Реляционное моделирование не требует детального понимания физических свойств используемого хранилища данных.
Он объединяет сегменты данных с помощью таблиц для упрощения базы данных.
Реляционные базы данных часто используют язык структурированных запросов (SQL) для управления данными.
Эти базы данных подходят для поддержания целостности данных и минимизации избыточности.
Они часто используются в системах торговых точек, а также для других типов обработки транзакций.
В Модели данных электронной отчетности используйте диаграммы для представления отношений между сущностями в базе данных.
Модель ER представляет собой формальную конструкцию, не предписывающую никаких графических средств ее визуализации.
Диаграмма сущность-связь была предложена в качестве стандартной графической записи для визуализации модели ER. Однако для визуализации ER-моделей могут использоваться и другие графические обозначения, либо визуализация может вообще не использоваться (например, только текстовое описание).
Объектно-ориентированные модели данных стал известен как объектно-ориентированное программирование и стал популярным в середине 1990-х годов.
Используемые «объекты» представляют собой абстракции объектов реального мира.
Объекты сгруппированы в иерархии классов и имеют связанные характеристики.
Объектно-ориентированные базы данных могут включать таблицы, но также могут поддерживать более сложные отношения.
Этот подход часто используется в мультимедийных и гипертекстовых базах данных.
Модели размерных данных разработан Ральфом Кимбаллом для быстрого поиска данных на складе.
Реляционные модели и модели ER подчеркивают эффективность хранения и уменьшают избыточность данных, а многомерные модели организуют данные таким образом, чтобы упростить извлечение информации и создание отчетов.
Такое моделирование обычно используется в OLAP-системы.
Двумя популярными многомерными моделями данных являются схемы «звезда» и «снежинка».
В звездообразной схеме данные организованы в факты (измеримые элементы) и измерения (справочная информация), при этом каждый факт окружен связанными с ним измерениями в форме звезды.
Узор снежинки похож на узор звезды, но включает в себя дополнительные слои связанных размеров, которые усложняют узор ветвления.
Инструменты моделирования данных
Сегодня широко используются многочисленные коммерческие и CASE-решения с открытым исходным кодом, включая различные инструменты моделирования данных, построения диаграмм и визуализации.Вот некоторые примеры:
- Эрвин Разработчик моделей данных — это инструмент моделирования данных, основанный на языке IDEF1X, который теперь поддерживает другие нотации, включая нотацию размерного моделирования.
- Корпоративный архитектор это инструмент визуального моделирования и проектирования, который поддерживает моделирование корпоративных информационных систем и архитектур, программных приложений и баз данных.
Он основан на объектно-ориентированных языках и стандартах.
- Скорая помощь/Студия — это программа проектирования баз данных, совместимая с некоторыми из наиболее популярных СУБД.
Он поддерживает как реляционное, так и многомерное моделирование данных.
- Бесплатные инструменты моделирования данных включать решения с открытым исходным кодом, такие как Open ModelSphere.
Особенно если это какой-то сложный запрос или каскад запросов.
Существуют специализированные инструменты для управления SQL-запросами, такие как dbt и Dataform. дбт (инструмент построения данных) — это платформа с открытым исходным кодом для выполнения, тестирования и документирования SQL-запросов, которая позволяет привнести элемент разработки программного обеспечения в процесс анализа данных.
Это помогает оптимизировать работу с SQL-запросами: используйте макросы и шаблоны JINJA, чтобы не повторять в сотый раз одни и те же фрагменты кода.
Основная проблема, которую решают специализированные инструменты, — сокращение времени, необходимого для поддержки и обновлений.
Это достигается за счет простоты отладки.
Теги: #Интернет-маркетинг #Веб-аналитика #моделирование данных #Веб-аналитика #Интернет-маркетинг
-
Амеба
19 Oct, 24 -
Windows И Ssh. Продолжение
19 Oct, 24 -
Об Одном Физическом Факультете
19 Oct, 24