Что Такое Терадата?

Предисловие: По работе мне пришлось изучить структуру базы данных Teradata, и оказалось, что информации в Интернете почти нет, особенно на русском языке.

Поэтому я решил собрать всю имеющуюся информацию.

Стремительный рост объёмов носителей информации и снижение стоимости хранения данных привели к появлению методов, способных обеспечить более быстрый доступ к необходимым данным — индексов, хранения данных в отсортированном виде и т. д. Эти методы справляются со своими задачами.

задача вполне успешно, однако возрастающая конкуренция в мире заставляет искать новые, более быстрые способы доступа к информации.

«Тот, кто владеет информацией, владеет миром».

Основной интерес вызывают базы данных с традиционной реляционной моделью данных, соответствующие требованиям ACID (атомарность, согласованность, изоляция, долговечность) и предназначенные для анализа больших данных.

Терадата - это параллельно реляционный СУБД, работающая на операционных системах:

МП-РАН UNIX Microsoft Windows 2000/2003 Сервер SuSE Linux Разнообразие поддерживаемых операционных систем является одной из причин, почему Teradata имеет открытую архитектуру.

СУБД Teradata — это большой сервер базы данных, который взаимодействует с несколькими клиентами через TCP/IP или через соединение с мэйнфреймом IBM. Компании выбирают СУБД Teradata по многим причинам: Поддержка больших объемов информации – более 400 ТБ на одну область.

Поддерживает модульное расширение от небольших баз данных (10 ГБ) до больших (100+ ТБ).

Предоставление оптимизатора с поддержкой параллельного выполнения, который исключает сложные настройки для получения запроса.

Автоматическое распределение данных исключает сложные схемы индексации и трудоемкие реорганизации.

База данных с самого начала спроектирована и построена на параллельной архитектуре.

Поддержка специальных запросов, использующих SQL стандарта ANSI и включающих информацию управления базой данных SQL (файлы журналов), что позволяет представлять запросы из других систем управления базами данных в Teradata. Единая точка контроля администрирования базы данных (Teradata Manager) Teradata обеспечивает высокоскоростной доступ к данным благодаря МПП (Massive Parallel Processing) – массово-параллельная архитектура.

Его особенность в том, что память физически разделена.

Teradata предлагает серверы Intel, подключенные к частной сети БАЙНЕТ для обмена сообщениями.

Системы Teradata предлагаются с собственными дисковыми массивами для хранения баз данных LSI или EMC. Подробнее о конфигурации системы хранения Об этом можно прочитать в блоге компании.



AMP
Основная концепция архитектуры базы данных Teradata AMP (Процессор модуля доступа), отдельный узел/узел, содержащий и самостоятельно обрабатывающий свои данные.

То есть каждый AMP занят обработкой и хранением только своей части базы данных и мало зависит от других AMP. В этом отношении база данных Teradata похожа на Hadoop (систему распределенных вычислений).

Однако массово-параллельная архитектура с неправильно спроектированной базой данных из-за перегрузки сетевых каналов между AMP может дать даже худшие результаты, чем однопоточный мощный сервер базы данных, такой как изначально был создан сервер СУБД Oracle. Для балансировки нагрузки между AMP и другими административными задачами используются инструменты Teradata Manager, DBSConsole и Teradata Administrator. В частности, эти инструменты позволяют устанавливать фильтры и приоритеты для пользовательских процессов, запущенных на AMP или сервере в целом.

Подробно Архитектура Терадата описано в блоге компании.

Терадата имеет оптимизатор запросов , работа которого основана на статистической информации о данных.

Начиная с 14 версии, в Teradata появилась возможность хранить данные как в виде строк, так и в виде столбцов (горизонтальное и вертикальное секционирование).

Гибридное хранилище также описано в блоге компании.



Витрина данных
Традиционно обработку данных делят на две категории: OLTP (онлайн-обработка транзакций) и DSS (системы поддержки принятия решений).

Но для аналитические базы данных При большом объеме информации обработка данных делится на ОЛАП (Аналитическая обработка в режиме онлайн) и ДМ (Сбор данных).

Тип Описание Пример Количество доступных линий Время отклика ОЛТП Работа с небольшими транзакциями, но с большим потоком, при этом клиент требует минимального времени ответа от системы.

Обновить текущий счет для отражения депозита Немного Секунды ДСС Система поддержки принятия решений для полного и объективного анализа деятельности субъекта Каковы были ежемесячные продажи обуви у розничного продавца X? Многие (миллионы) Секунды или минуты ОЛАП Технология обработки данных, заключающаяся в подготовке сводной (агрегированной) информации на основе больших объемов данных, структурированных по многомерному принципу.

Покажите 10 самых продаваемых товаров среди всех магазинов 2005 года.

Много строк с подробными сведениями или среднее количество строк с итоговыми данными Секунды или минуты Сбор данных Сбор данных Какие клиенты с наибольшей вероятностью отреагируют на акцию? Среднее количество длинных подробных строк Фаза 1: минуты или часы Фаза 2: секунды или доли секунды Таким образом, обрабатывать большие данные удобнее, используя т.н.

Витрины данных (Data Mart) – срез хранилища данных, представляющий собой массив тематической, узконаправленной информации, ориентированной, например, на пользователей одной рабочей группы.

Концепция имеет ряд преимуществ: Аналитики видят и работают только с теми данными, которые им действительно нужны.

Целевая база данных максимально приближена к конечному пользователю Витрины данных обычно содержат тематические подмножества предварительно агрегированных данных, их легче проектировать и настраивать.

Для реализации витрин данных не требуются мощные вычислительные технологии.

Однако концепция витрины не предлагает способов обеспечить целостность и согласованность хранимых данных.

Архитектура базы данных Teradata устраняет необходимость загрузки и преобразования витрин данных, делая одни и те же хранилища данных доступными для всех нужд пользователей.

Источники: [1] Блог компании Teradata: Teradata — СУБД, параллельная с рождения [2] Блог Teradata: скорость или объем? Автоматизация управления системами хранения с неоднородными характеристиками [3] Блог компании Teradata: Статистика в СУБД Teradata [4] Блог компании Teradata: Столбцовое и гибридное хранилище записей в СУБД Teradata [5] Реляционные базы данных обречены? [6] Простая и доступная информация об аналитических базах данных [7] Скорость доступа к данным: битва за будущее [8] Википедия [9] Документация на английском языке в бумажном виде.

Теперь нам нужно понять концепцию Первичный индекс : как расположены эти индексы и как они влияют на производительность.

УПД Следующий пост: Распределение строк и доступ к СУБД Teradata (Primary Index) Теги: #teradata #база данных #большие данные #sql #большие данные

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.