Распределенное Хранилище Данных В Концепции Data Lake: Администрирование Кластера

Тема администрирования кластера Cloudera достаточно обширна и охватить ее в одной статье невозможно.

В этом посте мы сосредоточимся на инструкциях по решению наиболее распространенных проблем, связанных с кластером и установленными на нем сервисами, а для более глубокого погружения рекомендую обратиться к официальной документации и форуму.

Там можно найти информацию практически по любому вопросу.



Распределенное хранилище данных в концепции Data Lake: администрирование кластера



Запуск кластера

На домашней странице Cloudera Manager нажмите кнопку со стрелкой справа от имени кластера и выберите «Пуск»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера



Перезапуск кластера

Делаем то же, что и предыдущий пункт, и выбираем «Перезапустить».



Остановка кластера

Делаем то же, что и предыдущий пункт, и выбираем «Стоп».



Запуск сервисных ролей

На домашней странице Cloudera Manager нажмите кнопку «Кластеры» и выберите в нужном кластере сервис, роль которого вы хотите запустить:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Перейдите на вкладку «Экземпляры» этого сервиса:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Роли служб имеют состояние справа от их имени.

Остановленные роли соответствуют Остановлено.

В таблице отмечаем роль службы, которую необходимо запустить:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Нажмите кнопку «Действия для выбранных» и выберите «Начать»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Нажмите кнопку «Пуск», чтобы подтвердить запуск:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера



Перезапуск сервисных ролей

Повторяем действия из предыдущего пункта и выбираем «Перезапустить» после нажатия кнопки «Действия для выбранных».



Остановка ролей службы

Делаем то же, что и предыдущий пункт, и выбираем «Стоп» после нажатия кнопки «Действия для выбранных».



Добавление роли

На домашней странице Cloudera Manager нажмите кнопку Кластеры и выберите в нужном кластере сервис, для которого нужно добавить роль:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Перейдите на вкладку «Экземпляры» этого сервиса и нажмите «Добавить экземпляры ролей»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Для ролей, которые необходимо добавить, выберите хосты, на которых их необходимо установить:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Подтверждаем установку выбранных ролей на указанных хостах:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера



Удалить роль

На домашней странице Cloudera Manager нажмите кнопку «Кластеры» и выберите в нужном кластере сервис, для которого вы хотите удалить роль:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Перейдите на вкладку «Экземпляры» этого сервиса:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Отмечаем роли, которые необходимо удалить (предварительно их остановив):

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Нажмите кнопку «Действия для выбранных» и выберите «Удалить»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Подтвердите удаление, нажав кнопку «Удалить»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера



Добавление услуги

Добавление сервиса уже описано в разделе «Установка дополнительных парселей», поэтому подробно останавливаться на этом процессе мы не будем.



Удаление службы

На домашней странице Cloudera Manager нажмите кнопку «Кластеры» и выберите сервис, который необходимо удалить в нужном кластере:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Перейдите на вкладку «Экземпляры» этого сервиса:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Отмечаем активные роли:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Нажмите кнопку «Действия для выбранных» и выберите «Стоп»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Подтвердите остановку, нажав кнопку «Стоп»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Перейдите на домашнюю страницу Cloudera Manager, нажмите кнопку со стрелкой справа от названия сервиса, который необходимо удалить, и выберите Удалить:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Подтвердите удаление, нажав кнопку «Удалить»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера



Повторное развертывание служб после изменения файлов конфигурации

После изменения файлов конфигурации служб вам потребуется повторно развернуть эти службы.

В этом случае справа от соответствующего сервиса появится символ файла со стрелкой.

Нажмите здесь:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

В правом нижнем углу нажмите «Перезапустить устаревшие службы»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Подтвердите перезагрузку, нажав «Перезагрузить сейчас» в правом нижнем углу.

Если вам не нужно расширять конфигурацию клиента, снимите галочку на этой странице:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

На странице перезапуска отображается состояние перезапускаемых служб.

В случае неправильных конфигураций нажатие на стрелку справа от задачи предоставит подробную информацию об ошибке.

После завершения перезагрузки нажмите «Готово»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера



Настройка инструментов мониторинга

При добавлении хостов в кластер Cloudera Manager устанавливает на них свои агенты, которые позволяют отслеживать системные метрики этих машин.

Графики всех собранных метрик доступны на вкладке «Библиотека диаграмм» в разделе «Все хосты\Имя хоста».

Cloudera Manager также имеет встроенный гибкий механизм визуализации метрик на основе SQL-запросов и фильтров, который позволяет легко и быстро создавать на главном экране подборку мониторов, дающих достаточно полную картину работы системы.

Давайте рассмотрим эти механизмы на примере добавления графика одной из метрик системы на главную страницу.

На домашней странице Cloudera Manager нажмите кнопку «Хосты» и выберите «Все хосты»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Выбираем сервер, монитор метрик которого мы хотим добавить:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Выберите один из графиков, нажмите на шестеренку в его правом верхнем углу и выберите «Добавить на панель» (аналогично можно перейти на вкладку «Библиотека диаграмм» и выбрать необходимый график из полного каталога):

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Указываем имя диаграммы (можно оставить по умолчанию), выбираем панель, на которой хотим ее разместить (чтобы разместить на домашней странице Cloudera Manager, выбираем «Домашняя страница») и нажимаем «Сохранить диаграмму»:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

После этого выбранный график появится на соответствующей панели:

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

При необходимости вы можете изменить добавленную диаграмму, нажав на шестеренку в ее правом верхнем углу и выбрав «Открыть в построителе диаграмм».



Заключение

После настройки мониторинга кластер Cloudera готов к работе: вы можете запускать задачи загрузки данных, трансформировать их и подключать инструменты Data Mining. И хотя до достижения конечных целей предстоит пройти еще долгий путь, этот момент можно считать отправной точкой.

В результате реализации данного проекта удалось достичь всех поставленных целей: рутинные задачи сотрудников отдела расчета факторов кредитного риска были автоматизированы, а специалисты по обработке данных приобрели «качественные» инструменты для совместной работы.

На пути к этим целям тоже было немало нюансов и сложных моментов, которыми я с удовольствием поделюсь с вами в следующих частях.

Они сосредоточатся на построении непрерывной интеграции для ускорения процессов разработки, а также на установке и настройке инструментов интеллектуального анализа данных.

В заключение хотелось бы сказать, что работать со стеком приложений, сформированным вокруг Apache Hadoop, не всегда легко, но очень интересно.

Их технологии открывают массу возможностей и уже сформировали вокруг себя достаточно большое сообщество, которое всегда готово прийти на помощь в трудную минуту.

Немного практики и у вас все получится.

P.S. В следующей статье я расскажу, как эффективно организовать непрерывную интеграцию для проектов с разработкой под CDH. До скорой встречи! Ссылки на предыдущие статьи: Распределенное хранилище данных в концепции Data Lake: с чего начать Распределенное хранилище данных в концепции Data Lake: установка CDH Теги: #Хранилища данных #Большие данные #Hadoop #администрирование #озеро данных

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.