Привет, Хабр! 9 апреля с 17:00 до 20:00 наши инженеры соберутся на уютные посиделки с главным разработчиком ClickHouse Алексеем Миловидым.
Давайте поговорим о том, как мы используем систему управления базами данных на Авито, с какими трудностями сталкиваемся, и зададим Алексею вопросы о настоящем и будущем ClickHouse. По понятным причинам в настоящее время мы не проводим мероприятия в офисе, поэтому приглашаем всех посмотреть прямую трансляцию встречи.
Формат: три микродоклада и большая сессия вопросов и ответов, где зрители смогут задать свои вопросы.
ТЛ;ДР: зарегистрироваться на Таймпаде , и мы пришлем ссылку с напоминанием о трансляции.
Отчеты
Начнем с трех репортажей с Авито, чтобы погрузить публику и Алексея в контекст разговора.Наши инженеры расскажут вам, как их команды используют ClickHouse. Обо всём поговорим минут за 20, а потом перейдем к сессии вопросов и ответов.
Владимир Колобаев, ведущий системный администратор
У команды мониторинга есть два кластера ClickHouse. Первый — о метриках и мониторинге.Состоит из 6 серверов с общим объёмом данных 20 ТБ на SSD. Мы столкнулись с необходимостью провести ребалансировку всех данных на 12 серверах.
Боевая нагрузка никуда не делась, и стабильность кластера пострадать не должна.
Для нас это нестандартная задача, потому что нет инструментов для ребалансировки данных внутри расширяемого кластера.
Второй кластер — это логи, там 150 ТБ данных на 4 серверах.
Было время, когда мы пытались разместить эти сервера в трех дата-центрах, чтобы повысить стабильность кластера.
Хотелось бы обсудить нюансы обеих задач.
Максим Котяков, старший бэкенд-инженер
Я кратко изложу три момента, о которых мне хотелось бы поговорить.Во-первых, команда статистики для профессиональных пользователей Авито делает платформу для аналитики и статистики в реальном времени, которая находится в стадии быстрого роста.
Теперь у нас на SSD на каждом шарде больше трех терабайт данных.
Данных будет все больше и больше, а также шардов и реплик этих шардов.
Поэтому нас особенно интересует все, что связано с масштабированием кластера.
Во-вторых, я покажу вам, как мы построили архитектуру нашего хранилища.
Все события — как пользовательские, так и генерируемые внутренними сервисами Авито — попадают в одну большую и широкую таблицу, доступную извне только по записи.
Оттуда они распространяются по множеству специальных оптимизированных таблиц, скрытых под материализованным представлением.
В-третьих, я расскажу, почему мы не читаем напрямую из Kafka, и как в этой ситуации, в зависимости от потребности бизнеса, мы гарантируем или не гарантируем доставку событий в ClickHouse.
Сос Саакян, инженер среднего звена по направлению больших данных
В Авито я строю инфраструктуру хранения для Realtime AB. Весь поток кликов поступает в ClickHouse. Постоянно чистим данные с помощью Cron — у нас версия 18.7. За день накапливается 3-4 ТБ.Конвейер организован через набор материализованных представлений.
Мы агрегируем данные в наблюдения и метрики, рассчитываем статистические тесты и отображаем их в отчетах.
К ClickHouse подключены внешние словари с активным lazy_load, и я расскажу вам об особенностях их использования и о том, какие побочные эффекты возможны при перезагрузке узла.
Отдельно поговорим о дыре с деталями в XML-конфиге словарей и о том, как мы ее спрятали.
Хотелось бы понять, как бороться с проблемой некостыльными методами.
Сессия вопросов и ответов с Алексеем Миловидовым
Гость встречи — Алексей Миловидов, главный разработчик ClickHouse компании «Яндекс».Он ответит на вопросы команды Авито и телезрителей трансляции.
Это Алексей.
За фото спасибо нашим друзьям из Онтико.
После вводной части мы с Алексеем обсудим самые разные темы и накопившиеся боли.
Спикеры, участвующие в дискуссии, — Александр Козлов — бэкэнд-инженер подразделения «Успех продаж» в Авито — и Кирилл Самохин — технический руководитель этого же подразделения.
К ним присоединится Кирилл Шваков, разработчик Golang из компании Интегрос.
Надеемся, что беседа будет полезна всем инженерам, использующим ClickHouse. Мы планируем поговорить о:
- Резервные копии.
Лучшие практики, дружба с Collapsing MT и разбиение на разделы.
- Решардинг при добавлении новых серверов.
- Кэши.
Параллельное выполнение N одинаковых выборок и частичное кэширование старых разделов.
- Узлы в кластере.
Как правильно изменить распределение по всему кластеру.
- ВАЛ.
Откат для изменения и как реализовать управляемую задержку реплики.
- Асинхронный матвью.
Как преодолеть дублирование данных.
- Журналы.
Три типа логов, для которых нет документации, и возможное существование дашборда.
- Двигатель Кафка.
В каком состоянии двигатель?
- Убить запрос.
Почему не работает при большой нагрузке на сервер?
- ДрайверGoLang. Потребление памяти, проблемы с часовыми поясами и древние проблемы.
- Внешние словари.
Ошибки Lazy_load и проблемы безопасности.
Чтобы задать свой вопрос, подключайтесь к прямой трансляции посиделок на YouTube. Модератор встречи Кирилл Самохин будет следить за комментариями аудитории и вводить в обсуждение интересные темы.
Пароли и явки
Начало трансляции на нашем YouTube-канале 9 апреля в 17:00. Пожалуйста, зарегистрироваться на Таймпаде — тогда мы отправим вам напоминание со ссылкой на трансляцию в день мероприятия.И там же можно заранее задать вопрос на обсуждение.
Берегите свое здоровье, увидимся онлайн! Теги: #clickhouse #трансляции #мероприятия #базы данных #Администрирование баз данных #Конференции
-
9 Очень Полезных Советов По Javascript
19 Oct, 24 -
На Пути К Ядру Python
19 Oct, 24 -
Анонс Веб-Камеры В Стиле Стимпанк
19 Oct, 24 -
Виста Как Феномен Притяжения
19 Oct, 24