Clickhouse На Авито: Живые Посиделки С Алексеем Миловидовым

Привет, Хабр! 9 апреля с 17:00 до 20:00 наши инженеры соберутся на уютные посиделки с главным разработчиком ClickHouse Алексеем Миловидым.

Давайте поговорим о том, как мы используем систему управления базами данных на Авито, с какими трудностями сталкиваемся, и зададим Алексею вопросы о настоящем и будущем ClickHouse. По понятным причинам в настоящее время мы не проводим мероприятия в офисе, поэтому приглашаем всех посмотреть прямую трансляцию встречи.

Формат: три микродоклада и большая сессия вопросов и ответов, где зрители смогут задать свои вопросы.



ClickHouse на Авито: живые посиделки с Алексеем Миловидовым

ТЛ;ДР: зарегистрироваться на Таймпаде , и мы пришлем ссылку с напоминанием о трансляции.



Отчеты

Начнем с трех репортажей с Авито, чтобы погрузить публику и Алексея в контекст разговора.

Наши инженеры расскажут вам, как их команды используют ClickHouse. Обо всём поговорим минут за 20, а потом перейдем к сессии вопросов и ответов.



Владимир Колобаев, ведущий системный администратор



ClickHouse на Авито: живые посиделки с Алексеем Миловидовым

У команды мониторинга есть два кластера ClickHouse. Первый — о метриках и мониторинге.

Состоит из 6 серверов с общим объёмом данных 20 ТБ на SSD. Мы столкнулись с необходимостью провести ребалансировку всех данных на 12 серверах.

Боевая нагрузка никуда не делась, и стабильность кластера пострадать не должна.

Для нас это нестандартная задача, потому что нет инструментов для ребалансировки данных внутри расширяемого кластера.

Второй кластер — это логи, там 150 ТБ данных на 4 серверах.

Было время, когда мы пытались разместить эти сервера в трех дата-центрах, чтобы повысить стабильность кластера.

Хотелось бы обсудить нюансы обеих задач.



Максим Котяков, старший бэкенд-инженер



ClickHouse на Авито: живые посиделки с Алексеем Миловидовым

Я кратко изложу три момента, о которых мне хотелось бы поговорить.

Во-первых, команда статистики для профессиональных пользователей Авито делает платформу для аналитики и статистики в реальном времени, которая находится в стадии быстрого роста.

Теперь у нас на SSD на каждом шарде больше трех терабайт данных.

Данных будет все больше и больше, а также шардов и реплик этих шардов.

Поэтому нас особенно интересует все, что связано с масштабированием кластера.

Во-вторых, я покажу вам, как мы построили архитектуру нашего хранилища.

Все события — как пользовательские, так и генерируемые внутренними сервисами Авито — попадают в одну большую и широкую таблицу, доступную извне только по записи.

Оттуда они распространяются по множеству специальных оптимизированных таблиц, скрытых под материализованным представлением.

В-третьих, я расскажу, почему мы не читаем напрямую из Kafka, и как в этой ситуации, в зависимости от потребности бизнеса, мы гарантируем или не гарантируем доставку событий в ClickHouse.



Сос Саакян, инженер среднего звена по направлению больших данных



ClickHouse на Авито: живые посиделки с Алексеем Миловидовым

В Авито я строю инфраструктуру хранения для Realtime AB. Весь поток кликов поступает в ClickHouse. Постоянно чистим данные с помощью Cron — у нас версия 18.7. За день накапливается 3-4 ТБ.

Конвейер организован через набор материализованных представлений.

Мы агрегируем данные в наблюдения и метрики, рассчитываем статистические тесты и отображаем их в отчетах.

К ClickHouse подключены внешние словари с активным lazy_load, и я расскажу вам об особенностях их использования и о том, какие побочные эффекты возможны при перезагрузке узла.

Отдельно поговорим о дыре с деталями в XML-конфиге словарей и о том, как мы ее спрятали.

Хотелось бы понять, как бороться с проблемой некостыльными методами.



Сессия вопросов и ответов с Алексеем Миловидовым

Гость встречи — Алексей Миловидов, главный разработчик ClickHouse компании «Яндекс».

Он ответит на вопросы команды Авито и телезрителей трансляции.



ClickHouse на Авито: живые посиделки с Алексеем Миловидовым

Это Алексей.

За фото спасибо нашим друзьям из Онтико.

После вводной части мы с Алексеем обсудим самые разные темы и накопившиеся боли.

Спикеры, участвующие в дискуссии, — Александр Козлов — бэкэнд-инженер подразделения «Успех продаж» в Авито — и Кирилл Самохин — технический руководитель этого же подразделения.

К ним присоединится Кирилл Шваков, разработчик Golang из компании Интегрос.

Надеемся, что беседа будет полезна всем инженерам, использующим ClickHouse. Мы планируем поговорить о:

  • Резервные копии.

    Лучшие практики, дружба с Collapsing MT и разбиение на разделы.

  • Решардинг при добавлении новых серверов.

  • Кэши.

    Параллельное выполнение N одинаковых выборок и частичное кэширование старых разделов.

  • Узлы в кластере.

    Как правильно изменить распределение по всему кластеру.

  • ВАЛ.

    Откат для изменения и как реализовать управляемую задержку реплики.

  • Асинхронный матвью.

    Как преодолеть дублирование данных.

  • Журналы.

    Три типа логов, для которых нет документации, и возможное существование дашборда.

  • Двигатель Кафка.

    В каком состоянии двигатель?

  • Убить запрос.

    Почему не работает при большой нагрузке на сервер?

  • ДрайверGoLang. Потребление памяти, проблемы с часовыми поясами и древние проблемы.

  • Внешние словари.

    Ошибки Lazy_load и проблемы безопасности.



ClickHouse на Авито: живые посиделки с Алексеем Миловидовым

Чтобы задать свой вопрос, подключайтесь к прямой трансляции посиделок на YouTube. Модератор встречи Кирилл Самохин будет следить за комментариями аудитории и вводить в обсуждение интересные темы.



Пароли и явки

Начало трансляции на нашем YouTube-канале 9 апреля в 17:00. Пожалуйста, зарегистрироваться на Таймпаде — тогда мы отправим вам напоминание со ссылкой на трансляцию в день мероприятия.

И там же можно заранее задать вопрос на обсуждение.

Берегите свое здоровье, увидимся онлайн! Теги: #clickhouse #трансляции #мероприятия #базы данных #Администрирование баз данных #Конференции

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.