[OTUS] Pазработчик BigData. Модуль 2 из 5 (2018)

Дима Маниша

OTUS Pазработчик BigData. Модуль 2 из 5

Программа курса От сгенерированных данных переходим к данным в табличном виде.

Такие данные встречаются в конкурсах по анализу данных, а также могут быть собраны, например, напрямую из баз данных.

Для применения алгоритмов машинного обучения обычно такие данные требуют дополнительных преобразований.Во втором модуле рассматриваются задачи преобразования и отбора признаков, вопросы подготовки данных для использования в машинном обучении.Также будут рассмотрены более сложные алгоритмы в анализе данных - понижение размерности, определение выбросов в данных, построение ансамблей моделей.

Занятие 11: Уменьшение размерности Principle component analysis, t-sne. Поиск подмножества фич (subset selection).
ДЗ Применение снижения размерности для использования в модели.
Занятие 12: Методы оптимизации SGD, модификации SGD
Занятие 13: Деревья решений Ограничения и недостатки деревьев решений. Классификация и регрессия с помощью деревьев решений. Выбор оптимального сплита, суррогатный сплит.
ДЗ Реализация алгоритма дерева решений на простых данных. Реализация некоторых эвристик в деревьях решений.
Занятие 14: Ансамбли моделей Случайный лес. Обзор методов ансамблирования: бустинг, бэггинг, стекинг, случайные подпространства.
Занятие 15: Бустинг Xgboost, catboost, lightgbm, Стекинг, блендинг
ДЗ Применение бустинга для построения лучшей модели.
Занятие 16: SVM, Support vector machine Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
Занятие 17: Анализ текстовых данных Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.
ДЗ Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных
Занятие 18: Анализ текстовых данных Выделение объектов в тексте (named entity recognition, named entity linking) Неструктурированные данные. Структурированные данные. Сбор текстов (scraping) Word2vec для извлечения похожих слов, sentiment analysis
Скачать: Скрытая информация :: Авторизуйтесь для просмотра »

Похожие темы	Дата
[нетология] внутренняя оптимизация сайта	19.10.2024, 18:10
DNS_PROBE_FINISHED_BAD_CONFIG	19.10.2024, 18:10
У вас есть свой сайт?	19.10.2024, 18:10
[РОМАН ПУЗАТ] Контентные сайты в кризис	19.10.2024, 18:10
Создание сайтов для продажи физических товаров в Adobe Muse и Photoshop с системой E-autopay (2015)	19.10.2024, 18:10
Советские Дорвеи	19.10.2024, 18:10
[Стиль] Deflection	19.10.2024, 18:10
Курс Автонаполняемые сайты с ТИЦ10	19.10.2024, 18:10
Заработок на форексе, реально?	19.10.2024, 18:10
Хочу создать свой первый сайт, но плавать не умею!	19.10.2024, 18:10

[OTUS] Pазработчик BigData. Модуль 2 из 5 (2018)

Дима Маниша

I AM

Интересно