Машинное Обучение И Анализ Данных. Лекция Для Малого Шад Яндекса

Все чаще мы сталкиваемся с необходимостью выявления внутренних закономерностей больших объемов данных.

Например, чтобы распознавать спам, вам нужно уметь находить закономерности в содержании электронных писем, а для прогнозирования цен на акции нужно уметь находить закономерности в финансовых данных.

К сожалению, выявить их «вручную» зачастую невозможно, и тогда на помощь приходят методы машинного обучения.

Они позволяют строить алгоритмы, помогающие находить новые, еще не описанные закономерности.

Мы поговорим о том, что такое машинное обучение, где его следует применять и какие трудности могут возникнуть.

На реальных примерах будут рассмотрены принципы работы нескольких популярных методов машинного обучения.

Лекция предназначен для старшеклассников - слушателей Малого ШАД, но с его помощью взрослые смогут получить представление и об основах машинного обучения.



Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

Основная идея машинного обучения заключается в том, что, имея обучающую программу и примеры данных с закономерностями, мы можем построить некоторую модель закономерности и найти закономерности в новых данных.



Метод ближайшего соседа

В качестве примера давайте решим простую задачу.

У нас на плоскости разбросаны точки двух цветов: красного и синего.

Мы знаем координаты и цвет каждого из них.

Нам нужно определить цвет новой точки.

Каждая точка — это изучаемый объект, а координаты и цвет — его параметры.

Например, объекты — это люди, координаты — рост и длина волос человека, а цвет — пол человека.



Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

Попробуем решить ее методом ближайшего соседа.

Пусть новый объект принадлежит тому же классу, что и его ближайший сосед. Сделаем прогноз для каждой точки нашей плоскости: если ближайшая точка синяя, то новый объект, который появится в этой точке, будет синим.

И наоборот.

Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

Таким образом, мы получаем две области: в одной высока вероятность появления красных точек, а в другой – синих.



Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

Далее попробуем немного изменить алгоритм и сосредоточиться на нескольких (k) ближайших соседях.

Пусть k равно пяти.



Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

В этом случае мы сможем отсечь потенциально шумные объекты и получить более ровную границу разделения классов.



Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

Вот как будет выглядеть деление на большем количестве объектов, полученных при нормальном распределении.



Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса



Качество и параметры алгоритмов

Давайте еще раз представим, что у нас есть плоскость, на которой определенным образом расположены красная и синяя точки.



Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

Провести грань между ними можно по-разному.

Результат будет зависеть от того, насколько хорошо алгоритм соответствует данным.



Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

Обычно склонность модели к переобучению связана с количеством ее параметров.

Например, модель с небольшим количеством параметров вряд ли сможет переобучиться.

В общем, задачи машинного обучения рассматривают точки в многомерном пространстве, а не на плоскости.

Каждая координата является знаком.

Таким образом, обучающую выборку можно представить следующим образом:

Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

Но какой алгоритм выбрать и как оценить качество его работы? Для этого размеченный обучающий набор делится на две части.

В первой части происходит непосредственное обучение, а вторая часть используется в качестве теста.

На нем мы проверим, сколько ошибок выдал алгоритм.



Цикл решения проблем

Примерный цикл решения задачи машинного обучения выглядит так:

Машинное обучение и анализ данных.
</p><p>
 Лекция для Малого ШАД Яндекса

Сначала мы предварительно обрабатываем данные, затем выбираем метод и параметры классификации, проводим обучение и оцениваем качество.

Если качество утроится, задание считается выполненным.

В противном случае возвращаемся к выбору метода и параметров.

Более подробная информация, примеры реальных задач по машинному обучению, а также рассказ о гиперплоскостях, нейронные сети .

глубокое обучение, Метод Виолы-Джонса , деревья решений и бустинг доступны в видеозаписи лекции.

Теги: #Машинное обучение #Алгоритмы #shad #small Shad #small Shad

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.