Создавайте мощные прогнозные модели в R R — это язык статистического программирования, который предоставляет впечатляющие инструменты для анализа данных и создания графики высокого уровня.
Этот видеокурс познакомит вас с самыми основами R и поможет создать содержательные модели машинного обучения с помощью R. Вы начнете с настройки среды, а затем выполните ETL данных в R. Приводятся примеры исследования данных, которые демонстрируют, насколько эффективны визуализация данных и машинное обучение в обнаружении скрытых взаимосвязей.
Затем вы погрузитесь в важные темы машинного обучения, включая классификацию данных, регрессию, кластеризацию, анализ правил ассоциации и уменьшение размерности.
- Примените R к простому прогнозному моделированию с помощью короткого и простого кода
- Используйте машинное обучение для решения задач, начиная с небольших и заканчивая большими данными.
- Создайте набор данных для обучения и тестирования на основе набора данных об оттоке, применяя различные методы классификации.
- Создайте и проверьте набор данных транзакций, выполнив анализ связей с помощью алгоритма Apriori.
- Визуализируйте шаблоны и ассоциации, используя ряд графиков, и находите часто встречающиеся наборы элементов, используя алгоритм Eclat.
- Сравните различия между каждым методом регрессии, чтобы узнать, как они решают проблемы.
- Прогнозируйте возможный отток пользователей с помощью подхода классификации
- Внедрить метод кластеризации для сегментации данных о клиентах.
- Сжимайте изображения методом уменьшения размера.
- Интегрируйте R и Hadoop для решения задач машинного обучения на больших данных.
.
Содержание
- Начало работы с Р
- Обзор курса
- Загрузка и установка R
- Загрузка и установка RStudio
- Установка и загрузка пакетов
- Чтение и запись данных
- Использование R для манипулирования данными
- Применение базовой статистики
- Визуализация данных
- Получение набора данных для машинного обучения
- Исследование данных с помощью RMS Titanic
- Чтение набора данных Титаника из файла CSV
- Преобразование типов символьных переменных
- Обнаружение пропущенных значений
- Вменение пропущенных значений
- Исследование и визуализация Datac
- Прогнозирование выживаемости пассажиров с помощью дерева решений
- Проверка силы прогнозирования с помощью матрицы путаницы
- Оценка производительности с помощью кривой ROC
- R и статистика
- Понимание выборки данных в R
- Работа с распределением вероятностей в R
- Работа с одномерной описательной статистикой в R
- Выполнение корреляций и многомерного анализа
- Операционная линейная регрессия и многомерный анализ
- Проведение точного биномиального теста
- Выполнение t-теста Стьюдента
- Выполнение теста Колмогорова-Смирнова
- Понимание ранговой суммы Уилкоксона и критерия знакового ранга
- Работа с тестом хи-квадрат Пирсона
- Проведение одностороннего дисперсионного анализа
- Выполнение двустороннего дисперсионного анализа
- Понимание регрессионного анализа
- Установка модели линейной регрессии с помощью lm
- Подведение итогов по подгонкам линейной модели
- Использование линейной регрессии для прогнозирования неизвестных значений
- Создание диагностического графика подобранной модели
- Подбор модели полиномиальной регрессии с помощью lm
- Установка надежной модели линейной регрессии с помощью rlm
- Изучение случая линейной регрессии на данных SLID
- Применение модели Гаусса для обобщенной линейной регрессии
- Применение модели Пуассона для обобщенной линейной регрессии
- Применение биномиальной модели для обобщенной линейной регрессии
- Подбор обобщенной аддитивной модели к данным
- Визуализация обобщенной аддитивной модели
- Диагностика обобщенной аддитивной модели
- Классификация – древовидная, ленивая и вероятностная
- Подготовка наборов данных для обучения и тестирования
- Построение модели классификации с помощью рекурсивных деревьев секционирования
- Визуализация дерева рекурсивного секционирования
- Измерение эффективности прогнозирования дерева рекурсивного секционирования
- Обрезка рекурсивного дерева разбиения
- Построение модели классификации с помощью дерева условного вывода
- Визуализация дерева условного вывода
- Измерение эффективности прогнозирования дерева условного вывода
- Классификация данных с помощью классификатора K-ближайших соседей
- Классификация данных с помощью логистической регрессии
- Классификация данных с помощью наивного байесовского классификатора
- Нейронная сеть и SVM
- Классификация данных с помощью машины опорных векторов
- Выбор стоимости SVM
- Визуализация подгонки SVM
- Прогнозирование меток на основе модели, обученной SVM
- Настройка SVM
- Обучение нейронной сети с помощью Neuronnet
- Визуализация нейронной сети, обученной нейронной сетью
- Прогнозирование меток на основе модели, обученной нейронной сетью
- Обучение нейронной сети с помощью nnet
- Прогнозирование меток на основе модели, обученной nnet
- Оценка модели
- Оценка производительности модели с помощью k-кратной перекрестной проверки
- Выполнение перекрестной проверки с помощью пакета e1071
- Выполнение перекрестной проверки с помощью пакета Caret
- Ранжирование важности переменной с помощью пакета Caret
- Ранжирование важности переменных с помощью пакета rminer
- Поиск сильно коррелированных функций с помощью пакета Caret
- Выбор объектов с помощью пакета Caret
- Измерение производительности регрессионной модели
- Измерение эффективности прогнозирования с помощью матрицы ошибок
- Измерение эффективности прогнозирования с использованием ROCR
- Сравнение кривой ROC с использованием пакета Caret
- Измерение различий в производительности между моделями с помощью пакета Caret
- Ансамблевое обучение
- Классификация данных с помощью метода мешков
- Выполнение перекрестной проверки с помощью метода мешков
- Классификация данных с помощью метода бустинга
- Выполнение перекрестной проверки с помощью метода повышения
- Классификация данных с помощью повышения градиента
- Вычисление полей классификатора
- Расчет эволюции ошибки метода ансамбля
- Классификация данных с помощью случайного леса
- Оценка ошибок прогнозирования различных классификаторов
- Кластеризация
- Кластеризация данных с помощью иерархической кластеризации
- Резка деревьев на группы
- Кластеризация данных с помощью метода k-средних
- Рисование двумерного кластерного графика
- Сравнение методов кластеризации
- Извлечение информации о силуэте из кластеризации
- Получение оптимального количества кластеров для k-средних
- Кластеризация данных с помощью метода на основе плотности
- Кластеризация данных с помощью модельного метода
- Визуализация матрицы несходства
- Внешняя проверка кластеров
- Анализ ассоциаций и анализ последовательностей
- Преобразование данных в транзакции
- Отображение транзакций и ассоциаций
- Горнодобывающие ассоциации с правилом априори
- Удаление повторяющихся правил
- Визуализация правил ассоциации
- Анализ часто встречающихся наборов элементов с помощью Eclat
- Создание транзакций с временной информацией
- Анализ частых последовательных шаблонов с помощью cSPADE
- Уменьшение размеров
- Выполнение выбора функций с помощью FSelector
- Выполнение уменьшения размерности с помощью PCA
- Определение количества основных компонентов с помощью теста осыпи
- Определение количества главных компонентов методом Кайзера
- Визуализация многомерных данных с использованием биграфика
- Выполнение уменьшения размеров с помощью MDS
- Уменьшение размеров с помощью SVD
- Сжатие изображений с помощью SVD
- Выполнение нелинейного уменьшения размеров с помощью ISOMAP
- Выполнение нелинейного уменьшения размеров с помощью локального линейного встраивания
- Анализ больших данных с помощью R и Hadoop
- Подготовка среды RHadoop
- Установка рмр2
- Установка rhdfs
- Работа HDFS с rhdfs
- Реализация проблемы подсчета слов с помощью RHadoop
- Сравнение производительности программы R MapReduce и стандартной программы R
- Тестирование и отладка программы rmr2
- Установка плирмра
- Манипулирование данными с помощью plyrmr
- Проведение машинного обучения с помощью RHadoop
- Настройка кластеров RHadoop в Amazon EMR
об авторе
Ю-Вэй Ю-Вей Чиу (Дэвид Чиу) — основатель LargitData (www.LargitData.com), стартап-компании, которая в основном занимается предоставлением продуктов для больших данных и машинного обучения.
Ранее он работал в компании Trend Micro инженером-программистом, где отвечал за создание платформ больших данных для систем бизнес-аналитики и управления взаимоотношениями с клиентами.
Помимо того, что он является начинающим предпринимателем и специалистом по данным, он специализируется на использовании Spark и Hadoop для обработки больших данных и применении методов интеллектуального анализа данных для анализа данных.
Ю-Вэй также является профессиональным лектором и читал лекции по большим данным и машинному обучению в R и Python, а также выступал с техническими докладами на различных конференциях.
В 2015 году Ю-Вэй написал книгу «Машинное обучение с помощью R Cookbook», Packt Publishing. В 2013 году Ю-Вэй написал обзор «Биоинформатика» в R Cookbook, Packt Publishing. Для получения дополнительной информации посетите его личный сайт www.ywchiu.com. Чиу (Дэвид Чиу)
Следующий:
Следующий раздел Следующий разделОбзор курса
Здесь представлена краткая информация о курсе.
Загрузка и установка R
Для работы с R необходимо сначала установить его в вашей системе.
- Скачать R согласно системе
- Установить Р
- Загрузка и установка R
Загрузка и установка RStudio
RStudio упрощает процесс разработки с использованием R.
- Скачать RStudio
- Установить Рстудию
- Загрузка и установка RStudio
Установка и загрузка пакетов
Пакеты R являются неотъемлемой частью R, поскольку они необходимы во всех наших программах.
Давайте научимся это делать.
- Скачать пакеты
- Установите их
- Установка и загрузка пакетов
Чтение и запись данных
Вы должны знать, как передавать данные в R для работы с данными.
Вы узнаете это здесь.
- Загрузите пакет набора данных iris
- Используйте функции read.table и write.table для чтения и записи данных.
- Чтение и запись данных
Использование R для манипулирования данными
Манипулирование данными требует много времени и, следовательно, должно выполняться с помощью встроенных функций R.
- Загрузите набор данных
- Выбор и подмножество данных в соответствии с условиями
- Использование R для манипулирования данными
Применение базовой статистики
R широко используется в статистических приложениях.
Следовательно необходимо узнать о встроенных функциях R.
- Загрузите набор данных
- Соблюдайте формат данных
- Применение базовой статистики
Визуализация данных
Для эффективной передачи информации и облегчения понимания данных нам необходимо графическое представление.
В этом разделе вы научитесь строить фигуры.
- Рассчитать частоту вида
- Постройте гистограмму, коробчатую диаграмму и диаграмму рассеяния
- Визуализация данных
Получение набора данных для машинного обучения
Из-за некоторых ограничений рекомендуется получать данные из внешних репозиториев.
После этого видео вы сможете это сделать.
- Доступ к репозиторию компьютеров UCI
- Загрузите iris.data или используйте read.csv.
- Получение набора данных для машинного обучения
Чтение набора данных Титаника из файла CSV
Чтение набора данных — это первый и главный шаг в исследовании данных.
Нам нужно научиться тому, как это делать.
- Загрузите набор данных поездов
- Используйте read.csv и функцию str для загрузки и отображения набора данных соответственно.
Преобразование типов символьных переменных
В R, поскольку номинальная, порядковая, интервальная и относительная переменные обрабатываются по-разному в статистическом моделировании, нам необходимо преобразовать номинальную переменную из символа в фактор.
- Отобразите структуру данных, используя str
- Найдите имя атрибута, тип данных и значения, содержащиеся в каждом атрибуте.
- Используйте функцию фактора для преобразования данных из символа в фактор.
Обнаружение пропущенных значений
Отсутствующие значения влияют на вывод набора данных.
Поэтому важно их обнаружить.
- Суммируйте все значения NA
- Разделите сумму на количество значений в каждом атрибуте.
- Применить расчет ко всем атрибутам с помощью sapply
Вменение пропущенных значений
После обнаружения пропущенных значений нам необходимо их вменить, поскольку их отсутствие может повлиять на вывод.
- Получение статистики с помощью таблицы
- Отсортируйте таблицу.
Используйте str_match, чтобы найти заголовок с отсутствующими значениями.
- Присвойте недостающее значение среднему значению
Исследование и визуализация Datac
После вменения пропущенных значений вам следует выполнить исследовательский анализ, чтобы суммировать характеристики данных.
- Создайте гистограмму и гистограмму каждого атрибута.
- Изучите связь между всеми атрибутами, по два за раз.
Прогнозирование выживаемости пассажиров с помощью дерева решений
Исследовательский анализ помогает пользователям понять, как одна или несколько переменных могут повлиять на выживаемость.
Однако он не определяет, какие комбинации могут создать модель прогнозирования.
Для этого нам нужно использовать дерево решений.
- Создайте функцию разделения данных
- Разделение данных в соответствии с потребностями
- Создайте модель прогнозирования и постройте дерево
Проверка силы прогнозирования с помощью матрицы путаницы
После построения модели прогнозирования важно проверить, как модель работает при прогнозировании меток.
- Прогнозирование выживаемости тестового набора
- Сгенерируйте статистику выходной матрицы с помощью матрицы путаницы.
Оценка производительности с помощью кривой ROC
Другой способ измерения производительности — кривая ROC.
- Создайте объект прогнозирования из матрицы вероятностей
- Подготовьте объект производительности ROCR для кривой ROC.
- Используйте функцию построения графика, чтобы нарисовать кривую ROC.
Понимание выборки данных в R
Когда имеются огромные наборы данных, мы можем найти характеристики всего набора данных с помощью части или выборки данных.
Следовательно, выборка данных имеет важное значение.
- Используйте функцию выборки с различными атрибутами для создания необходимых выборок.
Работа с распределением вероятностей в R
Распределение вероятностей и статистика взаимозависимы.
Чтобы обосновать статистическую информацию, нам нужна вероятность.
- Используйте dnorm для получения характеристик.
Постройте кривую
- Используйте pnorm, qnorm и hist таким же образом.
- Проверьте нормальность
Работа с одномерной описательной статистикой в R
Одномерная статистика имеет дело с одной переменной и, следовательно, очень проста.
- Загрузите данные в фрейм данных.
Вычислить длину переменной
- Получите среднее значение, медиану, стандартное отклонение и дисперсию.
- Получите IQR, квантиль, максимумы, минимумы и т. д. Постройте гистограмму
Выполнение корреляций и многомерного анализа
Чтобы проанализировать связь между более чем двумя переменными, проводится многомерный анализ.
- Получить ковариационную матрицу
- Получить корреляционную матрицу
Операционная линейная регрессия и многомерный анализ
Оценка связи между зависимыми и независимыми переменными осуществляется посредством линейной регрессии.
- Вписать переменные в модель
- Создайте анализ таблицы отклонений
- Постройте линию регрессии
Проведение точного биномиального теста
Чтобы убедиться в значимости результатов эксперимента, проводится проверка гипотезы.
- Проведите точный биномиальный тест
Выполнение t-теста Стьюдента
Для сравнения средних значений двух разных групп проводятся одно- и двухвыборочные t-критерии.
- Визуализируйте атрибуты
- Выполните статистическую процедуру
Выполнение теста Колмогорова-Смирнова
Сравнение выборки с эталонной вероятностью или сравнение кумулятивных распределений двух наборов данных требует использования теста Колмогорова-Смирнова.
- Проверьте нормальное распределение с помощью одного выборочного теста Колмогорова-Смирнова.
- Сгенерируйте равномерно распределенные выборочные данные.
- Постройте ECDF двух образцов.
Примените двухвыборочный критерий Колмогорова-Смирнова.
Понимание ранговой суммы Уилкоксона и критерия знакового ранга
Тест Уилкоксона — это непараметрический тест на нулевую гипотезу.
- Отобразите данные с помощью boxplot
- Выполните тест суммы рангов Уилкоксона.
Работа с тестом хи-квадрат Пирсона
Для проверки распределения категориальных переменных двух групп используется критерий хи-квадрат Пирсона.
- Используйте таблицу непредвиденных обстоятельств, чтобы составить таблицу подсчета.
- Постройте мозаичный сюжет
- Выполните тест хи-квадрат Пирсона.
Проведение одностороннего дисперсионного анализа
Чтобы изучить связь между категориальными независимыми переменными и непрерывными зависимыми переменными, используется Anova. Когда имеется одна переменная, используется однофакторный дисперсионный анализ.
- Визуализируйте данные с помощью коробчатой диаграммы
- Проведите однофакторный дисперсионный анализ и выполните анализ дисперсионного анализа.
- Постройте график различий среднего уровня.
Выполнение двустороннего дисперсионного анализа
Когда необходимо сравнить два категориальных значения, используется двусторонний дисперсионный анализ.
- Постройте два коробчатых графика
- Используйте график взаимодействия
- Выполните двусторонний дисперсионный анализ.
Постройте график различий среднего уровня.
Установка модели линейной регрессии с помощью lm
Линейная регрессия — это самая простая модель регрессии, которую можно использовать при наличии одного значения предиктора.
- Подготовьте данные с линейной зависимостью между предикторами и переменными ответа.
- Создайте линию регрессии
- Постройте линию регрессии
Подведение итогов по подгонкам линейной модели
Чтобы получить обобщенную информацию о подобранной модели, нам нужно научиться суммировать подгонки линейной модели.
- Вычислите сводку, используя функцию итога
Использование линейной регрессии для прогнозирования неизвестных значений
Нам было бы очень удобно, если бы мы могли предсказывать неизвестные значения.
Вы можете сделать это, используя линейную регрессию.
- Постройте линейно подобранную модель
- Вычислите результат прогноза, используя доверительный интервал
- Вычислите результат прогнозирования, используя интервал прогнозирования
Создание диагностического графика подобранной модели
Чтобы проверить, адекватно ли подобранная модель представляет данные, мы проводим диагностику.
- Создайте диагностический график
Подбор модели полиномиальной регрессии с помощью lm
В случае нелинейной связи между переменными-предикторами и откликами формируется модель полиномиальной регрессии.
Нам нужно соответствовать модели.
Это видео позволит вам это сделать.
- Проиллюстрируйте модель полиномиальной регрессии в формуле
Установка надежной модели линейной регрессии с помощью rlm
Выброс приведет к отклонению от наклона линии регрессии.
Чтобы избежать этого, нам необходимо создать надежную модель линейной регрессии.
- Создайте диаграмму рассеяния
- Примените функцию rlm
- Визуализируйте подогнанную линию
Изучение случая линейной регрессии на данных SLID
Мы выполним линейную регрессию на реальном примере — наборе данных SLID.
- Загрузите данные SLID. Подогнать все атрибуты
- Создайте диагностический график
- Проверка мультиколлинеарности и гетероскедастичности
Применение модели Гаусса для обобщенной линейной регрессии
GLM обобщает линейную регрессию, позволяя связать линейную модель с переменной отклика через функцию связи и позволяя величине дисперсии каждого измерения быть функцией его прогнозируемого значения.
- Введите независимые и зависимые переменные
- Подгонка переменных к модели
- Сравните подобранные модели с помощью функции ANOVA
Применение модели Пуассона для обобщенной линейной регрессии
GLM допускает переменные ответа с распределением ошибок, отличным от нормального.
Мы применяем модель Пуассона, чтобы увидеть, как это делается.
- Загрузите данные подсчета проб
- Примените функцию glm
- Просмотрите подобранную лог-линейную модель
Применение биномиальной модели для обобщенной линейной регрессии
Когда переменная является двоичной, мы применяем биномиальную модель.
- Загрузите двоичную зависимую переменную
- Подгоните модель к двоичным данным
- Получить описание, используя сводку
Подбор обобщенной аддитивной модели к данным
GAM имеет возможность работать с нелинейными отношениями между зависимыми и независимыми переменными.
Мы учимся подгонять регрессию с помощью GAM.
- Загрузите набор данных Бостона
- Создайте подобранную модель
- Подведите итоги соответствия GAM
Визуализация обобщенной аддитивной модели
Визуализация GAM помогает ему лучше понять.
- Создать диаграмму рассеяния
- Добавить линию регрессии
- Визуализируйте подобранные линии регрессии
Диагностика обобщенной аддитивной модели
Вы также можете диагностировать модель GAM для ее анализа.
- Создайте информацию о сходимости оценки параметра сглаживания
- Просмотр четырех диагностических графиков
Подготовка наборов данных для обучения и тестирования
Наборы данных для обучения и тестирования необходимы для построения модели классификации.
- Предварительная обработка набора данных.
Удалите атрибуты, которые не важны
- Разделите данные на обучающие и тестовые наборы.
- Создайте последовательность соответствующим образом и интерпретируйте выходные данные.
Построение модели классификации с помощью рекурсивных деревьев секционирования
Дерево разбиения работает на основе условия разделения, начиная с базового узла и заканчивая конечным узлом.
- Загрузите пакет rpart. Постройте модель классификации
- Отображение сведений об узле дерева
- Создайте информационную графику
Визуализация дерева рекурсивного секционирования
Построение дерева классификации облегчит анализ данных.
Вы научитесь делать это сейчас.
- Постройте дерево классификации
- Укажите параметры для настройки макета
Измерение эффективности прогнозирования дерева рекурсивного секционирования
Прежде чем делать прогноз, важно вычислить эффективность прогнозирования модели.
- Создайте прогнозируемую метку и таблицу классификации для набора тестовых данных.
- Создайте матрицу путаницы
Обрезка рекурсивного дерева разбиения
В наборе данных могут быть части, которые не важны для классификации.
Чтобы удалить эти части, нам нужно сократить набор данных.
- Найдите запись с минимальными ошибками перекрестной проверки.
- Извлеките CP записи и присвойте значение для оттока.
- Сократите дерево классификации
Построение модели классификации с помощью дерева условного вывода
Деревья условного вывода лучше традиционных деревьев классификации, поскольку они адаптируют процедуры тестирования для выбора выходных данных.
- Постройте модель классификации
- Изучите построенную древовидную модель.
Визуализация дерева условного вывода
Визуализация дерева условного вывода облегчит извлечение и анализ данных из набора данных.
- Постройте построенную модель классификации
Измерение эффективности прогнозирования дерева условного вывода
Подобно эффективности прогнозирования традиционного дерева классификации, мы также можем оценить производительность дерева условного вывода.
- Предсказать категорию набора тестовых данных
- Создать классификационную таблицу
- Определите показатели производительности
Классификация данных с помощью классификатора K-ближайших соседей
Классификатор k-ближайших соседей — это непараметрический метод ленивого обучения.
Таким образом, он имеет преимущества обоих типов методов.
- Постройте модель классификации
- Создайте классификационную таблицу.
Создайте из него матрицу путаницы
- Изучите чувствительность и специфичность
Классификация данных с помощью логистической регрессии
Классификация в логистической регрессии осуществляется на основе одного или нескольких признаков.
Она более надежна и не содержит такого количества условий, как традиционная модель классификации.
- Создайте модель логистической регрессии.
Создайте сводную информацию о модели
- Спрогнозируйте категориальную зависимую переменную набора тестовых данных
- Создайте матрицу путаницы
Классификация данных с помощью наивного байесовского классификатора
Классификатор Наивного Байеса основан на применении теоремы Байеса с сильным независимым предположением.
- Укажите переменные в качестве первых входных параметров и метку оттока в качестве второго входного параметра в вызове функции.
- Присвойте модель классификации переменной классификатора
- Используйте матрицу путаницы для расчета показателей производительности.
Классификация данных с помощью машины опорных векторов
Машины опорных векторов лучше справляются с классификацией, поскольку они могут фиксировать сложные отношения между точками данных и обеспечивать как линейную, так и нелинейную классификацию.
- Обучите машину опорных векторов
- Используйте различные функции и аргументы по желанию для вывода.
- Получите сводную информацию о построенной машине опорных векторов.
Выбор стоимости SVM
Чтобы контролировать ошибки обучения и прибыль, мы используем функцию стоимости.
На классификатор SVM влияет стоимость.
- Создайте подмножество радужной оболочки
- Используйте SVM с небольшими и большими затратами и посмотрите на его эффект.
Визуализация подгонки SVM
Чтобы визуализировать подгонку SVM, мы можем использовать функцию построения графика.
- Обучите SVM и используйте график для визуализации установленного SVM.
- Укажите соответствующие параметры при создании диаграммы рассеяния.
Прогнозирование меток на основе модели, обученной SVM
Мы можем использовать обученную SVM для прогнозирования меток на модели.
- Получите прогнозируемые метки набора тестовых данных.
- Создайте классификационную таблицу.
Вычислить коэффициенты таблицы непредвиденных обстоятельств
- Используйте матрицу путаницы для измерения производительности
Настройка SVM
В соответствии с желаемым результатом вам может потребоваться создать различные комбинации гаммы и стоимости для обучения разных SVM. Это называется тюнинг.
- Создайте набор параметров
- Получите лучшие параметры.
Обучение нового SVM
- Получите классификационную таблицу.
Сравните две модели
Обучение нейронной сети с помощью Neuronnet
Нейронная сеть используется для классификации, кластеризации и прогнозирования.
Его эффективность зависит от того, насколько хорошо вы его тренируете.
Давайте научимся это делать.
- Разделите набор данных на наборы данных для обучения и тестирования.
- Добавьте необходимые столбцы.
Обучите сетевую модель
- Настройте скрытые нейроны.
Изучите информацию модели нейронной сети.
Визуализация нейронной сети, обученной нейронной сетью
Визуализация нейронной сети облегчит вам понимание процесса.
- Визуализируйте обученную нейронную сеть с помощью графика.
- Просмотрите обобщенные веса с помощью gwplot
Прогнозирование меток на основе модели, обученной нейронной сетью
Подобно другим моделям классификации, мы можем прогнозировать метки с помощью нейронных сетей, а также проверять производительность с помощью матрицы путаницы.
- Создайте выходную матрицу вероятностей.
Преобразуйте матрицу вероятностей в метки классов.
- Сгенерируйте матрицу классификации на основе полученных меток.
- Используйте матрицу путаницы, чтобы измерить эффективность прогнозирования построенной нейронной сети.
Обучение нейронной сети с помощью nnet
Nnet предоставляет функциональные возможности для обучения нейронных сетей прямого распространения с обратным распространением ошибки.
- Используйте nnet для обучения нейронной сети.
Установите различные параметры в функции.
- Используйте сводную функцию для получения информации о построенной нейронной сети.
Прогнозирование меток на основе модели, обученной nnet
Поскольку мы уже обучили нейронную сеть с помощью nnet, мы можем использовать эту модель для прогнозирования меток.
- Сгенерируйте прогнозируемые метки на основе набора тестовых данных.
- Создайте таблицу классификации на основе прогнозируемых меток.
- Используйте матрицу путаницы, чтобы измерить эффективность прогнозирования обученной нейронной сети.
Оценка производительности модели с помощью k-кратной перекрестной проверки
Метод k-кратной перекрестной проверки — это распространенный метод, используемый для оценки производительности классификатора, поскольку он преодолевает проблему переподбора.
В этом видео мы покажем, как выполнить k-кратную перекрестную проверку.
- Создайте индекс с 10 складками с помощью функции вырезания.
- Используйте цикл for для выполнения 10-кратной перекрестной проверки.
- Генерируйте средние точности с помощью средней функции
Выполнение перекрестной проверки с помощью пакета e1071
В этом видео мы покажем, как использовать Tuning.svm для выполнения 10-кратной перекрестной проверки и получения оптимальной модели классификации.
- Применитеunetune.svm к набору обучающих данных
- Получить сводную информацию о модели
- Получите доступ к сведениям о производительности настроенной модели.
- Создать классификационную таблицу
Выполнение перекрестной проверки с помощью пакета Caret
В этом видео мы покажем, как выполнить перекрестную проверку в k-кратном размере с использованием пакета Caret.
- Настройка параметра управления
- Обучение модели классификации на данных об оттоке телекоммуникационных компаний
- Изучите выходные данные сгенерированной модели.
Ранжирование важности переменной с помощью пакета Caret
В этом видео показано, как ранжировать важность переменной с помощью пакета курсоров.
- Оцените важность переменной
- Создайте график важности переменной
Ранжирование важности переменных с помощью пакета rminer
В этом видео мы покажем, как использовать rminer для получения переменной важности подобранной модели.
- Установите и загрузите пакет rminer
- Сопоставьте модель SVM с обучающим набором
- Получите важность переменной и постройте ее график
Поиск сильно коррелированных функций с помощью пакета Caret
В этом видео мы покажем, как найти сильно коррелированные функции с помощью пакета Caret.
- Удалите функции, которые не закодированы цифровыми символами.
- Получить корреляцию каждого атрибута
- Получить имена сильно коррелирующих атрибутов
Выбор объектов с помощью пакета Caret
В этом видео мы покажем, как использовать пакет курсора для выбора объектов.
- Преобразование функций обучающего набора
- Постройте результат выбора
- Рассчитать производительность по повторным выборкам
Измерение производительности регрессионной модели
Чтобы измерить производительность регрессионной модели, мы можем рассчитать расстояние от прогнозируемого результата и фактического результата как количественного показателя производительности модели.
В этом видео мы покажем, как вычислить эти измерения на основе построенной регрессионной модели.
- Загрузите набор данных
- Рассчитайте среднеквадратическую ошибку, относительную квадратичную ошибку и значение R-квадрата.
Измерение эффективности прогнозирования с помощью матрицы ошибок
В этом видео мы покажем, как получить матрицу путаницы с помощью пакета Caret.
- Обучите модель SVM, используя набор обучающих данных
- Прогнозируйте метки, используя подобранную модель
- Создайте таблицу классификации и матрицу путаницы.
Измерение эффективности прогнозирования с использованием ROCR
В этом видео мы покажем, как проиллюстрировать кривую ROC и рассчитать AUC для измерения эффективности модели классификации.
- Установите и загрузите пакет ROCR.
- Визуализируйте кривую ROC с помощью функции построения графика
Сравнение кривой ROC с использованием пакета Caret
В этом видео мы будем использовать функцию, предоставляемую пакетом Caret, для сравнения различных моделей, обученных алгоритмом, в одном и том же наборе данных.
- Установите и загрузите библиотеку pROC.
- Создайте кривую ROC каждой модели и постройте кривую.
Измерение различий в производительности между моделями с помощью пакета Caret
В этом видео мы увидим, как измерить разницу в производительности между моделями, оснащенными пакетом Caret.
- Повторно дискретизируйте три сгенерированные модели и получите их сводку.
- Постройте результат повторной выборки в виде метрики ROC или диаграммы с усами.
Классификация данных с помощью метода мешков
Пакет adabag реализует методы как повышения, так и объединения.
Для метода упаковки пакет сначала генерирует несколько версий классификаторов, а затем получает агрегированный классификатор.
Давайте изучим метод упаковки в мешки из адабаг для создания модели классификации.
- Установите адабаг пакет и используйте упаковка в мешки функция
- Создайте модель классификации
- Получить классификационную таблицу и среднюю ошибку
Выполнение перекрестной проверки с помощью метода мешков
Чтобы оценить прогнозирующую способность классификатора, вы можете запустить метод перекрестной проверки, чтобы проверить надежность модели классификации.
В этом видео показано, как использовать файл Bagging.cv для перекрестной проверки с помощью метода Bagging.
- Используйте Bagging.cv для перекрестной проверки.
- Получить матрицу путаницы
- Получите минимальную ошибку оценки
Классификация данных с помощью метода бустинга
Повышение начинается с простого или слабого классификатора и постепенно улучшает его путем повторного взвешивания неправильно классифицированных выборок.
Таким образом, новый классификатор может учиться на опыте предыдущих классификаторов.
Можно использовать метод повышения для выполнения ансамблевого обучения.
Давайте посмотрим, как использовать метод повышения для классификации набора данных об оттоке телекоммуникационных компаний.
- Используйте функцию повышения из адабаг упаковка
- Сделайте прогноз на основе усиленной модели и набора тестовых данных.
- Получить таблицу классификации и получить средние ошибки
Выполнение перекрестной проверки с помощью метода повышения
Подобно функции упаковки, адабаг предоставляет функцию перекрестной проверки для метода повышения с именем повышение.
cv.
В этом видео мы узнаем, как выполнить перекрестную проверку с помощью boosting.cv.- Используйте boosting.cv для перекрестной проверки набора обучающих данных.
- Получить матрицу путаницы
- Получить средние ошибки
Классификация данных с помощью повышения градиента
Повышение градиента создает нового базового учащегося, который максимально коррелирует с отрицательным градиентом функции потерь.
Этот метод можно применить как к задачам регрессии, так и к задачам классификации.
Но сначала нам нужно научиться использовать ГБМ .
- Установите ГБМ пакет и используйте ГБМ функция для обучения набора обучающих данных
- Используйте перекрестную проверку и постройте кривую ROC.
- Использовать координаты функцию и получить таблицу классификации на основе прогнозируемых результатов
Вычисление полей классификатора
Маржа — это мера достоверности классификации.
Он вычисляет разницу между поддержкой правильного класса и максимальной поддержкой неправильного класса.
Это видео покажет нам, как рассчитать поля сгенерированных классификаторов.
- Использовать поля функция
- Используйте функцию построения графика, чтобы построить график предельного кумулятивного распределения.
- Вычислить процент отрицательной маржи
Расчет эволюции ошибки метода ансамбля
адабаг пакет обеспечивает ошибка функция, позволяющая пользователю оценить ошибки ансамблевого метода в соответствии с количеством итераций.
Давайте рассмотрим, как использовать ошибка показать эволюцию ошибок каждого ансамблевого классификатора.
- Используйте функцию errorevol для эволюции ошибок повышающих классификаторов.
- Используйте функцию errorevol для эволюции ошибок классификаторов упаковки.
Классификация данных с помощью случайного леса
Случайный лес выращивает несколько деревьев решений, которые выдают собственные результаты прогнозов.
Лес будет использовать механизм голосования, чтобы выбрать в качестве результата прогнозирования класс, получивший наибольшее количество голосов.
В этом видео мы покажем, как классифицировать данные с помощью случайный лес упаковка.
- Установите и загрузите случайный лес упаковка
- Постройте среднеквадратическую ошибку лесного объекта
- Используйте функцию varImpPlot, функцию поля, история , и коробчатый сюжет
Оценка ошибок прогнозирования различных классификаторов
В начале этого раздела мы обсудили, почему мы используем ансамблевое обучение и как оно может улучшить качество прогнозирования.
Давайте теперь проверим, работает ли ансамблевая модель лучше, чем одно дерево решений, сравнивая производительность каждого метода.
- Оцените частоту ошибок модели упаковки
- Оцените частоту ошибок метода повышения
- Оцените частоту ошибок модели случайного леса.
- Использовать отток.
предсказать
и оценить частоту ошибок единственного дерева решений
Кластеризация данных с помощью иерархической кластеризации
Иерархическая кластеризация использует либо агломеративный, либо разделительный метод для построения иерархии кластеров.
В этом видео показано, как кластеризовать данные с помощью иерархической кластеризации.
- Загрузите данные и сохраните их
- Изучите структуру набора данных
- Используйте агломеративную иерархическую кластеризацию для кластеризации данных.
Резка деревьев на группы
В этом видео мы демонстрируем, как использовать функцию Cutree для разделения данных на заданное количество кластеров.
- Классифицируйте данные и исследуйте метки их кластеров.
- Подсчитайте количество данных в каждом кластере
- Визуализируйте, как данные кластеризуются
Кластеризация данных с помощью метода k-средних
В этом видео мы покажем, как выполнить кластеризацию k-средних в наборе данных клиентов.
- Используйте k-средние для кластеризации данных
- Осмотрите центр каждого кластера
- Нарисуйте точечную диаграмму данных и раскрасьте точки.
Рисование двумерного кластерного графика
Теперь мы покажем, как создать двумерный кластерный график.
- Установите и загрузите пакет кластера
- Нарисуйте двумерный кластерный график
Сравнение методов кластеризации
В этом видео мы увидим, как сравнивать различные методы кластеризации с помощью файла Cluster.stat из пакета fpc.
- Установите и загрузите пакет fpc
- Используйте разные методы кластеризации
- Сгенерируйте статистику кластера для каждого метода кластеризации.
Извлечение информации о силуэте из кластеризации
В этом видео мы увидим, как вычислить информацию о силуэте.
- Используйте k-средние для создания объекта k-средних
- Вычислите и постройте информацию о силуэте
Получение оптимального количества кластеров для k-средних
В этом видео мы обсудим, как найти оптимальное количество кластеров для метода кластеризации k-средних.
- Рассчитайте внутри различного количества кластеров и построить их график
- Рассчитайте средний силуэт и постройте его
Кластеризация данных с помощью метода на основе плотности
В этом видео мы покажем, как использовать DBSCAN для кластеризации на основе плотности.
- Установите и загрузите пакеты fpc и mlbench.
- Данные кластера с учетом измерения его плотности
Кластеризация данных с помощью модельного метода
В этом видео мы покажем, как использовать модельный метод для определения наиболее вероятного количества кластеров.
- Установите и загрузите библиотеку mclust.
- Выполнение кластеризации на основе модели в наборе данных клиентов.
Визуализация матрицы несходства
Матрицу различий можно использовать в качестве меры качества кластера.
В этом видео мы обсудим некоторые методы, которые полезны для визуализации матрицы несходства.
- Установите и загрузите пакет сериализации
- Визуализируйте матрицу различий
Внешняя проверка кластеров
В этом видео мы покажем, чем отличаются методы кластеризации в отношении данных с известными кластерами.
- Установите и загрузите пакет png
- Выполните kmeans и метод кластеризации dbscan для рукописных цифр.
Преобразование данных в транзакции
Прежде чем начать работу с правилом ассоциации майнинга, вам необходимо преобразовать данные в транзакции.
В этом видео показано, как преобразовать любой список, матрицу или фрейм данных в транзакции.
- Установите и загрузите правило упаковка
- Использовать как функция
- Преобразуйте данные матричного формата и набор данных формата фрейма данных в транзакции.
Отображение транзакций и ассоциаций
правило Пакет использует собственный класс транзакций для хранения данных транзакций.
Таким образом, мы должны использовать общую функцию, предоставляемую правило для отображения транзакций и правил ассоциации.
Давайте посмотрим, как отображать транзакции и правила ассоциации с помощью различных функций в правило упаковка.
- Получите СПИСОК представительство и использовать краткое содержание функция
- Использовать осмотреть функция и фильтрация транзакций по размеру
- Используйте функцию изображения и элементЧастотаДиаграмма
Горнодобывающие ассоциации с правилом априори
Анализ ассоциаций — это метод, позволяющий обнаружить интересные связи, скрытые в наборах данных транзакций.
Этот подход сначала находит все часто встречающиеся наборы элементов, а затем генерирует строгие правила ассоциации из часто встречающихся наборов элементов.
В этом видео мы увидим, как выполнить ассоциативный анализ с использованием априорного правила.
- Загрузите Продукты питания набор данных и изучить сводку
- Используйте itemFrequencyPlot и априори
- Проверьте первые несколько правил
Удаление повторяющихся правил
Среди сгенерированных правил мы иногда находим повторяющиеся или избыточные правила (например, одно правило является подмножеством другого правила).
Давайте рассмотрим, как сократить (или удалить) повторяющиеся или избыточные правила.
- Найдите повторяющиеся правила
- Удалите лишние правила
Визуализация правил ассоциации
Помимо перечисления правил в виде текста, вы можете визуализировать правила связи, что упрощает поиск взаимосвязей между наборами элементов.
В этом видео мы научимся пользоваться АрулеВиз пакет для визуализации правил ассоциации.
- Установите и загрузите арулыВиз упаковка
- Создайте диаграмму рассеяния на основе сокращенных правил и добавьте к ней джиттер.
- Сюжет soda_rule на графическом графике и на баллонном графике
Анализ часто встречающихся наборов элементов с помощью Eclat
Априорный алгоритм выполняет поиск в ширину для сканирования базы данных.
Таким образом, подсчет поддержки становится трудоемким.
В качестве альтернативы, если база данных умещается в памяти, вы можете использовать алгоритм Eclat, который выполняет поиск в глубину для подсчета опор.
Давайте посмотрим, как использовать алгоритм Eclat.
- Используйте функцию eclat для создания часто встречающегося набора элементов.
- Получить сводную информацию
- Изучите десять наиболее часто встречающихся наборов элементов поддержки.
Создание транзакций с временной информацией
Помимо поиска интересных ассоциаций в базе данных транзакций, мы можем выявить интересные последовательные шаблоны, используя транзакции с временной информацией.
В этом видео показано, как создавать транзакции с временной информацией.
- Установите и загрузите арулыПоследовательности упаковка
- Превратите список в транзакции и используйте осмотреть функция
- Получайте сводную информацию и читайте данные о транзакциях в формате корзины.
Анализ частых последовательных шаблонов с помощью cSPADE
В отличие от интеллектуального анализа ассоциаций, нам следует изучить шаблоны, общие для транзакций, где набор наборов элементов происходит последовательно.
Одним из наиболее известных алгоритмов анализа частых последовательных шаблонов является Последовательное обнаружение шаблонов с использованием классов эквивалентности (SPADE) алгоритм.
Давайте посмотрим, как использовать SPADE для анализа частых последовательных шаблонов.
- Использовать cspade функция для генерации частых последовательных шаблонов
- Изучите сводку частых последовательных шаблонов.
- Преобразуйте сгенерированные данные формата последовательности обратно в фрейм данных.
Выполнение выбора функций с помощью FSelector
В этом видеоролике вы познакомитесь с тем, как выполнить выбор функций с помощью пакета FSelector.
- Установите и загрузите пакет FSelector.
- Попросите оценщика выбрать подмножества функций
- Найдите оптимальное подмножество функций, используя поиск по восхождению на холм.
Выполнение уменьшения размерности с помощью PCA
Анализ главных компонент (PCA) является наиболее широко используемым линейным методом при решении задач уменьшения размерности.
Это видео покажет вам, как его использовать.
- Загрузите швейцарский набор данных
- Получите сводку результатов PCA
- Используйте функцию прогнозирования
Определение количества основных компонентов с помощью теста осыпи
В этом видео показано, как определить количество главных компонентов с помощью осыпной диаграммы.
Давайте посмотрим на это.
- Создайте гистограмму с помощью screeplot
- Создайте линейный график с помощью screeplot
Определение количества главных компонентов методом Кайзера
В этом видео показано, как определить количество главных компонент методом Кайзера.
- Получите стандартное отклонение и дисперсию на сайте swiss.pca.
- Используйте осыпную диаграмму, чтобы выбрать компоненты с отклонением выше 1.
Визуализация многомерных данных с использованием биграфика
Давайте посмотрим, как использовать биплот для построения графиков как переменных, так и данных.
- Создайте диаграмму рассеяния, используя компоненты 1 и 2.
- Создайте второстепенный график, используя сгенерированный объект основного компонента.
Выполнение уменьшения размеров с помощью MDS
В MDS вы можете использовать метрическое или неметрическое решение.
В этом видео показано, как выполнить MDS на швейцарском наборе данных.
- Выполните метрический MDS максимум с двумя измерениями.
- Постройте швейцарские данные на двумерной диаграмме рассеяния.
Уменьшение размеров с помощью SVD
Вам может потребоваться несколько раз уменьшить размерность матриц при работе с наборами данных.
Давайте посмотрим, как мы могли бы сделать это с помощью СВД.
- Выполнить SVD на швейцарском наборе данных
- Постройте процент дисперсии и совокупную дисперсию
- Восстановите данные только с одним сингулярным вектором
Сжатие изображений с помощью SVD
Давайте посмотрим, как выполнить SVD на классическом материале обработки изображений Lenna.
- Сжать изображение с помощью SVD
- Выполните SVD на считанной числовой матрице.
- Используйте 18 векторов, чтобы восстановить изображение.
Выполнение нелинейного уменьшения размеров с помощью ISOMAP
В этом видео показано, как выполнить нелинейное уменьшение размеров с помощью ISOMAP. Это один из подходов к многообразному обучению, который обобщает линейные структуры на нелинейные структуры данных.
- Установите и загрузите пакеты RnavGraphImageData и веганские пакеты.
- Используйте isomap для уменьшения размеров
Выполнение нелинейного уменьшения размеров с помощью локального линейного встраивания
Это видео даст вам краткое представление о том, как использовать LLE для данных S-образной кривой.
- Установите и загрузите пакет lle
- Используйтеplot_lle, чтобы построить результат LLE.
Подготовка среды RHadoop
Чтобы подготовить среду RHadoop, нам необходимо загрузить Cloudera и виртуальную машину QuickStart.
- Загрузите виртуальную машину с сайта загрузки
- Откройте созданный образ с помощью VMware, VirtualBox или KVM.
- Проверьте, работают ли R и Hadoop
Установка рмр2
Установка R и пакета rmr2 необходима для работы MapReduce, который используется при обработке и анализе данных.
- Откройте терминал виртуальной машины Cloudera QuickStart.
- Доступ к сеансу R с правами root и установка зависимых пакетов R.
- загрузите rmr-3.3.0 с GitHub в локальную файловую систему
Установка rhdfs
Чтобы получить доступ к ресурсам HDFS, вам необходимо установить rhdfs на каждом узле задачи.
- Загрузите rhdfs с GitHub. Установить RHDFS
- Настройте R с поддержкой Java. Получите доступ к R и настройте расположение HADOOP_CMD и HADOOP_STREAMING.
- Инициализируйте rhdfs с помощью функции rhdfs.init.
Работа HDFS с rhdfs
Вы можете легко управлять HDFS из консоли R с помощью rhdfs.
- Инициализируйте rhdfs с помощью hdfs.init().
- Управляйте HDFS с помощью функций, предусмотренных в пакете rhdfs.
Реализация проблемы подсчета слов с помощью RHadoop
В этом видео вы поймете, как rmr2 используется для подсчета слов.
- Настройте системную среду и загрузите rhdfs и rmr2 в R.
- Укажите ввод нашей программы подсчета слов из локальной файловой системы в каталог HDFS.
- Реализуйте программу MapReduce. Вызовите функцию, количество слов и сохраните путь вывода.
Сравнение производительности программы R MapReduce и стандартной программы R
Сравнение Hadoop и стандартной программы R может помочь нам решить, какой язык лучше всего подходит для наших нужд.
- Реализуйте две программы со стандартными функциями R и R MapReduce.
Тестирование и отладка программы rmr2
Поскольку запуск программы MapReduce потребует значительного времени, тестирование и отладка становятся очень важными.
- Познакомьтесь с техникой тестирования программы MapReduce в локальном режиме.
- Перечислите содержимое переменной на карте или в функции сокращения.
Установка плирмра
Plyrmr упрощает операции по манипулированию данными.
- Установите пакет libxml2-devel и curl-devel.
- Получите доступ к R и установите зависимые пакеты.
- Загрузите файл с GitHub и установите plyrmr в R.
Манипулирование данными с помощью plyrmr
Написание программы MapReduce может оказаться затруднительным для тех, кто не является разработчиком.
Следовательно, для манипулирования данными можно использовать операции, подобные plyr.
- Загрузите пакет plyrmr в R. Начните манипулирование данными с их фильтрацией.
- Введите набор данных в HDFS или локальную файловую систему.
Создайте суммирование частоты из набора данных Титаника.
- Суммируйте частоту по полу, используйте функцию выборки и соедините два набора данных.
Проведение машинного обучения с помощью RHadoop
Вы можете выполнять операции машинного обучения с помощью RHadoop.
- Сопоставьте данные с моделью линейной регрессии.
Вычислите подобранную модель и получите сводную информацию о модели.
- Перепишите модель регрессии в стиле MapReduce.
- Выведите значение коэффициента и сравните
Настройка кластеров RHadoop в Amazon EMR
Многоузловые кластеры можно развернуть с помощью Amazon EMR на RHadoop.
- Откройте список кластеров EMR и нажмите «Создать кластер».
Настройте конфигурацию программного обеспечения и выберите дистрибутив Hadoop.
- Настройте оборудование, указав главный, ядро и узел задачи.
- Создайте файл, содержащий все стартовые скрипты, с именем bootstrapRHadoop и сохраните его в хранилище S3.
-
Atari 800Xl: Смотри, Разбирай, Включай
19 Oct, 24 -
Образование Для Всех?
19 Oct, 24 -
Futureshorts: Лучшее
19 Oct, 24