Одна из основных задач анализа данных — найти связь между двумя величинами.
Здесь я хочу показать пример поиска связи между ценой на нефть и курсом рубля.
Во-первых, нужно определить, имеет ли задача вообще смысл.
Почему нефть и рубль должны/могут быть взаимосвязаны? Вкратце, модель такая: экспортеры продают нефть за доллары, а затем продают доллары, чтобы получить рубли для внутренних расчетов.
Механизм предельно упрощен, необходимо учитывать объемы добычи и продаж, которые сопровождаются не только нефтью, экспортеры не всегда продают доллары, на курс влияют интервенции ЦБ и т. д. Тем не менее, мы будем Предположим, что модель более-менее рабочая, то есть существуют фундаментальные причины взаимосвязи цены на нефть и курса рубля.
Что нам нужно? Данные - возьмем дневную измеренную цену нефти (сорт Brent) в долларах и курс рубля к доллару, данные можно свободно получить на сайте.
ру , период выборки — с начала прошлого года.
Инструменты — нам понадобится построить множество графиков, чтобы визуально оценить, как в целом работает модель и достаточно простой аппарат для построения регрессий.
Все эти возможности доступны в Gnuplot, забегая вперед — скрипт для рисования графиков и расчета регрессий занимает не более 40 строк кода.
Все рабочие скрипты будут связаны ниже.
Давайте посмотрим на совместную динамику во времени цен на нефть и курса рубля:
Нефть падает, рубль растет. Какая-то связь есть, но такое впечатление, что чего-то не хватает. Ага! Мы сравниваем величины «Нефть за доллары» и «доллары за рубли», то есть размеры просто не совпадают. Возьмем курс рубля в виде «Рубль/доллар» и перерисуем картинку:
Здесь корреляция уже очевидна.
Мы на правильном пути, давайте продолжим.
Построим набор точек (Нефть/доллар США, Рубль/доллар США) и проведем две линии регрессии, Y1 – линейную, Y2 – квадратичную, обе линии имеют высокий коэффициент детерминации, то есть связь между ценой на нефть и рубль очень близок.
Линии регрессии практически идентичны.
Выберем линейный, во-первых, он проще и имеет меньше параметров, что очень важно, в том числе и с точки зрения принципа Оккама, а во-вторых, у него несколько больший коэффициент R2, то есть формально он лучше, немного , но лучше.
Давайте восстановим график зависимости курса рубля от цены на нефть в привычном формате, то есть так, как мы видим эти цифры в новостях, на сайтах, на вывесках возле банков.
При этом для наглядности все наши построения оставим на графике, только сделаем их цвет бледнее.
Краткое содержание.
Курс рубля достаточно тесно связан с ценой на нефть, зависимость линейная (для курса рубля к доллару США), коэффициент детерминации ~0,97. ПС.
Все данные, скрипты и файлы для построения картинок в Gnuplot можно скачать по ссылке: Drive.google.com/file/d/0BwHQSqFOG-7ldjk0SHZ4M1RxRGc/viewЭusp=sharing П.
П.
С.
Обновлять.
Исправлена опечатка в формуле (на сами графики это не повлияло).
Спасибо Алексею Кузьмину (@alexeykuzmin0) за комментарий.
Теги: #анализ данных #Интеллектуальный анализ данных #регрессия #gnuplot #визуализация #Интеллектуальный анализ данных #Визуализация данных
-
Углерода Диоксид
19 Oct, 24 -
Черный Список Расширений
19 Oct, 24 -
Некоторые Мысли О Будущем Платформы Java
19 Oct, 24 -
Обзор Logitech Mx 5500 Revolution
19 Oct, 24