Теория Информации В Задаче Проверки Гипотезы О Независимости Значений, Принимаемых Случайной Величиной, На Примере Индекса Dji

Попробуем проверить гипотезу о том, являются ли приросты значений индекса DJI статистически независимыми.

В этом случае в качестве эталонного источника данных, с которым мы будем сравнивать, мы возьмем искусственный временной ряд, сформированный из реальных приращений исходного ряда, но смешанный случайным образом.

В качестве меры статистической независимости мы будем использовать статистику взаимной информации.

В качестве источника тестовых данных возьмем данные DJI за 30 лет (дневные цены закрытия) с 31 августа 1981 г.

по 26 августа 2011 г.

(Источник: финансы.

yahoo.com ).

Значения индекса Dow Jones Industrial Average (DJI)

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Ряд процентных приращений котировок, рассчитываемый по формуле X[t]/X[t-1] - 1

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Чтобы привести исследуемую по сути непрерывную переменную к дискретному виду, перейдем к ряду процентных приращений, округленных до 0,01 (1%).

Вычисление взаимной информации для непрерывных переменных хотя и технически возможно, но неинформативно из-за очень большого значения n — конечного набора значений атрибута, предполагаемого случайной величиной.



Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI



Основные понятия теории информации, использованные в статье.

(Все формулы и теория заимствованы из: ru.wikipedia.org а также из ряда монографий, поиск по которым возможен по ключевым словам.

) Теория информации развивалась неразрывно с теорией коммуникации; Я не буду отступать от этой традиции.

Что такое информация? Представим, что есть некий передатчик и приемник данных.

Передатчик передает дискретную переменную X, которая принимает ограниченное количество возможных значений x (также называемое алфавитом).

Вероятность реализации каждого конкретного значения отлична от нуля, в противном случае такое значение просто исключается из анализа.

Вид функции плотности вероятности на пространстве значений, принимаемых переменной, может быть произвольным.

Сумма всех вероятностей для каждого возможного значения равна 1 (если сумма равна 0, то дальнейшие размышления не имеют смысла).

Получатель воспринимает передаваемые значения X, или можно сказать, что в момент получения значений происходит событие — переменная X получила значение x. И чем меньше мы, то есть наблюдатели, знаем о том, какое именно событие произойдет (то есть какое значение примет получатель), тем больше энтропии у этой системы, и тем больше информации принесет с собой реализация этого события.

Это означает, что информационная энтропия (понятие, заимствованное из энтропии в теоретической физике) — это количественная мера неопределенности в абстрактной системе, состоящей из возможности возникновения события и его немедленной реализации.

Хм, это звучит очень абстрактно.

Но в этом и сила этой теории: ее можно применить к самому широкому классу явлений.

Но что такое информация? Это также количественная мера, характеризующая количество энтропии или неопределенности, которая покинула систему при возникновении определенного события.

Таким образом, информация количественно равна энтропии.

Если говорить обо всем спектре ценностей, реализующихся в системе, то мы говорим об средней информации или информационной энтропии.

Это значение рассчитывается по формуле:

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Если они говорят об информации единичной реализации случайной величины, они говорят о своей собственной информации:

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Например, эксперимент с повторным подбрасыванием честной монеты представляет собой систему со средней информацией, равной 1 Биту (при подстановке в формулу логарифма по основанию 2).

Более того, перед каждым броском мы ожидаем, что с равной вероятностью выпадет орел или решка (эти события! независимы! друг от друга), а неопределенность всегда равна 1. А какова будет информационная энтропия этой системы, если вероятность стороны выпадающей монеты неравны? Допустим, орел выпадет с вероятностью 0,6, а решка с вероятностью 0,4. Давайте посчитаем и получим: 0,971 Бит. Энтропия системы снизилась, так как неопределенность в реализации эксперимента уже меньше: мы ожидаем орел чаще, чем решку.

Возвращаясь к примеру передатчика и приёмника, если связь между ними идеальна, то информация (в широком смысле) всегда будет передаваться на 100% корректно.

Другими словами, взаимная информация между передатчиком и приемником будет равна средней информации самого приемника (символизирующей реализацию события), а если данные от передатчика ни за что не связаны с данными, полученными приемником, то взаимная информация между ними будет равна 0. Другими словами, то, что передает передатчик, ничего не говорит о том, что получает получатель.

Если произошла некоторая потеря информации, то взаимная информация будет иметь значение от 0 до средней информации получателя.



Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

В контексте проблемы, о которой я писал в этой статье, взаимная информация выступает инструментом поиска произвольного типа связи между приёмником (зависимая переменная) и передатчиком (независимая переменная).

Максимизация взаимной информации между парой переменных указывает на наличие некоторого детерминизма в реализации случайной величины по отношению к ее прошлым реализациям.

В качестве независимых переменных можно, конечно, взять что угодно: от состава пения птиц по утрам до частоты употребления тех или иных слов в интернет-публикациях на тему биржевой торговли.

«Истина где-то рядом».

Итак, посчитаем энтропию источника данных ( http://ru.wikipedia.org/ ):

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Средняя информация (или просто энтропия) данного источника данных (рассчитанная в логарифме по основанию 2) составляет 2,098 бит. Взаимная информация между случайными величинами рассчитывается с помощью понятия информационной энтропии ( http://ru.wikipedia.org/ ):

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Гистограмма значений взаимной информации между зависимой переменной — процентным увеличением индекса, рассчитанным по ценам закрытия — и ее значениями, сдвинутыми во времени от 1 до 250 шагов назад.

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

В частности, видно, что максимальная взаимная информация рассчитывается с переменной с лагом 5, то есть со значением, произошедшим одну торговую неделю назад. Также очевидно, что количество взаимной информации уменьшается при погружении в лаговое пространство.

Вид функции распределения плотности вероятности для полученного набора значений количества взаимной информации:

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Давайте сгенерируем искусственный временной ряд для справочных целей.

Сайт был выбран в качестве источника ряда целых чисел, задающих последовательность значений атрибута.

www.random.org .

Согласно веб-сайту, они предоставляют действительно случайные числа (в отличие от PRNG, генератора псевдослучайных чисел).

Полученная серия приращений, случайным образом перемешанная в хронологическом порядке.



Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Вы можете на глаз заметить, насколько более стационарными стали данные.

Та же серия с округленными значениями

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Гистограмма значений взаимной информации между зависимой переменной и ее значениями со сдвигом от 1 до 250 шагов назад во времени по искусственному временному ряду приращений (при сохранении однотипной функции плотности вероятности на пространстве признака ценности)

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Вид функции распределения плотности вероятности для данной выборки:

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

Сравнение 2-х рассмотренных случаев взаимного информационного расчета

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной величиной, на примере индекса DJI

На глаз видно, насколько различаются полученные выборки значений количества взаимной информации.

Проверим гипотезу о значимости различия (разницы в виде функции плотности вероятности) двух выборок расчетных значений взаимной информации – для исходного и искусственного временного ряда.

С помощью непараметрических критериев рассчитываем статистику по методу Колмогорова-Смирнова (критерий Колмогорова-Смирнова используется для сравнения двух независимых выборок значений с целью определения статистической значимости различий между значениями выборки.

Критерий Манна и Уитни U).

-test используется с той же целью).

Результат: p = 0,00 с принятым пороговым уровнем значимости 0,05. Результат U-теста Манна и Уитни: p = 0,00. Видим, что в обоих случаях принимается гипотеза о разнице между выборками значений атрибутов (р менее 0,05).

Можно сделать вывод, что в натуральных финансовых данных (по крайней мере, в индексе DJI) существуют статистически значимые зависимости произвольного типа между приращениями котировок.

То есть такой ряд данных нельзя считать случайным.

Теоретически существует пространство возможностей для прогнозирования будущих значений такого ряда, например, с помощью нейронных сетей.

P.S.: Буду рад комментариям и критике.

Теги: #теория информации #взаимная информация #временные ряды #Интеллектуальный анализ данных

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.