Факторный Анализ Для Чайников

Думаю, многие из нас хотя бы раз интересовались искусственным интеллектом и нейронными сетями.

В теории нейронных сетей она занимает не последнее место.

факторный анализ .

Он призван выделить так называемые скрытые факторы.

Этот анализ имеет множество методов.

Стоит особняком метод главных компонент , отличительной особенностью которого является полное математическое обоснование.

Честно говоря, когда я начал читать статьи по ссылкам выше, мне стало не по себе, потому что я ничего не понимал.

Интерес у меня утих, но, как обычно бывает, понимание пришло само, неожиданно.

Итак, рассмотрим арабские цифры от 0 до 9. В данном случае формат 5х7, которые были взяты из проекта ЖК-дисплея от Nokia 3310.

Факторный анализ для чайников

Черные пиксели соответствуют 1, белые — 0. Таким образом, мы можем представить каждую цифру в виде матрицы 5х7. Например, матрица ниже:

Факторный анализ для чайников

соответствует картинке:

Факторный анализ для чайников

Суммируем картинки по всем числам и нормализуем результат. Это значит получить матрицу 5х7, ячейки которой содержат сумму одинаковых ячеек для разных цифр, деленную на их количество.

В результате мы получим картинку:

Факторный анализ для чайников

Матрица для него:

Факторный анализ для чайников

Самые темные участки сразу бросаются в глаза.

Их три, и они соответствуют смыслу.

0.9 .

В этом они похожи.

Что общего у всех чисел.

Вероятность встретить черный пиксель в этих местах высока.

Давайте посмотрим на самые светлые участки.

Их тоже три, и они соответствуют смыслу 0.1 .

Но опять же, это то, на что похожи все цифры, что у них общего.

Вероятность встретить белый пиксель в этих местах высока.

Насколько они разные? И максимальные различия между ними в смысловых местах 0.5 .

Цвет пикселя в этих местах одинаково вероятен.

Половина цифр в этих местах будет чёрной, половина — белой.

Давайте проанализируем эти места, благо их у нас всего 6.

Факторный анализ для чайников

Положение пикселя определяется столбцом и строкой.

Отсчет начинается с 1, направление для строки сверху вниз, для столбца слева направо.

Остальные ячейки содержат значение пикселя для каждой цифры в заданной позиции.

Теперь выберем минимальное количество позиций, в которых мы еще сможем различить цифры.

Другими словами, для которых значения в столбцах будут разными.

Поскольку цифр у нас 10 и мы кодируем их в двоичном формате, математически нам нужно как минимум 4 комбинации 0 и 1 (log(10)/log(2)=3,3).

Попробуем выбрать 4 из 6, которые удовлетворяли бы нашему условию:

Факторный анализ для чайников

Как видите, значения в столбцах 0 и 5 одинаковы.

Давайте посмотрим на другую комбинацию:

Факторный анализ для чайников

Также имеются совпадения между столбцами 3 и 5. Рассмотрим следующее:

Факторный анализ для чайников

Но здесь никаких столкновений нет. Бинго! А теперь расскажу, почему все это затеялось:

Факторный анализ для чайников

Предположим, из каждого пикселя, которых у нас 5х7=35, поступает сигнал в некий черный ящик, а на выходе получается сигнал, соответствующий входной цифре.

Что происходит в черном ящике? А в черном ящике из всех 35 сигналов выбираются те 4, которые подаются на вход декодера и позволяют однозначно определить число на входе.

Теперь понятно, почему мы искали комбинации без совпадений.

Ведь если бы в черный ящик было выбрано 4 сигнала первой комбинации, то цифры 0 и 5 для такой системы были бы просто неразличимы.

Мы минимизировали задачу, поскольку вместо 35 сигналов достаточно обработать всего 4. Эти 4 пикселя — это минимальный набор скрытых факторов, характеризующих этот массив чисел.

У этого набора есть очень интересная особенность.

Если вы внимательно присмотритесь к значениям в столбцах, то заметите, что цифра 8 противоположна числу 4, 7 — 5, 9 — 3, 6 — 2, а 0 — 1. Внимательный читатель спросит: , причем здесь нейросети? И особенность нейронных сетей в том, что они сами способны идентифицировать эти факторы, без вмешательства разумного человека.

Вы просто периодически показываете ей цифры, а она находит те 4 скрытых сигнала и переключает их одним из своих 10 выходов.

Как мы можем применить те похожие сигналы, о которых мы говорили вначале? И они могут служить знаком для набора цифр.

Например, у римских цифр будет свой набор максимумов и минимумов, а у букв — свой.

По сигналам сходства можно отделить числа от букв, но распознавание символов внутри набора возможно только по максимальному различию.

Теги: #нейронные сети #Алгоритмы #факторный анализ #метод главных компонент #Алгоритмы #математика

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.