Мысли Вслух: Распознавание Текста.

1. Первый пункт о распознавании рукописного текста с помощью нейронных сетей.

«Летом 1987 года со мной произошел случай, который еще больше охладил мой и без того невысокий энтузиазм в отношении нейронных сетей.

Я пошел на конференцию по нейронным сетям, где увидел презентацию компании Nestor. Нестор пытался продать нейросетевое приложение для распознавания рукописных символов на подложке.

Она предложила лицензировать программу за один миллион долларов.

Это привлекло мое внимание.

Хотя Nestor улучшил свой алгоритм нейронной сети и рекламировал его как еще один большой прорыв, я чувствовал, что проблему распознавания рукописных символов можно решить более простым и традиционным способом.

Тем вечером я пришел домой, думая об этой проблеме, и за два дня разработал распознаватель рукописных символов, который был быстрым, небольшим и гибким.

Мое решение не использовало нейронную сеть и работало совершенно иначе, чем мозг.

Хотя эта конференция пробудила во мне интерес к разработке стилусных компьютеров (что в конечном итоге привело к проекту PalmPilot десять лет спустя), она также убедила меня в том, что нейронные сети не являются таким уж большим улучшением по сравнению с традиционными методами.

Созданный мной распознаватель рукописных символов оказался полезным для системы ввода текста под названием Graffiti, которая использовалась в ранних продуктах Palm. Я думаю, что Нестор вышел из бизнеса.

» Джефф Хокинс, «Об разведке» В своей книге Джефф предлагает теорию искусственного интеллекта, предложив его в виде нейронной сети, повторяющей структуру неокортекса, коры головного мозга.

В своей теории он объясняет интеллект моделью прогнозирования памяти и инвариантным представлением данных:

2. Второй момент, распознавание текста - это, прежде всего, интеллектуальная задача, даже если не ставить перед компьютером задачу понять текст, а такую, чтобы он просто переводил рукописный текст в цифровой формат, пригодный для дальнейшего обработка (ASCII) — все равно эффективность распознавания с использованием «простых» нейронных сетей будет небольшой.

Просто помните почерк врачей.

Также, когда буква совершенно непонятна, тем не менее, человек способен понять слово или текст целиком из контекста.

То есть в принципе можно улучшить существующие алгоритмы распознавания, но абсолютно любой почерк (а малейшее отклонение от шаблона в традиционных алгоритмах приводит к ошибке) распознаваться не может, а компьютер все равно будет читать текст, как дошкольник.

, побуквенно, разделяя рукописный текст пробелами.

Пока взрослый читает слова целиком: «Согласно рзелулаттам илссеовадний одонго анлигисокго унвиертисета, не иемт занчнея, в кокам прякде рсапожелены бкувы в решить.

Гальвоне, чтобы ты преавья и пслоэндя бквуй блый на мсете.

Осатлыне бкувы мгоут селдовт в плоонм бсепордяк, все рвется ткесть чтаицей без блуждания.

Главное, что мы читаем не каждую книгу отдельно, а все вместе».

3. Еще один момент, касающийся работы мозга: «В данном случае неожиданное открытие пришло из базовой анатомии самой коры, но чтобы его распознать, потребовался необычайно проницательный ум.

Это был Вернон Монткасл, нейробиолог из Университета Джонса Хопкинса в Балтиморе.

В 1978 году он опубликовал статью под названием «Организационные принципы мозговых функций».

В этой статье Монкасл отметил, что неокортекс удивительно однообразен по внешнему виду и структуре.

Области неокортекса, обрабатывающие слуховую информацию, аналогичны областям, отвечающим за осязание, мышечный контроль, языковой области Брока и почти любой другой области неокортекса.

Монткасл предположил, что, поскольку эти области выглядят одинаково, они фактически выполняют одну и ту же основную операцию! Он предположил, что кора использует один и тот же вычислительный инструмент для всего, что она делает».

Джефф Хокинс.

Однако остается вопрос, каким образом волны, свет, звук сохраняются в неокортексе в виде закономерностей?.

«Грубо говоря, Фурье разработал математический метод перевода закономерности любой сложности на язык простых волн.

Он также показал, как эти сигналы можно преобразовать в исходный узор.

Иными словами, подобно тому, как телекамера переводит зрительное изображение в электромагнитные частоты [8], а телевизор восстанавливает по ним исходное изображение, так и математический аппарат, разработанный Фурье, преобразует закономерности.

Уравнения, используемые для преобразования изображений в волновую форму и обратно, известны как преобразования Фурье.

Именно они позволили Габору перевести изображение объекта в интерференционное «пятно» на голографической пленке, а также изобрести способ обратного преобразования интерференционных картин в исходное изображение».

Майкл Талбот, Голографическая Вселенная.

В целом мозг обладает свойствами, подобными голограмме; например, он содержит огромное количество информации в относительно небольшом объеме.

Подобно тому, как голограммная пленка, освещенная лазером под разными углами, производит множество различной ранее записанной информации, так и память человека при естественном изменении сознания («настроение», «гормоны», в том числе эндорфины и т. д.) или с помощью «посредников» (алкоголь, табак, другие наркотики) производит различную информацию, в том числе разные оценки одних и тех же фактов.

«Теория Прибрама-Бома» Когда мы объединяем теории Бома и Прибрама, мы получаем радикально новый взгляд на мир: наш мозг математически конструирует объективную реальность, обрабатывая частоты, поступающие из другого измерения — более глубокого порядка существования за пределами пространства и времени.

Мозг — это голограмма, свернутая в голографическую вселенную».

Майкл Талбот, Голографическая Вселенная.

4. Чтобы распознавать рукописный текст, просто текст или любую другую информацию, например, визуальные изображения и звук с помощью нейронных сетей, компьютеру необходим внушительный объем памяти.

Нейронная сеть, повторяющая структуру неокортекса, имеет в этом смысле серьезный потенциал.

Заключение: Для построения системы распознавания рукописного текста можно использовать нейронную сеть с шестислойной структурой, повторяющей основные принципы строения неокортекса.

Основным принципом работы является использование модели «память-прогнозирование».

То есть системе придется не вычислять ответ, соответствие рукописного текста и ASCII-кода, а «добывать его по памяти».

В связи с этим система должна проходить обучение (запоминание) в течение достаточно длительного времени.

Первоначальное обучение должно проходить «вручную», с постоянным контролем результата; впоследствии можно перейти к автоматическому непрерывному обучению.

Для этого может существовать специальная вспомогательная программа обучения, которая будет обеспечивать систему визуальными изображениями и соответствующими ASCII-кодами.

Если этот комплекс будет успешно разработан, он сможет после соответствующего обучения распознавать не только рукописный текст, но и другую информацию, визуальную и звуковую, т.е.

любую информацию, которая изначально может быть представлена в виде волн.

06.2007 ПС*.

«Дзен».

:) Зрительная информация идет от глаз через таламус головного мозга — «глаз сверху», откуда она поднимается, «расширяясь», по коре головного мозга к основанию воображаемой пирамиды.

Лишь по мере расширения «пирамиды» информация становится более конкретной, и наверху один «квант» информации имеет «много путей» для дальнейшего продвижения.

То есть пирамида — это не столько структура представления данных, сколько путь единицы информации в неокортексе.

С другой стороны, если пирамиду не перевернуть, то произойдет следующее: информация поступает в кору головного мозга, поступает в «основание пирамиды», откуда, следуя определенному «алгоритму», конкретизируется к вершине.

пирамиды и, попадая «в глаз на вершине пирамиды», представляет на самом деле то, что мы «думаем, что видим».

В соответствии с этой точкой зрения верен принцип интеллектуального отбора видимой информации, то есть видимая интеллектом информация зависит от интеллекта и «алгоритмов», которым он следует, что подтверждает гипотеза «о принципе относительности информации» .

Синтез этих двух точек зрения может дать общее представление о распознавании интеллектом зрительной информации.

Визуальная информация, поступающая в «разумную систему», подвергается одновременной обработке двумя (или более) противоположными процессами.

Первый процесс предоставляет множество способов, возможных вариантов интерпретации информации.

Второй процесс, следуя определенному правилу, алгоритму, уточняет поступающую информацию.

Тогда то, что мы видим, является результатом взаимодействия двух противоположных процессов.

П.

С.

Ну, кто такой Мастер, который делает траву зеленой? :) Теги: #ИИ #искусственный интеллект #распознавание образов #искусственный интеллект

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

Мысли Вслух: Распознавание Текста.

Компьютеры 5-Го Поколения И Корпоративная Инфраструктура

Ягода

Severed Steel: В Поисках Идеального Экшена

«Поначалу Наше Приложение Next Keyboard Приносило $20 Тысяч В День. Тогда Это Всего Лишь 2 Доллара».

Postgresql 13: Параллельный Вакуум

Первая Биржа Онлайн-Рекламы В Беларуси

Интернет Эксплорер 9 (Окончательная Первоначальная Версия)

Карта Киева (Метро) В Интернете

Подстегнуть За Тест По Теме «Класс Stream И Его Производные В .Net»

«Почему До Сих Пор Не Изобрели Искусственный Интеллект?» Или Проверьте Набор Инструментов Cntk От Microsoft Research

Автор Статьи

Роман Иванов

Интересно

Sigbop Signature Solutions — Программное Обеспечение Для Электронного Маркетинга...

Лазарь: Кто Стоит За Атаками На Систему Банковских Переводов Swift...

Polymer (Полимер) - Программное Обеспечение Для Предотвращения Потери Данных...

Как Работают Pr-Компании...

Ипотечные Лидеры, Подход К Увеличению Продаж...

Как Выбрать Лучшую Партнерскую Программу Казино...

Почему Употребление Горячего Шоколада Может Сделать Вас Лучше...

Dima Manisha