Стэнфордская Нейросеть Определяет Тональность Текста С Точностью 85%, Код Будет Передан В Open Source

Сентимент-анализ (по-русски сентиментальный анализ) — область компьютерной лингвистики, изучающая эмоциональную окраску текстов, подробнее см.

статья ирокез 'А.

Это очень важная область машинного обучения: анализ настроений необходим для лучшего «понимания» текстов и перевода с одного языка на другой.

Сложность задачи заключается в сложных языковых конструкциях, которые часто используют люди.

Даже человек не сразу распознает негатив во фразе типа «Единственное хорошее в этой книге — это обложка».

Как научить этому компьютер? До сих пор точность определения эмоций в лучших компьютерных программах составляла не более 80%.

Группе учёных из Стэнфорда при участии известного ?Эндрю Нг удалось довести его до 85% , а при дальнейшем обучении рекурсивной нейросети точность вполне может вырасти до 95%, говорит один из авторов исследования.

Обратите внимание, что 95% — это совершенно феноменальный результат; не все люди способны с такой точностью распознавать сарказм и определять тон слов.

Для первоначального обучения нейронной сети ученые использовали набор данных из 12 000 обзоров фильмов, которые были разбиты на отдельные фразы с помощью автоматического парсера.

Результат составил 215 тысяч фраз.

Каждую из них прочитали три человека и оценили по степени положительного или отрицательного тона.

На снимке экрана показан интерфейс, который предлагался пользователям Amazon Mechanical Turk.

Стэнфордская Нейросеть Определяет Тональность Текста С Точностью 85%, Код Будет Передан В Open Source

Авторы создали модель NaSent (Neural Analysis of Sentiment), которая называется рекурсивной тензорной нейронной сетью (Recursive Neural Tensor Network), которая обрабатывает отдельные слова в каждой фразе, строит дерево связей и анализирует, какой эмоциональный подтекст несет каждое слово и какой слова влияют друг на друга.

В онлайн-демо вы можете узнать, как работает программа.

Она строит дерево с оценкой каждого слова, каждой фразы и всего текста.

Уникальность программы можно оценить по следующим двум примерам, которые состоят из одних и тех же слов, но в разном порядке, что меняет тон предложения – и программа это понимает.

Стэнфордская Нейросеть Определяет Тональность Текста С Точностью 85%, Код Будет Передан В Open Source

Анализ фразы «В отличие от сюрреалистического Леона, этот фильм странный, но симпатичный» дает общий положительный результат (синий), сочетание «странный, но приятный» правильно признается положительным.

Стэнфордская Нейросеть Определяет Тональность Текста С Точностью 85%, Код Будет Передан В Open Source

Фраза из тех же слов, но в другом порядке: «В отличие от сюрреалистического, но симпатичного Леона, этот фильм странный» корректно распознается как отрицательная рецензия (красный цвет в общем рейтинге).

Кстати, онлайн-демо — это еще и инструмент для обучения нейросети.

Каждый пользователь может предложить программе произвольный текст для анализа — и скорректировать результат, исправив ошибки (просто нажав на кружок с неправильной оценкой).

Онлайн-демонстрация программы в свободном тексте Научная работа (pdf) Набор данных для обучения нейросети (6 МБ) Программный код (будет опубликовано перед конференцией EMNLP, которая начнется 18 октября) Теги: #NaSent #текстовые настроения #Анализ настроений #компьютерная лингвистика #Машинное обучение #рекуррентная нейронная сеть #рекурсивная нейронная сеть #с открытым исходным кодом #Алгоритмы

Последнее изменение: 2024-12-19 05:12:58

Вместе с данным постом часто просматривают: