Сентимент-анализ (по-русски сентиментальный анализ) — область компьютерной лингвистики, изучающая эмоциональную окраску текстов, подробнее см.
Это очень важная область машинного обучения: анализ настроений необходим для лучшего «понимания» текстов и перевода с одного языка на другой.
Сложность задачи заключается в сложных языковых конструкциях, которые часто используют люди.
Даже человек не сразу распознает негатив во фразе типа «Единственное хорошее в этой книге — это обложка».
Как научить этому компьютер? До сих пор точность определения эмоций в лучших компьютерных программах составляла не более 80%.
Группе учёных из Стэнфорда при участии известного ?Эндрю Нг удалось довести его до 85% , а при дальнейшем обучении рекурсивной нейросети точность вполне может вырасти до 95%, говорит один из авторов исследования.
Обратите внимание, что 95% — это совершенно феноменальный результат; не все люди способны с такой точностью распознавать сарказм и определять тон слов.
Для первоначального обучения нейронной сети ученые использовали набор данных из 12 000 обзоров фильмов, которые были разбиты на отдельные фразы с помощью автоматического парсера.
Результат составил 215 тысяч фраз.
Каждую из них прочитали три человека и оценили по степени положительного или отрицательного тона.
На снимке экрана показан интерфейс, который предлагался пользователям Amazon Mechanical Turk.
Авторы создали модель NaSent (Neural Analysis of Sentiment), которая называется рекурсивной тензорной нейронной сетью (Recursive Neural Tensor Network), которая обрабатывает отдельные слова в каждой фразе, строит дерево связей и анализирует, какой эмоциональный подтекст несет каждое слово и какой слова влияют друг на друга.
В онлайн-демо вы можете узнать, как работает программа.
Она строит дерево с оценкой каждого слова, каждой фразы и всего текста.
Уникальность программы можно оценить по следующим двум примерам, которые состоят из одних и тех же слов, но в разном порядке, что меняет тон предложения – и программа это понимает.
Анализ фразы «В отличие от сюрреалистического Леона, этот фильм странный, но симпатичный» дает общий положительный результат (синий), сочетание «странный, но приятный» правильно признается положительным.
Фраза из тех же слов, но в другом порядке: «В отличие от сюрреалистического, но симпатичного Леона, этот фильм странный» корректно распознается как отрицательная рецензия (красный цвет в общем рейтинге).
Кстати, онлайн-демо — это еще и инструмент для обучения нейросети.
Каждый пользователь может предложить программе произвольный текст для анализа — и скорректировать результат, исправив ошибки (просто нажав на кружок с неправильной оценкой).
Онлайн-демонстрация программы в свободном тексте Научная работа (pdf) Набор данных для обучения нейросети (6 МБ) Программный код (будет опубликовано перед конференцией EMNLP, которая начнется 18 октября) Теги: #NaSent #текстовые настроения #Анализ настроений #компьютерная лингвистика #Машинное обучение #рекуррентная нейронная сеть #рекурсивная нейронная сеть #с открытым исходным кодом #Алгоритмы
-
Api Vulkan (Glnext) От Khronos Group
19 Oct, 24 -
Бэкдор В Роутерах D-Link
19 Oct, 24