Но ученые научились определять, где система дает сбой.
МС ТЕХ | ГЕТТИ, UNSPLASH Ушли в прошлое уютные форумы, где модераторы-люди заставляли участников соблюдать правила и цивилизованно общаться.
Бич массовых социальных сетей требует других решений.
Сегодня искусственный интеллект учат отделять одно проклятие от другого в соответствии с современными представлениями о справедливости.
В рамках этой темы мы хотели бы поделиться переводом июньской публикации MIT Technology Review о наборе данных HateCheck. Несмотря на все достижения в области языковых технологий искусственного интеллекта, он по-прежнему не справляется с одной из самых основных задач.
В новом исследовании ученые протестировали четыре лучшие системы искусственного интеллекта для обнаружения разжигания ненависти.
Оказалось, что все алгоритмы не смогли отличить токсичные предложения от безобидных.
И у каждого оно разное.
Неудивительно.
Трудно создать ИИ, который понимает нюансы естественного языка.
Но важно то, как исследователи диагностировали проблему.
Они разработали 29 различных тестов, нацеленных на различные аспекты языка ненависти, чтобы лучше определить, где именно каждый алгоритм дает сбой.
Это облегчает понимание того, как преодолевать слабости.
Этот подход уже помогает одной службе улучшить свою систему.
18 категорий ненависти
Изучать под руководством ученых из Оксфордского университета и Института Алана Тьюринга.Авторы опросили сотрудников некоммерческих организаций, занимающихся проблемами ненависти в Интернете.
Команда использовала эти интервью для создания таксономии 18 различных типов языка ненависти, уделяя особое внимание только письменному английскому языку.
В список вошли уничижительные высказывания, оскорбления и угрозы.
Исследователи также выявили 11 сценариев, не содержащих ненависти, которые обычно сбивают с толку автомодераторов.
Это включало в себя:
- использование ненормативной лексики в безобидных высказываниях;
- оскорбления, которые сами получатели высказываний начали использовать против себя( ок.
переулок – так называемая «реклама»);
- высказывания, осуждающие ненависть, с цитатами и ссылками на оригинальные сообщения («контрненависть»).
Идентичные примеры были созданы для семи групп, защищенных от дискриминации в соответствии с законодательством США.
Команда открыла источник окончательный набор данных под названием HateCheck. Набор содержит почти 4000 примеров.
Службы контроля токсичности
Исследователи протестировали два популярных сервиса: Перспективный API Разработка Google Jigsaw и SiftNinja из Двух Шляп.Оба позволяют клиентам отмечать оскорбительный контент в сообщениях или комментариях.
В частности, Перспектива используется для фильтрации контента на Reddit и новостных организациях, включая The New York Times и Wall Street Journal. Алгоритм помечает токсичные сообщения и определяет их приоритетность, чтобы люди могли их проверить.
Из двух услуг SiftNinja слишком снисходительно относится к разжиганию ненависти, не замечая почти всех ее разновидностей.
В то же время Перспектива слишком жестко модерирует. Он успешно идентифицирует большинство из 18 категорий ненависти, но также видит их в цитатах и контраргументах.
Исследователи обнаружили те же закономерности, протестировав две научные модели Google. Эти модели являются вершиной доступных языковых технологий искусственного интеллекта и, вероятно, послужат основой для других систем модерации коммерческого контента.
Результаты подчеркивают один из самых сложных аспектов обнаружения разжигания ненависти с помощью ИИ.
Если вы недостаточно модерируете, вы не решаете проблему.
И если вы переусердствуете, вы можете подвергнуть цензуре язык, который маргинализированные группы используют, чтобы защитить себя.
«Внезапно вы наказываете те самые сообщества, которые, скорее всего, станут мишенью ненависти», — говорит Пол Реттгер, кандидат наук в Оксфордском институте Интернета и соавтор статьи.
Люси Вассерман, ведущий инженер-программист Jigsaw, говорит, что Перспектива преодолевает ограничения, но полагается на модераторов для принятия окончательного решения.
Этот процесс не масштабируется на более крупные платформы.
Сейчас Jigsaw работает над функционалом, который меняет приоритеты публикаций и комментариев в зависимости от неопределенности.
Система автоматически удаляет контент, который она считает разжигающим ненависть, и показывает людям сомнительные случаи.
По словам Вассермана, новое исследование позволяет детально оценить положение дел.
«Многие вещи, на которые он указывает, включая рекламу, являются проблемой этих моделей.
Это известно в отрасли, но трудно оценить количественно», — говорит она.
HateCheck улучшит ситуацию.
Ученые также в восторге от исследования.
«Это дает нам хороший и чистый ресурс для оценки производительности систем», — говорит Маартен Сап, исследователь языкового искусственного интеллекта из Вашингтонского университета.
Новый подход «позволяет компаниям и пользователям ожидать улучшений».
Томас Дэвидсон, доцент кафедры социологии Университета Рутгерса, согласен.
По его словам, из-за ограничений языковых моделей и сложности языка всегда будет существовать компромисс между недооценкой и переоценкой языка ненависти.
«Набор данных HateCheck проливает свет на эти компромиссы», — добавляет он.
Перевод: Александра Галяутдинова
Другие публикации Карен Хао в переводе Madrobots
- Эти странные, тревожные фотографии говорят о том, что ИИ становится умнее
- Принципиально новый метод позволяет обучать ИИ практически без данных
- Как саботировать технологии, которые гиганты информационных технологий используют, чтобы шпионить за вами
***
Для читателей Хабра в магазине гаджетов Madrobots На всю продукцию действует скидка 5%.
Просто введите промокод: ХАБР
Теги: #искусственный интеллект #исследования #ИИ #ненависть #модерация контента
-
Как Zfs Хранит Данные
19 Oct, 24 -
Особая Порода Мышей
19 Oct, 24 -
Новые Города В Myclime
19 Oct, 24 -
Вы Все Еще Используете Google Reader?
19 Oct, 24