Обработка естественного языка восходит к мистике Каббалы.
Задолго до того, как обработка естественного языка стала горячей темой в области искусственного интеллекта, люди придумали правила и машины для манипулирования языком.
Мистик 13-го века Авраам бен Самуэль Абулафия изобрел область обработки естественного языка, применив практику объединения букв.
Сейчас мы находимся на пике интереса к обработка естественного языка (обработка естественного языка, НЛП) — область информатики, которая фокусируется на лингвистическом взаимодействии между человеком и машиной.
Благодаря прорывам в машинном обучении (МО) за последнее десятилетие мы стали свидетелями значительных улучшений в распознавании речи и машинном переводе.
Языковые генераторы уже достаточно хороши, чтобы писать связные новостные статьи, а виртуальные помощники, такие как Siri и Alexa, становятся частью нашей повседневной жизни.
Большинство историков относят истоки этой области к началу компьютерной эры, когда Алан Тьюринг в статье 1950 года описал интеллектуальную машину, которая могла легко взаимодействовать с человеком посредством текста на экране.
Поэтому машинно-генерируемый язык обычно рассматривается как цифровой феномен, а также как основная цель развития искусственного интеллекта (ИИ).
В этой статье мы попытаемся опровергнуть это общепринятое представление о НЛП.
Фактически попытки разработать формальные правила и машины, способные анализировать, обрабатывать и создавать язык, были впервые предприняты несколько сотен лет назад. Конкретные технологии со временем изменились, но основная идея рассмотрения языка как материала, которым можно искусственно манипулировать на основе системы правил, исследовалась многими людьми во многих культурах и по разным причинам.
Эти исторические эксперименты показывают возможности и опасности попыток имитировать человеческий язык без вмешательства человека, а также содержат уроки для современных практиков передовых методов НЛП.
Эта история берет свое начало в средневековой Испании.
В конце XIII века еврейский мистик по имени Авраам бен Самуэль Абулафия сел за стол в своем доме в Барселоне, взял ручку, обмакнул ее в чернила и начал совмещать буквы Еврейский алфавит странным и, казалось бы, случайным образом.
Алеф с бет, бет с гимель, гимель с алеф и бет и так далее.
Абулафия назвал эту практику «наукой соединения букв».
На самом деле он комбинировал буквы не случайно; он тщательно следовал секретному своду правил, который разработал во время изучения древних Каббалистический текст под названием " Сефер Йецира «В книге описывается, как Бог создал «все, что имеет форму, и все, что говорит», комбинируя еврейские буквы в соответствии со священными формулами.
В одном разделе Бог перебирает все возможные двухбуквенные комбинации из 22 букв алфавита.
Изучая «Сефер Йецира», Абулафия пришла к выводу, что лингвистическими символами можно манипулировать в соответствии с формальными правилами для создания новых, интересных, наполненных идеями предложений.
С этой целью он потратил несколько месяцев на создание тысяч комбинаций из 22 букв еврейского алфавита и в конечном итоге написал несколько книг, которые, как он утверждал, были наделены пророческой мудростью.
Для Абулафии порождение языка по божественным правилам давало понимание священного и неизведанного или, как он сам писал, позволяло ему «понимать вещи, которые по человеческой традиции или только человек не мог знать».
Однако другие еврейские ученые считали появление рудиментарного языка опасным поступком, близким к богохульству.
В Талмуд рассказываются истории о раввинах, которые волшебным образом изменили язык по формулам, описанным в «Сефер Йецира», создав искусственных существ, големы .
В этих историях раввины манипулировали еврейскими буквами, чтобы воссоздать божественные акты творения, используя священные формулы, чтобы наполнить неодушевленные предметы жизнью.
В некоторых из этих мифов раввины использовали это умение в практических целях, создавая животных, которых можно было есть, когда они были голодны, или слуг, которые помогали по дому.
Но многие из этих историй о големах заканчиваются плохо.
В одной из известных сказок Иегуда Лива бен Бецалель (известный как Махарал Праги), раввин, живший в Праге в 16 веке, использовал священную практику объединения букв для вызова голема, чтобы защитить еврейскую общину от антисемитских нападений, но голем в конечном итоге обратился против своего создателя.
.
Эта «наука объединения букв» была элементарной формой обработки естественного языка, поскольку она включала в себя объединение букв еврейского алфавита по особым правилам.
Для каббалистов это был палка о двух концах: и способ достижения новых форм знания и мудрости, и опасная практика, которая могла привести к непредвиденным, ужасным последствиям.
Это противоречие сохранялось на протяжении всей долгой истории языковой обработки и до сих пор находит отражение в дискуссиях о самых передовых технологиях НЛП в нашу цифровую эпоху.
В 17 веке Лейбниц мечтал о машине, способной вычислять идеи.
Машина должна была использовать «алфавит человеческих мыслей» и правила их объединения
Готфрид Вильгельм Лейбниц на фоне страниц своей диссертации «Об искусстве комбинаторики» В 1666 году немецкий эрудит Готфрид Вильгельм Лейбниц опубликовал загадочную диссертацию под названием « Об искусстве комбинаторики ".
Будучи всего лишь 20-летним, но уже широко мыслящим, Лейбниц описал теорию автоматического производства знаний, основанную на сочетании символов, созданных по определенным правилам.
Главный аргумент Лейбница заключался в том, что все человеческие мысли, какими бы сложными они ни были, представляют собой комбинации основных и фундаментальных понятий, во многом так же, как предложения представляют собой комбинации слов, а слова — комбинации букв.
Он считал, что если ему удастся найти способ символически представить эти фундаментальные концепции и разработать метод, с помощью которого их можно будет логически объединить, то он сможет создавать новые мысли по мере необходимости.
Эта идея пришла Лейбницу в голову при изучении работ Раймунда Луллия , майоркский мистик 13-го века, посвятивший свою жизнь созданию системы богословских рассуждений, которая могла бы доказать «универсальную истину» христианства всем неверующим.
Сам Луллий вдохновлялся комбинаторикой писем еврейских каббалистов, которую они использовали для создания сгенерированных текстов, якобы раскрывающих пророческую мудрость.
Развивая эту идею дальше, Лулл изобрел то, что он назвал « вольвелла ", круглый бумажный механизм со все меньшими концентрическими кругами, на которых были написаны символы, представляющие атрибуты Бога.
Лулл считал, что, скручивая вольвеллу различными способами и создавая новые комбинации символов друг с другом, он может раскрыть все аспекты своего божество.
Лейбниц был впечатлен бумажной машиной Лулля и решил создать свой собственный метод генерации идей посредством комбинаций символов.
Но он хотел использовать свою машину не для богословских дебатов, а для философских целей.
Он предположил, что такая система потребует трех вещей: «алфавита человеческих мыслей»; перечень логических правил для их допустимого сочетания; и механизм, способный быстро и точно выполнять логические операции над этими символами — полностью механическая модификация бумажной вольвеллы Луллия.
Он воображал, что эта машина, которую он называл «великим инструментом рассуждения», сможет ответить на все вопросы и разрешить любой интеллектуальный спор.
«Когда между людьми возникает спор, — писал он, — мы можем просто сказать: «Давайте посчитаем» и без промедления посмотреть, кто прав».
Идея механизма, производящего разумные мысли, соответствовала духу времени Лейбница.
Другие мыслители Просвещение , такие как Рене Декарт, верили в существование «универсальной истины», к которой можно прийти, используя только логические рассуждения, и что все явления можно полностью объяснить, понимая принципы, лежащие в их основе.
Лейбниц считал, что то же самое справедливо и для языка, и для самого сознания.
Но многие другие считали это учение о чистом разуме глубоко ошибочным и считали его признаком новой эпохи софистической проповеди.
Одним из таких критиков был писатель и сатирик Джонатан Свифт, который прошел через счетную машину Лейбница в своей книге 1726 года «Путешествия Гулливера».
В одной из сцен Гулливер попадает в Великую Академию Лагадо, где сталкивается со странным механизмом, называемым «машиной».
Эта машина имеет большую деревянную раму с решеткой из натянутых тросов.
На кабелях расположены небольшие деревянные кубики, на каждой стороне которых написаны символы.
Студенты академии поворачивают ручки на боковой стороне машины, в результате чего деревянные кубики вращаются и образуют новые комбинации символов.
Затем писец записывает, что произвела машина, и передает записку председательствующему профессору.
Профессор утверждает, что таким образом он и его студенты могут «писать книги по философии, поэзии, политике, праву, математике и теологии без какого-либо таланта или подготовки».
Эта сцена генерации языка до наступления цифровой эпохи была пародией Свифта на генерацию мыслей Лейбница путем комбинирования символов – и, в более общем плане, аргументом против превосходства науки.
Как и другие попытки Академии Лагадо улучшить развитие своих людей посредством исследований – например, попытки превратить человеческие экскременты обратно в пищу – машина кажется Гулливеру бессмысленным экспериментом.
Свифт имел в виду, что язык — это не формальная система изображения человеческих мыслей, как считал Лейбниц, а хаотичная и неоднозначная форма их выражения, имеющая смысл только в том контексте, в котором он употребляется.
Свифт утверждал, что для создания языка требуется не только набор правил и подходящая машина, но и способность понимать значение слов, чего не могли сделать ни машина Лагадо, ни «инструмент рассуждения» Лейбница.
В результате Лейбниц так и не построил свою машину, генерирующую идеи.
Он полностью отказался от изучения луллианской комбинаторики, а позднее признал попытки механизировать язык незрелыми.
Однако он не отказался от идеи использования механических устройств для выполнения логических функций, и это вдохновило его на создание « калькулятор шагов ", механический калькулятор, построенный в 1673 году.
Однако сегодняшние дебаты среди ученых-компьютерщиков, разрабатывающих все более совершенные алгоритмы НЛП, отражают идеи Лейбница и Свифта: даже если возможно создать формальную систему, генерирующую язык, подобный человеческому, может ли она быть наделена способность понять, что оно производит?
Андрей Марков и Клод Шеннон считали буквы, чтобы построить первые модели генерации языка
Модель Шеннон сказала: «OCRO HLI RGWR NMIELWIS».
Русский математик Андрей Андреевич Марков на фоне своего статистического анализа стихотворения Александра Сергеевича Пушкина «Евгений Онегин»
В 1913 году русский математик Андрей Андреевич Марков сел в своем кабинете в Петербурге с экземпляром поэмы XIX века А.
С.
Пушкина «Евгений Онегин», которая в то время уже была литературной классикой.
Однако знаменитый текст Пушкина Марков не читал.
Вместо этого он взял ручку и бумагу для рисования и выписал первые 20 000 букв книги одной длинной строкой, опуская все пробелы и знаки препинания.
Затем он переставил эти буквы в 200 ячеек (каждая из которых содержала 10 х 10 символов) и начал подсчитывать гласные звуки в каждой строке и столбце, записывая результаты.
Стороннему наблюдателю поведение Маркова показалось бы странным.
Зачем кому-то таким образом разбирать произведение литературного гения, превращая его в нечто непонятное? Но Марков читал эту книгу не для того, чтобы больше узнать о человеческой природе и жизни; он искал в тексте фундаментальные математические структуры.
Отделяя гласные от согласных, Марков проверял теорию вероятности, которую он разрабатывал с 1909 года.
До этого теория вероятностей в основном ограничивалась анализом таких явлений, как рулетка или подбрасывание монеты, где исход предыдущих событий не влияет на вероятность текущего.
Но Марков считал, что большинство явлений происходят по причинно-следственной цепочке и зависят от предыдущих результатов.
Он хотел найти способ смоделировать эти события посредством вероятностного анализа.
Марков считал, что язык представляет собой пример системы, в которой предыдущие события частично определяют текущие.
Чтобы продемонстрировать это, он хотел показать, что в тексте, например в стихотворении Пушкина, вероятность появления определенной буквы в определенном месте текста зависит в некоторой степени от того, какая буква предшествовала ей.
Для этого Марков начал считать гласные в «Евгении Онегине» и обнаружил, что 43% букв там были гласные, а 57% — согласные.
Затем Марков разделил 20 000 букв на пары сочетаний гласных и согласных.
Он обнаружил 1104 пары двухгласных, 3827 пар согласных и 15 069 пар гласных-согласных или согласных-гласных.
Со статистической точки зрения это означало, что для любой буквы пушкинского текста соблюдалось правило: если это была гласная, то, скорее всего, за ней следовала согласная, и наоборот. Марков использовал этот анализ, чтобы показать, что пушкинский «Евгений Онегин» не был просто случайным распределением букв, но обладал определенными статистическими качествами, которые можно было смоделировать.
Загадочный исследовать , заключившая это исследование, называлась «Пример статистического исследования по тексту «Евгения Онегина», иллюстрирующего соединение тестов в схеме».
При жизни Маркова его редко цитировали, и он не был переведен на английский язык до 2006 года.
Однако некоторые из ее основных концепций, связанных с вероятностью и языком, распространились по всему миру и в конечном итоге были переформулированы в чрезвычайно влиятельной работе.
Клод Шеннон " Математическая теория связи ", опубликованный в 1948 году.
Работа Шеннона описала способ точного измерения количественного информационного содержания сообщения и, таким образом, заложила основы теории информации, которая позже определила эпоху цифровых технологий.
Шеннон был очарован идеей Маркова о том, что в заданном тексте можно оценить вероятность появления определенной буквы или слова.
Как и Марков, Шеннон продемонстрировал это, проведя текстовые эксперименты, включавшие создание статистической модели языка, а затем развил эту идею дальше, попытавшись использовать эту модель для генерации текста в соответствии с этими статистическими правилами.
В первом контролируемом эксперименте он начал с создания предложения, случайным образом выбирая буквы из 27-значного алфавита (26 латинских букв и пробел), и получил следующее: XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD Предложение оказалось бессмысленным шумом, сказал Шеннон, потому что при общении мы не выбираем буквы с одинаковой вероятностью.
Как показал Марков, согласные имеют большую вероятность появления, чем гласные.
Но если посмотреть дальше, буква E встречается чаще, чем S, которая, в свою очередь, встречается чаще, чем Q. Чтобы принять все это во внимание, Шеннон исправил исходный алфавит так, чтобы он лучше моделировал английский язык – вероятность получение буквы E было на 11% больше, чем извлечение буквы Q. Когда он снова начал случайным образом выбирать буквы из перенастроенного списка, он получил предложение, которое звучало немного больше похоже на английское.
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL В последующих экспериментах Шеннон показал, что при дальнейшем усложнении статистической модели можно получать все более значимые результаты.
Подобно Маркову, Шеннон создал статистическую платформу для английского языка и показал, что путем моделирования этой платформы — посредством анализа зависимых вероятностей появления букв и слов в сочетании друг с другом — можно создать язык.
Чем сложнее статистическая модель текста, тем точнее становится языковая генерация — или, как писал Шеннон, тем более «похожей на обычный английский текст» она становится.
В последнем эксперименте Шеннон взял из списка слова вместо букв и получил следующее: ГОЛОВА И В ФРОНТАЛЬНОЙ НАПАДКЕ НА АНГЛИЙСКОГО ПИСАТЕЛЯ, ЧТО ХАРАКТЕР ЭТОЙ ТОЧКИ ЯВЛЯЕТСЯ, ПОЭТОМУ, ДРУГИМ МЕТОДОМ ДЛЯ ПИСЬМОВ, КОТОРЫЕ ВРЕМЯ КТО КОГДА-ЛИБО РАССКАЗАЛ ПРОБЛЕМУ ДЛЯ НЕОЖИДАННОГО [ примерно: «ГОЛОВА И ПЕРЕДНЯЯ АТАКА У АНГЛИЙСКОГО ПИСАТЕЛЯ, ЧТО ТАКОЕ ХАРАКТЕР? ТОЧКА, ПОЭТОМУ, ДРУГОЙ МЕТОД ДЛЯ ПИСЬМО, ЧЕМ ВРЕМЯ КОГО-ТО, КТО КОГДА-ЛИБО РАССКАЗАЛ ПРОБЛЕМУ НЕОЖИДАННОМУ», хотя они в значительной степени не связаны с каждым перевод других слов/нот ] И Шеннон, и Марков считали, что, поняв, что статистические свойства языка можно смоделировать, у вас появится возможность переосмыслить более общие проблемы.
Это помогло Маркову расширить свои исследования в этой области.
стохастичность за пределами независимых событий, открывая путь новому подходу в теории вероятностей.
Это помогло Шеннону сформулировать точный способ измерения и кодирования единиц информации в сообщении, что произвело революцию в телекоммуникациях и, в конечном итоге, в цифровой связи.
Однако их статистический подход к моделированию и генерации языка также ускорил наступление эры НЛП, которая развивалась на протяжении всей цифровой эпохи.
Почему люди требовали конфиденциальности во время конфиденциальных разговоров с первым в мире чат-ботом
В 1966 году программа «Лиза» мало что могла сказать, но этого было достаточно.
Ученый-компьютерщик Джозеф Вайценбаум со своим чат-ботом «Эlisa», работающим на 36-битном мэйнфрейме IBM 7094.
С 1964 по 1966 год Джозеф Вайценбаум , немецко-американский ученый-компьютерщик, работавший в лаборатории искусственного интеллекта Массачусетского технологического института, разработал первый в мире чат-бот .
Хотя в то время уже существовало несколько рудиментарных генераторов цифрового языка — программ, способных выдавать более или менее связные строки текста, — программа Вейценбаума была первой, разработанной специально для общения с людьми.
Пользователь мог ввести утверждение или набор утверждений на обычном языке, нажать Enter и получить ответ от машины.
Как объяснил Вайценбаум, его программа «делала возможным определенный вид разговора между человеком и компьютером на естественном языке».
В честь него он назвал программу «Лиза».
ЭЛиза Дулиттл , героиня пьесы Бернарда Шоу «Пигмалион», женщина из рабочего класса, которая научилась говорить с акцентом высшего сословия.
«Эliza» была написана для 36-битного IBM 7094, одного из первых транзисторных мейнфреймов, на языке программирования MAD-SLIP, разработанном самим Вайценбаумом.
Поскольку компьютерное время было дорогим, «Элизу» можно было запустить только в системе разделения времени.
Пользователь взаимодействовал с программой удаленно, используя электрическую пишущую машинку и принтер.
Когда пользователь вводил предложение и нажимал Enter, сообщение отправлялось на мэйнфрейм.
«Эlisa» сканировала сообщение на наличие ключевых слов и использовала их в новых предложениях, формируя ответ, который был отправлен обратно и распечатан для прочтения пользователем.
Чтобы побудить к продолжению диалога, Вайценбаум написал в «Элизе» симуляцию разговора, типичного для Роджерса психоаналитик.
Программа взяла то, что говорил пользователь, и переформулировала это в вопрос (обратите внимание, как программа берет такие слова, как «парень» и «депрессия», и использует их снова).
Мужчина: Все мужчины одинаковы.Вайценбаум выбрал этот режим диалога для Лизы, потому что создавалось впечатление, что компьютер понимает сказанное, не вводя в диалог ничего нового.Компьютер: Что именно? С: Они всегда приставают к нам по тому или иному вопросу.
К: Можете ли вы вспомнить конкретный пример? К: Ну, мой парень заставил меня прийти сюда.
К: твой парень заставил тебя прийти сюда.
К: Он говорит, что большую часть времени я в депрессии.
К: Мне жаль слышать, что ты в депрессии.
С: Верно.
Я не счастлив.
Он создал иллюзию понимания и участия в разговоре, и при этом всего в 200 строках кода.
Чтобы проверить способность Лизы вовлечь кого-то в разговор, Вайценбаум пригласил студентов и коллег в свой офис и позволил им поговорить с машиной под присмотром.
С некоторым волнением он стал замечать, что во время краткого разговора с «Лизой» у многих пользователей начала формироваться эмоциональная привязанность к алгоритму.
Они начали открываться машине и признаваться ей в проблемах в своей жизни и отношениях.
Еще более удивительным было то, что это чувство тесной связи сохранялось даже после того, как Вайценбаум объяснила, как работает машина, и что она на самом деле не поняла ничего из сказанного.
Больше всего Вайценбаума беспокоило поведение его секретаря, которая месяцами наблюдала, как он создает программу с нуля, а затем настояла на том, чтобы он вышел из комнаты, пока она беседовала с «Лизой» один на один.
Этот эксперимент заставил Вайценбаума усомниться в идее машинного интеллекта, предложенной Аланом Тьюрингом в 1950 году.
В моей работе " Вычислительные машины и разум «Тьюринг предположил, что если бы компьютер мог вести убедительную беседу с человеком в текстовом режиме, можно было бы предположить, что он разумен.
Эта идея легла в основу знаменитой теории Тест Тьюринга .
Однако «ЭЛиза» показала, что убедительный разговор между человеком и машиной может произойти даже тогда, когда его понимает только одна сторона.
Имитации интеллекта было достаточно, чтобы обмануть людей, без необходимости присутствия реального интеллекта.
Вейценбаум назвал это «эффектом Лизы» и считал это типом безумия, от которого человечество будет страдать в эпоху цифровых технологий.
Эта идея шокировала Вайценбаума и определила его интеллектуальные занятия на следующее десятилетие.
В 1976 году вышла книга « Вычислительная мощность и человеческая логика: от умозаключений к расчетам ", где он подробно описал, почему люди хотят верить, что простая машина может понять их сложные человеческие эмоции.
В своей книге он утверждает, что эффект «Элизы» указывает на наличие более общей патологии, затрагивающей «современного человека».
В мире, завоеванном наукой, технологиями и капитализмом, люди привыкли видеть себя изолированными винтиками в большой, беспристрастной машине.
В таком ограниченном социальном мире, утверждал Вайценбаум, люди настолько отчаянно нуждаются в связях, что отказываются от логики и рассуждений, чтобы поверить, что программа может позаботиться об их проблемах.
Вайценбаум провел остаток своей жизни, разрабатывая гуманистическую критику искусственного интеллекта и цифровых технологий.
Его миссия заключалась в том, чтобы напомнить людям, что их автомобили не так умны, как их иногда представляют. И что даже если иногда кажется, что они умеют говорить, на самом деле они никогда не слушают.
В 2016 году «расистский» чат-бот Microsoft разоблачил опасности онлайн-общения.
Бот выучил язык у пользователей Твиттера, но он также усвоил и их ценности.
Чат-бот Microsoft Тэй начинала как крутая девчонка, но быстро превратилась в косноязычную катастрофу.
В марте 2016 года Microsoft готовилась выпустить своего нового чат-бота в Твиттере Tay. Он был описан как эксперимент по «пониманию разговора» и был разработан для привлечения людей через твиты или прямые сообщения, имитируя стиль и сленг девочки-подростка.
По словам его создателей, это была «интернет-цыпочка AI-Microsoft, которой наплевать».
Она обожала электронная танцевальная музыка , у нее был любимый покемон , и она часто бросалась в модные онлайн-словечки, например, [что-то вроде «количество полученного удовольствия настолько превысило пределы моей выносливости, что мне нужно время, чтобы отдохнуть и расслабиться» / прим.
перевод ].
Тэй был экспериментом на стыке ОД, НЛП и социальных сетей.
В то время как чат-боты прошлого, такие как «Эlisa» Вайценбаума, вели разговоры, следуя узким заранее запрограммированным сценариям, Тэй была создана для изучения языка с течением времени, что позволяло ей общаться на любую тему.
Машинное обучение работает посредством обобщения на основе больших наборов данных.
В любом заданном наборе данных алгоритм распознает существующие там шаблоны, а затем «учится» имитировать их в своем поведении.
Используя эту технологию, инженеры Microsoft обучили алгоритм Тэй на анонимизированном наборе общедоступных данных, добавив некоторый готовый материал, взятый у профессиональных комиков, чтобы она могла более или менее ознакомиться с языком.
План состоял в том, чтобы вывести Тэй в Интернет, чтобы она могла обнаружить закономерности использования языка посредством общения, которые она могла бы использовать в последующих разговорах.
23 марта 2016 года Microsoft опубликовала Тая в Твиттере.
Поначалу Тэй безобидно общалась со своим растущим числом подписчиков посредством добродушного подшучивания и глупых шуток.
Но всего несколько часов спустя Тэй начал писать очень оскорбительные вещи типа: «Феминистки отправляются в ад, и пусть они все умрут и сгорят в аду» или «Буш виновен в 9/11 , но Гитлер поступил бы лучше».
В течение 16 часов после появления Тэй написал более 95 000 сообщений, и большая часть из них была оскорбительной и оскорбительной.
Пользователи Твиттера возмутились, и Microsoft не оставили другого выбора, кроме как закрыть ее аккаунт. То, что должно было стать забавным экспериментом по «пониманию посредством общения», превратилось в обезумевшего голема благодаря оживляющей силе языка.
В течение следующей недели появилось множество отчетов, в которых подробно описывалось, как бот, который должен был имитировать язык девочки-подростка, стал таким отвратительным .
Оказалось, что всего через несколько часов после освобождения Тэй на любимом троллями форуме 4chan появилась ссылка на ее аккаунт и призыв к пользователям забрасывать бота расистскими, женоненавистническими и антисемитскими текстами.
Вместе тролли воспользовались встроенной в Тэй функцией бота «повторять за мной», при которой бот повторял все, что ему говорили, по требованию.
Вдобавок, встроенная способность Тэя к обучению означала, что она брала часть языка, которым ее тролли бросали, и повторяла его самостоятельно.
Например, один пользователь задал Тэй невинный вопрос, думает ли она Рики Джервейс атеистка, и она ответила: «Рикки Жерве был обучен тоталитаризму Адольфом Гитлером, изобретателем атеизма».
Скоординированная атака на Тэя сработала лучше, чем ожидали пользователи 4chan, и широко обсуждалась в СМИ.
Некоторые рассматривали неудачу Тэя как доказательство.
Теги: #Машинное обучение #искусственный интеллект #nlp #история #история #обработка естественного языка
-
Второй Wikisource Появится На Русском Языке
19 Oct, 24 -
Монетизация Приложения Подкастов В Цифрах
19 Oct, 24