Честные Глаза Плагиатора, Или Еще Один Взгляд На Будущее Систем Обнаружения Заимствований

Разработка системы, созданной 16 лет назад, "это, конечно, не подвиг, но вообще в этом есть что-то героическое" (с).

Пользователи регулярно получают вопросы: что вы будете делать дальше? Каким будет Антиплагиат через несколько лет? Правильно, правильно - нельзя позволять рутине затягивать тебя настолько, чтобы не было времени думать о далеком.

, жестоком.

, понимаешь.

будущем.

Действительно, начало весны (отчетность закончилась, но сессия еще не началась) – самое удобное время для стратегических планов.

Ну и заодно удовлетворить любопытство наших пользователей.

Не могу сказать, что описываю совсем недалекое будущее.

Некоторые идеи все еще обрабатываются нашими исследователями, а другие еще «кипят в наших головах».

Но тем не менее, сценарий развития системы Антиплагиат, описанный ниже, сейчас наиболее вероятен.

Даю картину, немного опережая события.

Это имеет прямое отношение к теме статьи, но чтобы рассказать обо всем, нужно немного больше места.



Честные глаза плагиатора, или Еще один взгляд на будущее систем обнаружения заимствований

Кадр из фильма «Шрек 2», DreamWorks Pictures, 2004 г.

Нам бы хотелось решить проблему «подстройки пользователей к системе» если не раз и навсегда, то хотя бы надолго.

Нам необходимо убедиться, что мы готовы к любым новым уловкам со стороны тех, кто потенциально заинтересован в выдаче чужого текста за свой.

Чтобы представить суть моей идеи, мне сначала нужно сформулировать три предпосылки.



Предпосылка первая

Любая система управления останется эффективной только в том случае, если она будет постоянно развиваться.

Должно быть что-то, в чем она опережает тех, кто пытается ее обмануть.

В противном случае среда, мотивированная на преодоление системы Антиплагиата, сожрет ее целиком, найдет слабые места и придумает, как эти слабые места эксплуатировать.

Информация об обоих очень быстро становится достоянием общественности.

До определенной степени можно продержаться, используя принцип Безопасность через неизвестность , то есть скрывая архитектуру и детали алгоритмов.

Но, как показывает практика, принцип хорошо работает, если вы бесполезный неуловимый Джо.

Если (как в нашем случае) системой ежедневно пользуются десятки или сотни тысяч пользователей, то ваша загадка вам подходит, как и Соев - она помогает копейкам весьма ограниченно.



Посылка вторая

Если рассматривать выявление заимствований как задачу поиска информации, то не может уйти ощущение легкой нечестности происходящего.

При классическом поиске субъект (то есть пользователь) заинтересован в получении хорошего результата.

У него может не быть необходимого навыка, но если он ищет, скажем, «пластиковые окна» или «рефераты по экономике», он рассчитывает получить максимально полезные для себя результаты.

В ситуации с заимствованием можно с уверенностью сказать, что большинству пользователей хотелось бы, чтобы вне зависимости от объективной реальности.

ничего не нашлось.

И многие из этих пользователей готовы приложить определенные усилия, чтобы приблизиться к этому «идеальному» результату.

Перефразирование, перевод, скрытый текст, невидимые пространства, встроенные объекты — миллион вариантов «повышения оригинальности».

Естественно, мы совершенствуем систему и чем дальше мы идем в этом направлении, тем сложнее становится ее повышать.

Но между изобретением нового способа «улучшить результат» и изменением системы (будь то исправление или новый функционал) всегда проходит время, и порой довольно много.



Посылка третья

Качество поисковой работы – это всегда баланс.

Во-первых, это баланс между не сигнализацией о проблемах, когда их нет, и отсутствием очевидных заимствований, когда они есть.

Как говорится, овцы в безопасности, а волки сыты, что бы это ни значило.

Во-вторых, это баланс ресурсов, затраченных на обработку документов.

Нам не следует тратить слишком много (время, процессорное время, память, трафик), если нет дополнительных предпосылок, к которым нам нужно присмотреться более внимательно.

Дополнительные ресурсы лягут на пользователей за счет увеличения стоимости использования сервиса, а считать деньги умеет каждый.



А теперь, собственно, Идея

Идея вкратце следующая: использовать априорную информацию об академической работе, чтобы помочь системе Антиплагиат выбрать нужную степень паранойи при анализе конкретной работы.

То есть, если система будет знать, что конкретную работу нужно «присмотреться», это позволит ей более тщательно проанализировать «зону риска», не тратя ресурсы на проверку других работ.

Честные глаза плагиатора, или Еще один взгляд на будущее систем обнаружения заимствований

Кадр из фильма «Место встречи изменить нельзя», Одесская киностудия, 1979 год. Другими словами, нам нужен прогнозный «сервис по подозрению в проверяемых произведениях».

Каким образом вы можете предсказать? Мы предлагаем несколько вариантов.



Способ первый – спросить у учителя

В системе Антиплагиат.ВУЗ при создании задания преподаватель может сразу отметить тех учащихся, чьим работам следует уделить внимание.

Как это:

Честные глаза плагиатора, или Еще один взгляд на будущее систем обнаружения заимствований

Источник изображения: Компания Антиплагиат Этот метод имеет несколько особенностей.

Во-первых, очевидно, что учителя не будут использовать его массово.

Слишком много отклонений от простого варианта: «Далее, Далее, Далее, Финиш».

Во-вторых, этот метод может нести в себе риски стимулирования коррупции.

Для снижения этого риска необходимо будет использовать перекрестную проверку.

Наконец, в-третьих, накопленные данные можно использовать для обучения классификатора.

Чтобы преподаватели не «жестикулировали», будет введено ограничение на количество и долю учеников, которых можно заподозрить в одном задании.



Способ второй — API

Второй способ является упрощенной версией первого.

Необходимо дать внешним системам возможность контролировать уровень паранойи.

Типичной внешней системой является Moodle LMS, для которой уже имеется сертифицированная интеграция с Антиплагиат.Университет .

Реализация этого метода невероятно проста.

Мы расширяем параметр CheckDocParams метода CheckDocument:

Честные глаза плагиатора, или Еще один взгляд на будущее систем обнаружения заимствований

параметр системной паранойи:

Честные глаза плагиатора, или Еще один взгляд на будущее систем обнаружения заимствований

Остальное остается за партнерами, осуществившими интеграцию.

В чем проблема этих двух методов? Дело в том, что они не работают «без человека», который может быть предвзятым, которому может быть просто лень или некогда, который, наконец, может просто быть неправ.

Конечно, можно было бы организовать предсказательную систему так же, как это было предложено, например, в фильме «Особое мнение».



Честные глаза плагиатора, или Еще один взгляд на будущее систем обнаружения заимствований

Кадр из фильма «Особое мнение», 20th Century Fox, DreamWorks Pictures, Amblin Entertainment, Blue Tulip Productions, 2002 г.

Но пока наш HR занят заполнением перспективных должностей, нам придется полагаться на мощь ИИ.



Способ третий – искусственный интеллект

Итак, о третьем методе, основанном на машинном обучении.

Необходимо оценить априорную склонность студента к использованию чужого текста.

В современных условиях всеобъемлющей удаленной связи этот метод прекрасно работает в условиях потокового видео и аудио.

Каждый студент так или иначе взаимодействует со своим университетом в Интернете.

Самый распространенный вариант — Zoom. Это звучит немного безумно, но нам нужно оценить вероятность того, что студент занимается плагиатом, используя видеочат с этим же студентом.

Первым, кто сможет оценить склонность к плагиату, станет анализ движения учеников студента во время онлайн-занятий.

На эту тему имеются как научные работы, анализирующие методы извлечения, так и анализа траектории зрачка (например, Кристиан Хирт и др.

, Мария К.

Экстайн и др.

, Юджин Юнг и др.

), и готовые библиотеки (те же PyGaze ), который может быть использован для промышленного применения.

Таким образом, мы имеем общую задачу классификации двух классов.

Шаги решения проблемы вполне традиционны:

  1. Предварительная обработка видеопотока
  2. Получение глазного следа
  3. Извлечение признаков
  4. Решение задачи классификации
Примечательно, что данные для обучения классификатора можно собирать на существующей системе: нам достаточно создать программный агент, собирающий признаки через Зум API , а затем сравнить результаты сбора знаков с результатами проверки документов этого пользователя в режиме максимальной паранойи.

Дополнительно планируется использовать следующие данные:

  • о положении тела (движениях головы, рук, позы),
  • выражения лица,
  • наличие посторонних предметов в кадре (графин с водой, булочка),
  • речь (в тех случаях, когда у обучающегося включен микрофон).

Наши предварительные эксперименты показывают, что мы можем рассчитывать на достаточно качественное решение проблемы.

Предполагается, что количество статей, отклоненных из-за плагиата, может увеличиться на несколько процентов.

Этот вклад значительно превышает разовое влияние на качество поиска других методов.

Использование этого метода, конечно, имеет свои нюансы.

Первое — это возможность не включать камеру во время занятий, ссылаясь на различные обстоятельства: отсутствие/сломанность камеры, неубранное помещение, небритое лицо, бродячий кот. Но сейчас во многих учебных заведениях включение камеры является обязательным, и если камера выключена, неявку на занятие могут просто засчитать.

Второе — использование студентами различных приемов, позволяющих обмануть ИИ по примеру обмана полиграфа («детектора лжи»).

Здесь важны два момента: обмануть полиграф «на лету» могут только подготовленные разведчики; в нашей ситуации будет сложно разработать типовые схемы обмана и обучения, так как результаты оценивания скрыты внутри сервиса и не представляются студенту.



Честные глаза плагиатора, или Еще один взгляд на будущее систем обнаружения заимствований

Кадр из фильма «День, когда Земля остановилась», 20th Century Fox, 2008 г.

Кроме того, есть еще один важный фактор.

Первоначально для выделения «зоны риска» будет использоваться технология априорной предрасположенности к плагиату, а уровень чувствительности алгоритма проверки по умолчанию будет поддерживаться на нормальном уровне.

Но с определенного момента уровень «по умолчанию» будет изменен на параноидальный, а положительные оценки технологии априорной оценки станут основой для использования обычного алгоритма поиска.

Но это не все.

В настоящее время обсуждаются идеи по расширению широко используемых стилометрических методов обнаружения плагиата (см.

методы выявления внутреннего плагиата и дневникизации автора ) информация, фиксируемая при наборе текста.

Наконец, самый серьезный шаг, который, вероятно, решит проблему комплексно, — это предварительное тестирование общей склонности студента к списыванию.

Разумеется, это сложный и ответственный шаг, к которому нужно подойти со специальной подготовкой.

Мы ожидаем, что подготовка к этому этапу займет два-три года.

Но уже очевидно, что это неизбежно.



Честные глаза плагиатора, или Еще один взгляд на будущее систем обнаружения заимствований

Кадр из фильма «Матрица», Warner Bros., Village Roadshow Pictures, 1999 г.

Вы поверили этому? Расслабляться! Мы шутим.

Мы не планируем внедрять описанную выше технологию, но решили развлечь вас описанием не такого уж и невозможного будущего, как, например, мы это сделали в прошлом году.

Большое спасибо, что дочитали до этого момента.

Интересно, удалось ли вам до сих пор сохранить веру в то, что описано, или в какой-то момент подавление неверия перестало работать? Напишите в комментариях.

Огромное спасибо коллегам, принявшим участие в подготовке статьи: Олегу Бахтееву ( Олег Бахтеев ), Андрей Ивахненко ( Андирей ), Александр Кильдяков ( вана76 ), Анастасия Чернышова ( Чернасты ).

С праздником всех! На всякий случай повторю, что реализация описанного метода не планируется.

Пока.

Теги: #Машинное обучение #Алгоритмы #программирование #разработка #Микросервисы #Обработка естественного языка #машинное обучение.

нейронные сети #праздник #обработка слов #обработка слов #поиск информации #позитив #антиплагиат

Вместе с данным постом часто просматривают: