Последний учебный год, апрель.
Студент все чаще начинает думать о том, что ему следует написать дипломную работу.
Заняться - в смысле придумать, как побыстрее состряпать что-нибудь, что хотя бы будет созвучно теме, вроде бы одобренной руководителем.
Ах да, страниц надо минимум 80, да ещё и соблюдать всякие ГОСТы.
Самому набрать столько связного текста, конечно, не успеешь (а могут даже начать вникать в суть работа, ну!) Очевидно, что нужно брать готовую, уже защищенную, качественную работу, проверенную и одобренную.
Ситуация, знакомая каждому из нас.
Единственный вопрос, который остается открытым, - как сделать так, чтобы работа прошла проверку на заимствование.
Поиск в Интернете и общение с коллегами по несчастью подводят студента к следующим вариантам решения проблемы:
- Напишите статью самостоятельно;
- Перефразировать текст (дорого и сложно);
- Перехитрите систему, используя «технические обходные пути».
Давайте разберемся, что такое технические обходы, как их ловить и почему использовать их – не лучшая идея… Перефразирование может помочь выдать чужой текст за свой, если все сделано правильно.
Однако качественный перефраз сам по себе — очень трудоемкий процесс, на который у студента, скорее всего, нет времени и денег.
Простые методы перефразирования (например, синонимизация) дадут результат, который не только будет раскрыто используя систему Антиплагиат, но и, вполне вероятно, позабавит научного руководителя и аттестационную комиссию.
Таким образом, мы подходим к самому креативному и самому популярному среди студентов инструменту - техническим обходам - преобразованиям документов, которые, не меняя отображения исходного документа, изменяют извлеченный текст. система контроля .
С точки зрения работы с техническими обходами (далее будем называть их просто «обходами») перед системой «Антиплагиат» есть две задачи:
- Обнаружение потенциальных обходов и уведомление о них пользователя;
- Очистка проверяемого текста от обходов.
- Обнаружение обходов, сохранение информации о них;
- Очистка извлеченного текста от сканирования;
- Определение того, является ли документ «подозрительным» на основе найденных обходных путей;
- Отображение пользователю информации о подозрительности, отображение обнаруженных обходов.
Документ в формате docx:
Проверка документа без функции обхода обнаружения:
Документ является 100% оригинальным.
Проверяем документ с включенной функцией обнаружения обхода и видим, что оригинальность падает до 0.
Кроме того, система помечает документ как «Подозрительный» и показывает пользователю, где и какие обходы были обнаружены:
Поскольку целью технических обходов является повышение оригинальности документа, интересно классифицировать их по тому, как они влияют на проверку документа.
Исходя из того, что основным элементом проверки документа на заимствования являются слова документа, сканирование можно разделить на следующие виды по воздействию на извлекаемые слова документа:
- Изменение слова (слово в извлеченном тексте отличается от слова, отображаемого в исходном документе);
- Добавление слова (слово не видно в исходном документе, но появляется в извлеченном тексте документа);
- Удаление слова (слово видно в исходном документе, но отсутствует в извлеченном тексте документа);
- Разбиение слов (в исходном документе слово отображается нормально, в исцеленном тексте оно разбито на две и более части);
- Слияние слов (в исходном документе отображается несколько слов, но в извлеченном тексте они объединены в одно слово).
Начнем с простых и двинемся к самым интересным.
Сканирование текста Обходы этого типа никоим образом не привязаны к формату документа; они изменяют строковое значение слов таким образом, что они продолжают выглядеть идентично исходным словам.
Гомоглифы
Одним из первых зафиксированных нами обходных решений была замена букв гомоглифами — символами, которые визуально похожи на исходные буквы, но имеют другое значение.Гомоглифия использовалась с самых первых дней существования системы.
«Антиплагиат» , и, несмотря на то, что мы это уже давно уловили, в студенческих работах мы до сих пор встречаем подобные обходные пути.
Гомоглифы легко найти и разобрать, если известен язык каждого слова.
Мы способны достаточно точно определить язык каждого слова текста, даже когда текст содержит несколько языков и большое количество «мусора» (гомоглифов и других ненужных символов).
Как это тема для отдельной статьи.
Учитывая язык слова и список возможных гомоглифов для языка, мы восстанавливаем буквы исходного языка и сохраняем информацию о найденных гомоглифах.
Непечатаемые символы
Другой способ изменить строковое значение слов без существенного изменения их отображения — использовать невидимые или слабо видимые символы Юникода.Вставка таких символов в слово меняет строковое значение слова, практически не меняя его отображения.
Многие похожие символы можно найти в категориях Юникода.
«Другое, Контроль» И «Марк, без пробелов» .
Система просто удаляет эти символы и, если их большое количество, уведомляет пользователя о подозрительности документа, отображая в отчете очищенные непечатаемые символы.
Прохождения в pdf Как мы уже сказал ранее , основной формат обработки документов — pdf. Все остальные типы документов мы конвертируем в pdf, благодаря чему основная логика обработки документов становится единой для всех поддерживаемых форматов.
Таким образом, для нас особый интерес представляют обходные пути, которые можно реализовать в pdf-документах.
Мелкий текст
Обходной путь, который приходит на ум в первую очередь, — сделать что-то маленькое и невидимое.Полученный таким образом текст не виден при просмотре исходного документа, но извлекается системой.
Реализация очень простая - установите для текста минимальный размер шрифта, измените цвет текста.
Отловить обходы такого типа так же просто – просто проверяем размер шрифта текста и геометрические размеры отдельных слов.
Из-за небольшого размера студенты часто добавляют на страницу целые абзацы такого скрытого текста:
Отображение обнаруженной попытки обхода:
Изменить цвет текста на фон
Несмотря на то, что этот метод часто используется в сочетании с предыдущим, более интересным является его самостоятельное использование.Дело в том, что для обнаружения и устранения обхода нам достаточно определить, что хотя бы один параметр слово/символ имеет «подозрительное» значение.
И если определение небольшого размера слова тривиально, то определение текста, цвет которого соответствует фону, является более сложной процедурой.
Обнаружение невидимого текста осложняется следующими обстоятельствами:
- Не всегда можно получить цвет конкретного символа из pdf;
- Фон слова не может быть белым.
Более того, слово может находиться на заднем плане изображения;
- Слова и символы могут перекрывать друг друга.
- Определяем область страницы, содержащую слово;
- Вычисляем дисперсию полученной площади.
Если дисперсия ниже определенного порога, мы имеем равномерный цвет в анализируемой области, буквы не видны.
Следовательно, происходит попытка обойти систему.
Слова и символы, спрятанные друг за другом
Невидимые символы невозможно обнаружить путем анализа области, в которой они расположены, если эти символы скрыты за другими «видимыми» символами.Поэтому для обнаружения таких «скрытых» символов у нас есть отдельная процедура, которая анализирует пересечение областей символов и отмечает те символы, которые существенно перекрываются другими.
Обнаружен обход:
Текст как изображения
Что произойдет, если взять некоторый текст и заменить его изображениями, содержащими этот текст? При должной внимательности внешне все будет выглядеть так, как будто в документе ничего не изменилось, но при извлечении текстового слоя, естественно, слова из картинок не будут извлечены.Чтобы закрыть этот пробел, мы применять оптическое распознавание текста.
Обходные пути с использованием функций преобразования docx в pdf Конвертирование документов в pdf – нетривиальная задача.
Вы можете прочитать о том, как мы выбрали наиболее подходящее для нас решение.
здесь .
К сожалению, даже самый лучший вариант, который мы проанализировали, не идеально конвертирует документы в pdf. Некоторые «функции» конвертации активно используются в попытках обойти систему.
Формулы
Формулы и ряд других объектов, содержащих текст, «теряются» после конвертации в pdf. Таким способом можно попробовать скрыть целый абзац текста или, например, каждое второе слово в тексте:При конвертации в pdf получаем следующий результат:
Чтобы обнаружить и устранить этот и другие обходные пути, связанные с особенностями преобразования docx в pdf, мы анализируем и очищаем исходный файл docx. В частности, если мы обнаруживаем в документе значительное количество формул, мы заменяем их обычным текстом, который сохранится при конвертации документа в pdf. Более того, мы запоминаем позиции обработанных нами формул и при необходимости сообщаем пользователю о подозрительности проверяемого документа и выделяем текст, который мы восстановили по формулам.
Масштаб, небольшой межсимвольный/строчный интервал
При конвертации в pdf не учитывается ряд свойств текста: масштаб, межсимвольный и межстрочный интервал.Это позволяет добавлять текст, невидимый в исходном документе (например, для него установлен очень мелкий масштаб), который в pdf становится обычным текстом, ничем не выделяющимся.
Реализация обхода (docx):
Результат конвертации в pdf (цвет мы меняли сами):
Единственный способ уловить этот текст — найти его в docx и сохранить информацию о нем.
Если мы обнаруживаем в документе много такого текста, мы помечаем документ как подозрительный и показываем пользователю, где мы нашли в документе текст с подозрительными атрибутами.
Разделение слова на части
Интересный частный случай использования свойств, описанных в предыдущем параграфе, — добавление к слову пробела и его скрытие.В исходном документе слово будет выглядеть обычным, слитым, но после конвертации документа в pdf оно разделится на две части, так как пространство станет полноразмерным.
Такой финт ловим ушами примерно так же, как и в предыдущем пункте.
Реализация обхода (docx):
Результат конвертации в pdf:
Отображение обнаруженного обхода:
Под старым каштаном, при свете дня, я предал тебя, и ты предал меня.
Мы рассказали об основных, но не обо всех технических способах реализации обходов.
Конечно, мы вряд ли когда-нибудь сможем сделать защиту абсолютной.
Однако мы постоянно совершенствуем нашу систему, оставляя все меньше возможностей ее «обмануть».
Во время сеанса мы стараемся особенно быстро закрыть обнаруженные лазейки — зачастую с момента обнаружения бреши до ее закрытия в продакшене проходит всего несколько дней.
Именно поэтому немного смешно и в то же время грустно читать рекламные «обещания» компаний, которые готовы помочь студентам повысить оригинальность их работ и предоставить гарантию на свои работы, иногда доходящие до 30 дней.
Студент, тебя предадут! В лучшем случае эта «гарантия» может возместить вам стоимость услуг краулерной компании, но никак не поможет при несостоявшемся дипломе и потенциальном исключении из вуза.
Творите своим умом! Теги: #Алгоритмы #Сделай сам или Сделай сам #сделай сам #программирование #pdf #антоплагиат
-
Лучший Вариант Ремонта Сотового Телефона
19 Oct, 24 -
Pennyowl - Финансовый Калькулятор Для Детей
19 Oct, 24 -
Как Выбрать Кабель Hdmi? - Анализ
19 Oct, 24 -
Подсказка Типов Php: Строгая Или Мягкая?
19 Oct, 24 -
Google Mobile Против Яндекс Кпк
19 Oct, 24 -
Кроссбраузерный Красивый Input Type="Number"
19 Oct, 24