Как видно, наименьшее значение шингла = 3 словам, для получения уникального текста, который успешно пройдет проверку в АП ВУЗ необходимо добиться отличие текста рерайта от текста источника на уровне 100%.
Рассматриваемый нами шаг шингла = 2 словам, для успешного прохождения проверки в антиплагиат ВУЗ текст источника должен отличаться от полученного рерайта на показатель Ш2 = 80—95%. В случае, если текст высокочастотен на 100%.
Р Метод биграмм, отличие от метода шингла – Ш2
Биграммы – это последовательности из 2 слов, они не накладываются друг на друга как шинглы. Для успешного прохождения проверки в АП ВУЗ необходимо, при сверке по биграммам из 2 слов добиваться отличия текстов на уровне 100%.
Р КонтрПлагиат
В основе КонтрПлагиата академическая нейросеть, которая обрабатывает рутинные задачи (предложение синонимов, сверка n-грамм НКРЯ, отчеты сверки текстов индексом антиплагиат). КонтрПлагиат использует архитектуру трансформеров, в его основе также лежат рекуррентные нейронные сети (RNN). Рекуррентные нейронные сети эффективны для обработки последовательных данных, таких как текст. Они могут учитывать контекст предыдущих слов в предложении, что позволяет создавать более точные перефразирования, с учетом пересечения шинглов.
Говоря о глубоком рерайте рассмотрим результат КонтрПлагиата, рис. 32 и 33. Как видно из скриншота, красный, зачеркнутый текст выделяет слова и фразы, удаленные из текста, синим цветом помечен текст, который написан заново, остатки текста источника, в виде одиночных слов выделены черным шрифтом.
Результат проверки Ш2 показывает уникальность 97%, поэтому данный рерайт заслуженно можно отнести к глубокому перефразированию. Отличие КонтрПлагиата в его принудительным воздействием на текст, которые выходят из правил и норм русского языка, КонтрПлагиат исходит из требований антиплагиат ВУЗ.
Рисунок 32 – Процесс глубокого перефразирования – КонтрПлагиат
Рисунок 33 – Сверка текстов на отличие по методу Ш2, левое окно – текст КонтрПлагиата, правое окно – контекст, отличие текстов 97%
Производительность – заметно медленней переводчиков и нейросетей за счет большего числа процессов и повышенной уникальности – 1—10 тыс. знаков в минуту.
КонтрПлагиат эффективен для всех способов проверки на заимствования. Идея КонтрПлагиата – в том, чтобы после каждого второго-четвёртого слова вставить новое, авторское слово, разбивающее шинглы из 2 слов, также можно заменять каждое второе-четвёртое слово. Текст при этом не теряет смысловую нагрузку, Приложение 2, а системы антиплагиат не имеют возможности зацепиться за последовательности хешей шинглов, пропуская текст как уникальный.
Р – Пересказ (подъём оригинальности методом изложения)
Пересказ –