1.2. Шинглы текста
Шингл – последовательность количества слов, используемая в алгоритме проверки уникальности текста. Уникальность проверяется путем сравнения нового текста с текстом, который уже был проиндексирован.
При определении уникальности происходит следующее:
Нормализация (канонизация) текста – удаление из текста элементов, не несущих смысловой нагрузки, предлогов, союзов, знаков препинания и др.
Лемматизация – приведение слов к нормальной форме.
Разбиение текста на фрагменты – шинглы, конец каждого фрагмента является началом предыдущего, рис. 4.
Рисунок 4 – Лемматизированный текст, КонтрПлагиат работает с шинглами, состоящими из 2 слов
Вычисление хэш-значения фрагмента слова – на этом этапе начинается сравнение текста. Точность сравнения напрямую зависит от количества операций – это достаточно ресурсоемкий процесс. Чтобы увеличить производительность метода сверки шинглов, сравнение текстов по контрольным суммам может осуществляться на случайных выборках.
Определение результата – на основе сравнения выдается результат, указывающий на уникальность проверяемого текста. Результаты отражаются в процентах: 100% – полностью уникальный текст, 0% – полностью неуникальный текст, т.е. такой текст уже существует.
1.3. Как ВУЗам и студентам сэкономить на проверках в Антиплагиат?
Антиплагиат использует шингл из 3 слов. Другими словами, текст, после перефразирования должен отличаться от текста источника, при сверке по шинглам, состоящим из 3 слов, на 100%, рис. 5. У КонтрПлагиата другой подход, тексты перефразируются так, чтобы при сверке по шинглам состоящим из двух слов, источник и текст рерайта отличались на 80—90%, рис. 6.
Рисунок 5 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 3 слов, отличие текстов 100%
Рисунок 6 – Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 3 слов, желтым выделены шинглы, которые не изменились, отличие текстов 95%
Я его слепила из того, что было. А потом что было, то и полюбила
Тексты, которые используются в академической сфере – специфичны тем, что базовое знание, определения, распространённые подходы, методы, порядок изложения и т. д. многократно используются в разных работах, разными ВУЗами, на протяжении десятилетий. С введением в практику ВУЗов антиплагиата все студенческие тексты смело можно отнести к высокочастотным, их сотни и тысячи раз перефразировали, пытаясь добиться уникальности и каждый текст, сходной тематики должен быть перефразирован вновь так, чтобы он не напоминал предыдущие, а проверка будет осуществляться по таким крошечным частям текста, как шинглы.
Согласно