Работа сайта антиплагиат и антиплагиат вуз заключается в разделении предложения по методу шингла.
Шингл — это фрагмент текста, состоящий из заданного количества слов. В программах проверки на плагиат можно вручную задавать нужный размер, исходя из которого получаются разные результаты проверки. Например, при шингле в 2 слова уникальность ниже, чем при 5 словах. Уникальность шингла будет тем выше, чем больше в нем слов.
Шинглы (англ) — чешуйки, выделенные из статьи подпоследовательности слов.
Необходимо из сравниваемых текстов выделить подпоследовательности слов, идущих друг за другом по 10 штук (длина шингла). Выборка происходит внахлест, а не встык.
Таким образом, разбивая текст на подпоследовательности, мы получим набор шинглов в количестве равному количеству слов минус длина шингла плюс один (кол_во_слов — длина_шингла + 1).
Принцип алгоритма шинглов заключается в сравнении случайной выборки контрольных сумм шинглов (подпоследовательностей) двух текстов между собой.
Проблема алгоритма заключается в количестве сравнений, ведь это напрямую отражается на производительности. Увеличение количества шинглов для сравнения характеризуется экспоненциальным ростом операций, кто критически отразится на производительности.
Предлагается представить текст в виде набора контрольных сумм, рассчитанных через 84х уникальные между собой статические хэш функции.