цей алгоритм використовується при перевірці тексту на плагіат
він працює наступним чином:
1) ми алгоритму маємо надати два текста на перевірку
2) алгоритм дробить текст на дрібніші частини, розмір меншої частини залежить від параметру "Довжина шинглов"
3) потом алгоритм звіряє наявнясть кожної меншої частини з старого тесту в новому тесті
4) якщо ми вкажемо "Довжина шинглов" як 2, то кожен "менший кусок буде мати по 2 слова", чим більша довжина шинглов ти менш точніше перевірятиме
для того щоб все коректно працювало тести перетворюються в одну одиницю тексту який має вигляд:
питання1 відповідь1 відповідь2 відповідь3 відповідь4
питання2 відповідь1 відповідь2 відповідь3 відповідь4