Нечёткий дубль:
Смысл есть в тех овладениях, которые воссоздают очевидную историю. В смысле ранжирования веб-сайтов в выдаче Яндекса реальная ситуация такова, что значение хорошей плотности первейших слов на страничке различно для разношерстных классов страниц и несходных типов запросов. Стоит отметить настояще, что по навигационному требованию соответствующая страница может иметь почти что зазнобой размер в общем-то не включать в себя слов запроса (в частности, находиться по сноске), однако при всем при этом быть на основополагающем участке в следствиях поиска.
Второй текст является нечётким дублем первого. Несмотря на то, что в тексте появились другие слова, ничего нового для пользователя он не несёт. Такие тексты также исключаются из результатов поиска.
Примером создания нечётких дублей также может служить объединение фрагментов текста, взятых с разных сайтов. Может показаться, что, склеив «надёрганные» из разных источников фрагменты, можно создать уникальный текст. В подобных случаях поисковые системы применяют более сложные алгоритмы. В частности, поисковая система Яндекс применяет алгоритм супершинглов (1997 г., А. Бродер). Текст, проверяемый на уникальность, разбивается на участки длиной по десять слов внахлест, с перекрытием в одно слово. Далее все эти участки меняют на короткое математическое представление (контрольные суммы) и сравнивают с контрольными суммами, вычисленными таким же способом для других документов базы поисковой системы. Это позволяет с высокой вероятностью определить заимствование текста.
Дубли текста, созданные на основе имеющихся документов в сети Интернет, легко вычисляются поисковыми системами и не показываются в результатах поиска.
Как обсуждалось ранее, поисковые системы не способны понимать текст: они используют лишь машинные критерии при его анализе. Может показаться, что для создания уникального текста достаточно просто составить текст из совершенно не связанных между собой слов. Очевидно, что это можно делать автоматически, программным способом.
Такой автоматический подход широко используется «маргинальной» частью веб-мастеров, которые зарабатывают деньги на обмане поисковой системы. В результате генерации получается нечитаемый текст, который пользователь не сможет воспринять. Приведём пример подобной генерации: