Иногда заказчики требуют конкретный показатель уникальности при определенном шингле. В заказе это отображается примерно так: «Уникальность не менее 97% при шингле 3». Что же это за зверь такой?
Шинглом называется текстовый фрагмент, с которым работают программы проверки. Дело в том, что для анализа на уникальность вся масса текста разбивается на кусочки по несколько слов (обычно от трёх до восьми). Далее происходит поиск совпадений выделенных фрагментов с теми, что содержатся в статьях, уже размещенных в глобальной сети.
Чем больше величина шингла, тем выше вероятность уникальности фрагмента. Многие устойчивые выражения из-за этого могут снижать общий процент новизны текста.
Как именно разделяются слова на шинглы — секрет многих антиплагиатных программ. Но чаще всего используется перекрёстный анализ, когда каждая последующая выборка начинается с части предыдущей.
Например, для предыдущего предложения такое распределение выглядит так: «чаще шинглы пересекаются», «шинглы пересекаются есть», «пересекаются есть последующая» и т. д.
Как вы, наверное, заметили, некоторые части фразы не учитываются. Это так называемые «стоп-слова», которые не имеют для содержания текста никакого значения. Смысл таких выражений — повышение «водности» текста. Дело в том, что «сухие» факты затрудняют восприятие информации. Читатель не будет тратить время на прочтение подобных статей, ему необходимо легкое и доступное изложение. Поэтому некий процент «водности» обязателен для любой работы копирайтера.
Еще один специальный термин — «тошнота» текста. Отвечает за количество повторяющихся слов в статье. Это тот самый случай, когда заказчик требует, чтобы в финальном варианте было «ровно 3% ключевых слов». То есть, смело можно переформулировать это задание следующим образом: «тошнота ключей 3%».
В 2012 году многие поисковики существенно ужесточили алгоритмы отбора «качественной» информации с веб-ресурсов. Поэтому будьте осторожны, не «переташнивайте» тексты, иначе заказчик останется недовольным.
Автор — Loreya