В последнее время текстовое ранжирование приобрело наиболее важный параметр при продвижении сайта. Чтобы сайт попал в ТОП, теперь не нужно кормить поисковые системы максимумом ключевых слов. На первый план выходит текстовая составляющая, которую условно можно разделить 2 важных момента:
1. Текст в ссылках и в околоссылочном тексте.
2. Текст на самом сайте.
Исходя из заявления яндексоидов, на данный момент более важны внутренние факторы.
Ростислав Шоргин (Яндекс Поиск): «Факторы, интеллектуально оценивающие содержимое документа, конечно у нас есть. Мы уже говорили, что среди наиболее значимых факторов — большинство как раз не внешние, как думают многие оптимизаторы, в внутренние — т.е. наполнение интернет страницы.»
Существует предположение, что для распределения релевантности текстового ранжирования используется закон Ципфа, который гласит:
«Если составить такой словарь, в котором слова располагались бы в порядке убывания частоты их употребления, то во всяком естественном языке наблюдается универсальная закономерность: частота употребления каждого слова обратно пропорциональна его номеру в данном частотном списке».
Таким образом, можно сделать несколько логических выводов из закона Ципфа:
- В языке есть небольшое количество слов, которые используются чрезвычайно часто.
- В языке есть достаточно большое количество слов, которые используются достаточно часто.
- В языке полно слов, которые практически никогда не используются.
То есть на выходе мы получаем частотный словарь для языкового документа. К примеру, этот метод распределения частотности слов можно использовать для распознавания дублированного, или синонимизированного контента, и для таких сайтов нет необходимости использовать шинглы (ведь для применения методов шинглов нужно подобрать оптимальный шаг), достаточно применить закон распределения Ципфа.
Давайте попробуем с точки зрения Яндекса систематизировать, какой именно текст должен быть на сайте.
Для этого нужно получить для каждой группы сайтов тематический словарь (эшелон слов и словоформ). А поскольку любой сайт может быть отнесен к тематической группе, то для формирования правильных эшелонов пользуемся готовым каталогом – каталогом Яндекса, в котором все сайты вручную тематически упорядочены. Осталось только составить текстовые эшелоны для каждой тематической группы.
После того, как эшелоны составлены – можно спокойно проводить текстовое ранжирование документов на предмет очеловечивания текстов. Т.е. в итоге мы с высокой степенью точности получим адекватное распределение качественного текста для сайтов заданной тематики.
Самые общие выводы для качественных сайтов с точки зрения текстового ранжирования:
- Важно большое количество падежных словоформ.
- Для естественного текста характерны конкретные специфические термины.
- Для естественного текста характерно единичное вхождение, или же полное отсутствие не характеристических терминов, применимых к конкретной тематике.
- В естественном тесте достаточно большое количество предлогов.
- Важны союзы и наречия.
По материалам рассылки компании по продвижению сайтов www.apollo-8.ru