Исследование: какие страницы теряют трафик от Баден-Бадена на качественных статейных сайтах | topinup.pro - 2018

Исследование: какие страницы теряют трафик от Баден-Бадена на качественных статейных сайтах

Исследование: какие страницы теряют трафик от Баден-Бадена на качественных статейных сайтах

Из анонса нового алгоритма Яндекса известно только, что от него могут пострадать страницы с переоптимизированные контентом. В качестве примера приводится анекдотический фрагмент, где на все лады склоняется ключевик «SEO-текст». Рабочих способов различить «плохие» и «хорошие» тексты не приводится.

Работать наугад — не наш метод, так что попробуем выделить критерии самостоятельно.

Об & # 39; объект и методика

В первую очередь меня интересовало, при каких условиях санкции накладываются на более-менее приличные страницы, когда вполне можно читать, не морщась в каждом абзаце от корявой оптимизации. Анализ последних случаев — с сотней вхождений, выделенных жирным — вряд ли принес бы ценные данные, тут и так все ясно.

Исследование опирается на простую идею — сравнить характеристики двух групп страниц одного и того же сайта:

  • где наблюдается значительная просадка трафика в момент запуска Баден-Бадена.
  • где посещаемость стабильная или возросла.

Благодаря анализу внутри одного хоста мы уравнивает множество факторов и можем быть более уверены в выводах.

Всего удалось собрать 68 сайтов, где трафик с Яндекса существенно п осел после 22 марта 2017 (спасибо всем, кто прислал свои проекты на анализ!).

В SEO-исследованиях размер выборки — это своеобразный культ, но я уверен, что куда важнее ее однородность. Поэтому беспощадно удалял с рассмотрения все, что могло исказить результат.

В частности, я отбраковал сайты:

  1. С малым количеством посещаемых url (если документ до фильтра приносил меньше 100 посетителей в месяц с Яндекса, падение трафика статистически недостоверно).
  2. Где трафик с Google также имел выраженную тенденцию к снижению.
  3. с высоким разнообразием контента (тематически или структурно).
  4. с высокой зависимостью от сезона.
  5. где также сработал хостовой фильтр.
  6. Оптимизированные совсем неуклюже / не несут вообще ни какой полезной информации (первый критерий был полностью формализован, второй — частично).

Также были вынесены из основного исследования интернет-магазины и сайты услуг (их было меньше в выборке; в отличие от статейных проектов, текст здесь часто не играет роли и само его наличие временем говорит о чрезмерной оптимизации).

В результате остался 31 сайт и 4297 документов для анализа.

Прежде чем перейти к сравнению характеристик успешных и потеряли трафик страниц, необходимо было прояснить еще один важный вопрос.

Баден-Баден — апросний или документная?

Как я писал в недавнем осмотре публикаций по Баден-Баден из официальных заявлений следует, что санкции «первой волны» применяются на страницу (анонс от 23 марта). Однако многие SEO-специалисты называют Баден-Баден запросозависимим, указывая на то, что позиции сильнее просели в ключевых фраз, в которые текст затачивался в первую очередь.

Это не простой спор о терминах, а ключевой момент. Давайте разберемся.

Чем вообще отличаются документная и вопросительный фактор / фильтр?

(Принимать «фильтр» по отношению к Баден-Бадена не вполне точно, использую для краткости).

Разница — внутри алгоритмов поисковой системы. [19659027] Вопросительный Документный На что влияет На ранжирование по конкретному запросу / группе На «общий рейтинг» страницы на все запросы Пример фактора анкорный вес Статическая вес

может изменение общего рейтинга повлиять на позиции только группы запросов? Сколько угодно! Чтобы было очень наглядно — еще одна табличка. Допустим, есть три url — A, B, С c определенными значениями релевантности по 3 запросам:

Ключевые фразы стр. A стр. B C
1 0.5 0.4 0.35
2 06 0.55 0.4
3 0.7 06 [19659030] 0.4

Предположим, страница B попала под санкции, ее общий рейтинг оштрафовали на 0.1. Смотрим на релевантность по запросам:

Что произойдет после применения штрафа?

  • Первый запрос просядет.
  • Второй останется где был.
  • Третий останется где был.

А теперь представим, что санкции были наложены одновременно с апдейтом. Причем незадолго до него более успешный конкурент по третьему запросу (страница A) поменял что-то на странице и его релевантность упала до 0.45.

Тогда третий запрос вырастет (0.45 против 0.5).

Вывод? С позиции страницы, попала под документная фильтр, может твориться все что угодно (хотя общий тренд, разумеется, к снижению). А ведь это очень упрощенная модель. Или не учтенный многорукий бандит, возможные технические ошибки при сборе и так далее.

Говорить о том, что фильтр позапросний только на основании различной динамики позиций в ключевых слов страницы нельзя . Это лишь гипотеза.

Проверка гипотезы о запросозависимости

Рассказываю коротко, так как все это по-прежнему преамбула к основному исследования. Для документов, где было обнаружено существенное падение посещаемости вследствие Баден-Бадена:

  1. Была собрана статистика по ключевым фразам, которые давали трафик за 3 недели до фильтра.
  2. Фразы были разбиты на 2 группы: а) содержащие лем, отсутствующих в тексте б) содержат леммы, которых нет в тексте.
  3. Подсчитан трафик для каждой из групп, определенная доля в общем трафике.
  4. Аналогичные подсчеты для трех недель после фильтра.
Читайте также:   Бесплатный инструмент: поиск и кластеризация важных запросов в нише

Как должна измениться доля трафика по ключам из второй группы? Это фразы, прицельная оптимизация под которые не проводилась (иначе был бы задействован самый банальный фактор текстовой релевантности — вхождение всех слов запроса), по которым трафик поступал «естественным образом».

Если фильтр запросозависимий, то доля трафика по таким ключам должен вырасти: ведь Баден-Баден их наказывать не за что.

что видим в итоге? Картина прямо противоположная:

Для всех сайтов выборки (!) И медианное и среднее значение доли трафика по следующим ключевым словам снизилось. В среднем на 2,6% — немного, но этого достаточно, чтобы с абсолютной уверенностью заявить, что уже прироста точно нет.

Трафик в данном случае максимально надежный критерий, так как в нем аккумулируется и отображается информация обо всех позициях по всему запросам. А не о паре-тройке десятков, специально отобранных оптимизатором.

Вывод: Баден-Баден проявляет себя как документная фильтр, гипотеза о запросозависимости не подтвердилась.

Не хочу занимать место в статье объяснением, почему уменьшение доли трафика по запросам с отсутствующими леммами — дополнительный аргумент в пользу вывода. Поэтому мини-конкурс: кто лучше всех раскроет этот момент в комментариях — получит 5 проверок на баланс в https://bez-bubna.com/ (а еще славу и уважуха). Дерзайте!

Кстати. Раз алгоритм наказывает страницы, то делаются абсолютно бессмысленными часто встречаются заявления типа «при Баден-Бадене, наложенном на документ, происходит просадка на N позиций». Мне попадались варианты «7-30», «20-30», «10-40».

Вот результаты снижения на 3 (ну, максимум на 5 — смотря что считать исходной датой) позиций:

Падение существенно, наличие санкций несомненно. Так что никакой конкретной (или даже приблизительной) цифры назвать нельзя. Изменение позиций ведь зависит не только от размера штрафа но и от «силы» конкурентов.

Сравнительный анализ пострадавших и не пострадавших страниц

Наконец добрались до главного. Так как характер санкций — документная, то анализ сильно упрощается. Нет необходимости рассматривать все нюансы ранжирования по парам запрос-документ. Можно работать с самой страницей, ее наполнением.

Для каждой из 4297 страниц выборки рассчитывался ряд показателей. Затем они усреднялись сначала для конкретного сайта, а затем оценивались для выборки в целом.

Для каждого сайта и фактора применялась формула:

D = (B — N) / N * 100%

где

  • D — разность между значением показателя на «хороших» и «плохих» страницах, выраженная в процентах;
  • B — средний показатель страниц сайта под Баден-Баден,
  • N — средний показатель нормальных страниц (где трафик стабильный или вырос).

Делить на N необходимо, чтобы определить разницу в%, отследить, насколько сильно отличаются данные для различных факторов и срав ить их относительную значимость. Просто так сравнивать разницу между «нормой» и «плохими» страницами можно — ведь различные факторы измеряются в различных величинах.

Простая аналогия для тех, кто хочет понять методику интуитивно

Допустим, с & # 39; появилась новая болезнь и ученые ищут как с ней бороться. Одни люди поправляются за 1 день, другие — за месяц. Люди из этих двух групп очень разные — они отличаются ростом (метра!), Весом (килограммы!), Количеством гемоглобина в крови (хмм, не помнит & # 39; помню). Как можно понять, какое свойство организма дает защиту или наоборот приводит к тяжелой болезни?

Во-первых, надо изучить группы «здоровяков» и болели долго, которые как можно больше похожи. Во-вторых, определить, какие характеристики организма в них различаются сильно. Отличие, конечно же, нужно считать в метрах и килограммах, а переводить в проценты. Тогда можно сравнить любые показатели. Вот и вся суть формулы.

Возвращаемся к SEO.

Часть оценивались факторов оперирует понятием «стоп-слов». Для повышения достоверности они рассчитывались дважды — с коротким и расширенным списком. Значимых различий для этих вариантов обнаружено не было. Результаты ниже приведены по измерениям с расширенным.

Пример расчета

UPDATE: в комменариях отмечают, что методика расчета показателей, которые приведены ниже, все-таки не до конца понятна. Давайте разберем на простом примере. Предположим на сайте есть 6 статей. Мы хотим понять, отличаются «хорошие» от «плохих» по объему текста.

Собираем вот такую ​​статистику:

Статья Слов всего Под фильтром
1 тысячи нет
2 1200 нет
3 1400 нет
4 2000 Да
5 2200 Да [19659032] 6 2400 Да

Теперь считаем среднее значение для страниц 1,2,3 (без фильтра) и для 4,5,6 (под фильтром). В первом случае это (1000 + 1200 + 1400) / 3 = 1200. Во втором — (2000 + 2200 + 2400) / 3 = 2200. Теперь, имея на руках средние значения, мы можем определить среднюю же разницу между теми, кто попал под фильтр и теми, кто устоял.

считаем:

2200 — 1200 = 1000

Напоминаю, что мы считаем объем текста в словах. Но в дальнейшем нам нужно будет сравнить между собой различные показатели, которые измеряются в других единицах. Только так мы поймем, какие из них важны, а какие нет.

Поэтому теперь рассчитаем не просто разницу, а относительную разницу, то есть переведем в проценты от нормы: 1000/1200 * 100% = 83%.

Теперь берем каждый сайт выборки и проделываем то же самое. Считаем среднее значение — вуаля, видим, насколько в целом по выборке «хорошие» страницы отличаются от «плохих» по объему текста. И так для каждого показателя.

Конечно, пример чисто для наглядности. На 6 о & # 39; объектах делать наблюдения нельзя, в реальности маленькие сайты я не рассматривал. Ну и как вы можете увидеть ниже, различия по объему текста совсем не в районе 80%.

Поведенческие факторы

Согласно заявлениям представителей Яндекса, в работе Баден-Бадена учитывается поведение пользователей. Поэтому в первую очередь я проверил базовые показатели активности посетителей на странице.

Результаты сравнения по формуле:

  • процент отказов: -0,9%;
  • средняя продолжительность посещения: 0,6%;
  • глубина просмотра: 1,3%;

«Классическая» тошнота

Это всего лишь квадратный корень из количества вхождений самого частого слова. Результат несколько неожиданный: -2,7% (знак минус!). То есть тошнота на «нормальных» выше, чем на попали под Баден-Баден. Мы вернемся к этому позже.

«Академическая» тошнота

Более сложный показатель, так как учитывает вхождения различных слов по отношению к объему текста. D = -3%. Точно так же — на «нормальных» текстах она оказалась выше.

Показатель вариативности текста

Рассчитывается как разница между единицей и отношением «уникальные леммы / уникальные словоформы». D = -1,8%. Немного больше на нормальных.

Показатель «водности» текста

Разница между единицей и отношением «количество слов после очистки стоп-слов / количество слов в исходном тексте». Страница, вообще не содержит стоп-слов будет водность 0, содержащий только стоп-слова — 1.

D = 8,7%. Да да! Водность на страницах, попавших под Баден-Баден, значительно выше.

Наличие «воды» в тексте оценивается многими метриками и это всегда негативный сигнал. Например, может страдать рейтинг по фактору Yandex Minimal Window .

Объем текста в словах

D = -1,8%. На нормальных немного больше. Статистическая достоверность под вопросом, скорее надо говорить об отсутствии разницы. Во всяком случае, дело не в размере как таковом (к комментариям под анонсом в блоге Яндекса были мысли, что фильтр накладывается на «портянки»).

Частота встречаемости биграмм

Для вычисления берется сумма числа вхождений трех частых биграмм — то есть сочетаний двух слов (например, типичный оборот в SEO-тексте «купить окна» сводится к биграмм «купить окно»). Сумма делится на количество слов в тексте, чтобы оценить относительную частоту.

D = 5,9%. Видим существенно больший показатель в «плохих» страниц.

Частота встречаемости триграмм

Расчет аналогичный, только берутся триграммы ( «Купить пластиковые окна» => «купить пластиковый окно»).

D = 7,8%. Ого! Триграммами-то тексты под Баден-Баден спамят еще сильнее!

Обсуждение результатов

Значение D по модулю (просто чтобы сравнить, как сильно отличаются различные показатели, независимо от того, больше или меньше они на страницах, где орудовал Баден Баден):

Поведенческие факторы предсказуемо оказались в самом хвосте списка. Очевидно, паттерны поведения на разных страницах очень похожи. Поэтому утверждение о том, что Баден-Баден учитывает поведение пользователей я рассматриваю в том смысле, что поведение учитывалось при обучении алгоритма на выборках переоптимизированные и природных текстов .

Максимально значимые различия демонстрируют водность, частота триграмм и биграмм.

Интересно, что «тошнота» текста на страницах, попавших под Баден-Баден, даже ниже чем на нормальных. Это наблюдение не нужно рассматривать как общее правило. Вспомните, что для анализа были отобраны только сайты с благовидными текстами. Наверняка среди других проектов полно документов с обрушившимся трафиком и огромной тошнотой. Большое количество вхождений Яндекс не приветствует уже давно (см. эксперимент ).

Однако очевидно, что высокий показатель встречаемости слова — далеко не самый важный и универсальный признак спамные текста.

Вдумаемся в тот факт, что пострадавшие страницы одновременно имеют более низкую тошноту и более высокий рейтинг биграмм / триграмм. То и другое исчисляется по схожему принципу: встречаемость слова / количество слов и встречаемость биграммы / количество слов. Очевидно, что в нормальных текстах частота слова и частота биграммы, в которую оно входит, будет коррелировать. В спамных же этот порядок нарушен: частота отдельных слов оказывается не такой уж большой, зато они постоянно сбиваются в n-граммы.

Если совсем просто. Допустим, у нас есть хороший экспертный текст о пластиковых окнах. Очень маловероятно, что в нем все слова из набора «пластиковый», «окно», «купить» будут постоянно встречаться вместе (попробуйте напрячь воображение). А вот если у копирайтера есть задача втиснуть десяток ключей в жидкий текст, при этом оставаясь в заданных рамках по «тошноте» — это иначе и выйти не может. Автор не сможет использовать слова из запроса где-то еще, кроме специально вставленных поисковых фраз.

Дополнительный показатель естественности

Чтобы проверить и заодно описать это наблюдение более строго, я рассчитал дополнительный показатель. Количество вхождений топовых триграмм в текст разделил на сумму вхождений слов из их состава. Вышла простая характеристика, описывающая, как часто популярных в тексте о & # 39; объединяются в триграммы.

Разница между страницами под Баден-Бадене и «нормальными» составила 9,4% (!). Это очень много (больше, чем любая другая метрика в этой статье).

Едва ли не тешу себя надеждой, что выделил именно те факторы, с помощью которых Яндекс выбирает, какие страницы считать переоптимизированные, а какие — нет. Наверное алгоритм использует множество других метрик, куда более сложным. Однако более чем вероятно, что они тем или иным образом эт & # 39; связанные с «водности» и n-граммами. Различия слишком существенные, чтобы их игнорировать.

Важнейший результат — в том, что разница между очень похожими внешне «хорошими» и «плохими» текстами отлично улавливается сравнительно простыми показателями . Их вполне можно использовать для определения страниц, Которые требуют особого внимания и первоочередных доработок.

В конце концов, наша задача проще, чем у Яндекса. Ему нужно было покарать спамные документы, задевать как можно меньше добропорядочных. Нам же требуется просто расставить приоритеты; понять, на чем в первую очередь ловятся «плохие» страницы и исправить это. Особенно актуальна подобная проверка для сайтов, попавших под хостовый фильтр а также молодых проектов, где невозможно выделить проблемные страницы путем анализа трафика или позиций.

Коротко о главном

  1. Баден-Баден проявляет себя как фильтр, наложенный на документ (или хост), без привязки к конкретным запросам.
  2. Постраничный характер санкций позволяет провести сравнительный анализ документов с разной динамикой трафика после 22 марта и использовать результаты на практике.
  3. В ходе исследования не было выявлено прямое влия ие поведенческих факторов. Различия относятся в первую очередь к текстовым метрикам.
  4. Для статейных сайтов относительно высокого качества выявлены следующие характеристики попавших под санкции страниц: высокая водность, высокая частота биграмм и триграмм, плохо коррелирующая с частотой входящих в них слов. Проще говоря, спамные тексты по мнению Яндекса содержат много стоп-слов, а также избыток устойчивых сочетаний из нескольких слов. При этом сама по себе частота устойчивых сочетаний может быть не слишком большой.
  5. Для интернет-магазинов и корпоративных сайтов наблюдаются схожие тенденции, однако в этом случае размер выборки не позволяет делать выводы с высокой степенью уверенности.
  6. «Тошнота», как академическая, так и классическая, не является самостоятельным полезным сигналом.
  7. Для возврата трафика требуется повышение естественности текста. По всей видимости, Яндекс оценивает ее комплексно. Любые показатели следует воспринимать только как ориентиры, демонстрирующие лишь часть общей картины.

p.s. Не забываем о конкурсе! Кто объяснит, почему при наложении санкций снижается не только общий трафик, но и доля визитов по запросам, содержащим отсутствующие в тексте леммы?

p.p.s. Скоро напишу о том, как на практике применять полученные данные для работы с попавшими под раздачу сайтами. А также что делать тем, кто предусмотрительно хочет защитить свои проекты (напоминаю, что алгоритм, по словам Яндекса, еще не разгулялся в полную силу).

p.p.p.s. Лайки и репосты мотивируют делать новые исследования и делиться результатами ?

UPDATE: многих заинтересовало, чем проверять указанные в статье показатели. Выложил первую версию сервиса для этого (см. анонс).

Опубликовано topinup / Февраль 16, 2018
Рубрики: SEO
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...


Заказ сайта на WordPress

Заполните форму, и наши специалисты свяжутся с вами в ближайшее время для создания сайта на выбранной теме WordPress.

Будьте в курсе последних новостей.

Подписывайтесь на наши страницы в соцсетях и на канал в Telegram.

Заказ бесплатной консультации

Ваше имя (обязательно)

Ваш телефон (обязательно)

Ваш e-mail (обязательно)