Как найти непроиндексированные Google страницы без лишней суеты и расходов | topinup.pro - 2018

Как найти непроиндексированные Google страницы без лишней суеты и расходов

Как найти непроиндексированные Google страницы без лишней суеты и расходов

Вряд ли стал писать на эту простую тему, если бы не статья, которая начинается так:

Узнать, сколько страниц было проиндексировано Google, можно с помощью Search Console. Но как найти те URL, которые отсутствуют в индексе поисковой системы? Справиться с этой задачей поможет специальный скрипт на Python.

<

p style=»text-align: right»> цитата из перевода на searchengines.ru

Вот это да, подумал я. Автор предлагает:

  1. Установить на комп & # 39; Компьютер Phyton 3.
  2. Установить библиотеку BeautifulSoup.
  3. Установить Tor в качестве прокси-сервера.
  4. Установить Polipo для преобразования socks-прокси в http-прокси.
  5. Провести настройки в консоли (НЕ Search Conosole! В терминале операционной системы!).
  6. Увидеть предупреждения в конце статьи «Если скрипт не работает, то Google, возможно, блокирует Tor. В этом случае используйте свой собственный прокси-сервер ».
  7. подраться головой о стену (ой, здесь все-таки прорвался мой сарказм).

Как проверять индексацию без лишних мучений?

Автор опирается на верный в основе способ — запросы к выдаче с оператором info:. Это самый надежный метод, но у него есть огромный минус. Один запрос проверяет один url. А что если у нас их 10 000? Или больше?

Очевидно, что нужен более экономный путь. И он есть. Рассказываю.

Во-первых, получаем полный список страниц сайта . Если вы следуете стандартам веб-разработки и минимально заботитесь об индексации, то он должен содержаться в sitemap.xml .

Для удобства работы выгружаем url в виде простого списка. Это можно сделать, открыв xml-файл в Excel:

Читайте также:   Эксперимент: как sitemap.xml важный для индексации нового сайта в Яндексе и Google

Вся дальнейшая работа сводится к тому, чтобы удалить из списка те страницы, которые есть в индексе.

В посте как проверить индексацию сайта или раздела в Google? Ответ не так уж прост! я писал о том, традиционно используются для пробивки индекса операторы «site:" и "inurl:" не дают точных результатов. Если страница не оказывается поиском с оператором, это не значит, что ее нет в базе Googe. [19659014] но! Если страница нашлась — это значит, что она в индексе. Понимаете разницу? Оператор находит не все, но уже находит — то в индексе. Этим и воспользуемся.

Смотрим основные разделы и типичные паттерны в url, формируем список запросов для проверки индекса в них.

Например, для этого блога:

  • site: al exeytrudov.com/dnevnik /
  • site:alexeytrudov.com/web-marketing/
  • site:alexeytrudov.com/veb-razrabotka/

Как быть, если в url форуме ЧПУ и явной структуры? Можно придумать много способов. Например, кроме site: указывать фразу, которая есть только в шаблоне определенного раздела. Или наоборот — добавить слово со знаком минус, чтобы найти url, где оно не содержится.

Суть в том, чтобы а) покрыть различные части сайта и б) использовать довольно сложный запрос, на который Гугл выдаст много результатов (см. предыдущую статью ).

Каждый из запросов способен принести нам до 1000 новых url. Нужно выгрузить результаты по ним для сравнения со списком из карты сайта.

Читайте также:   SEO-заметки №5: еще раз о точности Search Console и modtime, своеволии операторов Google и второй жизни сайта

Как парсить выдачу?

Способов миллион. Два примера.

Можно воспользоваться Key Collector (купленный у каждого оптимизатора еще в прошлой жизни). Добавляем как фразы запросы с операторами:

Перед запуском настроим максимальное количество результатов в выдаче:

Теперь сам сбор данных: [19659014]

Ждем сбора и выгружаем список url ​​(то же меню, «Экспортировать данные о поисковой выдачи»). Получаем csv-файл с множеством ссылок (у меня на 3 запроса — 136 url, половина сайта, добавив ключи по другим рубрикам наверное нашел бы почти все).

Можно справиться без Key Collector и вообще без платных программ? Конечно!

  1. Устанавливаете расширения gInfinity в Chrome (https://chrome.google.com/webstore/detail/ginfinity/dgomfdmdnjbnfhodggijhpbmkgfabcmn).
  2. Устанавливаете расширение Web Developer (http://chrispederick.com/work/web- developer / ) — оно крайне полезно и для других нужд.

Первый плагин нам позволяет загружать в выдаче Google более 100 результатов простой прокруткой.

для формирования перечня ссылок нажимаем на значок Web Developer:

Запрос — зажата кнопка PageDown — выгрузки.

Теперь нам остается только сравнить списки и вычленить url, которые есть в карте, но отсу тствуют в выгрузках из выдачи.

Для сравнения можно использовать бесплатный онлайн-сервис: https://bez-bubna.com/free/compare.php (ну или Excel). При этом, кстати, не помешает найти страницы, которые являются в выдаче и отсутствуют в карте сайта. Это признак или неполной карты, или генерации «мусорных» документов и неправильные настройки индексации.

Если вы корректно подобрали запросы, то наверняка нашли 90% проиндексированных url и сильно сократили объем работы. С остальными можно разобраться с помощью оператора info. Разумеется, не стоит это делать руками — можно использовать Rush Analytics . Анализ 100 ссылок будет стоить 5 рублей. Благодаря предыдущим операциям мы существенно экономим. Или можно собрать выдачу тем же Кейколлектором (здесь уже правда уже может понадобиться антикапчи).

Читайте также:   Что нужно знать об алгоритме Google Fred. Как он изменился до осени 2017?

Если хотите еще сократить список кандидатов на платную проверку, то можете определить список страниц, которые приносили трафик за последнюю неделю-две (уж они-то почти наверняка в индексе!) И отсеять найдены. О том, как выгружать url точек входа см. В статьи об анализе страниц, потеряли трафик .

Как видите, с задачей поиска непроиндексированной страниц в небольших и средних (где-нибудь в 50000 страниц) вполне можно справиться без возни с консолью, прокси, phyton-библиотеками и так далее. Достаточно иметь под рукой популярные инструменты, пригодные для множества других задач.

UPD: Виталий Шаповал резонно заметил, что:

Наверное, есть публичный индекс и его непубличный часть, поэтому «непроиндексированные Google страницы» является терминологией вводит в заблуждение. Корректно говорить об отсутствии в индексе, что меняет постановку вопроса почему такие страницы отсутствуют.

Согласен с этим уточнением; использовал термин из исходной статьи по инерции. Впрочем для практики разница небольшая — так или иначе результирующий список url ​​нужно проработать, рассмотрев различные причины отсутствия (не было визита работа / запрещена индексация / неподходящий контент).

Опубликовано topinup / Февраль 16, 2018
Рубрики: SEO
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...


Заказ сайта на WordPress

Заполните форму, и наши специалисты свяжутся с вами в ближайшее время для создания сайта на выбранной теме WordPress.

Будьте в курсе последних новостей.

Подписывайтесь на наши страницы в соцсетях и на канал в Telegram.

Заказ бесплатной консультации

Ваше имя (обязательно)

Ваш телефон (обязательно)

Ваш e-mail (обязательно)