Как найти непроиндексированные Google страницы без лишней суеты и расходов | topinup.pro - 2018

Как найти непроиндексированные Google страницы без лишней суеты и расходов

Как найти непроиндексированные Google страницы без лишней суеты и расходов
Вряд ли стал писать на эту простую тему, если бы не статья, которая начинается так:
Узнать, сколько страниц было проиндексировано Google, можно с помощью Search Console. Но как найти те URL, которые отсутствуют в индексе поисковой системы? Справиться с этой задачей поможет специальный скрипт на Python.

< p style="text-align: right"> цитата из перевода на searchengines.ru Вот это да, подумал я. Автор предлагает:
  1. Установить на комп & # 39; Компьютер Phyton 3.
  2. Установить библиотеку BeautifulSoup.
  3. Установить Tor в качестве прокси-сервера.
  4. Установить Polipo для преобразования socks-прокси в http-прокси.
  5. Провести настройки в консоли (НЕ Search Conosole! В терминале операционной системы!).
  6. Увидеть предупреждения в конце статьи «Если скрипт не работает, то Google, возможно, блокирует Tor. В этом случае используйте свой собственный прокси-сервер ».
  7. подраться головой о стену (ой, здесь все-таки прорвался мой сарказм).

Как проверять индексацию без лишних мучений?

Автор опирается на верный в основе способ - запросы к выдаче с оператором info:. Это самый надежный метод, но у него есть огромный минус. Один запрос проверяет один url. А что если у нас их 10 000? Или больше? Очевидно, что нужен более экономный путь. И он есть. Рассказываю. Во-первых, получаем полный список страниц сайта . Если вы следуете стандартам веб-разработки и минимально заботитесь об индексации, то он должен содержаться в sitemap.xml . Для удобства работы выгружаем url в виде простого списка. Это можно сделать, открыв xml-файл в Excel:
Читайте также:   Обзор SeoWork - платформы для продвинутой SEO-аналитики и ведения проектов
Как найти непроиндексированные Google страницы без лишней суеты и расходов Вся дальнейшая работа сводится к тому, чтобы удалить из списка те страницы, которые есть в индексе. В посте как проверить индексацию сайта или раздела в Google? Ответ не так уж прост! я писал о том, традиционно используются для пробивки индекса операторы «site:" и "inurl:" не дают точных результатов. Если страница не оказывается поиском с оператором, это не значит, что ее нет в базе Googe. [19659014] но! Если страница нашлась - это значит, что она в индексе. Понимаете разницу? Оператор находит не все, но уже находит - то в индексе. Этим и воспользуемся. Смотрим основные разделы и типичные паттерны в url, формируем список запросов для проверки индекса в них. Например, для этого блога:
  • site: al exeytrudov.com/dnevnik /
  • site:alexeytrudov.com/web-marketing/
  • site:alexeytrudov.com/veb-razrabotka/
Как быть, если в url форуме ЧПУ и явной структуры? Можно придумать много способов. Например, кроме site: указывать фразу, которая есть только в шаблоне определенного раздела. Или наоборот - добавить слово со знаком минус, чтобы найти url, где оно не содержится. Суть в том, чтобы а) покрыть различные части сайта и б) использовать довольно сложный запрос, на который Гугл выдаст много результатов (см. предыдущую статью ). Каждый из запросов способен принести нам до 1000 новых url. Нужно выгрузить результаты по ним для сравнения со списком из карты сайта.
Читайте также:   Яндекс.Турбо сожрет весь контент в Интернете и оставит владельцев сайтов без штанов? Вряд ли

Как парсить выдачу?

Способов миллион. Два примера. Можно воспользоваться Key Collector (купленный у каждого оптимизатора еще в прошлой жизни). Добавляем как фразы запросы с операторами: Как найти непроиндексированные Google страницы без лишней суеты и расходов Перед запуском настроим максимальное количество результатов в выдаче: Как найти непроиндексированные Google страницы без лишней суеты и расходов Теперь сам сбор данных: [19659014] Как найти непроиндексированные Google страницы без лишней суеты и расходов Ждем сбора и выгружаем список url ​​(то же меню, «Экспортировать данные о поисковой выдачи»). Получаем csv-файл с множеством ссылок (у меня на 3 запроса - 136 url, половина сайта, добавив ключи по другим рубрикам наверное нашел бы почти все). Можно справиться без Key Collector и вообще без платных программ? Конечно!
  1. Устанавливаете расширения gInfinity в Chrome (https://chrome.google.com/webstore/detail/ginfinity/dgomfdmdnjbnfhodggijhpbmkgfabcmn).
  2. Устанавливаете расширение Web Developer (http://chrispederick.com/work/web- developer / ) - оно крайне полезно и для других нужд.
Первый плагин нам позволяет загружать в выдаче Google более 100 результатов простой прокруткой. Как найти непроиндексированные Google страницы без лишней суеты и расходов для формирования перечня ссылок нажимаем на значок Web Developer: Как найти непроиндексированные Google страницы без лишней суеты и расходов Запрос - зажата кнопка PageDown - выгрузки. Теперь нам остается только сравнить списки и вычленить url, которые есть в карте, но отсу тствуют в выгрузках из выдачи. Для сравнения можно использовать бесплатный онлайн-сервис: https://bez-bubna.com/free/compare.php (ну или Excel). При этом, кстати, не помешает найти страницы, которые являются в выдаче и отсутствуют в карте сайта. Это признак или неполной карты, или генерации «мусорных» документов и неправильные настройки индексации. Если вы корректно подобрали запросы, то наверняка нашли 90% проиндексированных url и сильно сократили объем работы. С остальными можно разобраться с помощью оператора info. Разумеется, не стоит это делать руками - можно использовать Rush Analytics . Анализ 100 ссылок будет стоить 5 рублей. Благодаря предыдущим операциям мы существенно экономим. Или можно собрать выдачу тем же Кейколлектором (здесь уже правда уже может понадобиться антикапчи).
Читайте также:   Как злобные сеошники уродуют сайты (18+)
Если хотите еще сократить список кандидатов на платную проверку, то можете определить список страниц, которые приносили трафик за последнюю неделю-две (уж они-то почти наверняка в индексе!) И отсеять найдены. О том, как выгружать url точек входа см. В статьи об анализе страниц, потеряли трафик . Как видите, с задачей поиска непроиндексированной страниц в небольших и средних (где-нибудь в 50000 страниц) вполне можно справиться без возни с консолью, прокси, phyton-библиотеками и так далее. Достаточно иметь под рукой популярные инструменты, пригодные для множества других задач. UPD: Виталий Шаповал резонно заметил, что:
Наверное, есть публичный индекс и его непубличный часть, поэтому «непроиндексированные Google страницы» является терминологией вводит в заблуждение. Корректно говорить об отсутствии в индексе, что меняет постановку вопроса почему такие страницы отсутствуют.

Согласен с этим уточнением; использовал термин из исходной статьи по инерции. Впрочем для практики разница небольшая - так или иначе результирующий список url ​​нужно проработать, рассмотрев различные причины отсутствия (не было визита работа / запрещена индексация / неподходящий контент).

Опубликовано topinup / Февраль 16, 2018
Рубрики: SEO
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...


Заказ сайта на WordPress

Заполните форму, и наши специалисты свяжутся с вами в ближайшее время для создания сайта на выбранной теме WordPress.

Будьте в курсе последних новостей.

Подписывайтесь на наши страницы в соцсетях и на канал в Telegram.

Заказ бесплатной консультации

Ваше имя (обязательно)

Ваш телефон (обязательно)

Ваш e-mail (обязательно)