Как я поиграл с Word2vec + пара мыслей о машинном обучении с колокольни SEO-шника | topinup.pro - 2018

Как я поиграл с Word2vec + пара мыслей о машинном обучении с колокольни SEO-шника

Как я поиграл с Word2vec + пара мыслей о машинном обучении с колокольни SEO-шника

В последние несколько месяцев неспешно изучаю машинное обучение. Неспешно — потому что и без него неплохо справлялся с текущими задачами. Также хотелось сначала получить теоретическую подготовку. Использовать machine learning на практике можно и без математических знаний — но приятно разбираться в том, что ты делаешь, а не просто скармливать данные готовым решениям, которые делают 99% работы.

Сегодня наконец дошли руки повозиться с одним из таких решений — знаменитой библиотекой Word2vec, которая была создана работниками Google. Детальное и точное описание каждый может загугли самостоятельно. Я скажу только, что инструмент позволяет свести воедино информацию о том, какие слова встречаются в подобных контекстах, а значит — эт & # 39; связаны друг с другом по смыслу. Все это переводится на язык математики — в векторное пространство, с которым удобно работать.

Для примера я Спарс чуть больше тысячи статей о SEO и загрузил вышел файлик на 15 мегабайт в python-оболочку к оригинальному Word2vec. Обучающая выборка, конечно, слишком мала для настоящего текстового анализа. Но поиграть и потрогать возможности годится.

Зададим простую математическую задачу — найдем слова, похожие на «seo»:

чуть-чуть допил код вывода:

Читайте также:   Трафик с Google c минимальными затратами - презентация из доклада на SEMPRO 2017

Несколько правильно, но не все. Явно закрались статьи немного не по теме и сбили модель в «репост бесплатно».

Узнаем слова, похоже на «google»:

Очень близко. Я даже не ожидал, что можно это вытащить все из тысячи статей.

Для Яндекса результат несколько эмоциональный:

Задача немного сложнее — с использованием нескольких слов. Поищем сроки, близкие к «заголовок title», кроме эт & # 39; связанные с title в картинки:

Модель напоминает, что title бывает еще и в ссылок. Заминусуем слово «ссылку»:

Набор изменился и стал более похож на дело (только «итальянский» в конце смущает, но у него, на десятом месте, минимальное сходство).

итог: даже обученный на малом объеме тематического текста, Word2vec способен уловить множество н & # 39; связей между словами.

Файлик с кодом в html-формате: http://alexeytrudov.com/word2vec_seo.html

Как это можно использовать на практике?

Первое что приходит в голову — искать тематические слова — то, что принято называть LSI . Более того, в одном из докладов сотрудники Яндекса сами вспомнили Word2vec как один из источников расширений запросов, которые должны быть на «хорошей» странице.

Другие варианты:

  • Кластеризация поисковых запросов.
  • кластеризация заголовков страниц на сайте для улучшения перелинковки и тегирования. (Улучшение — за счет того, что поиск похожих материалов идет не только по вхождению конкретного ключа, но и близких к нему по смыслу).
  • Генерация текстов, которые обладают не только технической уникальностью, но и несут какой-то уникальный смысл. [19659019] Напротив, определение текстов, наполненных «водой» (самый подход — анализ близости заголовка и текста, а вообще метрик качества можно найти много).
  • Классификация запросов / документов / сайтов по тематикам.
Читайте также:   Анонс SEO-инструментов: пакетный анализ текста и оценка изменения трафика страниц

Что там с машинным обучением вообще? Очередная смерть SEO?

Не раз и не два видел высокомерные комментарии — мол, у поисковиков сейчас там все на машинном обучении, куда там бедным SEO-шникам за ними успевать! Пора проситься на завод дворниками ! Что интересно — чем дальше человек от математики и программирования, тем более категоричные заявления он делает. Самые вдохновенные статьи о нейросети пользователя гуманитариями. А те же докладе от разработчиков Яндекса битком набиты нерешенными проблемами и новыми вызовами.

Отвечу по пунктам, чтобы было куда сослаться в случае чего:

  • Машинное обучение используется в поисковых системах уже очень давно. Откройте «Введение в информационный поиск» (2008 год!) И убедитесь. А ведь это учебник, он преподает уже устоявшиеся факты.
  • Новые алгоритмы не так уж сильно улучшают качество поиска — потому что и без них уже реализована бездна «наворотов». Для Палеха, например, приводилась цифра прироста pFound всего 1,6% (в масштабах миллионов запросов действительно много, но можно сказать, что это кардинальное изменение рынка?).
  • Даже обучена должным образом модель на основе суперсовременных алгоритмов ошибается. Тем более в такой сложной отрасли как веб-поиск, работе с меняющимся Интернетом. Кстати, противодействие ушлым SEO-шникам — тоже непростая вещь. Иначе зачем вводить репрессии вроде Минусинска или Баден-Бадена? Отсекали бы накрутку на автомате и все. Поэтому идеального поиска нет и в ближайшее время не предвидится. Всегда остаются возможности для влияния. И просто необходимость в «белой» оптимизации — чтобы робот корректно воспринимал сайт.
Читайте также:   Мой 2018: итоги. Традиционный новогодний пост

Наконец. Мощь машинного обучения доступна не только поисковым системам для гнобления сеошников. Используя готовые инструменты, в том числе изложенные же поисковыми системами в свободный доступ, можно существенно расширить собственный арсенал для исследований и практической работы. Так, собрать столько же данных, сколько у Яндекса, непросто. Ну и что? В поисковых систем задача тоже масштабнее, чем у нас.

Опубликовано topinup / Февраль 15, 2018
Рубрики: SEO
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...


Заказ сайта на WordPress

Заполните форму, и наши специалисты свяжутся с вами в ближайшее время для создания сайта на выбранной теме WordPress.

Будьте в курсе последних новостей.

Подписывайтесь на наши страницы в соцсетях и на канал в Telegram.

Заказ бесплатной консультации

Ваше имя (обязательно)

Ваш телефон (обязательно)

Ваш e-mail (обязательно)