Яндекс изнутри: как найти релевантный ответ (заметки к докладам) | topinup.pro - 2018

Яндекс изнутри: как найти релевантный ответ (заметки к докладам)

Яндекс изнутри: как найти релевантный ответ (заметки к докладам)

Посмотрел свежие доклады сотрудников Яндекса — с встречи в Минске 16 мая, чтобы зафиксировать важные и интересные моменты.

Тысяча и один фактор ранжирования

Тимофей Хаткевича, руководитель группы разработки факторов.

[youtube https://www.youtube.com/watch?v=XOLmX-hXJxY]

В начале речь идет о достаточно хорошо известные вещи. Поразил объем работы, которую делают асессоры для выкатки нового алгоритма:

Около 10 в 7 степени оценок используется для обучения продакшен-алгоритмов.
Асессор делает одна задача по разметке за 15 секунд. Чтобы оценить такое количество пар ему потребуется 5 лет непрерывного труда.

Еще с вступительной части зацепился за NDCG — метрику, которую пытаются оптимизировать в ходе обучения алгоритма. NDCG указана вместе с хорошо известным сеошников pFound. Встречал ранее упоминания, но никогда серьезно не задумывался что это. Полез гуглить и нашел хорошую статью на русском: https://habrahabr.ru/company/econtenta/blog/303458/, где объяснены сроки и дано много полезных ссылок.

Далее докладчик перешел собственно к факторам.

Особых открытий в этой части нет, но много деталек, которые интересны нюансами.

  • Статические документные — это характеристики документа, которые предпросчитивается и сохраняется в индексах . [19659010] Некоторые факторы относятся к нескольким группам.
  • Не каждый клик, сделанный пользователем Яндекса важный или красный. Перед расчетом факторов клики мы фильтруем специальным секретным алгоритмом антиспама (докладчик многозначительно улыбается).
  • Далее, на 11.30 Тимофей очень понятно объясняет суть TF-IDF.
  • Подтверждено, что модификации TF-IDF (например BM25) рассчитываются отдельно по разным зонам документа.

Вообще очень «плотный» доклад, рекомендую смотреть подряд. Больше свежих, редко упоминаются данных касается метафакторов. Процесс ранжирования проходит в несколько этапов. Метафакторы исчисляются на второй и более поздних стадиях, при этом зависят от факторов, которые исчисляются на ранних стадиях.

На практике иногда даже такое бывает: фактор на ранней стадии «Не жжот», но когда за ним на следующей стадии посчитать метафактор, это дает дополнительный качество. Мы внедряем некоторые факторы, чтобы по ним посчитать новые факторы.

Чуть-чуть отсебятины: это означает, что при продвижении сложных запросов может иметь смысл не столько копировать характеристики топовых сайтов (бездумное подражание — это вообще сомнительный подход ), сколько выделяться на их фоне, чтобы получить хороший рейтинг по метафактору, который «провисает» у конкурентов.

в завершение:

Главные достижения последнего времени относятся к задачам расширения запроса и семантического сопос тавления текстов с помощью нейронных сетей.

(об этом следующий доклад).

Из ответов на вопрос:

  • Есть факторы, которые мы запомнить & # 39; считывает не для всех документов из поисковой базы. То, для которых запомнить & # 39; считывает — регулируется тем, насколько документ популярен.
  • Алгоритмы, используемые антиспам, даже внутри Яндекса далеко не всем известны  ?

Смысловое соответствие текстов в ранжировании

Александр Сафронов, руководитель службы релевантности и лингвистики.

[youtube https://www.youtube.com/watch?v=QkUmCnDe3xI]

Как научить машину понимать смысловые н & # 39; связки между текстами?

Расширение запросов

  1. Морфология
  2. Синонимия
  3. Дополнительные слова из документов

«Понимание» морфологии языка — самый простой способ научиться Лучше обрабатывать пары запрос-документ без точных вхождений.

Интересный пример из слайда о морфологии:

Докладчик предложил посмотреть, как запрос «сепульковедению» обрабатывают различные поисковые системы. Посмотрим:

Кстати: лемматизации вообще непростое дело, мои инструменты для работы с контентом, где она необходима (например, анализ того, что встречается биграмм в расширенном анализе текста ) время выдают те еще жемчуг. Ну если уж и Google не всегда может найти корректную начальную форму, то это вполне простительно.

Зато Яндекс справляется с сепульки хорошо:

Пара слов или словосочетаний, которая при замене одного на другое не изменяет содержание текста — синонимы. Задача более или менее решена.

Александр Сафронов подробнее говорил о пополнении базы синонимов в прошлом своем докладе .

Давайте посмотрим, как люди ведут себя на выдачу. Попробуем найти такие слова запроса, которые помогают отличить документы по которым чаще кликают от тех, по которым реже кликают по этому запросу. Если слово часто встречается в документах, по которым щелкают, это не случайность. Мы можем такие слова выделить.

Документ, хорошо отвечает на запрос, скорее всего будет содержать такие слова.

Определение подобных запросов также возможно на основе сравнения данных о том, по каким документам щелкают по тому и другому запросу. Так можно найти совершенно разные по составу лем, но сходные по ИНТЕНТ ключе:

Тематическое моделирования

Исторически первый метод такого моделирования — LSI. А вообще их очень много:

Вот здесь (28.30) Сафронов делает драматическую паузу и говорит: «Все эти методы об & # 39; объединяет одно общее свойство .. . они не работают ». Эта часть выступления визвавала море обсуждений в Фейсбуке — «Как это так, LSI не работает! А мы его используем! ». На самом деле ничего особенно нового не сказано. Несколько месяцев назад, разбирая вопрос LSI я писал:

Если вы внимательно читали предыдущую часть, то могли задаться вопросом — а надо ли вообще этим заморачиваться? Ведь:

  • Метод не идеален, имеет множество ограничений.
  • Поисковики явно используют куда более сложные алгоритмы.

(Конечный вывод, напомню, был — «так называемые LSI следует применять, но не для того, чтобы замучить копирайтера требованиями, а чтобы лучше контролировать процесс»).

Главное не в этом. Доклад был не для сеошников, а для разработчиков. И «не работает» означает «помогает улучшать качество поиска». Далее Александр Сафронов рассказывает, почему не помогает — а просто потому, что уже накоплен огромный массив «обкатанных» факторов. Опираться чисто на статистику по текстам нет смысла. Ведь в распоряжении Яндекса ценные данные о поведении миллионов пользователей которые эти тексты оценивают, выбирая (или не выбирая) их в выдаче.

Наконец, в сеошной среде под LSI принято понимать в первую очередь тематические слову, именно их и пытаются добыть SEO- сервисы. А такие очень даже могут повышать релевантность документа запросу (выше прямым текстом сказано о том, что хороший документ содержит слова-расширения).

Нейросетевые модели

Один из динамических факторов (выполняется в ходе запроса). Здесь снова о Палех, без особых нововведений.

Пример оценки релевантности запроса (в квадратных скобках) различных заголовков — по версии BM25 и нейросетевой модели:

Результаты впечатляющие, но базовые факторы вроде BM25 все равно никуда не делись (и яндексоиды сами это не раз говорили). Кстати, если посмотреть выдачу этому примеру, то окажется, что большинство заголовков в ТОП-100 имеют точное вхождение:

Так что списывать на свалку старые добрые SEO-правила рано . Нейросети меняют мир, но совсем не так быстро, как это кажется вдохновенным журналистам.

В ответах на вопросы в основном были уточнения по докладу и не особо интересные сеошников технические детали (например, на котором железе все это запускается). Единственное — Александр Сафронов отдельно подчеркнул, что данные о поведении пользователей на выдачу очень ценные для поиска, но «конечно, мы смотрим не просто на CTR, там все сложнее и нельзя сказать, что кто-то пойдет позвали и сразу в ТОПе окажется».

Резюме

  • На мой взгляд самая важная часть — о метафакторы.
  • Много мелких нюансов о других факторах (в основном они достаточно очевидны, но ранее не имели официального подтверждения).
  • Относительно LSI и LDA стало больше ясности в плане отношения Яндекса. Для практики это ничего не меняет. Работаем дальше!

Читайте также:   Как найти непроиндексированные Google страницы без лишней суеты и расходов
Опубликовано topinup / Февраль 16, 2018
Рубрики: SEO
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...


Заказ сайта на WordPress

Заполните форму, и наши специалисты свяжутся с вами в ближайшее время для создания сайта на выбранной теме WordPress.

Будьте в курсе последних новостей.

Подписывайтесь на наши страницы в соцсетях и на канал в Telegram.

Заказ бесплатной консультации

Ваше имя (обязательно)

Ваш телефон (обязательно)

Ваш e-mail (обязательно)