Neural Matching: что представляет собой новый алгоритм Google

Автор: Роджер Монти (Roger Montti) - SEO-практик, модератор форума WebmasterWorld, постоянный автор Search Engine Journal.

Накануне своего 20-летия Google заявил, что начал использовать новый алгоритм нейронного сопоставления (Neural Matching, NM), чтобы лучше понимать концепты. По словам сотрудника поиска Дэнни Салливана (Danny Sullivan), эта разработка используется для 30% поисковых запросов.

Недавно Google также опубликовал документ, в котором описал успешное сопоставление поисковых запросов и веб-страниц без учёта других факторов. Хотя этот алгоритм, возможно, и не используется, или же используется как часть группы алгоритмов, его можно рассматривать как пример того, как может работать Neural Matching.

Стоит отметить, что Google далеко не всегда использует те алгоритмы, которые описывает в своих патентах и научных статьях. Однако какая-то часть опубликованных алгоритмов всё же задействована в работе поисковой системы.

Также стоит указать, что компания обычно не отвечает на вопросы касательно использования конкретного алгоритма.

В прошлом Google обсуждал некоторые алгоритмы в общих чертах - такие как Panda и Penguin. Похоже, что в случае с Neural Matching сложилась похожая ситуация. В частности, Дэнни Салливан поделился в Twitter некоторыми деталями того, как работает этот алгоритм.

"Нейронное сопоставление - это AI-метод, предназначенный для лучшего связывания слов с концептами".

Позже он добавил, что пользователи нередко могут указывать в запросе одно, а подразумевать другое, и приложил скриншот, где показано, как одно и то же слово может иметь несколько разных значений.

Искусственный интеллект, глубокое обучение и ранжирование

Недавно в блоге Google AI была опубликована следующая статья: "Deep Relevance Ranking using Enhanced Document-Query Interactions".

Хотя это исследование относительно новое, оно основано на уже известном ИИ-методе выполнения задач под названием Document Relevance Ranking. Этот метод также известен как Ad-hoc Retrieval (информационный поиск по произвольному запросу).

Мы не можем утверждать, что представленный в статье алгоритм является частью того, что Google называет Neural Matching. При этом интересно подробнее изучить то, что имеет похожий принцип работы.

Вот как в статье описывается Ad-hoc Retrieval:

"Метод Document Relevance Ranking, также известный как Ad-hoc Retrieval… заключается в ранжировании документов из широкой выборки с использованием только запроса и текста каждого документа".

То есть, в этом типе ранжирования используется только поисковый запрос и веб-страницы, без учёта других факторов. Далее в документе говорится, что:

"Это контрастирует со стандартными системами поиска информации (information retrieval, IR), которые полагаются на текстовые сигналы в сочетании с сетевой структурой (Page et al., 1999; Kleinberg, 1999) и/или обратную связь от пользователей (Joachims, 2002)".

В качестве авторов научных работ в этом фрагменте упоминаются Ларри Пейдж (Larry Page) в связи с PageRank и Джон Клейнберг (Jon Kleinbergs) в связи с его исследованием по использованию ссылок для ранжирования веб-страниц.

В целом из документа понятно, что Document Relevance Ranking - это относительно новый метод ранжирования веб-страниц, который не полагается на ссылочные сигналы.

Новый подход к ранжированию

Новый алгоритм, опубликованный в ИИ-блоге Google, не основан на традиционных факторах ранжирования. Однако эти факторы используются в первую очередь. Затем в работу вступает та часть алгоритма, что связана с Ad-hoc retrieval. На этом этапе выполняется повторное ранжирование уже проранжированных страниц.

Это значит, что традиционные сигналы ранжирования по-прежнему используются, но они не определяют то, какие страницы будут находиться в топ-10 поисковой выдачи.

Таким образом, можно сказать, что традиционные сигналы ранжирования выполняют функцию предварительного отбора. Они позволяют Google отсеять спам и выбрать самые релевантные документы.

Новый же алгоритм повторно ранжирует эти страницы согласно совершенно другому набору критериев для определения того, что Дэнни Салливан назвал "суперсинонимами".

Использование сигналов ранжирования на первом этапе - это то, что отличает данный алгоритм от опубликованного в 2016 году алгоритма под названием Deep Relevance Matching Model (DRMM).

Вот что говорится в новом исследовании при сравнении DRMM с новым алгоритмом:

"В парадигме, основанной на взаимодействии, индуцируются явные кодировки между парами запросов и документов. Это делает возможным прямое моделирование терминов с точным или близким соответствием (т.е. синонимов), что имеет решающее значение для релевантного ранжирования.

Исследование (Guo et al, 2016) показало, что метод DRMM, основанный на взаимодействии, превосходит предыдущие методы, основанные на формальном представлении. С другой стороны, основанные на взаимодействии модели являются менее эффективными, поскольку они не могут индексировать формальное представление документа независимо от запроса. Однако это менее важно, когда методы Relevance Ranking повторно ранжируют документы, возвращаемые обычным IR-движком, что является сценарием, который мы рассматриваем здесь".

Что же делает этот алгоритм?

Его цель - сопоставлять поисковый запрос с веб-страницей, используя только запрос и только страницу. Веб-страницы, ранжируемые таким алгоритмом, не будут продвигаться в топ поисковой выдачи благодаря ссылкам или ключевым словам, поскольку этот алгоритм по-другому определяет соответствие.

"Мы изучили несколько новых моделей для Document Relevance Ranking, созданных на основе Deep Relevance Matching Model (DRMM)… В отличие от метода DRMM, в котором используются нечувствительные к контексту кодировки терминов и взаимодействия между запросами и документами, мы внедряем расширенные контекстно-зависимые кодировки во всех наших моделях".

Контент становится более важным

Значит ли это, что вебмастерам нужно использовать больше синонимов? Вряд ли. Цель Google - понимать контекст и значение страницы. Именно поэтому поисковая система работает над лучшим пониманием синонимов. Таким образом, чёткая и последовательная передача информации является более важной, чем наполнение страницы ключевыми словами и синонимами.

Google официально заявил, что способен понимать концепты, а это выходит за пределы просто ключевых слов и синонимов. Это более естественное понимание того, как веб-страница решает проблему, заключённую в поисковом запросе.

Согласно недавнему заявлению Google:

"Мы достигли той точки, когда нейронные сети могут помочь нам сделать рывок от понимания слов к пониманию концептов. Neural Embeddings - подход, разработанный в области нейросетей, позволяет нам трансформировать слова в более широкие сущности базовых понятий, а затем сопоставлять концепты в запросе с концептами в документе. Мы называем эту технику нейронным сопоставлением".

Что же такое Neural Matching?

Есть вероятность, что Neural Matching включает элементы этого алгоритма в сочетании с элементами других алгоритмов. Использует ли Google именно этот алгоритм не так важно. Главное, что ранжирование документов с использованием только поискового запроса и контента страницы, возможно.

Мы надеемся, что понимание этого факта поможет владельцам сайтов избежать использования таких неэффективных стратегий, как избыточное добавление синонимов.

Новый тип ИИ-ранжирования показывает, как могут генерироваться результаты поиска, напрямую не формируемые традиционными факторами ранжирования. И это требует большего внимания к таким вещам, как поисковое намерение и понимание того, как контент страницы помогает пользователю.

Источник: Search Engine Journal