/
  1. Удаление неявных дублей

Удаление неявных дублей

После сбора семантического ядра его нужно почистить, чтобы оставить для продвижения и аналитики только релевантные, целевые запросы. Инструмент для удаления неявных дублей поможет быстро очистить ядро от похожих запросов, которые, тем не менее, не являются полными дублями друг друга.

Удалить неявные дубли

Читайте, как понять, от каких запросов нужно чистить ядро, в Топвизор‑Журнале →

Неявные дубли
Запросы, которые состоят из одинакового набора слов с разной словоформой и порядком слов.
Полные дубли: "заказать пиццу в спб" и "заказать пиццу в спб"
Неявные дубли: "заказать пиццу в спб", "в спб пиццу заказать", "заказывать пиццу в спб", "заказать пиццу санкт петербург"

Какие фразы считаются неявными дублями

  • Которые можно нормализовать до одинакового вида ("заказ пиццы в спб", "заказы пиццы в спб");
  • С разным порядком слов ("заказать пиццу в спб", "в спб пиццу заказать");
  • Отличающиеся только стоп‑словами ("заказать пиццу в спб", "заказать пиццу спб").

Алгоритм нормализации запросов

Алгоритм выявления неявных дублей включает в себя нормализацию запросов. Нормализация выполняется на основе стемминга и эвристики, но не полной лемматизации (приведения слова к исходной форме). Стемминг заключается в "обрубании" у слов окончаний и суффиксов для выделения их неизменяемой основы. Эвристики — это дополнительные алгоритмы и правила, которые уточняют нормализацию, опираясь на накопленные данные о поведении пользователей, частотности запросов, исправлении опечаток, синонимии и контексте.

Сначала применяется стемминг для быстрого отбора похожих слов. Затем эвристики сравнивают похожие запросы между собой и уточняют, какие из стемминг‑групп действительно эквивалентны по смыслу, а какие нет.

Если после анализа несколько запросов признаны неявными дублями, актуальной будет считаться первая встретившаяся каноническая фраза. Например, если ввести запросы в таком порядке: "в спб пиццу заказать" и "заказать пиццу в спб", исключена будет фраза "заказать пиццу в спб". А если поменять их местами и ввести "заказать пиццу в спб" и "в спб пиццу заказать", исключена будет фраза "в спб пиццу заказать".

Настройки инструмента

  • Игнорировать порядок слов — включите эту опцию, если вы хотите, чтобы алгоритм считал неявными дублями запросы, состоящие из одинаковых слов, стоящих в разном порядке. К примеру, "заказать пиццу в спб" и "в спб пиццу заказать" с отключенной опцией будут считаться разными запросами, а с включенной — неявными дублями, и второй запрос будет исключен;
  • Игнорировать стоп‑слова — включите эту опцию, если вы хотите, чтобы алгоритм игнорировал стоп‑слова при нормализации запросов. Если включить настройку и запустить удаление неявных дублей для запросов "заказать пиццу в спб" и "заказать пиццу спб", стоп‑слово "в" будет проигнорировано перед нормализацией. То есть алгоритм будет сравнивать запросы "заказать пиццу спб" и "заказать пиццу спб". Второй по порядку запрос будет признан неявным дублем и исключен. Если же опция выключена, то фразы "заказать пиццу в спб" и "заказать пиццу спб" будут нормализованы без исключения каких‑либо слов из запросов и не будут считаться неявными дублями.
Какие слова считаются стоп‑словами?
Стоп-слова соответствуют стоп-словам из Вордстата.
Инструмент использует частоту запросов, чтобы определить, какой вариант фразы стоит оставить?
Нет, в алгоритме не участвует частота запросов, но вы можете проверить частоту отдельно для дальнейшей работы с ядром.
После чистки неявных дублей у меня всё равно осталось много похожих запросов. Как можно ещё почистить ядро?
Проверьте частоту запросов и оставьте те варианты фраз, у которых больше частота.