Описание
При формировании title, который мог бы собрать наибольший трафик мы стараемся включить в результирующий title наибольшее количество запросов из кластера. При этом важно использовать правильную последовательность слов в ключевых словах в наиболее частотных их морфологических формах.
Придумав алгоритм, я предложил Андрею Ставскому автоматизировать эту необходимую функцию в его замечательном расширении SEO-Excel.
В результате больше нет необходимости ломать глаза и подбирать в уме наилучшую комбинацию из ключевых слов в кластере.
Seo-Excel сделает это гораздо быстрее и что очень важно, намного точнее.
Для каждого запроса из кластера рассчитывается сумма вхождений в него других запросов кластера. Итоговая оценка включает в себя частоты других запросов,
— вошедших в точной форме с коэффициентом 1;
— вошедших в той же последовательности слов (но, после лемматизации) с коэффициентом 0,85;
— вошедших в итоговый запрос при изменении порядка слов, но имеющим показатель расстояния Левенштейна (для слов) не более единицы с коэффициентом 0,5.
В результате обсчета можно выделить в кластере запрос с самым высоким Score. На картинке выше это запрос «Детские дубленки для девочек купить», он содержит вхождения большого числа других запросов этого же кластера и вобрав в себя их частотность имеет более высокий Score.
Данный функционал наилучшим образом работает при хорошей полноте сбора семантики, а частотность лучше всего собирать со всеми операторами, то есть «[!слово1 !слово2]»
Как считается Score
Чтобы лучше понимать как считается Score изучим картинку ниже
На ней изображен кластер запросов в котором запросы отсортированы по убыванию Score. Первый запрос в зеленой строке «облегченные дубленки женские купить» имеет самый высокий Score. Но частотность каких запросов он вобрал и с какими коэффициентами? Для того чтобы лучше это понимать взгляните на условные обозначения. Запросы которые полностью входят в него выделены зеленым цветом. Такой запрос один. Он добавил 75 к скорингу, без всяких понижающих коэффициентов. Красным цветом отмечены запросы которые добавили к скорингу первого запроса 0.85 своей частотности потому что входят в запрос, но в другой словоформе. Синим цветом отмечены запросы, отдавшие всего половину своей частотности потому что входят в другой перестановке.
Формат входных данных
Для того чтобы рассчитать скоринг нам понадобится столбец с кластеризованной семантикой (каждая вершина кластера закрашена цветом(любым)) и столбец с частотностью (желательно по «[!]»)
Если у вас 100 кластеров на листе, расчет будет выполнен для каждого, запускать расчет 100 раз не нужно