Описание

GIF

Этот инструмент позволяет удалить лишние слова из запросов. Что такое лишние слова? Это такие слова которые не влияют на интент (а интент это желание пользователя выраженное запросом к поисковой системе). Например, если мы кластеризуем семантику для интернет магазина то скорее всего получим кластера полные запросов с продающими словами. Это слова «купить», «цена»,»в москве»,»интернет магазин»,»заказать» и т.д. Это нужная нам семантика, но наряду с ней в кластере могут попасться запросы которые притянулись в кластер неправильно. Кластеризация вообще штука не идеальная. Все зависит от проработанности документов в топе другими оптимизаторами, от порога и алгоритма кластеризации. Иногда кластера получаются очень грязными. Задача оптимизатора — добиться того чтобы в одном кластере запросов был один интент. Можно читать все запросы подряд. А можно читать выжимку этих запросов. Так гораздо удобнее. Инструмент состоит из двух текстовых полей. В левое поле пишутся слова подлежащие удалению, причем , дописывать их до конца не обязательно. В правое поле пишутся слова которые нужно удалить целиком. Обычно это предлоги, союзы и сокращения , например «см» (сантиметр). Кроме этого есть 3 галочки которые позволяют делать постобработку выжимки:

  • Привести каждое слово к лексемме (помогает избавиться от словоформ)
  • Перевести в транслит (помогает в случае с адидас и adidas)
  • Поставить слова в алфавитном порядке (избавляемся от перестановок в запросах)
Как установить?
Инструмент Выжимка это часть SEO-Excel

12 комментариев к “Выжимка

  1. Иногда инструмент «выжимка» не работает — выжимает ~500 строк и потом тупо останавливается. Логику ошибки я проследить не могу, соответственно: из-за чего это может быть? Т.е. банально до того, что: утром выживает за 1,5 минуты 10000 строк; а днем в этом-же файле на аналогичной операции обрабатывает 500 строк и останавливается. Дальше ничего не происходит.

    Куда копать?

    1. Пустая строка в файле, я балбес — можно удалять коммент.

  2. Здравствуйте! А можно пояснить как правильно употреблять список слов в столбике Слова? По умолчанию он вот какой: купи
    цен интерне магаз заказ лучш моск хорош стиль фото стоим — это как бы базовый коммерческий кластер Москвы, а если услуга или скажем информационный, какими принципами и если можно, на примере пояснить взять кластер — «авто юрист Воронеж», и допустим «экскурсионная поездка на Горный алтай»

    1. Принцип такой: те слова выжимаем которые не влияют на интент в пределах одного кластера.
      Я не силен в тематике автоюристов, но могу попробовать догадаться.

      Возьмем кластер:

      авто юрист консультации
      авто юрист консультации по телефону
      авто юрист онлайн
      авто юристы воронеж
      авто юристы онлайн консультация
      помощь авто юриста
      купля продажа авто юрист
      телефон авто юриста
      юрист авто

      Сразу выжмем слова : авто, юрист, воронеж, консультация, помощь

      Выделится у нас в этом кластере 3 интента: Консультация по телефону, консультация онлайн и автоюрист при купле продаже.

  3. Здравствуйте!

    Не могу понять, почему у меня не запускается процесс Выжимки?
    Ключи скопировал из столба А в столбец В, далее нажимаю Выжимка… вроде бы должно окошко открываться куда вписывать слова и предлоги для удаления, так? А у меня этого не происходит.
    Уже несколько раз всю надстройку сносил, переустанавливал заново — та же картина.
    Что я делаю не так?

    1. Встречал такую проблему только 1 раз. С чем связано сказать трудно. Но лечится только переустановкой Microsoft Office.

  4. Странно, что до сих пор не исправлен баг с предлогами. О нём неизвестно (в чём сильно сомневаюсь) или его по каким-то причинам не исправляют (это «фича»/нет возможности исправить)?
    Баг состоит в том, что если предлог стоит в конце текстовой строки (ячейки), то он не будет удалён.

    К примеру, есть такие запросы:
    анализ на флору
    анализ на флору срочно
    И чисто для примера представим, что нужно удалить только слово «флору». В выжимке делаем предлог «флору», но в результате получаем такие строки:
    анализ на флору
    анализ на срочно

    1. Большое спасибо за помощь, я этот баг никак не мог отловить очень давно. Я знал что он есть, но никак не мог понять что это когда предлог последнее слово в строке.
      Ваш свежий взгляд очень кстати. Исправил, можете обновиться.

  5. Снова здравствуйте)
    Спасибо за оперативное исправление бага с предлогами.
    Есть ещё один баг (или фича?), состоящий в том, что если слово, которое нужно выжать, окажется частью другого, более длинного/сложного слова, то длинное/сложное слово окажется обрублено.

    Вот примеры запросов:
    подготовка к функциональной диагностике
    переподготовка функциональная диагностика москва
    функциональная диагностика томск
    порядок оказания помощи по функциональной диагностике
    Допустим, что в слова на выжимку я внёс такие:
    подготовк
    омск
    томск
    порядок
    казан
    После выжимки запросы оказались такими:
    функциональная диагностика
    пере функциональная диагностика москва
    функциональная диагностика т
    о помощи по функциональной диагностике

    В первом запросе всё ок, удалилось слово «подготовка», как и ожидалось.
    Во втором запросе «подготовк» оказалась частью слова «переподготовка», и скрипт отрубил слово «подготовка», оставив просто «пере».
    В третьем запросе скрипт сперва увидел слово «омск» в слове «томск», сделал его просто буквой «т», и не дал возможности сработать слову «томск» для полного удаления.
    В четвёртом запросе нормально удалилось слово «порядок», но слово «казан» (вставленное с расчётом на удаление вариаций названия города Казань) оказалось частью слова «оказание», из-за чего в итоге осталось простое «о помощи по функциональной диагностике».

    На мой взгляд, должна быть проверка на то, что найденное слово в строке начинается со слова на выжимку. То есть по слову «подготовк»: «подготовка» — удалить, «переподготовка» — оставить. И как вариант — добавить опцию на полное удаление сложного слова, при включении которой «переподготовка» и подобные ей случаи тоже будут удаляться полностью.

    1. Исправлено в версии 1.4.6.
      Спасибо за то что нашли ошибку.

      1. Качество выжимки заметно возросло) Спасибо за исправление)

Комментирование закрыто, спасибо всем за помощь в разработке программы.