Предыстория

В 2009 году ребята из Arc90 решили подойти к вопросу вырезания рекламных блоков из контента с другого конца. Не блоки вырезать, а выделить текст, все остальное выкинуть. Для этих целей ими был создан движок Readability. Сейчас официальный сайт Arc90 закрыт, но Readabillity до сих пор много где используется. Например в этой надстройке на Chrome.

Описание

GIF

Ну а seo-специалист обязан анализировать тексты на продвигаемом сайте. Начать можно с выяснения где же текст есть и какой. Вот для этих целей и создавался инструмент Plain Text. Он покажет длину текста в символах и словах, а так же сам текст.

Как установить?
Инструмент Plain Text это часть SEO-Excel

8 комментариев к “Plain Text

  1. По каким параметрам определяется plain-текст?
    По объёму?

    1. Не только. Нам же нужно выделить текст из html документа, выбросив лишнее. Поэтому анализируется содержание каждого тега, а так же соседи этого тега. Если текст в теге содержит несколько точек (несколько предложений текста), или его соседи это теги содержащие много текста, то содержимое этого тега попадет в plain текст. Примерно так, но точнее сказать трудно, официальный сайт Arc90 закрыт.

  2. Инструмент «Plane Text» в Парсинге. Почему при парсинге в ячейке, где должно появиться кол-во символов появляется такая ошибка «Timeout code 400», как на скриншоте: http://take.ms/zgVhN ?

    1. Вернулся код ответа 400. Сервер обнаружил в запросе клиента синтаксическую ошибку…
      Нужно более подробно смотреть опрашиваемые урлы, пришлите файл посмотреть на andrey@rush-agency.ru

  3. Просьба дать пояснения к галочке «Взять сам текст», и к цифрам. Как я понимаю, первая — это общее количество знаков, а вторая — сколько знаков в plain-тексте.

    1. Первая цифра это количество символов, вторая это количество слов. А галочку «взять сам текст» можно отключить чтобы не записывать в последний столбец текст. Согласен , галочка названа не нативно.

  4. Просьба пояснить ошибки:
    1. В первой ячейке «OK», но текста нет.
    2. ‘, hexadecimal value 0x03, is an invalid character.
    3. OK code 300 (здесь, кажется, разобрался: инструмент не воспринимает прописные буквы, хотя даже бертал отдаёт код 200)
    4. ConnectionClosed code 400
    5. ProtocolError code 400
    6. SendFailure code 400
    7. SecureChannelFailure code 400
    8. «», шестнадцатеричное значение 0x03, является недопустимым знаком.
    9. После этой операции состояние объекта XmlReader должно иметь значение EndOfFile.
    10. «class» является повторяющимся именем атрибута.
    11. ServerProtocolViolation code 400

    Со 2 по 11 пункты идут ошибки.

    1. Большое спасибо за найденные ошибки. Я скопировал себе все URL которые вы предоставили (из вашего комментария я их вырезал по соображениям seo-шной этики) и попробовал запустить plaine text.
      У меня результаты несколько отличаются, может у меня другая версия, это не важно так как ошибок все равно много.
      Ошибки при запросе url
      Часть ошибок связаны с некорректной обработкой punycode , часть связана с тем что мой инструмент не умеет ходить по редиректам, часть связана с разными версиями протокола TLS у сервера и клиента.

Комментирование закрыто, спасибо всем за помощь в разработке программы.