Как проверить файл Robots.txt

В текстовом файле robots.txt записывается информация в виде директив для поисковых систем с указанием какие страницы подлежат индексации, а какие файлы - страницы исключаются от индексации.

В текстовом файле robots.txt отдельно прописываются директивы для поисковой системы Яндекс и отдельно для других поисковых систем.

Проверить правильность составления файла robots.txt, уточнить его редакцию для поисковой системы Яндекс очень просто и удобно, сам поисковик Яндекс предлагает инструмент для проверки файла robots.txt и проверки любой странички или сразу всех страниц на предмет их индексации Яндексом.



Заходим на сервис Яндекса Анализ robots.txt. Вводим название блога или сайта. Нажимаем кнопку загрузки файла robots.txt для проверки и тестирования. В нижнем поле вводим адреса страниц на проверку возможности их индексации. По результатам проверки админ может сделать соответствующие выводы - индексируются его публикации или нет.




Запись опубликована в рубрике БЛОГ в деталях с метками . Добавьте в закладки постоянную ссылку.

55 комментариев: Как проверить файл Robots.txt

  1. БериМакс говорит:

    для ответа мне нужно время на
    анализ, отвечу здесь

  2. Pavel говорит:

    Сергей здравствуйте! Я проверил робота, как указано в Вашей статье. Сначала вышла запись один в один, как у Татьяны (комент. 03.11.2012 в 21:41). Затем я выполнил совет Романа (комент. 16.08.2012 в 07:34) перекодировал в UTF-8 (без BOM). После этого проверил робота снова, при этом никаких записей при проверке не было выдано. Это значит, что робот нормально составлен, или как определить, что результат достигнут??

    • БериМакс говорит:

      Павел, привет!
      Тексты на вашем сайте не анализировал
      (это разговор серьёзный и отдельный),
      но файл robots.txt посмотрел.
      Ваш роботс — сплошная ошибка, все
      директивы записаны непрерывным текстом,
      «лучше не иметь никакого, чем такой».
      Возьмите за образец мою редакцию
      robots.txt в комментах от 10 мая,
      увы не каждому удаётся разобраться
      в простых правилах составления директив.
      ========
      Вопрос: как проверить файл robots.txt?
      Ответ:
      1. Для проверки robots.txt нужно
      приготовить список (в столбик) реальных
      адресов страниц и перейти в вебмастере
      по ссылке проверки файла robots.txt.
      2. В одном поле указываете свой домен,
      во втором поле либо откроется уже
      залитый роботс, либо можно в этом окне
      провести эксперимент и ввести ваш
      проектируемый роботс.
      3. Активируете проверку тех страниц,
      которые приготовили, адреса этих
      страниц вводятся в третьем окне.
      4. После мгновенной проверки вам
      будет доступен результат тестирования
      на предмет индексации.
      4. Ваши эксперименты должны завершиться
      заливкой на свой сайт того варианта
      директив robots.txt,
      который вы сочтёте для себя актуальным.

  3. Даниил говорит:

    Спасибо! Всё очень доходчиво, и многое прочёл в комментариях. Остаётся вопрос: как же всё-таки лучше избавляться с помощью файла robots.txt или же с помощью 301 редиректа или тега canonical? Что меня всегда смущает: закрыть страницу для индексации не значит закрыть её вообще для доступа…. Порой именно через файл robots.txt злоумышленник и может получить доступ к ней.

    • БериМакс говорит:

      Что касается закрытия страниц сайта
      от индексации, то могу высказать своё
      личное мнение.
      Факт публикации информации в сети
      интернет — это есть публичная доступность
      этой информации.

      Соответственно,
      опубликованные записи будут в индексе
      поисковиков.
      Файл robots.txt не призван быть
      «сейфом» закрытой информации на сайте.
      Файл robots.txt — это текстовый файл
      с инструкциями (директивами) по
      индексации конкретных групп страниц.
      Как правило, директивами закрываются
      от индексации технические дубли
      страниц на сайте.
      Хотя есть один нюанс:
      если вы дубли доступа не закрывали,
      то вы эти дубли в перечне свих
      страниц в индексе и не найдёте.

  4. Миха говорит:

    Как разрешить к индексации в robots.txt только одну главную страницу сайта, если в ней нет ни префикса /, ни имени файла, ни его расширения?

    • БериМакс говорит:

      С моей точки зрения вопрос не корректен.
      Вы желаете разрешить индексацию только
      главной страницы, а всё остальное от
      индексации закрыть.
      Дело в том, что сама по себе главная
      страница сайта не представляет интереса
      для поисковых систем.
      Причина простая — лишь страницы сайта
      с оригинальным контентом интересуют
      поисковые системы.
      Главная сайта — это всего лишь привязка
      адреса страниц сайта к своему домену.
      Очень редко, но бывает такое, что
      в поисковой выдаче есть ссылка на главную.
      Это означает лишь одно, что большинство
      страниц соответствуют семантическому ядру
      по продвигаемым поисковым запросам.

      • Миха говорит:

        Не совсем так.
        Robots.txt сейчас выглядит так:
        Disallow: /
        Allow: /forum/
        То есть существует открытая к индексации директория, но при этом главная страница закрыта. Хочется ее тоже открыть для поисковиков.

        • БериМакс говорит:

          Миха, все мыслимые и немыслимые
          эксперименты по составлению директив
          файла robots.txt (в хорошем смысле)
          можно легко выполнить и тут же проверить,
          увидеть результат и при необходимости
          внести корректировки в директивы прямо
          на Яндекс.Вебмастере.
          Там есть соответствующая форма.
          После отладки директив нужно полученный
          в муках robots.txt залить на свой хост.
          В любом случае нужно иметь ввиду,
          что запрет индексации директивами
          роботс не является защитой страниц
          от индексирования.
          Это рекомендации правильным ботам.
          Индексируется и хранится вечно всё,
          что попало в сеть.

  5. Ольга говорит:

    Сергей , посмотрите, пожалуйста, мой роботс, что в нем не так!

    • БериМакс говорит:

      Файл robots.txt можете довести до «совершенства»,
      если прочитаете мои комменты от 10 мая в статье
      об актуальном файле

  6. Татьяна говорит:

    Здравствуйте, Сергей. Моему блогу чуть больше месяца. robots.tst поставлен давно, но блог до сих пор не проиндексирован. Проверила по Вашему совету на яндексе. Ответ такой
    21-40
    User-agent: Yandex
    Disallow: /wp-login.php

    Host:
    42-43
    Sitemap: http: ///sitemap.xml.gz
    Sitemap: http: ///sitemap.xml
    Подскажите, в чем ошибка? И что мне делать?

    • БериМакс говорит:

      Советую для нашего предметного разговора
      прочитать статью в свежих записях
      об актуальном файле robots.txt и
      обязательно ознакомиться с
      комментрариями к статье (там и ответ)

  7. Михаил говорит:

    Как узнать есть ли файл robots.txt на сайте

    • БериМакс говорит:

      Увидеть файл robots.txt легко:
      в командной строке браузера нужно
      набрать имя домена и через слеш
      набрать слово «robots.txt»
      и нажать ввод ;)
      Для вашего сайта будет так:
      spravochnaya.com.ua/robots.txt

  8. Дарья Янцинова говорит:

    Здравствуйте! Помогите пожалуйста разобраться.
    При проверке в яндексе выходит вот такая ошибка:
    1: ?User-agent: * Обнаружена неизвестная директива
    2: Disallow: /wp-login.php Перед правилом нет директивы User-agent

    Яндекс проиндексировал только главную страницу,
    проверяла на фильтр и на бан, но этого всего нет,
    значит проблема, скорее всего, в роботе

    • БериМакс говорит:

      Я сократил текст вашего вопроса…
      Ответы.
      Файл robots.txt в комменте не соответствует
      залитому на хостинге. Почему вы это сделали?
      Что касается ответа Яндекса, то вторая строчка
      идёт как следствие первого замечания.
      А в первой строчке, возможно вы допустили
      ошибку при тестировании (допустим применили
      несколько пробелов, и т.п.)
      Советую не изобретать велосипед, а прочитать
      мою статью об актуальном robots.txt и применить
      для своего сайта…
      =========
      Интересно, как вам удалось провести проверку
      на фильтры и бан? За это нужно присуждать
      Нобелевскую премию! ;)

    • Роман говорит:

      Дарья, скачайте свой robots.txt на компьютер, откройте не в обычном блокноте, а в Notepad++ в верхнем меню «Кодировки» выберите пункт «Кодировать в UTF-8 (без BOM)», сохраните и залейте обратно в корень сайта. Проверьте в яндекс анализе robots.txt, всё должно быть хорошо. По крайней мере мне помогло.

  9. Ирина говорит:

    Здравствуйте, Сергей! В процессе борьбы с битыми ссылками проверила robot. Сравнила результаты проверки robot.txt Вашего и моего сайтов. Разницы не нашла, правда у Вас строк больше, но это на работу файла не влияет.
    Но скажите откуда возьмутся ошибки в этом файле, если мы его взяли из школы, поставили вручную и больше не правили? В школе точно сказали — поставьте и забудьте. Так и было сделано. Почему мы опять к нему возвращаемся? Или я чего-то совсем не понимаю.

  10. Людмила говорит:

    Доброго времени суток.Я тоже новичок в этом деле,но хочется все сделать правильно,можете мне какой то совет дать по сайту моему.Заранее спасибо.

  11. Владимир говорит:

    Что-то стало проясняться. По проверке robots.txt на Яндексе:

    21-40
    User-agent: Yandex
    Disallow: /wp-login.php

    Host: vhod-vyhod.com
    42-43
    Sitemap: http: //vhod-vyhod.com/sitemap.xml.gz
    Sitemap: http: //vhod-vyhod.com/sitemap.xml
    и еще:
    1: ?User-agent: *

    2: Disallow: /wp-login.php

    Т.е. робот запрещает индексировать данные, по которым я вхожу в консоль, что-ли? Это вроде бы нормально?
    Да, проверил статьи, Яндекс написал всего 13, а названия показал только 6-ти статей, так сколько же он проиндексировал?

    • БериМакс говорит:

      На самом деле, файл robots.txt скорее рекомендует
      ботам запрет индексации…
      ===
      Там, где /wp — это запрет индексации страниц
      админ панели (консоли)
      ===
      По индексации задайте вопрос чётко…

    • Роман говорит:

      Владимир, с 1: ?User-agent: * и 2: Disallow: /wp-login.php у Вас видимо та-же проблема, что и у Дарьи Янциновой. Смотрите мой ответ с решением Вашей проблемы на несколько комментариев выше.

  12. Геннадий говорит:

    Сергей! Огромное Вам спасибо за реакцию на мой вопрос! Просмотрел рекомендованные Вами материалы, и туман начал рассеиваться. Снимаю перед Вами шляпу! К Вам такое количество вопросов! Как Вы успеваете! Успехов Вам!

  13. Юлия говорит:

    Ничего не поняла, проанализировала свой роботс в Яндексе, вот что выдало:

    Используемые секции
    Строка
    16-30
    User-agent: Yandex
    Crawl-delay: 4

    Host: moypodrostok.ru
    32-33
    Sitemap: http:// moypodrostok.ru/sitemap.xml.gz
    Sitemap: http:// moypodrostok.ru/sitemap.xml

    И что это значит? Подскажите, пожалуйста, у меня проблемы?

    • БериМакс говорит:

      У вас залит школьный файл robots.txt (в принципе, рабочий)…
      Если хотите закрыть от индексации дубли доступа,
      то нет директивы запрета индексации архивов…
      Цифры — это порядковые строчки файла (по отчёту)…
      =========
      Ошибок не видно, либо спросите конкретно

      • Юлия говорит:

        Архивы закрыла, спасибо вам, а вот оптимизировать базу данных, видимо, не смогу, а очень нужно уже, там такой ужас…

  14. елена говорит:

    Здравствуйте! И опять я к вам пришла! Дерективу Disallow: /wp-includes- пробовала удалять, и никаких изминений нет. в чем может быть проблема? в интернете многие ищют как это исправить, я нигде ненашла. может robots.txt- другой надо ? И ПОЧЕМУ ЗАПРЕЩЕННЫЙ ПИШУТ?

    • БериМакс говорит:

      Елена,
      я посмотрел ваш файл robots.txt…
      Кто вам рекомендовал именно такой?
      Удалите директиву Disallow: /wp-includes -
      и ничего не изменится для вашего сайта.
      =================
      Файл robots.txt содержит рекомендательные правила индексации сайта.
      Я лично не тестировал все возможные варианты
      написания директив, на это нужно иметь много
      времени.
      Конкретный файл robots.txt для конкретного сайта -
      это техническое творчество админа! ;)
      О директивах robots.txt есть много информации
      в Яндекс.Вебмастер

  15. елена говорит:

    проверила на яндексе, подскажите,что это значит?
    анализ:
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    Sitemap: http ://krasotka-da.ru/sitemap.xml.gz

    • БериМакс говорит:

      Полагаю, вы хотели спросить о директивах
      файла robots.txt:
      User-agent: * (звёздочка означает — для всех поисковиков)
      Disallow: (этой директивой запрещается индексация
      указанных папок, если хотите увидеть какие
      папки запрещены, то наберите в браузере
      http ://ИМЯСАЙТА/wp-includes/
      и сами всё увидете
      ;) )
      Sitemap: http ://ИМЯСАЙТА/sitemap.xml.gz (это архив карты сайта)

      • елена говорит:

        сервис http ://www.cy-pr.com- нашёл много ошибок,
        как их исправлять?
        где можно узнать какие ошибки?

      • елена говорит:

        спасибо вам! какой-то запрет получается вот тут:
        http ://krasotka-da.ru/wp-includes/
        мне непонятно

        • БериМакс говорит:

          Елена, Вы молодец — пытливый админ, пойдёте ДАЛЕКО! ;)
          ===========================================
          Откуда мы все взяли шаблон файла robots.txt?
          Правильно… — в школе, и сказали нам поставить и забыть…
          На самом деле и на моём блоге эта директива указана:
          Disallow: /wp-includes/
          Эту директиву нужно убрать, если на вашем сайте
          она не работает ;)
          Вы первая из админов, кто об этом спросил ;)
          А я ещё не по всем директивам высказал своё мнение
          или опубликовал пост, всё ещё впереди…

  16. Игорь говорит:

    Спасибо,Сергей,за указанные недочеты,надеюсь на дальнейшее сотрудничество

  17. Nina говорит:

    Я так понимаю,
    что корневой каталог моего сайта это тот, который на хостинге?

  18. Nina говорит:

    Загрузила robots.txt на хостинге.
    А когда ввожу в поисковую строку вижу то же,
    что было раньше.
    Будьте добры, посмотрите, что я сделала не так.
    Заранее благодарю.

  19. Nina говорит:

    Здравствуйте, Сергей. Почитала Ваши рекомендации, но так как я абсолютный «чайник», то и не могу многое из рекомендуемого Вами осуществить. Я понимаю, что это для кого-то элементарно, а для меня… Я не понимаю как файл с именем «robots.txt» загрузить в корневой каталог моего сайта. Если можно, объясните мне простым языком. В интернете читаю об этом и ничего не понимаю. Простите еще раз, но на Вас последняя надежда. Спасибо, благодаря Вам теперь знаю, почему не индексируются страницы.

    • БериМакс говорит:

      Нина, привет!
      Рекомендую пройти по ссылке и внимательно
      шаг за шагом ознакомиться с моими советами.
      Всё, чего не найдёте в текстах, дополняется
      в видео.
      Появятся вопросы — задавайте ТАМ ;)
      Вот ссылка на КУРС молодого админа:
      http://berimaksimum.ru/oshibki-na-sayte

  20. Дмитрий говорит:

    Доброго времени суток, Сергей! Есть такой вопрос. При загрузке с компьютера шаблона (скачанного с WP) на сайт, сначала было сообщение что необходимых плагинов не установлено. После их установки — полн. компл. по Вашей рекомендации: Akismet, All in One SEO Pack,Blog Protector,Customize Meta Widget,
    Cyr-To-Lat 3.2,Dagon Design Sitemap Generator,Favicons,FeedBurner FeedSmith,
    Google XML Sitemaps,LiveJournal Crossposter Remix,NSx Referers,Russify Comments Number,RusToLat,Smart Update Pinger,socialbuttons,Social Share Buttons,Subscribe To Comments,Terms Descriptions,TweetMeme Retweet Button,
    Top Commenters Gravatar,Why do work Adsense,WordPress Database Backup,
    WP Cache,WP e-Commerce,WP Most Commented Posts,WP-PageNavi,
    wp_stem_ru,Yet Another Related Posts Plugin,ОднаКнопка, — сообщение:
    Распаковка пакета…
    Установка плагина…
    Пакет не может быть установлен. Подходящих плагинов не найдено.
    Плагин не удалось установить.
    И так, — любая тема.???

    • БериМакс говорит:

      Дмитрий, привет!
      Ни о каких пакетах плагинов я не говорил…
      Приведён лишь перечень необходимых плагинов…
      Каждый админ, исходя из собственных планов, ставит необходимые
      ему плагины.
      Плагины мы ищем по их описанию и по названию…
      Знаешь название — легко закачать из консоли…
      Каждый плагин из моего списка советов ставится по его названию
      из консоли
      ,
      ставится каждый плагин по одиночке и сразу
      желательно выполнить настройки установленного плагина…

  21. Ерлан говорит:

    Спасибо Сергей, я то думаю, у меня Тиц нулевой, потому что статей мало и комментариев и обратных ссылок на сайт, а тут у меня огромная проблема как у Татьяны ни одна страница не проиндексирована. Я то когда проверял индексацию в гугле и яндексе, все удивлялся, почему там, только ссылка на главную страницу. Еще раз огромное спасибо, будем исправлять.

  22. Татьяна говорит:

    Сергей, я проверяла файл robots.txt на яндексе, у меня вообще нет проиндексированных страниц, даже главной :(
    Сначала я думала, может я все-таки что-нибудь не правильно делаю?
    Читаю комментарии, возможно я тороплюсь, а надо набраться терпения.

    • БериМакс говорит:

      Татьяна, был только — что на вашем блоге…
      У ВАС на блоге большие проблемы, но их можно исправить.
      Прочитайте все статьи по файлу robots.txt и особенно о связи этого
      файла и плагина «ЦИРТУЛАТ» — УРЛЫ ваших статей запрещены
      для индексации директивой файла robots.txt,
      у вас прописана вот такая директива — Disallow: /*?*

  23. Тимур говорит:

    Спасибо за информацию.
    Вы не могли бы подробнее объяснить (желательно в отдельной статье) как можно сделать свои страницы индексируемыми для Яндекса.
    Я делал файл robots.txt по шаблону (описаному в одной из ваших статей), но все-равно индексируется только главная страница.
    Заранее благодарю.

    • БериМакс говорит:

      Тимур, если были ошибки и устранены,
      если файл robots.txt составлен корректно для Яндекса,
      то индексация страниц Яндексом вернётся недели через три,
      и будет происходить медленно.
      Это я уже знаю по своему опыту.
      Я посмотрел аналитику Вашего блога, у Вашего блога
      проиндексировано уже 7 страниц, было 1,
      индексация возвращается, всё будет хорошо!
      Публиковать отдельно статью не вижу необходимости.
      Файлу robots.txt посвятил три публикации. Единственное и
      очень важное замечание — каждому админу рекомендую прочесть
      первоисточник от Яндекса по всем вопросам о файле robots.txt.
      Читать первоисточник от Яндекса:
      http://help.yandex.ru/webmaster/?id=996567

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>