В этой записи я расскажу о том, как сделать правильный robots.txt для своего сайта на Даталайф.
Откуда проблемы?
Имея кучу сайтов на DLE, сталкиваешься с одинаковыми проблемами: к примеру, Яндекс проиндексировал печатные версии страниц (url вида print:…), конечно же, Сапа не видит их. А Яндексу они приятнее, так как всякого мусора на них меньше: только контент. Или же Яндекс индексирует ссылки вида «my-dle-site/user/ya-spamer», на которых куча внешних ссылок в профилях и никакого контента.
Вообще, причины вспомнить о robots.txt могут быть разными, к примеру, в этом заветном файле можно передать Sitemap Google'у и Яндексу не заходя в панель вебмастера.
Как сделать правильно?
Почитав и интернете форумы и официальные мануалы поисковиков и сравнивая прочитанное, можно сказать, что люди часто не читают руководств и ошибаются, к примеру, в robots.txt нет директивы «Allow» есть только «Disallow» :)
Для начала давайте выясним, чего мы хотим от нашего файла:
- Хорошая индексируемость нужных страниц ПС
- Отсутствие ненужных страниц в индексе ПС (всё равно вылетят из индекса)
- Задание заркала для Яндекса
Лень читать? Возьмите готовый чуть ниже: файл robots.txt для DLE
Если хотите разобраться, тогда давайте по порядку. Это запретит индексировать всем поисковым роботам страницы для печати:
User-agent: *
Disallow: /*print
Уберём из индекса страницы без контента (они рано или поздно всё выпадут) :
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /favorites/
Disallow: /index.php?do=register
Disallow: /?do=lastcomments
Disallow: /statistics.html
По вкусу, и в зависимости от уровня Вашей паранои можно добавить также:
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews
Disallow: /index.php?do=register
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?subaction=newposts
Теперь любезно добавляем Sitemap для Поисковых систем. Вы наверняка прекрасно знаете, насколько он полезен для индексации Вашего сайта.
Идём в админку -> другие разделы -> в самом низу заходим в «Google Sitemap«. Оставляем все настройки по умолчанию и жмём «создать/обновить». Сверху должна появиться надпись вида «25.01.2009 10:37 файл индекса для Google Sitemap был создан и доступен по адресу: http://my-dle-site.ru/sitemap.xml«. Теперь даём знать о нём поисковикам:
Sitemap: http://my-dle-site.ru/sitemap.xml
И добавляем основное зеркало для Яндекса, чтобы не было недоразумений с его стороны) Идём по адресу: http://yandex.ru/yandsearch?serverurl=my-dle-site.ru
и смотрим, как проиндексирован Ваш сайт с www или без. Добавляем в robots.txt директиву вида:
User-agent: Yandex
Host: my-dle-site.ru
my-dle-site.ru, если сайт в индексе без www, и наоборот. Если сайт ещё не проиндексирован Яшей, то указывайте так, как Вам больше нравится видеть Ваш сайт :)
Вот и всё. Правильный robots.txt для ДЛЕ будет выглядеть примерно так:
User-agent: *
Disallow: /*print
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /favorites/
Disallow: /index.php?do=register
Disallow: /?do=lastcomments
Disallow: /statistics.html
Sitemap: http://my-dle-site.ru/sitemap.xml
User-agent: Yandex
Host: my-dle-site.ru
Потратив 5 минут на создание такого файла можно значительно облегчить себе/поисковикам жизнь/работу в дальнейшем.
Интересная и познавательная статья!!!!!
января 26, 2009 at 17:52Quote
Дааааа, много чего не понял че то….. ТИЦ повысить надо
января 26, 2009 at 17:57Quote
Отлично, щас испытаем =)))) Спасибо
января 26, 2009 at 18:01Quote
[...] по материалам SpYeRа [...]
февраля 3, 2009 at 17:28Quote
Привет =) С открытием тебя! Да статья ништяк, стопудоф нужно закрывать некоторые файлы для индексации. Напиши и про WP тож интересно будет почитать, может какие нибудь и внутренние файлы тоже желательно закрыть бы…
февраля 3, 2009 at 22:00Quote
Голова кругом идёт , но что-то из этого мне явно приготдиться !Спасиба афтар!
февраля 5, 2009 at 17:13Quote
Спасибо за статью. Хотел испытать даталайф. возьму на заметку.
февраля 7, 2009 at 13:12Quote
Опча, спасибо за конфигу, всё понятно и доступно, буду прикручивать к себе…
февраля 8, 2009 at 15:46Quote
У меня больше месяца яша не заходит на сайт, нулёвый. :(
марта 11, 2009 at 17:30Quote
Молодец. Все грамотно. robots.txt – неотъемлемая часть сайта.
апреля 11, 2009 at 15:30Quote
Disallow: /addnews.html
Disallow: /index.php?do=lostpassword
Вот это тоже нужно добавить ))
Спайер, когда на сайт захожу, пишет фаерфокс «имеетсья информация, что сайт атакует компьютеры!» (!) ыы!
мая 11, 2009 at 1:54Quote
Вот так выглядит мой файл
июня 3, 2009 at 12:44User-agent: *
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /cache/
Disallow: /favorites/
Disallow: /cgi-bin/
Disallow: /engine/
Disallow: /language/
Disallow: /*print
Disallow: /templates/
Disallow: /uploads/
Disallow: /backup/
Disallow: /languages/
Disallow: /index.php?do=pm
Disallow: /index.php?do=search
Disallow: /index.php?do=register
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=stats
Disallow: /index.php?do=addnews
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /statistics.html
User-agent: *
Allow: /
Sitemap:
User-agent: Yandex
Host: svadbakerch.com
Проиндексировалисб ненужные страницы хотя они запрещены у меня
Disallow: /index.php?do=register
Disallow: /index.php?do=feedback
Почему так произошло ??
Disallow: /templates/
Quote
Спасибо, пригодилось.
Что-то тут у вас спам ботов многовато Xx
reCaptcha не справляется? Или уже после поставили?)
июня 8, 2009 at 6:32Quote
Сергей, это трекбеки…
июня 16, 2009 at 18:38Они пингуют, и оставляют спам.. Никак времени нет заняться блогом…
Quote
Victor,
Во-первых, у файла robots.txt нет директивы «allow» — по умолчанию, всё разрешено.
Вам следует сходить в webmaster.yandex.ru или средства для вебмастеров от Google, и провести анализ вашего robots.txt.
июня 16, 2009 at 18:49Они Вам точно скажут, что не так.
Quote
Спасибо!
июля 8, 2009 at 5:13Quote
Спасибо все четко ничего лишнего
августа 12, 2009 at 18:13Quote
Любой человек, у кого есть сайт на DLE и не только, и без robots.tхt сможет просмотреть то, что ему надо-/index.php?do=register?\statistics.html и так далее, вставляй это в адресную строку после названия сайта и вуаля.. Не вижу вообще смысла запрета этих страниц, если только do=lastcomments, так как в комментах могут спамить. Правда в новостях всё равно коменты, но хоть как то меньше. С другой стороны, за комментами всё равно надо следить, а страница последних комментариев – это своего рода уникальный контент! Зачем же её убирать из индекса?
На счёт /autobackup.php и /admin.php – Люди, вы что?? С ума сошли?? Эти файлы вообще строго рекомендуют переименовать! Даже сами производители CMS! Вы ещё выложите пароль к своей админке)))
Disallow: /*print – вообще отдельный разговор. Если вам не нужна страница для печати, то лучше вообще уберите ссылку на неё, и в индексе она не будет, дабы не терять вес основных страниц.
августа 16, 2009 at 14:47Quote
Ну еще можно для Яши поставить
сентября 9, 2009 at 3:32crawl-delay: 0.5
По идее быстрее будет индексировать, но от хостинга зависит..
Quote
Спасибо за инфу. У меня у самого DLE ваша статья как раз к спеху.
ноября 13, 2009 at 0:04Quote
Спасибо, всё понятно и доступно объяснено:), как раз, то что искал!
ноября 22, 2009 at 18:31Quote
А зачем запрещать индексацию xml карты
декабря 11, 2009 at 21:30Quote
Карта не запрещается к индексации, наоборот сообщается роботу, где она лежит.
декабря 12, 2009 at 5:49Quote
Адрес сайта состоит из 2-х слов, прописаны с маленькой буквы, а проиндексирован в яше с большой буквы каждое слово, как писать так Host: my-site.ru или так Host: My-Site.ru
декабря 25, 2009 at 17:15Quote
maloy282,
декабря 25, 2009 at 18:59скорее всего второе, но регистр сайта ведь устанавливается в панели вебмастера.
Quote
[...] Используем robot.txt Почитать советую вот эту статью. Рубрика: Dle Комментировать (0) 2 января [...]
января 3, 2010 at 20:25Quote
А через что делать карту сайта??
февраля 3, 2010 at 23:44Quote
«Victor,
февраля 20, 2010 at 2:41Во-первых, у файла robots.txt нет директивы «allow» — по умолчанию, всё разрешено.
Вам следует сходить в webmaster.yandex.ru или средства для вебмастеров от Google, и провести анализ вашего robots.txt.
Они Вам точно скажут, что не так.»
А у меня такая же проблема… карта составлена 100% верно, так как на других сайтах ненужные страницы(например: user) в индекс не попадали, а тут вдруг проиндексировал…
Quote
Впервые вижу толковые коментарии Спасибо
февраля 26, 2010 at 22:45Quote
Зачем так много закрываний. Главное за что Яша банит это мало информативные страницы. т.е. это /users/ и Все
марта 28, 2010 at 17:36Quote
Помоему слишком много, домустим users дает отличный трафик с яши, которым я пользуюсь
апреля 3, 2010 at 19:34Quote
Я лично всегда использую стандартный dle т.е без rotots.txt и не разу не замечал за яндексом попыток бана. Правда то что увеличивается страниц во вного раз, а трафа с этих дублированных страниц нет
апреля 12, 2010 at 20:06Quote
» Или же Яндекс индексирует ссылки вида «my-dle-site/user/ya-spamer», на которых куча внешних ссылок в профилях и никакого контента.»
июля 8, 2010 at 0:50Можно детальнее?
Quote
Как то я раньше не пользовался robots.txt, но думаю надо попробовать. Автору спасибо!!!
августа 10, 2010 at 4:33Quote
Полезная статья. Только вот я одного понять не могу. Допустим у меня параноя полная, а может это и не параноя. Но в дле , даннео, жумла и некоторых других движках есть беда извченая : ПС индексируют превью новостей (ознакомительную часть), потом приходит какая нибудь скотина-школьник (не все школьники такие) и тупо тырикт контент с сайта. А потом ПС завяляет что твой текст неуникальный, а у того …са текст уникальный потому, потому что у него 80% твоей новсоти сидит.
августа 16, 2010 at 20:50Quote
Только когда забанят будет позно.
августа 16, 2010 at 20:51Quote
Огромное спасибо за статью! Недавно делал свой первый сайт об аудиокнигах, и долго ломал голову, как правильно оставить robots.txt.
августа 17, 2010 at 2:35Еще раз огромное спасибо!
Quote
Как закрыть от индексации user ?
сентября 29, 2010 at 19:02Quote
Disallow: /user/
сентября 30, 2010 at 10:56Quote
Круто! Мне очень понравилось – достаточно доходчиво!
октября 12, 2010 at 17:07Quote
Хорошая статья,нужно подумать над этим вопросом!
декабря 13, 2010 at 11:41Quote
Вот именно такой роботс я себе и сделаю!
декабря 18, 2010 at 16:05Спасибо за консультацию.
Quote
А для ДЛЕ нет случайно такого плагина как в ВП All in One SEO Pack?
января 27, 2011 at 18:28Quote
«Потратив 5 минут на создание такого файла…»
марта 17, 2011 at 17:49Я потратил гораздо меньше времени, просто скопировав приведенный автором вариант файла robots.txt. За что хочу сказать большое спасибо.
Заметил, что Гугл проиндексировал очень много «версий для печати» на сайте. Набрал в нем же «robots.txt для dle» и ваш сайт на первом месте ;)
Quote