Robots txt що таке. Як редагувати файл robots txt

Доброго дня, шановні читачі блогу «Світ Вебмайстра»!

Файл robots.txt- це дуже важливий файл, що безпосередньо впливає на якість індексації вашого сайту, а значить і на його пошукове просування.

Саме тому ви повинні вміти правильно оформляти роботс.тхт, щоб випадково не заборонити до індексу якісь важливі документи інтернет-проекту.

Про те, як оформити файл robots.txt, який синтаксис потрібно використовувати при цьому, як дозволяти і забороняти до індексу документи, і йтиметься у цій статті.

Про файл robots.txt

Спочатку давайте докладніше дізнаємося, що це за файл такий.

Файл Роботс – це файл, який показує пошуковим системам, які сторінки та документи сайту можна додавати до індексу, а які – не можна.Він необхідний через те, що пошукові системи намагаються проіндексувати весь сайт, а це не завжди правильно. Наприклад, якщо ви створюєте сайт на движку (WordPress, Joomla і т.д.), то у вас будуть присутні папки, які організовують роботу адміністративної панелі. Зрозуміло, що інформацію в цих папках індексувати не можна, саме в цьому випадку використовується файл robots.txt, який обмежує доступ пошукових систем.

Також у файлі роботс.тхт вказується адреса картки сайту (вона покращує індексацію пошуковими системами), а також головний домен сайту (головне дзеркало).

Дзеркало- Це абсолютна копія сайту, тобто. коли один сайт , то кажуть, що один із них – це головний домен, а інший – його дзеркало.

Таким чином, у файлу досить багато функцій, причому важливих!

Синтаксис файлу robots.txt

Файл роботс містить блоки правил, які говорять тій чи іншій пошуковій системі, що можна індексувати, а що ні. Блок правил може бути і один (для всіх пошукових систем), але також їх може бути кілька – для якихось конкретних пошукових систем окремо.

Кожен блок починається з оператора «User-Agent», який вказує, до якої пошукової системи застосовні дані правила.

User-Agent:A
(Правила для робота "А")

User-Agent:B
(Правила для робота "В")

У прикладі вище показано, що оператор User-Agent має параметр - ім'я робота пошукової системи, до якої застосовуються правила. Основні з них я вкажу нижче:

Після User-Agent йдуть інші оператори. Ось їх опис:

Для всіх операторів справедливий один синтаксис. Тобто. оператори потрібно використовувати так:

Оператор1: параметр1

Оператор2: параметр2

…

Таким чином, спочатку ми пишемо назву оператора (неважливо, великими або маленькими літерами), потім ставимо двокрапку і через пропуск вказуємо параметр даного оператора. Потім з нового рядка так само описуємо оператор два.

Важливо! Порожній рядок означатиме, що блок правил для даного пошукача закінчено, тому не поділяйте оператори порожнім рядком.

Приклад файлу robots.txt

Розглянемо простий приклад файлу robots.txt, щоб краще розібратися в особливостях його синтаксису:

User-agent: Yandex
Allow: /folder1/
Disallow: /file1.html
Host: www.site.ru

User-agent: *
Disallow: /document.php
Disallow: /folderxxx/
Disallow: /folderyyy/folderzzz
Disallow: /feed/

Sitemap: http://www.site.ru/sitemap.xml

Тепер розберемо наведений приклад.

Файл складається з трьох блоків: перший для Яндекса, другий для всіх пошукових систем, а в третьому вказана адреса картки сайту (застосовується автоматично для всіх пошукових систем, тому вказувати «User-Agent» не потрібно). Яндексу ми дозволили індексувати папку folder1 і весь її вміст, але заборонили індексувати документ file1.html, що знаходиться в кореневому каталозі на хостингу. Також ми вказали головний домен сайту яндекс. Другий блок – для всіх пошукових систем. Там ми заборонили документ "document.php", а також папки "folderxxx", "folderyyy/folderzzz" та "feed".

Зверніть увагу, що ми заборонили в другому блоці команд до індексу не всю папку folderyyy, а лише папку всередині цієї папки - folderzzz. Тобто. ми вказали повний шлях для “folderzzz”. Так завжди потрібно робити, якщо ми забороняємо документ, що знаходиться не в кореневому каталозі сайту, а всередині інших папок.

Створення займе менше двох хвилин:

Створений файл роботів можна перевірити на працездатність в панелі вебмайстрів Яндекса. Якщо у файлі раптом виявляться помилки, то індекс це покаже.

Обов'язково створіть файл robots.txt для вашого сайту, якщо його у вас досі немає. Це допоможе розвиватися вашому сайту у пошукових системах. Також можете почитати ще одну нашу статтю про метод мета-тегів і.htaccess.

Доброго дня, шановні друзі! Усі ви знаєте, що пошукова оптимізація – справа відповідальна та тонка. Потрібно враховувати абсолютно кожну дрібницю, щоб отримати прийнятний результат.

Сьогодні ми поговоримо про robots.txt – файл, який знайомий кожному вебмайстру. Саме в ньому прописуються всі основні інструкції для пошукових роботів. Як правило, вони із задоволенням дотримуються вказаних вказівок і у разі неправильного складання відмовляються від індексації веб-ресурсу. Далі я розповім вам про те, як складати правильний варіант robots.txt, а також як його налаштувати.

У передмові я вже описав, що таке. Тепер розповім, навіщо він потрібний. Robots.txt – невеликий текстовий файл, який зберігається у корені сайту. Він використовується пошуковими системами. У ньому чітко прописані правила індексації, тобто які розділи сайту потрібно індексувати (додавати у пошук), а які – ні.

Зазвичай, від індексації закриваються технічні розділи сайту. Зрідка до чорного списку потрапляють унікальні сторінки (копіпаст політики конфіденційності тому приклад). Тут же роботам пояснюються принципи роботи з розділами, які потрібно індексувати. Дуже часто прописують правила для кількох роботів окремо. Про це ми й поговоримо далі.

При правильному налаштуванні robots.txt ваш сайт гарантовано зросте у позиціях пошукових систем. Роботи враховуватимуть лише корисний контент, обділяючи увагою дубльовані чи технічні розділи.

Створення robots.txt

Щоб створити файл, достатньо скористатися стандартним функціоналом операційної системи, після чого вивантажити його на сервер через FTP. Де він лежить (на сервері) здогадатися нескладно – докорінно. Зазвичай, ця папка називається public_html.

Ви легко зможете потрапити в неї за допомогою будь-якого FTP-клієнта (наприклад, ) або вбудованого файлового менеджера. Звичайно, ми не завантажуватимемо на сервер порожній роботс. Впишемо туди кілька основних директив (правил).

User-agent: *
Allow: /

Використовуючи ці рядки у своєму файлі robots, ви звернетесь до всіх робіт (директива User-agent), дозволивши їм індексувати ваш сайт повністю і повністю (включаючи всі технічні сторінки Allow: /)

Звичайно ж, такий варіант нам не дуже підходить. Файл буде не дуже корисним для оптимізації під пошукові системи. Він безумовно потребує грамотного настроювання. Але перед цим ми розглянемо всі основні директиви та значення robots.txt.

Директиви

User-agent	Одна з найважливіших, т. к. показує яким роботам слідувати правилам, що йдуть за нею. Правила враховуються до наступного User-agent у файлі.
Allow	Дозволяє індексацію будь-яких блоків ресурсу. Наприклад: "/" або "/tag/".
Disallow	Навпаки, забороняє індексацію розділів.
Sitemap	Шлях до карти сайту (у форматі xml).
Host	Головне дзеркало (з www або без, або якщо у вас є кілька доменів). Тут же вказується захищений протокол https (за наявності). Якщо у вас стандартний http, його не потрібно вказувати.
Crawl-delay	З її допомогою ви зможете встановити інтервал відвідування та завантаження файлів вашого сайту для роботів. Допомагає зменшити навантаження на хост.
Clean-param	Дозволяє вимкнути індексацію параметрів на тих чи інших сторінках (на кшталт www.site.com/cat/state?admin_id8883278). На відміну від попередніх директив, тут вказуються 2 значення (адреса і сама параметр).

Це всі правила, які підтримуються флагманськими пошукачами. Саме з їх допомогою ми будемо створювати наш роботс, оперуючи різними варіаціями для різних видів сайтів.

Налаштування

Для грамотного налаштування файлу роботів нам потрібно точно знати, які розділи сайту повинні бути проіндексовані, а які – ні. У випадку з простим односторінником на html+css нам достатньо прописати кілька основних директив, таких як:

User-agent: *
Allow: /
Sitemap: site.ru/sitemap.xml
Host: www.site.ru

Тут ми вказали правила та значення для всіх пошукових систем. Але краще додати окремі директиви для Гугла та Яндекса. Виглядатиме це так:

User-agent: *
Allow: /

User-agent: Yandex
Allow: /
Disallow: /politika

User-agent: GoogleBot
Allow: /
Disallow: /tags/

Sitemap: site.ru/sitemap.xml
Host: site.ru

Тепер на нашому html-сайті індексуватимуться абсолютно всі файли. Якщо ми хочемо виключити якусь сторінку або картинку, нам необхідно вказати відносне посилання на цей фрагмент у Disallow.

Ви можете використовувати сервіси автоматичної генерації файлів роботів. Не гарантую, що за їх допомогою ви створите ідеально правильний варіант, але як ознайомлення можна спробувати.

Серед таких сервісів можна назвати:

З їхньою допомогою ви зможете створити robots.txt в автоматичному режимі. Особисто я украй не рекомендую цей варіант, тому що набагато простіше зробити це вручну, настроївши під свою платформу.

Говорячи про платформи, я маю на увазі всілякі CMS, фреймворки, SaaS-системи та багато іншого. Далі ми поговоримо про те, як настроювати файл роботів WordPress та Joomla.

Але перед цим виділимо кілька універсальних правил, якими можна буде керуватися при створенні та налаштуванні робіт майже для будь-якого сайту:

Закриваємо від індексування (Disallow):

адмінку сайту;
особистий кабінет та сторінки реєстрації/авторизації;
кошик, дані із форм замовлень (для інтернет-магазину);
папку cgi (розташовується на хості);
службові розділи;
скрипти ajax та json;
UTM та Openstat-мітки;
різні параметри.

Відкриваємо (Allow):

картинки;
JS та CSS-файли;
інші елементи, які мають враховуватись пошуковими системами.

Крім цього, в кінці не забуваємо вказати дані sitemap (шлях до карти сайту) та host (головне дзеркало).

Robots.txt для WordPress

Для створення файлу нам потрібно так само закинути robots.txt в корінь сайту. Змінювати його вміст у такому випадку можна буде за допомогою тих самих FTP і файлових менеджерів.

Є і зручніший варіант – створити файл за допомогою плагінів. Зокрема, така функція має Yoast SEO. Правити роботу прямо з адмінки куди зручніше, тому сам я використовую саме такий спосіб роботи з robots.txt.

Як ви вирішите створити цей файл - справа ваша, нам важливіше зрозуміти, які саме директиви там мають бути. На своїх сайтах під керуванням WordPress використовую такий варіант:

User-agent: * # правила для всіх роботів, за винятком Гугла та Яндекса

Disallow: /cgi-bin # папка зі скриптами
Disallow: /? # параметри запитів із домашньої сторінки
Disallow: /wp- # файли самої CSM (з приставкою wp-)
Disallow: *?s= # \
Disallow: *&s= # все, що пов'язано з пошуком
Disallow: /search/ # /
Disallow: /author/ # архіви авторів
Disallow: /users/ # та користувачів
Disallow: */trackback # повідомлення від WP про те, що на вас хтось посилається
Disallow: */feed # фід у xml
Disallow: */rss # та rss
Disallow: */embed # вбудовані елементи
Disallow: /xmlrpc.php # WordPress API
Disallow: *utm= # UTM-мітки
Disallow: *openstat= # Openstat-мітки
Disallow: /tag/ # теги (за наявності)
Allow: */uploads # відкриваємо завантаження (картинки тощо)

User-agent: GoogleBot # для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/
Allow: */uploads
Allow: /*/*.js # відкриваємо JS-файли
Allow: /*/*.css # та CSS
Allow: /wp-*.png # та картинки у форматі png
Allow: /wp-*.jpg # \
Allow: /wp-*.jpeg # та в інших форматах
Allow: /wp-*.gif # /
# працює разом із плагінами

User-agent: Yandex # для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
# чистимо UTM-мітки
Clean-Param: openstat # і про Openstat не забуваємо

Sitemap: # прописуємо шлях до карти сайту
Host: https://site.ru # головне дзеркало

Увага!При копіюванні рядків у файл – не забудьте видалити всі коментарі (текст #).

Такий варіант robots.txt є найбільш популярним серед вебмайстрів, які використовують WP. Чи ідеальний він? Ні. Ви можете спробувати щось додати або, навпаки, прибрати. Але врахуйте, що з оптимізації текстовика роботів нерідкі помилки. Про них ми поговоримо далі.

Robots.txt для Joomla

І хоча в 2018 році Joomla рідко хто використовує, я вважаю, що не можна обділяти увагою цю чудову CMS. При просуванні проектів на Joomla вам обов'язково доведеться створювати файл роботс, інакше як ви хочете закривати від індексації непотрібні елементи?

Як і в попередньому випадку, ви можете створити файл вручну, просто закинувши його на хост, або використовувати модуль для цих цілей. В обох випадках вам доведеться його грамотно налаштовувати. Ось так буде виглядати правильний варіант для Joomla:

User-agent: *
Allow: /*.css?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

User-agent: Yandex
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

User-agent: GoogleBot
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Host: site.ru # не забудьте тут поміняти адресу на свою
Sitemap: site.ru/sitemap.xml # і тут

Як правило, цього достатньо, щоб зайві файли не потрапляли до індексу.

Помилки при налаштуванні

Дуже часто люди припускаються помилок при створенні та налаштуванні файлу роботс. Ось найчастіше зустрічаються з них:

Правила вказані лише для User-agent.
Відсутні Host та Sitemap.
Наявність http-протоколу у директиві Host (треба вказувати лише https).
Недотримання правил вкладеності під час відкриття/закриття картинок.
Не закриті UTM та Openstat-мітки.
Прописування директив host та sitemap для кожного робота.
Поверхневе опрацювання файлу.

Дуже важливо правильно налаштувати цей маленький файл. При допущенні грубих помилок ви можете втратити значну частину трафіку, тому будьте уважні при налаштуванні.

Як перевірити файл?

Для цих цілей краще використовувати спеціальні сервіси від Yandex і Google, тому що ці пошукові системи є найбільш популярними та затребуваними (найчастіше єдино використовуваними), такі пошукові системи як Bing, Yahoo або Rambler розглядати немає сенсу.

Для початку розглянемо варіант із Яндексом. Заходимо у Вебмайстер. Після цього в Інструменти - Аналіз robots.txt.

Тут ви зможете перевірити файл на помилки, а також перевірити в реальному часі які сторінки відкриті для індексації, а які – ні. Дуже зручно.

У Гугла є такий самий сервіс. Ідемо в Search Console. Знаходимо вкладку Сканування, вибираємо Інструмент перевірки файлу robots.txt.

Тут такі самі функції, як і у вітчизняному сервісі.

Зверніть увагу, що він показує мені дві помилки. Пов'язано це з тим, що Google не розпізнає директиви очищення параметрів, які я вказав для Яндекса:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Звертати увагу на це не варто, тому що роботи Google використовують лише правила GoogleBot.

Висновок

Файл robots.txt дуже важливий для SEO оптимізації вашого сайту. Підходьте до його настроювання з усією відповідальністю, тому що при неправильній реалізації все може піти прахом.

Враховуйте всі інструкції, якими я поділився в цій статті, і не забувайте, що вам не обов'язково точнісінько копіювати мої варіанти роботів. Цілком можливо, що вам доведеться додатково розбиратися в кожній директиві, підлаштовуючи файл під свій конкретний випадок.

А якщо ви хочете глибше розібратися в robots.txt та створенні сайтів на WordPress, то я запрошую вас на . На ньому ви дізнаєтеся, як можна без особливих труднощів створити сайт, не забувши оптимізувати його для пошукових систем.

Практично кожен проект, який приходить до нас на аудит або просування, має неправильний файл robots.txt, а нерідко він зовсім відсутній. Так відбувається тому, що при створенні файлу всі керуються своєю фантазією, а не правилами. Розберемо, як правильно скласти цей файл, щоб пошукові роботи ефективно з ним працювали.

Навіщо потрібне налаштування robots.txt?

Robots.txt- це файл, розміщений у кореневому каталозі сайту, який повідомляє робота пошукових систем, до яких розділів та сторінок сайту вони можуть отримати доступ, а до яких немає.

Налаштування robots.txt – важлива частина у видачі пошукових систем, правильно налаштований robots також збільшує продуктивність сайту. Відсутність Robots.txt не зупинить пошукові системи сканувати та індексувати сайт, але якщо цього файлу у вас немає, у вас можуть виникнути дві проблеми:

Пошуковий робот зчитуватиме весь сайт, що «підірве» краулінговий бюджет. Краулінговий бюджет - це кількість сторінок, які пошуковий робот може обійти за певний проміжок часу.

Без файлу robots, пошуковик отримає доступ до чорнових та прихованих сторінок, до сотень сторінок, які використовуються для адміністрування CMS. Він їх проіндексує, а коли справа дійде до потрібних сторінок, на яких представлений безпосередній контент для відвідувачів, закінчиться краулінговий бюджет.

В індекс може потрапити сторінка входу на сайт, інші ресурси адміністратора, тому зловмисник зможе легко їх відстежити і провести атаку ddos або зламати сайт.

Як пошукові роботи бачать сайт із robots.txt і без нього:

Синтаксис robots.txt

Перш ніж почати розбирати синтаксис і налаштовувати robots.txt, подивимося на те, як має виглядати «ідеальний файл»:

Але не варто одразу ж його застосовувати. Для кожного сайту найчастіше необхідні свої налаштування, тому що у всіх у нас різна структура сайту, різні CMS. Розберемо кожну директиву по порядку.

User-agent

User-agent - визначає пошукового робота, який повинен слідувати описаним у файлі інструкціям. Якщо потрібно звернутися одразу до всіх, то використовується значок *. Також можна звернутися до певної пошукової роботи. Наприклад, Яндекс та Google:

За допомогою цієї директиви робот розуміє які файли та папки індексувати заборонено. Якщо ви хочете, щоб весь ваш сайт був відкритий для індексації, залиште значення Disallow порожнім. Щоб приховати весь контент на сайті після Disallow, поставте “/”.

Ми можемо заборонити доступ до певної папки, файлу або розширення файлу. У нашому прикладі, ми звертаємося до всіх пошукових робіт, закриваємо доступ до папки bitrix, search та розширення pdf.

Allow

Allow примусово відкриває для індексування сторінки та розділи сайту. На прикладі вище ми звертаємося до пошукової роботи Google, закриваємо доступ до папки bitrix, search та розширення pdf. Але в папці bitrix ми примусово відкриваємо три папки для індексування: components, js, tools.

Host - дзеркало сайту

Дзеркало сайту – це дублікат основного сайту. Дзеркала використовуються для різних цілей: зміна адреси, безпека, зниження навантаження на сервер і т.д.

Host – одне з найважливіших правил. Якщо прописано це правило, то робот зрозуміє, яке із дзеркал сайту варто враховувати для індексації. Ця директива необхідна для роботів Яндекса та Mail.ru. Інші роботи це правило ігноруватимуть. Host прописується лише один раз!

Для протоколів "https://" та "http://", синтаксис у файлі robots.txt буде різним.

Sitemap - карта сайту

Карта сайту - це форма навігації сайтом, яка використовується для інформування пошукових систем про нові сторінки. За допомогою директиви sitemap ми «насильно» показуємо роботу, де розташована карта.

Символи у robots.txt

Символи, що використовуються у файлі: "/, *, $, #".

Перевірка працездатності після налаштування robots.txt

Після того як ви розмістили Robots.txt на своєму сайті, вам необхідно додати та перевірити його у вебмайстрі Яндекса та Google.

Перевірка Яндекса:

Перейдіть за посиланням .
Виберіть: Налаштування індексування – Аналіз robots.txt.

Перевірка Google:

Перейдіть за посиланням .
Виберіть: Сканування - інструмент перевірки файлу robots.txt.

Таким чином ви зможете перевірити свій robots.txt на помилки і внести необхідні налаштування, якщо потрібно.

Вміст файлу необхідно писати великими літерами.
У директиві Disallow потрібно вказувати лише один файл або директорію.
Рядок «User-agent» не повинен бути порожнім.
User-agent завжди має йти перед Disallow.
Не слід забувати прописувати слеш, якщо потрібно заборонити індексацію директорії.
Перед завантаженням файлу на сервер обов'язково потрібно перевірити його на наявність синтаксичних та орфографічних помилок.

Успіхів вам!

Відеоогляд 3 методів створення та налаштування файлу Robots.txt

Robots.txt – це текстовий файл, який містить параметри індексування сайту для роботів пошукових систем.

Яндекс підтримує такі директиви:

Директива	Що робить
User-agent *
Disallow
Sitemap
Clean-param
Allow
Crawl-delay

Директива	Що робить
User-agent *	Вказує на робота, для якого діють перелічені у robots.txt правила.
Disallow	Забороняє індексувати розділи або окремі сторінки сайту.
Sitemap	Вказує шлях до файлу Sitemap, який розміщено на сайті.
Clean-param	Вказує роботу, що URL-адреса сторінки містить параметри (наприклад, UTM-мітки), які не потрібно враховувати при індексуванні.
Allow	Дозволяє індексувати розділи або окремі сторінки сайту.
Crawl-delay	Задає роботу мінімальний період часу (у секундах) між закінченням завантаження однієї сторінки та початком завантаження наступної.

* Обов'язкова директива.

Найчастіше вам знадобляться директиви Disallow, Sitemap та Clean-param. Наприклад:

User-agent: * #вказуємо, для яких роботів встановлені директиви\nDisallow: /bin/ # забороняє посилання з \"Кошики з товарами\".\nDisallow: /search/ # забороняє посилання сторінок вбудованого на сайті пошуку\nDisallow: /admin / # забороняє посилання з панелі адміністратора\nSitemap: http://example.com/sitemap # вказуємо роботу на файл sitemap для сайту\nClean-param: ref /some_dir/get_book.pl

Роботи інших пошукових систем та сервісів можуть інакше інтерпретувати директиви.

Примітка. Робот враховує регістр у написанні підрядків (ім'я або шлях до файлу, ім'я робота) та не враховує регістр у назвах директив.

Використання кирилиці

Використання кирилиці заборонено у файлі robots.txt та HTTP-заголовках сервера.

Вітаю Вас друзі та передплатники мого блогу. Сьогодні на порядку денному Robots.txt, все, що Ви хотіли про нього знати, коротко, без зайвої води.

Що таке Robots.txt і навіщо він потрібний

Robots.txt потрібен для того, щоб вказати пошуковику (Яндексу, Google та ін.) як правильно (на Ваш погляд) потрібно індексувати сайт. Які сторінки, розділи, товари, статті потрібно індексувати, а які, навпаки, не потрібно.

Robots.txt це звичайний текстовий файл (з роздільною здатністю.txt), який був прийнятий консорціумом W3C 30 січня 1994 року, і який використовують більшість пошукових систем, і виглядає він зазвичай так:

Як він впливає на просування вашого сайту?

Для успішного просування сайту необхідно, щоб в індексі (базі) Яндекса та Google були лише потрібні сторінки сайту. Під потрібними сторінками я розумію такі:

Головна;
сторінки розділів, категорій;
товари;
Статті;
Сторінки "Про компанію", "Контакти" тощо.

Під НЕ потрібними сторінками я маю на увазі наступні:

Сторінки-дублікати;
Сторінки друку;
Сторінки результатів пошуку;
Системні сторінки, сторінки реєстрації, входу, виходу;
Сторінки підписки (feed);

Наприклад, якщо в індексі пошукача будуть знаходитися дублікати основних сторінки, що просуваються, то це викличе проблеми з унікальністю контенту всередині сайту, а також негативно вплине на позиції.

Де він знаходиться?

Файл зазвичай лежить в корені папки public_htmlна Вашому хостингу, ось тут:

Що Ви повинні знати про файл Robots.txt

Інструкції robots.txt мають рекомендаційний характер. Це означає, що установки є вказівками, а не прямими командами. Але як правило, і Яндекс і Google слідують вказівкам без жодних проблем;
Файл може розміщуватись лише на сервері;
Він повинен лежати у корені сайту;
Порушення синтаксису веде до некоректності файлу, який може негативно позначитися на індексації;
Обов'язково перевіряйте правильність синтаксису на панелі Яндекс Вебмастер!

Як закрити від індексації сторінку, розділ, файл?

Наприклад, я хочу закрити від індексації в Яндексі сторінку: http://сайт/page-for-robots/

Для цього мені необхідно використовувати директиву “Disallow” та URL сторінки (розділу, файлу). Виглядає це так:

User-agent: Yandex
Disallow: /page-for-robots/
Host: сайт

Якщо я захочу закрити категорію
User-agent: Yandex
Disallow: /category/case/
Host: сайт

Якщо я захочу закрити весь сайт від індексації, крім розділу http://сайт/category/case/, то необхідно буде зробити так:

User-agent: Yandex
Disallow: /
Allow: /category/case/
Host: сайт

Директива "Allow", навпаки, говорить про те, яку сторінку, розділ, файл потрібно індексувати.

Думаю, логіка побудови Вам стала зрозумілою. Зверніть увагу, що правила діятимуть лише для Яндекса, тому що вказано User-agent: Yandex. Google же, ігноруватиме цю конструкцію і індексуватиме весь сайт.

Якщо ви хочете написати універсальні правила для всіх пошукових систем, використовуйте: User-agent: *. Приклад:

User-agent: *
Disallow: /
Allow: /category/case/
Host: сайт

User-agent- Це ім'я робота, для якого призначено інструкцію. За замовчуванням стоїть * (зірочка) - це означає, що інструкція призначена для всіх пошукових роботів.
Найбільш поширені імена роботів:

Yandex – всі роботи пошукової системи Яндекса
YandexImages – індексатор зображень
Googlebot – робот Гугла
BingBot – робот системи Bing
YaDirectBot – робота системи контекстної реклами Яндекса.

Посилання на детальний огляд усіх директив Яндекса та Google.

Що обов'язково має бути у вищому файлі Роботс.тхт

Налаштована Директива Host. У ній має бути прописано основне дзеркалоВаш сайт. Основні дзеркала: site.ruабо www.site.ru. Якщо Ваш сайт з http s, то це також обов'язково має бути вказано. Основне дзеркало в host і Яндекс.Вебмастер має збігатися.
Повинні бути закриті від індексації (директивою Disallow:) розділи та сторінки сайту, що не несуть корисного навантаження, а також сторінки з дублями контенту, сторінки друку, результатів пошуку та системні сторінки.
Вкажіть посилання на sitemap.xml (карту Вашого сайту у форматі xml).
Sitemap: http://site.ru/sitemap.xml

Вказівка головне дзеркала

Спочатку необхідно дізнатися, яке дзеркало у Вас головне за промовчанням. Для цього введіть URL вашого сайту в Яндексі, наведіть на URL у видачі та ліворуч унизу у вікні браузера буде вказано, з www домен, або без. В даному випадку без WWW.

Якщо домен вказано з https, то і в Robots і в Яндекс.Вебмайстер необхідно вказати https! Виглядає це так:

Про файл robots.txt

Синтаксис файлу robots.txt

Приклад файлу robots.txt

Створення robots.txt

Директиви

Налаштування

Robots.txt для WordPress

Robots.txt для Joomla

Помилки при налаштуванні

Як перевірити файл?

Висновок

Навіщо потрібне налаштування robots.txt?

Синтаксис robots.txt

User-agent

Allow

Host - дзеркало сайту

Sitemap - карта сайту

Символи у robots.txt

Перевірка працездатності після налаштування robots.txt

Відеоогляд 3 методів створення та налаштування файлу Robots.txt

Використання кирилиці

Що таке Robots.txt і навіщо він потрібний

Як він впливає на просування вашого сайту?

Де він знаходиться?

Що Ви повинні знати про файл Robots.txt

Як закрити від індексації сторінку, розділ, файл?

Що обов'язково має бути у вищому файлі Роботс.тхт

Вказівка ​​головне дзеркала

Вказівка головне дзеркала