Ce este Robots txt? Cum se editează fișierul robots txt

Bună ziua, dragi cititori ai blogului „Webmaster’s World”!

Fişier robots.txt– acesta este un fișier foarte important care afectează direct calitatea indexării site-ului dvs. și, prin urmare, a acestuia promovarea motorului de căutare.

De aceea trebuie să puteți formata corect robots.txt pentru a nu interzice accidental să fie incluse în index orice documente importante ale proiectului Internet.

Cum să formatați fișierul robots.txt, ce sintaxă ar trebui utilizată, cum să permiteți și să refuzați documentele în index vor fi discutate în acest articol.

Despre fișierul robots.txt

Mai întâi, să aflăm mai detaliat ce fel de fișier este acesta.

File roboți este un fișier care arată motoarelor de căutare ce pagini și documente de pe un site pot fi adăugate la index și care nu. Este necesar pentru că inițial motoarele de căutare încearcă să indexeze întregul site, iar acest lucru nu este întotdeauna corect. De exemplu, dacă creați un site pe un motor (WordPress, Joomla etc.), atunci veți avea foldere care organizează munca panoului administrativ. Este clar că informațiile din aceste foldere nu pot fi indexate; în acest caz se folosește fișierul robots.txt, care restricționează accesul la motoarele de căutare.

Fișierul robots.txt conține și adresa hărții site-ului (îmbunătățește indexarea de către motoarele de căutare), precum și domeniul principal al site-ului (oglinda principală).

Oglindă– aceasta este o copie absolută a site-ului, adică când există un site, atunci ei spun că unul dintre ele este domeniul principal, iar celălalt este oglinda lui.

Astfel, fișierul are o mulțime de funcții și chiar importante!

Sintaxa fișierului Robots.txt

Fișierul roboți conține blocuri de reguli care spun unui anumit motor de căutare ce poate fi indexat și ce nu. Poate exista un singur bloc de reguli (pentru toate motoarele de căutare), dar pot exista și mai multe dintre ele - pentru anumite motoare de căutare separat.

Fiecare astfel de bloc începe cu un operator „User-Agent”, care indică la ce motor de căutare se aplică aceste reguli.

Utilizator-Agent:A
(reguli pentru robotul „A”)

Utilizator-Agent:B
(reguli pentru robotul „B”)

Exemplul de mai sus arată că operatorul „User-Agent” are un parametru - numele robotului motor de căutare, la care se aplică regulile. Pe cele principale le voi indica mai jos:

După „User-Agent” există alți operatori. Iată descrierea lor:

Toți operatorii au aceeași sintaxă. Acestea. operatorii trebuie utilizați după cum urmează:

Operator1: parametrul1

Operator2: parametrul2

…

Astfel, mai întâi scriem numele operatorului (indiferent cu majuscule sau mici), apoi punem două puncte și, despărțiți de un spațiu, indicăm parametrul acestui operator. Apoi cu linie nouă descriem operatorul doi în același mod.

Important!!! O linie goală va însemna că blocul de reguli pentru acest motor de căutare este complet, așa că nu separați declarațiile cu o linie goală.

Exemplu de fișier robots.txt

Să ne uităm la un exemplu simplu de fișier robots.txt pentru a înțelege mai bine caracteristicile sintaxei acestuia:

Agent utilizator: Yandex
Permite: /folder1/
Nu permiteți: /file1.html
Gazdă: www.site.ru

Agent utilizator: *
Nu permiteți: /document.php
Nu permiteți: /folderxxx/
Nu permiteți: /folderyyy/folderzzz
Nu permiteți: /feed/

Harta site-ului: http://www.site.ru/sitemap.xml

Acum să ne uităm la exemplul descris.

Fișierul este format din trei blocuri: primul pentru Yandex, al doilea pentru toate motoarele de căutare, iar al treilea conține adresa sitemap (aplicată automat pentru toate motoarele de căutare, deci nu este nevoie să specificați „User-Agent”). Am permis lui Yandex să indexeze folderul „folder1” și tot conținutul acestuia, dar i-am interzis să indexeze documentul „file1.html” aflat în directorul rădăcină de pe găzduire. De asemenea, i-am indicat Yandex domeniul principal al site-ului. Al doilea bloc este pentru toate motoarele de căutare. Acolo am interzis documentul „document.php”, precum și folderele „folderxxx”, „folderyyy/folderzzz” și „feed”.

Vă rugăm să rețineți că în al doilea bloc de comenzi la index nu am interzis întregul folder „folderyyy”, ci doar folderul din interiorul acestui folder – „folderzzz”. Acestea. am furnizat calea completă pentru „folderzzz”. Acest lucru ar trebui făcut întotdeauna dacă interzicem un document aflat nu în directorul rădăcină al site-ului, ci undeva în alte foldere.

Va dura mai puțin de două minute pentru a crea:

Fișierul roboți creat poate fi verificat pentru funcționalitate în panoul de webmasteri Yandex. Dacă erorile sunt găsite brusc în fișier, Yandex le va afișa.

Asigurați-vă că creați un fișier robots.txt pentru site-ul dvs. dacă nu aveți deja unul. Acest lucru va ajuta site-ul dvs. să se dezvolte în motoarele de căutare. Puteți citi și celălalt articol al nostru despre metoda meta-tagurilor și .htaccess.

Bună seara dragi prieteni! Tot ce știi este că Optimizare motor de căutare- o chestiune responsabilă și delicată. Trebuie să ții cont absolut de fiecare mic detaliu pentru a obține un rezultat acceptabil.

Astăzi vom vorbi despre robots.txt - un fișier familiar pentru fiecare webmaster. Conține toate instrucțiunile de bază pentru roboții de căutare. De regulă, sunt bucuroși să urmeze instrucțiunile prescrise și, dacă sunt compilate incorect, refuză să indexeze resursa web. În continuare, vă voi spune cum să compuneți versiunea corectă a robots.txt, precum și cum să o configurați.

În prefață am descris deja despre ce este vorba. Acum vă voi spune de ce este nevoie. Robots.txt este un fișier text mic care este stocat în rădăcina site-ului. Este folosit de motoarele de căutare. Acesta stabilește clar regulile de indexare, adică ce secțiuni ale site-ului trebuie indexate (adăugate la căutare) și ce secțiuni nu ar trebui.

De obicei, secțiunile tehnice ale unui site sunt închise de la indexare. Ocazional, paginile care nu sunt unice sunt incluse pe lista neagră (copy-paste a politicii de confidențialitate este un exemplu în acest sens). Aici roboților li se „explica” principiile de lucru cu secțiunile care trebuie indexate. Foarte des regulile sunt prescrise pentru mai mulți roboți separat. Vom vorbi mai departe despre asta.

La setare corectă robots.txt, site-ul dvs. este garantat să crească în clasamentul motoarelor de căutare. Roboții vor lua în considerare doar continut util, acordând atenție secțiunilor duplicate sau tehnice.

Se creează robots.txt

Pentru a crea un fișier, trebuie doar să utilizați funcționalitatea standard a dvs sistem de operare, apoi încărcați-l pe server prin FTP. Unde se află (pe server) este ușor de ghicit - la rădăcină. De obicei, acest folder se numește public_html.

Puteți intra cu ușurință în el folosind orice client FTP (de exemplu) sau încorporat manager de fișiere. Desigur, nu vom încărca roboți goli pe server. Să scriem acolo câteva directive de bază (reguli).

Agent utilizator: *
Permite: /

Folosind aceste rânduri în fișierul dvs. roboți, veți contacta toți roboții (directiva User-agent), permițându-le să indexeze întregul site (inclusiv toate paginile tehnice Permiteți: /)

Desigur, această opțiune nu este deosebit de potrivită pentru noi. Fișierul nu va fi deosebit de util pentru optimizarea motoarelor de căutare. Cu siguranță are nevoie de niște reglaje adecvate. Dar înainte de asta, ne vom uita la toate directivele principale și valorile robots.txt.

Directive

Agent utilizator	Una dintre cele mai importante, deoarece indică ce roboți ar trebui să respecte regulile care îl urmează. Regulile sunt luate în considerare până la următorul User-agent din fișier.
Permite	Permite indexarea oricăror blocuri de resurse. De exemplu: „/” sau „/tag/”.
Nu permiteți	Dimpotrivă, interzice indexarea secțiunilor.
Harta site-ului	Calea către harta site-ului (în format xml).
Gazdă	Oglindă principală (cu sau fără www, sau dacă aveți mai multe domenii). Protocolul securizat https (dacă este disponibil) este de asemenea indicat aici. Dacă aveți http standard, nu trebuie să îl specificați.
Crawl-întârziere	Cu ajutorul acestuia, puteți seta intervalul în care roboții pot vizita și descărca fișiere de pe site-ul dvs. Ajută la reducerea sarcinii pe gazdă.
Clean-param	Vă permite să dezactivați indexarea parametrilor pe anumite pagini (cum ar fi www.site.com/cat/state?admin_id8883278). Spre deosebire de directivele anterioare, aici sunt specificate 2 valori (adresa și parametrul în sine).

Acestea sunt toate regulile care sunt acceptate de motoarele de căutare emblematice. Cu ajutorul lor ne vom crea roboții, operând cel mai mult cu diverse variante tipuri diferite site-uri.

Setări

Pentru a configura corect fișierul roboți, trebuie să știm exact ce secțiuni ale site-ului trebuie indexate și care nu. În cazul unui site web simplu de o pagină folosind html + css, trebuie doar să scriem câteva directive de bază, cum ar fi:

Agent utilizator: *
Permite: /
Harta site-ului: site.ru/sitemap.xml
Gazdă: www.site.ru

Aici am specificat regulile și valorile pentru toate motoarele de căutare. Dar este mai bine să adăugați directive separate pentru Google și Yandex. Va arăta astfel:

Agent utilizator: *
Permite: /

Agent utilizator: Yandex
Permite: /
Nu permiteți: /politika

Agent utilizator: GoogleBot
Permite: /
Nu permiteți: /etichete/

Harta site-ului: site.ru/sitemap.xml
Gazdă: site.ru

Acum absolut toate fișierele de pe site-ul nostru html vor fi indexate. Dacă dorim să excludem o pagină sau o imagine, atunci trebuie să specificăm un link relativ la acest fragment în Disallow.

Puteți utiliza serviciile generare automată fișiere roboți. Nu garantez că cu ajutorul lor veți crea o versiune perfect corectă, dar o puteți încerca ca introducere.

Printre astfel de servicii se numără:

Cu ajutorul lor, puteți crea robots.txt în mod automat. Personal, nu recomand insistent aceasta optiune, deoarece este mult mai usor sa o faci manual, personalizand-o pentru platforma ta.

Când vorbim despre platforme, mă refer la tot felul de CMS, cadre, sisteme SaaS și multe altele. În continuare vom vorbi despre cum să configurați fișierul robot WordPress și Joomla.

Dar înainte de asta, să evidențiem câteva reguli universale care vă pot ghida atunci când creați și configurați roboți pentru aproape orice site:

Interzicerea indexării:

administratorul site-ului;
cont personal și pagini de înregistrare/autorizare;
coș, date din formularele de comandă (pentru un magazin online);
folderul cgi (situat pe gazdă);
secții de servicii;
scripturi ajax și json;
Etichete UTM și Openstat;
diverși parametri.

Deschide (permite):

Poze;
fișiere JS și CSS;
alte elemente care trebuie luate în considerare de motoarele de căutare.

În plus, la final, nu uitați să indicați harta site-ului (calea către harta site-ului) și datele gazdei (oglindă principală).

Robots.txt pentru WordPress

Pentru a crea un fișier, trebuie să plasăm robots.txt în rădăcina site-ului în același mod. În acest caz, îi puteți modifica conținutul utilizând același FTP și manageri de fișiere.

Există o opțiune mai convenabilă - creați un fișier folosind pluginuri. În special, Yoast SEO are o astfel de funcție. Editarea roboților direct din panoul de administrare este mult mai convenabilă, așa că eu însumi folosesc această metodă de lucru cu robots.txt.

Modul în care decideți să creați acest fișier depinde de dvs.; este mai important pentru noi să înțelegem exact ce directive ar trebui să existe acolo. Pe site-urile mele care rulează WordPress folosesc această opțiune:

User-agent: * # reguli pentru toți roboții, cu excepția Google și Yandex

Nu permiteți: /cgi-bin # folder cu scripturi
Nu permiteți: /? # cere parametri cu pagina principala
Nu permiteți: /wp- # fișiere ale CSM-ului însuși (cu prefixul wp-)
Nu permite: *?s= # \
Nu permiteți: *&s= # totul este legat de căutare
Nu permiteți: /căutare/ # /
Nu permiteți: /autor/ # arhivele autorului
Nu permiteți: /utilizatori/ # și utilizatori
Nu permite: */trackback # notificări de la WP pe care cineva vă conectează
Nu permiteți: */feed # feed în xml
Nu permite: */rss # și rss
Nu permiteți: */incorporare # elemente încorporate
Nu permiteți: /xmlrpc.php #WordPress API
Nu permiteți: *utm= # etichete UTM
Nu permite: *openstat= # Etichete Openstat
Nu permiteți: /tag/ # etichete (dacă sunt disponibile)
Permite: */încărcări # descărcări deschise (imagini etc.)

Agent utilizator: GoogleBot # pentru Google
Nu permiteți: /cgi-bin
Nu permiteți: /?
Nu permiteți: /wp-
Nu permite: *?s=
Nu permiteți: *&s=
Nu permiteți: /căutare/
Nu permiteți: /autor/
Nu permiteți: /utilizatori/
Nu permite: */trackback
Nu permiteți: */feed
Nu permite: */rss
Nu permiteți: */incorporare
Nu permiteți: /xmlrpc.php
Nu permiteți: *utm=
Nu permite: *openstat=
Nu permiteți: /tag/
Permite: */încărcări
Permite: /*/*.js # deschide fișierele JS
Permite: /*/*.css # și CSS
Permite: /wp-*.png # și imagini în format png
Permite: /wp-*.jpg # \
Permite: /wp-*.jpeg # și alte formate
Permite: /wp-*.gif # /
# funcționează cu pluginuri

Agent utilizator: Yandex # pentru Yandex
Nu permiteți: /cgi-bin
Nu permiteți: /?
Nu permiteți: /wp-
Nu permite: *?s=
Nu permiteți: *&s=
Nu permiteți: /căutare/
Nu permiteți: /autor/
Nu permiteți: /utilizatori/
Nu permite: */trackback
Nu permiteți: */feed
Nu permite: */rss
Nu permiteți: */incorporare
Nu permiteți: /xmlrpc.php
Nu permiteți: /tag/
Permite: */încărcări
Permite: /*/*.js
Permite: /*/*.css
Permite: /wp-*.png
Permite: /wp-*.jpg
Permite: /wp-*.jpeg
Permite: /wp-*.gif
Permite: /wp-admin/admin-ajax.php
# etichete UTM curate
Clean-Param: openstat # și nu uitați de Openstat

Harta site-ului: # specificați calea către harta site-ului
Gazdă: https://site.ru # oglinda principală

Atenţie! Când copiați linii într-un fișier, nu uitați să eliminați toate comentariile (text după #).

Această opțiune robots.txt este cea mai populară printre webmasterii care folosesc WP. Este el ideal? Nu. Puteți încerca să adăugați ceva sau, dimpotrivă, să eliminați ceva. Dar rețineți că erorile sunt frecvente atunci când optimizați motorul de text al unui robot. Despre ele vom vorbi mai departe.

Robots.txt pentru Joomla

Și deși în 2018 puțini oameni folosesc Joomla, cred că acest minunat CMS nu poate fi ignorat. Când promovați proiecte pe Joomla, cu siguranță va trebui să creați un fișier roboți, altfel cum doriți să blocați elementele inutile de la indexare?

Ca și în cazul precedent, puteți crea un fișier manual, pur și simplu încărcându-l pe gazdă sau folosiți un modul în aceste scopuri. În ambele cazuri, va trebui să-l configurați corect. Iată cum va arăta opțiunea corectă pentru Joomla:

Agent utilizator: *
Permite: /*.css?*$
Permite: /*.js?*$
Permite: /*.jpg?*$
Permite: /*.png?*$
Nu permiteți: /cache/
Nu permiteți: /*.pdf
Nu permiteți: /administrator/
Nu permiteți: /instalare/
Nu permiteți: /cli/
Nu permiteți: /biblioteci/
Nu permiteți: /limba/
Nu permiteți: /components/
Nu permiteți: /module/
Nu permite: /include/
Nu permiteți: /bin/
Nu permiteți: /component/
Nu permiteți: /tmp/
Nu permiteți: /index.php
Nu permiteți: /plugins/
Nu permiteți: /*mailto/

Nu permiteți: /logs/
Nu permiteți: /component/tags*
Nu permite: /*%
Nu permiteți: /layouts/

Agent utilizator: Yandex
Nu permiteți: /cache/
Nu permiteți: /*.pdf
Nu permiteți: /administrator/
Nu permiteți: /instalare/
Nu permiteți: /cli/
Nu permiteți: /biblioteci/
Nu permiteți: /limba/
Nu permiteți: /components/
Nu permiteți: /module/
Nu permite: /include/
Nu permiteți: /bin/
Nu permiteți: /component/
Nu permiteți: /tmp/
Nu permiteți: /index.php
Nu permiteți: /plugins/
Nu permiteți: /*mailto/

Nu permiteți: /logs/
Nu permiteți: /component/tags*
Nu permite: /*%
Nu permiteți: /layouts/

Agent utilizator: GoogleBot
Nu permiteți: /cache/
Nu permiteți: /*.pdf
Nu permiteți: /administrator/
Nu permiteți: /instalare/
Nu permiteți: /cli/
Nu permiteți: /biblioteci/
Nu permiteți: /limba/
Nu permiteți: /components/
Nu permiteți: /module/
Nu permite: /include/
Nu permiteți: /bin/
Nu permiteți: /component/
Nu permiteți: /tmp/
Nu permiteți: /index.php
Nu permiteți: /plugins/
Nu permiteți: /*mailto/

Nu permiteți: /logs/
Nu permiteți: /component/tags*
Nu permite: /*%
Nu permiteți: /layouts/

Gazdă: site.ru # nu uita să schimbi adresa de aici cu a ta
Harta site-ului: site.ru/sitemap.xml # si aici

De regulă, acest lucru este suficient pentru fișiere suplimentare nu au fost incluse în index.

Erori la configurare

Foarte des oamenii fac greșeli atunci când creează și creează un fișier roboți. Iată cele mai comune dintre ele:

Regulile sunt specificate numai pentru User-agent.
Gazdă și Sitemap lipsesc.
Prezența protocolului http în directiva Gazdă (trebuie doar să specificați https).
Nerespectarea regulilor de imbricare la deschiderea/închiderea imaginilor.
Etichetele UTM și Openstat nu sunt închise.
Scrierea directivelor pentru gazdă și harta site-ului pentru fiecare robot.
Întocmirea superficială a dosarului.

Este foarte important să configurați corect acest fișier mic. Dacă faci greșeli grave, poți pierde o parte semnificativă din trafic, așa că fii extrem de atent la configurare.

Cum se verifică un fișier?

În aceste scopuri este mai bine să se folosească servicii speciale de la Yandex și Google, deoarece aceste motoare de căutare sunt cele mai populare și solicitate (de cele mai multe ori singurele utilizate), nu are rost să luăm în considerare motoarele de căutare precum Bing, Yahoo sau Rambler.

În primul rând, să luăm în considerare opțiunea cu Yandex. Accesați webmaster. Apoi accesați Instrumente – Analiza robots.txt.

Aici puteți verifica fișierul pentru erori, precum și puteți verifica în timp real ce pagini sunt deschise pentru indexare și care nu. Foarte convenabil.

Google are exact același serviciu. Să mergem la Search Console. Găsiți fila Scanare și selectați Instrumentul de verificare a fișierelor Robots.txt.

Funcțiile de aici sunt exact aceleași ca în serviciul casnic.

Vă rugăm să rețineți că îmi arată 2 erori. Acest lucru se datorează faptului că Google nu recunoaște directivele pentru ștergerea parametrilor pe care i-am specificat pentru Yandex:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Nu ar trebui să acordați atenție acestui lucru, deoarece roboții Google folosesc doar regulile GoogleBot.

Concluzie

Fișierul robots.txt este foarte important pentru optimizarea SEO a site-ului dvs. Abordați configurarea acestuia cu toată responsabilitatea, pentru că dacă este implementat incorect, totul se poate risipi.

Țineți minte toate instrucțiunile pe care le-am împărtășit în acest articol și nu uitați că nu trebuie să copiați exact variațiile roboților mei. Este foarte posibil să fii nevoit să înțelegi în continuare fiecare dintre directive, ajustând fișierul pentru a se potrivi cazului tău specific.

Și dacă doriți să înțelegeți mai profund robots.txt și să creați site-uri web pe WordPress, atunci vă invit. Aici veți afla cum puteți crea cu ușurință un site web, fără a uita să îl optimizați pentru motoarele de căutare.

Aproape fiecare proiect care vine la noi pentru audit sau promovare are un fișier robots.txt incorect și adesea lipsește cu totul. Acest lucru se întâmplă pentru că atunci când se creează un fișier, fiecare este ghidat de imaginația sa, și nu de reguli. Să ne dăm seama cum să compunem corect acest fișier, astfel încât roboții de căutare să lucreze cu el în mod eficient.

De ce trebuie să configurați robots.txt?

Robots.txt este un fișier situat în directorul rădăcină al unui site care le spune roboților motoarelor de căutare ce secțiuni și pagini ale site-ului pot accesa și pe care nu.

Configurarea robots.txt este o parte importantă în rezultatele motoarelor de căutare; roboții configurați corespunzător măresc și performanța site-ului. Lipsa Robots.txt nu va împiedica motoarele de căutare să acceseze cu crawlere și să indexeze site-ul dvs., dar dacă nu aveți acest fișier, este posibil să aveți două probleme:

Robotul de căutare va citi întregul site, ceea ce va „submina” bugetul de crawling. Bugetul de accesare cu crawlere este numărul de pagini pe care un robot de căutare este capabil să le acceseze cu crawlere într-o anumită perioadă de timp.

Fără un fișier roboți, motorul de căutare va avea acces la pagini nefinalizate și ascunse, la sute de pagini folosite pentru administrarea CMS-ului. Le va indexa, iar când vine vorba de paginile necesare care oferă conținut direct pentru vizitatori, bugetul de crawling se va „epuiza”.

Indexul poate include pagina de conectare a site-ului și alte resurse ale administratorului, astfel încât un atacator le poate urmări și manipula cu ușurință atac ddos sau pirata site-ul.

Cum văd roboții de căutare un site cu și fără robots.txt:

Sintaxa Robots.txt

Înainte de a începe să înțelegem sintaxa și să setăm robots.txt, să ne uităm la cum ar trebui să arate „fișierul ideal”:

Dar nu ar trebui să-l folosești imediat. Fiecare site necesită cel mai adesea propriile setări, deoarece toți avem o structură diferită a site-ului și un CMS diferit. Să ne uităm la fiecare directivă în ordine.

Agent utilizator

User-agent - definește un robot de căutare care trebuie să urmeze instrucțiunile descrise în fișier. Dacă trebuie să vă adresați tuturor simultan, utilizați pictograma *. De asemenea, puteți contacta un anumit robot de căutare. De exemplu, Yandex și Google:

Folosind această directivă, robotul înțelege ce fișiere și foldere nu pot fi indexate. Dacă doriți ca întregul dvs. site să fie deschis pentru indexare, lăsați necompletat valoarea Disallow. Pentru a ascunde tot conținutul de pe site după Disallow, puneți „/”.

Putem împiedica accesul la un anumit folder, fișier sau extensie de fișier. În exemplul nostru, contactăm toți roboții de căutare, blocăm accesul la bitrix, căutăm și extensia pdf.

Permite

Permiteți ca paginile și secțiunile site-ului să fie indexate. În exemplul de mai sus, contactăm robotul de căutare Google, blocăm accesul la bitrix, folderul de căutare și extensia pdf. Dar în folderul bitrix forțăm deschiderea a 3 foldere pentru indexare: componente, js, instrumente.

Gazdă - oglindă site

Un site oglindă este un duplicat al site-ului principal. Oglinzile sunt folosite pentru o varietate de scopuri: schimbarea adresei, securitate, reducerea sarcinii pe server etc.

Gazda este una dintre cele mai importante reguli. Dacă este înregistrat această regulă, atunci robotul va înțelege care dintre oglinzile site-ului ar trebui să fie luate în considerare pentru indexare. Această directivă este necesară pentru roboții Yandex și Mail.ru. Alți roboți vor ignora această regulă. Gazda este înregistrată o singură dată!

Pentru protocoalele „https://” și „http://”, sintaxa din fișierul robots.txt va fi diferită.

Harta site - harta site-ului

Harta site-ului este o formă de navigare pe site care este utilizată pentru a informa motoarele de căutare despre paginile noi. Folosind directiva sitemap, arătăm „forțat” robotului unde se află harta.

Simboluri în robots.txt

Simboluri utilizate în fișier: „/, *, $, #”.

Verificarea funcționalității după configurarea robots.txt

După ce ați plasat Robots.txt pe site-ul dvs. web, trebuie să îl adăugați și să îl verificați în Yandex și Google webmaster.

Verificare Yandex:

Urmați acest link.
Selectați: Setări de indexare - Analiză Robots.txt.

Verificare Google:

Urmați acest link.
Selectați: Scanare - Instrument de inspecție a fișierelor Robots.txt.

În acest fel, puteți verifica fișierul robots.txt pentru erori și puteți face ajustările necesare, dacă este necesar.

Conținutul dosarului trebuie scris cu majuscule.
Trebuie specificat un singur fișier sau director în directiva Disallow.
Linia „User-agent” nu trebuie să fie goală.
User-agent ar trebui să vină întotdeauna înainte de Disallow.
Nu uitați să includeți o bară oblică dacă trebuie să dezactivați indexarea unui director.
Înainte de a încărca un fișier pe server, asigurați-vă că îl verificați pentru erori de sintaxă și ortografie.

Vă doresc succes!

Revizuire video a 3 metode de creare și personalizare a fișierului Robots.txt

Robots.txt este fisier text, care conține parametrii de indexare a site-ului pentru roboții motoarelor de căutare.

Yandex acceptă următoarele directive:

Directivă	Ce face
Agent utilizator *
Nu permiteți
Harta site-ului
Clean-param
Permite
Crawl-întârziere

Directivă	Ce face
Agent utilizator *	Indică un robot pentru care se aplică regulile enumerate în robots.txt.
Nu permiteți	Dezactivează indexarea partițiilor sau pagini individuale site-ul.
Harta site-ului	Specifică calea către fișierul Sitemap care se află pe site.
Clean-param	Indică robotului că adresa URL a paginii conține parametri (de exemplu, etichete UTM) care nu trebuie să fie luate în considerare la indexare.
Permite	Permite indexarea secțiunilor sau a paginilor individuale ale site-ului.
Crawl-întârziere	Setează perioada minimă de timp (în secunde) pentru robot între terminarea încărcării unei pagini și începerea încărcării următoarei.

* Directiva obligatorie.

Cele mai comune directive de care ați putea avea nevoie sunt Disallow, Sitemap și Clean-param. De exemplu:

User-agent: * #specificați pentru ce directive roboți sunt instalate\nDisallow: /bin/ # interzice link-urile din \"Coșul de cumpărături\".\nDisallow: /search/ # interzice link-uri către paginile integrate în site-ul de căutare\nDisallow: /admin / # interzice linkurile de la panoul de administrare\nHapta site-ului: http://example.com/sitemap # indică robotul către fișierul sitemap pentru site\nClean-param: ref /some_dir/get_book.pl

Roboții altor motoare de căutare și servicii pot interpreta directivele diferit.

Notă. Robotul ține cont de majuscule atunci când scrie subșiruri (nume sau cale către fișier, numele robotului) și nu ține cont de majuscule în numele directivelor.

Folosind alfabetul chirilic

Utilizarea chirilicului este interzisă în fișierul robots.txt și antetele HTTP ale serverului.

Salutări, prieteni și abonați ai blogului meu. Astăzi pe agendă este Robots.txt, tot ce ai vrut să știi despre el, pe scurt, fără puf inutile.

Ce este Robots.txt și de ce este necesar?

Robots.txt este necesar pentru a indica motorului de căutare (Yandex, Google etc.) cât de corect (din punctul dumneavoastră de vedere) ar trebui să fie indexat site-ul. Ce pagini, secțiuni, produse, articole trebuie indexate și care, dimpotrivă, nu sunt necesare.

Robots.txt este un fișier text simplu (cu rezoluție .txt) care a fost adoptat de W3C la 30 ianuarie 1994 și care este folosit de majoritatea motoarelor de căutare și, de obicei, arată astfel:

Cum afectează promovarea site-ului dvs.?

Pentru a promova cu succes un site web, este necesar ca indexul (baza) Yandex și Google să conțină numai paginile necesare ale site-ului. Prin paginile cerute mă refer la următoarele:

Acasă;
pagini de secțiuni, categorii;
Bunuri;
Articole;
Paginile „Despre companie”, „Contacte”, etc.

Prin pagini NU sunt necesare mă refer la următoarele:

Pagini duplicate;
Imprimare pagini;
paginile cu rezultatele căutării;
Pagini de sistem, pagini de înregistrare, autentificare, deconectare;
Pagini de abonament (feed);

De exemplu, dacă indexul motorului de căutare conține duplicate ale principalelor pagini promovate, acest lucru va cauza probleme cu unicitatea conținutului din cadrul site-ului și, de asemenea, va afecta negativ pozițiile.

Unde este situat?

Fișierul este de obicei localizat în rădăcina folderului public_html pe gazduirea ta, aici:

Ce ar trebui să știți despre fișierul Robots.txt

Instrucțiunile Robots.txt sunt de natură consultativă. Aceasta înseamnă că setările sunt direcții și nu comenzi directe. Dar, de regulă, atât Yandex, cât și Google urmează instrucțiunile fără probleme;
Fișierul poate fi găzduit doar pe server;
Ar trebui să fie la rădăcina site-ului;
Încălcarea sintaxei duce la incorectitudinea fișierului, care poate afecta negativ indexarea;
Asigurați-vă că verificați sintaxa corectă în panoul Yandex Webmaster!

Cum să blochezi o pagină, secțiune, fișier de la indexare?

De exemplu, vreau să blochez pagina de la indexarea în Yandex: http://site/page-for-robots/

Pentru a face acest lucru, trebuie să folosesc directiva „Disallow” și adresa URL a paginii (secțiune, fișier). Arata cam asa:

Agent utilizator: Yandex
Nu permiteți: /page-for-robots/
Gazdă: site web

Daca vreau categorie apropiată
Agent utilizator: Yandex
Nu permiteți: /categorie/caz/
Gazdă: site web

Dacă vreau să blochez întregul site de la indexare, cu excepția secțiunii http://site/category/case/, atunci va trebui să faceți acest lucru:

Agent utilizator: Yandex
Nu permite: /
Permite: /categorie/caz/
Gazdă: site web

Directiva „Permite”, dimpotrivă, indică ce pagină, secțiune, fișier trebuie indexat.

Cred că logica construcției ți-a devenit clară. Vă rugăm să rețineți că regulile se vor aplica numai Yandex, deoarece User-agent este specificat: Yandex. Google va ignora acest design și va indexa întregul site.

Dacă doriți să scrieți reguli universale pentru toate motoarele de căutare, utilizați: User-agent: *. Exemplu:

Agent utilizator: *
Nu permite: /
Permite: /categorie/caz/
Gazdă: site web

Agent utilizator este numele robotului căruia îi sunt destinate instrucțiunile. Valoarea implicită este * (asterisc) - asta înseamnă că instrucțiunile sunt destinate absolut tuturor roboților de căutare.
Cele mai comune nume de roboți:

Yandex – toți roboții motorului de căutare Yandex
YandexImages – indexator de imagini
Googlebot - robot Google
BingBot – robot al sistemului Bing
YaDirectBot – robot de sistem publicitate contextuală Yandex.

Link-uri către revizuire detaliată toate directivele Yandex și Google.

Ce trebuie să fie în fișierul Robots.txt superior

Directiva gazdă este configurată. Trebuie să precizeze oglinda principală Site-ul tau. Oglinzi principale: site.ru sau www.site.ru. Dacă site-ul dvs. este cu http s, atunci trebuie indicat și acest lucru. Oglinda principală din gazdă și din Yandex.Webmaster trebuie să se potrivească.
Secțiunile și paginile site-ului care nu au nicio sarcină utilă, precum și paginile cu conținut duplicat, pagini tipărite, rezultatele căutării și paginile de sistem ar trebui să fie închise de la indexare (folosind directiva Disallow:).
Furnizați un link către sitemap.xml (sitemap-ul dvs. în format xml).
Harta site-ului: http://site.ru/sitemap.xml

Indicarea oglinzii principale

Mai întâi trebuie să aflați ce oglindă aveți ca principală în mod implicit. Pentru a face acest lucru, introduceți adresa URL a site-ului dvs. în Yandex, indicați adresa URL din rezultate și în partea stângă jos a ferestrei browserului va fi indicată cu domeniul www, sau fără. În acest caz, fără WWW.

Dacă domeniul este specificat cu https, apoi atât în Robots, cât și în Yandex.Webmaster trebuie să specificați https! Arata cam asa: