Kas yra robotai txt? Kaip redaguoti robotų txt failą

Sveiki, mieli tinklaraščio „Webmaster’s World“ skaitytojai!

Failas robots.txt– tai labai svarbus failas, kuris tiesiogiai veikia jūsų svetainės, taigi ir jos, indeksavimo kokybę paieškos variklio reklama.

Štai kodėl jūs turite mokėti teisingai formatuoti robots.txt, kad netyčia neuždraustumėte jokių svarbių interneto projekto dokumentų įtraukimo į indeksą.

Apie tai, kaip kreiptis robotų failą.txt, kokia sintaksė turėtų būti naudojama, kaip leisti ir uždrausti dokumentus į indeksą, bus aptarta šiame straipsnyje.

Apie failą robots.txt

Pirmiausia išsiaiškinkime išsamiau, koks tai failas.

Failų robotai yra failas, rodantis paieškos sistemoms, kuriuos svetainės puslapius ir dokumentus galima įtraukti į indeksą, o kuriuos ne. Tai būtina, nes iš pradžių paieškos sistemos bando indeksuoti visą svetainę, o tai ne visada teisinga. Pavyzdžiui, jei kuriate svetainę variklyje (WordPress, Joomla ir kt.), tuomet turėsite aplankus, kurie organizuoja administracinio skydelio darbą. Aišku, kad šiuose aplankuose esanti informacija negali būti indeksuojama, naudojamas robots.txt failas, kuris riboja prieigą prie paieškos sistemų.

Faile robots.txt taip pat yra svetainės žemėlapio adresas (jis pagerina paieškos sistemų indeksavimą), taip pat pagrindinis svetainės domenas (pagrindinis veidrodis).

Veidrodis– tai absoliuti svetainės kopija, t.y. kai yra viena svetainė, tada jie sako, kad vienas iš jų yra pagrindinis domenas, o kitas yra jo veidrodis.

Taigi failas turi gana daug funkcijų, o tuo pačiu ir svarbių!

Robots.txt failo sintaksė

Robotų faile yra taisyklių blokai, kurie konkrečiai paieškos sistemai nurodo, ką galima indeksuoti, o ko ne. Taisyklių blokas gali būti vienas (visoms paieškos sistemoms), bet gali būti ir kelios – kai kurioms konkrečioms paieškos sistemoms atskirai.

Kiekvienas toks blokas prasideda operatoriumi „User-Agent“, kuris nurodo, kuriam paieškos varikliui taikomos šios taisyklės.

Vartotojas-Agentas:A
(taisyklės robotui „A“)

Vartotojas-Agentas:B
(taisyklės robotui „B“)

Aukščiau pateiktame pavyzdyje parodyta, kad operatorius „User-Agent“ turi parametrą – roboto pavadinimą paieškos variklis, kuriam taikomos taisyklės. Toliau nurodysiu pagrindinius:

Po „User-Agent“ yra kiti operatoriai. Štai jų aprašymas:

Visi operatoriai turi tą pačią sintaksę. Tie. operatoriai turėtų būti naudojami taip:

Operatorius1: 1 parametras

2 operatorius: 2 parametras

…

Taigi pirmiausia parašome operatoriaus pavadinimą (nesvarbu, didžiosiomis ar mažosiomis raidėmis), tada dedame dvitaškį ir, atskirdami tarpu, nurodome šio operatoriaus parametrą. Tada su nauja linija taip pat aprašome operatorių du.

Svarbu!!! Tuščia eilutė reikš, kad šios paieškos sistemos taisyklių blokas baigtas, todėl neatskirkite teiginių tuščia eilute.

Failo robots.txt pavyzdys

Pažvelkime į paprastą robots.txt failo pavyzdį, kad geriau suprastume jo sintaksės ypatybes:

Vartotojo agentas: „Yandex
Leisti: /folder1/
Neleisti: /failas1.html
Priegloba: www.site.ru

Vartotojo atstovas: *
Neleisti: /document.php
Neleisti: /folderxxx/
Neleisti: /folderyyy/folderzzz
Neleisti: /feed/

Svetainės schema: http://www.site.ru/sitemap.xml

Dabar pažvelkime į aprašytą pavyzdį.

Failas susideda iš trijų blokų: pirmasis skirtas „Yandex“, antrasis – visoms paieškos sistemoms, o trečiajame yra svetainės schemos adresas (automatiškai taikomas visoms paieškos sistemoms, todėl nereikia nurodyti „Vartotojo agento“). Leidome „Yandex“ indeksuoti aplanką „folder1“ ir visą jo turinį, tačiau uždraudėme indeksuoti dokumentą „file1.html“, esantį prieglobos šakniniame kataloge. „Yandex“ taip pat nurodėme pagrindinį svetainės domeną. Antrasis blokas skirtas visoms paieškos sistemoms. Ten uždraudėme dokumentą „document.php“, taip pat aplankus „folderxxx“, „folderyyy/folderzzz“ ir „feed“.

Atkreipkite dėmesį, kad antrajame indekso komandų bloke uždraudėme ne visą aplanką „folderyyy“, o tik šiame aplanke esantį aplanką – „folderzzz“. Tie. pateikėme visą „folderzzz“ kelią. Tai turėtų būti daroma visada, jei uždraudžiame dokumentą, esantį ne svetainės šakniniame kataloge, o kažkur kituose aplankuose.

Sukurti užtruks mažiau nei dvi minutes:

Sukurto robotų failo funkcionalumą galima patikrinti „Yandex“ žiniatinklio valdytojo skydelyje. Jei faile staiga randama klaidų, „Yandex“ tai parodys.

Būtinai savo svetainei sukurkite failą robots.txt, jei jo dar neturite. Tai padės jūsų svetainei vystytis paieškos sistemose. Taip pat galite perskaityti kitą mūsų straipsnį apie metažymų ir .htaccess metodą.

Laba diena, mieli draugai! Viskas, ką žinote, yra tai paieškos sistemos optimizavimas- atsakingas ir subtilus reikalas. Norint gauti priimtiną rezultatą, reikia atsižvelgti į absoliučiai kiekvieną smulkmeną.

Šiandien kalbėsime apie robots.txt – failą, žinomą kiekvienam žiniatinklio valdytojui. Jame yra visos pagrindinės instrukcijos, skirtos paieškos robotams. Paprastai jie mielai laikosi nustatytų instrukcijų ir, jei jos sudarytos neteisingai, atsisako indeksuoti žiniatinklio išteklius. Toliau papasakosiu, kaip sukurti tinkamą robots.txt versiją, taip pat kaip ją sukonfigūruoti.

Pratarmėje jau aprašiau, kas tai yra. Dabar aš jums pasakysiu, kodėl to reikia. Robots.txt yra mažas tekstinis failas, kuris saugomas svetainės šaknyje. Jį naudoja paieškos sistemos. Jame aiškiai išdėstytos indeksavimo taisyklės, t.y., kurias svetainės dalis reikia indeksuoti (pridėti prie paieškos), o kurias ne.

Paprastai techninės svetainės skiltys yra uždarytos nuo indeksavimo. Kartais neunikalūs puslapiai patenka į juodąjį sąrašą (to pavyzdys yra privatumo politikos kopijavimas ir įklijavimas). Čia robotams „paaiškinami“ darbo su sekcijomis, kurias reikia indeksuoti, principai. Labai dažnai taisyklės nustatomos keliems robotams atskirai. Apie tai kalbėsime toliau.

At teisingas nustatymas robots.txt, jūsų svetainė tikrai pakils paieškos sistemų reitinguose. Robotai atsižvelgs tik į tai naudingo turinio, atkreipiant dėmesį į pasikartojančius arba techninius skyrius.

Kuriamas robots.txt

Norėdami sukurti failą, tiesiog naudokite standartines savo funkcijas Operacinė sistema, tada įkelkite jį į serverį per FTP. Kur jis slypi (serveryje), nesunku atspėti – šaknyje. Paprastai šis aplankas vadinamas public_html.

Galite lengvai patekti į jį naudodami bet kurį FTP klientą (pavyzdžiui) arba įmontuotą failų tvarkyklė. Natūralu, kad tuščių robotų į serverį nekelsime. Parašykime ten keletą pagrindinių direktyvų (taisyklių).

Vartotojo atstovas: *
Leisti: /

Naudodami šias eilutes savo robotų faile susisieksite su visais robotais (vartotojo agento direktyva), leisdami jiems indeksuoti visą jūsų svetainę (įskaitant visus techninius puslapius Leisti: /)

Žinoma, ši parinktis mums ne itin tinka. Failas nebus ypač naudingas optimizuojant paieškos sistemas. Tam tikrai reikia tinkamo derinimo. Tačiau prieš tai apžvelgsime visas pagrindines direktyvas ir robots.txt reikšmes.

direktyvas

Vartotojo atstovas	Vienas iš svarbiausių, nes nurodo, kurie robotai turi laikytis jo besilaikančių taisyklių. Į taisykles atsižvelgiama iki kito vartotojo agento faile.
Leisti	Leidžia indeksuoti bet kokius išteklių blokus. Pavyzdžiui: „/“ arba „/tag/“.
Neleisti	Priešingai, jis draudžia indeksuoti skyrius.
Svetainės schema	Kelias į svetainės žemėlapį (in xml formatu).
Šeimininkas	Pagrindinis veidrodis (su www arba be jo, arba jei turite kelis domenus). Čia taip pat nurodytas saugus protokolas https (jei yra). Jei turite standartinį http, jo nurodyti nereikia.
Nuskaitymas-delsimas	Su jo pagalba galite nustatyti intervalą, per kurį robotai apsilankys jūsų svetainėje ir atsisiunčia failus. Padeda sumažinti šeimininko apkrovą.
Clean-param	Leidžia išjungti parametrų indeksavimą tam tikruose puslapiuose (pvz., www.site.com/cat/state?admin_id8883278). Skirtingai nuo ankstesnių direktyvų, čia nurodytos 2 reikšmės (adresas ir pats parametras).

Tai visos taisyklės, kurias palaiko pavyzdinės paieškos sistemos. Būtent su jų pagalba daugiausia kursime savo robotus, veikiančius įvairiomis variacijomis skirtingi tipai svetaines.

Nustatymai

Norėdami tinkamai sukonfigūruoti robotų failą, turime tiksliai žinoti, kurios svetainės dalys turi būti indeksuojamos, o kurios ne. Jei naudojate paprastą vieno puslapio svetainę, kurioje naudojama html + css, tereikia parašyti keletą pagrindinių direktyvų, tokių kaip:

Vartotojo atstovas: *
Leisti: /
Svetainės schema: site.ru/sitemap.xml
Priegloba: www.site.ru

Čia mes nurodėme visų paieškos sistemų taisykles ir vertes. Bet geriau pridėti atskiras „Google“ ir „Yandex“ direktyvas. Tai atrodys taip:

Vartotojo atstovas: *
Leisti: /

Vartotojo agentas: „Yandex
Leisti: /
Neleisti: /politika

Vartotojo agentas: GoogleBot
Leisti: /
Neleisti: /tags/

Svetainės schema: site.ru/sitemap.xml
Priegloba: site.ru

Dabar absoliučiai visi failai mūsų html svetainėje bus indeksuojami. Jei norime išskirti puslapį ar paveikslėlį, turime nurodyti santykinę nuorodą į šį fragmentą „Disallow“.

Galite naudotis paslaugomis automatinė generacija robotų failai. Negarantuoju, kad su jų pagalba sukursite tobulai teisingą variantą, bet galite pabandyti kaip įžangą.

Tarp tokių paslaugų yra:

Su jų pagalba galite sukurti robots.txt automatinis režimas. Asmeniškai aš labai nerekomenduoju šios parinkties, nes daug lengviau tai padaryti rankiniu būdu, pritaikant jį savo platformai.

Kai kalbame apie platformas, turiu galvoje visokias TVS, sistemas, SaaS sistemas ir daug daugiau. Toliau kalbėsime apie tai, kaip nustatyti „WordPress“ ir „Joomla“ roboto failą.

Tačiau prieš tai pabrėšime keletą universalių taisyklių, kurios gali vadovautis kuriant ir nustatant robotus beveik bet kuriai svetainei:

Neleisti indeksuoti:

svetainės administratorius;
asmeninė paskyra ir registracijos/autorizacijos puslapiai;
krepšelis, duomenys iš užsakymų formų (internetinės parduotuvės);
cgi aplankas (esantis pagrindiniame kompiuteryje);
aptarnavimo skyriai;
ajax ir json scenarijai;
UTM ir Openstat žymos;
įvairių parametrų.

Atidaryti (leisti):

Paveikslėliai;
JS ir CSS failai;
kiti elementai, į kuriuos turi atsižvelgti paieškos sistemos.

Be to, pabaigoje nepamirškite nurodyti svetainės schemos (kelias į svetainės žemėlapį) ir pagrindinio kompiuterio (pagrindinio veidrodžio) duomenų.

Robots.txt, skirtas „WordPress“.

Norėdami sukurti failą, tuo pačiu būdu turime įmesti robots.txt į svetainės šaknį. Tokiu atveju galite pakeisti jo turinį naudodami tas pačias FTP ir failų tvarkykles.

Yra patogesnė parinktis - sukurti failą naudojant papildinius. Visų pirma, Yoast SEO turi tokią funkciją. Redaguoti robotus tiesiai iš administratoriaus skydelio yra daug patogiau, todėl aš pats naudoju šį darbo su robots.txt metodą.

Kaip jūs nuspręsite sukurti šį failą, mums svarbiau tiksliai suprasti, kokios direktyvos turi būti ten. Savo svetainėse, kuriose veikia „WordPress“, naudoju šią parinktį:

Vartotojo agentas: * # taisyklės visiems robotams, išskyrus Google ir Yandex

Neleisti: /cgi-bin # aplankas su scenarijais
Neleisti: /? # užklausos parametrai su pagrindinis puslapis
Neleisti: /wp- # paties CSM failo (su priešdėliu wp-)
Neleisti: *?s= # \
Neleisti: *&s= # viskas, kas susiję su paieška
Neleisti: /search/ # /
Neleisti: /autorius/ # autorių archyvas
Neleisti: /naudotojai/ # ir vartotojai
Neleisti: */trackback # pranešimai iš WP, kad kažkas susieja su jumis
Neleisti: */feed # sklaidos kanalas xml formatu
Neleisti: */rss # ir rss
Neleisti: */embed # įmontuotų elementų
Neleisti: /xmlrpc.php #WordPress API
Neleisti: *utm= # UTM žymos
Neleisti: *openstat= # Openstat žymos
Neleisti: /tag/ # žymos (jei yra)
Leisti: */įkėlimai # atidarytų atsisiuntimų (nuotraukų ir kt.)

Vartotojo agentas: GoogleBot # Google
Neleisti: /cgi-bin
Neleisti: /?
Neleisti: /wp-
Neleisti: *?s=
Neleisti: *&s=
Neleisti: /search/
Neleisti: /autorius/
Neleisti: /naudotojai/
Neleisti: */trackback
Neleisti: */feed
Neleisti: */rss
Neleisti: */embed
Neleisti: /xmlrpc.php
Neleisti: *utm=
Neleisti: *openstat=
Neleisti: /tag/
Leisti: */įkėlimai
Leisti: /*/*.js # atidaryti JS failą
Leisti: /*/*.css # ir CSS
Leisti: /wp-*.png # ir vaizdai png formatu
Leisti: /wp-*.jpg # \
Leisti: /wp-*.jpeg # ir kiti formatai
Leisti: /wp-*.gif # /
# veikia su papildiniais

Vartotojo agentas: „Yandex # Yandex
Neleisti: /cgi-bin
Neleisti: /?
Neleisti: /wp-
Neleisti: *?s=
Neleisti: *&s=
Neleisti: /search/
Neleisti: /autorius/
Neleisti: /naudotojai/
Neleisti: */trackback
Neleisti: */feed
Neleisti: */rss
Neleisti: */embed
Neleisti: /xmlrpc.php
Neleisti: /tag/
Leisti: */įkėlimai
Leisti: /*/*.js
Leisti: /*/*.css
Leisti: /wp-*.png
Leisti: /wp-*.jpg
Leisti: /wp-*.jpeg
Leisti: /wp-*.gif
Leisti: /wp-admin/admin-ajax.php
# švarios UTM žymos
Clean-Param: openstat # ir nepamirškite apie Openstat

Svetainės schema: # nurodykite kelią į svetainės žemėlapį
Priegloba: https://site.ru # pagrindinis veidrodis

Dėmesio! Kopijuodami eilutes į failą, nepamirškite pašalinti visų komentarų (teksto po #).

Ši robots.txt parinktis yra populiariausia tarp WP naudojančių žiniatinklio valdytojų. Ar jis idealus? Nr. Galite pabandyti ką nors pridėti arba, priešingai, ką nors pašalinti. Tačiau atminkite, kad klaidos dažnai pasitaiko optimizuojant roboto teksto variklį. Apie juos kalbėsime toliau.

Robots.txt, skirtas Joomla

Ir nors 2018 m. Joomla mažai kas naudojasi, manau, kad šios nuostabios TVS negalima ignoruoti. Reklamuodami projektus Joomla, tikrai turėsite sukurti robotų failą, kitaip kaip norite blokuoti nereikalingų elementų indeksavimą?

Kaip ir ankstesniu atveju, galite sukurti failą rankiniu būdu, tiesiog įkeldami jį į pagrindinį kompiuterį arba naudodami modulį šiems tikslams. Abiem atvejais turėsite jį tinkamai sukonfigūruoti. Štai kaip atrodys teisinga Joomla parinktis:

Vartotojo atstovas: *
Leisti: /*.css?*$
Leisti: /*.js?*$
Leisti: /*.jpg?*$
Leisti: /*.png?*$
Neleisti: /cache/
Neleisti: /*.pdf
Neleisti: /administrator/
Neleisti: /installation/
Neleisti: /cli/
Neleisti: /bibliotekos/
Neleisti: /kalba/
Neleisti: /komponentai/
Neleisti: /modules/
Neleisti: /įtraukiama/
Neleisti: /bin/
Neleisti: /komponentas/
Neleisti: /tmp/
Neleisti: /index.php
Neleisti: /plugins/
Neleisti: /*mailto/

Neleisti: /logs/
Neleisti: /component/tags*
Neleisti: /*%
Neleisti: /layouts/

Vartotojo agentas: „Yandex
Neleisti: /cache/
Neleisti: /*.pdf
Neleisti: /administrator/
Neleisti: /installation/
Neleisti: /cli/
Neleisti: /bibliotekos/
Neleisti: /kalba/
Neleisti: /komponentai/
Neleisti: /modules/
Neleisti: /įtraukiama/
Neleisti: /bin/
Neleisti: /komponentas/
Neleisti: /tmp/
Neleisti: /index.php
Neleisti: /plugins/
Neleisti: /*mailto/

Neleisti: /logs/
Neleisti: /component/tags*
Neleisti: /*%
Neleisti: /layouts/

Vartotojo agentas: GoogleBot
Neleisti: /cache/
Neleisti: /*.pdf
Neleisti: /administrator/
Neleisti: /installation/
Neleisti: /cli/
Neleisti: /bibliotekos/
Neleisti: /kalba/
Neleisti: /komponentai/
Neleisti: /modules/
Neleisti: /įtraukiama/
Neleisti: /bin/
Neleisti: /komponentas/
Neleisti: /tmp/
Neleisti: /index.php
Neleisti: /plugins/
Neleisti: /*mailto/

Neleisti: /logs/
Neleisti: /component/tags*
Neleisti: /*%
Neleisti: /layouts/

Priegloba: site.ru # nepamirškite čia pakeisti adreso į savo
Svetainės schema: site.ru/sitemap.xml # ir čia

Kaip taisyklė, to pakanka papildomų failų nebuvo įtraukti į indeksą.

Klaidos sąrankos metu

Labai dažnai žmonės klysta kurdami ir nustatydami robotų failą. Štai dažniausiai iš jų:

Taisyklės nurodytos tik User-agent.
Trūksta pagrindinio kompiuterio ir svetainės schemos.
http protokolo buvimas pagrindinio kompiuterio direktyvoje (reikia nurodyti tik https).
Įdėjimo taisyklių nesilaikymas atidarant / uždarant vaizdus.
UTM ir Openstat žymos nėra uždarytos.
Prieglobos ir svetainės schemos nurodymų rašymas kiekvienam robotui.
Paviršutiniškas bylos detalizavimas.

Labai svarbu teisingai sukonfigūruoti šį mažą failą. Jei padarysite rimtų klaidų, galite prarasti didelę dalį srauto, todėl nustatydami būkite itin atidūs.

Kaip patikrinti failą?

Šiems tikslams geriau naudoti specialiosios tarnybos iš „Yandex“ ir „Google“, kadangi šios paieškos sistemos yra pačios populiariausios ir paklausiausios (dažniausiai naudojamos vienintelės), neverta svarstyti apie tokias paieškos sistemas kaip „Bing“, „Yahoo“ ar „Rambler“.

Pirma, apsvarstykime parinktį su „Yandex. Eikite į žiniatinklio valdytoją. Tada eikite į Įrankiai – robots.txt analizė.

Čia galite patikrinti, ar faile nėra klaidų, taip pat realiuoju laiku patikrinti, kurie puslapiai atidaryti indeksavimui, o kurie ne. Labai patogus.

„Google“ turi lygiai tokią pačią paslaugą. Eime Search Console. Raskite skirtuką Nuskaitymas, pasirinkite – Robots.txt failo tikrinimo įrankis.

Funkcijos čia yra lygiai tokios pačios kaip ir buityje.

Atkreipkite dėmesį, kad man rodomos 2 klaidos. Taip yra dėl to, kad „Google“ nepripažįsta „Yandex“ nurodytų parametrų valymo direktyvų:

„Clean-Param“: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Nereikėtų į tai kreipti dėmesio, nes Google robotai naudoja tik GoogleBot taisykles.

Išvada

Failas robots.txt yra labai svarbus jūsų svetainės SEO optimizavimui. Su visa atsakomybe žiūrėkite į jo sąranką, nes netinkamai įdiegus, viskas gali nueiti perniek.

Atsiminkite visas šiame straipsnyje pateiktas instrukcijas ir nepamirškite, kad jums nereikia tiksliai kopijuoti mano robotų variantų. Visai įmanoma, kad turėsite išsamiau suprasti kiekvieną direktyvą, pakoreguodami failą, kad jis atitiktų jūsų konkretų atvejį.

O jei norite giliau suprasti robots.txt ir svetainių kūrimą naudojant „WordPress“, kviečiu tai padaryti. Čia sužinosite, kaip nesunkiai susikursite svetainę, nepamirštant jos optimizuoti paieškos sistemoms.

Beveik kiekviename projekte, kuris ateina pas mus audituoti ar reklamuoti, yra neteisingas robots.txt failas, o dažnai jo visai trūksta. Taip nutinka todėl, kad kurdami failą kiekvienas vadovaujasi savo fantazija, o ne taisyklėmis. Išsiaiškinkime, kaip teisingai sudaryti šį failą, kad paieškos robotai su juo dirbtų efektyviai.

Kodėl reikia konfigūruoti robots.txt?

Robotai.txt yra failas, esantis svetainės šakniniame kataloge, nurodantis paieškos sistemų robotams, kurias svetainės dalis ir puslapius jie gali pasiekti, o kuriuos – ne.

Robots.txt nustatymas yra svarbi paieškos variklio rezultatų dalis, tinkamai sukonfigūruoti robotai taip pat padidina svetainės našumą. Trūksta Robots.txt netrukdys paieškos sistemoms tikrinti ir indeksuoti jūsų svetainę, bet jei neturite šio failo, gali kilti dvi problemos:

Paieškos robotas skaitys visą svetainę, o tai „sumažins“ nuskaitymo biudžetą. Tikrinimo biudžetas – tai puslapių, kuriuos paieškos robotas gali nuskaityti per tam tikrą laikotarpį, skaičius.

Be robotų failo paieškos sistema turės prieigą prie juodraščių ir paslėptų puslapių, šimtų puslapių, naudojamų TVS administruoti. Jis juos indeksuos, o kai kalbama apie būtinus puslapius, kuriuose lankytojams pateikiamas tiesioginis turinys, nuskaitymo biudžetas „išeik.

Indeksas gali apimti svetainės prisijungimo puslapį ir kitus administratoriaus išteklius, todėl užpuolikas gali lengvai juos stebėti ir manipuliuoti ddos ataka arba įsilaužti į svetainę.

Kaip paieškos robotai mato svetainę su robots.txt ir be jo:

Robots.txt sintaksė

Prieš pradėdami suprasti sintaksę ir nustatydami robots.txt, pažiūrėkime, kaip turėtų atrodyti „idealus failas“:

Bet jūs neturėtumėte jo naudoti iš karto. Kiekvienai svetainei dažniausiai reikalingi atskiri nustatymai, nes visi turime skirtingą svetainės struktūrą ir skirtingą TVS. Pažvelkime į kiekvieną direktyvą eilės tvarka.

Vartotojo atstovas

User-agent – apibrėžia paieškos robotą, kuris turi vykdyti faile aprašytas instrukcijas. Jei reikia kreiptis į visus iš karto, naudokite * piktogramą. Taip pat galite susisiekti su konkrečiu paieškos robotu. Pavyzdžiui, „Yandex“ ir „Google“:

Naudodamas šią direktyvą, robotas supranta, kuriuos failus ir aplankus draudžiama indeksuoti. Jei norite, kad visa svetainė būtų atidaryta indeksavimui, palikite Neleisti reikšmę tuščią. Norėdami paslėpti visą svetainės turinį po Neleisti, įdėkite „/“.

Galime neleisti pasiekti konkretaus aplanko, failo ar failo plėtinio. Mūsų pavyzdyje susisiekiame su visais paieškos robotais, blokuojame prieigą prie bitrix, ieškome ir pdf plėtinys.

Leisti

Leisti priverčia indeksuoti svetainės puslapius ir skyrius. Aukščiau pateiktame pavyzdyje susisiekiame su Google paieškos robotu, blokuojame prieigą prie bitrix, paieškos aplanko ir pdf plėtinio. Bet aplanke bitrix mes priverstinai atidarome 3 aplankus indeksavimui: komponentai, js, įrankiai.

Priimančioji – svetainės veidrodis

Veidrodinė svetainė yra pagrindinės svetainės kopija. Veidrodžiai naudojami įvairiems tikslams: adreso keitimui, saugumui, serverio apkrovos mažinimui ir kt.

Šeimininkas yra viena iš svarbiausių taisyklių. Jei registruotas šią taisyklę, tada robotas supras, į kuriuos svetainės veidrodžius reikia atsižvelgti indeksuojant. Ši direktyva reikalinga Yandex ir Mail.ru robotams. Kiti robotai nepaisys šios taisyklės. Šeimininkas registruojamas tik vieną kartą!

„https://“ ir „http://“ protokolų sintaksė robots.txt faile skirsis.

Svetainės schema – svetainės schema

Svetainės schema yra svetainės naršymo forma, naudojama informuoti paieškos sistemas apie naujus puslapius. Naudodami svetainės schemos direktyvą, „priverstinai“ parodome robotui, kur yra žemėlapis.

Simboliai faile robots.txt

Simboliai, naudojami faile: „/, *, $, #“.

Funkcijų tikrinimas nustačius robots.txt

Įdėję Robots.txt į savo svetainę, turite jį pridėti ir patikrinti „Yandex“ ir „Google“ žiniatinklio valdytojo paskyroje.

„Yandex“ patikrinimas:

Sekite šią nuorodą.
Pasirinkite: Indeksavimo nustatymai – Robots.txt analizė.

Google patikrinimas:

Sekite šią nuorodą.
Pasirinkite: Nuskaityti – Robots.txt failų tikrinimo įrankis.

Tokiu būdu galite patikrinti, ar faile robots.txt nėra klaidų, ir, jei reikia, atlikti reikiamus koregavimus.

Failo turinys turi būti parašytas didžiosiomis raidėmis.
Neleisti direktyvoje reikia nurodyti tik vieną failą arba katalogą.
„User-agent“ eilutė negali būti tuščia.
Vartotojo agentas visada turi būti prieš Disallow.
Nepamirškite įtraukti pasvirojo brūkšnio, jei reikia išjungti katalogo indeksavimą.
Prieš įkeldami failą į serverį, būtinai patikrinkite, ar jame nėra sintaksės ir rašybos klaidų.

Linkiu sėkmės!

3 failo Robots.txt kūrimo ir tinkinimo metodų vaizdo apžvalga

Robots.txt yra tekstinis failas, kuriame yra svetainės indeksavimo parametrai, skirti paieškos sistemų robotams.

„Yandex“ palaiko šias direktyvas:

direktyvą	Ką jis daro
Vartotojo atstovas *
Neleisti
Svetainės schema
Clean-param
Leisti
Nuskaitymas-delsimas

direktyvą	Ką jis daro
Vartotojo atstovas *	Nurodo robotą, kuriam taikomos robots.txt pateiktos taisyklės.
Neleisti	Išjungia skaidinių indeksavimą arba atskirus puslapius svetainę.
Svetainės schema	Nurodomas svetainėje esančio svetainės schemos failo kelias.
Clean-param	Nurodo robotui, kad puslapio URL yra parametrų (pvz., UTM žymų), į kuriuos indeksuojant nereikia atsižvelgti.
Leisti	Leidžia indeksuoti skyrius arba atskirus svetainės puslapius.
Nuskaitymas-delsimas	Nustato minimalų laikotarpį (sekundėmis), per kurį robotas baigia įkelti vieną puslapį ir pradeda įkelti kitą.

* Privaloma direktyva.

Dažniausios direktyvos, kurių jums gali prireikti, yra Disallow, Sitemap ir Clean-param. Pavyzdžiui:

Vartotojo agentas: * #specify, kurioms robotų direktyvos yra įdiegtos\nDisallow: /bin/ # draudžia nuorodas iš \"Pirkinių krepšelio\".\nDisallow: /search/ # draudžia nuorodas į puslapius, integruotus į paieškos svetainę\nNeleisti: /admin / # draudžia nuorodas iš administratoriaus skydelio\nSvetainės schema: http://example.com/sitemap # nukreipkite robotą į svetainės schemos failą\nClean-param: ref /some_dir/get_book.pl

Kitų paieškos sistemų ir paslaugų robotai direktyvas gali interpretuoti skirtingai.

Pastaba.

Robotas atsižvelgia į didžiąsias ir mažąsias raides rašydamas poeilutes (pavadinimą arba kelią į failą, roboto pavadinimą), o direktyvų pavadinimuose neatsižvelgia į didžiąsias ir mažąsias raides.

Naudojant kirilicos abėcėlę

Kirilica draudžiama naudoti robots.txt faile ir serverio HTTP antraštėse.

Sveiki, draugai ir mano tinklaraščio prenumeratoriai. Šiandien darbotvarkėje yra Robots.txt, viskas, ką norėjote apie jį sužinoti, trumpai, be nereikalingų pūkelių.

Kas yra Robots.txt ir kodėl jis reikalingas?

Robots.txt reikalingas norint nurodyti paieškos sistemai (Yandex, Google ir kt.), kaip teisingai (jūsų požiūriu) svetainė turi būti indeksuojama. Kurie puslapiai, skyriai, produktai, straipsniai turi būti indeksuojami, o kurie, priešingai, nebūtini.

Robots.txt yra paprasto teksto failas (su raiška .txt), kurį W3C priėmė 1994 m. sausio 30 d. ir kurį naudoja dauguma paieškos sistemų. Paprastai jis atrodo taip:

Kaip tai veikia jūsų svetainės reklamą?

Norint sėkmingai reklamuoti svetainę, būtina, kad „Yandex“ ir „Google“ indekse (bazėje) būtų tik būtini svetainės puslapiai. Reikalingus puslapius turiu omenyje:
Namai;
skyrių, kategorijų puslapiai;
Prekės;
Straipsniai;

Puslapiai „Apie įmonę“, „Kontaktai“ ir kt.

Nereikalingi puslapiai turiu omenyje šiuos dalykus:
Pasikartojantys puslapiai;
Spausdinti puslapius;
Paieškos rezultatų puslapiai;
Sistemos puslapiai, registracijos, prisijungimo, atsijungimo puslapiai;

Prenumeratos puslapiai (sklaidos kanalas);

Pavyzdžiui, jei paieškos variklio indekse yra pagrindinių reklamuojamų puslapių dublikatų, tai sukels problemų dėl svetainės turinio unikalumo ir neigiamai paveiks pozicijas.

Kur jis yra? Failas paprastai yra aplanko public_html šaknyje

savo priegloboje, čia:

Ką turėtumėte žinoti apie failą Robots.txt
Robots.txt instrukcijos yra patariamojo pobūdžio. Tai reiškia, kad nustatymai yra nuorodos, o ne tiesioginės komandos. Tačiau kaip taisyklė, tiek „Yandex“, tiek „Google“ be jokių problemų vykdo instrukcijas;
Failas gali būti talpinamas tik serveryje;
Jis turėtų būti svetainės šaknyje;
Sintaksės pažeidimas sukelia neteisingą failą, o tai gali neigiamai paveikti indeksavimą;

Būtinai patikrinkite teisingą sintaksę „Yandex Webmaster“ skydelyje!

Kaip užblokuoti puslapio, skyriaus, failo indeksavimą?

Pavyzdžiui, noriu užblokuoti puslapio indeksavimą „Yandex“: http://site/page-for-robots/

Norėdami tai padaryti, turiu naudoti direktyvą „Disallow“ ir puslapio (skilties, failo) URL. Tai atrodo taip:
Neleisti: /page-for-robots/
Šeimininkas: svetainė

Jeigu aš noriu artima kategorija
Vartotojo agentas: „Yandex
Neleisti: /kategorija/atvejis/
Šeimininkas: svetainė

Jei noriu užblokuoti visos svetainės indeksavimą, išskyrus skyrių http://site/category/case/, tuomet turėsite tai padaryti:

Norėdami tai padaryti, turiu naudoti direktyvą „Disallow“ ir puslapio (skilties, failo) URL. Tai atrodo taip:
Neleisti: /
Leisti: /kategorija/atvejis/
Šeimininkas: svetainė

Priešingai, direktyva „Leisti“ nurodo, kurį puslapį, skyrių, failą reikia indeksuoti.

Manau, statybos logika jums tapo aiški. Atminkite, kad taisyklės bus taikomos tik „Yandex“, nes vartotojo agentas nurodytas: „Yandex. „Google“ nepaisys šio dizaino ir indeksuos visą svetainę.

Jei norite parašyti universalias taisykles visoms paieškos sistemoms, naudokite: User-agent: *. Pavyzdys:

Vartotojo atstovas: *
Neleisti: /
Leisti: /kategorija/atvejis/
Šeimininkas: svetainė

Vartotojo atstovas yra roboto, kuriam skirtos instrukcijos, pavadinimas. Numatytoji reikšmė yra * (žvaigždutė) – tai reiškia, kad instrukcijos skirtos absoliučiai visiems paieškos robotams.
Dažniausi robotų pavadinimai:

„Yandex“ – visi „Yandex“ paieškos variklio robotai
YandexImages – vaizdų indeksavimo priemonė
Googlebot – Google robotas
BingBot – Bing sistemos robotas
YaDirectBot – sistemos robotas kontekstinė reklama Yandex.

Nuorodos į išsami apžvalga visos „Yandex“ ir „Google“ direktyvos.

Kas turi būti aukštesniame Robots.txt faile

Priimančiosios direktyva sukonfigūruota. Turi būti nurodyta pagrindinis veidrodis Jūsų tinklalapis. Pagrindiniai veidrodžiai: site.ru arba www.site.ru. Jei jūsų svetainėje yra http s, tada tai taip pat turi būti nurodyta. Pagrindinis prieglobos ir „Yandex.Webmaster“ veidrodis turi atitikti.
Svetainės skiltys ir puslapiai, kuriuose nėra jokios naudingos apkrovos, taip pat puslapiai su pasikartojančiu turiniu, spausdinimo puslapiai, paieškos rezultatai ir sistemos puslapiai turėtų būti uždaryti nuo indeksavimo (naudojant direktyvą Disallow:).
Pateikite nuorodą į sitemap.xml (svetainės žemėlapį xml formatu).
Svetainės schema: http://site.ru/sitemap.xml

Pagrindinio veidrodžio nurodymas

Pirmiausia turite išsiaiškinti, kurį veidrodį pagal numatytuosius nustatymus turite kaip pagrindinį. Norėdami tai padaryti, įveskite savo svetainės URL „Yandex“, rezultatuose nurodykite URL ir naršyklės lango apačioje, kairėje, jis bus nurodytas www domenas, arba be. Šiuo atveju be WWW.

Jei nurodytas domenas su https, tada ir Robots, ir Yandex.Webmaster turite nurodyti https! Tai atrodo taip: