Robotar txt vad är det. Hur man redigerar robots txt-fil

Hej kära läsare av bloggen Webmaster's World!

Fil robots.txt- Det här är en mycket viktig fil som direkt påverkar kvaliteten på indexeringen av din webbplats, och därmed dess marknadsföring genom sökmotorer.

Det är därför du måste kunna formatera robots.txt på rätt sätt så att du inte av misstag förhindrar att viktiga dokument från ett internetprojekt indexeras.

Hur man ordnar robots.txt-filen, vilken syntax som ska användas i det här fallet, hur man tillåter och förbjuder dokument från att indexeras, kommer att diskuteras i den här artikeln.

Om filen robots.txt

Låt oss först ta reda på mer i detalj vilken typ av fil detta är.

Fila robotar – Det här är en fil som visar sökmotorer vilka sidor och dokument på sajten som kan indexeras och vilka som inte kan. Det är nödvändigt på grund av det faktum att sökmotorer initialt försöker indexera hela webbplatsen, och det är inte alltid korrekt. Till exempel, om du skapar en webbplats på en motor (WordPress, Joomla, etc.), kommer du att ha mappar som organiserar arbetet i den administrativa panelen. Det är tydligt att informationen i dessa mappar inte kan indexeras, bara i det här fallet används robots.txt-filen, vilket begränsar åtkomsten till sökmotorer.

Robots.txt-filen innehåller också adressen till webbplatskartan (den förbättrar indexeringen av sökmotorer), samt webbplatsens huvuddomän (huvudspegeln).

Spegel- detta är en absolut kopia av sajten, dvs. när en webbplats är , då säger de att en av dem är huvuddomänen och den andra är dess spegel.

Således har filen en mängd funktioner, och viktiga!

Robots.txt Syntax

Robotfilen innehåller regelblock som talar om för en viss sökmotor vad som kan indexeras och inte. Det kan finnas ett regelblock (för alla sökmotorer), men det kan också finnas flera av dem - för vissa specifika sökmotorer separat.

Varje sådant block börjar med en "User-Agent"-sats som anger vilken sökmotor reglerna gäller.

Användare-ombud:A
(regler för robot "A")

Användare-ombud:B
(regler för robot "B")

Exemplet ovan visar att operatören "User-Agent" har en parameter - namnet på sökmotorroboten som reglerna gäller. Jag kommer att lista de viktigaste nedan:

Efter "User-Agent" finns andra operatörer. Här är deras beskrivning:

Alla operatorer har samma syntax. De där. Operatörer ska användas så här:

Operatör1: parameter1

Operatör2: parameter2

Därför skriver vi först namnet på operatören (det spelar ingen roll, med stora eller små bokstäver), sedan sätter vi ett kolon och, efter ett mellanslag, anger parametern för denna operatör. Sedan, från en ny linje, beskriver vi operator två på samma sätt.

Viktig!!! En tom sträng kommer att innebära att regelblocket för denna sökmotor har avslutats, så separera inte påståendena med en tom rad.

Exempel på robots.txt-fil

Låt oss ta en titt på ett enkelt exempel på en robots.txt-fil för att bättre förstå dess syntax:

Användaragent: Yandex
Tillåt: /folder1/
Disallow: /fil1.html
Värd: www.site.ru

Användaragent: *
Disallow: /document.php
Disallow: /folderxxx/
Disallow: /folderyyy/folderzzz
Disallow: /feed/

Webbplatskarta: http://www.site.ru/sitemap.xml

Låt oss nu titta på det beskrivna exemplet.

Filen består av tre block: det första är för Yandex, det andra är för alla sökmotorer och det tredje innehåller webbplatskartans adress (tillämpas automatiskt för alla sökmotorer, så du behöver inte ange "User-Agent") . Vi tillät Yandex att indexera mappen "mapp1" och allt dess innehåll, men vi förbjöd den att indexera dokumentet "fil1.html" som finns i rotkatalogen på webbhotellet. Vi specificerade också webbplatsens huvuddomän till Yandex. Det andra blocket är för alla sökmotorer. Där förbjöd vi dokumentet "document.php", samt mapparna "folderxxx", "folderyyy/folderzzz" och "feed".

Observera att i det andra kommandoblocket till indexet förbjöd vi inte hela mappen "folderyyy", utan bara mappen inuti den här mappen - "folderzzz". De där. vi angav den fullständiga sökvägen för "folderzzz". Detta bör alltid göras om vi förbjuder ett dokument som inte finns i rotkatalogen på webbplatsen, utan någonstans i andra mappar.

Skapandet tar mindre än två minuter:

Den skapade robotfilen kan kontrolleras för prestanda i Yandex webbansvariga panel. Om fel plötsligt hittas i filen kommer Yandex att visa det.

Se till att skapa en robots.txt-fil för din webbplats om du inte redan har en. Detta kommer att hjälpa din webbplats att rankas i sökmotorerna. Du kan också läsa vår andra artikel om metataggmetoden och .htaccess.

God eftermiddag kära vänner! Ni vet alla att sökmotoroptimering är en ansvarsfull och känslig fråga. Det är nödvändigt att ta hänsyn till absolut varje liten sak för att få ett acceptabelt resultat.

Idag kommer vi att prata om robots.txt - en fil som är bekant för alla webbansvariga. Det är i det som alla de mest grundläggande instruktionerna för sökrobotar är föreskrivna. Som regel följer de de föreskrivna instruktionerna med nöje och vägrar, i händelse av felaktig sammanställning, att indexera webbresursen. Därefter kommer jag att berätta hur du skriver rätt version av robots.txt, samt hur du konfigurerar den.

I förordet har jag redan beskrivit vad det är. Nu ska jag berätta varför du behöver det. Robots.txt är en liten textfil som lagras i roten på webbplatsen. Det används av sökmotorer. Det anger tydligt indexeringsreglerna, dvs vilka delar av webbplatsen som behöver indexeras (läggs till i sökningen) och vilka som inte ska.

Vanligtvis är tekniska delar av webbplatsen stängda från indexering. Ibland blir icke-unika sidor svartlistade (copy-paste sekretesspolicy är ett exempel på detta). Här "förklaras robotar" principerna för att arbeta med avsnitt som behöver indexeras. Mycket ofta skrivs regler för flera robotar separat. Vi kommer att prata om detta vidare.

Med rätt robots.txt-konfiguration kommer din webbplats garanterat att växa i sökmotorpositioner. Robotar kommer endast att överväga användbart innehåll, vilket berövar dubbletter eller tekniska delar uppmärksamhet.

Skapa robots.txt

För att skapa en fil räcker det att använda standardfunktionerna i ditt operativsystem och sedan ladda upp den till servern via FTP. Var den ligger (på servern) är lätt att gissa - vid roten. Denna mapp kallas vanligtvis public_html.

Du kan enkelt komma in i det med vilken FTP-klient som helst (till exempel) eller den inbyggda filhanteraren. Naturligtvis laddar vi inte upp tomma robotar till servern. Låt oss skriva några grundläggande direktiv (regler) där.

Användaragent: *
tillåt: /

Genom att använda dessa rader i din robotfil kommer du att nå ut till alla robotar (User-agent-direktivet), så att de kan indexera din webbplats i sin helhet (inklusive alla dessa Tillåt: /-sidor)

Det här alternativet passar oss naturligtvis inte riktigt. Filen kommer inte att vara särskilt användbar för sökmotoroptimering. Det behöver definitivt rätt justering. Men innan dess kommer vi att täcka alla grundläggande robots.txt-direktiv och -värden.

direktiv

användaragentEn av de viktigaste, eftersom den indikerar vilka robotar som ska följa reglerna efter den. Reglerna respekteras tills nästa User-agent i filen.
tillåtaTillåter indexering av alla resursblock. Till exempel: "/" eller "/tag/".
Inte godkännaTvärtom förbjuder den indexering av avsnitt.
WebbplatskartaSökväg till webbplatskartan (i xml-format).
VärdHuvudspegel (med eller utan www, eller om du har flera domäner). Det säkra https-protokollet (om tillgängligt) anges också här. Om du har en standard http behöver du inte ange den.
Crawl-fördröjningMed dess hjälp kan du ställa in intervallet för att besöka och ladda ner filer på din webbplats för robotar. Hjälper till att minska belastningen på värden.
Rengör paramLåter dig inaktivera indexering av parametrar på vissa sidor (som www.site.com/cat/state?admin_id8883278).
Till skillnad från de tidigare direktiven anges 2 värden här (adressen och själva parametern).

Det här är alla regler som stöds av flaggskeppssökmotorerna. Det är med deras hjälp som vi kommer att skapa våra robotar, som arbetar med olika varianter för olika typer av webbplatser.

Miljö

För att korrekt konfigurera robotfilen behöver vi veta exakt vilka delar av webbplatsen som ska indexeras och vilka som inte ska. När det gäller en enkel html + css ensidigare behöver vi bara skriva några grundläggande direktiv, som:

Användaragent: *
tillåt: /
Webbplatskarta: site.ru/sitemap.xml
Värd: www.site.ru

Här har vi specificerat regler och värden för alla sökmotorer. Men det är bättre att lägga till separata direktiv för Google och Yandex. Det kommer att se ut så här:

Användaragent: *
tillåt: /

Användaragent: Yandex
tillåt: /
Disallow: /policy

Användaragent: GoogleBot
tillåt: /
Disallow: /taggar/

Webbplatskarta: site.ru/sitemap.xml
Värd: site.ru

Nu kommer absolut alla filer att indexeras på vår html-sida. Om vi ​​vill utesluta någon sida eller bild måste vi ange en relativ länk till detta fragment i Disallow.

Du kan använda robotars automatiska filgenereringstjänster. Jag garanterar inte att du med deras hjälp kommer att skapa en helt korrekt version, men du kan prova det som en introduktion.

Bland dessa tjänster finns:

Med deras hjälp kan du skapa robots.txt automatiskt. Personligen rekommenderar jag starkt inte det här alternativet, eftersom det är mycket lättare att göra det manuellt genom att konfigurera det för din plattform.

På tal om plattformar menar jag alla typer av CMS, ramverk, SaaS-system och mycket mer. Därefter kommer vi att prata om hur man ställer in en WordPress- och Joomla-robotfil.

Men innan dess, låt oss lyfta fram några universella regler som kan vägleda dig när du skapar och konfigurerar robotar för nästan alla webbplatser:

Stäng från indexering (Disallow):

  • webbplatsadministratör;
  • personligt konto och registrerings-/auktoriseringssidor;
  • varukorg, data från beställningsformulär (för en onlinebutik);
  • cgi-mappen (finns på värden);
  • servicesektioner;
  • ajax- och json-skript;
  • UTM- och Openstat-taggar;
  • olika alternativ.

Öppna (tillåt):

  • bilder;
  • JS- och CSS-filer;
  • andra element som bör beaktas av sökmotorer.

Dessutom, i slutet, glöm inte att ange webbplatskartadata (sökvägen till webbplatskartan) och värd (huvudspegeln).

Robots.txt för WordPress

För att skapa en fil måste vi slänga robots.txt i roten på webbplatsen på samma sätt. I det här fallet kommer det att vara möjligt att ändra dess innehåll med samma FTP och filhanterare.

Det finns också ett bekvämare alternativ - att skapa en fil med plugins. I synnerhet Yoast SEO har en sådan funktion. Att redigera robotar direkt från adminpanelen är mycket bekvämare, så jag använder själv precis den här metoden att arbeta med robots.txt.

Hur du bestämmer dig för att skapa den här filen är upp till dig, det är viktigare för oss att förstå vilken typ av direktiv som ska finnas där. Jag använder det här alternativet på mina WordPress-webbplatser:

User-agent: * # regler för alla robotar utom Google och Yandex

Disallow: /cgi-bin # mapp med skript
disallow: /? # begär parametrar från hemsidan
Disallow: /wp- # filer av själva CSM (med prefixet wp-)
Disallow: *?s= # \
Disallow: *&s= # något som har med sökning att göra
Disallow: /search/ # /
Disallow: /author/ # arkiv med författare
Disallow: /users/ # och användare
Disallow: */trackback # aviseringar från WP om att någon länkar till dig
Disallow: */feed # feed i xml
Disallow: */rss # och rss
Disallow: */embed # inline-element
Disallow: /xmlrpc.php # WordPress API
Disallow: *utm= # UTM-taggar
Disallow: *openstat= # openstat-etiketter
Disallow: /tagg/ # taggar (om några)
Tillåt: */uppladdningar # öppna nedladdningar (bilder, etc.)

Användaragent: GoogleBot # för Google
Disallow: /cgi-bin
disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tagg/
Tillåt: */uppladdningar
Tillåt: /*/*.js # öppna js-filer
Tillåt: /*/*.css # och CSS
Tillåt: /wp-*.png # och bilder i png-format
Tillåt: /wp-*.jpg # \
Tillåt: /wp-*.jpeg # och andra format
Tillåt: /wp-*.gif # /
# fungerar med plugins

Användaragent: Yandex # för Yandex
Disallow: /cgi-bin
disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tagg/
Tillåt: */uppladdningar
Tillåt: /*/*.js
Tillåt: /*/*.css
Tillåt: /wp-*.png
Tillåt: /wp-*.jpg
Tillåt: /wp-*.jpeg
Tillåt: /wp-*.gif
Tillåt: /wp-admin/admin-ajax.php
# rena UTM-taggar
Clean-Param: openstat # och glöm inte Openstat

webbplatskarta: # skriv sökvägen till webbplatskartan
Värd: https://site.ru # huvudspegel

Uppmärksamhet! När du kopierar rader till en fil, glöm inte att ta bort alla kommentarer (text efter #).

Detta robots.txt-alternativ är det mest populära bland webbansvariga som använder WP. Är han perfekt? Nej. Du kan försöka lägga till något eller tvärtom ta bort något. Men tänk på att när du optimerar textredigeraren för robotar är misstag inte ovanliga. Vi kommer att prata om dem vidare.

Robots.txt för Joomla

Och även om Joomla sällan används under 2018, anser jag att detta underbara CMS inte bör ignoreras. När du marknadsför projekt på Joomla måste du säkert skapa en robotfil, annars hur vill du stänga onödiga element från indexering?

Som i föregående fall kan du skapa en fil manuellt genom att helt enkelt ladda upp den till värden, eller så kan du använda en modul för detta ändamål. I båda fallen måste du konfigurera den korrekt. Så här skulle den korrekta versionen för Joomla se ut:

Användaragent: *
Tillåt: /*.css?*$
Tillåt: /*.js?*$
Tillåt: /*.jpg?*$
Tillåt: /*.png?*$
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administratör/
Disallow: /installation/
Disallow: /cli/
Disallow: /bibliotek/
Disallow: /språk/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Användaragent: Yandex
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administratör/
Disallow: /installation/
Disallow: /cli/
Disallow: /bibliotek/
Disallow: /språk/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Användaragent: GoogleBot
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administratör/
Disallow: /installation/
Disallow: /cli/
Disallow: /bibliotek/
Disallow: /språk/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Värd: site.ru # glöm inte att ändra adressen här till din
Webbplatskarta: site.ru/sitemap.xml # och här

Som regel räcker detta för att förhindra att onödiga filer hamnar i indexet.

Konfigurationsfel

Mycket ofta gör människor misstag när de skapar och konfigurerar en robot. Här är de vanligaste:

  • Regler anges endast för User-agent.
  • Värd och webbplatskarta saknas.
  • Förekomsten av http-protokollet i värddirektivet (du behöver bara ange https).
  • Bristande efterlevnad av kapslingsregler vid öppning/stängning av bilder.
  • UTM- och Openstat-taggar är inte stängda.
  • Föreskrivning av värd- och webbplatskartor för varje robot.
  • Ytbehandling av filen.

Det är mycket viktigt att ställa in den här lilla filen korrekt. Om du gör grova misstag kan du förlora en betydande del av trafiken, så var extremt försiktig när du ställer upp.

Hur kontrollerar man en fil?

För dessa ändamål är det bättre att använda specialtjänster från Yandex och Google, eftersom dessa sökmotorer är de mest populära och efterfrågade (oftast de enda som används), är det ingen mening att överväga sådana sökmotorer som Bing, Yahoo eller Vandrare.

Till att börja med, överväg alternativet med Yandex. Vi går till Webmaster. Gå sedan till Verktyg - Analysera robots.txt.

Här kan du kontrollera filen för fel, samt kontrollera i realtid vilka sidor som är öppna för indexering och vilka som inte är det. Väldigt passande.

Google har exakt samma tjänst. Låt oss gå till Search Console. Vi hittar fliken Skanning, välj - Verktyg för att kontrollera robots.txt-filen.

Här finns exakt samma funktioner som i hemtjänsten.

Observera att det visar mig 2 fel. Detta beror på det faktum att Google inte känner igen direktiven för parameterrensning som jag angav för Yandex:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Du bör inte vara uppmärksam på detta, eftersom Googles robotar bara använder reglerna för GoogleBot.

Slutsats

Robots.txt-filen är mycket viktig för SEO på din webbplats. Närma dig dess konfiguration med allt ansvar, för om den implementeras felaktigt kan allt gå till spillo.

Tänk på alla instruktioner som jag har delat i den här artikeln, och glöm inte att du inte behöver kopiera mina robotalternativ exakt. Det är möjligt att du kommer att behöva förstå vart och ett av direktiven ytterligare och anpassa filen för ditt specifika fall.

Och om du vill ta en djupare titt på robots.txt och skapa WordPress-webbplatser, då inbjuder jag dig att göra det. På den kommer du att lära dig hur du enkelt kan skapa en webbplats, inte att glömma att optimera den för sökmotorer.

Nästan varje projekt som kommer till oss för granskning eller marknadsföring har en felaktig robots.txt-fil, och ofta saknas den helt. Detta händer för att när man skapar en fil styrs alla av sin fantasi, och inte av regler. Låt oss ta en titt på hur man korrekt komponerar den här filen så att sökrobotar fungerar effektivt med den.

Varför behövs inställningen för robots.txt?

Robots.txt- det här är en fil som finns i webbplatsens rotkatalog och som talar om för sökmotorrobotarna vilka avsnitt och sidor på webbplatsen de kan komma åt och vilka de inte kan.

Att ställa in robots.txt är en viktig del av sökmotorernas rankning, korrekt konfigurerade robotar ökar också webbplatsens prestanda. Frånvaron av Robots.txt kommer inte att hindra sökmotorer från att genomsöka och indexera webbplatsen, men om du inte har den här filen kan du ha två problem:

    Sökroboten kommer att läsa hela webbplatsen, vilket kommer att "underminera" den genomsökningsbudget. Genomsökningsbudgeten är antalet sidor som en sökrobot kan genomsöka under en viss tidsperiod.

    Utan robotfilen kommer sökmotorn att ha tillgång till utkast och dolda sidor, till hundratals sidor som används för att administrera CMS. Det kommer att indexera dem, och när det kommer till rätt sidor, som presenterar direkt innehåll för besökare, kommer genomsökningsbudgeten att "ta slut".

    Inloggningssidan för webbplatsen och andra administratörsresurser kan komma in i indexet, så en angripare kan enkelt spåra dem och utföra en ddos-attack eller hacka webbplatsen.

Hur sökrobotar ser en webbplats med och utan robots.txt:


Robots.txt-syntax

Innan vi börjar analysera syntaxen och ställa in robots.txt, låt oss titta på hur den "ideala filen" ska se ut:


Men använd den inte direkt. Varje sida behöver oftast sina egna inställningar, eftersom vi alla har olika webbplatsstruktur, olika CMS. Låt oss analysera varje direktiv i ordning.

användaragent

User-agent - definierar en sökrobot som måste följa instruktionerna som beskrivs i filen. Om du behöver kontakta alla samtidigt används ikonen *. Du kan också referera till en specifik sökrobot. Till exempel, Yandex och Google:


Med detta direktiv förstår roboten vilka filer och mappar som inte får indexeras. Om du vill att hela din webbplats ska indexeras lämnar du värdet Disallow tomt. För att dölja allt innehåll på webbplatsen, sätt "/" efter Disallow.

Vi kan neka åtkomst till en specifik mapp, fil eller filtillägg. I vårt exempel vänder vi oss till alla sökrobotar, stänger åtkomst till bitrix-mappen, sök och pdf-tillägget.


tillåta

Tillåt tvångsöppnar sidor och delar av webbplatsen för indexering. I exemplet ovan vänder vi oss till Googles sökrobot, stänger åtkomst till bitrix-mappen, sök och pdf-tillägget. Men i bitrix-mappen tvångsöppnar vi 3 mappar för indexering: komponenter, js, verktyg.


Värd - webbplatsspegel

En spegelwebbplats är en dubblett av huvudwebbplatsen. Speglar används för en mängd olika ändamål: adressändring, säkerhet, minskning av serverbelastningen etc.

Värd är en av de viktigaste reglerna. Om den här regeln skrivs kommer roboten att förstå vilken av webbplatsspeglarna som bör beaktas för indexering. Detta direktiv krävs för Yandex- och Mail.ru-robotar. Andra robotar kommer att ignorera denna regel. Värden registreras endast en gång!

För protokollen "https://" och "http://" kommer syntaxen i robots.txt-filen att vara annorlunda.

Webbplatskarta - webbplatskarta

En webbplatskarta är en form av webbplatsnavigering som används för att informera sökmotorer om nya sidor. Med hjälp av sitemap-direktivet ”tvingar” vi att visa roboten var kartan finns.


Symboler i robots.txt

Tecken som används i filen: "/, *, $, #".


Kontrollerar om det fungerar efter att du har konfigurerat robots.txt

När du har placerat Robots.txt på din webbplats måste du lägga till och kontrollera den i Yandex och Googles webbansvariga.

Yandex-kontroll:

  1. Följ denna länk.
  2. Välj: Indexeringsinställning - Robots.txt Parsing.

Google Check:

  1. Följ denna länk.
  2. Välj: Scan - Robots.txt File Inspection Tool.

På så sätt kan du kontrollera din robots.txt för fel och göra nödvändiga justeringar vid behov.

  1. Innehållet i filen ska skrivas med versaler.
  2. Endast en fil eller katalog måste anges i Disallow-direktivet.
  3. Strängen "User-agent" får inte vara tom.
  4. User-agent måste alltid komma före Disallow.
  5. Glöm inte att ordinera ett snedstreck om du behöver inaktivera katalogindexering.
  6. Innan du laddar upp en fil till servern, se till att kontrollera den för syntax- och stavfel.

Jag önskar er framgång!

Videorecension av 3 metoder för att skapa och anpassa en Robots.txt-fil

Robots.txt är en textfil som innehåller parametrar för webbplatsindexering för sökmotorrobotar.

Yandex stöder följande direktiv:

Direktiv Vad gör han
användaragent*
Inte godkänna
Webbplatskarta
Rengör param
tillåta
Crawl-fördröjning
Direktiv Vad gör han
användaragent* Indikerar en robot för vilken reglerna i robots.txt gäller.
Inte godkänna Förbjuder indexering av avsnitt eller enskilda sidor på webbplatsen.
Webbplatskarta Anger sökvägen till webbplatskartfilen som finns på webbplatsen.
Rengör param Indikerar för roboten att sidans URL innehåller parametrar (till exempel UTM-taggar) som inte bör beaktas vid indexering.
tillåta Tillåter indexering av avsnitt eller enskilda sidor på webbplatsen.
Crawl-fördröjning

Anger den minsta tidsperioden (i sekunder) för roboten mellan slutet av laddningen av en sida och början av laddningen av nästa.

* Obligatorisk direktiv.

Oftast kan du behöva direktiven Disallow, Sitemap och Clean-param. Till exempel:

User-agent: * #specificera för vilka robotar direktiven är inställda\nDisallow: /bin/ # inaktiverar länkar från \"varukorgen\".\nDisallow: /search/ # inaktiverar länkar från sidor inbyggda i webbplatsens sökning\ nDisallow: /admin / # inaktivera länkar från adminpanelen\nWebbplatskarta: http://example.com/webbplatskarta # peka roboten till webbplatskartans fil för webbplatsen\nClean-param: ref /some_dir/get_book.pl

Robotar från andra sökmotorer och tjänster kan tolka direktiven annorlunda.

Notera. Roboten är skiftlägeskänslig när man skriver delsträngar (namn eller sökväg till en fil, robotnamn) och är skiftlägeskänslig när man skriver direktivnamn.

Kyrillisk användning

Användningen av kyrilliska är förbjuden i robots.txt-filen och serverns HTTP-huvuden.

Hälsningar vänner och prenumeranter på min blogg. Idag står Robots.txt på agendan, allt du ville veta om det, kort sagt, utan onödigt vatten.

Vad är Robots.txt och varför behövs det

Robots.txt behövs för att ange för sökmotorn (Yandex, Google, etc.) hur korrekt (ur din synvinkel) webbplatsen ska indexeras. Vilka sidor, avsnitt, produkter, artiklar som behöver indexeras och vilka som tvärtom inte behövs.

Robots.txt är en vanlig textfil (med .txt-upplösning) som antogs av W3C den 30 januari 1994 och används av de flesta sökmotorer, och den ser vanligtvis ut så här:

Hur påverkar det marknadsföringen av din webbplats?

För framgångsrik webbplatsmarknadsföring är det nödvändigt att indexet (basen) för Yandex och Google endast innehåller de nödvändiga sidorna på webbplatsen. Med de obligatoriska sidorna menar jag följande:

  1. Hem;
  2. sidor med sektioner, kategorier;
  3. Varor;
  4. Artiklar;
  5. Sidor "Om företaget", "Kontakter" osv.

Med INTE rätt sidor menar jag följande:

  1. Dubbletter av sidor;
  2. Skriv ut sidor;
  3. Sökresultatsidor;
  4. Systemsidor, registrering, inloggning, utloggningssidor;
  5. Prenumerationssidor (flöde);

Till exempel, om sökmotorindexet innehåller dubbletter av de främsta marknadsförda sidorna, kommer detta att orsaka problem med det unika innehållet på webbplatsen och kommer också att påverka positionerna negativt.

Var finns han?

Filen är vanligtvis i roten av mappen public_html på din hosting, här:

Vad du bör veta om filen Robots.txt

  1. Robots.txt-instruktionerna är av rådgivande karaktär. Det betyder att inställningarna är riktlinjer, inte direkta kommandon. Men som regel följer både Yandex och Google instruktionerna utan problem;
  2. Filen kan endast lagras på servern;
  3. Det måste finnas i roten på webbplatsen.
  4. Syntaxbrott leder till felaktigheter i filen, vilket kan påverka indexeringen negativt;
  5. Se till att kontrollera rätt syntax i Yandex Webmaster-panelen!

Hur stänger man en sida, sektion, fil från indexering?

Till exempel vill jag stänga sidan från indexering i Yandex: http://site/page-for-robots/

För att göra detta måste jag använda "Disallow"-direktivet och webbadressen till sidan (avsnitt, fil). Det ser ut så här:

Användaragent: Yandex
Disallow: /page-for-robots/
värd: webbplats

Om jag vill nära kategori
Användaragent: Yandex
Disallow: /category/case/
värd: webbplats

Om jag vill stänga hela webbplatsen från indexering, förutom avsnittet http://site/category/case/, då måste du göra detta:

Användaragent: Yandex
disallow: /
Tillåt: /category/case/
värd: webbplats

Direktivet "Tillåt" säger tvärtom vilken sida, avsnitt, fil som ska indexeras.

Jag tror att logiken i konstruktionen har blivit tydlig för dig. Observera att reglerna endast kommer att gälla för Yandex, eftersom User-agent: Yandex anges. Google, å andra sidan, kommer att ignorera denna konstruktion och indexera hela webbplatsen.

Om du vill skriva universella regler för alla sökmotorer, använd: User-agent: *. Exempel:

Användaragent: *
disallow: /
Tillåt: /category/case/
värd: webbplats

användaragentär namnet på den robot som instruktionen är avsedd för. Standardvärdet är * (asterisk) - detta betyder att instruktionen är avsedd för absolut alla sökrobotar.
De vanligaste robotnamnen är:

  • Yandex - alla Yandex sökmotorrobotar
  • YandexImages - bildindexerare
  • Googlebot – Google-robot
  • BingBot - Bing Robot
  • YaDirectBot är en robot från Yandex kontextuella reklamsystem.

Länkar till en detaljerad översikt över alla Yandex- och Google-direktiv.

Vad måste finnas i din Robots.txt-fil

  1. Värddirektivet har konfigurerats. Det måste stavas huvudspegel din sida. Huvudspeglar: site.ru eller www.site.ru. Om din webbplats är med http s, då måste även detta anges. Huvudspegeln i värd och i Yandex.Webmaster måste matcha.
  2. Avsnitt och sidor på webbplatsen som inte har någon nyttolast, samt sidor med dubblettinnehåll, utskriftssidor, sökresultat och systemsidor bör stängas från indexering (med Disallow:-direktivet).
  3. Ange en länk till sitemap.xml (en karta över din webbplats i xml-format).
    Webbplatskarta: http://site.ru/sitemap.xml

Indikering av huvudspegeln

Först måste du ta reda på vilken spegel du har som standard. För att göra detta, skriv in webbadressen till din webbplats i Yandex, håll muspekaren över URL:en i sökresultaten, och längst ner till vänster i webbläsarfönstret kommer det att anges om domänen är www eller inte. I det här fallet utan WWW.

Om domänen är angiven med https, måste både Robots och Yandex.Webmaster ange https! Det ser ut så här:

Dela med sig