რობოტები txt რა არის ეს. როგორ დაარედაქტიროთ robots txt ფაილი

გამარჯობა, Webmaster's World ბლოგის ძვირფასო მკითხველებო!

ფაილი robots.txt- ეს არის ძალიან მნიშვნელოვანი ფაილი, რომელიც პირდაპირ გავლენას ახდენს თქვენი საიტის ინდექსირების ხარისხზე და, შესაბამისად, მის საძიებო სისტემის პოპულარიზაციაზე.

ამიტომ თქვენ უნდა შეძლოთ robots.txt-ის სწორად ფორმატირება, რათა შემთხვევით არ აიკრძალოთ ინტერნეტპროექტის რაიმე მნიშვნელოვანი დოკუმენტის ინდექსირება.

როგორ მოვაწყოთ robots.txt ფაილი, რა სინტაქსი უნდა იყოს გამოყენებული ამ შემთხვევაში, როგორ დაუშვათ და აიკრძალოთ დოკუმენტების ინდექსირება, განხილული იქნება ამ სტატიაში.

robots.txt ფაილის შესახებ

პირველ რიგში, მოდით უფრო დეტალურად გავარკვიოთ, რა სახის ფაილია ეს.

ფაილის რობოტები - ეს არის ფაილი, რომელიც აჩვენებს საძიებო სისტემებს, საიტის რომელი გვერდებისა და დოკუმენტების ინდექსირება შესაძლებელია და რომელი არა.ეს აუცილებელია იმის გამო, რომ თავდაპირველად საძიებო სისტემები ცდილობენ მთელი საიტის ინდექსირებას და ეს ყოველთვის არ არის სწორი. მაგალითად, თუ თქვენ ქმნით საიტს ძრავზე (WordPress, Joomla და ა.შ.), მაშინ გექნებათ საქაღალდეები, რომლებიც აწყობენ ადმინისტრაციული პანელის მუშაობას. გასაგებია, რომ ამ საქაღალდეებში არსებული ინფორმაციის ინდექსირება შეუძლებელია, უბრალოდ ამ შემთხვევაში გამოიყენება robots.txt ფაილი, რომელიც ზღუდავს წვდომას საძიებო სისტემებზე.

robots.txt ფაილი ასევე შეიცავს საიტის რუკის მისამართს (ის აუმჯობესებს საძიებო სისტემების ინდექსირებას), ასევე საიტის მთავარ დომენს (მთავარი სარკე).

სარკე- ეს არის საიტის აბსოლუტური ასლი, ე.ი. როდესაც ერთი საიტი არის , მაშინ ამბობენ, რომ ერთი მათგანი არის მთავარი დომენი, მეორე კი მისი სარკე.

ამრიგად, ფაილს აქვს მრავალი ფუნქცია და მნიშვნელოვანი!

Robots.txt სინტაქსი

რობოტების ფაილი შეიცავს წესების ბლოკებს, რომლებიც ეუბნებიან კონკრეტულ საძიებო სისტემას რა შეიძლება იყოს ინდექსირებული და რა არა. შეიძლება არსებობდეს წესების ერთი ბლოკი (ყველა საძიებო სისტემისთვის), მაგრამ ასევე შეიძლება იყოს რამდენიმე მათგანი - ცალკეული კონკრეტული საძიებო სისტემებისთვის.

თითოეული ასეთი ბლოკი იწყება "მომხმარებლის აგენტის" განცხადებით, რომელიც მიუთითებს რომელ საძიებო სისტემაზე ვრცელდება წესები.

მომხმარებელი-აგენტი:ა
(რობოტის "A" წესები)

მომხმარებელი-აგენტი:ბ
(რობოტის "B" წესები)

ზემოთ მოყვანილი მაგალითი აჩვენებს, რომ "მომხმარებლის აგენტი" ოპერატორს აქვს პარამეტრი - საძიებო სისტემის რობოტის სახელი, რომელზეც ვრცელდება წესები. ქვემოთ ჩამოვთვლი მთავარებს:

"მომხმარებლის აგენტის" შემდეგ არის სხვა ოპერატორები. აქ არის მათი აღწერა:

ყველა ოპერატორს აქვს იგივე სინტაქსი. იმათ. ოპერატორები უნდა იქნას გამოყენებული შემდეგნაირად:

ოპერატორი 1: პარამეტრი 1

ოპერატორი 2: პარამეტრი 2

…

ამრიგად, ჯერ ვწერთ ოპერატორის სახელს (არ აქვს მნიშვნელობა, დიდი ან პატარა ასოებით), შემდეგ ვათავსებთ ორწერტილს და ინტერვალის შემდეგ ვანიშნებთ ამ ოპერატორის პარამეტრს. შემდეგ, ახალი ხაზიდან, ჩვენ აღვწერთ ოპერატორ ორს იმავე გზით.

Მნიშვნელოვანი!!! ცარიელი სტრიქონი ნიშნავს, რომ ამ საძიებო სისტემის წესების ბლოკი დასრულდა, ამიტომ არ გამოყოთ განცხადებები ცარიელი ხაზით.

robots.txt ფაილის ნიმუში

მოდით შევხედოთ robots.txt ფაილის მარტივ მაგალითს, რათა უკეთ გავიგოთ მისი სინტაქსი:

მომხმარებლის აგენტი: Yandex
დაშვება: /folder1/
აკრძალვა: /file1.html
მასპინძელი: www.site.ru

მომხმარებლის აგენტი: *
აკრძალვა: /document.php
აკრძალვა: /folderxxx/
აკრძალვა: /folderyyy/folderzzz
აკრძალვა: /feed/

საიტის რუკა: http://www.site.ru/sitemap.xml

ახლა მოდით შევხედოთ აღწერილ მაგალითს.

ფაილი შედგება სამი ბლოკისგან: პირველი არის Yandex-ისთვის, მეორე არის ყველა საძიებო სისტემისთვის და მესამე შეიცავს საიტის რუქის მისამართს (გამოიყენება ავტომატურად ყველა საძიებო სისტემისთვის, ასე რომ თქვენ არ გჭირდებათ "მომხმარებლის აგენტის" მითითება) . ჩვენ მივეცით Yandex-ს, რომ დაედგინა საქაღალდე "folder1" და მთელი მისი შინაარსი, მაგრამ ჩვენ ავუკრძალეთ მას ჰოსტინგის root დირექტორიაში მდებარე დოკუმენტის "file1.html" ინდექსირება. ჩვენ ასევე დავაზუსტეთ საიტის მთავარი დომენი Yandex-ს. მეორე ბლოკი არის ყველა საძიებო სისტემისთვის. იქ ჩვენ ავკრძალეთ დოკუმენტი "document.php", ასევე საქაღალდეები "folderxxx", "folderyyy/folderzzz" და "feed".

გთხოვთ გაითვალისწინოთ, რომ ინდექსის ბრძანებების მეორე ბლოკში ჩვენ აკრძალეთ არა მთელი საქაღალდე "folderyyy", არამედ მხოლოდ საქაღალდე ამ საქაღალდის შიგნით - "folderzzz". იმათ. ჩვენ მივუთითეთ "folderzzz"-ის სრული გზა. ეს ყოველთვის უნდა გაკეთდეს, თუ ჩვენ ავკრძალავთ დოკუმენტს, რომელიც არ არის საიტის root დირექტორიაში, არამედ სხვა საქაღალდეებში.

შექმნას ორ წუთზე ნაკლები დასჭირდება:

შექმნილი რობოტების ფაილის შესრულება შეიძლება შემოწმდეს Yandex ვებმასტერ პანელში. თუ ფაილში მოულოდნელად აღმოჩენილია შეცდომები, მაშინ Yandex აჩვენებს მას.

დარწმუნდით, რომ შექმენით robots.txt ფაილი თქვენი საიტისთვის, თუ ჯერ არ გაქვთ. ეს ხელს შეუწყობს თქვენი საიტის რეიტინგს საძიებო სისტემებში. თქვენ ასევე შეგიძლიათ წაიკითხოთ ჩვენი სხვა სტატია მეტა-ტეგის მეთოდისა და .htaccess-ის შესახებ.

შუადღე მშვიდობისა ძვირფასო მეგობრებო! ყველამ იცით, რომ საძიებო სისტემის ოპტიმიზაცია საპასუხისმგებლო და დელიკატური საკითხია. მისაღები შედეგის მისაღებად აუცილებელია აბსოლუტურად ყველა წვრილმანის გათვალისწინება.

დღეს ვისაუბრებთ robots.txt-ზე - ფაილზე, რომელიც ყველა ვებმასტერს იცნობს. სწორედ მასშია მითითებული საძიებო რობოტების ყველა ძირითადი ინსტრუქცია. როგორც წესი, ისინი სიამოვნებით ასრულებენ დადგენილ მითითებებს და არასწორი შედგენის შემთხვევაში უარს ამბობენ ვებ რესურსის ინდექსირებაზე. შემდეგი, მე გეტყვით, თუ როგორ უნდა დაწეროთ robots.txt-ის სწორი ვერსია, ასევე როგორ დააკონფიგურიროთ იგი.

წინასიტყვაობაში უკვე აღვწერე რა არის ეს. ახლა მე გეტყვით, რატომ გჭირდებათ ეს. Robots.txt არის პატარა ტექსტური ფაილი, რომელიც ინახება საიტის ძირში. მას იყენებენ საძიებო სისტემები. მასში ნათლად არის გაწერილი ინდექსირების წესები, ანუ საიტის რომელი განყოფილებები უნდა იყოს ინდექსირებული (დამატება ძიებაში) და რომელი არა.

როგორც წესი, საიტის ტექნიკური განყოფილებები დახურულია ინდექსაციისგან. ზოგჯერ არაუნიკალური გვერდები მოხვდება შავ სიაში (ამის მაგალითია კოპირება-პასტის კონფიდენციალურობის პოლიტიკა). აქ „რობოტებს ხსნიან“ სექციებთან მუშაობის პრინციპები, რომლებიც უნდა იყოს ინდექსირებული. ძალიან ხშირად წესები რამდენიმე რობოტისთვის ცალკე იწერება. ამაზე შემდგომში ვისაუბრებთ.

robots.txt სწორი დაყენებით, თქვენი საიტი გარანტირებულია საძიებო სისტემებში პოზიციებზე. რობოტები განიხილავენ მხოლოდ სასარგებლო შინაარსს, ართმევს ყურადღებას დუბლიკატულ ან ტექნიკურ განყოფილებებს.

შექმენით robots.txt

ფაილის შესაქმნელად საკმარისია გამოიყენოთ თქვენი ოპერაციული სისტემის სტანდარტული ფუნქციონირება და შემდეგ ატვირთოთ იგი სერვერზე FTP-ის საშუალებით. სად დევს (სერვერზე) ადვილი მისახვედრია - ძირში. ამ საქაღალდეს ჩვეულებრივ უწოდებენ public_html.

თქვენ შეგიძლიათ მარტივად შეხვიდეთ მასში ნებისმიერი FTP კლიენტის (მაგალითად,) ან ჩაშენებული ფაილ მენეჯერის გამოყენებით. ბუნებრივია, ჩვენ არ ავტვირთავთ ცარიელ რობოტებს სერვერზე. მოდი იქ დავწეროთ რამდენიმე ძირითადი დირექტივა (წესები).

მომხმარებლის აგენტი: *
დაუშვას:/

ამ ხაზების გამოყენებით თქვენს რობოტების ფაილში, თქვენ დაუკავშირდებით ყველა რობოტს (მომხმარებლის აგენტის დირექტივა), რაც საშუალებას მისცემს მათ დაადგინონ თქვენი საიტი მთლიანად (მათ შორის, ყველა ნებადართული: / გვერდი)

რა თქმა უნდა, ეს ვარიანტი ჩვენთვის ნამდვილად არ ჯდება. ფაილი არ იქნება განსაკუთრებით სასარგებლო საძიებო სისტემის ოპტიმიზაციისთვის. მას აუცილებლად სჭირდება სათანადო დალაგება. მანამდე კი ჩვენ გავაშუქებთ robots.txt-ის ყველა ძირითად დირექტივას და მნიშვნელობას.

დირექტივები

მომხმარებლის აგენტი	ერთ-ერთი ყველაზე მნიშვნელოვანი, რადგან ის მიუთითებს, რომელ რობოტებს უნდა დაიცვან წესები ამის შემდეგ. წესები დაცულია ფაილში მომდევნო მომხმარებლის აგენტამდე.
დაუშვას	საშუალებას აძლევს ნებისმიერი რესურსის ბლოკის ინდექსირებას. მაგალითად: "/" ან "/tag/".
აკრძალვა	პირიქით, ის კრძალავს სექციების ინდექსირებას.
საიტის რუკა	გზა საიტის რუქისკენ (xml ფორმატში).
მასპინძელი	მთავარი სარკე (www-ით ან მის გარეშე, ან თუ გაქვთ მრავალი დომენი). უსაფრთხო https პროტოკოლი (თუ ხელმისაწვდომია) ასევე მითითებულია აქ. თუ თქვენ გაქვთ სტანდარტული http, არ გჭირდებათ მისი დაკონკრეტება.
სეირნობა-დაყოვნება	მისი დახმარებით თქვენ შეგიძლიათ დააყენოთ ინტერვალი რობოტებისთვის თქვენს საიტზე ფაილების მონახულებისა და ჩამოტვირთვისთვის. ეხმარება მასპინძელზე დატვირთვის შემცირებას.
სუფთა პარამეტრი	საშუალებას გაძლევთ გამორთოთ პარამეტრების ინდექსირება გარკვეულ გვერდებზე (როგორიცაა www.site.com/cat/state?admin_id8883278). წინა დირექტივებისგან განსხვავებით, აქ მითითებულია 2 მნიშვნელობა (მისამართი და თავად პარამეტრი).

ეს არის ყველა წესი, რომელსაც მხარს უჭერს ფლაგმანი საძიებო სისტემები. სწორედ მათი დახმარებით შევქმნით ჩვენს რობოტებს, რომლებიც მუშაობენ სხვადასხვა ვარიაციებით სხვადასხვა ტიპის საიტებისთვის.

დაყენება

რობოტების ფაილის სწორად კონფიგურაციისთვის საჭიროა ზუსტად ვიცოდეთ საიტის რომელი განყოფილებები უნდა იყოს ინდექსირებული და რომელი არა. მარტივი html + css ერთგვერდიანი გვერდის შემთხვევაში, ჩვენ უბრალოდ უნდა დავწეროთ რამდენიმე ძირითადი დირექტივა, როგორიცაა:

მომხმარებლის აგენტი: *
დაუშვას:/
საიტის რუკა: site.ru/sitemap.xml
მასპინძელი: www.site.ru

აქ ჩვენ დავაზუსტეთ წესები და მნიშვნელობები ყველა საძიებო სისტემისთვის. მაგრამ უმჯობესია დაამატოთ ცალკეული დირექტივები Google-ისა და Yandex-ისთვის. ეს ასე გამოიყურება:

მომხმარებლის აგენტი: *
დაუშვას:/

მომხმარებლის აგენტი: Yandex
დაუშვას:/
აკრძალვა: /პოლიტიკა

მომხმარებლის აგენტი: GoogleBot
დაუშვას:/
აკრძალვა: /tags/

საიტის რუკა: site.ru/sitemap.xml
მასპინძელი: site.ru

ახლა აბსოლუტურად ყველა ფაილი იქნება ინდექსირებული ჩვენს html საიტზე. თუ გვინდა რომელიმე გვერდის ან სურათის გამორიცხვა, მაშინ Disallow-ში უნდა მივუთითოთ ამ ფრაგმენტის შედარებითი ბმული.

შეგიძლიათ გამოიყენოთ რობოტების ავტომატური ფაილების გენერირების სერვისები. მე არ გაძლევთ გარანტიას, რომ მათი დახმარებით თქვენ შექმნით იდეალურად სწორ ვერსიას, მაგრამ შეგიძლიათ სცადოთ შესავალი სახით.

ამ სერვისებს შორისაა:

მათი დახმარებით შეგიძლიათ ავტომატურად შექმნათ robots.txt. პირადად მე კატეგორიულად არ გირჩევთ ამ ვარიანტს, რადგან მისი ხელით გაკეთება ბევრად უფრო ადვილია თქვენი პლატფორმისთვის მისი კონფიგურაციით.

პლატფორმებზე საუბრისას ვგულისხმობ ყველა სახის CMS-ს, ჩარჩოებს, SaaS სისტემებს და ბევრ სხვას. შემდეგი, ჩვენ ვისაუბრებთ იმაზე, თუ როგორ უნდა დააყენოთ WordPress და Joomla რობოტების ფაილი.

მანამდე კი, მოდით გამოვყოთ რამდენიმე უნივერსალური წესი, რომლებიც დაგეხმარებათ რობოტების შექმნისა და კონფიგურაციისას თითქმის ნებისმიერი საიტისთვის:

დახურვა ინდექსაციისგან (აკრძალვა):

საიტის ადმინი;
პირადი ანგარიში და რეგისტრაციის/ავტორიზაციის გვერდები;
კალათა, მონაცემები შეკვეთის ფორმებიდან (ონლაინ მაღაზიისთვის);
cgi საქაღალდე (მდებარეობს ჰოსტზე);
მომსახურების განყოფილებები;
ajax და json სკრიპტები;
UTM და Openstat ტეგები;
სხვადასხვა ვარიანტები.

გახსნა (დაშვება):

სურათები;
JS და CSS ფაილები;
სხვა ელემენტები, რომლებიც გასათვალისწინებელია საძიებო სისტემებმა.

გარდა ამისა, დასასრულს, არ დაგავიწყდეთ მიუთითოთ საიტის რუქის მონაცემები (ბილიკი საიტის რუკამდე) და ჰოსტი (მთავარი სარკე).

Robots.txt WordPress-ისთვის

ფაილის შესაქმნელად ასევე უნდა ჩავყაროთ robots.txt საიტის ძირში. ამ შემთხვევაში, შესაძლებელი იქნება მისი შინაარსის შეცვლა იგივე FTP და ფაილ მენეჯერების გამოყენებით.

ასევე არის უფრო მოსახერხებელი ვარიანტი - ფაილის შექმნა დანამატების გამოყენებით. კერძოდ, Yoast SEO-ს აქვს ასეთი ფუნქცია. რობოტების პირდაპირ ადმინისტრაციული პანელიდან რედაქტირება ბევრად უფრო მოსახერხებელია, ამიტომ მე თვითონ ვიყენებ robots.txt-თან მუშაობის ზუსტად ამ მეთოდს.

როგორ გადაწყვეტთ ამ ფაილის შექმნას, თქვენზეა დამოკიდებული, ჩვენთვის უფრო მნიშვნელოვანია გავიგოთ, რა სახის დირექტივები უნდა იყოს იქ. მე ვიყენებ ამ ვარიანტს ჩემს WordPress საიტებზე:

მომხმარებლის აგენტი: * # წესი ყველა რობოტისთვის Google-ისა და Yandex-ის გარდა

აკრძალვა: /cgi-bin # საქაღალდე სკრიპტებით
აკრძალვა:/? # მოითხოვეთ პარამეტრი საწყისი გვერდიდან
აკრძალვა: /wp- თავად CSM-ის # ფაილი (პრეფიქსით wp-)
აკრძალვა: *?s= # \
აკრძალვა: *&s= # რაიმე კავშირი ძიებასთან
აკრძალვა: /ძებნა/ # /
აკრძალვა: /ავტორი/ ავტორთა # არქივი
აკრძალვა: /მომხმარებლები/ # და მომხმარებლები
აკრძალვა: */trackback # შეტყობინებები WP-დან, რომ ვიღაც აკავშირებთ თქვენ
აკრძალვა: */feed # არხი xml-ში
აკრძალვა: */rss # და rss
აკრძალვა: */embed # შიდა ელემენტი
აკრძალვა: /xmlrpc.php # WordPress API
აკრძალვა: *utm= # UTM ტეგი
აკრძალვა: *openstat= # openstat ლეიბლი
აკრძალვა: /tag/ # ტეგი (ასეთის არსებობის შემთხვევაში)
დაშვება: */ატვირთვები # გახსენით ჩამოტვირთვა (სურათები და ა.შ.)

მომხმარებლის აგენტი: GoogleBot # Google-ისთვის
აკრძალვა: /cgi-bin
აკრძალვა:/?
აკრძალვა: /wp-
აკრძალვა: *?s=
აკრძალვა: *&s=
აკრძალვა: /ძებნა/
აკრძალვა: /ავტორი/
აკრძალვა: /მომხმარებლები/
აკრძალვა: */trackback
აკრძალვა: */feed
აკრძალვა: */rss
აკრძალვა: */embed
აკრძალვა: /xmlrpc.php
აკრძალვა: *utm=
აკრძალვა: *openstat=
აკრძალვა: /tag/
დაშვება: */ატვირთვები
დაშვება: /*/*.js # გახსენით js ფაილი
დაშვება: /*/*.css # და CSS
დაშვება: /wp-*.png # და სურათები png ფორმატში
დაშვება: /wp-*.jpg # \
დაშვება: /wp-*.jpeg # და სხვა ფორმატები
დაშვება: /wp-*.gif # /
# მუშაობს დანამატებით

მომხმარებლის აგენტი: Yandex # Yandex-ისთვის
აკრძალვა: /cgi-bin
აკრძალვა:/?
აკრძალვა: /wp-
აკრძალვა: *?s=
აკრძალვა: *&s=
აკრძალვა: /ძებნა/
აკრძალვა: /ავტორი/
აკრძალვა: /მომხმარებლები/
აკრძალვა: */trackback
აკრძალვა: */feed
აკრძალვა: */rss
აკრძალვა: */embed
აკრძალვა: /xmlrpc.php
აკრძალვა: /tag/
დაშვება: */ატვირთვები
დაშვება: /*/*.js
დაშვება: /*/*.css
დაშვება: /wp-*.png
დაშვება: /wp-*.jpg
დაშვება: /wp-*.jpeg
დაშვება: /wp-*.gif
დაშვება: /wp-admin/admin-ajax.php
# სუფთა UTM ტეგი
Clean-Param: openstat # და არ დაივიწყოთ Openstat-ის შესახებ

საიტის რუკა: # ჩაწერეთ გზა საიტის რუქისკენ
მასპინძელი: https://site.ru #მთავარი სარკე

ყურადღება!ფაილში ხაზების კოპირებისას არ დაგავიწყდეთ ყველა კომენტარის წაშლა (ტექსტი #-ის შემდეგ).

ეს robots.txt ვარიანტი ყველაზე პოპულარულია ვებმასტერებს შორის, რომლებიც იყენებენ WP-ს. არის ის სრულყოფილი? არა. შეგიძლიათ სცადოთ რაიმეს დამატება ან, პირიქით, წაშალოთ რაღაც. მაგრამ გახსოვდეთ, რომ რობოტების ტექსტური რედაქტორის ოპტიმიზაციისას, შეცდომები არ არის იშვიათი. მათზე შემდგომში ვისაუბრებთ.

Robots.txt ჯომლასთვის

და მიუხედავად იმისა, რომ 2018 წელს Joomla იშვიათად გამოიყენება, მე მჯერა, რომ ეს შესანიშნავი CMS არ უნდა იყოს იგნორირებული. Joomla-ზე პროექტების პოპულარიზაციისას აუცილებლად მოგიწევთ რობოტების ფაილის შექმნა, წინააღმდეგ შემთხვევაში როგორ გსურთ დახუროთ არასაჭირო ელემენტები ინდექსაციისგან?

როგორც წინა შემთხვევაში, თქვენ შეგიძლიათ შექმნათ ფაილი ხელით, უბრალოდ ატვირთოთ იგი ჰოსტში, ან შეგიძლიათ გამოიყენოთ მოდული ამ მიზნით. ორივე შემთხვევაში, მოგიწევთ მისი სწორად კონფიგურაცია. ასე გამოიყურება Joomla-ს სწორი ვერსია:

მომხმარებლის აგენტი: *
დაშვება: /*.css?*$
დაშვება: /*.js?*$
დაშვება: /*.jpg?*$
დაშვება: /*.png?*$
აკრძალვა: /ქეში/
აკრძალვა: /*.pdf
აკრძალვა: /ადმინისტრატორი/
აკრძალვა: /ინსტალაცია/
აკრძალვა: /cli/
აკრძალვა: /ბიბლიოთეკები/
აკრძალვა: /ენა/
აკრძალვა: /კომპონენტები/
აკრძალვა: /modules/
აკრძალვა: / მოიცავს /
აკრძალვა: /bin/
აკრძალვა: /კომპონენტი/
აკრძალვა: /tmp/
აკრძალვა: /index.php
აკრძალვა: /plugins/
აკრძალვა: /*mailto/

აკრძალვა: /logs/
აკრძალვა: /კომპონენტი/ტეგები*
აკრძალვა: /*%
აკრძალვა: /layouts/

მომხმარებლის აგენტი: Yandex
აკრძალვა: /ქეში/
აკრძალვა: /*.pdf
აკრძალვა: /ადმინისტრატორი/
აკრძალვა: /ინსტალაცია/
აკრძალვა: /cli/
აკრძალვა: /ბიბლიოთეკები/
აკრძალვა: /ენა/
აკრძალვა: /კომპონენტები/
აკრძალვა: /modules/
აკრძალვა: / მოიცავს /
აკრძალვა: /bin/
აკრძალვა: /კომპონენტი/
აკრძალვა: /tmp/
აკრძალვა: /index.php
აკრძალვა: /plugins/
აკრძალვა: /*mailto/

აკრძალვა: /logs/
აკრძალვა: /კომპონენტი/ტეგები*
აკრძალვა: /*%
აკრძალვა: /layouts/

მომხმარებლის აგენტი: GoogleBot
აკრძალვა: /ქეში/
აკრძალვა: /*.pdf
აკრძალვა: /ადმინისტრატორი/
აკრძალვა: /ინსტალაცია/
აკრძალვა: /cli/
აკრძალვა: /ბიბლიოთეკები/
აკრძალვა: /ენა/
აკრძალვა: /კომპონენტები/
აკრძალვა: /modules/
აკრძალვა: / მოიცავს /
აკრძალვა: /bin/
აკრძალვა: /კომპონენტი/
აკრძალვა: /tmp/
აკრძალვა: /index.php
აკრძალვა: /plugins/
აკრძალვა: /*mailto/

აკრძალვა: /logs/
აკრძალვა: /კომპონენტი/ტეგები*
აკრძალვა: /*%
აკრძალვა: /layouts/

მასპინძელი: site.ru # არ დაგავიწყდეთ აქ მისამართის შეცვლა თქვენით
საიტის რუკა: site.ru/sitemap.xml # და აქ

როგორც წესი, ეს საკმარისია იმისათვის, რომ არ მოხდეს არასაჭირო ფაილების ინდექსში მოხვედრა.

კონფიგურაციის შეცდომები

ძალიან ხშირად ადამიანები უშვებენ შეცდომებს რობოტების შექმნისა და კონფიგურაციისას. აქ არის ყველაზე გავრცელებული:

წესები მითითებულია მხოლოდ მომხმარებლის აგენტისთვის.
აკლია მასპინძელი და საიტის რუკა.
http პროტოკოლის არსებობა Host-ის დირექტივაში (თქვენ მხოლოდ უნდა მიუთითოთ https).
სურათების გახსნა/დახურვისას ბუდეების წესების შეუსრულებლობა.
UTM და Openstat ტეგები არ არის დახურული.
თითოეული რობოტისთვის ჰოსტის და საიტის რუქის დირექტივების დანიშვნა.
ფაილის ზედაპირული დამუშავება.

ძალიან მნიშვნელოვანია ამ პატარა ფაილის სწორად დაყენება. თუ უხეშ შეცდომებს უშვებთ, შეგიძლიათ დაკარგოთ ტრაფიკის მნიშვნელოვანი ნაწილი, ამიტომ იყავით ძალიან ფრთხილად დაყენებისას.

როგორ შევამოწმოთ ფაილი?

ამ მიზნებისთვის უმჯობესია გამოიყენოთ Yandex-ისა და Google-ის სპეციალური სერვისები, რადგან ეს საძიებო სისტემები ყველაზე პოპულარული და მოთხოვნადია (ყველაზე ხშირად მხოლოდ გამოიყენება), აზრი არ აქვს ისეთი საძიებო სისტემების განხილვას, როგორიცაა Bing, Yahoo ან. რამბლერი.

დასაწყისისთვის, განიხილეთ ვარიანტი Yandex-ით. ჩვენ მივდივართ ვებმასტერთან. შემდეგ გადადით Tools - Analyze robots.txt.

აქ შეგიძლიათ შეამოწმოთ ფაილი შეცდომებზე, ასევე რეალურ დროში შეამოწმოთ რომელი გვერდებია ღია ინდექსაციისთვის და რომელი არა. ძალიან მოსახერხებელი.

ზუსტად იგივე სერვისი აქვს გუგლს. Წავიდეთ საძიებო კონსოლი. ჩვენ ვპოულობთ Scanning ჩანართს, აირჩიეთ - Tool robots.txt ფაილის შემოწმებისთვის.

აქ არის ზუსტად იგივე ფუნქციები, როგორც შიდა სერვისში.

გაითვალისწინეთ, რომ მაჩვენებს 2 შეცდომას. ეს გამოწვეულია იმით, რომ Google არ ცნობს პარამეტრის გაწმენდის დირექტივებს, რომლებიც მე დავაზუსტე Yandex-ისთვის:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

ამას ყურადღება არ უნდა მიაქციოთ, რადგან Google-ის რობოტები იყენებენ მხოლოდ GoogleBot-ის წესებს.

დასკვნა

robots.txt ფაილი ძალიან მნიშვნელოვანია თქვენი საიტის SEO-სთვის. მიუდექით მის კონფიგურაციას მთელი პასუხისმგებლობით, რადგან თუ ის არასწორად განხორციელდა, ყველაფერი შეიძლება ფუჭად წავიდეს.

განიხილეთ ყველა ინსტრუქცია, რომელიც მე გავუზიარე ამ სტატიაში და არ დაგავიწყდეთ, რომ თქვენ არ გჭირდებათ ზუსტად დააკოპიროთ ჩემი რობოტების პარამეტრები. შესაძლებელია, რომ მოგიწიოთ თითოეული დირექტივის შემდგომი გაგება, ფაილის კორექტირება თქვენი კონკრეტული შემთხვევისთვის.

და თუ გსურთ უფრო ღრმად ჩახედოთ robots.txt-ს და შექმნათ WordPress საიტები, მაშინ მე გეპატიჟებით. მასზე გაიგებთ, თუ როგორ შეგიძლიათ მარტივად შექმნათ ვებსაიტი, არ დაგავიწყდეთ მისი ოპტიმიზაცია საძიებო სისტემებისთვის.

თითქმის ყველა პროექტს, რომელიც ჩვენთან მოდის აუდიტის ან პოპულარიზაციისთვის, აქვს არასწორი robots.txt ფაილი და ხშირად ის სრულიად აკლია. ეს იმიტომ ხდება, რომ ფაილის შექმნისას ყველა ხელმძღვანელობს თავისი ფანტაზიით და არა წესებით. მოდით შევხედოთ, თუ როგორ სწორად შევადგინოთ ეს ფაილი, რათა საძიებო რობოტებმა ეფექტურად იმუშაონ მასთან.

რატომ არის საჭირო robots.txt პარამეტრი?

Robots.txt- ეს არის ფაილი, რომელიც მდებარეობს საიტის root დირექტორიაში, რომელიც ეუბნება საძიებო სისტემის რობოტებს, საიტის რომელ განყოფილებებსა და გვერდებზე შეუძლიათ წვდომა და რომელზე არა.

robots.txt-ის დაყენება საძიებო სისტემის რეიტინგის მნიშვნელოვანი ნაწილია, სწორად კონფიგურირებული რობოტები ასევე ზრდის ვებსაიტის მუშაობას. Robots.txt-ის არარსებობა არ შეაჩერებს საძიებო სისტემებს საიტის ცოცვასა და ინდექსირებას, მაგრამ თუ ეს ფაილი არ გაქვთ, შეიძლება ორი პრობლემა შეგექმნათ:

საძიებო რობოტი წაიკითხავს მთელ საიტს, რაც "ძირს უთხრის" მცოცავ ბიუჯეტს. crawl-ის ბიუჯეტი არის გვერდების რაოდენობა, რომლებზეც მცოცავი შეუძლია გარკვეული პერიოდის განმავლობაში დაცოცოს.

რობოტების ფაილის გარეშე საძიებო სისტემას ექნება წვდომა შედგენილ და დამალულ გვერდებზე, ასობით გვერდებზე, რომლებიც გამოიყენება CMS-ის ადმინისტრირებისთვის. ის მოახდინებს მათ ინდექსირებას და როდესაც საქმე ეხება სწორ გვერდებს, რომლებიც პირდაპირ კონტენტს წარმოადგენენ ვიზიტორებისთვის, crawl-ის ბიუჯეტი „დასრულდება“.

საიტის შესვლის გვერდი და ადმინისტრატორის სხვა რესურსები შეიძლება მოხვდნენ ინდექსში, ასე რომ, თავდამსხმელს შეუძლია ადვილად აკონტროლოს ისინი და განახორციელოს ddos შეტევა ან გატეხოს საიტი.

როგორ ხედავენ საძიებო რობოტები საიტს robots.txt-ით და მის გარეშე:

Robots.txt სინტაქსი

სანამ სინტაქსის გაანალიზებას და robots.txt-ის დაყენებას დავიწყებთ, მოდით ვნახოთ, როგორი უნდა იყოს "იდეალური ფაილი":

მაგრამ არ გამოიყენოთ იგი დაუყოვნებლივ. თითოეულ საიტს ყველაზე ხშირად სჭირდება საკუთარი პარამეტრები, რადგან ჩვენ ყველას გვაქვს საიტის განსხვავებული სტრუქტურა, განსხვავებული CMS. მოდით გავაანალიზოთ თითოეული დირექტივა თანმიმდევრობით.

მომხმარებლის აგენტი

მომხმარებლის აგენტი - განსაზღვრავს საძიებო რობოტს, რომელიც უნდა შეასრულოს ფაილში აღწერილი ინსტრუქციები. თუ საჭიროა ყველას ერთდროულად დაკავშირება, მაშინ გამოიყენება * ხატულა. თქვენ ასევე შეგიძლიათ მიმართოთ კონკრეტულ საძიებო რობოტს. მაგალითად, Yandex და Google:

ამ დირექტივით რობოტს ესმის, რომელი ფაილების და საქაღალდეების ინდექსირება არ არის დაშვებული. თუ გსურთ, რომ თქვენი მთელი საიტი იყოს ინდექსირებული, დატოვეთ დაუშვებელი მნიშვნელობა ცარიელი. საიტის მთელი კონტენტის დასამალად, Disallow-ის შემდეგ ჩადეთ „/“.

ჩვენ შეგვიძლია უარვყოთ წვდომა კონკრეტულ საქაღალდეზე, ფაილზე ან ფაილის გაფართოებაზე. ჩვენს მაგალითში, ჩვენ მივმართავთ ყველა საძიებო რობოტს, ვხურავთ წვდომას bitrix საქაღალდეზე, ძიებასა და pdf გაფართოებაზე.

დაუშვას

საიტის გვერდებისა და სექციების ინდექსაციისთვის იძულებით გახსნის უფლება. ზემოთ მოყვანილ მაგალითში ჩვენ მივმართავთ Google-ის საძიებო რობოტს, ვხურავთ წვდომას bitrix საქაღალდეზე, ძიებასა და pdf გაფართოებაზე. მაგრამ ბიტრიქსის საქაღალდეში ჩვენ იძულებით ვხსნით 3 საქაღალდეს ინდექსაციისთვის: კომპონენტები, js, ინსტრუმენტები.

მასპინძელი - საიტის სარკე

სარკის საიტი არის მთავარი საიტის დუბლიკატი. სარკეები გამოიყენება სხვადასხვა მიზნით: მისამართის შეცვლა, უსაფრთხოება, სერვერის დატვირთვის შემცირება და ა.შ.

მასპინძელი ერთ-ერთი ყველაზე მნიშვნელოვანი წესია. თუ ეს წესი დაიწერა, მაშინ რობოტი მიხვდება, საიტის რომელი სარკე უნდა იყოს გათვალისწინებული ინდექსაციისთვის. ეს დირექტივა საჭიროა Yandex და Mail.ru რობოტებისთვის. სხვა რობოტები უგულებელყოფენ ამ წესს. მასპინძელი რეგისტრირებულია მხოლოდ ერთხელ!

"https://" და "http://" პროტოკოლებისთვის, robots.txt ფაილში სინტაქსი განსხვავებული იქნება.

საიტის რუკა - საიტის რუკა

საიტის რუკა არის საიტის ნავიგაციის ფორმა, რომელიც გამოიყენება საძიებო სისტემებში ახალი გვერდების ინფორმირებისთვის. საიტის რუქის დირექტივის დახმარებით ჩვენ „აიძულებთ“ ვაჩვენოთ რობოტს, სად მდებარეობს რუკა.

სიმბოლოები robots.txt-ში

ფაილში გამოყენებული სიმბოლოები: "/, *, $, #".

შემოწმება მუშაობს თუ არა robots.txt-ის დაყენების შემდეგ

მას შემდეგ, რაც თქვენ განათავსებთ Robots.txt თქვენს საიტზე, თქვენ უნდა დაამატოთ და შეამოწმოთ ის Yandex და Google ვებმასტერებში.

Yandex შემოწმება:

მიჰყევით ამ ბმულს.
აირჩიეთ: Indexing Setting - Robots.txt Parsing.

Google Check:

მიჰყევით ამ ბმულს.
აირჩიეთ: სკანირება - Robots.txt ფაილების შემოწმების ხელსაწყო.

ამ გზით თქვენ შეგიძლიათ შეამოწმოთ თქვენი robots.txt შეცდომებზე და საჭიროების შემთხვევაში განახორციელოთ საჭირო კორექტირება.

ფაილის შინაარსი უნდა იყოს დაწერილი დიდი ასოებით.
Disallow დირექტივაში უნდა იყოს მითითებული მხოლოდ ერთი ფაილი ან დირექტორია.
"მომხმარებლის აგენტის" სტრიქონი არ უნდა იყოს ცარიელი.
მომხმარებლის აგენტი ყოველთვის უნდა იყოს გაუქმებამდე.
არ დაგავიწყდეთ ხაზის დანიშვნა, თუ გსურთ გამორთოთ დირექტორიაში ინდექსირება.
სანამ ფაილს სერვერზე ატვირთავთ, დარწმუნდით, რომ შეამოწმეთ იგი სინტაქსისა და მართლწერის შეცდომებზე.

Წარმატებას გისურვებ!

ვიდეო მიმოხილვა Robots.txt ფაილის შექმნისა და მორგების 3 მეთოდის შესახებ

Robots.txt არის ტექსტური ფაილი, რომელიც შეიცავს საიტის ინდექსირების პარამეტრებს საძიებო სისტემის რობოტებისთვის.

Yandex მხარს უჭერს შემდეგ დირექტივებს:

დირექტივა	Რას აკეთებს
მომხმარებლის აგენტი*
აკრძალვა
საიტის რუკა
სუფთა პარამეტრი
დაუშვას
სეირნობა-დაყოვნება

დირექტივა	Რას აკეთებს
მომხმარებლის აგენტი*	მიუთითებს რობოტს, რომლისთვისაც მოქმედებს robots.txt-ში ჩამოთვლილი წესები.
აკრძალვა	კრძალავს საიტის სექციების ან ცალკეული გვერდების ინდექსირებას.
საიტის რუკა	განსაზღვრავს გზას საიტზე განთავსებული საიტის რუქის ფაილისკენ.
სუფთა პარამეტრი	რობოტს მიუთითებს, რომ გვერდის URL შეიცავს პარამეტრებს (მაგალითად, UTM ტეგებს), რომლებიც არ უნდა იქნას გათვალისწინებული ინდექსირებისას.
დაუშვას	იძლევა საიტის სექციების ან ცალკეული გვერდების ინდექსირებას.
სეირნობა-დაყოვნება	განსაზღვრავს დროის მინიმალურ პერიოდს (წამებში) რობოტისთვის ერთი გვერდის ჩატვირთვის დასრულებამდე და მეორის ჩატვირთვის დაწყებას შორის.

* სავალდებულო დირექტივა.

ყველაზე ხშირად, შეიძლება დაგჭირდეთ Disallow, Sitemap და Clean-param დირექტივები. Მაგალითად:

მომხმარებლის აგენტი: * #მიუთითეთ, რომელ რობოტებზეა დაყენებული დირექტივები\nაკრძალვა: /bin/ # გამორთავს ბმულებს \"საქონლის კალათიდან\".\nაკრძალვა: /search/ # გამორთავს ბმულებს საიტის ძიებაში ჩაშენებული გვერდებიდან. nდაუშვით: /admin / # გამორთეთ ბმულები ადმინისტრატორის პანელიდან\nსაიტის რუკა: http://example.com/sitemap # მიუთითეთ რობოტი საიტის რუქის ფაილზე\nClean-param: ref /some_dir/get_book.pl

სხვა საძიებო სისტემებისა და სერვისების რობოტებს შეუძლიათ დირექტივების განსხვავებულად ინტერპრეტაცია.

Შენიშვნა. რობოტი არის რეგისტრის მგრძნობიარე ქვესტრიქონების დაწერისას (სახელი ან გზა ფაილისკენ, რობოტის სახელი) და არ არის მგრძნობიარე რეგისტრის მიმართ დირექტივის სახელების დაწერისას.

კირილური გამოყენება

კირილიცის გამოყენება აკრძალულია robots.txt ფაილში და სერვერის HTTP სათაურებში.

მოგესალმებით მეგობრებო და ჩემი ბლოგის აბონენტებს. დღეს Robots.txt არის დღის წესრიგში, ყველაფერი, რისი ცოდნაც გინდოდათ ამის შესახებ, მოკლედ, ზედმეტი წყლის გარეშე.

რა არის Robots.txt და რატომ არის საჭირო

Robots.txt საჭიროა იმისთვის, რომ საძიებო სისტემას (იანდექსი, გუგლი და ა.შ.) მიუთითოს, რამდენად სწორად (თქვენი გადმოსახედიდან) უნდა იყოს საიტის ინდექსირება. რომელი გვერდები, სექციები, პროდუქტები, სტატიები უნდა იყოს ინდექსირებული და რომელი, პირიქით, არაა საჭირო.

Robots.txt არის უბრალო ტექსტური ფაილი (.txt რეზოლუციით), რომელიც მიღებულია W3C-ის მიერ 1994 წლის 30 იანვარს და გამოიყენება საძიებო სისტემების უმეტესობის მიერ და ჩვეულებრივ ასე გამოიყურება:

როგორ მოქმედებს ეს თქვენი საიტის პოპულარიზაციაზე?

საიტის წარმატებული პოპულარიზაციისთვის აუცილებელია Yandex-ისა და Google-ის ინდექსი (ბაზა) შეიცავდეს მხოლოდ საიტის საჭირო გვერდებს. საჭირო გვერდებში ვგულისხმობ შემდეგს:

მთავარი;
სექციების, კატეგორიების გვერდები;
საქონელი;
სტატიები;
გვერდები "კომპანიის შესახებ", "კონტაქტები" და ა.შ.

არ არის სწორი გვერდები, ვგულისხმობ შემდეგს:

დუბლიკატი გვერდები;
გვერდების დაბეჭდვა;
ძიების შედეგების გვერდები;
სისტემის გვერდები, რეგისტრაცია, შესვლა, გამოსვლის გვერდები;
სააბონენტო გვერდები (ფიდი);

მაგალითად, თუ საძიებო სისტემის ინდექსი შეიცავს მთავარი დაწინაურებული გვერდების დუბლიკატებს, ეს გამოიწვევს პრობლემებს საიტის შინაარსის უნიკალურობასთან დაკავშირებით და ასევე უარყოფითად იმოქმედებს პოზიციებზე.

სად მდებარეობს ის?

ფაილი ჩვეულებრივ public_html საქაღალდის ძირშითქვენს ჰოსტინგზე, აქ:

რა უნდა იცოდეთ Robots.txt ფაილის შესახებ

robots.txt ინსტრუქციები საკონსულტაციო ხასიათისაა. ეს ნიშნავს, რომ პარამეტრები არის სახელმძღვანელო და არა პირდაპირი ბრძანებები. მაგრამ, როგორც წესი, Yandex და Google უპრობლემოდ მიჰყვება ინსტრუქციებს;
ფაილის განთავსება შესაძლებელია მხოლოდ სერვერზე;
ის უნდა იყოს საიტის ძირში;
სინტაქსის დარღვევა იწვევს ფაილის არასწორობას, რაც შეიძლება უარყოფითად იმოქმედოს ინდექსირებაზე;
დარწმუნდით, რომ შეამოწმეთ სწორი სინტაქსი Yandex Webmaster პანელში!

როგორ დავხუროთ გვერდი, განყოფილება, ფაილი ინდექსაციისგან?

მაგალითად, მინდა დავხურო გვერდი Yandex-ში ინდექსაციისგან: http://site/page-for-robots/

ამისათვის მე უნდა გამოვიყენო "Disallow" დირექტივა და გვერდის URL (სექცია, ფაილი). ეს ასე გამოიყურება:

მომხმარებლის აგენტი: Yandex
აკრძალვა: /page-for-robots/
მასპინძელი: ვებგვერდი

Თუ მინდა დახურვა კატეგორია
მომხმარებლის აგენტი: Yandex
აკრძალვა: /კატეგორია/შემთხვევა/
მასპინძელი: ვებგვერდი

თუ მსურს დავხურო მთელი საიტი ინდექსაციისგან, განყოფილების გარდა http://site/category/case/, მაშინ მოგიწევთ ამის გაკეთება:

მომხმარებლის აგენტი: Yandex
აკრძალვა :/
დაშვება: /კატეგორია/შემთხვევა/
მასპინძელი: ვებგვერდი

პირიქით, დირექტივა "Allow" ამბობს, რომელი გვერდი, განყოფილება, ფაილი უნდა იყოს ინდექსირებული.

მგონი შენთვის გასაგები გახდა მშენებლობის ლოგიკა. გთხოვთ გაითვალისწინოთ, რომ წესები მხოლოდ Yandex-ზე გავრცელდება, რადგან მომხმარებლის აგენტი: Yandex მითითებულია. მეორეს მხრივ, Google უგულებელყოფს ამ კონსტრუქციას და განათავსებს მთელ საიტს.

თუ გსურთ დაწეროთ უნივერსალური წესები ყველა საძიებო სისტემისთვის, გამოიყენეთ: User-agent: *. მაგალითი:

მომხმარებლის აგენტი: *
აკრძალვა :/
დაშვება: /კატეგორია/შემთხვევა/
მასპინძელი: ვებგვერდი

მომხმარებლის აგენტიარის რობოტის სახელი, რომლისთვისაც განკუთვნილია ინსტრუქცია. ნაგულისხმევი მნიშვნელობა არის * (ვარსკვლავი) - ეს ნიშნავს, რომ ინსტრუქცია განკუთვნილია აბსოლუტურად ყველა საძიებო რობოტისთვის.
რობოტების ყველაზე გავრცელებული სახელებია:

Yandex - Yandex-ის საძიებო სისტემის ყველა რობოტი
YandexImages - გამოსახულების ინდექსატორი
Googlebot - გუგლის რობოტი
BingBot - Bing Robot
YaDirectBot არის Yandex კონტექსტური სარეკლამო სისტემის რობოტი.

Yandex-ისა და Google-ის ყველა დირექტივის დეტალური მიმოხილვის ბმულები.

რა უნდა იყოს თქვენს Robots.txt ფაილში

მასპინძლის დირექტივა კონფიგურირებულია. ის უნდა იყოს გაწერილი მთავარი სარკეთქვენი საიტი. მთავარი სარკეები: site.ruან www.site.ru. თუ თქვენი საიტი არის http ს, მაშინ ესეც უნდა იყოს მითითებული. მთავარი სარკე ჰოსტში და Yandex.Webmaster-ში უნდა ემთხვეოდეს.
საიტის სექციები და გვერდები, რომლებიც არ ატარებენ დატვირთვას, ისევე როგორც დუბლიკატი შინაარსის მქონე გვერდები, დაბეჭდილი გვერდები, ძიების შედეგები და სისტემის გვერდები უნდა დაიხუროს ინდექსაციისგან (Disllow: დირექტივით).
მიაწოდეთ ბმული sitemap.xml-ზე (თქვენი საიტის რუკა xml ფორმატში).
საიტის რუკა: http://site.ru/sitemap.xml

მთავარი სარკის ჩვენება

ჯერ უნდა გაარკვიოთ რომელი სარკე გაქვთ ნაგულისხმევად. ამისათვის შეიყვანეთ თქვენი საიტის URL Yandex-ში, გადაიტანეთ URL-ზე ძიების შედეგებში და ბრაუზერის ფანჯრის ქვედა მარცხნივ მითითებული იქნება დომენი www თუ არა. ამ შემთხვევაში, WWW-ის გარეშე.

თუ დომენი მითითებულია https-ით, მაშინ Robots და Yandex.Webmaster უნდა მიუთითოთ https! ეს ასე გამოიყურება: