Robots txt چیست؟ چگونه فایل txt روبات را ویرایش کنیم

سلام، خوانندگان عزیز وبلاگ «دنیای وب مستر»!

فایل robots.txt– این یک فایل بسیار مهم است که مستقیماً بر کیفیت نمایه سازی سایت شما و در نتیجه آن تأثیر می گذارد ارتقاء موتور جستجو.

به همین دلیل است که باید بتوانید robots.txt را به درستی قالب بندی کنید تا به طور تصادفی از گنجاندن اسناد مهم پروژه اینترنتی در فهرست جلوگیری نکنید.

در مورد نحوه درخواست فایل روبات ها.txt، چه نحوی باید استفاده شود، چگونه اسناد را به ایندکس مجاز و رد کنیم، در این مقاله مورد بحث قرار خواهد گرفت.

درباره فایل robots.txt

ابتدا بیایید با جزئیات بیشتری دریابیم که این چه نوع فایلی است.

ربات های فایل فایلی است که به موتورهای جستجو نشان می دهد که کدام صفحات و اسناد یک سایت را می توان به فهرست اضافه کرد و کدام را نمی توان.لازم است زیرا در ابتدا موتورهای جستجو سعی می کنند کل سایت را ایندکس کنند و این همیشه درست نیست. به عنوان مثال، اگر در حال ایجاد یک سایت در یک موتور (وردپرس، جوملا و غیره) هستید، پوشه هایی خواهید داشت که کار پنل مدیریت را سازماندهی می کند. واضح است که اطلاعات این پوشه ها را نمی توان ایندکس کرد، در این مورد از فایل robots.txt استفاده می شود که دسترسی به موتورهای جستجو را محدود می کند.

فایل robots.txt همچنین حاوی آدرس نقشه سایت (ایندکس شدن توسط موتورهای جستجو را بهبود می بخشد) و همچنین دامنه اصلی سایت (آینه اصلی) است.

آینه- این یک کپی مطلق از سایت است، یعنی. وقتی یک سایت وجود دارد می گویند یکی از آنها دامنه اصلی است و دیگری آینه آن.

بنابراین، فایل دارای توابع بسیار زیادی است، و در عین حال موارد مهمی!

نحو فایل Robots.txt

فایل ربات شامل بلوک هایی از قوانین است که به موتور جستجوی خاصی می گوید چه چیزی را می توان ایندکس کرد و چه چیزی را نمی توان. می تواند یک بلوک از قوانین (برای همه موتورهای جستجو) وجود داشته باشد، اما می تواند چندین مورد از آنها نیز وجود داشته باشد - برای برخی از موتورهای جستجوی خاص به طور جداگانه.

هر یک از این بلوک ها با یک عملگر "User-Agent" شروع می شود که نشان می دهد این قوانین برای کدام موتور جستجو اعمال می شود.

کاربر-عامل:آ
(قوانین ربات "A")

کاربر-عامل:ب
(قوانین ربات B)

مثال بالا نشان می دهد که عملگر "User-Agent" یک پارامتر دارد - نام ربات موتور جستجو، که قوانین در مورد آن اعمال می شود. در زیر به موارد اصلی اشاره می کنم:

بعد از "User-Agent" اپراتورهای دیگری وجود دارند. اینم توضیحاتشون:

همه عملگرها نحو یکسانی دارند. آن ها عملگرها باید به صورت زیر استفاده شوند:

Operator1: Parameter1

Operator2: Parameter2

بدین ترتیب ابتدا نام اپراتور را می نویسیم (به حروف بزرگ یا کوچک)، سپس یک دو نقطه می گذاریم و با فاصله، پارامتر این عملگر را نشان می دهیم. سپس با خط جدیدعملگر دو را به همین صورت توصیف می کنیم.

مهم!!! یک خط خالی به این معنی است که بلوک قوانین این موتور جستجو کامل است، بنابراین عبارات را با یک خط خالی جدا نکنید.

نمونه فایل robots.txt

بیایید به یک مثال ساده از یک فایل robots.txt نگاه کنیم تا ویژگی های نحو آن را بهتر درک کنیم:

عامل کاربر: Yandex
مجاز: /folder1/
غیر مجاز: /file1.html
میزبان: www.site.ru

عامل کاربر: *
غیر مجاز: /document.php
غیر مجاز: /folderxxx/
غیر مجاز: /folderyyy/folderzzz
غیر مجاز: /feed/

نقشه سایت: http://www.site.ru/sitemap.xml

حال بیایید به مثال شرح داده شده نگاه کنیم.

این فایل از سه بلوک تشکیل شده است: اولی برای Yandex، دومی برای همه موتورهای جستجو، و سومی حاوی آدرس نقشه سایت است (به طور خودکار برای همه موتورهای جستجو اعمال می شود، بنابراین نیازی به مشخص کردن "User-Agent" نیست). ما به Yandex اجازه دادیم تا پوشه "folder1" و تمام محتویات آن را فهرست کند، اما آن را از فهرست کردن سند "file1.html" واقع در فهرست اصلی میزبان منع کردیم. ما همچنین دامنه اصلی سایت را به Yandex نشان دادیم. بلوک دوم برای همه موتورهای جستجو است. در آنجا سند "document.php" و همچنین پوشه های "folderxxx"، "folderyyy/folderzzz" و "feed" را ممنوع کردیم.

لطفاً توجه داشته باشید که در بلوک دوم دستورات به فهرست، کل پوشه "folderyyy" را ممنوع نکردیم، بلکه فقط پوشه داخل این پوشه - "folderzzz" را ممنوع کردیم. آن ها ما مسیر کامل "folderzzz" را ارائه کرده ایم. اگر سندی را که نه در دایرکتوری ریشه سایت، بلکه در جایی در پوشه های دیگر قرار دارد، ممنوع کنیم، همیشه باید این کار انجام شود.

ایجاد آن کمتر از دو دقیقه طول خواهد کشید:

فایل ربات ایجاد شده را می توان از نظر عملکرد در پانل وب مستر Yandex بررسی کرد. اگر خطاها به طور ناگهانی در فایل یافت شوند، Yandex آن را نشان می دهد.

اگر قبلاً آن را ندارید، حتماً یک فایل robots.txt برای سایت خود ایجاد کنید. این به توسعه سایت شما در موتورهای جستجو کمک می کند. همچنین می توانید مقاله دیگر ما در مورد روش متا تگ و htaccess را مطالعه کنید.

ظهر بخیر دوستان عزیز! تنها چیزی که می دانید این است بهینه سازی موتور جستجو- یک موضوع مسئولیت پذیر و ظریف. شما باید تمام جزئیات کوچک را در نظر بگیرید تا به نتیجه قابل قبولی برسید.

امروز ما در مورد robots.txt صحبت خواهیم کرد - فایلی که برای هر وب مستر آشنا است. این شامل تمام اساسی ترین دستورالعمل ها برای روبات های جستجوگر است. به عنوان یک قاعده، آنها خوشحال هستند که دستورالعمل های تجویز شده را دنبال می کنند و اگر به اشتباه کامپایل شوند، از فهرست کردن منبع وب خودداری می کنند. در مرحله بعد، من به شما خواهم گفت که چگونه نسخه صحیح robots.txt را بنویسید، و همچنین نحوه پیکربندی آن را.

در مقدمه قبلاً توضیح دادم که چیست. حالا من به شما می گویم که چرا آن مورد نیاز است. Robots.txt یک فایل متنی کوچک است که در ریشه سایت ذخیره می شود. توسط موتورهای جستجو استفاده می شود. قوانین نمایه سازی را به وضوح بیان می کند، یعنی چه بخش هایی از سایت باید ایندکس شوند (به جستجو اضافه شوند) و کدام بخش ها نباید ایندکس شوند.

به طور معمول، بخش های فنی یک سایت از نمایه سازی بسته می شود. گاهی اوقات، صفحات غیر منحصر به فرد در لیست سیاه قرار می گیرند (کپی پیست سیاست حفظ حریم خصوصی نمونه ای از این موارد است). در اینجا ربات ها اصول کار با بخش هایی را که باید ایندکس شوند توضیح داده شده است. اغلب قوانین برای چندین روبات به طور جداگانه تجویز می شود. در ادامه در این مورد صحبت خواهیم کرد.

در تنظیم صحیح robots.txt، وب سایت شما تضمین شده است که در رتبه بندی موتورهای جستجو افزایش یابد. ربات ها فقط در نظر خواهند گرفت مطالب مفید، توجه به قسمت های تکراری یا فنی.

ایجاد robots.txt

برای ایجاد یک فایل، فقط از عملکرد استاندارد خود استفاده کنید سیستم عاملو سپس آن را از طریق FTP در سرور آپلود کنید. حدس زدن آن (روی سرور) آسان است - در ریشه. معمولاً این پوشه public_html نامیده می شود.

شما به راحتی می توانید با استفاده از هر سرویس گیرنده FTP (به عنوان مثال) یا داخلی وارد آن شوید مدیر فایل. طبیعتا ربات های خالی را روی سرور آپلود نمی کنیم. بیایید چند دستورالعمل (قوانین) اساسی را در آنجا بنویسیم.

عامل کاربر: *
اجازه: /

با استفاده از این خطوط در فایل روبات‌های خود، با همه ربات‌ها (دستورالعمل عامل کاربر) تماس خواهید گرفت و به آنها اجازه می‌دهید کل سایت شما را ایندکس کنند (از جمله تمام صفحات فنی Allow: /)

البته این گزینه برای ما مناسب نیست. این فایل به خصوص برای بهینه سازی موتور جستجو مفید نخواهد بود. قطعا نیاز به تنظیم مناسب دارد. اما قبل از آن، تمام دستورالعمل‌های اصلی و مقادیر robots.txt را بررسی خواهیم کرد.

دستورالعمل ها

عامل کاربریکی از مهمترین آنها، زیرا نشان می دهد که کدام ربات ها باید قوانینی را که از آن پیروی می کنند پیروی کنند. قوانین تا زمانی که User-agent بعدی در فایل در نظر گرفته می شود.
اجازهامکان فهرست بندی هر بلوک منبع را فراهم می کند. به عنوان مثال: "/" یا "/tag/".
غیر مجازبرعکس، نمایه سازی بخش ها را ممنوع می کند.
نقشه سایتمسیر به نقشه سایت (در فرمت xml).
میزبانآینه اصلی (با یا بدون www یا اگر چندین دامنه دارید). پروتکل امن https (در صورت وجود) نیز در اینجا نشان داده شده است. اگر http استاندارد دارید، نیازی به تعیین آن ندارید.
خزیدن-تاخیربا کمک آن می توانید فاصله زمانی بازدید و دانلود فایل های ربات ها در سایت خود را تعیین کنید. به کاهش بار روی هاست کمک می کند.
Clean-paramبه شما امکان می دهد فهرست بندی پارامترها را در صفحات خاصی (مانند www.site.com/cat/state?admin_id8883278) غیرفعال کنید.
برخلاف دستورالعمل های قبلی، 2 مقدار در اینجا مشخص شده است (آدرس و خود پارامتر).

اینها همه قوانینی هستند که توسط موتورهای جستجوی برجسته پشتیبانی می شوند. با کمک آنها است که ما ربات های خود را ایجاد خواهیم کرد که بیشترین عملکرد را با انواع مختلف دارند انواع متفاوتسایت های.

تنظیمات

برای پیکربندی صحیح فایل robots، باید دقیقا بدانیم که کدام بخش از سایت باید ایندکس شود و کدام بخش نه. در مورد یک وب‌سایت ساده تک صفحه‌ای با استفاده از html + css، فقط باید چند دستورالعمل اساسی بنویسیم، مانند:

عامل کاربر: *
اجازه: /
نقشه سایت: site.ru/sitemap.xml
میزبان: www.site.ru

در اینجا قوانین و مقادیر را برای همه موتورهای جستجو مشخص کرده ایم. اما بهتر است دستورالعمل های جداگانه ای برای گوگل و یاندکس اضافه کنید. شبیه این خواهد شد:

عامل کاربر: *
اجازه: /

عامل کاربر: Yandex
اجازه: /
غیر مجاز: /politika

عامل کاربر: GoogleBot
اجازه: /
غیر مجاز: /tags/

نقشه سایت: site.ru/sitemap.xml
میزبان: site.ru

اکنون کاملاً تمام فایل های سایت html ما ایندکس می شوند. اگر بخواهیم صفحه یا عکسی را حذف کنیم، باید یک پیوند نسبی به این قطعه در Disallow مشخص کنیم.

می توانید از خدمات استفاده کنید تولید خودکارفایل های ربات من تضمین نمی کنم که با کمک آنها یک نسخه کاملاً صحیح ایجاد کنید، اما می توانید آن را به عنوان مقدمه امتحان کنید.

از جمله این خدمات عبارتند از:

با کمک آنها می توانید robots.txt را در آن ایجاد کنید حالت خودکار. من شخصاً این گزینه را به شدت توصیه نمی کنم، زیرا انجام آن به صورت دستی بسیار ساده تر است و آن را برای پلت فرم خود سفارشی می کنید.

وقتی در مورد پلتفرم ها صحبت می کنیم، منظورم انواع CMS ها، چارچوب ها، سیستم های SaaS و بسیاری موارد دیگر است. در ادامه در مورد نحوه راه اندازی فایل ربات وردپرس و جوملا صحبت خواهیم کرد.

اما قبل از آن، اجازه دهید چند قانون جهانی را برجسته کنیم که می تواند شما را هنگام ایجاد و راه اندازی ربات برای تقریباً هر سایتی راهنمایی کند:

ممانعت از نمایه سازی:

  • مدیر سایت;
  • حساب شخصی و صفحات ثبت نام/مجوز؛
  • سبد خرید، داده ها از فرم های سفارش (برای یک فروشگاه آنلاین)؛
  • پوشه cgi (واقع در هاست)؛
  • بخش خدمات؛
  • اسکریپت های ajax و json;
  • برچسب های UTM و Openstat.
  • پارامترهای مختلف

باز کردن (اجازه):

  • تصاویر؛
  • فایل های JS و CSS؛
  • عناصر دیگری که باید توسط موتورهای جستجو در نظر گرفته شود.

علاوه بر این، در پایان فراموش نکنید که نقشه سایت (مسیر به نقشه سایت) و هاست (آینه اصلی) را نشان دهید.

Robots.txt برای وردپرس

برای ایجاد یک فایل باید robots.txt را به همین ترتیب در ریشه سایت قرار دهیم. در این صورت می توانید با استفاده از همان FTP و فایل منیجر محتویات آن را تغییر دهید.

یک گزینه راحت تر وجود دارد - با استفاده از افزونه ها یک فایل ایجاد کنید. به طور خاص، Yoast SEO چنین عملکردی دارد. ویرایش ربات ها به طور مستقیم از پنل مدیریت بسیار راحت تر است، بنابراین من خودم از این روش کار با robots.txt استفاده می کنم.

اینکه چگونه تصمیم می گیرید این فایل را ایجاد کنید به شما بستگی دارد. در سایت هایی که وردپرس دارند از این گزینه استفاده می کنم:

عامل کاربر: * # قانون برای همه روبات ها، به جز گوگل و یاندکس

غیر مجاز: /cgi-bin # پوشه با اسکریپت
غیر مجاز: /؟ # پارامتر درخواست با صفحه نخست
غیر مجاز: /wp- # فایل از خود CSM (با پیشوند wp-)
غیر مجاز: *?s= # \
غیر مجاز: *&s= # همه چیز مربوط به جستجو
غیر مجاز: /search/ # /
غیر مجاز: /author/ # آرشیو نویسنده
غیر مجاز: /users/ # و کاربران
غیر مجاز: */trackback # اعلان از WP مبنی بر اینکه شخصی به شما پیوند می دهد
غیر مجاز: */feed # فید در xml
غیر مجاز: */rss # و rss
غیر مجاز: */embed # عناصر داخلی
غیر مجاز: /xmlrpc.php #WordPress API
غیر مجاز: *utm= # برچسب UTM
غیر مجاز: *openstat= # تگ های Openstat
غیر مجاز: /tag/ # برچسب (در صورت موجود بودن)
مجاز: */آپلودها # بارگیری باز (تصاویر و غیره)

عامل کاربر: GoogleBot # برای گوگل
غیر مجاز: /cgi-bin
غیر مجاز: /؟
غیر مجاز: /wp-
غیر مجاز: *?s=
غیر مجاز: *&s=
غیر مجاز: /search/
غیر مجاز: /author/
غیر مجاز: /users/
غیر مجاز: */trackback
غیر مجاز: */feed
غیر مجاز: */rss
غیر مجاز: */embed
غیر مجاز: /xmlrpc.php
غیر مجاز: *utm=
غیر مجاز: *openstat=
غیر مجاز: /tag/
مجاز: */آپلودها
مجاز: /*/*.js # فایل های JS را باز کنید
مجاز: /*/*.css # و CSS
مجاز: /wp-*.png # و تصاویر با فرمت png
مجاز: /wp-*.jpg # \
مجاز: /wp-*.jpeg # و فرمت های دیگر
مجاز: /wp-*.gif # /
# با افزونه ها کار می کند

عامل کاربر: Yandex # برای Yandex
غیر مجاز: /cgi-bin
غیر مجاز: /؟
غیر مجاز: /wp-
غیر مجاز: *?s=
غیر مجاز: *&s=
غیر مجاز: /search/
غیر مجاز: /author/
غیر مجاز: /users/
غیر مجاز: */trackback
غیر مجاز: */feed
غیر مجاز: */rss
غیر مجاز: */embed
غیر مجاز: /xmlrpc.php
غیر مجاز: /tag/
مجاز: */آپلودها
مجاز: /*/*.js
مجاز: /*/*.css
مجاز: /wp-*.png
مجاز: /wp-*.jpg
مجاز: /wp-*.jpeg
مجاز: /wp-*.gif
مجاز: /wp-admin/admin-ajax.php
# تگ UTM تمیز
Clean-Param: openstat # و Openstat را فراموش نکنید

نقشه سایت: # مسیر نقشه سایت را مشخص کنید
میزبان: https://site.ru #آینه اصلی

توجه!هنگام کپی کردن خطوط در یک فایل، فراموش نکنید که همه نظرات را حذف کنید (متن بعد از #).

این گزینه robots.txt در بین وب مسترهایی که از WP استفاده می کنند محبوبیت بیشتری دارد. آیا او ایده آل است؟ خیر می توانید سعی کنید چیزی اضافه کنید یا برعکس، چیزی را حذف کنید. اما به خاطر داشته باشید که هنگام بهینه سازی موتور متن ربات، خطاها رایج هستند. در ادامه در مورد آنها صحبت خواهیم کرد.

Robots.txt برای جوملا

و اگرچه در سال 2018 افراد کمی از جوملا استفاده می کنند، من معتقدم که نمی توان این CMS فوق العاده را نادیده گرفت. هنگام تبلیغ پروژه ها در جوملا، مطمئناً باید یک فایل ربات ایجاد کنید، در غیر این صورت چگونه می خواهید عناصر غیر ضروری را از ایندکس شدن مسدود کنید؟

مانند مورد قبلی، می توانید یک فایل را به صورت دستی با آپلود آن در هاست ایجاد کنید یا از یک ماژول برای این اهداف استفاده کنید. در هر دو مورد، شما باید آن را به درستی پیکربندی کنید. گزینه صحیح جوملا به این صورت است:

عامل کاربر: *
مجاز: /*.css؟*$
مجاز: /*.js؟*$
مجاز: /*.jpg؟*$
مجاز: /*.png؟*$
غیر مجاز: /cache/
غیر مجاز: /*.pdf
غیر مجاز: /administrator/
غیر مجاز: /نصب/
غیر مجاز: /cli/
غیر مجاز: /کتابخانه ها/
غیر مجاز: /language/
غیر مجاز: /components/
غیر مجاز: /modules/
غیر مجاز: /شامل/
غیر مجاز: /bin/
غیر مجاز: /component/
غیر مجاز: /tmp/
غیر مجاز: /index.php
غیر مجاز: /plugins/
غیر مجاز: /*mailto/

غیر مجاز: /logs/
غیر مجاز: /component/tags*
غیر مجاز: /*%
غیر مجاز: /layouts/

عامل کاربر: Yandex
غیر مجاز: /cache/
غیر مجاز: /*.pdf
غیر مجاز: /administrator/
غیر مجاز: /نصب/
غیر مجاز: /cli/
غیر مجاز: /کتابخانه ها/
غیر مجاز: /language/
غیر مجاز: /components/
غیر مجاز: /modules/
غیر مجاز: /شامل/
غیر مجاز: /bin/
غیر مجاز: /component/
غیر مجاز: /tmp/
غیر مجاز: /index.php
غیر مجاز: /plugins/
غیر مجاز: /*mailto/

غیر مجاز: /logs/
غیر مجاز: /component/tags*
غیر مجاز: /*%
غیر مجاز: /layouts/

عامل کاربر: GoogleBot
غیر مجاز: /cache/
غیر مجاز: /*.pdf
غیر مجاز: /administrator/
غیر مجاز: /نصب/
غیر مجاز: /cli/
غیر مجاز: /کتابخانه ها/
غیر مجاز: /language/
غیر مجاز: /components/
غیر مجاز: /modules/
غیر مجاز: /شامل/
غیر مجاز: /bin/
غیر مجاز: /component/
غیر مجاز: /tmp/
غیر مجاز: /index.php
غیر مجاز: /plugins/
غیر مجاز: /*mailto/

غیر مجاز: /logs/
غیر مجاز: /component/tags*
غیر مجاز: /*%
غیر مجاز: /layouts/

میزبان: site.ru # فراموش نکنید که آدرس اینجا را به آدرس خود تغییر دهید
نقشه سایت: site.ru/sitemap.xml # و اینجا

به عنوان یک قاعده، این کافی است فایل های اضافیدر شاخص لحاظ نشده اند.

خطا در هنگام راه اندازی

اغلب افراد هنگام ایجاد و تنظیم یک فایل روبات اشتباه می کنند. در اینجا رایج ترین آنها هستند:

  • قوانین فقط برای User-agent مشخص شده است.
  • هاست و نقشه سایت موجود نیستند.
  • وجود پروتکل http در دستورالعمل Host (فقط باید https را مشخص کنید).
  • عدم رعایت قوانین تودرتو هنگام باز کردن/بستن تصاویر.
  • برچسب های UTM و Openstat بسته نیستند.
  • نوشتن دستورالعمل هاست و نقشه سایت برای هر ربات.
  • شرح سطحی پرونده.

بسیار مهم است که این فایل کوچک را به درستی پیکربندی کنید. اگر اشتباهات جدی مرتکب شوید، می توانید بخش قابل توجهی از ترافیک را از دست بدهید، بنابراین هنگام تنظیم بسیار مراقب باشید.

چگونه یک فایل را بررسی کنیم؟

برای این اهداف بهتر است استفاده شود خدمات ویژهاز Yandex و Google، از آنجایی که این موتورهای جستجو محبوب ترین و مورد تقاضا هستند (اغلب تنها مورد استفاده قرار می گیرند)، در نظر گرفتن موتورهای جستجو مانند بینگ، یاهو یا رامبلر هیچ فایده ای ندارد.

ابتدا بیایید گزینه Yandex را در نظر بگیریم. به وب مستر بروید. سپس به Tools – Analysis of robots.txt بروید.

در اینجا می‌توانید فایل را برای خطاها بررسی کنید، و همچنین به‌طور بی‌درنگ بررسی کنید که کدام صفحات برای نمایه‌سازی باز هستند و کدام‌ها نیستند. خیلی راحته

گوگل دقیقا همین سرویس را دارد. برویم به کنسول جستجو. تب Scanning را پیدا کنید، – Robots.txt tool verification file را انتخاب کنید.

عملکردها در اینجا دقیقاً مشابه خدمات داخلی است.

لطفا توجه داشته باشید که 2 خطا را به من نشان می دهد. این به این دلیل است که Google دستورالعمل های پاکسازی پارامترهایی را که من برای Yandex مشخص کرده ام تشخیص نمی دهد:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

شما نباید به این موضوع توجه کنید، زیرا روبات های گوگل فقط از قوانین GoogleBot استفاده می کنند.

نتیجه

فایل robots.txt برای بهینه سازی سئو وب سایت شما بسیار مهم است. با تمام مسئولیت به راه اندازی آن نزدیک شوید، زیرا در صورت اجرای نادرست، همه چیز می تواند از بین برود.

تمام دستورالعمل‌هایی که در این مقاله به اشتراک گذاشته‌ام را در نظر داشته باشید، و فراموش نکنید که لازم نیست دقیقاً از تغییرات ربات‌های من کپی کنید. کاملاً ممکن است که مجبور شوید هر یک از دستورالعمل ها را بیشتر درک کنید و فایل را مطابق با مورد خاص خود تنظیم کنید.

و اگر می‌خواهید robots.txt و ایجاد وب‌سایت در وردپرس را عمیق‌تر درک کنید، از شما دعوت می‌کنم. در اینجا یاد خواهید گرفت که چگونه می توانید به راحتی یک وب سایت ایجاد کنید و فراموش نکنید که آن را برای موتورهای جستجو بهینه کنید.

تقریباً هر پروژه ای که برای ممیزی یا ارتقاء به ما می آید، یک فایل robots.txt نادرست دارد و اغلب به طور کلی گم شده است. این به این دلیل اتفاق می افتد که هنگام ایجاد یک فایل، همه با تخیل خود هدایت می شوند و نه قوانین. بیایید دریابیم که چگونه این فایل را درست بنویسیم تا ربات های جستجوگر به طور موثر با آن کار کنند.

چرا باید robots.txt را پیکربندی کنید؟

Robots.txtفایلی است که در دایرکتوری ریشه یک سایت قرار دارد و به روبات های موتورهای جستجو می گوید که به کدام بخش ها و صفحات سایت می توانند دسترسی داشته باشند و به کدام قسمت ها نمی توانند دسترسی داشته باشند.

راه اندازی robots.txt بخش مهمی در نتایج موتورهای جستجو است که به درستی پیکربندی شده اند، عملکرد سایت را نیز افزایش می دهد. از دست دادن Robots.txt موتورهای جستجو را از خزیدن و نمایه سازی سایت شما باز نمی دارد، اما اگر این فایل را ندارید، ممکن است دو مشکل داشته باشید:

    ربات جستجوگر کل سایت را می‌خواند، که بودجه خزیدن را تضعیف می‌کند. بودجه خزنده تعداد صفحاتی است که یک ربات جستجوگر قادر است در یک بازه زمانی مشخص بخزد.

    بدون فایل ربات، موتور جستجو به صفحات پیش نویس و پنهان، به صدها صفحه که برای مدیریت CMS استفاده می شود، دسترسی خواهد داشت. آن‌ها را فهرست‌بندی می‌کند، و وقتی نوبت به صفحات ضروری می‌رسد که محتوای مستقیم برای بازدیدکنندگان ارائه می‌کنند، بودجه خزنده به پایان می‌رسد.

    این فهرست ممکن است شامل صفحه ورود به سایت و سایر منابع مدیر باشد، بنابراین مهاجم می تواند به راحتی آنها را ردیابی و دستکاری کند. حمله ddosیا سایت را هک کنید

چگونه روبات‌های جستجو یک سایت را با و بدون robots.txt می‌بینند:


نحو Robots.txt

قبل از شروع به درک نحو و تنظیم robots.txt، بیایید نگاه کنیم که "فایل ایده آل" چگونه باید باشد:


اما شما نباید فوراً از آن استفاده کنید. هر سایتی اغلب به تنظیمات خاص خود نیاز دارد، زیرا همه ما ساختار سایت متفاوت و CMS متفاوتی داریم. بیایید به ترتیب به هر دستورالعمل نگاه کنیم.

عامل کاربر

User-agent - یک ربات جستجو را تعریف می کند که باید دستورالعمل های توضیح داده شده در فایل را دنبال کند. اگر نیاز دارید که همه را به یکباره خطاب کنید، از نماد * استفاده کنید. همچنین می توانید با یک ربات جستجوگر خاص تماس بگیرید. به عنوان مثال، Yandex و Google:


با استفاده از این دستورالعمل، ربات متوجه می شود که کدام فایل ها و پوشه ها از ایندکس شدن ممنوع هستند. اگر می خواهید کل سایت شما برای نمایه سازی باز باشد، مقدار Disallow را خالی بگذارید. برای مخفی کردن تمام محتوای سایت پس از Disallow، "/" را قرار دهید.

ما می توانیم از دسترسی به یک پوشه، فایل یا پسوند فایل خاص جلوگیری کنیم. در مثال ما، ما با تمام ربات های جستجوگر تماس می گیریم، دسترسی به bitrix را مسدود می کنیم، جستجو می کنیم و پسوند pdf.


اجازه

اجازه دهید صفحات و بخش‌های سایت مجبور به فهرست‌بندی شوند. در مثال بالا، ما با ربات جستجوگر گوگل تماس می گیریم، دسترسی به bitrix، پوشه جستجو و پسوند pdf را مسدود می کنیم. اما در پوشه bitrix ما به اجبار 3 پوشه را برای نمایه سازی باز می کنیم: کامپوننت، js، ابزار.


میزبان - آینه سایت

سایت آینه ای تکراری از سایت اصلی است. آینه ها برای اهداف مختلفی استفاده می شوند: تغییر آدرس، امنیت، کاهش بار روی سرور و غیره.

هاست یکی از مهمترین قوانین است. در صورت ثبت نام این قانون، سپس ربات متوجه می شود که کدام یک از آینه های سایت باید برای نمایه سازی در نظر گرفته شود. این دستورالعمل برای روبات های Yandex و Mail.ru ضروری است. سایر ربات ها این قانون را نادیده می گیرند. هاست فقط یکبار ثبت می شود!

برای پروتکل های "https://" و "http://"، نحو در فایل robots.txt متفاوت خواهد بود.

نقشه سایت - نقشه سایت

نقشه سایت شکلی از پیمایش سایت است که برای اطلاع رسانی به موتورهای جستجو در مورد صفحات جدید استفاده می شود. با استفاده از دستورالعمل نقشه سایت، "به زور" به ربات نشان می دهیم که نقشه در آن قرار دارد.


نمادها در robots.txt

نمادهای استفاده شده در فایل: "/، *، $، #".


بررسی عملکرد پس از راه‌اندازی robots.txt

پس از اینکه Robots.txt را در وب سایت خود قرار دادید، باید آن را در Yandex و Google webmaster اضافه کرده و بررسی کنید.

بررسی Yandex:

  1. این لینک را دنبال کنید.
  2. انتخاب کنید: تنظیمات نمایه سازی - تجزیه و تحلیل Robots.txt.

گوگل چک:

  1. این لینک را دنبال کنید.
  2. انتخاب کنید: اسکن - ابزار بازرسی فایل Robots.txt.

به این ترتیب می توانید robots.txt خود را از نظر خطا بررسی کنید و در صورت لزوم تنظیمات لازم را انجام دهید.

  1. محتویات فایل باید با حروف بزرگ نوشته شود.
  2. فقط یک فایل یا دایرکتوری باید در دستورالعمل Disallow مشخص شود.
  3. خط "کاربر-عامل" نباید خالی باشد.
  4. User-agent همیشه باید قبل از Disallow باشد.
  5. در صورت نیاز به غیرفعال کردن نمایه سازی یک فهرست، فراموش نکنید که یک اسلش اضافه کنید.
  6. قبل از آپلود فایل در سرور، حتماً آن را از نظر نحو و خطاهای املایی بررسی کنید.

آرزو می کنم موفق شوی!

بررسی ویدئویی 3 روش برای ایجاد و سفارشی سازی فایل Robots.txt

Robots.txt است فایل متنی، که حاوی پارامترهای نمایه سازی سایت برای روبات های موتورهای جستجو است.

Yandex دستورالعمل های زیر را پشتیبانی می کند:

بخشنامه داره چیکار میکنه
عامل کاربر *
غیر مجاز
نقشه سایت
Clean-param
اجازه
خزیدن-تاخیر
بخشنامه داره چیکار میکنه
عامل کاربر * روباتی را نشان می دهد که قوانین فهرست شده در robots.txt برای آن اعمال می شود.
غیر مجاز نمایه سازی پارتیشن ها یا غیرفعال می شود صفحات منفردسایت.
نقشه سایت مسیر فایل نقشه سایت که در سایت قرار دارد را مشخص می کند.
Clean-param به ربات نشان می دهد که URL صفحه حاوی پارامترهایی است (مثلاً تگ های UTM) که نیازی به در نظر گرفتن آنها هنگام نمایه سازی نیست.
اجازه نمایه سازی بخش ها یا صفحات تکی سایت را امکان پذیر می کند.
خزیدن-تاخیر

حداقل بازه زمانی (بر حسب ثانیه) را برای ربات بین پایان بارگذاری یک صفحه و شروع بارگذاری صفحه بعدی تنظیم می کند.

* بخشنامه اجباری

رایج ترین دستورالعمل هایی که ممکن است نیاز داشته باشید عبارتند از Disallow، Sitemap و Clean-param. مثلا:

عامل کاربر: * #مشخص کنید دستورالعمل‌های روبات‌ها برای کدام نصب می‌شوند\nعدم اجازه: /bin/ # پیوندها را از \"سبد خرید\\" ممنوع می‌کند.\nعدم اجازه: /search/ # پیوند به صفحات ساخته شده در سایت جستجو را ممنوع می‌کند\nعدم اجازه: /admin / # پیوندها را از پنل مدیریت ممنوع می کند\nنقشه سایت: http://example.com/sitemap # ربات را به فایل نقشه سایت مربوط به سایت نشان می دهد\nClean-param: ref /some_dir/get_book.pl

ربات‌های سایر موتورهای جستجو و خدمات ممکن است دستورالعمل‌ها را متفاوت تفسیر کنند.

توجه داشته باشید. ربات هنگام نوشتن زیر رشته ها (نام یا مسیر فایل، نام ربات) حروف کوچک و بزرگ را در نظر می گیرد و در نام دستورالعمل ها حروف بزرگ را در نظر نمی گیرد.

با استفاده از الفبای سیریلیک

استفاده از سیریلیک در فایل robots.txt و هدرهای HTTP سرور ممنوع است.

با سلام خدمت دوستان و مشترکین وبلاگم. امروز در دستور کار Robots.txt است، همه آنچه می خواستید در مورد آن بدانید، به طور خلاصه، بدون کرک های غیر ضروری.

Robots.txt چیست و چرا به آن نیاز است؟

Robots.txt مورد نیاز است تا به موتور جستجو (Yandex، Google و غیره) نشان دهد که چگونه سایت باید به درستی (از دیدگاه شما) ایندکس شود. کدام صفحات، بخش‌ها، محصولات، مقاله‌ها باید نمایه شوند و کدام‌ها، برعکس، ضروری نیستند.

Robots.txt یک فایل متنی ساده (با وضوح .txt) است که توسط W3C در 30 ژانویه 1994 پذیرفته شد و توسط اکثر موتورهای جستجو استفاده می شود و معمولاً به شکل زیر است:

چه تاثیری بر ارتقای سایت شما دارد؟

برای تبلیغ موفقیت آمیز یک وب سایت، لازم است که فهرست (پایه) Yandex و Google فقط شامل صفحات ضروری وب سایت باشد. منظور من از صفحات مورد نیاز موارد زیر است:

  1. صفحه اصلی;
  2. صفحات بخش ها، دسته ها؛
  3. کالاها؛
  4. مقالات;
  5. صفحات "درباره شرکت"، "مخاطبین" و غیره

منظور من از صفحات NOT موارد زیر است:

  1. صفحات تکراری؛
  2. چاپ صفحات؛
  3. صفحات نتایج جستجو؛
  4. صفحات سیستم، ثبت نام، ورود، صفحات خروج;
  5. صفحات اشتراک (فید)؛

به عنوان مثال، اگر فهرست موتورهای جستجو شامل موارد تکراری از صفحات اصلی تبلیغ شده باشد، این امر باعث ایجاد مشکل در منحصر به فرد بودن محتوای سایت می شود و همچنین بر موقعیت ها تأثیر منفی می گذارد.

او در کجا قرار دارد؟

فایل معمولا قرار دارد در ریشه پوشه public_htmlدر میزبانی شما، در اینجا:

آنچه باید در مورد فایل Robots.txt بدانید

  1. دستورالعمل های Robots.txt ماهیت مشاوره ای دارند. این بدان معنی است که تنظیمات جهت هستند و نه دستورات مستقیم. اما به عنوان یک قاعده، Yandex و Google بدون هیچ مشکلی دستورالعمل ها را دنبال می کنند.
  2. فایل فقط می تواند بر روی سرور میزبانی شود.
  3. باید در ریشه سایت باشد.
  4. نقض نحو منجر به نادرست بودن فایل می شود که می تواند بر نمایه سازی تأثیر منفی بگذارد.
  5. سینتکس صحیح را در پنل وب مستر Yandex بررسی کنید!

چگونه یک صفحه، بخش، فایل را از نمایه سازی مسدود کنیم؟

به عنوان مثال، من می خواهم صفحه را از نمایه سازی در Yandex مسدود کنم: http://site/page-for-robots/

برای انجام این کار، من باید از دستورالعمل "عدم اجازه" و URL صفحه (بخش، فایل) استفاده کنم. به نظر می رسد این است:

عامل کاربر: Yandex
غیر مجاز: /page-for-robots/
میزبان: وب سایت

اگربخواهم دسته بندی
عامل کاربر: Yandex
غیر مجاز: /category/case/
میزبان: وب سایت

اگر بخواهم کل سایت را از ایندکس شدن مسدود کنم، به جز بخش http://site/category/case/، پس باید این کار را انجام دهید:

عامل کاربر: Yandex
غیر مجاز:/
مجاز: /category/case/
میزبان: وب سایت

برعکس، دستورالعمل "Allow" نشان می دهد که کدام صفحه، بخش، فایل باید ایندکس شود.

من فکر می کنم منطق ساخت و ساز برای شما روشن شده است. لطفاً توجه داشته باشید که قوانین فقط برای Yandex اعمال می شود، زیرا User-agent مشخص شده است: Yandex. گوگل این طرح را نادیده می گیرد و کل سایت را ایندکس می کند.

اگر می خواهید قوانین جهانی برای همه موتورهای جستجو بنویسید، از: User-agent: * استفاده کنید. مثال:

عامل کاربر: *
غیر مجاز:/
مجاز: /category/case/
میزبان: وب سایت

عامل کاربرنام رباتی است که دستورالعمل ها برای آن در نظر گرفته شده است. مقدار پیش فرض * (ستاره) است - این بدان معنی است که دستورالعمل ها برای همه روبات های جستجو در نظر گرفته شده است.
رایج ترین نام ربات ها:

  • Yandex - همه روبات های موتور جستجوی Yandex
  • YandexImages - نمایه ساز تصویر
  • Googlebot - ربات گوگل
  • BingBot - ربات سیستم بینگ
  • YaDirectBot – ربات سیستم تبلیغات متنی Yandex.

پیوندها به بررسی دقیقتمام دستورالعمل های Yandex و Google.

آنچه باید در فایل Robots.txt بالاتر باشد

  1. Host Directive پیکربندی شده است. باید بیان کند آینه اصلیوبسایت شما. آینه های اصلی: site.ruیا www.site.ru. اگر سایت شما با http است س، پس این نیز باید نشان داده شود. آینه اصلی در میزبان و در Yandex.Webmaster باید مطابقت داشته باشد.
  2. بخش‌ها و صفحاتی از سایت که بار مفیدی ندارند، و همچنین صفحات دارای محتوای تکراری، صفحات چاپی، نتایج جستجو و صفحات سیستم باید از فهرست بندی بسته شوند (با استفاده از دستورالعمل Disallow:).
  3. پیوندی به sitemap.xml (نقشه سایت خود با فرمت xml) ارائه دهید.
    نقشه سایت: http://site.ru/sitemap.xml

نشانگر آینه اصلی

ابتدا باید دریابید که کدام آینه را به عنوان آینه اصلی دارید. برای انجام این کار، URL سایت خود را در Yandex وارد کنید، به URL در نتایج اشاره کنید و در سمت چپ پایین پنجره مرورگر نشان داده می شود. دامنه www، یا بدون. در این مورد، بدون WWW.

اگر دامنه مشخص شده باشد با https، سپس در Robots و Yandex.Webmaster باید مشخص کنید https! به نظر می رسد این است:

اشتراک گذاری