فایل robots.txt چیست ؟ کاربرد آن در سئو

موتورهای جستجوگر از جمله گوگل و ربات‌های هوش مصنوعی مثل ChatGPT که سایت‌ها را پیمایش می‌کنند، به طوری کلی پیش از اینکه سایت شما را پیمایش کنند، روی سایتتان فایلی به نام robots.txt را دانلود می‌کنند تا ببینند آیا اجازه دارند محتوای سایتتان را دانلود کنند یا خیر.

اگر آدرس سایت شما example.com باشد، فایل ربات باید در نشانی https://example.com/robots.txt قابل دانلود باشد. این فایل همیشه در شاخه‌ی اصلی سایت واقع می‌شود.

robots.txt

یکی از نکات قابل توجه در ایجاد این فایل، ایجاد نام فایل با حروف کوچک است. به ویژه در سیستم عامل لینوکس اگر برخی از حروف فایل بزرگ باشند، موتور جستجو امکان دریافت فایل را نخواهد داشت.

موارد قابل تنظیم در فایل robots.txt

فایل robots حاوی دستورالعمل‌هایی برای صدور یا عدم صدور مجوز دسترسی ربات‌ها به شاخه‌های مختلف وبسایت است. همچنین دستورالعمل‌های استاندارد و غیراستاندارد دیگری از جمله تعریف نقشه سایت، تعریف دامنه‌ی اصلی سایت، قوانین دسترسی ترکیبی، و زمانبندی مراجعه‌ی ربات به وبسایت می‌توانند در این فایل درج شوند.

نمونه‌های فایل robots.txt

صدور مجوز دسترسی به تمامی شاخه‌های سرور

ایجاد یک فایل خالی robots.txt یا عدم ایجاد این فایل نیز، همین اثر را خواهد داشت. ایجاد فایل با محتوای فوق سبب از بین رفتن خطاهای ۴۰۴ در هنگام مراجعه‌ی موتورهای جستجو خواهد شد.

مسدود کردن تمامی شاخه‌های سرور

مسدود کردن برخی از شاخه‌های سرور

مسدود کردن دسترسی به یک فایل خاص

ذکر این نکته ضروری است که مسیرهای ثبت شده در این فایل ممکن است راهنمایی خوب برای شروع به کار هکرهای خرابکار باشد !

مسدود کردن دسترسی یک ربات خاص به یک شاخه‌ی خاص

فایل robots پیش‌فرض وردپرس

آیا تمامی ربات‌ها به قوانین robots.txt احترام می‌گذارند؟

خیر ! ضمانتی برای خوانده شدن و عمل کردن به دستورالعمل‌های این فایل وجود ندارد. هرچند موتورهای جستجوگر بزرگ مانند گوگل، بینگ و اغلب ربات‌های هوش مصنوعی به این دستورالعمل‌ها توجه می‌کنند، ولی برخی ربات‌های مفید یا مخرب دیگر ممکن است توجهی به این فایل نداشته باشند.

شیوه‌های جایگزین در مسدود کردن دسترسی ربات‌ها

با توجه به اینکه ضمانتی برای عملکرد صحیح این فایل در مواجهه با ربات‌های مختلف وجود ندارد، روش‌های زیر می‌توانند به عنوان راه حل جایگزین در مسدود کردن دسترسی ربات‌ها به سیستم مورد استفاده قرار گیرد.

  1. بررسی User Agent ربات در سطح وب سرور یا در سطح Application و عدم نمایش محتوا
  2. درج دستورالعمل‌های meta noindex در سرآمد فایل html
  3. درج دستورالعمل‌های noindex در سرآمد پاسخ HTTP
  4. استفاده از Captcha یا کد امنیتی در بازدیدهای مشکوک به ربات
  5. استفاده از تکنیک‌های ترکیبی مانند Coockie و جاوااسکریپت برای شناسایی ربات‌ها

اهمیت تنظیم صحیح robots.txt با تغییرات جدید گوگل

برخی سیستم‌های مدیریت محتوای قدیمی و برخی از توسعه دهندگان سایت در گذشته، برای افزایش ضریب امنیت، دسترسی موتورهای جستجو را به تمامی شاخه‌های فرعی سایت مسدود می‌کردند. این کار سبب می‌شود تا موتورهای جستجو امکان دریافت تصاویر، فایل‌های چندرسانه‌ای، فایل‌های CSS و جاوااسکریپت سایت را نداشته باشند. با پیشرفت‌هایی که گوگل به تازگی داشته است، عدم دسترسی به محتواهای جانبی سبب می‌شود، تا سایت از نظر موتور جستجو ناقص و با کارایی ناقص مشاهده شود.
بنابراین، در هنگام ایجاد این فایل می‌بایست دقت کافی به کار گرفته شود تا موتورهای جستجو بتوانند به تمامی فایل‌های لازم برای نمایش کامل صفحات سایت دسترسی داشته باشند.

کاربردهای robots.txt در سئو

استفاده از قوانین این فایل می‌تواند کاربردهای مختلفی در سئو سایت داشته باشد:

ایجاد یک صفحه برای هدایت کاربران به سایت‌های خارجی و مسدود کردن دسترسی گوگل به آن در جهت جلوگیری از اثرات منفی لینک‌های خارجی بی کیفیت در سایت‌هایی که تعداد زیادی لینک از کاربران در سایت درج می‌شود.

مسدود کردن دسترسی گوگل به پیوندهایی که محتوای مشابه صفحات اصلی سایت را با نشانی متفاوت ایجاد می‌کنند.

معرفی نقشه‌ی سایت برای استفاده‌ی موتورهای جستجو

اطلاعات بیشتر در مورد robots.txt

  1. فایل robots.txt یکی از بخش‌های مهم هر سایت برای عملکرد صحیح در مواجهه با ربات‌های اینترنتی است. برای مشاهده‌ی اطلاعات تکمیلی در مورد دستورالعمل‌های قابل درج در این فایل، اینجا کلیک کنید.
  2. فهرست برخی از ربات‌های مشهور که سایت‌های اینترنتی را پیمایش می‌کنند در این صفحه قابل مشاهده است.
  3. برای مسدود کردن دسترسی ربات‌های هوش مصنوعی به سایتتان اینجا را ببینید.
  4. همچنین با مراجعه به Google Search Console و تایید مالکیت سایت خود، می‌توانید از صحیح بودن وضعیت robots.txt روی سایت خود مطمئن شوید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *