فایل robots.txt و کاربردهای آن در سئو

موتورهای جستجوگر از جمله گوگل و برخی ربات‌های دیگر که سایت‌های اینترنتی را پیمایش می‌کنند، ممکن است برای حفظ اطلاعات شخصی صاحبان سایت‌ها و حفظ حریم خصوصی آنان، پیش از پیمایش اجازه‌های لازم را از دارندگان سایت‌ها دریافت کنند.

شیوه‌ی کسب اجازه از صاحبان سایت‌ها طبق قراردادهای رسمی و غیر رسمی از طریق قرار دادن فایلی با نام robots.txt در ریشه‌ی سایت است. برای مثال اگر نشانی سایت rokaweb.ir باشد، نشانی فایل مجوزهای ربات، https://rokaweb.ir/robots.txt خواهد بود.

robots.txt

یکی از نکات قابل توجه در ایجاد این فایل، ایجاد نام فایل با حروف کوچک است. به ویژه در سیستم عامل لینوکس اگر برخی از حروف فایل بزرگ باشند، موتور جستجو امکان دریافت فایل را نخواهد داشت.

موارد قابل تنظیم در فایل robots.txt

فایل robots حاوی دستورالعمل‌هایی برای صدور یا عدم صدور مجوز دسترسی ربات‌ها به شاخه‌های مختلف وبسایت است. همچنین دستورالعمل‌های استاندارد و غیراستاندارد دیگری از جمله تعریف نقشه سایت، تعریف دامنه‌ی اصلی سایت، قوانین دسترسی ترکیبی، و زمانبندی مراجعه‌ی ربات به وبسایت می‌توانند در این فایل درج شوند.

نمونه‌های فایل robots.txt

صدور مجوز دسترسی به تمامی شاخه‌های سرور

ایجاد یک فایل خالی robots.txt یا عدم ایجاد این فایل نیز، همین اثر را خواهد داشت. ایجاد فایل با محتوای فوق سبب از بین رفتن خطاهای ۴۰۴ در هنگام مراجعه‌ی موتورهای جستجو خواهد شد.

مسدود کردن تمامی شاخه‌های سرور

مسدود کردن برخی از شاخه‌های سرور

مسدود کردن دسترسی به یک فایل خاص

ذکر این نکته ضروری است که مسیرهای ثبت شده در این فایل ممکن است راهنمایی خوب برای شروع به کار هکرهای خرابکار باشد !

مسدود کردن دسترسی یک ربات خاص به یک شاخه‌ی خاص

آیا تمامی ربات‌ها به قوانین robots.txt احترام می‌گذارند؟

خیر ! ضمانتی برای خوانده شدن و عمل کردن به دستورالعمل‌های این فایل وجود ندارد. هرچند موتورهای جستجوگر بزرگ مانند گوگل، یاهو و بینگ به این دستورالعمل‌ها توجه می‌کنند، ولی برخی ربات‌های مفید یا مخرب دیگر ممکن است توجهی به این فایل نداشته باشند.

شیوه‌های جایگزین در مسدود کردن دسترسی ربات‌ها

با توجه به اینکه ضمانتی برای عملکرد صحیح این فایل در مواجهه با ربات‌های مختلف وجود ندارد، روش‌های زیر می‌توانند به عنوان راه حل جایگزین در مسدود کردن دسترسی ربات‌ها به سیستم مورد استفاده قرار گیرد.

  1. بررسی User Agent ربات در سطح وب سرور یا در سطح Application و عدم نمایش محتوا
  2. درج دستورالعمل‌های meta noindex در سرآمد فایل html
  3. درج دستورالعمل‌های noindex در سرآمد پاسخ HTTP
  4. استفاده از Captcha یا کد امنیتی در بازدیدهای مشکوک به ربات
  5. استفاده از تکنیک‌های ترکیبی مانند Coockie و جاوااسکریپت برای شناسایی ربات‌ها

اهمیت تنظیم صحیح robots.txt با تغییرات جدید گوگل

برخی سیستم‌های مدیریت محتوای قدیمی و برخی از توسعه دهندگان سایت در گذشته، برای افزایش ضریب امنیت، دسترسی موتورهای جستجو را به تمامی شاخه‌های فرعی سایت مسدود می‌کردند. این کار سبب می‌شود تا موتورهای جستجو امکان دریافت تصاویر، فایل‌های چندرسانه‌ای، فایل‌های CSS و جاوااسکریپت سایت را نداشته باشند. با پیشرفت‌هایی که گوگل به تازگی داشته است، عدم دسترسی به محتواهای جانبی سبب می‌شود، تا سایت از نظر موتور جستجو ناقص و با کارایی ناقص مشاهده شود.
بنابراین، در هنگام ایجاد این فایل می‌بایست دقت کافی به کار گرفته شود تا موتورهای جستجو بتوانند به تمامی فایل‌های لازم برای نمایش کامل صفحات سایت دسترسی داشته باشند.

عدم تنظیم صحیح این فایل سبب می‌شود تا وضعیت سئو سایت در گوگل آسیب زیادی را تجربه کند.

کاربردهای robots.txt در سئو

استفاده از قوانین این فایل می‌تواند کاربردهای مختلفی در سئو سایت داشته باشد:

ایجاد یک صفحه برای هدایت کاربران به سایت‌های خارجی و مسدود کردن دسترسی گوگل به آن در جهت جلوگیری از اثرات منفی لینک‌های خارجی بی کیفیت در سایت‌هایی که تعداد زیادی لینک از کاربران در سایت درج می‌شود.

مسدود کردن دسترسی گوگل به پیوندهایی که محتوای مشابه صفحات اصلی سایت را با نشانی متفاوت ایجاد می‌کنند.

معرفی نقشه‌ی سایت برای استفاده‌ی موتورهای جستجو

اطلاعات بیشتر در مورد robots.txt

فایل robots.txt یکی از بخش‌های مهم هر سایت برای عملکرد صحیح در مواجهه با ربات‌های اینترنتی است. برای مشاهده‌ی اطلاعات تکمیلی در مورد دستورالعمل‌های قابل درج در این فایل، اینجا کلیک کنید.

فهرست برخی از ربات‌های مشهور که سایت‌های اینترنتی را پیمایش می‌کنند در این صفحه قابل مشاهده است.

همچنین با مراجعه به Google Search Console و تایید مالکیت سایت خود، می‌توانید از صحیح بودن وضعیت robots.txt روی سایت خود مطمئن شوید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *