فایل robots.txt چیست ؟ کاربرد آن در سئو
موتورهای جستجوگر از جمله گوگل و رباتهای هوش مصنوعی مثل ChatGPT که سایتها را پیمایش میکنند، به طوری کلی پیش از اینکه سایت شما را پیمایش کنند، روی سایتتان فایلی به نام robots.txt را دانلود میکنند تا ببینند آیا اجازه دارند محتوای سایتتان را دانلود کنند یا خیر.
اگر آدرس سایت شما example.com باشد، فایل ربات باید در نشانی https://example.com/robots.txt قابل دانلود باشد. این فایل همیشه در شاخهی اصلی سایت واقع میشود.

یکی از نکات قابل توجه در ایجاد این فایل، ایجاد نام فایل با حروف کوچک است. به ویژه در سیستم عامل لینوکس اگر برخی از حروف فایل بزرگ باشند، موتور جستجو امکان دریافت فایل را نخواهد داشت.
موارد قابل تنظیم در فایل robots.txt
فایل robots حاوی دستورالعملهایی برای صدور یا عدم صدور مجوز دسترسی رباتها به شاخههای مختلف وبسایت است. همچنین دستورالعملهای استاندارد و غیراستاندارد دیگری از جمله تعریف نقشه سایت، تعریف دامنهی اصلی سایت، قوانین دسترسی ترکیبی، و زمانبندی مراجعهی ربات به وبسایت میتوانند در این فایل درج شوند.
نمونههای فایل robots.txt
صدور مجوز دسترسی به تمامی شاخههای سرور
|
1 2 |
User-agent: * Disallow: |
ایجاد یک فایل خالی robots.txt یا عدم ایجاد این فایل نیز، همین اثر را خواهد داشت. ایجاد فایل با محتوای فوق سبب از بین رفتن خطاهای ۴۰۴ در هنگام مراجعهی موتورهای جستجو خواهد شد.
مسدود کردن تمامی شاخههای سرور
|
1 2 |
User-agent: * Disallow: / |
مسدود کردن برخی از شاخههای سرور
|
1 2 3 4 |
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ |
مسدود کردن دسترسی به یک فایل خاص
|
1 2 |
User-agent: * Disallow: /passwords/passwords.html |
ذکر این نکته ضروری است که مسیرهای ثبت شده در این فایل ممکن است راهنمایی خوب برای شروع به کار هکرهای خرابکار باشد !
مسدود کردن دسترسی یک ربات خاص به یک شاخهی خاص
|
1 2 |
User-agent: Googlebot Disallow: /personal-data/ |
فایل robots پیشفرض وردپرس
|
1 2 3 |
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php |
آیا تمامی رباتها به قوانین robots.txt احترام میگذارند؟
خیر ! ضمانتی برای خوانده شدن و عمل کردن به دستورالعملهای این فایل وجود ندارد. هرچند موتورهای جستجوگر بزرگ مانند گوگل، بینگ و اغلب رباتهای هوش مصنوعی به این دستورالعملها توجه میکنند، ولی برخی رباتهای مفید یا مخرب دیگر ممکن است توجهی به این فایل نداشته باشند.
شیوههای جایگزین در مسدود کردن دسترسی رباتها
با توجه به اینکه ضمانتی برای عملکرد صحیح این فایل در مواجهه با رباتهای مختلف وجود ندارد، روشهای زیر میتوانند به عنوان راه حل جایگزین در مسدود کردن دسترسی رباتها به سیستم مورد استفاده قرار گیرد.
- بررسی User Agent ربات در سطح وب سرور یا در سطح Application و عدم نمایش محتوا
- درج دستورالعملهای meta noindex در سرآمد فایل html
- درج دستورالعملهای noindex در سرآمد پاسخ HTTP
- استفاده از Captcha یا کد امنیتی در بازدیدهای مشکوک به ربات
- استفاده از تکنیکهای ترکیبی مانند Coockie و جاوااسکریپت برای شناسایی رباتها
اهمیت تنظیم صحیح robots.txt با تغییرات جدید گوگل
برخی سیستمهای مدیریت محتوای قدیمی و برخی از توسعه دهندگان سایت در گذشته، برای افزایش ضریب امنیت، دسترسی موتورهای جستجو را به تمامی شاخههای فرعی سایت مسدود میکردند. این کار سبب میشود تا موتورهای جستجو امکان دریافت تصاویر، فایلهای چندرسانهای، فایلهای CSS و جاوااسکریپت سایت را نداشته باشند. با پیشرفتهایی که گوگل به تازگی داشته است، عدم دسترسی به محتواهای جانبی سبب میشود، تا سایت از نظر موتور جستجو ناقص و با کارایی ناقص مشاهده شود.
بنابراین، در هنگام ایجاد این فایل میبایست دقت کافی به کار گرفته شود تا موتورهای جستجو بتوانند به تمامی فایلهای لازم برای نمایش کامل صفحات سایت دسترسی داشته باشند.
کاربردهای robots.txt در سئو
استفاده از قوانین این فایل میتواند کاربردهای مختلفی در سئو سایت داشته باشد:
ایجاد یک صفحه برای هدایت کاربران به سایتهای خارجی و مسدود کردن دسترسی گوگل به آن در جهت جلوگیری از اثرات منفی لینکهای خارجی بی کیفیت در سایتهایی که تعداد زیادی لینک از کاربران در سایت درج میشود.
مسدود کردن دسترسی گوگل به پیوندهایی که محتوای مشابه صفحات اصلی سایت را با نشانی متفاوت ایجاد میکنند.
معرفی نقشهی سایت برای استفادهی موتورهای جستجو
اطلاعات بیشتر در مورد robots.txt
- فایل robots.txt یکی از بخشهای مهم هر سایت برای عملکرد صحیح در مواجهه با رباتهای اینترنتی است. برای مشاهدهی اطلاعات تکمیلی در مورد دستورالعملهای قابل درج در این فایل، اینجا کلیک کنید.
- فهرست برخی از رباتهای مشهور که سایتهای اینترنتی را پیمایش میکنند در این صفحه قابل مشاهده است.
- برای مسدود کردن دسترسی رباتهای هوش مصنوعی به سایتتان اینجا را ببینید.
- همچنین با مراجعه به Google Search Console و تایید مالکیت سایت خود، میتوانید از صحیح بودن وضعیت robots.txt روی سایت خود مطمئن شوید.