فایل robots.txt و کاربردهای آن در سئو
موتورهای جستجوگر از جمله گوگل و برخی رباتهای دیگر که سایتهای اینترنتی را پیمایش میکنند، ممکن است برای حفظ اطلاعات شخصی صاحبان سایتها و حفظ حریم خصوصی آنان، پیش از پیمایش اجازههای لازم را از دارندگان سایتها دریافت کنند.
شیوهی کسب اجازه از صاحبان سایتها طبق قراردادهای رسمی و غیر رسمی از طریق قرار دادن فایلی با نام robots.txt در ریشهی سایت است. برای مثال اگر نشانی سایت rokaweb.ir باشد، نشانی فایل مجوزهای ربات، https://rokaweb.ir/robots.txt خواهد بود.
یکی از نکات قابل توجه در ایجاد این فایل، ایجاد نام فایل با حروف کوچک است. به ویژه در سیستم عامل لینوکس اگر برخی از حروف فایل بزرگ باشند، موتور جستجو امکان دریافت فایل را نخواهد داشت.
موارد قابل تنظیم در فایل robots.txt
فایل robots حاوی دستورالعملهایی برای صدور یا عدم صدور مجوز دسترسی رباتها به شاخههای مختلف وبسایت است. همچنین دستورالعملهای استاندارد و غیراستاندارد دیگری از جمله تعریف نقشه سایت، تعریف دامنهی اصلی سایت، قوانین دسترسی ترکیبی، و زمانبندی مراجعهی ربات به وبسایت میتوانند در این فایل درج شوند.
نمونههای فایل robots.txt
صدور مجوز دسترسی به تمامی شاخههای سرور
1 2 |
User-agent: * Disallow: |
ایجاد یک فایل خالی robots.txt یا عدم ایجاد این فایل نیز، همین اثر را خواهد داشت. ایجاد فایل با محتوای فوق سبب از بین رفتن خطاهای ۴۰۴ در هنگام مراجعهی موتورهای جستجو خواهد شد.
مسدود کردن تمامی شاخههای سرور
1 2 |
User-agent: * Disallow: / |
مسدود کردن برخی از شاخههای سرور
1 2 3 4 |
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ |
مسدود کردن دسترسی به یک فایل خاص
1 2 |
User-agent: * Disallow: /passwords/passwords.html |
ذکر این نکته ضروری است که مسیرهای ثبت شده در این فایل ممکن است راهنمایی خوب برای شروع به کار هکرهای خرابکار باشد !
مسدود کردن دسترسی یک ربات خاص به یک شاخهی خاص
1 2 |
User-agent: Googlebot Disallow: /personal-data/ |
آیا تمامی رباتها به قوانین robots.txt احترام میگذارند؟
خیر ! ضمانتی برای خوانده شدن و عمل کردن به دستورالعملهای این فایل وجود ندارد. هرچند موتورهای جستجوگر بزرگ مانند گوگل، یاهو و بینگ به این دستورالعملها توجه میکنند، ولی برخی رباتهای مفید یا مخرب دیگر ممکن است توجهی به این فایل نداشته باشند.
شیوههای جایگزین در مسدود کردن دسترسی رباتها
با توجه به اینکه ضمانتی برای عملکرد صحیح این فایل در مواجهه با رباتهای مختلف وجود ندارد، روشهای زیر میتوانند به عنوان راه حل جایگزین در مسدود کردن دسترسی رباتها به سیستم مورد استفاده قرار گیرد.
- بررسی User Agent ربات در سطح وب سرور یا در سطح Application و عدم نمایش محتوا
- درج دستورالعملهای meta noindex در سرآمد فایل html
- درج دستورالعملهای noindex در سرآمد پاسخ HTTP
- استفاده از Captcha یا کد امنیتی در بازدیدهای مشکوک به ربات
- استفاده از تکنیکهای ترکیبی مانند Coockie و جاوااسکریپت برای شناسایی رباتها
اهمیت تنظیم صحیح robots.txt با تغییرات جدید گوگل
برخی سیستمهای مدیریت محتوای قدیمی و برخی از توسعه دهندگان سایت در گذشته، برای افزایش ضریب امنیت، دسترسی موتورهای جستجو را به تمامی شاخههای فرعی سایت مسدود میکردند. این کار سبب میشود تا موتورهای جستجو امکان دریافت تصاویر، فایلهای چندرسانهای، فایلهای CSS و جاوااسکریپت سایت را نداشته باشند. با پیشرفتهایی که گوگل به تازگی داشته است، عدم دسترسی به محتواهای جانبی سبب میشود، تا سایت از نظر موتور جستجو ناقص و با کارایی ناقص مشاهده شود.
بنابراین، در هنگام ایجاد این فایل میبایست دقت کافی به کار گرفته شود تا موتورهای جستجو بتوانند به تمامی فایلهای لازم برای نمایش کامل صفحات سایت دسترسی داشته باشند.
عدم تنظیم صحیح این فایل سبب میشود تا وضعیت سئو سایت در گوگل آسیب زیادی را تجربه کند.
کاربردهای robots.txt در سئو
استفاده از قوانین این فایل میتواند کاربردهای مختلفی در سئو سایت داشته باشد:
ایجاد یک صفحه برای هدایت کاربران به سایتهای خارجی و مسدود کردن دسترسی گوگل به آن در جهت جلوگیری از اثرات منفی لینکهای خارجی بی کیفیت در سایتهایی که تعداد زیادی لینک از کاربران در سایت درج میشود.
مسدود کردن دسترسی گوگل به پیوندهایی که محتوای مشابه صفحات اصلی سایت را با نشانی متفاوت ایجاد میکنند.
معرفی نقشهی سایت برای استفادهی موتورهای جستجو
اطلاعات بیشتر در مورد robots.txt
فایل robots.txt یکی از بخشهای مهم هر سایت برای عملکرد صحیح در مواجهه با رباتهای اینترنتی است. برای مشاهدهی اطلاعات تکمیلی در مورد دستورالعملهای قابل درج در این فایل، اینجا کلیک کنید.
فهرست برخی از رباتهای مشهور که سایتهای اینترنتی را پیمایش میکنند در این صفحه قابل مشاهده است.
همچنین با مراجعه به Google Search Console و تایید مالکیت سایت خود، میتوانید از صحیح بودن وضعیت robots.txt روی سایت خود مطمئن شوید.