فایل robots.txt یک فایل متنی است که مدیران سایت و وبمسترها برای هدف دهی و کنترل عملیات خزیدن و crawl کردن سایت توسط الگوریتم های موتورهای جستجو ایجاد می کنند. این فایل بخشی از پروتکل ردگیری ربات های موتورهای جستجو (REP) می باشد. این پروتکل دربرگیرنده گروهی از استانداردهای وب است که چگونگی ردیابی سایت توسط موتورهای جستجو و نحوه دسترسی ربات ها به محتوای سایت را تعیین و یا محدود می کند.
REP همچنین شامل دستورالعمل هایی مانند روبات های متا (meta robots) و نحوه برخورد موتورهای جستجو با لینک ها (“follow” یا “nofollow”) می باشد.
دستور User-agent : مشخص کردن نام ربات خاصی که قصد دارید برای آن در دسترسی به محتوای سایت محدودیت ایجاد کنید. برای مشاهده لیست کاملی از نام ربات های متنوع موتورهای جستجو می توانید با این لینک مراجعه نمایید.
دستور Disallow : نام پوشه یا آدرس خاصی از سایت که قصد دارید برای آن محدودیت ایجاد کنید و آن را از دید ربات های مخفی نگه دارید.
دستور Allow : ارائه مجوز دسترسی به ربات گوگل برای ایندکس کردن و بررسی پوشه خاصی از سایت، در حالیکه پوشه مادر آن و یا پوشه داخلی آن محدود شده باشد. توجه نمایید که این دستور تنها برای ربات گوگل (Googlebot) می باشد.
دستور Crawl-delay : تعیین مدت زمانی که ربات های موتورهای جستجو قبل از لود کامل صفحه برای بررسی محتوا باید صبر کنند و بر حسب میلی ثانیه باید وارد شود. توجه داشته باشید که Googlebot این دستور را تأیید نمی کند، اما سرعت خزیدن را می توان در کنسول جستجوی گوگل تعیین کرد.
دستور Sitemap : استفاده از این دستور برای تعیین موقعیت (URL) فایل نقشه سایت (XML sitemap) می باشد. به این نکته نیز دقت کنید که این دستور تنها توسط گوگل، Ask ، بینگ و یاهو پشتیبانی می شود.
ربات های موتورهای جستجو این فایل را تنها در این آدرس (www.example.com/robots.txt) جستجو می کنند و در صورتیکه این فایل در این آدرس وجود نداشته باشد و یا نام آن متفاوت باشند، تصور آن ها بر این خواهد بود که این فایل توسط شما ایجاد نشده، محدودیتی برای ایندکس و بررسی کردن سایت برای ربات ها ایجاد نکرده اید و تمامی سایت به صورت کامل توسط ربات ها بررسی می شود. این فایل را می بایست در ریشه اصلی سایت خود قرار دهید.
موتورهای جستجو 2 هدف کلی دارند:
1 – خزیدن در بستر وب برای بررسی محتوای وب
2 – ایندکس کردن محتوا برای پوشش دادن و نمایش اطلاعات مرتبط با جستجوی کاربران
برای خزیدن در میان سایت ها، ربات های موتورهای جستجو لینک ها را از یک سایت به سایت دیگر دنبال می کنند و در نهایت میلیاردها لینک و وبسایت توسط ربات ها پردازش و بررسی می شود.
پس از اینکه ربات توسط یک لینک به یک سایت میرسد، در ابتدا فایل robots.txt را جستجو می کند و پس از یافتن آن، قبل از اینکه شروع به بررسی سایت کند، فایل را به طور کامل پردازش خواهد کرد. زیرا همانگونه که ذکر شد این فایل شامل اطلاعاتی درباره محدودیت ها و نحوه دسترسی ربات ها به صفحات مختلف سایت می باشد. در صورتیکه این فایل محدودیتی برای ربات ها ایجاد نکرده باشد، تمامی صفحات و محتوای سایت توسط ربات ها خزیده و ایندکس می گردد.
User-agent: *
Disallow: /
User-agent: *
Disallow:
User-agent: Googlebot
Disallow: /example-subfolder/
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
فایل robots.txt دسترسی خزنده ها به محتوای خاصی از سایت محدود می کند. با این حال بسیار حائز اهمیت است که به طور تصادفی دسترسی ربات گوگل به کل محتوای سایت را محدود نکرده باشید. به طور کلی چندین دلیل مهم برای محدود کردن خزنده ها وجود دارد:
این مطلب چقدر برای شما مفید بود؟
امتیاز 5 / 5. تعداد نظرات : 1
اولین نظر را شما ثبت کنید!