txt صحیح Robots برای سایت html، ماکتهای عملی را برای رباتهای موتور جستجو ایجاد میکند و به آنها میگوید چه چیزی را میتوانند بررسی کنند. این فایل اغلب به عنوان پروتکل حذف ربات شناخته می شود. اولین چیزی که ربات ها قبل از خزیدن در یک وب سایت به دنبال آن هستند robots.txt است. می تواند به نقشه سایت اشاره کند یا به نقشه سایت بگوید که زیر دامنه های خاصی را بررسی نکند. هنگامی که می خواهید موتورهای جستجو برای آنچه که اغلب یافت می شود جستجو کنند، robots.txt لازم نیست. در این فرآیند بسیار مهم است که فایل به درستی فرمت شده باشد و صفحه کاربر را با اطلاعات شخصی کاربر نمایه نکند.
اصل اسکن ربات
وقتی یک موتور جستجو با فایلی روبرو می شود و URL ممنوعه ای را می بیند، آن را نمی خزند، اما می تواند آن را فهرست کند. این به این دلیل است که حتی اگر روباتها اجازه مشاهده محتوا را نداشته باشند، میتوانند بک لینکهایی را که به URL ممنوعه اشاره میکنند، به خاطر بسپارند. به دلیل مسدود شدن دسترسی به لینک، URL در موتورهای جستجو ظاهر می شود، اما بدون قطعات. اگر یکبرای استراتژی بازاریابی ورودی، txt صحیح Robots برای bitrix (Bitrix) مورد نیاز است، آنها به درخواست کاربر توسط اسکنر تأیید سایت را ارائه می دهند.
از سوی دیگر، اگر فایل به درستی قالب بندی نشده باشد، می تواند باعث شود سایت در نتایج جستجو نمایش داده نشود و پیدا نشود. موتورهای جستجو نمی توانند این فایل را دور بزنند. یک برنامه نویس می تواند robots.txt هر سایتی را با رفتن به دامنه آن و دنبال کردن آن با robots.txt، به عنوان مثال، www.domain.com/robots.txt، مشاهده کند. با استفاده از ابزاری مانند بخش بهینه سازی سئو Unamo، که در آن می توانید هر دامنه ای را وارد کنید و سرویس اطلاعاتی در مورد وجود فایل نشان می دهد.
محدودیت برای اسکن:
- کاربر دارای محتوای قدیمی یا حساس است.
- تصاویر موجود در سایت در نتایج جستجوی تصویر گنجانده نمی شود.
- سایت هنوز برای ایندکس شدن توسط ربات آماده نیست.
به خاطر داشته باشید که اطلاعاتی که کاربر می خواهد از موتور جستجو دریافت کند در دسترس هر کسی است که URL را وارد کند. از این فایل متنی برای مخفی کردن داده های حساس استفاده نکنید. اگر دامنه دارای خطای 404 (یافت نشد) یا 410 (گذرانده) باشد، موتور جستجو سایت را علیرغم وجود robots.txt بررسی می کند، در این صورت تصور می کند که فایل موجود نیست. خطاهای دیگر مانند 500 (خطای سرور داخلی)، 403 (ممنوع)، به پایان رسیده، یا «در دسترس نیست» به دستورالعملهای robots.txt احترام میگذارند، اما دور زدن را میتوان تا زمانی که فایل در دسترس قرار گیرد به تأخیر انداخت.
ایجاد فایل جستجو
بسیاریبرنامه های CMS مانند وردپرس قبلاً دارای یک فایل robots.txt هستند. قبل از پیکربندی صحیح Robots txt WordPress، کاربر باید خود را با قابلیت های آن آشنا کند تا نحوه دسترسی به آن را بیابد. اگر برنامه نویس خودش فایل را ایجاد کند، باید شرایط زیر را داشته باشد:
- باید با حروف کوچک باشد.
- از رمزگذاری UTF-8 استفاده کنید.
- ذخیره در یک ویرایشگر متن به عنوان یک فایل (txt.).
وقتی کاربر نمی داند کجا آن را قرار دهد، با فروشنده نرم افزار وب سرور تماس می گیرد تا نحوه دسترسی به ریشه دامنه را بیابد یا به کنسول Google رفته و آن را دانلود کند. با استفاده از این عملکرد، گوگل همچنین می تواند بررسی کند که آیا ربات به درستی کار می کند و لیست سایت هایی که با استفاده از فایل مسدود شده اند یا خیر.
فرمت اصلی txt صحیح Robots برای bitrix (Bitrix):
- Legend robots.txt.
- ، نظراتی را اضافه می کند که فقط به عنوان یادداشت استفاده می شوند.
- این نظرات توسط اسکنرها همراه با هرگونه اشتباه تایپی کاربر نادیده گرفته می شود.
- User-agent - نشان می دهد که دستورالعمل های فایل در کدام موتور جستجو فهرست شده است.
- افزودن یک ستاره () به اسکنرها می گوید که دستورالعمل ها برای همه است.
نشان دادن یک ربات خاص، به عنوان مثال، Googlebot، Baiduspider، Applebot. Disallow به خزنده ها می گوید که کدام قسمت های وب سایت نباید خزیده شوند. به نظر می رسد: User-agent:. ستاره به معنای "همه ربات ها" است. با این حال، می توانید صفحات خاصی را مشخص کنیدربات ها برای انجام این کار، باید نام رباتی را که توصیههایی برای آن تنظیم شده است، بدانید.
txt ربات صحیح برای Yandex ممکن است به این شکل باشد:
اگر ربات نباید در سایت بخزد، می توانید آن را مشخص کنید و برای یافتن نام عوامل کاربر، توصیه می شود با قابلیت های آنلاین useragentstring.com آشنا شوید.
بهینه سازی صفحه
دو خط زیر به عنوان یک فایل robots.txt کامل در نظر گرفته می شوند و یک فایل robots منفرد می تواند حاوی چندین خط از عوامل کاربر و دستورالعمل هایی باشد که خزیدن را غیرفعال یا فعال می کند. فرمت اصلی Txt صحیح Robots:
- عامل کاربر: [نام کاربری نماینده].
- Disallow: [رشته URL که خزیده نشده است].
در فایل، هر بلوک از دستورالعمل ها به صورت گسسته و با یک خط از هم جدا شده اند. در فایل کنار دایرکتوری کاربر عامل، هر قانون روی مجموعه خاصی از خطوط جدا شده از بخش اعمال می شود. اگر فایلی دارای قانون چند عاملی باشد، ربات فقط خاص ترین گروه دستورالعمل ها را در نظر می گیرد.
نحو فنی
می توان آن را به عنوان "زبان" فایل های robots.txt در نظر گرفت. پنج اصطلاح وجود دارد که می تواند در این قالب وجود داشته باشد، اصلی ترین آنها عبارتند از:
- کاربر-عامل - خزنده وب با دستورالعملهای خزیدن، معمولاً یک موتور جستجو.
- Disallow دستوری است که برای عبور دادن به عامل کاربر استفاده می شود(حذف) یک URL خاص. برای هر کدام فقط یک شرط ممنوع وجود دارد.
- اجازه دهید. برای Googlebot که دسترسی پیدا می کند، حتی صفحه کاربر نیز رد می شود.
- Crawl-Delay - مشخص می کند که خزنده قبل از خزیدن به چند ثانیه نیاز دارد. هنگامی که ربات آن را تأیید نمی کند، سرعت در کنسول Google تنظیم می شود.
- نقشه سایت - برای مکان یابی هر نقشه XML مرتبط با URL استفاده می شود.
تطابق الگو
وقتی صحبت از مسدود کردن URL ها یا اجازه دادن به روبات های txt معتبر می شود، این عملیات می تواند بسیار دشوار باشد زیرا به شما امکان می دهد از تطبیق الگو برای پوشش تعدادی از پارامترهای URL احتمالی استفاده کنید. گوگل و بینگ هر دو از دو کاراکتر استفاده میکنند که صفحات یا زیرپوشههایی را که SEO میخواهد حذف کند، شناسایی میکنند. دو کاراکتر ستاره () و علامت دلار ($) هستند، که در آن:یک علامت عام است که هر دنباله ای از کاراکترها را نشان می دهد. $ - با انتهای URL مطابقت دارد.
Google فهرست بزرگی از نحوهای قالب ممکن را ارائه می دهد که به کاربر توضیح می دهد چگونه یک فایل txt Robots را به درستی تنظیم کند. برخی از موارد استفاده رایج عبارتند از:
- جلوگیری از نمایش محتوای تکراری در نتایج جستجو.
- همه بخشهای وبسایت را خصوصی نگه دارید.
- صفحات داخلی نتایج جستجو را بر اساس بیانیه باز ذخیره کنید.
- مکان را مشخص کنید.
- جلوگیری از ایندکس کردن برخی از موتورهای جستجوفایل ها.
- تعیین تاخیر خزیدن برای توقف بارگیری مجدد هنگام اسکن چندین ناحیه محتوا به طور همزمان.
بررسی وجود فایل ربات
اگر هیچ ناحیه ای در سایت وجود ندارد که نیاز به خزیدن داشته باشد، robots.txt اصلاً مورد نیاز نیست. اگر کاربر از وجود این فایل مطمئن نیست، باید دامنه ریشه را وارد کرده و آن را در انتهای URL تایپ کند، چیزی شبیه به این: moz.com/robots.txt. تعدادی از ربات های جستجوگر این فایل ها را نادیده می گیرند. با این حال، به عنوان یک قاعده، این خزنده ها متعلق به موتورهای جستجوی معتبر نیستند. آنها از نوع ارسال کننده های هرزنامه، گردآورنده ایمیل و انواع دیگر ربات های خودکار هستند که به وفور در اینترنت یافت می شوند.
بسیار مهم است که به یاد داشته باشید که استفاده از استاندارد حذف ربات یک اقدام امنیتی موثر نیست. در واقع، برخی از ربات ها ممکن است با صفحاتی شروع شوند که کاربر آنها را در حالت اسکن قرار می دهد. چندین بخش وجود دارد که به فایل استثنای استاندارد می رود. قبل از اینکه به ربات بگویید در کدام صفحات نباید کار کند، باید مشخص کنید که با کدام ربات صحبت کند. در بیشتر موارد، کاربر از یک اعلان ساده به معنای "همه ربات ها" استفاده می کند.
بهینه سازی SEO
قبل از بهینه سازی، کاربر باید مطمئن شود که هیچ محتوا یا بخش هایی از سایت را که نیاز به دور زدن دارد مسدود نمی کند. پیوند به صفحات مسدود شده توسط روبات txt صحیح رعایت نمی شود. این یعنی:
- اگر به سایر صفحات موجود در موتورهای جستجو پیوند داده نشده باشند. صفحات،توسط robots.txt یا یک ربات متا مسدود نمی شود و منابع مرتبط خزیده نمی شوند و بنابراین نمی توان آنها را فهرست کرد.
- هیچ پیوندی را نمی توان از صفحه مسدود شده به مقصد پیوند منتقل کرد. اگر چنین صفحه ای وجود دارد، بهتر است از یک مکانیسم مسدود کننده متفاوت از robots.txt استفاده کنید.
چون ممکن است صفحات دیگر مستقیماً به صفحهای حاوی اطلاعات شخصی پیوند داده شوند و میخواهید این صفحه را از نتایج جستجو مسدود کنید، از روش دیگری مانند محافظت با رمز عبور یا متا دادههای noindex استفاده کنید. برخی از موتورهای جستجو دارای چندین عامل کاربر هستند. برای مثال، Google از Googlebot برای جستجوهای ارگانیک و Googlebot-Image برای جستجوی تصویر استفاده میکند.
بیشتر عوامل کاربر از یک موتور جستجو از قوانین یکسانی پیروی می کنند، بنابراین نیازی به تعیین دستورالعمل برای هر یک از چندین خزنده نیست، اما انجام این کار می تواند خزیدن محتوای سایت را به خوبی تنظیم کند. موتور جستجو محتویات فایل را در حافظه پنهان ذخیره می کند و معمولاً حداقل یک بار در روز محتوای ذخیره شده را به روز می کند. اگر کاربر فایل را تغییر دهد و بخواهد آن را سریعتر از حد معمول بهروزرسانی کند، میتواند URL robots.txt را به Google ارسال کند.
موتورهای جستجو
برای درک اینکه Robots txt چگونه درست کار می کند، باید در مورد قابلیت های موتورهای جستجو بدانید. به طور خلاصه، توانایی آنها در این است که آنها "اسکنر" را ارسال می کنند، که برنامه هایی هستند کهگشت و گذار در اینترنت برای کسب اطلاعات سپس برخی از این اطلاعات را ذخیره میکنند تا بعداً آن را به کاربر منتقل کنند.
برای بسیاری از مردم، Google در حال حاضر اینترنت است. در واقع حق با آنهاست، زیرا این شاید مهمترین اختراع او باشد. و اگرچه موتورهای جستجو از زمان پیدایش خود تغییرات زیادی کرده اند، اصول اساسی هنوز یکسان است. خزنده ها که با نام های "ربات" یا "عنکبوت" نیز شناخته می شوند، صفحاتی را از میلیاردها وب سایت پیدا می کنند. موتورهای جستجو به آنها راهنمایی میکنند که کجا بروند، در حالی که سایتها میتوانند با رباتها ارتباط برقرار کنند و به آنها بگویند که کدام صفحات خاص را باید نگاه کنند.
به طور کلی، صاحبان سایت نمی خواهند در موتورهای جستجو نمایش داده شوند: صفحات مدیریت، پورتال های پشتیبان، دسته ها و برچسب ها، و سایر صفحات اطلاعاتی. فایل robots.txt همچنین می تواند برای جلوگیری از بررسی صفحات توسط موتورهای جستجو استفاده شود. به طور خلاصه، robots.txt به خزندههای وب میگوید چه کاری انجام دهند.
Ban صفحات
این قسمت اصلی فایل حذف ربات است. با یک اعلان ساده، کاربر به یک ربات یا گروهی از رباتها میگوید که صفحات خاصی را خزنده نکنند. نحو ساده است، به عنوان مثال، برای جلوگیری از دسترسی به همه چیز در فهرست "admin" سایت، بنویسید: Disallow: /admin. این خط از خزیدن رباتها به yoursite.com/admin، yoursite.com/admin/login، yoursite.com/admin/files/secret.html، و هر چیز دیگری در فهرست مدیریت جلوگیری میکند.
برای غیر مجاز کردن یک صفحه، کافی است آن را در خط غیر مجاز مشخص کنید: Disallow: /public/exception.html. اکنون صفحه "استثنا" استمهاجرت نمی کند، اما هر چیز دیگری در پوشه "عمومی" منتقل می شود.
برای گنجاندن چندین صفحه، به سادگی آنها را فهرست کنید:
این چهار خط از txt صحیح Robots برای سمفونی برای هر عامل کاربری که در بالای بخشrobots.txt برای https://www.symphonyspace.org/ فهرست شده است اعمال می شود.
نقشه سایت:
سایر دستورات:live - به خزنده های وب اجازه ندهید cpresources/ یا ارائه دهنده/ را فهرست کنند.
عامل کاربر:غیر مجاز: /cpresources/.
انکار: / فروشنده / غیر مجاز: /.env.
تنظیم استانداردها
کاربر می تواند صفحات خاصی را برای ربات های مختلف با ترکیب دو عنصر قبلی مشخص کند، این چیزی است که به نظر می رسد. نمونه ای از txt صحیح Robots برای همه موتورهای جستجو در زیر ارائه شده است.
بخشهای «admin» و «خصوصی» برای Google و Bing نامرئی خواهند بود، اما Google همچنان فهرست «مخفی» را مشاهده میکند، در حالی که Bing نمیتواند. میتوانید با استفاده از عامل ستاره برای همه رباتها قوانین کلی را مشخص کنید و سپس دستورالعملهای خاصی را در بخشهای زیر به رباتها بدهید. با دانش بالا، کاربر می تواند نمونه ای از txt صحیح Robots را برای همه موتورهای جستجو بنویسد. فقط ویرایشگر متن مورد علاقه خود را فعال کنید و به ربات ها بگویید که در قسمت های خاصی از سایت از آنها استقبال نمی کنند.
نکاتی برای بهبود عملکرد سرور
SublimeText استیک ویرایشگر متن همه کاره و استاندارد طلایی برای بسیاری از برنامه نویسان. علاوه بر این، نکات برنامه نویسی او مبتنی بر کدنویسی کارآمد است. کاربران از وجود میانبرها در برنامه قدردانی می کنند. اگر کاربر بخواهد نمونه ای از فایل robots.txt را ببیند، باید به هر سایتی مراجعه کند و "/robots.txt" را به انتها اضافه کند. در اینجا بخشی از فایل robots.txt GiantBicycles است.
این برنامه ایجاد صفحاتی را فراهم می کند که کاربران نمی خواهند در موتورهای جستجو نمایش داده شوند. و همچنین دارای چند چیز منحصر به فرد است که افراد کمی در مورد آنها می دانند. برای مثال، در حالی که فایل robots.txt به رباتها میگوید کجا نروند، فایل نقشه سایت برعکس عمل میکند و به آنها کمک میکند آنچه را که به دنبال آن هستند پیدا کنند، و در حالی که موتورهای جستجو احتمالاً از قبل میدانند نقشه سایت در کجا قرار دارد، آن را دریافت نمیکند. در راه.
دو نوع فایل وجود دارد: صفحه HTML یا فایل XML. صفحه HTML صفحه ای است که تمام صفحات موجود در یک وب سایت را به بازدیدکنندگان نشان می دهد. در robots.txt خودش، به این صورت است: Sitemap://www.makeuseof.com/sitemap_index.xml. اگر سایت توسط موتورهای جستجو ایندکس نشده است، اگرچه چندین بار توسط ربات های وب خزیده شده است، باید مطمئن شوید که فایل موجود است و مجوزهای آن به درستی تنظیم شده است.
به طور پیشفرض، این برای همه نصبهای SeoToaster اتفاق میافتد، اما در صورت لزوم، میتوانید آن را به این شکل بازنشانی کنید: File robots.txt - 644. بسته به سرور PHP، اگر برای کاربر کار نکرد، آن را بازنشانی کنید. توصیه می شود موارد زیر را امتحان کنید: File robots.txt - 666.
تنظیم تاخیر اسکن
دستورالعمل تأخیر دور زدن به یقین اطلاع می دهدموتورهای جستجو هر چند وقت یکبار می توانند یک صفحه را در سایت فهرست کنند. در ثانیه اندازه گیری می شود، اگرچه برخی از موتورهای جستجو آن را کمی متفاوت تفسیر می کنند. برخی از افراد زمانی که به آنها گفته می شود که پس از هر اسکن پنج ثانیه صبر کنند تا اسکن بعدی شروع شود، تاخیر خزیدن 5 را مشاهده می کنند.
دیگران این را به عنوان دستورالعملی برای اسکن کردن یک صفحه در هر پنج ثانیه تفسیر می کنند. ربات نمی تواند سریعتر اسکن کند تا پهنای باند سرور را حفظ کند. اگر سرور نیاز به مطابقت با ترافیک داشته باشد، می تواند یک تاخیر بای پس تعیین کند. به طور کلی در بیشتر موارد کاربران نیازی به نگرانی در این مورد ندارند. به این ترتیب تاخیر خزیدن هشت ثانیه تنظیم می شود - تاخیر خزیدن: 8.
اما همه موتورهای جستجو از این دستورالعمل تبعیت نمی کنند، بنابراین هنگام غیر مجاز کردن صفحات، می توانید تاخیرهای خزیدن متفاوتی را برای موتورهای جستجوی خاص تنظیم کنید. پس از تنظیم تمام دستورالعمل های موجود در فایل، می توانید آن را در سایت آپلود کنید، ابتدا مطمئن شوید که یک فایل متنی ساده و دارای نام robots.txt است و می توانید آن را در yoursite.com/robots.txt. پیدا کنید.
بهترین ربات وردپرس
برخی فایل ها و دایرکتوری ها در سایت وردپرسی وجود دارد که باید هر بار قفل شوند. دایرکتوری هایی که کاربران نباید از آنها استفاده کنند، دایرکتوری cgi-bin و دایرکتوری های استاندارد WP هستند. برخی از سرورها اجازه دسترسی به دایرکتوری cgi-bin را نمی دهند، اما کاربران باید قبل از پیکربندی صحیح Robots txt WordPress آن را در دستورالعمل Disallow قرار دهند.
دایرکتوری های استاندارد وردپرس،که باید مسدود شوند عبارتند از wp-admin، wp-content، wp-includes. این دایرکتوری ها حاوی داده هایی نیستند که در ابتدا برای موتورهای جستجو مفید باشد، اما یک استثنا وجود دارد، یعنی یک زیر شاخه به نام آپلود در فهرست wp-content وجود دارد. این دایرکتوری فرعی باید در فایل robot.txt مجاز باشد زیرا شامل همه چیزهایی است که با استفاده از ویژگی آپلود رسانه WP بارگیری می شود. وردپرس از برچسب ها یا دسته ها برای ساختار محتوا استفاده می کند.
در صورت استفاده از دستهها، برای ایجاد txt صحیح Robots برای Wordpress، همانطور که توسط سازنده برنامه مشخص شده است، باید بایگانی برچسبها را از جستجو مسدود کنید. ابتدا پایگاه داده را با رفتن به "Administration" panel> "Settings"> "Permalink" بررسی می کنند.
به طور پیش فرض، اگر فیلد خالی باشد، پایه تگ است: Disallow: / tag /. اگر از یک دسته استفاده می شود، باید دسته را در فایل robot.txt غیرفعال کنید: Disallow: /category/. به طور پیش فرض، پایه تگ است، اگر فیلد خالی باشد: Disallow: / tag /. اگر از یک دسته استفاده می شود، باید دسته را در فایل robot.txt غیرفعال کنید: Disallow: / category /.
فایل هایی که عمدتاً برای نمایش محتوا استفاده می شوند، توسط فایل txt صحیح Robots برای وردپرس مسدود می شوند:
تنظیم پایه جوملا
هنگامی که کاربر جوملا را نصب کرد، باید تنظیمات صحیح txt Joomla Robots را در پیکربندی جهانی، که در کنترل پنل قرار دارد، مشاهده کنید. برخی تنظیمات در اینجا برای سئو بسیار مهم هستند. ابتدا نام سایت را پیدا کنید و مطمئن شویداز نام کوتاه سایت استفاده می شود. سپس گروهی از تنظیمات را در سمت راست همان صفحه پیدا می کنند که به آن تنظیمات سئو می گویند. موردی که قطعاً باید تغییر کند مورد دوم است: از یک URL بازنویسی استفاده کنید.
این پیچیده به نظر می رسد، اما اساساً به جوملا کمک می کند URL های تمیزتری ایجاد کند. اگر خط index.php را از URL ها حذف کنید بیشتر قابل توجه است. اگر بعداً آن را تغییر دهید، URL ها تغییر خواهند کرد و Google آن را دوست نخواهد داشت. با این حال، هنگام تغییر این تنظیمات، چندین مرحله باید به طور همزمان انجام شود تا txt ربات صحیح برای جوملا ایجاد شود:
- فایل htaccess.txt را در پوشه ریشه جوملا بیابید.
- آن را به عنوان htaccess. علامت گذاری کنید (بدون پسوند).
- نام سایت را در عناوین صفحه قرار دهید.
- تنظیمات فراداده را در پایین صفحه پیکربندی جهانی پیدا کنید.
ربات در ابر MODX
پیش از این، MODX Cloud به کاربران امکان کنترل رفتار اجازه دادن به فایل robots.txt را بر اساس تغییر در داشبورد ارائه می داد. در حالی که این مفید بود، این امکان وجود داشت که بهطور تصادفی امکان فهرستبندی در سایتهای مرحلهبندی/ توسعهدهنده با تغییر دادن گزینهای در داشبورد وجود داشت. به طور مشابه، غیرفعال کردن نمایه سازی در سایت تولید آسان بود.
امروز این سرویس وجود فایلهای robots.txt را در سیستم فایل با استثنای زیر فرض میکند: هر دامنهای که به modxcloud.com ختم میشود به عنوان Disallow: / Directive برای همه عوامل کاربر، صرف نظر از حضور، عمل میکند. یا عدم وجود پروندهاگر کاربر بخواهد سایت خود را فهرست کند، سایتهای تولیدی که ترافیک بازدیدکنندگان واقعی دریافت میکنند، باید از دامنه خودشان استفاده کنند.
برخی از سازمان ها از روبات txt صحیح برای modx برای اجرای چندین وب سایت از یک نصب واحد با استفاده از Contexts استفاده می کنند. موردی که میتوان در آن اعمال کرد، یک سایت بازاریابی عمومی همراه با سایتهای کوچک صفحه فرود و احتمالاً یک اینترانت غیر عمومی است.
به طور سنتی انجام این کار برای نصب های چند کاربره دشوار بوده است زیرا آنها از ریشه شبکه مشترک استفاده می کنند. با MODX Cloud، این کار آسان است. به سادگی یک فایل اضافی را در وب سایتی به نام robots-intranet.example.com.txt با محتوای زیر آپلود کنید و ایندکس شدن با روبات های خوب را مسدود می کند و همه نام های میزبان دیگر به فایل های استاندارد باز می گردند، مگر اینکه گره های نام خاصی وجود داشته باشد.
Robots.txt یک فایل مهم است که به کاربر کمک می کند تا به سایت در گوگل، موتورهای جستجوی اصلی و سایر وب سایت ها لینک دهد. این فایل که در ریشه یک وب سرور قرار دارد، به روباتهای وب دستور میدهد تا با استفاده از مجموعهای از دستورالعملها به نام پروتکل حذف ربات، یک سایت را بخزند، تعیین کنند که کدام پوشهها باید یا نه فهرست شوند. نمونه ای از txt صحیح Robots برای همه موتورهای جستجو obots.txt به خصوص با SeoToaster آسان است. یک منوی ویژه برای آن در کنترل پنل ایجاد شده است، بنابراین ربات هرگز مجبور نخواهد بود برای دسترسی به آن بیش از حد کار کند.