چگونه Robots.txt را به درستی راه اندازی کنیم؟

فهرست مطالب:

چگونه Robots.txt را به درستی راه اندازی کنیم؟
چگونه Robots.txt را به درستی راه اندازی کنیم؟
Anonim

txt صحیح Robots برای سایت html، ماکت‌های عملی را برای ربات‌های موتور جستجو ایجاد می‌کند و به آنها می‌گوید چه چیزی را می‌توانند بررسی کنند. این فایل اغلب به عنوان پروتکل حذف ربات شناخته می شود. اولین چیزی که ربات ها قبل از خزیدن در یک وب سایت به دنبال آن هستند robots.txt است. می تواند به نقشه سایت اشاره کند یا به نقشه سایت بگوید که زیر دامنه های خاصی را بررسی نکند. هنگامی که می خواهید موتورهای جستجو برای آنچه که اغلب یافت می شود جستجو کنند، robots.txt لازم نیست. در این فرآیند بسیار مهم است که فایل به درستی فرمت شده باشد و صفحه کاربر را با اطلاعات شخصی کاربر نمایه نکند.

اصل اسکن ربات

اصل اسکن ربات
اصل اسکن ربات

وقتی یک موتور جستجو با فایلی روبرو می شود و URL ممنوعه ای را می بیند، آن را نمی خزند، اما می تواند آن را فهرست کند. این به این دلیل است که حتی اگر روبات‌ها اجازه مشاهده محتوا را نداشته باشند، می‌توانند بک لینک‌هایی را که به URL ممنوعه اشاره می‌کنند، به خاطر بسپارند. به دلیل مسدود شدن دسترسی به لینک، URL در موتورهای جستجو ظاهر می شود، اما بدون قطعات. اگر یکبرای استراتژی بازاریابی ورودی، txt صحیح Robots برای bitrix (Bitrix) مورد نیاز است، آنها به درخواست کاربر توسط اسکنر تأیید سایت را ارائه می دهند.

از سوی دیگر، اگر فایل به درستی قالب بندی نشده باشد، می تواند باعث شود سایت در نتایج جستجو نمایش داده نشود و پیدا نشود. موتورهای جستجو نمی توانند این فایل را دور بزنند. یک برنامه نویس می تواند robots.txt هر سایتی را با رفتن به دامنه آن و دنبال کردن آن با robots.txt، به عنوان مثال، www.domain.com/robots.txt، مشاهده کند. با استفاده از ابزاری مانند بخش بهینه سازی سئو Unamo، که در آن می توانید هر دامنه ای را وارد کنید و سرویس اطلاعاتی در مورد وجود فایل نشان می دهد.

محدودیت برای اسکن:

  1. کاربر دارای محتوای قدیمی یا حساس است.
  2. تصاویر موجود در سایت در نتایج جستجوی تصویر گنجانده نمی شود.
  3. سایت هنوز برای ایندکس شدن توسط ربات آماده نیست.

به خاطر داشته باشید که اطلاعاتی که کاربر می خواهد از موتور جستجو دریافت کند در دسترس هر کسی است که URL را وارد کند. از این فایل متنی برای مخفی کردن داده های حساس استفاده نکنید. اگر دامنه دارای خطای 404 (یافت نشد) یا 410 (گذرانده) باشد، موتور جستجو سایت را علیرغم وجود robots.txt بررسی می کند، در این صورت تصور می کند که فایل موجود نیست. خطاهای دیگر مانند 500 (خطای سرور داخلی)، 403 (ممنوع)، به پایان رسیده، یا «در دسترس نیست» به دستورالعمل‌های robots.txt احترام می‌گذارند، اما دور زدن را می‌توان تا زمانی که فایل در دسترس قرار گیرد به تأخیر انداخت.

ایجاد فایل جستجو

ایجاد فایل جستجو
ایجاد فایل جستجو

بسیاریبرنامه های CMS مانند وردپرس قبلاً دارای یک فایل robots.txt هستند. قبل از پیکربندی صحیح Robots txt WordPress، کاربر باید خود را با قابلیت های آن آشنا کند تا نحوه دسترسی به آن را بیابد. اگر برنامه نویس خودش فایل را ایجاد کند، باید شرایط زیر را داشته باشد:

  1. باید با حروف کوچک باشد.
  2. از رمزگذاری UTF-8 استفاده کنید.
  3. ذخیره در یک ویرایشگر متن به عنوان یک فایل (txt.).

وقتی کاربر نمی داند کجا آن را قرار دهد، با فروشنده نرم افزار وب سرور تماس می گیرد تا نحوه دسترسی به ریشه دامنه را بیابد یا به کنسول Google رفته و آن را دانلود کند. با استفاده از این عملکرد، گوگل همچنین می تواند بررسی کند که آیا ربات به درستی کار می کند و لیست سایت هایی که با استفاده از فایل مسدود شده اند یا خیر.

فرمت اصلی txt صحیح Robots برای bitrix (Bitrix):

  1. Legend robots.txt.
  2. ، نظراتی را اضافه می کند که فقط به عنوان یادداشت استفاده می شوند.
  3. این نظرات توسط اسکنرها همراه با هرگونه اشتباه تایپی کاربر نادیده گرفته می شود.
  4. User-agent - نشان می دهد که دستورالعمل های فایل در کدام موتور جستجو فهرست شده است.
  5. افزودن یک ستاره () به اسکنرها می گوید که دستورالعمل ها برای همه است.

نشان دادن یک ربات خاص، به عنوان مثال، Googlebot، Baiduspider، Applebot. Disallow به خزنده ها می گوید که کدام قسمت های وب سایت نباید خزیده شوند. به نظر می رسد: User-agent:. ستاره به معنای "همه ربات ها" است. با این حال، می توانید صفحات خاصی را مشخص کنیدربات ها برای انجام این کار، باید نام رباتی را که توصیه‌هایی برای آن تنظیم شده است، بدانید.

txt ربات صحیح برای Yandex ممکن است به این شکل باشد:

تصحیح txt روبات ها برای Yandex
تصحیح txt روبات ها برای Yandex

اگر ربات نباید در سایت بخزد، می توانید آن را مشخص کنید و برای یافتن نام عوامل کاربر، توصیه می شود با قابلیت های آنلاین useragentstring.com آشنا شوید.

بهینه سازی صفحه

بهینه سازی صفحه
بهینه سازی صفحه

دو خط زیر به عنوان یک فایل robots.txt کامل در نظر گرفته می شوند و یک فایل robots منفرد می تواند حاوی چندین خط از عوامل کاربر و دستورالعمل هایی باشد که خزیدن را غیرفعال یا فعال می کند. فرمت اصلی Txt صحیح Robots:

  1. عامل کاربر: [نام کاربری نماینده].
  2. Disallow: [رشته URL که خزیده نشده است].

در فایل، هر بلوک از دستورالعمل ها به صورت گسسته و با یک خط از هم جدا شده اند. در فایل کنار دایرکتوری کاربر عامل، هر قانون روی مجموعه خاصی از خطوط جدا شده از بخش اعمال می شود. اگر فایلی دارای قانون چند عاملی باشد، ربات فقط خاص ترین گروه دستورالعمل ها را در نظر می گیرد.

نحو فنی

نحو فنی
نحو فنی

می توان آن را به عنوان "زبان" فایل های robots.txt در نظر گرفت. پنج اصطلاح وجود دارد که می تواند در این قالب وجود داشته باشد، اصلی ترین آنها عبارتند از:

  1. کاربر-عامل - خزنده وب با دستورالعمل‌های خزیدن، معمولاً یک موتور جستجو.
  2. Disallow دستوری است که برای عبور دادن به عامل کاربر استفاده می شود(حذف) یک URL خاص. برای هر کدام فقط یک شرط ممنوع وجود دارد.
  3. اجازه دهید. برای Googlebot که دسترسی پیدا می کند، حتی صفحه کاربر نیز رد می شود.
  4. Crawl-Delay - مشخص می کند که خزنده قبل از خزیدن به چند ثانیه نیاز دارد. هنگامی که ربات آن را تأیید نمی کند، سرعت در کنسول Google تنظیم می شود.
  5. نقشه سایت - برای مکان یابی هر نقشه XML مرتبط با URL استفاده می شود.

تطابق الگو

وقتی صحبت از مسدود کردن URL ها یا اجازه دادن به روبات های txt معتبر می شود، این عملیات می تواند بسیار دشوار باشد زیرا به شما امکان می دهد از تطبیق الگو برای پوشش تعدادی از پارامترهای URL احتمالی استفاده کنید. گوگل و بینگ هر دو از دو کاراکتر استفاده می‌کنند که صفحات یا زیرپوشه‌هایی را که SEO می‌خواهد حذف کند، شناسایی می‌کنند. دو کاراکتر ستاره () و علامت دلار ($) هستند، که در آن:یک علامت عام است که هر دنباله ای از کاراکترها را نشان می دهد. $ - با انتهای URL مطابقت دارد.

Google فهرست بزرگی از نحوهای قالب ممکن را ارائه می دهد که به کاربر توضیح می دهد چگونه یک فایل txt Robots را به درستی تنظیم کند. برخی از موارد استفاده رایج عبارتند از:

  1. جلوگیری از نمایش محتوای تکراری در نتایج جستجو.
  2. همه بخش‌های وب‌سایت را خصوصی نگه دارید.
  3. صفحات داخلی نتایج جستجو را بر اساس بیانیه باز ذخیره کنید.
  4. مکان را مشخص کنید.
  5. جلوگیری از ایندکس کردن برخی از موتورهای جستجوفایل ها.
  6. تعیین تاخیر خزیدن برای توقف بارگیری مجدد هنگام اسکن چندین ناحیه محتوا به طور همزمان.

بررسی وجود فایل ربات

اگر هیچ ناحیه ای در سایت وجود ندارد که نیاز به خزیدن داشته باشد، robots.txt اصلاً مورد نیاز نیست. اگر کاربر از وجود این فایل مطمئن نیست، باید دامنه ریشه را وارد کرده و آن را در انتهای URL تایپ کند، چیزی شبیه به این: moz.com/robots.txt. تعدادی از ربات های جستجوگر این فایل ها را نادیده می گیرند. با این حال، به عنوان یک قاعده، این خزنده ها متعلق به موتورهای جستجوی معتبر نیستند. آنها از نوع ارسال کننده های هرزنامه، گردآورنده ایمیل و انواع دیگر ربات های خودکار هستند که به وفور در اینترنت یافت می شوند.

بسیار مهم است که به یاد داشته باشید که استفاده از استاندارد حذف ربات یک اقدام امنیتی موثر نیست. در واقع، برخی از ربات ها ممکن است با صفحاتی شروع شوند که کاربر آنها را در حالت اسکن قرار می دهد. چندین بخش وجود دارد که به فایل استثنای استاندارد می رود. قبل از اینکه به ربات بگویید در کدام صفحات نباید کار کند، باید مشخص کنید که با کدام ربات صحبت کند. در بیشتر موارد، کاربر از یک اعلان ساده به معنای "همه ربات ها" استفاده می کند.

بهینه سازی SEO

بهینه سازی سئو
بهینه سازی سئو

قبل از بهینه سازی، کاربر باید مطمئن شود که هیچ محتوا یا بخش هایی از سایت را که نیاز به دور زدن دارد مسدود نمی کند. پیوند به صفحات مسدود شده توسط روبات txt صحیح رعایت نمی شود. این یعنی:

  1. اگر به سایر صفحات موجود در موتورهای جستجو پیوند داده نشده باشند. صفحات،توسط robots.txt یا یک ربات متا مسدود نمی شود و منابع مرتبط خزیده نمی شوند و بنابراین نمی توان آنها را فهرست کرد.
  2. هیچ پیوندی را نمی توان از صفحه مسدود شده به مقصد پیوند منتقل کرد. اگر چنین صفحه ای وجود دارد، بهتر است از یک مکانیسم مسدود کننده متفاوت از robots.txt استفاده کنید.

چون ممکن است صفحات دیگر مستقیماً به صفحه‌ای حاوی اطلاعات شخصی پیوند داده شوند و می‌خواهید این صفحه را از نتایج جستجو مسدود کنید، از روش دیگری مانند محافظت با رمز عبور یا متا داده‌های noindex استفاده کنید. برخی از موتورهای جستجو دارای چندین عامل کاربر هستند. برای مثال، Google از Googlebot برای جستجوهای ارگانیک و Googlebot-Image برای جستجوی تصویر استفاده می‌کند.

بیشتر عوامل کاربر از یک موتور جستجو از قوانین یکسانی پیروی می کنند، بنابراین نیازی به تعیین دستورالعمل برای هر یک از چندین خزنده نیست، اما انجام این کار می تواند خزیدن محتوای سایت را به خوبی تنظیم کند. موتور جستجو محتویات فایل را در حافظه پنهان ذخیره می کند و معمولاً حداقل یک بار در روز محتوای ذخیره شده را به روز می کند. اگر کاربر فایل را تغییر دهد و بخواهد آن را سریعتر از حد معمول به‌روزرسانی کند، می‌تواند URL robots.txt را به Google ارسال کند.

موتورهای جستجو

بررسی وجود فایل ربات
بررسی وجود فایل ربات

برای درک اینکه Robots txt چگونه درست کار می کند، باید در مورد قابلیت های موتورهای جستجو بدانید. به طور خلاصه، توانایی آنها در این است که آنها "اسکنر" را ارسال می کنند، که برنامه هایی هستند کهگشت و گذار در اینترنت برای کسب اطلاعات سپس برخی از این اطلاعات را ذخیره می‌کنند تا بعداً آن را به کاربر منتقل کنند.

برای بسیاری از مردم، Google در حال حاضر اینترنت است. در واقع حق با آنهاست، زیرا این شاید مهمترین اختراع او باشد. و اگرچه موتورهای جستجو از زمان پیدایش خود تغییرات زیادی کرده اند، اصول اساسی هنوز یکسان است. خزنده ها که با نام های "ربات" یا "عنکبوت" نیز شناخته می شوند، صفحاتی را از میلیاردها وب سایت پیدا می کنند. موتورهای جستجو به آن‌ها راهنمایی می‌کنند که کجا بروند، در حالی که سایت‌ها می‌توانند با ربات‌ها ارتباط برقرار کنند و به آن‌ها بگویند که کدام صفحات خاص را باید نگاه کنند.

به طور کلی، صاحبان سایت نمی خواهند در موتورهای جستجو نمایش داده شوند: صفحات مدیریت، پورتال های پشتیبان، دسته ها و برچسب ها، و سایر صفحات اطلاعاتی. فایل robots.txt همچنین می تواند برای جلوگیری از بررسی صفحات توسط موتورهای جستجو استفاده شود. به طور خلاصه، robots.txt به خزنده‌های وب می‌گوید چه کاری انجام دهند.

Ban صفحات

این قسمت اصلی فایل حذف ربات است. با یک اعلان ساده، کاربر به یک ربات یا گروهی از ربات‌ها می‌گوید که صفحات خاصی را خزنده نکنند. نحو ساده است، به عنوان مثال، برای جلوگیری از دسترسی به همه چیز در فهرست "admin" سایت، بنویسید: Disallow: /admin. این خط از خزیدن ربات‌ها به yoursite.com/admin، yoursite.com/admin/login، yoursite.com/admin/files/secret.html، و هر چیز دیگری در فهرست مدیریت جلوگیری می‌کند.

برای غیر مجاز کردن یک صفحه، کافی است آن را در خط غیر مجاز مشخص کنید: Disallow: /public/exception.html. اکنون صفحه "استثنا" استمهاجرت نمی کند، اما هر چیز دیگری در پوشه "عمومی" منتقل می شود.

برای گنجاندن چندین صفحه، به سادگی آنها را فهرست کنید:

دایرکتوری ها و صفحات
دایرکتوری ها و صفحات

این چهار خط از txt صحیح Robots برای سمفونی برای هر عامل کاربری که در بالای بخشrobots.txt برای https://www.symphonyspace.org/ فهرست شده است اعمال می شود.

ممنوع کردن صفحات
ممنوع کردن صفحات

نقشه سایت:

سایر دستورات:live - به خزنده های وب اجازه ندهید cpresources/ یا ارائه دهنده/ را فهرست کنند.

عامل کاربر:غیر مجاز: /cpresources/.

انکار: / فروشنده / غیر مجاز: /.env.

تنظیم استانداردها

کاربر می تواند صفحات خاصی را برای ربات های مختلف با ترکیب دو عنصر قبلی مشخص کند، این چیزی است که به نظر می رسد. نمونه ای از txt صحیح Robots برای همه موتورهای جستجو در زیر ارائه شده است.

تنظیم استانداردها
تنظیم استانداردها

بخش‌های «admin» و «خصوصی» برای Google و Bing نامرئی خواهند بود، اما Google همچنان فهرست «مخفی» را مشاهده می‌کند، در حالی که Bing نمی‌تواند. می‌توانید با استفاده از عامل ستاره برای همه ربات‌ها قوانین کلی را مشخص کنید و سپس دستورالعمل‌های خاصی را در بخش‌های زیر به ربات‌ها بدهید. با دانش بالا، کاربر می تواند نمونه ای از txt صحیح Robots را برای همه موتورهای جستجو بنویسد. فقط ویرایشگر متن مورد علاقه خود را فعال کنید و به ربات ها بگویید که در قسمت های خاصی از سایت از آنها استقبال نمی کنند.

نکاتی برای بهبود عملکرد سرور

SublimeText استیک ویرایشگر متن همه کاره و استاندارد طلایی برای بسیاری از برنامه نویسان. علاوه بر این، نکات برنامه نویسی او مبتنی بر کدنویسی کارآمد است. کاربران از وجود میانبرها در برنامه قدردانی می کنند. اگر کاربر بخواهد نمونه ای از فایل robots.txt را ببیند، باید به هر سایتی مراجعه کند و "/robots.txt" را به انتها اضافه کند. در اینجا بخشی از فایل robots.txt GiantBicycles است.

این برنامه ایجاد صفحاتی را فراهم می کند که کاربران نمی خواهند در موتورهای جستجو نمایش داده شوند. و همچنین دارای چند چیز منحصر به فرد است که افراد کمی در مورد آنها می دانند. برای مثال، در حالی که فایل robots.txt به ربات‌ها می‌گوید کجا نروند، فایل نقشه سایت برعکس عمل می‌کند و به آن‌ها کمک می‌کند آنچه را که به دنبال آن هستند پیدا کنند، و در حالی که موتورهای جستجو احتمالاً از قبل می‌دانند نقشه سایت در کجا قرار دارد، آن را دریافت نمی‌کند. در راه.

دو نوع فایل وجود دارد: صفحه HTML یا فایل XML. صفحه HTML صفحه ای است که تمام صفحات موجود در یک وب سایت را به بازدیدکنندگان نشان می دهد. در robots.txt خودش، به این صورت است: Sitemap://www.makeuseof.com/sitemap_index.xml. اگر سایت توسط موتورهای جستجو ایندکس نشده است، اگرچه چندین بار توسط ربات های وب خزیده شده است، باید مطمئن شوید که فایل موجود است و مجوزهای آن به درستی تنظیم شده است.

به طور پیش‌فرض، این برای همه نصب‌های SeoToaster اتفاق می‌افتد، اما در صورت لزوم، می‌توانید آن را به این شکل بازنشانی کنید: File robots.txt - 644. بسته به سرور PHP، اگر برای کاربر کار نکرد، آن را بازنشانی کنید. توصیه می شود موارد زیر را امتحان کنید: File robots.txt - 666.

تنظیم تاخیر اسکن

دستورالعمل تأخیر دور زدن به یقین اطلاع می دهدموتورهای جستجو هر چند وقت یکبار می توانند یک صفحه را در سایت فهرست کنند. در ثانیه اندازه گیری می شود، اگرچه برخی از موتورهای جستجو آن را کمی متفاوت تفسیر می کنند. برخی از افراد زمانی که به آنها گفته می شود که پس از هر اسکن پنج ثانیه صبر کنند تا اسکن بعدی شروع شود، تاخیر خزیدن 5 را مشاهده می کنند.

دیگران این را به عنوان دستورالعملی برای اسکن کردن یک صفحه در هر پنج ثانیه تفسیر می کنند. ربات نمی تواند سریعتر اسکن کند تا پهنای باند سرور را حفظ کند. اگر سرور نیاز به مطابقت با ترافیک داشته باشد، می تواند یک تاخیر بای پس تعیین کند. به طور کلی در بیشتر موارد کاربران نیازی به نگرانی در این مورد ندارند. به این ترتیب تاخیر خزیدن هشت ثانیه تنظیم می شود - تاخیر خزیدن: 8.

اما همه موتورهای جستجو از این دستورالعمل تبعیت نمی کنند، بنابراین هنگام غیر مجاز کردن صفحات، می توانید تاخیرهای خزیدن متفاوتی را برای موتورهای جستجوی خاص تنظیم کنید. پس از تنظیم تمام دستورالعمل های موجود در فایل، می توانید آن را در سایت آپلود کنید، ابتدا مطمئن شوید که یک فایل متنی ساده و دارای نام robots.txt است و می توانید آن را در yoursite.com/robots.txt. پیدا کنید.

بهترین ربات وردپرس

بهترین ربات وردپرس
بهترین ربات وردپرس

برخی فایل ها و دایرکتوری ها در سایت وردپرسی وجود دارد که باید هر بار قفل شوند. دایرکتوری هایی که کاربران نباید از آنها استفاده کنند، دایرکتوری cgi-bin و دایرکتوری های استاندارد WP هستند. برخی از سرورها اجازه دسترسی به دایرکتوری cgi-bin را نمی دهند، اما کاربران باید قبل از پیکربندی صحیح Robots txt WordPress آن را در دستورالعمل Disallow قرار دهند.

دایرکتوری های استاندارد وردپرس،که باید مسدود شوند عبارتند از wp-admin، wp-content، wp-includes. این دایرکتوری ها حاوی داده هایی نیستند که در ابتدا برای موتورهای جستجو مفید باشد، اما یک استثنا وجود دارد، یعنی یک زیر شاخه به نام آپلود در فهرست wp-content وجود دارد. این دایرکتوری فرعی باید در فایل robot.txt مجاز باشد زیرا شامل همه چیزهایی است که با استفاده از ویژگی آپلود رسانه WP بارگیری می شود. وردپرس از برچسب ها یا دسته ها برای ساختار محتوا استفاده می کند.

در صورت استفاده از دسته‌ها، برای ایجاد txt صحیح Robots برای Wordpress، همانطور که توسط سازنده برنامه مشخص شده است، باید بایگانی برچسب‌ها را از جستجو مسدود کنید. ابتدا پایگاه داده را با رفتن به "Administration" panel> "Settings"> "Permalink" بررسی می کنند.

به طور پیش فرض، اگر فیلد خالی باشد، پایه تگ است: Disallow: / tag /. اگر از یک دسته استفاده می شود، باید دسته را در فایل robot.txt غیرفعال کنید: Disallow: /category/. به طور پیش فرض، پایه تگ است، اگر فیلد خالی باشد: Disallow: / tag /. اگر از یک دسته استفاده می شود، باید دسته را در فایل robot.txt غیرفعال کنید: Disallow: / category /.

فایل هایی که عمدتاً برای نمایش محتوا استفاده می شوند، توسط فایل txt صحیح Robots برای وردپرس مسدود می شوند:

روبات txt برای وردپرس
روبات txt برای وردپرس

تنظیم پایه جوملا

هنگامی که کاربر جوملا را نصب کرد، باید تنظیمات صحیح txt Joomla Robots را در پیکربندی جهانی، که در کنترل پنل قرار دارد، مشاهده کنید. برخی تنظیمات در اینجا برای سئو بسیار مهم هستند. ابتدا نام سایت را پیدا کنید و مطمئن شویداز نام کوتاه سایت استفاده می شود. سپس گروهی از تنظیمات را در سمت راست همان صفحه پیدا می کنند که به آن تنظیمات سئو می گویند. موردی که قطعاً باید تغییر کند مورد دوم است: از یک URL بازنویسی استفاده کنید.

این پیچیده به نظر می رسد، اما اساساً به جوملا کمک می کند URL های تمیزتری ایجاد کند. اگر خط index.php را از URL ها حذف کنید بیشتر قابل توجه است. اگر بعداً آن را تغییر دهید، URL ها تغییر خواهند کرد و Google آن را دوست نخواهد داشت. با این حال، هنگام تغییر این تنظیمات، چندین مرحله باید به طور همزمان انجام شود تا txt ربات صحیح برای جوملا ایجاد شود:

  1. فایل htaccess.txt را در پوشه ریشه جوملا بیابید.
  2. آن را به عنوان htaccess. علامت گذاری کنید (بدون پسوند).
  3. نام سایت را در عناوین صفحه قرار دهید.
  4. تنظیمات فراداده را در پایین صفحه پیکربندی جهانی پیدا کنید.

ربات در ابر MODX

ربات در MODX Cloud
ربات در MODX Cloud

پیش از این، MODX Cloud به کاربران امکان کنترل رفتار اجازه دادن به فایل robots.txt را بر اساس تغییر در داشبورد ارائه می داد. در حالی که این مفید بود، این امکان وجود داشت که به‌طور تصادفی امکان فهرست‌بندی در سایت‌های مرحله‌بندی/ توسعه‌دهنده با تغییر دادن گزینه‌ای در داشبورد وجود داشت. به طور مشابه، غیرفعال کردن نمایه سازی در سایت تولید آسان بود.

امروز این سرویس وجود فایل‌های robots.txt را در سیستم فایل با استثنای زیر فرض می‌کند: هر دامنه‌ای که به modxcloud.com ختم می‌شود به عنوان Disallow: / Directive برای همه عوامل کاربر، صرف نظر از حضور، عمل می‌کند. یا عدم وجود پروندهاگر کاربر بخواهد سایت خود را فهرست کند، سایت‌های تولیدی که ترافیک بازدیدکنندگان واقعی دریافت می‌کنند، باید از دامنه خودشان استفاده کنند.

برخی از سازمان ها از روبات txt صحیح برای modx برای اجرای چندین وب سایت از یک نصب واحد با استفاده از Contexts استفاده می کنند. موردی که می‌توان در آن اعمال کرد، یک سایت بازاریابی عمومی همراه با سایت‌های کوچک صفحه فرود و احتمالاً یک اینترانت غیر عمومی است.

به طور سنتی انجام این کار برای نصب های چند کاربره دشوار بوده است زیرا آنها از ریشه شبکه مشترک استفاده می کنند. با MODX Cloud، این کار آسان است. به سادگی یک فایل اضافی را در وب سایتی به نام robots-intranet.example.com.txt با محتوای زیر آپلود کنید و ایندکس شدن با روبات های خوب را مسدود می کند و همه نام های میزبان دیگر به فایل های استاندارد باز می گردند، مگر اینکه گره های نام خاصی وجود داشته باشد.

Robots.txt یک فایل مهم است که به کاربر کمک می کند تا به سایت در گوگل، موتورهای جستجوی اصلی و سایر وب سایت ها لینک دهد. این فایل که در ریشه یک وب سرور قرار دارد، به روبات‌های وب دستور می‌دهد تا با استفاده از مجموعه‌ای از دستورالعمل‌ها به نام پروتکل حذف ربات، یک سایت را بخزند، تعیین کنند که کدام پوشه‌ها باید یا نه فهرست شوند. نمونه ای از txt صحیح Robots برای همه موتورهای جستجو obots.txt به خصوص با SeoToaster آسان است. یک منوی ویژه برای آن در کنترل پنل ایجاد شده است، بنابراین ربات هرگز مجبور نخواهد بود برای دسترسی به آن بیش از حد کار کند.

توصیه شده: