چگونه یک سایت را از نمایه سازی در robots.txt مسدود کنیم: دستورالعمل ها و توصیه ها

فهرست مطالب:

چگونه یک سایت را از نمایه سازی در robots.txt مسدود کنیم: دستورالعمل ها و توصیه ها
چگونه یک سایت را از نمایه سازی در robots.txt مسدود کنیم: دستورالعمل ها و توصیه ها
Anonim

کار یک بهینه ساز سئو بسیار در مقیاس بزرگ است. به مبتدیان توصیه می شود که الگوریتم بهینه سازی را یادداشت کنند تا هیچ مرحله ای را از دست ندهند. در غیر این صورت، تبلیغ به سختی موفق خوانده می شود، زیرا سایت دائماً با شکست ها و خطاهایی مواجه می شود که باید برای مدت طولانی اصلاح شوند.

یکی از مراحل بهینه سازی کار با فایل robots.txt است. هر منبعی باید این سند را داشته باشد، زیرا بدون آن مقابله با بهینه سازی دشوارتر خواهد بود. عملکردهای زیادی را انجام می دهد که باید آنها را درک کنید.

دستیار ربات

فایل robots.txt یک سند متنی ساده است که در دفترچه یادداشت استاندارد سیستم قابل مشاهده است. هنگام ایجاد آن، باید کدگذاری را روی UTF-8 تنظیم کنید تا به درستی خوانده شود. این فایل با پروتکل‌های http، https و FTP کار می‌کند.

این سند دستیار ربات‌های جستجوگر است. اگر نمی‌دانید، هر سیستمی از «عنکبوت‌ها» استفاده می‌کند که به سرعت در وب جهانی می‌خزند تا سایت‌های مربوطه را برای درخواست‌ها بازگردانند.کاربران این روبات ها باید به داده های منبع دسترسی داشته باشند، robots.txt برای این کار کار می کند.

برای اینکه عنکبوت ها راه خود را پیدا کنند، باید سند robots.txt را به فهرست اصلی ارسال کنید. برای بررسی اینکه آیا سایت دارای این فایل است، "https://site.com.ua/robots.txt" را در نوار آدرس مرورگر وارد کنید. به جای "site.com.ua" باید منبع مورد نیاز خود را وارد کنید.

کار با robots.txt
کار با robots.txt

توابع سند

فایل robots.txt انواع مختلفی از اطلاعات را در اختیار خزنده ها قرار می دهد. این می تواند دسترسی جزئی را فراهم کند تا "عنکبوت" عناصر خاصی از منبع را اسکن کند. دسترسی کامل به شما امکان می دهد تمام صفحات موجود را بررسی کنید. ممنوعیت کامل باعث می‌شود روبات‌ها نتوانند حتی شروع به بررسی کنند و سایت را ترک کنند.

پس از بازدید از منبع، "عنکبوت ها" پاسخ مناسبی به درخواست دریافت می کنند. ممکن است چندین مورد از آنها وجود داشته باشد، همه اینها به اطلاعات موجود در robots.txt بستگی دارد. به عنوان مثال، اگر اسکن موفقیت آمیز بود، ربات کد 2xx را دریافت می کند.

شاید سایت از صفحه ای به صفحه دیگر هدایت شده باشد. در این حالت ربات کد 3xx را دریافت می کند. اگر این کد چندین بار تکرار شود، عنکبوت آن را دنبال می کند تا زمانی که پاسخ دیگری دریافت کند. اگرچه، به عنوان یک قاعده، او فقط از 5 تلاش استفاده می کند. در غیر این صورت، خطای محبوب 404 ظاهر می شود.

اگر پاسخ 4xx باشد، ربات مجاز است کل محتوای سایت را بخزد. اما در مورد کد 5xx، بررسی ممکن است به طور کامل متوقف شود، زیرا این اغلب نشان دهنده خطاهای موقت سرور است.

جستجو در روبات ها
جستجو در روبات ها

برای چهبه robots.txt نیاز دارید؟

همانطور که ممکن است حدس بزنید، این فایل راهنمای ربات ها برای ریشه سایت است. اکنون برای محدود کردن جزئی دسترسی به محتوای نامناسب استفاده می شود:

  • صفحات با اطلاعات شخصی کاربران؛
  • سایت های آینه؛
  • نتایج جستجو؛
  • فرم های ارسال داده و غیره

اگر فایل robots.txt در ریشه سایت وجود نداشته باشد، ربات کاملاً تمام محتوا را می خزد. بر این اساس، ممکن است داده های ناخواسته در نتایج جستجو ظاهر شود، به این معنی که هم شما و هم سایت متضرر خواهید شد. اگر دستورالعمل های خاصی در سند robots.txt وجود داشته باشد، "عنکبوت" آنها را دنبال می کند و اطلاعات مورد نظر صاحب منبع را ارائه می دهد.

کار با یک فایل

برای استفاده از robots.txt برای جلوگیری از نمایه سازی سایت، باید نحوه ایجاد این فایل را بیابید. برای انجام این کار، دستورالعمل ها را دنبال کنید:

  1. یک سند در Notepad یا Notepad++ ایجاد کنید.
  2. تنظیم پسوند فایل ".txt".
  3. داده ها و دستورات مورد نیاز را وارد کنید.
  4. سند را ذخیره کنید و در ریشه سایت آپلود کنید.

همانطور که می بینید، در یکی از مراحل لازم است دستوراتی برای روبات ها تنظیم کنید. آنها بر دو قسم هستند: حلال (اجازه) و منع (مجاز). همچنین، برخی بهینه سازها ممکن است سرعت خزیدن، میزبانی و پیوند به نقشه صفحه منبع را مشخص کنند.

نحوه بستن سایت از نمایه سازی
نحوه بستن سایت از نمایه سازی

برای شروع کار با robots.txt و مسدود کردن کامل سایت از نمایه سازی، باید نمادهای استفاده شده را نیز درک کنید. مثلا در یک سنداز "/" استفاده کنید که نشان می دهد کل سایت انتخاب شده است. اگر از "" استفاده شود، به دنباله ای از کاراکترها نیاز است. به این ترتیب، امکان تعیین یک پوشه خاص وجود دارد که می تواند اسکن شود یا خیر.

ویژگی ربات

"عنکبوت" برای موتورهای جستجو متفاوت است، بنابراین اگر همزمان برای چندین موتور جستجو کار می کنید، باید این لحظه را در نظر بگیرید. نام آنها متفاوت است، به این معنی که اگر می خواهید با یک ربات خاص تماس بگیرید، باید نام آن را مشخص کنید: "عامل کاربر: Yandex" (بدون نقل قول).

اگر می خواهید دستورالعمل هایی را برای همه موتورهای جستجو تنظیم کنید، باید از دستور "User Agent: " (بدون نقل قول) استفاده کنید. برای اینکه بتوانید به درستی سایت را از نمایه سازی با استفاده از robots.txt مسدود کنید، باید مشخصات موتورهای جستجوی محبوب را بدانید.

واقعیت این است که محبوب ترین موتورهای جستجوی Yandex و Google دارای چندین ربات هستند. هر کدام وظایف خاص خود را دارند. به عنوان مثال، ربات Yandex و Googlebot اصلی ترین "عنکبوت ها" هستند که در سایت می خزند. با دانستن همه ربات‌ها، تنظیم دقیق فهرست‌بندی منابعتان آسان‌تر خواهد بود.

فایل robots.txt چگونه کار می کند
فایل robots.txt چگونه کار می کند

نمونه

بنابراین، با کمک robots.txt، می توانید سایت را از فهرست بندی با دستورات ساده ببندید، نکته اصلی این است که بدانید به طور خاص به چه چیزی نیاز دارید. به عنوان مثال، اگر می خواهید Googlebot به منبع شما نزدیک نشود، باید دستور مناسب را به آن بدهید. به نظر می رسد: "کاربر-عامل: Googlebot Disallow: /" (بدون نقل قول).

اکنون باید بفهمیم که در این دستور چیست و چگونه کار می کند. بنابراین "کاربر-عامل"برای استفاده از تماس مستقیم با یکی از ربات ها استفاده می شود. بعد، نشان می دهیم که کدام یک، در مورد ما گوگل است. دستور "Disallow" باید از یک خط جدید شروع شود و ربات را از ورود به سایت منع کند. علامت اسلش در این حالت نشان می دهد که تمام صفحات منبع برای اجرای دستور انتخاب شده اند.

robots.txt برای چیست؟
robots.txt برای چیست؟

در robots.txt، می‌توانید فهرست‌بندی را برای همه موتورهای جستجو با یک دستور ساده غیرفعال کنید: "User-agent:Disallow: /" (بدون نقل قول). کاراکتر ستاره در این مورد نشان دهنده تمام ربات های جستجوگر است. به طور معمول، چنین دستوری برای توقف نمایه سازی سایت و شروع کار اصلی روی آن مورد نیاز است که در غیر این صورت می تواند بر بهینه سازی تأثیر بگذارد.

اگر منبع بزرگ است و صفحات زیادی دارد، اغلب حاوی اطلاعات اختصاصی است که یا نامطلوب است یا می تواند بر تبلیغات تأثیر منفی بگذارد. در این مورد، باید بدانید که چگونه صفحه را از نمایه سازی در robots.txt ببندید.

می توانید یک پوشه یا یک فایل را مخفی کنید. در حالت اول، شما باید با تماس با یک ربات خاص یا همه افراد، دوباره شروع کنید، بنابراین از دستور "User-agent" استفاده می کنیم و در زیر دستور "Disallow" را برای یک پوشه خاص مشخص می کنیم. به این صورت خواهد بود: "Disallow: / folder /" (بدون نقل قول). به این ترتیب کل پوشه را مخفی می کنید. اگر حاوی فایل مهمی است که می خواهید نشان دهید، باید دستور زیر را بنویسید: "Allow: /folder/file.php" (بدون نقل قول).

بررسی فایل

اگر از robots.txt برای بستن سایت استفاده می کنیدشما در نمایه سازی موفق شدید، اما نمی دانید که آیا همه دستورالعمل های شما به درستی کار کرده اند، می توانید صحت کار را بررسی کنید.

ابتدا، باید محل قرارگیری سند را دوباره بررسی کنید. به یاد داشته باشید که باید منحصراً در پوشه ریشه باشد. اگر در پوشه ریشه باشد، کار نمی کند. بعد، مرورگر را باز کنید و آدرس زیر را در آنجا وارد کنید: "https://yoursite. com/robots.txt" (بدون نقل قول). اگر در مرورگر وب خود خطایی دریافت کردید، فایل در جایی که باید باشد نیست.

نحوه بستن یک پوشه از نمایه سازی
نحوه بستن یک پوشه از نمایه سازی

دستورالعمل ها را می توان در ابزارهای ویژه ای که تقریباً توسط همه مدیران وب استفاده می شود بررسی کرد. ما در مورد محصولات گوگل و یاندکس صحبت می کنیم. به عنوان مثال، در Google Search Console یک نوار ابزار وجود دارد که در آن باید "Crawl" را باز کنید و سپس "Robots.txt File Inspection Tool" را اجرا کنید. شما باید تمام داده های سند را در پنجره کپی کنید و شروع به اسکن کنید. دقیقاً همین بررسی را می توان در Yandex. Webmaster انجام داد.

توصیه شده: