20 سال اشتباه در robots txt که باید از آن اجتناب کنید بخش دوم

۱۳ مرداد ۱۳۹۸ بهینه سازی برای موتورهای جستجو

با اینکه سال ها گذشته ، اما بعضی از مردم همچنان به استفاده مجاز و غیرمجاز از robot.txt ادامه می دهند. قبل از پرداختن به اشتباهات رایج robots.txt مهم است بدانیم چرا در وهله اول استانداردها و پروتکل ها برای طرد ربات ها توسعه یافته اند. در اوایل دهه ۱۹۹۰ ، وب سایت ها از نظر پهنای باند موجود ، بسیار محدودتر از امروز بودند. پس در آن زمان ، برای ربات های خودکار ، هجوم به وب سایت ها از طریق یک وب سرور و مصرف تمام پهنای باند موجود و فلج کردن وب سایت متداول بود. به همین دلیل است که استاندارد محرومیت از ربات در سی ام ماه ژوئن سال 1994 از طریق توافق ایجاد شد.

پروتکل آموزش ربات ها به صاحبان سایت این امکان را می دهد که از ربات های خودکار درخواست کنند که فقط در بخش های مشخصی از وب سایتشان حرکت کنند. با کاهش ترافیک ربات ، صاحبان سایت می توانند پهنای باند بیشتری را برای کاربران انسان آزاد کنند ، خرابی و از کارافتادگی را کاهش دهند و به کاربران انسان تضمین دسترسی بدهند. در اوایل دهه 1990 ، صاحبان سایت به مراتب بیشتر از URL هایی که در نتایج جستجو ظاهر می شوند نگران پهنای باند و دسترسی بودند.

استفاده از robot.txt برای غیرفعال کردن URL صفحات دارای برچسب های متداول noindex

غیرفعال کردن URL صفحات با برچسب های noindex ، موتورها را از دیدن تگ meta noindex "مجاز نمی کند". در نتیجه و همانطور که قبلا نیز اشاره شد ، URL های مجاز به نمایش ، در فهرست نتایج فهرست بندی می شوند. اگر نمی خواهید نشانی اینترنتی یک صفحه محتوا در نتایج جستجو توسط کاربران دیده شود ، از صفحه متنی noindex در صفحه استفاده کنید و اجازه دهید URL به صورت خزنده قرار گیرد. برخی از سایت ها سعی می کنند از طریق نظرات در robot.txt با Google ارتباط برقرار کنند. Googlebot اساسا نظراتی را که در robot.txt وجود دارد ، مانند آنچه در nike.com/robots.txt ، yelp.com/robots.txt و etsy.com/robots.txt می بینید ، نادیده می گیرد.

غیرفعال کردن URL صفحات با برچسب های rel = canonical یا nofollow و X-Robots از طریق robot.txt

برچسب گذاری مجدد یک URL باعث می شود موتورهای جستجو از دیدن هدرهای HTTP و برچسب های متا جلوگیری کنند. در نتیجه هیچکدام از اینها تجلیل نمی شوند. برای اینکه موتورها از هدرهای پاسخ HTTP یا برچسب های متا احترام بگذارند ، نشانی های اینترنتی نباید با robots مجاز باشند.

غیرفعال کردن اطلاعات محرمانه از طریق robots.txt

هرکسی که robot.txt را درک کند می تواند به فایل robot.txt برای یک وب سایت دسترسی پیدا کند. به عنوان مثال ، google.com/robots.txt و apple.com/robots.txt. بدیهی است ، robot.txt هرگز به عنوان مکانیزمی برای مخفی کردن اطلاعات در نظر گرفته نشده است. تنها راه جلوگیری از دسترسی موتورهای جستجو به اطلاعات محرمانه به صورت آنلاین و نمایش آن برای کاربران در صفحات نتایج جستجو ، قرار دادن این محتوا در پشت ورودی است.

WHOA NELLY robots.txt

حتی اگر اکثر سایت ها به پرونده robot.txt احتیاج ندارند ، بسیاری مانند https://www.google.com/robots.txt به نظر می رسند. من این "پرونده های WHOA NELLY robots.txt" را درنظر می گیرم. پرونده های پیچیده robot.txt در انتهای کار شما و توسط موتورهای جستجو خطایی ایجاد می کنند. به عنوان مثال ، حداکثر اندازه پرونده برای robot.txt 500کیلوبایت است. متن در robot.txt بیش از حد مجاز 500 کیلوبایت توسط Google نادیده گرفته می شود. پرونده های robot.txt باید مانند میله های Snickers Mini ، کوتاه و شیرین باشند.

به تعویق افتادن Robots.txt

اگر Google سعی کند به یک پرونده robot.txt دسترسی پیدا کند اما پاسخ HTTP 200 یا 404 را دریافت نمی کند ، کارش را به زمان دیگری موکول می کند. به همین دلیل مهم است که اطمینان حاصل شود که آدرس های اینترنتی robot.txt همیشه پاسخ HTTP را به 200 ، 403 یا 404 باز می گردانند.

403 robots.txt

بازگشت یک پاسخ 403 HTTP برای robot.txt نشان می دهد که هیچ پرونده ای وجود ندارد. در نتیجه ، Googlebot می تواند فرض کند که می توانید هر URL را بردارید. اگر robot.txt شما پاسخ 403 HTTP را برمی گرداند، این یک مسئله است ، به سادگی پاسخ را به 200 یا 404 تغییر دهید.

نادیده گرفتن دستورالعمل کاربر عامل

هنگامی که بخشنامه های عامل کاربر عمومی پیش از دستورالعمل های خاص در robot.txt هستند ، دستورالعمل های بعدی می توانند دستورالعمل های اولیه را تا آنجا که مربوط به Googlebot است نادیده بگیرند. به همین دلیل بهتر است آزمایش robot.txt در Google Webmaster Tools انجام شود.

حساسیت مورد robot.txt - URL

فایل robot.txt و URL های موجود در پرونده robot.txt حساس هستند. در نتیجه ، اگر پرونده خود را robot.txt نامگذاری کنید و URL های شامل ، از طریق موارد مختلط در دسترس باشند ، می توانید انتظار به وجود آمدن مشکلات را داشته باشید.

حذف URL آدرس فایل robot.txt از نتایج جستجو

برای جلوگیری از ظهور پرونده های robot.txt در نتایج جستجوی Google ، وب مسترها می توانند robot.txt را از طریق robot.txt رد کنند و سپس آن را از طریق Google Webmaster Tools حذف کنند. راه دیگر استفاده از noindex با استفاده از x-robots-tag در عنوان HTTP پرونده robot.txt است.

تأخیر robots.txt Crawl

سایتهایی مانند http://cs.stanford.edu/robots.txt شامل "تأخیر حرکت" در robot.txt هستند اما این موارد توسط گوگل نادیده گرفته نمی شوند. به منظور کنترل دسترسی و حرکت Google ، از ابزارهای Webmaster Google استفاده کنید.

بخش اول مقاله را در اینجا بخوانید