20 سال اشتباه در robots.txt که باید از آن اجتناب کنید بخش اول

۱۰ مرداد ۱۳۹۸ بهینه سازی برای موتورهای جستجو

با اینکه سال ها گذشته ، اما بعضی از مردم همچنان به استفاده مجاز و غیرمجاز از robot.txt ادامه می دهند. قبل از پرداختن به اشتباهات رایجrobots.txt مهم است بدانیم چرا در وهله اول استانداردها و پروتکل ها برای طرد ربات ها توسعه یافته اند. در اوایل دهه ۱۹۹۰ ، وب سایت ها از نظر پهنای باند موجود ، بسیار محدودتر از امروز بودند. پس در آن زمان ، برای ربات های خودکار ، هجوم به وب سایت ها از طریق یک وب سرور و مصرف تمام پهنای باند موجود و فلج کردن وبسایت متداول بود. به همین دلیل است که استاندارد محرومیت از ربات در سی ام ماه ژوئن سال 1994 از طریق توافق ایجاد شد.

پروتکل طرد ربات ها به صاحبان سایت این امکان را می دهد که از ربات های خودکار درخواست کنند که فقط در بخش های مشخصی از وب سایت شان حرکت کنند. با کاهش ترافیک ربات ، صاحبان سایت می توانند پهنای باند بیشتری را برای کاربران انسان آزاد کنند ، خرابی و از کارافتادگی را کاهش دهند و به کاربران انسان تضمین دسترسی بدهند. در اوایل دهه 1990 ، صاحبان سایت به مراتب بیشتر از URL هایی که در نتایج جستجو ظاهر می شوند نگران پهنای باند و دسترسی بودند. سایتهای اینترنتی مانند WhiteHouse.gov ، کتابخانه کنگره ، نیسان ، متالیکا و DMV کالیفرنیا بخش هایی از وب سایت را از دسترس روبات های خودکار منع نکرده اند. با استفاده از robot.txt و دستورالعمل غیرمجاز ، وب مسترهای سایتهایی مانند این ، خرابی ها را کاهش داده ، پهنای باند را افزایش داده و به دسترسی انسان کمک می کنند. طی 20 سال گذشته ، این عمل برای تعدادی از وب سایتها ، خصوصا در دوره های اوج ترافیک ، کاملا موفق بوده است. ثابت شد که استفاده از robot.txt ابزار مفیدی برای وب مسترها است؛ با این حال ، آن مشکلاتی را برای موتورهای جستجو ایجاد می کند. به عنوان مثال ، هر موتور جستجوی خوب باید بتواند نتایج کیفیت را برای پرس و جو ها مثل خانه سفید ، metallica، nissanو CA DMV باز گرداند . اگر شما نتوانید صفحه را جابجا کنید ، نتایج کیفیت بازگشتی برای صفحه دشوار است. گوگل برای پرداختن به این مساله ، متنی را در مورد URL ها از منابعی که با robots.txt مجاز نیستند ، استخراج می کند. گوگل این متن را از منابع مجاز گردآوری و آن را با URLها باrobots.txt مجاز می کند . در نتیجه ، گوگل می تواند با استفاده از robots.txt در نتایج جستجو ،URL ها را برگرداند. یکی از اثرات جانبی استفاده از robots.txt این بود که برای تصدی نشانی های اینترنتی مجاز ، رتبه بندی ها برای جستجو در طول زمان کاهش پیدا می کنند. این اثر جانبی ناشی از آن است که گوگل قادر به حرکت و یا تشخیص محتوا در URLهایی باrobots.txt نیست.

برخی از رایج ترین اشتباهاتی است که من با آن مواجه هستیم :

اجرای پرونده robots.txt . گوگل اظهار داشته است که اگر "سایت شما شامل محتوایی باشد که نمی خواهید موتورهای جستجو آن را فهرست بندی کنند" فقط به یک فایل robot.txt نیاز دارید اما اگر می خواهید موتورهای جستجو همه چیز را در سایت خود فهرست بندی کنند ، به ربات احتیاج ندارید. پرونده txt (حتی پرونده خالی) ، در اکثر موقعیت ها بدون استفاده ازURL های robots.txt یا غیرمجاز بهترین راه حل هستند. هنگامی که به استفاده از robots.txt برای غیرفعال کردن URL فکر می کنید ، آن را به عنوان آخرین گزینه خود در نظر داشته باشید. اول موارد دیگر مانند استفاده مجدد از پاسخ 410HTTP ، استفاده از برچسب های noindex و rel = canonical را در نظر بگیرید.

غیرفعال کردن URL ها 24 ساعت قبل

در سال 2000 گوگل یک بار در روز بررسی پرونده های robots.txt را آغاز کرد. قبل از سال 2000 ، Google فقط هفته ای یکبار پرونده هایrobots.txt را بررسی می کرد. در نتیجه ، URL های مجاز از طریقrobots.txt معمولا در طول فاصله هفتگی بین به روزرسانی هایrobots.txt خزیده شده و ایندکس می شوند. امروزه ، گوگل معمولا هر 24 ساعت پرونده هایrobots.txt را بررسی می کند اما نه همیشه. ممکن استGoogle بر اساس هدرهای HTTP حداکثر سن حافظه پنهان ، طول عمر را افزایش یا کاهش دهد. سایر موتورهای جستجو ممکن است بیش از 24 ساعت طول بکشد تا پرونده هایrobots.txt ا بررسی کنند. در هر صورت ، این امکان وجود دارد که محتویات مجاز از طریق robot.txt در طی شکاف بین بررسی robot.txt در طی 24 ساعت اول خزیده شوند. برای جلوگیری از خزیدن صفحات در URL هایی که باید با robot.txt مجاز نشوند ، باید حداقل 24 ساعت قبل URL ها به robot.txt اضافه شوند.

غیرفعال کردن URL با robot.txt برای جلوگیری از ظاهر شدن آن در نتایج جستجو

غیرفعال کردن URL از طریق robot.txt مانع از مشاهده آن توسط جستجوگران در صفحات نتایج جستجو نمی شود. خزیدن و نمایه سازی دو فرآیند مستقل هستند URL هایی که از طریق robot.txt مجاز نیستند ، به عنوان پیوند توسط موتورهای جستجو نمایه می شوند. سپس Google می تواند متن را از منابع دیگر با URL های مجاز ، مجاز کند تا URL های مجاز از طریق robot.txt را در صفحات نتایج جستجو بازگرداند. این کار بدون صفحات خزنده مجاز به robot.txt انجام نمی شود. هنگامی که یک URL قابل ویرایش باشد ، می توانید برچسب های متا noindex ، محافظت از رمز عبور ، هدرهایHTTP-X-Robots-Tag و یا گزینه های دیگر را پیاده سازی کنید. با استفاده از robot.txt ، مجاز به حذف URL صفحاتی که دیگر از نتایج جستجو نیستند ، هستید. گوگل تصور نمی کند که محتوا فقط به این دلیل که دیگر در دسترس موتورهای جستجو نیست ، دیگر وجود داشته باشد. استفاده از robot.txt برای غیرفعال کردن نشانی اینترنتی صفحاتی که ایندکس شده اند اما دیگر وجود ندارد ، مانع از تشخیص Google از حذف صفحه می شود. در نتیجه ، این URL ها دقیقا مانند هر URL غیر مجاز دیگری تحت درمان قرار می گیرند و احتمالا مدتی در نتایج جستجو خواهند ماند. برای اینکه Google بتواند صفحات قدیمی را از نتایج جستجو به سرعت حذف کند ،Googlebot باید بتواند صفحه را خزنده کند. تا زمانی که Google تشخیص دهد که محتوا حذف شده است ، داده های مربوط به کلمات کلیدی و پیوندی برای این صفحات همچنان در ابزارهای Webmaster Google ظاهر می شوند. هنگامی که صفحات از یک وب سایت حذف شده و باید از صفحات نتایج جستجو حذف شود ، به موتورهای جستجو اجازه دهید صفحات را ببیند و یک پاسخ 410HTTP را برگرداند. اخیرا با استفاده از این روش توانستیم 150 هزار صفحه از نتایج جستجو حذف کنیم.

غیرفعال کردن URL هایی که با robot.txt هدایت می شوند

غیرفعال کردن نشانی اینترنتی که هدایت می شود (پاسخ 301 یا 302HTTP یا MetaRefreshes را برمی گرداند) به URL دیگری باز می کند ، موتورهای جستجو را از تشخیص مسیر ، باز می دارد. از آنجا که پرونده robot.txt محتوا را از فهرست های موتورهای جستجو حذف نمی کند ، غیرفعال کردن URL که جهت URL را تغییر مسیر می دهد به طور معمول منجر به نشانی اینترنتی اشتباه در نتایج جستجو می شود. این به نوبه خود باعث می شود که داده های تحلیلی حتی بیشتر خراب شود. برای اینکه ریدایرکت ها به درستی توسط موتورهای جستجو انجام نشود و تحلیل های پیچیده ای انجام نشود ، URL های هدایت شده باید برای موتورهای جستجو قابل دسترسی بوده و از طریق robot.txt مجاز نباشند.

بخش دوم مقاله را در اینجا بخوانید