קובץ robots.txt הינו קובץ המורה לתוכנות סריקה (רובוטי סריקה) מצד מנועיי החיפוש השונים איך לאנדקס או איך לא לאנדקס אתר ווב נתון שעובר סריקה.
מטרה
במקרים מסוימים קובץ robots.txt יכול לסייע לתהליך קידום אורגני דרך הנחיות אינדוקס יעילות של אתר ווב נתון.
מיקום
כלל מפתחי מנועי החיפוש הווביים מציעים לשים בתיקיית הבית של אתר ווב.
הקובץ חייב להיות מושם בתיקיית הבית (תיקיית השורש) של אתר ווב, אחרת ככלל, תוכנות סריקה יתעלמו ממנו.
לכן, ככלל ניתן לגשת אליו מ URL כגון example.com/robots.txt
.
דוגמת קוד פשוטה ← מניעת אינדוקס של כל הדפים עם רכיב שביל-ווב מסוים
User-agent: * Disallow: /somewhat_private/
קוד זה מורה לא לאנדקס כל דף שכולל ב-URL שלו את רכיב שביל ווב ששמו somewhat_private
דוגמת קוד פשוטה ומסוכנת ← מניעת אינדוקס של כל הדפים באתר ווב מסוים
User-agent: * Disallow: /
קוד זה מורה לתוכנת סריקה להימנע מלאנדקס כל דף באתר ווב מסוים ומשמשת מפתחי אתרי ווב בעת פיתוח אונליין (על סביבת שרתים הזמינה און ליין; תופעה נדירה אך פרקטית במקרי פיתוח פרוייקט אשר אספקט פיתוח התוכנה בהם מינורי).
עבודה עם קבצי robots.txt באתרים עם short URLs ובאתרים עם long URLs
עבודה עם קבצי robots.txt באתרים עם short URLs ובאתרים עם long URLs יכולה להשתנות בהתאם לסוג כללי שכזה של URLs אבל באופן כללי היא קשה יותר ומצריכה קוד ארוך יותר, במיוחד אם הקוד כולל תווים מקודדים בעצמם (כמו שמות URLs בעברית או בשפת RTL) אך מכיוון שבעשור השלישי של שנות ה-2000 short URLs הם סטנדרט במערכות ניהול תוכן הרי שאני מציע לא לדאוג מכך.
הערות כלליות
- הביטוי User-agent פירושו סוכן משתמש.
- יש להימנע מהשמת כוכבית (
*
) לאחר סלש קדימה (forward slash ---/
אחרי פקודת Disallow. - שפות TPB פירושו שפות Top To Botoom הנכתבות מלמעלה למטה כמו מונגולית עתיקה (משמשת באתרים מסוימים במונגולית).