עכבת סריקה (באנגלית: Crawling inhibition) אני מגדיר כעכבה חלקית בהקשר סריקת דף ווב אחד או יותר באתר ווב נתון.
סיבתיות
הסיבתיות לרצות להגביל במידת מה (שאיננה מוחלטת) את הסריקה של אתר ווב היא נדירה ואם היא בכלל קיימת, בדרך כלל זה יידרש לאתרים גדולים של מיליוני דפים והמון קישורים חיצוניים (בקלינקס) שמקשרים אליהם; כלומר, יש יותר בקלינקס מדפים כקריטריון מינימלי ובכל מקרה טראפיק לא סביר.
המון סריקה תכביד על סביבת שרתים אשר עליה מאוחסן אתר הווב ולכן בצירוף טראפיק עצום, הדבר יכול לגרום לעומס ולקריסות (השרת מגיע לקצה גבול יכולת ולא יכול לספק |תגובות שרת בהתאם לבקשת שרת ותגובת שרת|בקשות שרת).
דוגמת קוד
קוד עכבת סריקה אלמנטרי בקובץ robots.txt יהיה למשל:
crawl-delay: 10
הנחיה זו ממליצה לתוכנת סריקה של מנוע חיפוש נתון (כגון גוגל או בינג) לסרוק דף, להמתין 10 שניות ואז לסרוק דף נוסף וחוזר חלילה;
מכאן, ככלל, תוכנת סריקה שאכן מתייחסת לכלל זה ומפענחת אותו ככתבו תסרוק לכל היותר 6 דפים ל-60 שניות ← לפי החילוק 60 שניות חלקי 10 ולכן 360 דפים לשעה, 8640 ליום ועל זה הדרך בשל הכפלה ב-60 בכל שלב בחישוב.
ככל שערך משתנה עכבת הסריקה נמוך יותר, כך תוכנת סריקה שמפענחת אותו ככתבו, תוכל לסרוק יותר דפים. כך למשל:
אם ערך משתנה עכבת הסריקה היה 1 ולא 10, אזי תוכנת הסריקה תסרוק דף עם המתנה של שנייה בין כל דף, כלומר 30 דפים ב-60 שניות, בערך.
הסתייגות
יצוין כי לא כל תוכנת סריקה בהכרח תתייחס להנחיית עכבת סריקה או לא בכל מצב ← איזו תוכנת סריקה תפענח איך, אם בכלל, את איזו הנחייה, לגמרי תלוי בצוות הפיתוח של מנוע החיפוש שכולל את תוכנת הסריקה. כאמור, ייתכן ובינה מלאכותית אף תהווה חלופה כפויה להנחייה זו.
מניסיוני נכון לשנת 2020 ירד קרנן של עכבות סריקה; בשל שיפור ביצועי תוכנה הן באתרים והן בתוכנות הסריקה נדיר מאד ואף מסוכן מאד להשתמש בהן והדבר מתרחש רק לעתים נדירות באתרים עם גדלים עצומים נדירים שמכילים מיליוני דפים וחווים כמויות אדירות (מאות מיליונים ואף מליארדים) בהקשר כניסות חודשיות.
היעדר השפעה אפשרי
לדעתי חשוב לסייג לגמרי ולאמר שכל תוכנת סריקה יכולה, דרך בינה מלאכותית להתעלם לגמרי מעכבת סריקה או לפענח אותה בצורה מגוונת ואף דרך ליצור עכבת סריקה משל עצמה אם האתר יעלה איטי מדי שתישאר תקפה ביחס לאותו אתר עד אשר ביצועי הווב של האתר ישתפרו.
לכן, יש לזכור שעכבת סריקה אולי כלל לא תהיה אפקטיבית אך אם רוצים להגביל חלקית סריקת אתר, בתור עיקרון כן טוב להשתמש בכלי זה, אך שימוש בו אמור להיות זהיר ביותר שכן שימוש שגוי יכול להיות מסוכן לקידום אורגני, לפחות לגבי מנועי חיפוש ספציפיים.
מאז שנת 2020 בערך אפשר להניח שעכבות סריקה הפכו די מיותרות בשל שיפור תוכנות סריקה וכן בשל הסבירות שתוכנות שרת יכולות לתקשר טוב יותר עם תוכנות סריקה.
הערות כלליות
- אין חובה לדבר רק על דפי ווב וניתן לדבר על דפים מאונדקסים בכללי, אם כי טרם נתקלתי בעכבת סריקה במנועי חיפוש שלא קשורים בדפי ווב
- באם אתר הוא אתר קטן או בינוני (מאות או אלפי או רבבות או כמה מאות אלפי משתמשים בחודש) אין כל טעם בשימוש בעכבת סריקה והשימוש בה, פוטנציאלית, מזיק ומסוכן ביותר לקידום אורגני