गतिशील रूप से अत्यधिक HTTP बैंडविड्थ उपयोग को रोकना?


24

4 जून के वेब ट्रैफ़िक के लिए हमारे Cacti रेखांकन पर हमें यह देखकर थोड़ा आश्चर्य हुआ :

हमने अपने IIS लॉग पर लॉग पार्सर को चलाया और यह याहू और Google बॉट्स की सही तूफान था। आउच?

जबकि हम Google या Yahoo को ब्लॉक नहीं करना चाहते, यह पहले आ चुका है। हमारे पास एक सिस्को PIX 515E तक पहुंच है , और हम इसे सामने रखने के बारे में सोच रहे हैं ताकि हम सीधे अपने वेब सर्वर को छूने के बिना बैंडविड्थ अपराधियों से निपट सकें।

लेकिन क्या यह सबसे अच्छा समाधान है? मैं सोच रहा था कि क्या कोई सॉफ्टवेयर या हार्डवेयर है जो हमें अत्यधिक बैंडविड्थ उपयोग को पहचानने और ब्लॉक करने में मदद कर सकता है , आदर्श रूप से वास्तविक समय में? शायद कुछ बिट हार्डवेयर या ओपन-सोर्स सॉफ्टवेयर हम अपने वेब सर्वर के सामने रख सकते हैं?

हम ज्यादातर एक विंडोज़ शॉप हैं लेकिन हमारे पास कुछ लिनक्स कौशल भी हैं; यदि PIX 515E पर्याप्त नहीं है, तो हम हार्डवेयर खरीदने के लिए भी खुले हैं। आप क्या सुझाव देंगे?

जवाबों:


23

यदि आपका PIX OS के संस्करण 7.2 या अधिक पर चल रहा है, या इसे अपग्रेड किया जा सकता है, तो आप फ़ायरवॉल स्तर पर QOS नीतियों को लागू कर सकते हैं। विशेष रूप से यह आपको ट्रैफ़िक को आकार देने की अनुमति देता है और आपको बॉट्स द्वारा उपयोग किए जाने वाले बैंडविड्थ को सीमित करने की अनुमति देनी चाहिए। सिस्को के पास यहां एक अच्छी गुडी है


मेरे पास इस उत्तर के साथ एकमात्र मुद्दा यह है कि पोस्टर Google या याहू को ब्लॉक (या नीचा) नहीं करना चाहता है, बल्कि उन्हें "क्रॉल अच्छा" करना चाहता है।
KPWINC

1
QOS अवरुद्ध करने के बारे में नहीं है। यही कारण है कि सैम कोगन ने लिखा है "आपको बॉट्स द्वारा उपयोग किए जाने वाले बैंडविड्थ को सीमित करने की अनुमति देनी चाहिए "।
पियोत्र डोब्रोगोस्ट

9

मैं याहू के बारे में निश्चित नहीं हूं, लेकिन आप अपनी साइट की आवृत्ति Google के बॉट इंडेक्स को कॉन्फ़िगर कर सकते हैं। Google वेबमास्टर्स पर एक नज़र डालें । मुझे यकीन नहीं है कि याहू में भी कुछ ऐसा ही है। किसी भी समय वह आपके ट्रैफ़िक को 50% तक कम कर देगा।

वैकल्पिक रूप से, कुछ वेब सर्वर प्रति कनेक्शन ट्रैफ़िक को सीमित कर सकते हैं ताकि आप यह कोशिश कर सकें। मैं व्यक्तिगत रूप से हार्डवेयर समाधान से दूर रहूंगा क्योंकि यह सबसे अधिक लागत की संभावना है।


याहू! साइट एक्सप्लोरर है।
आमोक

9

क्रॉलिंग लोड को कम करने के लिए - यह केवल माइक्रोसॉफ्ट और याहू के साथ काम करता है। Google के लिए, आपको उनके वेबमास्टर टूल्स ( http://www.google.com/webmasters/ ) के माध्यम से धीमी रेंगने की गति निर्दिष्ट करनी होगी ।

इसे लागू करते समय बहुत सावधान रहें क्योंकि यदि आप क्रॉल को बहुत धीमा कर देते हैं, तो रोबोट आपकी सभी साइट पर नहीं पहुंच पाएंगे, और आप इंडेक्स से पेज खो सकते हैं।

यहां कुछ उदाहरण दिए गए हैं (ये आपकी robots.txtफ़ाइल में जाते हैं):

# Yahoo's Slurp Robot - Please wait 7 seconds in between visits

User-agent: slurp
Crawl-delay: 7

# MSN Robot - Please wait 5 seconds in between visits

User-agent: msnbot
Crawl-delay: 5

थोड़ा ऑफ़-टॉपिक, लेकिन आप साइटमैप या साइटमैप इंडेक्स फ़ाइल भी निर्दिष्ट कर सकते हैं।

यदि आप अपने सर्वश्रेष्ठ URL की व्यापक सूची के साथ खोज इंजन प्रदान करना चाहते हैं, तो आप एक या एक से अधिक साइटमैप ऑटोडीस्कोप निर्देश भी प्रदान कर सकते हैं। कृपया ध्यान दें कि उपयोगकर्ता-एजेंट इस निर्देश पर लागू नहीं होते हैं, इसलिए आप इसका उपयोग कुछ खोज इंजनों पर नहीं बल्कि कुछ साइटमैप को निर्दिष्ट करने के लिए कर सकते हैं।

# Please read my sitemap and index everything!

Sitemap: http://yourdomain.com/sitemap.axd

4

हम एक वॉचगार्ड फ़ायरवॉल का उपयोग करते हैं (हमारा एक X1000 है जो अब जीवन का अंत है)। उनके पास कई डोमेन हैं जो अवरुद्ध समय या समय पर देखे जाने वाले डोमेन या ips के चारों ओर घूमते हैं और एक बैंडविड्थ राशि का उपयोग कर रहे हैं।

इसके लिए कुछ ट्विकिंग की जरूरत होगी क्योंकि आप obvisouly को स्टिकओवरफ़्लो पर जॉन स्कीट को ब्लॉक नहीं करना चाहेंगे :)


3

मैं Microsoft ISA सर्वर 2006 की सिफारिश करूंगा। विशेष रूप से इस आवश्यकता के लिए, यह डिफ़ॉल्ट रूप से 600 HTTP अनुरोध / आईपी प्रति मिनट तक सीमित होगा और आप जॉन स्कीट के लिए एक अपवाद लागू कर सकते हैं (क्षमा करें, मुझे पता है कि "मजाक" पहले से ही बनाया गया है! )।

आपके पास एप्लिकेशन-स्तरीय फ़िल्टरिंग, कई वेबसर्वरों में लोड-बैलेंस करने की क्षमता (उन सर्वरों पर NLB के बजाय), वीपीएन समाप्ति आदि उपलब्ध हैं। कई वाणिज्यिक एक्सटेंशन उपलब्ध हैं और आप अपना ISAPI फ़िल्टर भी लिख सकते हैं यदि आप बहादुर महसूस कर रहे हैं।

यह स्पष्ट रूप से ओपन-सोर्स नहीं है, लेकिन विंडोज शॉप के लिए लाभ है और कमोडिटी हार्डवेयर पर चलता है।


यह संशोधित लचीलेपन के साथ-साथ Revig robots.txt
जिम बी

धन्यवाद। मैं मानता हूँ कि क्रॉलरों को कुछ दिशा देने की आवश्यकता है!
रॉबिन एम

2

हम इस तरह के आकार देने वाले मुद्दे को संभालने के लिए फाउंड्री लोड-बैलेन्सर (विशेष रूप से SI850s) का उपयोग करते हैं, यह SYN-बाढ़ आदि जैसे अन्य बहुत सारे 'नस्ति' को भी संभालता है।


2

Bluecoat (पूर्व में पैक करने वाला) PacketShaper उत्पाद गतिशील रूप से ट्रैफ़िक पर अत्यधिक उपयोग को नियंत्रित कर सकता है जो इसे प्रबंधित करता है।


1

तुम भी किसी भी सभ्य क्षमता / विंटेज के किसी भी नियमित सिस्को रूटर के साथ अल्पविकसित दर-सीमित प्रदर्शन कर सकते हैं। क्या आप सिस्को राउटर का उपयोग कर रहे हैं?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.