नेटवर्क थ्रूपुट समस्या (ARP- संबंधित)


9

जिस छोटे से कॉलेज में मैं काम करता हूं वहां कुछ बहुत ही अजीब नेटवर्क समस्याएँ हैं। मैं यहाँ किसी भी सलाह या विचारों की तलाश कर रहा हूँ। हम गर्मियों में ठीक थे, लेकिन छात्रों के गिरने की स्थिति में कैंपस लौटने के कुछ दिनों बाद यह परेशानी शुरू हुई।

लक्षण

मुख्य लक्षण यह है कि इंटरनेट एक्सेस काम करेगा, लेकिन यह बहुत धीमा है ... अक्सर टाइमआउट के बिंदु तक। एक उदाहरण के रूप में, Speedtest.net से एक विशिष्ट परिणाम .4Mbps डाउनलोड आएगा, लेकिन 3 से 8 एमबीपीएस अपलोड गति की अनुमति देगा। कम लक्षणों में गंभीर रूप से सीमित प्रदर्शन डेटा को हमारे फ़ाइल सर्वर से या यहां तक ​​कि कुछ मामलों में भी कंप्यूटर में लॉग इन करने में असमर्थता (डोमेन नियंत्रक तक नहीं पहुंचना) शामिल हो सकती है। समस्या कई vlans को पार करती है, और हमारे द्वारा संचालित लगभग प्रत्येक स्वर पर उपकरणों को प्रभावित करती है।

समस्या नेटवर्क पर सभी मशीनों को प्रभावित नहीं करती है। एक अप्रभावित मशीन को आमतौर पर speedtest.net से कम से कम 11Mbps डाउनलोड दिखाई देगा , और शायद उस समय बड़े परिसर ट्रैफ़िक पैटर्न के आधार पर बहुत अधिक।

बड़े मुद्दे पर एक भिन्नता है। हमारे पास एक वलान है जहां उपयोगकर्ता लगभग सभी मशीनों में प्रवेश करने में असमर्थ थे। आईटी कर्मचारी एक स्थानीय व्यवस्थापक खाते (या कुछ मामलों में कैश की गई क्रेडेंशियल्स) का उपयोग करके लॉग इन करेंगे, और वहां से प्रवेश / नवीनीकरण या गेटवे को पिंग करने से मशीन को काम करने की अनुमति मिलेगी ... थोड़ी देर के लिए। इस समस्या की शिकायत यह है कि यह vlan हमारे कंप्यूटर लैब्स को कवर करता है, जो रिबूट के बाद हार्ड ड्राइव को पूरी तरह से रीसेट करने के लिए डीप फ्रीज नामक सॉफ्टवेयर का उपयोग करता है। यह सिर्फ एक ही मुद्दा है कि मशीनों पर बासी डेटा के कारण अलग-अलग प्रकट हो सकता है जो हफ्तों के लिए स्थायी रूप से निम्न-स्तर की जानकारी को बदल नहीं रहे हैं। हम इसे हल करने में सक्षम थे, हालांकि, एक नया वलान बनाकर और प्रयोगशालाओं को नए वलान थोक में स्थानांतरित कर दिया।

Instigations

आखिरकार हमने देखा कि सभी प्रभावित मशीनों में हाल ही में dhcp पट्टे थे। हम यह अनुमान लगा सकते हैं कि एक मशीन जब धीमे-धीमे पट्टे के नवीनीकरण के लिए आती है, तो यह देखकर "धीमी" हो जाएगी। हमने टेस्ट वलान के लिए लीज का समय बहुत कम निर्धारित करने के साथ खेला, लेकिन जब मशीन धीमी हो जाएगी तो भविष्यवाणी करने की हमारी क्षमता को हटा दिया गया। स्थैतिक आईपी के साथ मशीनों ने हमेशा सामान्य रूप से काम किया है। किसी पते को मैन्युअल रूप से जारी / नवीनीकृत करने से कभी भी मशीन धीमी नहीं होगी । वास्तव में, कुछ मामलों में यह प्रक्रिया तय हो गई हैउस अवस्था में एक मशीन। हालांकि, ज्यादातर समय, यह मदद नहीं करता है। हमने यह भी देखा कि लैपटॉप जैसे मोबाइल मशीन के नए vlans के पार जाने पर धीमा होने की संभावना है। कैंपस में वायरलेस को "ज़ोन" में विभाजित किया गया है, जहां प्रत्येक ज़ोन इमारतों के एक छोटे समूह के लिए मैप करता है। एक नए भवन में जाने से आप एक क्षेत्र में रख सकते हैं, जिससे आपको एक नया पता मिल जाएगा। स्लीप मोड से फिर से शुरू होने वाली मशीन भी धीमी होने की बहुत संभावना है।

mitigations

कभी-कभी, लेकिन हमेशा नहीं, एक प्रभावित मशीन पर arp कैश को साफ़ करने से यह फिर से सामान्य रूप से काम करने की अनुमति देगा। जैसा कि पहले ही उल्लेख किया गया है, किसी स्थानीय मशीन के आईपी पते को जारी / नवीनीकृत करना उस मशीन को ठीक कर सकता है, लेकिन इसकी गारंटी नहीं है। डिफ़ॉल्ट गेटवे को पिंग करना भी कभी-कभी धीमी मशीन की मदद कर सकता है।

इस समस्या को कम करने के लिए सबसे अधिक मदद करने के लिए क्या लगता है हमारे कोर परत -3 स्विच पर arp कैश समाशोधन है। यह स्विच हमारे dhcp सिस्टम के लिए सभी vlans पर डिफ़ॉल्ट गेटवे के रूप में उपयोग किया जाता है, और यह इंटर-वलान रूटिंग को संभालता है। मॉडल एक 3Com 4900SX है। समस्या को कम करने का प्रयास करने के लिए, हमारे पास कैश टाइमआउट को स्विच पर सेट करने के लिए सभी संभव सबसे कम समय पर सेट है, लेकिन यह मदद नहीं करता है। मैंने एक स्क्रिप्ट भी रखी जो स्वचालित रूप से स्विच से कनेक्ट करने और कैश को रीसेट करने के लिए हर कुछ मिनटों में चलती है। दुर्भाग्य से, यह हमेशा काम नहीं करता है, और यहां तक ​​कि कुछ मशीनों को थोड़े समय के लिए धीमी स्थिति में समाप्त करने का कारण बन सकता है (हालांकि ये कुछ मिनटों के बाद खुद को सही करने लगते हैं)। वर्तमान में हमारे पास एक अनुसूचित नौकरी है जो कोर स्विच को एआरपी कैश को साफ़ करने के लिए मजबूर करने के लिए हर 10 मिनट चलती है, लेकिन यह एकदम सही या वांछनीय है।

प्रजनन

अब हमारे पास एक परीक्षण मशीन है जिसे हम अपनी इच्छा के अनुसार धीमी अवस्था में ले जा सकते हैं। यह हमारे प्रत्येक vlans के लिए स्थापित बंदरगाहों के साथ एक स्विच से जुड़ा हुआ है। हम अलग-अलग vlans से कनेक्ट करके मशीन को धीमा करते हैं, और एक नए कनेक्शन या दो के बाद यह धीमा हो जाएगा।

इस खंड में यह भी ध्यान देने योग्य है कि यह पूर्व की शर्तों के शुरू होने से पहले हुआ है, लेकिन अतीत में समस्या कुछ दिनों के बाद ही दूर हो गई है। इससे पहले कि हम बहुत अधिक नैदानिक ​​कार्य करने का मौका देते, खुद को हल कर लेते ... इसलिए हमने इसे इस समय के दौर में इतना लंबा खींचने की अनुमति दी है; उम्मीद थी कि यह एक अल्पकालिक स्थिति होगी।

अन्य कारक

यह ध्यान देने योग्य बात है कि हमारे पास पिछले वर्ष की तुलना में लगभग आधा दर्जन स्विच हैं। ये मुख्य रूप से 2003/2004-युग 3Coms (ज्यादातर 4200) हैं जो सभी एक ही समय में डाले गए थे। उन्हें अभी भी वारंटी के तहत कवर किया जाना चाहिए, खरीदें एचपी ने सेवा को कुछ हद तक मुश्किल बना दिया है। ज्यादातर बिजली की आपूर्ति में जो विफल रहे हैं, लेकिन कुछ मामलों में हमने एक असफल मेनबोर्ड के साथ एक स्विच से एक बिजली की आपूर्ति का उपयोग किया है, एक असफल बिजली की आपूर्ति के साथ स्विच को जीवन में वापस लाने के लिए। हमारे पास अब यूपीएस डिवाइस हैं, लेकिन तीन में से तीन स्विच करते हैं, लेकिन यह तब नहीं था जब मैंने ढाई साल पहले शुरू किया था। गंभीर बजट बाधाएं (हम कुछ साल पहले एड की आर्थिक रूप से अक्षम संस्थानों की सूची में थे) ने मुझे प्रतिस्थापन के लिए नेटगियर और ट्रेंडनेट की पसंद को देखने के लिए मजबूर किया है।

यह भी उल्लेखनीय है कि हमारे नेटवर्क पर इस साल गर्मियों में एक बड़ा बदलाव एक एकल क्रॉस-कैंपस वायरलेस एसएसआईडी से पहले से उल्लेखित ज़ोनड दृष्टिकोण से पलायन कर रहा था। मुझे नहीं लगता कि यह इस मुद्दे का स्रोत है, जैसा कि मैंने कहा है: हमने इसे पहले देखा है। हालाँकि, यह संभव है कि यह समस्या को बढ़ा रहा है, और इसे अलग करने के लिए बहुत कठिन कारण हो सकता है।

निदान

पहले तो यह हमारे लिए स्पष्ट था, समस्या के समय और लगातार प्रकृति को देखते हुए, कि समस्या का स्रोत एक संक्रमित (या दुर्भावनापूर्ण) छात्र मशीन था जो एआरपी कैश पॉइज़निंग कर रहा था। हालांकि, स्रोत को अलग करने के बार-बार प्रयास विफल रहे हैं। उन प्रयासों में कई वायरशर्क पैकेट निशान शामिल हैं, और यहां तक ​​कि पूरी इमारतों को संक्षिप्त अवधि के लिए ऑफ़लाइन भी ले जाना है। हम एक धूम्रपान बंदूक खराब एआरपी प्रविष्टि खोजने में भी सक्षम नहीं हैं। मेरा वर्तमान सबसे अच्छा अनुमान एक अतिभारित या असफल कोर स्विच है, लेकिन मुझे इस पर यकीन नहीं है कि इसके लिए कैसे परीक्षण करना है, और इसे नेत्रहीन रूप से बदलने की लागत खड़ी है।

फिर, किसी भी विचार की सराहना की।

अद्यतन:
कोर स्विच को बदल दिया गया है। 4 दिनों के बाद, सब कुछ ठीक चल रहा है ... लेकिन मैं इस मुद्दे को हल करने से पहले दो सप्ताह के लिए प्रतीक्षा करूंगा।


क्या आप प्रभावित मशीनों पर पैकेट का नुकसान देख रहे हैं? यदि हां, तो पैकेट का नुकसान कहां होता है? mtrयहाँ मददगार हो सकता है।
ईईएए

3
यह संदेहास्पद रूप से लगता है जैसे कि आपका कोई स्विच दोषपूर्ण है, अपने arp-tables को दूषित कर रहा है और दूषित प्रविष्टियों को अन्य स्विच में प्रचारित कर रहा है। इसलिए आंशिक राहत तब मिलती है जब टेबल L3 कोर पर साफ हो जाती हैं। समस्या निवारण के आगे के प्रयासों से पहले मैं आपको सभी स्विच रीसेट करने की जोरदार सलाह देता हूं। थोड़े से भाग्य से यह समस्या पूरी तरह से दूर हो जाती है। यदि कोई स्विच वास्तव में दोषपूर्ण है, तो यह रिबूट के बाद अपने पावर-ऑन डायग्नोस्टिक्स में उम्मीद को विफल करता है। पावर-ग्रिड में PS थोड़ा उतार-चढ़ाव इसका प्रभाव डाल सकता है। यदि आपके स्विच यूपीएस पर नहीं हैं जो मूल कारण हो सकते हैं।
टन

@ एरिकए हम कुछ पैकेट नुकसान है। मैं देखूंगा कि क्या मुझे बेहतर ट्रेस मिल सकता है ... लेकिन कैंपस में हर स्थान से पैकेट का नुकसान होता है, जिसका अर्थ है कि केवल सामान्य कनेक्शन बिंदु कोर स्विच और हमारे सर्वर से जुड़ा स्विच है।
जोएल कोएल सेप

1
@Tonny हमने समस्या निवारण के भाग के रूप में कम से कम दो बार सभी (अच्छी तरह से, लगभग सभी) को रीसेट कर दिया है। यह एक दिन / डेढ़ दिन के लिए शिकायतों को कम करने (समाप्त नहीं करने) के लिए प्रतीत होता है। हमारे पास लगभग 40 स्विच यूनिट हैं, जिनमें सभी या तीन या चार के लिए यूपीएस डिवाइस हैं। यहां मुख्य बात यह है कि हमारे सभी स्विच एक ही समय में स्थापित किए गए थे, और पिछले वर्ष में हमारी 6 एकमुश्त विफलताएं हैं, इसलिए उस पर बहुत अधिक विश्वसनीयता है।
जोएल कोएल सेप

1
मेरे पास कोई 3com अनुभव नहीं है, लेकिन शायद एक दिए गए पोर्ट से सीखे गए मैक पतों की संख्या को सीमित करने का एक तरीका है। छात्र मशीनों के लिए सभी पहुंच बंदरगाहों पर आप ऐसा कर सकते हैं, जब कोई मैक बाढ़ को आपके स्विच को हब में बदल रहा है।
बैड डॉस

जवाबों:


2

जोएल,

चूंकि आपके पास ट्रंक सेटअप है और वसीयत में मुद्दे की नकल कर सकते हैं। एक लैपटॉप और दर्पण पर Wireshark स्थापित करें / एक अपलिंक पोर्ट फैलाएं। यदि आपको अधिकतम गति के पास 10,000 या पोर्ट उपयोग के पैकेट दर दिखाई देता है तो आपको समस्या है।

आपके पास खराब हार्डवेयर / फैले हुए पेड़ का मुद्दा हो सकता है। आम तौर पर मैंने पाया है कि उपयोगकर्ता अपनी मशीन पर दोनों nics में "अधिक थ्रूपुट प्राप्त करने के लिए" प्लग कर रहे हैं।

आम तौर पर स्पैनिंग के पेड़ के मुद्दों के लिए आप अपने विक्रेता से प्रति पोर्ट पर लूप का पता लगाने या प्रसारण को चालू कर सकते हैं। यह लूप पाए जाने वाले किसी भी पोर्ट को मार देगा। आप "bpdu सुरक्षा" को भी चालू कर सकते हैं, जिसका अर्थ है कि bpdu को पोर्ट को निष्क्रिय करना और syslog / snmp trap रिसीवर्स में कोई त्रुटि है।

जो


1

मैंने पहले भी इसी तरह के मुद्दों को देखा है और यह लैन में एक लूप रहा है, जो पूरे सबनेट की अराजकता और संतृप्ति का कारण बनता है (संभवतः प्रसारण ट्रैफ़िक से स्विच के कारण यह एक अतिरिक्त पोर्ट पर स्वयं मैक है)।

संपादित करें: इसके अलावा, यह शैक्षिक प्रतिष्ठानों (मेरे पिछले sysadmin नौकरियों में से दो) के रूप में थोड़ा darlings पैच केबल / सॉकेट के साथ गड़बड़ करने के लिए पसंद है ...


हमने इसके लिए बहुत समय बिताया, लेकिन अंततः इसे समाप्त कर दिया।
जोएल कोएल

0

मुझे लगता है जैसे आपको कुछ खराब हार्डवेयर मिले हैं जो प्रसारण तूफान का कारण बनते हैं। प्रसारण देखने के लिए Wireshark का उपयोग करें और एक मेजबान ढूंढें जो आपको परेशानी देता है ...


यह बहुत संभावना नहीं है अगर कुछ मशीनें ठीक काम करती हैं और अन्य नहीं करते हैं। एक प्रसारण तूफान कुछ ही समय में पूरे VLAN को अपने घुटनों पर ला देगा।
पॉल गियर

0

जो का विचार एक अच्छा है, लेकिन यह देखते हुए कि यह आपके मुद्दे को बनाने वाला प्रसारण तूफान होने की संभावना नहीं है (मुझे लगता है कि आप एआरपी कैश पॉइज़निंग या इसी तरह के मुद्दे के साथ सही रास्ते पर हैं; यह एक आईपी पता संघर्ष भी हो सकता है); यह शायद समस्या को हल नहीं करेगा।

गतिशील एआरपी और डीएचसीपी निरीक्षण का उपयोग करने के लिए एक संबंधित तकनीक, यदि आपके स्विच इसका समर्थन करते हैं। यदि आप इसे चालू करते हैं, तो स्विच डीएचसीपी लेनदेन को देखेंगे, और केवल एआरपी प्रविष्टियों को अनुमति देंगे जो डीएचसीपी डेटाबेस में ज्ञात प्रविष्टियों से मेल खाते हैं, या जिन्हें आपने मैन्युअल रूप से निर्दिष्ट किया है।

यदि आपके स्विच में यह सुविधा नहीं है, तो इसे नीचे ट्रैक करने के लिए एक अन्य विकल्प लिनक्स उपयोगिता आर्कवॉच है - यह सभी एआरपी अनुरोधों पर नज़र रखता है और आपको बताता है कि यह आईपी-मैक मैपिंग परिवर्तन कब नोटिस करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.