एक nagios सर्वर पर उच्च लोड - एक nagios सर्वर के लिए कितनी सेवा की जाँच बहुत अधिक है?


9

मेरे पास एक नगियोस सर्वर है जो उबंटू को 2.0 गीगाहर्ट्ज इंटेल प्रोसेसर, एक राउड 10 सरणी, और 400 एमबी रैम के साथ चला रहा है। यह 8 होस्ट्स पर कुल 42 सेवाओं की निगरानी करता है, जिनमें से अधिकांश चेक_http प्लगइन का उपयोग करके 5 मिनट, यहां तक ​​कि कुछ मिनटों में भी किए जाते हैं। हाल ही में नगियोस सर्वर पर लोड 4 से ऊपर रहा है, अक्सर 6. जितना अधिक होता है। सर्वर 6 कैचर्स के लिए हर मिनट आंकड़े इकट्ठा करते हुए कैक्टि भी चलाता है।

मुझे आश्चर्य है, इस तरह की कितनी सेवाओं को संभालना चाहिए? क्या लोड इतना अधिक है क्योंकि मैं हार्डवेयर की सीमा को आगे बढ़ा रहा हूं, या क्या यह हार्डवेयर 42 सर्विस चेक और कैक्टि को संभालने में सक्षम होना चाहिए? यदि हार्डवेयर अपर्याप्त है, तो क्या मुझे अधिक रैम, अधिक कोर या तेज कोर जोड़ने के लिए देखना चाहिए? अन्य क्या हार्डवेयर / सेवा की जाँच चल रही है?


सर्वर पर अभी राम का उपयोग कैसा दिखता है? इसके अलावा सीपीयू उपयोग कैसा दिखता है? यदि यह उच्च है तो क्या प्रक्रियाएं इसे बढ़ा रही हैं?

क्या आपने समस्या का समाधान किया? हम एक ही मुद्दे का सामना कर रहे हैं। लोड एवीग 12 है ..
जॉन

जवाबों:


7

आपको यह पता लगाना होगा कि आपकी अड़चन कहां है ...

मैं एक nagios मॉनिटर चलाता हूं जो http, पिंग और ssh चेक के साथ 400+ होस्ट की जांच करता है। (बहुत से अन्य निष्क्रिय चेक और nscd के साथ)

यह RAID10 में 4 एसएएस डिस्क के साथ 2xQuadCore सर्वर पर है।

मुझे संदेह है कि आपको IO विवाद हो सकता है, क्योंकि बहुत सारे rrds पर लिखना बहुत ही अक्षम है।

आपको यह पता लगाने की जरूरत है कि कौन सी प्रक्रिया आपके संसाधनों को ले रही है। (कैक्टि, नागिओस या कुछ और)

IO जाँच के लिए, मुझे iotop पसंद है। Iotop स्थापित करें (8.04 पर 9.04 पैकेज काम करता है)

लेकिन अन्यथा शीर्ष को भी आपके लोड हॉग को खोजने में मदद करनी चाहिए।

एक मिनट में एक बार कैक्टि बहुत आक्रामक है। (मैं 5 मीटर के अंतराल पर खान चलाता हूं)

एक दृष्टिकोण जो मैंने rrd लिखने के विवाद के लिए सुना है वह है अपने rrd स्टोर्स को ramdisk / tmpfs पर रखना। (सुनिश्चित करें कि rsync करने के लिए हर अब और फिर लगातार भंडारण के लिए)

सौभाग्य।


धन्यवाद। मैं इस पर गौर करूंगा। यह शायद कैक्टि का भार पैदा कर रहा है, और मैं देखूंगा कि क्या रैंप को tmpfs में ले जाने का कोई तरीका है। या बस अधिक रैम जोड़ें ताकि सर्वर rrds को बफर कर सके। मुझे डर है कि अगर मैं हर 5 मिनट में कैक्टि चलाता हूं तो केवल 1 या 2 मिनट तक लोड स्पाइक्स हो सकते हैं जो मुझे पूरी तरह से याद होंगे ...
जोश

6

जब तक यह कैक्टि अधिकांश लोड उत्पन्न नहीं कर रहा है, तब तक आपको अपने हार्डवेयर की तुलना में कई अधिक चेक चलाने में सक्षम होना चाहिए।

मैं एक FreeBSD वर्चुअल मशीन पर Microsoft वर्चुअल सर्वर पर चल रहे एक कुत्ते-धीमे पुराने पीसी (Pentium 3 1GHz पर धीमी PATA डिस्क के साथ) पर नागों को चला रहा हूं। वर्चुअल मशीन में केवल 128MB रैम है, और प्रदर्शन सख्त है।

हालाँकि, लोड का औसत लगभग 0.2 है, पूरे 42 होस्ट में 158 चेक चल रहे हैं।


धन्यवाद। काश मैं दोनों उत्तर स्वीकार कर पाता! आपका बहुत मददगार था, यह मुझे इंगित करता है कि कैक्टि शायद अपराधी है।
जोश

2

256MB RAM वाले पुराने PIII पर मैं सक्रिय रूप से 230 विभिन्न सेवाओं की निगरानी कर रहा हूं। वही मशीन हमारे सभी आने वाले फैक्स के लिए MRTG और HylaFAX भी चला रही है और बहुत आराम से कर रही है।


बहुत ही उपयोगी जानकारी। यह मुझे इंगित करता है कि कैक्टि संभवतः अपराधी है, नगियोस नहीं। धन्यवाद!
जोश २

1

आपको उस हार्डवेयर के साथ नगियोस चेक का बोट लोड चलाने में सक्षम होना चाहिए। हम लगभग 70 चेक और नागिओसग्राफ के साथ एक समान सेटअप चलाते हैं - प्रमुख अंतर रैम जोड़ा जाता है (यह सस्ता है, इसलिए मैं बॉक्स को 2Gb तक बढ़ा दूंगा)।

यह देखने के लिए शीर्ष या ps -aux चलाने की कोशिश करें कि क्या CPU अतिभारित है, लेकिन मुझे संदेह है। आप यह देखने के लिए कि क्या आपका इंस्टा उन्हें सीरियल करने के बजाए एक बार में बहुत सारे चेक चलाने की कोशिश कर रहा है, यह देखने के लिए नगिओस समांतरिकीकरण डॉक्स की जांच कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.