भौगोलिक रूप से वितरित, गलती-सहिष्णु और "बुद्धिमान" अनुप्रयोग / मेजबान निगरानी प्रणाली

अभिवादन,

मैं वितरित निगरानी प्रणालियों पर सामूहिक राय और विचार पूछना चाहता हूं, आप क्या उपयोग करते हैं और आप क्या जानते हैं कि मेरे बक्से पर टिक हो सकता है?

आवश्यकताएँ काफी जटिल हैं;

असफलता का एक भी बिंदु नहीं। वास्तव में। मैं गंभीर हूँ! एकल / एकाधिक नोड विफलता को सहन करने में सक्षम होने की आवश्यकता है, दोनों 'मास्टर' और 'कार्यकर्ता' और आप मान सकते हैं कि किसी भी निगरानी स्थान ("साइट") में कई नोड नहीं हैं, या एक ही नेटवर्क पर हैं। इसलिए यह शायद पारंपरिक HA तकनीकों जैसे DRBD या Keepalive को नियंत्रित करता है।
वितरित तर्क, मैं कई नेटवर्कों पर और कई महाद्वीपों पर, कई नेटवर्कों पर 5+ नोड्स तैनात करना चाहता हूं। मैं अपने नेटवर्क के "बर्ड्स आई" दृश्य और अपने ग्राहकों के दृष्टिकोण से आवेदन चाहता हूं, मॉनिटरिंग लॉजिक के लिए बोनस अंक जब आपके पास 50+ नोड्स, या यहां तक कि 500+ नोड्स नहीं होते हैं।
बॉलपार्क के आंकड़े 1500-2500 मेजबानों और प्रति मेजबान 30 सेवाओं के लिए एक उचित नागो / मेजबान चेक की एक उचित संख्या को संभालने में सक्षम होने की आवश्यकता है। यह वास्तव में अच्छा होगा यदि अधिक निगरानी नोड्स जोड़ने से आपको अपेक्षाकृत रैखिक रूप से स्केल करने की अनुमति मिलती है, शायद 5 साल के समय में मैं प्रति होस्ट 5000 होस्ट और 40 सेवाओं की निगरानी करना चाहूंगा! 'वितरित तर्क' के बारे में ऊपर मेरे नोट से जोड़ना यह कहना अच्छा होगा:
- सामान्य परिस्थितियों में, इन जांचों को मॉनिटरिंग नोड्स के $ n या n% पर चलना चाहिए।
- यदि एक विफलता का पता चला है, तो नोड्स के अन्य $ n या n% पर चेक चलाएं, परिणामों को सहसंबंधित करें और फिर उन्हें यह तय करने के लिए उपयोग करें कि क्या मानदंड चेतावनी जारी करने के लिए मिले हैं।
रेखांकन और प्रबंधन के अनुकूल सुविधाएँ। हमें अपने SLAs को ट्रैक करने की आवश्यकता है और यह जानना कि हमारे 'अत्यधिक उपलब्ध' अनुप्रयोग 24x7 हैं, कुछ हद तक उपयोगी हैं। आदर्श रूप से आपके प्रस्तावित समाधान को कम से कम फाफ के साथ "बॉक्स से बाहर" रिपोर्टिंग करनी चाहिए।
बीस्पोक चेक विकसित करने के लिए एक ठोस एपीआई या प्लगइन सिस्टम होना चाहिए।
अलर्ट के बारे में समझदार होने की जरूरत है। मैं जरूरी नहीं जानना चाहता (एसएमएस के माध्यम से, सुबह 3 बजे!) कि एक मॉनिटरिंग नोड मेरे कोर राउटर को डाउन करता है। मैं करते जानना चाहते हैं कि उनमें से एक निर्धारित प्रतिशत चाहते हैं इस बात से सहमत है कि कुछ अजीब हो रहा है;) अनिवार्य रूप से क्या मैं यहाँ के बारे में बात कर रहा हूँ "कोरम" तर्क, या वितरित पागलपन को विवेक के अनुप्रयोग है!

मैं दोनों वाणिज्यिक और खुले स्रोत विकल्पों पर विचार करने के लिए तैयार हूं, हालांकि मैं लाखों पाउंड की लागत वाले सॉफ़्टवेयर को साफ करना पसंद करूंगा :-) मैं यह स्वीकार करने के लिए भी तैयार हूं कि उन सभी बॉक्सों पर टिक नहीं हो सकता है, लेकिन सामूहिक से पूछना चाहता था कि।

जब नोड्स और उनके प्लेसमेंट की निगरानी के बारे में सोचते हैं, तो इनमें से अधिकांश यादृच्छिक आईएसपी नेटवर्क पर समर्पित सर्वर होंगे और इस तरह बड़े पैमाने पर मेरे नियंत्रण से बाहर हो जाएंगे। समाधान जो बीजीपी फ़ीड और अन्य जटिल नेटवर्किंग हरकतों पर निर्भर करते हैं, संभावना नहीं है।

मुझे यह भी इंगित करना चाहिए कि मैंने या तो नागोइस, ज़ैबिक्स और दोस्तों सहित अतीत में खुले स्रोत के अधिकांश फ्लेवरों का मूल्यांकन, तैनाती या भारी उपयोग / अनुकूलित किया है - वे वास्तव में खराब उपकरण नहीं हैं, लेकिन वे पूरी तरह से सपाट हैं " वितरित "पहलू, विशेष रूप से मेरे प्रश्न और 'बुद्धिमान' अलर्ट में चर्चा किए गए तर्क के संबंध में।

आवश्यक किसी भी बिंदु को स्पष्ट करने के लिए खुश। चियर्स दोस्तों और लड़कियों :-)

monitoring nagios sla

— nixgeek
स्रोत

यह वास्तव में अजीब है, मैं इसी तरह का सवाल पूछने वाला था। इस सप्ताह हमारे पास साइट के आउटेज के बारे में कुछ ग्राहक शिकायतें थीं, लेकिन केवल कुछ स्थानों से। हमारे अलर्ट सिस्टम ने इन समस्याओं का पता नहीं लगाया। हमने अपने प्रदाता से संपर्क किया और उन्होंने पुष्टि की कि उनमें से कुछ को रीढ़ की हड्डी की कोई समस्या है। तो मैं भी एक समाधान में दिलचस्पी है। धन्यवाद!

— बत्तीसी

और अंतिम समाधान क्या था?

— इविहित

जवाबों:

वास्तव में जवाब नहीं, लेकिन कुछ संकेत:

निश्चित रूप से नागिन @ गोल्डमैन सैक्स के बारे में प्रस्तुति पर एक नज़र डालें । उन्होंने आपके द्वारा बताई गई समस्याओं का सामना किया - अतिरेक, मापनीयता: हजारों मेजबान, स्वचालित कॉन्फ़िगरेशन पीढ़ी भी।
मैं निरर्थक nagios सेटअप था, लेकिन बहुत छोटे पैमाने पर - 80 सर्वर, ~ 1k सेवाओं में कुल। एक समर्पित मास्टर सर्वर, एक गुलाम सर्वर नियमित रूप से दिन में कुछ समय के अंतराल पर मास्टर से कॉन्फ़िगरेशन खींचता है। दोनों सर्वरों ने एक ही मशीनों की निगरानी को कवर किया, वे एक दूसरे के बीच स्वास्थ्य क्रॉस-चेक थे। मैं कस्टम उत्पाद विशिष्ट जांचों को लागू करने के लिए ज्यादातर फ्रेमवर्क के रूप में नागों का इस्तेमाल करता था [क्रोन नौकरियों का गुच्छा 'कृत्रिम प्रवाह नियंत्रण' करने वाली लिपियों को निष्पादित करता है, परिणाम वर्ग sql में लॉग इन करता है, अंतिम x मिनट में उन लोगों के सफल / असफल निष्पादन के लिए प्लग इन की जाँच करता है]। सभी बहुत अच्छी तरह से काम किया।
आपका कोरम तर्क अच्छा लगता है - मेरे 'कृत्रिम प्रवाह' के समान है - मूल रूप से चलते हैं, अपने आप को लागू करते हैं; -]। और nrpe सिर्फ कुछ प्रकार के झंडे [या sql db को टाइमस्टैम्प-स्टेटस के साथ देखें] कैसे चीजें कर रहे हैं।
आप शायद पैमाने पर कुछ पदानुक्रम बनाना चाहते हैं - आपके पास कुछ नोड्स होंगे जो अन्य नोड्स का अवलोकन इकट्ठा करते हैं, पहले बिंदु पर प्रस्तुति को देखें। हर एक चेक के लिए डिफ़ॉल्ट नगियोस निगरानी सेवाओं की उच्च संख्या पर ओवरकिल है।

कुछ सवालों के जवाब देने के लिए:

मेरे मामले में पर्यावरण की निगरानी विशिष्ट मास्टर-स्लेव सेटअप [प्राथमिक एसक्यूएल या ऐप सर्वर + हॉट स्टैंडबाय], कोई मास्टर-मास्टर नहीं था।
मेरे सेटअप में 'मानव फ़िल्टरिंग कारक' शामिल था - रिज़ॉल्वर समूह जो एसएमएस अधिसूचना के लिए 'बैकअप' था। पहले से ही तकनीशियनों के समूह को भुगतान किया गया था, जिनके पास अन्य कारणों से 24/5 पारियां थीं, उन्हें 'चेक नगियो मेल' मिला, क्योंकि अतिरिक्त कार्य उन पर बहुत अधिक भार नहीं डाल रहा था। और वे यह सुनिश्चित करने के लिए प्रभारी हैं कि db-admins / it-ops / app-admins Ware वास्तव में उठ रहे हैं और समस्याओं को ठीक कर रहे हैं; -]
मैंने zabbix के बारे में बहुत सारी अच्छी बातें सुनी हैं - सचेत करने और साजिश रचने के लिए, लेकिन इसका इस्तेमाल कभी नहीं किया। मेरे लिए मुनिन ट्रिक करता है, मैंने सरल नगियोस प्लगइन को हैक किया है अगर सर्वर की मुनिन सूची में 'कोई भी लाल' [क्रिटिकल] रंग है - सिर्फ एक अतिरिक्त जाँच। मॉनिटर मशीन में भेजे जाने वाले प्रश्नों की संख्या को कम करने के लिए आप मुनिन rrd-files से मान पढ़ सकते हैं।

— pQd
स्रोत

@astinus - अच्छी तरह से समझदार अलर्ट के लिए मैंने कस्टम सूचना स्क्रिप्ट का उपयोग किया। मेल / पेजर द्वारा अधिसूचित नागियो पर भरोसा करने के बजाय मैंने मेसेज को पोजो कतार में जमा कर दिया था और उपभोक्ता के पास कस्टम लॉजिक के आधार पर संदेश भेजा गया था [काफी लचीले ऑन-कॉल शेड्यूल आदि के आधार पर], इसके अलावा मेसस की कुछ सीमा थी जो प्रति व्यक्ति भेजी गई थी थोड़ी देर में 50 स्मूदी नहीं मिलती। मैं बड़े पैमानों में समान दृष्टिकोण देखता हूं - नगिओस सिर्फ कंकाल है और इसके चारों ओर लोग स्क्रिप्ट करते हैं और वास्तव में इसकी विशेषताओं का कम और कम उपयोग करते हैं।

— pQd

पदानुक्रम के संबंध में, इस समय मेरे पास जो है वह पूरी तरह से "मॉड्यूलर" नागियोस सेटअप है जहां आपके आदि / निर्देशिका में एक 'कोर' कॉन्फ़िगरेशन होता है, जो सभी मेजबानों और फिर आदि / मॉड्यूल / $ NAME (अर्थात) पर साझा (और समान) होता है। : मेल, वेब, नेटवर्क, डीएनएस) जो सर्वरों के बीच 100% पोर्टेबल है। Cfg_dir = के साथ शामिल करें) आप किसी भी मॉड्यूल-विशिष्ट कमांड, प्लगइन्स और उस निर्देशिका में सब कुछ डालते हैं । बनाना> 1 सर्वर चलाना उन चेकों को चलाने में बहुत आसान है क्योंकि आप मॉड्यूल को केवल उतने ही नागों के बक्से में कॉपी करते हैं, जितने की आवश्यकता होती है, हालांकि एक बार फिर से, अलर्ट तर्क समस्याओं का कारण बनता है :-)

— nixgeek

@ astinus # 2। मेरे मामले में, प्रतिकृति प्रतिकृति मास्टर-> गुलाम हर 6h में होता है। यदि मास्टर की मृत्यु हो जाती है तो [पावर आउटेज आदि] - दास सभी को मास्टर के मृत होने की सूचना देगा [सर्वर के बीच क्रॉसचेक]। कोई अन्य परिदृश्य की कल्पना कर सकता है - जब मास्टर गलतफहमी के कारण मर जाता है। अगर दास के लिए सिंक सिंक से पहले यह 5 मिनट तक होता है - तो अधिसूचना होगी। अगर यह कॉन्‍फ़िगर सिंक से ठीक पहले है - दुर्भाग्यपूर्ण है तो हम अंत में निगरानी प्रणाली नहीं रखते हैं। 'चौकीदार कौन देखेगा'? अच्छी तरह से शायद अभी तक एक और बहुत ही सरल नाग।

— pQd

@ पीक्यूडी - दिलचस्प, मैं मानता हूं कि कस्टम अधिसूचना स्क्रिप्ट में तर्क को लागू करना संभवतः जाने का तरीका है। हालाँकि यह 2 + मेजबानों से डुप्लिकेट नोटिफिकेशन से बचने के लिए बहुत मुश्किल हो जाता है, जब आप कहते हैं कि 50 मॉनिटरिंग होस्ट हैं, और मुझे अभी तक किसी को भी (सार्वजनिक रूप से) अपने साझा तर्क को एक उचित 'मैसेज' पासिंग सिस्टम जैसे रैबिट या अमेज़ॅन में डालना है। SQS।

— nixgeek

@ astinus # 3 मेरे मामले में यह 'लेवल 8' [iso osi मॉडल का] समाधान था: प्राथमिक nagios लोगों को sms'es को कॉल + मेल पर 24/5 'रिज़ॉल्वर ग्रुप' में भेज रहा था, जबकि 2ndary वैगिस केवल मेलिंग था ' रिवाल्वर समूह '। एस्केलेट करने से पहले डुप्लिकेट को फ़िल्टर करने के लिए उस समूह पर निर्भर था;

— pQd

आप शिंकेन ने नागों के लिए क्या किया है, इसके लिए बहुत सी आवाज़ें पूछ रहे हैं।

शिंकेन एक नागाओस पुनर्लेखन हैं।

आधुनिक भाषा (पायथन)
आधुनिक वितरित प्रोग्रामिंग ढांचा (पायरो)
निगरानी स्थानों (बहु-किरायेदारी), हा, पुर्जों
Livestatus API
Nagios प्लगइन संगत
मूल निवासी NRPE निष्पादन
वस्तुओं की व्यावसायिक आलोचना
व्यावसायिक नियम वस्तुओं की स्थिति पर लागू किए जा सकते हैं (क्लस्टर या पूल उपलब्धता का प्रबंधन)
रेखांकन ग्रेफाइट या RRDtool आधारित PNP4nagios का उपयोग कर सकते हैं
स्थिर और बड़े वातावरण में तैनात किया जा रहा है
बड़ी तैनाती इसे रिपोर्टिंग के लिए स्प्लंक के साथ जोड़कर या ग्रेफाइट में देखने पर विचार कर सकती है जहां RRDtool एक अच्छी फिट नहीं है।

यह विचार के लिए भोजन होना चाहिए।

चियर्स

— xkilian
स्रोत