भौगोलिक रूप से वितरित, गलती-सहिष्णु और "बुद्धिमान" अनुप्रयोग / मेजबान निगरानी प्रणाली


12

अभिवादन,

मैं वितरित निगरानी प्रणालियों पर सामूहिक राय और विचार पूछना चाहता हूं, आप क्या उपयोग करते हैं और आप क्या जानते हैं कि मेरे बक्से पर टिक हो सकता है?

आवश्यकताएँ काफी जटिल हैं;

  • असफलता का एक भी बिंदु नहीं। वास्तव में। मैं गंभीर हूँ! एकल / एकाधिक नोड विफलता को सहन करने में सक्षम होने की आवश्यकता है, दोनों 'मास्टर' और 'कार्यकर्ता' और आप मान सकते हैं कि किसी भी निगरानी स्थान ("साइट") में कई नोड नहीं हैं, या एक ही नेटवर्क पर हैं। इसलिए यह शायद पारंपरिक HA तकनीकों जैसे DRBD या Keepalive को नियंत्रित करता है।

  • वितरित तर्क, मैं कई नेटवर्कों पर और कई महाद्वीपों पर, कई नेटवर्कों पर 5+ नोड्स तैनात करना चाहता हूं। मैं अपने नेटवर्क के "बर्ड्स आई" दृश्य और अपने ग्राहकों के दृष्टिकोण से आवेदन चाहता हूं, मॉनिटरिंग लॉजिक के लिए बोनस अंक जब आपके पास 50+ नोड्स, या यहां तक ​​कि 500+ नोड्स नहीं होते हैं।

  • बॉलपार्क के आंकड़े 1500-2500 मेजबानों और प्रति मेजबान 30 सेवाओं के लिए एक उचित नागो / मेजबान चेक की एक उचित संख्या को संभालने में सक्षम होने की आवश्यकता है। यह वास्तव में अच्छा होगा यदि अधिक निगरानी नोड्स जोड़ने से आपको अपेक्षाकृत रैखिक रूप से स्केल करने की अनुमति मिलती है, शायद 5 साल के समय में मैं प्रति होस्ट 5000 होस्ट और 40 सेवाओं की निगरानी करना चाहूंगा! 'वितरित तर्क' के बारे में ऊपर मेरे नोट से जोड़ना यह कहना अच्छा होगा:

    • सामान्य परिस्थितियों में, इन जांचों को मॉनिटरिंग नोड्स के $ n या n% पर चलना चाहिए।
    • यदि एक विफलता का पता चला है, तो नोड्स के अन्य $ n या n% पर चेक चलाएं, परिणामों को सहसंबंधित करें और फिर उन्हें यह तय करने के लिए उपयोग करें कि क्या मानदंड चेतावनी जारी करने के लिए मिले हैं।
  • रेखांकन और प्रबंधन के अनुकूल सुविधाएँ। हमें अपने SLAs को ट्रैक करने की आवश्यकता है और यह जानना कि हमारे 'अत्यधिक उपलब्ध' अनुप्रयोग 24x7 हैं, कुछ हद तक उपयोगी हैं। आदर्श रूप से आपके प्रस्तावित समाधान को कम से कम फाफ के साथ "बॉक्स से बाहर" रिपोर्टिंग करनी चाहिए।

  • बीस्पोक चेक विकसित करने के लिए एक ठोस एपीआई या प्लगइन सिस्टम होना चाहिए।

  • अलर्ट के बारे में समझदार होने की जरूरत है। मैं जरूरी नहीं जानना चाहता (एसएमएस के माध्यम से, सुबह 3 बजे!) कि एक मॉनिटरिंग नोड मेरे कोर राउटर को डाउन करता है। मैं करते जानना चाहते हैं कि उनमें से एक निर्धारित प्रतिशत चाहते हैं इस बात से सहमत है कि कुछ अजीब हो रहा है;) अनिवार्य रूप से क्या मैं यहाँ के बारे में बात कर रहा हूँ "कोरम" तर्क, या वितरित पागलपन को विवेक के अनुप्रयोग है!

मैं दोनों वाणिज्यिक और खुले स्रोत विकल्पों पर विचार करने के लिए तैयार हूं, हालांकि मैं लाखों पाउंड की लागत वाले सॉफ़्टवेयर को साफ करना पसंद करूंगा :-) मैं यह स्वीकार करने के लिए भी तैयार हूं कि उन सभी बॉक्सों पर टिक नहीं हो सकता है, लेकिन सामूहिक से पूछना चाहता था कि।

जब नोड्स और उनके प्लेसमेंट की निगरानी के बारे में सोचते हैं, तो इनमें से अधिकांश यादृच्छिक आईएसपी नेटवर्क पर समर्पित सर्वर होंगे और इस तरह बड़े पैमाने पर मेरे नियंत्रण से बाहर हो जाएंगे। समाधान जो बीजीपी फ़ीड और अन्य जटिल नेटवर्किंग हरकतों पर निर्भर करते हैं, संभावना नहीं है।

मुझे यह भी इंगित करना चाहिए कि मैंने या तो नागोइस, ज़ैबिक्स और दोस्तों सहित अतीत में खुले स्रोत के अधिकांश फ्लेवरों का मूल्यांकन, तैनाती या भारी उपयोग / अनुकूलित किया है - वे वास्तव में खराब उपकरण नहीं हैं, लेकिन वे पूरी तरह से सपाट हैं " वितरित "पहलू, विशेष रूप से मेरे प्रश्न और 'बुद्धिमान' अलर्ट में चर्चा किए गए तर्क के संबंध में।

आवश्यक किसी भी बिंदु को स्पष्ट करने के लिए खुश। चियर्स दोस्तों और लड़कियों :-)


2
यह वास्तव में अजीब है, मैं इसी तरह का सवाल पूछने वाला था। इस सप्ताह हमारे पास साइट के आउटेज के बारे में कुछ ग्राहक शिकायतें थीं, लेकिन केवल कुछ स्थानों से। हमारे अलर्ट सिस्टम ने इन समस्याओं का पता नहीं लगाया। हमने अपने प्रदाता से संपर्क किया और उन्होंने पुष्टि की कि उनमें से कुछ को रीढ़ की हड्डी की कोई समस्या है। तो मैं भी एक समाधान में दिलचस्पी है। धन्यवाद!
बत्तीसी

और अंतिम समाधान क्या था?
इविहित

जवाबों:


4

वास्तव में जवाब नहीं, लेकिन कुछ संकेत:

  • निश्चित रूप से नागिन @ गोल्डमैन सैक्स के बारे में प्रस्तुति पर एक नज़र डालें । उन्होंने आपके द्वारा बताई गई समस्याओं का सामना किया - अतिरेक, मापनीयता: हजारों मेजबान, स्वचालित कॉन्फ़िगरेशन पीढ़ी भी।

  • मैं निरर्थक nagios सेटअप था, लेकिन बहुत छोटे पैमाने पर - 80 सर्वर, ~ 1k सेवाओं में कुल। एक समर्पित मास्टर सर्वर, एक गुलाम सर्वर नियमित रूप से दिन में कुछ समय के अंतराल पर मास्टर से कॉन्फ़िगरेशन खींचता है। दोनों सर्वरों ने एक ही मशीनों की निगरानी को कवर किया, वे एक दूसरे के बीच स्वास्थ्य क्रॉस-चेक थे। मैं कस्टम उत्पाद विशिष्ट जांचों को लागू करने के लिए ज्यादातर फ्रेमवर्क के रूप में नागों का इस्तेमाल करता था [क्रोन नौकरियों का गुच्छा 'कृत्रिम प्रवाह नियंत्रण' करने वाली लिपियों को निष्पादित करता है, परिणाम वर्ग sql में लॉग इन करता है, अंतिम x मिनट में उन लोगों के सफल / असफल निष्पादन के लिए प्लग इन की जाँच करता है]। सभी बहुत अच्छी तरह से काम किया।

  • आपका कोरम तर्क अच्छा लगता है - मेरे 'कृत्रिम प्रवाह' के समान है - मूल रूप से चलते हैं, अपने आप को लागू करते हैं; -]। और nrpe सिर्फ कुछ प्रकार के झंडे [या sql db को टाइमस्टैम्प-स्टेटस के साथ देखें] कैसे चीजें कर रहे हैं।

  • आप शायद पैमाने पर कुछ पदानुक्रम बनाना चाहते हैं - आपके पास कुछ नोड्स होंगे जो अन्य नोड्स का अवलोकन इकट्ठा करते हैं, पहले बिंदु पर प्रस्तुति को देखें। हर एक चेक के लिए डिफ़ॉल्ट नगियोस निगरानी सेवाओं की उच्च संख्या पर ओवरकिल है।

कुछ सवालों के जवाब देने के लिए:

  • मेरे मामले में पर्यावरण की निगरानी विशिष्ट मास्टर-स्लेव सेटअप [प्राथमिक एसक्यूएल या ऐप सर्वर + हॉट स्टैंडबाय], कोई मास्टर-मास्टर नहीं था।
  • मेरे सेटअप में 'मानव फ़िल्टरिंग कारक' शामिल था - रिज़ॉल्वर समूह जो एसएमएस अधिसूचना के लिए 'बैकअप' था। पहले से ही तकनीशियनों के समूह को भुगतान किया गया था, जिनके पास अन्य कारणों से 24/5 पारियां थीं, उन्हें 'चेक नगियो मेल' मिला, क्योंकि अतिरिक्त कार्य उन पर बहुत अधिक भार नहीं डाल रहा था। और वे यह सुनिश्चित करने के लिए प्रभारी हैं कि db-admins / it-ops / app-admins Ware वास्तव में उठ रहे हैं और समस्याओं को ठीक कर रहे हैं; -]
  • मैंने zabbix के बारे में बहुत सारी अच्छी बातें सुनी हैं - सचेत करने और साजिश रचने के लिए, लेकिन इसका इस्तेमाल कभी नहीं किया। मेरे लिए मुनिन ट्रिक करता है, मैंने सरल नगियोस प्लगइन को हैक किया है अगर सर्वर की मुनिन सूची में 'कोई भी लाल' [क्रिटिकल] रंग है - सिर्फ एक अतिरिक्त जाँच। मॉनिटर मशीन में भेजे जाने वाले प्रश्नों की संख्या को कम करने के लिए आप मुनिन rrd-files से मान पढ़ सकते हैं।

1
@astinus - अच्छी तरह से समझदार अलर्ट के लिए मैंने कस्टम सूचना स्क्रिप्ट का उपयोग किया। मेल / पेजर द्वारा अधिसूचित नागियो पर भरोसा करने के बजाय मैंने मेसेज को पोजो कतार में जमा कर दिया था और उपभोक्ता के पास कस्टम लॉजिक के आधार पर संदेश भेजा गया था [काफी लचीले ऑन-कॉल शेड्यूल आदि के आधार पर], इसके अलावा मेसस की कुछ सीमा थी जो प्रति व्यक्ति भेजी गई थी थोड़ी देर में 50 स्मूदी नहीं मिलती। मैं बड़े पैमानों में समान दृष्टिकोण देखता हूं - नगिओस सिर्फ कंकाल है और इसके चारों ओर लोग स्क्रिप्ट करते हैं और वास्तव में इसकी विशेषताओं का कम और कम उपयोग करते हैं।
pQd

1
पदानुक्रम के संबंध में, इस समय मेरे पास जो है वह पूरी तरह से "मॉड्यूलर" नागियोस सेटअप है जहां आपके आदि / निर्देशिका में एक 'कोर' कॉन्फ़िगरेशन होता है, जो सभी मेजबानों और फिर आदि / मॉड्यूल / $ NAME (अर्थात) पर साझा (और समान) होता है। : मेल, वेब, नेटवर्क, डीएनएस) जो सर्वरों के बीच 100% पोर्टेबल है। Cfg_dir = के साथ शामिल करें) आप किसी भी मॉड्यूल-विशिष्ट कमांड, प्लगइन्स और उस निर्देशिका में सब कुछ डालते हैं । बनाना> 1 सर्वर चलाना उन चेकों को चलाने में बहुत आसान है क्योंकि आप मॉड्यूल को केवल उतने ही नागों के बक्से में कॉपी करते हैं, जितने की आवश्यकता होती है, हालांकि एक बार फिर से, अलर्ट तर्क समस्याओं का कारण बनता है :-)
nixgeek

1
@ astinus # 2। मेरे मामले में, प्रतिकृति प्रतिकृति मास्टर-> गुलाम हर 6h में होता है। यदि मास्टर की मृत्यु हो जाती है तो [पावर आउटेज आदि] - दास सभी को मास्टर के मृत होने की सूचना देगा [सर्वर के बीच क्रॉसचेक]। कोई अन्य परिदृश्य की कल्पना कर सकता है - जब मास्टर गलतफहमी के कारण मर जाता है। अगर दास के लिए सिंक सिंक से पहले यह 5 मिनट तक होता है - तो अधिसूचना होगी। अगर यह कॉन्‍फ़िगर सिंक से ठीक पहले है - दुर्भाग्यपूर्ण है तो हम अंत में निगरानी प्रणाली नहीं रखते हैं। 'चौकीदार कौन देखेगा'? अच्छी तरह से शायद अभी तक एक और बहुत ही सरल नाग।
pQd

1
@ पीक्यूडी - दिलचस्प, मैं मानता हूं कि कस्टम अधिसूचना स्क्रिप्ट में तर्क को लागू करना संभवतः जाने का तरीका है। हालाँकि यह 2 + मेजबानों से डुप्लिकेट नोटिफिकेशन से बचने के लिए बहुत मुश्किल हो जाता है, जब आप कहते हैं कि 50 मॉनिटरिंग होस्ट हैं, और मुझे अभी तक किसी को भी (सार्वजनिक रूप से) अपने साझा तर्क को एक उचित 'मैसेज' पासिंग सिस्टम जैसे रैबिट या अमेज़ॅन में डालना है। SQS।
nixgeek

1
@ astinus # 3 मेरे मामले में यह 'लेवल 8' [iso osi मॉडल का] समाधान था: प्राथमिक nagios लोगों को sms'es को कॉल + मेल पर 24/5 'रिज़ॉल्वर ग्रुप' में भेज रहा था, जबकि 2ndary वैगिस केवल मेलिंग था ' रिवाल्वर समूह '। एस्केलेट करने से पहले डुप्लिकेट को फ़िल्टर करने के लिए उस समूह पर निर्भर था;
pQd

1

आप शिंकेन ने नागों के लिए क्या किया है, इसके लिए बहुत सी आवाज़ें पूछ रहे हैं।

शिंकेन एक नागाओस पुनर्लेखन हैं।

  • आधुनिक भाषा (पायथन)
  • आधुनिक वितरित प्रोग्रामिंग ढांचा (पायरो)
  • निगरानी स्थानों (बहु-किरायेदारी), हा, पुर्जों
  • Livestatus API
  • Nagios प्लगइन संगत
  • मूल निवासी NRPE निष्पादन
  • वस्तुओं की व्यावसायिक आलोचना
  • व्यावसायिक नियम वस्तुओं की स्थिति पर लागू किए जा सकते हैं (क्लस्टर या पूल उपलब्धता का प्रबंधन)
  • रेखांकन ग्रेफाइट या RRDtool आधारित PNP4nagios का उपयोग कर सकते हैं
  • स्थिर और बड़े वातावरण में तैनात किया जा रहा है
  • बड़ी तैनाती इसे रिपोर्टिंग के लिए स्प्लंक के साथ जोड़कर या ग्रेफाइट में देखने पर विचार कर सकती है जहां RRDtool एक अच्छी फिट नहीं है।

यह विचार के लिए भोजन होना चाहिए।

चियर्स

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.