बिजली गिरने के बाद उपकरण क्षति का आकलन करना - क्या मुझे और योजना बनानी चाहिए थी?


55

मेरे ग्राहक की साइटों में से एक को पिछले हफ्ते एक सीधा बिजली का झटका मिला (संयोग से शुक्रवार को 13 वां! )।

मैं साइट के लिए दूरस्थ था, लेकिन किसी ऑनसाइट के साथ काम करने पर, मैंने नुकसान के एक अजीब पैटर्न की खोज की। दोनों इंटरनेट लिंक डाउन थे, अधिकांश सर्वर अप्राप्य थे। एमडीएफ में बहुत नुकसान हुआ , लेकिन एक फाइबर से जुड़े आईडीएफ ने स्विच स्टैक सदस्य पर 90% पोर्ट खो दिया। पर्याप्त स्पेयर स्विच पोर्ट्स अन्य जगहों और रिप्रोग्रामिंग को पुनर्वितरित करने के लिए उपलब्ध थे, लेकिन जब हमने इसे प्रभावित किया था तब डाउनटाइम था।

यह एक नई बिल्डिंग / वेयरहाउसिंग सुविधा थी और बहुत सारी प्लानिंग सर्वर रूम के डिजाइन में चली गई। मुख्य सर्वर रूम एक APC SmartUPS RT 8000VA डबल-रूपांतरण ऑनलाइन यूपीएस से चलाया जाता है , जो एक जनरेटर द्वारा समर्थित है। सभी जुड़े उपकरणों के लिए उचित बिजली वितरण था। ऑफसाइट डेटा प्रतिकृति और सिस्टम बैकअप जगह में थे।

सभी में, क्षति (जो मुझे पता है) थी:

  • सिस्को 4507R-E चेसिस स्विच पर 48-पोर्ट लाइन कार्ड विफल ।
  • 4 सदस्यीय स्टैक में सिस्को 2960 स्विच विफल। (उफ़ ... ढीली स्टैकिंग केबल)
  • सिस्को 2960 स्विच पर कई परतदार बंदरगाह।
  • HP ProLiant DL360 G7 मदरबोर्ड और बिजली की आपूर्ति।
  • Elfiq WAN लिंक बैलेंसर।
  • एक मल्टीटेक फैक्स मॉडेम।
  • वाईमैक्स / फिक्स्ड-वायरलेस इंटरनेट एंटीना और पावर-इंजेक्टर।
  • कई पीओई कनेक्टेड डिवाइस (वीओआईपी फोन, सिस्को ऐरोनेट एक्सेस प्वाइंट, आईपी सिक्योरिटी कैमरा)

अधिकांश मुद्दों को सिस्को 4507R-E में एक संपूर्ण स्विच ब्लेड खोने के लिए बांधा गया था। इसमें कुछ VMware NFS नेटवर्किंग और साइट के फ़ायरवॉल तक अपलिंक शामिल था। VMWare होस्ट विफल हो गया, लेकिन HA ने VM के स्टोरेज नेटवर्किंग कनेक्टिविटी को बहाल करने का ध्यान रखा। मुझे फंकी पावर स्टेट्स को साफ़ करने के लिए कई उपकरणों को रीबूट / पावर करने के लिए मजबूर किया गया था। इसलिए रिकवरी का समय कम था, लेकिन मैं उत्सुक हूं कि क्या सबक सीखा जाना चाहिए ...

  • भविष्य में उपकरणों की सुरक्षा के लिए क्या अतिरिक्त सुरक्षा लागू की जानी चाहिए?
  • मुझे वारंटी और प्रतिस्थापन से कैसे संपर्क करना चाहिए? सिस्को और एचपी अनुबंध के तहत वस्तुओं की जगह ले रहे हैं। महंगे एलफिक वान लिंक बैलेंसर का उनकी वेबसाइट पर एक दोष है जिसने मूल रूप से कहा "बहुत बुरा, एक नेटवर्क सर्ज रक्षक का उपयोग करें "। (ऐसा लगता है कि वे इस प्रकार की विफलता की उम्मीद करते हैं)
  • मैं पिछले लंबे समय से आईटी में रहा हूं, अतीत में बिजली के तूफान से नुकसान हुआ है, लेकिन बहुत सीमित प्रभाव के साथ; जैसे सस्ते पीसी का नेटवर्क इंटरफेस या मिनी स्विच का नष्ट होना।
  • क्या कुछ और है जो मैं संभावित परतदार उपकरणों का पता लगाने के लिए कर सकता हूं, या क्या मुझे बस सतह पर विषम व्यवहार की प्रतीक्षा करनी है?
  • क्या यह सब सिर्फ दुर्भाग्य था, या कुछ ऐसा जो वास्तव में आपदा वसूली में होना चाहिए?

पर्याप्त $ $ $ के साथ, पर्यावरण में सभी प्रकार की अतिरेक का निर्माण करना संभव है, लेकिन निवारक / विचारशील डिजाइन और यहां संसाधनों के प्रभावी उपयोग का एक उचित संतुलन क्या है?


3
नीचे कुछ अच्छे तकनीकी उत्तर दिए गए हैं, लेकिन मेरे अनुभव में, कुछ भी अच्छी बीमा पॉलिसी नहीं देता है। सचमुच, एक बीमा पॉलिसी। निश्चित रूप से, यह समस्या से बचने में मदद नहीं करता है, और यह ग्राहकों को आप पर चिल्लाते हुए नहीं रोकता है, लेकिन यह विफल उपकरणों को बदलने में मदद करता है जो विक्रेता स्पर्श नहीं करेंगे।
मार्क हेंडरसन

@MarkHenderson इंश्योरेंस के माध्यम से आ रहा है ... लेकिन यह 6 सप्ताह हो गया है, और कुछ छोटे मुद्दे अब बढ़ रहे हैं।
इविविट

जवाबों:


23

कुछ नौकरियों से पहले, मैं जिस जगह के लिए काम कर रहा था, उसके लिए डेटासेंटर में से एक एक बहुत बड़े हवाई के नीचे एक मंजिल था। यह बड़ी, पतली, धातु की वस्तु इस क्षेत्र की सबसे ऊंची चीज थी और हर 18 महीने में बिजली की चपेट में आ जाती थी। डेटासेंटर खुद 1980 के आसपास बनाया गया था, इसलिए मैं इसे सबसे आधुनिक चीज नहीं कहूंगा, लेकिन उनके पास बिजली की क्षति से निपटने का लंबा अनुभव था (धारावाहिक-कॉम्स बोर्डों को हर बार बदलना पड़ा था , जो एक परीक्षण है अगर कॉम्स बोर्ड एक ऐसी प्रणाली में हैं जिसमें 10 वर्षों में कोई नया हिस्सा नहीं बना है)।

एक चीज जो पुराने हाथों द्वारा लाई गई थी, वह यह है कि वह सब स्प्यूरियस करंट किसी भी चीज के चारों ओर एक रास्ता ढूंढ सकता है, और एक बार जब वह पुल में एक आम जमीन में फैल सकता है, और एयर-गैप से पुल कर सकता है। लाइटनिंग एक असाधारण मामला है, जहां सामान्य सुरक्षा मानक आर्क्स को रोकने के लिए पर्याप्त नहीं हैं और जहां तक ​​इसकी ऊर्जा है, वहां तक ​​जाएंगे। और इसके पास बहुत कुछ है। यदि पर्याप्त ऊर्जा है तो यह एक निलंबित-सीलिंग ग्रिड से चाप हो सकता है (शायद निलंबन तारों में से एक को सीमेंट में एक इमारत गर्डर के कनेक्शन के साथ लूप से लटका दिया जाता है) एक 2-पोस्ट रैक के ऊपर और वहां से अंदर तक नेटवर्किंग माल।

हैकर्स की तरह, केवल इतना ही आप कर सकते हैं। आपके पॉवर-फीड्स में उन सभी पर ब्रेकर होते हैं जो उभरे हुए वोल्टेज को क्लैंप करते हैं, लेकिन आपका लो-वोल्टेज नेटवर्किंग गियर लगभग कभी नहीं करता है और मार्ग के लिए एक अत्यंत ऊर्जावान वर्तमान के लिए एक सामान्य-पथ का प्रतिनिधित्व करता है।


संभावित रूप से परतदार किट का पता लगाना कुछ ऐसा है जो मुझे पता है कि सिद्धांत में कैसे करना है, लेकिन वास्तविकता में नहीं। संभवतः आपका सबसे अच्छा दांव संदिग्ध गियर को एक क्षेत्र में डालना है और जानबूझकर ऑपरेटिंग रेंज के उच्च अंत में कमरे में तापमान लाना है और देखें कि क्या होता है। कुछ परीक्षण चलाएं, उसमें से हेक को लोड करें। कुछ दिनों के लिए इसे वहीं छोड़ दें। किसी भी पहले से विद्यमान विद्युत क्षति पर अतिरिक्त तापीय तनाव कुछ समय-बमों को खत्म कर सकता है।

यह निश्चित रूप से आपके कुछ उपकरणों के जीवनकाल को छोटा करता है, लेकिन यह पता लगाना कि कौन सा कठिन है। पावर-सप्लाई के अंदर पावर कंडीशनिंग सर्किट्री में कंपोनेंट कंप्लीट हो सकते हैं और सर्वर को डर्टी पावर दे सकते हैं, कुछ ऐसा जो आप पावर-सप्लाई को टेस्ट करने के लिए डिज़ाइन किए गए स्पेशलाइज्ड डिवाइसेज के इस्तेमाल के जरिए कर सकते हैं ।


बिजली की हड़ताल कुछ ऐसी चीज नहीं है जिसे मैंने डीआर के लिए छत पर एक विशाल बिजली की छड़ के साथ डीसी की सुविधा के लिए माना है । आम तौर पर, एक हड़ताल उन चीजों में से एक है जो इतनी बार होती है कि यह 'भगवान के कार्य' के तहत फेरबदल किया जाता है और साथ ले जाया जाता है।

लेकिन ... अब आपके पास एक है। यह दिखाता है कि आपकी सुविधा में कम से कम एक बार सही परिस्थितियां थीं। यह आकलन करने का समय है कि आपकी सुविधा को किस तरह से सही स्थिति दी गई है और उसी के अनुसार योजना बनाई जाए। यदि आप अब केवल बिजली के DR प्रभावों के बारे में सोच रहे हैं, तो मुझे लगता है कि यह उचित है।


मैं आकलन करने के लिए कल ऑनसाइट गया था। गंदा। मैंने चेसिस स्विच की मरम्मत की और कुछ सर्वरों के नुकसान की जांच की। क्या कोई मौका है कि छत पर वाईमैक्स / फिक्स्ड-वायरलेस एंटीना प्रवेश-बिंदु था? इसके मार्ग में सब कुछ प्रभावित हुआ:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
ewwhite

1
यह लगता है ... बहुत संभव है।
mfinni

1
@ बहुत अधिक संभावना है कि लगता है। जब उस पुराने डीसी को चोट लगी थी तो नुकसान बहुत समान था।
sysadmin1138

मैं कुछ ज्ञान को sysadmin1138 के पोस्ट में जोड़ना चाहूंगा (क्षमा करें, मुझे अभी तक टिप्पणी करने की अनुमति नहीं है, यह उत्तर नहीं देना चाहता था) ... पावर कॉर्ड पर ग्राउंड पिन HUMAN सुरक्षा के लिए हैं, आपके उपकरणों पर नहीं .. छोटे कार्यालयों में; मैं महत्वपूर्ण मशीनों को जमीन (लकड़ी के बक्से, रबर की चटाई) और बिना जमीन के कनेक्टर्स / एडेप्टर यूपीएस-> दीवार से दूर रखता हूं। मुझे यकीन है कि OSHA को इससे नफरत है, लेकिन कंप्यूटर इसे प्यार करते हैं। यह तब भी मदद करता है जब गर्ड डी-एनर्जेटिक होता है और फिर से सक्रिय होता है क्योंकि ये सर्ज कुछ भी मार सकते हैं। मैं एक इमारत में रहा हूँ जब एक बहुत, बहुत बड़े लिबर्ट यूपीएस / इन्वर्टर को उड़ा दिया गया था और उन्हें अपने तकनीक के बारे में
बताना था

7

मैं इस सवाल के बारे में सोच रहा था क्योंकि यह हाल ही में फ्रंट पेज के शीर्ष पर वापस संपादित किया गया है।

मैं स्वतंत्र रूप से यह निर्धारित करता हूं कि, उन लोगों के लिए जो कि sysadmin1138 जैसे प्रतिष्ठानों से निपटना है जो डीसी छत पर बड़े बिजली के हमलों के लिए अत्यधिक आकर्षक हैं, एक बड़ी हड़ताल के लिए विशिष्ट आकस्मिक योजना समझ में आती है। लेकिन हम में से ज्यादातर के लिए, यह एक एकल-बंद परिस्थिति है, और मुझे लगा कि आम तौर पर बाकी लोगों के लिए अनुकूल उत्तर का कुछ मूल्य हो सकता है।

सभी प्रकार के फिल्म प्लॉट खतरों की कल्पना करना संभव है ; परिदृश्य जो निश्चित रूप से हो सकते हैं, निर्विवाद रूप से आपके व्यवसाय के संचालन को नीचे ले जाएंगे यदि उन्होंने ऐसा किया है, लेकिन यह सोचने का कोई कारण नहीं है कि ऐसा होने की कोई उच्च संभावना है। आप चीज़ की तरह जानते हैं; हवाई जहाज की हड़ताल / बिजली के बोल्ट / तेल डिपो पास में विस्फोट / कोई अन्य प्रशंसनीय-लेकिन पृष्ठभूमि-जोखिम परिदृश्य।

इनमें से प्रत्येक के पास एक विशिष्ट शमन योजना है, जिसे लागू किया जा सकता है, लेकिन मैं यह सुझाव दूंगा कि - ऊपर मेरा स्टाइप्युलेशन modulo - ऐसा करने के लिए कोई व्यावसायिक समझ नहीं है । जैसा कि श्नाइयर ऊपर से जुड़ी प्रतियोगिता में इंगित करने की कोशिश कर रहा है, सिर्फ इसलिए कि आप कल्पना कर सकते हैं कि कुछ भयानक होने से यह खतरा नहीं है जिसके खिलाफ विशिष्ट योजना सार्थक है, या वांछनीय भी है। क्या करता है अच्छा व्यवसाय मतलब एक सामान्य प्रयोजन, अच्छी तरह से प्रलेखित, परीक्षण किया कारोबार निरंतरता योजना है।

आपको अपने आप से पूछना चाहिए कि विभिन्न समय के लिए व्यवसाय की लागत पूरी तरह से साइट के नुकसान में क्या है (जैसे, 24h, 96h, एक सप्ताह, एक महीने) और प्रत्येक घटना की संभावना को निर्धारित करने का प्रयास करें। यह एक ईमानदार व्यवसाय लागत विश्लेषण होना चाहिए, जो व्यवसाय के सभी स्तरों द्वारा खरीदा जाता है। मैंने एक ऐसी साइट पर काम किया है, जहां डाउनटाइम के लिए आम तौर पर स्वीकृत आंकड़ा £ 5.5 मिलियन / घंटा था (और यह 20 साल पहले था, जब पांच मिलियन क्विड बहुत पैसा था); आम तौर पर सहमत होने वाले उस आंकड़े ने इतने सारे फैसलों को इतना आसान बना दिया, क्योंकि वे सिर्फ साधारण गणित का विषय बन गए थे।

आपका बजट उस नुकसान की वार्षिक संभावना से कई गुना अधिक अनुमानित नुकसान है; अब देखें कि बजट के लिए उस खतरे को कम करने के लिए आप क्या कर सकते हैं।

कुछ मामलों में, यह 24x7 पर जाने के लिए तैयार, ठंडे उपकरणों के साथ एक पूर्ण स्टैंडबाय डेटा सेंटर तक चलेगा। इसका मतलब एक छोटा स्टैंडबाय डेटा सेंटर हो सकता है, जिससे ग्राहक संपर्क बहुत कम संख्या में टेलीफोन ऑपरेटर्स और एक प्लेसहोल्डर वेबसाइट के विघटन की चेतावनी के साथ जारी रह सकता है। इसका मतलब यह हो सकता है कि आपके मुख्य स्थल पर दूसरा, बेमानी तरीके से इंटरनेट कनेक्शन, जरूरत पड़ने तक ठंडा पड़ा रहे। इसका मतलब हो सकता है, जैसा कि ऊपर मार्क हेंडरसन ने नोट किया है, बीमा (लेकिन बीमा जो व्यवसाय के नुकसान के साथ-साथ वसूली की वास्तविक लागत को कवर करता है); यदि आप अपने बीसी बजट को कागज के एक टुकड़े पर खर्च कर सकते हैं जो आपदा की स्थिति में आपकी सभी अपेक्षित लागतों को कवर करेगा, तो यह कागज के उस टुकड़े को खरीदने के लिए समझ में आ सकता है - लेकिन हामीदार की असफलता को मत भूलनाआपके व्यवसाय जोखिम योजना में। इसका मतलब हो सकता है कि कुछ मुख्य उपकरणों पर रखरखाव अनुबंधों को बेहद महंगा चार-घंटे-से-फिक्स करने के लिए अपग्रेड करना। केवल आप ही जान सकते हैं कि आपके व्यवसाय के लिए क्या मायने रखता है।

और एक बार जब आपके पास यह योजना है, तो आपको वास्तव में इसका परीक्षण करने की आवश्यकता है (बीमा-आधारित लोगों के संभावित अपवाद के साथ)। मैंने एक ऐसी साइट पर काम किया है, जहां हमारे पास एक छोटा-सा-ऑपरेशन-कोल्ड साइट था, जो हमारी मुख्य सुविधा से 45 मिनट ड्राइव करने के लिए तैयार है। जब हमें एक समस्या थी जो कोर नेटवर्क को बंद कर देती है, तो हमने इसे ठंडे स्थान पर काटने के बजाय इसे ठीक करने की कोशिश की और फिर समाप्त कर दिया।कोर को ठीक करना और वापस काटना। असफलता-से-कट-ओवर के पीछे एक कारण यह था कि हमें इस बात का कोई अंदाजा नहीं था कि इसे काटने और वापस काटने में कितना समय लगेगा। इसलिए, कोई भी वास्तव में नहीं जानता था कि कटौती करने का निर्णय लेने से पहले कितनी लंबी चीजों को बिना कटोरे के चलाने की अनुमति दी जानी चाहिए, इसलिए - काफी समझदारी से - कटौती करने का फैसला करने के लिए मितव्ययिता थी। हम ऑनलाइन वापस आने के बाद लुढ़के, 14 घंटे बाद; प्रति से अधिक आउटेज के कारण नहीं , बल्कि इसलिए कि बहुत सारा पैसा एक दिन के आउटेज को कम करने के लिए एक सुविधा पर खर्च किया गया था, जो कि इस तरह के आउटेज के दौरान अप्रयुक्त हो गया था।

अंतिम बिंदु के रूप में, ध्यान दें कि आपके व्यवसाय योजना के आउटसोर्स घटकों को काम करने की गारंटी नहीं है । आपका वरिष्ठ प्रबंधन यह सोच कर बैठा हो सकता है कि " अगर हम सर्वर को क्लाउड में रखते हैं, तो वे हमेशा वहाँ रहेंगे, और हम सीसडैमिन को आग लगा सकते हैं "। ऐसा नहीं। बादल किसी और चीज की तरह विफल हो सकते हैं; यदि आपने किसी प्रदाता के लिए महत्वपूर्ण घटकों को आउटसोर्स किया है, तो आपने जो भी किया है, वह उन घटकों की विफलता की संभावनाओं का अनुमान लगाने की आपकी क्षमता को हटा देता है। SLAs सभी बहुत अच्छी तरह से हैं, लेकिन जब तक वे पर्याप्त गैर-निष्पादन दंड द्वारा समर्थित नहीं होते हैं, तब तक वे अर्थहीन हैं - आपके प्रदाता उपलब्ध रहने पर अतिरिक्त पैसा क्यों खर्च करेंगे यदि वे सिर्फ पैसे के लिए परेशान कर सकते हैं और अवधि के लिए आपके सेवा शुल्क को वापस कर सकते हैं अनुपलब्धता? विश्वसनीय होने के लिए, आपके SLAs को दंड के साथ आने की आवश्यकता है जो आउटेज के आपके व्यवसाय के लिए लागतों का अनुमान लगाता है। हां, इससे आउटसोर्सिंग की लागत बढ़ जाएगी; और हां, यह पूरी तरह से अपेक्षित है।


2
मुझे जोड़ना चाहिए ... मूल पोस्टिंग के बाद से इस साइट को तीन बार बिजली से मारा गया था । कारण सुविधा के कई क्षेत्रों में अपर्याप्त / कोई भी बिजली के ग्राउंडिंग का पता नहीं लगाया गया था। हमने ठेकेदारों पर मुकदमा दायर किया और बीमा ने प्रतिस्थापन के थोक का ख्याल रखा।
ewwhite

2
क्षमा करें, ewwhite, मेरा प्रारंभिक वजीफा आपके लिए और भी स्पष्ट रूप से लागू होना चाहिए; उन साइटों में जहां कोई भी जोखिम पृष्ठभूमि से ऊपर है, यह मेरे लिए कम से कम विशेष रूप से उस जोखिम पर निर्देशित शमन पर विचार करने के लिए समझ में आता है । मेरा जवाब हर किसी के लिए अधिक था, जो आपके प्रश्न को पढ़ सकते हैं और " अच्छी तरह से सोचना शुरू कर सकते हैं , मेरे पास या तो बिजली की योजना नहीं है; शायद मुझे चाहिए "।
19 दिसबंर को मदहेट

6

यह हमेशा नीचे आता है कि आप कितना खर्च करना चाहते हैं। मेरे पास इस बारे में लंबाई में बोलने के लिए पर्याप्त ज्ञान नहीं है, लेकिन मैं एक बड़े फार्मा डाटासेंटर में रहा हूं, जिसने बिजली की हड़ताल की और उस चीज के माध्यम से उड़ा दिया, जो एक बहु-निरर्थक स्पाइक बन्दी माना जाता था (और सही ढंग से डिजाइन किया गया था , लेकिन गलत तरीके से लागू किया गया था इसलिए कुछ के माध्यम से मिला।)

आपके यूपीएस को रोकने के लिए अधिकतम स्पाइक क्या था? इसकी रेटिंग होनी चाहिए। जाहिर तौर पर, स्ट्राइक काफी हद तक सीधी थी, या खराब मैदान की तरह, यूपीएस फीड के आसपास कुछ लीक हो गया था। तो, हो सकता है कि आप अपने पावर डिज़ाइन की समीक्षा करें, यह निर्धारित करें कि एक और स्ट्राइक की संभावना कितनी है, डाउनटाइम एक्स की संभावना की तुलना करें बनाम विस्मरण, और हो सकता है कि एक इलेक्ट्रीशियन सुविधा को यह सुनिश्चित करने के लिए एक अच्छा सर्वेक्षण दे कि सब कुछ ठीक से हो गया है - और कुछ त्वरित प्रदर्शन शो सुरक्षा / कोडिंग के लिए ग्राउंडिंग बिजली की क्षति से बचाव के लिए ग्राउंडिंग जितना गहन नहीं है।


यूपीएस ठीक प्रतीत होता है। भवन के कई हिस्सों में मुद्दे थे, लेकिन मुख्य यूपीएस तकनीकी विनिर्देश राज्य "फुल टाइम मल्टी-पोल शोर फ़िल्टरिंग: 0.3% IEEE सर्ज लेट-थ्रू: जीरो क्लैंपिंग रिस्पांस टाइम: यूएल 1449 से मिलता है"
ewwhite

हां ठीक लगता है। तब यह अन्य माध्यमों से संभवतया सूँघ जाता है, यदि आपका मुख्य भोजन ठोस है।
मफिननी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.