हार्डवेयर RAID नियंत्रक कैश बैटरी विफलता आवृत्ति / जीवनकाल?


14

मैं एक ऐसे वातावरण में हूं जिसमें कई सुपरमाइक्रो सर्वर हैं जो एडेप्टेक और एलएसआई मेगाएआरआईडी हार्डवेयर RAID नियंत्रक से लैस हैं । इन नियंत्रकों में बैटरी-समर्थित कैश मॉड्यूल होते हैं, जो प्रदर्शन को बढ़ाने और डेटा को पारगमन की सुरक्षा करने में मदद करते हैं।

एक लगातार समर्थन मुद्दों RAID नियंत्रक बैटरी विफलता है। यह राइट-बैक से राइट-थ्रू मोड में सरणी को स्थानांतरित करता है। स्पष्ट रूप से एक नकारात्मक प्रदर्शन प्रभाव है क्योंकि सिस्टम अपमानजनक लेखन गति के साथ चलता है। यह तब तक बनी रहती है जब तक सिस्टम को डाउन करने और बैटरी को बदलने के लिए डाउनटाइम विंडो स्थापित नहीं की जा सकती।

यह हमारे लिए एक बहुत ही नियमित ऑपरेशन है; कई हज़ार भौतिक सर्वरों में लगभग साप्ताहिक ... हमारे पास प्रतिस्थापन बैटरी को तैयार करने के लिए चार्जिंग स्टेशन भी हैं ताकि चार्ज चक्र के बिना स्वैप-इन किया जा सके।

शायद मैं एचपी प्रोलिएंट सर्वर और स्मार्ट एरे RAID नियंत्रकों के साथ एक लंबे इतिहास से खराब हो गया हूं , लेकिन एचपी सिस्टम में आमतौर पर 4-6 साल की बैटरी जीवनकाल थी। उन्होंने अंततः 2009 के आसपास RAID बैटरी के उपयोग को समाप्त कर दिया। उन्हें सुपरकैपेसिटर-समर्थित मेमोरी मॉड्यूल (फ्लैश-बैक राइट कैश, या FBWC) से बदल दिया गया और प्रतिस्थापन, निपटान या एक लंबा प्रारंभिक चार्ज चक्र की आवश्यकता नहीं है।

जब से मैं एडेप्टेक और एलएसआई नियंत्रक बैटरी विफलताओं को देखता हूं, कभी-कभी 12 महीने से कम समय तक सेवा में रहने वाली प्रणालियों पर होता है , मुझे आश्चर्य होता है कि क्या यह अन्य वातावरणों में आम है।

यदि यह सामान्य है, तो अन्य बड़े सर्वर वातावरण इसे कैसे संभालते हैं?

  • RAID बैटरी प्रतिस्थापन को संभालने के लिए कोई सुझाव या चाल?
  • क्या कोई कॉन्फ़िगरेशन पैरामीटर हैं जो मदद कर सकते हैं?
  • आपके वातावरण में संचालन के लिए यह कितना विघटनकारी है ?
  • गरीब चेसिस ठंडा और तापमान एक कारक हो सकता है?
  • क्या हम कुछ गलत कर रहे हैं?
  • डेल पीईआरसी नियंत्रक एलएसआई द्वारा बनाए गए हैं। क्या डेल वातावरण में समान बैटरी जीवनकाल का अनुभव होता है?

एलएसआई उत्पाद साहित्य एक नई पीढ़ी की बैटरी की रूपरेखा तैयार करता है जो 1 साल से अधिक समय तक सेवा में रह सकती है। यहाँ छवि विवरण दर्ज करें

HP ProLiant DL585 G2 सर्वर 1000+ दिन अपटाइम और एक खुश RAID बैटरी के साथ ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

2
बस एक संकेत: Adaptec नियंत्रकों की अंतिम पीढ़ी बैटरी के बजाय सुपरकैप / फ्लैश का उपयोग करती है।
स्वेन

ओह, मुझे पता है कि सभी निर्माताओं के पास अब सुपर-आधारित समाधान हैं , लेकिन मौजूदा स्थापना पदचिह्न को देखते हुए, बुनियादी ढांचे में व्यापक बदलाव करना कठिन है।
ewwhite

2
मैंने ऐसा कभी नहीं किया है (शायद इसलिए कि यह एक बुरे विचार की तरह लगता है और मेरे पास यह मुद्दा नहीं है कि आप जितनी बार भी हैं), लेकिन आप एक RAID बैटरी को परीक्षण सर्वर पर बदलने की कोशिश कर सकते हैं, जबकि यह चालू है। इसे बाहर स्लाइड करें, कवर को बंद करें, खराब बैटरी को डिस्कनेक्ट करें, और अच्छे को कनेक्ट करें, फिर रैक में वापस ... यदि सब ठीक हो जाता है, तो आपके पास एक नई बैटरी प्रतिस्थापन प्रक्रिया है जिसमें डाउनटाइम शामिल नहीं है।
अगस्त

2
@ ऑगस्ट उह, जैसे ही जोखिम भरी प्रक्रियाएं चलती हैं, यह "OMG WHID DID MY DATA GO" सूची पर बहुत अधिक लगता है।
दान

2
हां यह सुनिश्चित करता है ... मैं मानता हूं कि यह एक भयानक विचार की तरह लगता है, लेकिन बिना किसी डाउनटाइम के स्थिति और आवश्यकता को देखते हुए, यह परीक्षण सर्वर (या तीस टेस्ट सर्वर ...) पर शॉट के लायक हो सकता है यह देखने के लिए कि क्या यह है। मुमकिन। हजारों सर्वरों में व्यक्तिगत RAID बैटरी पर भरोसा नहीं करने के लिए बुनियादी ढांचे को फिर से तैयार करने के अलावा एक और विकल्प क्या है?
अगस्त

जवाबों:


9

मुझे संदेह है कि आपके सुपरमाइक्रोस को एक तरह से या दूसरे को तोड़ दिया जाता है - संभवतः बैटरी पैक अधिक गरम हो रहे हैं। सबसे हालिया LSIs MegaCLI के माध्यम से तापमान की रिपोर्ट करेंगे - आप सर्वर पर इस मान की निगरानी करना चाह सकते हैं जिन्हें प्रतिस्थापन की आवश्यकता थी।

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

मैंने एलएसआई बीबीयू नियंत्रकों के साथ डेल और फुजित्सु प्रणालियों के एक जोड़े को देखा है, उनमें से किसी ने भी वार्षिक रूप से बैटरी पैक प्रतिस्थापन नहीं किया था (सिवाय इसके कि आप पैक को डीप-डिस्चार्ज करके खराब कर दें)। ठेठ जीवन का समय लगभग 3 से 5 साल रहा है।


4
मुझे लगता है कि जब तक सिस्टम अत्यधिक गर्म प्रतिस्थापन के अधिकृत करता है RAID BBU मैं इसे करने का प्रयास नहीं करूंगा। मैंने कभी नहीं देखा है कि एक सिस्टम को RAID कैश बैटरी के वार्षिक प्रतिस्थापन की आवश्यकता होती है। 3-5 साल एक विशिष्ट सेवा जीवन है।
voretaq7

मुझे लगता है कि आपको मिल गया!
ewwhite

1

औसत बैटरी जीवन 3-5 वर्ष होना चाहिए। और यह न भूलें कि फ्लैश-आधारित एफबीडब्ल्यूसी भी विफल हो जाता है। मुझे नहीं पता कि क्यों / कैसे, लेकिन हम उन्हें नियमित रूप से अपने एचपी सर्वर पर परी की जगह ले रहे थे। मुझे बैटरी से अधिक समय तक चलना चाहिए, लेकिन हमारे व्यक्तिगत सर्वर के आंकड़े नहीं हैं।

विफल बैटरी और बैटरी सीखने के प्रभावों को रोकने का मानक तरीका कई बैटरी होना है। यह एचपी स्टोरेज (जैसे एचपी ईवा) है। आपके पास 2 हॉट-प्लग बैटरी हैं और जबकि एक कम चार्ज है या प्रतिस्थापित किया जा रहा है, नियंत्रक शेष एक के साथ काम करता है। मुझे यकीन नहीं है कि स्मार्टअरे से जुड़ी कई बैटरी होना संभव है, लेकिन hpacucli diagआउटपुट का सुझाव है कि इसका समर्थन किया जाना चाहिए:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

1

कुछ सौ इंस्टॉल पर एलएसआई प्लेटफार्मों के आईबीएम संस्करणों के साथ मेरा अनुभव यह है कि औसत बैटरी मुश्किल से 2yrs बनाती है, और सुपरकैप कोई बेहतर नहीं है, जिनमें से कुछ को फर्मवेयर अपडेट के साथ तय किया जा सकता है, लेकिन LSI अभी नहीं मिला है सही। मुझे पहले 2 साल में लगभग 75% सुपरकैप विफलताएं मिली हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.