हार्ड ड्राइव की जगह [बंद]


19

मैं सोच रहा था कि एक निश्चित (संख्या) सिस्टम-क्रिटिकल डेटाबेस सर्वर में हार्ड ड्राइव को एक निश्चित संख्या में उपयोग करने के वर्षों के बाद, मरने से पहले उसे बदलना एक अच्छा विचार है।

उदाहरण के लिए, मैं 3 साल के उपयोग के बाद एक हार्ड ड्राइव को बदलने की सोच रहा था। चूंकि मेरे पास सर्वरों में कई हार्ड ड्राइव हैं, इसलिए मैं डगमगा सकता हूं कि हार्ड ड्राइव को किस स्थान पर रखा गया है।

क्या यह एक अच्छा विचार है, या लोग केवल असफलता की प्रतीक्षा करते हैं?

जवाबों:


33

Google ने डिस्क ड्राइव पर एक अध्ययन किया और डिस्क आयु और विफलता के बीच बहुत कम संबंध पाया। स्मार्ट परीक्षण भी विफलताओं को नहीं दिखाते हैं।

मेरी स्थानीय टिप्पणियां (> 500 सर्वर) समान हैं। मैं नए डिस्क जल्दी से विफल हो जाते हैं जबकि पुराने अभी भी साथ चुगते हैं।

मेरा सामान्य नियम यह है कि अगर हमने डिस्क समस्याएँ देखीं (SMART या सिस्टम एरर) तो हम उसे तुरंत बदल देते हैं। यदि नहीं, तो जब सर्वर करता है तो ड्राइव निकल जाती हैं।

Google अध्ययन http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf


यह आम तौर पर मैं क्या सोच रहा था, लेकिन यह देखना चाहता था कि दूसरों ने क्या किया। धन्यवाद
गार्फ़ोन्जो

2
मैं सहमत हूँ। हम नए 2.5 "के साथ बहुत अधिक विफलता दर देख रहे हैं" SAS 10 साल पुराने सर्वर के साथ 3.5 "9GB SCSI ड्राइव चला रहा है!
जेम्स ओ'गोरमैन

@ JamesO'Gorman विनिर्माण प्रक्रियाएं बदलती हैं ... मुझे आश्चर्य होता है कि कुछ इंजीनियरिंग "ट्रेड-ऑफ" के हिस्से के रूप में नई ड्राइव के लिए क्या किया गया है।
एवेरी पायने

1
Microsoft Technet में Fault Tolerance पर एक लेख है जो हार्ड ड्राइव / मैकेनिकल घटक विफलता ( Technet.microsoft.com/en-us/library/bb742464.aspx ) पर संक्षिप्त रूप से स्पर्श करता है - वे "बाथटब वक्र" के बारे में थोड़ी बात करते हैं, जो कि यांत्रिक है। घटक विफलताओं का पालन करते हैं।
voretaq7

@AveryPayne फिर से नई ड्राइव करें, ध्यान दें कि 2.5 "ड्राइव में MUCH टीयर टॉलरेंस होता है - परिणामस्वरूप जो" 3.5 पर "स्वीकार्य" मैकेनिकल स्लोप "ड्राइव करता है, वह 2.5" ड्राइव पर एक भयावह विफलता का कारण बन सकता है। TechNet लेख भी देखें। मैंने बाथटब वक्र के बारे में जोड़ा - यांत्रिक घटक सामान्य रूप से उच्च शिशु मृत्यु दर से पीड़ित हैं, और तब तक अपेक्षाकृत स्थिर हैं जब तक कि वे "बुढ़ापे" की मृत्यु नहीं हो जाते। 2.5 "ड्राइव अभी भी" शिशु मृत्यु "क्षेत्र में हैं - मेरे अनुभव से ऑपरेशन के कम से कम 1 साल।
voretaq7

13

नहीं।

एक सक्रिय उत्पादन सर्वर पर हार्ड ड्राइव को बदलने के साथ सबसे बड़ी समस्याओं में से एक यह है कि ऐसा करने से एक पुनर्निर्माण होगा। खासकर यदि आप RAID5 का उपयोग कर रहे हैं, और विशेष रूप से यदि आप बड़ी ड्राइव का उपयोग कर रहे हैं, तो एक बलपूर्वक पुनर्निर्माण एक अपरिवर्तनीय विफलता का एक बहुत महत्वपूर्ण जोखिम पैदा करता है। पुनर्निर्माण के दौरान सरणी खोने का जोखिम जगह में 3 साल पुरानी ड्राइव को छोड़ने में शामिल जोखिम से कहीं अधिक है।

एक चरम उदाहरण लेते हुए, यदि आप क्रमिक रूप से प्रत्येक डिस्क को 6T-RAID RAID5 सरणी में शामिल करते हैं, जिसमें 2TB डिस्क शामिल होती है, तो पुनर्स्थापना के दौरान एक अप्राप्य पठनीय त्रुटि का आपका सैद्धांतिक जोखिम 58% के पड़ोस में होता है (मेरे नैपकिन गणित के अनुसार; कृपया अपना स्वयं का करें और नोटों की तुलना करें)। दूसरे शब्दों में: आपका "निवारक" डिस्क प्रतिस्थापन, वास्तव में, तोड़फोड़ के कार्य से कम नहीं है

एकमात्र समय जब मैं एक पुराने सर्वर में रिफ्रेशिंग ड्राइव पर विचार करूंगा, वह "रीफर्बिशिंग" के दौरान होगा, जैसे कि एक कार्य से विघटित होने के बाद और एक नई भूमिका के साथ सेवा में वापस रखने से पहले। उस बिंदु पर भी, क्षमता और प्रदर्शन की आवश्यकताएं ड्राइव की आयु से कहीं अधिक महत्वपूर्ण होंगी।


1
+1 को फिर से शुरू करने के लिए
gregmac

क्या आप बता सकते हैं कि जोखिम ५ 58% क्यों है? यदि डिस्क नियमित रूप से गश्त की जाती है तो यह अधिक पुनर्प्राप्ति पर जोर क्यों देगी?
Mircea Vutcovici

@MirceaVutcovici क्योंकि एक RAID-5 व्यवस्था में, सभी ड्राइव यहां या कभी-कभी यादृच्छिक यादृच्छिक बनाम पुनर्निर्माण के दौरान लगातार सक्रिय रहेंगे। दूसरे शब्दों में, ड्राइव के सभी पर "लोड" रास्ता बढ़ जाता है, और ऐसा करने पर, 2 असफल ड्राइव को ट्रिगर करने का आपका जोखिम भी बढ़ जाता है।
एवरी पायने

@ सभी लोग मुझे पता है कि आप पुनर्निर्माण के दौरान डिस्क को अधिक तनाव देते हैं। मैं यह समझने की कोशिश कर रहा हूं कि क्यों एक पुनर्निर्माण एक चेक से अधिक डिस्क को तनाव देगा।
Mircea Vutcovici

@MirceaVutcovici सटीक आंकड़ा (और गणित कैसे करना है) पर बहस करने योग्य है, लेकिन नीचे की पंक्ति आपको किसी भी रीड त्रुटियों को सही करने के लिए, एक पैरिटी डिस्क के लाभ के बिना, छह बार 10 टेराबाइट डेटा पढ़ने के लिए है, ताकि वह प्रदर्शन कर सके। छह पुनर्वसु। 60 टेराबाइट डेटा को पढ़ने की संभावना, जिसमें कोई त्रुटि नहीं है, आपके पक्ष में नहीं है।
स्काईवॉक

3

मैंने इसे नहीं देखा है। हम सर्वर को वारंटी के अंतर्गत रखते हैं जब तक कि उन्हें उत्पादन से बाहर नहीं निकाल दिया जाता - 5 साल मानक RAID 5 आपको एक डिस्क विफलता से बचने की अनुमति देता है, इसलिए हम बस एक जोड़ी ड्राइव को हाथ में रखते हैं ताकि हम तुरंत एक पुनर्निर्माण शुरू कर सकें और महत्वपूर्ण सर्वरों पर, हम एक हॉटस्पेयर शामिल करें या RAID 10.

यदि आपने कई ड्राइव को विफल देखा है हाल ही में एक सर्वर में आपको बैकप्लेन की समस्या हो सकती है। पास के निर्माण से भी नया कंपन या धूल हो सकता है।


यह पूरी तरह से सच नहीं है। यदि आपके डिस्क की एक बड़ी संख्या एक ही से है, तो आप पुनर्निर्माण के तनाव को जोड़ने पर एक साथ विफलता का बहुत अधिक जोखिम चलाते हैं। जैसा कि एक अन्य जवाब में कहा गया है, TRAID5 के बढ़ते आकार के पुनर्निर्माण के दौरान एक URE की बढ़ती संभावनाएं चलती हैं जो आपके सरणी को raid5 वैधता सीमा से नीचे ले जाती हैं।
मैगेलन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.