क्या RAID 4 डिस्क सेटअप क्रैश हो सकता है यदि केवल 1 हार्ड डिस्क विफल हो जाए? [बन्द है]


9

मैं एक वेब डेवलपर हूं। मुझे हार्डवेयर का ज्यादा अनुभव नहीं है। इस कारण से, मैं प्रबंधित सर्वर का उपयोग करता हूं।

आज सुबह, हमारे सेटअप में एक ड्राइव विफल रही। हालांकि, पूरी साइट नीचे चली गई। मैंने अपने वेब होस्ट से पूछा कि क्या हुआ और उसने जवाब दिया कि हार्ड डिस्क इस तरह से विफल हो गई है कि RAID नियंत्रक ठीक से काम नहीं कर सकता है। सरणी को RAID 4 के रूप में सेट किया गया था।

क्या आप लोगों ने पहले कभी ऐसा देखा है? क्या यह संभव है?

इस दोस्तों पर किसी भी मदद के लिए धन्यवाद। मुझे यह जानना चाहिए कि क्या मेरा वेब होस्ट मेरे साथ ईमानदार है।


यदि ऐरे में एक से अधिक डिस्क मर जाती हैं, तो RAID विफल हो जाएगा (हालांकि यह RAID सेटअप पर निर्भर करता है)।
Rhys इवांस

लघु कहानी है, आपका प्रदाता एक ****** है और सस्ते पक्ष पर काम करता है। जब तक आप एक ग्राहक के रूप में चेतावनी दी जाती है कि उसका बुनियादी ढांचा दोष-सहिष्णु नहीं है, तब तक पूरी तरह से स्वीकार्य हो सकता है जब तक कि ड्राइव विफलताएं न हों।
ल्यूक404 एमएक्स

कृपया छापे प्रकार (यानी छापे 0,1,4,5,6, आदि) के साथ प्रश्न को अपडेट करें।
ट्रेवर बॉयड स्मिथ

जवाबों:


22

आपके प्रदाता द्वारा हार्ड ड्राइव का उपयोग न करने की तुलना में अधिक संभावना है कि इसका उपयोग RAID में करने के लिए नहीं है। सामान्य उपभोक्ता SATA ड्राइव इस श्रेणी में आते हैं।

संभावित समस्या यह है कि इस ड्राइव से गैर-पढ़ने योग्य त्रुटियों (UREs) का अनुभव होना शुरू हो गया। जब यह एक उपभोक्ता ड्राइव में होता है, तो ड्राइव वहां बैठता है और रीड ऑपरेशन (आमतौर पर 30-60 सेकंड के लिए) को तब तक पीछे छोड़ देता है जब तक कि वह हार न जाए। RAID त्रुटि (30-60) सेकंड की रिपोर्ट करने के लिए ड्राइव की प्रतीक्षा करेगा। तो कुछ क्षेत्रों के लिए एक सरल अनुरोध आसानी से सर्वर को रोकने का कारण बन सकता है, जबकि असफल ड्राइव उन रीड-रिटायर ऑपरेशंस के माध्यम से पीसता है।

RAID Arrays के लिए जो ड्राइव्स हैं वे या तो टाइम लिमिटेड त्रुटि रिकवरी (SATA ड्राइव के लिए) हैं। टीएलईआर रिपोर्ट्स वापस फेल हो जाती है, जिससे नियंत्रक जल्दी से वापस आ जाते हैं, ताकि नियंत्रक समझदारी से ऐसी विफलताओं का जवाब दे सके (ज्यादातर बुद्धिमानी; उम्मीद है)। एससीएसआई (एसएएस भी) कुछ अलग तरीके से काम करते हैं। SCSI कमांड सेट कंट्रोलर को ड्राइव पर विभिन्न रिकवरी प्रयास सीमाएँ निर्दिष्ट करता है (MODE SELECT: RW ERR RECOVERY)। एक RAID नियंत्रक को ड्राइव को जल्दी से विफल करने के लिए सेट करना चाहिए, नियंत्रक तब परीक्षण कर सकता है यदि ड्राइव को लगता है कि यह TUR कमांड के साथ ठीक से काम कर रहा है, तो ड्राइव को सरणी से बाहर निकाल दें यदि चेक की स्थिति है।


अच्छे खर्च।
सब्रतला

11

हां, यह संभव है, यहां तक ​​कि परिदृश्यों में जहां आपको लगता है कि सरणी को विफलता से बच जाना चाहिए था।

सरणी के विफल होने के कारण कुछ संभावनाएँ:

  • RAID मोड द्वारा बनाए रखने की तुलना में अधिक ड्राइव विफल रहीं। उदाहरण के लिए:
    • RAID 0 (स्ट्रिपिंग) किसी भी ड्राइव विफलताओं से बच नहीं सकता है।
    • RAID 1 सभी लेकिन 1 ड्राइव की विफलताओं से बच सकता है।
    • RAID 4/5 1 ड्राइव की विफलता से बच सकता है।
    • RAID 6 2 ड्राइव विफलताओं से बच सकता है।
    • RAID 10 ड्राइव के 50% तक की विफलता से बच सकता है, जिसके आधार पर ड्राइव विफल हो जाते हैं।
  • RAID सॉफ़्टवेयर या नियंत्रक फर्मवेयर में बग।
  • उपयोगकर्ता की त्रुटि।
    • किसी ने बहुत सारे ड्राइव खींचे।
    • किसी ने एक ड्राइव खींची और उसे कभी नहीं बदला और दूसरा ड्राइव बाद में विफल हो गया।
    • सरणी की निगरानी नहीं की गई थी, जिससे अधिक ड्राइव को विफल होने से बचाया जा सकता था।
  • उपभोक्ता ग्रेड ड्राइव के साथ सस्ते नियंत्रकों को आमतौर पर अन्यथा जीवित परिदृश्यों में भी विफल होने के लिए जाना जाता है।
    • एक उपभोक्ता स्तर की ड्राइव एक बुरे क्षेत्र को पढ़ने के लिए लगभग अनिश्चित काल तक प्रयास करेगी जब तक कि यह एक अच्छा पढ़ा नहीं जाता। एक सस्ता नियंत्रक इस तरह के ड्राइव के परिणामस्वरूप परिणाम के लिए लगभग अनिश्चित काल तक प्रतीक्षा करेगा। प्रतीक्षा इतनी लंबी हो सकती है कि ऑपरेटिंग सिस्टम को छोड़ देता है। फिर रिबूट पर ड्राइव नियंत्रक के लिए जल्दी से पर्याप्त प्रतिक्रिया नहीं करते हैं और सरणी को विफल माना जाता है।
    • दूसरी ओर, एक उद्यम स्तर ड्राइव जल्दी छोड़ देगा, जिससे नियंत्रक को किसी अन्य ड्राइव से डेटा खींचने की अनुमति मिलेगी। इसके अलावा, एक अच्छा नियंत्रक एक ड्राइव को चिह्नित करेगा जो विफल होने पर प्रतिक्रिया करने और आगे बढ़ने में बहुत लंबा समय लेता है।

1
RAID 1 को सरणी में ड्राइव के सभी लेकिन एक की मृत्यु से बचना चाहिए । दी, अधिकांश लोग संभवतः दो-ड्राइव RAID 1 सेटअप चलाते हैं, जिसका अर्थ है कि यह केवल एकल ड्राइव की मृत्यु से बच सकता है, लेकिन यह RAID 1 से अंतर्निहित नहीं है
एक CVn

दिलचस्प है अगर एक RAID 10 में 1 डिस्क विफल हो जाए तो आपको एक और डिस्क को तोड़ना चाहिए क्योंकि यह जीवित नहीं होगा यदि केवल एक डिस्क टूटी हुई है :-) मुझे लगता है कि आपको अपनी पोस्ट को संपादित करना चाहिए।
फ्लाई

@ माइकलकॉर्जलिंग अच्छा बिंदु। मैंने अपनी पोस्ट संपादित की।
लॉन्गनेक

@ आप सही हैं, मैं उस बिंदु पर चमक गया। संपादित।
लॉन्गनेक

RAID4 को RAID3 होना चाहिए। RAID3 बाइट स्ट्रिपिंग समता के साथ है; RAID4 एक ECC कार्यान्वयन था जिसे AFAIK को कभी लागू नहीं किया गया था।
दान

8

यदि यह एक RAID 0 कार्यान्वयन था, तो निश्चित रूप से जब एक एकल ड्राइव विफल रहता है तो आप सरणी और इसके साथ सभी डेटा खो देंगे।


यह एक RAID 4 कार्यान्वयन है
स्टीव रॉड्रिगो

11
hahaha - तुम लगभग मुझे वहाँ था, यह वास्तव में क्या है?
चॉपर 3

3
@ चॉपर 3 नेटऐप RAID4 का उपयोग करता है। तो यह पूरी तरह से अनसुना नहीं है, हालांकि इसने मुझे एक चकली भी दी। हो सकता है कि मेजबान का यह कहने का तरीका हो कि उनके पास नेटएप फाइलर या कुछ और है।
होपलेसनब बी

1
@SteveRodrigue क्या आपको यकीन है कि यह RAID 4 है?
एमडीएमरा

1
यदि यह वास्तव में RAID4 है और केवल 1 ड्राइव विफल हो गया है, तो कम से कम सिद्धांत में एक नई ड्राइव को स्थापित करना और सरणी को फिर से बनाना संभव होना चाहिए। शायद वेब होस्ट का मतलब था कि जब वह ऐसा करने की कोशिश कर रहा था, तो शेष ड्राइव में से एक विफल हो गया?
user3490

2

मैंने देखा है कि फर्मवेयर बग पूरे RAID को तब निकालते हैं जब एक डिस्क खराब हो जाती है, या जब यह आसन्न विफलता की रिपोर्ट करना शुरू कर देता है। क्षमा करें, मेरे पास आपको इंगित करने के लिए कुछ भी विशिष्ट नहीं है, लेकिन हां, यह हो सकता है। RAID युक्ति के भाग के रूप में नहीं, निश्चित रूप से, यह एक बग है।


1

हाँ, यह मुमकिन है। यह होने वाला नहीं है, लेकिन यह निश्चित रूप से हो सकता है। UREs (अपरिवर्तनीय त्रुटि पढ़ें) और नियंत्रक दोष और फर्मवेयर बग और पसंद दर्ज करें।

अतिरिक्त जानकारी के बिना (जो आपका मेजबान शायद आपको नहीं देगा), यह निश्चित रूप से एक तरह से या दूसरे तरीके से कहना संभव नहीं है, लेकिन जो कोई बहुत सारे RAID सरणियों के साथ काम करता है, उसके पास ऐसे अनुभव हैं जहां एक संपूर्ण सरणी खो गई थी या दुर्घटनाग्रस्त हो गई थी नहीं होना चाहिए।

(और, वैसे, RAID4 एक बहुत ही सामान्य रूप से उपयोग किया जाने वाला RAID स्तर नहीं है, लेकिन किसी भी ड्राइव के नुकसान का सामना करना चाहिए । इसका मतलब यह नहीं है कि हमेशा होगा, लेकिन)


1

मेरे पास कई एचडीडी विफलताएं हैं, जहां मैकेनिक विफल नहीं हुए, लेकिन इलेक्ट्रॉनिक्स ने संचार इंटरफेस बना दिया। उनके छोटे आकार के कारण कई इलेक्ट्रॉनिक्स घटक मामूली विद्युत अनियमितताओं के लिए बहुत संवेदनशील होते हैं (यह तब हो सकता है जब आस-पास के बड़े ए / सी मोटर्स चालू / बंद हो जाते हैं और बिजली की आपूर्ति सस्ते पक्ष पर थोड़ी होती है)।

जब ड्राइव के आंतरिक पावर कन्वर्टर्स या कैपेसिटर (ऊर्जा भंडारण बफ़र्स) एचडीडी के बाहरी कनेक्टर्स पर उत्पन्न विद्युत संकेतों को जलाते हैं और विनिर्देश से बाहर निकल जाएंगे। चूंकि ड्राइव तांबे के तारों के माध्यम से नियंत्रक से जुड़ा हुआ है, और अक्सर सर्वरों में कई ड्राइव स्थापना को कम करने और अव्यवस्था को कम करने के लिए एक केबल कनेक्शन साझा करते हैं, यह आसानी से किसी भी संख्या में आसन्न घटकों को बाधित या स्थायी रूप से नष्ट कर सकता है।

इस तरह से मूल्य निर्धारण के साथ बहुत कम है। यह सच है कि महंगे नियंत्रक और ड्राइव MAY ऐसे पुर्जों का उपयोग करते हैं जो असामान्य स्थितियों के प्रति अधिक सहिष्णु होते हैं या जिनमें बेहतर परिरक्षण होता है, और यह कि बजट घटकों के साथ आपको उप-मानक पुर्जे मिलने की अधिक संभावना होती है। लेकिन मैंने नियमित रूप से $ 50 ड्राइव और $ 500 ड्राइव पर समान कैपेसिटर पाया है। और अगर एक विफल HDD सीधे बिजली की आपूर्ति से SATA कनेक्टर के लिए 12 वोल्ट का रूट करता है क्योंकि कुछ छोटा हो गया है, तो आपके RAID नियंत्रक को तला दिया जाएगा, चाहे मूल्य टैग कितने आंकड़े हो।

यह आमतौर पर ऐसा नहीं होता है, लेकिन यह निश्चित रूप से मेरे अनुभव में अनसुना नहीं है।


"अक्सर सर्वर में कई ड्राइव एक केबल कनेक्शन साझा करते हैं" आधुनिक एसएएस या एसएटीए वातावरण में नहीं। यह बहुत खगोलीय रूप से संभावना नहीं है कि आपका परिदृश्य यहां क्या हुआ है; मुझे नहीं लगता कि मैंने कभी किसी ड्राइव के इलेक्ट्रॉनिक्स को मरने और उसके साथ अन्य घटकों को लेने के बारे में सुना है। जबकि 12v निश्चित रूप से SATA या SAS कंट्रोलर को भून लेगा, लॉजिक घटक किसी भी तरह से 12v से बहुत कम जुड़े होते हैं, क्योंकि 5v या 3.3v स्रोतों की तुलना में वोल्टेज को 12 से 3.3 या उससे कम करना बहुत जटिल होता है। मैं जिज्ञासु हूं कि आपके पास इस प्रकार की बात हो सकती है; यदि आप साझा करने के लिए तैयार हैं?
क्रिस एस

1

हां, मुझे लगता है कि एकल ड्राइव की विफलता के बाद पूरे छापे विफल हो सकते हैं। नियंत्रक द्वारा पहली बार विफल ड्राइव को ऑफ़लाइन ले जाया जाएगा और छापे अभी भी ठीक काम करेंगे। लेकिन जब असफल ड्राइव को बदल दिया जाता है, तो नियंत्रक छापे का पुनर्निर्माण करना शुरू कर देता है। यदि अन्य शेष ड्राइव्स में से एक अव्यक्त गैर-खोज की गई रीड-प्रॉब्लम है, तो असफल ड्राइव का पुनर्निर्माण ऑफ़लाइन होने के लिए अधिक ड्राइव का कारण बन सकता है (जब रीड को पुनर्निर्माण करते समय रीड-प्रॉब्लम का पता चलता है) फिर से पूरे छापे का कारण बनता है असफल।


यही कारण है कि RAID सरणियों को नियमित रूप से स्क्रब करने की आवश्यकता है, पढ़ने या लिखने की समस्याओं की खोज करने के लिए।
क्रिस एस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.