RAID-5: एक साथ दो डिस्क विफल रहे?


21

हमारे पास एक Dell PowerEdge T410 सर्वर है जो CentOS पर चल रहा है, जिसमें 5-सी सरणी है जिसमें 5 सीगेट बाराकुडा 3 टीबी एसएटीए डिस्क हैं। कल प्रणाली दुर्घटनाग्रस्त हो गई (मुझे नहीं पता कि वास्तव में कैसे और मेरे पास कोई लॉग नहीं है)।

RAID नियंत्रक BIOS में बूट करने पर, मैंने देखा कि 5 डिस्क में से, डिस्क 1 को "लापता", और डिस्क 3 को "अपमानित" के रूप में लेबल किया गया था। मैंने डिस्क 3 बैक अप को मजबूर किया, और डिस्क 1 को एक नई हार्ड ड्राइव (एक ही आकार के) के साथ बदल दिया। BIOS ने इसका पता लगाया और डिस्क 1 का पुनर्निर्माण करना शुरू किया - हालांकि यह% 1 पर अटक गया। कताई प्रगति सूचक पूरी रात हिलता नहीं था; पूरी तरह से जमे हुए।

मेरे लिए यहां क्या विकल्प हैं? क्या कुछ पेशेवर डेटा रिकवरी सेवा का उपयोग करने के अलावा पुनर्निर्माण का प्रयास करने का कोई तरीका है? दो हार्ड ड्राइव एक साथ कैसे विफल हो सकते हैं? अत्यधिक संयोग लगता है। क्या यह संभव है कि डिस्क 1 विफल हो गया, और परिणामस्वरूप डिस्क 3 "सिंक से बाहर चला गया?" यदि ऐसा है, तो क्या मुझे वापस पाने के लिए "सिंक में" का उपयोग करने के लिए कोई उपयोगिता है?


20
हाँ, बड़ा साटा डिस्क ऐसा करते हैं। (डबल-विफलताओं के संपर्क में आने के दौरान 3 टीबी के पुनर्निर्माण में कई घंटे लगते हैं)। इसलिए यह अपेक्षित है और इस तरह के विन्यास का उपयोग करते हुए RAID -5 की सिफारिश बिल्कुल नहीं की जाती है।
मिशेल जू

9
वास्तव में। एक आदर्श विश्व ड्राइव में विफलता की दर अनियमित रूप से वितरित की जाती है। व्यावहारिक रूप से, ऐसा नहीं होता है - वे आम तौर पर एक ही बैच से खरीदे जाते हैं और एक ही तनाव के अधीन होते हैं, जिसका अर्थ है कि वे सभी एक ही समय में जीवन का अंत करना शुरू करते हैं। लोडिंग में अचानक बदलाव बहुत आसानी से कई 'किनारे पर' कर सकता है, इससे पहले कि आप SATA डिस्क पर अपरिवर्तनीय त्रुटि दरों को देखना शुरू कर दें। वैसे भी - मुझे बुरी खबर से डर लगता है, जब तक कि आप उन ड्राइवों में से एक को ऑनलाइन प्राप्त नहीं कर सकते हैं, बैकअप लेने का समय आ गया है।
सोब्रीक जूल


5
मुझे पता है कि यह अब बहुत मदद नहीं करता है, लेकिन सिर्फ FYI करें - आम सहमति 1TB से बड़े ड्राइव के लिए RAID6 का उपयोग करना है (जब हम 7200rpm के बारे में बात कर रहे हैं)।
पौस्का

2
RAID 5 गलती सहिष्णुता देता है, लेकिन यह एक समझौता विकल्प है - आपके पास N + 1 लचीलापन है, लेकिन अगर आपके पास बड़ी ड्राइव है तो आपके पास एक बड़ी खिड़की है जहां एक दूसरी गलती हो सकती है। RAID-6 एन + 2 दोष सहिष्णुता देता है, जिसे आमतौर पर अच्छा माना जाता है (ट्रिपल विफलता की संभावनाएं बहुत कम हैं)। हालाँकि, आपको अधिक महंगी डिस्क की असफलता दर भी मिलेगी (जैसे कि सस्ते SATA ड्राइव नहीं)
Sobrique

जवाबों:


24

आपके द्वारा गलत उत्तर को स्वीकार करने के बाद , मुझे वास्तव में अपनी विधर्मी राय के लिए खेद है (जो इस तरह के सरणियों को पहले ही कई बार बचा चुका है)।

आपकी दूसरी असफल डिस्क में शायद एक छोटी सी समस्या है, शायद एक ब्लॉक विफलता। यही कारण है कि, आपके खराब raid5 फर्मवेयर का खराब सिंक टूल उस पर क्रैश क्यों हुआ।

आप आसानी से एक लोवेल डिस्क क्लोनिंग टूल के साथ एक सेक्टर-स्तरीय प्रतिलिपि बना सकते हैं (उदाहरण के लिए, gddrescue शायद बहुत उपयोगी है), और इस डिस्क को अपने नए डिस्क 3 के रूप में उपयोग करें। इस मामले में, आपका सरणी एक मामूली डेटा भ्रष्टाचार के साथ बच गया।

मुझे खेद है, शायद यह बहुत देर हो चुकी है, क्योंकि इस मामले में रूढ़िवादी जवाब का सार है: "एक छापे 5 में कई विफलता, यहाँ सर्वनाश है!"

यदि आप बहुत अच्छे, निरर्थक छापे चाहते हैं, तो लिनक्स में सॉफ्टवेयर छापे का उपयोग करें। उदाहरण के लिए, इसका छापा सुपरब्लॉक डेटा लेआउट सार्वजनिक और प्रलेखित है ... मुझे वास्तव में खेद है, मेरी इस अन्य विधर्मी राय के लिए।


8
शर्म की बात है कि यह वोट कम हो गया, यह वास्तव में ओपी को दूसरों के विपरीत गंदगी को ठीक करने में मदद करता है। +1
वैधता

3
@ यह गंदगी को हल करने की कोशिश नहीं करता है, यह उसकी समस्याओं का विस्तार करता है। दूषित ब्लॉक के साथ एक raid5 दर्द का कोई अंत नहीं देता है क्योंकि यह अखंडता की जाँच करेगा लेकिन नियमित रूप से नीचा दिखाएगा। इसके अलावा उसे नहीं पता होगा कि कौन सा डेटा भ्रष्ट है। यदि यह एक ब्लॉक को ठीक करने के रूप में आसान था जो मानक समाधान होगा।
जेम्सरन

4
@JamesRyan मैं सहमत हूँ कि यह बाद की कुछ समस्याओं का कारण बनेगा और मैं भी सहमत हूँ कि यहाँ अंतर्निहित मुद्दे हैं। हालांकि यह कुछ कार्यक्षमता वापस पाने के लिए एक वैध समाधान प्रदान करता है और जैसा कि ओपी डेटा रिकवरी विशेषज्ञों के बारे में बात कर रहा था, मैं केवल यह मान सकता हूं कि उनके पास अपना डेटा वापस पाने के लिए बैकअप नहीं है। अंत में, यह समाधान केवल एक फिक्स का एक हिस्सा होगा, एक बार जब इस पद्धति को सिस्टम को फिर से बूट किया गया था, तो आप संभवतः फाइल सिस्टम को 5 नए डिस्क पर स्थानांतरित करना चाहते हैं और फिर महत्वपूर्ण रूप से इसे वापस कर सकते हैं।
१६:०४ पर वैलिट

1
"आप आसानी से एक ब्लॉक-कॉपी टूल का एक सेक्टर-स्तरीय प्रतिलिपि बना सकते हैं" क्या यह वास्तव में आपके लिखने का मतलब है?
अरनौद मीरुत

1
@ माइकफ्लेंडर मुझे लगता है कि हार्डवेयर तेज है, लेकिन मालिकाना है और इसलिए भंगुर है क्योंकि आपको ठीक उसी नियंत्रक को प्राप्त करने की आवश्यकता है जो विफल हो जाता है। सॉफ्टवेयर RAID हार्डवेयर से स्वतंत्र है। Btrfs और zfs देखें।
मार्टिन यूडिंग

38

आपके पास एक डबल डिस्क विफलता है। इसका मतलब है कि आपका डेटा चला गया है, और आपको एक बैकअप से पुनर्स्थापित करना होगा। यही कारण है कि हमें बड़े डिस्क पर छापे 5 का उपयोग नहीं करना चाहिए। आप अपने छापे को स्थापित करना चाहते हैं ताकि आपके पास हमेशा दो डिस्क विफलताओं का सामना करने की क्षमता हो, विशेष रूप से बड़े धीमे डिस्क के साथ।


3
RAID5 के साथ दो समस्याएं हैं। एक: 3TB का पुनर्निर्माण समय, दिया गया एक धीमी SATA ड्राइव बड़ी हो सकती है, जिससे एक यौगिक विफलता की संभावना अधिक होती है। अन्य अपरिवर्तनीय बिट त्रुटि दर है - अधिकांश एसएटीए ड्राइव पर कल्पना शीट में 1/10 ^ 14 है, जो डेटा के लगभग - 12TB है। 5 तरीके से, 3B RAID यह एक पुनर्निर्माण की आवश्यकता होने पर लगभग अपरिहार्य हो जाता है।
सोब्रीक जूल

1
मैं अपने 3TB 5 ड्राइव सरणी पर RAID5 का उपयोग करता हूं, मैं पहले की प्रतिकृति प्रतिलिपि के रूप में उपयोग करने के लिए दूसरा सरणी प्राप्त करने के साथ कर रहा था। डेटा खोने के लिए मेरे लिए एक ही समय में दोनों सरणियों पर विफल होने के लिए 1 से अधिक डिस्क की आवश्यकता होगी (इसलिए मुझे 4 डिस्क की आवश्यकता होगी) लेकिन फिर भी उस बड़ी राशि को उपलब्ध क्षमता के लिए रखना। इसे पढ़ने के बाद अब मैं दूसरी सरणी प्राप्त करने के लिए उस समय सीमा को बढ़ा सकता हूं।
युद्ध

1
वह शायद अपने डिस्क 3 पर केवल एक बैडब्लॉक है। मैं वास्तव में सोच रहा हूं कि क्यों एक पेशेवर sysadmin ब्लॉक-स्तर के कॉपी टूल से कभी नहीं सुना।
पीटर कहता है मोनिका जूल

1
@Wardy, 6 छापे नहीं देंगे कि आप?
तुलसी

3
बहुत मददगार जवाब नहीं। एक RAID 5 पर दोहरी डिस्क विफलता के साथ निश्चित रूप से, वसूली की संभावना अच्छी नहीं है। लेकिन RAID 5 पर अधिकांश डबल डिस्क विफलताएं शायद केवल एक दोषपूर्ण डिस्क की बात है और अन्य डिस्क पर कुछ बिना पढ़ी गई त्रुटियां हैं। यदि ऐसा है, तो अधिकांश डेटा को पुनर्प्राप्त करना संभव है फिर भी सही उपकरण दिए गए हैं। ऐसे साधनों की ओर इशारा करना सहायक होगा।
कैस्परल्ड

37

आपके विकल्प हैं:

  1. बैकअप से पुनर्स्थापित करना।
    • आप कर आप बैकअप होना, है ना? RAID एक बैकअप नहीं है।

  2. पेशेवर डेटा वसूली
    • यह संभव है, हालांकि बहुत महंगा और गारंटी नहीं है, कि एक पेशेवर पुनर्प्राप्ति सेवा आपके डेटा को पुनर्प्राप्त करने में सक्षम होगी।

  3. अपने डेटा हानि को स्वीकार करना और अनुभव से सीखना।
    • जैसा कि टिप्पणियों में उल्लेख किया गया है, बड़े SATA डिस्क को RAID 5 कॉन्फ़िगरेशन के लिए अनुशंसित नहीं किया जाता है क्योंकि पुनर्निर्माण के दौरान दोहरी विफलता की संभावना के कारण सरणी विफल हो जाती है।
      • यदि यह समता होना चाहिए RAID, RAID 6 बेहतर है, और अगली बार एक गर्म स्पेयर का भी उपयोग करें।
      • एसएएस डिस्क कई कारणों से बेहतर है, जिसमें अधिक विश्वसनीयता, लचीलापन, और अपरिवर्तनीय बिट त्रुटियों की कम दर है जो यूआरई (अपरिवर्तनीय रीड एरर) का कारण बन सकती हैं।
    • जैसा कि ऊपर उल्लेख किया गया है, RAID बैकअप नहीं है। यदि डेटा मायने रखता है, तो सुनिश्चित करें कि यह बैकअप है, और यह कि आपके बैकअप को पुनर्स्थापित-परीक्षण किया गया है।

1
यदि आपके पास 5 डिस्क हैं (ओपी के अनुसार), और एक गर्म अतिरिक्त के लिए प्रतिबद्ध हैं, तो निश्चित रूप से आप RAID6 पर RAID10 ले लेंगे ...?
jimbobmcgee

1
अच्छी तरह से, शुरुआत के लिए - आप एक डिस्क 'स्पेयर' को छोड़कर, 2 डिस्क्स स्पेस पाने के लिए RAID 1 + 0 में 4 स्पिंडल का उपयोग करेंगे। आप दो असफलताओं (सही दो को कम से कम) बर्दाश्त कर सकते हैं। RAID6 आपको 3 डिस्क स्थान के लायक देगा, और दो विफलताओं को भी सहन कर सकता है (कोई भी दो)। RAID1 + 0 में एक बेहतर प्रदर्शन क्षमता होती है, जिसमें एक कम लेखन दंड होता है, और संभावित रूप से बेहतर यादृच्छिक रीड परफॉर्मेंस (दो स्पिन्डल्स में से किसी एक से सेव किया जा सकता है)।
सोब्रिक जूल

बिंदु 2. डेटा रिकवरी के लिए। एक RAID5 पेशेवर से डेटा पुनर्प्राप्त करना आपको $ 20k आसान चला सकता है। इसके अलावा, ओपी डिस्क को बल देते हुए, पुनर्निर्माण को रात भर चलने देता है, जिससे रिकवरी अधिक कठिन या असंभव हो सकती है। बस आपको समय से पहले पता करने की अनुमति देता है। सभी डिस्कों को अवश्य भेजें।
ओमनीपोएंटेंटिटी

4

अन्य कारणों से दिए गए कारणों के साथ-साथ संभावित विफलता भी संभव है। दूसरी संभावना यह है कि डिस्क में से एक कुछ समय पहले विफल हो गया था, और आप इसे सक्रिय रूप से जांच नहीं कर रहे थे।

सुनिश्चित करें कि आपकी मॉनिटरिंग एक अपमानजनक मोड में चल रहे RAID वॉल्यूम को तुरंत उठा लेगी। हो सकता है कि आपको कोई विकल्प नहीं मिला हो, लेकिन BIOS से इन चीजों को सीखना अच्छा नहीं है।


3
उपेक्षित निगरानी का उल्लेख करने के लिए +1। पहले से ही कदम को "सामान्य" -> "महत्वपूर्ण" नोटिस करना महत्वपूर्ण है, न कि चरण "महत्वपूर्ण" -> "विफल"। यह अन्य सभी प्रकार की अतिरेक (बैकअप इंटरनेट लाइन, बेसमेंट में बीयर, स्पेयर टायर, ...) पर भी लागू होता है।
हेगन वॉन एटिज़ेन

2

उत्तर देने के लिए "दो हार्ड ड्राइव एक साथ कैसे विफल हो सकते हैं?" ठीक है, मैं इस लेख से उद्धृत करना चाहूंगा :

तर्क का क्रूरतम यह है। चूंकि डिस्क ड्राइव बड़े और बड़े हो गए हैं (दो साल में लगभग दोगुना), उसी दर से URE (अपरिवर्तनीय रीड एरर) में सुधार नहीं हुआ है। यूआरई एक अपरिवर्तनीय रीड एरर की घटना की आवृत्ति को मापता है और आम तौर पर प्रति बिट्स पढ़ने में त्रुटियों में मापा जाता है। उदाहरण के लिए 1E-14 (10 ^ -14) की एक URE दर का अर्थ है कि सांख्यिकीय, एक अपरिवर्तनीय रीड एरर हर 1E14 बिट्स (1E14 बिट्स = 1.25E13 बाइट्स या 12TB) में एक बार घटित होगी।

...

तर्क यह है कि जैसे-जैसे डिस्क कैपेसिटी बढ़ती है, और यूआरई दर में सुधार नहीं होता है, समय के साथ RAID5 पुनर्निर्माण विफलता की संभावना बढ़ जाती है। सांख्यिकीय रूप से वह दिखाता है कि 2009 में, डिस्क क्षमता किसी भी सार्थक सरणी के लिए RAID5 का उपयोग करने के लिए इसे व्यर्थ बनाने के लिए पर्याप्त बढ़ी होगी।

इसलिए, 2009 में RAID5 असुरक्षित था। RAID6 जल्द ही होगा। RAID1 के लिए, मैंने उन्हें 3 डिस्कों में से बनाना शुरू किया। 4 डिस्क्स के साथ RAID10 भी अनिश्चित है।


3
फिर, RAID एक बैकअप विकल्प नहीं है जो विशुद्ध रूप से "बफर ज़ोन" जोड़ने के बारे में है, जिसके दौरान उपलब्ध डेटा को उपलब्ध रखने के लिए एक डिस्क को प्रतिस्थापित किया जा सकता है। अन्य विकल्प प्रतिकृति का उपयोग करना है जो एक ही समय में विफल होने के लिए 2 सरणियों की आवश्यकता होगी ... बहुत कम संभावना है कि मैं सोचूंगा।
वॉर

व्यक्तिगत रूप से, मुझे मंत्र पसंद नहीं है कि RAID बैकअप नहीं है। शब्दकोश में कहा गया है: "एक व्यक्ति, योजना, उपकरण, आदि, यदि आवश्यक हो, तो विकल्प के रूप में सेवा करने के लिए रिजर्व में रखा गया है।" यदि अतिरेक की मात्रा पर्याप्त नहीं है, तो वह एक विकल्प के रूप में सेवा करने में विफल हो जाएगा। यदि आप अतिरेक RAID के बारे में परवाह नहीं करते हैं, तो आप इसका उपयोग नहीं कर सकते हैं। जैसा कि इसके लिए ऑफ-डिस्क और ऑफ-साइट बैकअप के लिए प्रतिस्थापन नहीं किया जा रहा है, यह एक पूरा मामला है, जिसके साथ मैं सहमत हूं (निश्चित रूप से)।
हाफगैर

इसलिए बिना किसी अतिरेक के साथ RAID धारियों का उपयोग करने वालों पर आपका क्या विचार है? इस स्थिति में RAID सरणी का उपयोग विशुद्ध रूप से एक प्रदर्शन लाभ प्राप्त करने के लिए किया जा रहा है जो कि मेरे दिमाग में एक पूरी तरह से वैध उपयोग IMO है RAID ड्राइव को समूहीकृत करने के लिए 2 उद्देश्य 1 प्रदान करता है या 2. इस घटना में एक सुरक्षा जाल प्रदान करने के लिए n ड्राइव यह सुनिश्चित करने में विफल रहता है कि डेटा अभी भी उपलब्ध है।
युद्ध

RAID को लागू करने वाला कोई भी व्यक्ति RAID प्रकार का चयन करेगा जिसे वे अपनी आवश्यकताओं, गति, विश्वसनीयता या 2 के संयोजन के आधार पर उपयोग करना चाहते हैं, लेकिन फिर भी यह RAID को बैकअप समाधान के किसी भी रूप में नहीं बनाता है।
वॉर

1
जब लोग कहते हैं कि RAID एक बैकअप नहीं है, तो वे उपलब्धता के बारे में बात नहीं कर रहे हैं। मुझे लगता है कि आप सिर्फ शब्दों के साथ खेल रहे हैं। :)
गपरेंट जूल 25'14

2

थ्रेड पुराना है, लेकिन अगर आप पढ़ रहे हैं, तो समझें कि जब ड्राइव एक रेड सरणी में विफल हो जाती है, तो ड्राइव की आयु की जांच करें। यदि आपके पास एक RAID सरणी में कई डिस्क हैं और वे 4-5 वर्ष से अधिक पुराने हैं, तो संभावना अच्छी है कि एक और ड्राइव विफल हो जाएगी। *** आगे बढ़ने से पहले एक छवि या बैकअप ** बनाएँ। यदि आपको लगता है कि आपके पास एक बैकअप है, तो यह सुनिश्चित करने के लिए परीक्षण करें कि आप इसे पढ़ सकते हैं और इससे पुनर्स्थापित कर सकते हैं।

कारण यह है कि आप सामान्य पहनने के वर्षों को रख रहे हैं और शेष ड्राइव पर आंसू बहा रहे हैं क्योंकि वे घंटों और घंटों तक पूरी गति से घूमते हैं। 6 साल की पुरानी ड्राइव की संख्या जितनी बड़ी होगी, उतना ही बड़ा मौका दूसरा ड्राइव तनाव से विफल हो जाएगा। यदि यह RAID5 है, और आप सरणी को उड़ाते हैं, तो महान आपके पास एक बैकअप है लेकिन एक 2TB डिस्क को RAID नियंत्रक और अन्य हार्डवेयर के प्रकार के आधार पर पुनर्स्थापित करने के लिए 8 - 36 घंटे लगेंगे।

यदि हम सभी ड्राइव पुराने हैं तो हम पूरी तरह से छापे जाने वाले हाइव को उत्पादन सर्वर पर बदल देते हैं। क्यों एक ड्राइव की जगह समय बर्बाद करते हैं, फिर अगले एक दिन, सप्ताह, महीने या दो में विफल रहता है। ड्राइव के रूप में चीप के रूप में, इसके नीचे समय के लायक नहीं है।


1

आमतौर पर जब एक प्रतिष्ठित पुनर्विक्रेता से बहुत अधिक में ड्राइव खरीदते हैं, तो आप अनुरोध कर सकते हैं कि ड्राइव अलग-अलग बैचों से आते हैं, जो उपरोक्त कारणों के लिए महत्वपूर्ण है। अगला, यह ठीक है क्यों RAID 1 + 0 मौजूद है। यदि आपने RAID 1 + 0 में 6 ड्राइव का उपयोग किया था, तो आपके पास तत्काल अतिरेक के साथ 9TB डेटा होगा जहां किसी वॉल्यूम का पुनर्निर्माण आवश्यक नहीं है।


सबूत कहाँ दिखा रहा है कि अलग-अलग बैचों से ड्राइव का उपयोग करने के बारे में कुछ भी एक शहरी मिथक है? इसके अलावा, RAID 1 पुनर्निर्माण के दौरान अपठनीय क्षेत्रों में चलने के खिलाफ जादुई रूप से रक्षा नहीं करता है। यदि आप उस के खिलाफ सुरक्षा चाहते हैं, तो आप या तो RAID 6 के साथ जाएं या RAID 1 के साथ 3 दर्पण (एक टैड महंगा)।
कास्परड

1
@kasperd मुझे लगता है कि आपकी टिप्पणी का पहला भाग बनाने वाला प्रश्न समान है, हालांकि स्पष्ट रूप से बिल्कुल वैसा ही नहीं है, क्या मुझे एक समान विफलता समय की संभावना को कम करने के लिए एक नए RAID 1 जोड़े की एक डिस्क में चलना चाहिए?
एक CVn

1

अपने नियंत्रक (उदाहरण के लिए dmraid के द्वारा मान्यता प्राप्त है यहाँ ) लिनक्स पर, आप का उपयोग करने में सक्षम हो सकता है ddrescue एक नया करने में विफल डिस्क ठीक करने के लिए, और उपयोग करते हैं, सरणी का निर्माण करने के dmraid अपने हार्डवेयर नियंत्रक के बजाय।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.