RAID पुनर्निर्माण के दौरान अप्राप्य पढ़ने की त्रुटि की संभावना की गणना करने का सूत्र

12

मैं उपभोक्ता (URE / bit = 1e-14) या एंटरप्राइज़ (URE / bit = 1e-15) ड्राइव के साथ विभिन्न RAID प्रणालियों की विश्वसनीयता की तुलना करना चाहता हूं। पुनर्निर्माण की सफलता की संभावना का सूत्र (यांत्रिक समस्याओं की अनदेखी, जिसे मैं बाद में ध्यान में रखूंगा) सरल है:

error_probability = 1 - (1-per_bit_error_rate) ^ bit_read

यह याद रखना महत्वपूर्ण है कि यह AT LEAST एक URE प्राप्त करने की संभावना है, केवल एक ही नहीं।

मान लीजिए कि हम 6 टीबी उपयोग करने योग्य स्थान चाहते हैं। हम इसे प्राप्त कर सकते हैं:

RAID1 प्रत्येक 6 टीबी के 1 + 1 डिस्क के साथ। पुनर्निर्माण के दौरान हमने 6TB की 1 डिस्क को पढ़ा और जोखिम यह है: 1- (1-1e-14) ^ (6e12 * 8) = उपभोक्ता के लिए 38% या एंटरप्राइज़ ड्राइव के लिए 4.7%।
RAID10 प्रत्येक 3 टीबी के 2 + 2 डिस्क के साथ। पुनर्निर्माण के दौरान हमने 3TB की केवल 1 डिस्क (विफल वाले के साथ जोड़ा गया एक) वापस पढ़ा और जोखिम कम है: 1- (1-1e-14) ^ (3e12 * 8) = उपभोक्ता के लिए 21% या 2.4% के लिए उद्यम ड्राइव।
3TB के 2 + 1 डिस्क के साथ RAID5 / RAID Z1। पुनर्निर्माण के दौरान हमने प्रत्येक 3TB के 2 डिस्क को पढ़ा और जोखिम यह है: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% उपभोक्ता या 4.7% या एंटरप्राइज़ ड्राइव के लिए।
RAID5 / RAID Z1 2 टीबी के 3 + 1 डिस्क्स के साथ प्रत्येक (अक्सर एसओएचओ जैसे उपयोगकर्ताओं द्वारा उपयोग किया जाता है)। पुनर्निर्माण के दौरान हमने 2TB के 3 डिस्क वापस पढ़े हैं और प्रत्येक जोखिम है: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% उपभोक्ता या 4.7% या एंटरप्राइज़ ड्राइव के लिए।

एकल डिस्क सहिष्णुता के लिए त्रुटि की गणना करना आसान है, अधिक मुश्किल कई डिस्क विफलताओं (RAID6 / Z2, RAIDZ3) के लिए सिस्टम सहिष्णु के साथ संभाव्यता की गणना करना है।

यदि केवल पहली डिस्क का उपयोग पुनर्निर्माण के लिए किया जाता है और दूसरे को मामले या यूआरई में शुरुआत से फिर से पढ़ा जाता है, तो त्रुटि संभावना एक है जो वर्गमूल से ऊपर की गणना की गई है (उपभोक्ता के लिए 14.5% RAID5 2 + 1, उपभोक्ता के लिए 4.5% RAID1 1 + 2)। हालाँकि, मुझे लगता है (कम से कम ZFS में पूर्ण चेकसम!) है कि दूसरी समता / उपलब्ध डिस्क को केवल जहाँ आवश्यक पढ़ा जाता है, जिसका अर्थ है कि केवल कुछ क्षेत्रों की आवश्यकता है: संभवत: पहली डिस्क में कितने URE हो सकते हैं? बहुत से नहीं, अन्यथा एकल-डिस्क सहिष्णुता प्रणालियों के लिए त्रुटि की संभावना मेरे द्वारा गणना की तुलना में अधिक आसमान छू जाएगी।

यदि मैं सही हूं, तो एक दूसरी समता डिस्क व्यावहारिक रूप से बेहद कम मूल्यों के लिए जोखिम कम करेगी।

एक तरफ सवाल, यह ध्यान रखना महत्वपूर्ण है कि निर्माता विपणन कारणों से उपभोक्ता-वर्ग ड्राइव के लिए यूआरई संभावना बढ़ाते हैं (अधिक उद्यम-श्रेणी ड्राइव बेचते हैं), इसलिए भी उपभोक्ता-श्रेणी के एचडीडी को 1E-15 URE / बिट पढ़ने की उम्मीद है ।

कुछ डेटा: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-nic.in/

मैं कोष्ठक (उद्यम ड्राइव) में प्रदान किए गए मूल्य इसलिए उपभोक्ता ड्राइव पर भी वास्तविक रूप से लागू होते हैं। और असली उद्यम ड्राइव में एक उच्च विश्वसनीयता (URE / बिट = 1e-16) है।

यांत्रिक विफलताओं की संभावना के बारे में, वे डिस्क की संख्या के लिए आनुपातिक हैं और पुनर्निर्माण के लिए आवश्यक समय के आनुपातिक हैं।

raid zfs rebuild

— Faro
स्रोत

1

हाय ओलाफ! जहाँ तक मेरा सवाल है, यह प्रश्न थोड़ा बहुत अच्छा लगता है कि कंप्यूटर हार्डवेयर गणित के लिए अच्छा होगा , लेकिन आप उनकी मेटा साइट पर पूछ सकते हैं कि क्या वे आपका प्रश्न करना चाहते हैं। अगर ऐसा है, तो फिर से झंडा लें और हमें आपके लिए प्रवास करने में खुशी होगी!

— स्लैक

2

आप 3 ड्राइव के साथ RAID5 के लिए 38% URE प्रायिकता पर कैसे पहुंचते हैं? URE = 10 ^ 14, HDD = 3.5 * 1024 ^ 4 बाइट्स का उपयोग करने पर मुझे 3.8% URE प्रति ड्राइव और पुनर्निर्माण के दौरान URE के लिए 11.1% मिलता है। वह है: 100 * (1- (1- ((hdd / ure))) ^ 3)। मुझे लगता है कि आपके नंबर थोड़े बंद हैं (हालांकि निर्माताओं द्वारा बताई गई तुलना में व्यावहारिक विफलता दर अधिक है)। चूँकि त्रुटि दर प्रति बिट्स प्रति ड्राइव पर पढ़ी जाती है और प्रति बिट्स पढ़ी नहीं जाती है, मुझे लगता है कि आप जिस भाग का उपयोग करते हैं वह बिट_्रेड गलत है। शायद इस पर अधिक विस्तार दें कि आपने उन बाधाओं की गणना कैसे की? दिलचस्प सवाल के लिए +1। cs.cmu.edu/~bianca/fast07.pdf

— ларослав Рахматуллин

जानकारी जोड़ी और गणना की जाँच की।

— फ़ारो

3

यह सबसे अच्छा जवाब है, संभावनाओं के सिद्धांत के साथ भी:

http://evadman.blogspot.com/2010/08/raid-array-failure-probabilities.html?showComment=1337533818123#c7465506102422346169

— Faro
स्रोत

2

ऐसी कई साइटें और लेख हैं जो इस सवाल का समाधान करने का प्रयास करते हैं।

इस साइट में RAID 0, 5, 10/50/60 स्तरों के लिए कैलकुलेटर हैं।

RAID स्तरों पर विकिपीडिया लेख में RAID 0 और RAID 1 विफलता दर पर अनुभाग हैं।

RAID 0 :

किसी दिए गए RAID 0 सेट की विश्वसनीयता सेट में डिस्क की संख्या से विभाजित प्रत्येक डिस्क की औसत विश्वसनीयता के बराबर है:

यही है, विश्वसनीयता (माध्य समय के अनुसार विफलता (MTTF) या असफलताओं के बीच का समय (MTBF)) सदस्यों की संख्या के लगभग आनुपातिक रूप से आनुपातिक है - इसलिए दो डिस्क का एक सेट एक डिस्क के रूप में लगभग आधा विश्वसनीय है। यदि 5% की संभावना थी कि डिस्क तीन साल के भीतर विफल हो जाएगी, दो डिस्क सरणी में, उस संभावना को बढ़ाकर {P} (कम से कम एक विफल) = 1 - {P} (न तो विफल) = 1 होगा - (1 - 0.05) ^ 2 = 0.0975 = 9.75%।

RAID 1 :

एक सरलीकृत उदाहरण के रूप में, डिस्क ड्राइव के दो समान मॉडल के साथ एक RAID 1 पर विचार करें, प्रत्येक में 5% संभावना है कि डिस्क तीन साल के भीतर विफल हो जाएगी। बशर्ते कि विफलताएं सांख्यिकीय रूप से स्वतंत्र हों, तो तीन साल के जीवनकाल के दौरान दोनों डिस्क के विफल होने की संभावना 0.25% है। इस प्रकार, सभी डेटा खोने की संभावना तीन साल की अवधि में 0.25% है अगर कुछ भी नहीं किया जाता है।

इसके अलावा, मैं भी शामिल है इस विषय के बारे में कई ब्लॉग लेख मिल गया है यह एक सब के बाद एक प्रणाली (RAID में मैं) में स्वतंत्र ड्राइव याद दिलाता है कि कि स्वतंत्र नहीं हो सकता है:

भोला सिद्धांत यह है कि यदि हार्ड डिस्क 1 में विफलता की संभावना 1/1000 है और इसलिए डिस्क 2 है, तो दोनों विफल होने की संभावना 1 / 1,000,000 है। यह मानते हैं कि असफलताएं सांख्यिकीय रूप से स्वतंत्र हैं, लेकिन वे नहीं हैं। जब तक असफलताएँ असंबद्ध न हों, आप उस तरह की संभावनाएँ गुणा नहीं कर सकते। गलत तरीके से स्वतंत्रता को संभाव्यता को लागू करने में एक सामान्य त्रुटि है, शायद सबसे आम त्रुटि।

जोएल स्पोल्स्की ने नवीनतम स्टैकऑवरफ्लो पॉडकास्ट में इस समस्या पर टिप्पणी की। जब कोई कंपनी RAID का निर्माण करती है, तो वे असेंबली लाइन से एक साथ चार या पाँच डिस्क पकड़ सकते हैं। यदि इनमें से किसी एक डिस्क में थोड़ी सी भी खराबी है, जिसके कारण 10,000 घंटे के उपयोग के बाद यह विफल हो जाता है, तो संभावना है कि वे सभी ऐसा करते हैं। यह सिर्फ एक सैद्धांतिक संभावना नहीं है। कंपनियों ने एक ही समय में सभी विफलताओं के बैचों का अवलोकन किया है।

— ब्रैड पैटन
स्रोत