कितने स्मार्ट सेक्टर की वास्तविकताओं से समस्याओं का संकेत मिलता है?


17

मेरे पास एक NAS उपकरण है जो एक महीने से अधिक पुराना है। यह मुझे हार्ड ड्राइव के SMART डेटा से उत्पन्न अलर्ट ईमेल करने के लिए कॉन्फ़िगर किया गया है। एक दिन के बाद, हार्ड ड्राइव में से एक ने रिपोर्ट किया कि एक सेक्टर खराब हो गया था और फिर से हटा दिया गया था। पहले सप्ताह में, यह संख्या प्रश्न में हार्ड ड्राइव के लिए छह कुल क्षेत्रों पर चढ़ गई। एक महीने के बाद, संख्या नौ वास्तविक क्षेत्रों में खड़ी है। दर निश्चित रूप से घट रही है।

NAS को RAID 5 कॉन्फ़िगरेशन में छह 1.5 टीबी ड्राइव के साथ कॉन्फ़िगर किया गया है। ऐसी उच्च क्षमता वाली ड्राइव के साथ, मैं समय-समय पर एक सेक्टर के विफल होने की उम्मीद करूंगा, इसलिए मुझे चिंता नहीं थी कि पहले कुछ सेक्टरों को स्थानांतरित कर दिया गया था। हालांकि यह मुझे परेशान करता है कि अन्य डिस्क में से कोई भी किसी भी समस्या की रिपोर्ट नहीं कर रहा है।

रिलोकेशन की किस दर पर, या रिलोकेशन की कुल संख्या, मुझे ड्राइव के स्वास्थ्य के लिए चिंतित होना शुरू करना चाहिए? क्या यह ड्राइव की क्षमता के आधार पर भिन्न हो सकता है?


अच्छा एक, जेरेमी। सर्वरफॉल्ट पर सबसे अच्छा में से एक के रूप में कई अन्य यहाँ यह उपयोगी हो जाएगा और यह करने के लिए एक जवाब खोजने के लिए आसान नहीं है। निश्चित रूप से +2 से अधिक का हकदार है। आप प्रश्न को फिर से लिखना चाह सकते हैं ताकि यह NetGear के लिए विशिष्ट न हो, लेकिन सामान्य रूप से भंडारण हालांकि
उपयोगकर्ता नाम

प्रतिक्रिया के लिए धन्यवाद, मैंने आपके द्वारा सुझाए गए परिवर्तन किए और स्थिति को अद्यतन किया।
जेरेमी

1
मैं ड्राइव को एक वास्तविक क्षेत्र में प्रतिस्थापित करता हूं । आपको ड्राइव के वारंटी समय पर शून्य की उम्मीद करनी चाहिए। निर्माताओं ने हमेशा इन ड्राइवों पर वारंटी का सम्मान किया है।
माइकल हैम्पटन

जवाबों:


13

अधिकांश घटकों की तरह ड्राइव में एक बाथटब वक्र विफलता दर है। वे शुरुआत में बहुत असफल हो जाते हैं, बीच में अपेक्षाकृत कम विफलता दर होती है, और फिर अपने जीवन के अंत तक पहुंचने में बहुत असफल होते हैं।

जैसे पूरी ड्राइव इस वक्र का अनुसरण करती है, डिस्क के विशेष क्षेत्र भी इस वक्र का अनुसरण करेंगे। आपको ड्राइव का उपयोग करने की शुरुआत में बहुत सारे सेक्टर री-एलोकेशन दिखाई देंगे, लेकिन इसे टेंपर करना चाहिए। जब ड्राइव जीवन के अंत में विफल होने लगती है तो यह अधिक से अधिक क्षेत्रों को खोना शुरू कर देगा।

आपको 6 के बारे में चिंता करने की ज़रूरत नहीं है (ड्राइव पर निर्भर करता है - निर्माता से परामर्श करें), लेकिन आपको प्रत्येक नए वास्तविक स्थान की आवृत्ति को देखने और देखने की आवश्यकता है। अगर बिगड़ने में तेजी आती है या वही रहता है, तो चिंता करें। अन्यथा, प्रारंभिक ब्रेक-इन अवधि के बाद यह ठीक होना चाहिए।

-Adam


एक छोटा बिंदु: ड्राइव अपने MTBF से पहले LONG को विफल कर देगा। मुझे लगता है कि आपका मतलब है कि वे बहुत असफल हो जाते हैं क्योंकि वे अपने अपेक्षित जीवनकाल तक पहुंचते हैं।
एडी

5
क्या Google ने बहुत अच्छी तरह से "बाथटब वक्र" सिद्धांत को डुबोया नहीं था?
इंसेटे

20

इस विषय पर Google के पेपर को फिर से पढ़ना, " एक बड़ी डिस्क ड्राइव जनसंख्या में विफलता के रुझान ", मुझे लगता है कि मैं सुरक्षित रूप से कह सकता हूं कि एडम का जवाब गलत है। ड्राइव की एक बहुत बड़े पैमाने पर आबादी के अपने विश्लेषण में, लगभग 9% में गैर-शून्य वास्तविककरण गणना थी। यह बताने वाला उद्धरण है:

अपने पहले वास्तविककरण के बाद, ड्राइव 60 से अधिक दिनों के भीतर विफल होने की संभावना है, जो बिना किसी वसूली के मायने रखता है, इस पैरामीटर के लिए महत्वपूर्ण सीमा भी बनाता है।

"ऑफ़लाइन वास्तविकताओं" के साथ काम करते समय यह और भी दिलचस्प है, जो कि वास्तविक अनुरोध किए गए IO ऑप्स के दौरान ड्राइव के बैकग्राउंड स्क्रबिंग के दौरान खोजे जाने वाले वास्तविककरण हैं। उनका निष्कर्ष:

पहले ऑफ़लाइन पुनः प्राप्ति के बाद, 60 दिनों के भीतर ड्राइव में विफलता के 21 गुना अधिक संभावनाएं होती हैं, बिना ऑफ़लाइन प्राप्ति के; एक प्रभाव जो फिर से कुल reallocations की तुलना में अधिक कठोर है।

अब से मेरी नीति यह होगी कि गैर-शून्य रिऐलिटेशन काउंट वाले ड्राइव को प्रतिस्थापन के लिए निर्धारित किया जाएगा।


यह दिलचस्प है, मैंने उस कागज के बारे में सुना था लेकिन मुझे इसे फिर से पढ़ने की आवश्यकता हो सकती है। एफडब्ल्यूआईडब्ल्यू, मेरे एनएएस में 6 ड्राइव में से 4 में रियलकॉकेटेड सेक्टर हैं। जवाब के लिए धन्यवाद।
जेरेमी

3

अलग-अलग ड्राइव में शायद अलग-अलग पैरामीटर होते हैं। एक ड्राइव पर जो मैंने आखिरी बार चेक किया था कि एक विक्रेता से 1TB एंटरप्राइज सीरीज़ डिस्क थी, जो कि रीयललोकेशन के लिए 2048 आरक्षित क्षेत्र थे।

आप एक ड्राइव पर SMART रिपोर्ट में देख रहे आरक्षित क्षेत्रों की संख्या का अनुमान लगा सकते हैं, जिन्हें गैर-पंजीकृत सेक्टरों की गैर-संख्या संख्या मिली है। नीचे एक विफल ड्राइव पर एक रिपोर्ट पर विचार करें।

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

यहां इसकी 95% आरक्षित क्षमता का उपयोग किया गया है जो कि 1955 सेक्टर हैं। इसलिए प्रारंभिक क्षमता लगभग 2057 थी। वास्तव में यह 2048 है, अंतर गोल त्रुटि के कारण है।

SMART ड्राइव को एक विफल स्थिति में बदल देता है जब वास्तविक क्षेत्रों की संख्या एक निश्चित सीमा तक पहुँच जाती है। विचाराधीन ड्राइव के लिए यह सीमा आरक्षित क्षमता के 64% पर निर्धारित की गई है। यह लगभग 1310 रीपे्ड सेक्टर हैं।

हालांकि आरक्षित क्षेत्र निरंतर अंतराल में नहीं हैं। इसके बजाय वे कई समूहों में विभाजित हैं, प्रत्येक समूह का उपयोग डिस्क के एक विशिष्ट भाग से सेक्टरों को हटाने के लिए किया जा रहा है। यह डेटा को डिस्क पर एक क्षेत्र में स्थानीय रखने के लिए किया जाता है।

स्थानीयता का नकारात्मक पक्ष यह है कि डिस्क में कई आरक्षित क्षेत्र हो सकते हैं। फिर भी एक क्षेत्र पहले से ही आरक्षित क्षमता से बाहर हो सकता है। इस मामले में व्यवहार फर्मवेयर पर निर्भर करता है। एक ड्राइव पर हमने देखा कि यह एक विफल स्थिति में चला जाता है और उस हिस्से में कोई त्रुटि होती है जो अब संरक्षित नहीं है।


आपने यह कैसे निर्धारित किया कि "पुनः प्राप्ति के लिए 2048 आरक्षित क्षेत्र थे"?
ए जे।

शायद 2047 फिर से आवंटित क्षेत्रों की अधिकतम राशि है। मेरे एक ड्राइव में ठीक 2047 था जब "नई" के लिए ईबे को खरीदा गया था, जो कि 0x7FF है, b11,111,111,111 भी है। 2048 तक जाने से अतिरिक्त अतिरिक्त बर्बाद होगा।
डेविड

2

यदि आप ड्राइव इसका समर्थन करते हैं, तो आप स्मार्ट लॉन्ग सेल्फ-टेस्ट चलाना चाहते हैं। इससे आपको ड्राइव की स्थिति के बारे में अधिक जानकारी मिल सकती है। यदि आपका NAS ऐसा नहीं कर सकता है, और यदि आप कुछ घंटों के लिए ड्राइव को खींच सकते हैं या NAS को नीचे गिरा सकते हैं, तो आप हार्ड डिस्क को दूसरी मशीन में प्लग करने के साथ लंबा सेल्फ-टेस्ट कर सकते हैं।


1

जब एक नया ड्राइव इस तरह से व्यवहार करता है तो इस पर बिल्कुल भी भरोसा नहीं किया जाता है!

जितनी जल्दी हो सके इसे वापस भेजें, और एक प्रतिस्थापन ड्राइव प्राप्त करें।


1

विभिन्न निर्माताओं के पास अलग-अलग "स्वीकार्य नुकसान" संख्याएं हैं (मॉनिटर और खराब पिक्सल के समान विचार)। उनका मानक क्या है, यह जानने के लिए ड्राइव निर्माता से जाँच करें।

हालांकि यह एक बुरी प्रवृत्ति की तरह दिखता है ...


-1

पश्चिमी डिजिटल विशेष रूप से उस तकनीक पर गर्व करता है जो RAID में रखी फ्रीज़ डिस्क के बजाय स्वीकार्य समय में खराब क्षेत्र को पुनर्प्राप्त करती है, इसका नाम TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ) है। समय आमतौर पर 5..7 सेकंड है।

जैसा कि मैंने वेब पर पाया कि विकलांग विकल्प के साथ डब्ल्यूडी डिस्क ड्राइव हैं लेकिन कुछ लोगों ने इस सुविधा को सस्ते ग्रीन डब्लूडी ड्राइव पर सक्षम किया फिर उन्हें RAID में रखा।

WDTLER उपयोगिता को WD सपोर्ट साइट से हटा दिया गया है लेकिन इसे Google के माध्यम से आसानी से खोजा जा सकता है।

पुनश्च मैं केवल पढ़ने की स्थिति के लिए इस उपयोगिता का उपयोग करता हूं और मैं अब तक RAID का उपयोग नहीं करता हूं :)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.