"DEGRADED" डिस्क बनाम "ECC-ERROR" द्वारा 3Ware की tw_cli का क्या अर्थ है?


10

मैं एक दुख की बात है RAID एक 3ware 9650SE-16ML कार्ड पर सरणी। अगर मैं सिर्फ एक डबल-डिस्क विफलता (बुमेर!) का सामना कर रहा हूं या अगर मैं यह गलत पढ़ रहा हूं, तो मैं जो नहीं बता सकता हूं। के सापेक्ष उत्पादन /c0 show allहै:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

और विफलता है (से show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

मुझे लगता है कि जो हुआ वह p0 विफल है, और फिर p1 में ECC त्रुटि (उर्फ, मेरा डेटा समाप्त हो गया है) था। लेकिन ... शायद नहीं? यह 97% पुनर्निर्माण पर रहता है, लेकिन इस त्रुटि को पार नहीं कर सकता।

जहां तक ​​मैं बता सकता हूं, एक पिछले व्यवस्थापक ने आवधिक सत्यापन को बंद कर दिया, जो हमें इस राज्य में मिला है। यह कुछ ऐसा नहीं है जो ज्यादातर लोगों को अपने 3Ware RAID के बारे में चिंता करना चाहिए!

अपडेट करें

कुछ दिनों के लिए इस पर पिटाई करने के बाद, मैंने इग्नोरेक बिट किया और इसे फिर से बनाया, लेकिन मेरा डेटा छुपा हुआ है। ओह।


यदि कोई महत्वपूर्ण डेटा है तो फ्रीज़र रिकवरी विधि आज़माएं ।
क्रिस एस

मैं फ्रीजर ट्रिक के खिलाफ नहीं हूं, लेकिन एक विशिष्ट विफलता मोड के लिए नहीं है, न केवल "मेरी ड्राइव मर गई"?
बिल वीस

DEGRADED लेबल वाली डिस्क REBUILD ऑपरेशन की लक्ष्य डिस्क है।
वाज़ोक्स

जवाबों:


7

ईसीसी त्रुटि का मतलब है कि ड्राइव पर कम से कम एक अपठनीय क्षेत्र है। हालाँकि, यदि आप भाग्यशाली हैं, तो उस क्षेत्र को वास्तव में उस वॉल्यूम पर स्थित फ़ाइल सिस्टम द्वारा उपयोग नहीं किया जा सकता है, इसलिए आप अभी भी इस राज्य में अपने डेटा को सरणी से कॉपी करने में सक्षम हो सकते हैं।

पुनर्निर्माण के दौरान ECC त्रुटियों को अनदेखा करने के लिए कुछ विकल्प भी हैं:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

हालांकि, इन विकल्पों का उपयोग करने का मतलब है कि खराब सेक्टर से प्रभावित RAID स्ट्रिप भ्रष्ट हो जाएगी (निश्चित रूप से कार्ड इस मामले में क्या करेगा - यह पूरी पट्टी को शून्य के साथ, या यादृच्छिक डेटा के साथ भी बदल सकता है), इसलिए " बरामद "सरणी में वास्तव में अवांछनीय भ्रष्टाचार हो सकता है (यदि प्रभावित स्ट्राइप कुछ डेटा फ़ाइल के बीच में था)। पुनर्निर्माण से पहले किसी अन्य स्थान पर अपने डेटा को किसी अन्य स्थान पर कॉपी करना सुरक्षित हो सकता है (कम से कम आपको खराब क्षेत्र को पढ़ने की कोशिश करते समय त्रुटियों को प्राप्त करना चाहिए)।

आपको अपठनीय क्षेत्रों को पकड़ने के लिए सरणी का अनुसूचित सत्यापन सेट करना चाहिए, ताकि आप एक ड्राइव को बदल सकें जो अभी खराब होने लगी थी।


मैं अभी ignecc बिट कर रहा हूँ। मेरे डेटा के लिए बहुत अच्छा नहीं लग रहा है।
बिल वीस

1
और, हाँ, हमें समय-समय पर सरणियों को सत्यापित करने देना चाहिए। मैं अनुमान लगाता हूँ कि इसे सेट करने वाले व्यक्ति ने प्रदर्शन कारणों से इसे बंद कर दिया था :(
बिल वेइस

खैर, कि यह पुनर्निर्माण के माध्यम से मिला, लेकिन मेरे डेटा पर नामांकित। ओह। यह हमें सत्यापित करना बंद करने के लिए सिखाएगा ...
बिल Weiss

4

मैंने कभी भी DEGRADED स्थिति में जाने के लिए एक भौतिक ड्राइव (p0) का अनुभव नहीं किया है, हालाँकि आप ECC-ERROR ड्राइव या DEGRADED ड्राइव को वापस प्राप्त करने में सक्षम हो सकते हैं

/c0 p1 remove

और फिर एक रिस्कान जारी करना

/c0 rescan

के माध्यम से उन्हें वापस छापे की इकाई में डाल दिया

maint rebuild c0 u0 p1

SATA- ड्राइव जो मुझे ECC-ERROR के साथ विफल कर देता है, फिर से असफल होने से पहले कुछ घंटों के लिए भी फिर से जीवित करने में सक्षम था।


3
वर्तमान स्थिति में p1 ड्राइव को हटाने से सरणी पूरी तरह से नली हो जाएगी।
सर्गेई व्लासोव

मैंने इसे p0 ड्राइव के साथ किया (इस धारणा पर कि यह एक बुरा था) और इसे फिर से बनाने की कोशिश की जा रही है, लेकिन इसने ड्राइव को लगभग तुरंत के रूप में चिह्नित किया। ओह।
बिल वीस

1
AFAIR, ड्राइव को पुनर्निर्माण के दौरान DEGRADED के रूप में चिह्नित किया गया है - देखें, जैसे, यहाँ । सरणी स्थिति (REBUILDING या कुछ और?) क्या महत्वपूर्ण है।
सर्गेई वाल्लासोव

हम्म। यह वास्तव में पुनर्निर्माण है ... सभी चार ड्राइव बहुत चमक रहे हैं, यह एक अच्छा संकेत है, है ना?
बिल वीस

Stiiiiiil का पुनर्निर्माण ... यह 4 घंटे के बाद 37% पर है। ओह।
बिल वीस

2

यह बहुत संभव है कि आपका डेटा चला गया है। इस डिस्क से पढ़ते समय ECC त्रुटि का मतलब एक अप्राप्य त्रुटि है।

यदि आपने बैकअप नहीं लिया है, तो आप सरणी की वर्तमान स्थिति को डंप करने का प्रयास कर सकते हैं। यह संभव हो सकता है क्योंकि नियंत्रक को पता नहीं है कि यह डेटा खो गया है या सिर्फ एक खाली क्षेत्र है (यह फ़ाइल सिस्टम में किसी भी जानकारी का अभाव है)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.