क्या यह स्मार्ट स्वफ़ोटो एक विफल ड्राइव को दर्शाता है?


10

मुझे आश्चर्य हो रहा है कि इस स्मार्ट सेल्फेस्ट के परिणाम एक असफल ड्राइव का संकेत देते हैं, यह एकमात्र ड्राइव है जो परिणामों में 'पूर्ण: रीड विफलता' के साथ आता है।

# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)   LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      8981         976642822
# 2  Extended offline    Aborted by host               90%      8981         -
# 3  Extended offline    Completed: read failure       90%      8981         976642822
# 4  Extended offline    Interrupted (host reset)      90%      8977         -
# 5  Extended offline    Completed without error       00%       410         -

ड्राइव अभी तक विफलता के किसी भी संकेत को नहीं दिखाता है, जो उस स्मार्ट स्वैस्ट से आउटपुट से अलग है। यह उसी सिस्टम में एक अलग ड्राइव से आउटपुट है जो वर्तमान में एक स्मार्ट सेल्फटेस्ट चल रहा है

# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 30%     15859         -
# 2  Extended offline    Completed without error       00%      9431         -
# 3  Extended offline    Completed without error       00%      8368         -


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       1
  3 Spin_Up_Time            0x0027   176   175   021    Pre-fail  Always       -       4183
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       48
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       8982
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       46
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       34
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       13
194 Temperature_Celsius     0x0022   111   101   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       2

4
यदि आप smartctl -a /dev/sdeउस भाग को लेबल और पोस्ट करते हैं SMART Attributes Data Structureजो कच्चे काउंटरों पर होता है तो यह अधिक उपयोगी होगा । विशेष रूप से बहुत पहले वाला वहाँ है Raw_Read_Error_Rateजो सबसे अच्छा "खराब ड्राइव" संकेतक है (और शायद आपके मामले में 0 होगा)।
क्रिस एस

1
जोड़ा गया। । । । । । । । । ।
जेफ वेलिंग

1
आपके द्वारा जोड़ा गया डेटा काफी अच्छा लग रहा है। अगर ड्राइव एक RAID सरणी का हिस्सा है तो मैं इसके बारे में चिंता नहीं करूंगा। आपको अपनी महत्वपूर्ण फाइलों को पहले स्थान पर रखना चाहिए; यदि आप नहीं करते हैं तो अब शुरू करने का एक अच्छा समय है।
क्रिस एस

4
@ जेफ़ वेलिंग: इसके बारे में कोई सूचना नहीं है, लेकिन अगर आपका "बैकअप" RAID सरणी पर है, तो यह "बैकअप" नहीं है, यह "कॉपी" है। निजी तौर पर, अगर यह मैं होता, तो मैं ड्राइव को ड्राइव की विफलता के संकेत पर बदल देता। इन दिनों छोटी ड्राइव के लिए क्या कम लागत है, बीमा इसके लायक है। साथ ही, मैंने एक ही दिन में (RAID10) सरणी में, दो ड्राइव विफलताओं का अनुभव किया। 6 में से जो सरणी में थे। FWIW।
केंडल

1
@ केंडल, मुझे लगता है कि उनका मतलब है कि सरणी का बैकअप के लिए उपयोग किया जाता है और मूल कहीं और हैं। अगर ऐसा है तो मैं इसका मौका दूंगा क्योंकि यह कुछ संभावना नहीं है कि दो ड्राइव विफल हो जाएंगे (जब तक कि वे नए ड्राइव नहीं होते हैं, शिशु मृत्यु दर एक आम समस्या है और बड़ी सरणियों में एक सामान्य अभ्यास है)।
क्रिस एस

जवाबों:


8

उम्मीद है कि आप ड्राइव को बदलने में लंबे समय से हैं, लेकिन चूंकि किसी ने भी सीधे सवाल का जवाब नहीं दिया है ...

आपने दो परीक्षण चलाए, दोनों डिस्क के एक ही तार्किक क्षेत्र को पढ़ने में विफल रहे, जैसा कि Completed: read failureदोनों परीक्षणों में और उसी LBA द्वारा इंगित किया गया था। यह वास्तव में इंगित करता है कि डिस्क में एक दोष है, और आपको इसे वारंटी के तहत प्रतिस्थापित करने में सक्षम होना चाहिए। इस क्षेत्र में डेटा संग्रहीत करने का प्रयास करने से ड्राइव लिखने की प्रक्रिया के दौरान ख़राब होने की सूचना नहीं दे सकता है और सेक्टर को रीमैप कर सकता है, लेकिन यदि ड्राइव ध्यान नहीं देता है, और बाद में डेटा नहीं पढ़ सकता है, तो आप हार गए हैं। यह।


4

क्या आपका डेटा संदिग्ध ड्राइव पर खतरे में है?

अगर यह मैं होता, तो मैं ड्राइव को बदल देता और शुक्रगुज़ार होता कि SMART ने मुझे एक बड़ा सिरदर्द दिया।


इसके अलावा, मैं आपके ड्राइव पर सप्ताह में एक बार स्मार्ट चलाने के लिए एक क्रोन स्क्रिप्ट पर बहुत कम से कम सेटअप करता हूं और फिर इसे प्रत्येक सप्ताह एक रिपोर्ट या ईमेल में आउटपुट भेजता हूं ताकि आप ज्यादातर मामलों में समय से पहले पहचान कर सकें विफलता से उबरने और बैकअप से पुनर्स्थापित करने के लिए कौन सी ड्राइव उनके अंतिम पैरों पर हो सकती है। यदि आपके पास कई मशीनें हैं तो नागियर या मुनिन जैसे निगरानी उपकरण का उपयोग करना आसान है।
विल्हेयर

5
यह करना आसान है जब आप जानते हैं कि स्मार्ट आउटपुट एक विफल ड्राइव को इंगित करता है, तो यह बताना मुश्किल है कि क्या करता है और विफल ड्राइव का संकेत नहीं देता है।
जेफ वेलिंग

4

मैं अन्य उत्तर में टिप्पणियों को जोड़ना चाहता हूं, लेकिन मैं निरसन की कमी के कारण नहीं जा सकता, आंकड़ा जाओ।

आपको एक क्रोन स्क्रिप्ट बनाने की आवश्यकता नहीं है, स्मार्टमोनटूल पैकेज में एक स्मार्ट डेमॉन है जो सिर्फ वही काम करता है जो आप करना चाहते हैं: स्मार्ट स्थिति की नियमित जांच। आपको केवल कॉन्फ़िगरेशन बनाने और सेवा शुरू करने की आवश्यकता है । स्मार्टमूनटूल पैकेज में कुछ सैंपल स्क्रिप्ट भी होती हैं जिन्हें स्मार्टड कॉल कर सकता है जब कुछ फेल होने लगता है।


मैं एक क्रोन स्क्रिप्ट का उपयोग नहीं कर रहा हूं, मैं स्मार्ट डेमॉन का उपयोग कर रहा हूं। यह सिस्टम लॉग में नोटों को बाहर निकालता है, मैंने कुछ पंक्तियों पर ध्यान दिया, जिन्हें मैं सामान्य रूप से किसी अन्य ड्राइव पर नहीं देखता हूं और एक आत्मनिर्भरता का प्रयास करता हूं, जिसे मैंने जांचा था जब वह विफल हो गया था। मैंने पहले कभी इस तरह की विफलता नहीं देखी थी, इसलिए मुझे लगा कि यहां के लोग हो सकते हैं। अगर आप इसके साथ एक टन का अनुभव नहीं रखते हैं, तो स्मार्टड का syslog आउटपुट बहुत ही गूढ़ है, यह आपको बिल्कुल नहीं बताता है कि "ड्राइव X मर रहा है और इसे बदलने की आवश्यकता है" हालांकि यह अच्छा होगा अगर यह :)
जेफ वेलिंग

2

आपकी स्थिति में मैं क्या करूंगा?

सबसे पहले मुझे पता चलता है कि कौन सी फाइलें प्रभावित होती हैं। यह करने के लिए कुछ निर्देश हैं कि कैसे करें http://smartmontools.sourceforge.net/badblockhowto.html#e2_exit1 । आपके मामले में यह कठिन है क्योंकि आपके पास एक सरणी है। लेकिन यह संभव है। थान सुनिश्चित करें कि यह फ़ाइल विफल क्षेत्र की तुलना में शून्य लिखने की तुलना में है। दो चीजें हो सकती हैं। 1. ड्राइव इस क्षेत्र में सफलतापूर्वक शून्य लिखता है। Current_Pending_Sector, Reallocated_Sector_Ct को बाद में शून्य होना चाहिए। 2. ड्राइव इस क्षेत्र में लिखने में विफल रहता है। यह इस क्षेत्र को एक "अतिरिक्त" क्षेत्र में बदल देता है।

किसी भी मामले में आप एक निश्चित ड्राइव के साथ समाप्त होते हैं। आपको अपनी फ़ाइल को बैकअप से पुनर्स्थापित करना चाहिए (क्योंकि आपने इसके एक क्षेत्र को ओवरवोट किया है)। इसके अलावा, आपको यह सुनिश्चित करने के लिए स्व-परीक्षण को फिर से चलाना चाहिए कि अधिक त्रुटियां नहीं हैं।

स्वस्थ रहें!

PS मुझे पता है कि यह पोस्ट पुरानी है। लेकिन मैंने इसे धता बता दिया। और मुझे लगता है कि एक और अच्छा जवाब प्रदान करना एक अच्छा विचार है।


1
आसान जानकारी! अब यह कोशिश करने जा रहा हूँ
kerridge0

0

ड्राइव के बाहर निकलने की संभावना थी। ड्राइव के हिस्से से पढ़ने में असमर्थ होना निश्चित रूप से एक विफलता की स्थिति है, और डिस्क विफलता के अन्य विशिष्ट संकेतों के बिना ऐसा होना निश्चित रूप से संभव है। इस तरह की बात आमतौर पर क्षणिक नहीं होती है; कोई अन्य संकेत नहीं होने के कारण यह एक कमजोर सिर, एक बहुत मामूली संरेखण मुद्दा, या एक थाली (सिलेंडर?) पर दोषपूर्ण क्षेत्र हो सकता है।

दूसरा विकल्प यह है कि स्मार्ट बग था; आप वास्तव में छोटी गाड़ी फर्मवेयर के साथ ड्राइव नहीं करना चाहते हैं।

जब भी आप SMART से किसी भी त्रुटि को देखते हैं, यह एक मजबूत संकेत है कि आपको डेटा हानि से बचने के लिए एक नई ड्राइव मिलनी चाहिए। यह एक प्रारंभिक चेतावनी प्रणाली के रूप में इरादा है, भाग में।


0
  • जैसे ही आप कर सकते हैं बैकअप!

  • यदि यह ड्राइव अभी भी वारंटी में है, तो

    • विक्रेता के चेक यूटिटिटी को चलाएं (आप आमतौर पर बूट सीडी प्राप्त कर सकते हैं)
    • यदि यह त्रुटि आती है तो बिंगो, इसे वापस भेजें और प्रतिस्थापन की प्रतीक्षा करें
    • बैकअप से बहाल करना
    • समस्या हल - END

  • अगर इस ड्राइव की कोई वारंटी नहीं है तो आप खराब हो जाते हैं
    • अभी भी कुछ उम्मीद है ...
    • के रूप में यह वास्तव में एक पढ़ने में त्रुटि है केवल इसका मतलब यह नहीं है कि आप इसे नहीं लिख सकते हैं
    • एक बैकअप बनाने के बाद आप बैकअप को पुनर्स्थापित करने का प्रयास कर सकते हैं क्योंकि यह नए डेटा के साथ अपठनीय क्षेत्रों को अधिलेखित कर देगा जिसे आप वास्तव में वापस पढ़ सकते हैं (अच्छी तरह से, आमतौर पर यह काम करता है, पृष्ठभूमि में ड्राइव इन ब्लॉकों को अधिकांश समय के लिए अलग-अलग क्षेत्रों में रीमैप करेगा। )
    • badblocks टूल का उपयोग इसके लिए भी किया जा सकता है (आपके पास पहले से ही बैकअप है, सही?)
      • आप वास्तव में डिस्क का परीक्षण करने के लिए इसका उपयोग नहीं करते हैं (कभी भी किसी भी डिस्क के साथ इसका कोई मतलब नहीं है), लेकिन इन क्षेत्रों के लिए कई बार लिखना
    • आप फिर से स्मार्ट परीक्षणों को चला सकते हैं और इस बात की संभावना है कि ये अपठनीय क्षेत्र "खुद को सही करें"
    • समस्या हल नहीं हुई, आपने केवल ड्राइव को अधिक समय तक बनाए रखा, शायद यह इसके उपयोग के आधार पर एक साल में सामान्य से अधिक तेजी से विफल हो जाएगा, लेकिन हे डिस्क सस्ते हैं, एक नया प्राप्त करें यदि आपका डेटा आपके लिए महत्वपूर्ण है - END

1
आधुनिक हार्ड ड्राइव (जैसे कि सदी के मोड़ के बाद) आपके द्वारा "नो वारंटी" खंड में वर्णित तरीके से काम नहीं करते हैं।
क्रिस एस

3
विकिपीडिया के बैड सेक्टर लेख से शुरुआत करें। हार्ड ड्राइव लॉजिकल सेक्टर एड्रेस को एब्सट्रैक्ट करता है और इसे उन सेक्टर्स के लिए मैप करता है, जो मानते हैं कि यह अच्छा है। कुछ विक्रेता उपयोगिताओं (कभी-कभी SMART, जो ड्राइव द्वारा उजागर होती है, उसके आधार पर) रीमैप किए गए क्षेत्रों पर रिपोर्ट कर सकते हैं। सामान्य रूप से लेखन कार्यों पर खराब क्षेत्रों का पता लगाया जाता है। आमतौर पर एक बार लिखे जाने के बाद इसे फिर से पढ़ा जा सकता है; यह प्रारंभिक लेखन ऑपरेशन है जो आमतौर पर खराब क्षेत्रों पर विफल रहता है। एक बार एक सेक्टर खराब होने के बाद यह हमेशा के लिए खराब हो जाता है, तो कोई इसे "सही" नहीं करता है।
क्रिस एस

1
मुझे लगता है कि मैंने ऐसा कुछ नहीं कहा जो आप कह रहे हैं, लेकिन मैं इसे अधिक "तकनीकी रूप से सही" बनाने के लिए थोड़ा स्पष्ट हूं।
cstamas

2
यकीन नहीं होता कि लोगों ने आपके जवाब को इतना कम क्यों बताया। मुझे लगता है कि तुम पर हाजिर हो। लोगों को शायद गलतफहमी हो गई कि आप ऑपरेशन में एक भड़कीली ड्राइव रखने की वकालत कर रहे हैं। लेकिन ओपी को एक घरेलू उपयोगकर्ता माना जाता है, एक नई ड्राइव की लागत बहुत अच्छी तरह से एक चिंता का विषय हो सकती है, यहां तक ​​कि आज की कीमतों पर भी। मुझे पता है कि यह एक बहुत पुराना सवाल है, लेकिन मुझ से, कम से कम, आपको एक +1 मिलता है। ;)
मार्कस ए।

2
@cstamas: इस बात से भी सहमत हो सकते हैं कि यदि आपका उत्तर चालू है - अगर कोई ड्राइव badblocks -wनए बुरे क्षेत्रों को बनाए बिना (3x लेखन, 3x पढ़ने) की पूरी दौड़ से बचा रहता है तो मैं इसे रखूंगा । अन्यथा यह अभी भी कहीं इस्तेमाल होने के लिए टूट गया है।
mt_
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.