क्या मेरा हार्ड ड्राइव फेल हो रहा है?

41

मैंने सिर्फ अपने hdd पर एक परीक्षण चलाने की कोशिश की और यह एक आत्म परीक्षण पूरा नहीं करना चाहता है। यहाँ परिणाम है:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

तो क्या यह डिस्क फेल रही है?

hard-drive smart smartctl

— मिशेल
स्रोत

जब मैं ग्राफिक टूल का उपयोग करता हूं तो यह कहता है कि स्व-परीक्षण-विफल

— मिशेल

3

दोहराए read failureगए संदेश आमतौर पर एक असफल डिस्क को इंगित करते हैं, इसलिए हां ...

— HBruijn

23

मिशेल, एसएफ में आपका स्वागत है, और पहले अच्छे प्रश्न के लिए धन्यवाद। जैसा कि आप देख सकते हैं कि क्या आप इन हिस्सों के आसपास रहने का फैसला करते हैं (जो मुझे आशा है कि आप करेंगे), एक अच्छा पहला सवाल एक दुर्लभ और कीमती चीज है। आपके पास साइट के लिए उपयुक्त एक परिकल्पना थी ( "मेरा एचडीडी विफल हो रहा है "), आपने प्रासंगिक टूल ढूंढ लिया और इसका उपयोग करना सीख लिया, लेकिन परिणामों की व्याख्या करने में कुछ मदद की आवश्यकता थी। तो आप यहां आए, हमें सभी प्रासंगिक जानकारी दी, कोई अधिशेष बकवास नहीं किया, और एक सवाल पूछा जो कि सहमति का एक मॉडल था। धन्यवाद - कृपया आसपास रहें!

— MadHatter

3

+1: उत्कृष्ट पहला प्रश्न। सर्वर दोष का अधिकतम लाभ उठाने के लिए, कृपया अपना खाता पंजीकृत करें, और स्टैक एक्सचेंज नेटवर्क पर कुछ अन्य साइटों की जांच करें । हमें उम्मीद है कि आप स्टैक एक्सचेंज में अधिक उच्च गुणवत्ता वाली सामग्री का योगदान देख सकते हैं।

— bwDraco

43

आपकी ड्राइव आत्म-परीक्षण करने के लिए बहुत खुश है; सारांश से, यह पिछले एक घंटे में उनमें से पांच से अधिक कर चुका है। और वे सभी असफल हो गए हैं, परीक्षण में जल्दी में, त्रुटियों के साथ।

हां, यह हार्ड ड्राइव विफल हो रहा है। जैसा कि प्रसिद्ध गूगल लैब्स की रिपोर्ट में कहा गया है (हालांकि मैं इस समय एक लिंक पर अपना हाथ नहीं रख सकता), अगर smartctlकहते हैं कि आपका ड्राइव विफल हो रहा है, तो यह शायद (I paraphrase) है।

संपादित करें : इसे बचाने की कोशिश न करें। सभी डेटा इसे प्राप्त करें, और इसे बदलें।

— MadHatter मोनिका का समर्थन करता है
स्रोत

9

यदि यह विफल हो रहा है, तो यह विफल हो रहा है। मरम्मत करना तकनीकी रूप से संभव हो सकता है, लेकिन एक नई ड्राइव की लागत की तुलना में लागत प्रभावी होने की संभावना नहीं है।

— Sobrique

7

एक आत्म परीक्षण त्रुटि के @Michel एक अभाव है कि एक ड्राइव सबूत नहीं है नहीं है नाकाम रहने, दुर्भाग्य से, लेकिन एक आत्म परीक्षण त्रुटि की उपस्थिति हमेशा माना सबूत है कि यह होना चाहिए है में चूक गए।

— रोब मोइर

1

@ मिचेल: आप केबलों को बदलने की कोशिश कर सकते हैं। कभी-कभी ड्राइव में समस्या के कारण कोई ड्राइव विफल नहीं हो सकती है, लेकिन खराब पावर या डेटा केबल के कारण।

— थॉमस पैड्रॉन-मैक्कार्थी

1

@ JorgeNerín: मुझे लगता है कि आप एक उत्कृष्ट बिंदु बनाते हैं, लेकिन सबूत यह है कि मैं और ओपी दोनों पहले से ही इसे समझते हैं - ओपी को, पिछले दो घंटों में कम से कम पांच के लिए पहल करनी चाहिए। जैसा कि परीक्षणों के लिए, मैं आपसे सहमत हूं कि एक लंबा परीक्षण एक बेहतर संकेतक होगा कि ड्राइव स्वस्थ है, लेकिन जब यह ड्राइव के पहले 10% में शॉर्ट और कन्वेक्शन दोनों परीक्षणों में विफल रहता है, तो मुझे लगता है कि हम यथोचित रूप से ड्राइव का समापन कर सकते हैं। शॉट। आपको क्या उम्मीद है कि अधिक व्यापक परीक्षण से पता चलेगा?

— MadHatter

2

@ JorgeNerín <grin> जो समझ में आता है! मैंने केवल इसलिए बात की क्योंकि ओपी ने अपना अभियान शुरू किया था, " मैंने सिर्फ अपने hdd पर एक परीक्षण चलाने की कोशिश की थी और यह एक आत्म परीक्षण पूरा नहीं करना चाहता था "। मुझे नहीं लगता कि हम में से कोई भी सोचता है कि ड्राइव जीवित है, और न ही यह स्वयं द्वारा परीक्षण करता है!

— मैडहेटर

10

आपके प्रश्न का उत्तर देने के लिए, एक असफल SMART परीक्षण आसन्न ड्राइव की विफलता का एक निश्चित संकेत है। आपको अपना डेटा वापस करना चाहिए और संभावित डेटा हानि को रोकने के लिए जितनी जल्दी हो सके ड्राइव को प्रतिस्थापित करना चाहिए।

@ sj0h ने लोड साइकिल काउंट का उल्लेख किया, जो 447,630 पर बहुत अधिक है। (अधिकांश आधुनिक हार्ड ड्राइव 600,000 लोड / अनलोड साइकल का सामना करने के लिए डिज़ाइन किए गए हैं।) यह आमतौर पर एडवांस्ड पॉवर मैनेजमेंट (APM) सुविधा के कारण होता है, जो सिर को पार्किंग करके (प्लैटर से उन्हें उतारकर) कुछ सेकंड के बाद पावर को संरक्षित करने की कोशिश करता है। निष्क्रिय। जरूरत पड़ने पर सिर को वापस पट्टियों पर लाद दिया जाता है। अधिकांश सिस्टमों पर, जहाँ हार्ड ड्राइव रुक-रुक कर चलती हैं, यह बहुत सारे लोड / अनलोड साइकल को उत्पन्न कर सकती है। APM को बंद करने के लिए, रूट प्रॉम्प्ट पर निम्न कमांड चलाएँ:

smartctl -s apm,off /dev/sda

हर बार इस सिस्टम को चलाने की आवश्यकता होगी जब सिस्टम पावर-साइकल हो या सोने के लिए डाल दिया जाए या ड्राइव को अन्यथा बंद कर दिया जाए, क्योंकि ड्राइव बंद होने पर यह सेटिंग बरकरार नहीं रहती है।

मेरे अनुभव में, ऐसा करने से नाटकीय रूप से लोड / अनलोड चक्रों की संख्या कम हो जाएगी और परिणामस्वरूप आप भविष्य में इस तरह की विफलता का फिर से अनुभव करेंगे। हालांकि, ध्यान दें कि ऐसा करने से बिजली की खपत और ड्राइव का तापमान बढ़ जाता है। यदि ड्राइव लगातार 50 ° C से अधिक तापमान पर चलता है, तो समय से पहले विफलता का जोखिम बढ़ जाता है, इसलिए आप एपीएम को गर्म करने के लिए छोड़ सकते हैं (या इसे बंद होने पर चालू कर सकते हैं)।

— bwDraco
स्रोत

2

पढ़ी गई विफलताओं के अलावा, लोड साइकिल काउंट पर भी विचार करें। लगभग 500,000 में यह विफलता का कारण या कम से कम उच्च भार चक्र पहनने का संकेत दे सकता है। समय के हर मिनट के लिए लोड चक्र होता है। आपके द्वारा ड्राइव को बदलने के बाद सुनिश्चित करें कि नया ड्राइव ऐसा नहीं कर रहा है।

— sj0h
स्रोत

बहुत अच्छा अवलोकन। एक निदान कैसे हो सकता है कि ड्राइव नीचे क्यों घूम रहा है और हर मिनट का बैकअप ले रहा है?

— डिटानचेन

@dotancohen, मेरा जवाब देखें- APM को दोष देना है।

— bwDraco

2

हां, आपके पास 16 सेक्टर अपठनीय हैं, आपने कई परीक्षण करने की कोशिश की है जो सभी ड्राइव के लगभग एक ही क्षेत्र में विफल रहे हैं, इसलिए, बैकअप तेज, लेकिन ध्यान रखें कि आपके पास पहले से ही दुर्गम डेटा है जो अब तक आसपास के क्षेत्र में है। सेक्टर 92290592, 92290596

आपके पास अन्य समस्याग्रस्त क्षेत्र हो सकते हैं, फिर भी आप नहीं जानते कि क्या वे 16 सेक्टर लगातार या फैले हुए हैं, यदि आप बैकअप के बाद खेलना चाहते हैं तो -t सेलेक्ट, startlba-endlba के साथ सेलेक्टिव सेल्फ-टेस्ट कर सकते हैं।

करंट_पेंडिंग_सेक्टर का मतलब है कि हार्ड डिस्क फर्मवेयर ने इसे पढ़ने की कोशिश की है, लेकिन ऐसा नहीं हो सकता है, यह कुछ समय तक कोशिश करेगा (जब भी ओएस इसके लिए पूछेगा) जब तक कि यह विफल नहीं होता है और इसे ऑफ़लाइन_उपयोगात्मक के रूप में चिह्नित किया जाता है या क्षतिग्रस्त क्षेत्र को किसी अन्य अतिरिक्त क्षेत्र के लिए स्थानापन्न करेगा। OS इसे लिखता है (ऐसा करने पर Reallocated_Sector_Ct को बढ़ाता है)।

— जॉर्ज नेरिन
स्रोत

1

मैं व्यक्तिगत रूप से ड्राइव को बदलूंगा। यदि आप किसी कारण के लिए अभी तक ऐसा नहीं करना चाहते हैं, लेकिन अभी थोड़ी देर ड्राइव पर हैं, तो आपको यह सुनिश्चित करने के लिए किसी तरह की आवश्यकता है कि आप नई फ़ाइलों के लिए खराब क्षेत्रों का उपयोग न करें।

मेरे पास एक पुराने मैक पर ऐसा ही एक वीडियो था, जो वीडियो रिकॉर्ड कर रहा था, और यह तय किया कि मैं इसे अभी तक बदलना नहीं चाहता, क्योंकि वीडियो सिर्फ होना अच्छा था। इसलिए मुझे त्रुटियों को अलग करने की आवश्यकता थी। पहले मैंने केवल खराब फ़ाइलों के लिए एक खाली फ़ोल्डर बनाया, और फिर मैंने डिस्क पर सभी मौजूदा फ़ाइलों को पढ़ने की कोशिश की और उनमें से किसी भी त्रुटि के साथ खराब फाइलों-निर्देशिका में ले जाया गया (उम्मीद है कि केवल महत्वहीन)।

फिर मैंने हार्डड्राइव को भरने के लिए बहुत सारी विशिष्ट रूप से नामित एक मेगाबाइट फ़ाइलों का निर्माण किया (इसलिए सभी खाली जगह अब इन 1 एमबी फ़ाइलों में से एक थी) और फिर प्रक्रिया को दोहराया। उन सभी त्रुटियों वाली फाइलें खराब-फाइलों-निर्देशिका में स्थानांतरित कर दी गईं, और जो बाईं ओर थीं वे अच्छी थीं और उन्हें खराब स्थान को पुनः प्राप्त करने के लिए हटा दिया जा सकता था।

अब आप ड्राइव को थोड़ा लंबा उपयोग कर सकते हैं, लेकिन महत्वपूर्ण सामान के लिए इसका उपयोग न करें। यह अधिक विफल हो जाएगा और ऐसा होने पर सबसे अधिक संभावना असुविधाजनक होगी।

— थोरबजोरन रावन एंडरसन
स्रोत

1

यह बहुत अच्छा संकेत नहीं है। आपको यह सुनिश्चित करना चाहिए कि डिस्क की सामग्री का बैकअप लिया गया है, और महत्वपूर्ण कुछ के लिए डिस्क का उपयोग न करें।

हालाँकि, मैंने असफल क्षेत्रों के साथ डिस्क देखी है जो उन्हें पुनः प्राप्त करते हैं और वर्षों तक चालू रहते हैं, इसलिए आप इसे कुछ समय के लिए इधर-उधर रख सकते हैं, उदाहरण के लिए, महत्वहीन सामान या अतिरिक्त बैकअप के लिए।

इसके बाद एक बात यह देखने की होगी कि कौन सी फाइलें अपठनीय क्षेत्रों द्वारा दूषित की गई थीं, और इन क्षेत्रों को डिस्क द्वारा रियलाइजेशन के लिए बाध्य करने के लिए लिखें (उन्हें "Current_Pending_Sector" से "Reallocated_Sector_Ct" पर ले जाएं)। यदि लिनक्स का उपयोग कर रहे हैं, तो http://smartmontools.sourceforge.net/badblockhowto.html देखें । एक बार सेक्टरों के वास्तविक हो जाने के बाद, स्व-परीक्षण को या तो अधिक अपठनीय क्षेत्रों को पारित करना चाहिए या रिपोर्ट करना चाहिए।

मैं ज्यादातर जवाबों से असहमत हूं, मुझे नहीं लगता कि खराब क्षेत्र जरूरी आसन्न विफलता के संकेत हैं। जैसा कि http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ का कहना है, "हर हार्डड्राइव अपने जीवन के किसी समय में बुरे क्षेत्रों का उत्पादन शुरू करता है"।

— a3nm
स्रोत

जबकि मैं मानता हूं कि विफलता एक खराब क्षेत्र के साथ निश्चित नहीं है, एक खराब क्षेत्र के बाद ड्राइवर के खराब होने की संभावना काफी हद तक बढ़ जाती है (मुझे लगता है कि यह Google रिपोर्ट में अस्वस्थ था, लेकिन मुझे वर्तमान में वास्तविक स्रोत नहीं मिल सकता है)

— डेनिस नोल्टे