Syslog में इन डिस्क त्रुटियों का क्या मतलब है?

13

मैंने कुछ समय के लिए पहली बार अपने मॉनिटरिंग सर्वर को रिबूट किया, और निम्नलिखित स्क्रीन को भरना शुरू किया:

Jul 11 23:52:30 monit kernel: [   25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [   25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [   25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [   25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [   25.256416]          res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [   25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [   25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [   25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [   25.304430] ata1: EH complete

. . . 

Jul 11 23:52:30 monit kernel: [   25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [   25.552462] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [   25.552475] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [   25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [   25.552498]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Jul 11 23:52:30 monit kernel: [   25.552529]         00 35 68 41 
Jul 11 23:52:30 monit kernel: [   25.552543] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [   25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [   25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [   25.556607] ata1: EH complete

मुझे पहले से पता है कि मुझे HDD (डेटा की लागत> HDD की लागत) को बदलने की आवश्यकता है, लेकिन मैं अपने स्वयं के ज्ञान के लिए जानना चाहता हूं कि वास्तव में इसके साथ क्या गलत है।

हां, हमारे मॉनिटरिंग सर्वर में कोई RAID नहीं है, बस एक HDD ... मुझे मत देखो ...

hard-drive boot dmesg

— Soviero
स्रोत

3

"हाँ, हमारे मॉनिटरिंग सर्वर में कोई RAID नहीं है, बस एक एचडीडी ... मुझे मत देखो ..." - बहुत ज्यादा नहीं लग रही है, अगर आपके पास कोई बैकअप है।

— जने पिक्कारनेन

2

मुझे उम्मीद है कि आपके पास अच्छे बैकअप होंगे। आप शायद उनकी जरूरत के लिए जा रहे हैं। यदि मॉनिटरिंग सर्वर वह महत्वपूर्ण है, तो हार्ड ड्राइव को कम से कम एक RAID 1 के साथ बदलने की लागत आसानी से उचित होनी चाहिए।

— माइकल हैम्पटन

1

यहां तक कि अगर आपके पास कोई RAID नहीं है, तो आपको अपने सभी डिस्क के लिए स्मार्ट डेटा की निगरानी करनी चाहिए।

— जेम्स यंगमैन

16

sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed

ऐसा लगता है कि ड्राइव में ख़राब सेक्टर हैं और ये उन्हें दोबारा प्राप्त करने में असमर्थ हैं (संभवत: क्योंकि यह अतिरिक्त क्षेत्रों से बाहर चला गया है)। का आउटपुट smartctl -a /dev/sdaआपको ड्राइव की स्थिति के बारे में अधिक जानकारी देगा।

— mgorven
स्रोत

मैंने यह त्रुटि एक साधारण रीड ( cpफ़ाइल से, कोशिश करते हुए) पर देखी है । उस स्थिति में, उस सेक्टर पर फ़ाइल को नुकसान जो काफी खराब हो गया था, गंभीर रूप से गंभीर था कि यह डेटा को फिर से संगठित नहीं कर सकता था, इसलिए "reallocate" विफलता वास्तव में पहले भी हुई थी क्योंकि यह डेटा को कहीं और स्टोर करने की कोशिश कर सकता था।

— रान्डेल

12

लस्सी का यह कहना कि "अरफ! एफ़ आरफ़! आरफ़!"। जो गूंगा है, क्योंकि इसका टिम्मी या कुओं से कोई लेना- देना नहीं है । यही कारण है कि आप कुत्तों से sysadmin सलाह नहीं लेते हैं।

ड्राइव आपको "बिना पढ़ी गई त्रुटि - ऑटो रिक्लोवेट फेल" दे रहा है, जिसका मूल अर्थ है "मैंने पढ़ने की कोशिश की, मैं असफल रहा, मैंने ठीक होने की कोशिश की (सेक्टर को कुछ और बार पढ़ें, कुछ ईसीसी लागू करें, और डेटा को स्थानांतरित करें" एक सेक्टर जो टूटा नहीं है), और यह काम नहीं किया "। इसका शायद मतलब है (जैसा कि मॉर्गन कहते हैं) कि डिस्क पहले से ही वास्तविक क्षेत्रों से भरी हुई है, क्योंकि डिस्क थोड़ी देर के लिए मर रही है, लेकिन मुझे यह भी लगता है कि इसका मतलब यह हो सकता है कि यह सेक्टर को पुनर्प्राप्त करने में सक्षम नहीं था (दोहराया रीड्स + ECC एक अच्छा दिखने वाला डेटा ब्लॉक प्राप्त करने में विफल रहा)।

किसी भी तरह, हाँ, ड्राइव बहुत, बहुत कैक्टस है। आपका डेटा वास्तविक रूप से स्वस्थ नहीं लग रहा है।

— वमन
स्रोत

1

सही - स्मार्ट डेटा आपको यह भी बता सकता है कि पहले से ही कितने सेक्टरों को फिर से तैयार किया गया था।

— जेम्स यंगमैन

3

मुझे पता है कि यह पुराना है, लेकिन अगर कोई अभी भी इस पोस्ट को पढ़ रहा है: "डीडी भी टूटे हुए क्षेत्र (ओं) को पढ़ने की कोशिश करेगा" - यहाँ gddrescue उपयोगी है। यह नहीं है (ठीक है, यह करता है, लेकिन केवल एक बार)।

— वोल्फगैंग नोइकल
स्रोत

1

उस डिस्क की dd छवि या rsync प्रतिलिपि अभी बनायें ++, जब तक कि आपके पास पूर्ण बैकअप न हो, उस बॉक्स के सुविधाजनक पुनर्स्थापना की अनुमति देता है । और एक संगत और काम करने वाले प्रतिस्थापन डिस्क की तलाश शुरू करें।

BTW, UDMA / 66, क्या यह दस साल पुरानी PATA डिस्क है?

— rackandboneman
स्रोत

2

डीडी भी टूटे हुए क्षेत्र को पढ़ने की कोशिश करेगा।

— हेन्स

3

आमतौर पर सबसे अच्छा प्रभाव नहीं ... त्रुटि व्यवहार पर बेहतर नियंत्रण के साथ ddresoscope नामक एक उन्नत संस्करण है।

— रैकैंडबनमैन

हमेशा होता है conv=noerror, लेकिन मुझे यकीन नहीं है कि जो एक अच्छी तरह से टूटी हुई फ़ाइल प्रणाली बन जाएगी उस पर काम करता है। शायद फ़ाइल द्वारा डेटा फ़ाइल पढ़ने से भी बदतर नहीं है, लेकिन निश्चित रूप से कोई बेहतर नहीं ...

— एक CV

0

जैसा कि पहले ही उल्लेख किया गया है कि इसका मतलब है कि आपकी ड्राइव जीवन के अंत के करीब है, लेकिन जरूरी नहीं कि तुरंत - आपको fsckडिस्क पर चलना चाहिए और त्रुटियों को ठीक करने की कोशिश करनी चाहिए ( खराब ब्लॉकों को ठीक करने के लिए स्मार्टमिंटस विकी देखें ) और डिस्क ठीक हो सकती है अब जबकि।

लेकिन आपको दौड़ना शुरू करना चाहिए smartd(जो smartmontoolsपैकेज के हिस्से के रूप में आता है ) और इसकी रिपोर्ट और / या ईमेल सूचनाओं पर नजर रखें। इसके अलावा, आप स्क्रिप्ट्स (इन /etc/smartmontools/run.d/) बनाकर अपने स्वयं के कस्टम नोटिफिकेशन जोड़ सकते हैं smartd-runner।

— Pierz
स्रोत