मेरे पास घर पर एक छोटा उबंटू सर्वर चल रहा है, जिसमें 2 हार्ड ड्राइव हैं। डिस्क पर दो सॉफ्टवेयर छापे (छापे 1) हैं, जिन्हें mdadm द्वारा प्रबंधित किया गया है, जो मुझे लगता है कि अप्रासंगिक है, लेकिन फिर भी इसका उल्लेख है।
दोनों हार्ड ड्राइव पश्चिमी डिजिटल हैं, और लगभग 2 वर्षों के लिए उपयोग किया गया है, जब उनमें से एक ने शोर क्लिक करना शुरू कर दिया, और मृत्यु हो गई। मुझे लगा कि शायद यह 2 साल बाद स्वाभाविक है, इसलिए मैंने एक नया खरीदा, और छापे सरणियों को फिर से तैयार किया। लगभग एक महीने के बाद, अन्य ड्राइव की भी मृत्यु हो गई।
मुझे संदेह नहीं हुआ, क्योंकि दोनों ड्राइव एक ही समय में खरीदे गए हैं, इसलिए दोनों को एक-दूसरे के पास देखना आश्चर्यजनक नहीं है, इसलिए मैंने एक और खरीदा।
अब तक, 2 पुराने ड्राइव विफल रहे, और सिस्टम में 2 नए ब्रांड। एक महीने के बाद, नए ड्राइव में से एक की मृत्यु हो गई। यह तब है जब यह संदिग्ध लगने लगा। चूंकि पीसी को कुछ पुराने भागों (एथलॉनएक्सपीपी से लगता है) से एक साथ रखा गया था, मुझे लगा कि शायद मदरबोर्ड का SATA नियंत्रक अपराधी है। बेशक आप इस तरह एक पुराने पीसी में आसानी से भागों को स्विच नहीं कर सकते हैं, इसलिए मैंने एक पूरी प्रणाली, नया एमबी, नया सीपीयू, नया रैम खरीदा है। बस विफल ड्राइव को वापस ले लिया, क्योंकि यह वारंटी के अधीन था, और इसे बदल दिया गया।
तो यह पुराने से 2 विफल ड्राइव, और नए से 1 विफल ड्राइव है। कोई समस्या नहीं, 1 महीने के लिए। इसके बाद त्रुटियां फिर से / var / log / संदेशों में रेंगने लगीं, और mdadm छापे सरणी विफलताओं की रिपोर्ट कर रहा था। मैंने अपने बालों को बाहर निकालना शुरू कर दिया। सिस्टम में सब कुछ नया है, यह तीसरे ब्रांड के नए हार्ड ड्राइव पर निर्भर है, यह संभव नहीं है कि सभी नए ड्राइव जो मैंने खरीदे थे, वे दोषपूर्ण थे।
आइए देखें कि क्या अभी भी आम है ... केबल। ठीक है, लंबा शॉट, चलो SATA केबलों को बदलें। हार्ड ड्राइव वापस ले लो, काउंटर पर लड़के को मुस्कुराओ और कहो कि मैं वास्तव में बदकिस्मत हूं। वह हार्ड ड्राइव को बदल देता है। मैं घर आता हूं, एक महीना बीत जाता है और एक हार्ड ड्राइव फिर से विफल हो जाती है। मैं मजाक नहीं कर रहा हूं।
दो नए हार्ड ड्राइव असफल हो गए हैं। शायद यह ओएस में एक बग है। आइए देखें कि निर्माता का परीक्षण उपकरण क्या कहता है। परीक्षण उपकरण डाउनलोड करें, इसे सीडी में जलाएं, रिबूट करें, रात भर हार्ड ड्राइव परीक्षण छोड़ दें। टेस्ट कहता है कि ड्राइव दोषपूर्ण है, और मुझे सब कुछ वापस करना चाहिए, अगर मैं अभी भी कर सकता हूं। मुझे नहीं पता कि क्या हो रहा है, लेकिन यह एक सॉफ्टवेयर समस्या की तरह नहीं दिखता है, कुछ निश्चित रूप से हार्ड ड्राइव को जोर दे रहा है।
मुझे अब उल्लेख करना चाहिए, कि पूरी प्रणाली एक शोबॉक्स में है। के बाद से "अपने खुद के ikea मामले का निर्माण" सामान का एक लोड कर रहे हैं, मैंने सोचा कि किसी भी चीज को एक बॉक्स में फेंकने में कोई समस्या नहीं होनी चाहिए, और इसे कहीं दूर भराई करना चाहिए। बॉक्स अच्छी तरह से हवादार है, लेकिन मुझे लगा कि बस शायद ड्राइव ज्यादा गरम था। इसका कोई अन्य संभावित उत्तर नहीं है। इसलिए मैंने हार्ड ड्राइव को वापस ले लिया, और इसे प्रतिस्थापित किया (3 वीं बार), और हार्ड ड्राइव कूलर खरीदा।
और अभी, मैंने कयामत की आवाज़ सुनी है। क्लिक whizzzzzzzzz क्लिक करें । बॉक्स में SSH:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
dmesg आउटपुट:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
संक्षिप्त:
- ओवरहीटिंग की संभावना नहीं
- 6 ड्राइव विफल रहे हैं, जिनमें से 4 बिल्कुल नए हैं। मुझे अब यकीन नहीं है कि मूल दो दोषपूर्ण हैं, या एक ही चीज़ का सामना करना पड़ा है जो नए हैं।
- सिस्टम में कुछ भी सामान्य नहीं है, ओएस के अलावा जो अब उबंटू कर्मिक है (जयंती के साथ शुरू हुआ)। नया एमबी, नया सीपीयू, नया रैम, नया एसएटीए केबल।
- नहीं, हार्ड ड्राइव पर छोटे छेद कवर नहीं हैं
मैं रो रहा हूँ। वास्तव में। मेरे पास अब स्टोर पर लौटने के लिए चेहरा नहीं है, 4 ड्राइव के लिए 4 महीने से कम समय में विफल होना संभव नहीं है।
कुछ विचार जो मैं सोच रहा हूं: क्या यह संभव है कि जब मैं विभाजन करता हूं और ड्राइव को फिर से सिंक करता हूं तो मैं कुछ गड़बड़ कर देता हूं? क्या यह इतना बुरा हो सकता है कि यह शारीरिक रूप से ड्राइव को मिटा दे? (जब से वेंडर सप्लाई टूल कहता है कि ड्राइव खराब हो गई है) मैं विभाजन को fdisk के साथ करता हूं, और raid1 विभाजन के लिए समान ब्लॉक आकार का उपयोग करता हूं (मैं fdisk -lu के साथ सटीक ब्लॉक आकार की जांच करता हूं)
क्या यह संभव है कि लिनक्स कर्नेल या mdadm, या कुछ हार्ड ड्राइव के इस सटीक ब्रांड के साथ संगत नहीं है, और उन्हें थ्रैश करता है?
क्या यह संभव है कि यह थाह लेने वाला हो सकता है? इसे कहीं और रखने की कोशिश करें? यह अभी एक शेल्फ के नीचे है, इसलिए आर्द्रता कोई समस्या नहीं है। क्या यह संभव है कि एक सामान्य पीसी का मामला मेरी समस्या को हल कर देगा (मैं खुद को शूट करने जा रहा हूं)? मुझे कल एक तस्वीर मिलेगी।
क्या मैं सिर्फ शापित हूं?
किसी भी मदद या अटकलों की बहुत सराहना की जाती है।
संपादित करें : बिजली की पट्टी को ओवरवॉल्टेज के खिलाफ संरक्षित किया जाता है।
Edit2 : मैं इन 4 महीनों में इनबिल्ट हो गया हूं, इसलिए दोनों जगहों पर बिजली के "गंदे" होने की संभावना बहुत कम है।
Edit3 : मैंने BIOS में वोल्टेज की जाँच की है (मल्टीमीटर उधार नहीं ले सकता), और वे सभी सही प्रतीत होते हैं, सबसे बड़ी विसंगति 12 वी में है, क्योंकि यह 11.3 की आपूर्ति कर रहा है। क्या मुझे उस बारे में चिंतित होना चाहिए?
Edit4 : मैंने अपने डेस्कटॉप पीसी के PSU को सर्वर में डाला। BIOS ने अधिक सटीक वोल्टेज रीडिंग की सूचना दी, और यह भी सफलतापूर्वक raid1 सरणी को फिर से बनाया है, जिसमें कुछ 3-4 घंटे लगते हैं, इसलिए मुझे अब थोड़ा सकारात्मक लगता है। उसी के साथ परीक्षण करने के लिए कल एक नया पीएसयू मिलेगा। इसके अलावा, बॉक्स के बारे में तस्वीर संलग्न करना: (तीसरी ड्राइव की उपेक्षा)