सस्ते स्टोरेज सर्वर के लिए नए HDD का परीक्षण करने का सबसे अच्छा तरीका है


31

मैं एक स्टोरेज सर्वर बनाना और खरीदना चाहता हूं 10 x 2TB WD RED'sHDD'sबस आ गया है।

क्या कोई उपकरण है जिसे आप लोग खराब ड्राइव की जांच करने के लिए या शिशु मृत्यु दर के खिलाफ अपने डिस्कों पर वास्तविक डेटा की नकल करने से पहले सबसे अच्छा बचाव करने के लिए उपयोग करते हैं?

क्या प्रत्येक एकल की जांच करना HDDया ZFS raid-z2उस पर बहुत सारे डेटा की प्रतिलिपि बनाकर सरणी ( ) का परीक्षण करना बेहतर है?


1
मुझे पता है कि "डब्ल्यूडी डेटा लाइफगार्ड डायग्नोस्टिक्स" जैसे कुछ विक्रेता विशिष्ट उपकरण हैं। लेकिन मुझे आश्चर्य है कि लोग क्या करते हैं, कि बहुत सारे हार्डडिस्क खरीदते हैं। मुझे संदेह है कि वे हर एक हार्ड ड्राइव की जांच करते हैं (जिसमें बहुत समय लगता है ..) इसलिए मुझे आश्चर्य होता है कि क्या कोई ऐसा उपकरण है जो एक बार में सभी हार्डडिस्क पर पूर्ण स्मार्ट परीक्षण कर सकता है?
s1lv3r

3
ड्राइव पर लिखने वाले किसी भी चीज़ के बारे में परीक्षण के रूप में इस्तेमाल किया जा सकता है; एक पूर्ण कड़ी चोट या सरणी के दो शिशु मृत्यु दर को पकड़ने के लिए पर्याप्त होना चाहिए। जब आप एक जोड़े से अधिक प्राप्त कर रहे हैं तो विभिन्न विक्रेताओं / बैचों से ड्राइव खरीदना वास्तव में अच्छा विचार है - एक ही समय में कई ड्राइव के विफल होने की संभावना कम हो जाती है (समान विनिर्माण दोष के कारण)।
क्रिस एस

जवाबों:


14

2 महीने पहले मेरा भी यही सवाल था। असफल डिस्क में भेजने के बाद, 3 दिनों के बाद मेरे एनएएस में प्रतिस्थापन डिस्क विफल हो गई। इसलिए मैंने फैसला किया कि मैं अब इसे लगाने से पहले नए प्रतिस्थापन का परीक्षण करूंगा। मैं अपने द्वारा खरीदी गई हर नई डिस्क का परीक्षण नहीं करता, केवल 'रीफर्बिश्ड' डिस्क पर, जिस पर मुझे पूरा भरोसा नहीं है।

यदि आप तय करते हैं कि आप इन डिस्क का परीक्षण करना चाहते हैं तो मैं एक बैडब्लॉक स्कैन और ब्रांड नई हार्ड डिस्क पर एक विस्तारित स्मार्ट परीक्षण चलाने की सिफारिश करूंगा ।

2TB डिस्क पर यह 48 घंटे तक लेती है, बैडब्लॉक कमांड डिस्क को एक पैटर्न के साथ पूरा लिखती है, फिर ब्लॉक को फिर से पढ़कर देखती है कि क्या पैटर्न वास्तव में है, और इसे 4 अलग-अलग पैटर्न के साथ दोहराएंगे।

यह कमांड शायद एक नई डिस्क पर वास्तव में किसी भी खराब ब्लॉक को नहीं दिखाएगा, क्योंकि इन दिनों रियल ब्लॉक को खराब ब्लॉक करता है।

तो इससे पहले और बाद में मैंने एक स्मार्ट परीक्षण किया, और वास्तविक और वर्तमान लंबित क्षेत्र की जांच करें। यदि इनमें से कोई भी ऊपर चला गया है, तो आपकी डिस्क में पहले से ही कुछ खराब ब्लॉक हैं और इसलिए यह अविश्वसनीय साबित हो सकता है।

इसके बाद मैंने फिर से एक विस्तारित SMART परीक्षण चलाया।

आप पहले smartctl या smartmontools स्थापित करना चाह सकते हैं।

चेतावनी , बैडब्लॉक -w ध्वज आपकी डिस्क पर मौजूद सभी डेटा को अधिलेखित कर देगा, यदि आप डिस्क को अधिलेखित किए बिना एक रीड चेक करना चाहते हैं, तो उपयोग करेंbadblocks -vs /dev/sdX

sudo smartctl -a /dev/sdX
# record these numbers
sudo badblocks -wvs /dev/sdX
# let it run for 48 hours
sudo smartctl -a /dev/sdX
# compare numbers
sudo smartctl -t long /dev/sdX
# this might take another hour or 2, check results periodically with
sudo smartctl -a /dev/sdX

यदि इसके बाद आपके स्मार्ट मूल्य ठीक लग रहे हैं तो मैं डिस्क पर भरोसा करूंगा।

यह जानने के लिए कि प्रत्येक स्मार्ट मूल्य का क्या अर्थ है, आप यहां देखना शुरू कर सकते हैं

http://en.wikipedia.org/wiki/Self-Monitoring,_Analysis,_and_Reporting_Technology


जैसा कि दूसरों का मानना ​​है कि यह बहुत दूर हो सकता है, लेकिन जैसा कि मेरे पास केवल 10 डिस्क हैं और यह निश्चित रूप से कोई बुरा नहीं कर सकता है, मैं अभी आपके द्वारा सुझाए गए तरीके से सभी डिस्क की जांच कर रहा हूं। आपके व्यापक उत्तर के लिए धन्यवाद।
s1lv3r

23

ये नए डिस्क हैं। या तो वे असफल हो रहे हैं या वे नहीं करेंगे। ZFS फाइल सिस्टम का उपयोग करके आप पहले से ही एक बड़ा कदम हैं, जो आपको अपने छापे और फाइल सिस्टम के स्वास्थ्य के बारे में बहुत जानकारी देगा ...

मैं सिर्फ सरणी के निर्माण से परे कुछ नहीं करूंगा। यह अतिरेक की बात है। आप अन्य सूचीबद्ध विधियों के साथ ड्राइव विफलता को प्रेरित करने में सक्षम नहीं होंगे।


1
इससे सहमत - आप एक सरणी का निर्माण कर रहे हैं। यदि कोई ड्राइव तब विफल हो जाती है जब आप डेटा डालना शुरू करते हैं, तो इससे कोई फर्क नहीं पड़ता, आप इसे बदल देते हैं और सरणी सेल्फ हील हो जाती है। उपयोग करने से पहले समस्याओं के लिए ड्राइव का परीक्षण करना आपको उचित विचार नहीं देगा कि क्या वे वास्तविक जीवन में असफल होंगे - वास्तविक जीवन परीक्षण के लिए उपयुक्त नहीं है!
एशले

1
मैं सहमत हूँ "वास्तविक जीवन परीक्षणों की तरह नहीं है" लेकिन मुझे बैडब्लॉक के माध्यम से दो ड्राइव विफलताएं भी मिली हैं। अगर मैं उन दोनों को RAID 1, 5, या 10 के एक ही भाग में रखता, तो मैं पूरे RAID को खो देता।
rjt

1
@rjt शायद नहीं। खराब क्षेत्रों को फिर से जोड़ा जाएगा और ड्राइव एक ही समय में विफल होने की संभावना नहीं होगी। इसके अलावा, सभी ड्राइव विफलता मीडिया या खराब ब्लॉकों का परिणाम नहीं हैं। क्या होगा अगर ड्राइव असर खराब हो जाए या खराबी हो जाए?
ewwhite

मैं शायद मिशन महत्वपूर्ण डेटा के बारे में निर्णय नहीं करता हूं । Google हार्ड ड्राइव अध्ययन कहता है कि ड्राइव या तो पहले 90 दिनों में या 3 साल बाद खराब हो जाते हैं। बैडब्लॉक कम लटके फलों को खत्म करने में मदद करता है।
आरजेटी

1
@ निश्चित रूप से आप "शायद" पर मिशन-महत्वपूर्ण डेटा के बारे में निर्णय लेते हैं - यदि आपने नहीं किया तो आप किसी भी ड्राइव पर डेटा स्टोर करने में असमर्थ होंगे, चाहे आप कितना भी परीक्षण करें।
voretaq7

10

आप परीक्षण के लिए बोनी ++ का उपयोग कर सकते हैं। यह पूरी तरह से फ़ाइल सर्वर व्यवहार पैटर्न का अनुकरण कर सकता है।

उदाहरण के लिए:

# bonnie++ -u nobody -d /home/tmp -n 100:150000:200:100 -x 300

परीक्षण उपयोगकर्ता 'कोई नहीं' के रूप में चलेगा और 200/150000 बाइट्स प्रति फ़ाइल से 100 * 1024 फ़ाइल नीचे / घर / tmp के भीतर 100 * 1024 फ़ाइलों को बनाएगा / फिर से लिखेगा / हटाएगा। और परीक्षणों की संख्या = 300. आप फ़ाइल गणना / आकार और टेस्ट रिपीट की संख्या के आसपास खेल सकते हैं।


9

मैं आमतौर पर एक पूर्ण RAID init करता हूं और जहां लागू होता है, इस दौरान फाइल सिस्टम को आबाद करना शुरू कर देता हूं, हर समय यह जानते हुए कि डेड ड्राइव के कारण कोई समस्या हो सकती है। इस तरह, मैं किसी भी तरह के परीक्षणों के लिए किसी भी समय बर्बाद नहीं करता हूं जो वैसे भी काफी अविश्वसनीय हैं और मैं असली कमजोर ड्राइव को तुरंत पकड़ लूंगा। उसके बाद, "शिशु मृत्यु दर" के कारण ड्राइव विफलताओं के लिए अभी भी कुछ ऊंचा मौका हो सकता है, लेकिन इसे खत्म करने का कोई व्यावहारिक तरीका नहीं है।

व्यवहार में, पिछले कुछ सौ डिस्क में से कोई भी जिसका मैंने उपयोग किया था RAID में ऑपरेशन के पहले वर्ष के दौरान कोई समस्या थी।


8

मैं एक ऐसी कंपनी के लिए काम करता हूं जो इस तरह का परीक्षण दिन और दिन में करती है। और हां, हम हमारे द्वारा खरीदे गए हर एक हार्ड ड्राइव का परीक्षण करते हैं। हमारी प्रक्रिया HDAT2 नामक एक मुफ्त डॉस आधारित कार्यक्रम के माध्यम से ड्राइव चलाने के साथ शुरू होती है। डाउनलोड करने के लिए स्वतंत्र है। यह SMART और ड्राइव के कुछ अन्य फीचर्स को एक्सेस कर सकता है जो कि विंडोज वातावरण से दुर्गम हैं। वहां के परिणामों के आधार पर हम उन्हें विशेष हार्डवेयर की कई अलग-अलग लाइनों में से एक के माध्यम से चलाएंगे, लेकिन मुख्य रूप से वे सिर्फ SMART शॉर्ट सेल्फ टेस्ट, लॉन्ग टेस्ट, एक सुरक्षित मिटा और सेक्टरों को सत्यापित करने के लिए ऑल रीड पढ़ें। मेरा सुझाव पूर्ण डिस्क को सुरक्षित रूप से चलाने के लिए होगा, फिर एक सभी पढ़ने के लिए, फिर एक SMART लघु आत्म परीक्षण। यह आदेश महत्वपूर्ण है क्योंकि लघु परीक्षण आपके परीक्षण की शुरुआत में चलाने पर कुछ भी नहीं मिल सकता है, लेकिन डिस्क के पूर्ण लिखने और पढ़ने के बाद यह कुछ उठा सकता है। उम्मीद है की यह मदद करेगा।


1
serverfault.com/a/501870/117546 मेरे लिए सबसे ज्यादा मायने रखता है, लेकिन मैं विशेषज्ञ नहीं हूं। आपकी कंपनी हार्ड ड्राइव का परीक्षण क्यों करती है। मुझे लगता है कि सबसे प्रभावी परीक्षण वास्तव में ड्राइव का उपयोग होगा।
एमोरी

4

आप निर्माताओं का परीक्षण सूट का उपयोग कर सकते हैं, या पूरी डिस्क को स्वीप करने के लिए स्पिनराइट जैसे कुछ का उपयोग कर सकते हैं । SMART मूल्यों को देखने के लिए, बुरे क्षेत्रों और अन्य बुढ़ापे / विफलता के संकेतों की तलाश करना भी एक अच्छा विचार होगा ।


3

यदि आप वास्तव में परीक्षण करना चाहते हैं, तो badblocksलेखन परीक्षण का उपयोग करें । यह डिस्क पर डेटा पैटर्न लिखेगा फिर जांच करने के लिए उन्हें पढ़ेगा। इस दौरान यह आपकी डिस्क को थोड़ा तनाव देगा। मेरी राय में, अगर यह सफलतापूर्वक चलता है तो आप डिस्क पर भरोसा कर सकते हैं।

लेकिन मुझे लगता है कि ZFS और अच्छा बैकअप काफी है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.