क्या एक अच्छा ड्राइव यातना परीक्षण उपकरण है?

17

मुझे हाल ही में अजीब और दुर्लभ फाइल सिस्टम भ्रष्टाचार हुआ है कि मुझे संदेह है कि मेरी एसएसडी की गलती है। मैं एक अच्छे ड्राइव टॉर्चर टेस्ट टूल की तलाश में हूं। कुछ ऐसा जो पूरी डिस्क को लिख सकता है, फिर वापस जाएं और इसे पढ़कर उड़ने वाले लेखन, दूषित ब्लॉक, पुराने संशोधनों और अन्य त्रुटियों के लिए वापस जाने वाले ब्लॉक की तलाश करें। यह जितना badblocksकरता है उससे कहीं अधिक होगा । क्या ऐसा कोई उपकरण है?

नोट मैं किसी प्रदर्शन बेंचमार्क की तलाश में नहीं हूं और पहले से ही स्मार्ट स्थिति की जांच कर चुका हूं; स्वस्थ और कोई बुरा ब्लॉक की सूचना दी।

disk

— psusi
स्रोत

1

क्या आप ने कोशिश की? iozone.org

— पॉज़िट्रॉन

1

Btw, आपने संकेत नहीं दिया कि आप किस OS / सिस्टम हार्डवेयर का उपयोग कर रहे हैं। SSD (s) को उस भ्रष्टाचार का अनुभव करने के लिए सूचित किया गया है जिसके बारे में आप कुछ मैक ओएस एक्स बॉक्सन पर बात कर रहे हैं जब पावर को बचाने के लिए अक्सर हार्ड ड्राइव को पावर में कॉन्फ़िगर किया जाता है। इससे भ्रष्टाचार होगा। मुझे लगता है कि अन्य ओएस / हार्डवेयर कॉम्बोस में भी यही संभावना है, अगर ड्राइव को एसएसडी को जारी हार्ड ड्राइव पावर डाउन के माध्यम से सोने के लिए मजबूर किया जाता है। मैं ड्राइव परीक्षण के साथ आपके SSD को जलाने से पहले आपके सिस्टम के कॉन्फ़िगरेशन की जांच करूंगा।

— विंग तांग वोंग

1

@WingTangWong, वाह। मैंने तैयार किया है कि कई एसएसडी बिजली खो देते हैं, लेकिन जब उन्हें सोने के लिए कहा जाता है? यह एक छोटी गाड़ी है। मैं इस पर नजर रखूंगा। मैं लिनक्स का उपयोग कर रहा हूं और सिस्टम को निलंबित करने के बाद शायद इसे छोड़कर नींद नहीं आ रही है ...

— psusi

10

Overkill हो सकता है, लेकिन Phoronix Test Suite है । वहाँ भी है bonnie++, साथ ही साथ hdparm।

मैं आमतौर पर उपयोग करता हूं hdparm, उदाहरण के लिए:

% hdparm -Tt /dev/hdb
/dev/hdb:
 Timing buffer-cache reads:   128 MB in  1.25 seconds =102.40 MB/sec
 Timing buffered disk reads:  64 MB in 16.70 seconds =  3.83 MB/sec

मैं hdparmयातना परीक्षण नहीं कहूंगा, लेकिन यह आपको समग्र प्रदर्शन के बारे में जानकारी देता है।

एक ड्राइव स्वास्थ्य का निर्धारण

ड्राइव को यातना देने के बाद आप ड्राइव के सामान्य स्वास्थ्य की जांच करने के लिए इस कमांड का उपयोग कर सकते हैं:

% sudo udisks --dump | grep -A 24 Updates
 Attribute       Current|Worst|Threshold  Status   Value       Type     Updates
===============================================================================
 raw-read-error-rate         103| 99| 34   good    5854752     Pre-fail Online 
 spin-up-time                100| 99|  0    n/a    0           Pre-fail Online 
 start-stop-count             98| 98| 20   good    2785        Old-age  Online 
 reallocated-sector-count    100|100| 36   good    0 sectors   Pre-fail Online 
 seek-error-rate              72| 60| 30   good    25872884688 Pre-fail Online 
 power-on-hours               89| 89|  0    n/a    424.4 days  Old-age  Online 
 spin-retry-count            100|100| 97   good    0           Pre-fail Online 
 power-cycle-count            98| 98| 20   good    2753        Old-age  Online 
 attribute-184               100|100| 99   good    0           Old-age  Online 
 reported-uncorrect          100|100|  0    n/a    0 sectors   Old-age  Online 
 attribute-188               100| 96|  0    n/a    0           Old-age  Online 
 high-fly-writes             100|100|  0    n/a    0           Old-age  Online 
 airflow-temperature-celsius  58| 42| 45 FAIL_PAST 42C / 108F  Old-age  Online 
 g-sense-error-rate          100|100|  0    n/a    124         Old-age  Online 
 power-off-retract-count     100|100|  0    n/a    15          Old-age  Online 
 load-cycle-count              1|  1|  0    n/a    248327      Old-age  Online 
 temperature-celsius-2        42| 58|  0    n/a    42C / 108F  Old-age  Online 
 hardware-ecc-recovered       45| 38|  0    n/a    5854752     Old-age  Online 
 reallocated-event-count      89| 89| 30   good    14877766723263 Pre-fail Online 
 current-pending-sector      100|100|  0    n/a    0 sectors   Old-age  Online 
 offline-uncorrectable       100|100|  0    n/a    0 sectors   Old-age  Offline
 udma-crc-error-count        200|200|  0    n/a    0           Old-age  Online 
 attribute-254               100|100|  0    n/a    0           Old-age  Online

डिस्क स्वास्थ्य / रखरखाव उपकरण

मुझे निम्नलिखित 2 टूल का उपयोग करने में अच्छी सफलता मिली है जहां मैं काम करता हूं। HDAT2 और स्पिनराइट । उत्तरार्द्ध एक वाणिज्यिक उपकरण है लेकिन पूर्व, एचडीएटी 2, एक ओपनसोर्स परियोजना है।

यहाँ HDAT2 के कुछ स्क्रीनशॉट दिए गए हैं:

ss # 1 HDAT2

ss # 2 HDAT2

आपको इन दोनों में अपने सिस्टम को रिबूट करना होगा, इसलिए जब आप ये ऑपरेशन कर रहे हों तो यह ऑफ़लाइन है, लेकिन उनके पास ऐसे दोनों पुनर्प्राप्त ड्राइव हैं जो विफल हो गए थे या विफलताओं का प्रदर्शन करना शुरू कर रहे थे। HDAT2 में UI नेविगेट करने के लिए थोड़ा मोटा है, हम आम तौर पर अधिकांश भाग के लिए डिफ़ॉल्ट विकल्पों का उपयोग करते थे और वहां से बहुत दूर नहीं भटकने की कोशिश करते थे।

— slm
स्रोत

आपके द्वारा उल्लेखित पहले तीन प्रदर्शन बेंचमार्क हैं। पहले से ही स्मार्ट स्थिति की जाँच की और यह खराब क्षेत्रों के साथ अच्छा है, इसलिए ऐसा लग रहा है कि HDAT2 वह नहीं है जो मैं देख रहा हूँ।

— Psusi

मैं HDAT2 को खारिज नहीं करूंगा, हम chkdsks चला रहे थे और वे भी साफ थे, फिर भी डिस्क अभी भी बूट करने योग्य नहीं थी, HDAT2 को चलाने से डिस्क के साथ सतह के मुद्दों को खोजने में सक्षम था कि यह ड्राइव को बूट करने योग्य बनाने के लिए पर्याप्त मरम्मत करने में सक्षम था।

— slm

देर से टिप्पणी, लेकिन मैं HDAT2 के स्रोत कोड को खोजने की कोशिश कर रहा हूं, जिसमें कोई सफलता नहीं है। क्या हाल ही में लाइसेंसिंग परिवर्तन हुआ है?

— ०३६__

4

बोनी ++ के मन में आता है:

तो, आपके बॉक्स के हार्डवेयर विन्यास पर निर्भर करता है:

bonnie++ -d /path/to/mounted/ssd -r your-system-ram-size-in-MB

उदाहरण:

# For a 32GB system with the SSD formatted and mounted at /mnt/mounted-ssd-001
bonnie++ -d /mnt/mounted-ssd-001 -r 32000

यह आपके डिवाइस को एक अच्छा तनाव परीक्षण देना चाहिए। आप इसे कस्टमाइज़ भी कर सकते हैं।

ध्यान दें, एसएसडी के साथ, जब एक बुरा ब्लॉक होता है, तो यह आपके द्वारा काम कर रहे ड्राइव के आधार पर, ड्राइव हार्डवेयर द्वारा स्वचालित रूप से रीमैप कर सकता है। इसके अलावा, एक यातना परीक्षण आपके SSD के लिखित जीवन काल में दूर हो जाता है। तो, अपने विवेक से उपयोग करें।

संपादित करें:

SSD विफलताओं के बारे में एक नोट जोड़ना, क्योंकि यह बताया गया है कि बोनी ++ तनाव परीक्षण करता है, लेकिन त्रुटियों को ट्रैक नहीं करता है। SSD (s) "रीमैप बैड ब्लॉक्स" जिस तरह से हार्ड ड्राइव को रीमैपिंग करने से अलग होता है। यह कैसे चलता है यह पूरी तरह से इस बात पर निर्भर करता है कि आपके पास कौन सा ब्रांड / मेक / SSD का मॉडल है:

सस्ते SSD (s) केवल असफल हो जाते हैं, क्योंकि उनके पास रीमैप बनाने की कोई अतिरिक्त क्षमता नहीं होती है, या क्योंकि उनके पास असफल फ्लैश ब्लॉक को अलग करने का कोई साधन नहीं होता है। वे बस लटकाएंगे या ऑफ़लाइन जाएंगे और ऑनलाइन वापस नहीं आएंगे।
बिना किसी अतिरिक्त क्षमता के मिडरेंज SSD (s) स्मार्ट कार्ड अलर्ट उत्पन्न कर सकता है या शायद एक असफल ब्लॉक का पता चलने पर ओएस स्तर ब्लॉक डिवाइस त्रुटियों को उत्पन्न करता है। हालाँकि, जब विफलता होती है, तो SSD का पंजीकृत आकार बदल जाएगा। यह एक त्रुटि के कारण हो सकता है और डिवाइस को ओएस द्वारा ऑफ़लाइन लिया जा सकता है या इसके परिणामस्वरूप डिवाइस खुद ही लटका सकता है और इसे बाहर निकालने की आवश्यकता होती है और इसे फिर से पहचाने जाने के लिए फिर से डाला जाता है। फिर से पंजीकरण करने पर, डिवाइस का उपलब्ध ब्लॉक आकार कम हो जाएगा।
उच्च क्षमता के साथ उच्च अंत SSD (s) पर्दे के पीछे खराब ब्लॉकों को हटा देगा और OS स्तर अलर्ट / चेतावनी उत्पन्न कर सकता है। जब अतिरिक्त क्षमता समाप्त हो जाती है, तो डिवाइस संभवतः मिड्रेंज एसएसडी (एस) की तर्ज पर विफल हो जाएगा।

जब SSD खराब ब्लॉकों को अलग-थलग होने के कारण खुद को आकार देता है, तो आपको ड्राइव को पुनर्जीवित करने के लिए निम्न करने की आवश्यकता हो सकती है, अगर ड्राइव का फर्मवेयर स्वचालित रूप से उचित अपडेट स्वचालित रूप से नहीं करता है:

http://communities.intel.com/message/145676

जब तक तनाव परीक्षण और त्रुटि लॉगिंग टूल विशेष रूप से एसएसडी (एस) के साथ डिज़ाइन नहीं किया जाता है, तब तक, आप डिवाइस के जीवन काल का उपयोग कर रहे हैं।

संपादित करें:

ऊपर दिए गए उत्तरों की जानकारी के आधार पर, सुझाव दें कि या तो केबल को एक बेहतर एक के साथ बदलें या ड्राइव (RMA / Warrantee प्रतिस्थापन) की जगह लें, क्योंकि उस तरह का OS फाइल सिस्टम स्तर त्रुटि सामान्य नहीं है।

इसके अलावा, यदि आपकी ड्राइव इसका समर्थन करती है, तो आप त्रुटियों को संभालने के लिए आरक्षित स्थान की मात्रा बढ़ा सकते हैं:

http://www.thomas-krenn.com/en/wiki/SSD_Over-provisioning_using_hdparm

— विंग तांग वोंग
स्रोत

यह एक प्रदर्शन बेंचमार्क है। यह ड्राइव को एक कसरत दे सकता है, लेकिन मुझे नहीं लगता कि यह त्रुटियों का पता लगाता है।

— Psusi

SSD के कार्य, त्रुटि का पता लगाने का तरीका कई रूपों में से एक में आता है, जो SSD के मेक / मॉडल के आधार पर होता है: Smartd त्रुटि अगर किसी ब्लॉक को हटा दिया जाता है और अतिरिक्त क्षमता का उपयोग किया जाता है (कोई दोष नहीं), डिवाइस की क्षमता फ्लैश स्टोरेज के एक सेक्शन के रूप में कम होने से फॉल्ट हो जाता है (स्मार्टड एरर्स का कारण बन सकता है, फाइल सिस्टम एरर का कारण बन सकता है, डिवाइस को ऑफलाइन जाकर बस को हैंग करने का कारण बन सकता है। पुल / री-इंसर्ट पर, ड्राइव फिर से एवियेलबल है, लेकिन रिफॉर्म करने की आवश्यकता हो सकती है। ), और SSD केवल बिना किसी रीमैपिंग के साथ हैंग होने के लिए प्रकट हो सकते हैं (डिवाइस फिर से डालने के बाद भी अनुत्तरदायी हो जाता है)। विफलता का रास्ता HD के बराबर नहीं है

— विंग तांग वोंग

1

ड्राइव द्वारा त्रुटियों का पता नहीं लगाया जाता है, इसलिए परीक्षण उपकरण की आवश्यकता है। यह फाइल सिस्टम द्वारा अपने आप को प्रकट करता है, जिसे रिमेड किया जा रहा है, और मेटाडाटा में बहुत सारी त्रुटियां खोजने और ठीक करने के लिए e2fsck है। इसके अलावा मेरे पास कुछ git रिपॉजिटरी पैक फ़ाइलें दूषित हैं। यह एक मूक भ्रष्टाचार है जो शायद हर महीने या दो बार होता है। पहले तो मैंने सोचा कि यह बग को टीआरआईएम से जोड़ने वाला एक बग हो सकता है क्योंकि मैं इसे सक्षम करने से पहले इसे याद नहीं करता, इसलिए मैंने इसे वापस बंद कर दिया और यह अभी भी हो रहा है।

— Psusi

कुछ संभावित मुद्दों: खराब ड्राइव केबल या खराब ड्राइव। आप एक दूसरे के साथ केबल को बदलकर खराब ड्राइव केबल का परीक्षण कर सकते हैं। मैं अतीत में यह किया है और एक बेहतर कल्पना केबल के साथ काम कर रहा था। खराब ड्राइव के मामले में, आरएमए या वारंटी की मरम्मत के लिए भेजते हैं।

— विंग तांग वोंग

1

समस्या यह साबित कर रही है कि यह एक खराब ड्राइव है (या वास्तव में, फर्मवेयर में बग) और यह नहीं कहेंगे, कर्नेल में एक बग। यदि यह एक खराब केबल था, तो यह यादृच्छिक मौन भ्रष्टाचार के बजाय sata ecc त्रुटियों के रूप में प्रकट होगा।

— Psusi

3

मैं समझता हूं कि यह एक वर्ष से अधिक पुराना है, लेकिन भविष्य में धागा पढ़ने वाले किसी भी व्यक्ति के लाभ के लिए, मुझे उम्मीद है कि आपके लिए आवश्यक सॉफ़्टवेयर (डी) अभी भी एचपी लैब्स के बाहर मौजूद नहीं है:

"पॉवर फॉल्ट के तहत SSDs के रोबस्टनेस को समझना" https://www.usenix.org/system/files/conference/fast13/fast13-final80.pdf

पावर फॉल्ट इंजेक्शन को पसंद की घटना (या कुछ भी नहीं, आंतरायिक फर्मवेयर बग्स का पता लगाने के मामले में) के साथ प्रतिस्थापित करना, और ऐसा प्रतीत होता है कि यह सॉफ़्टवेयर इसका पता लगाएगा। दुर्भाग्य से, मुझे नहीं लगता कि कोई विकल्प है, अन्यथा संभवतः एचपी ने घर में कुछ नहीं लिखा होगा।

यह शर्म की बात है, क्योंकि आभासी वातावरण में मुद्दों को साबित करने के लिए मुझे भी कुछ इस तरह की आवश्यकता है; जहां मुझे संदेह है कि लेखन ने वास्तव में भौतिक डिस्क के लिए अपना रास्ता नहीं बनाया है। यह इस तरह से भंडारण स्टैक का परीक्षण करने में सक्षम होने के लिए बहुत अच्छा होगा, न केवल जरूरी एसएसडी। मुझे अभी तक कुछ उपयुक्त नहीं मिला है।

— क्रिस मरे
स्रोत

2

(अनाम टिप्पणी से) जबकि चीजों के हार्डवेयर पक्ष को दोहराने की आवश्यकता होगी, मुझे कोई कारण नहीं दिखता है कि ट्रिगर के साथ क्लाइंट / सर्वर मोड में fio का उपयोग करके उस पेपर के सॉफ़्टवेयर सत्यापन भाग को पुन: प्रस्तुत नहीं किया जा सकता है। जानकारी के लिए github.com/axboe/fio/blob/master/HOWTO (10.0 सत्यापन और ट्रिगर) देखें। Fio को विभिन्न प्रकार के उपयोगी पैटर्नों में असंबद्ध या समय-समय पर I / O को सिंक्रनाइज़ करने के लिए बनाया जा सकता है जिसे बाद में सत्यापित किया जा सकता है (यह एक राज्य फ़ाइल को बचाने के लिए भी संभव है ताकि विभिन्न फ़िओ इनवोकेशन के बाद सत्यापन हो सके)।

— आर्केमोर

1

निर्माता परीक्षण उपकरण का उपयोग करें, एचडी का परीक्षण करने के लिए इसका सबसे अच्छा तरीका है, क्योंकि यह निम्न स्तर के परीक्षणों तक पहुंच सकता है, खराब क्षेत्रों को हटा सकता है, सभी स्मार्ट स्वास्थ्य स्थिति का परीक्षण कर सकता है (विशेष रूप से एक एसएसडी के लिए, हम में से अधिकांश के लिए अज्ञात कई रजिस्टर हैं। लेकिन हार्ड डिस्क की स्थिति देखने के लिए निर्माता की मदद कर सकते हैं)

hirensCD में कई परीक्षण उपकरण हैं, लेकिन मुझे लगता है कि यह SSD सक्षम लोगों के लिए अपडेट नहीं किया गया था, इसलिए सीधे निर्माता वेबसाइट देखें। कुछ लोग लिनक्स का समर्थन करते हैं, दूसरों को एक विंडोज लाइवसीडी (फिर से हिरण्डक की जांच करें) या एक पेनड्राइव (फ्रीडोस, विशेष ओएस, आदि) से बूट करने की आवश्यकता हो सकती है।

एसएसडी के परीक्षण के लिए अधिकांश पुराने एचडी उपकरण अच्छे नहीं हैं, क्योंकि एक ही जगह पर एक सेक्टर कभी नहीं होता है, फर्मवेयर द्वारा ड्राइव पर सभी राइट्स को फैलाने के लिए गतिशील रूप से मैप किया जाता है। इसलिए यदि वे परीक्षण लिखते हैं, तो आप डिस्क का सही परीक्षण करने के बजाय सिर्फ राइट साइकिल जला रहे हैं।

पढ़ें परीक्षण एसएसडी को जला नहीं रहे हैं, लेकिन फर्मवेयर को वास्तविक लेआउट को छिपाने के कारण फिर से सभी एसएसडी क्षेत्रों का वास्तव में परीक्षण नहीं कर सकते हैं।

— higuita
स्रोत