इस स्मार्टक्टेल (स्मार्टमोन) डेटा की व्याख्या कैसे करें


20

हमारे पास एक लिनक्स सर्वर है जो 3 वर्षों से भारी उपयोग में है। हम इस पर कई वर्चुअलाइज्ड सर्वर चला रहे हैं, कुछ जिनका व्यवहार ठीक नहीं रहा है, और एक महत्वपूर्ण समय के लिए सर्वर की io क्षमता खराब आईवॉइट की ओर बढ़ गई थी। यह एक 4com RAID नियंत्रक से जुड़े 4 500gb Barracuda sata ड्राइव है। 1 ड्राइव में ओएस है, और अन्य 3 सेटअप RAID -5 हैं।

अब हम ड्राइव की स्थिति और क्या वे सक्रिय रूप से विफल हो रहे हैं, के रूप में एक बहस है।

यहाँ 4 डिस्क में से 1 के लिए आउटपुट का एक हिस्सा है। उन सभी में अपेक्षाकृत समान आँकड़े हैं:

स्मार्ट डेटा संरचना संशोधन संख्या: 10
थ्रेसहोल्ड के साथ विशिष्ट विशिष्ट स्मार्ट विशेषताएँ:
ID # ATTRIBUTE_NAME फ्लैग वैल्यू काम करता है, इस तरह से अपडेट की गई WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 118 099 006 पूर्व-हमेशा असफल - 169074425
  3 स्पिन_यूपी_टाइम ० एक्स ०००३ ० ९ ५ ९ ०२ ००० पूर्व-विफल हमेशा - ०
  4 Start_Stop_Count 0x0032 100 100 020 Old_age हमेशा - 26
  5 Reallocated_Sector_Ct 0x0033 100 100 036 पूर्व-विफल हमेशा - 0
  7 Seek_Error_Rate 0x000f 077 060 030 प्री-फेल हमेशा - 200009354607
  9 पावर_ऑन_हॉर्स 0x0032 069 069 000 ओल्ड_एज हमेशा - 27856
 10 स्पिन_रेट्री_काउंट 0x0013 100 100 097 प्री-फेल हमेशा - 1
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age हमेशा - 26
184 अज्ञात_अभियुक्त 0x0032 100 100 099 पुराना_आज हमेशा - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age हमेशा - 0
188 अज्ञात_अभियोजन 0x0032 100 100 000 Old_age हमेशा - 1
189 High_Fly_Writes 0x003a 100 100 000 Old_age हमेशा - 0
190 एयरफ्लो_स्टैंस_सेल 0x0022 071 060 045 ओल्ड_जेज ऑलवेज - 29 (लाइफटाइम मिन / मैक्स 26-37)
194 तापमान_ सेल्सियस 0x0022 029 040 000 पुराना_ हमेशा - 29 (0 21 0 0)
195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age हमेशा - 169074425
197 करंट_पेंडिंग_सेक्टर 0x0012 100 100 000 ओल्ड_एज हमेशा - 0
198 ऑफ़लाइन_उपयोगात्मक 0x0010 100 100 000 Old_age ऑफ़लाइन - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age हमेशा - 0

स्मार्ट त्रुटि लॉग संस्करण: 1
कोई त्रुटि लॉग नहीं किया गया

इसकी मेरी व्याख्या यह है कि हमारे पास कोई भी खराब क्षेत्र या अन्य संकेत नहीं हैं कि कोई भी ड्राइव सक्रिय रूप से विफल हो रही है।

हालाँकि, उच्च Raw_Read_Error_Rate और Seek_Error_Rate को संकेत के रूप में इंगित किया जा रहा है कि ड्राइव मर रहे हैं।


1
यहाँ एक अच्छा वर्णन है (बहुत लंबे समय तक, कृपया लिंक का अनुसरण करें): lime-technology.com/wiki/Understanding_SMART_Reports यदि लिंक नीचे जाता है, तो कुछ महत्वपूर्ण उद्धरण: "यह त्रुटियों की वर्तमान दर का संकेतक है। निम्न स्तर का भौतिक क्षेत्र संचालन पढ़ता है। सामान्य ऑपरेशन में, बहुत कम संख्या में त्रुटियां होती हैं [...] ड्राइव के साथ कोई समस्या नहीं है। " और "कृपया RAW_VALUE नंबर को पूरी तरह से अनदेखा करें! केवल सीगेट्स कच्चे मान की रिपोर्ट करते हैं, जो हाँ, कच्चे रीड त्रुटियों की संख्या प्रतीत होती है, लेकिन इसे पूरी तरह से अनदेखा किया जाना चाहिए।"
कोनराड गजवेस्की

जवाबों:


7

मेरे अनुभव में, सीगेट्स के पास उन दो स्मार्ट विशेषताओं के लिए अजीब संख्याएं हैं। सीगेट का निदान करते समय मैं उन लोगों की उपेक्षा करता हूं और अन्य क्षेत्रों जैसे रियलकॉलेटेड सेक्टर काउंट पर अधिक बारीकी से देखता हूं। बेशक, जब संदेह ड्राइव को प्रतिस्थापित करता है, लेकिन यहां तक ​​कि नए सीगेट्स में उन विशेषताओं के लिए उच्च संख्या होगी।


58

सीगेट डिस्क के लिए (और संभवतः WD से कुछ पुराने भी) Seek_Error_Rate और Raw_Read_Error_Rate 48 बिट संख्याएं हैं, जहां सबसे महत्वपूर्ण 16 बिट्स एक त्रुटि गणना है, और कम 32 बिट्स कई ऑपरेशन हैं।

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

तो आपकी डिस्क ने 2440858991 व्यूज़ का प्रदर्शन किया है, जिनमें से 46 विफल रहे। सीगेट ड्राइव के साथ मेरा अनुभव यह है कि त्रुटियों की संख्या 1000 से अधिक होने पर वे विफल हो जाते हैं। YMMV।


7
इसके लिए, मेरी इच्छा है कि मेरे पास वह जानकारी वापस आ जाए जब मैंने मूल रूप से प्रश्न प्रस्तुत किया था।
gview

1
यह, बहुत उपयोगी है। घबराहट से मुझे बचाया।
हलसफार

क्या कोई यह पुष्टि करने के लिए कोई लिंक प्रदान कर सकता है कि वे इस पृथक्करण के साथ 48 बिट संख्या हैं? मैं इस संख्या की पुष्टि करना चाहता हूं
iuridiniz

9

"सीक एरर रेट" और "रॉ रीड एरर रेट" RAW_VALUES वस्तुतः किसी के लिए भी अर्थहीन हैं लेकिन सीगेट का समर्थन है। जैसा कि दूसरों ने बताया, "वास्तविक क्षेत्र की गणना" या ड्राइव के त्रुटि लॉग में प्रविष्टियों जैसे कच्चे मान विफलता के उच्च संभावना को इंगित करने की अधिक संभावना है।

लेकिन आप VALUE, WORST और THRESH कॉलम में व्याख्या किए गए डेटा पर एक नज़र डाल सकते हैं, जिन्हें गेज के रूप में पढ़ा जाना है:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

इसका अर्थ है कि वर्तमान में आपकी खोज त्रुटि दर "77% अच्छी" मानी जाती है और इसे "30% अच्छा" तक पहुंचने पर SMART द्वारा एक समस्या के रूप में रिपोर्ट किया जाता है। यह एक बार "60% अच्छा" के रूप में कम था, लेकिन तब से जादुई रूप से पुनर्प्राप्त किया गया है। ध्यान दें कि व्याख्या किए गए मानों की गणना ड्राइव के SMART लॉजिक द्वारा आंतरिक रूप से की जाती है और निर्माता द्वारा सटीक गणना की जा सकती है या प्रकाशित नहीं की जा सकती है और आमतौर पर उपयोगकर्ता द्वारा इसे ट्वीक नहीं किया जा सकता है।

व्यक्तिगत रूप से, मैं त्रुटि लॉग प्रविष्टियों वाली ड्राइव को "विफल" मानता हूं और जैसे ही वे होते हैं, प्रतिस्थापन के लिए आग्रह करता हूं। लेकिन सभी में, स्मार्ट डेटा विफलता की भविष्यवाणी के लिए एक कमजोर संकेतक के रूप में निकला है, Google द्वारा प्रकाशित शोध पत्र के रूप में ।


4

मुझे एहसास हुआ कि यह चर्चा थोड़ी पुरानी है लेकिन मैं अपने 2 सेंट जोड़ना चाहता हूं। मैंने स्मार्ट जानकारी को प्री-फेल का एक अच्छा संकेतक माना है। जब आप एक स्मार्ट थ्रेशोल्ड फंस जाते हैं तो ड्राइव को बदल दें। यही उन सीमाओं के लिए है।

अधिकांश समय आप बुरे क्षेत्रों को देखना शुरू करेंगे। यह एक निश्चित संकेत है कि ड्राइव विफल होने लगी है। स्मार्ट ने मुझे कई बार बचाया है। मैं सॉफ़्टवेयर RAID 1 का उपयोग करता हूं और यह बहुत उपयोगी है क्योंकि आप बस असफल ड्राइव को प्रतिस्थापित करते हैं और सरणी का पुनर्निर्माण करते हैं।

मैं साप्ताहिक रूप से लघु और दीर्घ आत्म परीक्षण भी चलाता हूं।

smartctl -t short /dev/sda
smartctl -t long /dev/sda 

या इसे जोड़ें /etc/smartd.conf और त्रुटि होने पर आपको ईमेल करने के लिए इसे प्राप्त करें

/dev/sda -s L/../../3/22 -I 194 -m someemail@somedomain
/dev/sdb -s L/../../7/22 -I 194 -m someemail@somedomain

एक ईमेल पते पर लॉगवॉच और रीडायरेक्ट रूट को स्थापित करना सुनिश्चित करें और लॉगवॉच से दैनिक ईमेल की जांच करें। SMARTD फंसे हुए झंडे वहां दिखाई देंगे लेकिन कोई मदद नहीं करता है अगर कोई भी नियमित रूप से निगरानी नहीं कर रहा है।


1

हां, वे फ़ील्ड खराब दिखते हैं, लेकिन मुझे स्मार्ट (मेरी परीक्षण मशीन द्वारा बताई गई जानकारी पर भरोसा नहीं है) उच्च आयोवाइट और ड्राइव 3 साल पुराने हैं। आपके लिए ड्राइव बदलने के लिए यह पर्याप्त होना चाहिए।


1
विभिन्न कारणों से हमें हार्डवेयर में अपने निवेश को अधिकतम करने की आवश्यकता है। Iowait को हास्यास्पद भार के साथ करना था, साथ ही साथ बॉक्स को स्थापित करते समय हमने कुछ कॉन्फ़िगरेशन गलतियां कीं।
22

0

इस पोस्ट पर नेक्रोमेंसी करने के लिए क्षमा करें, लेकिन मेरे अनुभव में, सीगेट ड्राइव के लिए "रॉ रीड एरर रेट" और "हार्डवेयर ईसीसी पुनर्प्राप्त" फ़ील्ड का शाब्दिक रूप से सभी जगह पर जाना होगा और खरबों में लगातार वृद्धि होगी, जिस बिंदु पर वे '' प्रक्रिया को फिर से जारी रखने के लिए शून्य पर वापस चक्र करेंगे। मैंने एक सीगेट ST9750420AS किया है जो पहले दिन से ही उस समस्या का सामना कर रहा है और अभी भी काफी सालों और 3500+ घंटों के उपयोग के बाद भी बढ़िया काम करता है।

मुझे लगता है कि यदि आप अपने मामले में एक चल रहे हैं तो उन क्षेत्रों को सुरक्षित रूप से अनदेखा किया जा सकता है। बस सुनिश्चित करें कि दो फ़ील्ड समान संख्या और लगातार सिंक में रिपोर्ट कर रहे हैं। अगर वे नहीं हैं ... अच्छी तरह से ... यह वास्तव में एक समस्या हो सकती है।


0

इस उत्तर की गणना को स्वचालित करने के लिए, ऑनलाइन जावास्क्रिप्ट कैलकुलेटर का उपयोग करें:

https://yksi.ml/

यह आपको बताएगा:

  • संचालन की कुल संख्या
  • विफल संचालन की संख्या

कैलकुलेटर सीगेट के लिए मान्य है:

  • सीक एरर रेट
  • कच्चा पठित त्रुटि दर
  • हार्डवेयर ईसीसी पुनर्प्राप्त

सामान्यीकृत (0 और 100 मूल्यों के बीच) की गणना पर आगे पढ़ने के लिए, इस लेख को देखें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.