ZFS चेकसम त्रुटियाँ, मैं ड्राइव को कब बदलूँ?


9

मैं ZFS के लिए काफी नया हूं और मेरे पास 8 ड्राइव के साथ एक साधारण मिरर स्टोरेज पूल सेटअप है। कुछ हफ़्ते चलने के बाद, एक ड्राइव में बहुत सारी त्रुटियां उत्पन्न हुईं, इसलिए मैंने इसे बदल दिया।

कुछ और सप्ताह गुजरते हैं और अब मैं पूल के चारों ओर छोटी-छोटी त्रुटियों को देख रहा हूं ( zpool statusनीचे आउटपुट देखें)। क्या मुझे इस बारे में चिंतित होना चाहिए? मैं यह कैसे निर्धारित कर सकता हूं कि त्रुटि इंगित करती है कि ड्राइव को प्रतिस्थापित करने की आवश्यकता है?

# zpool status
  pool: storage
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 22.5K in 1h18m with 0 errors on Sun Jul 10 03:18:42 2016
config:

        NAME        STATE     READ WRITE CKSUM
        storage     ONLINE       0     0     0
          mirror-0  ONLINE       0     0     0
            enc-a   ONLINE       0     0     2
            enc-b   ONLINE       0     0     0
          mirror-1  ONLINE       0     0     0
            enc-c   ONLINE       0     0     0
            enc-d   ONLINE       0     0     2
          mirror-2  ONLINE       0     0     0
            enc-e   ONLINE       0     0     2
            enc-f   ONLINE       0     0     1
          mirror-3  ONLINE       0     0     0
            enc-g   ONLINE       0     0     0
            enc-h   ONLINE       0     0     3

errors: No known data errors

ZFS मुझे मदद करने के लिए कहता है "निर्धारित करें कि क्या डिवाइस को बदलने की आवश्यकता है ..." लेकिन मुझे यकीन नहीं है कि यह कैसे करना है। मैंने संदर्भित लेख पढ़ा जो सहायक था लेकिन बिल्कुल निर्णायक नहीं था।

मैंने प्रभावशाली ड्राइव के लिए स्मार्ट परीक्षण परिणामों को देखा है, और मुझ पर कुछ भी नहीं निकला (सभी परीक्षण त्रुटियों के बिना पूरा हो गए थे), लेकिन मैं स्मार्ट डेटा पोस्ट कर सकता हूं यदि यह उपयोगी होगा।

अपडेट: मेमेस्टोरी + में रिबूट करने की तैयारी करते समय, मैंने कंसोल पर बहुत सारी त्रुटियों को देखा। मैं सामान्य रूप से SSH में हूं, इसलिए मैंने उन्हें पहले नहीं देखा। मुझे यकीन नहीं है कि मुझे कौन सा लॉग चेक करना चाहिए था, लेकिन पूरी स्क्रीन त्रुटियों से भरी हुई थी जो इस तरह दिखती है (मेरी सटीक त्रुटि रेखा नहीं है, मैंने इसे एक अलग मंच से कॉपी किया है):

blk_update_request: I/0 error, dev sda, sector 220473440

कुछ Googling से, ऐसा लगता है कि यह त्रुटि खराब ड्राइव का संकेत हो सकती है, लेकिन मेरे लिए यह विश्वास करना कठिन है कि वे इस तरह से एक बार में सभी विफल हो रहे हैं। विचार यहाँ से कहाँ जाना है?

अद्यतन 2: मैं इस ZOL मुद्दे पर आया था जो ऐसा लगता है कि यह मेरी समस्या से संबंधित हो सकता है। ओपी की तरह मैं अपने ड्राइव को स्पिन-डाउन करने के लिए hdparm का उपयोग कर रहा हूं और मैं इसी तरह की ZFS चेकसम त्रुटियों और blk_update_requestत्रुटियों को देख रहा हूं । मेरी मशीन अभी भी मेमेस्टेस्ट चल रही है, इसलिए मैं फिलहाल अपने कर्नेल या ZFS संस्करण की जांच नहीं कर सकता, लेकिन यह कम से कम एक संभावना की तरह दिखता है। मैंने भी इसी तरह का प्रश्न देखा जो हतोत्साहित करने वाला है। क्या किसी को ZFS के साथ मुद्दों का पता है और ड्राइव को स्पिन करना है?

अपडेट 3: क्या LSI कंट्रोलर पर एक बेमेल फर्मवेयर और ड्राइवर संस्करण इस तरह त्रुटियों का कारण बन सकता है? ऐसा लगता है कि मैं 20.100.00.00 का ड्राइवर संस्करण और 17.00.01.00 का फर्मवेयर संस्करण चला रहा हूं। कार्ड पर अपडेट किए गए फर्मवेयर को फ्लैश करने की कोशिश करने के दौरान क्या यह लायक होगा?

# modinfo mpt2sas
filename:       /lib/modules/3.10.0-327.22.2.el7.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko
version:        20.100.00.00
license:        GPL
description:    LSI MPT Fusion SAS 2.0 Device Driver
author:         Avago Technologies <MPT-FusionLinux.pdl@avagotech.com>
rhelversion:    7.2
srcversion:     FED1C003B865449804E59F5

# sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 20.00.00.00 (2014.09.18) 
Copyright (c) 2008-2014 LSI Corporation. All rights reserved 

    Adapter Selected is a LSI SAS: SAS2308_2(D1) 

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

0  SAS2308_2(D1)   17.00.01.00    11.00.00.05    07.33.00.00     00:04:00:00

अद्यतन 4:dmesg आउटपुट में कुछ और त्रुटियों को पकड़ा । मुझे यकीन नहीं है कि इनसे क्या ट्रिगर हुआ, लेकिन मैंने LSI कंट्रोलर के फर्मवेयर को अपडेट करने की तैयारी में सरणी के सभी ड्राइव को अनमाउंट करने के बाद उन्हें देखा। मैं यह देखने के लिए थोड़ा इंतजार करूंगा कि क्या फर्मवेयर अपडेट से समस्या हल हो गई है, लेकिन इस बीच त्रुटियां हैं। मुझे वास्तव में यकीन नहीं है कि उनका क्या मतलब है।

[87181.144130] sd 0:0:2:0: [sdc] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144142] sd 0:0:2:0: [sdc] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144148] blk_update_request: I/O error, dev sdc, sector 889461969
[87181.144255] sd 0:0:3:0: [sdd] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144259] sd 0:0:3:0: [sdd] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144263] blk_update_request: I/O error, dev sdd, sector 889461969
[87181.144371] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144375] sd 0:0:4:0: [sde] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144379] blk_update_request: I/O error, dev sde, sector 922978096
[87181.144493] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144500] sd 0:0:5:0: [sdf] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144505] blk_update_request: I/O error, dev sdf, sector 922978096
[87191.960052] sd 0:0:6:0: [sdg] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960063] sd 0:0:6:0: [sdg] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960068] blk_update_request: I/O error, dev sdg, sector 906238044
[87191.960158] sd 0:0:7:0: [sdh] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960162] sd 0:0:7:0: [sdh] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960179] blk_update_request: I/O error, dev sdh, sector 906238044
[87195.864565] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87195.864578] sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 37 03 7c 68 00 00 20 00
[87195.864584] blk_update_request: I/O error, dev sda, sector 922975336
[87198.770065] sd 0:0:1:0: [sdb] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87198.770078] sd 0:0:1:0: [sdb] CDB: Write(10) 2a 00 37 03 7c 88 00 00 20 00
[87198.770084] blk_update_request: I/O error, dev sdb, sector 922975368

अद्यतन 5: मैंने LSI नियंत्रक के लिए फर्मवेयर को अपडेट किया, लेकिन ZFS त्रुटियों को साफ़ करने और स्क्रब करने के बाद, मैं उसी व्यवहार (कुछ ड्राइव पर मामूली चेकसम त्रुटियों) को देख रहा हूं। अगला कदम खुद ड्राइव पर फर्मवेयर को अपडेट करना होगा।

अद्यतन 6: मैंने पीसीआई रिसर को कुछ मंचों में पढ़ने के बाद बदल दिया है कि यू-एनएएस एनएससी 800 मामले वाले अन्य लोगों के पास प्रदान किए गए रिसर के साथ समस्याएं हैं। चेकसम त्रुटियों पर कोई प्रभाव नहीं पड़ा। मैं एचडीडी फर्मवेयर अपडेट को बंद कर रहा हूं क्योंकि प्रक्रिया एक ऐसा दर्द है, लेकिन मुझे लगता है कि इसे चूसने और बूट करने योग्य डॉस फ्लैश ड्राइव बनाने का समय है।

अद्यतन 7: मैंने सीगेट ड्राइव के तीन पर फर्मवेयर अपडेट किया। अन्य ड्राइव्स में या तो फर्मवेयर अपडेट उपलब्ध नहीं था या मैं इसे प्राप्त करने में सक्षम नहीं था (वेस्टर्न डिजिटल ने मुझे बताया कि मेरे ड्राइव के लिए कोई फर्मवेयर अपडेट नहीं था)। प्रारंभिक स्‍क्रब के बाद कोई त्रुटि नहीं हुई, लेकिन मैं कहता हूं कि कम से कम एक या दो सप्ताह पहले मैं इसे हल कर दूंगा। यह मेरे लिए बहुत संभावना नहीं है कि तीन ड्राइव में फर्मवेयर इस तरह से पूरे पूल को प्रभावित कर सकता है।

अद्यतन 8: चेकसम त्रुटियाँ पहले की तरह ही वापस आ गई हैं। मैं मदरबोर्ड के लिए एक फर्मवेयर अपडेट में देख सकता हूं, लेकिन इस बिंदु पर मैं नुकसान में हूं। शेष भौतिक घटकों (नियंत्रक, बैकप्लेन, केबलिंग) को बदलना मुश्किल / महंगा होगा, और मुझे सिर्फ 100% यकीन नहीं है कि यह मेरे सेटअप (ZFS + Linux + LUKS + नीचे बेकार ड्राइव को स्पिन करना) के साथ समस्या नहीं है। किसी भी अन्य विचारों का स्वागत है।

अपडेट 9: फिर भी इसे नीचे ट्रैक करने की कोशिश की जा रही है। मुझे इस सवाल का सामना करना पड़ा जिसमें मेरी स्थिति में कुछ समानताएं थीं। इसलिए, मैंने आगे बढ़कर ज़ूलप को फिर से बनाया, ashift=12यह देखने के लिए कि क्या समस्या का समाधान होगा (कोई भाग्य नहीं)। फिर, मैंने बुलेट को थोड़ा सा हिलाया और एक नया नियंत्रक खरीदा। मैंने अभी एक सुपरमाइक्रो AOC-SAS2LP-MV8 HBA कार्ड स्थापित किया है । मैं यह देखने के लिए एक या दो सप्ताह दूंगा कि क्या यह समस्या हल करती है।

अद्यतन 10: बस इसे बंद करने के लिए। नए HBA कार्ड के अंदर जाने के बाद लगभग 2 सप्ताह हो गए हैं, इसे चिन्हित करने के जोखिम में, मेरे पास कोई चेकसम त्रुटि नहीं है। हर किसी के लिए एक बड़ा धन्यवाद, जिसने मुझे इस एक को सुलझाने में मदद की।


2
क्या आप हमें हार्डवेयर के बारे में अधिक बता सकते हैं? एक से अधिक ड्राइव पर उन त्रुटियों के होने से एक बैकप्लेन / कंट्रोलर / केबल समस्या को डिस्क इश्यू से अधिक इंगित करता है।
ewwhite

मैंने ऐसा नहीं सोचा था। ड्राइव U-NAS NSC-800 चेसिस में हैं जो SATA / SAS बैकप्लेन में निर्मित हैं। यह एक LSI SAS 9207-8i HBA के लिए 2 मिनी-एसएएस कनेक्टर के माध्यम से जुड़ा हुआ है । यह एक PCI रिसर के माध्यम से जुड़ा हुआ है जो चेसिस के साथ सुपरमाइक्रो MBD-X10SDV-4C पर आया था
डोमिनिक पी।

1
क्या आपकी रैम ठीक है? जब मेमोरी मॉड्यूल खराब था, तब भी मेरी ऐसी ही त्रुटियां थीं - कोई डिस्क त्रुटियां नहीं थीं, लेकिन सभी ड्राइव पर चेकसम त्रुटियों की कुछ (कम) राशि थी।
user121391

1
यह सबसे अधिक संभावना है कि नियंत्रक इस बिंदु पर स्पष्ट रूप से स्पष्ट है। वास्तव में यह कुछ समय पहले "अद्यतन 4" के साथ स्पष्ट रूप से स्पष्ट था।
माइकल हैम्पटन

1
आपका स्वागत है @ hak8or इस साइट पर लोगों ने मेरी बहुत मदद की है, इसलिए मेरा उदाहरण सुनकर अच्छा लगा कि कोई और मदद कर सकता है।
डोमिनिक पी

जवाबों:


6

कई ड्राइव में उन त्रुटियों के होने से एक डिस्क या रैम समस्या से अधिक बैकप्लेन / कंट्रोलर / केबलिंग समस्या का संकेत मिलता है।


सहायता के लिए धन्यवाद। मैं फिलहाल उन सभी घटकों की अदला-बदली करने में सक्षम नहीं हूं। क्या आपके पास कोई सुझाव है कि मैं इसे कैसे संकीर्ण कर सकता हूं या क्या सबसे अधिक संभावना वाला अपराधी हो सकता है?
डोमिनिक पी।

सभी प्रभावित घटकों के फर्मवेयर अपडेट का प्रयास करें। क्या ये SATA डिस्क हैं?
ewwhite

धन्यवाद बोलूंगा। मैं नियंत्रक पर फर्मवेयर अपडेट के साथ शुरू करूंगा क्योंकि मैंने कहीं और देखा है कि फर्मवेयर और ड्राइवर संस्करणों का मिलान होना चाहिए (मेरे प्रश्न पर अपडेट 3 देखें)। हां, वे सभी 1TB SATA डिस्क हैं, और मुझे याद है कि smartctlकहा था कि कुछ सीगेट डिस्क जो मैं उपयोग कर रहा हूं, उनके लिए एक फर्मवेयर अपडेट उपलब्ध था, इसलिए मैं उन्हें भी अपडेट करूंगा।
डोमिनिक पी

7

मेरे अंगूठे का सामान्य नियम यह है कि यदि त्रुटियों में अप्रत्याशित रूप से वृद्धि जारी है, तो डिस्क को प्रतिस्थापित करना होगा; यदि यह स्थिर है, तो कुछ क्षणिक स्थिति हो सकती है जो त्रुटि का कारण बनती है, और सिस्टम उन परिस्थितियों को पुन: प्रस्तुत नहीं करता है जो समस्याएं पैदा करते हैं।

कुछ चेकसम त्रुटियां आवश्यक रूप से ड्राइव के साथ यांत्रिक रूप से कुछ भी खराब नहीं दर्शाती हैं (बिट रोट होता है, जेडएफएस केवल इसका पता लगाने के लिए होता है जबकि अन्य फाइल सिस्टम नहीं हैं), लेकिन अगर वे त्रुटियां एक घंटे के दौरान हुई हैं, तो यह एक है अगर वे एक वर्ष के दौरान हुआ है, तो बहुत अलग स्थिति है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.