मैं ZFS के लिए काफी नया हूं और मेरे पास 8 ड्राइव के साथ एक साधारण मिरर स्टोरेज पूल सेटअप है। कुछ हफ़्ते चलने के बाद, एक ड्राइव में बहुत सारी त्रुटियां उत्पन्न हुईं, इसलिए मैंने इसे बदल दिया।
कुछ और सप्ताह गुजरते हैं और अब मैं पूल के चारों ओर छोटी-छोटी त्रुटियों को देख रहा हूं ( zpool status
नीचे आउटपुट देखें)। क्या मुझे इस बारे में चिंतित होना चाहिए? मैं यह कैसे निर्धारित कर सकता हूं कि त्रुटि इंगित करती है कि ड्राइव को प्रतिस्थापित करने की आवश्यकता है?
# zpool status
pool: storage
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: scrub repaired 22.5K in 1h18m with 0 errors on Sun Jul 10 03:18:42 2016
config:
NAME STATE READ WRITE CKSUM
storage ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
enc-a ONLINE 0 0 2
enc-b ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
enc-c ONLINE 0 0 0
enc-d ONLINE 0 0 2
mirror-2 ONLINE 0 0 0
enc-e ONLINE 0 0 2
enc-f ONLINE 0 0 1
mirror-3 ONLINE 0 0 0
enc-g ONLINE 0 0 0
enc-h ONLINE 0 0 3
errors: No known data errors
ZFS मुझे मदद करने के लिए कहता है "निर्धारित करें कि क्या डिवाइस को बदलने की आवश्यकता है ..." लेकिन मुझे यकीन नहीं है कि यह कैसे करना है। मैंने संदर्भित लेख पढ़ा जो सहायक था लेकिन बिल्कुल निर्णायक नहीं था।
मैंने प्रभावशाली ड्राइव के लिए स्मार्ट परीक्षण परिणामों को देखा है, और मुझ पर कुछ भी नहीं निकला (सभी परीक्षण त्रुटियों के बिना पूरा हो गए थे), लेकिन मैं स्मार्ट डेटा पोस्ट कर सकता हूं यदि यह उपयोगी होगा।
अपडेट: मेमेस्टोरी + में रिबूट करने की तैयारी करते समय, मैंने कंसोल पर बहुत सारी त्रुटियों को देखा। मैं सामान्य रूप से SSH में हूं, इसलिए मैंने उन्हें पहले नहीं देखा। मुझे यकीन नहीं है कि मुझे कौन सा लॉग चेक करना चाहिए था, लेकिन पूरी स्क्रीन त्रुटियों से भरी हुई थी जो इस तरह दिखती है (मेरी सटीक त्रुटि रेखा नहीं है, मैंने इसे एक अलग मंच से कॉपी किया है):
blk_update_request: I/0 error, dev sda, sector 220473440
कुछ Googling से, ऐसा लगता है कि यह त्रुटि खराब ड्राइव का संकेत हो सकती है, लेकिन मेरे लिए यह विश्वास करना कठिन है कि वे इस तरह से एक बार में सभी विफल हो रहे हैं। विचार यहाँ से कहाँ जाना है?
अद्यतन 2: मैं इस ZOL मुद्दे पर आया था जो ऐसा लगता है कि यह मेरी समस्या से संबंधित हो सकता है। ओपी की तरह मैं अपने ड्राइव को स्पिन-डाउन करने के लिए hdparm का उपयोग कर रहा हूं और मैं इसी तरह की ZFS चेकसम त्रुटियों और blk_update_request
त्रुटियों को देख रहा हूं । मेरी मशीन अभी भी मेमेस्टेस्ट चल रही है, इसलिए मैं फिलहाल अपने कर्नेल या ZFS संस्करण की जांच नहीं कर सकता, लेकिन यह कम से कम एक संभावना की तरह दिखता है। मैंने भी इसी तरह का प्रश्न देखा जो हतोत्साहित करने वाला है। क्या किसी को ZFS के साथ मुद्दों का पता है और ड्राइव को स्पिन करना है?
अपडेट 3: क्या LSI कंट्रोलर पर एक बेमेल फर्मवेयर और ड्राइवर संस्करण इस तरह त्रुटियों का कारण बन सकता है? ऐसा लगता है कि मैं 20.100.00.00 का ड्राइवर संस्करण और 17.00.01.00 का फर्मवेयर संस्करण चला रहा हूं। कार्ड पर अपडेट किए गए फर्मवेयर को फ्लैश करने की कोशिश करने के दौरान क्या यह लायक होगा?
# modinfo mpt2sas
filename: /lib/modules/3.10.0-327.22.2.el7.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko
version: 20.100.00.00
license: GPL
description: LSI MPT Fusion SAS 2.0 Device Driver
author: Avago Technologies <MPT-FusionLinux.pdl@avagotech.com>
rhelversion: 7.2
srcversion: FED1C003B865449804E59F5
# sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 20.00.00.00 (2014.09.18)
Copyright (c) 2008-2014 LSI Corporation. All rights reserved
Adapter Selected is a LSI SAS: SAS2308_2(D1)
Num Ctlr FW Ver NVDATA x86-BIOS PCI Addr
----------------------------------------------------------------------------
0 SAS2308_2(D1) 17.00.01.00 11.00.00.05 07.33.00.00 00:04:00:00
अद्यतन 4:dmesg
आउटपुट में कुछ और त्रुटियों को पकड़ा । मुझे यकीन नहीं है कि इनसे क्या ट्रिगर हुआ, लेकिन मैंने LSI कंट्रोलर के फर्मवेयर को अपडेट करने की तैयारी में सरणी के सभी ड्राइव को अनमाउंट करने के बाद उन्हें देखा। मैं यह देखने के लिए थोड़ा इंतजार करूंगा कि क्या फर्मवेयर अपडेट से समस्या हल हो गई है, लेकिन इस बीच त्रुटियां हैं। मुझे वास्तव में यकीन नहीं है कि उनका क्या मतलब है।
[87181.144130] sd 0:0:2:0: [sdc] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144142] sd 0:0:2:0: [sdc] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144148] blk_update_request: I/O error, dev sdc, sector 889461969
[87181.144255] sd 0:0:3:0: [sdd] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144259] sd 0:0:3:0: [sdd] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144263] blk_update_request: I/O error, dev sdd, sector 889461969
[87181.144371] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144375] sd 0:0:4:0: [sde] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144379] blk_update_request: I/O error, dev sde, sector 922978096
[87181.144493] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144500] sd 0:0:5:0: [sdf] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144505] blk_update_request: I/O error, dev sdf, sector 922978096
[87191.960052] sd 0:0:6:0: [sdg] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960063] sd 0:0:6:0: [sdg] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960068] blk_update_request: I/O error, dev sdg, sector 906238044
[87191.960158] sd 0:0:7:0: [sdh] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960162] sd 0:0:7:0: [sdh] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960179] blk_update_request: I/O error, dev sdh, sector 906238044
[87195.864565] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87195.864578] sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 37 03 7c 68 00 00 20 00
[87195.864584] blk_update_request: I/O error, dev sda, sector 922975336
[87198.770065] sd 0:0:1:0: [sdb] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87198.770078] sd 0:0:1:0: [sdb] CDB: Write(10) 2a 00 37 03 7c 88 00 00 20 00
[87198.770084] blk_update_request: I/O error, dev sdb, sector 922975368
अद्यतन 5: मैंने LSI नियंत्रक के लिए फर्मवेयर को अपडेट किया, लेकिन ZFS त्रुटियों को साफ़ करने और स्क्रब करने के बाद, मैं उसी व्यवहार (कुछ ड्राइव पर मामूली चेकसम त्रुटियों) को देख रहा हूं। अगला कदम खुद ड्राइव पर फर्मवेयर को अपडेट करना होगा।
अद्यतन 6: मैंने पीसीआई रिसर को कुछ मंचों में पढ़ने के बाद बदल दिया है कि यू-एनएएस एनएससी 800 मामले वाले अन्य लोगों के पास प्रदान किए गए रिसर के साथ समस्याएं हैं। चेकसम त्रुटियों पर कोई प्रभाव नहीं पड़ा। मैं एचडीडी फर्मवेयर अपडेट को बंद कर रहा हूं क्योंकि प्रक्रिया एक ऐसा दर्द है, लेकिन मुझे लगता है कि इसे चूसने और बूट करने योग्य डॉस फ्लैश ड्राइव बनाने का समय है।
अद्यतन 7: मैंने सीगेट ड्राइव के तीन पर फर्मवेयर अपडेट किया। अन्य ड्राइव्स में या तो फर्मवेयर अपडेट उपलब्ध नहीं था या मैं इसे प्राप्त करने में सक्षम नहीं था (वेस्टर्न डिजिटल ने मुझे बताया कि मेरे ड्राइव के लिए कोई फर्मवेयर अपडेट नहीं था)। प्रारंभिक स्क्रब के बाद कोई त्रुटि नहीं हुई, लेकिन मैं कहता हूं कि कम से कम एक या दो सप्ताह पहले मैं इसे हल कर दूंगा। यह मेरे लिए बहुत संभावना नहीं है कि तीन ड्राइव में फर्मवेयर इस तरह से पूरे पूल को प्रभावित कर सकता है।
अद्यतन 8: चेकसम त्रुटियाँ पहले की तरह ही वापस आ गई हैं। मैं मदरबोर्ड के लिए एक फर्मवेयर अपडेट में देख सकता हूं, लेकिन इस बिंदु पर मैं नुकसान में हूं। शेष भौतिक घटकों (नियंत्रक, बैकप्लेन, केबलिंग) को बदलना मुश्किल / महंगा होगा, और मुझे सिर्फ 100% यकीन नहीं है कि यह मेरे सेटअप (ZFS + Linux + LUKS + नीचे बेकार ड्राइव को स्पिन करना) के साथ समस्या नहीं है। किसी भी अन्य विचारों का स्वागत है।
अपडेट 9: फिर भी इसे नीचे ट्रैक करने की कोशिश की जा रही है। मुझे इस सवाल का सामना करना पड़ा जिसमें मेरी स्थिति में कुछ समानताएं थीं। इसलिए, मैंने आगे बढ़कर ज़ूलप को फिर से बनाया, ashift=12
यह देखने के लिए कि क्या समस्या का समाधान होगा (कोई भाग्य नहीं)। फिर, मैंने बुलेट को थोड़ा सा हिलाया और एक नया नियंत्रक खरीदा। मैंने अभी एक सुपरमाइक्रो AOC-SAS2LP-MV8 HBA कार्ड स्थापित किया है । मैं यह देखने के लिए एक या दो सप्ताह दूंगा कि क्या यह समस्या हल करती है।
अद्यतन 10: बस इसे बंद करने के लिए। नए HBA कार्ड के अंदर जाने के बाद लगभग 2 सप्ताह हो गए हैं, इसे चिन्हित करने के जोखिम में, मेरे पास कोई चेकसम त्रुटि नहीं है। हर किसी के लिए एक बड़ा धन्यवाद, जिसने मुझे इस एक को सुलझाने में मदद की।