3Ware RAID6 सरणी कभी-कभी लटकी हुई है। न टूटी डिस्क?


13

हमारे पास 3Ware 9650SE 8-ड्राइव RAID नियंत्रक के साथ 5 डिस्क RAID6 सरणी के साथ एक डेबियन सर्वर है, जो वर्चुअल मशीन होस्ट, सभी लिनक्स के रूप में कार्य करता है। समस्याएं होती रहती हैं और मुझे एक अनिर्धारित टूटी हुई डिस्क पर संदेह होता है।

अब हमारे पास कई क्रैश हो गए हैं, जहां दोनों मेजबान और सभी मेहमान कह रहे हैं कि IO सिस्टम 120 सेकंड या उससे अधिक समय के लिए अवरुद्ध है। हमें एक दोषपूर्ण RAID नियंत्रक पर संदेह था, लेकिन हमने इसे समान फर्मवेयर के साथ एक समान के साथ बदल दिया, जिसने इसे ठीक नहीं किया। मुझे नहीं लगता कि यह होगा, क्योंकि एक दूसरे RAID1 सरणी ने ठीक से काम किया।

लगभग एक सप्ताह पहले (रविवार), जब यह कार्य कर रहा था, ऑटो सत्यापन 66% पर था। कल रात (शुक्रवार सुबह) यह 67% पर था। बूट करने से पहले और बाद में, और दोनों समस्याओं का अनुभव करते हुए। जब मैंने सत्यापन को बंद कर दिया tw_cli /c0/u0 stop verify, तो चीजें फिर से उत्तरदायी हो गईं।

मुझे संदेह है कि यह लगभग 66% डिस्क डिस्क पर फंस गया। शनिवार को एक ऑटो सत्यापन शुरू होता है:

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

और आमतौर पर शुक्रवार तक लंबे समय तक किया जाएगा। यह देखते हुए कि रविवार कैसा था 66% और शुक्रवार 67% था, यह संयोग होने की संभावना नहीं है।

'smartctl -a -d 3ware, 0 / dev / twa0' और 'smartctl -t long' (long SMART self test) सभी ड्राइव पर कोई भी त्रुटि सामने नहीं आई। न करता है tw_cli /c0 show alarms

मुझे संदेह था कि एक डिस्क एक तरह से टूटी हुई है, जिसका पता लगाना कठिन है, लेकिन मैंने एक-एक करके सरणी से प्रत्येक ड्राइव को निकाला, उससे एक 'सिंगल' एरे बनाया और शून्य से भरा dd'ed किया। किसी डिस्क में त्रुटियां नहीं दिखीं।

या कोई और सलाह?

संपादित करें:

यह लेआउट है:

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

प्रश्न में इकाई u0 है।

EDIT2:

tw_cli / c0 शो डायग कुछ दिलचस्प दिखाता है (edit3: यह हानिरहित है, मुझे पता चला कि यह कॉलिंग के कारण होता है smartctl -a -d 3ware,X /dev/twa0जहां एक्स एक अमान्य पोर्ट है):

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

मुझे इनमें से कई टन मिलते हैं। मुझे पता नहीं है कि इसका क्या मतलब है। मैं यह भी नहीं बता सकता कि कौन सी इकाई या पोर्ट है। (edit3: मुझे अब पता है, यह हानिरहित है)।

मेरे edit3 को देखते हुए, मैं वापस एक वर्ग में आता हूँ। कुछ भी इंगित नहीं करता है कि एक डिस्क टूटी हुई है, सिवाय इसके कि सत्यापन 66% पर लटका हुआ है और सरणी को लटका देने का कारण बनता है, जो कभी-कभी यादृच्छिक रूप से भी होता है। काश कि सत्यापन में गलती मिल जाती ...


क्या HDDs? क्या वे आधिकारिक रूप से समर्थित हैं?
GRS

मैंने लेआउट जोड़ा। डिस्क ST32000542AS हैं। वे समर्थित हैं, लेकिन अधिक बार, सर्वर ने 3 साल तक ठीक काम किया।
हाफगेर

मैं कुछ WD ड्राइव के साथ कुछ बिंदु पर धीमी गति से verrryyy बनने के साथ जारी किया था। केवल एक hdparm (दुख की बात है यहाँ दुखी नहीं) मुझे सामान्य ~ ~ 100MB / s के बजाय ~ 300KB / s (हाँ K!) का एक विवाद दिखा।
बेंजामिन सोनटैग

1
एंटरप्राइज और डेस्कटॉप ड्राइव के डिस्क्स के बीच अंतर यह है कि वे बग्स का काम करते हैं। यदि एंटरप्राइज़ किसी भी त्रुटि का सामना करता है, तो डिस्क छापे से बाहर आती है। (जैसा कि डेटा संग्रहीत करने के जोखिमों के प्रति संवेदनशील कंपनियों में है और इसके लिए भुगतान करने को तैयार हैं) यदि कोई डेस्कटॉप ड्राइव गलती से मिलता है, तो यह तब तक चलने की कोशिश करेगा जब तक सभी समय समाप्त नहीं हो जाते। (जैसा कि उपयोगकर्ता एक ड्राइव करते हैं, और उन्हें जिस डेटा तक पहुंचने की आवश्यकता होती है, और यदि वे एक बार डिस्क से बाहर हो जाते हैं, तो निर्माता बहुत दर्दनाक होगा) जाहिरा तौर पर ST32000542AS शांत और किफायती डेस्कटॉप संस्करण डिस्क है। उदाहरण के लिए goo.gl/rWb5lj
इंद्रधनुष-

दरअसल, हाल ही में, यह सर्वर अचानक लटका, मूल समस्या की तुलना में अलग और अधिक गंभीर रूप से, और लॉग ने RAID पोर्ट पर एक टाइमआउट दिखाया। टाइमआउट एंटरप्राइज़ ड्राइव में से एक पर था (जिसमें से यह सर्वर अब अधिक है)।
हाफगॉपर

जवाबों:


1

2 चीजें जो अब तक नहीं लाई गई थीं:

  1. यह एक SATA RAID नियंत्रक है? यदि हां, SATA केबल उम्र बढ़ने के लिए प्रवण हैं और उनकी जगह ऐसे मुद्दों को आसानी से हल कर सकते हैं। अधिकांश समय यह कोशिश की जा सकती है जब डिस्क त्रुटियां, अंतराल, टाइमआउट होते हैं, लेकिन स्मार्ट मान सभी ठीक हैं और ड्राइव स्वयं परीक्षण पास करता है। दुर्भाग्य से एक अच्छा SATA केबल वेंडर खोजना मुश्किल है।
  2. 3WRE RAID नियंत्रक इन दिनों पुराने और असमर्थित हैं। आपको न तो फर्मवेयर अपग्रेड मिलेगा और न ही स्पेयर पार्ट्स। यदि आपका नियंत्रक मर जाता है तो RAID नियंत्रक और फर्मवेयर के बिना अपरिवर्तनीय हो सकता है। एक महंगी डेटा रिकवरी की जरूरत है।

0

यह समस्या किसी रीड त्रुटि का सामना करने और संपूर्ण सरणी को अवरुद्ध करने के कारण हो सकती है जब तक कि यह या तो सेक्टर को फिर से व्यवस्थित करने का प्रबंधन करता है या RAID नियंत्रक ड्राइव को मृत मान लेता है और इसे सरणी से बाहर कर देता है, इसे "डीग्रेडेड" के रूप में चिह्नित करता है। (यह पूरी तरह से सवाल में नियंत्रक के लिए है)। ऐसा अक्सर हो सकता है यदि कोई डिस्क मरना शुरू कर रही है लेकिन फिर भी SMART से गुजरती है। अधिकांश उपभोक्ता डिस्क हमेशा पढ़ने का प्रयास करते रहेंगे।

इस समस्या को कुछ ड्राइव में हल किया गया है RAID त्रुटि त्रुटि नियंत्रण नामक कुछ का उपयोग करके । WD इस TLER को कॉल करता है। साइट से:

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

मूल रूप से, यह एक डिस्क को बताता है कि अगर यह एक सेक्टर नहीं पढ़ सकता है, तो एक्स सेकंड के बाद छोड़ देना है। यह RAID में बहुत अच्छा है क्योंकि डेटा को किसी अन्य डिस्क से पुनर्प्राप्त किया जा सकता है।

मैंने जो पढ़ा है, उसमें से ST32000542AS ईआरसी के किसी भी रूप को लागू नहीं करता है, इसलिए उनमें से कोई भी संपूर्ण सरणी को ब्लॉक कर सकता है। WD2002FYPS वास्तव में WD के TLER को लागू करता है, इसलिए वे इस समस्या का कारण नहीं बनेंगे।


0

बस यह सुनिश्चित करने के लिए कि आपका फर्मवेयर संस्करण क्या है?

एक ऐसा मुद्दा था जिसका मैंने अनुभव किया - जो आपको वर्णन कर रहा है जैसे बहुत कुछ लगता है - जब निम्नलिखित आवश्यकताओं को पूरा किया जाता है:

  • 3ware 96xx श्रृंखला नियंत्रक
  • RAID 6
  • 256k धारी का आकार
  • फर्मवेयर संस्करण <v4.10.00.021 *

उस समय कोई फर्मवेयर फिक्स उपलब्ध नहीं था, इसलिए मैंने 256k से 64k स्ट्राइप साइज का माइग्रेशन किया, जिसने इस समस्या को हल किया। आप वर्कअराउंड के रूप में कोशिश कर सकते हैं, हालांकि इसे पूरा करने में निश्चित रूप से दिन लगेंगे।

बाद में मैंने 256k के साथ नए फर्मवेयर (* 4.10.00.021 मुझे लगता है कि फिक्स था) की कोशिश की और एक आकर्षण की तरह काम किया। 4.10.00.027 नवीनतम संस्करण है।


हमें अब समस्या नहीं है। सत्यापन हमेशा सफल रहा। हालाँकि हमें कुछ महीने पहले एक पूरा सर्वर हैंग हो गया था (बिना किसी समस्या के लंबे समय के बाद)। Dmesg ने कहा कि डिस्क x समयबद्ध है। मुझे नहीं पता कि नियंत्रक ने इसे क्यों नहीं मारा, लेकिन भले ही इसे स्पष्ट रूप से अपमानित के रूप में चिह्नित नहीं किया गया था, मैंने इसे बदल दिया। और, अन्य डिस्क को तब से बदल दिया गया है। तो यह संभावना है कि यह एक डिस्क मुद्दा था।
हाफगैर

0

मैं एक 3ware नियंत्रक और Seagate ड्राइव के साथ समस्याएँ हुआ करता था। एक सूक्ष्म फर्मवेयर असंगतता है। मैंने सैमसंग ड्राइव पर स्विच किया, समस्या हल हो गई।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.