प्रस्तावना:

मैं एक कोड-बंदर हूं जो मेरी छोटी कंपनी के लिए SysAdmin कर्तव्यों पर बढ़ रहा है। मेरा कोड हमारा उत्पाद है, और तेजी से हम सास के रूप में एक ही ऐप प्रदान करते हैं।

लगभग 18 महीने पहले मैंने अपने सर्वर को एक प्रीमियम होस्टिंग सेंट्रिक वेंडर से टियर IV डेटा सेंटर में एक बेयरबोन रैक पुशर में स्थानांतरित किया। (सड़क के पार वास्तव में।) यह खुद को बहुत अधिक करने की सलाह देता है - नेटवर्किंग, भंडारण और निगरानी जैसी चीजें।

बड़े कदम के रूप में, होस्टिंग कंपनी से हमारे पट्टे पर प्रत्यक्ष संलग्न भंडारण को बदलने के लिए, मैंने SuperMicro चेसिस, 3ware RAID कार्ड, उबंटू 10.04, दो दर्जन SATA डिस्क, DRDD और के आधार पर एक 9TB दो-नोड NAS बनाया। यह सभी को प्यार से तीन ब्लॉग पोस्ट में प्रलेखित किया गया है: एक नए 9TB SATA RAID10 NFSv4 NAS का निर्माण और परीक्षण: भाग I , भाग II और भाग III ।

हम कैसिट मॉनिटरिंग सिस्टम भी सेट करते हैं। हाल ही में हम SMART मानों की तरह अधिक से अधिक डेटा बिंदुओं को जोड़ रहे हैं।

मैं बिना यह सब नहीं कर सकते थे भयानक boffins पर ServerFault । यह एक मजेदार और शैक्षिक अनुभव रहा है। मेरा बॉस खुश है (हमने $$$ के बकेट लोड को बचाया) , हमारे ग्राहक खुश हैं (भंडारण लागत कम है) , मैं खुश हूं (मजेदार, मजेदार, मजेदार) ।

कल तक।

आउटेज और रिकवरी:

दोपहर के भोजन के कुछ समय बाद हमें अपने आवेदन, एक ऑन-डिमांड स्ट्रीमिंग मीडिया सीएमएस से सुस्त प्रदर्शन की खबरें मिलने लगीं। लगभग उसी समय हमारे कैक्टि मॉनिटरिंग सिस्टम ने ईमेल का एक बर्फ़ीला तूफ़ान भेजा। अधिक बताने वाले अलर्टों में से एक iostat प्रतीक्षा का ग्राफ था।

यहाँ छवि विवरण दर्ज करें

प्रदर्शन इतना नीचा हो गया कि Phatt ने "सर्वर डाउन" नोटिफिकेशन भेजना शुरू कर दिया। समग्र भार मध्यम था, ट्रैफ़िक स्पाइक नहीं था।

एनएएस के एनएफएस ग्राहकों के आवेदन सर्वर पर लॉग इन करने के बाद, मैंने पुष्टि की कि बस के बारे में सब कुछ बहुत रुक-रुक कर और लंबे समय तक आईओ प्रतीक्षा समय का अनुभव कर रहा था। और एक बार जब मैं प्राथमिक एनएएस नोड पर ही रुक गया, तो समस्या सरणी की फाइल सिस्टम को नेविगेट करने की कोशिश करते समय वही देरी स्पष्ट थी।

समय विफल होने पर, यह अच्छी तरह से चला गया। 20 मिनट के भीतर सब कुछ वापस होने और पूरी तरह से चलने की पुष्टि की गई।

पोस्टमार्टम:

किसी भी और सभी सिस्टम विफलताओं के बाद मैं विफलता का कारण निर्धारित करने के लिए पोस्टमार्टम करता हूं। पहली बात मैंने बॉक्स में वापस ssh किया और लॉग की समीक्षा करना शुरू किया। यह ऑफ़लाइन था, पूरी तरह से। डेटा सेंटर की यात्रा के लिए समय। हार्डवेयर रीसेट, बैकअप a और रनिंग।

में /var/syslogमैं इस डरावना लग रही प्रवेश पाया:

Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_00], 6 Currently unreadable (pending) sectors
Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_07], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 171 to 170
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 16 Currently unreadable (pending) sectors
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 4 Offline uncorrectable sectors
Nov 15 06:49:45 umbilo smartd[2827]: Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
Nov 15 06:49:45 umbilo smartd[2827]: # 1  Short offline       Completed: read failure       90%      6576         3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 2  Short offline       Completed: read failure       90%      6087         3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 3  Short offline       Completed: read failure       10%      5901         656821791
Nov 15 06:49:45 umbilo smartd[2827]: # 4  Short offline       Completed: read failure       90%      5818         651637856
Nov 15 06:49:45 umbilo smartd[2827]:

इसलिए मैं सरणी में डिस्क के लिए कैक्टि रेखांकन की जांच करने गया। यहाँ हम देखते हैं कि, हाँ, डिस्क 7 फिसल रहा है जैसे कि syslog कहता है कि यह है। लेकिन हम यह भी देखते हैं कि डिस्क 8 के स्मार्ट रीड एरोस उतार-चढ़ाव कर रहे हैं।

यहाँ छवि विवरण दर्ज करें

Syslog में डिस्क 8 के बारे में कोई संदेश नहीं हैं। अधिक दिलचस्प यह है कि डिस्क 8 के लिए उतार-चढ़ाव का मूल्य सीधे उच्च IO प्रतीक्षा समय से संबंधित है! मेरी व्याख्या यह है कि:

डिस्क 8 एक विषम हार्डवेयर दोष का सामना कर रहा है, जिसके परिणामस्वरूप रुक-रुक कर लंबे समय का ऑपरेशन होता है।
किसी तरह डिस्क पर यह दोष स्थिति पूरे सरणी को लॉक कर रही है

हो सकता है कि अधिक सटीक या सही विवरण हो, लेकिन शुद्ध परिणाम यह रहा है कि एक डिस्क पूरे सरणी के प्रदर्शन को प्रभावित कर रही है।

प्रश्न)

हार्डवेयर SATA RAID-10 सरणी में एक एकल डिस्क पूरे सरणी को एक डरावने पड़ाव में कैसे ला सकती है?
मुझे लगता है कि RAID कार्ड इस के साथ निपटा जाना चाहिए भोली हो रही है?
मैं संपूर्ण सरणी को प्रभावित करने से एकल दुर्व्यवहार डिस्क को कैसे रोक सकता हूं?
क्या मैं कुछ भूल रहा हूँ?

— स्टु थॉम्पसन
स्रोत

11

आप से एक और अच्छी तरह से लिखित सवाल, +1। हमेशा पढ़ने के लिए एक खुशी (लेकिन दुर्भाग्य से मेरे बोर्ड के ऊपर भी एक विचार है)।

— tombull89

1

@daff: इस सेटअप पर जा रहे बजट को खरीदें हमने HP से तुलनीय से 66% ठोस बचत की। हम इस बॉक्स पर एक वर्ष का जीवन काल डालते हैं, इसे अधिक समय तक चलने की आवश्यकता नहीं है। याद रखें कि यह एक भंडारण बॉक्स है, साल-दर-साल प्लमेट खर्च होता है।

— स्टु थॉम्पसन

2

3वेयर खराब नहीं है, प्रति से। मैं एक डेल सिस्टम पर एक पीईआरसी कार्ड से विस्की व्यवहार कर चुका हूं, जिसे सभ्य सर्वर हार्डवेयर माना जाता है। 3Ware कार्ड में ऑनबोर्ड बैटरी और ऐसा होना चाहिए, इसलिए मुझे निर्णय लेने में बहुत बुरा नहीं लगेगा। ठीक है, आप एसएएस बनाम एसएटीए के फैसले के लिए आक्रोशित हो सकते हैं, लेकिन आप डेटा नहीं खो रहे हैं और आपके प्रश्न से आपको लगता है जैसे आपके पास बैकअप और निगरानी है, इसलिए आप बहुत अच्छा कर रहे हैं :-)

— बार्ट सिल्वरस्ट्रिअ

1

@StuThompson: बेशक बजट जाना और उपभोक्ता हार्डवेयर का उपयोग करना सस्ता है, और अक्सर यह ठीक प्रदर्शन करेगा, खासकर जब आपके मामले में, इसके पीछे एक अच्छा हा अवधारणा है। लेकिन ऐसे मामले हैं, जैसा आपने दिखाया है, जहां उपभोक्ता हार्डवेयर खराब चीजों के होने पर इसे नहीं काटते हैं। मैं आपको बहुत गारंटी दे सकता हूं कि एक अच्छा PERC (Dell) या SmartArray (HP) नियंत्रक पर एक एकल दोषपूर्ण SAS डिस्क आपको प्रतिस्थापन डिस्क प्राप्त करने के लिए समर्थन कॉल के अलावा किसी भी समस्या का कारण नहीं होगा। हम उत्पादन में वर्षों से मृत एसएएस डिस्क के बहुत सारे हैं, लेकिन उन्हें कभी भी सर्वर डाउन नहीं किया था।

— daff

5

अधिकांश एसएटीए डिस्क टीएलईआर (टाइम लिमिटेड त्रुटि रिकवरी) का समर्थन नहीं करते हैं। जब एक सामान्य SATA डिस्क एक भौतिक समस्या का सामना करती है तो यह डिस्क सबसिस्टम पर "मैं इस पर काम करते समय एक" पकड़ भेजता है (जो आमतौर पर जैसा बताया जाता है)। डिस्क तब प्रत्येक त्रुटि पर 10-30 सेकंड (आमतौर पर) तब तक खर्च करने के लिए आगे बढ़ेगी जब तक कि यह "आई एम डेड" दहलीज को हिट न कर दे। एसएएस डिस्क और एसएटीए डिस्क जो टीएलईआर का समर्थन करते हैं, उनके एचबीए द्वारा डिस्क सबसिस्टम को बताने के लिए कॉन्फ़िगर किया गया है "मुझे एक समस्या मिली है, मुझे क्या करना चाहिए?" इसलिए HBA मूल रूप से तुरंत उचित कार्रवाई का निर्णय ले सकता है। (संक्षिप्तता के लिए सरल)

— क्रिस एस

48

मैं यह कहने के लिए नफरत करता हूं कि महत्वपूर्ण उत्पादन वातावरण में "SATA का उपयोग न करें", लेकिन मैंने इस स्थिति को काफी बार देखा है। एसएटीए ड्राइव आमतौर पर आपके द्वारा वर्णित कर्तव्य चक्र के लिए नहीं होता है, हालांकि आपने विशेष रूप से अपने सेटअप में 24x7 ऑपरेशन के लिए रेट किए गए विशेष ड्राइव का अनुमान लगाया था । मेरा अनुभव रहा है कि SATA ड्राइव अप्रत्याशित तरीके से विफल हो सकते हैं, अक्सर पूरे भंडारण सरणी को प्रभावित करते हुए, यहां तक कि RAID 1 + 0 का उपयोग करते समय, जैसा कि आपने किया है। कभी-कभी ड्राइव ऐसे तरीके से विफल हो जाते हैं जो पूरी बस को रोक सकते हैं। एक बात ध्यान दें कि क्या आप अपने सेटअप में एसएएस विस्तारकों का उपयोग कर रहे हैं। यह एक फर्क कर सकता है कि ड्राइव डिस्क में शेष डिस्क कैसे प्रभावित होती हैं।

लेकिन इससे midline / nearline (7200 RPM) SAS ड्राइव बनाम SATA के साथ जाने के लिए अधिक समझदारी हो सकती है । SATA पर एक छोटी सी कीमत प्रीमियम है, लेकिन ड्राइव अधिक अनुमानित रूप से संचालित / विफल होंगे। एसएएस इंटरफेस / प्रोटोकॉल में त्रुटि-सुधार और रिपोर्टिंग एसएटीए सेट की तुलना में अधिक मजबूत है। यहां तक कि ड्राइव के साथ जिनके मैकेनिक समान हैं , एसएएस प्रोटोकॉल अंतर आपके ड्राइव की विफलता के दौरान आपके द्वारा अनुभव किए गए दर्द को रोक सकता है।

— ewwhite
स्रोत

जैसा कि मैं सवाल लिख रहा था मुझे पता था कि एसएएस की मेरी पसंद सामने आने वाली थी। : / IOPS और थ्रूपुट मेरे सेटअप की क्षमताओं के भीतर अच्छी तरह से हैं। लेकिन मैंने कुछ अधिक सूक्ष्म अंतरों को पूरी तरह से नहीं भुनाया। हमने इस बॉक्स पर 3 साल की उम्र लगाई है। अगली बार एसएएस का उपयोग अवश्य करें।

— स्टु थॉम्पसन

1

हाँ, यह अगली बार पर विचार करने के लिए कुछ है। एसएएस ड्राइव के पास मैंने जो उल्लेख किया है वह जरूरी नहीं कि एसएटीए से बेहतर प्रदर्शन करता है, लेकिन यह त्रुटि सुधार और ड्राइव विफलताओं जैसी चीजें हैं जहां एसएएस अधिक प्रबंधनीय है। मेरे पास 6 नियंत्रकों के साथ एक सन फायर x4540 48-ड्राइव SATA भंडारण प्रणाली है, और सर्वर को लॉक करने के लिए व्यक्तिगत ड्राइव विफलताएं हैं। कठिन पाठ।

— ewwhite

10

मेरा एक अच्छा दोस्त उद्यम भंडारण की दुनिया में है। वह यह सब पढ़ता है और कहता है "यह आदमी सही है। क्या होता है कि एसएटीए को एक पूर्ण विफलता को निरूपित करने के लिए डिज़ाइन किया गया है और एक आंतरायिक को बस w / o को विफल करने की आवश्यकता होगी। आम तौर पर यह कभी नहीं देखा जाता है क्योंकि अधिकांश एसएटीए कॉन्फ़िगरेशन एक ड्राइव हैं। "

— स्टु थॉम्पसन

@StuThompson क्या आपने पास-पास SAS के साथ एक नया बॉक्स बनाया है? मुझे आपके अनुभवों के बारे में पढ़ना अच्छा लगेगा। आपके प्रश्न ने मुझे पहले से ही बहुत मदद की है, मैं संभवतः निकट भविष्य में एक समान बॉक्स का निर्माण करूंगा।

— चिरिशीस्तानंद

1

@chriestiestand नहीं, मैं नहीं। मैंने 13 जनवरी को कंपनी छोड़ दी; अगर मैं रुका होता तो हमने रिप्लेसमेंट बॉक्स को लाइन के पास बनाया होता। काश, NAS का अस्तित्व मेरे स्वयं के साथ बहुत निकटता से जुड़ा होता और डेटा किसी सेवा प्रदाता के SAN में चला जाता।

— स्टु थॉम्पसन

17

एकल डिस्क कैसे सरणी को नीचे ला सकती है? जवाब यह है कि यह नहीं होना चाहिए, लेकिन यह इस बात पर निर्भर करता है कि आउटेज का कारण क्या है। यदि डिस्क को एक तरह से मरना था जो व्यवहार किया गया था, तो इसे नीचे नहीं ले जाना चाहिए। लेकिन यह संभव है कि यह एक "बढ़त मामले" में विफल हो रहा है जो नियंत्रक को संभाल नहीं सकता है।

क्या आपको लगता है कि ऐसा नहीं होना चाहिए? नहीं, मुझे ऐसा नहीं लगता। एक हार्डवेयर RAID कार्ड जैसे कि अधिकांश मुद्दों को संभालना चाहिए था।

इसे कैसे रोका जाए? आप इस तरह से अजीब बढ़त के मामलों का अनुमान नहीं लगा सकते। यह एक sysadmin होने का हिस्सा है ... लेकिन आप इसे अपने व्यवसाय को प्रभावित करने से बचाने के लिए पुनर्प्राप्ति प्रक्रियाओं पर काम कर सकते हैं। इस समय इसे ठीक करने का प्रयास करने का एकमात्र तरीका यह है कि या तो एक और हार्डवेयर कार्ड आज़माएं (शायद आप क्या करना चाहते हैं) या एसएएस के बजाय एसएएस ड्राइव में अपने ड्राइव को बदलना यह देखने के लिए कि एसएएस अधिक मजबूत है या नहीं। आप RAID कार्ड के अपने विक्रेता से भी संपर्क कर सकते हैं और उन्हें बता सकते हैं कि क्या हुआ है और देखें कि वे क्या कहते हैं; वे सब के बाद, एक कंपनी है कि winky ड्राइव इलेक्ट्रॉनिक्स के भारतीय नौसेना पोत और बहिष्कार जानने में विशेषज्ञ माना जाता है। उनके पास अधिक तकनीकी सलाह हो सकती है कि ड्राइव कैसे विश्वसनीयता के साथ काम करती है ... यदि आप सही लोगों से बात कर सकते हैं।

कुछ छूट गया क्या? यदि आप यह सत्यापित करना चाहते हैं कि ड्राइव में किनारे-केस विफलता है, तो इसे सरणी से खींचें। सरणी को नीचा दिखाया जाएगा, लेकिन आपके पास अधिक अजीब मंदी और त्रुटियां नहीं होनी चाहिए (अपमानित सरणी स्थिति से अलग)। आप कह रहे हैं कि अभी यह ठीक काम कर रहा है, लेकिन अगर यह डिस्क रीड एरर हो रहा है, तो आपको ड्राइव को प्रतिस्थापित करना चाहिए। उच्च क्षमता वाली ड्राइव में कभी-कभी URE त्रुटियां हो सकती हैं (सबसे अच्छा कारण है कि RAID 5, साइड नोट न चलना) जो तब तक दिखाई नहीं देती जब तक कि कोई अन्य ड्राइव विफल न हो। और यदि आप उस एक ड्राइव से किनारे के व्यवहार का अनुभव कर रहे हैं, तो आप नहीं चाहते हैं कि दूषित डेटा सरणी में अन्य ड्राइव पर माइग्रेट हो जाए।

— बार्ट सिल्वरस्ट्रिम
स्रोत

1

हाँ ... हमने पहले से ही एक नई प्रतिस्थापन नीति में डाल दिया है जैसे "अगर रीड की त्रुटी में उतार-चढ़ाव होता है तो उसे छोड़ दें" । अब जब मैं इसके बारे में सोचता हूं, तो हमें इन ड्राइव्स पर काफी हद तक असफलता मिली है। 18 महीनों में 22 में से 4। हम्म ....

— स्टु थॉम्पसन

2

18 महीने में 4 ड्राइव? यह वहाँ काफी दर है ... जबकि यह ड्राइव नहीं हो सकता है कल्पना में, वहाँ एक ठंडा / airflow मुद्दा भी देखने के लिए हो सकता है। या संभवतः नियंत्रक के साथ कुछ अजीब है। बस कुछ विचार ... लॉग पर नजर रखें। यदि आप कार्ड पर वास्तविक कार्य के साथ 3Ware में किसी से भी संपर्क करने में सक्षम हैं और न केवल एक स्क्रिप्ट है, तो आप इसे उनके द्वारा चलाना चाहते हैं और देख सकते हैं कि वे क्या कहते हैं।

— बार्ट सिल्वरस्ट्रिम

1

उस सेट के आधार पर जहां आप त्रुटियां देख रहे हैं, आप यह भी देख सकते हैं कि केबलों के साथ भी कुछ विस्की या सीमांत नहीं है। यदि त्रुटियाँ समान पोर्ट पर केंद्रित होती हैं, तो आप असफलताओं के संयोग से कम हो सकते हैं।

— बार्ट सिल्वरस्ट्रिम

4

मैंने अभी देखा है कि इस bum ड्राइव के लिए SMART मान ~ 31 ° C पर चल रहा था, या अन्य सभी ड्राइव की तुलना में अच्छा 4 ° C था। चीजें जो आपको हम्म बनाती हैं ....

— स्टु थॉम्पसन

2

@DanNeely: 14 ड्राइव (11 डेटा, 3 सिस्टम) में से यह केवल एक उच्चतर अस्थायी था। मैं काफी निश्चित रूप से एयरफ्लो अच्छा था, लेकिन कल स्पष्ट रूप से जांच करूंगा।

— स्टु थॉम्पसन

10

मैं एक विशेषज्ञ नहीं हूं, लेकिन मैं अपने नियंत्रकों और भंडारण सरणियों के साथ अपने अनुभव के आधार पर अंधेरे में एक जंगली शॉट लेने जा रहा हूं।

डिस्क कई अलग-अलग तरीकों से विफल हो जाती है। दुर्भाग्य से, डिस्क विफल हो सकती है, या दोषपूर्ण हो सकती है, उन तरीकों से जहां उनका प्रदर्शन गंभीर रूप से प्रभावित होता है, लेकिन RAID नियंत्रक विफलता के रूप में नहीं देखता है।

यदि डिस्क स्पष्ट तरीके से विफल हो जाती है, तो किसी भी RAID नियंत्रक सॉफ़्टवेयर को डिस्क से प्रतिक्रिया की कमी का पता लगाने, पूल से हटाने और किसी भी सूचना को फायर करने में बहुत अच्छा होना चाहिए। हालाँकि, मेरा अनुमान है कि यहाँ क्या हो रहा है कि डिस्क एक असामान्य विफलता है, जो किसी कारण से नियंत्रक पक्ष पर विफलता को ट्रिगर नहीं कर रही है। इसलिए जब नियंत्रक प्रभावित डिस्क से राइट फ्लश या रीड का संचालन कर रहा है, तो उसे वापस आने में लंबा समय लग रहा है और बदले में पूरे IO ऑपरेटिंग और इसलिए सरणी को लटका रहा है। जो भी कारण के लिए, यह RAID नियंत्रक के लिए "आह, विफल डिस्क" जाने के लिए पर्याप्त नहीं है, शायद क्योंकि डेटा अंत में वापस आ रहा है।

मेरी सलाह तुरंत विफल डिस्क को बदलने की होगी। उसके बाद, मैं आपके RAID कार्ड के लिए कॉन्फ़िगरेशन पर एक नज़र डालूंगा (यह 3ware है, मुझे लगा कि वे बहुत अच्छे थे) और पता करें कि यह एक विफल डिस्क को क्या मानता है।

PS अच्छा विचार SMART को कैक्टि में आयात कर रहा है।

— growse
स्रोत

एक बार जब मैं डॉट्स कनेक्ट करता हूं, तो पहले मुझे लगता है कि डिस्क को सरणी से निकालना था; गर्म स्पेयर में भरा हुआ था। वह कल रात था। आज मैंने डिस्क को खींच लिया और RMA यह होगा। अपमानजनक ड्राइव: geekomatic.ch/images/wd-re4-flux-read-error.jpg

— थॉम्पसन

एक कारण मुझे लगता है कि हर मिशन क्रिटिकल सिस्टम में एक कार्ड होना चाहिए जो डेटा स्क्रबिंग करता हो। मैंने इसे गिनने के लिए कई बार देखा है, विशेष रूप से एसएटीए सरणियों पर, हालांकि, नियंत्रक को ट्रिगर किए बिना असफल होने के लिए उच्चतर एसएएस डिस्क को भी जाना जाता है।

— जेन्स एरिक

7

आपको एंटरप्राइज क्लास स्टोरेज डिवाइस की विशेषताएं चाहिए। विशेष रूप से, RAID आरई 4 एंटरप्राइज ड्राइव में RAID एरर्स में इस व्यवहार को रोकने के लिए दो विशेषताओं की आवश्यकता होती है। नीचे सूचीबद्ध पहली तकनीक घूर्णी हार्मोनिक कंपन को हार्ड ड्राइव यांत्रिक घटकों पर अनावश्यक पहनने से रोकती है। दूसरी तकनीक वह है जो आपकी समस्या का कारण है, एसएटीए प्रोटोकॉल में यह सुविधा नहीं है। इन सुविधाओं को पाने के लिए आपको एसएएस की आवश्यकता होती है, और यदि आप एसएटीए ड्राइव पर जोर देते हैं तो आप एसएएस को एसएएसए इंटरप्रेसर कार्ड जैसे एलएसआईएसएस 9252 खरीद सकते हैं।

उन्नत आरएएफएफ प्रौद्योगिकी परिष्कृत इलेक्ट्रॉनिक्स ड्राइव की निगरानी करते हैं और वास्तविक समय में रैखिक और घूर्णी कंपन दोनों को ठीक करते हैं। परिणाम ड्राइव की पिछली पीढ़ी में उच्च कंपन वातावरण में एक महत्वपूर्ण प्रदर्शन में सुधार है।

RAID-विशिष्ट, समय-सीमित त्रुटि रिकवरी (TLER) डेस्कटॉप ड्राइव के लिए सामान्य हार्ड ड्राइव त्रुटि-पुनर्प्राप्ति प्रक्रियाओं के कारण होने वाले ड्राइव को रोकती है।

http://en.wikipedia.org/wiki/Error_recovery_control#Overview

कृपया नीचे लिंक भी देखें:

http://en.wikipedia.org/wiki/Error_recovery_control#Raid_Controllers

इसे भी देखें: पश्चिमी डिजिटल टीएलईआर दस्तावेज़ में त्रुटि सुधार प्रक्रिया की गहराई से व्याख्या। WD Caviar RAID संस्करण सीरियल ATA हार्ड ड्राइव में त्रुटि सुधार फॉलआउट रोकथाम:

http://www.3dfxzone.it/public/files/2579-001098.pdf

— ढीली तोप
स्रोत

6

बस एक अनुमान: हार्डडिस्क को एक त्रुटि की रिपोर्ट करने के बजाय पढ़ने की त्रुटियों पर पुन: प्रयास करने के लिए कॉन्फ़िगर किया गया है। हालांकि यह डेस्कटॉप सेटिंग में वांछनीय व्यवहार है, यह एक RAID में काउंटरप्रोडक्टिव है (जहां नियंत्रक को किसी भी क्षेत्र को फिर से लिखना चाहिए जो अन्य डिस्क से पढ़ने में विफल रहता है, इसलिए ड्राइव इसे फिर से तैयार कर सकता है)।

— साइमन रिक्टर
स्रोत

बहुत सम्भव। यदि हां, तो यह स्पष्ट रूप से अच्छा नहीं है क्योंकि ये "RAID संस्करण" इकाइयों के रूप में कल्पनाएं हैं। : |

— स्टु थॉम्पसन

बिल्कुल शांत नहीं, क्योंकि वह सेटिंग "RAID संस्करण" की बहुत परिभाषा है :)

— साइमन रिक्टर

6

अंधेरे में मेरा शॉट:

ड्राइव 7 विफल हो रहा है। इसकी कुछ विफलता खिड़कियां हैं जहां यह उपलब्ध नहीं है।
ड्राइव 8 में कुछ 'लाइटर' त्रुटियाँ भी हैं; पुनः प्रयास करके ठीक किया गया।
RAID10 आमतौर पर "कई RAID1 जोड़ों में से एक RAID0" है, क्या एक ही जोड़ी के 7 और 8 सदस्य हैं?

यदि ऐसा है, तो ऐसा लगता है कि आप एक ही जोड़ी पर दो-डिस्क विफलता के "नहीं होना चाहिए" मामले को हिट करते हैं। लगभग एक ही चीज जो RAID10 को मार सकती है। दुर्भाग्य से, यह तब हो सकता है यदि आपके सभी ड्राइव एक ही शिपिंग लॉट से हैं, इसलिए वे एक साथ मरने की थोड़ी अधिक संभावना रखते हैं।

मुझे लगता है कि एक ड्राइव 7 विफलता के दौरान, नियंत्रक सभी 8 ड्राइव करने के लिए रीडायरेक्ट करता है, इसलिए किसी भी त्रुटि-पुनर्प्रयास ने बड़ी देरी का कारण बना कि जमे हुए कार्यों का एक हिमस्खलन हुआ, थोड़ी देर के लिए प्रदर्शन को मार दिया।

आप भाग्यशाली हैं कि ड्राइव 8 अभी तक मृत नहीं लगता है, इसलिए आपको डटलॉस के बिना ठीक करने में सक्षम होना चाहिए।

मैं दोनों ड्राइव को बदलकर शुरू करूंगा, और केबल बिछाने की जांच करना न भूलें। एक ढीला कनेक्शन इसका कारण बन सकता है, और यदि दृढ़ता से रूट नहीं किया जाता है, तो आसन्न ड्राइव में होने की अधिक संभावना है। इसके अलावा, कुछ मल्टीपोर्ट कार्ड में दो-पोर्ट कनेक्टर होते हैं, अगर ड्राइव 7 और ड्राइव 8 एक ही पर हैं, तो यह आपकी परेशानी का स्रोत हो सकता है।

— जेवियर
स्रोत

3

ड्राइव 8 सेवा अवरोध का कारण है, मैंने पहले ही इसे खींच लिया है। ड्राइव 7, जबकि इसने कुछ सेक्टर्स खो दिए हैं, जैसा कि कुछ समय के लिए इस राज्य में रहा है और अभी भी आम तौर पर अच्छा प्रदर्शन कर रहा है। नहीं, वे अलग-अलग जोड़े में हैं। (यह कुछ ऐसा था जिसे मैंने अपने कैक्टि / एसएनएमपी प्रश्नों के संभावित मिसलिग्न्मेंट के साथ माना था।) कार्ड में 16 पोर्ट, 4 केबल, 4 पोर्ट प्रति केबल एक बैक पेन है। यदि समस्या कार्ड, केबल या बैकपैन है तो मुझे जल्द ही पता चल जाएगा कि मैं ड्राइव 8 का प्रतिस्थापन सम्मिलित करता हूं।

— स्टु थॉम्पसन

3

SATA Interposer कार्ड एक अन्य समाधान हैं।

मैंने हाल ही में एक ही भाग्य का अनुभव किया और इस धागे को पाया। समग्र टेनर यह है कि एसएएस प्रोटोकॉल एसएटीए की तुलना में RAID के लिए बेहतर अनुकूल है, क्योंकि एसएटीए में सुविधाओं की कमी है। यही कारण है कि समान भौतिक ड्राइव एसएएस नियंत्रकों से लैस हैं, फिर नियरलाइन एसएएस के रूप में बेचा जाता है।

आगे की खोज, मैंने पाया:

http://www.lsi.com/products/storagecomponents/Pages/LSISS9252.aspx

मैं इनमें से एक बैच के साथ अपने एक स्टोर को अपग्रेड करने की जांच कर रहा हूं। अभी, 3 टीबी एसएटीए बनाम एसएएस के बीच का अंतर 400% (वेनिला मूल्य, समान ब्रांड, चश्मा और दुकान, जर्मनी) है। मैं स्पष्ट रूप से नहीं बता सकता कि क्या यह रणनीति अच्छी तरह से काम करती है, लेकिन यह एक कोशिश के लायक है।

टिप्पणियाँ बहुत स्वागत :-)

— korkman
स्रोत

1

अच्छा सिद्धांत है। कुछ जानकारी इकट्ठा करने के बाद, केवल स्टोरेज ट्रे निर्माता इन बोर्डों को एकीकृत कर सकते हैं और उन्हें जोड़ना जरूरी नहीं है कि बेहतर त्रुटि से निपटने में मदद करें।

— कॉर्कमैन

2

मैंने टूटे हुए इलेक्ट्रॉनिक्स के साथ एक SATA डिस्क देखी है, जो कि एक Areca 12something के फर्मवेयर इनिट को बंद कर देता है, किसी भी माध्यम से BIOS को अकेले एक्सेस करने का कोई तरीका नहीं था जब तक कि बाइनरी में डिस्क को खींचकर आक्रामक हार्ड ड्राइव को नहीं पाया गया। खोज फैशन।

— rackandboneman
स्रोत

हार्डवेयर SATA RAID-10 सरणी में एक एकल डिस्क पूरे सरणी को एक डरावने पड़ाव में कैसे ला सकती है?

प्रस्तावना:

आउटेज और रिकवरी:

पोस्टमार्टम:

प्रश्न)