ZFS - L2ARC कैश डिवाइस विफलता (नेक्सेंटा) का प्रभाव


10

मेरे पास एक HP ProLiant DL380 G7 सर्वर है जो नेक्सेंटास्टोर स्टोरेज यूनिट के रूप में चल रहा है । सर्वर में 36GB रैम, 2 LSI 9211-8i SAS कंट्रोलर (कोई एसएएस एक्सपैंडर नहीं), 2 एसएएस सिस्टम ड्राइव, 12 एसएएस डेटा ड्राइव, एक हॉट-स्पेयर डिस्क, एक इंटेल X25-M L2ARC कैश और एक DDR3 PCI ZIL त्वरक है। यह प्रणाली कई VMWare मेजबानों के लिए NFS परोसती है। मेरे पास सरणी पर लगभग 90-100GB डेडिकेटेड डेटा भी है।

मेरे पास दो घटनाएं हैं, जहां प्रदर्शन अचानक अचानक समाप्त हो गया, जिससे वीएम मेहमान और नेक्सेंटा एसएसएच / वेब कंसोल अप्राप्य हो गए और कार्यक्षमता को बहाल करने के लिए सरणी के पूर्ण रीबूट की आवश्यकता थी। दोनों ही मामलों में, यह इंटेल X-25M L2ARC SSD था जो विफल हुआ या "ऑफ़लाइन" किया गया था। NexentaStor कैश विफलता पर मुझे सचेत करने में विफल रहा, हालांकि सामान्य ZFS FMA अलर्ट (गैर-जिम्मेदार) कंसोल स्क्रीन पर दिखाई दे रहा था।

यहाँ छवि विवरण दर्ज करें

zpool statusउत्पादन से पता चला है:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

इसने नेक्सेंटा के भीतर से किसी भी अलर्ट को ट्रिगर नहीं किया।

मैं इस धारणा के तहत था कि L2ARC की विफलता प्रणाली को प्रभावित नहीं करेगी। लेकिन इस मामले में, यह निश्चित रूप से अपराधी था। मैंने RAID L2ARC के लिए कोई सिफारिश नहीं देखी है। सर्वर से पूरी तरह से खराब एसएसडी को हटाने से मुझे वापस चला गया, लेकिन मैं डिवाइस की विफलता (और शायद नेक्सेंटास्टोर से अधिसूचना की कमी) के प्रभाव के बारे में चिंतित हूं।

संपादित करें - इन दिनों L2ARC कैश अनुप्रयोगों के लिए वर्तमान सर्वोत्तम विकल्प SSD क्या है?


क्या यह संभव है कि आपके SSD या SATA पोर्ट में हार्डवेयर समस्याएँ हैं?
19 फरवरी को तेगेंस

यह एक HP SAS बैकप्लेन है। मैंने कभी भी किसी को (लिनक्स) तैनाती में विफल नहीं देखा है या परेशानी नहीं है, लेकिन मुझे पूरा यकीन है कि विफलता उपभोक्ता-वर्ग के एसएसडी का एक कार्य है। मैं विफलता को स्वीकार कर सकता हूं, लेकिन शेष डिस्क और समग्र भंडारण प्रणाली पर प्रभाव बड़ी समस्या है।
ewwhite

विशेष रूप से, पोगो लिनक्स (जिन्हें मैं नेक्सेंटा का सबसे बड़ा इंटीग्रेटर / रीसेलर समझा जाता है) अब इंटेल के फर्मवेयर के बाद के संस्करणों में समस्याओं के कारण L2ARC या ZIL के विकल्प के रूप में Intel X25 उपकरणों की पेशकश नहीं करता है।
स्काईवॉक

और अनुशंसित प्रतिस्थापन है (बनाओ, मॉडल, मूल्य)?
19

1
वैसे, नई इंटेल 320 श्रृंखला एक L2ARC या यहां तक ​​कि ZIL डिवाइस के रूप में प्रयास करने के लिए दिलचस्प हो सकती है: यह कैपेसिटर-समर्थित है, और यद्यपि लेखन धीरज सीमित है (मॉडल के आधार पर 60 टेराबाइट तक), पहनने का प्रतिशत शेष स्मार्ट विशेषता ई 9 का उपयोग करके ट्रैक किया जा सकता है (100 से शुरू होता है और 1 से नीचे गिना जाता है)। मुझे संदेह है कि कई ZFS उपयोगकर्ता E9 को 1 के पास जाने से रोकने के लिए आवश्यकतानुसार इस उपकरण को बदल सकते हैं, बिना संचयी खर्च के भी कभी-कभार तुलनात्मक रूप से SLC ड्राइव की लागत के करीब पहुँच सकते हैं।
स्काईवॉक

जवाबों:


10

ZFS डिस्क I / O नहीं करता है, ZFS do डिस्क I / O से नीचे के डिवाइस ड्राइवर। यदि डिवाइस समय पर ढंग से प्रतिक्रिया नहीं देता है, या जैसा कि इस मामले में, विस्तारक पर अन्य सभी उपकरणों को बाधित करता है, तो यह ZFS की विफलता के रूप में दिखाई नहीं देता है। सभी ZFS देखता है एक धीमी I / O है।

इंटेल X-25M फर्मवेयर में एक बग है जो भारी भार के दौरान उनके व्यवहार को प्रभावित करता है और रीसेट तूफानों का कारण बन सकता है। यह समस्या सभी OS को प्रभावित करती है और इसे OS परत पर हल नहीं किया जा सकता है। कृपया अपने हार्डवेयर सप्लायर से फ़िक्सेस या रेमेडिएशन के लिए संपर्क करें।

यदि L2ARC द्वारा किसी रीड के संतुष्ट होने की उम्मीद की जाती है, तो रीड को वहां करने का प्रयास किया जाएगा। ZFS तब किसी त्रुटि की रिपोर्ट करने के लिए निचली परत के ड्राइवरों पर निर्भर करता है। इस स्थिति के लिए, ड्राइवर, डिवाइस और डिफ़ॉल्ट टाइमआउट सेटिंग्स के आधार पर, I / O को विफल घोषित करने से पहले ड्राइव 5 मिनट के लिए रीसेट और पुन: प्रयास करना जारी रखता है। निचली परत के चालक I / O की घोषणा करने के बाद ही विफल होंगे, ZFS पूल पर पुन: प्रयास करेगा।

NexentaStor का वॉल्यूम-चेक और डिस्क-चेक धावक अतिरिक्त त्रुटि संदेशों के लिए देखते हैं और आपको ईमेल और गलती लॉगिंग के माध्यम से सचेत करते हैं। डिस्क-चेक रनर को 3.1 रिलीज में सुधार किया गया है ताकि विशेष रूप से SSDs में टूटे फर्मवेयर द्वारा प्रदर्शित स्थितियों के लिए आपको सचेत करने में मदद मिल सके।

नीचे पंक्ति: आपका हार्डवेयर दोषपूर्ण है और इसे ठीक करने या बदलने की आवश्यकता होगी।


2
धन्यवाद। इसलिए मैं अब किसी भी Intel X-25 का उपयोग नहीं करूंगा। मैं इसे बदलने के लिए एक नए L2ARC SSD डिवाइस के लिए एक परीक्षण, सिफारिश करना चाहता हूं।
19

3

क्या आप X25-M SSD को बैकप्लेन से जोड़ रहे हैं? Nexenta के साथ एक ज्ञात समस्या है और L2ARC को एक बैकप्लेन पर एक्सेस करना है। आपका सबसे अच्छा शर्त SSD को मदरबोर्ड पर सीधे SATA पोर्ट से जोड़ना है। सुनिश्चित करें कि यह एएचसीआई का उपयोग करने के लिए कॉन्फ़िगर किया गया है।

यदि आप इस सर्वर पर कुछ भी महत्वपूर्ण मिशन चला रहे हैं, तो मैं एक SLC SSD (X25-E या STEC SSD की तरह) बदलूंगा। कहा जा रहा है, आप शायद X25-M के साथ ठीक होंगे अगर यह नहीं है।


हां, मैं एक सामान्य ड्राइव बे के माध्यम से कनेक्ट कर रहा हूं। मेरे पास एक ही इंटेल एसएसडी के साथ अन्य इंस्टॉलेशन हैं जो L2ARC (सन और एचपी हार्डवेयर में) के रूप में चल रहे हैं। इस विशेष ने मुझे परेशानी दी है, हालांकि। मेरे शोध से प्रतीत होता है कि L2ARC को ZIL (इसलिए SLC और PCI- आधारित ZIL समाधानों का उपयोग और L2ARC के लिए एक उपभोक्ता ड्राइव) के रूप में मजबूत होने की आवश्यकता नहीं थी। क्या यह बदल गया है?
इविहित

मैं मदरबोर्ड पर सीधे एसएसडी को प्लग करने की कोशिश करूंगा और देखूंगा कि क्या काम करता है। यदि आपके पास अतिरिक्त काम करने वाला X25-M है, तो आप वर्तमान को बदलने की कोशिश कर सकते हैं और देख सकते हैं कि एसएसडी स्वयं खराब है या नहीं। एसएलसी एसएसडी पर: यह आपके जोखिम के स्तर पर निर्भर है। यदि आप एक SLA पर सॉफ़्टवेयर चला रहे हैं जो कभी भी नीचे नहीं जा सकता है और उसे तेज़ी से चलाना है, तो उच्च अंत SSD खरीदना सस्ता हो सकता है।
जिप्पी

मैं यह कहने की कोशिश कर रहा हूं कि अधिकांश लेखों और चर्चाओं में L2ARC के लिए Intel X25-M की सिफारिश की गई है, जिन्हें मैंने ऑनलाइन देखा है। यदि ऐसा नहीं है, तो पसंदीदा डिवाइस क्या है?
ewwhite

1
@ewwhite: सिद्धांत रूप में, L2ARC डिवाइस की विफलता गैर-विघटनकारी होनी चाहिए क्योंकि ZFS डिस्क को पढ़ने के लिए वापस गिर सकता है (जाहिर है कि प्रदर्शन हिट होगा)। व्यवहार में .. ठीक है, ऐसा लगता है कि आपने एक जेडएफएस या एससीआई ड्राइवर बग मारा है जो एसएसडी व्यवहार से ट्रिगर हो जाता है।
टॉम शॉ

1
@ नया: मुझे शायद आपको कुछ और व्यावहारिक सलाह देनी चाहिए। यदि आप अगली बार आपके सिस्टम के wedges को डंप करने के लिए सिस्टम क्रैश उत्पन्न करना चाहते हैं, तो यहां दिए गए निर्देशों का पालन करें । इस तरह का डंप इलुमोस डेवलपर्स के लिए उपयोगी हो सकता है।
टॉम शॉ

0

एड, ऐसे कई हैं जो आप मूल्य में अपेक्षाकृत उचित से लेकर बहुत महंगा तक उपयोग कर सकते हैं। मैं सभी मामलों में एसएएस एसएसडी को तैनात करना पसंद करता हूं और एसटीईसी और प्लांट दोनों के साथ बहुत अच्छा काम किया है। दोनों अब एक MLC ड्राइव की पेशकश करते हैं जो प्रसिद्ध रूप से काम करेगा L2ARC डिवाइस। अभी तक परीक्षण नहीं किया गया है लेकिन जल्द ही आ रहा है कि सीगेट एसएलसी 2.0 से एसएसडी की पेशकश है और "महंगा नहीं" होने की अफवाह है। बने रहें....

-PB

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.