ब्लेड चेसिस विफलता की संभावना


48

मेरे संगठन में हम रैक सर्वर के बजाय ब्लेड सर्वर खरीदने के बारे में सोच रहे हैं। बेशक प्रौद्योगिकी विक्रेताओं भी उन्हें बहुत अच्छा लगता है। एक चिंता, कि मैंने विभिन्न मंचों में बहुत बार पढ़ा है, यह है कि सर्वर चेसिस के नीचे जाने की एक सैद्धांतिक संभावना है - जिसके परिणामस्वरूप सभी ब्लेड नीचे ले जाएंगे। यह साझा बुनियादी ढांचे के कारण है।

इस संभावना पर मेरी प्रतिक्रिया अतिरेक और दो चेसिस के बजाय एक (बहुत महंगा कोर्स) होगी।

कुछ लोग (उदाहरण के लिए एचपी विक्रेताओं सहित) हमें समझाने की कोशिश करते हैं, कि कई अतिरेक (अनावश्यक बिजली की आपूर्ति, आदि) के कारण चेसिस बहुत असफल होने की संभावना नहीं है।

मेरी तरफ से एक और चिंता यह है कि अगर कुछ नीचे जाता है, तो स्पेयर पार्ट्स की आवश्यकता हो सकती है - जो हमारे स्थान (इथियोपिया) में मुश्किल है।

तो मैं अनुभवी प्रशासकों से पूछूंगा, कि ब्लेड सर्वर प्रबंधित किया गया है: आपका अनुभव क्या है? क्या वे समग्र रूप से नीचे जाते हैं - और समझदार साझा बुनियादी ढाँचा क्या है, जो विफल हो सकता है?

यह सवाल साझा भंडारण तक बढ़ाया जा सकता है। फिर मैं कहूंगा, कि हमें केवल एक के बजाय दो भंडारण इकाइयों की आवश्यकता है - और फिर से विक्रेताओं का कहना है, कि यह चीजें इतनी ठोस हैं, कि किसी भी विफलता की उम्मीद नहीं है।

ठीक है - मैं शायद ही विश्वास कर सकता हूं, कि इस तरह के एक महत्वपूर्ण बुनियादी ढांचे को अतिरेक के बिना बहुत विश्वसनीय हो सकता है - लेकिन शायद आप मुझे बता सकते हैं, कि क्या आपके पास सफल ब्लेड-आधारित परियोजनाएं हैं, जो कि इसके मुख्य भागों में अतिरेक के बिना काम करती हैं (चेसिस, भंडारण ... )

फिलहाल, हम एचपी को देखते हैं - क्योंकि आईबीएम बहुत महंगा दिखता है।


3
बड़ा सवाल है। मैं अपना उत्तर और कुछ वास्तविक जीवन विफलता परिदृश्य आज बाद में पोस्ट करूँगा।
ewwhite 17

क्या आपने देखा है कि उनके सी सर्वर में डेल क्या है? जैसे C6100 में 2U बॉक्स में 4 नोड होते हैं, जो 4 स्लॉट ब्लेड चेसिस के बराबर होता है। एक 10U ब्लेड चेसिस के बजाय आपको पांच 2U रैक सर्वर मिल सकते हैं। अब विफलता का एक भी बिंदु नहीं है, लेकिन आप बैकप्लेन के फायदे खो देते हैं। संभवतः HP / IBM के पास एक समान उत्पाद है।
jqa

जवाबों:


49

पूर्ण चेसिस विफलता की कम संभावना है ...

ब्लेड बाड़े की पूर्ण विफलता को बनाए रखने से पहले आपको अपनी सुविधा में समस्याओं का सामना करना पड़ेगा ।

मेरा अनुभव मुख्य रूप से HP C7000 और HP C3000 ब्लेड एनक्लोजर के साथ है। मैंने डेल और सुपरमाइक्रो ब्लेड समाधान भी प्रबंधित किया है। विक्रेता थोड़ा मायने रखता है। लेकिन सारांश में, एचपी गियर स्टेलर किया गया है, डेल ठीक हो गया है, और सुपरमाइक्रो की गुणवत्ता, लचीलापन में कमी थी और बस खराब तरीके से डिजाइन किया गया था। मैंने कभी भी एचपी और डेल की तरफ विफलताओं का अनुभव नहीं किया है। सुपरमाइक्रो के पास गंभीर परिणाम थे, जिससे हमें मंच छोड़ने के लिए मजबूर होना पड़ा। एचपी और डेल्स पर, मैंने कभी भी पूर्ण चेसिस विफलता का सामना नहीं किया है।

  • मेरे पास थर्मल इवेंट्स हैं। 10 घंटे तक 115 ° F / 46 ° C तापमान भेजने वाले सह-स्थान पर एयर-कंडीशनिंग विफल रही।
  • पावर सर्जेस और लाइन फेल्योर: ए / बी फीड के एक तरफ खो जाना। व्यक्तिगत बिजली की आपूर्ति विफल हो जाती है। मेरे ब्लेड सेटअप में आमतौर पर छह बिजली की आपूर्ति होती है, इसलिए पर्याप्त चेतावनी और अतिरेक है।
  • व्यक्तिगत ब्लेड सर्वर विफल रहता है। एक सर्वर के मुद्दे बाड़े में दूसरों को प्रभावित नहीं करते हैं।
  • चेसिस आग में ...

मैंने कई तरह के वातावरण देखे हैं और आदर्श डेटा सेंटर की स्थितियों और साथ ही कुछ मोटे स्थानों पर स्थापित करने का लाभ मिला है। HP C7000 और C3000 की तरफ, मुख्य बात यह है कि चेसिस पूरी तरह से मॉड्यूलर है। घटकों को पूरी इकाई को प्रभावित करने वाले घटक की विफलता के प्रभाव को कम करने के लिए डिज़ाइन किया गया है।

इसे इस तरह से सोचें ... मुख्य C7000 चेसिस में फ्रंट, (पैसिव) मिडप्लेन और बैकप्लेन असेंबली शामिल है। संरचनात्मक संलग्नक बस आगे और पीछे के घटकों को एक साथ रखता है और सिस्टम के वजन का समर्थन करता है। लगभग हर हिस्से को बदला जा सकता है ... मेरा विश्वास करो, मैंने बहुतों को परेशान किया है। मुख्य अतिरेक प्रशंसक / शीतलन, शक्ति और एक प्रबंधन नेटवर्किंग में हैं। प्रबंधन प्रोसेसर ( एचपी का ऑनबोर्ड प्रशासक ) अतिरेक के लिए जोड़ा जा सकता है, हालांकि सर्वर उनके बिना चल सकते हैं।

यहाँ छवि विवरण दर्ज करें

पूरी तरह से आबादी वाला संलग्नक - सामने का दृश्य। तल पर छह बिजली की आपूर्ति चेसिस की पूरी गहराई को चलाते हैं और बाड़े के पीछे एक मॉड्यूलर पावर बैकप्लेन असेंबली से जुड़ते हैं। बिजली आपूर्ति मोड विन्यास योग्य हैं: उदाहरण के लिए 3 + 3 या n + 1। तो बाड़े में निश्चित रूप से बिजली की अतिरेक है। यहाँ छवि विवरण दर्ज करें

पूरी तरह से आबादी वाला संलग्नक - रियर व्यू। रियर में वर्चुअल कनेक्ट नेटवर्किंग मॉड्यूल में एक आंतरिक क्रॉस-कनेक्ट है, इसलिए मैं एक तरफ या दूसरे को खो सकता हूं और अभी भी सर्वर से नेटवर्क कनेक्टिविटी बनाए रख सकता हूं। वहाँ छह गर्म swappable बिजली की आपूर्ति और दस गर्म swappable प्रशंसक हैं। यहाँ छवि विवरण दर्ज करें

खाली संलग्नक - सामने का दृश्य। ध्यान दें कि बाड़े के इस हिस्से में वास्तव में कुछ भी नहीं है। सभी कनेक्शन को मॉड्यूलर मिडप्लेन के माध्यम से पारित किया जाता है। यहाँ छवि विवरण दर्ज करें

मिडप्लेन असेंबली को हटाया गया नीचे मिडनप्लेन असेंबली के लिए छह पावर फीड पर ध्यान दें। यहाँ छवि विवरण दर्ज करें

मिडप्लेन असेंबली। यहां जादू पैदा होता है। 16 अलग-अलग डाउनप्लेन कनेक्शनों पर ध्यान दें: प्रत्येक ब्लेड सर्वर के लिए। मेरे पास अलग-अलग सर्वर सॉकेट / बे हैं जो पूरे बाड़े को मारने या अन्य सर्वरों को प्रभावित किए बिना विफल हो जाते हैं। यहाँ छवि विवरण दर्ज करें

बिजली की आपूर्ति backplane (s)। मानक एकल-चरण मॉड्यूल के नीचे 3ø इकाई। मैंने अपने डेटा केंद्र में बिजली वितरण को बदल दिया और बिजली वितरण के नए तरीके से निपटने के लिए बस बिजली की आपूर्ति को वापस ले लिया यहाँ छवि विवरण दर्ज करें

चेसिस कनेक्टर क्षति। यह विशेष संलग्नक असेंबली के दौरान गिरा दिया गया था, एक रिबन कनेक्टर से पिंस को तोड़कर। यह दिनों के लिए किसी का ध्यान नहीं गया, जिसके परिणामस्वरूप ब्लेड चेसिस FIRE को पकड़ रहा था ... यहाँ छवि विवरण दर्ज करें

यहाँ मिडप्लेन रिबन केबल के पवित्र अवशेष हैं। इसने चेसिस तापमान और पर्यावरण निगरानी में से कुछ को नियंत्रित किया। ब्लेड सर्वर बिना किसी घटना के चलते रहे। प्रभावित हिस्सों को निर्धारित समय के दौरान मेरे अवकाश पर बदल दिया गया, और सब कुछ ठीक था। यहाँ छवि विवरण दर्ज करें


C7000 के लिए +1। हमने पिछले दो वर्षों से एक को चलाया है, ठोस और कभी भी कोई भी मुद्दा, हार्डवेयर या प्रदर्शन बुद्धिमान नहीं था, बाड़े या ब्लेड पर।
tombull89

1
इससे सहमत होना होगा - हमारे पास डेल से विभिन्न प्रकार के ब्लेड चेसिस हैं और वे बहुत अधिक बुलेट-प्रूफ हैं। मुझे लगता है कि हमारे पास एक चेसिस पर एक कंट्रोलर मॉड्यूल फेल हो गया है और उसका शुद्ध परिणाम यह है कि जिस दिन हमें एक और कंट्रोलर और इसे फिट करने के लिए एक इंजीनियर को भेजना पड़ा था, उस दिन के लिए हम चेसिस को दूरस्थ रूप से प्रबंधित नहीं कर सके। नियंत्रक को बदलने के लिए विफलता या ऑपरेशन के कारण कोई वास्तविक ब्लेड डाउनटाइम नहीं।
रोब मोइर

1
मुझे @ewwhite से सहमत होना होगा। मैं चेसिस की किसी भी विफलता के बिना लगभग 8yrs नॉनस्टॉप के लिए c7000 चला रहा हूं। हम भी उन्हें HVAC विफलता के कारण कुछ घंटों के लिए 130'F में चल रहे थे और कुछ भी विफल नहीं हुआ था। ध्यान रखने वाली बड़ी बात यह है कि अपने पावर लोड को कई पावर पैनल पर विभाजित करना सुनिश्चित करें, और विफलता के एक बिंदु को खत्म करने के लिए अपनी नेटवर्किंग को कई स्विचों में विभाजित करें। केवल एक चीज जो हमने कभी खराब की है, कुछ ब्लेड सर्वर हार्ड ड्राइव हैं, लेकिन आप इसे पारंपरिक सर्वर में भी देखते हैं।
23 अगस्त को

20

मैं आठ वर्षों से ब्लेड सर्वरों की छोटी संख्या का प्रबंधन कर रहा हूं, और मुझे अभी तक एक सिस्टम-वाइड विफलता नहीं मिली है जिसने कई ब्लेड ऑफ़लाइन ले लिए हैं। मैं बिजली से संबंधित समस्याओं के कारण वास्तविक करीब आया हूं, लेकिन अभी तक चेसिस-व्यापक विफलता नहीं हुई है जो बाहरी स्रोतों के लिए जिम्मेदार नहीं थी।

आपका अवलोकन कि चेसिस एक एकल-बिंदु-विफलता का प्रतिनिधित्व करता है, सही है, हालांकि वे इन दिनों बड़ी मात्रा में अतिरेक का निर्माण करते हैं। ब्लेड सिस्टम के सभी मैंने ब्लेड के समानांतर पावर फीड, और कई नेटवर्क जैक अलग रास्तों से गुजर रहे हैं, और फाइबर-चैनल मल्टीपल पथ में ब्लेड से बैक-टू-रैक ऑप्टिकल पोर्ट के मामले में। यहां तक ​​कि चेसिस सूचना प्रणाली के कई रास्ते थे।

उपयुक्त नेटवर्क इंजीनियरिंग (अनावश्यक एनआईसी उपयोग, भंडारण के लिए एमपीआईओ) के साथ एकल-समस्या वाली घटनाएं पूरी तरह से जीवित हैं। इन प्रणालियों के साथ मेरे समय में, मुझे निम्नलिखित समस्याएं हुईं, जिनमें से कोई भी एक ब्लेड से अधिक प्रभावित नहीं हुई यदि कोई हो:

  • ब्लेड-रैक में दो बिजली-आपूर्ति विफल। लोड का समर्थन करने के लिए अन्य 4 में पर्याप्त अतिरेक था।
  • 3-चरण बिजली-आपूर्ति के लिए एक चरण का चयन। ये आपूर्ति इन दिनों दुर्लभ हैं, लेकिन अन्य दो चरणों में लोड का समर्थन करने की पर्याप्त क्षमता थी।
  • एक अंतर-चेसिस प्रबंधन लूप खोना। किसी अन्य कॉल पर एक वेंडर टेक से पहले कई सालों तक ऐसा ही था।
  • इंटर-चेसिस प्रबंधन पूरी तरह से खो देता है। हमने प्रबंधन-कंसोल एक्सेस को खो दिया, लेकिन सर्वर ऐसे ही चलते रहे जैसे कि कुछ भी गलत न हो।
  • किसी ने गलती से बैक-ऑफ़-रैक नेटवर्क बैकप्लेन को रिबूट कर दिया। उस चेसिस में सब कुछ अनावश्यक एनआईसी का उपयोग कर रहा था ताकि सेवा में कोई रुकावट न हो; सभी ट्रैफ़िक दूसरे बैकप्लेन में चले गए।

लागत के बारे में टॉमटॉम की बात बहुत सच है। पूर्ण लागत-समता प्राप्त करने के लिए आपके ब्लेड चेसिस को पूरी तरह से लोड करना होगा और बैक-ऑफ-रैक स्विच जैसी विशेष चीजों का उपयोग नहीं करने की संभावना है। ब्लेड-रैक उन क्षेत्रों में समझ में आता है जहाँ आपको वास्तव में घनत्व की आवश्यकता होती है क्योंकि आप अंतरिक्ष-विवश हैं


सिवाय इसके कि सुपरमाइक्रो ट्विन आर्किटेक्चर आपको प्रति कंप्यूटर दो टीयू प्रति कंप्यूटर दो सॉकेट के साथ देता है - जो कि आपको एमओएसटी ब्लेड के साथ मिलता है। यह निश्चित रूप से बहुत घना है;) केवल उच्च घनत्व मुझे पता है कि आइवी पुल का उपयोग कर डेल ब्लेड हैं ... लेकिन वे तुलना में अधिक सीमित हैं।
TomTom

@tomtom लेकिन सुपरमाइक्रो ट्विन निरर्थक साइनस प्रदान करता है? हमने सिर्फ एक का निर्माण किया और मुझे वह विकल्प कहीं भी दिखाई नहीं दिया। हम सिर्फ मामले में हाथ पर रखने के लिए एक ठंडा स्पेयर पासा खरीदा।
जेफ एटवुड 20

@ जेफ़एटवुड, मैंने सुपरमाइक्रो के 1U जुड़वाँ में निरर्थक सार्वजनिक उपक्रमों को नहीं देखा है, लेकिन 2U 4-नोड ट्विन-जुड़वाँ की उनकी पंक्ति उनके पास है। उदाहरण है
चार्ल्स

साथ ही किसे परवाह है। रैक में एक अतिरिक्त बिजली की आपूर्ति करें। रिप्लेसमेंट में सेकंड लगते हैं।
टॉमटॉम

14

यह सवाल साझा भंडारण तक बढ़ाया जा सकता है। फिर मैं कहूंगा, कि हमें केवल एक के बजाय दो भंडारण इकाइयों की आवश्यकता है - और फिर से विक्रेताओं का कहना है, कि यह चीजें इतनी ठोस हैं, कि किसी भी विफलता की उम्मीद नहीं है।

दरअसल नहीं। आप अब तक की गई समझ की चिंता करते हैं, यह वाक्य उन्हें "आपकी आंखों के सामने सामान पढ़ने" में डालता है। पूर्ण प्रतिकृति के साथ हा भंडारण इकाइयों के लिए एक ज्ञात उद्यम सुविधा है। पॉइंट यह है कि एक SAN (स्टोरेज यूनिट एक ब्लेड चेसिस की तुलना में बहुत अधिक जटिल है कि अंत में सिर्फ "बेवकूफ धातु" है। कुछ बैकप्लेन को छोड़कर ब्लेड चेसिस में सब कुछ बदली है - सभी मॉड्यूल आदि बदली हैं, और व्यक्तिगत ब्लेड हैं) विफल होने की अनुमति है। कोई भी कहता है कि ब्लेड केंद्र अपने आप में ब्लेड को उच्च उपलब्धता देता है।

यह एक SAN से बहुत अलग है, जो कि 100% समय तक माना जाता है - सुसंगत स्थिति में - इसलिए आपके पास प्रतिकृति आदि का सामान है।

इस SAID: अपने नंबर देखें। मैंने कुछ समय के लिए ब्लेड खरीदने पर विचार किया है और वे कभी भी वित्तीय नियमों की जांच नहीं करते हैं। हवाई जहाज़ के पहिये बहुत महंगे हैं और ब्लेड सामान्य कंप्यूटर की तुलना में वास्तव में सस्ता नहीं है। मैं विकल्प के रूप में सुपरमाइक्रो ट्विन वास्तुकला को देखने का सुझाव दूंगा।


जुड़वाँ और जुड़वाँ जुड़वाँ (2U 4-नोड) ब्लेड के लिए बढ़िया विकल्प हैं । इंटेल भी ट्विन और ट्विन-ट्विन सर्वर की एक लाइन बनाता है।
चार्ल्स

@ दोस्तों क्या आपको पता है कि आपके फैट जुड़वाँ हैं? 4 मशीनों में 8 यू;)
टॉमटॉम

मैंने एक देखा है, लेकिन इसके साथ खेलने या मूल्यांकन करने का मौका नहीं मिला है।
चार्ल्स

4

मेरे द्वारा अनुभव किए गए ब्लेड सर्वर आईबीएम से हैं। वे विशेष रूप से पूरी तरह से मॉड्यूलर हैं और इसमें बहुत अधिक अतिरेक का निर्माण किया गया है। इसलिए, अगर कुछ विफल हो रहा है, तो यह पीएसयू या मॉड्यूलर स्विच आदि जैसे घटकों में से एक होने जा रहा है, लेकिन फिर भी, उनमें अतिरेक भी है।

आईबीएम ब्लेड के साथ शामिल होने के बाद मैंने पहले पूर्ण विफलता नहीं देखी है।

अन्य ब्रांडों के साथ मुझे संदेह है कि उनका निर्माण इसी तरह से किया जाएगा।
एक विक्रेता के साथ भी बात करना और बहुत अधिक पढ़ना अच्छा होगा।
यह एक बड़ा निवेश है।


1

एक ही बाड़े में कई ब्लेड सर्वर आउटेज के लिए विफलताएं एक ही रैक में कई सर्वर आउटेज के लिए असफलताओं की संभावना (संभावना और कारण) में तुलनीय हैं।

असफलता के एकल बिंदुओं को कम करने के लिए प्रारंभिक सेट अप (दो अलग-अलग एसी पावर के स्रोत, जिनमें से प्रत्येक पूरे लोड को संभाल सकता है, अलग डीसी बिजली की आपूर्ति के लिए चल रहा है, जैसे कि या तो आधा पूरे लोड को संभाल सकता है; दो अलग नेटवर्क अटैचमेंट, या तो ; जो पूरे अपेक्षित भार को संभाल सकता है, आदि) और एक चेसिस में सभी ब्लेड को बाहर निकालने या किसी रैक में सभी 2U सर्वर के बीच अंतर बहुत छोटा है।


1

एक चिंता, कि मैंने विभिन्न मंचों में बहुत बार पढ़ा है, यह है कि सर्वर चेसिस के नीचे जाने की एक सैद्धांतिक संभावना है - जिसके परिणामस्वरूप सभी ब्लेड नीचे ले जाएंगे। यह साझा बुनियादी ढांचे के कारण है।

वास्तव में! लगभग 5 साल पहले, दो एचपी प्रोलिएंट पी-क्लास ब्लेड बाड़ों का प्रबंधन करते हुए, मुझे कई बार चेसिस के व्यापक मुद्दों का सामना करना पड़ा।

मेरे पास ब्लेड सर्वर हैं जो चालू नहीं कर पा रहे हैं, अगर वे बंद हो गए थे (सर्वर अक्सर बंद नहीं होते हैं, लेकिन हमारे लिए एक बहुत ही वास्तविक समस्या बन गई है)। मेरे पास सर्वर अचानक स्विच ऑफ हो रहे हैं और फिर से स्विच करने में सक्षम नहीं हो रहे हैं। अंत में, मेरे पास स्विच करने और फिर से आने में सक्षम नहीं होने वाले सभी सर्वर थे।

जैसा कि मैंने इसे याद किया, बहुत सारे मुद्दों को खराब पावर बैकप्लेन या कंट्रोलर बैकप्लेन के लिए जिम्मेदार ठहराया गया था। हमारे पास कई बार आए और गैर-विशिष्ट, ऑफ-द-रिकॉर्ड संदेश जो मुझे तकनीक से मिले थे, वे थे कि ब्लेड के बाड़ों की इस पीढ़ी के साथ उनकी समस्याओं का हिस्सा था।

मैंने फिर से फैसला किया, कि ब्लेड सर्वर का लाभ केवल जोखिम के लायक नहीं था, अगर मुझे भविष्य की खरीद में कुछ भी कहना है।

उस मामले के लिए मेरे अगले नियोक्ता, और मेरे वर्तमान एक के लिए तेजी से आगे। उनके पास पहले से ही एचपी प्रोलिएंट सी-क्लास बाड़े चल रहे थे, इसलिए ब्लेड के लिए मेरी ल्यूक गर्म भावना वास्तव में मायने नहीं रखती थी। 5 साल में मैंने सी-क्लास के बाड़ों से निपटा है, मैंने कभी भी ऐसा कुछ अनुभव नहीं किया, जैसा मैंने पी-क्लास के साथ किया, जहां एक पूरा एनक्लोजर मेरे ऊपर असफल रहा। वे बड़ी समस्याओं के बिना चल रहे हैं।

(उस समय को छोड़कर जब बारिश की आंधी ने छत के माध्यम से बारिश को भेजा, 4 कहानियाँ, कंप्यूटर कमरे की सील में एक छोटा सा छेद, एक केबल के नीचे और चेसिस में)


-1

डेल और एचपी ब्लेड चेसिस दोनों में बेमानी मिड-प्लेन का अभाव है। यह वह जगह है जहाँ IBM Bladecenter विजेता साबित होता है। मेरे ज्ञान के लिए इसकी एकमात्र ब्लेड चेसिस जो एक बेमानी मध्य विमान प्रदान करती है। हालाँकि, HP ब्लेड के लिए प्रबंधन सॉफ्टवेयर का एक शानदार सूट प्रदान करता है, हमने पूरी चेसिस की विफलता के एक बिंदु से बचने के लिए हमारी कंपनी के लिए एक Bladecenter E खरीदा।


यह वास्तव में आईबीएम विपणन सामग्री क्या है मुझे बताओ; वे पूरी तरह से निरर्थक ब्लेड समाधान के साथ एकमात्र विक्रेता हैं। हालाँकि, इस थ्रेड में अन्य संदेशों को पढ़ने के बाद ऐसा लगता है कि HP समाधानों में यह सुविधा है।
मार्टीजन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.