क्या दोहरे सीपीयू दोष सहिष्णुता प्रदान करते हैं?


16

मान लीजिए कि मैंने दो Intel Xeon खरीदे हैं और उन्हें सर्वर क्लास हार्डवेयर में स्थापित किया है ... यदि एक सीपीयू विफल रहा तो दूसरा अभी भी कार्य करेगा और स्लैक उठाएगा, इसलिए गलती सहनशीलता प्रदान करता है?

यह बहुत संभव नहीं लगता है, लेकिन मुझे लगा कि मैं कोई धारणा बनाने के बजाय पूछूंगा।

जवाबों:


29

एक सामान्य दोहरे सॉकेट सिस्टम में, नहीं, हालांकि ऐसे सर्वर हैं जो प्रोसेसर और रैम के हॉट-स्वैपिंग की अनुमति देते हैं। तो इन बातों को करना मौजूद हैं, लेकिन वे बाजार की बहुत, बहुत उच्च अंत में कर रहे हैं।

यह वास्तव में एक बड़ी बात नहीं है - आपके सर्वर में सब कुछ जो विफल हो सकता है, प्रोसेसर सूची के नीचे सही है, उन छोटे ब्रास राइजर के बगल में जो चेसिस से मदरबोर्ड पकड़ते हैं।


1
खराब रूप से स्थापित थर्मल-पेस्ट पीक लोड के दौरान सीपीयू के ओवरहीटिंग का कारण बन सकता है। मुझे यकीन है कि सहज ब्रास रिसर विफलता की तुलना में इसके कई और मामले हैं।
Oddthinking

8
@ सोचकर मुझे लगता है कि आपने इसे बहुत गंभीरता से लिया है।
पीटर

5
गर्म swappable CPUs के साथ भी, सिस्टम अभी भी उनमें से एक की अचानक विफलता को बर्दाश्त नहीं करेगा। मान लीजिए कि ओएस कर्नेल वर्तमान में सीपीयू पर निष्पादित हो रहा है जो मर जाता है, यह दूसरे सीपीयू पर निष्पादन को फिर से शुरू नहीं कर सकता है। हॉट-स्वैपेबल सीपीयू के लिए, कर्नेल को पहले उस सीपीयू को शालीनतापूर्वक बंद करना होगा।
पैट्रिक

4
@Patrik: हाँ, ठीक है। आप जानते हैं - गलत;) यह उच्च अंत सीपीयू के लिए मानक व्यवहार है - दी गई, यह मेनफ्रेम है जहां सीपीयू की लागत 5000+ यूएसडी है। फिर भी, वे लेन-देन की मेमोरी का उपयोग करते हैं और लेनदेन को दूसरे सीपीयू पर फिर से शुरू किया जाएगा।
टॉमटॉम

5
@TomTom: बेशक, तब हम आदरणीय टैन्डेम (और इसके आधुनिक दिनों के उत्तराधिकारियों) की तरह बात कर रहे हैं, न कि वेनिला x86-64 आर्किटेक्चर की।
विस्कॉन्सिन

9

X86 कमोडिटी हार्डवेयर की बात करें तो, अगर कोई सिस्टम चल रहा है और सीपीयू विफल हो जाता है तो चीजें सामान्य रूप से रुक जाएंगी। हालांकि सिस्टम रिबूट के बाद ठीक काम करेगा, भले ही कुछ धीमा हो।

कई सीपीयू ज्यादातर समानांतर प्रसंस्करण के लिए होते हैं, वास्तव में गलती सहिष्णुता के लिए नहीं। लेकिन यह एक प्रणाली है कि अभी भी बूट एक सीपीयू (या अधिक) विफल होता है अच्छा है।

मैं कहूंगा कि मार्क हेंडरसन के सुझाव से आपके सीपीयू के विफल होने की संभावना थोड़ी अधिक है, लेकिन यह अभी भी बहुत संभावना नहीं है। मेरे अनुभव में ज्यादातर ऐसा तब होता है जब सिस्टम बार-बार ओवरहीट हो जाता है और अपने आप को बंद कर लेता है (यह बुरी तरह से एयरकंडिशंड ऑफिस सर्वर रूम में काफी आसान है)। सीपीयू बहुत पसंद नहीं करते हैं।

बेशक अगर आपके पास एक अच्छा आईबीएम मेनफ्रेम या समान था, तो एक सीपीयू (बोर्ड) को गर्म करना पर्याप्त "आसान" है।


हम्म, लेकिन हार्ड रिबूट के मामले में भी: IIRC यदि CPU # 0 विफल रहता है, तो आप अभी भी खराब हैं - कोई POST नहीं, जिसका अर्थ है आगे बूट नहीं, क्योंकि शुरुआती स्टार्टअप प्रक्रिया के लिए केवल पहले CPU का उपयोग किया जाता है।
विस्कॉन्सिन

मुझे नहीं पता कि क्या ऐसा होगा। मुझे इसे एक सर्वर पर परीक्षण करना चाहिए। मुझे लगा कि इससे कोई फर्क नहीं पड़ेगा और जब तक 1 सीपीयू मौजूद है सिस्टम ठीक बूट होगा।
asqq

5

यदि कोई CPU विफल होना था - जो कि अन्य उत्तरों के अनुसार बेहद कम संभावना है - मूल रूप से ऐसा कुछ भी नहीं है जिसे सिस्टम पुनर्प्राप्त करने के लिए कर सकता है। यह विफल होने के तरीके के आधार पर यह अजीब तरीके से मेमोरी को भ्रष्ट कर सकता है, या प्रक्रिया तालिका को नष्ट कर सकता है, या जो जानता है कि और क्या है। यदि आपके पास किसी प्रकार की सक्रिय निगरानी प्रणाली थी जो सीपीयू पर नजर बनाए रखती है, तो यह सुनिश्चित करने के लिए कि यह अच्छी तरह से काम कर रहा है (और कह सकता है, सीपीयू द्वारा अपनी मृत्यु के दौरान किए गए किसी भी परिवर्तन को वापस लें), वह भी एक अन्य प्रणाली होगी। प्रोग्राम को विफल करना और सॉफ़्टवेयर विफलता को निर्धारित करना, प्रोग्रामिक रूप से बहुत कठिन होता है (मूल रूप से एकमात्र तरीका, जो आप व्यावहारिक रूप से कर सकते हैं, वह यह है कि एक ही सीपीयू एक ही समय में एक ही सामान कर रहा है और परिणामों की तुलना कर सकता है - जो बाद में धीमी गति से समाप्त हो जाएगा। नीचे ऐसा है कि वहाँ '

कहा कि, सीपीयू की विफलता जितनी दुर्लभ है, एक प्रणाली में सीपीयू की संख्या बढ़ाना वास्तव में आपकी विफलता की दर को बढ़ा देगा, क्योंकि अब आपके पास कई चीजें हैं जो विफल हो सकती हैं। आपके पास अन्य सबसिस्टम भी हैं जो विफल हो सकते हैं, जैसे कि जो सीपीयू के कैश को संतुलित रखते हैं, और बिजली की खपत और थर्मल आउटपुट में वृद्धि भी समग्र सिस्टम विफलता के पीछे कारकों में योगदान करती है (और निश्चित रूप से, सक्रिय शीतलन प्रशंसक एक और हैं असफलता का बिंदु)।


1
+1 इंगित करने के लिए कि दोहरीकरण सीपीयू मशीन की विफलता क्षमता को बढ़ाता है। अधिक "चलती भागों" का अर्थ विफलता होने के लिए अधिक अवसर है।
इवान एंडरसन

4

आपको वास्तव में परिभाषित करना होगा कि आप किस प्रकार की विफलताओं को संभालना चाहते हैं। अगर हम नेटवर्क के रूप में साथ काम करने वाले कोर / सीपीयू / कंप्यूटर का संग्रह मानते हैं, तो एक प्रकार की विफलता यह है कि एक नोड बस जवाब देना बंद कर देता है। बहुत अधिक गंभीर विफलता तब होती है जब एक नोड भ्रष्ट डेटा को शुरू करता है और दूसरों को दोषपूर्ण जानकारी भेजता है। इसे एक बीजान्टिन विफलता कहा जाता है , और सबसे खराब स्थिति में यह रणनीतिक "झूठ" के माध्यम से नेटवर्क के संचालन को सक्रिय रूप से बाधित कर रहा है। यह दिखाना बहुत आसान है कि कोई भी सिस्टम बीजान्टिन जाने वाले अपने तीसरे या अधिक नोड्स को नहीं संभाल सकता है ।

आपको क्या करना है, यह तय करना है कि आप किस तरह की असफलताओं की उम्मीद कर रहे हैं, और अपने सिस्टम को उसी को ध्यान में रखते हुए डिजाइन करें, और इस तथ्य को स्वीकार करें कि दुर्भावनापूर्ण नोड्स की मनमानी संख्या को संभालने की समस्या असम्भव है। आपके मामले में, आपको कम से कम चार सीपीयू चाहिए अगर उनमें से एक दोषपूर्ण है।

एक ओर ध्यान दें: क्वांटम भौतिकी में कोई असंभव नहीं हैं, लेकिन अगर ब्रह्मांड की उम्र से अधिक समय तक इंतजार करना पड़ता है तो सांख्यिकीय रूप से एक निश्चित व्यवहार का निरीक्षण करने का मौका होता है, हमें यह कहने की ज़रूरत नहीं है कि यह संभव है। ध्यान रखें कि जब आप अपने सिस्टम को डिजाइन करें। ;)


2

सीपीयू की विफलता दुर्लभ हो सकती है। एक विफलता शायद ओएस स्तर पर अन्य समस्याओं का परिणाम होगी। मैं इसे दोष-सहिष्णुता का कोई रूप नहीं समझूंगा।


1

अन्य उत्तरों के रूप में, यह बहुत दुर्लभ है कि एक सीपीयू विफल हो जाता है, और औसत सर्वर में आप एक हॉट स्वैप नहीं कर सकते हैं, जो आप शायद कर सकते हैं वह सर्वर को एक सीपीयू के साथ छोड़ देता है जब तक कि असफल एक को बदल नहीं दिया जाता है, निश्चित रूप से, यह प्रक्रिया पूरी तरह से ऑफ़लाइन है और आपको सर्वर का एक स्टॉप करने की आवश्यकता है


1
वैसे मैं इसे सुपर रेयर नहीं कहूंगा। बस मेरे एक सर्वर पर हुआ। वर्तमान में यह समस्या निवारण की प्रक्रिया में है। दोहरी सीपीयू सर्वर सिर्फ सीपीयू के एक प्रशंसक की विफलता के कारण खो दिया है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.