ईसीसी रैम क्या है और यह बेहतर क्यों है?


31

मैंने सर्वरों पर ईसीसी रैम के उपयोग के बारे में एक विचलन देखा है। यह बेहतर क्यों है?


2
एक अन्य प्रश्न का उत्तर दिया गया प्रश्न: serverfault.com/questions/5817/…
sh-beta

क्या कोई प्रमाण है कि ईसीसी मेमोरी का उपयोग करना आवश्यक है या फायदेमंद है? कार्रवाई के लाभ और तंत्र को समझना आसान है, लेकिन मैंने इसके उपयोग को सही ठहराने के लिए कभी सबूत नहीं सुने हैं।
ड्रू स्टीफंस

और ऐसी मेमोरी (बिट) त्रुटियों का अनुभव करने के विभिन्न संभावित परिणाम क्या हैं? उदाहरण के लिए, मैंने बस एक सर्वर को बंद कर दिया है, जो 5 साल से नॉन-स्टॉप (ईसीसी रैम के साथ) के लिए ऑनलाइन था, और कुल मिलाकर सब ठीक हो गया, मुझे कभी भी उन ग्राहकों से कोई शिकायत नहीं थी जो वहां होस्ट किए गए थे या कभी एक प्रमुख अनुभव किया था इसके साथ गलती ... मेरे डेस्कटॉप कंप्यूटर अनुभव के साथ भी - यहां एक बीएसओडी और शायद ही कभी, लेकिन क्या यह सब है? :)
डेनिस वोलोविक 21

@ डेनिस, मुझे लगता है कि यदि आप चाहते हैं कि लोग आपके प्रश्न का उत्तर दें तो आपको टिप्पणी के बजाय इसे अलग प्रश्न के रूप में पूछना पड़ सकता है।
टोबी एलन

जवाबों:


28

ईसीसी रैम समता बिट्स का उपयोग करके, बिट्स में छोटी त्रुटियों से उबर सकती है। चूंकि सर्वर एक साझा संसाधन हैं जहां अप-टाइम और विश्वसनीयता महत्वपूर्ण हैं, आमतौर पर ईसीसी रैम का उपयोग केवल कीमत में मामूली अंतर के साथ किया जाता है। ECC RAM का उपयोग CAD / CAM वर्कस्टेशंस में भी किया जाता है, छोटी-छोटी त्रुटियां गणना की गलतियों का कारण बन सकती थीं जो एक डिज़ाइन के निर्माण में जाने पर अधिक महत्वपूर्ण समस्याएं बन जाती हैं।


5
कहीं भी एक संख्या में थोड़ी सी त्रुटि, किसी के छोटे व्यवसाय वित्त पैकेज सहित बहुत छोटा या बहुत बड़ा हो सकता है। यह सब किस बिट पर निर्भर करता है।
ज़ैन लिंक्स

इस तथ्य को जोड़ें कि जब आप समेकित करने के लिए वर्चुअलाइज किए गए हैं तो गलत जगह पर गलत त्रुटि एक से अधिक मशीन को नीचे ला सकती है।
मिकीब

1
मैं सिर्फ एक बेईमान कंपनी के लिए इंतजार कर रहा हूं ताकि दावा किया जा सके कि उनके लेखांकन धोखाधड़ी वास्तव में सिर्फ एक त्रुटि थी।
एल्फ जूल

29

उत्कृष्ट वास्तविक दुनिया का अध्ययन:

जंगली में DRAM त्रुटियाँ: एक बड़े पैमाने पर फील्ड अध्ययन (पीडीएफ)

यह पत्र क्षेत्र में DRAM मेमोरी त्रुटियों का पहला बड़े पैमाने पर अध्ययन प्रदान करता है। यह Google के सर्वर बेड़े से एकत्र किए गए डेटा पर आधारित है, जिसमें दो साल से अधिक की अवधि में कई मिलियन डीआईएमएम दिन हैं। हमारे अध्ययन में DRAM कई विक्रेताओं, DRAM घनत्व और प्रौद्योगिकियों (DDR1, DDR2 और FBDDM) को शामिल करता है।

पेपर निम्नलिखित प्रश्नों को संबोधित करता है: अभ्यास में स्मृति त्रुटि कॉम कैसे होती है? उनके सांख्यिकीय गुण क्या हैं? वे बाहरी कारकों, जैसे तापमान, और प्रणाली के उपयोग से कैसे प्रभावित होते हैं? और वे चिप-विशिष्ट कारकों, जैसे चिप घनत्व, स्मृति प्रौद्योगिकी और डीआईएमएम उम्र के साथ कैसे भिन्न होते हैं?

हम पाते हैं कि कई पहलुओं में क्षेत्र में DRAM की त्रुटियाँ आम तौर पर मानी जाने वाली तुलना में बहुत भिन्न होती हैं। उदाहरण के लिए, हम DRAM त्रुटि दरों का निरीक्षण करते हैं, जो पहले की रिपोर्ट की तुलना में अधिक परिमाण के आदेश हैं, जिसमें FIT दरें (प्रति बिलियन समय के अनुसार डिवाइस की विफलता) 25,000 से 70,000 प्रति Mbit और प्रति वर्ष 8% से अधिक DIMM प्रभावित हैं। हम इस बात का पुख्ता प्रमाण देते हैं कि मेमोरी में सॉफ्ट एरर के बजाय हार्ड एरर का वर्चस्व होता है, जो कि पिछले काम पर केंद्रित होता है। हम पाते हैं कि, उन सभी कारकों में से जो क्षेत्र में डीआईएमएम के त्रुटि व्यवहार को प्रभावित करते हैं, तापमान में आश्चर्यजनक रूप से छोटा प्रभाव होता है। अंत में, आमतौर पर आशंका के विपरीत, हम किसी भी संकेत का निरीक्षण नहीं करते हैं कि डीआईएमएम की नई पीढ़ियों के साथ प्रति-डीआईएमएम त्रुटि दर में वृद्धि होती है।

दिलचस्प है कि अधिकांश मेमोरी त्रुटियां कठिन थीं - हार्ड मेमोरी त्रुटियां अप्राप्य हैं, जिसका अर्थ है कि मेमोरी को भौतिक रूप से विफल होने के रूप में प्रतिस्थापित किया जाना है , जबकि सॉफ्ट मेमोरी त्रुटियों को सही मान के साथ मेमोरी को ओवरराइट करके तय किया जा सकता है। यह मुझे इंगित करता है कि ईसीसी का मूल्य काफी सीमित है।

आमतौर पर मेमोरी सिस्टम में दो तरह की त्रुटियां हो सकती हैं। पहले को रिपीटेबल या हार्ड एरर कहा जाता है। इस स्थिति में, हार्डवेयर का एक टुकड़ा टूट जाता है और लगातार गलत परिणाम देगा। थोड़ा अटक सकता है ताकि यह हमेशा उदाहरण के लिए "0" लौटाए, चाहे जो भी लिखा हो। हार्ड एरर आमतौर पर ढीले मेमोरी मॉड्यूल, उड़ाए गए चिप्स, मदरबोर्ड दोष या अन्य शारीरिक समस्याओं का संकेत देते हैं। वे निदान और सही करने के लिए अपेक्षाकृत आसान हैं क्योंकि वे लगातार और दोहराने योग्य हैं।

अध्ययन में सभी सर्वरों की तरह लगता है, हालांकि ईसीसी का इस्तेमाल किया, इसलिए हम ईसीसी बनाम गैर-ईसीसी त्रुटि दर नहीं जान सकते।

इस पत्र ने वस्तु सर्वरों के एक बड़े बेड़े में DRAM त्रुटियों की घटनाओं और विशेषताओं का अध्ययन किया। हमारा अध्ययन 2 से अधिक वर्षों से एकत्र किए गए डेटा पर आधारित है और इसमें कई विक्रेताओं, पीढ़ियों, प्रौद्योगिकियों और क्षमताओं के डीआईएमएम शामिल हैं। सभी DIMM कम से कम एकल बिट त्रुटियों को ठीक करने के लिए तर्क सुधार तर्क (ECC) से लैस थे।


5
+1 अच्छी रिपोर्ट। जबकि मुझे गैर-ईसीसी त्रुटि दर नहीं पता है , मेरा अनुमान है कि गैर-ईसीसी त्रुटि दर लगभग प्रति जीबी ईसीसी त्रुटि दर के समान है। उपयोग की गई समान RAM चिप्स ECC और गैर-ECC DIMMs दोनों में उपयोग की जाती हैं (ECC DIMMs केवल 9/8 का उपयोग कई चिप्स के रूप में करता है - 64-बिट डेटा शब्द, और 8/9 त्रुटि दर संग्रहीत करने के लिए 72 कच्चे मेमोरी बिट्स लगभग एक ही त्रुटि दर), और मुझे कोई कारण नहीं दिखता है कि एक ECC DIMM बनाम जब एक गैर- ECC DIMM पर रखा जाता है, तो RAM चिप में काफी भिन्न त्रुटि दर होती है।
डेविड कैरी

9

ECC समता पर कई फायदे हैं। एक के लिए, यह एकल-बिट त्रुटियों का पता लगा सकता है और उनकी मरम्मत कर सकता है और ऐसा पूरे सिस्टम को बंद किए बिना करता है। एकाधिक-बिट त्रुटियां अभी भी समता त्रुटि लौटाएंगी, लेकिन ऐसा तब तक हो सकता है जब तक कि पीसी स्वयं के जीवनकाल के दौरान खगोलीय रूप से कम न हो जाए जब तक कि स्मृति स्वयं दोषपूर्ण न हो। ECC ऑटो इंश्योरेंस की तरह है: यह आपको कई ऐसी चीजों के लिए कवर करता है जो गलत हो सकती हैं, लेकिन यह मल्टी-कार पाइलअप को रोक नहीं सकती हैं।

यहां अधिक विस्तार से: ईसीसी मेमोरी: ए सर्वर के लिए होना चाहिए, डेस्कटॉप पीसी के लिए नहीं


1
मैं लेख से असहमत हूं। मुझे लगता है कि सभी को ईसीसी का उपयोग करना चाहिए। मैं देने वाला नहीं था, लेकिन मैं एक नया कोर I7 चाहता था जो मैंने आखिर किया। हालाँकि, मुझे यकीन है कि मेरी 6GB RAM सभी जगह गलतियाँ कर रही है।
ज़ैन लिंक्स

4
@zan और इन त्रुटियों के बारे में आप "निश्चित" हैं, उनका क्या परिणाम है?
जेफ एटवुड

अनुमान मत लगाओ; MCE को सुधारने के लिए सही त्रुटियां होनी चाहिए जो OS में लॉग इन हो सकती हैं (सिस्टम लॉग इन विंडोज, लिनक्स में / var / log / mcelog)
मिकीबी

@ जेफ़एटवुड: आमतौर पर कुछ भी नहीं, लेकिन मुझे बिना किसी स्पष्ट कारण के कभी-कभी ब्लू-स्क्रीन मिली है। मेरे पास जो सिस्टम हैं उनमें ECC है मैं हर महीने एक बिट बिट त्रुटियों को देखूंगा।
ज़ेन लिंक्स

@JeffAtwood: और, हर किसी की तरह मुझे यकीन है, मुझे कभी-कभार एक एप्लिकेशन (Office। Visual Studio।) को फिर से इंस्टॉल करना पड़ा है क्योंकि यह स्पष्ट रूप से पागल हो गया है। ऐप बग या ईसीसी त्रुटि एक भ्रष्ट डिस्क फ़ाइल का कारण है? यदि आपके पास ईसीसी नहीं है तो कौन जानता है?
ज़ेन लिंक्स

5

चीजों को सरल बनाने के लिए, विकिपीडिया से उद्धृत :

कंप्यूटर सिस्टम के अंदर विद्युत या चुंबकीय हस्तक्षेप से DRAM का एक सा हिस्सा अनायास विपरीत स्थिति में आ सकता है। शुरू में यह सोचा गया था कि यह मुख्य रूप से चिप पैकेजिंग सामग्री में संदूषकों द्वारा उत्सर्जित अल्फा कणों के कारण था, लेकिन अनुसंधान [5] ने दिखाया है कि DRAM चिप्स में अधिकांश एक-बंद ("नरम") त्रुटियां पृष्ठभूमि विकिरण के परिणामस्वरूप होती हैं।
...
इस समस्या को डीआरएएम मॉड्यूल का उपयोग करके कम किया जा सकता है जिसमें अतिरिक्त मेमोरी बिट्स और मेमोरी कंट्रोलर्स शामिल हैं जो इन बिट्स का शोषण करते हैं। इन अतिरिक्त बिट्स का उपयोग समानता को रिकॉर्ड करने या त्रुटि-सुधार कोड का उपयोग करने के लिए किया जाता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.