मैंने सर्वरों पर ईसीसी रैम के उपयोग के बारे में एक विचलन देखा है। यह बेहतर क्यों है?
मैंने सर्वरों पर ईसीसी रैम के उपयोग के बारे में एक विचलन देखा है। यह बेहतर क्यों है?
जवाबों:
ईसीसी रैम समता बिट्स का उपयोग करके, बिट्स में छोटी त्रुटियों से उबर सकती है। चूंकि सर्वर एक साझा संसाधन हैं जहां अप-टाइम और विश्वसनीयता महत्वपूर्ण हैं, आमतौर पर ईसीसी रैम का उपयोग केवल कीमत में मामूली अंतर के साथ किया जाता है। ECC RAM का उपयोग CAD / CAM वर्कस्टेशंस में भी किया जाता है, छोटी-छोटी त्रुटियां गणना की गलतियों का कारण बन सकती थीं जो एक डिज़ाइन के निर्माण में जाने पर अधिक महत्वपूर्ण समस्याएं बन जाती हैं।
उत्कृष्ट वास्तविक दुनिया का अध्ययन:
जंगली में DRAM त्रुटियाँ: एक बड़े पैमाने पर फील्ड अध्ययन (पीडीएफ)
यह पत्र क्षेत्र में DRAM मेमोरी त्रुटियों का पहला बड़े पैमाने पर अध्ययन प्रदान करता है। यह Google के सर्वर बेड़े से एकत्र किए गए डेटा पर आधारित है, जिसमें दो साल से अधिक की अवधि में कई मिलियन डीआईएमएम दिन हैं। हमारे अध्ययन में DRAM कई विक्रेताओं, DRAM घनत्व और प्रौद्योगिकियों (DDR1, DDR2 और FBDDM) को शामिल करता है।
पेपर निम्नलिखित प्रश्नों को संबोधित करता है: अभ्यास में स्मृति त्रुटि कॉम कैसे होती है? उनके सांख्यिकीय गुण क्या हैं? वे बाहरी कारकों, जैसे तापमान, और प्रणाली के उपयोग से कैसे प्रभावित होते हैं? और वे चिप-विशिष्ट कारकों, जैसे चिप घनत्व, स्मृति प्रौद्योगिकी और डीआईएमएम उम्र के साथ कैसे भिन्न होते हैं?
हम पाते हैं कि कई पहलुओं में क्षेत्र में DRAM की त्रुटियाँ आम तौर पर मानी जाने वाली तुलना में बहुत भिन्न होती हैं। उदाहरण के लिए, हम DRAM त्रुटि दरों का निरीक्षण करते हैं, जो पहले की रिपोर्ट की तुलना में अधिक परिमाण के आदेश हैं, जिसमें FIT दरें (प्रति बिलियन समय के अनुसार डिवाइस की विफलता) 25,000 से 70,000 प्रति Mbit और प्रति वर्ष 8% से अधिक DIMM प्रभावित हैं। हम इस बात का पुख्ता प्रमाण देते हैं कि मेमोरी में सॉफ्ट एरर के बजाय हार्ड एरर का वर्चस्व होता है, जो कि पिछले काम पर केंद्रित होता है। हम पाते हैं कि, उन सभी कारकों में से जो क्षेत्र में डीआईएमएम के त्रुटि व्यवहार को प्रभावित करते हैं, तापमान में आश्चर्यजनक रूप से छोटा प्रभाव होता है। अंत में, आमतौर पर आशंका के विपरीत, हम किसी भी संकेत का निरीक्षण नहीं करते हैं कि डीआईएमएम की नई पीढ़ियों के साथ प्रति-डीआईएमएम त्रुटि दर में वृद्धि होती है।
दिलचस्प है कि अधिकांश मेमोरी त्रुटियां कठिन थीं - हार्ड मेमोरी त्रुटियां अप्राप्य हैं, जिसका अर्थ है कि मेमोरी को भौतिक रूप से विफल होने के रूप में प्रतिस्थापित किया जाना है , जबकि सॉफ्ट मेमोरी त्रुटियों को सही मान के साथ मेमोरी को ओवरराइट करके तय किया जा सकता है। यह मुझे इंगित करता है कि ईसीसी का मूल्य काफी सीमित है।
आमतौर पर मेमोरी सिस्टम में दो तरह की त्रुटियां हो सकती हैं। पहले को रिपीटेबल या हार्ड एरर कहा जाता है। इस स्थिति में, हार्डवेयर का एक टुकड़ा टूट जाता है और लगातार गलत परिणाम देगा। थोड़ा अटक सकता है ताकि यह हमेशा उदाहरण के लिए "0" लौटाए, चाहे जो भी लिखा हो। हार्ड एरर आमतौर पर ढीले मेमोरी मॉड्यूल, उड़ाए गए चिप्स, मदरबोर्ड दोष या अन्य शारीरिक समस्याओं का संकेत देते हैं। वे निदान और सही करने के लिए अपेक्षाकृत आसान हैं क्योंकि वे लगातार और दोहराने योग्य हैं।
अध्ययन में सभी सर्वरों की तरह लगता है, हालांकि ईसीसी का इस्तेमाल किया, इसलिए हम ईसीसी बनाम गैर-ईसीसी त्रुटि दर नहीं जान सकते।
इस पत्र ने वस्तु सर्वरों के एक बड़े बेड़े में DRAM त्रुटियों की घटनाओं और विशेषताओं का अध्ययन किया। हमारा अध्ययन 2 से अधिक वर्षों से एकत्र किए गए डेटा पर आधारित है और इसमें कई विक्रेताओं, पीढ़ियों, प्रौद्योगिकियों और क्षमताओं के डीआईएमएम शामिल हैं। सभी DIMM कम से कम एकल बिट त्रुटियों को ठीक करने के लिए तर्क सुधार तर्क (ECC) से लैस थे।
ECC समता पर कई फायदे हैं। एक के लिए, यह एकल-बिट त्रुटियों का पता लगा सकता है और उनकी मरम्मत कर सकता है और ऐसा पूरे सिस्टम को बंद किए बिना करता है। एकाधिक-बिट त्रुटियां अभी भी समता त्रुटि लौटाएंगी, लेकिन ऐसा तब तक हो सकता है जब तक कि पीसी स्वयं के जीवनकाल के दौरान खगोलीय रूप से कम न हो जाए जब तक कि स्मृति स्वयं दोषपूर्ण न हो। ECC ऑटो इंश्योरेंस की तरह है: यह आपको कई ऐसी चीजों के लिए कवर करता है जो गलत हो सकती हैं, लेकिन यह मल्टी-कार पाइलअप को रोक नहीं सकती हैं।
यहां अधिक विस्तार से: ईसीसी मेमोरी: ए सर्वर के लिए होना चाहिए, डेस्कटॉप पीसी के लिए नहीं
चीजों को सरल बनाने के लिए, विकिपीडिया से उद्धृत :
कंप्यूटर सिस्टम के अंदर विद्युत या चुंबकीय हस्तक्षेप से DRAM का एक सा हिस्सा अनायास विपरीत स्थिति में आ सकता है। शुरू में यह सोचा गया था कि यह मुख्य रूप से चिप पैकेजिंग सामग्री में संदूषकों द्वारा उत्सर्जित अल्फा कणों के कारण था, लेकिन अनुसंधान [5] ने दिखाया है कि DRAM चिप्स में अधिकांश एक-बंद ("नरम") त्रुटियां पृष्ठभूमि विकिरण के परिणामस्वरूप होती हैं।
...
इस समस्या को डीआरएएम मॉड्यूल का उपयोग करके कम किया जा सकता है जिसमें अतिरिक्त मेमोरी बिट्स और मेमोरी कंट्रोलर्स शामिल हैं जो इन बिट्स का शोषण करते हैं। इन अतिरिक्त बिट्स का उपयोग समानता को रिकॉर्ड करने या त्रुटि-सुधार कोड का उपयोग करने के लिए किया जाता है