नोट: यह उत्तर भौतिक विज्ञान के बारे में नहीं है, बल्कि गैर-ईसीसी मेमोरी मॉड्यूल के साथ मूक मेमोरी त्रुटियों के बारे में है। कुछ त्रुटियां बाहरी स्थान से आ सकती हैं, और कुछ - डेस्कटॉप के आंतरिक स्थान से।
सर्न क्लस्टर्स और गूगल डाटाकेंटर जैसे बड़े सर्वर फार्मों पर ईसीसी मेमोरी विफलताओं के कई अध्ययन हैं। ECC के साथ सर्वर-क्लास हार्डवेयर सभी एकल बिट त्रुटियों का पता लगा सकता है और उन्हें सही कर सकता है, और कई मल्टी-बिट त्रुटियों का पता लगा सकता है।
हम मान सकते हैं कि गैर-ईसीसी डेस्कटॉप (और गैर-ईसीसी मोबाइल स्मार्टफोन) के बहुत सारे हैं। यदि हम ईसीसी-सुधारात्मक त्रुटि दर (एकल बिटफ्लिप) के लिए कागजात की जांच करते हैं, तो हम गैर-ईसीसी मेमोरी पर मूक स्मृति भ्रष्टाचार दर जान सकते हैं।
बड़े पैमाने पर सर्न 2007 के अध्ययन "डेटा अखंडता" : विक्रेताओं ने " मेमोरी मॉड्यूल के लिए 10 -12 की बिट त्रुटि दर " घोषित की , " एक मनाया त्रुटि दर परिमाण की अपेक्षा 4 ऑर्डर कम है "। डेटा-गहन कार्यों (8 जीबी / एस मेमोरी रीडिंग) के लिए इसका मतलब है कि सिंगल बिट फ्लिप हर मिनट (10 -12 विक्रेता बीईआर) या एक बार दो दिनों (10 -16 बीईआर) में हो सकता है।
2009 Google का पेपर "DRAM एरर्स इन द वाइल्ड: ए लार्ज-स्केल फील्ड स्टडी" में कहा गया है कि 25000-75000 तक प्रति बिट बिट एफआईटी ( प्रति घंटे घंटों में विफलताएं ) हो सकती हैं, जो 1 से 5 बिट के बराबर है मेरी गणना के बाद 8GB RAM के लिए प्रति घंटे त्रुटियां। पेपर एक ही कहता है: " मतलब प्रति वर्ष 2000-6000 प्रति जीबी की सही त्रुटि दर "।
2012 सैंडिया की रिपोर्ट "साइलेंट डेटा की जांच और सुधार भ्रष्टाचारी बड़े पैमाने पर उच्च प्रदर्शन कम्प्यूटिंग" : "डबल बिट फ़्लिप की संभावना नहीं समझी गई" लेकिन ओआरएनएल के घने क्रे एक्सटी 5 में वे "प्रति दिन 75,000+ डीआईएमएम की दर से" ईसीसी के साथ। और एकल-बिट त्रुटियां अधिक होनी चाहिए।
इसलिए, यदि प्रोग्राम में बड़े डेटासेट (कई जीबी) हैं, या उच्च मेमोरी रीडिंग या राइटिंग रेट (जीबी / एस या अधिक) है, और यह कई घंटों तक चलता है, तो हम डेस्कटॉप हार्डवेयर पर कई मूक बिट फ़्लिप तक की उम्मीद कर सकते हैं। यह दर यादगार द्वारा पता लगाने योग्य नहीं है, और DRAM मॉड्यूल अच्छे हैं।
लॉन्ग क्लस्टर हजारों गैर-ईसीसी पीसी पर चलता है, जैसे BOINC इंटरनेट-वाइड ग्रिड कंप्यूटिंग में हमेशा मेमोरी बिट-फ़्लिप और डिस्क और नेटवर्क साइलेंट त्रुटियों से भी त्रुटियां होंगी।
और बड़ी मशीनों (10 हज़ार सर्वरों) के लिए भी एकल बिट त्रुटियों से ईसीसी सुरक्षा के साथ, जैसा कि हम सैंडिया की 2012 की रिपोर्ट में देखते हैं, हर दिन डबल-बिट फ़्लिप हो सकता है, इसलिए आपके पास पूर्ण आकार के समानांतर चलने का कोई मौका नहीं होगा कई दिनों के लिए कार्यक्रम (नियमित जांच के बिना और दोहरी त्रुटि के मामले में अंतिम अच्छे चेकपॉइंट से पुनरारंभ)। विशाल मशीनों को उनके कैश और सीपीयू रजिस्टरों (दोनों वास्तु और आंतरिक चिप के ट्रिगर्स जैसे ALU डेटापथ में) में बिट-फ़्लिप मिलेगा, क्योंकि सभी ईसीसी द्वारा संरक्षित नहीं हैं।
PS: DRAM मॉड्यूल खराब होने पर चीजें बहुत खराब हो जाएंगी। उदाहरण के लिए, मैंने लैपटॉप में नया डीआरएएम स्थापित किया, जिसकी कई सप्ताह बाद मृत्यु हो गई। इसने बहुत सारी मेमोरी एरर देना शुरू कर दिया। मुझे क्या मिलता है: लैपटॉप हैंग होता है, लिनक्स रिबूट होता है, fsck चलता है, रूट फाइलसिस्टम की त्रुटियों को ढूंढता है और कहता है कि यह त्रुटियों को सुधारने के बाद रिबूट करना चाहता है। लेकिन हर अगले रिबूट (मैंने उनमें से 5-6 के आसपास किया था) रूट फाइल सिस्टम पर अभी भी त्रुटियां पाई गई हैं।