हार्डवेयर त्रुटि की संभावना का अनुमान लगाना


13

मान लें कि मैं http://www.kc.gov/users/computational-systems/edison/configuration पर 4k घंटों के लिए 100k कोर पर एक सुपर कंप्यूटर संगणना चलाता हूं , नेटवर्क पर लगभग 4 PB डेटा का आदान-प्रदान करता हूं और I / 4 TB का प्रदर्शन करता हूं। ओ गणना सभी पूर्णांक है, इसलिए परिणाम या तो सही या गलत हैं (कोई मध्यवर्ती संख्यात्मक त्रुटियां नहीं हैं)।

कोड को सही मानते हुए, मैं इस संभावना का अनुमान लगाना चाहूंगा कि हार्डवेयर की विफलता के कारण गणना गलत है। इस बारे में जाने का एक अच्छा तरीका क्या है? क्या इस तरह के अनुमान लगाने के लिए आवश्यक संख्या के लिए अच्छे स्रोत हैं?


मैं कल्पना करता हूं कि सीपीयू / रैम के परिणाम नेटवर्क हूई और डिस्क विचार की तुलना में वास्तव में स्थिर हैं।
मेवप्लप

जवाबों:


5

O(108)

मेरा स्मरण यह है कि विभिन्न विफलता मोडों में, स्मृति में या प्रोसेसर कोर पर एकल बिट फ़्लिप सबसे महत्वपूर्ण चिंताएं नहीं थीं। बल्कि, यह पूरी तरह से नोड्स डाउन हो रहा था, उदाहरण के लिए डिस्क विफलता, ऑपरेटिंग सिस्टम दोष, आदि। मौजूदा एक्सैस्केल डिजाइन इसलिए सभी फ्लैश रैम में कोड की आवधिक जांच के लिए कॉल करते हैं, अधिमानतः चेकपॉइंट डेटा को ऑफ-नोड प्रसारित करते हैं। कोड्स को पहले से सहेजे गए राज्य से मक्खी पर फिर से शुरू करने में सक्षम होने की आवश्यकता होगी यदि सिस्टम का सामना होता है कि एक नोड गायब हो गया है, इस नोड को सिस्टम में कहीं और एक हॉट-स्टार्ट नोड के साथ बदल रहा है।


यह वही लगता है जो मुझे चाहिए। क्या आपके मन में विशेष उदाहरण हैं?
जिओफ्री इरविंग

1
मुझे लगता है कि अगर आप के लिए ब्याज की विभिन्न DoE रिपोर्टों में से कुछ है। मुझे लगता है कि आप भी exascale.org के बारे में जानते हैं ? आपके लिए वहां पढ़ने के लिए बहुत कुछ होना चाहिए।
वोल्फगैंग बैंगर्थ

1
ज्योफ, निश्चित रूप से निर्वासन की रिपोर्ट पीटर कोगे द्वारा की गई है, और ऑनलाइन उपलब्ध है । शब्द के किसी भी घटना पर एक नज़र रखना होगा। उस ने कहा, मैं आपको NERSC के कुछ लोगों को इंगित कर सकता हूं जिन्हें उस मशीन के बारे में अधिक विशिष्ट जानकारी हो सकती है।
एरन अहमदिया

@AronAhmadia: धन्यवाद, यह दस्तावेज़ बहुत अच्छा लग रहा है। मैं इस उत्तर को स्वीकार कर रहा हूं क्योंकि इसमें उन त्रुटियों के वर्गों को शामिल किया जाना चाहिए जिनमें मैं रुचि रखता हूं।
ज्योफ्री इरविंग

@ वोल्फगैंग: यह मुझे मेरे शीत-युद्ध के दिनों की याद दिलाता है जब मिनुटमैन मिसाइलों को चौकियों के साथ प्रोग्राम किया गया था, ताकि अगर कोई न्यूट्रॉन फ्लैश पास हो, जिससे प्रोसेसर का तात्कालिक बंद हो जाए, तो यह सबसे हालिया चेकपॉइंट से फिर से शुरू हो सकता है। यदि यह सही समय पर चौकियों को ले लेता है, तो इसे "पुनरारंभ-संरक्षित" कहा जाता था।
माइक डनलैवी

9

मुझे लगता है, आप डीआरएएम जैसे घटकों की त्रुटि दर एकत्र करके शुरू करते हैं, जैसे कि डीआरएएम एरर्स ऑन द वाइल्ड: ए लार्ज-स्केल फील्ड स्टडी में Google के इस शोध में पाया गया कि ~ 1% प्रति वर्ष एक अचूक त्रुटि प्राप्त करने का मौका है।

मुझे यकीन नहीं है कि अगर आप क्या चाहते हैं। मैं undetectable त्रुटियों में अधिक दिलचस्पी होगी। ऐसी त्रुटियां जो विशिष्ट त्रुटि जाँच विधियों का पता नहीं लगाती हैं। उदाहरण के लिए, जब आप ऑप्टिक्स पर पैकेट भेजते हैं, तो वे कुछ प्रकार के सीआरसी के साथ होते हैं, जो एक छोटी सी त्रुटि के माध्यम से फिसलने की अनुमति देता है।

अद्यतन: मल्टीकोर प्रोसेसर में ऑनलाइन त्रुटि का पता लगाने और पुनर्प्राप्ति के लिए यह पेपर आर्किटेक्चर विश्वसनीय मल्टीकोर आर्किटेक्चर के बारे में बात करता है, लेकिन वे सिस्टम की विश्वसनीयता के विभिन्न पहलुओं को भी कवर करते हैं और ग्रंथ सूची है


महान अध्ययन। यह बहुत अंतर्ज्ञान की पुष्टि करता है, पुराना, गर्म, अक्सर उपयोग किया जाता है, लगभग पूर्ण राम कम विश्वसनीय है। मैं कुछ हैरान हूं कि कोई विक्रेता विशेष विफलताओं या आमतौर पर बदतर आर्किटेक्चर नहीं है।
मेवप्लप

3

क्या इस तरह के अनुमान लगाने के लिए आवश्यक संख्या के लिए अच्छे स्रोत हैं?

आप उस समूह के व्यवस्थापक से पूछने का प्रयास कर सकते हैं जिस पर आप गणना कर रहे हैं। मैं उनकी सत्यापन प्रक्रिया के हिस्से के रूप में कल्पना करता हूं कि उन्होंने हार्डवेयर त्रुटियों की संभावना का आकलन करने की समस्या का सामना किया है।


धन्यवाद! दृष्टि में स्पष्ट है, लेकिन यह मेरे लिए नहीं हुआ था।
ज्यॉफ्री इरविंग

2

महाकाव्य लगता है। यदि किसी ने इस प्रयोग को नहीं किया है, तो आप 100k अलग-अलग कोर को चलाने पर विचार कर सकते हैं जैसे कि एक sha1 इनपुट को बार-बार rehashing करना, यह देखकर कि त्रुटि दर क्या है। (असहनीय मुझे संदेह है), वहां से भी ऐसा ही करते हैं, लेकिन क्या आपके नेटवर्क त्रुटि दर प्राप्त करने के लिए उन्हें हर बार हैश-चेन परिणाम मिलते हैं। यह मैं कल्पना भी बहुत छोटा है, लेकिन मुझे संदेह है कि आप कुछ घंटों में कम से कम अपनी सुपरक्लस्टर का उपयोग करके एक जोड़ी प्राप्त कर सकते हैं :)

यह दृष्टिकोण बताता है कि हर गणना सही है, क्योंकि हैशिंग सिंगल-बिट स्वैप के लिए बेहद संवेदनशील है, जबकि यहां तक ​​कि केवल एक पूर्णांक गणना ही शाखाओं में त्रुटियों को छिपा सकती है, यानी पूरी गणना प्रत्येक लगातार मेमोरी स्थिति पर अण्डाकार नहीं होगी।

मैं यह सुनिश्चित करने के लिए एक कोड पर काम कर रहा हूं कि कोड एक बाहरी क्लस्टर द्वारा सही ढंग से चलाया गया है, जो कि नकली परिणामों को प्रस्तुत करके धोखा देना है। मैंने जो हल निकाला, वह हैश को कुछ आवृत्ति के साथ अभिकलन में एकीकृत कर रहा है जो काम करने की तुलना में कम कुशल को धोखा देता है।


2
दुर्भाग्य से, यह संभावना नहीं है कि बिटकॉइन खनन के लिए आपकी योजना को मंजूरी दी जाएगी। :)
ज्योफ्री इरविंग

टी हे हे। इसका बस काम का सबूत है। : पी
मेवप्लप
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.