सुपरकंप्यूटिंग में संचार ओवरहेड


10

मैं विश्वसनीय संदर्भों की तलाश कर रहा हूं कि सुपर-कंप्यूटर वास्तविक कार्य-संबंधित कार्य करने में समन्वय के लिए कितना संसाधन खर्च करते हैं। संसाधन प्रसंस्करण शक्ति उपलब्ध हो सकते हैं लेकिन यहां तक ​​कि वाट्स एक वैध इकाई की तरह प्रतीत होते हैं।

मेरा मानना ​​है कि मेरे प्रोफेसरों में से एक या पाठ्य पुस्तकों ने एक बार कहा था कि बड़े पैमाने पर समानांतर प्रणालियों में, उपलब्ध प्रसंस्करण शक्ति का आधा हिस्सा कार्य और संदेश पास करने के समन्वय पर खर्च किया जाता है। दुर्भाग्य से, मुझे इस संदर्भ या इस अनुपात के बारे में कोई अन्य सामग्री नहीं मिल रही है।

मुझे लगता है कि यह सुपरकंप्यूटर वास्तुकला और आधुनिक कार्यान्वयन के आधार पर बहुत भिन्न होगा, शायद इस संबंध में अधिक कुशल हैं, इसलिए कई आर्किटेक्चर या एवोल्यूशन (पहले और बाद में समर्पित संदेश पास होने वाले हार्डवेयर) में इस मीट्रिक का अवलोकन और भी बेहतर होगा।


2
आप एक उपयुक्त कंप्यूटर, एल्गोरिथ्म और कार्यान्वयन चुनकर आसानी से कोई भी नंबर प्राप्त कर सकते हैं।
डेविड केचेसन

जवाबों:


10

उच्च प्रदर्शन कंप्यूटिंग में एक लंबे समय से पसंदीदा पसंदीदा बेंचमार्क HPLinpack बेंचमार्क रहा है, जो समीकरणों के एक बहुत बड़े, घने, रैखिक प्रणाली को हल करते हुए प्रति सेकंड फ्लोटिंग पॉइंट संचालन में एक कंप्यूटर सिस्टम की गति को मापता है। यह माना जाता है कि समाधान लेता है2/3n3+2n2 फ्लोटिंग पॉइंट ऑपरेशंस और टेस्टर को अलग-अलग करने की अनुमति है n अधिकतम प्रदर्शन प्राप्त करने के लिए।

बेंचमार्क उपायों में RPEAK (सिस्टम के लिए प्रति सेकंड फ्लोटिंग पॉइंट ऑपरेशंस की सैद्धांतिक अधिकतम संख्या) और RMAX (HPLinpack बेंचमार्क में प्रति सेकंड ऑपरेशंस की अधिकतम हासिल की गई संख्या) शामिल हैं।

RPEAK के लिए RMAX का पर्याप्त अंश होना विशिष्ट है, यह दर्शाता है कि इस बेंचमार्क कार्य पर, वर्तमान सुपर कंप्यूटर अपने सैद्धांतिक शिखर प्रदर्शन का एक महत्वपूर्ण अंश प्राप्त कर सकते हैं। उदाहरण के लिए, नवंबर 2015 में TOP500 सुपर कंप्यूटर रैंकिंग, सबसे तेज मशीन, तियानहे -2 में RPEAK = 54.902 पेटाफ्लॉप्स और RMAX = 33.863 पेटाफ्लॉप्स हैं।

हालांकि, HPLinpack बेंचमार्क को मौजूदा वर्कलोड के प्रतिनिधि के रूप में व्यापक रूप से देखा जाता है। एचपीलिनपैक परिणाम आम तौर पर एक बड़े कारक द्वारा वास्तविक अनुप्रयोगों में सुपर कंप्यूटर के प्रदर्शन को पार कर जाता है।

एक नया बेंचमार्क, जिसे एचपीसीजी कहा जाता है, विकास के अधीन है। इस बेंचमार्क में आमतौर पर खंडित पीडीएस से उत्पन्न होने वाले समीकरणों की बड़ी विरल प्रणालियों के समाधान के लिए पुनरावृत्त तरीकों से किए जाने वाले संचालन शामिल हैं। उच्च प्रदर्शन वाले कंप्यूटरों के लिए यह कार्यभार कहीं अधिक चुनौतीपूर्ण है। यह प्रैक्टिस के लिए सुपर कंप्यूटर का उपयोग करने के लिए बहुत अधिक प्रतिनिधि है।

HPCG के कुछ शुरुआती परिणाम RPEAK के 5% से कम पर आ रहे हैं। उदाहरण के लिए, तियानहे -2 में RPEAK = 54.902 पेटाफ्लॉप्स और HP8G 0.58 पेटाफ्लॉप्स हैं (एचपीसीजी पर एक प्रस्तुति के लिए नीचे संदर्भ देखें।)

TOP500 HPLinpack के बेंचमार्क यहां देखे जा सकते हैं:

http://www.top500.org/

एचपीसीजी पर एक प्रस्तुति यहां मिल सकती है:

http://www.hpcg-benchmark.org/downloads/isc15/HPCG-ISC15-FINAL-SLIDES_update1.pdf

एचपीसीजी की वेबसाइट पर है

http://www.hpcg-benchmark.org/


1
मैं जिज्ञासु था कि कहां 2/3n3+2n2फ्लॉप कल्पना से आया था और इसे देखना था। किसी और के लिए जो उत्सुक है, यह आंशिक धुरी के साथ एलयू अपघटन के लिए ऑपरेशन गिनती है, अर्थात एक घने सिस्टम को हल करने के लिए एक विधि।
ऑरेलियस

3
यह प्रश्न का उत्तर नहीं देता है, क्योंकि यह कहता है कि संदेश के पारित होने के बारे में कुछ भी नहीं है।
डेविड केचेसन

यह आंशिक रूप से इस अर्थ में प्रश्न का उत्तर देता है कि ये बेंचमार्क आपको बताते हैं कि फ्लोटिंग पॉइंट यूनिट का कितनी कुशलता से उपयोग किया जा रहा है- आप यह जानने के लिए एक से घटा सकते हैं कि हर चीज पर कितना समय खर्च किया जा रहा है, जिसमें अन्य चीजों के बीच संदेश पास करना शामिल है।
ब्रायन Borchers

6

ईमानदार जवाब यह है कि हम नहीं जानते। उत्तर बहुत हद तक इस बात पर निर्भर करता है कि वास्तव में क्या चलाया जा रहा है और उपयोगकर्ता ने किस कोड को लिखा है। जैसा कि ब्रायन बोरचर्स बताते हैं, दो बेंचमार्क के बीच एक बड़ा अंतर है जहां हमारे पास सभी कोड हैं और माना जाता है कि वह कोड क्या कर रहा है, लेकिन इस कोड के सुपरपावर के उपयोगकर्ता वास्तव में क्या कर रहे हैं, इस बारे में बहुत असहमति है। विस्तृत स्रोत कोड विश्लेषण और वास्तविक मशीनों पर वास्तविक कोड के कुछ भारी इंस्ट्रूमेंटेशन के बिना, इस अनुपात को खोजना असंभव के बगल में है। कुछ परियोजनाएं हैं जो डेटा एकत्र करना शुरू कर रही हैं जो इस प्रश्न का उत्तर देने के लिए समुदाय को पास करने में सक्षम हो सकती हैं, लेकिन यह बिल्कुल भी व्यवस्थित नहीं है।

वास्तव में, सवाल वास्तव में भी स्पष्ट नहीं है। यदि क्लस्टर नोड के संचार कार्ड में एक प्रोसेसर है, जिसका उपयोग केवल संचार के लिए किया जा सकता है, तो आप इस समय की गणना कैसे करते हैं कि यह कार्ड संचार को संभालने में बेकार नहीं है (और कुछ भी नहीं)? यानी, "उपलब्ध प्रसंस्करण शक्ति" के रूप में क्या मायने रखता है? क्या हम बुरी तरह से लिखे गए प्रोग्रामों को गिनते हैं जिनके पास कम्प्यूटरीकृत कम्प्यूटेशन और संचार रूटीन हैं जो कि अनुकूलित हैं? क्या होगा अगर कोई अपने कोड में एक ज्ञात एंटी-पैटर्न का उपयोग करता है जो जानबूझकर सीपीयू का उपयोग करता है? शर्मनाक समानांतर कार्यक्रमों के बारे में क्या है जो बिल्कुल संवाद नहीं करते हैं (ये सुपर कंप्यूटर पर चलते हैं, मैं आपसे वादा करता हूं)?

मैं आपका समय किसी पुस्तक में या आपके प्रोफेसर से ऑफ-द-कफ टिप्पणी की मात्रा निर्धारित करने की कोशिश नहीं करूंगा। इस तरह के बयान हमें याद दिलाने के लिए हैं कि समानांतर प्रोग्रामिंग कठिन है और आमतौर पर खराब तरीके से किया जाता है। सुपर कंप्यूटर भी पूरी तरह से खत्म करने या सभी कचरे को अनुकूलित करने के लिए डिज़ाइन नहीं किए गए हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.