सुपरकंप्यूटिंग के दृष्टिकोण से यह बेहतर नहीं है कि सीपीयू / जीपीयू लोड में प्रतिशत के बारे में सोचें, बल्कि यह निर्धारित करें कि हाथ की जरूरतों पर आपकी समस्या कितनी है और फिर सिस्टम के चरम प्रदर्शन की तुलना करें।
यदि आपको 100% सीपीयू उपयोग मिलता है, तो इसका मतलब यह नहीं है कि आपको सिस्टम से बाहर सभी प्रदर्शन मिलेंगे। सीपीयू अक्सर एक ही समय में कई अलग-अलग काम कर सकते हैं, एक विभाजन और एक अतिरिक्त कहते हैं। यदि आप विभाजन को जल्दी शुरू कर सकते हैं, तो संभवतः इसे जोड़कर ओवरलैप किया जा सकता है। आपके डेस्कटॉप सीपीयू में सबसे अधिक ऑर्डर यूनिट होती है, जो इस तरह के ओवरलैप्स से लाभान्वित करने के लिए बयानों को फिर से व्यवस्थित करेगा। या यदि आपके पास निम्न कार्यक्रम है:
if (expr1)
expr2;
else
expr3;
एक पुन: क्रमिक सीपीयू एक ही समय में तीन भावों की गणना करने की कोशिश करेगा और फिर उनमें से एक के परिणाम को फेंक देगा। यह समग्र रूप से तेज करता है। यदि आपके पास अपने प्रोग्राम में कुछ अवरोधक हैं और आप इसे फिर से चालू नहीं कर सकते हैं, तो आप सीपीयू में कम लेन का उपयोग कर रहे हैं, लेकिन यह शायद अभी भी 100% दिखाएगा।
फिर आपके पास सीपीयू में सिमड फीचर्स हैं जो वेक्टर ऑपरेशन हैं। यह इस अर्थ में GPGPU- प्रकाश की तरह है कि आप आमतौर पर एक ही समय में केवल चार या आठ ऑपरेशन करते हैं, GPU 32 या 64 की तरह करते हैं। फिर भी आपको FLOPS को क्रैंक करने के लिए उपयोग करना होगा।
झूठे बंटवारे की तरह सामान इतनी भारी सिंक्रनाइज़ेशन लागत का कारण बन सकता है जो आमतौर पर लिनक्स में कर्नेल लोड के रूप में दिखाई देता है। सीपीयू पूरी तरह से उपयोग किया जाता है, लेकिन आपके पास बहुत उपयोगी थ्रूपुट नहीं है।
मैंने आईबीएम ब्लू जीन / क्यू मशीन पर कुछ प्रोग्रामिंग की है। इसके कई पदानुक्रम स्तर हैं ( पुराने ब्लू जीन / एल के योजनाबद्ध ) और इसलिए इसे कुशलता से प्रोग्राम करना मुश्किल है। प्रदर्शन को पूरा करने के लिए आपको SIMD और SMT (Intel कॉल इस हाइपरथ्रेडिंग) को पूरा पदानुक्रम नीचे उपयोग करना होगा।
और फिर नेटवर्क अक्सर आपको सीमित करता है। इसलिए यह पता चला है कि यह नेटवर्क पर संचार करने के बजाय एक ही समय में कई सीपीयू में चीजों की गणना करने के लिए (दीवार घड़ी) समय में तेज है। यह सीपीयू पर अधिक भार डालेगा और कार्यक्रम को तेज करेगा। लेकिन वास्तविक कार्यक्रम थ्रूपुट उतना अच्छा नहीं है जितना कि कच्चे नंबरों से लगता है।
यदि आप मिश्रण में GPU जोड़ते हैं, तो इस पूरी चीज़ को प्रदर्शन के लिए ऑर्केस्ट्रेट करना और भी कठिन हो जाएगा। यह उन चीजों में से एक होगा जो मैं एक दो महीने में अपने जालीदार QCD मास्टर थीसिस में करना शुरू करूँगा।
NO-OP
ही समय में अनंत लूप चलाने के लिए यह संभव है , जिससे दोनों 100% लोड हो सकें।