50 Gb DEM के लिए क्लस्टर संसाधन संसाधन आवश्यक हैं?


9

"किराए पर लेने के उद्देश्यों" के लिए, मुझे अपने विश्वविद्यालय में कंप्यूटिंग केंद्र से आवश्यक कंप्यूटिंग संसाधनों को निर्दिष्ट करना होगा। मेरे पास बहुत कम विचार है कि क्या मांगूं।

नीचे दी गई जानकारी को ध्यान में रखते हुए आप कुछ सुझाव दे सकते हैं?

यह कम्प्यूटेशनल क्लस्टर है: "प्रत्येक ब्लेड के साथ एक दस ब्लेड सर्वर जिसमें 2 क्वाड कोर इंटेल Xeon 2.33 Ghz सीपीयू होते हैं, जिसमें कुल 80 सीपीयू और 16 जीबी मेमोरी के लिए 16 जीबी मेमोरी होती है। 2 टीबी डिस्क सिस्टम पर खाते। 64-बिट लिनक्स "

दोषरहित संपीड़न के साथ, मूल डेटा एक 50 जीबी टिफ फाइल है। कुछ समय में मैं कई (दस तक) फाइलों के साथ 50gb आकार में काम करूंगा।

मैं GDAL, पायथन स्क्रिप्टिंग और शायद C ++ स्क्रिप्टिंग का उपयोग करूंगा। यदि अनुमति दी जाती है, तो मैं ग्रास जीआईएस और सागा जीआईएस जैसे सॉफ्टवेयर्स का उपयोग करूंगा। इसके अलावा, स्थानिक पुस्तकालयों के साथ आर भाषा। मैं सामान्य इलाके के मापदंडों को प्राप्त करूंगा, विशिष्ट विशेषताओं (लैंडफॉर्म) के निष्कर्षण के लिए ऑब्जेक्ट-ओरिएंटेड एल्गोरिदम लागू करने और वर्णनात्मक और मॉडलिंग उद्देश्यों के लिए सांख्यिकीय विश्लेषण का उपयोग करने की कोशिश करूंगा।


3
आप वास्तव में एक जवाब से क्या उम्मीद कर रहे हैं - क्या मात्रा या मात्रा का अनुरोध करने में सक्षम हैं? ब्लेड की संख्या, 1 ब्लेड आदि पर कोर की संख्या? क्या कोई फॉर्म आपको भरना है जो कोई सुराग दे सकता है?
blah238

1
हाय ब्लाह। कोई रूप नहीं है। मेरे पर्यवेक्षक मुझसे पहले से ये सवाल पूछ रहे हैं (कुछ के साथ जो मुझे पता नहीं है)। लेकिन, बाद में, प्लेटफ़ॉर्म पर पहुंचते समय, प्रोसेसर की संख्या बिल्कुल निर्दिष्ट की जानी चाहिए, साथ ही अपेक्षित मेमोरी की आवश्यकता और प्रसंस्करण समय भी। इसलिए, इस पर विचार करना अच्छा होगा। प्रोसेसर और स्मृति की मात्रा जो सरल मैट्रिक्स बीजगणित (ए * 0.1 + बी + सी / 50) प्रदर्शन करने की अनुमति देती है, प्रत्येक मेट्रिसेस 50Gb आकार में है, उदाहरण के लिए, एक घंटे से भी कम समय (यह देखते हुए कि सॉफ्टवेयर समानांतर कंप्यूटिंग की अनुमति देता है )। धन्यवाद।
मार्को

2
यदि आप समस्या पर हमला करने के लिए अपनी रणनीति निर्धारित करते हैं तो यह मदद कर सकता है। मुझे विश्वास नहीं है कि 'आउट ऑफ द बॉक्स' आपकी पायथन स्क्रिप्ट (जीडीएएल बाइंडिंग का उपयोग करके) कई प्रोसेसर का लाभ उठाने में सक्षम होगी। आप डेटा को कैसे विभाजित करते हैं और समानांतर प्रसंस्करण के लिए काम करते हैं। फिर आप डेटा के एक समूह पर कुछ परीक्षण चला सकते हैं और कोर की संख्या के आधार पर कुल प्रसंस्करण समय का उपयोग कर सकते हैं जिसे आप उपयोग करने की योजना बना रहे हैं, आदि
DavidF

धन्यवाद डेविड। मैंने इस बारे में अधिक अच्छी तरह से सोचा है। मैं मतलाब के साथ कुछ परीक्षण करूँगा।
मार्को

जवाबों:


2

इसलिए, इस पर विचार करना अच्छा होगा। प्रोसेसर और स्मृति की मात्रा जो सरल मैट्रिक्स बीजगणित प्रदर्शन करने की अनुमति देती है (A * 0.1 + B + C / 50)

जैसा कि डेविड ने टिप्पणियों में कहा है कि अधिक महत्वपूर्ण है, मशीन का कभी बुरा न मानना, आप चला नहीं सकते हैं (या इसे चलाना अच्छा नहीं है) एक 50GB मैट्रिक्स बीजगणित को पूरे मैट्रिक्स के साथ एक बार में वैचारिक रूप से यह पता चलता है कि पूरा मैट्रिक्स स्मृति को लिखा जाना है।

एक अच्छी रणनीति, तेज, बहुत आसान और कुशल है gdal_calc का उपयोग करने के लिए , यह पढ़ता है और रंक को रेखांकन में लिखता है इसलिए यह बहुत स्मृति कुशल है।

उदाहरण के लिए: gdal_calc.py -A input.tif -B input2.tif --outfile = result.tif --calc = "(A + B) / 2"

यह कोशिश करो, यह बहुत संभावना है कि आप प्रसंस्करण को डेस्कटॉप में चला सकते हैं, और फिर आपको प्रक्रिया को गति देने के लिए एक बेहतर मशीन की आवश्यकता हो सकती है या नहीं।

अवलोकन: मल्टीकोर प्रोसेसर का लाभ उठाने के लिए आपको कई gdal_calc प्रक्रियाओं को स्पैम करना होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.