यह बहुत ही सिस्टम पर निर्भर है, लेकिन संभावना है कि हम कुछ मनमानी चट्टानों को पार करेंगे और वास्तविक परेशानी में पड़ेंगे। मैं उत्सुक हूँ कि डिस्क-स्पेस अनुपात में एक अच्छी रैम के लिए किस तरह के नियम-अंगूठे मौजूद हैं। हम सिस्टम के हमारे अगले दौर की योजना बना रहे हैं, और रैम, एसएसडी के बारे में कुछ विकल्प बनाने की जरूरत है, और प्रत्येक नए नोड्स को कितना मिलेगा।
लेकिन अब कुछ प्रदर्शन विवरण के लिए!
एकल प्रोजेक्ट-रन के सामान्य वर्कफ़्लो के दौरान, MongoDB बहुत अधिक प्रतिशत के साथ लिखता है (70-80%)। एक बार प्रसंस्करण पाइपलाइन का दूसरा चरण हिट हो जाता है, यह बहुत अधिक पढ़ा जाता है क्योंकि इसे प्रसंस्करण के पहले छमाही में पहचाने गए रिकॉर्डों को कम करने की आवश्यकता होती है। यह वर्कफ़्लो है जिसके लिए "रैम में अपना काम सेट रखें" के लिए बनाया गया है, और हम उस धारणा के आसपास डिजाइन कर रहे हैं।
संपूर्ण उपयोगकर्ता अंत-उपयोगकर्ता व्युत्पन्न स्रोतों से यादृच्छिक प्रश्नों के साथ लगातार मारा जाता है; हालांकि आवृत्ति अनियमित है, आकार आमतौर पर बहुत छोटा है (10 दस्तावेजों के समूह)। चूंकि यह उपयोगकर्ता का सामना कर रहा है, इसलिए उत्तर को 3 सेकंड की "ऊब-अब" सीमा के तहत होना चाहिए। यह एक्सेस पैटर्न कैश में होने की संभावना बहुत कम है, इसलिए डिस्क हिट को लाइक करने की बहुत संभावना होगी।
एक माध्यमिक प्रसंस्करण वर्कफ़्लो पिछले प्रसंस्करण रन का उच्च पढ़ा जाता है जो दिन, सप्ताह या महीने पुराना हो सकता है, और इसे अक्सर चलाया जाता है, लेकिन फिर भी इसे ज़िप्पी करने की आवश्यकता होती है। पिछले प्रसंस्करण रन में दस्तावेजों के 100% तक पहुंच होगी। कैश-वार्मिंग की कोई भी राशि इससे मदद नहीं कर सकती, मुझे संदेह है।
समाप्त दस्तावेज़ आकार व्यापक रूप से भिन्न होते हैं, लेकिन औसत आकार 8K है।
सामान्य प्रोजेक्ट प्रोसेसिंग का उच्च-पढ़ा जाने वाला भाग रीड ट्रैफ़िक को वितरित करने में सहायता करने के लिए प्रतिकृतियों के उपयोग का दृढ़ता से सुझाव देता है। मैंने कहीं और पढ़ा है कि 1:10 RAM-GB से HD-GB धीमी डिस्क के लिए एक अच्छा नियम है, जैसा कि हम बहुत तेजी से SSDs का उपयोग करने पर गंभीरता से विचार कर रहे हैं, मैं जानना चाहूंगा कि क्या एक समान नियम है तेजी से डिस्क के लिए अंगूठे का।
मुझे पता है कि हम एक तरह से मैंगो का उपयोग कर रहे हैं जहां कैश-सब कुछ वास्तव में उड़ान भरने वाला नहीं है, यही वजह है कि मैं एक ऐसे सिस्टम को इंजीनियर करने के तरीकों पर गौर कर रहा हूं जो इस तरह के उपयोग से बच सकता है। पूरे डाटासेट संभावना आधे से एक वर्ष के भीतर एक टीबी के सबसे हो सकता है और बढ़ रहा रखेंगे।