लोचदार खोज हार्डवेयर के लिए सिफारिशें [बंद]

यह सवाल भविष्य के किसी भी आगंतुक की मदद करने की संभावना नहीं है; यह केवल एक छोटे भौगोलिक क्षेत्र के लिए प्रासंगिक है, समय में एक विशिष्ट क्षण, या एक असाधारण रूप से संकीर्ण स्थिति जो आमतौर पर इंटरनेट के दुनिया भर के दर्शकों के लिए लागू नहीं होती है। इस प्रश्न को अधिक व्यापक रूप से लागू करने में सहायता के लिए, सहायता केंद्र पर जाएँ ।

8 साल पहले बंद हुआ ।

क्या ElasticSearch का समर्थन करने के लिए हार्डवेयर स्तर के लिए कोई अच्छा मार्गदर्शक है? क्या Lucene या Solr के लिए सिफारिशें एक अच्छी जगह है? हम एक परिनियोजन को चालू करने के लिए देख रहे हैं

27 मिलियन दस्तावेज, 8TB डेटा
प्रति दिन 300k दस्तावेज़ जोड़ें

फिर उस स्केलिंग को लगभग 10x, से

270 मिलियन दस्तावेज, 80TB डेटा
3 मिलियन दस्तावेज़ / दिन जोड़ें

यह एक अजीब उपयोग मामला है, जहां प्रश्न हजारों / दिन में होंगे, लेकिन एक अजायब वेब के साथ एक अच्छे अनुभव के लिए प्रतिक्रिया समय काफी कम रहने की आवश्यकता है।

hardware scaling elasticsearch

— जेम्स सोकोल
स्रोत

@ मार्खेंडरसन: यह एक वास्तविक (गैर-खिलौना) और दिलचस्प सवाल है। मुझे लगता है कि आपका "बहुत स्थानीयकृत" होने का आकलन लक्ष्य से दूर है।

— डेविड जे।

डेविड, यह सवाल हमारे एफएक्यू के अनुसार बंद कर दिया गया था हम खरीदारी के सवाल नहीं करते हैं

— मार्क हेंडरसन

बहुत सारे कारक हैं जो खेल में आ सकते हैं, इसलिए मुझे नहीं लगता कि कई सामान्य दिशानिर्देश हैं।

आपको एक छोटे पैमाने पर मूल्यांकन करना चाहिए, शायद 1/5 वीं के साथ प्रारंभिक डेटा सेट यह देखने के लिए कि आपके द्वारा अपेक्षित इंडेक्सिंग और सेटअप पर खोज भार फेंकने के दौरान चीजें कैसे व्यवहार करती हैं। यह आपको यह समझने में मदद करेगा कि आपका डेटा वास्तव में खोज इंजन में कितना स्थान लेगा। इलास्टिक्स खोज के लिए, निर्भर करता है कि क्या आप स्रोत जोंस को स्टोर कर रहे हैं और फ़ील्ड का विश्लेषण कैसे किया जाता है और यदि वे संग्रहीत हैं।

EC2 एक बड़ी h / w खर्च के बिना elasticsearch को निकालने का एक उचित तरीका हो सकता है।

क्लस्टर आधारित सॉफ़्टवेयर के लिए, इलास्टिक्स खोज की तरह, क्लस्टर को छोटा बनाम बड़ा रखने के बीच ट्रेडऑफ़ हैं। एक बड़ा क्लस्टर अच्छा है क्योंकि जब आप एक सर्वर खोते हैं, तो कम डेटा को फिर से आवंटित करने की आवश्यकता होती है। एक छोटा क्लस्टर कम ऊर्जा खपत करता है और इसे बनाए रखना आसान होता है।

हम 35 मिलियन दस्तावेज़ों के साथ एक क्लस्टर चलाते हैं w / कुल सूचकांक आकार लगभग 300GB x 2, क्योंकि सभी अनुक्रमित प्रतिकृति हैं। इसे और बहुत बड़ी संख्या में खोजों का समर्थन करने के लिए, हमारे पास 4 नोड्स हैं, जिनमें से प्रत्येक में 24 कोर, 48GB रैम और 1TB का भंडारण 10K डिस्क के साथ raid10 है। हमने हाल ही में सिर के कमरे को सुनिश्चित करने के लिए डिस्क आकार में वृद्धि की है।

आपके मामले के लिए, मैं अधिक रैम और अधिक डिस्क की सिफारिश करूंगा। आप शायद उस खोज मात्रा के साथ CPU पर पैसे बचा सकते हैं।

कम खोज मात्रा वास्तव में प्रदर्शन को नुकसान पहुंचाती है, क्योंकि कैश (s / w के लिए आंतरिक और OS डिस्क दोनों) को अच्छी तरह से गर्म नहीं किया जाएगा।

आशा है कि यह मदद करता है, पॉल

— पॉल
स्रोत

आप किस तरह के दस्तावेजों की बात कर रहे हैं? लॉग्स? असली दस्तावेज?

— मैनुअल राउबर