तो परिदृश्य निम्न है:
मेरे पास एक वेब सेवा के कई उदाहरण हैं जो एज़्योर स्टोरेज को डेटा की एक बूँद लिखते हैं। जब यह प्राप्त किया गया था, उसके आधार पर मुझे एक कंटेनर (या एक आभासी निर्देशिका) में समूह को सक्षम करने की आवश्यकता है। एक बार थोड़ी देर में (हर दिन सबसे खराब) पुराने ब्लब्स को संसाधित किया जाएगा और फिर हटा दिया जाएगा।
मेरे पास दो विकल्प हैं:
विकल्प 1
मैं एक कंटेनर बनाता हूं जिसे "ब्लब्स" कहा जाता है (उदाहरण के लिए) और फिर उस कंटेनर में सभी ब्लॉगों को संग्रहीत करें। प्रत्येक बूँद निर्देशिका नाम के साथ एक निर्देशिका शैली के नाम का उपयोग करेगी जो उसे प्राप्त हुआ था (जैसे "hr0min0 / data.bin", "hr0min0 / data2.bin", "hr0min30 / data3.bin", "hr1min45 / data.bin" ", ...," hr23min0 / dataN.bin ", आदि - हर X मिनट में एक नई निर्देशिका )। इन ब्लब्स को प्रोसेस करने वाली चीज hr0min0 को पहले प्रोसेस करेगी, फिर hr0minX वगैरह (और प्रोसेस होने पर भी ब्लॉब लिखे जा रहे हैं)।
विकल्प 2
मेरे पास आने वाले समय के आधार पर एक नाम के साथ कई कंटेनर हैं (इसलिए पहले एक कंटेनर होगा जिसे blobs_hr0min0 कहा जाता है, फिर blobs_hr0minX, आदि) और कंटेनर में सभी बूँदें उन ब्लॉब हैं जो नामित समय पर आए थे। इन ब्लॉग को संसाधित करने वाली चीज़ एक बार में एक कंटेनर संसाधित करेगी।
तो मेरा सवाल यह है कि कौन सा विकल्प बेहतर है? क्या विकल्प 2 मुझे बेहतर समांतरिकरण देता है (क्योंकि एक कंटेनर विभिन्न सर्वरों में हो सकता है) या विकल्प 1 बेहतर है क्योंकि कई कंटेनर अन्य अज्ञात मुद्दों का कारण बन सकते हैं?