MapReduce : एक सहिष्णु सहिष्णु ने कम्प्यूटेशनल ढांचे को वितरित किया। MapReduce आपको भारी मात्रा में डेटा को संचालित करने की अनुमति देता है- हार्डवेयर के कारण विफलता को रोकने के लिए बहुत सारे काम के साथ। MapReduce फ्लाई पर कंप्यूटिंग परिणामों के लिए एक खराब विकल्प है क्योंकि यह धीमा है। (एक विशिष्ट MapReduce कार्य मिनट या घंटों के क्रम पर होता है, न कि माइक्रोसेकंड)
MapReduce जॉब इनपुट के रूप में एक फ़ाइल (या कुछ डेटा स्टोर) लेती है और परिणामों की एक फ़ाइल लिखती है। यदि आप इन परिणामों को किसी एप्लिकेशन के लिए उपलब्ध करना चाहते हैं, तो यह आपकी जिम्मेदारी है कि इस डेटा को उस स्थान पर रखा जाए जो सुलभ हो। यह धीमी गति से होने की संभावना है, और उन मूल्यों के बीच एक अंतराल होगा जो आप प्रदर्शित कर सकते हैं, और वे मान जो आपके सिस्टम को इसकी वर्तमान स्थिति में दर्शाते हैं।
रीयलटाइम सिस्टम के निर्माण में MapReduce के उपयोग पर विचार करते समय बनाने के लिए एक महत्वपूर्ण अंतर यह है कि आपके मॉडल का प्रशिक्षण, और आपके मॉडल को लागू करना। यदि आपको लगता है कि आपके मॉडल पैरामीटर जल्दी से नहीं बदलते हैं, तो आप उन्हें MapReduce के साथ फिट कर सकते हैं, और फिर जब आप अपना मॉडल लागू करना चाहते हैं तो इन पूर्व-फिट पैरामीटर तक पहुंचने के लिए एक तंत्र है।
तूफान : एक वास्तविक समय, स्ट्रीमिंग कम्प्यूटेशनल प्रणाली। तूफान ऑनलाइन फ्रेमवर्क है, अर्थ, इस अर्थ में, एक सेवा जो एक चल रहे एप्लिकेशन के साथ बातचीत करती है। MapReduce के विपरीत, यह आपके एप्लिकेशन में संसाधित किए गए डेटा के छोटे टुकड़े (पूरी फ़ाइल नहीं) प्राप्त करता है। आप डेटा पर कार्य करने के लिए ऑपरेशनों के DAG को परिभाषित करते हैं। स्टॉर्म के लिए एक सामान्य और सरल उपयोग मामला काउंटरों पर नज़र रख रहा है, और वास्तविक समय के डैशबोर्ड को आबाद करने के लिए उस जानकारी का उपयोग कर रहा है।
अपने डेटा को बनाए रखने के साथ करने के लिए तूफान के पास कुछ भी (आवश्यक) नहीं है। यहाँ, स्ट्रीमिंग आपके द्वारा परवाह की गई जानकारी को रखने और बाकी को फेंकने के लिए कहने का एक और तरीका है। वास्तव में, आपके पास संभवतः आपके आवेदन में एक दृढ़ता परत है जो पहले से ही डेटा दर्ज कर चुका है, और इसलिए यह चिंताओं का एक अच्छा और न्यायसंगत पृथक्करण है।
यदि आप अधिक जानना चाहते हैं ...
यदि आप रीयल-टाइम सिस्टम के बारे में अधिक जानना चाहते हैं जो एमआर के साथ मापदंडों को फिट करते हैं और मॉडल को एक अलग तरीके से लागू करते हैं तो यहां एक बात के लिए स्लाइड हैं जो मैंने वास्तविक समय की सिफारिश के इंजन के निर्माण पर दिया था HBase।
एक उत्कृष्ट पत्र जो वास्तविक समय की गिनती और एक दिलचस्प तरीके से दृढ़ता से शादी करता है, वह है Google समाचार वैयक्तिकरण: स्केलेबल ऑनलाइन Collative फ़िल्टरिंग
एमआर और स्टॉर्म की एक और दिलचस्प शादी है सुमिंगबर्ड । Summingbird आपको डेटा विश्लेषण संचालन को परिभाषित करने की अनुमति देता है जिसे स्टॉर्म या एमआर के माध्यम से लागू किया जा सकता है।