कई वास्तविक जीवन की स्थितियों में, जहाँ आप MapReduce लागू करते हैं, अंतिम एल्गोरिदम कई MapReduce चरणों को समाप्त करता है।
यानी Map1, Reduce1, Map2, Reduce2, और इसी तरह।
तो आपके पास अंतिम नक्शे से इनपुट के रूप में आवश्यक अंतिम कम से आउटपुट है।
मध्यवर्ती डेटा एक ऐसी चीज़ है जिसे आप (सामान्य रूप से) एक बार पाइपलाइन के सफलतापूर्वक पूरा होने के बाद नहीं रखना चाहते हैं। इसके अलावा, क्योंकि यह मध्यवर्ती डेटा सामान्य रूप से कुछ डेटा संरचना (जैसे 'मानचित्र' या 'सेट') में है, आप इन कुंजी-मान वाले जोड़े को लिखने और पढ़ने में बहुत अधिक प्रयास नहीं करना चाहते हैं।
Hadoop में ऐसा करने का अनुशंसित तरीका क्या है?
क्या एक (सरल) उदाहरण है जो दिखाता है कि इस इंटरमीडिएट डेटा को सही तरीके से कैसे संभालना है, जिसमें बाद में सफाई भी शामिल है?