जैसा कि जिमी लिन और क्रिस डायर मैपराड्यूस के साथ डेटा-इंटेंसिव टेक्स्ट माइनिंग पर अपनी पुस्तक के पहले अध्याय में बताते हैं , बड़े डेटा पैमानों पर, विभिन्न एल्गोरिदम का प्रदर्शन ऐसे परिवर्तित होता है कि प्रदर्शन अंतर लगभग गायब हो जाते हैं। इसका मतलब है कि एक बड़ा पर्याप्त डेटा सेट दिया गया है, जिस एल्गोरिथ्म का आप उपयोग करना चाहते हैं वह वह है जो कम्प्यूटेशनल रूप से कम खर्चीला है। यह केवल छोटे डेटा पैमानों पर है कि एल्गोरिदम के बीच प्रदर्शन के अंतर।
कहा जा रहा है, उनकी पुस्तक (ऊपर लिंक की गई) और आनंद राजारमन, जुएर लेसकॉव, और जेफरी डी। उल्मैन द्वारा बड़े पैमाने पर डेटासेट का खनन , शायद दो किताबें हैं जो आप अच्छी तरह से देखना चाहते हैं, खासकर जब वे सीधे MapReduce से संबंधित हैं डेटा माइनिंग उद्देश्यों के लिए।