जैसा कि आप ठीक से ध्यान दें, इन दिनों "बड़ा डेटा" कुछ ऐसा है जो हर कोई कहना चाहता है कि उन्हें मिल गया है, जो एक निश्चित ढीलेपन को दर्शाता है कि लोग कैसे शब्द को परिभाषित करते हैं। आम तौर पर, हालांकि, मैं कहूंगा कि आप निश्चित रूप से बड़े डेटा के साथ काम कर रहे हैं यदि पैमाना ऐसा है कि यह अब और अधिक परंपरागत तकनीकों जैसे RDBMS के साथ प्रबंधन करने के लिए संभव नहीं है, तो कम से कम उन्हें Hadoop जैसी बड़ी डेटा तकनीकों के साथ पूरक किए बिना।
आपका डेटा वास्तव में कितना बड़ा है, इसके लिए मामला बहस का विषय है। यहाँ (कुछ उत्तेजक) ब्लॉग पोस्ट है जो दावा करता है कि यह वास्तव में 5 टीबी से कम डेटा के मामले में नहीं है। (स्पष्ट होने के लिए, यह "5 टीबी से कम बड़ा डेटा नहीं है" का दावा नहीं करता है, लेकिन सिर्फ "5 टीबी से कम इतना बड़ा नहीं है कि आपको हडॉप की आवश्यकता है"।)
लेकिन छोटे डेटासेट पर भी, Hadoop जैसी बड़ी डेटा तकनीकों के अन्य फायदे हो सकते हैं, जिसमें बैच संचालन के लिए अच्छी तरह से अनुकूल होना, असंरचित डेटा के साथ अच्छी तरह से खेलना (साथ ही डेटा जिसकी संरचना पहले से ज्ञात नहीं है या बदल सकती है), क्षैतिज स्केलेबिलिटी ( अपने मौजूदा सर्वरों को ऊपर उठाने के बजाय अधिक नोड्स जोड़कर स्केलिंग करें, और (ऊपर-लिंक किए गए पोस्ट नोट्स पर टिप्पणीकारों में से एक) बाहरी डेटा सेट के साथ आपके डेटा प्रोसेसिंग को एकीकृत करने की क्षमता (मैप-कम के बारे में सोचें जहां मैपर है दूसरे सर्वर पर कॉल करता है)। बड़े डेटा से जुड़ी अन्य प्रौद्योगिकियां, जैसे नोस्कल डेटाबेस, डेटा के बड़े सेट से निपटने के दौरान तेज़ प्रदर्शन और लगातार उपलब्धता पर जोर देती हैं, साथ ही अर्ध-असंरचित डेटा को संभालने और क्षैतिज रूप से स्केल करने में भी सक्षम होती हैं।
बेशक, पारंपरिक RDBMS के अपने फायदे हैं जिनमें ACID गारंटी (Atomicity, Consistency, अलगाव, स्थायित्व) और कुछ कार्यों के लिए बेहतर प्रदर्शन के साथ-साथ अधिक मानकीकृत, अधिक परिपक्व और (कई उपयोगकर्ताओं के लिए) अधिक परिचित हैं। यहां तक कि निर्विवाद रूप से "बड़े" डेटा के लिए, यह आपके डेटा के कम से कम हिस्से को पारंपरिक SQL डेटाबेस में लोड करने और बड़ी डेटा तकनीकों के साथ संयोजन में उपयोग करने के लिए समझ में आ सकता है।
इसलिए, एक अधिक उदार परिभाषा यह होगी कि आपके पास बड़ा डेटा है जब तक कि यह बहुत बड़ा है कि बड़ी डेटा प्रौद्योगिकियां आपके लिए कुछ अतिरिक्त मूल्य प्रदान करती हैं। लेकिन जैसा कि आप देख सकते हैं, यह न केवल आपके डेटा के आकार पर निर्भर कर सकता है, बल्कि आप इसके साथ कैसे काम करना चाहते हैं और लचीलेपन, स्थिरता और प्रदर्शन के संदर्भ में आपकी किस प्रकार की आवश्यकताएं हैं। आप अपने डेटा का उपयोग कैसे कर रहे हैं, इस सवाल से अधिक प्रासंगिक है कि आप इसे किस लिए उपयोग कर रहे हैं (जैसे डेटा माइनिंग)। उस ने कहा, डेटा माइनिंग और मशीन लर्निंग जैसे उपयोग उपयोगी परिणाम प्राप्त करने की अधिक संभावना रखते हैं यदि आपके पास काम करने के लिए एक बड़ा डेटा सेट है।