या अधिक "तो यह होगा"? बिग डेटा आँकड़ों और प्रासंगिक ज्ञान को और अधिक महत्वपूर्ण बनाता है लेकिन नमूना थ्योरी को रेखांकित करता है।
मैंने 'बिग डेटा' के आसपास यह प्रचार देखा है और आश्चर्यचकित नहीं कर सकता कि "क्यों" मैं हर चीज का विश्लेषण करना चाहता हूं ? क्या "सैम्पलिंग थ्योरी" को डिजाइन / लागू / आविष्कार / खोजे जाने का कोई कारण नहीं था? मुझे डेटासेट की संपूर्ण 'जनसंख्या' का विश्लेषण करने की बात नहीं आती है। सिर्फ इसलिए कि आप ऐसा कर सकते हैं इसका मतलब यह नहीं है कि आपको करना चाहिए (मूर्खता एक विशेषाधिकार है लेकिन आपको इसका दुरुपयोग नहीं करना चाहिए :)
तो मेरा सवाल यह है कि क्या संपूर्ण डेटा सेट का विश्लेषण करना सांख्यिकीय रूप से प्रासंगिक है? यदि आप सैंपलिंग करते हैं, तो सबसे अच्छा आप त्रुटि को कम कर सकते हैं। लेकिन क्या उस त्रुटि को कम करने की लागत वास्तव में इसके लायक है? क्या "सूचना का मूल्य" वास्तव में प्रयास, समय लागत आदि के लायक है जो बड़े पैमाने पर समानांतर कंप्यूटरों पर बड़े डेटा का विश्लेषण करने में जाता है?
यहां तक कि अगर कोई पूरी आबादी का विश्लेषण करता है, तो परिणाम अभी भी सही होने की अधिक संभावना के साथ सबसे अच्छा अनुमान होगा। संभवत: नमूने की तुलना में थोड़ा अधिक है (या यह बहुत अधिक होगा?) क्या जनसंख्या के विश्लेषण से प्राप्त अंतर्दृष्टि बनाम नमूना का विश्लेषण व्यापक रूप से भिन्न होगा?
या क्या हमें इसे "समय बदल गया" के रूप में स्वीकार करना चाहिए? एक गतिविधि के रूप में नमूनाकरण कम महत्वपूर्ण हो सकता है जो पर्याप्त कम्प्यूटेशनल शक्ति दी जाती है :)
नोट: मैं एक बहस शुरू करने की कोशिश नहीं कर रहा हूं, लेकिन यह समझने के लिए एक उत्तर की तलाश कर रहा हूं कि बड़ा डेटा क्या करता है (यानी सब कुछ का विश्लेषण करता है) और नमूने के सिद्धांत की अवहेलना करता है (या यह नहीं है?)