क्या data बड़े डेटा ’के समय में नमूना लेना प्रासंगिक है?


54

या अधिक "तो यह होगा"? बिग डेटा आँकड़ों और प्रासंगिक ज्ञान को और अधिक महत्वपूर्ण बनाता है लेकिन नमूना थ्योरी को रेखांकित करता है।

मैंने 'बिग डेटा' के आसपास यह प्रचार देखा है और आश्चर्यचकित नहीं कर सकता कि "क्यों" मैं हर चीज का विश्लेषण करना चाहता हूं ? क्या "सैम्पलिंग थ्योरी" को डिजाइन / लागू / आविष्कार / खोजे जाने का कोई कारण नहीं था? मुझे डेटासेट की संपूर्ण 'जनसंख्या' का विश्लेषण करने की बात नहीं आती है। सिर्फ इसलिए कि आप ऐसा कर सकते हैं इसका मतलब यह नहीं है कि आपको करना चाहिए (मूर्खता एक विशेषाधिकार है लेकिन आपको इसका दुरुपयोग नहीं करना चाहिए :)

तो मेरा सवाल यह है कि क्या संपूर्ण डेटा सेट का विश्लेषण करना सांख्यिकीय रूप से प्रासंगिक है? यदि आप सैंपलिंग करते हैं, तो सबसे अच्छा आप त्रुटि को कम कर सकते हैं। लेकिन क्या उस त्रुटि को कम करने की लागत वास्तव में इसके लायक है? क्या "सूचना का मूल्य" वास्तव में प्रयास, समय लागत आदि के लायक है जो बड़े पैमाने पर समानांतर कंप्यूटरों पर बड़े डेटा का विश्लेषण करने में जाता है?

यहां तक ​​कि अगर कोई पूरी आबादी का विश्लेषण करता है, तो परिणाम अभी भी सही होने की अधिक संभावना के साथ सबसे अच्छा अनुमान होगा। संभवत: नमूने की तुलना में थोड़ा अधिक है (या यह बहुत अधिक होगा?) क्या जनसंख्या के विश्लेषण से प्राप्त अंतर्दृष्टि बनाम नमूना का विश्लेषण व्यापक रूप से भिन्न होगा?

या क्या हमें इसे "समय बदल गया" के रूप में स्वीकार करना चाहिए? एक गतिविधि के रूप में नमूनाकरण कम महत्वपूर्ण हो सकता है जो पर्याप्त कम्प्यूटेशनल शक्ति दी जाती है :)

नोट: मैं एक बहस शुरू करने की कोशिश नहीं कर रहा हूं, लेकिन यह समझने के लिए एक उत्तर की तलाश कर रहा हूं कि बड़ा डेटा क्या करता है (यानी सब कुछ का विश्लेषण करता है) और नमूने के सिद्धांत की अवहेलना करता है (या यह नहीं है?)


1
इसे भी देखें: आंकड़े.stackexchange.com/q/22502/7828 - बड़े डेटा से वैध निष्कर्ष कैसे निकालें।
एनोनी-मौसे

2
(+1 बहुत पहले) मुझे आपके आनंददायक प्रश्नों को पढ़ने में हमेशा आनंद आता है। वे इस साइट के लिए एक वास्तविक संपत्ति हैं।
कार्डिनल

1
@कार्डिनल - मैं ईमानदारी से आपकी टिप्पणी की सराहना करता हूं। मतलब आप से बहुत आने वाले हैं।
पीएचडी

जवाबों:


29

एक शब्द में, हाँ । मेरा मानना ​​है कि अभी भी स्पष्ट स्थितियाँ हैं जहाँ "बड़ा डेटा" दुनिया के भीतर और उसके बिना नमूना उपयुक्त है, लेकिन बड़े डेटा की प्रकृति निश्चित रूप से नमूने के लिए हमारे दृष्टिकोण को बदल देगी, और हम अधिक डेटासेट का उपयोग करेंगे जो अंतर्निहित के लगभग पूर्ण प्रतिनिधित्व हैं आबादी।

सैंपलिंग पर: परिस्थितियों के आधार पर यह लगभग हमेशा स्पष्ट होगा कि क्या सैंपलिंग करना उचित है। नमूनाकरण एक स्वाभाविक रूप से लाभकारी गतिविधि नहीं है; यह सिर्फ इतना है कि हम क्या करते हैं क्योंकि हमें डेटा संग्रह को लागू करने की लागत पर ट्रेडऑफ बनाने की आवश्यकता है। हम आबादी को चिह्नित करने की कोशिश कर रहे हैं और आबादी के बारे में डेटा एकत्र करने और उनका विश्लेषण करने के लिए उपयुक्त पद्धति का चयन करने की आवश्यकता है। जब डेटा संग्रह या डेटा प्रोसेसिंग की एक विधि की सीमांत लागत अधिक होती है, तो नमूना लेना समझ में आता है। 100% आबादी तक पहुंचने की कोशिश उस मामले में संसाधनों का अच्छा उपयोग नहीं है, क्योंकि आप यादृच्छिक नमूने त्रुटि में छोटे सुधार करने की तुलना में गैर-प्रतिक्रिया पूर्वाग्रह जैसी चीजों को संबोधित करने से अक्सर बेहतर होते हैं।

बड़ा डेटा अलग कैसे है? "बिग डेटा" उन्हीं प्रश्नों में से कई को संबोधित करता है जो हमने उम्र के लिए किए थे, लेकिन "नया" क्या है कि डेटा संग्रह एक मौजूदा, कंप्यूटर-मध्यस्थता प्रक्रिया से होता है, इसलिए डेटा एकत्र करने की सीमांत लागत अनिवार्य रूप से शून्य है। यह नाटकीय रूप से नमूने की हमारी आवश्यकता को कम करता है।

हम अभी भी नमूने का उपयोग कब करेंगे? यदि आपकी "बड़ी डेटा" जनसंख्या समस्या के लिए सही जनसंख्या है, तो आप केवल कुछ मामलों में ही नमूनाकरण का काम करेंगे: अलग-अलग प्रायोगिक समूहों को चलाने की आवश्यकता, या यदि डेटा का सरासर वॉल्यूम कैप्चर और प्रोसेस करने के लिए बहुत बड़ा है (कई हम में से कई लोग आजकल आसानी से लाखों पंक्तियों को संभाल सकते हैं, इसलिए यहाँ की सीमा आगे और बाहर हो रही है)। यदि ऐसा लगता है कि मैं आपके प्रश्न को खारिज कर रहा हूं, तो यह संभवत: इसलिए है क्योंकि मैंने शायद ही कभी उन परिस्थितियों का सामना किया है जहां डेटा की मात्रा संग्रह या प्रसंस्करण चरणों में एक चिंता थी, हालांकि मुझे पता है कि बहुत से हैं

वह स्थिति जो मुझे कठिन लगती है, जब आपकी "बड़ी डेटा" आबादी आपके लक्ष्य की आबादी का पूरी तरह से प्रतिनिधित्व नहीं करती है, इसलिए ट्रेडऑफ़ संतरे के लिए अधिक सेब हैं। मान लीजिए कि आप एक क्षेत्रीय परिवहन योजनाकार हैं, और Google ने आपको मदद करने के लिए अपने Android GPS नेविगेशन लॉग्स का उपयोग करने की पेशकश की है। हालांकि डेटासेट का उपयोग करने में कोई संदेह नहीं होगा, जनसंख्या संभवतः कम आय, सार्वजनिक-परिवहन उपयोगकर्ताओं और बुजुर्गों के खिलाफ व्यवस्थित रूप से पक्षपाती होगी। ऐसी स्थिति में, पारंपरिक यात्रा डायरी एक यादृच्छिक घरेलू नमूने के लिए भेजी जाती हैं, हालांकि महंगी और संख्या में छोटी, फिर भी डेटा संग्रह की बेहतर विधि हो सकती है। लेकिन, यह केवल "नमूना बनाम बड़े डेटा" का सवाल नहीं है, यह '


22

हालांकि मोबाइल उपकरणों द्वारा उत्पादित किए जा रहे बहुत सारे बिग डेटा का नरक हो सकता है और इस तरह, इसमें उपयोग करने योग्य डेटा बहुत कम है। यदि आप चौके का उपयोग करके शहरी यात्रा पैटर्न की भविष्यवाणी करना चाहते हैं, तो आप अनुमानित प्रवाह में परिमाण के क्रम से दूर हो सकते हैं। इससे भी बदतर, आपको पता नहीं चलेगा कि क्या आप इन प्रवाह को कम करके आंक रहे हैं या कम कर रहे हैं। आप maniacal फोरस्क्वेयर उपयोगकर्ताओं के शहरी यात्रा पैटर्न की एक पूरी तरह से सटीक तस्वीर प्राप्त कर सकते हैं, लेकिन जब तक हर किसी को एक स्मार्टफ़ोन रखने के लिए (1) की आवश्यकता नहीं है, (2) हर समय फोरस्क्वेयर ऐप चलाने के लिए, और (3) रजिस्टर करने के लिए किसी भी स्थान पर वे 10 मिनट से अधिक समय तक रुकते हैं (यानी, इलेक्ट्रॉनिक जनगणना प्राप्त करें; उदारवादियों को Google और फेसबुक के बारे में सब कुछ जानने के बारे में शिकायत करें), आपके डेटा में अज्ञात पूर्वाग्रह होंगे, और आपके इलेक्ट्रॉनिक डेवी वास्तविक शब्द को हराने के लिए जारी रहेंगे ट्रूमैन (क्लिक करने योग्य):


(स्रोत: whatisasurvey.info )

यदि कुछ भी हो, तो मुझे उम्मीद होगी कि इतिहास का यह टुकड़ा खुद को दोहराएगा, और बिग डेटा से उत्पन्न कुछ बड़े "बीयर + डायपर" पूर्वानुमानों को अधिक कठोर नमूना दृष्टिकोणों का उपयोग करके शोधकर्ताओं द्वारा पलट दिया जाएगा। यह आश्चर्यजनक है कि संभावना-आधारित सर्वेक्षण प्रतिक्रिया दर गिरने के बावजूद सटीक रहते हैं।


1
(+1) लेकिन, एक टकसाली Foursquare उपयोगकर्ता के विपरीत नहीं होगा पागल । ;-)
कार्डिनल

1
हाँ ... शायद एक बुरा शब्द है। मुझे उस उन्माद को बदलने दो!
StasK

2
बड़ा डेटा अपराधी नहीं है। इसका उपयोग कैसे किया जाता है। जब इसकी जानकारी होती है और इसे उचित तरीके से लागू किया जाता है तो यह बहुत मददगार हो सकता है। डाटा माइनिंग सब खराब नहीं है।
बजे माइकल चेरिक

ट्रैफ़िक जानकारी के लिए बड़े डेटा के उपयोग पर महान बिंदु। चूंकि Google और Apple जैसी कंपनियां पहले से ही ऐसा करती हैं, मुझे लगता है कि यह एक महान उदाहरण है जहां (वर्तमान में उपलब्ध) बड़ा डेटा कुछ दर्शकों के लिए कम हो सकता है, और मैंने इसे अपने उत्तर में भी शामिल करने की कोशिश की।
जोनाथन

@ मिचेल, आप सही कह रहे हैं, बिल्कुल। डेटा सस्ता है, लेकिन इसके बारे में उपयोगी जानकारी प्राप्त करने के तरीके अब नीचे नहीं जा रहे हैं - यदि कुछ भी हो, तो वे ऊपर जा रहे हैं, क्योंकि अब उपयोगी जानकारी प्राप्त करने के लिए अधिक डेटा के माध्यम से झारना है।
20

21

जब भी कोई सांख्यिकीय अनुमान की तकनीकों को लागू करता है, तो जनसंख्या के रूप में स्पष्ट होना महत्वपूर्ण है, जिसके बारे में किसी का निष्कर्ष निकालना है। यहां तक ​​कि अगर जो डेटा एकत्र किया गया है वह बहुत बड़ा है, यह अभी भी केवल आबादी के एक छोटे हिस्से से संबंधित हो सकता है, और पूरे का बहुत प्रतिनिधि नहीं हो सकता है।

उदाहरण के लिए मान लीजिए कि एक निश्चित उद्योग में काम करने वाली कंपनी ने एक निश्चित देश में अपने ग्राहकों पर 'बड़ा डेटा' एकत्र किया है। यदि यह उस देश में अपने मौजूदा ग्राहकों के बारे में निष्कर्ष निकालने के लिए उस डेटा का उपयोग करना चाहता है, तो नमूना बहुत प्रासंगिक नहीं हो सकता है। हालांकि अगर यह एक बड़ी आबादी के बारे में निष्कर्ष निकालना चाहता है - संभावित के साथ-साथ मौजूदा ग्राहक, या दूसरे देश में ग्राहक - तो यह विचार करना आवश्यक हो जाता है कि जिन ग्राहकों के बारे में डेटा एकत्र किया गया है वे किस हद तक प्रतिनिधि हैं - शायद आय, आयु में , लिंग, शिक्षा, आदि - बड़ी आबादी का।

समय के आयाम पर भी विचार करने की आवश्यकता है। यदि उद्देश्य भविष्यवाणियों का समर्थन करने के लिए सांख्यिकीय निष्कर्ष का उपयोग करना है, तो भविष्य में आबादी का विस्तार करने के लिए समझा जाना चाहिए। यदि ऐसा है, तो फिर से यह विचार करना आवश्यक हो जाता है कि क्या डेटा सेट, हालांकि बड़े, उन परिस्थितियों के प्रतिनिधि में प्राप्त किया गया था जो भविष्य में प्राप्त कर सकते हैं।


हमारी साइट पर आपका स्वागत है, एडम! (आप नियमित रूप से चेक इन हैं, तो आप भी में अपने हितों व्यायाम करने के लिए कभी-कभी अवसरों मिलेगा ज्यामिति और संख्या सिद्धांत :-)।
whuber

जनसंख्या पर विचार करने की आवश्यकता के बारे में महान बिंदु! यह उन बड़े तरीकों में से एक है जिनसे लोग बड़े डेटा के बारे में आलसी हो सकते हैं।
जोनाथन

"यहां तक ​​कि अगर जो डेटा एकत्र किया गया है वह बहुत बड़ा है, यह अभी भी केवल आबादी के एक छोटे हिस्से से संबंधित हो सकता है, और पूरे का बहुत प्रतिनिधि नहीं हो सकता है।" मुझे लगता है कि यह वाक्य अकेले कई सवालों के जवाब देता है।
बेमेइफे

13

जो मैंने बड़े डेटा / एमएल क्रेज के बारे में देखा है, उसमें सेम्पलिंग के बारे में सोचना और जिस जनसंख्या से आपका नमूना तैयार किया गया है वह हमेशा की तरह महत्वपूर्ण है - लेकिन इससे भी कम के बारे में सोचा।

मैं स्टैनफोर्ड एमएल वर्ग का "ऑडिटिंग" कर रहा हूं, और इस प्रकार हमने प्रतिगमन और तंत्रिका नेटवर्क को कवर किया है जिसमें जनसंख्या के अनुमान का उल्लेख है। चूँकि इस वर्ग को 6 आकृतियों वाले लोगों द्वारा लिया गया है, इसलिए अब वहाँ बहुत सारे लोग हैं जो यह जानते हैं कि किसी नमूने के विचार के बिना किसी भी धारणा के बिना डेटा को कैसे फिट किया जाएगा।


3
मैं पूरी तरह से सहमत। जब मशीन लर्निंग (ज्यादातर प्रैक्टिस करने वाले और प्रोग्रामर), बिग डेटा और "डेटा साइंस" के बारे में मौजूदा क्रेज को देखते हुए, मैं लोगों को पूरी तरह से नमूनाकरण, अंतर्ज्ञान, सांख्यिकीय तर्क समझ और अर्थ को अनदेखा करना और आँख बंद करके इसे लागू करने के लिए जो कुछ भी लागू करना है, यह हास्यास्पद लगता है। एल्गोरिथ्म इस पर हिप है। आप यह भी देख सकते हैं कि प्रश्न और क्रॉस पर यहाँ कुछ उत्तरों के साथ मान्य हैं। इसलिए मैं यह भी मानता हूं कि यह एक प्रचार है जो जल्द ही अप्रचलित हो जाएगा या सांख्यिकीय एपिस्टेमोलॉजी को उधार लेगा और इस प्रकार आंकड़ों की एक शाखा बन जाएगी (मैं इसे वैसे भी देखता हूं)।
मोमो

2
यदि वह एमएल क्लास कुछ समय पहले आई ऑडिट के समान है, तो हॉफिंग असमानता से ठीक पहले एक तकनीकी धारणा फिसल गई थी कि प्रशिक्षण डेटा आबादी से बिल्कुल यादृच्छिक नमूना है। दुर्भाग्य से, यह लगभग कभी नहीं होता है, कम से कम मेरे अनुभव में, और पूरे पाठ्यक्रम में तकनीकों के अनुप्रयोगों के उदाहरणों में। यह तब भी नहीं होता है जब आप "बड़े डेटा" का उपयोग करते हैं।
डगलस ज़ारे

12

हां, नमूना प्रासंगिक है और प्रासंगिक रहेगा। लब्बोलुआब यह है कि एक सांख्यिकीय अनुमान की सटीकता आम तौर पर नमूना आकार का एक कार्य है, न कि उस जनसंख्या को जिसे हम सामान्य बनाना चाहते हैं। तो एक या एक औसत अनुपात 1,000 उत्तरदाताओं के नमूने से गणना की जाती है, जनसंख्या के आकार (या "कितना बड़ा" की परवाह किए बिना) एक निश्चित सटीकता का अनुमान लगाएगा (जहां से हमने पूरी आबादी के संबंध में)। बड़ा डेटा "हैं)।

कहा गया है कि: विशिष्ट मुद्दे और चुनौतियां हैं जो प्रासंगिक हैं और जिनका उल्लेख किया जाना चाहिए:

  1. एक अच्छी संभावना नमूना लेना हमेशा आसान नहीं होता है। सैद्धांतिक रूप से, जनसंख्या में प्रत्येक व्यक्ति जिसे हम सामान्यीकृत करना चाहते हैं (जिसके बारे में हम निष्कर्ष निकालना चाहते हैं) को चयनित होने की ज्ञात संभावना होनी चाहिए; आदर्श रूप से वह संभावना समान होनी चाहिए (समान संभावना नमूना या EPSEM - चयन की समान संभावना)। यह एक महत्वपूर्ण विचार है और किसी को इस बात की स्पष्ट समझ होनी चाहिए कि नमूना प्रक्रिया उस आबादी के सदस्यों को चयन संभावना कैसे प्रदान करेगी, जिसके लिए वह सामान्यीकरण करना चाहता है। उदाहरण के लिए, क्या ट्विटर से प्राप्त कोई भी व्यक्ति बड़ी संख्या में आबादी में समग्र भावनाओं के सटीक अनुमानों को फीड कर सकता है, जिसमें बिना ट्विटर अकाउंट वाले व्यक्ति भी शामिल हैं?
  2. बड़े डेटा में बहुत जटिल विवरण और जानकारी हो सकती है; एक और तरीका है, इस मुद्दे का नमूना नहीं है, लेकिन (सूक्ष्म) विभाजन, टिप्पणियों के एक छोटे सबसेट के लिए सही विवरण खींचना जो प्रासंगिक हैं। यहां चुनौती नमूना नहीं है, बल्कि बड़े डेटा के विशिष्ट स्तरीकरण और विभाजन की पहचान करना है जो सबसे सटीक कार्रवाई योग्य जानकारी देता है जिसे मूल्यवान अंतर्दृष्टि में बदल दिया जा सकता है।
  3. राय माप का एक अन्य सामान्य नियम यह है कि गैर-नमूनाकरण त्रुटियां और पूर्वाग्रह आमतौर पर नमूनाकरण त्रुटि और पूर्वाग्रहों की तुलना में बहुत बड़े होते हैं। सिर्फ इसलिए कि आप एक राय व्यक्त करने वाले उत्तरदाताओं के 1 सौ गज़िल रिकॉर्डों को संसाधित करते हैं, यदि आप केवल 1000 व्यक्ति के डेटा को सब्स्क्राइब करते हैं तो परिणाम अधिक उपयोगी नहीं होंगे, विशेष रूप से यदि संबंधित सर्वेक्षण के प्रश्न अच्छी तरह से और प्रेरित पूर्वाग्रह नहीं लिखे गए थे।
  4. कभी-कभी नमूने की आवश्यकता होती है: उदाहरण के लिए, यदि सभी डेटा से एक पूर्वानुमान मॉडल का निर्माण किया जाता था, तो कोई इसे कैसे मान्य करेगा? विभिन्न मॉडलों की सटीकता की तुलना कोई कैसे करेगा? जब "बड़े डेटा" (बहुत बड़े डेटा रिपॉजिटरी) होते हैं, तो कोई अलग-अलग नमूनों के लिए कई मॉडल और मॉडलिंग परिदृश्य बना सकता है, और उन्हें अन्य स्वतंत्र नमूनों में सत्यापित (उन्हें आज़माकर देख सकता है) कर सकता है। यदि सभी डेटा के लिए एक मॉडल का निर्माण किया जाता है - तो कोई इसे कैसे मान्य करेगा?

आप यहां हमारी 'बिग डेटा क्रांति' देख सकते हैं।


1
हमारी साइट में आपका स्वागत है, Kyra!
whuber

3

कई बड़े डेटा तरीके वास्तव में नमूने के आसपास डिज़ाइन किए गए हैं।

प्रश्न की लाइन पर अधिक होना चाहिए:

क्या हमें बड़े डेटा के साथ भी व्यवस्थित सैंपलिंग का उपयोग नहीं करना चाहिए ?

बहुत सारे "बड़े डेटा" सामान अभी भी बहुत ताज़ा हैं, और कभी-कभी भोले हैं। उदाहरण के लिए K- साधनों को तुच्छ रूप से समानांतर किया जा सकता है, और इस प्रकार "बड़े डेटा" के लिए काम करता है (मैं परिणामों के बारे में बात नहीं करने जा रहा हूं, वे बहुत सार्थक नहीं हैं; और शायद नमूने पर प्राप्त किए गए लोगों के लिए बहुत अलग नहीं हैं!)। जहां तक ​​मुझे पता है कि महाउत्पाद में k- साधन कार्यान्वयन क्या है।

हालांकि, अनुसंधान भोले समानांतर से परे जा रहा है (जिसमें अभी भी बड़ी मात्रा में पुनरावृत्तियों की आवश्यकता हो सकती है) और K- साधनों को निश्चित संख्या में पुनरावृत्तियों करने की कोशिश करता है । इसके लिए उदाहरण:

  • MapReduce
    Ene, A. और Im, S. और Moseley, B. का उपयोग करते हुए तेजी से क्लस्टरिंग
    17 वीं ACM SIGKDD ज्ञान खोज और डेटा माइनिंग, 2011 पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही

और लगता है क्या, उनके दृष्टिकोण नमूना पर आधारित है

अगला उदाहरण: निर्णय वन । यह अनिवार्य रूप से है: डेटा सेट से कई नमूनों के लिए , प्रत्येक एक निर्णय पेड़ बनाएं। फिर से तुच्छ रूप से समानांतर किया जा सकता है: प्रत्येक नमूने को एक अलग मशीन पर रखें। और फिर, यह एक नमूना आधारित दृष्टिकोण है।

इसलिए नमूना बड़े डेटा दृष्टिकोणों के लिए महत्वपूर्ण अवयवों में से एक है!

और इसमें कुछ भी गलत नहीं है।


2

क्रॉस सत्यापन उप-नमूने का एक विशिष्ट उदाहरण है जो एमएल / बड़े डेटा में काफी महत्वपूर्ण है। अधिक आम तौर पर, बड़ा डेटा अभी भी आमतौर पर आबादी का एक नमूना है, जैसा कि यहां के अन्य लोगों ने उल्लेख किया है।

लेकिन, मुझे लगता है कि ओपी विशेष रूप से नमूने का उल्लेख कर सकता है क्योंकि यह एक नियंत्रित प्रयोगों, बनाम अवलोकन डेटा पर लागू होता है। आमतौर पर बड़े डेटा को बाद के रूप में माना जाता है, लेकिन मेरे लिए कम से कम अपवाद हैं। मैं यादृच्छिक परीक्षण, ए / बी परीक्षण, और ई-कॉमर्स और सामाजिक नेटवर्क सेटिंग्स में बहुरंगी डाकुओं के बारे में सोचता हूं, "बड़े डेटा सेटिंग्स में नमूने"।


1

जिन क्षेत्रों में बिग डेटा लोकप्रियता हासिल कर रहा है: अमेज़ॅन, नेटफ्लिक्स जैसे खोज, विज्ञापन, अनुशंसित सिस्टम, पूरे डेटा सेट का पता लगाने के लिए एक बहुत बड़ा प्रोत्साहन है।

इन प्रणालियों का उद्देश्य जनसंख्या के हर एक सदस्य को सिफारिशें / सुझाव देना है। साथ ही, अध्ययन की जा रही विशेषताओं की संख्या बहुत अधिक है। औसत वेब एनालिटिक्स सिस्टम एक पृष्ठ में "हॉट क्षेत्रों" की "थर्मल ट्रैकिंग", क्लिक-थ्रू दर, सामाजिक इंटरैक्शन आदि को माप सकता है और पूर्व निर्धारित उद्देश्यों के एक बड़े सेट के खिलाफ इनका वजन कर सकता है।

इससे भी महत्वपूर्ण बात यह है कि बिग डेटा अब ज्यादातर जगहों पर सर्वव्यापी हैं, "ऑनलाइन" डेटा स्ट्रीम यानी डेटा लगातार जोड़ा / अपडेट किया जा रहा है। एक नमूना योजना तैयार करना जो इन सभी विशेषताओं को निहित पूर्वाग्रह के बिना कवर करता है और फिर भी आशाजनक परिणाम देता है (बेहतर मार्जिन पढ़ें) एक चुनौती है।

नमूनाकरण अभी भी सर्वेक्षण, चिकित्सा परीक्षण, ए / बी परीक्षण, गुणवत्ता आश्वासन के लिए अत्यधिक प्रासंगिक है।

संक्षेप में, जब अध्ययन की जाने वाली जनसंख्या बहुत बड़ी हो तो नमूना बहुत उपयोगी होता है और आप जनसंख्या के स्थूल गुणों में रुचि रखते हैं। सिस्टम के सूक्ष्म गुणों के दोहन के लिए 100% जाँच (बिग डेटा) आवश्यक है

उम्मीद है की यह मदद करेगा :)


तो क्या आपकी बात यह है कि वे उस डेटा से सामान्यीकरण करने में सक्षम नहीं होना चाहते जो उनके पास अभी तक मौजूद डेटा के पास नहीं है? या कि उन्हें लगता है कि उनका नमूना इतना बड़ा है कि उन्हें उन मुद्दों के बारे में चिंता करने की ज़रूरत नहीं है? या यह कि समय के साथ-साथ अंतर्निहित पैरामीटर बदलते रहेंगे, तो क्या यह तब तक महत्वपूर्ण नहीं है जब तक वे नए डेटा प्रवाह में अद्यतन करना जारी रखते हैं?
गंग -

@gung समस्या नमूने का आकार नहीं है, बल्कि एक डेटासेट के लिए एक निष्पक्ष नमूने उत्पन्न करने की समस्या है जिसमें बहुत बड़ी संख्या है। और सामान्यीकरण आमतौर पर मशीन लर्निंग एल्गोरिदम द्वारा किया जाता है, जो डेटा सेट के एक हिस्से पर प्रशिक्षित होता है। ऑनलाइन डेटा स्ट्रीम लगातार आ रहा है जो सैम्पलिंग के मुद्दे को माध्यमिक बनाता है क्योंकि मापदंडों को बदलने के लिए बैच अपडेट का उपयोग किया जा सकता है।
rrampage
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.