बड़े समग्र डेटासेट से प्रतिनिधि नमूना कैसे सेट करें?


10

नमूना सेट बनाने के लिए सांख्यिकीय तकनीक क्या हैं, जो पूरी आबादी का प्रतिनिधि है (ज्ञात आत्मविश्वास स्तर के साथ)?

इसके अलावा,

  • कैसे सत्यापित करें, यदि नमूना समग्र डेटासेट में फिट बैठता है?
  • क्या यह संभव है, संपूर्ण डेटासेट को पार्स किए बिना (जो अरबों रिकॉर्ड हो सकते हैं)?

जवाबों:


8

यदि आप संपूर्ण डेटा सेट को पार्स नहीं करना चाहते हैं, तो आप शायद स्तरीकृत नमूने का उपयोग नहीं कर सकते हैं , इसलिए मैं एक बड़ा सरल यादृच्छिक नमूना लेने का सुझाव दूंगा । एक यादृच्छिक नमूना लेने से , आप यह सुनिश्चित करते हैं कि नमूना, औसतन, संपूर्ण डेटासेट का प्रतिनिधि होगा, और सटीकता के मानक सांख्यिकीय उपाय जैसे मानक त्रुटियां और आत्मविश्वास अंतराल आपको बताएंगे कि आपके नमूना अनुमानों की आबादी के मूल्यों से कितनी दूर होने की संभावना है ऐसा होने के लिए, यह प्रमाणित करने की कोई वास्तविक आवश्यकता नहीं है कि एक नमूना जनसंख्या का प्रतिनिधि है जब तक कि आपको कुछ चिंताएं न हों जो वास्तव में यादृच्छिक पर नमूना थीं।

एक साधारण यादृच्छिक नमूना कितना बड़ा है? खैर, नमूना जितना बड़ा होगा, आपके अनुमान उतने ही सटीक होंगे। जैसा कि आपके पास पहले से ही डेटा है, पारंपरिक नमूना आकार गणना वास्तव में लागू नहीं है - आप कंप्यूटिंग के लिए व्यावहारिक होने के साथ-साथ अपने डेटासेट का भी उतना ही उपयोग कर सकते हैं। जब तक आप कुछ जटिल विश्लेषण करने की योजना नहीं बना रहे हैं जो गणना समय को एक मुद्दा बना देगा, एक सरल दृष्टिकोण सरल यादृच्छिक नमूना बनाने के लिए होगा जितना कि आपके पीसी पर विश्लेषण किया जा सकता है बिना पेजिंग के।या अन्य स्मृति मुद्दों। अंगूठे का एक नियम आपके डेटासेट के आकार को आपके कंप्यूटर की रैम से आधे से ज्यादा नहीं सीमित कर सकता है ताकि उसमें हेरफेर करने के लिए जगह हो और ओएस और शायद अन्य छोटे अनुप्रयोगों (जैसे एक संपादक और एक वेब ब्राउज़र के लिए कुछ जगह छोड़ सके। )। एक और सीमा यह है कि 32-बिट विंडोज ऑपरेटिंग सिस्टम किसी एकल एप्लिकेशन के लिए एड्रेस स्पेस को बाइट्स = 2.1 जीबी से बड़ा नहीं होने देगा , इसलिए यदि आप 32-बिट विंडोज का उपयोग कर रहे हैं, तो 1 जीबी एक हो सकता है डेटासेट के आकार पर उचित सीमा।231

फिर यह गणना करना कुछ सरल अंकगणित की बात है कि आप प्रत्येक अवलोकन के लिए कितने चर दे सकते हैं और प्रत्येक चर के लिए कितने बाइट्स का नमूना ले सकते हैं।


आपके उत्तर के लिए धन्यवाद। मुझे लगता है कि मैं स्तरीकृत नमूने की तलाश कर रहा हूं। (मैं एल्गोरिदम की तलाश कर रहा था, जो कम्प्यूटेशनल रूप से बहुत महंगा नहीं है, क्योंकि पूरी आबादी को पार्स करने के लिए, प्रतिनिधि सेट बनाने के लिए, यह भी समझ में नहीं आता है। :-))
मोहित रांका

2

आपके दूसरे प्रश्न पर, आप पूछ सकते हैं, "डेटा कैसे दर्ज किया गया था?" यदि आपको लगता है कि डेटा अपेक्षाकृत मनमाने ढंग से दर्ज किया गया था (यानी, आपकी टिप्पणियों के किसी भी अवलोकन योग्य या अप्राप्य विशेषताओं से स्वतंत्र है जो डेटा का उपयोग करके आपके अंतिम विश्लेषण को प्रभावित कर सकता है), तो आप पहले 5 मिलियन पर विचार कर सकते हैं, कह सकते हैं, या फिर कई आप पूरे नमूने के प्रतिनिधि के रूप में काम करने में सहज हैं, और इस समूह से बेतरतीब ढंग से एक नमूना बनाने के लिए चुनें जिसे आप काम कर सकते हैं।

दो अनुभवजन्य वितरणों की तुलना करने के लिए, आप qq- भूखंडों और दो-नमूने Kolmogorov – Smirnov गैर-पैरामीट्रिक परीक्षण के वितरण में अंतर के लिए उपयोग कर सकते हैं (उदाहरण के लिए, यहाँ देखें: http://en.wikipedia.org -wiki/Kolmogorov% E2 % 80% 93Smirnov_test )। इस मामले में, आप अपने "पूर्ण" डेटा सेट में उस चर के वितरण के खिलाफ अपने नमूने में प्रत्येक चर के वितरण का परीक्षण करेंगे (फिर से, यह आपके पूर्ण नमूने से सिर्फ 5 मिलियन अवलोकन हो सकता है)। केएस परीक्षण कम शक्ति से ग्रस्त हो सकता है (यानी, समूहों के बीच कोई अंतर नहीं है) की अशक्त परिकल्पना को अस्वीकार करना मुश्किल है, लेकिन, कई टिप्पणियों के साथ, आपको ठीक होना चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.