मेरे पास ऐसे संदर्भ हैं जो डेटा फिटिंग वितरण के लिए न्यूनतम 20 के नमूने के आकार पर विचार करने की सलाह देते हैं।
क्या इसमें कोई समझदारी है?
धन्यवाद
मेरे पास ऐसे संदर्भ हैं जो डेटा फिटिंग वितरण के लिए न्यूनतम 20 के नमूने के आकार पर विचार करने की सलाह देते हैं।
क्या इसमें कोई समझदारी है?
धन्यवाद
जवाबों:
इसका अधिकांश भाग अपेक्षित वितरण और आपके शोध प्रश्न पर निर्भर करता है। अंगूठे के नियम के रूप में, आपको अंगूठे के नियमों से सावधान रहना चाहिए। यदि आप अपेक्षित वितरण जानते हैं, तो विभिन्न आकारों के कुछ सिमुलेशन चलाएं और निर्धारित करें कि नमूना सिमुलेशन वास्तविक वितरण को कितनी बार दर्शाते हैं। यह आपको अंतिम आवश्यक नमूना आकार के रूप में कुछ मार्गदर्शन देना चाहिए।
मुझे लगा कि सैंपल साइज मैजिक नंबर 1,000 है। अमेरिका के अधिकांश राष्ट्रीय चुनावों में, लगभग 3% की त्रुटि का उत्पादन करने के लिए: , वास्तव में, प्रभावी प्रभावी आकार कम हैं 1,000 से अधिक, 700 या अधिक की तरह, चयन और गैर-प्रतिक्रिया समायोजन की असमान संभावना के कारण, 3.7% की त्रुटि के मार्जिन के लिए अग्रणी।
सिर्फ 20 टिप्पणियों के साथ, आप तकनीकी रूप से तिरछापन और कुर्तोसिस के बहुत उच्च मूल्यों को प्राप्त नहीं कर सकते हैं (नमूना मानक विचलन द्वारा सामान्यीकृत, निश्चित रूप से):
वितरण फिटिंग पर एक और विचार कर्नेल घनत्व अनुमान के माध्यम से लिया जा सकता है: आकार के नमूने के लिए , सबसे लोकप्रिय नियम की बैंडविड्थ देता है जो गॉसियन कर्नेल का उपयोग करके पूरे वितरण को प्रभावी ढंग से फैलाता है। दूसरे शब्दों में, आकार 20 के अधिकांश नमूने सामान्य दिखेंगे यदि आप उनके चारों ओर कर्नेल घनत्व अनुमान लगाते हैं, जब तक कि उनके पास स्पष्ट रूप से एक उल्लेखनीय कर्टोसिस नहीं होता है (जिसका अर्थ होगा कि कुछ अवलोकनीय अवलोकन हैं जो कर्नेल घनत्व पर अलग धक्कों के रूप में दिखाई देंगे। भूखंड)।
नहीं। दूर से नहीं।
इसके बारे में इस तरह से सोचें: यदि आपके पास एक बिलियन-डायमेंशनल स्पेस (मानवता) था और आपने जो भी विधि (20 लोग) का उपयोग करके 20 सैंपल निकाले हैं, तो क्या आप जानकारी का उपयोग करके उन्हें ग्रह के हर व्यक्ति के बारे में अच्छी तरह समझ सकते हैं? दूर से नहीं। मिल्की वे आकाशगंगा में 100 बिलियन तारे हैं। उनमें से 20 (बेतरतीब ढंग से) उठाकर आप सभी को गेलेक्टिक खगोल विज्ञान समझ सकते हैं? बिल्कुल नहीं।
1-डी स्पेस में अंगूठे के कुछ मान्य नियम हैं, जो ज्यादातर वैध नियमों की मदद कर सकते हैं, जो यह वर्णन करते हैं कि आप कितने माप लेना चाहते हैं। उनमें उपयोगिता और औचित्य की अलग-अलग डिग्री शामिल हैं, लेकिन कुछ अर्थों में "20" की तुलना में अधिक अच्छी तरह से बचाव किया गया है। उनमें "आपके फिट समीकरण में प्रति चर 5 माप", "गाऊसी घनत्व फ़ंक्शन के कम से कम 35 नमूने", और "एक द्विपद फ़ंक्शन के कम से कम 300 नमूने" शामिल हैं। वास्तविक सांख्यिकीविद् और मेरे जैसा कोई बेवकूफ-बमवर्षक नहीं, विशेष सिद्धांतों और अनिश्चितताओं को पहले सिद्धांतों और एक कैलकुलेटर के बिना संबद्ध करने में सक्षम होगा।
यदि आप अपने फिट समीकरण में "प्रति पैरामीटर 5 माप" के नियम का उपयोग करते हैं और आप एक 2 डिमेन्सिवली कर्व्ड बाय-क्यूबिक सतह के संचयी घनत्व को ऊंचाइयों के वितरण के संदर्भ में फिट करना चाहते हैं, तो आपके पास एक अंतर्निहित सिस्टम है जो , एक घन से 5 वीं क्रम के बहुपद का अनुपात। इसमें 6 + 4 = 10 गुणांक होंगे। यदि आप प्रति पैरामीटर 2 मापों का उपयोग करके या 20 मापों का उपयोग करके अपने 10 पैरामीटर मानों को फिट करने की कोशिश कर रहे हैं, तो आप इस अनुमान का उल्लंघन करेंगे। यह अनुमानी न्यूनतम 10 * 5 = 50 माप की सिफारिश करता है।
कृपया याद रखें कि "सर्वश्रेष्ठ" एक अच्छा विचार है, जिसमें "अच्छाई का माप" नहीं है। सबसे अच्छा रास्ता क्या है? यदि आप अपने कयामत पर जा रहे हैं, तो शायद बहुत लंबा और सुखद। यदि आप अपने स्वयं के राज्याभिषेक के लिए जा रहे हैं, तो शायद एक छोटा और शानदार। यदि आप रेगिस्तान के माध्यम से चल रहे हैं, एक शांत छायादार। "सर्वश्रेष्ठ" नमूनों की संख्या क्या है? यह इतनी आश्चर्यजनक रूप से आपकी समस्या पर निर्भर है कि इससे पहले प्राधिकरण के साथ इसका जवाब नहीं दिया जा सकता है। उन सभी को? जितने हो सकते हैं? जो केवल थोड़ा सा समझ में आता है। हां यह आंशिक रूप से मृत या गर्भवती होने जैसा है। आंशिक रूप से निरर्थक होना एक बहुत ही कम परिभाषित समस्या का परिणाम है।
यदि आप एक विमान पर एयरफ्लो का सटीक पूर्वानुमान लगाने की कोशिश कर रहे हैं? बॉल-पार्क में जाने के लिए आपको कई मिलियन मापों की आवश्यकता हो सकती है। यदि आप जानना चाहते हैं कि आप कितने लंबे हैं, तो एक या दो काम कर सकते हैं।
यह "स्पेस को फैलाने" और "उन स्थानों पर नमूने लेने के महत्वपूर्ण बिंदुओं को नहीं लाता है जो पैरामीटर अनुमानों में विचरण को कम करते हैं" लेकिन सवाल यह है कि एक अधिक नए स्तर का उत्तर प्रासंगिक होगा। इन चीजों को लागू करने से पहले समस्या की प्रकृति के बारे में अधिक जानना आवश्यक है।
नोट: प्रति सुझावों में सुधार करने के लिए संपादित किया गया।
शायद उस संदर्भ के लिए जहां आप टी-टेस्ट या एनोवा कर रहे हैं - बुनियादी सांख्यिकीय अनुप्रयोगों में एक बहुत ही सामान्य संदर्भ - यह नमूना आकार के आसपास है जिसे आपको प्रत्येक समूह के लिए आवश्यक है ताकि प्रत्येक समूह के औसत होने में बहुत अधिक आत्मविश्वास हो। सामान्य रूप से वितरित (केंद्रीय सीमा प्रमेय के अनुसार) जब वितरण को कम या ज्यादा unimodal माना जा सकता है और अत्यंत चरम पर नहीं। बीस और उन्नीस या इक्कीस नहीं क्योंकि यह एक गोल संख्या है।
विषय पर कुछ लेख (पृष्ठ के मध्य में सलाह अनुभाग में) के लिए रसेल लैंथ के पावर एंड सैंपल साइज़ पेज की जाँच करें ।
आपके नमूने में व्यक्तियों की न्यूनतम संख्या जनसंख्या के आकार के अनुसार बेतहाशा भिन्न होती है, आयामों की संख्या (यदि आप श्रेणियों में डेटा को विभाजित कर रहे हैं) और उपाय (यदि आप नमूने के बारे में लगातार उपाय कर रहे हैं) जो आप ले रहे हैं, का आकार आपका ब्रह्मांड, विश्लेषण की तकनीक जिसे आप उपयोग करने का इरादा रखते हैं (यह एक बहुत ही महत्वपूर्ण बिंदु है - तकनीक को अध्ययन की योजना के दौरान या प्रयोगात्मक डिजाइन के दौरान परिभाषित किया गया है , कभी नहीं), और पिछले अध्ययनों द्वारा दिखाए गए जटिलता।
और 20 "दुर्लभ बीमारियों" और "प्रायोगिक मनोविज्ञान" (पॉपर के रूप में परिभाषित अपने काम में परिभाषित) के विषयों के बाहर किसी भी गंभीर शोध के लिए पर्याप्त नहीं है।
और 20 "दुर्लभ बीमारियों" और "प्रायोगिक मनोविज्ञान" (पॉपर के रूप में अपने काम में परिभाषित) के विषयों के बाहर किसी भी गंभीर शोध के लिए पर्याप्त नहीं है जिसमें एक संभावना वितरण शामिल है ।
और नहीं, आपको एक बड़े नमूने के आकार को प्राप्त करने के लिए लोगों को जहर नहीं रखना चाहिए। कॉमन सेंस और अनुक्रमिक टेस्ट आपको रोकने का आदेश देते हैं।