माध्य का अनुमान लगाने के लिए आवश्यक नमूनों की संख्या की गतिशील गणना


9

मैं नमूने के माध्यम से अधिक या कम गॉसियन वितरण के माध्यम का अनुमान लगाने की कोशिश कर रहा हूं। मुझे इसके मतलब या इसके विचरण के बारे में कोई पूर्व जानकारी नहीं है। प्रत्येक नमूना प्राप्त करने के लिए महंगा है। मैं गतिशील रूप से कैसे तय करूं कि मुझे एक निश्चित स्तर के विश्वास / सटीकता के लिए कितने नमूनों की आवश्यकता है? वैकल्पिक रूप से, मुझे कैसे पता चलेगा कि मैं नमूने लेना कब बंद कर सकता हूं?

इस तरह के प्रश्नों के सभी उत्तर, जो मुझे मिल सकते हैं, विचरण के कुछ ज्ञान का अनुमान लगा सकते हैं, लेकिन मुझे इसके साथ-साथ इसे खोजने की जरूरत है। अन्य चुनावों के लिए तैयार हैं, और यह मेरे लिए स्पष्ट नहीं है (शुरुआत में कि मैं हूं) कि यह कैसे सामान्य हो जाता है - मेरा मतलब w / में नहीं है [0,1], आदि।

मुझे लगता है कि यह एक सुप्रसिद्ध उत्तर के साथ एक सरल प्रश्न है, लेकिन मेरा Google-फू मुझे विफल कर रहा है। यहां तक ​​कि सिर्फ मुझे यह बताने के लिए कि क्या खोज करना सहायक होगा।


किसी भी कारण से आपने इसे सीडब्ल्यू के रूप में चिह्नित किया? प्रश्न के लिए अनुमति देने के लिए विशिष्ट पर्याप्त लगता है एक सही जवाब है और इस तरह सीडब्ल्यू नहीं होना चाहिए।

1
@ जोश ठीक है। मुझे तुम्हारी पसंद के बारे में बस उत्सुकता थी।

1
Google "अनुकूली नमूनाकरण" और "क्रमिक नमूनाकरण"। यदि आप अभी भी अटक रहे हैं, तो "वाल्ड" को एक कीवर्ड के रूप में शामिल करें और फिर ऐतिहासिक रूप से आगे काम करें (यानी, ऐसे कागजात देखें जो क्रमिक नमूने पर वाल्ड के काम को देखें, फिर उन संदर्भों को देखें, आदि)।
whuber

1
@ रॉकी मैककिलियम: लेकिन आप किस डेटा का उपयोग करते हैं? यह सवाल किसी भी डेटा को एकत्र करने से पहले उठता है। यदि आप एक समय में एक मान एकत्र करते हैं और प्रत्येक नए के बाद डेटासेट में जोड़े जाने के बाद CI की गणना करते हैं, तो आप जो परस्पर संबद्ध कई तुलनाएँ कर रहे हैं, उनके कारण अंतराल के लिए मानक सूत्र का उपयोग नहीं कर सकते हैं। इस प्रकार, आपको एक रोक नियम की आवश्यकता है जो आपके अनुमानक के सांख्यिकीय जोखिम के योग और प्रत्येक अतिरिक्त नमूने को इकट्ठा करने की लागत का अनुकूलन करता है।
व्हिबर

1
@ शुभंकर धन्यवाद! मैं अभी भी सामग्री को पचा रहा हूं, लेकिन मुझे लगता है कि यह वही है जो मैं देख रहा हूं। यदि यह एक उत्तर होता, तो मैं इसे स्वीकार करता ...
जोश ब्लेकचर स्नाइडर

जवाबों:


2

आपको 'बायेसियन एडेप्टिव डिज़ाइन' की खोज करने की आवश्यकता है। मूल विचार इस प्रकार से है:

  1. आप ब्याज के मापदंडों के लिए पहले इनिशियलाइज़ करते हैं।

    किसी भी डेटा संग्रह से पहले आपके पुरोहितों को फैलाना होगा। जैसे ही अतिरिक्त डेटा आपके पास आता है, पूर्ववर्ती को फिर से सेट करें जो उस समय तक 'पूर्व + डेटा' से मेल खाता हो।

  2. डेटा इकट्ठा करना।

  3. डेटा + पुजारियों के आधार पर पश्च की गणना करें। बाद में चरण 1 में पूर्व के रूप में उपयोग किया जाता है यदि आप वास्तव में अतिरिक्त डेटा एकत्र करते हैं।

  4. मूल्यांकन करें कि क्या आपके रुकने के मापदंड पूरे हुए हैं

    मानदंड रोकना शामिल हो सकता है जैसे 95% विश्वसनीय अंतराल से बड़ा नहीं होना चाहिए ±εब्याज के मापदंडों के लिए इकाइयाँ। आपके पास ब्याज के मापदंडों से जुड़े अधिक औपचारिक नुकसान कार्य भी हो सकते हैं और ब्याज के पैरामीटर के लिए पिछले वितरण के संबंध में अपेक्षित नुकसान की गणना करें।

आप तब चरण 1, 2 और 3 को दोहराते हैं जब तक कि चरण 4 से आपके रोक मापदंड पूरे नहीं हो जाते।


0

आप सामान्य रूप से केंद्रीय सीमा प्रमेय को लागू करने के लिए कम से कम 30 चाहते हैं (हालांकि यह कुछ हद तक मनमाना है)। चुनाव आदि के मामले में, जो द्विपद वितरण का उपयोग करके बनाए गए हैं, के विपरीत, आप पहले से एक नमूना आकार का निर्धारण नहीं कर सकते हैं जो एक गाऊसी प्रक्रिया के साथ सटीकता के स्तर की गारंटी देता है - यह इस बात पर निर्भर करता है कि आपको कौन से अवशिष्ट मिले जो मानक त्रुटि निर्धारित करते हैं।

यह ध्यान दिया जाना चाहिए कि यदि आपके पास एक मजबूत नमूनाकरण रणनीति है, तो आप खराब रणनीति के साथ बहुत बड़े नमूना आकार की तुलना में अधिक सटीक परिणाम प्राप्त कर सकते हैं।


3
ज्ञात (या मान लिया गया) गौसियन वितरण से नमूना लेने पर किसी को सीएलटी का आह्वान करने की आवश्यकता क्यों होगी? यहां तक ​​कि एक का एक नमूना आम तौर पर वितरित किया जाएगा!
व्हीबर

अच्छी बात! RTQ ठीक से नहीं किया।
जेम्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.