सिमुलेशन अध्ययन: पुनरावृत्तियों की संख्या कैसे चुनें?


11

मैं "मॉडल 1" के साथ डेटा उत्पन्न करना चाहता हूं और उन्हें "मॉडल 2" के साथ फिट करना चाहता हूं। अंतर्निहित विचार "मॉडल 2" की मजबूती गुणों की जांच करना है। मैं विशेष रूप से 95% आत्मविश्वास अंतराल (सामान्य सन्निकटन के आधार पर) की कवरेज दर में रुचि रखता हूं।

  • मैं पुनरावृत्ति रन की संख्या कैसे निर्धारित करूं?
  • क्या यह सच है कि आवश्यक प्रतिकृति से अधिक बड़ा परिणाम पूर्वाग्रह हो सकता है? यदि हां, तो वह कैसे है?

"95% विश्वास अंतराल की कवरेज दर" से आपका क्या अभिप्राय है? यदि विश्वास अंतराल सटीक है या एक अच्छा अनुमानित अंतराल है, तो यह पैरामीटर का सही मान लगभग 95% है।
माइकल आर। चेरिक

1
यदि आप मॉडल 1 के तहत बनाए गए डेटा के लिए मॉडल 2 पर आधारित एक विश्वास अंतराल उत्पन्न कर रहे हैं, तो यह इंगित करता है कि दो मॉडल संबंधित हैं और इनमें कुछ समान पैरामीटर हैं। क्या आप थोड़ा और समझा सकते हैं? इसके अलावा, जब आप अपने दूसरे बुलेट पॉइंट में "स्प्रिचुअल" कहते हैं, तो क्या आपका मतलब गलत है या सिर्फ महत्वहीन है? सिमुलेशन की बड़ी संख्या में पूर्वाग्रह उत्पन्न नहीं होना चाहिए, लेकिन यह एक पूर्वाग्रह प्रकट कर सकता है जिसका थोड़ा व्यावहारिक महत्व है जिसे आप एक छोटी संख्या के साथ नहीं देखेंगे, इसी तरह आप कैसे पता लगा सकते हैं (यानी के लिए सांख्यिकीय महत्व प्राप्त कर सकते हैं) जब आप एक बहुत छोटा प्रभाव डालते हैं। एक बहुत बड़ा नमूना आकार है।
मैक्रो

@ मिचेल चेरिक: अंडर-कवरेज, उदाहरण के लिए, मानक त्रुटि बहुत छोटी होने पर प्राप्त की जा सकती है। मैंने सामान्य अंतराल के आधार पर विश्वास अंतराल का उपयोग करने की अपेक्षा निर्दिष्ट करने के लिए अपने प्रश्न को संपादित किया है।
14:70 पर user7064

@ मैक्रो: "मॉडल 1" विषम त्रुटि शर्तों के साथ सामान्य डेटा उत्पन्न करता है और "मॉडल 2" मानक रैखिक मॉडल है।
14:70 पर user7064

जवाबों:


10

आपकी अनुवर्ती टिप्पणी के आधार पर ऐसा लगता है जैसे आप विश्वास त्रुटि अंतराल की कवरेज संभावना का अनुमान लगाने की कोशिश कर रहे हैं जब आप निरंतर त्रुटि विचरण मान लेते हैं जब सच्ची त्रुटि विचरण स्थिर नहीं होती है।

जिस तरह से मैं इस बारे में सोचता हूं वह यह है कि प्रत्येक रन के लिए, आत्मविश्वास अंतराल या तो सही मूल्य को कवर करता है या यह नहीं करता है। एक संकेतक चर को परिभाषित करें:

Yi={1if the interval covers0if it does not

फिर जिस कवरेज संभावना में आप रुचि रखते हैं वह जिसे आप नमूना अनुपात द्वारा अनुमान लगा सकते हैं जो मुझे लगता है कि प्रस्ताव क्या है।E(Yi)=p

मैं पुनरावृत्ति रन की संख्या कैसे निर्धारित करूं?

हम जानते हैं कि एक बर्नौली परीक्षण का विचरण , और आपके सिमुलेशन IID बर्नौली परीक्षण उत्पन्न करेंगे, इसलिए आपके अनुकार आधारित अनुमान का विचलन , जहाँ है सिमुलेशन की संख्या। आप इस संस्करण को जितना चाहें उतना कम करने के लिए चुन सकते हैं। यह एक तथ्य है किपी पी ( 1 - पी ) / n n n पी ( 1 - पी ) / n 1 / 4 np(1p)pp(1p)/nnn

p(1p)/n1/4n

इसलिए, यदि आप चाहते हैं कि विचरण कुछ पूर्व-निर्दिष्ट सीमा, से कम हो , तो आप चयन करके इसे सुनिश्चित कर सकते हैं ।n 1 / 4 δδn1/4δ

अधिक सामान्य सेटिंग में, यदि आप सिमुलेशन द्वारा एक अनुमानक के नमूना वितरण के गुणों की जांच करने की कोशिश कर रहे हैं (जैसे कि यह मतलबी और भिन्नता है) तो आप एक अनुरूपता में कितनी सटीकता प्राप्त करना चाहते हैं, इसके आधार पर आप अपने सिमुलेशन की संख्या चुन सकते हैं। यहाँ वर्णित है कि फैशन।

यह भी ध्यान दें कि, जब चर का माध्य (या कोई अन्य क्षण) ब्याज की वस्तु है, जैसा कि यहाँ है, आप सामान्य सन्निकटन (यानी केंद्रीय सीमा प्रमेय) का उपयोग करके सिमुलेशन के आधार पर इसके लिए एक विश्वास अंतराल का निर्माण कर सकते हैं। , जैसा कि मैंस के अच्छे उत्तर में चर्चा की गई थी। यह सामान्य सन्निकटन बेहतर है क्योंकि नमूनों की संख्या बढ़ती है, इसलिए, यदि आप केंद्रीय सीमा प्रमेय के लिए अपील करके एक विश्वास अंतराल के निर्माण पर योजना बनाते हैं, तो आप चाहते हैं कि काफी बड़ा हो, ताकि आवेदन किया जा सके। बाइनरी केस के लिए, जैसा कि आप यहाँ हैं, ऐसा प्रतीत होता है कि यह सन्निकटन अच्छा है जब और बहुत मध्यम हैं - कहते हैं, ।n p n n ( 1 - पी ) 20nnpn(1p)20

क्या यह सच है कि आवश्यक प्रतिकृति से अधिक बड़ा परिणाम पूर्वाग्रह हो सकता है? यदि हां, तो वह कैसे है?

जैसा कि मैंने एक टिप्पणी में उल्लेख किया है - यह इस बात पर निर्भर करता है कि आप का मतलब क्या है। सिमुलेशन की बड़ी संख्या सांख्यिकीय अर्थों में पूर्वाग्रह का उत्पादन नहीं करेगी, लेकिन यह एक महत्वहीन पूर्वाग्रह को प्रकट कर सकती है जो केवल एक खगोलीय बड़े नमूना आकार के साथ ध्यान देने योग्य है। उदाहरण के लिए, मान लें कि गलत वर्तनी अंतराल की सही कवरेज संभावना । फिर, यह वास्तव में एक व्यावहारिक अर्थ में एक समस्या नहीं है, लेकिन यदि आप एक टन सिमुलेशन चलाते हैं तो आप केवल इस अंतर को उठा सकते हैं।94.9999%


10

मैं अक्सर आवश्यक अंतरालों की संख्या का उपयोग त्वरित और गंदे तरीके के रूप में आवश्यक पुनरावृत्तियों की संख्या निर्धारित करने के लिए करता हूं।

चलो 95% विश्वास अंतराल का सच कवरेज दर जब "मॉडल 1" से डेटा "मॉडल 2" के लिए फिट है हो सकता है। यदि उस समय की संख्या है जो विश्वास अंतराल पुनरावृत्तियों में वास्तविक पैरामीटर मान को कवर करता है , तो ।एक्स एन एक्स ~ बी मैं n ( n , पी )pXnXBin(n,p)

अनुमानक का मतलब और मानक विचलन । बड़े , लगभग सामान्य है और आपको लगभग 95% विश्वास अंतराल देता है । चूँकि आप जानते हैं कि (जीईएस) उस , इसलिए यह इस अंतराल की चौड़ाई लगभग ।p^=X/npp(1p)/nnp^p^±1.96p^(1p^)/npp0.9521.960.950.05/n

अगर आपको लगता है कि चौड़ाई के साथ एक विश्वास अंतराल (माना) स्वीकार्य है, तो आप पुनरावृत्तियों की अनुमानित संख्या को खोजने के समीकरण को हल करके इस के लिए आवश्यक0.1n

0.1=21.960.950.05/n.

इस तरह आप जिस सटीकता की तलाश कर रहे हैं, उसे चुनकर एक उचित पा सकते हैं ।n


(+1) ऐसा लगता है कि हमने एक ही समय में बहुत ही समान उत्तर प्रस्तुत किया है, लेकिन मुझे लगता है कि प्रयुक्त विभिन्न भाषा कुछ के लिए उपयोगी हो सकती है।
मैक्रो

हाँ, वास्तव में, मुझे अभी भी नहीं पता कि कौन सा उत्तर स्वीकार करना है! वैसे भी, दोनों के लिए +1!
user7064

1
@ मैक्रो: +1 करने के लिए आप भी। विविधता और अंतराल की चौड़ाई यहाँ कम या ज्यादा बराबर है। महान दिमाग एक जैसा सोचते हैं - और ऐसा ही हमारा भी है। ;)
MånsT

@ MånsT मैं सही माना कि अगर मेरे सीआई चौड़ाई 90% की कवरेज दर के लिए तो 0.01 है की आवश्यकता होगी पुनरावृत्तियों की संख्या के लिए एक 95% CI? मान लीजिए कि यह सीआई एक अनुपात अनुमान के लिए है। मेरे द्विपद मॉडल (तब सीआई को खोजने के लिए क्वांटाइल्स का चयन) का नमूना आकार कवरेज संभावना को कैसे प्रभावित करता है? n=(21.650.950.05/0.01)2
एक गोर

0

यदि आप एक सिमुलेशन कर रहे हैं तो आवश्यक रन की न्यूनतम संख्या आपके उद्देश्य पर निर्भर करती है (आप क्या अनुमान लगाने की कोशिश कर रहे हैं और क्या कर रहे हैं)। यदि आप औसत प्रतिक्रिया का अनुमान लगाने की कोशिश कर रहे हैं तो नमूना औसत का मानक विचलन । तो अगर को आप चाहते हैं कि या लिए विश्वास अंतराल के लिए आवश्यक आधी-चौड़ाई है। । d95%d=1.96×Pop.Std.DevPopulation Standard Deviationnd95% n=(1.96×Pop.Std.Dev)2d=1.96×Pop.Std.Devnn=(1.96×Pop.Std.Dev)2d2

अधिक सिमुलेशन करना (किसी यादृच्छिक प्रक्रिया द्वारा उत्पन्न सभी नमूनों को मानकर) सटीकता या पूर्वाग्रह के संदर्भ में अनुमान को चोट पहुंचाने के लिए कुछ भी नहीं करता है।

अनुमानित आत्मविश्वास अंतराल की कवरेज वांछित से भिन्न होगी और कवरेज में त्रुटि बढ़ती हुई साथ घटनी चाहिए । जैसा कि मैक्रों और मैंस ने उल्लेख किया है, आप द्विपदीय अनुपात के विचरण के आधार पर कवरेज के मोंटे कार्लो अनुमान को बाध्य कर सकते हैं ।एन पी ( 1 - पी )95%np(1p)n


4
ओ माइकल। मुझे लगता है कि यह उत्तर बात याद आती है। ओपी यह जांचने की कोशिश कर रहा है कि जब आप निरंतर विचरण करते हैं तो विश्वास अंतराल के कवरेज गुण कैसे बदल जाते हैं, लेकिन सच्चा विचरण स्थिर नहीं होता है।
मैक्रो

@ मैक्रो: आप सही कह रहे हैं। मैंने जानबूझकर सवाल को व्यापक संदर्भ में रखा, ताकि उत्तर विचरण करने की समस्या के लिए विशिष्ट उत्तरों से बचा जा सके।
user7064

@ मैक्रो उस सवाल का हिस्सा नहीं था जिसका मैंने जवाब दिया था। जाहिर है कि बाद में स्पष्ट किया गया था। यह भी प्रतीत होता है कि ब्याज की क्या थी आत्मविश्वास अंतराल की सटीकता थी जो सामान्य सन्निकटन का उपयोग करती है। यह किसी भी उत्तर में संबोधित नहीं किया गया है।
माइकल आर। चेर्निक

4
@ मायकिल, हाँ मुझे पता है - मेरी बात और थी कि आपने (और मैंने) स्पष्टीकरण मांगा, लेकिन आपने अपना जवाब पोस्ट करने से पहले स्पष्टीकरण का इंतजार नहीं किया। पुन: आपकी दूसरी टिप्पणी, आप किसी भी अंतराल के कवरेज गुणों की जांच इस तरह से कर सकते हैं, भले ही यह सामान्य सन्निकटन पर आधारित हो या नहीं। अगर आपको लगता है कि जोड़ने के लिए कुछ अलग है जो मौजूदा उत्तरों से छूट गया है तो कृपया अपना उत्तर संपादित करें ताकि हम सभी सीख सकें।
मैक्रो

@ मैक्रो बेशक मैं आपसे सहमत हूं। मैंने ओपी के लाभ के लिए अपना जवाब संपादित किया। मुझे संदेह है कि सामग्री में ऐसा कुछ भी नहीं है जिसे आप पहले से नहीं जानते होंगे।
माइकल आर। चेर्निक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.