यहां कई मुद्दे हैं।
आमतौर पर, हम न्यूनतम नमूना आकार निर्धारित करना चाहते हैं ताकि सांख्यिकीय शक्ति के न्यूनतम स्वीकार्य स्तर को प्राप्त किया जा सके । नमूना आकार की आवश्यकता कई कारकों का एक कार्य है, मुख्य रूप से उस प्रभाव की भयावहता जिसे आप 0 से अंतर करने में सक्षम होना चाहते हैं (या जो भी आप उपयोग कर रहे हैं, लेकिन 0 सबसे आम है), और उस प्रभाव को पकड़ने की न्यूनतम संभावना इसे लेना चाहते हैं। इस दृष्टिकोण से कार्य करना, नमूना आकार एक शक्ति विश्लेषण द्वारा निर्धारित किया जाता है।
एक और विचार आपके मॉडल की स्थिरता (@cbeleites नोट्स के रूप में) है। असल में, जैसा कि डेटा की संख्या के अनुमानित मापदंडों का अनुपात 1 के करीब हो जाता है, आपका मॉडल संतृप्त हो जाएगा, और आवश्यक रूप से ओवरफिट हो जाएगा (जब तक कि वास्तव में, सिस्टम में कोई यादृच्छिकता नहीं है)। अंगूठे का 1 से 10 अनुपात नियम इस दृष्टिकोण से आता है। ध्यान दें कि पर्याप्त शक्ति होना आमतौर पर आपके लिए यह चिंता का विषय होगा, लेकिन इसके विपरीत नहीं।
1 से 10 नियम रैखिक प्रतिगमन दुनिया से आते हैं, हालांकि, और यह पहचानना महत्वपूर्ण है कि लॉजिस्टिक प्रतिगमन में अतिरिक्त जटिलताएं हैं। एक मुद्दा यह है कि लॉजिस्टिक रिग्रेशन सबसे अच्छा काम करता है जब 1 और 0 का प्रतिशत लगभग 50% / 50% होता है (जैसा कि @andrea और @psj ऊपर की टिप्पणियों में चर्चा करते हैं)। एक और मुद्दा यह है कि अलगाव का संबंध है । यही है, आप अपने सभी 1 को एक स्वतंत्र चर (या उनमें से कुछ संयोजन) के एक चरम पर इकट्ठा नहीं करना चाहते हैं, और 0 के सभी अन्य चरम पर हैं। हालांकि यह एक अच्छी स्थिति की तरह प्रतीत होगा, क्योंकि यह सटीक भविष्यवाणी को आसान बना देगा, यह वास्तव में पैरामीटर अनुमान प्रक्रिया को उड़ा देता है। (@Scortchi ने इस बात की उत्कृष्ट चर्चा की है कि यहां लॉजिस्टिक रिग्रेशन में अलगाव से कैसे निपटें:लॉजिस्टिक रिग्रेशन में सही अलगाव से कैसे निपटें? ) अधिक आईवी के साथ, यह अधिक संभावना बन जाता है, भले ही प्रभावों के सच्चे परिमाण को लगातार आयोजित किया जाता है, और खासकर यदि आपकी प्रतिक्रिया असंतुलित होती है। इस प्रकार, आप आसानी से प्रति IV 10 से अधिक डेटा की आवश्यकता कर सकते हैं।
अंगूठे के उस नियम के साथ एक अंतिम मुद्दा यह है कि यह आपके IV के orthogonal को मानता है । यह डिज़ाइन किए गए प्रयोगों के लिए उचित है, लेकिन आपके जैसे अवलोकन संबंधी अध्ययनों के साथ, आपकी IV की लगभग कभी भी रूढ़िवादी नहीं होगी। इस स्थिति से निपटने के लिए रणनीति हैं (जैसे, IV के संयोजन या ड्रॉपिंग, पहले एक प्रमुख घटक विश्लेषण का संचालन करना, आदि), लेकिन अगर यह संबोधित नहीं किया जाता है (जो कि आम है), तो आपको अधिक डेटा की आवश्यकता होगी।
एक वाजिब सवाल यह है कि आपका न्यूनतम एन क्या होना चाहिए, और / या आपके नमूने का आकार पर्याप्त है? इसे संबोधित करने के लिए, मेरा सुझाव है कि आप उन तरीकों का उपयोग करें जिनके बारे में @ चर्चा करने वाले लोग करते हैं; 1 से 10 नियम पर निर्भर करना अपर्याप्त होगा।
1
's) और 90 गैर-मामले (0
' s) हैं, तो नियम कहता है "केवल 1 भविष्यवक्ता शामिल करें"। लेकिन क्या होगा अगर मैं0
's के बजाय' s मॉडल करता हूं1
और फिर मैं अनुमानित अंतर अनुपातों के पारस्परिक लेता हूं? क्या मुझे 9 भविष्यवक्ताओं को शामिल करने की अनुमति होगी? वह मेरे किसी मतलब का नहीं है।