लॉजिस्टिक प्रतिगमन के लिए नमूना आकार?


26

मैं अपने सर्वेक्षण डेटा से एक लॉजिस्टिक मॉडल बनाना चाहता हूं। यह चार आवासीय कॉलोनियों का एक छोटा सा सर्वेक्षण है जिसमें केवल 154 उत्तरदाताओं का साक्षात्कार लिया गया था। मेरा आश्रित चर "काम करने के लिए संतोषजनक संक्रमण" है। मैंने पाया कि, 154 उत्तरदाताओं में से 73 ने कहा कि उन्होंने काम करने के लिए संतोषजनक रूप से संक्रमण किया है, जबकि बाकी ने नहीं किया। तो आश्रित चर प्रकृति में द्विआधारी है और मैंने लॉजिस्टिक प्रतिगमन का उपयोग करने का निर्णय लिया। मेरे पास सात स्वतंत्र चर (तीन निरंतर और चार नाममात्र) हैं। एक दिशानिर्देश का सुझाव है कि प्रत्येक भविष्यवक्ता / स्वतंत्र चर के लिए 10 मामले होने चाहिए (एगेस्टी, 2007)। इस दिशानिर्देश के आधार पर मुझे लगता है कि लॉजिस्टिक रिग्रेशन चलाना ठीक है।

क्या मैं सही हू? यदि नहीं, तो कृपया मुझे बताएं कि स्वतंत्र चर की संख्या कैसे तय करें?


3
मैंने वास्तव में कभी भी अंगूठे के नियम को नहीं समझा है जो कहता है कि "प्रत्येक भविष्यवक्ता के लिए 10 मामले" (और दुर्भाग्य से मेरे पास अग्रेंजी द्वारा लिखित पुस्तक तक पहुंच नहीं है)। मेरा क्या मतलब है: अगर मेरे पास 100 विषय हैं जिनमें से 10 मामले ( 1's) और 90 गैर-मामले ( 0' s) हैं, तो नियम कहता है "केवल 1 भविष्यवक्ता शामिल करें"। लेकिन क्या होगा अगर मैं 0's के बजाय' s मॉडल करता हूं 1और फिर मैं अनुमानित अंतर अनुपातों के पारस्परिक लेता हूं? क्या मुझे 9 भविष्यवक्ताओं को शामिल करने की अनुमति होगी? वह मेरे किसी मतलब का नहीं है।
बोस्कोविच

डियर एंड्रिया, मैंने वही बात कही है जिसका आप मतलब निकाल रहे हैं। 154 उत्तरदाताओं में से 73 मामले हैं (1 और बाकी 0)। क्या आप मेरे प्रश्न पर कुछ प्रकाश डाल सकते हैं। धन्यवाद!
ब्रज-प्रतिमा

4
एक टिप्पणी में मैंने पढ़ा है कि किसी को घटनाओं और गैर-घटनाओं की न्यूनतम संख्या को देखना है। तो 10/100 के उदाहरण में आप एक भविष्यवक्ता के साथ समाप्त होते हैं, भले ही आप इसे कैसे कोडित करें।
psj

@psj जो उचित लगे। क्या आपके पास कोई संदर्भ है?
बोस्कोविच

जवाबों:


25

यहां कई मुद्दे हैं।

आमतौर पर, हम न्यूनतम नमूना आकार निर्धारित करना चाहते हैं ताकि सांख्यिकीय शक्ति के न्यूनतम स्वीकार्य स्तर को प्राप्त किया जा सके । नमूना आकार की आवश्यकता कई कारकों का एक कार्य है, मुख्य रूप से उस प्रभाव की भयावहता जिसे आप 0 से अंतर करने में सक्षम होना चाहते हैं (या जो भी आप उपयोग कर रहे हैं, लेकिन 0 सबसे आम है), और उस प्रभाव को पकड़ने की न्यूनतम संभावना इसे लेना चाहते हैं। इस दृष्टिकोण से कार्य करना, नमूना आकार एक शक्ति विश्लेषण द्वारा निर्धारित किया जाता है।

एक और विचार आपके मॉडल की स्थिरता (@cbeleites नोट्स के रूप में) है। असल में, जैसा कि डेटा की संख्या के अनुमानित मापदंडों का अनुपात 1 के करीब हो जाता है, आपका मॉडल संतृप्त हो जाएगा, और आवश्यक रूप से ओवरफिट हो जाएगा (जब तक कि वास्तव में, सिस्टम में कोई यादृच्छिकता नहीं है)। अंगूठे का 1 से 10 अनुपात नियम इस दृष्टिकोण से आता है। ध्यान दें कि पर्याप्त शक्ति होना आमतौर पर आपके लिए यह चिंता का विषय होगा, लेकिन इसके विपरीत नहीं।

1 से 10 नियम रैखिक प्रतिगमन दुनिया से आते हैं, हालांकि, और यह पहचानना महत्वपूर्ण है कि लॉजिस्टिक प्रतिगमन में अतिरिक्त जटिलताएं हैं। एक मुद्दा यह है कि लॉजिस्टिक रिग्रेशन सबसे अच्छा काम करता है जब 1 और 0 का प्रतिशत लगभग 50% / 50% होता है (जैसा कि @andrea और @psj ऊपर की टिप्पणियों में चर्चा करते हैं)। एक और मुद्दा यह है कि अलगाव का संबंध है । यही है, आप अपने सभी 1 को एक स्वतंत्र चर (या उनमें से कुछ संयोजन) के एक चरम पर इकट्ठा नहीं करना चाहते हैं, और 0 के सभी अन्य चरम पर हैं। हालांकि यह एक अच्छी स्थिति की तरह प्रतीत होगा, क्योंकि यह सटीक भविष्यवाणी को आसान बना देगा, यह वास्तव में पैरामीटर अनुमान प्रक्रिया को उड़ा देता है। (@Scortchi ने इस बात की उत्कृष्ट चर्चा की है कि यहां लॉजिस्टिक रिग्रेशन में अलगाव से कैसे निपटें:लॉजिस्टिक रिग्रेशन में सही अलगाव से कैसे निपटें? ) अधिक आईवी के साथ, यह अधिक संभावना बन जाता है, भले ही प्रभावों के सच्चे परिमाण को लगातार आयोजित किया जाता है, और खासकर यदि आपकी प्रतिक्रिया असंतुलित होती है। इस प्रकार, आप आसानी से प्रति IV 10 से अधिक डेटा की आवश्यकता कर सकते हैं।

अंगूठे के उस नियम के साथ एक अंतिम मुद्दा यह है कि यह आपके IV के orthogonal को मानता है । यह डिज़ाइन किए गए प्रयोगों के लिए उचित है, लेकिन आपके जैसे अवलोकन संबंधी अध्ययनों के साथ, आपकी IV की लगभग कभी भी रूढ़िवादी नहीं होगी। इस स्थिति से निपटने के लिए रणनीति हैं (जैसे, IV के संयोजन या ड्रॉपिंग, पहले एक प्रमुख घटक विश्लेषण का संचालन करना, आदि), लेकिन अगर यह संबोधित नहीं किया जाता है (जो कि आम है), तो आपको अधिक डेटा की आवश्यकता होगी।

एक वाजिब सवाल यह है कि आपका न्यूनतम एन क्या होना चाहिए, और / या आपके नमूने का आकार पर्याप्त है? इसे संबोधित करने के लिए, मेरा सुझाव है कि आप उन तरीकों का उपयोग करें जिनके बारे में @ चर्चा करने वाले लोग करते हैं; 1 से 10 नियम पर निर्भर करना अपर्याप्त होगा।


6
क्या आप बयान के लिए एक संदर्भ प्रदान कर सकते हैं "एक मुद्दा यह है कि लॉजिस्टिक प्रतिगमन 1 और 0 के प्रतिशत लगभग 50% / 50% होने पर सबसे अच्छा काम करता है"? मैं खुद इस बारे में सोच रहा हूं, क्योंकि मेरे पास एक डेटासेट है जो 50/50 से बहुत दूर है और मैं इसके निहितार्थों के बारे में सोच रहा हूं। (धागे को फिर से जीवित करने के लिए खेद है)
ट्रेवर

3
जब यह उचित हो, तो मुझे कोई समस्या w / पुनर्विक्रेता के पुराने धागे को पुनर्जीवित करते हुए नहीं दिखाई देती। मुझे लगता है कि आप जिस चीज की तलाश कर रहे हैं, वह पहले से संयुग्मित इस अच्छे उत्तर की तर्ज पर कुछ है: एक-असंतुलित-नमूना-मामला-जब-कर-लॉजिस्टिक-प्रतिगमन
गूँग - मोनिका

2
ट्रेवर के सवाल पर +1। मेरा मानना ​​है कि लॉजिस्टिक रिग्रेशन नए डेटा से लाभान्वित होता रहेगा, भले ही वह डेटा एक ही मामले का हो (कम रिटर्न के बावजूद)। यह वास्तव में कुछ ऐसा है जिसने मुझे यादृच्छिक जंगलों जैसी मशीन सीखने की तकनीक के बारे में परेशान किया है - ताकि वे अधिक प्रासंगिक प्रशिक्षण डेटा जोड़कर खराब हो सकें। शायद वहाँ एक बिंदु है जिस पर तार्किक प्रतिगमन संख्यात्मक विचारों के कारण टूट जाएगा अगर असंतुलन बहुत गंभीर हो गया। इस बारे में अधिक जानने में रुचि होगी।
बेन ओगोरक

+1, शायद यह आपके जवाब से निहित है मुझे यकीन नहीं है, लेकिन मैं सोच रहा हूं कि यह विभिन्न स्तरों के साथ श्रेणीबद्ध चर के लिए कैसे काम करता है? क्या इसे प्रति स्तर 10 अवलोकन करने का सुझाव दिया जाएगा?
बैक्सक्स

1
यह अंगूठे का एक नियम है, @baxx, लेकिन हां, केवल प्रतिशत का अनुमान लगाने से अधिक करने के लिए, आपको कम से कम 45 की आवश्यकता होगी।
गूँग - मोनिका

16

मैं आमतौर पर मॉडल में उम्मीदवार मापदंडों की संख्या के लिए 15: 1 नियम (न्यूनतम (घटनाओं, गैर-घटनाओं का अनुपात) का उपयोग करता हूं । अधिक हाल के काम में पाया गया कि अधिक कठोर सत्यापन के लिए 20: 1 की आवश्यकता है। अधिक जानकारी मेरे पाठ्यक्रम में पाई जा सकती है जो http://biostat.mc.vanderbilt.edu/rms से जुड़ी है , विशेष रूप से 96 के न्यूनतम नमूना आकार के लिए एक तर्क सिर्फ इंटरसेप्ट का अनुमान लगाने के लिए। लेकिन नमूना आकार की आवश्यकता अधिक बारीक है, और हाल ही में एक और पेपर इसे अधिक व्यापक रूप से संबोधित करता है।


14

आमतौर पर, बहुत कम मामलों में wrt। मॉडल जटिलता (मापदंडों की संख्या) का मतलब है कि मॉडल अस्थिर हैं । इसलिए यदि आप जानना चाहते हैं कि क्या आप नमूना आकार / मॉडल जटिलता ठीक है, तो जांचें कि क्या आप एक यथोचित स्थिर मॉडल प्राप्त करते हैं।

अस्थिरता के कम से कम दो प्रकार हैं:

  1. मॉडल मापदंडों प्रशिक्षण डेटा में केवल मामूली परिवर्तन के साथ एक बहुत भिन्नता है।

  2. भविष्यवाणियों प्रशिक्षण डेटा में मामूली परिवर्तन के साथ प्रशिक्षित मॉडलों में से (एक ही मामले के लिए) एक बहुत भिन्नता है।

आप 1. माप कर सकते हैं कि प्रशिक्षण मॉडल थोड़ा गड़बड़ी होने पर आपके मॉडल गुणांक में कितना अंतर है। मॉडल की एक उपयुक्त गुच्छा की गणना की जा सकती है जैसे बूटस्ट्रैप या (पुनरावृत्त) क्रॉस सत्यापन प्रक्रियाओं के दौरान।

कुछ प्रकार के मॉडल या समस्याओं के लिए, अलग-अलग पैरामीटर भविष्यवाणियों को अलग-अलग नहीं करते हैं। आप सीधे अस्थिरता की जांच कर सकते हैं 2. एक ही मामले के लिए भविष्यवाणियों की भिन्नता को देखते हुए (चाहे वे सही हों या नहीं) आउट-ऑफ-बूटस्ट्रैप या पुनरावृत्त क्रॉस सत्यापन के दौरान गणना की गई है।


5

कोई सख्त नियम नहीं है, लेकिन आप सभी स्वतंत्र चर को तब तक शामिल कर सकते हैं जब तक नाममात्र चर में बहुत अधिक श्रेणियां न हों। आपको प्रत्येक नाममात्र चर के लिए एक वर्ग को छोड़कर सभी के लिए एक "बीटा" की आवश्यकता है। इसलिए यदि नाममात्र का चर "कार्य क्षेत्र" कहा जाता है और आपके पास 30 क्षेत्र हैं, तो आपको 29 बेटों की आवश्यकता होगी।

इस प्रोबलेन को दूर करने का एक तरीका यह है कि बेटास को नियमित किया जाए - या बड़े गुणांक के लिए दंडित किया जाए। यह सुनिश्चित करने में मदद करता है कि आप मॉडल डेटा को ओवरफिट नहीं करते हैं। L2 और L1 नियमितीकरण लोकप्रिय विकल्प हैं।

विचार करने के लिए एक और मुद्दा यह है कि आपका नमूना कैसा प्रतिनिधि है। आप किस जनसंख्या को रोकना चाहते हैं? क्या आपके पास नमूने के सभी विभिन्न प्रकार के लोग हैं जो आबादी में हैं? यदि आपके नमूने में "छेद" है, तो सटीक अनुमान लगाना मुश्किल होगा (उदाहरण के लिए नमूने में 35-50 वर्ष की कोई महिला या कोई उच्च आय वाले श्रमिक आदि नहीं)


4

यहाँ MedCalc वेबसाइट user41466 से लिखे गए वास्तविक उत्तर के बारे में बताया गया है

http://www.medcalc.org/manual/logistic_regression.php

नमूना आकार के विचार

लॉजिस्टिक रिग्रेशन के लिए नमूना आकार की गणना एक जटिल समस्या है, लेकिन पेडुजी एट अल के काम पर आधारित है। (१ ९९ ६) अपने अध्ययन में शामिल करने के लिए निम्नलिखित दिशानिर्देशों का सुझाव दिया जा सकता है। पी आबादी में नकारात्मक या सकारात्मक मामलों के अनुपात में सबसे छोटा हो सकता है और कोवेरेट्स की संख्या (स्वतंत्र चर की संख्या), फिर शामिल होने के लिए न्यूनतम मामलों की संख्या है: N = 10 k / p उदाहरण के लिए: आप मॉडल में शामिल करने के लिए 3 सहसंयोजक हैं और जनसंख्या में सकारात्मक मामलों का अनुपात 0.20 (20%) है। आवश्यक मामलों की न्यूनतम संख्या N = 10 x 3 / 0.20 = 150 है यदि परिणामी संख्या 100 से कम है तो आपको इसे लांग (1997) द्वारा सुझाए गए अनुसार बढ़ाकर 100 करना चाहिए।

पीडुज़ी पी, कॉनैटो जे, केम्पर ई, होलफोर्ड टीआर, फेन्सटाइन एआर (1996) लॉजिस्टिक रिग्रेशन विश्लेषण में प्रति चर घटनाओं की संख्या का एक सिमुलेशन अध्ययन। जर्नल ऑफ क्लिनिकल एपिडेमियोलॉजी 49: 1373-1379।


तो यह वही 10cases प्रति स्वतंत्र चर (मंजिल के साथ) है
seanv507

1

कम से कम पाँच से लेकर नौ तक प्रति स्वतंत्र चर के अवलोकन की संख्या के साथ किसी भी लॉजिस्टिक मॉडल के परिणाम विश्वसनीय हैं, खासकर यदि परिणाम सांख्यिकीय रूप से महत्वपूर्ण हैं (विटिंगहॉफ़ और मैककुलोच, 2007)।

विटिंगहॉफ, ई।, और मैककुलोच, सीई 2007। लॉजिस्टिक और सेजर रिग्रेशन में प्रति चर दस घटनाओं के नियम को शिथिल करना। अमेरिकन जर्नल ऑफ एपिडेमियोलॉजी, 165 (6): 710–718।


ध्यान दें कि यह कड़ाई से "स्वतंत्र चर प्रति टिप्पणियों की संख्या" नहीं है जो कि प्रश्न में है, यह "घटनाओं की संख्या" है। एक लॉजिस्टिक रिग्रेशन के लिए, "इवेंट" की संख्या कम से कम दो-परिणाम वर्गों में अक्सर होने वाले मामलों की संख्या है। यह कुल टिप्पणियों की संख्या का 1/2 से अधिक नहीं होगा, और कुछ अनुप्रयोगों में इससे अच्छा सौदा होगा।
एडीएम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.