लॉजिस्टिक रिग्रेशन पर दार्शनिक सवाल: क्यों इष्टतम सीमा मूल्य प्रशिक्षित नहीं है?


13

आमतौर पर लॉजिस्टिक रिग्रेशन में, हम एक मॉडल फिट करते हैं और प्रशिक्षण सेट पर कुछ पूर्वानुमान प्राप्त करते हैं। फिर हम उन प्रशिक्षण भविष्यवाणियों ( यहाँ कुछ पसंद ) पर क्रॉस-वैरिफाई करते हैं और आरओसी वक्र की तरह कुछ के आधार पर इष्टतम सीमा मूल्य तय करते हैं।

हम वास्तविक मॉडल की दहलीज के पार-सत्यापन को शामिल क्यों नहीं करते हैं, और पूरी चीज को एंड-टू-एंड प्रशिक्षित करते हैं?

जवाबों:


19

एक सीमा को मॉडल के साथ प्रशिक्षित नहीं किया जाता है क्योंकि लॉजिस्टिक प्रतिगमन एक क्लासिफायरियर नहीं है (cf., लॉजिस्टिक प्रतिगमन को लॉजिस्टिक वर्गीकरण क्यों नहीं कहा जाता है? )। यह पैरामीटर, का अनुमान लगाने वाला एक मॉडल है , जो बर्नौली वितरण के व्यवहार को नियंत्रित करता है। यही है, आप मान रहे हैं कि प्रतिक्रिया वितरण, सहसंयोजकों पर सशर्त, बर्नौली है, और इसलिए आप अनुमान लगाना चाहते हैं कि उस चर को नियंत्रित करने वाले पैरामीटर कोवरिएट्स के फ़ंक्शन के रूप में कैसे बदलते हैं। यह केवल एक प्रत्यक्ष संभावना मॉडल है । बेशक, इसे बाद में एक क्लासिफायर के रूप में इस्तेमाल किया जा सकता है, और कभी-कभी कुछ संदर्भों में होता है, लेकिन यह अभी भी एक संभावना मॉडल है। p


1
ठीक है, मैं सिद्धांत के उस हिस्से को समझता हूं (उस शानदार स्पष्टीकरण के लिए धन्यवाद!) लेकिन हम मॉडल में वर्गीकरण पहलू को शामिल क्यों नहीं कर सकते हैं? यही कारण है कि हम पी नहीं खोज सकते हैं, फिर थ्रेसहोल्ड ढूंढ सकते हैं, और कुछ नुकसान को कम करने के लिए पूरी चीज को एंड-टू-एंड ट्रेन करते हैं?
स्टैटसॉरसस

4
आप निश्चित रूप से कर सकते थे (@ सिसोरैक्स के जवाब है कि संभावना से बात करते हैं)। लेकिन क्योंकि यह वही नहीं है जो एलआर खुद है, बल्कि कुछ तदर्थ वृद्धि के साथ, आपको पूर्ण अनुकूलन योजना को स्वयं कोड करने की आवश्यकता होगी। नोट BTW, कि फ्रैंक हैरेल ने बताया है कि इस प्रक्रिया के परिणामस्वरूप कई मानकों द्वारा एक अवर मॉडल माना जा सकता है।
गंग -

1
हम्म। मैंने संबंधित प्रश्न में दिए गए उत्तर को यहां पढ़ा है , और मैं सिद्धांत रूप में इसके साथ सहमत हूं, लेकिन कभी-कभी मशीन सीखने के वर्गीकरण अनुप्रयोगों में हम संबंधित त्रुटि प्रकारों की परवाह नहीं करते हैं, हम सिर्फ "सही वर्गीकरण" के बारे में परवाह करते हैं। जैसा कि मैंने वर्णन किया है, उस स्थिति में क्या आप एंड-टू-एंड ट्रेन कर सकते हैं?
स्टैटसॉरसेरेस

4
जैसा कि मैंने कहा, आप बहुत ही अपने स्वयं के कस्टम अनुकूलन को सेट कर सकते हैं जो मॉडल को प्रशिक्षित करेगा और एक साथ सीमा का चयन करेगा। आपको बस इसे स्वयं करना होगा और अंतिम मॉडल अधिकांश मानकों के खराब होने की संभावना है।
गूँग - मोनिका

1
@StatsSorceress "... कभी-कभी मशीन सीखने के वर्गीकरण में ..."। कभी-कभी बड़ा जोर देना चाहिए । ऐसी परियोजना की कल्पना करना कठिन है जहां सटीकता सही उत्तर हो। मेरे अनुभव में, इसमें हमेशा अल्पसंख्यक वर्ग की सटीकता और याद शामिल है।
वेन

15

इसका कारण यह है कि इष्टतम सीमा केवल वास्तविक सकारात्मक दर (TPR), झूठी सकारात्मक दर (FPR), सटीकता या जो भी हो, का कार्य नहीं है। अन्य महत्वपूर्ण घटक सही और गलत निर्णयों की लागत और अदायगी है ।

यदि आपका लक्ष्य एक सामान्य सर्दी है, तो एक सकारात्मक परीक्षण के लिए आपकी प्रतिक्रिया दो एस्पिरिन को निर्धारित करना है, और एक सच्चे अनुपचारित सकारात्मक की लागत एक अनावश्यक दो दिनों का सिरदर्द है, फिर आपका इष्टतम निर्णय (वर्गीकरण नहीं!) सीमा काफी है। अगर आपका लक्ष्य कुछ जानलेवा बीमारी है, और आपके निर्णय से (a) एपेंडेक्टोमी जैसी कुछ तुलनात्मक सरल प्रक्रिया है, या (b) कीमोथेरेपी के महीनों की तरह एक बड़ा हस्तक्षेप है! और ध्यान दें कि यद्यपि आपका लक्ष्य चर द्विआधारी (बीमार / स्वस्थ) हो सकता है, आपके निर्णयों में अधिक मूल्य हो सकते हैं (दो एस्पिरिन के साथ घर भेजना / अधिक परीक्षण चलाना / अस्पताल में भर्ती करना और तुरंत देखना / संचालित करना)।

नीचे पंक्ति: यदि आप अपनी लागत संरचना और सभी विभिन्न निर्णयों को जानते हैं, तो आप निश्चित रूप से सीधे एक निर्णय समर्थन प्रणाली (डीएसएस) को प्रशिक्षित कर सकते हैं, जिसमें एक संभाव्य वर्गीकरण या भविष्यवाणी शामिल है। हालांकि, मैं दृढ़ता से तर्क देता हूं कि थ्रेसहोल्ड के माध्यम से भविष्यवाणियों या वर्गीकरणों का विवेक इस बारे में जाने का सही तरीका नहीं है।

पहले वाले "वर्गीकरण संभाव्यता सीमा" सूत्र पर मेरा उत्तर भी देखें । या मेरा यह जवाब । या कि एक


4

दार्शनिक चिंताओं को एक तरफ, यह कम्प्यूटेशनल कठिनाइयों का कारण होगा।

यही कारण है कि निरंतर आउटपुट के साथ फ़ंक्शंस ऑप्टिमाइज़ करना अपेक्षाकृत आसान है। आप उस दिशा की तलाश करते हैं जहां फ़ंक्शन बढ़ता है, और फिर उस रास्ते पर जाएं। यदि हम "कटऑफ" कदम को शामिल करने के लिए अपने नुकसान फ़ंक्शन को बदलते हैं, तो हमारा आउटपुट असतत हो जाता है, और इसलिए हमारा नुकसान फ़ंक्शन भी असतत है। अब जब हम अपने लॉजिस्टिक फ़ंक्शन के मापदंडों को "थोड़ा" करके बदलते हैं और संयुक्त रूप से कटऑफ वैल्यू को "थोड़ा-थोड़ा" करके बदलते हैं, तो हमारा नुकसान एक समान मूल्य देता है, और अनुकूलन मुश्किल हो जाता है। बेशक, यह असंभव नहीं है ( असतत अनुकूलन में अध्ययन का एक पूरा क्षेत्र है ) लेकिन निरंतर अनुकूलन अब तक हैजब आप कई मापदंडों का अनुकूलन कर रहे हों तो हल करने में आसान समस्या। आसानी से, एक बार जब लॉजिस्टिक मॉडल फिट हो गया है, तो इष्टतम कटऑफ का पता लगाना, हालांकि अभी भी एक असतत आउटपुट समस्या है, अब केवल एक चर में है, और हम बस एक ग्रिड खोज कर सकते हैं, या कुछ ऐसे, जो एक चर में पूरी तरह से व्यवहार्य है।


3

अंतर्निहित मॉडल के बावजूद, हम एक सीमा पर TPR और FPR के नमूने वितरण का काम कर सकते हैं। इसका अर्थ है कि हम कुछ सीमा पर TPR और FPR में परिवर्तनशीलता को चिह्नित कर सकते हैं, और हम एक वांछित त्रुटि दर व्यापार-बंद में वापस आ सकते हैं।

एक आरओसी वक्र थोड़ा भ्रामक है क्योंकि केवल एक चीज जिसे आप नियंत्रित करते हैं वह सीमा है, हालांकि साजिश टीपीआर और एफपीआर को प्रदर्शित करती है, जो कि सीमा के कार्य हैं। इसके अलावा, TPR और FPR दोनों आँकड़े हैं , इसलिए वे यादृच्छिक नमूने की योनि के अधीन हैं। इसका मतलब यह है कि यदि आप प्रक्रिया को दोहराते हैं (क्रॉस-मान्यता के अनुसार), तो आप कुछ विशिष्ट सीमा मूल्य पर एक अलग एफपीआर और टीपीआर के साथ आ सकते हैं।

हालांकि, अगर हम टीपीआर और एफपीआर में परिवर्तनशीलता का अनुमान लगा सकते हैं, तो आरओसी प्रक्रिया को दोहराना आवश्यक नहीं है। हम सिर्फ एक सीमा लेते हैं जैसे कि एक विश्वास अंतराल (कुछ चौड़ाई के साथ) के समापन बिंदु स्वीकार्य हैं। यही है, मॉडल चुनें ताकि एफपीआर कुछ शोधकर्ता द्वारा निर्दिष्ट अधिकतम से नीचे हो , और / या टीपीआर कुछ शोधकर्ता द्वारा निर्दिष्ट न्यूनतम से ऊपर हो । यदि आपका मॉडल आपके लक्ष्यों को प्राप्त नहीं कर सकता है, तो आपको एक बेहतर मॉडल बनाना होगा।

बेशक, आपके उपयोग में टीपीआर और एफपीआर मूल्य क्या सहनीय हैं, संदर्भ-निर्भर होंगे।

अधिक जानकारी के लिए, Wojtek J. Krzanowski और David J. Hand द्वारा निरंतर डेटा के लिए ROC वक्र देखें।


यह वास्तव में मेरे सवाल का जवाब नहीं देता है, लेकिन यह आरओसी घटता का बहुत अच्छा वर्णन है।
स्टैटसॉरसिएस

किस तरह से यह आपके प्रश्न का उत्तर नहीं देता है? आपका सवाल क्या है, अगर यह नहीं पूछा जाए कि वर्गीकरण के लिए दहलीज कैसे चुनें?
साइकोरैक्स का कहना है कि मोनिका

2
मैं किसी भी सांख्यिकीय प्रक्रिया के बारे में नहीं जानता जो इस तरह से काम करती है। यह चौकोर पहिया एक अच्छा विचार क्यों है? यह किस समस्या का हल है?
साइकोरैक्स का कहना है कि

1
"मैं इस तरह से कैसे एक सीमा का चयन करता हूं जो प्रशिक्षण के समय को कम करता है?" अपनी मूल पोस्ट में एक से एक बहुत अलग सवाल की तरह लगता है।
साइकोरैक्स का कहना है कि मोनिका

1
भले ही, मैं यह नहीं देखता कि यह कैसे समय बचाता है। ROC वक्र बनाना किसी मॉडल का अनुमान लगाने का सबसे महंगा हिस्सा नहीं है, इसलिए ऑप्टिमाइज़ेशन स्टेप में थ्रेशोल्ड च्वाइस एड हॉक और अनावश्यक लगता है ।
साइकोरैक्स का कहना है कि मोनिका

-2

आमतौर पर बायोमेडिकल रिसर्च में, हम एक प्रशिक्षण सेट का उपयोग नहीं करते हैं --- हम सिर्फ संपूर्ण डेटासेट पर लॉजिस्टिक रिग्रेशन लागू करते हैं, यह देखने के लिए कि जो परिणाम हम देख रहे हैं, उसके लिए भविष्यवक्ता महत्वपूर्ण जोखिम कारक हैं; या परिणाम पर अन्य संभावित भविष्यवक्ताओं के प्रभाव को नियंत्रित करते हुए ब्याज के एक पूर्वसूचक को देखने के लिए।
मुझे यकीन नहीं है कि आपके द्वारा थ्रेशोल्ड मूल्यों का क्या मतलब है, लेकिन विभिन्न पैरामीटर हैं जो एक अनुकूलन करना चाहते हैं: एयूसी, एक सतत भविष्यवक्ता चर के लिए कटऑफ मान, सकारात्मक और नकारात्मक भविष्य कहनेवाला मान, आत्मविश्वास अंतराल और पी-मूल्य। झूठी सकारात्मक और झूठी नकारात्मक दर। लॉजिस्टिक रिग्रेशन विषयों की आबादी को देखता है और जोखिम कारकों की ताकत और कारण दिशा का आकलन करता है जो उस आबादी में ब्याज के परिणाम में योगदान करते हैं। यह संभव है कि "इसे उल्टा चलाएं", इसलिए बोलने के लिए, और किसी व्यक्ति के जोखिम के कारकों को देखते हुए परिणाम के जोखिम को निर्धारित करें जो व्यक्ति के पास है। लॉजिस्टिक रिग्रेशन प्रत्येक व्यक्ति को उनके व्यक्तिगत जोखिम कारकों के आधार पर परिणाम का जोखिम देता है, और डिफ़ॉल्ट रूप से यह 0.5 है। यदि एक विषय ' परिणाम होने की संभावना (आपके मॉडल में सभी डेटा और विषयों के आधार पर) 0.5 या उससे ऊपर है, यह भविष्यवाणी करता है कि उसके पास परिणाम होगा; यदि नीचे 0.5 है तो यह भविष्यवाणी करता है कि वह नहीं करेगा। लेकिन आप इस कटऑफ स्तर को समायोजित कर सकते हैं, उदाहरण के लिए और अधिक व्यक्तियों को चिह्नित करने के लिए जो परिणाम होने का खतरा हो सकता है, मॉडल द्वारा भविष्यवाणी की जा रही अधिक झूठी सकारात्मक होने की कीमत पर यद्यपि। स्क्रीनिंग के निर्णयों को अनुकूलित करने के लिए आप इस कटऑफ के स्तर को समायोजित कर सकते हैं, ताकि यह अनुमान लगाया जा सके कि किन व्यक्तियों को आगे मेडिकल फॉलोअप की सलाह दी जाएगी; और लॉजिस्टिक रिग्रेशन मॉडल के आधार पर एक स्क्रीनिंग टेस्ट के लिए अपने सकारात्मक भविष्य कहनेवाला मूल्य, नकारात्मक भविष्य कहनेवाला मूल्य और झूठी नकारात्मक और झूठी सकारात्मक दरों का निर्माण करने के लिए। आप अपने आधे हिस्से पर मॉडल का विकास कर सकते हैं और दूसरे आधे हिस्से पर इसका परीक्षण कर सकते हैं, लेकिन आप डॉन ' t वास्तव में है (और ऐसा करने से आपका 'प्रशिक्षण' डेटा आधे में कट जाएगा और इस तरह मॉडल में महत्वपूर्ण भविष्यवाणियों को खोजने की शक्ति कम हो जाएगी)। तो हां, आप 'पूरी बात को अंत तक प्रशिक्षित कर सकते हैं'। बेशक, बायोमेडिकल रिसर्च में, आप इसे एक और आबादी पर मान्य करना चाहेंगे, इससे पहले कि आपके परिणाम व्यापक आबादी के लिए सामान्यीकृत हो सकें, यह कहने से पहले एक और डेटा सेट। एक अन्य दृष्टिकोण एक बूटस्ट्रैपिंग-प्रकार के दृष्टिकोण का उपयोग करना है जहां आप अपने मॉडल को अपनी अध्ययन आबादी के सबसे बड़े भाग पर चलाते हैं, फिर उन विषयों को वापस पूल में बदलें और दूसरे नमूने के साथ दोहराएं, कई बार (आमतौर पर 1000 बार)। यदि आपको समय का एक निर्धारित बहुमत (जैसे समय का 95%) महत्वपूर्ण परिणाम मिलता है, तो आपके मॉडल को मान्य माना जा सकता है --- कम से कम अपने डेटा पर। लेकिन फिर, जिस छोटे से अध्ययन की आबादी पर आप अपना मॉडल चलाते हैं, कम संभावना यह होगी कि कुछ भविष्यवक्ता परिणाम के लिए सांख्यिकीय रूप से महत्वपूर्ण जोखिम कारक होंगे। यह प्रतिभागियों की सीमित संख्या के साथ बायोमेडिकल अध्ययन के लिए विशेष रूप से सच है।
अपने मॉडल को 'ट्रेन' करने के लिए अपने आधे डेटा का उपयोग करना और फिर दूसरे आधे हिस्से पर 'मान्य' करना एक अनावश्यक बोझ है। आप ऐसा टी-टेस्ट या लीनियर रिग्रेशन के लिए नहीं करते हैं, इसलिए लॉजिस्टिक रिग्रेशन में क्यों करें? सबसे अधिक यह होगा कि आप यह कहें कि 'यह काम करता है' लेकिन अगर आप अपने पूर्ण डेटासेट का उपयोग करते हैं तो आप वैसे भी निर्धारित करते हैं। अपने डेटा को छोटे डेटासेट में तोड़कर अध्ययन की आबादी (या मान्यता आबादी) में महत्वपूर्ण जोखिम कारकों का पता नहीं लगाने का जोखिम तब होता है जब वे वास्तव में मौजूद होते हैं, छोटे नमूना आकार के कारण, आपके अध्ययन के आकार के लिए बहुत अधिक पूर्वानुमान होने की संभावना, और संभावना। कि आपका 'सत्यापन नमूना' सिर्फ संयोग से कोई जुड़ाव नहीं दिखाएगा। 'ट्रेन तब मान्य करें' दृष्टिकोण के पीछे तर्क यह लगता है कि यदि आप महत्वपूर्ण कारकों को पहचानते हैं तो आप पर्याप्त रूप से मजबूत नहीं होते हैं; तब वे सांख्यिकीय रूप से महत्वपूर्ण नहीं होंगे जब आपके डेटा के कुछ बेतरतीब ढंग से चुने गए आधे भाग पर मॉडलिंग की जाएगी। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। जब सांख्यिकीय रूप से आपके डेटा के कुछ आधे-अधूरे चुने गए हों तो सांख्यिकीय रूप से महत्वपूर्ण हो। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। जब सांख्यिकीय रूप से आपके डेटा के कुछ आधे-अधूरे चुने गए हों तो सांख्यिकीय रूप से महत्वपूर्ण हो। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.