आमतौर पर बायोमेडिकल रिसर्च में, हम एक प्रशिक्षण सेट का उपयोग नहीं करते हैं --- हम सिर्फ संपूर्ण डेटासेट पर लॉजिस्टिक रिग्रेशन लागू करते हैं, यह देखने के लिए कि जो परिणाम हम देख रहे हैं, उसके लिए भविष्यवक्ता महत्वपूर्ण जोखिम कारक हैं; या परिणाम पर अन्य संभावित भविष्यवक्ताओं के प्रभाव को नियंत्रित करते हुए ब्याज के एक पूर्वसूचक को देखने के लिए।
मुझे यकीन नहीं है कि आपके द्वारा थ्रेशोल्ड मूल्यों का क्या मतलब है, लेकिन विभिन्न पैरामीटर हैं जो एक अनुकूलन करना चाहते हैं: एयूसी, एक सतत भविष्यवक्ता चर के लिए कटऑफ मान, सकारात्मक और नकारात्मक भविष्य कहनेवाला मान, आत्मविश्वास अंतराल और पी-मूल्य। झूठी सकारात्मक और झूठी नकारात्मक दर। लॉजिस्टिक रिग्रेशन विषयों की आबादी को देखता है और जोखिम कारकों की ताकत और कारण दिशा का आकलन करता है जो उस आबादी में ब्याज के परिणाम में योगदान करते हैं। यह संभव है कि "इसे उल्टा चलाएं", इसलिए बोलने के लिए, और किसी व्यक्ति के जोखिम के कारकों को देखते हुए परिणाम के जोखिम को निर्धारित करें जो व्यक्ति के पास है। लॉजिस्टिक रिग्रेशन प्रत्येक व्यक्ति को उनके व्यक्तिगत जोखिम कारकों के आधार पर परिणाम का जोखिम देता है, और डिफ़ॉल्ट रूप से यह 0.5 है। यदि एक विषय ' परिणाम होने की संभावना (आपके मॉडल में सभी डेटा और विषयों के आधार पर) 0.5 या उससे ऊपर है, यह भविष्यवाणी करता है कि उसके पास परिणाम होगा; यदि नीचे 0.5 है तो यह भविष्यवाणी करता है कि वह नहीं करेगा। लेकिन आप इस कटऑफ स्तर को समायोजित कर सकते हैं, उदाहरण के लिए और अधिक व्यक्तियों को चिह्नित करने के लिए जो परिणाम होने का खतरा हो सकता है, मॉडल द्वारा भविष्यवाणी की जा रही अधिक झूठी सकारात्मक होने की कीमत पर यद्यपि। स्क्रीनिंग के निर्णयों को अनुकूलित करने के लिए आप इस कटऑफ के स्तर को समायोजित कर सकते हैं, ताकि यह अनुमान लगाया जा सके कि किन व्यक्तियों को आगे मेडिकल फॉलोअप की सलाह दी जाएगी; और लॉजिस्टिक रिग्रेशन मॉडल के आधार पर एक स्क्रीनिंग टेस्ट के लिए अपने सकारात्मक भविष्य कहनेवाला मूल्य, नकारात्मक भविष्य कहनेवाला मूल्य और झूठी नकारात्मक और झूठी सकारात्मक दरों का निर्माण करने के लिए। आप अपने आधे हिस्से पर मॉडल का विकास कर सकते हैं और दूसरे आधे हिस्से पर इसका परीक्षण कर सकते हैं, लेकिन आप डॉन ' t वास्तव में है (और ऐसा करने से आपका 'प्रशिक्षण' डेटा आधे में कट जाएगा और इस तरह मॉडल में महत्वपूर्ण भविष्यवाणियों को खोजने की शक्ति कम हो जाएगी)। तो हां, आप 'पूरी बात को अंत तक प्रशिक्षित कर सकते हैं'। बेशक, बायोमेडिकल रिसर्च में, आप इसे एक और आबादी पर मान्य करना चाहेंगे, इससे पहले कि आपके परिणाम व्यापक आबादी के लिए सामान्यीकृत हो सकें, यह कहने से पहले एक और डेटा सेट। एक अन्य दृष्टिकोण एक बूटस्ट्रैपिंग-प्रकार के दृष्टिकोण का उपयोग करना है जहां आप अपने मॉडल को अपनी अध्ययन आबादी के सबसे बड़े भाग पर चलाते हैं, फिर उन विषयों को वापस पूल में बदलें और दूसरे नमूने के साथ दोहराएं, कई बार (आमतौर पर 1000 बार)। यदि आपको समय का एक निर्धारित बहुमत (जैसे समय का 95%) महत्वपूर्ण परिणाम मिलता है, तो आपके मॉडल को मान्य माना जा सकता है --- कम से कम अपने डेटा पर। लेकिन फिर, जिस छोटे से अध्ययन की आबादी पर आप अपना मॉडल चलाते हैं, कम संभावना यह होगी कि कुछ भविष्यवक्ता परिणाम के लिए सांख्यिकीय रूप से महत्वपूर्ण जोखिम कारक होंगे। यह प्रतिभागियों की सीमित संख्या के साथ बायोमेडिकल अध्ययन के लिए विशेष रूप से सच है।
अपने मॉडल को 'ट्रेन' करने के लिए अपने आधे डेटा का उपयोग करना और फिर दूसरे आधे हिस्से पर 'मान्य' करना एक अनावश्यक बोझ है। आप ऐसा टी-टेस्ट या लीनियर रिग्रेशन के लिए नहीं करते हैं, इसलिए लॉजिस्टिक रिग्रेशन में क्यों करें? सबसे अधिक यह होगा कि आप यह कहें कि 'यह काम करता है' लेकिन अगर आप अपने पूर्ण डेटासेट का उपयोग करते हैं तो आप वैसे भी निर्धारित करते हैं। अपने डेटा को छोटे डेटासेट में तोड़कर अध्ययन की आबादी (या मान्यता आबादी) में महत्वपूर्ण जोखिम कारकों का पता नहीं लगाने का जोखिम तब होता है जब वे वास्तव में मौजूद होते हैं, छोटे नमूना आकार के कारण, आपके अध्ययन के आकार के लिए बहुत अधिक पूर्वानुमान होने की संभावना, और संभावना। कि आपका 'सत्यापन नमूना' सिर्फ संयोग से कोई जुड़ाव नहीं दिखाएगा। 'ट्रेन तब मान्य करें' दृष्टिकोण के पीछे तर्क यह लगता है कि यदि आप महत्वपूर्ण कारकों को पहचानते हैं तो आप पर्याप्त रूप से मजबूत नहीं होते हैं; तब वे सांख्यिकीय रूप से महत्वपूर्ण नहीं होंगे जब आपके डेटा के कुछ बेतरतीब ढंग से चुने गए आधे भाग पर मॉडलिंग की जाएगी। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। जब सांख्यिकीय रूप से आपके डेटा के कुछ आधे-अधूरे चुने गए हों तो सांख्यिकीय रूप से महत्वपूर्ण हो। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। जब सांख्यिकीय रूप से आपके डेटा के कुछ आधे-अधूरे चुने गए हों तो सांख्यिकीय रूप से महत्वपूर्ण हो। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। लेकिन यह कि बेतरतीब ढंग से चुना गया नमूना सिर्फ संयोग से कोई संबंध नहीं दिखा सकता है, या क्योंकि यह जोखिम कारक (एस) के लिए सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बहुत छोटा है। लेकिन यह जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण है जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं। जोखिम कारक (एस) और उनके सांख्यिकीय महत्व का परिमाण जो उनके महत्व को निर्धारित करता है और इस कारण से अपने मॉडल को बनाने के लिए अपने पूर्ण डेटासेट का उपयोग करना सबसे अच्छा है। सांख्यिकीय महत्व छोटे नमूना आकारों के साथ कम महत्वपूर्ण हो जाएगा, क्योंकि यह अधिकांश सांख्यिकीय परीक्षणों के साथ होता है। लॉजिस्टिक रिग्रेशन करना एक कला है जो लगभग एक सांख्यिकीय विज्ञान है। उपयोग करने के लिए अलग-अलग दृष्टिकोण हैं और आपके अध्ययन के डिजाइन के आधार पर अनुकूलन करने के लिए अलग-अलग पैरामीटर हैं।