लॉजिस्टिक रिग्रेशन मॉडल ओवरफिटिंग


28

क्या लॉजिस्टिक रिग्रेशन मॉडल को ओवरफिट करना संभव है? मैंने एक वीडियो देखा जिसमें कहा गया था कि यदि आरओसी वक्र के नीचे मेरा क्षेत्र 95% से अधिक है, तो इसके बहुत अधिक फिट होने की संभावना है, लेकिन क्या लॉजिस्टिक रिग्रेशन मॉडल को ओवरफिट करना संभव है?


1
क्या आप कह सकते हैं कि कौन सा वीडियो, या कम से कम थोड़ा और संदर्भ दें?
Glen_b -Reinstate मोनिका

2
ज़रूर @Glen_b, वीडियो यह था: लिंक टिप्पणी 40min पर थी। यह उस बात को कह रहा था: जब आरओसी के पास 0,5 और 0,6 के बीच एयूसी है, तो यह खराब था। यदि औसत से नीचे 0,6 और 0,7 के बीच है। यदि 0,7 और 0,75 के बीच औसत / अच्छा है। यह 0,75 और 0,8 अच्छा है। यदि 0,8 और 0,9 के बीच इसका एक्सेलेंट है। यदि 0,9 से अधिक है यह संदिग्ध है और यदि उच्च है तो 0,95 से अधिक है। मैं उस स्पष्टीकरण को समझने में बहुत आसान पाया, लेकिन यह सही है? क्योंकि मुझे लगता है कि बैकअप के लिए कुछ खोज रहा हूं, लेकिन मुझे नहीं मिल रहा है।
कार्तुलुबरेटो

और Glen_B, @AdamO ने जो स्पष्टीकरण दिया, उससे लगता है कि मैंने वीडियो पर जो स्पष्टीकरण देखा, वह बिल्कुल सही नहीं था, लेकिन शायद मैं एडम के स्पष्टीकरण को गलत बता रहा हूं। ये स्टैटिस्क सामान बहुत जटिल है, लेकिन इसमें गहरी खुदाई करने के लिए It´sa वास्तविक आनंद है। :)
कार्ग्लुबरेटो

मुझे लगता है कि एडमो की व्याख्या अच्छी है (मैंने इसे उतारा), लेकिन प्रश्न स्थायी संसाधन होने चाहिए; बाद का पाठक (उदाहरण के लिए किसी समान प्रश्न वाला व्यक्ति) यह जानना चाहता है कि क्या कहा गया था। मुझे लगता है कि टिप्पणी में आपका वर्णन अधिकांश लोगों के लिए पर्याप्त संदर्भ देता है और लिंक बाकी के लिए भी करेगा। इसलिए धन्यवाद! आपने अपने प्रश्न को अधिक उपयोगी बना दिया है।
Glen_b -Reinstate Monica

बहुत धन्यवाद @Glen_b, मैं सीख रहा हूँ कि हमारे पास (इस मंच) इस भयानक उपकरण का उपयोग कैसे करें। नए प्रश्न पूछते समय मैं आपकी टिप को ध्यान में रखूंगा।
४ret बजे कार्तुलुबरेटो

जवाबों:


36

हां, आप लॉजिस्टिक रिग्रेशन मॉडल को ओवरफिट कर सकते हैं। लेकिन पहले, मैं एयूसी के बारे में बात को संबोधित करना चाहता हूं (क्षेत्र के तहत रिसीवर ऑपरेटिंग कैरेक्टर कर्व): एयूसी के साथ अंगूठे के कोई सार्वभौमिक नियम नहीं हैं, कभी भी।

क्या एयूसी है संभावना है कि एक बेतरतीब ढंग से नमूना सकारात्मक (या मामले) एक नकारात्मक (या नियंत्रण) की तुलना में अधिक मार्कर मूल्य होगा क्योंकि एयूसी गणितीय यू आँकड़ों के बराबर है।

एयूसी क्या नहीं है, भविष्यवाणी की सटीकता का एक मानकीकृत उपाय नहीं है। अत्यधिक नियतात्मक घटनाओं में 95% या उससे अधिक एकल पूर्वानुमानक AUC हो सकते हैं (जैसे कि नियंत्रित मेक्ट्रोनिक्स, रोबोटिक्स या ऑप्टिक्स में), कुछ जटिल बहुउपयोगी लॉजिस्टिक रिस्क प्रेडिक्शन मॉडल में 64% या उससे कम AUCs होते हैं जैसे स्तन कैंसर जोखिम भविष्यवाणी, और वे भविष्य कहनेवाला सटीकता के उच्च स्तर।

एक पॉवर एनालिसिस के साथ समझदार AUC वैल्यू, बैकग्राउंड नॉलेज और एक स्टडी एप्रीओरी के उद्देश्यों को ध्यान में रखकर बनाई गई है । डॉक्टर / इंजीनियर वर्णन करते हैं कि वे क्या चाहते हैं, और आप, सांख्यिकीविद्, अपने भविष्य कहनेवाला मॉडल के लिए लक्ष्य AUC मूल्य पर हल करते हैं। फिर शुरू होती है जांच।

लॉजिस्टिक रिग्रेशन मॉडल को ओवरफिट करना वास्तव में संभव है। रेखीय निर्भरता के अलावा (यदि मॉडल मैट्रिक्स कमज़ोर रैंक का है), तो आपके पास पूर्ण सहमति भी हो सकती है, या यह कि वाई के खिलाफ सज्जित मूल्यों की साजिश पूरी तरह से मामलों और नियंत्रणों में भेदभाव करती है। उस स्थिति में, आपके पैरामीटर परिवर्तित नहीं हुए हैं, लेकिन बस सीमा स्थान पर कहीं रहते हैं जो संभावना देता है । कभी-कभी, हालांकि, अकेले यादृच्छिक मौका द्वारा AUC 1 है।

एक और प्रकार का पूर्वाग्रह है जो मॉडल में बहुत अधिक भविष्यवाणियों को जोड़ने से उत्पन्न होता है, और यह छोटा नमूना पूर्वाग्रह है। सामान्य तौर पर, लॉजिस्टिक रिग्रेशन मॉडल के लॉग ऑड्स अनुपात और शून्य सेल काउंट्स की गैर-समाप्यता के कारण पक्षपाती कारक की ओर होते हैं । Inference, यह स्तरीकृत विश्लेषण में confounding और सटीक चर के लिए नियंत्रित करने के लिए सशर्त लॉजिस्टिक प्रतिगमन का उपयोग कर नियंत्रित किया जाता है। हालाँकि, भविष्यवाणी में, आप SooL हैं। कोई generalizable भविष्यवाणी जब आपके पास है पी » n π ( 1 - π ) , ( π = समस्या ( Y = 1 )2βpnπ(1π)π=Prob(Y=1)) क्योंकि आपको "डेटा" के मॉडल की गारंटी है और उस बिंदु पर "प्रवृत्ति" नहीं है। मशीन सीखने के तरीकों के साथ द्विआधारी परिणामों की उच्च आयामी (बड़ी ) भविष्यवाणी बेहतर है। रैखिक भेदभावपूर्ण विश्लेषण, आंशिक रूप से कम वर्ग, निकटतम पड़ोसी भविष्यवाणी, बूस्टिंग और यादृच्छिक जंगलों को समझना शुरू करने के लिए बहुत अच्छी जगह होगी।p


y

π

आप लक्ष्य के लिए उपयुक्त AUC मान कैसे निर्धारित करते हैं?
केविन एच। लिन

1
@ केविनएच.इन प्रश्न की प्रकृति पर निर्भर करता है। जितना अधिक आप प्रासंगिक रूप से उपयुक्त ज्ञान को शामिल करते हैं, उतना बेहतर है। यह बीमारी या स्थिति का अंतर्निहित प्रचलन या बोझ होगा जो मॉडल का आकलन करता है, मौजूदा (प्रतिस्पर्धा) मॉडल का प्रदर्शन, लागत-प्रभावशीलता ट्रेडऑफ़ और नई प्रथाओं और / या सिफारिशों को अपनाने के आसपास की नीतियां। इसके बारे में कुछ भी काला और सफेद नहीं है, लेकिन बहुत सी चीजों की तरह, आपको एयूसी मूल्य के पक्ष में समझाने और तर्क करने के लिए सम्मोहक तर्क देने की आवश्यकता है जो कि, सांख्यिकीविद् के रूप में आप निर्धारित करते हैं।
एडम

1
@ केविन एच। मुझे नहीं लगता कि कोई भी वैध उत्तर उतना ही स्पष्ट और संक्षिप्त होगा जितना आप चाहते हैं। यह पूछने की तरह है, "मुझे कौन सी कार खरीदनी चाहिए?" :) मैं आपको उन लेखों की समीक्षा करने का सुझाव देता हूं, जो आपके हित में प्रासंगिक अनुसंधान क्षेत्र में एयूसी की खोज कर चुके हैं। मैंने स्तन कैंसर के लिए जोखिम भविष्यवाणी मॉडल में बड़े पैमाने पर काम किया है और टाइस, गेल और बार्लो के कार्यों के माध्यम से दूसरों के बीच देखा है कि 0.65 का एयूसी जनसंख्या आधारित भविष्यवाणी मॉडल के लिए बहुत आकर्षक है जिसमें 1-20 से कम मामलों का प्रचलन है 5,000 जोखिम वाले व्यक्ति प्रति वर्ष 7 जोखिम वाले कारकों का उपयोग करके आरआर
बीटीएन

6

सरल शब्दों में .... एक ओवरफिजेड लॉजिस्टिक रिग्रेशन मॉडल में बड़ा विचरण होता है, जिसका मतलब है कि परिवर्तन परिमाण में परिवर्तन के लिए बड़े पैमाने पर छोटे परिवर्तन। निम्नलिखित छवि पर विचार करें कि सबसे सही एक लॉजिस्टिक मॉडल है, इसकी निर्णय सीमा बड़ी नहीं है। उतार-चढ़ाव जबकि middel एक ही फिट है, यह मध्यम विचरण और मध्यम पूर्वाग्रह है। बायाँ नीचे है, इसमें उच्च पूर्वाग्रह है लेकिन बहुत कम विचरण है। एक और बात_ एक overfitted regrresion मॉडल में बहुत सी विशेषताएं हैं जबकि अंडरफिट मॉडल की संख्या बहुत कम है। सुविधाओं की। अंडरफिट, जस्टफिट और ओवरफिट लॉजिस्टिक रेसियन मॉडल दिखाने वाली छवि।  ब्लू कोल्ड मार्कर निर्णय सीमा दिखा रहा है।


8
कृपया छवि के लिए संदर्भ जोड़ें (वास्तव में एंड्रयू एनजी का कोर्स)।
अलेक्जेंडर रोडिन

5

आप किसी भी विधि के साथ ओवरफिट कर सकते हैं, भले ही आप पूरी आबादी को फिट करते हों (यदि जनसंख्या सीमित है)। समस्या के दो सामान्य समाधान हैं: (1) अधिकतम संभावना अनुमान (रिज रिग्रेशन, इलास्टिक नेट, लासो, इत्यादि) और (2) बायेसियन मॉडल के साथ सूचनात्मक पुजारियों का उपयोग।

YYYY


4

क्या कोई मॉडल है, लॉजिस्टिक रिग्रेशन को छोड़ दें, ताकि ओवरफिट करना संभव न हो?

ओवरफिटिंग मौलिक रूप से उत्पन्न होती है क्योंकि आप एक नमूने के लिए फिट होते हैं और पूरी आबादी के लिए नहीं। आपके नमूने की कलाकृतियाँ जनसंख्या की विशेषताओं की तरह लग सकती हैं और वे नहीं हैं और इसलिए दर्द से भर जाती हैं।

यह बाहरी वैधता के प्रश्न के समान है। केवल उस नमूने का उपयोग करके जिसे आप एक मॉडल प्राप्त करने की कोशिश कर रहे हैं जो आपको वास्तविक आबादी पर सबसे अच्छा प्रदर्शन देता है जिसे आप नहीं देख सकते हैं।

ज़रूर, कुछ मॉडल रूप या प्रक्रिया दूसरों की तुलना में अधिक होने की संभावना है लेकिन कोई भी मॉडल वास्तव में ओवरफिटिंग से प्रतिरक्षा नहीं करता है, क्या यह है?

यहां तक ​​कि नमूना सत्यापन, नियमितीकरण प्रक्रिया आदि केवल ओवर-फिटिंग के खिलाफ रक्षा कर सकते हैं लेकिन कोई चांदी की गोली नहीं है। वास्तव में, यदि किसी को एक फिट मॉडल के आधार पर वास्तविक दुनिया की भविष्यवाणी करने में किसी के आत्मविश्वास का अनुमान लगाना था, तो हमेशा यह मानना ​​चाहिए कि वास्तव में ओवरफिटिंग की कुछ डिग्री हुई है।

किस सीमा तक अलग-अलग हो सकते हैं, लेकिन यहां तक ​​कि एक मॉडल जो कि एक होल्ड आउट डेटासेट पर मान्य है, शायद ही कभी इन-वाइल्ड प्रदर्शन प्राप्त होगा जो कि होल्ड-आउट डेटासेट पर प्राप्त हुआ था। और ओवरफिटिंग एक बड़ा कारक है।


0

ओवरफिटिंग की जाँच करने के लिए हम आरसी के साथ जो करते हैं, वह है प्रशिक्षण और मान्यता में बेतरतीब ढंग से डेटासेट को अलग करना और उन समूहों के बीच AUC की तुलना करना। यदि AUC प्रशिक्षण में "अधिक" है (अंगूठे का कोई नियम नहीं है) बड़ा है तो ओवरफिटिंग हो सकती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.