रैंडमाइज्ड लॉजिस्टिक रिग्रेशन और प्लेन-वेनिला लॉजिस्टिक रिग्रेशन के बीच अंतर


12

मैं रैंडमाइज्ड लॉजिस्टिक रिग्रेशन (RLR) और प्लेन लॉजिस्टिक रिग्रेशन (LR) के बीच के अंतरों को जानना चाहूंगा , इसलिए, मैं Meinshausen, et al द्वारा एक पेपर "स्थिरता चयन" पढ़ रहा हूं ; हालाँकि मुझे समझ नहीं आ रहा है कि आरएलआर क्या है और आरएलआर और एलआर के बीच क्या अंतर हैं।

क्या कोई यह बता सकता है कि आरएलआर को समझने के लिए मुझे क्या पढ़ना चाहिए? या वहाँ के साथ शुरू करने के लिए एक सरल उदाहरण है?


1
RLR एक मानक शब्द नहीं है। कृपया विधि परिभाषित करें।
फ्रैंक हरेल

थैंक यू @FrankHarrell ... यह तरीका एक शिकिट लाइब्रेरी से आ रहा है ।
हेन्द्रा बूनमिन

अब जब मशीन लर्निंग / बिग डेटा के लिए एक नया स्टैक एक्सचेंज साइट है, तो शायद यह सवाल वहाँ पर है।
प्लैसिडिया

4
@Placidia यह एक अच्छा सुझाव है। हालांकि, आपका अपना स्वयं का उत्तर दिखाता है कि यह प्रश्न यहां क्यों है: हम बेहतर परिप्रेक्ष्य प्रदान करने में सक्षम हैं जो प्रश्न के सांख्यिकीय और एमएल दोनों पहलुओं की सटीक रूप से विशेषता और तुलना करता है। यद्यपि यह संभव है कि "डेटा साइंस" साइट पर कोई व्यक्ति इस तरह के उत्तर में योगदान दे सकता है, मेरा अनुभव यह है कि यह संभावना नहीं है।
whuber

3
मैं स्तब्ध हूं कि नई साइट कॉल डेटा साइंस है, जो आंकड़ों के बारे में आधे से अधिक है, जो कि इस साइट के बारे में है।
फ्रैंक हरेल

जवाबों:


17

आप इस संदर्भ की जाँच कर सकते हैं । विज्ञान किट सीखता है कि रैंडमाइज्ड लॉजिस्टिक रिग्रेशन लागू होता है और विधि का वर्णन किया जाता है।

लेकिन आपके प्रश्न का उत्तर देने के लिए, दो विधियां उनके लक्ष्यों में काफी हद तक भिन्न हैं। लॉजिस्टिक रिग्रेशन एक मॉडल को फिट करने के बारे में है और आरएलआर उन चर को खोजने के बारे में है जो मॉडल में जाते हैं।

वेनिला लॉजिस्टिक रिग्रेशन एक सामान्यीकृत रैखिक मॉडल है। एक द्विआधारी प्रतिक्रिया के लिए, हम मानते हैं कि प्रतिक्रिया संभावना के लॉग ऑड्स भविष्यवक्ताओं की संख्या का एक रैखिक कार्य है। भविष्यवाणियों के गुणांक का अनुमान अधिकतम संभावना का उपयोग करके लगाया जाता है और मापदंडों के बारे में अनुमान तब मॉडल के बड़े नमूना गुणों पर आधारित होता है। सर्वोत्तम परिणामों के लिए, हम आमतौर पर मानते हैं कि मॉडल काफी सरल और अच्छी तरह से समझा गया है। हम जानते हैं कि स्वतंत्र चर प्रतिक्रिया पर क्या प्रभाव डालते हैं। हम मॉडल के मापदंडों का अनुमान लगाना चाहते हैं।

बेशक, व्यवहार में, हम हमेशा यह नहीं जानते हैं कि मॉडल में किस चर को शामिल किया जाना चाहिए। यह मशीन सीखने की स्थितियों में विशेष रूप से सच है जहां संभावित व्याख्यात्मक चर की संख्या बहुत बड़ी है और उनके मूल्य विरल हैं।

वर्षों से, बहुत से लोगों ने वैरिएबल ("फीचर") चयन के उद्देश्य के लिए सांख्यिकीय मॉडल फिटिंग की तकनीकों का उपयोग करने की कोशिश की है। विश्वसनीयता के बढ़ते स्तर में:

  1. एक बड़े मॉडल को फिट करें और गैर-महत्वपूर्ण वाल्ड आँकड़ों के साथ चर को छोड़ दें। हमेशा सर्वश्रेष्ठ मॉडल का उत्पादन नहीं करता है।
  2. सभी संभव मॉडल देखें और "सर्वश्रेष्ठ" चुनें। कम्प्यूटेशनल रूप से गहन और मजबूत नहीं है।
  3. एल 1 पेनल्टी शब्द (लासो स्टाइल) के साथ बड़े मॉडल को फिट करें। बेकार चर फिट में गिरा दिया। बेहतर, लेकिन विरल मैट्रिस के साथ अस्थिर।
  4. रैंडमाइज विधि 3. रैंडम सब्मिट लें, प्रत्येक के लिए एक दंडित मॉडल फिट करें और परिणामों को मिलाएं। बार-बार आने वाले चर चुने जाते हैं। जब प्रतिक्रिया द्विआधारी होती है, तो यह यादृच्छिक लॉजिस्टिक प्रतिगमन है। एक समान तकनीक को निरंतर डेटा और सामान्य रैखिक मॉडल के साथ खींचा जा सकता है।

2
+1 यह एक सामान्य कार्यप्रणाली के ऐसे सुव्यवस्थित, पठनीय, सूचनात्मक सर्वेक्षण को देखने के लिए एक खुशी है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.