विकल्प और तार्किक प्रतिगमन के बीच व्यावहारिक और व्याख्या अंतर क्या हैं?


9

R में लॉजिस्टिक रिग्रेशन के विकल्पों के बारे में हाल ही में पूछे गए प्रश्न में यादृच्छिक उत्तर, gbm, rpart, bayesglm और सामान्यीकृत एडिटिव मॉडल सहित कई प्रकार के उत्तर दिए गए हैं। इन विधियों और लॉजिस्टिक प्रतिगमन के बीच व्यावहारिक और व्याख्या अंतर क्या हैं? लॉजिस्टिक रिग्रेशन के सापेक्ष वे क्या धारणाएँ बनाते हैं (या नहीं बनाते हैं)? परिकल्पना परीक्षण के लिए उपयुक्त हैं? आदि।

जवाबों:


9

अस्वीकरण: यह निश्चित रूप से सवाल का एक पूर्ण उत्तर होने से बहुत दूर है!

मुझे लगता है कि ऐसे सभी तरीकों के बीच अंतर स्थापित करने से पहले विचार करने के लिए कम से कम दो स्तर हैं:

  • चाहे एक मॉडल फिट है : या नहीं यह रसद प्रतिगमन तरह का विरोध करने के तरीकों में मदद करता है बनाम आरएफ या ढाल बढ़ाने (या अधिक आम तौर पर एनसेंबल तरीकों ), और भी बनाम वर्गीकरण या (संबद्ध asymptotic या बूटस्ट्रैप विश्वास के अंतराल के साथ) पैरामीटर आकलन पर जोर दिया भविष्यवाणी सटीकता संगणना;
  • चाहे सभी चर पर विचार कर रहे हैं या नहीं: इस अर्थ में, सुविधा चयन का आधार है कि दण्डनीय ठहराए जाने या नियमितीकरण "अनियमित" डेटा सेट (उदाहरण के लिए, बड़े से निपटने के लिए अनुमति देता है और / या छोटे ) और निष्कर्षों के generalizability में सुधार होगा।पीn

यहाँ कुछ अन्य बिंदु हैं जो मुझे लगता है कि प्रश्न के लिए प्रासंगिक हैं।

यदि हम कई मॉडलों पर विचार करते हैं - एक ही मॉडल उपलब्ध डेटा के अलग-अलग सबसेट (व्यक्तियों और / या चर) पर फिट किया जाता है, या अलग-अलग प्रतिस्पर्धी मॉडल एक ही डेटा सेट पर फिट किए जाते हैं - , बचने के लिए क्रॉस-सत्यापन का उपयोग किया जा सकता है ओवरफिटिंग और प्रदर्शन या मॉडल का चयन, हालांकि सीवी इस विशेष मामलों तक सीमित नहीं है (इसका उपयोग जीएएम के साथ किया जा सकता है या उदाहरण के लिए जीएलएम को दंडित किया जा सकता है )। इसके अलावा, पारंपरिक व्याख्या मुद्दा है: अधिक जटिल मॉडल अक्सर अधिक जटिल व्याख्या (अधिक मापदंडों, अधिक कठोर मान्यताओं, आदि) का अर्थ है।

ढाल बढ़ाने और RFS एक भी निर्णय वृक्ष की सीमाओं को पार, करने के लिए धन्यवाद बढ़ाने जिसका मुख्य विचार के लिए एक और अधिक सटीक और स्थिर फैसले के नियम बनाने के लिए कई कमजोर सीखने वाले एल्गोरिदम के उत्पादन में गठबंधन करने के लिए है, और जीतना है जहाँ हम "औसत" परिणामों पर डेटा सेट को फिर से जारी किया। कुल मिलाकर, वे अक्सर अधिक "शास्त्रीय" मॉडल जहां मॉडल प्रदान की जाती हैं के लिए स्पष्ट विनिर्देशों की तुलना में ब्लैक बॉक्स के कुछ प्रकार के रूप में देखा जाता (मैं मॉडल के तीन वर्गों के बारे में सोच सकते हैं: parameteric , अर्द्ध पैरामीट्रिक , गैर पैरामीट्रिक ), लेकिन मुझे लगता है कि इस अन्य सूत्र द टू कल्चर: सांख्यिकी बनाम मशीन लर्निंग के तहत आयोजित चर्चा ? दिलचस्प दृष्टिकोण प्रदान करते हैं।

फ़ीचर चयन और कुछ एमएल तकनीकों के बारे में कुछ कागजात यहां दिए गए हैं:

  1. Saeys, Y, Inza, I और Larrañaga, P. Bioinformatics, Bioinformatics (2007) 23 (19): 2507-2517 में फ़ीचर चयन तकनीकों की समीक्षा करते हैं।
  2. डफ़र्टी, ईआर, हुआ जे और सिमा, सी। फ़ीचर सिलेक्शन मेथड्स का प्रदर्शन , करंट जीनोमिक्स (2009) 10 (6): 365-374।
  3. Boulesteix, AL और Strobl, C. Optimal वर्गीकारक चयन और त्रुटि दर अनुमान में नकारात्मक पूर्वाग्रह: उच्च आयामी भविष्यवाणी , BMC चिकित्सा अनुसंधान पद्धति (2009) 9:85 पर एक अनुभवजन्य अध्ययन
  4. कारुआना, आर और निकुलेस्कु-मिज़िल, ए । सुपरवाइज्ड लर्निंग एल्गोरिदम की एक अनुभवजन्य तुलना । मशीन लर्निंग पर 23 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही (2006)।
  5. फ्रीडमैन, जे, हस्ती, टी, और टिब्शीरानी, ​​आर। एडिटिव लॉजिस्टिक रिग्रेशन: एन स्टैटिस्टिक्स ऑफ़ बूस्टिंगिंग एन,। सांख्यिकीविद। (2000) 28 (2): 337-407। (चर्चा के साथ)
  6. ओल्डन, जेडी, लॉलर, जेजे, और पोफ, एनएल। आँसू के बिना मशीन सीखने के तरीके: पारिस्थितिकीविदों के लिए एक प्राइमर , क्यू रेव बायोल। (2008) 83 (2): 171-93

और हां, द एलीमेंट ऑफ स्टैटिस्टिकल लर्निंग , हेस्टी एंड कोल द्वारा।, चित्र और संदर्भों से भरा है। एंड्रयू मूर से सांख्यिकीय डेटा खनन ट्यूटोरियल की जांच करना सुनिश्चित करें ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.