लॉजिस्टिक रिग्रेशन बनाम एलडीए दो-स्तरीय क्लासिफायर के रूप में


36

मैं रैखिक विभेदक विश्लेषण और लॉजिस्टिक प्रतिगमन के बीच सांख्यिकीय अंतर के चारों ओर अपना सिर लपेटने की कोशिश कर रहा हूं । क्या मेरी समझ सही है कि, एक दो वर्ग वर्गीकरण समस्या के लिए, LDA दो सामान्य घनत्व कार्यों (प्रत्येक वर्ग के लिए एक) की भविष्यवाणी करता है जो एक रैखिक सीमा बनाता है जहां वे प्रतिच्छेद करते हैं, जबकि लॉजिस्टिक प्रतिगमन केवल दो वर्गों के बीच लॉग-ऑड फ़ंक्शन की भविष्यवाणी करता है, जो एक सीमा बनाता है लेकिन प्रत्येक वर्ग के लिए घनत्व कार्यों को नहीं मानता है?


इसी तरह का एक प्रश्न आँकड़े
q

एक संबंधित उत्तर, सांख्यिकी.स्टैकएक्सचेंज
a

जवाबों:


35

यह मुझे लगता है कि आप सही हैं। लॉजिस्टिक रिग्रेशन वास्तव में भविष्यवक्ता चर के अंतरिक्ष में घनत्व के किसी भी विशिष्ट आकार को ग्रहण नहीं करता है, लेकिन एलडीए करता है। यहाँ दो विश्लेषणों के बीच कुछ अंतर हैं, संक्षेप में।

बाइनरी लॉजिस्टिक रिग्रेशन (बीएलआर) बनाम रेखीय विभेदक विश्लेषण (2 समूहों के साथ: फिशर के एलडीए के रूप में भी जाना जाता है):

  • बीएलआर : अधिकतम संभावना अनुमान के आधार पर। LDA : कम से कम वर्गों के आकलन के आधार पर; बाइनरी भविष्यवाणी के साथ रैखिक प्रतिगमन के बराबर (गुणांक आनुपातिक हैं और आर-वर्ग = 1-विल्क का लंबा)।

  • बीएलआर : संभाव्यता (समूह सदस्यता का) तुरंत अनुमान लगाता है (पूर्वानुमेयता को संभाव्यता के रूप में लिया जाता है, एक को देखा गया) और सशर्त रूप से। LDA : संभावना का अनुमान औसत दर्जे का (भविष्यवक्ता को बिनड कंटीन्यूअस वैरिएबल के रूप में देखा जाता है, विवेचक) को क्लासिसिटरी डिवाइस (जैसे भोले बेयस) के माध्यम से देखा जाता है जो सशर्त और सीमांत दोनों जानकारी का उपयोग करता है।

  • बीएलआर : भविष्यवक्ताओं में पैमाने के स्तर और वितरण के रूप के लिए इतना अधिक नहीं है। LDA : बहुभिन्नरूपी सामान्य वितरण के साथ भविष्यवाणियों के बीच अंतर।

  • बीएलआर : भविष्यवाणियों के समूह-कोवरियन मैट्रिस के बारे में कोई आवश्यकता नहीं। LDA : जनसंख्या के भीतर समूह सहसंयोजक matrices जनसंख्या में समान होना चाहिए।

  • nn

  • BLR : आउटलेर्स के लिए इतना संवेदनशील नहीं है। LDA : आउटलेर्स के प्रति काफी संवेदनशील।

  • बीएलआर : छोटी विधि। LDA : पुराना तरीका।

  • बीएलआर : आमतौर पर पसंद किया जाता है, क्योंकि कम परिश्रम / अधिक मजबूत। LDA : अपनी सभी आवश्यकताओं को पूरा करने के बाद, अक्सर बीएलआर (विषम सापेक्ष दक्षता 3/2 समय अधिक) से बेहतर वर्गीकृत करता है।


21

मुझे @ttnphns अच्छी सूची में कुछ अंक जोड़ने दें:

  • एलडीए के बाद के वर्ग सदस्यता संभावना की बेयस भविष्यवाणी एक तार्किक वक्र के रूप में अच्छी तरह से करती है।
    [एफ्रॉन, बी। सामान्य विवेकपूर्ण विश्लेषण की तुलना में लॉजिस्टिक रिग्रेशन की दक्षता, जे एम स्टैट असोक, 70, 892-898 (1975)।]

  • जबकि उस कागज से पता चलता है कि अगर LDA के विश्वासों को पूरा किया जाता है तो एलडीए के सापेक्ष दक्षता एलआर से बेहतर है। व्यवहार में सांख्यिकीय शिक्षण के तत्वों के अनुसार (@ अंतिम बिंदु) से ऊपर एफ्रॉन पेपर, शायद ही कोई अंतर है।
    [हस्ती, टी। और टिब्शिरानी, ​​आर। और फ्रीडमैन, जे। द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग; डाटा माइनिंग, इनविज़न एंड्रेड्रेडिशन स्प्रिंगर वर्लग, न्यूयॉर्क, 2009]

  • एलडीए की सापेक्ष रूप से बढ़ी हुई दक्षता ज्यादातर विषम मामलों में होती है, जहां पूर्ण त्रुटि व्यावहारिक रूप से किसी भी तरह से नगण्य है।
    [हैरेल, एफएंडवाई, केएल बहुभिन्नरूपी सामान्यता के तहत भेदभावपूर्ण विश्लेषण और लॉजिस्टिक प्रतिगमन के भेदभाव की तुलना, बायोसैटिस्टिक्स: बायोमेडिकल, सार्वजनिक स्वास्थ्य और पर्यावरण विज्ञान में सांख्यिकी, 333-343 (1985)।]

  • हालांकि मुझे अभ्यास में उच्च आयामी छोटे नमूने आकार की स्थितियों का सामना करना पड़ा है, जहां एलडीए बेहतर लगता है (दोनों बहुभिन्नरूपी सामान्यता और समान रूप से मैट्रिक्स के समान कोविरियस मैट्रिक्स मान्यताओं के बावजूद नहीं मिले)।
    [ बेलेइट्स, सी।; गीगर, के।; किर्श, एम।; सोबोटका, एसबी; शैथर्ट, जी। एंड सैल्ज़र, आर। रमन स्पेक्ट्रोस्कोपिक एस्ट्रोकिटोमा ऊतकों की ग्रेडिंग: नरम संदर्भ जानकारी का उपयोग करते हुए।, गुदा बायोएनल रसायन, 400, 2801-2816 (2011)। DOI: 10.1007 / s00216-011-4985-4 ]

  • लेकिन ध्यान दें कि हमारे पेपर में एलआर संभवतः उस समस्या से जूझ रहा है जिसके साथ (निकट) परिपूर्ण पृथक्करण के निर्देश मिल सकते हैं। दूसरी ओर एलडीए कम गंभीर रूप से ओवरफिटिंग हो सकता है।

  • एलडीए के लिए प्रसिद्ध धारणाएं केवल इष्टतमता साबित करने के लिए आवश्यक हैं। यदि वे मिले नहीं हैं, तो प्रक्रिया अभी भी एक अच्छा विधर्मी हो सकती है।

  • एक अंतर जो व्यवहार में मेरे लिए महत्वपूर्ण है क्योंकि वर्गीकरण समस्याएं जो मैं कभी-कभी काम करता हूं / अक्सर बाहर निकलता हूं वास्तव में ऐसा नहीं है कि स्पष्ट रूप से वर्गीकरण समस्याएं: LR आसानी से डेटा के साथ किया जा सकता है जहां संदर्भ में कक्षा की सदस्यता के मध्यवर्ती स्तर हैं। आखिरकार, यह एक प्रतिगमन तकनीक है।
    [ऊपर कागज देखें]

  • आप कह सकते हैं कि LR वर्ग की सीमा के पास उदाहरणों पर LDA से अधिक ध्यान केंद्रित करता है और मूल रूप से वितरण के "बैकसाइड" मामलों की उपेक्षा करता है।

  • यह यह भी बताता है कि एलडीए की तुलना में आउटलेर्स (यानी पीछे की तरफ वाले) के प्रति यह कम संवेदनशील क्यों है।

  • (सपोर्ट वेक्टर मशीन एक क्लासिफायरियर होगी जो इस दिशा में बहुत अंत तक जाती है: यहाँ सब कुछ है लेकिन सीमा के मामले अवहेलना है)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.