क्या प्रतिगमन और रैखिक भेदभावपूर्ण विश्लेषण (LDA) के बीच एक संबंध है? उनकी समानताएं और अंतर क्या हैं? क्या इससे कोई फ़र्क पड़ता है अगर दो वर्ग हैं या दो से अधिक वर्ग हैं?
क्या प्रतिगमन और रैखिक भेदभावपूर्ण विश्लेषण (LDA) के बीच एक संबंध है? उनकी समानताएं और अंतर क्या हैं? क्या इससे कोई फ़र्क पड़ता है अगर दो वर्ग हैं या दो से अधिक वर्ग हैं?
जवाबों:
मैं यह लेता हूं कि यह प्रश्न एलडीए और रैखिक (लॉजिस्टिक नहीं) प्रतिगमन के बारे में है।
रैखिक प्रतिगमन और रैखिक विवेचक विश्लेषण के बीच एक काफी और सार्थक संबंध है । मामले में आश्रित चर (DV) में केवल 2 समूह होते हैं, दो विश्लेषण वास्तव में समान होते हैं। इसके बावजूद कि गणनाएँ भिन्न हैं और परिणाम - प्रतिगमन और विभेदक गुणांक - समान नहीं हैं, वे एक दूसरे के बिल्कुल आनुपातिक हैं ।
अब दो से अधिक समूहों की स्थिति के लिए। पहले, हमें बताएं कि LDA (इसका निष्कर्षण, वर्गीकरण चरण नहीं) विहित सहसंबंध विश्लेषण के समतुल्य (रैखिक रूप से संबंधित परिणाम) है यदि आप समूहीकरण DV को डमी चर के एक सेट में बदल देते हैं (उनमें से एक निरर्थक के साथ) और विहित करते हैं। "आईवीएस" और "डमी" के सेट के साथ विश्लेषण। "IVs" सेट की ओर से कैननिकल वेरिएंट जो आप प्राप्त करते हैं , वे हैं जो LDA "भेदभावपूर्ण कार्य" या "भेदभाव करने वाले" कहते हैं।
तो, फिर कैनोनिकल विश्लेषण रैखिक प्रतिगमन से कैसे संबंधित है? अव्यवस्थित विश्लेषण एक MANOVA है (इस अर्थ में " मल्टीवेरिएट मल्टीपल लीनियर रिग्रेशन" या "मल्टीवेरिएट जनरल लीनियर मॉडल") अव्यक्त संरचना में गहरा हो गया हैDVs और IVs के बीच के संबंध। इन दो भिन्नताओं को उनके अंतर-संबंधों में अव्यक्त "कैनोनिकल वेरिएंट" में विघटित किया गया है। आइए हम सबसे सरल उदाहरण लेते हैं, Y बनाम X1 X2 X3। दो पक्षों के बीच सहसंबंध का अधिकतमकरण रैखिक प्रतिगमन है (यदि आप X द्वारा Y की भविष्यवाणी करते हैं) या - जो एक ही बात है - MANOVA है (यदि आप X द्वारा Y की भविष्यवाणी करते हैं)। सहसंबंध अपरिमेय है (परिमाण R ^ 2 = पिल्लई के निशान के साथ) क्योंकि कम सेट, Y, में केवल एक चर होता है। अब इन दो सेटों को लेते हैं: Y1 Y2 बनाम X1 x2 x3। यहाँ सहसंबंध अधिकतम किया जा रहा है 2-आयामी क्योंकि कम सेट में 2 चर होते हैं। सहसंबंध के पहले और मजबूत अव्यक्त आयाम को 1 विहित सहसंबंध कहा जाता है, और शेष भाग, इसके लिए ओर्थोगोनल, दूसरा विहित सहसंबंध। इसलिए, MANOVA (या रैखिक प्रतिगमन) सिर्फ यह पूछता है कि सेट के पूरे 2-आयामी सहसंबंध में चर की आंशिक भूमिकाएं (गुणांक) क्या हैं; जबकि विहित विश्लेषण सिर्फ यह पूछने के लिए नीचे जाता है कि 1 सहसंबंधीय आयाम में चर की आंशिक भूमिका क्या है, और दूसरे में।
इस प्रकार, विहित सहसंबंध विश्लेषण बहुभिन्नरूपी रेखीय प्रतिगमन है जो डीवी और आईवी के बीच संबंधों की अव्यक्त संरचना में गहरा होता है। विवेकाधीन विश्लेषण विहित सहसंबंध विश्लेषण का एक विशेष मामला है ( देखें कि वास्तव में कैसे )। तो, यहाँ दो से अधिक समूहों के एक सामान्य मामले में एलडीए के रैखिक प्रतिगमन के संबंध के बारे में जवाब था।
ध्यान दें कि मेरा उत्तर एलडीए को वर्गीकरण तकनीक के रूप में बिल्कुल नहीं देखता है। मैं केवल निष्कर्षण तकनीक के रूप में एलडीए पर चर्चा कर रहा था। वर्गीकरण एलडीए का दूसरा और स्टैंड-अलोन चरण है (मैंने इसे यहां वर्णित किया है )। @ मिचेल चेरिक अपने उत्तरों में इस पर ध्यान केंद्रित कर रहे थे।
regression formulation of LDA
कुछ खोजने में आश्चर्यजनक रूप से मुश्किल होती है - 2000 के बाद कई शोध पत्र प्रकाशित हुए हैं जिसमें कहा गया है कि ऐसा कोई सूत्र मौजूद नहीं है या एक सुझाव देने की कोशिश कर रहा हूं। क्या शायद एक अच्छा [पुराना] संदर्भ है?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
:। W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
। Olcay Kursun et al. Canonical correlation analysis using within-class coupling
। यदि आप उन्हें इंटरनेट में नहीं पा सकते हैं तो मैं आपको भेज सकता हूं। यदि आपको अधिक और बेहतर स्रोत मिलते हैं - तो कृपया हमें बताएं।
यहां एफ्रॉन के एक पेपर का संदर्भ दिया गया है: लॉजिकल रिवीजन की दक्षता सामान्य डिस्क्रिमिनेटर एनालिसिस की तुलना में , 1975।
एक अन्य प्रासंगिक पेपर है, एनजी एंड जॉर्डन, 2001, ऑन डिस्क्रिमिनिटिव बनाम जनरेटिव क्लासिफायरर्स: लॉजिस्टिक रिग्रेशन और भोले बे की तुलना । और यहाँ Xue & Titterington , 2008 द्वारा उस पर एक टिप्पणी का सार है , जिसमें ओ'नील के उनके पीएचडी शोध प्रबंध से संबंधित पत्रों का उल्लेख है:
जनरेटिव और डिसिप्लिनरी क्लासिफायर की तुलना एक स्थायी विषय है। इस विषय में एक महत्वपूर्ण योगदान के रूप में, भोले बेयस क्लासिफायर और रैखिक लॉजिस्टिक प्रतिगमन, एनजी और जॉर्डन (एनआईपीएस 841 --- 848, 2001) के बीच उनके सैद्धांतिक और अनुभवजन्य तुलनाओं के आधार पर दावा किया गया कि जनरेटिव के बीच प्रदर्शन के दो अलग-अलग शासन मौजूद हैं और प्रशिक्षण-निर्धारित आकार के संबंध में भेदभावपूर्ण वर्गीकरण। इस पत्र में, हमारे अनुभवजन्य और सिमुलेशन अध्ययन, उनके काम के पूरक के रूप में, हालांकि, सुझाव देते हैं कि दो अलग-अलग शासनों का अस्तित्व इतना विश्वसनीय नहीं हो सकता है। इसके अलावा, वास्तविक विश्व डेटासेट के लिए, अब तक कोई सैद्धांतिक रूप से सही नहीं है, एक अवलोकन के वर्गीकरण के लिए भेदभावपूर्ण और सामान्य दृष्टिकोण के बीच चयन करने के लिए सामान्य मानदंड एक वर्ग में ; चुनाव उस रिश्तेदार विश्वास पर निर्भर करता है जो हमारे पास या p ( x , y ) के विनिर्देशन की शुद्धता में है। डेटा के लिए। यह कुछ हद तक क्यों Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) और O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980) का प्रदर्शन हो सकता है ) सामान्य-आधारित रैखिक विभेदक विश्लेषण (LDA) को प्राथमिकता दें, जब कोई मॉडल गलत-विनिर्देश नहीं होता है, लेकिन अन्य अनुभवजन्य अध्ययन इसके बजाय रैखिक लॉजिस्टिक रिग्रेशन पसंद कर सकते हैं। इसके अलावा, हम सुझाव देते हैं कि या तो एलडीए की जोड़ी एक आम विकर्ण सहसंयोजक मैट्रिक्स (LDA) या भोले बेयस क्लासिफायरियर और रैखिक लॉजिस्टिक प्रतिगमन को सही नहीं मान सकती है, और इसलिए यह किसी भी दावे के लिए विश्वसनीय नहीं हो सकता है जो कि एलडीए के बीच तुलना से प्राप्त हुआ था। या भोले Bayes क्लासिफायर और रैखिक उपस्कर प्रतिगमन सभी सामान्य और भेदभावपूर्ण वर्गीकरण के लिए सामान्यीकृत किया जाना है।
इस पर बहुत सारे अन्य संदर्भ हैं जो आप ऑनलाइन पा सकते हैं।
इस उत्तर का उद्देश्य रेखीय विभेदक विश्लेषण (LDA) और बहुभिन्नरूपी रेखीय प्रतिगमन (MLR) के बीच सटीक गणितीय संबंध की व्याख्या करना है। यह पता चला है कि सही रूपरेखा कम रैंक प्रतिगमन (आरआरआर) द्वारा प्रदान की जाती है ।
हम यह दिखाएंगे कि एलडीए डेटा मैट्रिक्स पर श्वेत श्रेणी सूचक मैट्रिक्स के आरआरआर के बराबर है ।
स्तंभों में पंक्तियों और चर में डेटा बिंदु x i के साथ को n × d मैट्रिक्स होने दें । प्रत्येक बिंदु k वर्गों, या समूहों में से एक का है । बिंदु x मैं वर्ग संख्या g ( i ) से संबंधित है ।
चलो हो n × कश्मीर सूचक मैट्रिक्स एन्कोडिंग समूह सदस्यता इस प्रकार है: जी मैं j = 1 यदि एक्स मैं वर्ग के अंतर्गत आता है जे , और जी मैं j = 0 अन्यथा। हैं n j कक्षा में डेटा बिंदुओं j ; बेशक ∑ n j = n ।
हम मानते हैं कि डेटा केंद्रित हैं और इसलिए वैश्विक मतलब शून्य, बराबर है । चलो μ जे वर्ग की संकरी हो जे ।
कुल तितर बितर मैट्रिक्स निम्न-वर्ग और भीतर-वर्ग तितर बितर मैट्रिक्स के योग में विघटित किया जा सकता है: C b कोई यह सत्यापित कर सकता है किC=Cb+Cw। LDA उन विभेदक कुल्हाड़ियों की खोज करता है जिनके बीच अधिकतम-समूह विचरण और प्रक्षेपण के भीतर न्यूनतम-समूह विचरण हो। विशेष रूप से, पहले विभेदक अक्ष इकाई वेक्टर हैडब्ल्यूअधिकतमडब्ल्यू⊤सीबीडब्ल्यू/(डब्ल्यू⊤सी डब्ल्यूडब्ल्यू)
यह मानते हुए कि पूर्ण रैंक है, एलडीए समाधान डब्ल्यू एल डी ए , सी - 1 डब्ल्यू सी बी के eigenvectors का मैट्रिक्स है (घटते क्रम में eigenvalues द्वारा क्रमबद्ध)।
यह सामान्य कहानी थी। अब हम दो महत्वपूर्ण प्रेक्षण करते हैं।
पहले, भीतर-वर्ग तितर बितर मैट्रिक्स को कुल तितर बितर मैट्रिक्स द्वारा प्रतिस्थापित किया जा सकता है (अंततः क्योंकि को अधिकतम करना बी / बी ( बी + डब्ल्यू ) को अधिकतम करने के बराबर है ), और वास्तव में, यह देखना आसान है कि सी - 1 सी बी है एक ही eigenvectors।
दूसरा, बीच में बिखरे मैट्रिक्स को समूह सदस्यता मैट्रिक्स के माध्यम से ऊपर व्यक्त किया जा सकता है। दरअसल, = एक्स । जी समूह रकम की मैट्रिक्स है। समूह के मैट्रिक्स का अर्थ प्राप्त करने के लिए, इसे विकर्ण मैट्रिक्स द्वारा साथ विकर्ण पर गुणा किया जाना चाहिए ; यह द्वारा दिए गए है जी ⊤ जी । इसलिए, समूह का मतलब मैट्रिक्स है ( जी the जी ) - 1 जी s एक्स ( सपिएन्थी नोटिस करेगा कि यह एक प्रतिगमन सूत्र है)। प्राप्त करने के लिए सी बी हम अपने बिखराव मैट्रिक्स, एक ही विकर्ण मैट्रिक्स के आधार पर भारित लेने की जरूरत, प्राप्त करने के सी बी यदि सभी n j समान हैं और m ("संतुलित डाटासेट") केबराबर हैं, तो यह अभिव्यक्ति X ⊤ G G m X / m तक सरल हो जाती है ।
हम सामान्यीकृत सूचक मैट्रिक्स परिभाषित कर सकते हैं होने के रूप में 1 / √ जहाँG केपास1 है। फिर दोनों, संतुलित और असंतुलित डेटासेट के लिए, अभिव्यक्ति बस हैसीबी=एक्स⊤ ~ जी ~ जी । ध्यान दें कि ~ जी एक निरंतर कारक है, अप करने के लिए, हैसफेदसूचक मैट्रिक्स: ~ जी = जी ( जी ⊤ जी ) - 1 / 2 ।
सादगी के लिए, हम एक संतुलित डेटासेट के मामले से शुरू करेंगे।
इसी तरह से यह भी दिखाया जा सकता है कि रिज रैंक को कम रैंक रिग्रेशन में जोड़ना नियमित एलडीए के बराबर है।
यह कहना मुश्किल है कि ऊपर प्रस्तुत की गई क्रेडिट के लिए कौन हकदार है।
कै एट अल द्वारा हाल ही में एक सम्मेलन का पेपर है। (२०१३) लो-रैंक रेजिग्नेशंस और लीनियर डिस्क्रिमिनेन्ट एनालिसिस बेस्ड रेजिग्नेन्स के समतुल्य पर जो ऊपर जैसा ही प्रमाण प्रस्तुत करता है, लेकिन यह धारणा बनाता है कि उन्होंने इस दृष्टिकोण का आविष्कार किया था। निश्चित रूप से यह मामला नहीं है। टॉरे ने एक विस्तृत उपचार लिखा है कि कैसे सबसे आम रैखिक बहुभिन्नरूपी विधियों को कम रैंक रिग्रेशन के रूप में देखा जा सकता है, घटक विश्लेषण के लिए ए लिस्ट-स्क्वायर फ्रेमवर्क देखें , और बाद के पुस्तक अध्याय में घटक विश्लेषण विधियों का एक एकीकरण , 2013; वह एक ही तर्क प्रस्तुत करता है लेकिन कोई संदर्भ नहीं देता है। यह सामग्री पाठ्यपुस्तक आधुनिक बहुभिन्नरूपी सांख्यिकीय तकनीकों में भी शामिल है (2008) Izenman द्वारा, जिन्होंने 1975 में RRR को वापस पेश किया।
एलडीए और सीसीए के बीच का संबंध स्पष्ट रूप से बार्टलेट, 1938 में वापस चला जाता है, कई प्रतिगमन के सिद्धांत के आगे के पहलू - यह वह संदर्भ है जिसका मैं अक्सर सामना करता हूं (लेकिन सत्यापित नहीं किया गया)। CCA और RRR के बीच का संबंध Izenman, 1975 में वर्णित है, जो मल्टीवेरियेट लीनियर मॉडल के लिए कम-रैंक प्रतिगमन है । इसलिए ये सभी विचार कुछ समय के लिए आसपास रहे हैं।
रैखिक प्रतिगमन और रैखिक भेदभावपूर्ण विश्लेषण बहुत अलग हैं। रैखिक प्रतिगमन स्वतंत्र भविष्यवक्ता चर के एक सेट के लिए एक आश्रित चर से संबंधित है। विचार उन मापदंडों में एक फ़ंक्शन को खोजने के लिए है जो डेटा को सबसे अच्छी तरह से फिट करता है। यह कोविरेट्स में रैखिक होना भी नहीं है। दूसरी ओर रैखिक विभेदक विश्लेषण वस्तुओं को श्रेणियों में वर्गीकृत करने की एक प्रक्रिया है। दो-श्रेणी की समस्या के लिए यह समूहों को दो कैटगरी में विभाजित करने के लिए सबसे अलग पृथक्करण हाइपरप्लेन की तलाश करता है। यहां सबसे अच्छा मतलब है कि यह एक हानि फ़ंक्शन को कम करता है जो त्रुटि दर का एक रैखिक संयोजन है। तीन या अधिक समूहों के लिए यह हाइपरप्लेन का सबसे अच्छा सेट (k वर्ग समस्या के लिए k-1) पाता है। भेदभावपूर्ण विश्लेषण में फ़ीचर चर में हाइपोर्प्लेन रैखिक होते हैं।
दोनों के बीच मुख्य समानता शीर्षक में रैखिक है।