यहाँ प्रश्न के उत्तर के रूप में रेखीय विभेदक विश्लेषण (LDA) के बारे में एक छोटी कहानी है ।
जब हमारे पास इसके द्वारा भेदभाव करने के लिए एक चर और समूह (कक्षाएं) हैं, तो यह एनोवा है। चर की भेदभाव शक्ति , या ।एस एस समूहों के बीच / एस एस समूहों के भीतर बी / डब्ल्यूkSSbetween groups/SSwithin groupsB/W
जब हमारे पास चर हैं, तो यह MANOVA है। यदि चर न तो कुल नमूने में हैं और न ही समूहों के भीतर, तो उपरोक्त भेदभाव शक्ति, , को समान रूप से गणना की जाती है और इसे रूप में लिखा जा सकता है , जहां जमा भीतर-समूह बिखराव मैट्रिक्स है (यानी की राशि एसएससीपी मैट्रिक्स चर, संबंधित समूह 'केन्द्रक के बारे में केंद्रित की); बीच-समूह तितर बितर मैट्रिक्स , जहाँB / W t r a c e ( S b ) / t r a c e ( S w ) S w k s b = S t - S w S tpB/Wtrace(Sb)/trace(Sw)Swk p x p
Sb=St−SwSt पूरे डेटा के लिए तितर बितर मैट्रिक्स है (ग्रैंड सेंट्रोइड के बारे में केंद्रित चर का एसएससीपी मैट्रिक्स। (एक "तितर बितर मैट्रिक्स" नमूना_साइज -1 द्वारा विचलन के बिना सिर्फ एक सहसंयोजक मैट्रिक्स है।)
जब चर के बीच कुछ सहसंबंध होता है - और आमतौर पर होता है - उपरोक्त को द्वारा व्यक्त किया जाता है जो अब एक स्केलर नहीं है, लेकिन एक मैट्रिक्स है। यह केवल इस कारण है कि इस "समग्र" भेदभाव के पीछे भेदभावपूर्ण चर छिपे हुए हैं और आंशिक रूप से इसे साझा कर रहे हैं।एस - 1 डब्ल्यू एस बी पीB/WS−1wSbp
अब, हम MANOVA में डूब सकते हैं और नए और पारस्परिक रूप से अव्यक्त को विघटित करना चाहते हैं (उनकी संख्या ) जिसे विभेदक कार्य या विभेदक कहते हैं - प्रथम सबसे मजबूत विभेदक होने के नाते, 2 पीछे पीछे जा रहा है, आदि जैसे हम इसे प्राइसिपल घटक विश्लेषण में करते हैं। हम भेदभाव रहित शक्ति के नुकसान के बिना असंबंधित भेदभावियों द्वारा मूल सहसंबद्ध चर की जगह लेते हैं। क्योंकि प्रत्येक अगला भेदभाव करने वाला कमजोर है और कमजोर है, इसलिए हम बिना भेदभाव वाली शक्ति (फिर से, हम पीसीए का उपयोग कैसे करें) के समान नुकसान के बिना पहले भेदभाव के एक छोटे उपसमूह को स्वीकार कर सकते हैं । यह एलडीए का सार है जो आयामीता में कमी करता है एममैंएन(पी,के-1)एमS−1wSbmin(p,k−1)m तकनीक (एलडीए भी एक बेयस वर्गीकरण तकनीक है, लेकिन यह एक पूरी तरह से अलग विषय है)।
इस प्रकार एलडीए पीसीए जैसा दिखता है। पीसीए "सहसंबंध" का विरोध करता है, एलडीए "पृथक्करण" का विघटन करता है। एलडीए में, क्योंकि उपरोक्त मैट्रिक्स "पृथक्करण" व्यक्त करने के लिए सममित नहीं है, एक बी-पास बीजीय चाल का उपयोग इसके ईजेनवल और ईजेनवेक्टर्स को खोजने के लिए किया जाता है । प्रत्येक विभेदक कार्य (एक अव्यक्त चर) का आइगेनवेल्यू इसकी विभेदकारी शक्ति है मैं पहले पैराग्राफ के बारे में कह रहा था। इसके अलावा, यह ध्यान देने योग्य है कि भेदभाव करने वाले, असंबद्ध, ज्यामितीय रूप से रूढ़िवादी नहीं हैं, क्योंकि मूल चर अंतरिक्ष में खींची गई कुल्हाड़ियों हैं। बी / डब्ल्यू1B/W
कुछ संभावित संबंधित विषय जिन्हें आप पढ़ना चाहते हैं:
झील प्राधिकरण है Manova अव्यक्त संरचना का विश्लेषण में "गहरा" और विहित सहसंबंध विश्लेषण का एक विशेष विषय (के रूप में उन दोनों के बीच सटीक तुल्यता है इस तरह के )।
एलडीए वस्तुओं को कैसे वर्गीकृत करता है और फिशर के गुणांक क्या हैं। (मैं वर्तमान में केवल अपने स्वयं के उत्तरों से लिंक करता हूं, जैसा कि मैं उन्हें याद करता हूं, लेकिन इस साइट पर अन्य लोगों से भी कई अच्छे और बेहतर उत्तर हैं)।
एल एस - 1 डब्ल्यू एस बी ( यू - 1 ) ' एस बी यू - 1 यू एस डब्ल्यू यू ' यू = एस डब्ल्यू एस - 1 डब्ल्यू एस बी वी = यू - 1 ई ई ( यू - 1 ) ' एस बी यू - 1 यू1 एलडीए निष्कर्षण चरण की गणना निम्नानुसार है। Eigenvalues ( ) of सममित मैट्रिक्स , जहां है Cholesky जड़ की : एक ऊपरी त्रिकोणीय मैट्रिक्स जिससे । जैसा कि के eigenvectors के लिए , वे द्वारा दिए गए हैं , जहां उपरोक्त मैट्रिक्स के eigenvectors हैं । (नोट: , त्रिकोणीय होने के कारण, उलटा हो सकता हैLS−1wSb(U−1)′SbU−1USwU′U=SwS−1wSbV=U−1EE(U−1)′SbU−1U- निम्न-स्तरीय भाषा का उपयोग करना - मानक जेनेरिक "इनवॉइस" फ़ंक्शन के पैकेज का उपयोग करने की तुलना में तेज़।
वर्णित वर्कअराउंड-एगेंडेकम्पोजीशन-ऑफ मेथड को कुछ प्रोग्राम्स (SPSS में, उदाहरण के लिए) में महसूस किया जाता है, जबकि अन्य प्रोग्राम्स में "क्वैसी एस्का-व्हाइटनिंग" विधि का एहसास होता है। बस थोड़ा धीमा होने के नाते, वही परिणाम देता है और कहीं और वर्णित किया जाता है । इसे यहाँ संक्षेप में प्रस्तुत करने के लिए: -whitening मैट्रिक्स प्राप्त करें - सममित वर्गमूल (eigendecomposition के माध्यम से क्या किया जाता है); तत्पश्चात (जो कि एक सममित मैट्रिक्स है) का eigenvalues और eigenbctors , जिससे विवेकपूर्ण eigenvectorsS−1wSbSwS−1/2wS−1/2wSbS−1/2wLAV=S−1/2wA। "क्वैसी ज़का-व्हाइटनिंग" विधि को फिर से लिखा जा सकता है, डेटासेट के विलक्षण-मूल्य-अपघटन के माध्यम से किया जा सकता है, बजाय इसके कि और तितर बितर साथ काम करना ; जो कम्प्यूटेशनल परिशुद्धता (निकट-विलक्षणता स्थिति में महत्वपूर्ण है) को जोड़ता है, लेकिन बलिदान की गति।SwSb
ठीक है, चलो आमतौर पर एलडीए में गणना किए गए आंकड़ों की ओर मुड़ते हैं। विहित सहसंबंध eigenvalues के लिए इसी हैं । जबकि एक विभेदक का ईजेन्यूअल उस विवेचक का एनोवा का , उस एनोवा का (टी = टोटल सम-ऑफ-स्क्वॉयर) वर्ग विवादास्पद है।Γ=L/(L+1)−−−−−−−−−√B/WB/T
यदि आप eigenvectors कॉलम (SS = 1) को सामान्य करते हैं तो इन मानों को कुल्हाड़ियों-भेदभावों में अक्षों-चर के रोटेशन के दिशा कोजिस के रूप में देखा जा सकता है; इसलिए उनकी मदद से कोई भी विभेदकों को मूल चर द्वारा परिभाषित स्कैप्लेटोट पर कुल्हाड़ियों के रूप में साजिश कर सकता है (eigenvectors, उस चर के अंतरिक्ष में कुल्हाड़ियों के रूप में, orthogonal नहीं हैं)।V
अनियंत्रित विभेदक गुणांक या भार केवल स्केल किए गए eigenvectors । ये केंद्रीकृत मूल चरों द्वारा विभेदकों के रैखिक भविष्यवाणी के गुणांक हैं। विभेदक कार्यों के मान स्वयं (विवेचक अंक) हैं , जहाँ केन्द्रित मूल चर है (प्रत्येक स्तंभ के साथ इनपुट बहुभिन्नरूपी डेटा)। भेदभाव करने वाले असंबद्ध हैं। और जब उपरोक्त उपरोक्त सूत्र द्वारा गणना की जाती है, तो उनके पास यह गुण भी होता है कि उनका वर्ग-वर्ग सहसंयोजक मैट्रिक्स पहचान मैट्रिक्स है।C=N−k−−−−−√ VXCX
अनियंत्रित गुणांक के साथ वैकल्पिक निरंतर शब्द और इनपुट चर के गैर-केंद्र होने पर केंद्र में रखने की अनुमति देता है, तो , जहां p वैरिएबल का विकर्ण मैट्रिक्स है 'का मतलब है और वैरिएबल के पार का योग है।डीमैंएकजी( ˉ एक्स ) Σ पीC0=−∑pdiag(X¯)Cdiag(X¯)∑p
में मानकीकृत विभेदक गुणांक , एक विभेदक में चर के योगदान तथ्य यह है कि चर अलग प्रसरण है और अलग अलग इकाइयों में मापा जा सकता है के लिए निकाला जाता; (जहाँ diag (Sw) विकर्ण मैट्रिक्स है जो के विकर्ण के साथ है )। "मानकीकृत" होने के बावजूद, ये गुणांक कभी-कभी 1 से अधिक हो सकते हैं (इसलिए भ्रमित न हों)। यदि इनपुट चर को अलग-अलग प्रत्येक वर्ग के भीतर जेड-मानकीकृत किया गया था, तो मानकीकृत गुणांक = अनियंत्रित वाले। विभेदकों की व्याख्या करने के लिए गुणांक का उपयोग किया जा सकता है।SwK=diag(Sw)−−−−−−−−√VSw
चर -समूह सहसंबंधों ("संरचना मैट्रिक्स", जिसे कभी-कभी लोडिंग कहा जाता है) के भीतर चर और बीच । सहसंबंध समस्याओं के प्रति असंवेदनशील होते हैं और चरों के योगदान के आकलन में, और विभेदकों की व्याख्या करने में एक वैकल्पिक (गुणांक) मार्गदर्शन का गठन करते हैं।R=diag(Sw)−1SwV
यहाँ आईरिस डेटा के विभेदक विश्लेषण के निष्कर्षण चरण का पूरा आउटपुट देखें ।
इस अच्छे उत्तर को बाद में पढ़ें जो औपचारिक रूप से थोड़ा और विस्तार से बताता है और जैसा मैंने यहां बताया था वैसा ही विस्तृत किया।
यह सवाल एलडीए करने से पहले डेटा को मानकीकृत करने के मुद्दे से संबंधित है।