एलडीए का बीजगणित। एक चर और लाइनर विभेदक विश्लेषण की फिशर भेदभाव शक्ति

जाहिरा तौर पर,

फिशर विश्लेषण का उद्देश्य एक साथ वर्ग-पृथक्करण को अधिकतम करना है, जबकि भीतर-वर्ग के फैलाव को कम करना है। एक चर की भेदभाव शक्ति का एक उपयोगी उपाय इसलिए विकर्ण मात्रा द्वारा दिया जाता है: । $B_{ii}/W_{ii}$

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

मैं समझता हूँ कि आकार ( p x p(बीच की) बी ) और भीतर-क्लास ( डब्ल्यू ,) मैट्रिक्स इनपुट चर की संख्या से दिया जाता है p। इसे देखते हुए, एक एकल चर की "भेदभाव शक्ति का उपयोगी उपाय" कैसे हो सकता है? मेट्रिस बी और डब्ल्यू के निर्माण के लिए कम से कम दो चर की आवश्यकता होती है, इसलिए संबंधित निशान एक से अधिक चर का प्रतिनिधित्व करेंगे। $B_{ii}/W_{ii}$

अपडेट: सोच में मैं सही हूँ कि है नहीं एक निशान है, जहां योग निहित है पर एक निशान है, लेकिन मैट्रिक्स तत्व से विभाजित ? वर्तमान में यह एकमात्र तरीका है कि मैं अभिव्यक्ति को अवधारणा के साथ समेट सकता हूं। $B_{ii}/W_{ii}$ $B_{ii}$ $W_{ii}$

— वर्ग
स्रोत

यहाँ प्रश्न के उत्तर के रूप में रेखीय विभेदक विश्लेषण (LDA) के बारे में एक छोटी कहानी है ।

जब हमारे पास इसके द्वारा भेदभाव करने के लिए एक चर और समूह (कक्षाएं) हैं, तो यह एनोवा है। चर की भेदभाव शक्ति , या । $k$ $SS_\text{between groups} / SS_\text{within groups}$ $B/W$

जब हमारे पास चर हैं, तो यह MANOVA है। यदि चर न तो कुल नमूने में हैं और न ही समूहों के भीतर, तो उपरोक्त भेदभाव शक्ति, , को समान रूप से गणना की जाती है और इसे रूप में लिखा जा सकता है , जहां जमा भीतर-समूह बिखराव मैट्रिक्स है (यानी की राशि एसएससीपी मैट्रिक्स चर, संबंधित समूह 'केन्द्रक के बारे में केंद्रित की); बीच-समूह तितर बितर मैट्रिक्स , जहाँ $p$ $B/W$ $trace(\bf{S_b})$ $/trace(\bf{S_w})$ $\bf{S_w}$ $k$ p x p $\bf{S_b}$ $=\bf{S_t}-\bf{S_w}$ $\bf{S_t}$ पूरे डेटा के लिए तितर बितर मैट्रिक्स है (ग्रैंड सेंट्रोइड के बारे में केंद्रित चर का एसएससीपी मैट्रिक्स। (एक "तितर बितर मैट्रिक्स" नमूना_साइज -1 द्वारा विचलन के बिना सिर्फ एक सहसंयोजक मैट्रिक्स है।)

जब चर के बीच कुछ सहसंबंध होता है - और आमतौर पर होता है - उपरोक्त को द्वारा व्यक्त किया जाता है जो अब एक स्केलर नहीं है, लेकिन एक मैट्रिक्स है। यह केवल इस कारण है कि इस "समग्र" भेदभाव के पीछे भेदभावपूर्ण चर छिपे हुए हैं और आंशिक रूप से इसे साझा कर रहे हैं। $B/W$ $\bf{S_w^{-1} S_b}$ $p$

अब, हम MANOVA में डूब सकते हैं और नए और पारस्परिक रूप से अव्यक्त को विघटित करना चाहते हैं (उनकी संख्या ) जिसे विभेदक कार्य या विभेदक कहते हैं - प्रथम सबसे मजबूत विभेदक होने के नाते, 2 पीछे पीछे जा रहा है, आदि जैसे हम इसे प्राइसिपल घटक विश्लेषण में करते हैं। हम भेदभाव रहित शक्ति के नुकसान के बिना असंबंधित भेदभावियों द्वारा मूल सहसंबद्ध चर की जगह लेते हैं। क्योंकि प्रत्येक अगला भेदभाव करने वाला कमजोर है और कमजोर है, इसलिए हम बिना भेदभाव वाली शक्ति (फिर से, हम पीसीए का उपयोग कैसे करें) के समान नुकसान के बिना पहले भेदभाव के एक छोटे उपसमूह को स्वीकार कर सकते हैं । यह एलडीए का सार है जो आयामीता में कमी करता है $\bf{S_w^{-1} S_b}$ $min(p,k-1)$ $m$ तकनीक (एलडीए भी एक बेयस वर्गीकरण तकनीक है, लेकिन यह एक पूरी तरह से अलग विषय है)।

इस प्रकार एलडीए पीसीए जैसा दिखता है। पीसीए "सहसंबंध" का विरोध करता है, एलडीए "पृथक्करण" का विघटन करता है। एलडीए में, क्योंकि उपरोक्त मैट्रिक्स "पृथक्करण" व्यक्त करने के लिए सममित नहीं है, एक बी-पास बीजीय चाल का उपयोग इसके ईजेनवल और ईजेनवेक्टर्स को खोजने के लिए किया जाता है । प्रत्येक विभेदक कार्य (एक अव्यक्त चर) का आइगेनवेल्यू इसकी विभेदकारी शक्ति है मैं पहले पैराग्राफ के बारे में कह रहा था। इसके अलावा, यह ध्यान देने योग्य है कि भेदभाव करने वाले, असंबद्ध, ज्यामितीय रूप से रूढ़िवादी नहीं हैं, क्योंकि मूल चर अंतरिक्ष में खींची गई कुल्हाड़ियों हैं। $^1$ $B/W$

कुछ संभावित संबंधित विषय जिन्हें आप पढ़ना चाहते हैं:

झील प्राधिकरण है Manova अव्यक्त संरचना का विश्लेषण में "गहरा" और विहित सहसंबंध विश्लेषण का एक विशेष विषय (के रूप में उन दोनों के बीच सटीक तुल्यता है इस तरह के )। एलडीए वस्तुओं को कैसे वर्गीकृत करता है और फिशर के गुणांक क्या हैं। (मैं वर्तमान में केवल अपने स्वयं के उत्तरों से लिंक करता हूं, जैसा कि मैं उन्हें याद करता हूं, लेकिन इस साइट पर अन्य लोगों से भी कई अच्छे और बेहतर उत्तर हैं)।

$^1$ एलडीए निष्कर्षण चरण की गणना निम्नानुसार है। Eigenvalues ( ) of सममित मैट्रिक्स , जहां है Cholesky जड़ की : एक ऊपरी त्रिकोणीय मैट्रिक्स जिससे । जैसा कि के eigenvectors के लिए , वे द्वारा दिए गए हैं , जहां उपरोक्त मैट्रिक्स के eigenvectors हैं । (नोट: , त्रिकोणीय होने के कारण, उलटा हो सकता है $\bf L$ $\bf{S_w^{-1} S_b}$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$ $\bf{S_w}$ $\bf{U'U=S_w}$ $\bf{S_w^{-1} S_b}$ $\bf{V=U^{-1} E}$ $\bf E$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$ - निम्न-स्तरीय भाषा का उपयोग करना - मानक जेनेरिक "इनवॉइस" फ़ंक्शन के पैकेज का उपयोग करने की तुलना में तेज़।

वर्णित वर्कअराउंड-एगेंडेकम्पोजीशन-ऑफ मेथड को कुछ प्रोग्राम्स (SPSS में, उदाहरण के लिए) में महसूस किया जाता है, जबकि अन्य प्रोग्राम्स में "क्वैसी एस्का-व्हाइटनिंग" विधि का एहसास होता है। बस थोड़ा धीमा होने के नाते, वही परिणाम देता है और कहीं और वर्णित किया जाता है । इसे यहाँ संक्षेप में प्रस्तुत करने के लिए: -whitening मैट्रिक्स प्राप्त करें - सममित वर्गमूल (eigendecomposition के माध्यम से क्या किया जाता है); तत्पश्चात (जो कि एक सममित मैट्रिक्स है) का eigenvalues और eigenbctors , जिससे विवेकपूर्ण eigenvectors $\bf{S_w^{-1} S_b}$ $\bf{S_w}$ $\bf S_w^{-1/2}$ $\bf S_w^{-1/2} S_b S_w^{-1/2}$ $\bf L$ $\bf A$ $\bf V= S_w^{-1/2} A$ । "क्वैसी ज़का-व्हाइटनिंग" विधि को फिर से लिखा जा सकता है, डेटासेट के विलक्षण-मूल्य-अपघटन के माध्यम से किया जा सकता है, बजाय इसके कि और तितर बितर साथ काम करना ; जो कम्प्यूटेशनल परिशुद्धता (निकट-विलक्षणता स्थिति में महत्वपूर्ण है) को जोड़ता है, लेकिन बलिदान की गति। $\bf S_w$ $\bf S_b$

ठीक है, चलो आमतौर पर एलडीए में गणना किए गए आंकड़ों की ओर मुड़ते हैं। विहित सहसंबंध eigenvalues के लिए इसी हैं । जबकि एक विभेदक का ईजेन्यूअल उस विवेचक का एनोवा का , उस एनोवा का (टी = टोटल सम-ऑफ-स्क्वॉयर) वर्ग विवादास्पद है। $\bf \Gamma = \sqrt{L/(L+1)}$ $B/W$ $B/T$

यदि आप eigenvectors कॉलम (SS = 1) को सामान्य करते हैं तो इन मानों को कुल्हाड़ियों-भेदभावों में अक्षों-चर के रोटेशन के दिशा कोजिस के रूप में देखा जा सकता है; इसलिए उनकी मदद से कोई भी विभेदकों को मूल चर द्वारा परिभाषित स्कैप्लेटोट पर कुल्हाड़ियों के रूप में साजिश कर सकता है (eigenvectors, उस चर के अंतरिक्ष में कुल्हाड़ियों के रूप में, orthogonal नहीं हैं)। $\bf V$

अनियंत्रित विभेदक गुणांक या भार केवल स्केल किए गए eigenvectors । ये केंद्रीकृत मूल चरों द्वारा विभेदकों के रैखिक भविष्यवाणी के गुणांक हैं। विभेदक कार्यों के मान स्वयं (विवेचक अंक) हैं , जहाँ केन्द्रित मूल चर है (प्रत्येक स्तंभ के साथ इनपुट बहुभिन्नरूपी डेटा)। भेदभाव करने वाले असंबद्ध हैं। और जब उपरोक्त उपरोक्त सूत्र द्वारा गणना की जाती है, तो उनके पास यह गुण भी होता है कि उनका वर्ग-वर्ग सहसंयोजक मैट्रिक्स पहचान मैट्रिक्स है। $\bf {C}= \it \sqrt{N-k} ~\bf V$ $\bf XC$ $\bf X$

अनियंत्रित गुणांक के साथ वैकल्पिक निरंतर शब्द और इनपुट चर के गैर-केंद्र होने पर केंद्र में रखने की अनुमति देता है, तो , जहां p वैरिएबल का विकर्ण मैट्रिक्स है 'का मतलब है और वैरिएबल के पार का योग है। $\bf {C_0} \it = -\sum^p diag(\bar{X}) \bf C$ $diag(\bar{X})$ $\sum^p$

में मानकीकृत विभेदक गुणांक , एक विभेदक में चर के योगदान तथ्य यह है कि चर अलग प्रसरण है और अलग अलग इकाइयों में मापा जा सकता है के लिए निकाला जाता; (जहाँ diag (Sw) विकर्ण मैट्रिक्स है जो के विकर्ण के साथ है )। "मानकीकृत" होने के बावजूद, ये गुणांक कभी-कभी 1 से अधिक हो सकते हैं (इसलिए भ्रमित न हों)। यदि इनपुट चर को अलग-अलग प्रत्येक वर्ग के भीतर जेड-मानकीकृत किया गया था, तो मानकीकृत गुणांक = अनियंत्रित वाले। विभेदकों की व्याख्या करने के लिए गुणांक का उपयोग किया जा सकता है। $\bf {K} \it = \sqrt{diag \bf (S_w)} \bf V$ $\bf S_w$

चर -समूह सहसंबंधों ("संरचना मैट्रिक्स", जिसे कभी-कभी लोडिंग कहा जाता है) के भीतर चर और बीच । सहसंबंध समस्‍याओं के प्रति असंवेदनशील होते हैं और चरों के योगदान के आकलन में, और विभेदकों की व्याख्या करने में एक वैकल्पिक (गुणांक) मार्गदर्शन का गठन करते हैं। $\bf R= \it diag \bf (S_w)^{-1} \bf S_w V$

यहाँ आईरिस डेटा के विभेदक विश्लेषण के निष्कर्षण चरण का पूरा आउटपुट देखें ।

इस अच्छे उत्तर को बाद में पढ़ें जो औपचारिक रूप से थोड़ा और विस्तार से बताता है और जैसा मैंने यहां बताया था वैसा ही विस्तृत किया।

यह सवाल एलडीए करने से पहले डेटा को मानकीकृत करने के मुद्दे से संबंधित है।

— ttnphns
स्रोत

जैसा कि आपके उत्तर में कहा गया है, मुख्य रूप से एलडीए का उपयोग आयाम में कमी करने के लिए किया जाता है, लेकिन यदि उद्देश्य सिर्फ वर्गीकरण है, तो हम बस बेयस दृष्टिकोण का उपयोग कर सकते हैं, है ना? लेकिन अगर उद्देश्य आयाम में कमी है, तो हमें उन निर्देशों को खोजने के लिए फिशर का दृष्टिकोण लेना होगा, जिन पर हम मूल इनपुट , सही प्रोजेक्ट करेंगे ?

X

$X$

— एवोकैडो

हाँ। हालांकि, शब्द "फिशर का दृष्टिकोण" अस्पष्ट है। यह 2 बातें मतलब कर सकते हैं: 1) झील प्राधिकरण (2 वर्गों के लिए) ही ; 2) एलडीए में फिशर का वर्गीकरण कार्य करता है।

— ttnphns