एलडीए का बीजगणित। एक चर और लाइनर विभेदक विश्लेषण की फिशर भेदभाव शक्ति


13

जाहिरा तौर पर,

फिशर विश्लेषण का उद्देश्य एक साथ वर्ग-पृथक्करण को अधिकतम करना है, जबकि भीतर-वर्ग के फैलाव को कम करना है। एक चर की भेदभाव शक्ति का एक उपयोगी उपाय इसलिए विकर्ण मात्रा द्वारा दिया जाता है: ।Bii/Wii

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

मैं समझता हूँ कि आकार ( p x p(बीच की) बी ) और भीतर-क्लास ( डब्ल्यू ,) मैट्रिक्स इनपुट चर की संख्या से दिया जाता है p। इसे देखते हुए, एक एकल चर की "भेदभाव शक्ति का उपयोगी उपाय" कैसे हो सकता है? मेट्रिस बी और डब्ल्यू के निर्माण के लिए कम से कम दो चर की आवश्यकता होती है, इसलिए संबंधित निशान एक से अधिक चर का प्रतिनिधित्व करेंगे।Bii/Wii

अपडेट: सोच में मैं सही हूँ कि है नहीं एक निशान है, जहां योग निहित है पर एक निशान है, लेकिन मैट्रिक्स तत्व से विभाजित ? वर्तमान में यह एकमात्र तरीका है कि मैं अभिव्यक्ति को अवधारणा के साथ समेट सकता हूं। B I i W i iBii/WiiBiiWii

जवाबों:


24

यहाँ प्रश्न के उत्तर के रूप में रेखीय विभेदक विश्लेषण (LDA) के बारे में एक छोटी कहानी है ।

जब हमारे पास इसके द्वारा भेदभाव करने के लिए एक चर और समूह (कक्षाएं) हैं, तो यह एनोवा है। चर की भेदभाव शक्ति , या ।एस एस समूहों के बीच / एस एस समूहों के भीतर बी / डब्ल्यूkSSbetween groups/SSwithin groupsB/W

जब हमारे पास चर हैं, तो यह MANOVA है। यदि चर न तो कुल नमूने में हैं और न ही समूहों के भीतर, तो उपरोक्त भेदभाव शक्ति, , को समान रूप से गणना की जाती है और इसे रूप में लिखा जा सकता है , जहां जमा भीतर-समूह बिखराव मैट्रिक्स है (यानी की राशि एसएससीपी मैट्रिक्स चर, संबंधित समूह 'केन्द्रक के बारे में केंद्रित की); बीच-समूह तितर बितर मैट्रिक्स , जहाँB / W t r a c e ( S b ) / t r a c e ( S w ) S w k s b = S t - S w S tpB/Wtrace(Sb)/trace(Sw)Swk p x p Sb=StSwSt पूरे डेटा के लिए तितर बितर मैट्रिक्स है (ग्रैंड सेंट्रोइड के बारे में केंद्रित चर का एसएससीपी मैट्रिक्स। (एक "तितर बितर मैट्रिक्स" नमूना_साइज -1 द्वारा विचलन के बिना सिर्फ एक सहसंयोजक मैट्रिक्स है।)

जब चर के बीच कुछ सहसंबंध होता है - और आमतौर पर होता है - उपरोक्त को द्वारा व्यक्त किया जाता है जो अब एक स्केलर नहीं है, लेकिन एक मैट्रिक्स है। यह केवल इस कारण है कि इस "समग्र" भेदभाव के पीछे भेदभावपूर्ण चर छिपे हुए हैं और आंशिक रूप से इसे साझा कर रहे हैं।एस - 1 डब्ल्यू एस बी पीB/WSw1Sbp

अब, हम MANOVA में डूब सकते हैं और नए और पारस्परिक रूप से अव्यक्त को विघटित करना चाहते हैं (उनकी संख्या ) जिसे विभेदक कार्य या विभेदक कहते हैं - प्रथम सबसे मजबूत विभेदक होने के नाते, 2 पीछे पीछे जा रहा है, आदि जैसे हम इसे प्राइसिपल घटक विश्लेषण में करते हैं। हम भेदभाव रहित शक्ति के नुकसान के बिना असंबंधित भेदभावियों द्वारा मूल सहसंबद्ध चर की जगह लेते हैं। क्योंकि प्रत्येक अगला भेदभाव करने वाला कमजोर है और कमजोर है, इसलिए हम बिना भेदभाव वाली शक्ति (फिर से, हम पीसीए का उपयोग कैसे करें) के समान नुकसान के बिना पहले भेदभाव के एक छोटे उपसमूह को स्वीकार कर सकते हैं । यह एलडीए का सार है जो आयामीता में कमी करता है एममैंएन(पी,के-1)एमSw1Sbmin(p,k1)m तकनीक (एलडीए भी एक बेयस वर्गीकरण तकनीक है, लेकिन यह एक पूरी तरह से अलग विषय है)।

इस प्रकार एलडीए पीसीए जैसा दिखता है। पीसीए "सहसंबंध" का विरोध करता है, एलडीए "पृथक्करण" का विघटन करता है। एलडीए में, क्योंकि उपरोक्त मैट्रिक्स "पृथक्करण" व्यक्त करने के लिए सममित नहीं है, एक बी-पास बीजीय चाल का उपयोग इसके ईजेनवल और ईजेनवेक्टर्स को खोजने के लिए किया जाता है । प्रत्येक विभेदक कार्य (एक अव्यक्त चर) का आइगेनवेल्यू इसकी विभेदकारी शक्ति है मैं पहले पैराग्राफ के बारे में कह रहा था। इसके अलावा, यह ध्यान देने योग्य है कि भेदभाव करने वाले, असंबद्ध, ज्यामितीय रूप से रूढ़िवादी नहीं हैं, क्योंकि मूल चर अंतरिक्ष में खींची गई कुल्हाड़ियों हैं। बी / डब्ल्यू1B/W

कुछ संभावित संबंधित विषय जिन्हें आप पढ़ना चाहते हैं:

झील प्राधिकरण है Manova अव्यक्त संरचना का विश्लेषण में "गहरा" और विहित सहसंबंध विश्लेषण का एक विशेष विषय (के रूप में उन दोनों के बीच सटीक तुल्यता है इस तरह के )। एलडीए वस्तुओं को कैसे वर्गीकृत करता है और फिशर के गुणांक क्या हैं। (मैं वर्तमान में केवल अपने स्वयं के उत्तरों से लिंक करता हूं, जैसा कि मैं उन्हें याद करता हूं, लेकिन इस साइट पर अन्य लोगों से भी कई अच्छे और बेहतर उत्तर हैं)।


एल एस - 1 डब्ल्यू एस बी ( यू - 1 ) ' एस बी यू - 1 यू एस डब्ल्यू यू ' यू = एस डब्ल्यू एस - 1 डब्ल्यू एस बी वी = यू - 1( यू - 1 ) ' एस बी यू - 1 यू1 एलडीए निष्कर्षण चरण की गणना निम्नानुसार है। Eigenvalues ​​( ) of सममित मैट्रिक्स , जहां है Cholesky जड़ की : एक ऊपरी त्रिकोणीय मैट्रिक्स जिससे । जैसा कि के eigenvectors के लिए , वे द्वारा दिए गए हैं , जहां उपरोक्त मैट्रिक्स के eigenvectors हैं । (नोट: , त्रिकोणीय होने के कारण, उलटा हो सकता हैLSw1Sb(U1)SbU1USwUU=SwSw1SbV=U1EE(U1)SbU1U- निम्न-स्तरीय भाषा का उपयोग करना - मानक जेनेरिक "इनवॉइस" फ़ंक्शन के पैकेज का उपयोग करने की तुलना में तेज़।

वर्णित वर्कअराउंड-एगेंडेकम्पोजीशन-ऑफ मेथड को कुछ प्रोग्राम्स (SPSS में, उदाहरण के लिए) में महसूस किया जाता है, जबकि अन्य प्रोग्राम्स में "क्वैसी एस्का-व्हाइटनिंग" विधि का एहसास होता है। बस थोड़ा धीमा होने के नाते, वही परिणाम देता है और कहीं और वर्णित किया जाता है । इसे यहाँ संक्षेप में प्रस्तुत करने के लिए: -whitening मैट्रिक्स प्राप्त करें - सममित वर्गमूल (eigendecomposition के माध्यम से क्या किया जाता है); तत्पश्चात (जो कि एक सममित मैट्रिक्स है) का eigenvalues और eigenbctors , जिससे विवेकपूर्ण eigenvectorsSw1SbSwSw1/2Sw1/2SbSw1/2LAV=Sw1/2A। "क्वैसी ज़का-व्हाइटनिंग" विधि को फिर से लिखा जा सकता है, डेटासेट के विलक्षण-मूल्य-अपघटन के माध्यम से किया जा सकता है, बजाय इसके कि और तितर बितर साथ काम करना ; जो कम्प्यूटेशनल परिशुद्धता (निकट-विलक्षणता स्थिति में महत्वपूर्ण है) को जोड़ता है, लेकिन बलिदान की गति।SwSb

ठीक है, चलो आमतौर पर एलडीए में गणना किए गए आंकड़ों की ओर मुड़ते हैं। विहित सहसंबंध eigenvalues के लिए इसी हैं । जबकि एक विभेदक का ईजेन्यूअल उस विवेचक का एनोवा का , उस एनोवा का (टी = टोटल सम-ऑफ-स्क्वॉयर) वर्ग विवादास्पद है।Γ=L/(L+1)B/WB/T

यदि आप eigenvectors कॉलम (SS = 1) को सामान्य करते हैं तो इन मानों को कुल्हाड़ियों-भेदभावों में अक्षों-चर के रोटेशन के दिशा कोजिस के रूप में देखा जा सकता है; इसलिए उनकी मदद से कोई भी विभेदकों को मूल चर द्वारा परिभाषित स्कैप्लेटोट पर कुल्हाड़ियों के रूप में साजिश कर सकता है (eigenvectors, उस चर के अंतरिक्ष में कुल्हाड़ियों के रूप में, orthogonal नहीं हैं)।V

अनियंत्रित विभेदक गुणांक या भार केवल स्केल किए गए eigenvectors । ये केंद्रीकृत मूल चरों द्वारा विभेदकों के रैखिक भविष्यवाणी के गुणांक हैं। विभेदक कार्यों के मान स्वयं (विवेचक अंक) हैं , जहाँ केन्द्रित मूल चर है (प्रत्येक स्तंभ के साथ इनपुट बहुभिन्नरूपी डेटा)। भेदभाव करने वाले असंबद्ध हैं। और जब उपरोक्त उपरोक्त सूत्र द्वारा गणना की जाती है, तो उनके पास यह गुण भी होता है कि उनका वर्ग-वर्ग सहसंयोजक मैट्रिक्स पहचान मैट्रिक्स है।C=Nk VXCX

अनियंत्रित गुणांक के साथ वैकल्पिक निरंतर शब्द और इनपुट चर के गैर-केंद्र होने पर केंद्र में रखने की अनुमति देता है, तो , जहां p वैरिएबल का विकर्ण मैट्रिक्स है 'का मतलब है और वैरिएबल के पार का योग है।डीमैंएकजी( ˉ एक्स ) Σ पीC0=pdiag(X¯)Cdiag(X¯)p

में मानकीकृत विभेदक गुणांक , एक विभेदक में चर के योगदान तथ्य यह है कि चर अलग प्रसरण है और अलग अलग इकाइयों में मापा जा सकता है के लिए निकाला जाता; (जहाँ diag (Sw) विकर्ण मैट्रिक्स है जो के विकर्ण के साथ है )। "मानकीकृत" होने के बावजूद, ये गुणांक कभी-कभी 1 से अधिक हो सकते हैं (इसलिए भ्रमित न हों)। यदि इनपुट चर को अलग-अलग प्रत्येक वर्ग के भीतर जेड-मानकीकृत किया गया था, तो मानकीकृत गुणांक = अनियंत्रित वाले। विभेदकों की व्याख्या करने के लिए गुणांक का उपयोग किया जा सकता है।SwK=diag(Sw)VSw

चर -समूह सहसंबंधों ("संरचना मैट्रिक्स", जिसे कभी-कभी लोडिंग कहा जाता है) के भीतर चर और बीच । सहसंबंध समस्‍याओं के प्रति असंवेदनशील होते हैं और चरों के योगदान के आकलन में, और विभेदकों की व्याख्या करने में एक वैकल्पिक (गुणांक) मार्गदर्शन का गठन करते हैं।R=diag(Sw)1SwV


यहाँ आईरिस डेटा के विभेदक विश्लेषण के निष्कर्षण चरण का पूरा आउटपुट देखें ।

इस अच्छे उत्तर को बाद में पढ़ें जो औपचारिक रूप से थोड़ा और विस्तार से बताता है और जैसा मैंने यहां बताया था वैसा ही विस्तृत किया।

यह सवाल एलडीए करने से पहले डेटा को मानकीकृत करने के मुद्दे से संबंधित है।


जैसा कि आपके उत्तर में कहा गया है, मुख्य रूप से एलडीए का उपयोग आयाम में कमी करने के लिए किया जाता है, लेकिन यदि उद्देश्य सिर्फ वर्गीकरण है, तो हम बस बेयस दृष्टिकोण का उपयोग कर सकते हैं, है ना? लेकिन अगर उद्देश्य आयाम में कमी है, तो हमें उन निर्देशों को खोजने के लिए फिशर का दृष्टिकोण लेना होगा, जिन पर हम मूल इनपुट , सही प्रोजेक्ट करेंगे ? X
एवोकैडो

1
हाँ। हालांकि, शब्द "फिशर का दृष्टिकोण" अस्पष्ट है। यह 2 बातें मतलब कर सकते हैं: 1) झील प्राधिकरण (2 वर्गों के लिए) ही ; 2) एलडीए में फिशर का वर्गीकरण कार्य करता है।
ttnphns
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.