जैसा कि मैंने आपके प्रश्न की टिप्पणी में उल्लेख किया है, भेदभावपूर्ण विश्लेषण दो अलग-अलग चरणों - आयामीता में कमी (पर्यवेक्षण) और वर्गीकरण चरण के साथ एक समग्र प्रक्रिया है। आयामीता में कमी से हम विभेदक कार्य करते हैं जो मूल व्याख्यात्मक चर की जगह लेते हैं। फिर हम उन फ़ंक्शंस का उपयोग करके कक्षाओं के लिए (आमतौर पर बेयस दृष्टिकोण) वर्गीकृत करते हैं।
कुछ लोग एलडीए के इस स्पष्ट-कट-टू-स्टेज स्वभाव को पहचानने में विफल रहते हैं, क्योंकि वे केवल 2 वर्गों (जिन्हें फिशर का विवेचनात्मक विश्लेषण कहा जाता है ) के साथ केवल एलडीए से ही परिचित हैं । इस तरह के विश्लेषण में, केवल एक भेदभावपूर्ण फ़ंक्शन मौजूद है और वर्गीकरण सीधा है, और इसलिए अंतरिक्ष कमी और बेयस वर्गीकरण की अवधारणाओं को आमंत्रित किए बिना एक "पास" में एक पाठ्यपुस्तक में सब कुछ समझाया जा सकता है।
LDA, MANOVA से निकटता से संबंधित है। उत्तरार्द्ध (बहुभिन्नरूपी) रैखिक मॉडल का एक "सतह और व्यापक" पक्ष है, जबकि इसकी "गहराई और केंद्रित" तस्वीर कैनोनिकल सहसंबंध विश्लेषण (CCA) है। बात यह है कि चर के दो बहुभिन्नरूपी सेटों के बीच संबंध एक-आयामी नहीं है और इसे "अव्यक्त" चर के कुछ जोड़ों द्वारा समझाया जाता है जिन्हें विहित चर कहा जाता है।
के रूप में एक आयामी स्वरूप में कमी, झील प्राधिकरण सैद्धांतिक रूप से है के साथ एक सीसीए चर के दो सेट, एक सेट सहसंबद्ध "व्याख्यात्मक" अंतराल चर और दूसरे सेट किया जा रहा जा रहा है डमी (या अन्य विपरीत कोडित) का प्रतिनिधित्व चर समूह, कक्षाएँ टिप्पणियों का।के - १क
CCA में, हम दो सहसंबद्ध वैरिएबल सेट X और Y को अधिकारों के बराबर मानते हैं। इसलिए हम दोनों पक्षों से विहित चर निकालते हैं, और वे जोड़े बनाते हैं: सेट एक्स से 1 वेरिएंट और सेट मैक्स से वेरिएंट 1 जो उनके बीच अधिकतम विहित के साथ विहित है; तब सेट एक्स से 2 वेरिएंट और सेट कैन 2 से वेरिएंट को छोटे विहित सहसंबंध, आदि के साथ एलडीए में, हम आम तौर पर वर्ग सेट की ओर से संख्यात्मक संस्करण में संख्यात्मक रूप से रुचि नहीं रखते हैं; हालांकि हम व्याख्यात्मक सेट पक्ष से विहित चर में रुचि लेते हैं। उन्हें विहित विभेदक कार्य या विभेदक कहा जाता है ।
भेदभाव करने वालों को समूहों के बीच अलगाव की "लाइनों" के साथ अधिकतम सहसंबद्ध किया जाता है। भेदभावपूर्ण 1 अलगाववाद के प्रमुख हिस्से की व्याख्या करता है; भेदभावपूर्ण 2 पिछले अलगाव के लिए रूढ़िवादिता के कारण अस्पष्टीकृत छोड़ दिए गए कुछ छींटे उठाता है; descriminat 3 पिछले दो में अलगाववाद के कुछ अवशेषों के बारे में बताता है, आदि। एल में इनपुट चर (आयाम) और वर्ग में विभेदकों की संभावित संख्या (कम आयाम) और जब मान्यताएं हैं। एलडीए की यह संख्या पूरी तरह से वर्गों के बीच भेदभाव करती है और डेटा को पूरी तरह से कक्षाओं में वर्गीकृत करने में सक्षम है ( देखें )।पीकएम आई एन ( के - 1 , पी )
दोहराने के लिए, यह वास्तव में इसकी प्रकृति में सीसीए है। 3 + कक्षाओं के साथ LDA को "कैनोनिकल एलडीए" भी कहा जाता है। इसके बावजूद कि CCA और LDA आम तौर पर एल्गोरिदम को कुछ हद तक अलग तरह से लागू किया जाता है, कार्यक्रम की दक्षता के मद्देनजर, वे "एक ही" पर्याप्त हैं ताकि दूसरे में प्राप्त किए गए एक प्रक्रिया में प्राप्त परिणामों (गुणांक आदि) को पुनर्गणना करना संभव हो। एलडीए की अधिकांश विशिष्टता समूहों का प्रतिनिधित्व करने वाले श्रेणीगत चर को कोड करने के क्षेत्र में है। यह वही दुविधा है जो (एम) एनोवा में देखी गई है। विभिन्न कोडिंग योजनाएं गुणांक की व्याख्या के विभिन्न तरीकों की ओर ले जाती हैं।
चूंकि LDA (आयामी कमी) को CCA के एक विशेष मामले के रूप में समझा जा सकता है, आपको निश्चित रूप से PCA और प्रतिगमन के साथ CCA की तुलना करते हुए इस उत्तर का पता लगाना होगा । वहाँ मुख्य बिंदु यह है कि सीसीए एक अर्थ में, पीसीए की तुलना में प्रतिगमन के करीब है क्योंकि सीसीए एक पर्यवेक्षित तकनीक है (एक अव्यक्त रैखिक संयोजन को किसी बाहरी चीज़ के साथ सहसंबंधित करने के लिए तैयार किया गया है) और पीसीए नहीं है (एक अव्यक्त रैखिक संयोजन खींचा गया है आंतरिक संक्षेप में)। ये आयामीता में कमी की दो शाखाएँ हैं।
जब गणित की बात आती है, तो आप यह जान सकते हैं कि प्रिंसिपल कंपोनेंट्स के वेरिएंट्स डेटा क्लाउड (वेरिएबल्स के बीच कोविरियस मैट्रिक्स) के आईजेनवेल्यूज से मेल खाते हैं, जबकि डिसिप्लिन के वेरिएंट्स उन ईजनवेल्स से स्पष्ट रूप से संबंधित नहीं होते हैं जो इसमें उत्पन्न होते हैं। झील प्राधिकरण। कारण यह है कि एलडीए में, eigenvalues डेटा क्लाउड के आकार का सारांश नहीं देते हैं; इसके बजाय, वे बादल में भीतर-वर्ग भिन्नता के बीच के वर्ग के अनुपात की अमूर्त मात्रा से संबंधित हैं ।
तो, प्रमुख घटक विचरण को अधिकतम करते हैं और विभेदक वर्ग अलगाव को अधिकतम करते हैं; एक साधारण मामला जहां एक पीसी अच्छी तरह से कक्षाओं के बीच भेदभाव करने में विफल रहता है, लेकिन एक भेदभाव ये तस्वीरें हैं। जब मूल विशेषता अंतरिक्ष में रेखाओं के रूप में तैयार की जाती है तो विभेदक आमतौर पर ऑर्थोगोनल (असंबद्ध, फिर भी) नहीं दिखाई देते हैं, लेकिन पीसी करते हैं।
सावधानी के लिए फुटनोट । कैसे, उनके परिणामों में, एलडीए बिल्कुल सीसीए से संबंधित है । दोहराने के लिए: यदि आप p
वेरिएबल्स और k
कक्षाओं के साथ LDA करते हैं और आप C1 को उन p
वेरिएबल्स और Set2 के रूप में k-1
संकेतक डमी वैरिएबल के रूप में समूह का प्रतिनिधित्व करते हैं (वास्तव में, जरूरी नहीं कि संकेतक वैरिएबल - अन्य प्रकार के कंट्रास्ट वैरिएबल, जैसे विचलन या हेल्मर्ट -) ), फिर परिणाम सेट 1 के लिए निकाले गए विहित चर के संबंध में बराबर हैं - वे सीधे एलडीए में निकाले गए भेदभावपूर्ण कार्यों के अनुरूप हैं। हालांकि, सटीक संबंध क्या है?
एलडीए की बीजगणित और शब्दावली यहां बताई गई है और सीसीए की बीजगणित और शब्दावली यहां बताई गई है । कैनोनिकल सहसंबंध समान होंगे। लेकिन गुणांक और "अक्षांश" के मूल्यों (स्कोर) के बारे में क्या? एक वें विवेचक और संवाददाता ( वें) विहित वैरिएबल पर विचार करें। उनके लिए,जेजे
सीसीए मानकीकृत गुणांकLDA कच्चे गुणांक= CCA विहित वैरिएबल मानएलडीए भेदभावपूर्ण मूल्य= वैरिएंट में वर्ग विचलन के भीतर जमा भेदभाव में वर्ग विचरण के भीतर जमा---------------------------√
"वर्ग विचरण के भीतर एकत्रित" समूह के वज़न के साथ n-1
समूह में भार = के भारित औसत है । विवेचक में, यह मात्रा (एलडीए बीजगणित लिंक में पढ़ें), और इसलिए एलडीए परिणामों से सीसीए परिणामों पर स्विच करने के लिए आनुपातिकता का गुणांक बस । लेकिन क्योंकि पूरे नमूने में विहित चर का मानकीकरण किया गया है, यह गुणांक बराबर है (जो समूहों के भीतर मानकीकृत है)। इसलिए, CCA के परिणाम प्राप्त करने के लिए, विभेदक के द्वारा LDA के परिणामों (गुणांक और स्कोर) को विभाजित करें ।1
वेरिएंट में क्लास वेरिएंट के भीतर जमा---------------------------------√
सेंट। विवेचक का विचलनσ
सीसीए और एलडीए के बीच का अंतर उस एलडीए के कारण है "जानता है" कि कक्षाएं (समूह) हैं: आप सीधे समूहों को तितर-बितर करने वाले मैट्रिसेस के भीतर और भीतर की गणना करने का संकेत देते हैं। इससे यह दोनों गणनाएं तेज हो जाती हैं और भेदभावियों द्वारा बाद के वर्गीकरण के लिए अधिक सुविधाजनक हो जाता है। दूसरी ओर, सीसीए, कक्षाओं के बारे में नहीं जानता है और डेटा को संसाधित करता है जैसे कि वे सभी निरंतर चर थे - जो कि अधिक सामान्य है लेकिन गणना का एक धीमा तरीका है। लेकिन परिणाम बराबर हैं, और मैंने दिखाया है कि कैसे।
अब तक यह निहित था कि k-1
डमी को CCA में विशिष्ट तरीके से दर्ज किया जाता है, अर्थात केंद्रित (Set1 के चर की तरह)। एक पूछ सकता है, क्या सभी k
डमी में प्रवेश करना संभव है और उन्हें (विलक्षणता से बचने के लिए) केंद्र नहीं करना है ? हां, यह संभव है, यद्यपि संभवतः कम सुविधाजनक है। शून्य-स्वदेशी अतिरिक्त विहित वैरिएबल दिखाई देगा, इसके लिए गुणांक को फेंक दिया जाना चाहिए। अन्य परिणाम मान्य रहे। सिवाय df s के अलावा विहित correlations के महत्व का परीक्षण करने के लिए। 1 सहसंबंध के लिए डीएफ वह होगा p*k
जो गलत है और सही डीएफ है, जैसा कि एलडीए में है p*(k-1)
।