कैसे एक वर्गीकरण तकनीक एलडीए, पीसीए जैसी आयामी कमी तकनीक के रूप में भी कार्य करता है


19

इस लेख में , लेखक रेखीय विभेदक विश्लेषण (LDA) को प्रमुख घटक विश्लेषण (PCA) से जोड़ता है। अपने सीमित ज्ञान के साथ, मैं यह पालन करने में सक्षम नहीं हूं कि एलडीए पीसीए के समान कैसे हो सकता है।

मैंने हमेशा सोचा है कि एलडीए लॉजिस्टिक रिग्रेशन के समान वर्गीकरण एल्गोरिथ्म का एक रूप था। मैं यह समझने में कुछ मदद की सराहना करता हूं कि एलडीए पीसीए के समान कैसे है, अर्थात यह एक आयामी कमी तकनीक कैसे है।


2
एलडीए को केवल वर्गीकरण तकनीक कहना सही नहीं है। यह एक समग्र, 2-चरण तकनीक है: पहले आयाम को कम करें, फिर वर्गीकृत करें। पीसीए के विपरीत, आयामीता में कमी के रूप में, इसकी देखरेख की जाती है। वर्गीकरण के रूप में, यह लॉजिस्टिक प्रतिगमन के विपरीत सीमांत संभावना को मानता है।
ttnphns

स्पष्ट रूप से अनुपयोगी शिक्षण विधियों, जैसे, क्लस्टरिंग और अतिरेक विश्लेषण से निपटने के लिए 'डायमेंशनिटी कमी' शब्द का उपयोग करना स्पष्ट है। एलडीए सख्ती से सीखने की देखरेख कर रहा है, इसलिए एक ओवरआइटिंग पूर्वाग्रह पैदा करेगा कि क्या इसे डेटा कटौती के पहले चरण में उपयोग किया जाना था।
फ्रैंक हरेल

एक बहुत बड़ा समान प्रश्न: आंकड़े.स्टैकएक्सचेंज . com / q / 22884 / 3277
ttnphns

1
फ्रैंक, की विभिन्न रणनीतियों, उदाहरण के लिए, सुविधा चयन, को एलडीए के 1 चरण में लागू किया जा सकता है (आप के लिए स्टेपवाइज अप्रोच सहित) :-)।
ttnphns

जवाबों:


22

जैसा कि मैंने आपके प्रश्न की टिप्पणी में उल्लेख किया है, भेदभावपूर्ण विश्लेषण दो अलग-अलग चरणों - आयामीता में कमी (पर्यवेक्षण) और वर्गीकरण चरण के साथ एक समग्र प्रक्रिया है। आयामीता में कमी से हम विभेदक कार्य करते हैं जो मूल व्याख्यात्मक चर की जगह लेते हैं। फिर हम उन फ़ंक्शंस का उपयोग करके कक्षाओं के लिए (आमतौर पर बेयस दृष्टिकोण) वर्गीकृत करते हैं।

कुछ लोग एलडीए के इस स्पष्ट-कट-टू-स्टेज स्वभाव को पहचानने में विफल रहते हैं, क्योंकि वे केवल 2 वर्गों (जिन्हें फिशर का विवेचनात्मक विश्लेषण कहा जाता है ) के साथ केवल एलडीए से ही परिचित हैं । इस तरह के विश्लेषण में, केवल एक भेदभावपूर्ण फ़ंक्शन मौजूद है और वर्गीकरण सीधा है, और इसलिए अंतरिक्ष कमी और बेयस वर्गीकरण की अवधारणाओं को आमंत्रित किए बिना एक "पास" में एक पाठ्यपुस्तक में सब कुछ समझाया जा सकता है।

LDA, MANOVA से निकटता से संबंधित है। उत्तरार्द्ध (बहुभिन्नरूपी) रैखिक मॉडल का एक "सतह और व्यापक" पक्ष है, जबकि इसकी "गहराई और केंद्रित" तस्वीर कैनोनिकल सहसंबंध विश्लेषण (CCA) है। बात यह है कि चर के दो बहुभिन्नरूपी सेटों के बीच संबंध एक-आयामी नहीं है और इसे "अव्यक्त" चर के कुछ जोड़ों द्वारा समझाया जाता है जिन्हें विहित चर कहा जाता है।

के रूप में एक आयामी स्वरूप में कमी, झील प्राधिकरण सैद्धांतिक रूप से है के साथ एक सीसीए चर के दो सेट, एक सेट सहसंबद्ध "व्याख्यात्मक" अंतराल चर और दूसरे सेट किया जा रहा जा रहा है डमी (या अन्य विपरीत कोडित) का प्रतिनिधित्व चर समूह, कक्षाएँ टिप्पणियों का।k1k

CCA में, हम दो सहसंबद्ध वैरिएबल सेट X और Y को अधिकारों के बराबर मानते हैं। इसलिए हम दोनों पक्षों से विहित चर निकालते हैं, और वे जोड़े बनाते हैं: सेट एक्स से 1 वेरिएंट और सेट मैक्स से वेरिएंट 1 जो उनके बीच अधिकतम विहित के साथ विहित है; तब सेट एक्स से 2 वेरिएंट और सेट कैन 2 से वेरिएंट को छोटे विहित सहसंबंध, आदि के साथ एलडीए में, हम आम तौर पर वर्ग सेट की ओर से संख्यात्मक संस्करण में संख्यात्मक रूप से रुचि नहीं रखते हैं; हालांकि हम व्याख्यात्मक सेट पक्ष से विहित चर में रुचि लेते हैं। उन्हें विहित विभेदक कार्य या विभेदक कहा जाता है ।

भेदभाव करने वालों को समूहों के बीच अलगाव की "लाइनों" के साथ अधिकतम सहसंबद्ध किया जाता है। भेदभावपूर्ण 1 अलगाववाद के प्रमुख हिस्से की व्याख्या करता है; भेदभावपूर्ण 2 पिछले अलगाव के लिए रूढ़िवादिता के कारण अस्पष्टीकृत छोड़ दिए गए कुछ छींटे उठाता है; descriminat 3 पिछले दो में अलगाववाद के कुछ अवशेषों के बारे में बताता है, आदि। एल में इनपुट चर (आयाम) और वर्ग में विभेदकों की संभावित संख्या (कम आयाम) और जब मान्यताएं हैं। एलडीए की यह संख्या पूरी तरह से वर्गों के बीच भेदभाव करती है और डेटा को पूरी तरह से कक्षाओं में वर्गीकृत करने में सक्षम है ( देखें )।pkmin(k1,p)

दोहराने के लिए, यह वास्तव में इसकी प्रकृति में सीसीए है। 3 + कक्षाओं के साथ LDA को "कैनोनिकल एलडीए" भी कहा जाता है। इसके बावजूद कि CCA और LDA आम तौर पर एल्गोरिदम को कुछ हद तक अलग तरह से लागू किया जाता है, कार्यक्रम की दक्षता के मद्देनजर, वे "एक ही" पर्याप्त हैं ताकि दूसरे में प्राप्त किए गए एक प्रक्रिया में प्राप्त परिणामों (गुणांक आदि) को पुनर्गणना करना संभव हो। एलडीए की अधिकांश विशिष्टता समूहों का प्रतिनिधित्व करने वाले श्रेणीगत चर को कोड करने के क्षेत्र में है। यह वही दुविधा है जो (एम) एनोवा में देखी गई है। विभिन्न कोडिंग योजनाएं गुणांक की व्याख्या के विभिन्न तरीकों की ओर ले जाती हैं।

चूंकि LDA (आयामी कमी) को CCA के एक विशेष मामले के रूप में समझा जा सकता है, आपको निश्चित रूप से PCA और प्रतिगमन के साथ CCA की तुलना करते हुए इस उत्तर का पता लगाना होगा । वहाँ मुख्य बिंदु यह है कि सीसीए एक अर्थ में, पीसीए की तुलना में प्रतिगमन के करीब है क्योंकि सीसीए एक पर्यवेक्षित तकनीक है (एक अव्यक्त रैखिक संयोजन को किसी बाहरी चीज़ के साथ सहसंबंधित करने के लिए तैयार किया गया है) और पीसीए नहीं है (एक अव्यक्त रैखिक संयोजन खींचा गया है आंतरिक संक्षेप में)। ये आयामीता में कमी की दो शाखाएँ हैं।

जब गणित की बात आती है, तो आप यह जान सकते हैं कि प्रिंसिपल कंपोनेंट्स के वेरिएंट्स डेटा क्लाउड (वेरिएबल्स के बीच कोविरियस मैट्रिक्स) के आईजेनवेल्यूज से मेल खाते हैं, जबकि डिसिप्लिन के वेरिएंट्स उन ईजनवेल्स से स्पष्ट रूप से संबंधित नहीं होते हैं जो इसमें उत्पन्न होते हैं। झील प्राधिकरण। कारण यह है कि एलडीए में, eigenvalues ​​डेटा क्लाउड के आकार का सारांश नहीं देते हैं; इसके बजाय, वे बादल में भीतर-वर्ग भिन्नता के बीच के वर्ग के अनुपात की अमूर्त मात्रा से संबंधित हैं ।

तो, प्रमुख घटक विचरण को अधिकतम करते हैं और विभेदक वर्ग अलगाव को अधिकतम करते हैं; एक साधारण मामला जहां एक पीसी अच्छी तरह से कक्षाओं के बीच भेदभाव करने में विफल रहता है, लेकिन एक भेदभाव ये तस्वीरें हैं। जब मूल विशेषता अंतरिक्ष में रेखाओं के रूप में तैयार की जाती है तो विभेदक आमतौर पर ऑर्थोगोनल (असंबद्ध, फिर भी) नहीं दिखाई देते हैं, लेकिन पीसी करते हैं।


सावधानी के लिए फुटनोटकैसे, उनके परिणामों में, एलडीए बिल्कुल सीसीए से संबंधित है । दोहराने के लिए: यदि आप pवेरिएबल्स और kकक्षाओं के साथ LDA करते हैं और आप C1 को उन pवेरिएबल्स और Set2 के रूप में k-1संकेतक डमी वैरिएबल के रूप में समूह का प्रतिनिधित्व करते हैं (वास्तव में, जरूरी नहीं कि संकेतक वैरिएबल - अन्य प्रकार के कंट्रास्ट वैरिएबल, जैसे विचलन या हेल्मर्ट -) ), फिर परिणाम सेट 1 के लिए निकाले गए विहित चर के संबंध में बराबर हैं - वे सीधे एलडीए में निकाले गए भेदभावपूर्ण कार्यों के अनुरूप हैं। हालांकि, सटीक संबंध क्या है?

एलडीए की बीजगणित और शब्दावली यहां बताई गई है और सीसीए की बीजगणित और शब्दावली यहां बताई गई है । कैनोनिकल सहसंबंध समान होंगे। लेकिन गुणांक और "अक्षांश" के मूल्यों (स्कोर) के बारे में क्या? एक वें विवेचक और संवाददाता ( वें) विहित वैरिएबल पर विचार करें। उनके लिए,jj

सीसीए मानकीकृत गुणांकLDA कच्चे गुणांक=CCA विहित वैरिएबल मानएलडीए भेदभावपूर्ण मूल्य=वेरिएंट में क्लास वेरिएंट के भीतर जमा भेदभाव में वर्ग विचरण के भीतर जमा

"वर्ग विचरण के भीतर एकत्रित" समूह के वज़न के साथ n-1समूह में भार = के भारित औसत है । विवेचक में, यह मात्रा (एलडीए बीजगणित लिंक में पढ़ें), और इसलिए एलडीए परिणामों से सीसीए परिणामों पर स्विच करने के लिए आनुपातिकता का गुणांक बस । लेकिन क्योंकि पूरे नमूने में विहित चर का मानकीकरण किया गया है, यह गुणांक बराबर है (जो समूहों के भीतर मानकीकृत है)। इसलिए, CCA के परिणाम प्राप्त करने के लिए, विभेदक के द्वारा LDA के परिणामों (गुणांक और स्कोर) को विभाजित करें ।1

वेरिएंट में क्लास वेरिएंट के भीतर जमा
सेंट। विवेचक का विचलनσ

सीसीए और एलडीए के बीच का अंतर उस एलडीए के कारण है "जानता है" कि कक्षाएं (समूह) हैं: आप सीधे समूहों को तितर-बितर करने वाले मैट्रिसेस के भीतर और भीतर की गणना करने का संकेत देते हैं। इससे यह दोनों गणनाएं तेज हो जाती हैं और भेदभावियों द्वारा बाद के वर्गीकरण के लिए अधिक सुविधाजनक हो जाता है। दूसरी ओर, सीसीए, कक्षाओं के बारे में नहीं जानता है और डेटा को संसाधित करता है जैसे कि वे सभी निरंतर चर थे - जो कि अधिक सामान्य है लेकिन गणना का एक धीमा तरीका है। लेकिन परिणाम बराबर हैं, और मैंने दिखाया है कि कैसे।

अब तक यह निहित था कि k-1डमी को CCA में विशिष्ट तरीके से दर्ज किया जाता है, अर्थात केंद्रित (Set1 के चर की तरह)। एक पूछ सकता है, क्या सभी kडमी में प्रवेश करना संभव है और उन्हें (विलक्षणता से बचने के लिए) केंद्र नहीं करना है ? हां, यह संभव है, यद्यपि संभवतः कम सुविधाजनक है। शून्य-स्वदेशी अतिरिक्त विहित वैरिएबल दिखाई देगा, इसके लिए गुणांक को फेंक दिया जाना चाहिए। अन्य परिणाम मान्य रहे। सिवाय df s के अलावा विहित correlations के महत्व का परीक्षण करने के लिए। 1 सहसंबंध के लिए डीएफ वह होगा p*kजो गलत है और सही डीएफ है, जैसा कि एलडीए में है p*(k-1)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.