रैखिक विभेदक विश्लेषण आयामों को कैसे कम करता है?


18

पेज 91 पर "द एलीमेंट ऑफ स्टैटिस्टिकल लर्निंग" के शब्द हैं:

पी-आयामी इनपुट स्पेस स्पैन में K सेंट्रोइड्स सबसे K-1 डायमेंशनल सबस्पेस पर होता है, और यदि P K से बहुत बड़ा है, तो यह डायमेंशन में काफी गिरावट होगी।

मेरे दो सवाल हैं:

  1. P- आयामी इनपुट स्थान में K सेंट्रोइड्स सबसे K-1 आयामी उप-स्थान पर क्यों होता है?
  2. K सेंट्रोइड्स कैसे स्थित हैं?

पुस्तक में कोई व्याख्या नहीं है और मुझे संबंधित कागजात से उत्तर नहीं मिला।


3
centroids ज्यादा से ज्यादा एक में झूठ कश्मीर - 1 आयामी affine उपस्पेस। उदाहरण के लिए, दो बिंदु एक रेखा पर स्थित हैं, एक 2 - 1 आयामी उप-स्थान। यह सिर्फ एक प्राइन उप-क्षेत्र और कुछ प्राथमिक रैखिक बीजगणित की परिभाषा है। KK121
डेस्टिन

एक बहुत ही समान प्रश्न: आंकड़े.स्टैकएक्सचेंज . com / q / 169436 / 3277
ttnphns

जवाबों:


16

भेदभाव करने वाले कुल्हाड़ी और अव्यक्त चर हैं जो कक्षाओं को सबसे दृढ़ता से अलग करते हैं। संभावित विभेदकों की संख्या । उदाहरण के लिए, पी = 2 आयामी अंतरिक्ष में के = 3 वर्गों के साथ नीचे के ग्राफ पर जैसे कि 2 भेदभाव करने वाले अधिकांश मौजूद हो सकते हैं। (ध्यान दें कि मूल रूप से मूल स्थान में खींची गई कुल्हाड़ियों के रूप में भेदभाव करने वाले जरूरी नहीं हैं, हालांकि, वे, चर के रूप में, असंबंधित हैं।) वर्गों के केंद्रक उनके भेदभावों के अनुसार उनके सीधा निर्देशांक के अनुसार भेदभावपूर्ण उप-स्थान के भीतर स्थित हैं।min(k1,p)

यहाँ छवि विवरण दर्ज करें

निष्कर्षण चरण में एलडीए का बीजगणित यहां है


अच्छा ग्राफ, आपने इसे बनाने के लिए किस सॉफ्टवेयर / पैकेज का उपयोग किया?
मिशेल

SPSS। SPSS के लिए स्व-लिखित मैक्रो।
ttnphns

क्या इसका मतलब यह है कि आपको एलडीए में अच्छी क्लास सेपरेशन दिखाई नहीं देगी, जैसे ओवरलैप के साथ तीन क्लास, जब तक आप एक्सिस को रीस्केल नहीं करेंगे ?? मेरा मतलब है, मैं एक एलडीए चला रहा हूं, और मेरी कक्षाएं अलग हैं ... लेकिन वे पहले वाले को छोड़कर हर भेदभाव वाली धुरी में प्रत्येक शीर्ष पर सही हैं ... और यह एक बहुत बड़ा है।
डोनाल्ड

14

जबकि "द एलीमेंट ऑफ स्टैटिस्टिकल लर्निंग" एक शानदार किताब है, इसके लिए इसे प्राप्त करने के लिए अपेक्षाकृत उच्च स्तर के ज्ञान की आवश्यकता होती है। पुस्तक में विषयों को समझने में आपकी मदद करने के लिए वेब पर कई अन्य संसाधन हैं।

जहां आप K = 2 समूहों में दो आयामी डेटा बिंदुओं के एक समूह को समूह में रखना चाहते हैं, वहां रैखिक विभेदक विश्लेषण का एक बहुत सरल उदाहरण देता है। आयामों में गिरावट केवल K-1 = 2-1 = 1 होगी। जैसा कि @deinst ने बताया, आयामों में गिरावट को प्राथमिक ज्यामिति के साथ समझाया जा सकता है।

किसी भी आयाम में दो बिंदु एक रेखा से जुड़ सकते हैं और एक रेखा एक आयामी होती है। यह K-1 = 2-1 = 1 आयामी उप-स्थान का एक उदाहरण है।

अब, इस सरल उदाहरण में, डेटा बिंदुओं के सेट को दो-आयामी स्थान में बिखेर दिया जाएगा। अंक (x, y) द्वारा दर्शाए जाएंगे, इसलिए उदाहरण के लिए आपके पास (1,2), (2,1), (9,10), (13,13) जैसे डेटा बिंदु हो सकते हैं। अब, दो समूहों ए और बी बनाने के लिए रैखिक विवेकाधीन विश्लेषण का उपयोग करके डेटा बिंदुओं को समूह ए या समूह बी से संबंधित के रूप में वर्गीकृत किया जाएगा, ताकि कुछ गुण संतुष्ट हों। रैखिक विभेदक विश्लेषण समूहों के बीच विचरण की तुलना में समूहों के बीच भिन्नता को अधिकतम करने का प्रयास करता है।

दूसरे शब्दों में, ए और बी समूह अलग-अलग होंगे और उन डेटा बिंदुओं को समाहित करेंगे जो एक साथ करीब हैं। इस सरल उदाहरण में, यह स्पष्ट है कि अंक निम्नानुसार समूहीकृत किए जाएंगे। ग्रुप ए = {(1,2), (2,1)} और ग्रुप बी = {(9,10), (13,13)}।

अब, केन्द्रक की गणना डेटा बिंदुओं के समूहों के केन्द्रक के रूप में की जाती है

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

सेंट्रोइड्स केवल 2 अंक हैं और वे 1-आयामी रेखा को जोड़ते हैं जो उन्हें एक साथ जोड़ती है।

आकृति 1

आप लाइन पर डेटा बिंदुओं के प्रक्षेपण के रूप में रैखिक विवेचक विश्लेषण के बारे में सोच सकते हैं ताकि डेटा बिंदुओं के दो समूह "जितना संभव हो उतना अलग हो"

यदि आपके पास तीन समूह थे (और तीन आयामी डेटा बिंदु कहते हैं) तो आपको तीन सेंट्रोइड मिलेंगे, बस तीन अंक, और 3 डी अंतरिक्ष में तीन बिंदु एक दो आयामी विमान को परिभाषित करेंगे। फिर से नियम K-1 = 3-1 = 2 आयाम।

मेरा सुझाव है कि आप उन संसाधनों के लिए वेब खोजें जो मुझे दिए गए सरल परिचय पर समझाने और विस्तार करने में मदद करेंगे; उदाहरण के लिए http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf


1
हमारी साइट पर आपका स्वागत है, मार्टिनो!
whuber

धन्यवाद @whuber, अच्छा ग्राफ, मेरे पास ऐसे कोई भी उपकरण नहीं थे :(
martino

मुझे नहीं लगता था कि आपके पास किसी भी छवि को पोस्ट करने की प्रतिष्ठा थी, मार्टिनो: यही कारण है कि मैंने आपके लिए एक बनाया है। लेकिन अब - या जल्द ही - आपके पास पर्याप्त प्रतिनिधि होंगे। यदि कुछ भी आसान नहीं है, तो आप आर या जियोजेब्रा जैसी ज्यामितीय ड्राइंग क्षमताओं के साथ स्वतंत्र रूप से उपलब्ध सॉफ़्टवेयर का उपयोग कर सकते हैं । (आप कि मिलेगा सचित्र उत्तर अधिक ध्यान मिलता है: वे अधिक आकर्षक और पठनीय हैं।)
whuber

क्यों होता है पतन? यदि उत्तर के साथ कोई समस्या है, तो इसे इंगित करना उपयोगी होगा - मैं
मार्टिनो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.