एलडीए निर्णय सीमा की गणना और ग्राफ


19

मैंने एक एलडीए (रैखिक विभेदक विश्लेषण) प्लॉट को सांख्यिकीय सीखने के तत्वों से निर्णय सीमाओं के साथ देखा :यहाँ छवि विवरण दर्ज करें

मैं समझता हूं कि डेटा कम-आयामी उप-स्थान पर अनुमानित हैं। हालाँकि, मैं जानना चाहता हूं कि हमें मूल आयाम में निर्णय सीमाएं कैसे मिलती हैं, जैसे कि मैं निर्णय सीमाओं को कम-आयामी उप-स्थान (ऊपर की छवि में काली रेखाएं पसंद करता है) को प्रोजेक्ट कर सकता हूं।

क्या कोई सूत्र है जिसका उपयोग मैं मूल (उच्च) आयाम में निर्णय सीमाओं की गणना करने के लिए कर सकता हूं? यदि हाँ, तो इस फार्मूले की क्या आवश्यकता है?


3
निर्णय की सीमाओं के बजाय, आप शायद वर्ग सदस्यता की पिछली संभावनाओं पर विचार करने में अधिक उपयोगिता पाएंगे। यह बहुपद (बहुपद) लॉजिस्टिक प्रतिगमन का उपयोग करते हुए कम मान्यताओं के साथ किया जा सकता है, लेकिन एलडीए (पीछे की संभावनाओं) के साथ भी किया जा सकता है।
फ्रैंक हरेल

2
एलडीए के भीतर, उन वर्गीकरण सीमाओं का गठन होता है जिन्हें क्षेत्रीय मानचित्र कहा जाता है । मैं एसपीएसएस के साथ काम करता हूं, और यह इसे प्लॉट करता है , हालांकि पाठ प्रारूप में। एक एसपीएसएस डिजाइनर के अनुसार , सीमाएं व्यावहारिक दृष्टिकोण से आसानी से पाई जाती हैं:
ttnphns

3
(cont।) एक बढ़िया ग्रिड का प्रत्येक बिंदु LDA- वर्गीकृत है, और फिर यदि एक बिंदु को उसके पड़ोसियों के रूप में वर्गीकृत किया गया है, तो वह बिंदु नहीं दिखाया गया है। इस प्रकार केवल "अस्पष्टता के बैंड" के रूप में सीमाएं अंत में छोड़ दी जाती हैं। प्रशस्ति पत्र: they (bondaries) are never computed. The plot is drawn by classifying every character cell in it, then blanking out all those surrounded by cells classified into the same category
ttnphns

जवाबों:


22

हस्ती एट अल में यह विशेष रूप से आंकड़ा। वर्ग सीमाओं के कंप्यूटिंग समीकरणों के बिना उत्पादन किया गया था। इसके बजाय, टिप्पणियों में @ttnphns द्वारा उल्लिखित एल्गोरिथ्म का उपयोग किया गया था, फुटनोट 2 को खंड 4.3, पृष्ठ 110 में देखें:

इस आंकड़े और किताब में इसी तरह के कई आंकड़ों के लिए हम एक संपूर्ण समोच्च विधि द्वारा निर्णय सीमाओं की गणना करते हैं। हम निर्णय नियम को बिंदुओं के एक ठीक जाली पर गणना करते हैं, और फिर सीमाओं की गणना करने के लिए समोच्च एल्गोरिदम का उपयोग करते हैं।

हालांकि, मैं एलडीए वर्ग सीमाओं के समीकरणों को प्राप्त करने का वर्णन करने के साथ आगे बढ़ूंगा।

आइए हम एक सरल 2 डी उदाहरण के साथ शुरू करते हैं। यहाँ आइरिस डेटासेट से डेटा है ; मैं पंखुड़ी माप को त्यागता हूं और केवल सीपल की लंबाई और सीपल की चौड़ाई पर विचार करता हूं। तीन वर्गों को लाल, हरे और नीले रंगों से चिह्नित किया गया है:

आइरिस डाटासेट

आइए हम वर्ग के अर्थों (सेंट्रोइड्स) को । एलडीए मानता है कि सभी वर्गों के भीतर एक ही वर्ग सहसंयोजक है; डेटा दिया गया है, इस साझा सहसंयोजक मैट्रिक्स का अनुमान है (स्केलिंग तक) के रूप में , जहां योग सभी डेटा बिंदुओं पर है और संबंधित बिंदु का केंद्रक प्रत्येक बिंदु से घटाया जाता है।μ1,μ2,μ3W=i(xiμk)(xiμk)

प्रत्येक जोड़ी वर्गों के लिए (जैसे कक्षा और ) उनके बीच एक वर्ग सीमा होती है। यह स्पष्ट है कि सीमा को दो वर्ग सेंट्रोइड्स के बीच मध्य-बिंदु से होकर गुजरना पड़ता है । केंद्रीय LDA परिणामों में से एक यह है कि यह सीमा एक सीधी रेखा ऑर्थोगोनल to । इस परिणाम को प्राप्त करने के कई तरीके हैं, और भले ही यह सवाल का हिस्सा नहीं था, मैं नीचे दिए गए परिशिष्ट में उनमें से तीन पर संक्षेप में संकेत दूंगा।12(μ1+μ2)/2W1(μ1μ2)

ध्यान दें कि जो ऊपर लिखा गया है वह पहले से ही सीमा का एक सटीक विनिर्देश है। यदि कोई मानक रूप में एक पंक्ति समीकरण रखना चाहता है , तो गुणांक और गणना की जा सकती है और कुछ गन्दे सूत्रों द्वारा दी जाएगी। मैं शायद ही ऐसी स्थिति की कल्पना कर सकता हूं जब इसकी जरूरत होगी।y=ax+bab

आइए अब आइरिस उदाहरण के लिए इस सूत्र को लागू करते हैं। वर्गों में से प्रत्येक जोड़ी के लिए मैं एक मध्य बिंदु खोजने के लिए और एक लाइन सीधा करने के लिए साजिश :W1(μiμj)

Iris डेटासेट, निर्णय सीमाओं का LDA

तीन बिंदु एक बिंदु में प्रतिच्छेद करते हैं, जैसा कि अपेक्षित होना चाहिए था। चौराहे बिंदु से शुरू होने वाली किरणों द्वारा निर्णय सीमाएँ दी जाती हैं:

Iris डेटासेट का LDA, अंतिम निर्णय सीमा

ध्यान दें कि यदि वर्गों की संख्या , तो जोड़े वर्ग और इतनी सारी पंक्तियाँ होंगी, जो एक उलझी हुई गंदगी में सभी को दर्शाती हैं। हस्ती एट अल से एक की तरह एक अच्छी तस्वीर खींचने के लिए, किसी को केवल आवश्यक सेगमेंट रखने की जरूरत है, और यह अपने आप में एक अलग एल्गोरिथम समस्या है (एलडीए से संबंधित नहीं है, क्योंकि किसी को भी इसे करने की आवश्यकता नहीं है। वर्गीकरण, एक बिंदु को वर्गीकृत करने के लिए, या तो प्रत्येक कक्षा के लिए महालनोबिस दूरी की जांच करें और सबसे कम दूरी वाले को चुनें, या एक श्रृंखला या जोड़ीदार एलडीए का उपयोग करें)।K2K(K1)/2

में आयाम सूत्र रहता है ठीक उसी : सीमा है ओर्थोगोनल को और के माध्यम से गुजरता । हालांकि, उच्च आयामों में यह अब एक पंक्ति नहीं है, लेकिन आयामों का एक हाइपरप्लेन है । उदाहरण के प्रयोजनों के लिए, कोई पहले उपयोगकर्ता को पहले दो विभेदक कुल्हाड़ियों को प्रोजेक्ट कर सकता है, और इस तरह 2 डी मामले में समस्या को कम कर सकता है (मुझे विश्वास है कि हस्ती एट अल। उस आंकड़े का उत्पादन करने के लिए किया गया था)।D>2W1(μ1μ2)(μ1+μ2)/2D1

अनुबंध

यह कैसे देखें कि सीमा एक सीधी रेखा ओर्थोगोनल टू ? इस परिणाम को प्राप्त करने के कई संभावित तरीके यहां दिए गए हैं:W1(μ1μ2)

  1. फैंसी तरीका: प्लेन पर महालनोबिस मेट्रिक प्रेरित करता है; सीमा को इस मीट्रिक, QED में से ऑर्थोगोनल होना चाहिए ।W1μ1μ2

  2. मानक गॉसियन तरीका: यदि दोनों वर्गों को गॉसियन डिस्ट्रीब्यूशन द्वारा वर्णित किया जाता है, तो लॉग-संभावना यह है कि एक बिंदु वर्ग से संबंधित है । सीमा पर कक्षा और से संबंधित होने की संभावना बराबर है; इसे लिखें, सरल करें, और आप तुरंत , पर QED।xk(xμk)W1(xμk)12xW1(μ1μ2)=const

  3. Laboursome लेकिन सहज तरीका है। कल्पना करें कि एक पहचान मैट्रिक्स है, अर्थात सभी वर्ग गोलाकार हैं। तब समाधान स्पष्ट होता है: सीमा केवल orthogonal to । यदि कक्षाएं गोलाकार नहीं हैं, तो कोई उन्हें गोलाकार करके ऐसा बना सकता है। यदि का अपघटन , तो मैट्रिक्स चाल करेगा (उदाहरण के लिए यहां देखें )। इसलिए को लागू करने के बाद , सीमा orthogonal to । यदि हम इस सीमा को लेते हैं, तो इसे वापस रूपांतरित करेंμ 1 - μ 2 डब्ल्यू डब्ल्यू = यू डी यूएस = डी - 1 / 2 यूएस एस ( μ 1 - μ 2 ) एस - 1 एसएस ( μ 1 - μ 2 ) एसWμ1μ2WW=UDUS=D1/2USS(μ1μ2)S1 और पूछें कि यह अब क्या orthogonal है, जवाब (एक अभ्यास के रूप में छोड़ दिया गया है): to । लिए अभिव्यक्ति में , हमें QED मिलता है।SS(μ1μ2)S


मैं आपके उत्तर का अध्ययन नहीं कर रहा हूं। यह परिष्कृत लगता है और सही हो सकता है। व्यावहारिक और आसान "अंक छिड़कें, वर्गीकृत करें, फिर सीमाओं को कम करें" दृष्टिकोण के बारे में क्या है जो मैंने एक टिप्पणी में उल्लिखित किया है? क्या आपका दृष्टिकोण इसके परिणामों के साथ तुलनीय है (जो स्पष्ट रूप से सही हैं)? तुम क्या सोचते हो?
ttnphns

1
@ttnphns: मेरे उत्तर का केवल तकनीकी हिस्सा (3 आइटम के साथ एक क्रमांकित सूची) कुछ सबूत प्रदान कर रहा है और सुरक्षित रूप से छोड़ दिया जा सकता है। बाकी, मेरा मानना ​​है कि विशेष रूप से परिष्कृत नहीं है! शायद मुझे उस "अतिरिक्त" भाग को परिशिष्ट के रूप में नीचे ले जाना चाहिए? आपकी टिप्पणियों के बारे में: मुझे लगता है कि यह एक मान्य दृष्टिकोण है, और मुझे SPSS "प्रादेशिक मानचित्र" का ASCII लुक पसंद है। हो सकता है कि आप अपनी टिप्पणियों को एक अलग उत्तर में स्थानांतरित कर सकते हैं (और वहां एसपीएसएस मानचित्र का एक अनुकरणीय चित्र दें), मुझे लगता है कि यह भविष्य के संदर्भों के लिए उपयोगी होगा। परिणाम निश्चित रूप से समकक्ष होना चाहिए।
अमीबा का कहना है कि मोनिका

@ttnphns: यह पता चला है कि हस्ती एट अल। ओपी में पुनरुत्पादित सहित उनके आंकड़ों की साजिश करने के लिए आपके द्वारा वर्णित विधि का बिल्कुल उपयोग किया गया है। मुझे एक फुटनोट यह कहते हुए मिला (और शुरुआत में इसे उद्धृत करते हुए मेरे उत्तर को अपडेट किया)।
अमीबा का कहना है कि मोनिका

Waouh! उत्कृष्ट उत्तर (3 साल बाद!) मैं पूछ सकता हूं कि आपको इस विशेष समस्या में सेगमेंट कैसे आकर्षित करना है?
जेवियर बोरेट सिस्कोट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.