एलडीए बनाम परसेप्ट्रॉन


9

मैं यह जानने की कोशिश कर रहा हूं कि एलडीए अन्य पर्यवेक्षित शिक्षण तकनीकों के भीतर कैसे फिट बैठता है। एलडीए के बारे में मैंने यहां पहले ही एलडीए-एस्के के कुछ पोस्ट पढ़े हैं। मैं पहले से ही अवधारणात्मक से परिचित हूं, लेकिन अभी एलडीए सीख रहा हूं।

एलडीए पर्यवेक्षित शिक्षण एल्गोरिदम के परिवार में कैसे 'फिट' होता है? उन अन्य तरीकों से इसकी कमियां क्या हो सकती हैं, और इसके लिए इसका बेहतर इस्तेमाल क्या हो सकता है? एलडीए का उपयोग क्यों करें, जब कोई सिर्फ उदाहरण के लिए, अवधारणात्मक का उपयोग कर सकता है?


1
मुझे लगता है कि आप इस बात को लेकर भ्रमित हो सकते हैं कि सीखने की निगरानी क्या है। K- साधन एक अप्रशिक्षित सीखने क्लस्टरिंग एल्गोरिथ्म है। परसेप्ट्रॉन एक पर्यवेक्षित शिक्षण वर्गीकरण एल्गोरिथ्म है जो एक हाइपरप्लेन को खोजने का प्रयास करता है जो नकारात्मक को सकारात्मक टिप्पणियों से अलग करता है। LDA एक ऐसी विधि है जिसका उपयोग पर्यवेक्षित वर्गीकरण के लिए किया जा सकता है लेकिन आमतौर पर पर्यवेक्षित सुविधा के चयन के लिए इसका उपयोग किया जाता है। एलडीए क्लासिफायर की मान्यताओं के लिए @ एडमो का जवाब देखें।
बिटविंड जूल

@ बिट्स ऊप्स! मुझे नहीं पता कि मैंने के-साधन वहां क्यों डाला। जी हाँ, यह एक अनकवर्ड एल्गोरिथ्म है। मैं इसे एक संपादन में निकाल दूंगा।
क्रिएट्रन

@Bitwise एलडीए और परसेप्ट्रोन के बारे में आपने जो कहा है, उसके बारे में, हां, यह वही है जो मुझे भ्रमित कर रहा है। एलडीए अपने डेटा को प्रोजेक्ट करने के लिए एक हाइपरप्लेन खोजने की कोशिश करता है, जैसे कि यह इंट्रा-क्लस्टर विचरण को कम करते हुए इंटरक्स्टर वेरिएंट को अधिकतम करता है। फिर सीमा पर, आपके पास एक क्लासिफायरियर है। परसेप्ट्रॉन कुछ ऐसा ही करता है, जिसमें वह लेबल किए गए डेटा को डिसाइड करने के लिए एक इष्टतम हाइपरप्लेन खोजने की भी कोशिश करता है। तो क्यों एक दूसरे का उपयोग करें?
क्रिएट्रन

जवाबों:


15

जैसा कि एडमो उपरोक्त टिप्पणी में सुझाव देते हैं, आप वास्तव में सांख्यिकीय शिक्षण के तत्वों के अध्याय 4 को पढ़ने से बेहतर नहीं कर सकते हैं (जिसे मैं एचटीएफ कहूंगा ) जो एलडीए की तुलना अन्य रैखिक वर्गीकरण विधियों के साथ करता है, कई उदाहरण देता है, और उपयोग की चर्चा भी करता है। पीसीए की नस में एलडीए एक आयाम-घटाने की तकनीक के रूप में, जैसा कि ttnphns बताते हैं, बल्कि लोकप्रिय है।

वर्गीकरण के दृष्टिकोण से, मुझे लगता है कि महत्वपूर्ण अंतर यह है। कल्पना करें कि आपके पास दो कक्षाएं हैं और आप उन्हें अलग करना चाहते हैं। प्रत्येक वर्ग में एक संभाव्यता घनत्व कार्य होता है। सबसे अच्छा संभव स्थिति होगी यदि आप इन घनत्व कार्यों को जानते थे, क्योंकि तब आप यह अनुमान लगा सकते हैं कि उस बिंदु पर वर्ग-विशिष्ट घनत्वों का मूल्यांकन करके कौन सा वर्ग होगा।

कुछ प्रकार के क्लासिफायर कक्षाओं के घनत्व कार्यों के लिए एक अनुमान लगाकर संचालित होते हैं। एलडीए इनमें से एक है; यह धारणा बनाता है कि घनत्व एक ही सहसंयोजक मैट्रिक्स के साथ बहुभिन्नरूपी सामान्य हैं। यह एक मजबूत धारणा है, लेकिन अगर यह लगभग सही है, तो आपको एक अच्छा वर्गीकरण मिल जाता है। कई अन्य क्लासिफायर भी इस तरह का दृष्टिकोण अपनाते हैं, लेकिन सामान्यता संभालने की तुलना में अधिक लचीले होने की कोशिश करते हैं। उदाहरण के लिए, HTF का पृष्ठ 108 देखें।

दूसरी ओर, पृष्ठ 210 पर, HTF ने चेतावनी दी है:

यदि वर्गीकरण अंतिम लक्ष्य है, तो अलग-अलग वर्ग की घनत्वों को अच्छी तरह से सीखना अनावश्यक हो सकता है, और वास्तव में भ्रामक हो सकता है।

एक और दृष्टिकोण बस दो वर्गों के बीच एक सीमा की तलाश है, जो कि अवधारणात्मक करता है। इसका अधिक परिष्कृत संस्करण सपोर्ट वेक्टर मशीन है। इन विधियों को कर्नेलाइजेशन नामक तकनीक का उपयोग करके डेटा में सुविधाओं को जोड़ने के साथ भी जोड़ा जा सकता है। यह एलडीए के साथ काम नहीं करता है क्योंकि यह सामान्यता को संरक्षित नहीं करता है, लेकिन यह एक वर्गीकरण के लिए कोई समस्या नहीं है जो सिर्फ एक अलग हाइपरप्लेन की तलाश कर रहा है।

एलडीए और एक क्लासिफायरियर के बीच का अंतर जो एक अलग हाइपरप्लेन की तलाश करता है, वह एक टी-टेस्ट और सामान्य आंकड़ों में कुछ गैरपरंपरागत विकल्प के बीच का अंतर है। उत्तरार्द्ध अधिक मजबूत है (उदाहरण के लिए, आउटलेर्स के लिए), लेकिन पूर्व इष्टतम है यदि इसकी धारणाएं संतुष्ट हैं।

एक और टिप्पणी: यह ध्यान देने योग्य हो सकता है कि कुछ लोगों के पास LDA या लॉजिस्टिक रिग्रेशन जैसे तरीकों का उपयोग करने के लिए सांस्कृतिक कारण हो सकते हैं, जो एनोवा तालिकाओं, परिकल्पना परीक्षणों और इस तरह की चीजों को आश्वस्त करने के लिए बाध्य कर सकते हैं। LDA का आविष्कार फिशर द्वारा किया गया था; परसेप्ट्रॉन मूल रूप से एक मानव या पशु न्यूरॉन के लिए एक मॉडल था और उसका आँकड़ों से कोई संबंध नहीं था। यह दूसरे तरीके से भी काम करता है; कुछ लोग सहायक वेक्टर मशीनों की तरह तरीकों को पसंद कर सकते हैं क्योंकि उनके पास अत्याधुनिक हिपस्टर-क्रेड हैं जो बीसवीं शताब्दी के तरीकों से मेल नहीं खा सकते हैं। इसका मतलब यह नहीं है कि वे बेहतर हैं। (इसका एक अच्छा उदाहरण मशीन लर्निंग में हैकर्स के लिए चर्चा की जाती है , अगर मुझे सही याद है।)


"कुछ लोग सहायक वेक्टर मशीनों की तरह तरीकों को पसंद कर सकते हैं क्योंकि उनके पास अत्याधुनिक हिपस्टर-क्रेड की तरह है जो बीसवीं शताब्दी के तरीकों से मेल नहीं खा सकते हैं।" जबरदस्त हंसी! सच है। Btw आप चीजों को बहुत स्पष्ट और सटीक तरीके से समझाने के लिए एक शूरवीर हैं। धन्यवाद! मुझे एक 'मानचित्र' की आवश्यकता थी कि चीजें एक साथ कैसे फिट होती हैं और आपने इसे प्रदान किया है।
क्रिएट्रॉन

2

अंतर्ज्ञान के लिए, इस मामले पर विचार करें:

यहाँ छवि विवरण दर्ज करें

लाइन दो वर्गों ओ और एक्स के बीच "इष्टतम सीमा" का प्रतिनिधित्व करती है।

एलडीए एक हाइपरप्लेन खोजने की कोशिश करता है जो इंटरक्लस्टर वेरिएंट को कम करता है और इंट्राक्लस्टर वेरिएंट को अधिकतम करता है, और फिर सीमा को उस हाइपरप्लेन पर ऑर्थोगोनल होने के लिए ले जाता है। यहाँ, यह शायद काम नहीं करेगा क्योंकि गुच्छों का एक ही दिशा में बड़ा विचरण होता है।

दूसरी ओर, एक परसेप्ट्रॉन, एक अच्छा पृथक्करण हाइपरप्लेन खोजने का एक बेहतर मौका हो सकता है।

गॉसियन डिस्ट्रीब्यूशन वाले वर्गों के मामले में, हालांकि, एलडीए शायद बेहतर करेगा, क्योंकि परसेप्ट्रोन केवल एक अलग हाइपरप्लेन का पता लगाता है जो डेटा के अनुरूप होता है, बिना इस बात की गारंटी दिए कि कौन सा हाइपरप्लेन इसे चुनता है (एक अनंत संख्या हो सकती है) लगातार हाइपरप्लेन के)। हालांकि, परसेप्ट्रॉन के अधिक परिष्कृत संस्करण कुछ इष्टतम गुणों के साथ एक हाइपरप्लेन चुन सकते हैं, जैसे कि कक्षाओं के बीच मार्जिन को अधिकतम करना (यह अनिवार्य रूप से सपोर्ट वेक्टर मशीनें करते हैं)।

यह भी ध्यान दें कि एलडीए और परसेप्ट्रोन दोनों को कर्नेल ट्रिक के माध्यम से गैर-रैखिक निर्णय सीमाओं तक बढ़ाया जा सकता है ।


1

एलडीए और अन्य तरीकों में से एक सबसे बड़ा अंतर यह है कि यह डेटा के लिए सिर्फ एक मशीन सीखने की तकनीक है जिसे सामान्य रूप से वितरित किया जाता है। लापता डेटा या ट्रंकेशन के मामले में यह बहुत अच्छा हो सकता है जहाँ आप बहुत ही अजीब और / या दिलचस्प परिस्थितियों में संभावना को अधिकतम करने के लिए EM एल्गोरिथ्म का उपयोग कर सकते हैं। चेतावनी एम्प्टर क्योंकि इस तरह बहुविध डेटा के रूप में मॉडल misspecifications, गरीब प्रदर्शन भविष्यवाणियों जहां कश्मीर साधन क्लस्टरिंग बेहतर किया होता हो सकती है। एलडीए के साथ मल्टीमॉडल डेटा का भी हिसाब लगाया जा सकता है।

उदाहरण के लिए, मान लीजिए कि आप सीडी 4 काउंट के आधार पर 5 वर्षों में एड्स के सकारात्मक निदान को विकसित करने की संभावना को माप रहे हैं। आगे मान लीजिए कि आप एक विशिष्ट बायोमार्कर के मूल्य को नहीं जानते हैं जो सीडी 4 काउंट्स को बहुत प्रभावित करता है और आगे इम्यूनोडेप्रेशर के साथ जुड़ा हुआ है। 400 से कम सीडी 4 काउंट सबसे सस्ती assays पर पहचान की निचली सीमा से नीचे हैं। ईएम एल्गोरिथ्म हमें एलडीए और बायोमार्कर असाइनमेंट की गणना करने के लिए अनुमति देता है और असत्य डीएफ के लिए सीडी 4 के लिए साधन और सहसंयोजक।


धन्यवाद एडम, हालांकि मैं खुद को अब और अधिक उलझन में पाता हूं। :-) एलडीए कैसे बेहतर / बदतर है, जो कहता है कि, परसेप्ट्रॉन, या अन्य पर्यवेक्षित शिक्षण तकनीक? ईएम एल्गो के बारे में, आप यह कहने के दायरे में इसका उपयोग कर रहे हैं कि आप एलडीए के लिए एलडीए का उपयोग करके हल कर सकते हैं , सही है?
क्रिएट्रन

1
@ अदमो, मैं स्पष्टता के साथ जोड़ना चाहूंगा कि एलडीए डेटा कमी तकनीक के रूप में सामान्यता पर भरोसा नहीं करता है, जैसे पीसीए नहीं करता है। एलडीए के भीतर सामान्यता 1) सांख्यिकीय परीक्षण (बॉक्स का एम परीक्षण आदि), 2) वर्गीकरण के लिए एक धारणा है।
ttnphns

@ttnphns को सामान्यता मानने का मतलब है कि एलडीए एक एमएल तकनीक है। एमएल अच्छी बात है। विशिष्ट उदाहरणों में मैंने उल्लेख किया कि कठिन समस्याओं को हल करने के लिए एमएल का उपयोग करें। वे समाधान केवल परिष्कृत सिमुलेशन और / या BUGS के साथ ही संभव होंगे।
एडम जूल 22'13

@ TheGrapeBeyond LDA महाल की दूरी के दो समूहों को अधिकतम करता है। एसएलपी (सिंगल लेयर परसेप्ट्रान, या एननेट) फीचर स्पेस में हाइपरप्लेन को खींचता है जो अधिकतम वर्गीकरण सटीकता बनाता है ... मुझे लगता है। एक अच्छी शुरुआत वाली जगह टिब / हस्ती किताब पढ़ रही है। मुझे स्वयं उस पर ब्रश करने की आवश्यकता हो सकती है।
एडम जूल 22'13
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.