इस मामले में सबसे कम वर्ग समाधान खराब परिणाम क्यों देता है?


21

बिशप द्वारा "पैटर्न रिकॉग्निशन एंड मशीन लर्निंग" के अध्याय 4 के पेज 4 में एक छवि है, जहां मुझे समझ नहीं आ रहा है कि क्यों यहाँ का लेस्टर वर्ग समाधान खराब परिणाम देता है:

यहाँ छवि विवरण दर्ज करें

पिछला पैराग्राफ इस तथ्य के बारे में था कि निम्न छवि में देखे जाने के कारण कम से कम वर्ग के समाधान में आउटलेर्स के लिए मजबूती की कमी होती है, लेकिन मुझे नहीं लगता कि दूसरी छवि में क्या चल रहा है और एलएस क्यों खराब परिणाम देता है।

यहाँ छवि विवरण दर्ज करें


ऐसा लगता है कि यह सेट के बीच भेदभाव पर एक अध्याय का हिस्सा है। आपके ग्राफ़ की पहली जोड़ी में, बाईं ओर का एक स्पष्ट रूप से तीन सेटों के बीच अच्छी तरह से अंतर नहीं करता है। क्या इससे आपके प्रश्न का उत्तर मिलता है? यदि नहीं, तो क्या आप इसे स्पष्ट कर सकते हैं?
पीटर Flom - को पुनः स्थापित मोनिका

@PeterFlom: एलएस समाधान पहले एक के लिए खराब परिणाम देता है, मैं इसका कारण जानना चाहता हूं। और हां, यह एलएस वर्गीकरण के बारे में अनुभाग का अंतिम पैराग्राफ है जहां पूरा अध्याय रैखिक भेदभावपूर्ण कार्यों के बारे में है।
गिगिली

जवाबों:


6

बिशप चित्रा 4.5 में आप जिस विशेष घटना को सबसे कम वर्गों के समाधान के साथ देखते हैं, वह एक घटना है जो केवल तब होती है जब कक्षाओं की संख्या ।3

में ईएसएल , पेज 105 पर चित्रा 4.2, घटना कहा जाता है मास्किंग । ईएसएल चित्रा 4.3 भी देखें। मिडल क्लास के लिए एक भविष्यवक्ता में कम से कम वर्गों के समाधान का परिणाम होता है जो ज्यादातर दो अन्य वर्गों के लिए भविष्यवक्ताओं द्वारा हावी होता है। LDA या लॉजिस्टिक रिग्रेशन इस समस्या से ग्रस्त नहीं है। कोई यह कह सकता है कि यह वर्ग संभावनाओं के रैखिक मॉडल की कठोर संरचना है (जो अनिवार्य रूप से आपको कम से कम वर्गों से मिलती है) जो मास्किंग का कारण बनता है।

एलडीए समाधान और दो वर्ग मामले में सबसे कम वर्गों के समाधान के संबंध में विवरण के लिए केवल दो वर्गों के साथ घटना घटित नहीं होती है ईएसएल, पृष्ठ 135 में व्यायाम 4.2 भी देखें।-

संपादित करें: दो-आयामी समस्या के लिए मास्किंग शायद सबसे आसानी से कल्पना की जाती है, लेकिन यह एक आयामी मामले में भी एक समस्या है, और यहां गणित को समझना विशेष रूप से सरल है। मान लीजिए कि एक आयामी इनपुट चर के रूप में आदेश दिया गया है

एक्स1<...<एक्सकश्मीर<y1<...yमीटर<z1<...<zn

कक्षा 1 से साथ , कक्षा 2 से है और कक्षा 3 से है। साथ में तीन आयामी द्विआधारी वैक्टर के रूप में कक्षाओं के लिए कोडिंग योजना के साथ हमारे पास निम्नानुसार डेटा व्यवस्थित है।एक्सyz

1...10...00...0टीटी0...01...10...00...00...01...1एक्सटीएक्स1...एक्सकश्मीरy1...yमीटरz1...zn

कम से कम चौकोर समाधान प्रत्येक कॉलम के तीन regressions के रूप में दिए गए हैं on । पहले कॉलम के लिए, -क्लास, ढलान नकारात्मक होगा (सभी ऊपर बाईं ओर हैं) और अंतिम कॉलम के लिए, -क्लास, ढलान सकारात्मक होगा। मध्य स्तंभ के लिए,टीएक्सएक्सzy-क्लास, रेखीय प्रतिगमन को मध्य वर्ग में दो बाहरी वर्गों के लिए शून्य को संतुलित करना होगा, जिसके परिणामस्वरूप एक समतल प्रतिगमन रेखा और इस वर्ग के लिए सशर्त वर्ग संभावनाओं की एक विशेष रूप से खराब फिट होगी। जैसा कि यह पता चला है, दो बाहरी वर्गों के लिए प्रतिगमन लाइनों का अधिकतम इनपुट चर के अधिकांश मूल्यों के लिए मध्यम वर्ग के लिए प्रतिगमन रेखा पर हावी है, और बाहरी वर्गों द्वारा मध्यम वर्ग का मुखौटा लगाया जाता है।

यहाँ छवि विवरण दर्ज करें

वास्तव में, यदि तो एक वर्ग हमेशा पूरी तरह से नकाबपोश होगा, चाहे इनपुट चर ऊपर दिए गए हों या नहीं। यदि कक्षा का आकार तीनों प्रतिगमन रेखाओं के बराबर है, तो सभी बिंदु से होकर गुजरती हैं जहां इसलिए, तीन रेखाएं एक ही बिंदु में सभी को काटती हैं और उनमें से अधिकतम दो तीसरे पर हावी होती हैं।कश्मीर=मीटर=n(एक्स¯,1/3)

एक्स¯=13कश्मीर(एक्स1+...+एक्सकश्मीर+y1+...+yमीटर+z1+...+zn)

2

नीचे दिए गए लिंक के आधार पर, एलएस विवेकाधीन ऊपरी बाएं ग्राफ में अच्छा प्रदर्शन नहीं कर पाने के कारण निम्नानुसार हैं: -
आउटलेर्स को मजबूती का अभाव।
- कुछ डेटासेट कम से कम वर्गों के वर्गीकरण के लिए अनुपयुक्त हैं।
- निर्णय सीमा गौसियन सशर्त वितरण के तहत एमएल समाधान से मेल खाती है। लेकिन बाइनरी लक्ष्य मानों का गौसियन से दूर एक वितरण है।

पृष्ठ 13 में देखें, वर्गों का नुकसान


1

मेरा मानना ​​है कि आपके पहले ग्राफ़ में समस्या को "मास्किंग" कहा जाता है, और यह "सांख्यिकीय तत्वों के तत्व: डेटा खनन, अनुमान और भविष्यवाणी" (हस्ती, टिब्शिरानी, ​​फ्रीडमैन। स्प्रिंगर 2001), पेज 83-84 में वर्णित है।

सहज रूप से (जो सबसे अच्छा मैं कर सकता हूं) मेरा मानना ​​है कि ऐसा इसलिए है क्योंकि एक ओएलएस प्रतिगमन की भविष्यवाणी [0,1] के लिए विवश नहीं है, इसलिए आप -0.33 की भविष्यवाणी के साथ समाप्त हो सकते हैं जब आप वास्तव में 0 से अधिक चाहते हैं। 1, जो आप दो वर्गों के मामले में चालाकी कर सकते हैं, लेकिन अधिक वर्ग आपके पास इस बेमेल समस्या का कारण होने की अधिक संभावना है। मुझे लगता है।


1

लेस्ट स्क्वायर स्केल के प्रति संवेदनशील है (क्योंकि नया डेटा अलग-अलग पैमाने का है, यह निर्णय सीमा को तिरछा कर देगा), एक को आमतौर पर वेट लागू करने की आवश्यकता होती है (मतलब ऑप्टिमाइज़ेशन एल्गोरिदम में प्रवेश करने के लिए डेटा एक ही स्केल का होता है) या एक उपयुक्त परिवर्तन करें (माध्य केंद्र, लॉग (1 + डेटा) ... आदि) ऐसे मामलों में डेटा पर। ऐसा लगता है कि अगर आप इसे 3 वर्गीकरण ऑपरेशन करने के लिए कहेंगे तो लेस्टर स्क्वायर एकदम सही काम करेगा और अंततः दो आउटपुट क्लास को मर्ज करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.