पाठ वर्गीकरण के लिए रिज रिग्रेशन क्लासिफायर काफी अच्छी तरह से क्यों काम करता है?


18

पाठ वर्गीकरण के लिए एक प्रयोग के दौरान, मैंने पाया कि रिज क्लासिफायर जनरेट करने वाले परिणाम लगातार उन क्लासिफायरों के बीच परीक्षणों को शीर्ष पर लाते हैं जो कि आमतौर पर एसवीएम, एनबी, केएनएन आदि जैसे टेक्स्ट माइनिंग कार्यों के लिए उल्लिखित हैं और लागू होते हैं, हालांकि, मैंने विस्तृत नहीं किया है। मापदंडों के बारे में कुछ सरल tweaks को छोड़कर इस विशिष्ट पाठ वर्गीकरण कार्य पर प्रत्येक वर्गीकरण का अनुकूलन करने पर।

इस तरह के परिणाम में डिक्रान मार्सुपियल का भी उल्लेख किया गया था ।

सांख्यिकी पृष्ठभूमि से नहीं, ऑनलाइन कुछ सामग्रियों के माध्यम से पढ़ने के बाद, मैं अभी भी इसके मुख्य कारणों का पता नहीं लगा सकता। किसी को भी इस तरह के परिणाम पर कुछ अंतर्दृष्टि प्रदान कर सकता है?

जवाबों:


16

पाठ वर्गीकरण की समस्याएं काफी उच्च आयामी (कई विशेषताएं) होती हैं, और उच्च आयामी समस्याओं के रैखिक रूप से अलग होने की संभावना होती है (जैसा कि आप किसी भी d + 1 अंक को d- आयामी स्थान में रैखिक रैखिक वर्गीकरण के साथ अलग कर सकते हैं, भले ही अंक कैसे भी हों लेबल हैं)। तो रैखिक वर्गीय, चाहे रिज प्रतिगमन या एक रैखिक कर्नेल के साथ एसवीएम, अच्छी तरह से करने की संभावना है। दोनों मामलों में, SVM के लिए रिज पैरामीटर या C (tdc मेंट 1 के रूप में) क्लासिफायर की जटिलता को नियंत्रित करता है और बड़े मार्जिन द्वारा प्रत्येक वर्ग के पैटर्न को अलग करके ओवर-फिटिंग से बचने में मदद करता है (यानी निर्णय सतह नीचे से गुजरती है बिंदुओं के दो संग्रहों के बीच का अंतर)। हालांकि अच्छा प्रदर्शन प्राप्त करने के लिए रिज / नियमितीकरण मापदंडों को ठीक से ट्यून करने की आवश्यकता है (मैं सस्ते होने के साथ-साथ एक-बाहर क्रॉस-सत्यापन का उपयोग करता हूं)।

हालांकि, रिज प्रतिगमन अच्छी तरह से काम करने का कारण यह है कि गैर-रैखिक तरीके बहुत शक्तिशाली हैं और अति-फिटिंग से बचना मुश्किल है। एक गैर-रैखिक क्लासिफायरियर हो सकता है जो सर्वश्रेष्ठ रैखिक मॉडल की तुलना में बेहतर सामान्यीकरण प्रदर्शन देता है, लेकिन उन मापदंडों का अनुमान लगाना बहुत मुश्किल है जो प्रशिक्षण डेटा के परिमित नमूने का उपयोग करते हैं। व्यवहार में, मॉडल जितना सरल है, मापदंडों का अनुमान लगाने में हमें उतनी ही कम समस्या है, इसलिए अधिक फिट होने की प्रवृत्ति कम है, इसलिए हमें अभ्यास में बेहतर परिणाम मिलते हैं।

एक और मुद्दा सुविधा चयन है, रिज रिग्रेशन उन्हें छोटा रखने के लिए वजन को नियमित करके ओवर-फिटिंग से बचा जाता है, और मॉडल का चयन सीधे आगे होता है क्योंकि आपको केवल एकल प्रतिगमन पैरामीटर का मूल्य चुनना होता है। यदि आप सुविधाओं के इष्टतम सेट को चुनकर ओवर-फिटिंग से बचने की कोशिश करते हैं, तो मॉडल चयन मुश्किल हो जाता है क्योंकि प्रत्येक सुविधा के लिए स्वतंत्रता (सॉर्ट) की एक डिग्री है, जो सुविधा चयन मानदंड को ओवर-फिट करना संभव बनाता है और आप डेटा के इस विशेष नमूने के लिए इष्टतम है कि सुविधाओं के एक सेट के साथ अंत, लेकिन जो खराब सामान्यीकरण प्रदर्शन देता है। इसलिए फीचर का चयन नहीं करना और नियमितीकरण का उपयोग करना अक्सर बेहतर भविष्य कहनेवाला प्रदर्शन दे सकता है।

मैं अक्सर रिज-प्रतिगमन मॉडल के साथ बैगिंग (प्रशिक्षण सेट से बूटस्ट्रैप किए गए नमूनों पर प्रशिक्षित मॉडल की एक समिति बनाता हूं) का उपयोग करता हूं, जो अक्सर प्रदर्शन में सुधार देता है, और सभी मॉडल रैखिक होने के नाते आप उन्हें एक रेखीय मॉडल बनाने के लिए जोड़ सकते हैं , इसलिए ऑपरेशन में कोई प्रदर्शन हिट नहीं है।


d1d

यह आमतौर पर माना जाता है कि अंक "सामान्य स्थिति" में हैं, इसलिए (उदाहरण के लिए) वे एक सीधी रेखा पर झूठ नहीं बोलते हैं, इस स्थिति में 2-डी स्थान में आप किसी भी 3 अंक को अलग कर सकते हैं। यदि सभी बिंदु एक सीधी रेखा में स्थित हैं, तो वास्तव में वे 2-डी अंतरिक्ष में एम्बेडेड 1-डी उप-स्थान पर रहते हैं।
डिक्रान मार्सुपियल

विकिपीडिया पर बयान है "चूंकि विधि कई भविष्यवाणियों का औसत है, यह रैखिक मॉडल को बेहतर बनाने के लिए उपयोगी नहीं है" हालांकि मुझे यकीन नहीं है कि यह सच क्यों होना चाहिए?
tdc

मैं नहीं देखता कि क्यों सच होना चाहिए। मुझे इस मुद्दे पर संदेह है कि एक बैगर्ड रैखिक मॉडल को एक एकल रैखिक मॉडल द्वारा बिल्कुल प्रतिनिधित्व किया जा सकता है, हालांकि मुद्दा एकल मॉडल के मापदंडों का अनुमान है, न कि मॉडल का रूप। मैंने पाया है कि बैगिंग सामान्यीकरण में सुधार करता है, लेकिन आम तौर पर लाभ तब तक छोटा होता है जब तक आपके पास टिप्पणियों की तुलना में कई अधिक विशेषताएं नहीं होती हैं (ताकि मॉडल का अनुमान अस्थिर हो और डेटा में एक छोटा परिवर्तन मॉडल में एक बड़ा बदलाव पैदा करता है)।
डिक्रान मार्सुपियल

शायद आपको विकिपीडिया पेज अपडेट करना चाहिए! आप इस मामले के जानकार हैं ...
tdc

6

रिज प्रतिगमन, जैसा कि नाम से पता चलता है, वर्गीकरण के बजाय प्रतिगमन के लिए एक विधि है। संभवतः आप इसे एक क्लासिफायर में बदलने के लिए एक सीमा का उपयोग कर रहे हैं। किसी भी मामले में, आप बस एक रैखिक क्लासिफायरियर सीख रहे हैं जिसे हाइपरप्लेन द्वारा परिभाषित किया गया है। कारण यह है कि काम कर रहा है क्योंकि हाथ में काम अनिवार्य रूप से रैखिक रूप से अलग है - यानी एक साधारण हाइपरप्लेन वह सब है जो कक्षाओं को अलग करने के लिए आवश्यक है। "रिज" पैरामीटर यह उन मामलों में काम करने की अनुमति देता है जो पूरी तरह से रैखिक रूप से अलग नहीं होते हैं या समस्याएं जो रैंक की कमी हैं (जिस स्थिति में अनुकूलन पतित होगा)।

इस मामले में, ऐसा कोई कारण नहीं है कि अन्य क्लासिफायर भी अच्छा प्रदर्शन न करें, यह मानते हुए कि उन्हें सही तरीके से लागू किया गया है। उदाहरण के लिए, एसवीएम "इष्टतम पृथक्करण हाइपरप्लेन" (यानी हाइपरप्लेन जो वर्गों के बीच मार्जिन या अंतर को अधिकतम करता है) को पाता है। CSVM के पैरामीटर रिज पैरामीटर है, जो कुछ misclassifications (बाहरी कारकों के कारण) के लिए अनुमति देता है के लिए एक क्षमता नियंत्रण पैरामीटर अनुरूप है। मान लिया जाए कि पैरामीटर चयन प्रक्रिया को पूरी लगन से किया गया है, मुझे उम्मीद है कि दो तरीकों से इस तरह के डेटासेट पर लगभग समान परिणाम उत्पन्न होंगे।


2
मुझे याद है कि यह दिखाया जा सकता है कि एलएस-एसवीएम बाइनरी वर्गीकरण -1,1 लेबल पर रिज रिग्रेशन के बराबर है, उनका सूत्रीकरण समान है।
फायरबग

सोचें कि आप उस पर सही हो सकते हैं
tdc
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.