एसवीएम, ओवरफिटिंग, आयामीता का अभिशाप


37

मेरा डेटासेट छोटा है (120 नमूने), हालांकि सुविधाओं की संख्या बड़ी है (1000-200,000)। हालाँकि मैं सुविधाओं का सबसेट चुनने के लिए फीचर का चयन कर रहा हूं, फिर भी यह ओवरफिट हो सकता है।

मेरा पहला सवाल यह है कि, एसवीएम ओवरफिटिंग को कैसे हैंडल करता है, अगर बिल्कुल भी।

दूसरे, जैसा कि मैं वर्गीकरण के मामले में ओवरफिटिंग के बारे में अधिक अध्ययन करता हूं, मैं इस निष्कर्ष पर पहुंचा था कि छोटी संख्या में विशेषताओं वाले डेटासेट भी ओवरफिट कर सकते हैं। यदि हमारे पास वर्ग लेबल से संबंधित सुविधाएँ नहीं हैं, तो ओवरफिटिंग वैसे भी होती है। इसलिए मैं अब सोच रहा हूँ कि अगर हम एक वर्ग लेबल के लिए सही सुविधाएँ नहीं पा सकते हैं तो स्वचालित वर्गीकरण का क्या मतलब है। दस्तावेज़ वर्गीकरण के मामले में, इसका मतलब मैन्युअल रूप से उन शब्दों के थिसॉरस को तैयार करना होगा जो लेबल से संबंधित हैं, जो बहुत समय लेने वाला है। मुझे लगता है कि मैं जो कहने की कोशिश कर रहा हूं, वह सही सुविधाओं को हाथ में लिए बिना सामान्यीकृत मॉडल का निर्माण करना बहुत मुश्किल है?

इसके अलावा, यदि प्रायोगिक परिणाम यह नहीं दिखाते हैं कि परिणाम कम / अधिक नहीं हैं तो यह अर्थहीन हो जाता है। क्या इसे मापने का कोई तरीका है?

जवाबों:


41

सी

सी

GC Cawley और NLC टैलबोट, हाइपर-मापदंडों के बेयसियन नियमितीकरण के माध्यम से मॉडल चयन में ओवर-फिटिंग को रोकना, जर्नल ऑफ़ मशीन लर्निंग रिसर्च, वॉल्यूम 8, पृष्ठ 841-861, अप्रैल 2007। ( www )

तथा

GC Cawley और NLC टैलबोट, मॉडल चयन में ओवर-फिटिंग और प्रदर्शन मूल्यांकन में बाद के चयन पूर्वाग्रह, जर्नल ऑफ मशीन लर्निंग रिसर्च, 2010। रिसर्च, वॉल्यूम। 11, पीपी। 2079-2107, जुलाई 2010. ( www )

उन दोनों पत्रों में एसवीएम के बजाय कर्नेल रिज प्रतिगमन का उपयोग किया जाता है, लेकिन एसवीएम के साथ भी यही समस्या आसानी से उत्पन्न होती है (केआरआर पर भी इसी तरह की सीमा लागू होती है, इसलिए व्यवहार में उनके बीच चयन करने के लिए इतना अधिक नहीं है)। एक तरह से, एसवीएम वास्तव में ओवर-फिटिंग की समस्या का समाधान नहीं करते हैं, वे सिर्फ मॉडल फिटिंग से मॉडल चयन तक की समस्या को स्थानांतरित करते हैं।

यह अक्सर एसवीएम के लिए जीवन को थोड़ा आसान बनाने के लिए एक प्रलोभन है, पहले किसी प्रकार की सुविधा का चयन करके। यह आम तौर पर मामलों को बदतर बनाता है, एसवीएम के विपरीत, फीचर चयन एल्गोरिदम अधिक ओवर-फिटिंग का प्रदर्शन करते हैं क्योंकि विशेषताओं की संख्या बढ़ जाती है। जब तक आप जानना चाहते हैं कि कौन सी जानकारीपूर्ण विशेषताएँ हैं, तो आमतौर पर सुविधा चयन चरण को छोड़ना बेहतर होता है और डेटा को ओवर-फिटिंग करने से बचने के लिए नियमितीकरण का उपयोग करें।

संक्षेप में, 120 टिप्पणियों और हजारों विशेषताओं के साथ एक समस्या पर एक SVM (या अन्य नियमित मॉडल जैसे रिज रिग्रेशन, LARS, Lasso, इलास्टिक नेट आदि) का उपयोग करने के साथ कोई अंतर्निहित समस्या नहीं है, बशर्ते कि नियमितीकरण मापदंडों को ठीक से ट्यून किया गया हो


क्या सूचना चयन आधारित रैंकिंग जैसी सुविधा चयन विधियाँ दिखाने वाले कोई कागजात अधिक होने की संभावना है?
user13420

1
ऐसा नहीं है कि मुझे पता है, मुद्दा यह था कि एसवीएम के कुछ सैद्धांतिक परिणाम हैं जो बताते हैं कि वे विशेषताओं की संख्या के कारण ओवर-फिटिंग के प्रतिरोधी हैं, लेकिन सुविधा चयन विधियों में भी ऐसा नहीं है। FWIW, "प्रतिगमन में सबसेट चयन" पर मिलर द्वारा मोनोग्राफ, नियमितीकरण विधियों का उपयोग करने की सलाह देता है यदि भविष्य कहनेवाला प्रदर्शन सभी की आवश्यकता होती है। वहाँ सुविधा चयन पर कुछ खुले चुनौतियों, जो बताते हैं कि नियमितीकरण मात सुविधा चयन (देखने के लिए जाता है किया गया है nipsfsc.ecs.soton.ac.uk और causality.inf.ethz.ch/challenge.php )।
डिक्रान मार्सुपियल

जैसा कि पहले पैराग्राफ में कहा गया है, एसवीएम ओवर-फिटिंग के लिए प्रतिरोधी होते हैं, क्या यह नियमितीकरण (पैरामीटर सी) का उपयोग करता है , इसलिए डिफ़ॉल्ट रूप से, svmयह नियमितीकरण पैरामीटर सी है ? और मुझे यकीन नहीं है कि इस सी द्वारा नियंत्रित किए गए चर का क्या मतलब है , आप उन सुस्त चर का मतलब है ?
एवोकैडो

10

मैं दूसरे और आखिरी सवालों के साथ शुरुआत करूंगा।

सामान्यीकरण की समस्या स्पष्ट रूप से महत्वपूर्ण है, क्योंकि यदि मशीन सीखने के परिणामों को सामान्यीकृत नहीं किया जा सकता है, तो वे पूरी तरह से बेकार हैं।

सामान्यीकरण सुनिश्चित करने के तरीके सांख्यिकी से आते हैं। हम आमतौर पर मानते हैं, कि डेटा कुछ संभावना वितरण से उत्पन्न होता है जो वास्तविकता में उत्पन्न होता है। उदाहरण के लिए, यदि आप वर्ष 2000 में पैदा हुए पुरुष हैं, तो 10 वर्ष तक पहुंचने पर आपके वजन / ऊंचाई / आंखों के रंग की क्या संभावना है, जिसके परिणामस्वरूप वर्ष 2000 में उपलब्ध जीन पूल से परिणाम संभव पर्यावरणीय कारक आदि हैं। हमारे पास बहुत सारे डेटा हैं, हम उन अंतर्निहित वितरणों के बारे में कुछ कह सकते हैं, उदाहरण के लिए कि उच्च संभावना के साथ वे गौसियन या बहुराष्ट्रीय हैं। यदि हमारे पास वितरण की सटीक तस्वीर है, तो 2010 में 10 साल के बच्चे की ऊंचाई, वजन और आंखों के रंग को देखते हुए, हम बच्चे के पुरुष होने की संभावना का एक अच्छा अनुमान लगा सकते हैं। और अगर संभावना 0 या 1 के करीब है, तो हम बच्चों के लिंग पर एक अच्छा शॉट प्राप्त कर सकते हैं।

कश्मीरδकश्मीर+εकश्मीर+ε

अब वापस एसवीएम पर। यदि आप गुठली का उपयोग नहीं करते हैं, या गुठली का उपयोग करते हैं, जो परिमित आयामी स्थानों में मैप करते हैं, तो तथाकथित वैपनिक-चेरोवेनेकिस आयाम जो परिकल्पना अंतरिक्ष जटिलता का एक उपाय है, परिमित है, और इसके साथ ही पर्याप्त और पर्याप्त उदाहरण आपको मिल सकते हैं। परीक्षण सेट पर त्रुटि त्रुटि प्रशिक्षण सेट पर त्रुटि से बहुत बड़ी नहीं होगी। यदि आप गुठली का उपयोग करते हैं जो अनंत-आयामी सुविधा वाले स्थानों में मैप करते हैं, तो वाप्निक-चेरोवेनेकिस आयाम भी अनंत है, और क्या बुरा है अकेले प्रशिक्षण के नमूने अच्छे सामान्यीकरण की गारंटी नहीं दे सकते हैं, चाहे उनकी संख्या कितनी भी हो। सौभाग्य से, एसवीएम के मार्जिन का आकार सामान्यीकरण सुनिश्चित करने के लिए एक अच्छा पैरामीटर है। बड़े मार्जिन और प्रशिक्षण सेट के साथ, आप यह गारंटी दे सकते हैं कि परीक्षण त्रुटि प्रशिक्षण त्रुटि के साथ बहुत बड़ी नहीं होगी।


7

ओवरफिटिंग के कम से कम दो प्रमुख स्रोत हैं जिन पर आप विचार कर सकते हैं।

  1. एक एल्गोरिथ्म से ओवरफिटिंग जो उपलब्ध प्रशिक्षण नमूनों से बहुत अधिक अनुमान लगा चुकी है। यह मॉडल के सामान्यीकरण क्षमता का एक उपाय का उपयोग करके अनुभवजन्य के खिलाफ सबसे अच्छा संरक्षित है। क्रॉस सत्यापन एक ऐसी लोकप्रिय विधि है।

  2. ओवरफिटिंग क्योंकि अंतर्निहित वितरण अंडरस्लेमड है। आमतौर पर ऐसा बहुत कम होता है कि जब तक आप अधिक डेटा एकत्र नहीं कर सकते हैं या अपने मॉडल की समस्या के बारे में डोमेन ज्ञान नहीं जोड़ सकते।

120 नमूनों और बड़ी संख्या में सुविधाओं के साथ आप 2 के बेईमानी से गिरने की संभावना रखते हैं और 1 से भी ग्रस्त हो सकते हैं।

आप परीक्षण और प्रशिक्षण त्रुटियों पर मॉडल जटिलता के प्रभाव का सावधानीपूर्वक अवलोकन करके 1 के बारे में कुछ कर सकते हैं।


लेकिन, अगर हम ओवरफिट कर रहे हैं तो हमें कैसे पता चलेगा? यदि मॉडल क्रॉस-वेलिडेशन में बहुत अच्छा करते हैं, तो क्या वे ऐसा कर रहे हैं क्योंकि यह वास्तव में अच्छा है या 1 या 2 के कारण ओवरफिटिंग के कारण है? साथ ही हजारों विशेषताओं के साथ, हाथ से प्रत्येक सुविधा का विश्लेषण करना बोझिल होगा। यदि ओवरफिटिंग की पहचान करना संभव नहीं है, तो हम किसी भी क्रॉस-वेलिडेशन परिणाम पर कैसे भरोसा कर सकते हैं?
user13420

1
अतिरिक्त डेटा के बिना यह जानना बहुत मुश्किल है कि क्या आप एक अंडरस्क्राइब्ड आबादी के खिलाफ ओवरफिट कर रहे हैं। आप मॉडल को ट्यून करने के लिए एक सत्यापन सेट का उपयोग करके डेटा को तीन सेटों में विभाजित कर सकते हैं और फिर इसे परीक्षण करने के लिए एक अलग परीक्षण सेट कर सकते हैं। एक अन्य दृष्टिकोण मॉडल जटिलता को संशोधित करना और देखना है कि प्रशिक्षण और परीक्षण सेट सटीकता कैसे बदलती हैं। परीक्षण सेट त्रुटि में एक लिफ्ट डेटा से कुछ हद तक मॉडल को इंगित करेगी।
image_doctor

यदि आप प्रशिक्षण और परीक्षण सेट संतुलित हैं, तो 50/50 होल्डआउट परीक्षणों को बार-बार लागू करने से आपको कुछ महसूस होगा। वे शायद नहीं होंगे। कुछ मॉडल, जैसे कि KNN, प्रशिक्षण सेट पर सही सटीकता प्राप्त करेंगे ताकि कुछ अर्थों में स्वाभाविक रूप से ओवरफीड हो। लेकिन वे अभी भी परीक्षण सेट पर स्वीकार्य प्रदर्शन प्राप्त कर सकते हैं। तो मशीन लर्निंग में ज्यादा से ज्यादा, अंत में यह सब डेटा की सटीक बारीकियों पर निर्भर करता है।
image_doctor 17

@image_doctor क्या आप "मॉडल जटिलता को संशोधित" पर विस्तृत कर सकते हैं?
कीथ ह्यूजिट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.