कैसे पता करें कि एसवीएम मॉडल से एक सीखने की अवस्था पूर्वाग्रह या विचरण से ग्रस्त है?


12

मैंने यह सीखने की अवस्था बनाई और मैं जानना चाहता हूं कि क्या मेरा एसवीएम मॉडल पूर्वाग्रह या विचरण से ग्रस्त है? मैं इस ग्राफ से कैसे निष्कर्ष निकाल सकता हूं?

सीखने cuve


यहाँ एक लिंक है जहाँ आप इस विषय के बारे में विस्तार से जान सकते हैं- dataquest.io/blog/learning-curves-machine-learning
Sri991

जवाबों:


13

भाग 1: सीखने की अवस्था को कैसे पढ़ें

सबसे पहले, हमें भूखंड के दाईं ओर ध्यान केंद्रित करना चाहिए, जहां मूल्यांकन के लिए पर्याप्त डेटा हैं।

  • यदि दो वक्र "एक दूसरे के करीब" हैं और दोनों में कम स्कोर है, लेकिन है। मॉडल एक अंडर फिटिंग समस्या (उच्च पूर्वाग्रह) से पीड़ित है

  • यदि प्रशिक्षण वक्र में बहुत बेहतर स्कोर है, लेकिन परीक्षण वक्र में कम स्कोर है, अर्थात, दो वक्रों के बीच बड़े अंतराल हैं। तब मॉडल एक ओवर फिटिंग की समस्या से ग्रस्त है (उच्च विचरण)

भाग 2: आपके द्वारा प्रदान किए गए भूखंड के लिए मेरा आकलन

प्लॉट से यह कहना मुश्किल है कि मॉडल अच्छा है या नहीं। यह संभव है कि आपके पास वास्तव में "आसान समस्या" हो, एक अच्छा मॉडल 90% हासिल कर सकता है। दूसरी ओर, यह संभव है कि आपके पास वास्तव में "कठिन समस्या" है कि हम जो सबसे अच्छी चीज कर सकते हैं वह 70% प्राप्त कर रहा है। (ध्यान दें, आप उम्मीद नहीं कर सकते हैं कि आपके पास एक आदर्श मॉडल होगा, स्कोर स्कोर है। 1. आप कितना प्राप्त कर सकते हैं यह आपके डेटा में कितना निर्भर करता है। मान लीजिए कि आपके डेटा में बहुत सारे डेटा बिंदु हैं, जिनमें सटीक सुविधा है लेकिन विभिन्न लेबल हैं। कोई फर्क नहीं पड़ता कि आप क्या करते हैं, आप स्कोर पर 1 हासिल नहीं कर सकते।)

आपके उदाहरण में एक और समस्या यह है कि एक वास्तविक विश्व अनुप्रयोग में 350 उदाहरण बहुत छोटे प्रतीत होते हैं।

भाग 3: अधिक सुझाव

एक बेहतर समझ पाने के लिए, आप एक से अधिक फिटिंग के तहत अनुभव करने के लिए निम्नलिखित प्रयोग कर सकते हैं और सीख सकते हैं कि सीखने की अवस्था में क्या होगा।

  • एक बहुत ही जटिल डेटा का चयन करें जिसे एमएनआईएसटी डेटा कहते हैं, और एक साधारण मॉडल के साथ फिट होते हैं, एक विशेषता के साथ रैखिक मॉडल कहते हैं।

  • एक साधारण डेटा चुनें, आईरिस डेटा कहें, एक जटिलता मॉडल के साथ फिट, कहें, एसवीएम।


भाग 4: अन्य उदाहरण

इसके अलावा, मैं फिटिंग और ओवर फिटिंग से संबंधित दो उदाहरण दूंगा। ध्यान दें कि यह वक्र नहीं सीख रहा है, लेकिन क्रमिक बूस्टिंग मॉडल में पुनरावृत्तियों की संख्या के लिए प्रदर्शन सम्मान , जहां अधिक पुनरावृत्तियों में अधिक फिटिंग की संभावना होगी। एक्स अक्ष पुनरावृत्तियों की संख्या दिखाता है, और y अक्ष प्रदर्शन को दर्शाता है, जो कि आरओसी के तहत नकारात्मक क्षेत्र है (कम बेहतर)।

बाएं सबप्लॉट ओवर फिटिंग (अच्छी तरह से फिटिंग के तहत नहीं होता है क्योंकि प्रदर्शन यथोचित रूप से अच्छा है) से पीड़ित नहीं होता है, लेकिन सही पुनरावृत्ति अधिक होने पर फिटिंग से अधिक पीड़ित होता है।

यहाँ छवि विवरण दर्ज करें


धन्यवाद hxd1011! क्या आप मुझसे सहमत हैं यदि मैं कहता हूं कि मेरा मॉडल थोड़ा विचरण और थोड़ा पूर्वाग्रह से ग्रस्त है (क्योंकि स्कोर 1 नहीं है)?
Afke

@Papie मुझे लगता है कि आप मॉडल ठीक है ... स्कोर पर 80% खराब नहीं है और दो घटता करीब हैं। एकमात्र समस्या 350 तक के उदाहरण हैं जो वास्तविक दुनिया में बहुत कम हो सकते हैं।
डू

@Papie इसके अलावा, आप उम्मीद नहीं कर सकते हैं कि आपके पास एक आदर्श मॉडल होगा, स्कोर स्कोर है 1. आप कितना ग्रहण कर सकते हैं यह आपके डेटा में कितना शोर पर निर्भर करता है। मान लें कि आपके डेटा में बहुत सारे डेटा पॉइंट हैं, जिनमें EXACT फीचर है, लेकिन अलग-अलग लेबल हैं, चाहे आप कुछ भी करें, आप स्कोर पर 1 हासिल नहीं कर सकते।
हायताओ डू

11
मुझे लगता है कि उनका "स्कोर पर 80% बुरा नहीं है" चीजों के बारे में सोचने का एक अच्छा तरीका नहीं है। कोई वैश्विक स्कोर नहीं है जो अच्छा है, यह उस समस्या पर बहुत अधिक निर्भर करता है जिसे हल किया जा रहा है, विशेष रूप से, प्रक्रिया में शोर अनुपात और उपलब्ध डेटा पर सिग्नल पर। आप इसे अपने उत्तर में इंगित करते हैं, इसलिए मैं "बुरा नहीं" टिप्पणी को हटा दूंगा।
मैथ्यू डॉरी

1
@MatthewDrury सुझाव के लिए धन्यवाद, उत्तर संशोधित!
हैताओ डू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.