ओवरफिटिंग के आउट-ऑफ-सैंपल डेटा पर 100% मॉडल की सटीकता है?


11

मैंने अभी अभी Cognitiveclass.ai पर R कोर्स के लिए मशीन सीखना पूरा कर लिया है और यादृच्छिक रूप से प्रयोग करना शुरू कर दिया है।

मैंने R में "randomForest" लाइब्रेरी का उपयोग करके एक मॉडल बनाया है। मॉडल दो वर्गों द्वारा वर्गीकृत होता है, अच्छा और बुरा।

मुझे पता है कि जब कोई मॉडल ओवरफिट होता है, तो वह अपने स्वयं के ट्रेनिंगसेट से डेटा पर अच्छा प्रदर्शन करता है लेकिन आउट-ऑफ-सैंपल डेटा पर।

अपने मॉडल को प्रशिक्षित करने और परीक्षण करने के लिए, मैंने प्रशिक्षण के लिए संपूर्ण डेटासेट को 70% और परीक्षण के लिए 30% में विभाजित किया है।

मेरा प्रश्न: मुझे परीक्षण सेट पर की गई भविष्यवाणी से 100% सटीकता प्राप्त हो रही है। क्या यह बुरा है? सत्य होने के लिए यह बहुत अच्छा लगता है।

उद्देश्य तरंग पर निर्भरता के आधार पर एक दूसरे पर तरंग मान्यता है। डेटासेट की विशेषताएं अपने लक्ष्य तरंग के साथ तरंगों के डायनामिक टाइम वारिंग विश्लेषण के लागत परिणाम हैं।


साइट में आपका स्वागत है! क्या आपने कुछ शोर डेटा पर भविष्यवाणी करने की कोशिश की?
Toros91

हर बार जब आप फेरबदल, ट्रेन और परीक्षण, सटीकता 100% है?
एलेक्स

@ एलेक्स बिल्कुल नहीं, लेकिन यह 98,55% की तरह बहुत अधिक रहता है
मिलन वैन डीकॉक

1
@ एलेक्स 11.35% "ओके" और 88.65% "खराब"
मिलान वैन डिक्ज

1
वह काफी असंतुलित है। ओके क्लास की ओर निर्धारित प्रशिक्षण में संतुलन बनाने के लिए रेज़मैप्लिंग (बार-बार नमूना लेने) का उपयोग करने का प्रयास करें (उदाहरण के लिए इसे 30% करें) और परीक्षण / सत्यापन सेट में 11/89 अनुपात रखें। आपको क्या मिलेगा?
एलेक्स

जवाबों:


29

सटीकता जैसे उच्च सत्यापन स्कोर का आम तौर पर मतलब होता है कि आप ओवरफिटिंग नहीं कर रहे हैं, हालांकि इससे सावधानी बरतनी चाहिए और कुछ गलत होने का संकेत हो सकता है। इसका मतलब यह भी हो सकता है कि समस्या बहुत कठिन नहीं है और यह कि आपका मॉडल वास्तव में अच्छा प्रदर्शन करता है। दो चीजें जो गलत हो सकती हैं:

  • आपने डेटा को ठीक से विभाजित नहीं किया और सत्यापन डेटा भी आपके प्रशिक्षण डेटा में आ गया है, जिसका अर्थ है कि यह ओवरफिटिंग को इंगित करता है क्योंकि आप अब मापन को माप नहीं रहे हैं
  • आप अतिरिक्त सुविधाओं को बनाने के लिए कुछ सुविधा इंजीनियरिंग का उपयोग करते हैं और आपने कुछ लक्ष्य रिसाव शुरू किए होंगे, जहाँ आपकी पंक्तियाँ वर्तमान लक्ष्य से जानकारी का उपयोग कर रही हैं, न कि आपके प्रशिक्षण सेट में दूसरों से।

11
100% सटीकता हमेशा "लक्ष्य रिसाव" चिल्लाती है।
पॉल

1

यह देखने के लिए जांच करें कि आपकी सबसे अधिक अनुमानित विशेषताएं क्या हैं। कभी-कभी आपने अपनी सुविधाओं के बीच गलती से अपना लक्ष्य (या आपके लक्ष्य के बराबर कुछ) शामिल कर लिया।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.