मान लीजिए कि आप पुनरावृत्तियों की संख्या के माध्यम से उद्देश्य फ़ंक्शन को कम करने की कोशिश कर रहे हैं। और वर्तमान मूल्य । दिए गए डेटा सेट में, कोई "इरेड्यूसबल त्रुटियां" नहीं हैं और आप अपने प्रशिक्षण डेटा के लिए नुकसान को 0.0 से कम कर सकते हैं । अब आपके पास इसे करने के दो तरीके हैं।100.00.0
पहला तरीका "बड़ी सीखने की दर" और कुछ पुनरावृत्तियों है। मान लें कि आप प्रत्येक पुनरावृति में हानि कम कर सकते हैं , फिर, 10 पुनरावृत्तियों में, आप 0.0 से हानि को कम कर सकते हैं ।10.0100.0
दूसरा तरीका "धीमी सीखने की दर" होगा, लेकिन अधिक पुनरावृत्तियों। मान लें कि आप प्रत्येक पुनरावृत्ति में हानि कम कर सकते हैं और आपको अपने प्रशिक्षण डेटा पर 0.0 हानि होने के लिए 100 पुनरावृत्ति की आवश्यकता है ।1.0100
अब इस बारे में सोचें: क्या दो दृष्टिकोण समान हैं? और यदि अनुकूलन संदर्भ और मशीन सीखने के संदर्भ में बेहतर न हो तो ?
में अनुकूलन साहित्य , दो दृष्टिकोण एक ही हैं। जैसा कि वे दोनों इष्टतम समाधान के लिए अभिसरण करते हैं । दूसरी ओर, मशीन सीखने में , वे समान नहीं हैं। क्योंकि ज्यादातर मामलों में हम सेट किए गए प्रशिक्षण में नुकसान नहीं करते हैं जो ओवर-फिटिंग का कारण होगा।0
हम पहले दृष्टिकोण के बारे में "मोटे स्तर की ग्रिड खोज" के रूप में सोच सकते हैं, और दूसरे दृष्टिकोण के रूप में "फाइन लेवल ग्रिड सर्च" के रूप में। दूसरा दृष्टिकोण आमतौर पर बेहतर काम करता है, लेकिन अधिक पुनरावृत्तियों के लिए अधिक कम्प्यूटेशनल शक्ति की आवश्यकता होती है।
ओवर-फिटिंग को रोकने के लिए, हम अलग-अलग काम कर सकते हैं, पहला तरीका पुनरावृत्तियों की संख्या को प्रतिबंधित करना होगा, मान लें कि हम पहले दृष्टिकोण का उपयोग कर रहे हैं, हम पुनरावृत्तियों की संख्या को सीमित करते हैं 5. अंत में, प्रशिक्षण डेटा के लिए नुकसान । (BTW, यह अनुकूलन के दृष्टिकोण से बहुत अजीब होगा , जिसका अर्थ है कि हम भविष्य में हमारे समाधान में सुधार कर सकते हैं / यह रूपांतरित नहीं है, लेकिन हमने नहीं चुना है। अनुकूलन में, आमतौर पर हम उद्देश्य समारोह में स्पष्ट रूप से बाधाओं या दंड शब्द जोड़ते हैं। लेकिन आमतौर पर पुनरावृत्तियों की संख्या सीमित नहीं है।)50
0.15000.0
यही कारण है कि छोटी सीखने की दर "अधिक नियमितताओं" के बराबर है।
यहां प्रयोगात्मक डेटा पर विभिन्न सीखने की दर का उपयोग करने का एक उदाहरण है xgboost
। कृपया क्या करता है eta
या देखने के लिए दो लिंक follwoing की जाँच करें n_iterations
।
ट्री बूस्टर के लिए पैरामीटर
XGBoost कंट्रोल ओवरफिटिंग
50
पुनश्च। अंडर-फिटिंग के साक्ष्य में प्रशिक्षण और परीक्षण सेट दोनों में बड़ी त्रुटि है, और प्रशिक्षण और परीक्षण के लिए त्रुटि वक्र एक दूसरे के करीब हैं। ओवर-फिटिंग का संकेत प्रशिक्षण सेट की त्रुटि बहुत कम है और परीक्षण सेट बहुत अधिक है, दो वक्र एक दूसरे से बहुत दूर हैं।