इस प्रश्न पर फिर से पढ़ने के बाद, मैं आपको निम्नलिखित सीमा दे सकता हूं:
मान लें नमूने आईआईडी तैयार कर रहे हैं, वितरण तय हो गई है, और नुकसान से घिरा है तो संभावना कम से कम के साथ, 1 - δ ,
ई [ ई ( ज ) ] ≤ ई ( ज ) + बी √बी1 - δ
ई [ ई( h ) ] ≤ E^( ज ) + बी लॉग1δ2 मी-----√
जहां नमूने का आकार है, और 1 - δ आत्मविश्वास है। McDiarmid की असमानता से बंधी हुई है।म1 - δ
नमूने का आकार है, ई [ ई ( ज ) ] सामान्यीकरण त्रुटि है, और ई ( ज ) परिकल्पना के लिए परीक्षण त्रुटि है।मई [ ई( ज ) ]इ^( ज )
कृपया केवल क्रॉस सत्यापन त्रुटि की रिपोर्ट न करें और न ही परीक्षण त्रुटि, वे सामान्य रूप से निरर्थक हैं क्योंकि वे केवल बिंदु अनुमान हैं।
रिकॉर्ड के लिए पुरानी पोस्ट:
मुझे यकीन नहीं है कि मैं आपके सवाल को पूरी तरह से समझ पा रहा हूं, लेकिन मैं इस पर एक कदम उठाऊंगा।
सबसे पहले, मुझे यकीन नहीं है कि आप मॉडल चयन के लिए एक भविष्यवाणी अंतराल को कैसे परिभाषित करेंगे, क्योंकि जैसा कि मैं समझता हूं, भविष्यवाणी अंतराल कुछ वितरण संबंधी धारणाएं बनाते हैं। इसके बजाय, आप एकाग्रता असमानताओं को प्राप्त कर सकते हैं, जो अनिवार्य रूप से कुछ संभावना के लिए इसके विचरण द्वारा एक यादृच्छिक चर को बाध्य करता है। एकाग्रता असमानताएं थ्रेश मशीन लर्निंग के लिए उपयोग की जाती हैं, जिसमें बढ़ावा देने के लिए उन्नत सिद्धांत शामिल हैं। इस मामले में आप अपने अनुभवजन्य त्रुटि (परीक्षण सेट पर आपकी त्रुटि) और कुछ जटिलता अवधि और एक शब्द जो कि विचरण से संबंधित है, द्वारा सामान्यीकरण त्रुटि (सामान्य रूप से त्रुटि, आपने देखा नहीं है) को बाध्य करना चाहते हैं।
अब मुझे क्रॉस वेलिडेशन के बारे में एक गलतफहमी को दूर करने की जरूरत है जो बेहद आम है। क्रॉस सत्यापन आपको केवल एक फिक्स्ड नमूना आकार के लिए एक मॉडल की अपेक्षित त्रुटि का निष्पक्ष अनुमान देगा। इसके लिए सबूत केवल एक बाहर के प्रोटोकॉल के लिए काम करता है। यह वास्तव में काफी कमजोर है, क्योंकि यह आपको विचरण के बारे में कोई जानकारी नहीं देता है। दूसरी ओर, क्रॉस सत्यापन एक मॉडल लौटाएगा जो संरचनात्मक जोखिम न्यूनतम समाधान के करीब है, जो सैद्धांतिक रूप से सबसे अच्छा समाधान है। आप यहाँ परिशिष्ट में प्रमाण पा सकते हैं: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf
तो एक सामान्यीकरण कैसे प्राप्त किया जाए? (याद रखें एक सामान्यीकरण बाउंड मूल रूप से एक विशिष्ट मॉडल के लिए सामान्यीकरण त्रुटि के बारे में एक भविष्यवाणी अंतराल है)। खैर, ये सीमाएँ एल्गोरिथम विशिष्ट हैं। दुर्भाग्य से केवल एक पाठ्यपुस्तक है जो मशीन लर्निंग (बूस्टिंग सहित) में आमतौर पर उपयोग किए जाने वाले सभी एल्गोरिदम के लिए सीमाएं लगाती है। मोहरी, रोस्तमीज़ादेह और तलवलकर की पुस्तक फ़ाउंडेशन ऑफ़ मशीन लर्निंग (2012) है। सामग्री को कवर करने वाली व्याख्यान स्लाइड के लिए, आप उन्हें मोहरी के वेब-पेज: http://www.cs.nyu.edu/~mohri/ml14/ पर पा सकते हैं
जबकि सांख्यिकीय लर्निंग के तत्व एक महत्वपूर्ण और कुछ हद तक सहायक पुस्तक है, यह बहुत कठोर नहीं है और यह एल्गोरिदम के बारे में कई बहुत महत्वपूर्ण तकनीकी विवरणों को छोड़ देता है और किसी भी प्रकार के सामान्यीकरण सीमा को पूरी तरह से छोड़ देता है। मशीन लर्निंग की नींव मशीन लर्निंग के लिए सबसे व्यापक पुस्तक है (जो यह देखकर समझ में आता है कि यह क्षेत्र में सर्वश्रेष्ठ में से कुछ द्वारा लिखा गया था)। हालाँकि, पाठ्यपुस्तक उन्नत है, इसलिए तकनीकी विवरणों से सावधान रहें।
बढ़ावा देने के लिए बाध्य सामान्यीकरण यहां पाया जा सकता है (प्रमाण के साथ): http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf
मुझे उम्मीद है कि आपके प्रश्न का उत्तर देने के लिए वे पर्याप्त संकेत हैं। मुझे पूरा जवाब देने में संकोच हो रहा है क्योंकि सभी आवश्यक विवरणों पर जाने के लिए लगभग 50 पृष्ठों का समय लगेगा, अकेले प्रारंभिक जीवनकाल के बारे में ...
सौभाग्य!