नोट: मामला n >> p है
मैं सांख्यिकीय शिक्षण के तत्वों को पढ़ रहा हूं और क्रॉस वेलिडेशन करने के "सही" तरीके के बारे में विभिन्न उल्लेख हैं (जैसे पृष्ठ 60, पृष्ठ 245)। विशेष रूप से, मेरा सवाल यह है कि जब कोई मॉडल खोज की गई है तो के-गुना सीवी या बूटस्ट्रैपिंग का उपयोग करके अंतिम मॉडल (एक अलग परीक्षण सेट के बिना) का मूल्यांकन कैसे किया जाए? ऐसा लगता है कि ज्यादातर मामलों में (एम्बेडेड सुविधा चयन के बिना एमएल एल्गोरिदम) होंगे
- एक सुविधा चयन कदम
- एक मेटा पैरामीटर चयन चरण (उदाहरण के लिए SVM में लागत पैरामीटर)।
मेरे सवाल:
- मैंने देखा है कि सुविधा का चयन चरण में किया जा सकता है जहां सुविधा का चयन पूरे प्रशिक्षण सेट पर किया जाता है और एक तरफ आयोजित किया जाता है। फिर, के-फोल्ड सीवी का उपयोग करते हुए, सुविधा चयन एल्गोरिथ्म का उपयोग प्रत्येक फोल्ड में किया जाता है (हर बार अलग-अलग विशेषताओं को चुना जाता है) और त्रुटि का औसत। फिर, आप अंतिम मोड को प्रशिक्षित करने के लिए सभी डेटा (जो एक तरफ सेट किए गए थे) का उपयोग करके चुने गए विशेषताओं का उपयोग करेंगे, लेकिन मॉडल के भविष्य के प्रदर्शन के अनुमान के रूप में क्रॉस सत्यापन से त्रुटि का उपयोग करें। क्या ये सही है?
- जब आप मॉडल मापदंडों का चयन करने के लिए क्रॉस सत्यापन का उपयोग कर रहे हैं, तो बाद में मॉडल के प्रदर्शन का अनुमान कैसे करें? यह # 1 के रूप में एक ही प्रक्रिया है या आप का उपयोग किया जाना चाहिए सीवी 54 पृष्ठ पर डाउनलोड किया है ( पीडीएफ ) या ईमेल नंबर ?
- जब आप दोनों चरणों (सुविधा और पैरामीटर सेटिंग) कर रहे हैं ..... तो आप क्या करते हैं? जटिल नेस्टेड छोरों?
- यदि आपके पास एक अलग होल्ड आउट नमूना है, तो क्या चिंता दूर हो जाती है और आप सुविधाओं और मापदंडों का चयन करने के लिए क्रॉस सत्यापन का उपयोग कर सकते हैं (चिंता के बिना क्योंकि आपका प्रदर्शन अनुमान एक होल्ड आउट सेट से आएगा)?