मुझे लगता है कि वर्तमान में स्वीकृत उत्तर दुर्भाग्यपूर्ण तरीके से अधूरा है। मैं वाक्य से सहमत नहीं हूं
क्रॉस-वैलिडेशन का उद्देश्य सीखने के मापदंडों की पहचान करना है जो प्रत्येक तह में हम सीखे गए जनसंख्या नमूनों में अच्छी तरह से सामान्यीकृत करते हैं।
यह वास्तव में क्रॉस सत्यापन का एक बहुत महत्वपूर्ण अनुप्रयोग है, लेकिन केवल एक ही नहीं। आमतौर पर, आप दो काम करना चाहते हैं:
- आप कर सकते हैं सबसे अच्छा मॉडल बनाएँ
- यह कितना अच्छा प्रदर्शन करता है, इसकी सटीक छाप प्राप्त करें
अब, अपने एल्गोरिथ्म के आधार पर उद्देश्य 1 को पूरा करने के लिए आपको कुछ हाइपरपामेटरों को ट्यून करने की आवश्यकता हो सकती है और यह वास्तव में अक्सर क्रॉस सत्यापन द्वारा किया जाता है। लेकिन यह अभी तक आप उद्देश्य 2 के साथ मदद नहीं करता है। इसके लिए आपको मूल रूप से क्रॉस सत्यापन को घोंसला बनाने की आवश्यकता है, जैसे:
- पूरे डेटा को n सिलवटों में विभाजित करें
- प्रत्येक के लिए, गुना डेटा को फिर से सबफ़ोल्ड में अलग करना
- अच्छे हाइपरपरमेटर्स सीखने के लिए सबफ़ोल्ड्स पर क्रॉस सत्यापन का उपयोग करें
- इन हाइपरपरमीटर से उस तह के प्रशिक्षण डेटा पर एक मॉडल बनाते हैं
- परीक्षण डेटा पर मॉडल का परीक्षण करें
- अगले मोड़ पर दोहराएं
एक अच्छा मॉडल बनाने के लिए आपको सिर्फ आंतरिक क्रॉस सत्यापन की आवश्यकता है। एक अच्छा मॉडल प्राप्त करने के लिए आपको अभी भी ऐसा करने की आवश्यकता होगी। लेकिन अपने मॉडल के प्रदर्शन का एक अच्छा अनुमान पाने के लिए आपको क्रॉस सत्यापन योजना के अंदर मॉडल निर्माण की पूरी प्रक्रिया को करने की आवश्यकता है। इसमें इंप्यूटेशन आदि जैसे कदम भी शामिल हैं।