मुझे नहीं पता कि यह टिप्पणी के रूप में या उत्तर के रूप में योग्य है। मैं यहाँ डाल रहा हूँ क्योंकि यह एक जवाब की तरह लगता है।
K- गुना क्रॉस-वैरिफिकेशन में आप अपने डेटा को k समूहों में विभाजित कर रहे हैं। यदि आप "मूल बातें" को भी कवर कर रहे हैं तो आप प्रत्येक बी डिब्बे के लिए समान रूप से यादृच्छिक रूप से सदस्यों का चयन कर रहे हैं।
जब मैं डेटा की बात करता हूं, तो मैं प्रत्येक पंक्ति को नमूने के रूप में, और प्रत्येक कॉलम को एक आयाम के रूप में समझता हूं। मुझे चर महत्व, स्तंभ महत्व निर्धारित करने के लिए विभिन्न तरीकों का उपयोग करने के लिए उपयोग किया जाता है।
क्या होगा यदि आप एक विचार अभ्यास के रूप में, "पाठ्यपुस्तक" वर्दी यादृच्छिक से चले गए, और निर्धारित किया कि कौन सी पंक्तियाँ महत्वपूर्ण थीं? हो सकता है कि वे एक बार में एक ही चर को सूचित करते हैं, लेकिन शायद वे अधिक जानकारी देते हैं। क्या कुछ पंक्तियाँ हैं जो दूसरों की तुलना में कम महत्वपूर्ण हैं? हो सकता है कि बहुत से बिंदु जानकारीपूर्ण हों, शायद बहुत कम हैं।
चर के महत्व को जानते हुए, शायद आप उन्हें महत्व देकर बिन कर सकते हैं। हो सकता है कि आप सबसे महत्वपूर्ण नमूनों के साथ एक ही बिन बना सकें। यह आपके "k" के आकार को परिभाषित कर सकता है। इस तरह, आप "सबसे अधिक जानकारीपूर्ण" kth बाल्टी का निर्धारण करेंगे और इसकी तुलना दूसरों के साथ, और कम से कम सूचनात्मक बाल्टी के खिलाफ करेंगे।
इससे आपको अपने मॉडल मापदंडों की अधिकतम भिन्नता का अंदाजा हो सकता है। यह केवल एक रूप है।
केटी बाल्टी को विभाजित करने का एक दूसरा तरीका परिमाण और प्रभाव की दिशा है। तो आप ऐसे नमूने डाल सकते हैं जो एक पैरामीटर या मापदंडों को एक दिशा में एक बाल्टी में डालते हैं और एक ही पैरामीटर या पैरामीटर को विपरीत दिशा में एक अलग बाल्टी में डालते हैं।
इस रूप में पैरामीटर भिन्नता सूचना घनत्व पर नहीं, बल्कि सूचना नस्ल के आधार पर, चर को व्यापक रूप दे सकती है।
शुभकामनाएँ।