एक महत्वपूर्ण अंतर यह है कि क्या आप चाहते हैं:
- [सबसे आम मामला]: नए विषयों (आपके डेटा के समान जनसंख्या से खींचा गया) पर प्रदर्शन का अनुमान बनाएं।
- अपने नमूने में समान विषयों से नई टिप्पणियों पर प्रदर्शन का एक अनुमान बनाएं।
कहीं अधिक सामान्य मामला केस नंबर (1) है। जैसे।, आपातकालीन कक्ष में आने वाले किसी व्यक्ति के लिए आप दिल के दौरे की कितनी अच्छी भविष्यवाणी करते हैं? और अगर आप (1) के मामले में हैं, तो आपको लगभग (बी) रिकॉर्ड-वार क्रॉस-सत्यापन के बजाय (ए) विषय-वार क्रॉस-वैलिडेशन करना चाहिए। मामले में रिकॉर्ड-वार सत्यापन (1) होने की संभावना से अनुचित रूप से उच्च, नए विषयों पर प्रदर्शन का अनुमान कम हो जाएगा।
मुझे ठीक से समझ नहीं आ रहा है कि आप क्या करने की कोशिश कर रहे हैं (और शायद यह सेल्फ स्टडी है इसलिए सवाल पूरी तरह से यथार्थवादी नहीं है)। मुझे नहीं पता कि आप किस मामले में हैं। यदि आप बहुत कम सामान्य मामले (2) में हैं, तो रिकॉर्ड वार मान्यता ठीक हो सकती है।
आंकड़ों में एक सामान्य विषय यह है कि स्वतंत्र क्या है और सहसंबद्ध क्या है, इसके बारे में सावधानी से सोचें। आम तौर पर, एक स्वतंत्र अवलोकन एक अलग विषय बन जाता है। यदि आप नए विषयों पर प्रदर्शन की भविष्यवाणी करना चाहते हैं, तो आपको उन विषयों पर परीक्षण करना होगा जिन्हें आपने प्रशिक्षित नहीं किया था!
रिकॉर्ड-वार के बजाए विषयवार क्रॉस सत्यापन क्यों?
विशिष्ट सेटिंग्स में, एक ही व्यक्ति की बार-बार टिप्पणियों को सुविधाओं पर कंडीशनिंग के बाद भी एक दूसरे के साथ सहसंबद्ध किया जाता है। इसलिए रिकॉर्ड-वार क्रॉस-मान्यता के साथ, आपका परीक्षण सेट आपके प्रशिक्षण सेट से स्वतंत्र नहीं है ! पूर्ण सहसंबंध के चरम मामले में, आपको प्रशिक्षण सेट और परीक्षण सेट में सटीक समान अवलोकन होंगे! आप परीक्षण सेट पर प्रशिक्षण करेंगे! क्रॉस-वेलिडेशन में मापा गया प्रदर्शन नए विषयों पर प्रदर्शन का अनुमान नहीं होगा ।
उदाहरण के लिए, यह हालिया पेपर रिकॉर्ड-वार क्रॉस-वेलिडेशन कहता है, `` वूडू मशीन लर्निंग।
हालांकि कुछ विषयों के साथ क्या करना है ...
शायद कुछ टिप्पणीकारों ने मुझे क्राइम-इन-वेलिडेशन के साथ अनुभव किया, जो मेरे लिए चीम-इन कर सकते थे, लेकिन यह लिए एक संभावित उम्मीदवार की तरह दिखता है (उर्फ एक क्रॉस-वैलीडेशन छोड़ दें)?k=n
प्रशिक्षण के लिए डेटा को अधिकतम करने के लिए, आप जो कुछ कर सकते हैं, वह एक विषय को क्रॉस सत्यापन के लिए छोड़ दें। प्रत्येक पुनरावृत्ति, एक अलग पकड़-आउट विषय पर परीक्षण और अन्य सभी पर प्रशिक्षण।
यदि विषय सभी बहुत अलग हैं, तो आप प्रभावी रूप से करीब हो सकते हैं और प्रशिक्षण सेट में कई स्वतंत्र विषयों को रखना चाह सकते हैं।n=38