तीसरा तरीका सही है। सटीक रूप से द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग के अद्भुत विवरण में क्यों कवर किया गया है , स्टॉक मार्केट उदाहरण में "द राइट एंड राइट टू डू क्रॉस-वेलिडेशन" अनुभाग देखें और लर्निंग फ्रॉम डेटा के अंतिम अध्याय में भी देखें।
अनिवार्य रूप से, आपके मॉडल के प्रशिक्षण, या मूल्यांकन में सेट किए गए डेटा से आपके होल्ड से, या भविष्य में प्रतिक्रिया के बारे में 1 और 2 लीक की जानकारी। यह आपके मॉडल मूल्यांकन में काफी आशावाद पूर्वाग्रह पैदा कर सकता है।
मॉडल सत्यापन में विचार उस स्थिति की नकल करने के लिए है जिसे आप तब करेंगे जब आपका मॉडल उत्पादन निर्णय ले रहा हो, जब आपके पास सही प्रतिक्रिया तक पहुंच न हो। परिणाम यह है कि आप अपने अनुमानित मूल्यों की तुलना के अलावा किसी भी चीज के लिए परीक्षण सेट में प्रतिक्रिया का उपयोग नहीं कर सकते हैं।
यह दृष्टिकोण करने का एक अन्य तरीका यह कल्पना करना है कि आपके पास केवल एक समय में अपने होल्ड आउट से एक डेटा बिंदु तक पहुंच है (उत्पादन मॉडल के लिए एक सामान्य स्थिति)। कुछ भी आप इस धारणा के तहत नहीं कर सकते हैं जिसे आपको बहुत संदेह में रखना चाहिए। स्पष्ट रूप से, एक चीज जो आप नहीं कर सकते हैं वह डेटा के अपने उत्पादन प्रवाह को सामान्य करने के लिए सभी नए डेटा-पॉइंट्स अतीत और भविष्य पर एकत्रित होती है - इसलिए मॉडल सत्यापन के लिए भी ऐसा करना अमान्य है।
आपको अपने परीक्षण सेट के गैर-शून्य होने के बारे में चिंता करने की ज़रूरत नहीं है, यह आपके प्रदर्शन प्रदर्शन अनुमानों को कम करने की तुलना में बेहतर स्थिति है। यद्यपि, निश्चित रूप से, यदि परीक्षण वास्तव में आपकी ट्रेन (सांख्यिकीय शिक्षा में एक आवश्यक धारणा) के समान अंतर्निहित वितरण से लिया गया है, तो इसका मतलब है कि लगभग शून्य के रूप में बाहर आना चाहिए।
R
? यह प्रश्न देखें: stackoverflow.com/questions/49260862/…