आपको पूर्व-प्रसंस्करण या अव्यवस्था से पहले विभाजित होना चाहिए।
प्रशिक्षण और परीक्षण सेट के बीच का विभाजन उस स्थिति को दोहराने का प्रयास है जहां आपके पास पिछली जानकारी है और एक मॉडल का निर्माण कर रहे हैं जिसे आप भविष्य में अभी तक अज्ञात जानकारी के रूप में परीक्षण करेंगे: प्रशिक्षण सेट अतीत की जगह लेता है और परीक्षण सेट लेता है भविष्य की जगह, इसलिए आप केवल एक बार अपने प्रशिक्षित मॉडल का परीक्षण करें।
अतीत / भविष्य की सादृश्य को ध्यान में रखते हुए, इसका मतलब है कि आप अपने डेटा को पूर्व-संसाधित या संसाधित करने के लिए कुछ भी करते हैं, जैसे कि लापता मानों को लागू करना, आपको अकेले प्रशिक्षण सेट पर करना चाहिए। आप तब याद रख सकते हैं कि आपने अपने प्रशिक्षण सेट पर क्या किया है यदि आपके परीक्षण सेट को भी पूर्व-प्रसंस्करण या अव्यावहारिकता की आवश्यकता है, ताकि आप इसे दोनों सेटों पर उसी तरह से कर सकें।
टिप्पणियों से जोड़ा गया: यदि आप प्रशिक्षण डेटा को प्रभावित करने के लिए परीक्षण डेटा का उपयोग करते हैं, तो आपके मॉडल के निर्माण के लिए परीक्षण डेटा का उपयोग किया जा रहा है, इसलिए यह परीक्षण डेटा होना बंद कर देता है और आपके मॉडल का उचित परीक्षण प्रदान नहीं करेगा। आप ओवरफिटिंग का जोखिम उठाते हैं, और यह इस बात को हतोत्साहित करने के लिए था कि आपने पहली बार परीक्षण डेटा को अलग किया था