सभी सांख्यिकीय प्रक्रियाएं प्रशिक्षण / परीक्षण डेटा में विभाजित नहीं होती हैं, जिन्हें "क्रॉस-वैधीकरण" भी कहा जाता है (हालांकि पूरी प्रक्रिया में इससे थोड़ा अधिक शामिल है)।
बल्कि, यह एक तकनीक है जो विशेष रूप से आउट-ऑफ-सैंपल त्रुटि का अनुमान लगाने के लिए उपयोग की जाती है ; यानी एक नए डेटासेट का उपयोग करके आपका मॉडल कितने नए परिणामों की भविष्यवाणी करेगा? जब आपके पास यह बहुत महत्वपूर्ण मुद्दा बन जाता है, उदाहरण के लिए, आपके डेटासेट में नमूनों की संख्या के सापेक्ष भविष्यवक्ताओं की एक बड़ी संख्या। ऐसे मामलों में, महान नमूना-त्रुटि के साथ एक मॉडल बनाना वास्तव में आसान है, लेकिन नमूना त्रुटि से भयानक है (जिसे "ओवर फिटिंग" कहा जाता है)। उन मामलों में जहां आपके पास बड़ी संख्या में भविष्यवक्ता और बड़ी संख्या में नमूने दोनों हैं, नए डेटा पर भविष्यवाणी करते समय मॉडल कितना अच्छा व्यवहार करेगा, इसका आकलन करने में मदद करने के लिए क्रॉस-सत्यापन एक आवश्यक उपकरण है। प्रतिस्पर्धी भविष्यवाणी करने वाले मॉडल के बीच चयन करते समय यह एक महत्वपूर्ण उपकरण है।
एक और नोट पर, क्रॉस-वैलिडेशन लगभग हमेशा एक पूर्वानुमान मॉडल के निर्माण की कोशिश करते समय उपयोग किया जाता है । सामान्य तौर पर, जब आप कुछ उपचार के प्रभाव का अनुमान लगाने की कोशिश कर रहे हैं तो यह मॉडल के लिए बहुत मददगार नहीं है। उदाहरण के लिए, यदि आप सामग्री ए और बी ("उपचार" सामग्री प्रकार) के बीच तन्य शक्ति के वितरण की तुलना कर रहे हैं, तो क्रॉस सत्यापन आवश्यक नहीं होगा; जब हम आशा करते हैं कि उपचार के प्रभाव का हमारा अनुमान नमूना से बाहर हो जाता है, तो अधिकांश समस्याओं के लिए क्लासिक सांख्यिकीय सिद्धांत इसका उत्तर दे सकता है (यानी अनुमानों की "मानक त्रुटियां") जो क्रॉस-सत्यापन से अधिक सटीक हैं। दुर्भाग्य से, शास्त्रीय सांख्यिकीय पद्धति 1मानक त्रुटियों के लिए ओवरफिटिंग के मामले में पकड़ नहीं है। क्रॉस-मान्यता अक्सर उस मामले में बहुत बेहतर करती है।
दूसरी ओर, यदि आप यह अनुमान लगाने की कोशिश कर रहे हैं कि जब 100,000 अवलोकनों के आधार पर कुछ मशीन लर्निंग मॉडल में फेंकने वाले 10,000 मापा चर के आधार पर कोई सामग्री टूट जाएगी, तो आपको क्रॉस सत्यापन के बिना एक महान मॉडल बनाने में बहुत परेशानी होगी!
मैं बहुत सारे भौतिकी के प्रयोगों में अनुमान लगा रहा हूं, आप आमतौर पर प्रभावों के आकलन में रुचि रखते हैं। उन मामलों में, क्रॉस-सत्यापन की बहुत कम आवश्यकता है।
1 एक तर्क दे सकता है कि जानकारीपूर्ण पुजारियों के साथ बायेसियन तरीके एक शास्त्रीय सांख्यिकीय पद्धति हैं जो ओवरफिटिंग को संबोधित करते हैं। लेकिन यह एक और चर्चा है।
साइड नोट: जबकि क्रॉस-मान्यता पहले सांख्यिकी साहित्य में दिखाई दी, और निश्चित रूप से उन लोगों द्वारा उपयोग की जाती है जो खुद को सांख्यिकीविद कहते हैं, यह मशीन सीखने के समुदाय में एक मूलभूत आवश्यक उपकरण बन गया है। आँकड़े मॉडल के बहुत सारे पार सत्यापन के उपयोग के बिना अच्छी तरह से काम करेंगे, लेकिन लगभग सभी मॉडल है कि "मशीन पूर्वानुमान आधारित मॉडल सीखने" माना जाता है की जरूरत पार सत्यापन, क्योंकि वे अक्सर ट्यूनिंग पैरामीटर, जो करने के लिए लगभग असंभव है पार के बिना के चयन की आवश्यकता होती है -validation।