क्या परीक्षण और प्रशिक्षण में डेटा को विभाजित करना विशुद्ध रूप से एक "आँकड़े" चीज है?


11

मैं एक भौतिक विज्ञान का छात्र हूँ जो मशीन लर्निंग / डेटा साइंस का अध्ययन कर रहा है, इसलिए मुझे इस प्रश्न के लिए किसी भी संघर्ष को शुरू करने का मतलब नहीं है :) हालाँकि, किसी भी भौतिकी स्नातक कार्यक्रम का एक बड़ा हिस्सा प्रयोगशालाओं / प्रयोगों को करना है, जिसका अर्थ है बहुत सारा डेटा प्रसंस्करण और सांख्यिकीय विश्लेषण। हालाँकि, मैं भौतिकविदों द्वारा डेटा से निपटने के तरीके और मेरे डेटा विज्ञान / सांख्यिकीय सीखने की पुस्तकों के डेटा के बीच के तरीके में एक तीव्र अंतर को देखता हूँ।

महत्वपूर्ण अंतर यह है कि जब भौतिकी प्रयोगों से प्राप्त आंकड़ों के लिए प्रतिगमन करने की कोशिश की जाती है, तो प्रतिगमन एल्गोरिदम को WHOLE डेटासेट पर लागू किया जाता है , प्रशिक्षण और परीक्षण सेट में कोई विभाजन नहीं होता है। भौतिकी दुनिया में, आर ^ 2 या किसी प्रकार का छद्म-आर ^ 2 की गणना पूरे डेटा सेट के आधार पर मॉडल के लिए की जाती है। आंकड़े की दुनिया में, डेटा लगभग हमेशा 80-20, 70-30, आदि में विभाजित होता है ... और फिर मॉडल का मूल्यांकन परीक्षण डेटासेट के खिलाफ किया जाता है।

कुछ प्रमुख भौतिकी प्रयोग (ATLAS, BICEP2, आदि ...) भी हैं जो कभी भी इस डेटा को विभाजित नहीं करते हैं, इसलिए मैं सोच रहा हूं कि भौतिकविदों / प्रयोगवादियों के आंकड़ों और जिस तरह से डेटा वैज्ञानिकों के बीच ऐसा एक कट्टर अंतर है आँकड़े करो।


1
(+1) बहुत अच्छा सवाल (कि मेरे पास ठीक से उत्तर देने का समय नहीं है)। टिप्पणी: भौतिकी में "वास्तविक प्रयोगों" की विलासिता है; आम तौर पर नियंत्रित / प्रयोगशाला की स्थिति, ज्यादातर अच्छी तरह से परिभाषित परिणाम / चर और मान लिया जाने वाला दोहराव। सामान्य सार्वजनिक स्वास्थ्य / अर्थमिति / सर्वेक्षण सांख्यिकी परियोजनाएं (कुछ स्पष्ट उप-क्षेत्रों का उल्लेख करने के लिए) बस ऐसा नहीं करती हैं। कन्फ़्यूज़निंग, सीज़नसिटी (समय-निर्भरता) और आम तौर पर कॉन्सेप्ट ड्रिफ्ट का आंकड़ा सांख्यिकी में व्याप्त है , इसलिए यह "डेटा का विभाजन" पूरी तरह से मूर्खतापूर्ण परिणामों को रोकने के स्पष्ट तरीकों में से एक है। साथ ही सभी अनुमानकों को समान रूप से कुशल नहीं बनाया जाता है। :)
us atr11852

3
डेविड डोनोहो, स्टैनफोर्ड के एक प्रोफेसर: पाठ्यक्रम .csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf पर एक हालिया चर्चा पत्र में आपको प्रासंगिक चर्चा और पृष्ठभूमि का एक धन मिलेगा विशेष रूप से "भविष्य कहनेवाला संस्कृति" की चर्चा देखें "जैसा कि पारंपरिक आंकड़ों के साथ विपरीत है।
गॉर्डन स्मिथ

1
मुझे लगता है कि यह "सिद्धांत की अनुपस्थिति में भविष्यवाणी" चीज है, जो "सांख्यिकी" का एक छोटा सा उप-समूह है, और मशीन सीखने का एक बड़ा सबसेट है।
द लैकोनिक

सांख्यिकीविद अपने डेटा (p <.05)
rep_ho

@rep_ho कुछ - शायद बहुत से - सांख्यिकीविद् ऐसी स्थितियों से जुड़े हैं जहाँ से नमूना भविष्यवाणी करना महत्वपूर्ण है (और कुछ ने लंबे समय तक किया है)। क्रॉसवैलिडेशन और लीव-वन-आउट आँकड़े (उदाहरण के लिए) जैसे विचार युगों से हैं। सांख्यिकीविदों को सिर्फ एक बार विभाजित नहीं करना है, हालांकि, जब तक कि यह अपरिहार्य न हो। यह निर्भर करता है कि आप किन सांख्यिकीविदों से बात करते हैं
Glen_b -Reinstate Monica

जवाबों:


6

सभी सांख्यिकीय प्रक्रियाएं प्रशिक्षण / परीक्षण डेटा में विभाजित नहीं होती हैं, जिन्हें "क्रॉस-वैधीकरण" भी कहा जाता है (हालांकि पूरी प्रक्रिया में इससे थोड़ा अधिक शामिल है)।

बल्कि, यह एक तकनीक है जो विशेष रूप से आउट-ऑफ-सैंपल त्रुटि का अनुमान लगाने के लिए उपयोग की जाती है ; यानी एक नए डेटासेट का उपयोग करके आपका मॉडल कितने नए परिणामों की भविष्यवाणी करेगा? जब आपके पास यह बहुत महत्वपूर्ण मुद्दा बन जाता है, उदाहरण के लिए, आपके डेटासेट में नमूनों की संख्या के सापेक्ष भविष्यवक्ताओं की एक बड़ी संख्या। ऐसे मामलों में, महान नमूना-त्रुटि के साथ एक मॉडल बनाना वास्तव में आसान है, लेकिन नमूना त्रुटि से भयानक है (जिसे "ओवर फिटिंग" कहा जाता है)। उन मामलों में जहां आपके पास बड़ी संख्या में भविष्यवक्ता और बड़ी संख्या में नमूने दोनों हैं, नए डेटा पर भविष्यवाणी करते समय मॉडल कितना अच्छा व्यवहार करेगा, इसका आकलन करने में मदद करने के लिए क्रॉस-सत्यापन एक आवश्यक उपकरण है। प्रतिस्पर्धी भविष्यवाणी करने वाले मॉडल के बीच चयन करते समय यह एक महत्वपूर्ण उपकरण है।

एक और नोट पर, क्रॉस-वैलिडेशन लगभग हमेशा एक पूर्वानुमान मॉडल के निर्माण की कोशिश करते समय उपयोग किया जाता है । सामान्य तौर पर, जब आप कुछ उपचार के प्रभाव का अनुमान लगाने की कोशिश कर रहे हैं तो यह मॉडल के लिए बहुत मददगार नहीं है। उदाहरण के लिए, यदि आप सामग्री ए और बी ("उपचार" सामग्री प्रकार) के बीच तन्य शक्ति के वितरण की तुलना कर रहे हैं, तो क्रॉस सत्यापन आवश्यक नहीं होगा; जब हम आशा करते हैं कि उपचार के प्रभाव का हमारा अनुमान नमूना से बाहर हो जाता है, तो अधिकांश समस्याओं के लिए क्लासिक सांख्यिकीय सिद्धांत इसका उत्तर दे सकता है (यानी अनुमानों की "मानक त्रुटियां") जो क्रॉस-सत्यापन से अधिक सटीक हैं। दुर्भाग्य से, शास्त्रीय सांख्यिकीय पद्धति 1मानक त्रुटियों के लिए ओवरफिटिंग के मामले में पकड़ नहीं है। क्रॉस-मान्यता अक्सर उस मामले में बहुत बेहतर करती है।

दूसरी ओर, यदि आप यह अनुमान लगाने की कोशिश कर रहे हैं कि जब 100,000 अवलोकनों के आधार पर कुछ मशीन लर्निंग मॉडल में फेंकने वाले 10,000 मापा चर के आधार पर कोई सामग्री टूट जाएगी, तो आपको क्रॉस सत्यापन के बिना एक महान मॉडल बनाने में बहुत परेशानी होगी!

मैं बहुत सारे भौतिकी के प्रयोगों में अनुमान लगा रहा हूं, आप आमतौर पर प्रभावों के आकलन में रुचि रखते हैं। उन मामलों में, क्रॉस-सत्यापन की बहुत कम आवश्यकता है।

1 एक तर्क दे सकता है कि जानकारीपूर्ण पुजारियों के साथ बायेसियन तरीके एक शास्त्रीय सांख्यिकीय पद्धति हैं जो ओवरफिटिंग को संबोधित करते हैं। लेकिन यह एक और चर्चा है।

साइड नोट: जबकि क्रॉस-मान्यता पहले सांख्यिकी साहित्य में दिखाई दी, और निश्चित रूप से उन लोगों द्वारा उपयोग की जाती है जो खुद को सांख्यिकीविद कहते हैं, यह मशीन सीखने के समुदाय में एक मूलभूत आवश्यक उपकरण बन गया है। आँकड़े मॉडल के बहुत सारे पार सत्यापन के उपयोग के बिना अच्छी तरह से काम करेंगे, लेकिन लगभग सभी मॉडल है कि "मशीन पूर्वानुमान आधारित मॉडल सीखने" माना जाता है की जरूरत पार सत्यापन, क्योंकि वे अक्सर ट्यूनिंग पैरामीटर, जो करने के लिए लगभग असंभव है पार के बिना के चयन की आवश्यकता होती है -validation।


मुझे लगता है कि भविष्यवाणी / अनुमान भेद के बारे में आपका नवीनतम संपादन थोड़ा बंद है और गलत व्याख्या के लिए प्रवण है (जो मैं अभी कर सकता हूं)। कुछ भी हो, अगर हम उस सामग्री A का अनुमान लगाते हैं, तो B हमसे अधिक मजबूत है, हम चाहते हैं कि यह नमूना भी बाहर रखे। इसके अलावा, इस तरह के एक विचार बूटस्ट्रैप / क्रमपरिवर्तन दृष्टिकोण की अनदेखी करेगा। और उदाहरण थोड़ा हटकर है; एक वास्तव में एक ट्रेन परीक्षण विभाजित दृष्टिकोण से बल्कि नियमितीकरण से सहेजा नहीं गया है। np
us --r11852

@ us @r11852: हाँ, लेकिन क्रॉस-वैलिडेशन के बिना उचित नियमितीकरण दंड लेने के लिए लगभग असंभव है (बायेसियन पादरियों के रूप में दंड के बारे में सोचने के अलावा, लेकिन यह ब्लैक बॉक्स मॉडल के साथ कठिन है!)। और जब हम नमूना से बाहर रखने के लिए ए से बी की तुलना में हमारे परिणाम चाहते हैं, तो यह आम तौर पर एक समस्या नहीं है जिसके लिए मॉडल ट्यूनिंग की आवश्यकता होती है (जैसे कि भविष्यवाणी अक्सर होती है), और मापदंडों की अपेक्षाकृत कम संख्या के साथ, शास्त्रीय सांख्यिकीय सिद्धांत इसे संभाल सकता है क्रॉस सत्यापन का उपयोग किए बिना।
क्लिफ एबी

यह एक परिपत्र तर्क है, नियमितीकरण क्रॉस-वैलिडेशन का उपयोग करता है लेकिन नियमितीकरण के लिए क्रॉस-सत्यापन किया जाता है। इसलिए मैंने इसके खिलाफ कुछ टिप्पणी की, जिसके साथ शुरुआत करनी थी। मुझे लगता है कि इस गैर-मॉडल ट्यूनिंग दृष्टिकोण (सांख्यिकीय उदाहरण 2016 जोहानसन एट अल के लिए देखें) से सांख्यिकीय निष्कर्ष / कार्य-कारणता दूर हो जाती है। "प्रतिरूपण विरोधाभास के लिए सीखना निरूपण" - ऐसा गन्दा सुंदर पेपर)। अंत में मौलिक भौतिकी अनुसंधान जब इसे प्रस्तुत किया गया तो कठिन समस्याएं एमएल (उदाहरण के लिए हिग्स बोसोन मशीन लर्निंग चैलेंज ) दृष्टिकोण पर भी भरोसा कर सकती हैं ।
us --r11852

@ us @r11852 नियमितीकरण क्रॉस-मान्यता का "उपयोग" नहीं करता है, बल्कि नियमितीकरण के लिए आपके ट्यूनिंग पैरामीटर को क्रॉस सत्यापन का उपयोग करके चुना जाता है। उदाहरण के लिए, को देखने के glment'एस cv.glmnetएक अच्छा कॉम्पैक्ट समारोह में पूरी प्रक्रिया के लिए।
क्लिफ एबी

1
इसके अलावा, मैंने कभी यह दावा नहीं किया कि भौतिकी अनुसंधान एमएल दृष्टिकोणों का उपयोग नहीं कर सकता है और न ही क्रॉस-मान्यता! मैं केवल यह समझा रहा था कि क्रॉस-मान्यता आमतौर पर विशेष रूप से भविष्यवाणियों में जटिल मॉडल / ट्यूनिंग मापदंडों के बीच चयन करने के लिए उपयोग की जाती है, और यह कि कई क्लासिक भौतिकी प्रयोगों में, क्रॉस-सत्यापन आवश्यक नहीं है। तो उस डेटा के साथ भौतिक विज्ञानी क्या करते हैं, यह जरूरी नहीं है कि सांख्यिकीविद् उस डेटा के साथ क्या करेंगे, जो मुझे विश्वास है कि ओपी के सवाल का मूल था।
क्लिफ एबी

3

(विश्लेषणात्मक) केमिस्ट होने के नाते , मैं दोनों दृष्टिकोणों का सामना करता हूं: योग्यता के आंकड़ों की विश्लेषणात्मक गणना [ज्यादातर अविभाजित प्रतिगमन के लिए] और साथ ही योग्यता के पूर्वानुमान आंकड़ों का प्रत्यक्ष माप।
मेरे लिए ट्रेन / परीक्षण का विभाजन भविष्यवाणी की गुणवत्ता को मापने के लिए एक सत्यापन प्रयोग का "छोटा भाई" है।


लंबा जवाब:

स्नातक भौतिक रसायन विज्ञान में हम जो विशिष्ट प्रयोग करते हैं, वह अविभाजित प्रतिगमन का उपयोग करता है। ब्याज की संपत्ति अक्सर मॉडल पैरामीटर हैं, उदाहरण के लिए जब प्रतिक्रिया कैनेटीक्स को मापते समय स्थिर होता है, लेकिन कभी-कभी भविष्यवाणियां भी होती हैं (जैसे कि ब्याज के कुछ मूल्य का अनुमान / माप करने के लिए रैखिक अंशांकन को अनवीयर किया जाता है)।
ओवरफिटिंग न करने के संदर्भ में ये स्थितियां बहुत सौम्य हैं: आमतौर पर सभी मापदंडों का अनुमान लगाने के बाद स्वतंत्रता की डिग्री की एक आरामदायक संख्या होती है, और वे शास्त्रीय विश्वास या भविष्यवाणी अंतराल गणना और शास्त्रीय त्रुटि के साथ छात्रों को प्रशिक्षित करने के लिए उपयोग की जाती हैं। प्रसार - वे इन स्थितियों के लिए विकसित किए गए थे। और यहां तक ​​कि अगर स्थिति पूरी तरह से पाठ्यपुस्तक की तरह नहीं है (उदाहरण के लिए मेरे डेटा में संरचना है, जैसे कि कैनेटीक्स में, मुझे उम्मीद है कि प्रतिक्रिया के रनों के बीच विचरण द्वारा डेटा का बेहतर वर्णन किया जाता है + एक रन से माप के बीच विचरण सादा एक-विचरण-केवल दृष्टिकोण), मेरे पास आम तौर पर उपयोगी परिणाम प्राप्त करने के लिए प्रयोग के पर्याप्त रन हो सकते हैं।

हालांकि, अपने पेशेवर जीवन में, मैं स्पेक्ट्रोस्कोपी डेटा सेट के साथ (आमतौर पर 100s 1000s के लिए variates का सौदा ) स्वतंत्र मामलों (नमूने) के बजाय सीमित सेट के साथ और इसके अलावा । अक्सर , तो हम नियमितीकरण जिनमें से यह हमेशा आसान कहने के लिए हम कैसे आजादी के कई डिग्री का उपयोग नहीं है का उपयोग करें, और इसके अलावा हम कुछ हद तक छोटे के लिए क्षतिपूर्ति कम से कम करने की कोशिश (बड़े) की संख्या का उपयोग करके लगभग दोहराया माप - जो हमें एक अज्ञात प्रभावी साथ छोड़ देता है । बिना याn n < p n n n d fpnn<pnnndfशास्त्रीय दृष्टिकोण काम नहीं करते। लेकिन जैसा कि मैं ज्यादातर भविष्यवाणियां कर रहा हूं, मेरे पास हमेशा अपने मॉडल की भविष्य कहनेवाला क्षमता को मापने की बहुत प्रत्यक्ष संभावना है: मैं भविष्यवाणियां करता हूं, और उनकी तुलना संदर्भ मूल्यों से करता हूं।

यह दृष्टिकोण वास्तव में बहुत शक्तिशाली है (हालांकि महंगा प्रायोगिक प्रयास के कारण), क्योंकि यह मुझे उन परिस्थितियों के लिए भविष्य कहनेवाला गुणवत्ता की जांच करने की अनुमति देता है जो प्रशिक्षण / अंशांकन डेटा में शामिल नहीं थे। उदाहरण के लिए, मैं अनुमान लगा सकता हूं कि एक्सट्रपलेशन के साथ भविष्यवाणियां कैसे बिगड़ती हैं (एक्सट्रपलेशन में भी शामिल हैं, जैसे कि माप किए गए हैं, कहते हैं, प्रशिक्षण डेटा प्राप्त होने के एक महीने बाद), मैं भ्रमित कारकों के खिलाफ असभ्यता की जांच कर सकता हूं जो मुझे महत्वपूर्ण होने की उम्मीद है, दूसरे शब्दों में आदि। , हम अपने मॉडल के व्यवहार का अध्ययन कर सकते हैं जैसे हम किसी अन्य प्रणाली के व्यवहार का अध्ययन करते हैं: हम कुछ बिंदुओं की जांच करते हैं, या इसे गड़बड़ाते हैं और सिस्टम के उत्तर में परिवर्तन को देखते हैं, आदि।

मैं कहूंगा कि अधिक महत्वपूर्ण भविष्य कहनेवाला गुण (और अधिक होने का खतरा) जितना अधिक होगा हम विश्लेषणात्मक व्युत्पन्न संख्याओं के बजाय भविष्य कहनेवाला गुणवत्ता के प्रत्यक्ष माप को प्राथमिकता देते हैं। (बेशक हम उन सभी कन्फ्यूडर को प्रशिक्षण प्रयोग के डिजाइन में शामिल कर सकते थे)। कुछ क्षेत्रों जैसे चिकित्सा निदान की मांग है कि वास्तविक रोगियों पर मॉडल को "ढीला" होने से पहले उचित सत्यापन अध्ययन किया जाता है।

ट्रेन / परीक्षण विभाजन (चाहे होल्ड हो * या क्रॉस वेलिडेशन या आउट-ऑफ-बूटस्ट्रैप या ...) इस एक कदम को आसान बनाता है। हम अतिरिक्त प्रयोग को बचाते हैं और एक्सट्रपलेशन नहीं करते हैं (हम केवल प्रशिक्षण डेटा के बहुत ही समान वितरण के अज्ञात स्वतंत्र मामलों की भविष्यवाणी करने के लिए सामान्यीकृत करते हैं)। मैं इसे सत्यापन के बजाय सत्यापन के रूप में वर्णित करता हूं (हालांकि सत्यापन यहां शब्दावली में गहरा है)। यह अक्सर जाने के लिए व्यावहारिक तरीका है यदि योग्यता के आंकड़ों की सटीकता पर बहुत अधिक मांग नहीं है (उन्हें एक प्रूफ-ऑफ-कॉन्सेप्ट परिदृश्य में बहुत सटीक रूप से ज्ञात करने की आवश्यकता नहीं हो सकती है)।

* भविष्यवाणी की गुणवत्ता को मापने के लिए एक ठीक से डिजाइन किए गए अध्ययन के साथ ट्रेन और परीक्षण में एक भी यादृच्छिक विभाजन को भ्रमित न करें।


2
सत्यापन और सत्यापन में अंतर को इंगित करने के लिए +1।
भविष्यवक्ता
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.