शास्त्रीय आंकड़ों में इस्तेमाल होने वाला होल्डआउट तरीका (प्रशिक्षण और परीक्षण में डेटा को विभाजित करना) क्यों नहीं है?


12

डेटा माइनिंग के लिए मेरी कक्षा के एक्सपोज़र में, मॉडल प्रदर्शन का आकलन करने के तरीके के रूप में होल्डआउट विधि पेश की गई थी। हालांकि, जब मैंने रैखिक मॉडल पर अपनी पहली कक्षा ली, तो इसे मॉडल सत्यापन या मूल्यांकन के साधन के रूप में पेश नहीं किया गया था। मेरा ऑनलाइन शोध भी किसी भी प्रकार के प्रतिच्छेदन को प्रदर्शित नहीं करता है। शास्त्रीय आंकड़ों में होल्डआउट पद्धति का उपयोग क्यों नहीं किया जाता है?

जवाबों:


22

एक अधिक उत्पादक प्रश्न यह हो सकता है कि "मेरे द्वारा सीखे गए शास्त्रीय आँकड़ों में इसका उपयोग क्यों नहीं किया गया?"

जिस स्तर पर यह सिखाया गया था, उस पर निर्भर करते हुए, पाठ्यक्रम सामग्री (और समय उपलब्ध) जो पसंद विभिन्न कारकों के संयोजन के कारण हो सकती है। अक्सर महत्वपूर्ण विषयों को एक तरफ छोड़ दिया जाता है क्योंकि अन्य सामग्री को एक कारण या किसी अन्य के लिए सिखाया जाना चाहिए, इस उम्मीद के साथ कि वे बाद के विषयों में शामिल हो सकते हैं।

कम से कम कुछ इंद्रियों में, धारणा लंबे समय से विभिन्न लोगों द्वारा उपयोग की गई है। यह कुछ क्षेत्रों में दूसरों की तुलना में अधिक सामान्य था। आँकड़ों के कई उपयोगों में प्रमुख घटक (या कुछ मामलों में, यहाँ तक कि सभी में) के रूप में भविष्यवाणी या मॉडल का चयन नहीं होता है, और उस स्थिति में, जब मुख्य बिंदु होता है, तब होल्डआउट नमूनों का उपयोग कम महत्वपूर्ण हो सकता है। यकीनन, इसे पहले की तुलना में कुछ प्रासंगिक अनुप्रयोगों में अधिक व्यापक उपयोग प्राप्त करना चाहिए था, लेकिन यह अज्ञात होने के समान बात नहीं है।

यदि आप ऐसे क्षेत्रों को देखते हैं जो भविष्यवाणी पर ध्यान केंद्रित करते हैं, तो आपके द्वारा अपने मॉडल का अनुमान लगाने के लिए उपयोग किए गए डेटा का अनुमान लगाकर मॉडल मूल्यांकन की धारणा निश्चित रूप से आसपास थी (हालांकि सार्वभौमिक नहीं)। मैं निश्चित रूप से यह समय श्रृंखला मॉडलिंग के साथ कर रहा था जो मैं 1980 के दशक में कर रहा था, उदाहरण के लिए, जहां हाल ही के आंकड़ों के आउट-ऑफ-सैंपल प्रेडिक्टिव प्रदर्शन विशेष रूप से महत्वपूर्ण थे।

उदाहरण के लिए, कम से कम कुछ डेटा छोड़ने की धारणा का उपयोग प्रतिगमन (हटाए गए अवशेषों, प्रेस, जैकनाइफ, और इसी तरह) में किया गया था।

इन विचारों में से कुछ डेटा पहले भी एक अच्छा सौदा है। स्टोन (1974) [1] 1950 और 60 के दशक से क्रॉस-वैलिडेशन (शीर्षक में शब्द के साथ) पर कागजात को संदर्भित करता है। शायद आपके इरादे के करीब, वह साइमन (1971) के "निर्माण नमूना" और "सत्यापन नमूना" शब्दों के उपयोग का उल्लेख करता है - लेकिन यह भी बताता है कि "लार्सन (1931) ने एक शैक्षिक एकाधिक में नमूने के यादृच्छिक विभाजन को नियोजित किया था। -प्रोगेशन स्टडी ”।

क्रॉस वैधीकरण, और भविष्यवाणी और इसी तरह के आँकड़ों के उपयोग जैसे विषय, 70 के दशक में और 80 के दशक के दौरान सांख्यिकी साहित्य में बहुत अधिक लगातार हो रहे थे, उदाहरण के लिए, लेकिन कई बुनियादी विचार लगभग कुछ समय के लिए भी थे। फिर।

[१]: स्टोन, एम।, (१ ९ ,४)
"क्रॉस-वैलिडिटरी च्वाइस एंड असेसमेंट ऑफ़ स्टैटिस्टिकल प्रिडिक्शंस,"
जर्नल ऑफ़ द रॉयल स्टैटिस्टिकल सोसाइटी। सीरीज़ बी (मेथेडोलॉजिकल) , वॉल्यूम। 36, नंबर 2., पीपी। 111-147


सिर्फ रिकॉर्ड के लिए, कि एम। स्टोन मुझे नहीं है, और न ही वह मेरे से संबंधित है, संभवतः एडम और ईव के माध्यम से छोड़कर।
मार्क एल स्टोन

11

Glen_b द्वारा उत्तर पर पूरक करने के लिए, शास्त्रीय आंकड़ों में अक्सर डेटा के इष्टतम उपयोग , इष्टतम परीक्षण, इष्टतम अनुमानक, पर्याप्तता और इतने पर जोर होता है, और उस सैद्धांतिक ढांचे में जानकारी के भाग का उपयोग नहीं करना उचित ठहराना मुश्किल होता है ! उस परंपरा का एक हिस्सा छोटे नमूनों के साथ स्थितियों पर जोर है, जहां पकड़-आउट व्यावहारिक रूप से कठिन है।

फिशर ने काम किया, उदाहरण के लिए, मुख्य रूप से आनुवंशिकी और कृषि प्रयोग के साथ, और उन क्षेत्रों में छोटी संख्या में अवलोकन नियम थे। इसलिए वह मुख्य रूप से छोटे डेटा सेट के साथ ऐसी समस्याओं के संपर्क में था।


6

मैं एक ऐसे अनुप्रयुक्त क्षेत्र से उत्तर दूंगा जो शायद शास्त्रीय सांख्यिकी और मशीन लर्निंग के बीच है: केमोमेट्रिक्स, यानी रासायनिक विश्लेषण के लिए आँकड़े। मैं दो अलग-अलग परिदृश्यों को जोड़ूंगा जहां पकड़-आउट उतना महत्वपूर्ण नहीं है जितना कि विशिष्ट मशीन सीखने की कक्षाओं में है।


दृष्टांत 1:

मुझे लगता है कि यहां एक महत्वपूर्ण बिंदु यह महसूस करना है कि प्रशिक्षण बनाम परीक्षण के लिए छोटे नमूना आकार में एक बुनियादी अंतर है:

  • प्रशिक्षण के लिए, आमतौर पर मामलों की संख्या का अनुपात : मॉडल जटिलता (मापदंडों की संख्या) मामले (स्वतंत्रता की डिग्री)
  • परीक्षण के लिए, परीक्षण मामलों की पूर्ण संख्या मायने रखती है।
    (परीक्षण प्रक्रिया की गुणवत्ता मॉडल से स्वतंत्र होनी चाहिए: जिसे स्वतंत्र परीक्षण मामलों के साथ सत्यापन द्वारा ब्लैक बॉक्स माना जाता है)

मेरे तर्क के लिए मुझे जो दूसरा बिंदु चाहिए, वह यह है कि जिस स्थिति में स्वतंत्र परीक्षण के मामले महत्वपूर्ण हैं, वह ओवरफिटिंग है। यदि मॉडल पर्याप्त जटिल नहीं है (पूर्वाग्रह विचरण, इसलिए फिटिंग के तहत ), तो अवशिष्ट आपको कुल भविष्यवाणी त्रुटि के बारे में स्वतंत्र मामलों के रूप में बता सकते हैं।»

अब, "शास्त्रीय" रैखिक मॉडल पर आंकड़े व्याख्यान अक्सर एकरूप मॉडल पर बहुत अधिक जोर देते हैं। एक अनियिरिएट लीनियर मॉडल के लिए, प्रशिक्षण नमूना आकार छोटा नहीं है: प्रशिक्षण नमूना आकार आमतौर पर मॉडल जटिलता की तुलना में आंका जाता है, और रैखिक मॉडल में सिर्फ दो पैरामीटर हैं, ऑफसेट और ढलान। विश्लेषणात्मक रसायन विज्ञान में, हमारे पास वास्तव में एक मानदंड है जिसमें कहा गया है कि आपके कम से कम 10 अंशांकन नमूने आपके यूनीवेट रैखिक अंशांकन के लिए होने चाहिए। यह एक ऐसी स्थिति सुनिश्चित करता है जहां मॉडल अस्थिरता मज़बूती से एक मुद्दा नहीं है, इसलिए होल्ड-आउट की आवश्यकता नहीं है।

हालांकि, मशीन लर्निंग में, साथ ही साथ रासायनिक विश्लेषण में आधुनिक मल्टी-चैनल डिटेक्टर (कभी-कभी 10 machine "चैनल" जैसे मास स्पेक्ट्रोमेट्री में), मॉडल स्थिरता (यानी विचरण) एक महत्वपूर्ण मुद्दा है। इस प्रकार, होल्ड-आउट या बेहतर रीसम्पलिंग की आवश्यकता है।


परिदृश्य 2:

एक पूरी तरह से अलग स्थिति यह है कि होल्ड-आउट को एक आसान (अवशिष्ट) और अधिक परिष्कृत प्रदर्शन माप के संयोजन के पक्ष में छोड़ दिया जा सकता है। ध्यान दें कि एक डेटा सेट के अलग हिस्से को (बेतरतीब ढंग से) स्थापित करने और इसे प्रशिक्षण से बाहर रखने के अर्थ में होल्ड करना स्वतंत्र परीक्षण के बराबर नहीं है । विश्लेषणात्मक रसायन विज्ञान में, समर्पित सत्यापन प्रयोगों का आयोजन किया जा सकता है, जिसमें समय के साथ प्रदर्शन में गिरावट (इंस्ट्रूमेंट ड्रिफ्ट) को मापना शामिल होगा, जिसे होल्ड-आउट द्वारा स्थापित नहीं किया जा सकता है और उदाहरण के लिए वास्तविक औद्योगिक वातावरण में सेंसर का प्रदर्शन (जबकि सेंसर अंशांकन) अंशांकन नमूनों पर प्रयोगशाला में किया गया था)। Https://stats.stackexchange.com/a/104750/4598 भी देखें स्वतंत्र परीक्षण बनाम होल्ड-आउट पर अधिक विवरण के लिए।


ऊपर, sceanario 1 में, मुझे लगता है कि आपने कहने का क्या मतलब है (पूर्वाग्रह << विचरण)? कृपया सही करें!
kjetil b halvorsen

1
@kjetilbhalvorsen no, क्योंकि वह उस पैराग्राफ (जो कि पर्याप्त जटिल नहीं है) में अंडरफिटिंग का जिक्र है।
मार्क क्लेसेन

@kjetilbhalvorsen; मार्क क्लेसेन सही है, मैंने जोर दिया कि यह उन स्थितियों के लिए है जहां आप सुनिश्चित कर सकते हैं कि समस्या कम हो रही है।
cbeleites दुखी SX

ठीक। कुछ अक्षरों को पुनः संतुष्ट करने के लिए
kjetil b halvorsen
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.