क्या प्रशिक्षण डेटासेट पर केवल खोजपूर्ण डेटा विश्लेषण करना बेहतर है?


15

मैं डेटासेट पर खोजपूर्ण डेटा विश्लेषण (EDA) कर रहा हूं। फिर मैं एक आश्रित चर की भविष्यवाणी करने के लिए कुछ सुविधाओं का चयन करूंगा।

सवाल यह है कि
क्या मुझे अपने प्रशिक्षण डेटासेट पर EDA करना चाहिए? या क्या मुझे प्रशिक्षण और परीक्षण डेटासेट में शामिल होना चाहिए, फिर उन दोनों पर ईडीए करें और इस विश्लेषण के आधार पर सुविधाओं का चयन करें?

जवाबों:


6

मैं "7.10.2 गलत और सही तरीके से करना पार सत्यापन करने के लिए" में पर एक नज़र होने की सलाह देते हैं http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf

लेखक एक उदाहरण देते हैं जिसमें कोई निम्नलिखित करता है:

  1. भविष्यवक्ताओं को स्क्रीन करें: "अच्छे" भविष्यवक्ताओं का एक सबसेट खोजें, जो वर्ग लेबल के साथ काफी मजबूत (अविभाज्य) सहसंबंध दिखाता है
  2. भविष्यवक्ताओं के इस सबसेट का उपयोग करते हुए, एक बहुभिन्नरूपी वर्गीकरण का निर्माण करें।
  3. अज्ञात ट्यूनिंग मापदंडों का अनुमान लगाने और अंतिम मॉडल की भविष्यवाणी की त्रुटि का अनुमान लगाने के लिए क्रॉस-सत्यापन का उपयोग करें

यह आपके डेटा के सभी (यानी प्रशिक्षण प्लस परीक्षण) पर ईडीए करने और "अच्छे" भविष्यवक्ताओं का चयन करने के लिए ईडीए का उपयोग करने के समान लगता है।

लेखक समझाते हैं कि यह समस्याग्रस्त क्यों है: क्रॉस-वेलिडेड त्रुटि दर कृत्रिम रूप से कम होगी, जो आपको यह सोचकर भ्रमित कर सकती है कि आपने एक अच्छा मॉडल पाया है।


1

तो आप स्वतंत्र चर की पहचान करना चाहते हैं जो आपके आश्रित चर पर प्रभाव डालते हैं?

फिर, आपके दोनों दृष्टिकोण वास्तव में अनुशंसित नहीं हैं।

अपने शोध प्रश्न को परिभाषित करने के बाद, आपको अपना सिद्धांत विकसित करना चाहिए। यह कहना है, कि साहित्य का उपयोग करते हुए, आपको उन चर की पहचान करनी चाहिए जिनका प्रभाव होना चाहिए (आपको इसका कारण बताने में सक्षम होना चाहिए)।


6
हालांकि यह दृश्य सांख्यिकीय परीक्षणों की शास्त्रीय अवधारणा से सहमत होने के लिए दिल से लगता है (और जैसा कि यह मुझे असहमत करता है), बहुत सारी आधुनिक समस्याएं हैं जिनके लिए यह अभी संभव नहीं है। उदाहरण के लिए, मान लीजिए कि आप देखना चाहते हैं कि 20,000 में से कोई भी प्रोटीन-कोडिंग जीन एक नई वंशानुगत बीमारी से जुड़ा है या नहीं। नहीं है कोई पृष्ठभूमि है कि आप तैयार हैं, कोई रास्ता नहीं है और एक EDA एक ही तरीका है आरंभ करने के लिए है "एक सिद्धांत के साथ आने के लिए"। और यदि आपके पास EDA और पुष्टिकरण विश्लेषण के लिए पर्याप्त डेटा है , तो आप वास्तव में कहीं भी प्राप्त कर सकते हैं।
क्लिफ एबी

3
"आपको अपना सिद्धांत विकसित करना चाहिए" - यह एक अच्छा विचार है, लेकिन हमेशा संभव नहीं है, खासकर उद्योग में। कभी-कभी, आप किसी भी सिद्धांत को विकसित किए बिना पूर्वानुमान के साथ आगे बढ़ते हैं
अक्कल 16

1

परीक्षण डेटा पर EDA को लागू करना गलत है।

प्रशिक्षण सर्वश्रेष्ठ मॉडल बनाने के लिए सही उत्तरों को देखने की प्रक्रिया है। यह प्रक्रिया केवल प्रशिक्षण डेटा पर चलने वाले कोड तक सीमित नहीं है। ईडीए से जानकारी का उपयोग करके यह तय करने के लिए कि कौन से मॉडल का उपयोग करना है, मापदंडों को ट्वीक करना, और इसके बाद प्रशिक्षण प्रक्रिया का हिस्सा है और इसलिए इसे परीक्षण डेटा तक पहुंच की अनुमति नहीं दी जानी चाहिए। तो अपने आप को सच होने के लिए, अपने मॉडल के प्रदर्शन की जांच करने के लिए केवल परीक्षण डेटा का उपयोग करें।

इसके अलावा, अगर आपको लगता है कि मॉडल परीक्षण के दौरान अच्छा प्रदर्शन नहीं करता है और फिर आप अपने मॉडल को समायोजित करने के लिए वापस जाते हैं, तो यह भी अच्छा नहीं है। इसके बजाय, अपने प्रशिक्षण डेटा को दो में विभाजित करें। प्रशिक्षण के लिए एक का उपयोग करें और दूसरे को अपने मॉडल (परीक्षणों) का परीक्षण और ट्विक करने के लिए उपयोग करें। देखें कि परीक्षण सेट और सत्यापन सेट के बीच अंतर क्या है?


0

इस उत्तर के पैराग्राफ के बाद । Hastie आगे बताते हैं p.245 :

"इस उदाहरण में क्रॉस-वैरिफिकेशन करने का सही तरीका है:

  1. K पार-सत्यापन सिलवटों (समूहों) में नमूनों को यादृच्छिक पर विभाजित करें।
  2. प्रत्येक गुना k = 1, 2, के लिए। । । , के
    (ए) "अच्छे" भविष्यवक्ताओं का एक सबसेट खोजें जो क्लास के लेबल के साथ काफी मजबूत (अविभाज्य) सहसंबंध दिखाते हैं, गुना के अलावा उन सभी नमूनों का उपयोग करते हुए।
    (b) भविष्यवक्ताओं के इस सबसेट का उपयोग करते हुए, गुना k को छोड़कर सभी नमूनों का उपयोग करते हुए, एक बहुभिन्नरूपी वर्गीकरण का निर्माण करें।
    (c) गुना k में नमूनों के लिए वर्ग लेबल की भविष्यवाणी करने के लिए क्लासिफायरियर का उपयोग करें। "

-3

आप पूरे डेटा सेट पर EDA करते हैं। उदाहरण के लिए, यदि आप लीव-वन-आउट क्रॉस सत्यापन का उपयोग कर रहे हैं, तो आप केवल प्रशिक्षण डेटा सेट पर EDA कैसे करेंगे ? इस मामले में हर अवलोकन प्रशिक्षण है और कम से कम एक बार आयोजित किया जाता है।

तो, नहीं, आप पूरे नमूने पर डेटा की अपनी समझ बनाते हैं। यदि आप औद्योगिक सेट अप में हैं, तो यह और भी स्पष्ट है। आपको फर्म में हितधारकों को डेटा के रुझान और सामान्य विवरण दिखाने की उम्मीद है, और आप पूरे नमूने पर ऐसा करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.