आर / कैरेट: ट्रेन और परीक्षण सेट बनाम क्रॉस-सत्यापन?


9

यह शायद एक मूर्खतापूर्ण सवाल हो सकता है, लेकिन जब कैरेट वाला मॉडल बनाते हैं और कुछ का उपयोग करते हुए LOOCV(या उससे भी अधिक) LGOCV, तो ट्रेन और परीक्षण सेट में डेटा को विभाजित करने का क्या लाभ है, यदि यह अनिवार्य रूप से क्रॉस-मान्यता कदम है वैसे भी क्या करता है?

मैंने संबंधित कुछ प्रश्नों को पढ़ा और उन्होंने सुझाव दिया कि कुछ क्रॉस-वेलिडेशन मेथड्स (जैसे कि कैरट साइट पर यहाँ क्या वर्णित है ) फीचर चयन के उद्देश्य से हैं । लेकिन मेरे मामले में, मैं randomForest( method = "rf") और kernlab( method = svmRadial) का उपयोग कर रहा हूं , जो उस समूह में सूचीबद्ध नहीं हैं जो भविष्यवाणियों को शुद्ध करने का प्रयास करता है।

इसलिए, मेरा सवाल यह है कि अगर मैं किसी चीज़ का उपयोग करता हूं cross_val <- trainControl(method = "LGOCV", p = 0.8), तो क्या यह मेरे डेटा के 80% पर प्रशिक्षण के समान नहीं है, शेष 20% पर परिणामी मॉडल का परीक्षण करना, और उस पर और कितना अच्छा होने का अंदाजा लगाना है। मॉडल काम कर रहा है?

यदि हां, तो क्या मेरे डेटा को ट्रेन / टेस्ट सेट में विभाजित करने की आवश्यकता है?

PS मैं आंशिक रूप से पूछता हूं कि मैं मॉडल जनरेट किए गए DOE प्रोटोटाइप पर मॉडल का संचालन कर रहा हूं (लगता है कि हार्ड माल जहां हम इनपुट को ट्विक करते हैं और फिर प्रोटोटाइप के बारे में विभिन्न विशेषताओं को मापने के लिए परीक्षण विधियों का उपयोग करते हैं)।

इस प्रकार, मेरे पास मॉडल से ओवरलैपिंग के कई स्तरों के साथ बहुत बड़ा डेटा सेट नहीं है - हम अक्सर प्रत्येक DOE बिंदु पर एक परीक्षण चलाते हैं क्योंकि इस मामले में डेटा उत्पादन महंगा है। इस प्रकार, मैं एक सटीक मॉडल के लिए सभी डेटा का उपयोग करना चाहूंगा, लेकिन यहां जांच करना चाहता हूं कि मैं कुछ स्पष्ट याद नहीं कर रहा हूं और चीजों को विभाजित नहीं करके एक खराब मॉडल बना रहा हूं।


संपादित करें: @ topepo के प्रश्न के उत्तर में, मैं सूत्र के रासायनिक आदानों को समायोजित करने के आधार पर एक यौगिक के भौतिक रूप से मापा विशेषताओं को मॉडलिंग कर रहा हूं। मैं अपने वास्तविक एप्लिकेशन पर चर्चा नहीं कर सकता, लेकिन मैं इंटीरियर लेटेक्स पेंट तैयार करने के आधार पर एक उदाहरण बनाऊंगा। मैं डिज़ाइन किए गए प्रयोगों को चला रहा हूं जहां हम 4-5 रसायनों को मिलाते हैं, शायद% ठोस पदार्थों के साथ खेलते हैं, और बहुलक समाधान को गर्म करने के लिए पॉलिमराइजेशन की डिग्री को समायोजित करने के लिए समय की एक राशि है।

इसके बाद हम रियोलॉजी, आणविक भार, पेंट कोटिंग की कठोरता, पानी प्रतिरोध आदि को माप सकते हैं।

हमारे पास कई वेरिएबल्स की सभ्य प्रतिकृति हैं, लेकिन कुछ सच्चे अर्थों में यह दर्शाता है कि प्रत्येक डीओई स्तर बिल्कुल समान था। कुल डेटा सेट ~ 80 अवलोकन है और शायद 4-5 सटीक दोहराए जाते हैं। हमने 15 अलग-अलग परीक्षण किए हैं, और शायद उनमें से 5-6 हर एक अवलोकन के लिए किए गए हैं। 25-50% डेटा के लिए कुछ प्रतिक्रियाएं मौजूद हैं।

यहां से, हम आउटपुट गुणों पर हमारे 7 भविष्यवाणियों के प्रभावों को मॉडल करना चाहते हैं और फिर नए डिज़ाइन रिक्त स्थान को लक्षित करने के लिए अनुकूलन करते हैं जो वांछित गुण देने की सबसे अधिक संभावना है।

(इसलिए मेरा सवाल यहाँ है । एक बार जब मेरे पास एक प्रशिक्षित मॉडल होता है, तो "रिवर्स" करना अच्छा होगा और अगले प्रयास करने के लिए संभावित इनपुट स्तरों पर सबसे अच्छा अनुमान प्राप्त करने के लिए वांछित प्रतिक्रियाओं में फ़ीड करें)।


सत्यापन सेट और परीक्षण सेट दो अलग-अलग चीजें हैं! आँकड़े देखें ।stackexchange.com/questions/19048/… और en.wikipedia.org/wiki/Test_set
sashkello

इसके लिए @sashkello धन्यवाद। यह शायद एक डुप्लिकेट के रूप में बंद हो सकता है, और किसी तरह मैं उस सवाल को पूरी तरह से याद किया। एक गायब सा हो सकता है: यदि मैं साथ प्रशिक्षण देता हूं data_set1, तो मैं LGOCVक्रॉस-सत्यापन द्वारा निष्पादित कदम पर क्या विचार करूं? मेरे पढ़ने से मैं 1 मान रहा हूँ) caretपर ट्यूनिंग मापदंडों के माध्यम से पुनरावृत्त करता है data_set1और फिर 2) उन पैरामेट्स को निर्धारित करता है और 3) प्रत्येक 0.2 के p = 0.8नमूने के लिए # 1 से परमेस का उपयोग करके एक "उप मॉडल" बनाता है data_set1और शेष 0.2 से गेज सटीकता पर पूर्वानुमान की जांच करता है। । क्या यह एक उचित सारांश है?
हेंडी

एक अन्य गुम बिट: क्या परीक्षण मॉडल सटीकता की जांच के लिए एक सेट छोड़ देता है? ऐसा लगता है कि यह सिर्फ भविष्य के परीक्षण के लिए एक निष्पक्ष सेट देता है। यदि डेटा सीमित है और बहुत सारे ओवरलैपिंग डिज़ाइन पॉइंट नहीं हैं, तो क्या मैं पूर्ण सेट के साथ प्रशिक्षण को बेहतर नहीं कर सकता हूं और किसी सटीकता के अनुमान के लिए क्रॉस-वैलिडेशन पर निर्भर हूं?
हेंडी

बेहतर खोज रणनीति के साथ, यह एओटर मददगार है: सांख्यिकी.स्टैकएक्सचेंज . com / questions / 9357/… । विशेष रूप से यह "मुझे लगता है कि एक सीमित कारक यहां आपके पास कितना डेटा है। अधिकांश समय, हम डेटा को निश्चित विभाजन में विभाजित नहीं करना चाहते हैं, इसलिए सीवी।" मुझे लगता है कि यह मेरे प्रश्न पर मिलता है (जो शायद मेरे डेटा की सीमित प्रकृति के लिए विशिष्ट है (केवल 80 टिप्पणियों)) इन मामलों में विभाजन नहीं करने के लिए एक वोट की तरह लगता है?
हेन्डी

जवाबों:


7

मेरे सामान्य विचार:

इसलिए जब आप विभिन्न मॉडलों का मूल्यांकन कर रहे हैं, तो आप उन्हें धुन सकते हैं, विभिन्न प्रकार के पूर्व-प्रसंस्करण आदि का प्रयास कर सकते हैं जब तक कि आपको नहीं लगता कि आप एक अच्छा मॉडल हैं। Resampling उस प्रक्रिया के दौरान आपको सही दिशा में मार्गदर्शन करने में मदद कर सकती है।

हालांकि, अभी भी ओवर-फिटिंग की संभावना है और ऐसा होने की संभावना बहुत अधिक डेटा (और भविष्यवाणियों) से प्रभावित होती है। यदि आपके पास थोड़ा सा डेटा है, तो इसके बारे में सोचने के कुछ तरीके हैं:

  • प्रशिक्षण के लिए सभी डेटा का उपयोग करें क्योंकि प्रत्येक डेटा बिंदु मॉडल को कितनी अच्छी तरह से जोड़ता है।
  • ओवर-फिटिंग के कारण सकल त्रुटियों के लिए अंतिम जांच के रूप में एक छोटा परीक्षण सेट निर्धारित करें। एक छोटे नमूने के आकार के साथ ओवर-फिटिंग की संभावना छोटी नहीं है और नमूनों की संख्या के साथ बड़ी हो जाती है।

मैं दूसरे शिविर में आता हूं, लेकिन पहला गलत नहीं है।

यदि आपके पास एक टन डेटा है तो यह वास्तव में बहुत मायने नहीं रखता है (जब तक कि आप एक छोटी घटना दर नहीं चाहते हैं)।

तुम्हारे लिए:

आपके पास एक डो है। डिजाइन का प्रकार प्रश्न का उत्तर देने में मदद करेगा। क्या आप डिज़ाइन बिंदुओं के बीच अंतर करने की कोशिश कर रहे हैं या डिज़ाइन बिंदुओं की भविष्यवाणी करते हैं जो अब तक परीक्षण नहीं किए गए हैं?

आपके पास एक प्रतिकृति है। मैं ऐसे गिर गया जैसे कि जंगल एक स्लेज हथौड़ा के साथ एक कील मार रहा है और इसके परिणामस्वरूप ओवर-फिटिंग हो सकता है। मैं एसवीएम या (हांफना) तंत्रिका नेटवर्क की तरह कुछ चिकना करने की कोशिश करूंगा।

मैक्स


मैंने आपके लिए एक अपडेट जोड़ा है। मैं बहुत अच्छा घटता है (मुझे लगता है कि व्यक्तिपरक है) method = "svmRadial"। मैं कुछ अन्य लोगों का मूल्यांकन करने की उम्मीद method = neuralnetकरता हूं, हालांकि, पिछले प्रयासों में मैंने तंत्रिका नेटवर्क को `set.seed () के प्रति बहुत संवेदनशील पाया है । संक्षेप में, हम 1) इनपुट / मल्टीपल रिस्पॉन्स और 2 के बीच के संबंध को बेहतर ढंग से समझने की कोशिश कर रहे हैं। वांछित गुणों को प्राप्त करने के लिए सबसे अधिक संभावना वाले डिज़ाइन स्थान पर सर्वश्रेष्ठ अनुमान लगाते हैं ताकि हम नए, अधिक केंद्रित डीओई बनाम अधिक विशिष्ट चला सकें। प्रयास करने के लिए इनपुट मिनट / अधिकतम स्तर के संदर्भ में विस्तार / शॉटगन दृष्टिकोण।
हेंडी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.