यह शायद एक मूर्खतापूर्ण सवाल हो सकता है, लेकिन जब कैरेट वाला मॉडल बनाते हैं और कुछ का उपयोग करते हुए LOOCV
(या उससे भी अधिक) LGOCV
, तो ट्रेन और परीक्षण सेट में डेटा को विभाजित करने का क्या लाभ है, यदि यह अनिवार्य रूप से क्रॉस-मान्यता कदम है वैसे भी क्या करता है?
मैंने संबंधित कुछ प्रश्नों को पढ़ा और उन्होंने सुझाव दिया कि कुछ क्रॉस-वेलिडेशन मेथड्स (जैसे कि कैरट साइट पर यहाँ क्या वर्णित है ) फीचर चयन के उद्देश्य से हैं । लेकिन मेरे मामले में, मैं randomForest
( method = "rf"
) और kernlab
( method = svmRadial
) का उपयोग कर रहा हूं , जो उस समूह में सूचीबद्ध नहीं हैं जो भविष्यवाणियों को शुद्ध करने का प्रयास करता है।
इसलिए, मेरा सवाल यह है कि अगर मैं किसी चीज़ का उपयोग करता हूं cross_val <- trainControl(method = "LGOCV", p = 0.8)
, तो क्या यह मेरे डेटा के 80% पर प्रशिक्षण के समान नहीं है, शेष 20% पर परिणामी मॉडल का परीक्षण करना, और उस पर और कितना अच्छा होने का अंदाजा लगाना है। मॉडल काम कर रहा है?
यदि हां, तो क्या मेरे डेटा को ट्रेन / टेस्ट सेट में विभाजित करने की आवश्यकता है?
PS मैं आंशिक रूप से पूछता हूं कि मैं मॉडल जनरेट किए गए DOE प्रोटोटाइप पर मॉडल का संचालन कर रहा हूं (लगता है कि हार्ड माल जहां हम इनपुट को ट्विक करते हैं और फिर प्रोटोटाइप के बारे में विभिन्न विशेषताओं को मापने के लिए परीक्षण विधियों का उपयोग करते हैं)।
इस प्रकार, मेरे पास मॉडल से ओवरलैपिंग के कई स्तरों के साथ बहुत बड़ा डेटा सेट नहीं है - हम अक्सर प्रत्येक DOE बिंदु पर एक परीक्षण चलाते हैं क्योंकि इस मामले में डेटा उत्पादन महंगा है। इस प्रकार, मैं एक सटीक मॉडल के लिए सभी डेटा का उपयोग करना चाहूंगा, लेकिन यहां जांच करना चाहता हूं कि मैं कुछ स्पष्ट याद नहीं कर रहा हूं और चीजों को विभाजित नहीं करके एक खराब मॉडल बना रहा हूं।
संपादित करें: @ topepo के प्रश्न के उत्तर में, मैं सूत्र के रासायनिक आदानों को समायोजित करने के आधार पर एक यौगिक के भौतिक रूप से मापा विशेषताओं को मॉडलिंग कर रहा हूं। मैं अपने वास्तविक एप्लिकेशन पर चर्चा नहीं कर सकता, लेकिन मैं इंटीरियर लेटेक्स पेंट तैयार करने के आधार पर एक उदाहरण बनाऊंगा। मैं डिज़ाइन किए गए प्रयोगों को चला रहा हूं जहां हम 4-5 रसायनों को मिलाते हैं, शायद% ठोस पदार्थों के साथ खेलते हैं, और बहुलक समाधान को गर्म करने के लिए पॉलिमराइजेशन की डिग्री को समायोजित करने के लिए समय की एक राशि है।
इसके बाद हम रियोलॉजी, आणविक भार, पेंट कोटिंग की कठोरता, पानी प्रतिरोध आदि को माप सकते हैं।
हमारे पास कई वेरिएबल्स की सभ्य प्रतिकृति हैं, लेकिन कुछ सच्चे अर्थों में यह दर्शाता है कि प्रत्येक डीओई स्तर बिल्कुल समान था। कुल डेटा सेट ~ 80 अवलोकन है और शायद 4-5 सटीक दोहराए जाते हैं। हमने 15 अलग-अलग परीक्षण किए हैं, और शायद उनमें से 5-6 हर एक अवलोकन के लिए किए गए हैं। 25-50% डेटा के लिए कुछ प्रतिक्रियाएं मौजूद हैं।
यहां से, हम आउटपुट गुणों पर हमारे 7 भविष्यवाणियों के प्रभावों को मॉडल करना चाहते हैं और फिर नए डिज़ाइन रिक्त स्थान को लक्षित करने के लिए अनुकूलन करते हैं जो वांछित गुण देने की सबसे अधिक संभावना है।
(इसलिए मेरा सवाल यहाँ है । एक बार जब मेरे पास एक प्रशिक्षित मॉडल होता है, तो "रिवर्स" करना अच्छा होगा और अगले प्रयास करने के लिए संभावित इनपुट स्तरों पर सबसे अच्छा अनुमान प्राप्त करने के लिए वांछित प्रतिक्रियाओं में फ़ीड करें)।
data_set1
, तो मैं LGOCV
क्रॉस-सत्यापन द्वारा निष्पादित कदम पर क्या विचार करूं? मेरे पढ़ने से मैं 1 मान रहा हूँ) caret
पर ट्यूनिंग मापदंडों के माध्यम से पुनरावृत्त करता है data_set1
और फिर 2) उन पैरामेट्स को निर्धारित करता है और 3) प्रत्येक 0.2 के p = 0.8
नमूने के लिए # 1 से परमेस का उपयोग करके एक "उप मॉडल" बनाता है data_set1
और शेष 0.2 से गेज सटीकता पर पूर्वानुमान की जांच करता है। । क्या यह एक उचित सारांश है?