k-fold क्रॉस लर्निंग का पहनावा सीखना


20

मैं उलझन में हूँ कि कैसे पहनावा सीखने के k- गुना क्रॉस सत्यापन के लिए डेटा का विभाजन किया जाए।

मान लें कि मेरे पास वर्गीकरण के लिए एक पहनावा सीखने की रूपरेखा है। मेरी पहली परत में वर्गीकरण मॉडल शामिल हैं, उदाहरण के लिए svm, निर्णय पेड़।

मेरी दूसरी परत में एक मतदान मॉडल शामिल है, जो पहली परत से भविष्यवाणियों को जोड़ती है और अंतिम भविष्यवाणी देती है।

यदि हम 5 गुना-क्रॉस सत्यापन का उपयोग करते हैं, तो मैं निम्नानुसार 5 तह का उपयोग करने के बारे में सोच रहा हूं:

  • पहली परत प्रशिक्षण के लिए 3 गुना
  • प्रशिक्षण के लिए 1 गुना दूसरी परत
  • परीक्षण के लिए 1 गुना

क्या यह सही तरीका है? क्या पहली और दूसरी परत के लिए प्रशिक्षण डेटा स्वतंत्र होना चाहिए? मैं सोच रहा हूं कि उन्हें स्वतंत्र होना चाहिए ताकि पहनावा सीखने की रूपरेखा मजबूत हो।

मेरे मित्र का सुझाव है कि पहली और दूसरी परत के लिए प्रशिक्षण डेटा समान होना चाहिए, अर्थात

  • पहली और दूसरी परत के प्रशिक्षण के लिए 4 तह
  • परीक्षण के लिए 1 गुना

इस तरह, हमारे पास पहनावा सीखने की रूपरेखा की अधिक सटीक त्रुटि होगी, और रूपरेखा की पुनरावृत्ति अधिक सटीक होगी, क्योंकि यह एकल प्रशिक्षण डेटा पर आधारित है। इसके अलावा, दूसरी परत स्वतंत्र प्रशिक्षण डेटा के लिए पूर्वाग्रह हो सकती है

किसी भी सलाह बहुत सराहना की है

जवाबों:


26

पहनावा सीखना काफी अलग तरीकों को संदर्भित करता है। बूस्टिंग और बैगिंग शायद दो सबसे आम हैं। ऐसा लगता है कि आप स्टैकिंग नामक एक पहनावा सीखने की विधि को लागू करने का प्रयास कर रहे हैं । स्टैकिंग का उद्देश्य कई शिक्षण एल्गोरिदम से भविष्यवाणियों को मिलाकर सटीकता में सुधार करना है। स्टैकिंग करने के कुछ तरीके हैं और बहुत सारे कठोर सिद्धांत नहीं हैं। हालांकि यह सहज और लोकप्रिय है।

अपने मित्र के दृष्टिकोण पर विचार करें। आप पांच परतों में से चार पर पहली परत के मॉडल फिट कर रहे हैं और फिर उसी चार तह का उपयोग करके दूसरी परत (मतदान) मॉडल को फिट कर रहे हैं। समस्या यह है कि दूसरी परत सबसे कम प्रशिक्षण त्रुटि के साथ मॉडल का पक्ष लेगी। आप मॉडल को फिट करने के लिए और उन मॉडलों को एकत्र करने के लिए एक प्रक्रिया तैयार करने के लिए समान डेटा का उपयोग कर रहे हैं। दूसरी परत को आउट-ऑफ-नमूना भविष्यवाणियों का उपयोग करके मॉडल को संयोजित करना चाहिए । आपका तरीका बेहतर है, लेकिन फिर भी बेहतर करने का एक तरीका है।

हम परीक्षण उद्देश्यों के लिए एक गुना छोड़ना जारी रखेंगे। चार सिलवटों को लें और सभी चार परतों पर अपनी पहली परत के मॉडल के लिए नमूना अनुमान प्राप्त करने के लिए 4-गुना सीवी का उपयोग करें। यही है, चार में से एक तह को छोड़ दें और अन्य तीन पर मॉडल फिट करें और फिर आयोजित डेटा के बारे में भविष्यवाणी करें। सभी चार मोहरों के लिए दोहराएं ताकि आप सभी चार मोहरों पर नमूना भविष्यवाणियां प्राप्त करें। फिर इन आउट-ऑफ-नमूना भविष्यवाणियों पर दूसरी परत के मॉडल को फिट करें। फिर सभी चार परतों पर फिर से पहली परत के मॉडल फिट करें। अब आप पांचवीं तह तक जा सकते हैं जिसे आपने अभी तक नहीं छुआ है। आयोजित किए गए डेटा पर त्रुटि का अनुमान लगाने के लिए दूसरी परत के मॉडल के साथ सभी चार परतों पर फिट पहली परत के मॉडल का उपयोग करें। आप इस प्रक्रिया को फिर से पहली और दूसरी परत मॉडल फिटिंग के बाहर रखे गए अन्य सिलवटों के साथ दोहरा सकते हैं।

यदि आप प्रदर्शन से संतुष्ट हैं, तो सभी पांच परतों पर पहली परत के मॉडल के लिए आउट-ऑफ-सैंपल भविष्यवाणियां उत्पन्न करें और फिर इन पर दूसरी परत मॉडल फिट करें। फिर अपने सभी डेटा पर पहली बार एक लेयर मॉडल फिट करें और किसी भी नए डेटा पर दूसरी लेयर मॉडल के साथ इनका उपयोग करें!

अंत में, कुछ सामान्य सलाह। यदि आपकी पहली परत के मॉडल एक दूसरे से काफी अलग हैं, तो आपको अधिक लाभ होगा। आप एसवीएम और निर्णय पेड़ों का उपयोग करके यहां सही रास्ते पर हैं, जो एक दूसरे से बहुत अलग हैं। चूंकि दूसरी लेयर मॉडल से औसत प्रभाव होता है, आप अपने पहले लेयर मॉडल्स को वृद्धिशील रूप से ओवरफिट करने की कोशिश कर सकते हैं, खासकर यदि आपके पास उनमें से बहुत कुछ है। दूसरी परत आम तौर पर कुछ सरल है और वजन और एकरसता की गैर-नकारात्मकता जैसी बाधाएं आम हैं। अंत में, याद रखें कि स्टैकिंग क्रॉस-वैलिडेशन पर निर्भर करता है, जो केवल सही जोखिम का अनुमान है। यदि आपको बहुत भिन्न त्रुटि दर और बहुत अलग मॉडल वजन गुना में मिलता है, तो यह इंगित करता है कि आपके cv- आधारित जोखिम अनुमान में उच्च विचरण है। उस मामले में, आप एक साधारण सम्मिश्रण पर विचार करना चाह सकते हैंअपने पहले परत मॉडल के। या, आप प्रत्येक पहली परत मॉडल पर रखे अधिकतम / न्यूनतम वजन पर बाधाओं के साथ समझौता करके समझौता कर सकते हैं।


आपके बहुत उपयोगी सुझावों के लिए धन्यवाद। मुझे आपके चौथे पैराग्राफ की समझ नहीं है। यह मुझे लगता है कि यह फिर से मुकर रहा है? मुझे लगा कि आपके तीसरे पैराग्राफ ने आपके प्रस्तावित तरीके को अभिव्यक्त किया है?
माइकल

1
हमेशा की तरह क्रॉस-वेलिडेशन के साथ, एक बार जब हम उस मॉडल से संतुष्ट हो जाते हैं जिसे हम सभी डेटा का उपयोग करके फिर से प्रशिक्षित करते हैं। पैरा तीन में वर्णित मॉडल आयोजित किए गए डेटा पर फिट नहीं होते हैं। डेटा को धारण करना मॉडल मूल्यांकन और चयन को निर्देशित करने का एक उपकरण है। आपको हमेशा सभी डेटा पर अंतिम मॉडल फिट करना चाहिए।
माइकलJ

यह मुझे लगता है कि यह दृष्टिकोण एक फीडफुल न्यूरल नेटवर्क के समान है
माइकल

महान व्याख्या। केवल एक चीज की कमी आरेख है;)
जोश
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.