सीखने को सुनिश्चित करना: मॉडल स्टैकिंग प्रभावी क्यों है?


11

हाल ही में, मैं पहनावा सीखने के रूप में मॉडल स्टैकिंग में दिलचस्पी ले रहा हूं। विशेष रूप से, मैंने कुछ खिलौना डेटासेट्स के साथ प्रतिगमन समस्याओं के लिए थोड़ा प्रयोग किया है। मैंने मूल रूप से व्यक्तिगत "स्तर 0" रजिस्टरों को लागू किया है, प्रत्येक रेजिस्टर के आउटपुट भविष्यवाणियों को "मेटा-रेजिस्टर" के लिए एक नई सुविधा के रूप में संग्रहीत किया है, इसके इनपुट के रूप में लेने के लिए, और इन नए फीचर्स (स्तर से भविष्यवाणियों) पर इस मेटा-रेजिस्टर को फिट करें 0 रजिस्ट्रार)। मैं एक सत्यापन सेट के खिलाफ मेटा-रजिस्ट्रार का परीक्षण करते समय व्यक्तिगत रजिस्टरों पर भी मामूली सुधार देखकर बहुत हैरान था।

तो, यहाँ मेरा सवाल है: मॉडल स्टैकिंग प्रभावी क्यों है? सहज रूप से, मुझे लगता है कि मॉडल खराब प्रदर्शन करने के लिए स्टैकिंग कर रहा है क्योंकि यह प्रत्येक स्तर 0 मॉडल की तुलना में एक खराब सुविधा का प्रतिनिधित्व करता है। यही है, अगर मैं 20 फीचर्स के साथ डेटासेट पर 3 लेवल 0 के रजिस्टरों को प्रशिक्षित करता हूं, और मेरे मेटा-रेजिस्टर के इनपुट के रूप में इन लेवल 0 रेजिस्टर्स की भविष्यवाणियों का उपयोग करता हूं, तो इसका मतलब है कि मेरे मेटा-रेजिस्टर के पास सीखने के लिए केवल 3 विशेषताएं हैं। ऐसा लगता है कि 20 मूल विशेषताओं में एन्कोडेड अधिक जानकारी है जो कि स्तर 0 रजिस्टरों के पास 3 आउटपुट विशेषताओं की तुलना में प्रशिक्षण के लिए है जो कि मेटा-रेजिस्टर प्रशिक्षण के लिए उपयोग करता है।

जवाबों:


5

मूल रूप से केंद्रीय सीमा प्रमेय के शोषण के रूप में सुनिश्चित करने के बारे में सोचें।

केंद्रीय सीमा प्रमेय शिथिल रूप से कहती है कि, जैसे-जैसे नमूना आकार बढ़ता है, नमूने का मतलब जनसंख्या के वास्तविक स्थान का तेजी से सटीक अनुमान बन जाएगा, (यह मानकर कि आप जिस आंकड़े को देख रहे हैं), और विचरण कस जाएगा ।

यदि आपके पास एक मॉडल है और यह आपके आश्रित चर के लिए एक भविष्यवाणी का उत्पादन करता है, तो वह पूर्वानुमान कुछ हद तक उच्च या निम्न होगा। लेकिन अगर आपके पास 3 या 5 या 10 अलग-अलग मॉडल हैं जो किसी भी अवलोकन के लिए अलग-अलग भविष्यवाणियों का उत्पादन करते हैं, तो कुछ मॉडलों से उच्च भविष्यवाणियां कुछ अन्य मॉडलों से कम त्रुटियों को ऑफसेट करने की प्रवृत्ति होगी, और शुद्ध प्रभाव औसत का एक अभिसरण होगा (या अन्य संयोजन) "सत्य" की ओर भविष्यवाणियों का। प्रत्येक अवलोकन पर नहीं, लेकिन सामान्य तौर पर यह प्रवृत्ति है। और इसलिए, आम तौर पर, एक पहनावा सबसे अच्छा एकल मॉडल को बेहतर बना देगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.