हाल ही में, मैं पहनावा सीखने के रूप में मॉडल स्टैकिंग में दिलचस्पी ले रहा हूं। विशेष रूप से, मैंने कुछ खिलौना डेटासेट्स के साथ प्रतिगमन समस्याओं के लिए थोड़ा प्रयोग किया है। मैंने मूल रूप से व्यक्तिगत "स्तर 0" रजिस्टरों को लागू किया है, प्रत्येक रेजिस्टर के आउटपुट भविष्यवाणियों को "मेटा-रेजिस्टर" के लिए एक नई सुविधा के रूप में संग्रहीत किया है, इसके इनपुट के रूप में लेने के लिए, और इन नए फीचर्स (स्तर से भविष्यवाणियों) पर इस मेटा-रेजिस्टर को फिट करें 0 रजिस्ट्रार)। मैं एक सत्यापन सेट के खिलाफ मेटा-रजिस्ट्रार का परीक्षण करते समय व्यक्तिगत रजिस्टरों पर भी मामूली सुधार देखकर बहुत हैरान था।
तो, यहाँ मेरा सवाल है: मॉडल स्टैकिंग प्रभावी क्यों है? सहज रूप से, मुझे लगता है कि मॉडल खराब प्रदर्शन करने के लिए स्टैकिंग कर रहा है क्योंकि यह प्रत्येक स्तर 0 मॉडल की तुलना में एक खराब सुविधा का प्रतिनिधित्व करता है। यही है, अगर मैं 20 फीचर्स के साथ डेटासेट पर 3 लेवल 0 के रजिस्टरों को प्रशिक्षित करता हूं, और मेरे मेटा-रेजिस्टर के इनपुट के रूप में इन लेवल 0 रेजिस्टर्स की भविष्यवाणियों का उपयोग करता हूं, तो इसका मतलब है कि मेरे मेटा-रेजिस्टर के पास सीखने के लिए केवल 3 विशेषताएं हैं। ऐसा लगता है कि 20 मूल विशेषताओं में एन्कोडेड अधिक जानकारी है जो कि स्तर 0 रजिस्टरों के पास 3 आउटपुट विशेषताओं की तुलना में प्रशिक्षण के लिए है जो कि मेटा-रेजिस्टर प्रशिक्षण के लिए उपयोग करता है।