मैं ~ 400k रिकॉर्ड और 9 चर के डेटा सेट का विश्लेषण कर रहा हूं। आश्रित चर द्विआधारी है। मैंने एक लॉजिस्टिक रिग्रेशन, एक रिग्रेशन ट्री, एक रैंडम फॉरेस्ट और एक ग्रेडिएंट बूस्टेड ट्री फिट किया है। जब मैं उन्हें किसी अन्य डेटा सेट पर मान्य करता हूं, तो उनमें से सभी आभासी समान फिट संख्या देते हैं।
ऐसा क्यों है? मैं अनुमान लगा रहा हूं कि यह इसलिए है क्योंकि चर अनुपात के लिए मेरी टिप्पणियों में बहुत अधिक है। यदि यह सही है, तो विभिन्न अनुपातों को देने के लिए विभिन्न मॉडलों के लिए चर अनुपात का क्या अवलोकन किया जाएगा?