मैं अपने असंतुलित डेटासेट पर एक यादृच्छिक वन मॉडल (लक्ष्य चर बाइनरी क्लास था) चलाने के लिए पायथन का उपयोग करता हूं। प्रशिक्षण और परीक्षण डेटासेट को विभाजित करते समय, मैंने संघर्ष किया कि क्या स्तरीकृत नमूने का उपयोग किया जाना चाहिए (जैसे दिखाए गए कोड) या नहीं। अब तक, मैंने अपनी परियोजना में देखा कि स्तरीकृत मामले में एक उच्च मॉडल प्रदर्शन होगा। लेकिन मुझे लगता है कि अगर मैं अपने मॉडल का उपयोग नए मामलों की भविष्यवाणी करने के लिए करूंगा जो कि संभवतः मेरे वर्तमान डेटासेट के साथ लक्ष्य वर्ग के वितरण में भिन्न होगा। इसलिए मैंने इस अड़चन को ढीला करने और अस्थिर विभाजन का उपयोग करने की इच्छा की। क्या कोई इस बिंदु को स्पष्ट करने की सलाह दे सकता है?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)