मेरे पास अत्यधिक पक्षपाती द्विआधारी डेटासेट है - मेरे पास सकारात्मक वर्ग की तुलना में नकारात्मक वर्ग के 1000x अधिक उदाहरण हैं। मैं इस डेटा पर ट्री एनसेंबल (जैसे एक्स्ट्रा रैंडम ट्री या रैंडम फ़ॉरेस्ट) को प्रशिक्षित करना चाहूंगा, लेकिन प्रशिक्षण डेटासेट बनाना मुश्किल है जिसमें सकारात्मक वर्ग के पर्याप्त उदाहरण हैं।
सकारात्मक और नकारात्मक उदाहरणों की संख्या को सामान्य करने के लिए एक स्तरीकृत नमूनाकरण दृष्टिकोण करने के निहितार्थ क्या होंगे? दूसरे शब्दों में, क्या यह उदाहरण के लिए एक बुरा विचार है, प्रशिक्षण सेट में सकारात्मक वर्ग के उदाहरणों को कृत्रिम रूप से फुलाया जाता है?