मैं अपने डेटासेट को दो समूहों में विभाजित लगभग 4000 ग्राहकों के साथ संतुलित करने के लिए ओवरसमलिंग और अंडरस्मीपलिंग के संयोजन का प्रदर्शन करना चाहूंगा, जहां समूहों में से एक का अनुपात लगभग 15% है।
मैंने SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) और ROSE ( http://cran.r-project.org/web/packages/ROSE/ ) में देखा है ROSE.pdf ), लेकिन ये दोनों मौजूदा अवलोकनों का उपयोग करके नए सिंथेटिक नमूने बनाते हैं और उदाहरण के लिए केएनएन।
हालाँकि, ग्राहकों से जुड़ी कई विशेषताएँ स्पष्ट हैं, मुझे नहीं लगता कि यह जाने का सही तरीका है। उदाहरण के लिए, मेरे कई वैरिएबल जैसे कि रीजन_ए और रीजन_ परस्पर भिन्न हैं, लेकिन केएनएन का उपयोग करके नई टिप्पणियों को रीजन_ए और रीजन_ दोनों में रखा जा सकता है। क्या आप सहमत हैं कि यह एक मुद्दा है?
उस स्थिति में - कोई मौजूदा टिप्पणियों का अनुकरण करके आर में ओवरसैमलिंग कैसे करता है? या यह करने का गलत तरीका है?