श्रेणीबद्ध चर के साथ ओवरलैपिंग


9

मैं अपने डेटासेट को दो समूहों में विभाजित लगभग 4000 ग्राहकों के साथ संतुलित करने के लिए ओवरसमलिंग और अंडरस्मीपलिंग के संयोजन का प्रदर्शन करना चाहूंगा, जहां समूहों में से एक का अनुपात लगभग 15% है।

मैंने SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) और ROSE ( http://cran.r-project.org/web/packages/ROSE/ ) में देखा है ROSE.pdf ), लेकिन ये दोनों मौजूदा अवलोकनों का उपयोग करके नए सिंथेटिक नमूने बनाते हैं और उदाहरण के लिए केएनएन।

हालाँकि, ग्राहकों से जुड़ी कई विशेषताएँ स्पष्ट हैं, मुझे नहीं लगता कि यह जाने का सही तरीका है। उदाहरण के लिए, मेरे कई वैरिएबल जैसे कि रीजन_ए और रीजन_ परस्पर भिन्न हैं, लेकिन केएनएन का उपयोग करके नई टिप्पणियों को रीजन_ए और रीजन_ दोनों में रखा जा सकता है। क्या आप सहमत हैं कि यह एक मुद्दा है?

उस स्थिति में - कोई मौजूदा टिप्पणियों का अनुकरण करके आर में ओवरसैमलिंग कैसे करता है? या यह करने का गलत तरीका है?


यदि आपके पास केवल 4000 अवलोकन हैं, तो आपको सबसामलिंग की आवश्यकता क्यों है?
kjetil b halvorsen

मैं कक्षाओं के लगभग बराबर हिस्से के लिए अपने डेटा सेट को संतुलित करना चाहता हूं। यदि मैं अपने डेटा का उपयोग करता हूं, जैसा कि अब है तो मॉडल बस सभी टिप्पणियों को बहुमत वर्ग के रूप में भविष्यवाणी करेंगे।
पीर

जवाबों:


8

आरओएसई और एसएमओटीई को श्रेणीबद्ध चर को संभालने के लिए डिज़ाइन किया गया है, इसलिए, जब तक कि आपके श्रेणीबद्ध चर द्विआधारी प्रारूप में व्यक्त नहीं किए जाते हैं, तब तक आपको आमतौर पर सिंथेटिक टिप्पणियों के बारे में चिंता नहीं करनी चाहिए जो पारस्परिक रूप से अनन्य श्रेणीबद्ध विशेषताओं को सौंपा जा सकता है। यदि वे हैं, तो आप हमेशा उन्हें कारकों के रूप में पुनर्गठन कर सकते हैं।

अपने दो-क्षेत्र के उदाहरण में, आप दो स्तरों "A" और "B" के साथ एक नया क्षेत्र चर बनाएंगे। आपके रिकॉर्ड आपके मूल स्तंभों को संदर्भित करके उचित मान लेंगे।

अब, यदि आप ऐसी स्थिति में हैं, जहाँ आपकी नई सिंथेटिक अवलोकन परस्पर विरोधी श्रेणियां उत्पन्न कर सकती हैं, क्योंकि वे एकाधिक में फैली हुई हैं, अन्यथा असंबंधित चर (जैसे सिंथेटिकओब्जर्वेशन.आईएसपीग = 1 और सिंथेटिकऑब्जर्वेशन.हैसिंग = 1), तो आप हमेशा कुछ अतिरिक्त डेटा मूंगिंग कर सकते हैं। इस तरह के विपथन को साफ करने के लिए अपने मॉडल का आकलन करने से पहले।

इसके अलावा, चूंकि आपके डेटासेट में लगभग 600 इवेंट ऑब्जर्वेशन हैं, शायद बहुसंख्यक वर्ग को अंडरस्क्रिमिंग के माध्यम से प्राप्त सिंथेटिक टिप्पणियों का उपयोग करने के संभावित लाभों पर विचार करें ?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.