मैं गंभीर रूप से असंतुलित डेटा पर काम कर रहा हूं। साहित्य में, री-सैंपलिंग (ओवर- या अंडर-सैंपलिंग) का उपयोग करके डेटा को फिर से संतुलित करने के लिए कई तरीकों का उपयोग किया जाता है। दो अच्छे दृष्टिकोण हैं:
SMOTE: सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग TEchnique ( SMOTE )
ADASYN: असंतुलित शिक्षण के लिए अनुकूली सैंपलिंग नमूना ( ADASYN )
मैंने ADASYN लागू किया है क्योंकि इसकी अनुकूली प्रकृति और बहु-वर्ग समस्याओं के विस्तार में आसानी।
मेरा प्रश्न यह है कि ADASYN (या किसी अन्य निरीक्षण विधि) द्वारा उत्पादित ओवरसमॉप्ड डेटा का परीक्षण कैसे किया जाए। उल्लेखित दो पेपरों में यह स्पष्ट नहीं है कि उन्होंने अपने प्रयोग कैसे किए। दो परिदृश्य हैं:
1- संपूर्ण डेटासेट को ओवररिप करें, फिर उसे प्रशिक्षण और परीक्षण सेट (या क्रॉस सत्यापन) में विभाजित करें।
2- मूल डेटासेट को विभाजित करने के बाद, केवल प्रशिक्षण सेट पर ओवरसम्पलिंग करें और मूल डेटा परीक्षण सेट पर परीक्षण करें (क्रॉस सत्यापन के साथ प्रदर्शन किया जा सकता है)।
पहले मामले में परिणाम ओवरसैंपलिंग के बिना बहुत बेहतर हैं, लेकिन अगर कोई ओवरफिटिंग है तो मैं चिंतित हूं। जबकि दूसरे मामले में परिणाम ओवरसैंपलिंग के बिना थोड़ा बेहतर हैं और पहले मामले की तुलना में बहुत खराब हैं। लेकिन दूसरे मामले के साथ चिंता यह है कि यदि सभी अल्पसंख्यक वर्ग के नमूने परीक्षण सेट पर जाते हैं, तो ओवरसैंपलिंग के साथ कोई लाभ प्राप्त नहीं होगा।
मुझे यकीन नहीं है कि इस तरह के डेटा का परीक्षण करने के लिए कोई अन्य सेटिंग्स हैं।