ओवरसाइम्ड इम्बैलेंस डेटा पर परीक्षण वर्गीकरण


19

मैं गंभीर रूप से असंतुलित डेटा पर काम कर रहा हूं। साहित्य में, री-सैंपलिंग (ओवर- या अंडर-सैंपलिंग) का उपयोग करके डेटा को फिर से संतुलित करने के लिए कई तरीकों का उपयोग किया जाता है। दो अच्छे दृष्टिकोण हैं:

  • SMOTE: सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग TEchnique ( SMOTE )

  • ADASYN: असंतुलित शिक्षण के लिए अनुकूली सैंपलिंग नमूना ( ADASYN )

मैंने ADASYN लागू किया है क्योंकि इसकी अनुकूली प्रकृति और बहु-वर्ग समस्याओं के विस्तार में आसानी।

मेरा प्रश्न यह है कि ADASYN (या किसी अन्य निरीक्षण विधि) द्वारा उत्पादित ओवरसमॉप्ड डेटा का परीक्षण कैसे किया जाए। उल्लेखित दो पेपरों में यह स्पष्ट नहीं है कि उन्होंने अपने प्रयोग कैसे किए। दो परिदृश्य हैं:

1- संपूर्ण डेटासेट को ओवररिप करें, फिर उसे प्रशिक्षण और परीक्षण सेट (या क्रॉस सत्यापन) में विभाजित करें।

2- मूल डेटासेट को विभाजित करने के बाद, केवल प्रशिक्षण सेट पर ओवरसम्पलिंग करें और मूल डेटा परीक्षण सेट पर परीक्षण करें (क्रॉस सत्यापन के साथ प्रदर्शन किया जा सकता है)।

पहले मामले में परिणाम ओवरसैंपलिंग के बिना बहुत बेहतर हैं, लेकिन अगर कोई ओवरफिटिंग है तो मैं चिंतित हूं। जबकि दूसरे मामले में परिणाम ओवरसैंपलिंग के बिना थोड़ा बेहतर हैं और पहले मामले की तुलना में बहुत खराब हैं। लेकिन दूसरे मामले के साथ चिंता यह है कि यदि सभी अल्पसंख्यक वर्ग के नमूने परीक्षण सेट पर जाते हैं, तो ओवरसैंपलिंग के साथ कोई लाभ प्राप्त नहीं होगा।

मुझे यकीन नहीं है कि इस तरह के डेटा का परीक्षण करने के लिए कोई अन्य सेटिंग्स हैं।

जवाबों:


18

कुछ टिप्पणियाँ:

विकल्प (1) एक बहुत बुरा विचार है। एक ही बिंदु की प्रतियां प्रशिक्षण और परीक्षण सेट दोनों में समाप्त हो सकती हैं। यह क्लासिफायर को धोखा देने की अनुमति देता है, क्योंकि जब परीक्षण सेट पर भविष्यवाणियां करने की कोशिश की जाती है तो क्लासिफायर पहले से ही ट्रेन सेट में समान बिंदुओं को देखेगा। टेस्ट सेट और ट्रेन सेट होने का पूरा मतलब यह है कि टेस्ट सेट ट्रेन सेट से स्वतंत्र होना चाहिए।


उत्तर के लिए धन्यवाद स्टीफन। लेकिन मैं एक बिंदु को स्पष्ट करना चाहता हूं: जिन तरीकों का मैंने उल्लेख किया है, वे डेटा के "सिंथेटिक" उदाहरण बनाते हैं, मूल रूप से बिल्कुल नहीं। इसलिए यह बिल्कुल वैसा नहीं है जैसे मैं एक ही प्रशिक्षण डेटा पर परीक्षण कर रहा हूं। लेकिन, फिर भी मुझे यकीन नहीं है कि विकल्प 1 वैध दृष्टिकोण है।
किराए

ठीक है मैं समझा! (1) के साथ समस्या अभी भी है, हालांकि, भले ही आप "सिंथेटिक" डेटा बनाते हैं, क्योंकि सिंथेटिक डेटा आमतौर पर मूल डेटा के समान है, यह नकल है।
स्टीफन दांव

@StefanWager परीक्षण सेट के वितरण के बारे में क्या? क्या यह मूल डेटा सेट के समान होना चाहिए?
वणिक

2
इस दावे का समर्थन करने के लिए लेखों का कोई संदर्भ?
लड़की १०

@ स्टीफन का दृष्टिकोण सही है कि आप अपने सत्यापन सेट को कभी बढ़ाएँ या संश्लेषित न करें क्योंकि आपका प्रमाण (परीक्षण) कि आपका मॉडल कैसे सीख रहा है, आपको ऐसा करने के लिए मूल डेटा की आवश्यकता है
M090009

9

दूसरा (2) विकल्प इसे करने का सही तरीका है। ओवरसैंपलिंग तकनीक से आपके द्वारा बनाए गए सिंथेटिक नमूने वास्तविक उदाहरण नहीं हैं, बल्कि सिंथेटिक हैं। ये परीक्षण उद्देश्यों के लिए मान्य नहीं हैं, जबकि वे अभी भी प्रशिक्षण के लिए ठीक हैं। उनका उद्देश्य एल्गोरिदम को संशोधित किए बिना क्लासिफायर के व्यवहार को संशोधित करना है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.