वर्गीकरण में प्रशिक्षण डेटा उत्पन्न करने के लिए स्तरीकृत बनाम यादृच्छिक नमूनाकरण के लाभ


21

मैं यह जानना चाहूंगा कि क्या वर्गीकरण के लिए मूल डेटासेट को प्रशिक्षण और परीक्षण में विभाजित करते समय यादृच्छिक नमूने के बजाय स्तरीकृत नमूने का उपयोग करने के कोई / कुछ फायदे हैं।

इसके अलावा, स्तरीकृत नमूने यादृच्छिक नमूनाकरण की तुलना में क्लासिफायर में अधिक पूर्वाग्रह का परिचय देता है?

आवेदन, जिसके लिए मैं डेटा तैयारी के लिए स्तरीकृत नमूने का उपयोग करना चाहूंगा, एक यादृच्छिक वन वर्गीकरण है, जिसे पर प्रशिक्षित किया गया है23

[१] चावला, नितेश वी।, एट अल। " SMOTE: सिंथेटिक अल्पसंख्यक अति-नमूना तकनीक। " जर्नल ऑफ आर्टिफिशियल इंटेलिजेंस रिसर्च 16 (2002): 321-357।

जवाबों:


21

स्तरीकृत नमूनाकरण का उद्देश्य एक डेटा सेट को विभाजित करना है ताकि प्रत्येक विभाजन किसी चीज के संबंध में समान हो।

एक वर्गीकरण सेटिंग में, यह सुनिश्चित करने के लिए अक्सर चुना जाता है कि ट्रेन और परीक्षण सेट में प्रत्येक लक्ष्य वर्ग के लगभग समान प्रतिशत पूर्ण सेट के रूप में हैं।

नतीजतन, यदि डेटा सेट में प्रत्येक वर्ग की एक बड़ी मात्रा है, तो स्तरीकृत नमूनाकरण यादृच्छिक नमूने के समान ही है। लेकिन यदि डेटा सेट में एक वर्ग का बहुत अधिक प्रतिनिधित्व नहीं है, जो आपके डेटासेट में मामला हो सकता है क्योंकि आप अल्पसंख्यक वर्ग की निगरानी करने की योजना बनाते हैं, तो स्तरीकृत नमूने ट्रेन में एक अलग लक्ष्य वर्ग वितरण प्राप्त कर सकते हैं और परीक्षण सेट से क्या यादृच्छिक हो सकता है सैंपलिंग से उपज मिल सकती है।

ध्यान दें कि स्तरीकृत नमूनाकरण को अगली ट्रेन और परीक्षण सेटों में कुछ सुविधाओं को समान रूप से वितरित करने के लिए डिज़ाइन किया जा सकता है। उदाहरण के लिए, यदि प्रत्येक नमूना एक व्यक्ति का प्रतिनिधित्व करता है, और एक विशेषता आयु है, तो यह कभी-कभी ट्रेन और परीक्षण सेट दोनों में समान आयु वितरण के लिए उपयोगी होता है।

जानकारी के लिए:

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.