छोटे नमूने-आकार के डेटा के लिए प्रशिक्षण, क्रॉस-सत्यापन, और परीक्षण सेट आकार कैसे चुनें?


10

मान लें कि मेरे पास एक छोटा नमूना आकार है, जैसे कि एन = 100, और दो वर्ग। मुझे मशीन लर्निंग के लिए प्रशिक्षण, क्रॉस-सत्यापन, और परीक्षण सेट आकार कैसे चुनना चाहिए?

मैं सहजता से चुनूंगा

  • प्रशिक्षण सेट आकार 50 के रूप में
  • क्रॉस सत्यापन सेट आकार 25, और
  • 25 के रूप में परीक्षण का आकार।

लेकिन शायद यह कम या ज्यादा समझ में आता है। मुझे वास्तव में इन मूल्यों को कैसे तय करना चाहिए? क्या मैं विभिन्न विकल्पों की कोशिश कर सकता हूं (हालांकि मुझे लगता है कि यह इतना बेहतर नहीं है ... सीखने की संभावना बढ़ गई)?

क्या होगा अगर मेरे पास दो से अधिक कक्षाएं थीं?


2
मेरे लिए 100 बहुत छोटा है। मैं क्रॉस-सत्यापन और परीक्षण मूल्यांकन दोनों के लिए एक-एक-बाहर की रणनीति का विकल्प चुनूंगा।
मेमोरियल

मैंने इस पर कोई साहित्य नहीं देखा है (सत्यापन के लिए न्यूनतम नमूना आकार)। यकीन नहीं है कि क्यों। एक महत्वपूर्ण मुद्दे की तरह लगता है।
चार्ल्स

जवाबों:


15

शुद्ध रूप से पैरामीटर अनुकूलन और मॉडल जटिलता पर सलाह के लिए +1। लेकिन इस सलाह के सभी शानदार है।
charles

1

यह देखते हुए कि आपका नमूना आकार छोटा है एक अच्छा अभ्यास क्रॉस-सत्यापन अनुभाग को छोड़ने और 60 - 40 या 70 - 30 अनुपात का उपयोग करना होगा।

जैसा कि आप क्लेमेंटाइन और डेटा माइनिंग के परिचय के खंड 2.8 में और MSDN लाइब्रेरी में भी देख सकते हैं - डेटा माइनिंग - प्रशिक्षण और परीक्षण सेट एक 70 - 30 अनुपात आम है। एंड्रयू एनजी की मशीन लर्निंग के अनुसार 60 - 20 - 20 अनुपात की सिफारिश की जाती है।

आशा है कि मैं मददगार था। सादर।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.