आपके द्वारा खोजा जा रहा खोज शब्द "लर्निंग कर्व" है, जो प्रशिक्षण नमूना आकार के कार्य के रूप में औसत (औसत) मॉडल प्रदर्शन देता है।
लर्निंग कर्व बहुत सारी चीजों पर निर्भर करता है, जैसे
- वर्गीकरण विधि
- वर्गीकरण की जटिलता
- कितनी अच्छी तरह से कक्षाएं अलग हो जाती हैं।
(मुझे लगता है कि दो-स्तरीय एलडीए के लिए आप कुछ सैद्धांतिक शक्ति गणना प्राप्त करने में सक्षम हो सकते हैं, लेकिन महत्वपूर्ण तथ्य यह है कि क्या आपका डेटा वास्तव में "बराबर सीओवी मल्टीवीरेट सामान्य" धारणा को पूरा करता है। मैं दोनों एलडीए के लिए कुछ सिमुलेशन के लिए जाऊंगा। मान्यताओं और आपके पहले से मौजूद डेटा को फिर से खोलना)।
n
एक और पहलू जिसे आपको ध्यान में रखना पड़ सकता है वह यह है कि आमतौर पर एक अच्छे क्लासिफायरफायर को प्रशिक्षित करना पर्याप्त नहीं है, लेकिन आपको यह भी साबित करना होगा कि क्लासिफायर अच्छा है (या काफी अच्छा)। तो आपको किसी सटीक परिशुद्धता के साथ सत्यापन के लिए आवश्यक नमूना आकार की भी योजना बनाने की आवश्यकता है। यदि आपको इतने सारे परीक्षण मामलों (जैसे निर्माता या उपभोक्ता की सटीकता / संवेदनशीलता / सकारात्मक भविष्य कहनेवाला मूल्य) के बीच सफलताओं के अंश के रूप में इन परिणामों को देने की आवश्यकता है, और अंतर्निहित वर्गीकरण कार्य बल्कि आसान है, तो इसके लिए प्रशिक्षण से अधिक स्वतंत्र मामलों की आवश्यकता हो सकती है एक अच्छा मॉडल।
प्रशिक्षण के लिए अंगूठे के एक नियम के रूप में, नमूना आकार आमतौर पर मॉडल जटिलता (मामलों की संख्या: चर की संख्या) के संबंध में चर्चा की जाती है, जबकि परीक्षण नमूना आकार पर पूर्ण सीमा प्रदर्शन माप की एक आवश्यक परिशुद्धता के लिए दी जा सकती है।
यहां एक पेपर दिया गया है, जहां हमने इन चीजों को और अधिक विस्तार से समझाया है, और यह भी सीखने पर चर्चा की है कि सीखने की
अवस्था को कैसे कम किया जाए: बीलाइट्स, सी। और न्युगेबाउर, यू। और बॉकलिट्ज़, टी। और क्रैफ्ट, सी। और पोप, जे .: नमूना आकार योजना वर्गीकरण मॉडल के लिए। गुदा चिम अधिनियम, 2013, 760, 25-33।
DOI: 10.1016 / j.aca.2012.11.007
ने arXiv पर पांडुलिपि स्वीकार किया: 1211.1323
यह "टीज़र" है, एक आसान वर्गीकरण समस्या दिखा रहा है (हम वास्तव में हमारी वर्गीकरण समस्या में इस तरह से एक आसान अंतर है, लेकिन अन्य वर्गों को भेद करना अधिक कठिन है):
हमने यह निर्धारित करने के लिए बड़े प्रशिक्षण नमूना आकारों को एक्सट्रपलेशन करने की कोशिश नहीं की कि कितने अधिक प्रशिक्षण मामलों की आवश्यकता है, क्योंकि परीक्षण नमूना आकार हमारी अड़चन हैं, और बड़े प्रशिक्षण नमूना आकार हमें और अधिक जटिल मॉडल बनाने देंगे, इसलिए एक्सट्रपलेशन संदिग्ध है। मेरे पास जिस तरह के डेटा सेट हैं, मैं उसके बारे में नए तरीके से मापूंगा, नए मामलों की एक गुच्छा को मापता हूं, यह दिखाता है कि चीजों में कितना सुधार हुआ है, अधिक मामलों को मापें, और इसी तरह।
यह आपके लिए अलग हो सकता है, लेकिन कागज में नमूनों की आवश्यक संख्या का अनुमान लगाने के लिए अतिरिक्त नमूना आकार के लिए एक्सट्रपलेशन का उपयोग करते हुए साहित्य के संदर्भ शामिल हैं।