किसी भी "नियम के अंगूठे" सुविधाओं की संख्या बनाम उदाहरणों की संख्या पर? (छोटे डेटा सेट)


17

मुझे आश्चर्य हो रहा है, यदि विशेषताओं की संख्या बनाम टिप्पणियों की संख्या पर कोई अनुमान है। जाहिर है, यदि कई विशेषताओं को टिप्पणियों की संख्या के बराबर है, तो मॉडल ओवरफिट हो जाएगा। विरल तरीकों (LASSO, लोचदार नेट) का उपयोग करके हम मॉडल को कम करने के लिए कई सुविधाएँ निकाल सकते हैं।

मेरा प्रश्न (सैद्धांतिक रूप से) है: इससे पहले कि हम मॉडल के चयन का आकलन करने के लिए मैट्रिक्स का उपयोग करते हैं क्या कोई अनुभवजन्य टिप्पणियां हैं जो इष्टतम संख्या में सुविधाओं से संबंधित टिप्पणियों की संख्या से संबंधित हैं ?

उदाहरण के लिए: प्रत्येक वर्ग में 20 उदाहरणों के साथ एक द्विआधारी वर्गीकरण समस्या के लिए, उपयोग करने के लिए सुविधाओं की संख्या पर कोई ऊपरी सीमा है?

जवाबों:


14

कई कागजात यह साबित कर चुके हैं कि

केवल दुर्लभ मामलों में ही सुविधाओं और नमूना आकार की संख्या के एक समारोह के रूप में त्रुटि का एक ज्ञात वितरण है।

किसी दिए गए सेट, और सुविधाओं के लिए त्रुटि सतह, सुविधाओं के बीच सहसंबंध (या कमी) का एक कार्य है।

यह पत्र निम्नलिखित सुझाव देता है:

  • असंबद्ध सुविधाओं के लिए, इष्टतम सुविधा का आकार (जहां N नमूना आकार है)एन-1एन
  • सुविधा सहसंबंध बढ़ जाती है, और इष्टतम सुविधा का आकार आनुपातिक करने के लिए हो जाता है अत्यधिक सहसंबद्ध सुविधाओं के लिए एनएन

एक और (अनुभवजन्य) दृष्टिकोण, जो लिया जा सकता है, एक ही डेटासेट से अलग-अलग नमूना आकारों के लिए सीखने की घटता निकालना है, और इसका उपयोग विभिन्न नमूना आकारों में वर्गीकरण के प्रदर्शन की भविष्यवाणी करना है। यहां पेपर के लिए लिंक दिया गया है


2
मुझे लगता है कि यह उत्तर कुछ हद तक भ्रामक है क्योंकि हुआ पेपर की एक महत्वपूर्ण धारणा गायब है: विशेषताएँ हुआ एट अल। लिंक किए गए पेपर पर विचार करना सभी जानकारीपूर्ण हैं, जो कि वह नहीं है जो आप अभ्यास में होने की उम्मीद कर सकते हैं। आईएमएचओ को यह स्पष्ट रूप से कहा जाना चाहिए क्योंकि आईएमएचओ सबसे आम प्रकार की असंबद्ध "विशेषताएं" हैं, जो अनइंफॉर्मेटिव माप चैनल हैं।
cbeleites

WRT। लर्निंग कर्व्स: ओपी शायद 2 × 20 मामलों के साथ उनका उपयोग नहीं कर पाएंगे, क्योंकि उन्हें इतने कम मामलों से उपयोगी परिशुद्धता के साथ नहीं मापा जा सकता है। हुआ ने इसका संक्षेप में उल्लेख किया है, और हमने इस कठिनाई के बारे में विस्तार से चर्चा की, जो मैंने नीचे दिए गए उत्तर में दिए गए पेपर में दी है।
cbeleites

8

अपने स्वयं के अनुभव से: एक मामले में, मैंने वास्तविक डेटाबेस के साथ काम किया है जो बहुत छोटी है (300 चित्र) कई वर्गों के साथ, गंभीर डेटा असंतुलन की समस्या है और मैं 9 सुविधाओं का उपयोग करके समाप्त हुआ: SIFT, HOG, आकृति संदर्भ, SSIM, GM और 4 DNN- आधारित सुविधाएँ। एक अन्य मामले में, मैंने बहुत बड़े डेटाबेस (> 1 एम चित्र) के साथ काम किया और केवल एचओजी सुविधा का उपयोग करके समाप्त हुआ। मुझे लगता है कि उच्च सटीकता प्राप्त करने के लिए उदाहरणों की संख्या और आवश्यक सुविधाओं की संख्या के बीच कोई सीधा संबंध नहीं है। BUT: वर्गों की संख्या, वर्गों के बीच समानता और एक ही वर्ग (इन तीन मापदंडों) के भीतर भिन्नता सुविधाओं की संख्या को प्रभावित कर सकती है। जब कई वर्गों के साथ बड़ा डेटाबेस और वर्गों के बीच बड़ी समानता और एक ही वर्ग के भीतर बड़ी भिन्नता हो तो आपको उच्च सटीकता प्राप्त करने के लिए अधिक विशेषताओं की आवश्यकता होती है। याद है:


@ बशर हद्दद: मुझे सही करें अगर मैं गलत हूं (जैसा कि मैं कंप्यूटर विज़न और एमएल दोनों के लिए नया हूं), तो एचओजी फीचर वास्तव में एक उच्च आयामी वेक्टर नहीं है (मेरे मामले में, मैं 1764-डायमेंशनल एचओजी फीचर्स प्राप्त कर रहा था)। इसलिए जब आप 9 सुविधाएँ कहते हैं और उनमें से एक HOG है, तो क्या आप वास्तव में अकेले HOG के लिए एक उच्च आयामी सुविधा स्थान प्राप्त नहीं कर रहे हैं?
मथ्मथ

1
साहित्य में वे फीचर प्रकार या आयाम सूचकांक को इंगित करने के लिए शब्द सुविधा का उपयोग करते हैं। इसलिए जब मैं कहता हूं कि मैं 6 सुविधाओं का उपयोग कर रहा हूं, इसका मतलब है कि मैं 6 फीचर प्रकारों का उपयोग कर रहा हूं, उनमें से प्रत्येक वेक्टर (1 एक्स डी) वेक्टर है। अगर मैं हॉग फीचर टाइप के बारे में बात कर रहा हूं, तो प्रत्येक आयाम एक फीचर हो सकता है।
बशर हदद

2

यह निर्भर करता है ... लेकिन निश्चित रूप से इसका जवाब आपको कहीं नहीं मिलता है।

वह मॉडल जटिलता के लिए अंगूठे का कुछ नियम है: डेटा से सीखना - वीसी आयाम

"बहुत मोटे तौर पर" आपको प्रत्येक मॉडल पैरामीटर के लिए 10 डेटा बिंदुओं की आवश्यकता होती है। और मॉडल मापदंडों की संख्या सुविधाओं की संख्या के समान हो सकती है।


2

पार्टी के लिए थोड़ा देर से, लेकिन यहां कुछ अनुमान हैं।

प्रत्येक वर्ग में 20 उदाहरणों के साथ द्विआधारी वर्गीकरण समस्या, उपयोग करने के लिए सुविधाओं की संख्या पर कोई ऊपरी सीमा है?

  • लीनियर क्लासिफायर के प्रशिक्षण के लिए , प्रति वर्ग 3 - 5 स्वतंत्र मामलों और सुविधा की सिफारिश की जाती है। यह सीमा आपको मज़बूती से स्थिर मॉडल प्रदान करती है, यह एक अच्छे मॉडल की गारंटी नहीं देती है (यह संभव नहीं है: आपके पास बिना सूचना के डेटा हो सकता है जहां कोई मॉडल अच्छा सामान्यीकरण प्रदर्शन प्राप्त नहीं कर सकता है)

  • हालाँकि, आपके परिदृश्य के अनुसार नमूना आकार के लिए, प्रशिक्षण के बजाय सत्यापन (सत्यापन) अड़चन है, और सत्यापन मॉडल जटिलता के सापेक्ष मामलों के बजाय परीक्षण मामलों की पूर्ण संख्या पर निर्भर करता है: अंगूठे के नियम के रूप में, आपको test 100 परीक्षण की आवश्यकता है हर मामले में 10% अंकों से अधिक चौड़ा नहीं होने वाले आत्मविश्वास अंतराल के साथ अनुपात का अनुमान लगाने के लिए।

    दुर्भाग्य से इसका मतलब यह भी है कि आप मूल रूप से अपने आवेदन के लिए अनुभवजन्य सीखने की अवस्था प्राप्त नहीं कर सकते हैं: आप इसे ठीक से माप नहीं सकते हैं, और व्यवहार में आपको बहुत बड़ी कठिनाइयाँ होंगी, क्योंकि यह आपके मॉडल को सीमित करके छोटे नमूने के आकार पर प्रतिक्रिया देता है। जटिलता - और आप इसे नमूना आकार बढ़ाने के साथ आराम करेंगे।

    विवरण के लिए हमारा पेपर देखें: बेलेइट्स, सी और न्युजबॉएर, यू। और बॉकलिट्ज़, टी। और क्रैफ़्ट, सी और पोप, जे .: वर्गीकरण मॉडल के लिए नमूना आकार की योजना। गुदा चिम अधिनियम, 2013, 760, 25-33।
    DOI: 10.1016 / j.aca.2012.11.007

    ने arXiv पर पांडुलिपि स्वीकार किया: 1211.1323

  • मेरे पास इन सिफारिशों (स्पेक्ट्रोस्कोपी डेटा, चिकित्सा अनुप्रयोगों के लिए) के करीब कुछ भी नहीं है। इसके बाद मैं क्या करता हूं: मैं मॉडलिंग और सत्यापन प्रक्रिया के हिस्से के रूप में मॉडल स्थिरता को बहुत बारीकी से मापता हूं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.