कितनी बार हमें के-गुना सीवी दोहराना चाहिए?


18

मैं बूटस्ट्रैपिंग और क्रॉस वेलिडेशन के बीच के अंतर को देखते हुए इस धागे पर आया - जिस तरह से महान जवाब और संदर्भ। क्या मैं अब सोच रहा हूँ, अगर मैं बार-बार 10 गुना सीवी कहते हैं प्रदर्शन करने के लिए एक वर्गीकारक की सटीकता, गणना करने के लिए कितनी बार था n मैं इसे दोहराने चाहिए?

क्या n सिलवटों की संख्या पर निर्भर करता है ? नमूना आकार पर? क्या इसके लिए कोई नियम है?

(मेरे मामले में, मेरे पास 5000 के रूप में बड़े नमूने हैं, और यदि मैं n = 20 से बड़ा कुछ भी चुनता हूं तो गणना करने के लिए मेरा कंप्यूटर बहुत लंबा रास्ता तय करता है।)

जवाबों:


10

प्रभावित करने वाला कारक आपके मॉडल कितना स्थिर है - या, अधिक सटीक: सरोगेट्स की भविष्यवाणियां हैं।

यदि मॉडल पूरी तरह से स्थिर हैं, तो सभी सरोगेट मॉडल एक ही परीक्षण मामले के लिए एक ही भविष्यवाणी करेंगे। उस स्थिति में पुनरावृत्तियों / पुनरावृत्तियों की आवश्यकता नहीं होती है, और वे कोई सुधार नहीं देते हैं।

जैसा कि आप भविष्यवाणियों की स्थिरता को माप सकते हैं, यहाँ मैं क्या करूँगा:

  • पूरी प्रक्रिया को एक तरह से सेट करें जो हार्ड डिस्क जैसे प्रत्येक क्रॉस सत्यापन दोहराव / पुनरावृत्ति के परिणामों को बचाता है
  • बड़ी संख्या में पुनरावृत्तियों के साथ प्रारंभ करें
  • कुछ पुनरावृत्तियों के माध्यम से कर रहे हैं, प्रारंभिक परिणाम लाने और प्रत्येक रन के लिए परिणामों में स्थिरता / भिन्नता पर एक नज़र है।
  • फिर तय करें कि आप परिणामों को और अधिक कैसे पुनरावृत्त करना चाहते हैं।

  • बेशक, आप 5 पुनरावृत्तियों को चलाने, कहने, और फिर तय करने की अंतिम संख्या पर निर्णय ले सकते हैं।

(साइड नोट: मैं आमतौर पर> सीए 1000 सरोगेट मॉडल का उपयोग करता हूं, इसलिए पुनरावृत्तियों / पुनरावृत्तियों की कोई विशिष्ट संख्या लगभग 100 - 125 नहीं होगी)।


13

किसी भी सवाल पर एक सांख्यिकीविद् से पूछें और उनका उत्तर "यह निर्भर करता है" का कुछ रूप होगा।

यह निर्भर करता है । मॉडल के प्रकार के अलावा (अच्छे बिंदु केबेलेइट्स!), प्रशिक्षण सेट बिंदुओं की संख्या और भविष्यवक्ताओं की संख्या? यदि मॉडल वर्गीकरण के लिए है, तो एक बड़े वर्ग के असंतुलन से मुझे पुनरावृत्ति की संख्या में वृद्धि होगी। इसके अलावा, यदि मैं एक फीचर चयन प्रक्रिया को फिर से शुरू कर रहा हूं, तो मैं खुद को और अधिक resamples के प्रति पूर्वाग्रह करूंगा।

इस संदर्भ में उपयोग की जाने वाली किसी भी पुनरुत्पादन विधि के लिए, याद रखें कि (शास्त्रीय बूटस्ट्रैपिंग के विपरीत), आपको केवल वितरण के साधनों का "सटीक पर्याप्त" अनुमान प्राप्त करने के लिए पर्याप्त पुनरावृत्तियों की आवश्यकता है। यह व्यक्तिपरक है लेकिन कोई भी उत्तर होगा।

एक दूसरे के लिए दो वर्गों के साथ वर्गीकरण के साथ चिपके हुए, मान लें कि आप मॉडल की सटीकता के बारे में 0.80 की उम्मीद करते हैं। चूंकि रेज़मैपलिंग प्रक्रिया सटीकता अनुमान (कहना p) का नमूना ले रही है , इसलिए मानक त्रुटि वह होगी sqrt[p*(1-p)]/sqrt(B)जहां Bरेज़मैल्स की संख्या है। B = 10सटीकता के लिए , मानक त्रुटि 0.13 है और इसके साथ B = 100लगभग 0.04 है। आप इस फॉर्मूले का उपयोग इस विशेष मामले के लिए एक मोटे गाइड के रूप में कर सकते हैं।

यह भी विचार करें कि, इस उदाहरण में, सटीकता का विचरण अधिकतम है जो आपको 0.50 के करीब मिलता है, इसलिए एक सटीक मॉडल को कम प्रतिकृति की आवश्यकता होनी चाहिए क्योंकि मानक त्रुटि उन मॉडल की तुलना में कम होनी चाहिए जो कमजोर शिक्षार्थी हैं।

HTH,

मैक्स


2
मैं इस संदर्भ में किसी भी प्रकार की मानक त्रुटि गणना को लागू करने के लिए यहां बहुत सावधान रहूंगा, क्योंकि यहां विचरण के 2 स्रोत हैं (मॉडल अस्थिरता + परीक्षण मामलों का परिमित सेट), और मुझे लगता है कि फिर से जाँचने पर सत्यापन को परिमित परीक्षण के आसपास नहीं मिलेगा सेट विचरण: क्रॉस सत्यापन पर विचार करें। प्रत्येक रन में, सभी परीक्षण मामलों का एक बार परीक्षण किया जाता है। इस प्रकार पुनरावृत्त CV के रन के बीच विचरण अस्थिरता के कारण होना चाहिए। परिमित परीक्षण के कारण आप इस तरह से अवलोकन नहीं करेंगे (और न ही कम करेंगे!), लेकिन निश्चित रूप से परिणाम अभी भी इसके अधीन है।
केलीलाइट्स मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.