क्या जैकिनिफिंग के कोई समकालीन उपयोग हैं?


12

प्रश्न: बूटस्ट्रैपिंग जैकनाइफिंग से बेहतर है; हालाँकि, मैं सोच रहा हूँ कि क्या ऐसे उदाहरण हैं जहाँ jackknifing पैरामीटर अनुमानों के लिए अनिश्चितता को चिह्नित करने के लिए एकमात्र या कम से कम व्यवहार्य विकल्प है। इसके अलावा, व्यावहारिक स्थितियों में बूटस्ट्रेपिंग के सापेक्ष पक्षपाती / गलत तरीके से जैकनाइफिंग कैसे होती है, और क्या जैकनाइफ परिणाम अधिक जटिल बूटस्ट्रैप विकसित होने से पहले प्रारंभिक अंतर्दृष्टि प्रदान कर सकते हैं?

कुछ संदर्भ: एक दोस्त भौगोलिक डेटा को वर्गीकृत करने के लिए एक ब्लैक-बॉक्स मशीन लर्निंग एल्गोरिदम ( मैक्सएंट ) का उपयोग कर रहा है जो "केवल उपस्थिति" या "सकारात्मक" है। सामान्य मॉडल का मूल्यांकन आमतौर पर क्रॉस-मान्यता और आरओसी वक्रों का उपयोग करके किया जाता है। हालाँकि, वह मॉडल के आउटपुट का एक एकल संख्यात्मक विवरण प्राप्त करने के लिए मॉडल के आउटपुट का उपयोग कर रहा है और उस नंबर के आसपास एक आत्मविश्वास अंतराल चाहता है; इस मूल्य के आस-पास अनिश्चितता को चिह्नित करने के लिए जैकनाइफिंग एक उचित तरीका है। बूटस्ट्रैपिंग प्रासंगिक नहीं दिखता है क्योंकि प्रत्येक डेटा बिंदु एक मानचित्र पर एक अद्वितीय स्थान है जिसे प्रतिस्थापन के साथ फिर से नमूना नहीं किया जा सकता है। मॉडलिंग कार्यक्रम खुद को अंततः वह प्रदान करने में सक्षम हो सकता है जिसकी उसे आवश्यकता है; हालांकि, मैं सामान्य रूप से दिलचस्पी रखता हूं कि क्या / जब जैकक्निफिंग उपयोगी हो सकता है।


4
इस तरह के मानचित्रण अनुप्रयोगों - असतत नमूना स्थानों से अनुमान लगाना - ठीक वही हैं जहां मैंने जैकनेफिंग के व्यापक उपयोग का उल्लेख किया है, जिस कारण से आप देते हैं। यह एक मानक प्रक्रिया है, उदाहरण के लिए, सिंचाई करना।
whuber

कुछ कम नमूना सेटिंग्स में, क्योंकि प्रतिस्थापन के साथ बूटस्ट्रैपिंग नमूना, पूरे डेटा मैट्रिक्स एकवचन बन सकता है, इसलिए कई मॉडल को फिट करना असंभव है।
rep_ho

जवाबों:


4

आप न केवल छुट्टी-एक-बाहर लेकिन जैसे resampling-बिना बदलने के किसी भी प्रकार को शामिल करने के jackknifing लेते हैं गुना प्रक्रियाओं, मैं इसे एक व्यवहार्य विकल्प पर विचार करने और इसे नियमित रूप से उपयोग करते हैं, जैसे में Beleites एट अल। : एस्ट्रोसाइटोमा ऊतकों की रमन स्पेक्ट्रोस्कोपिक ग्रेडिंग: नरम संदर्भ जानकारी का उपयोग करना। गुदा बायोएनल केम, 2011, 400, 2801-2816k

यह भी देखें: क्रॉस-मान्य वर्गीकरण सटीकता के लिए आत्मविश्वास अंतराल


मैं कई कारणों से LOO से बचता हूं और इसके बजाय एक पुनरावृत्त / बार-बार -fold योजना का उपयोग करता हूं । मेरे क्षेत्र में (रसायन विज्ञान / स्पेक्ट्रोस्कोपी / रसायन विज्ञान), क्रॉस सत्यापन आउट-ऑफ-बूटस्ट्रेशन सत्यापन की तुलना में कहीं अधिक सामान्य है। हमारे डेटा / typcial अनुप्रयोगों के लिए हम चाहते हैं कि पाया बार आवर्ती गुना पार सत्यापन और के बाहर के बूटस्ट्रैप प्रदर्शन अनुमान बहुत समान कुल त्रुटि है पुनरावृत्तियों [Beleites एट अल। : विरल डेटासेट का उपयोग करके वर्गीकरण त्रुटि का अनुमान लगाने में कमी। Chem.Intell.Lab.Syst।, 2005, 79, 91 - 100.]kikik

बूटस्ट्रैपिंग पर चलने वाली क्रॉस वेलिडेशन स्कीमों को देखने के लिए मुझे जो विशेष लाभ होता है, वह यह है कि मैं बहुत आसानी से स्थिरता / मॉडल अनिश्चितता के उपाय प्राप्त कर सकता हूं, जो कि सहज रूप से समझाया जा सकता है, और इसने प्रदर्शन में भिन्नता अनिश्चितता के दो अलग-अलग कारणों को अलग किया है जो कि अधिक intertwined हैं बूट-आउट माप।
प्रकार के प्रश्नों के पार सत्यापन मेल खाती है बल्कि सीधे: कि मुझे पार सत्यापन / jackknifing जाता तर्क की एक पंक्ति मॉडल की मजबूती में दिख रही है , "अगर मैं का आदान-प्रदान क्या अपने मॉडल के लिए होता के लिए मामलों नए मामले सामने आते?" xxया " मामलों का आदान-प्रदान करके प्रशिक्षण डेटा को बनाए रखने के खिलाफ मेरा मॉडल कितना मजबूत है ?"x यह बूटस्ट्रैपिंग पर भी लागू होता है, लेकिन सीधे तौर पर कम होता है।

ध्यान दें कि मैं विश्वास अंतराल प्राप्त करने का प्रयास नहीं करता हूं , क्योंकि मेरा डेटा अंतर्निहित है ( स्पेक्ट्रा ऑफ रोगियों), इसलिए मैं रिपोर्ट करना पसंद करता हूंnsnpns

  1. एक (रूढ़िवादी) द्विपद विश्वास अंतराल औसत अवलोकन प्रदर्शन और नमूना आकार के रूप में का उपयोग कर औरnp

  2. पार सत्यापन के पुनरावृत्तियों के बीच निरीक्षण करता । सिलवटों के बाद , प्रत्येक मामले का परीक्षण एक बार ठीक किया जाता है, हालांकि विभिन्न सरोगेट मॉडल द्वारा। इस प्रकार रन के बीच किसी भी प्रकार की भिन्नता मॉडल की अस्थिरता के कारण होनी चाहिए।iki

आमतौर पर, अर्थात यदि मॉडल को अच्छी तरह से सेट किया गया है, तो 2. यह दिखाने के लिए केवल जरूरत है कि यह 1. में विचरण की तुलना में बहुत छोटा है, और इसलिए कि मॉडल यथोचित रूप से स्थिर है। यदि 2. गैर-नगण्य हो जाता है, तो यह कुल मॉडल पर विचार करने का समय है: मॉडल एकत्रीकरण केवल मॉडल अस्थिरता के कारण विचरण के लिए मदद करता है, यह प्रदर्शन माप में विचरण की अनिश्चितता को कम नहीं कर सकता है जो परीक्षण मामलों की परिमित संख्या के कारण है ।

नोट इस तरह के डेटा के लिए निर्माण प्रदर्शन विश्वास के अंतराल के क्रम में, मैं चाहते हैं कि कम से कम विचार है कि विचरण के बीच मनाया पार सत्यापन के रन की औसत से है कि अस्थिरता के मॉडल, यानी मैं कहेंगे मॉडल अस्थिरता विचरण है पार सत्यापन रन के बीच मनाया विचरण; परिमित स्थिति संख्या के कारण प्लस विचरण - वर्गीकरण (हिट / त्रुटि) प्रदर्शन के उपायों के लिए यह द्विपद है। निरंतर उपायों के लिए, मैं क्रॉस-वेलिडेशन रन विचरण, , और के- मॉडल से प्राप्त मॉडल के लिए अस्थिरता-प्रकार के विचरण का अनुमान लगाता हूँ ।ikkkk

यहां क्रॉसवैलिडेशन का लाभ यह है कि आपको मॉडल अस्थिरता के कारण अनिश्चितता और परीक्षण मामलों की सीमित संख्या के कारण अनिश्चितता के बीच एक स्पष्ट अलगाव मिलता है। इससे संबंधित नुकसान निश्चित रूप से यह है कि यदि आप वास्तविक मामलों की संख्या को ध्यान में रखना भूल जाते हैं, तो आप गंभीर रूप से सही अनिश्चितता को कम कर देंगे। हालाँकि, यह बूटस्ट्रैपिंग के लिए भी होगा (हालांकि कुछ हद तक)।


अब तक, तर्क उस मॉडल के प्रदर्शन को मापने पर ध्यान केंद्रित करता है जिसे आप किसी दिए गए डेटा सेट के लिए प्राप्त करते हैं । यदि आप दिए गए एप्लिकेशन और दिए गए नमूना आकार के लिए सेट किए गए डेटा पर विचार करते हैं , तो विचरण में एक तीसरा योगदान है जो मौलिक रूप से सत्यापन को फिर से खोलकर नहीं मापा जा सकता है, उदाहरण के लिए बेंगियो और ग्रैंडवालेट देखें : K- फोल्ड क्रॉस के वेरिएंस का कोई निष्पक्ष अनुमानक नहीं -वैलीडेशन, जर्नल ऑफ़ मशीन लर्निंग रिसर्च, 5, 1089-1105 (2004)। , हम भी Beleites एट अल में इन तीन योगदान दिखा आंकड़े हैं : वर्गीकरण मॉडल के लिए नमूना आकार नियोजन।, गुदा चिम अधिनियम, 760, 25-33 (2013)। DOI: 10.1016 / j.aca.2012.11.007 )
मुझे लगता है कि यहां जो होता है वह इस धारणा का परिणाम है कि फिर से शुरू करना एक नया नमूना टूटने के समान है।

यह महत्वपूर्ण है अगर मॉडल बिल्डिंग एल्गोरिदम / रणनीतियों / ह्यूरिस्टिक्स की तुलना आवेदन के लिए एक विशेष मॉडल के निर्माण के बजाय की जाए और इस मॉडल को मान्य किया जाए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.