संभावना मॉडल को कैलिब्रेट करते समय इष्टतम बिन चौड़ाई कैसे चुनें?


12

पृष्ठभूमि: कुछ महान प्रश्न / उत्तर यहां दिए गए हैं कि कैसे मॉडल को जांचना है जो किसी परिणाम की संभावनाओं की भविष्यवाणी करते हैं। उदाहरण के लिए

  1. बैरियर स्कोर , और संकल्प, अनिश्चितता और विश्वसनीयता में इसका अपघटन ।
  2. अंशांकन भूखंड और आइसोटोनिक प्रतिगमन

इन विधियों को अक्सर अनुमानित संभावनाओं पर एक बिनिंग विधि के उपयोग की आवश्यकता होती है, ताकि परिणाम पर (0, 1) के व्यवहार को माध्य परिणाम द्वारा बिन पर सुचारू किया जाए।

समस्या: हालाँकि, मुझे कुछ भी नहीं मिला, जो मुझे निर्देश देता है कि बिन चौड़ाई कैसे चुनें।

प्रश्न: मैं इष्टतम बिन चौड़ाई कैसे चुन सकता हूं?

प्रयास: उपयोग में दो सामान्य बिन चौड़ाई प्रतीत होती हैं:

  1. समान चौड़ाई की बाइनिंग, उदाहरण के लिए, अंतराल के 10% को कवर करने वाले प्रत्येक 10 डिब्बे, [0, 1]।
  2. टके की बिनिंग विधि ने यहां चर्चा की ।

लेकिन क्या ये विकल्प सबसे अधिक इष्टतम हैं यदि कोई पूर्वानुमानित संभावनाओं में अंतराल खोजने में रुचि रखता है जो सबसे अधिक गलत हैं?


1
यदि "1" परिणाम दुर्लभ है, तो नमूनों की समान संख्या के बजाय "1" s के बराबर संख्या के साथ डिब्बे को विभाजित करने पर विचार करना लायक है। यह अंशांकन के बाद मॉडल के भेदभाव (एयूसी) को बनाए रखने में मदद कर सकता है
ihadanny

जवाबों:


4

कोई भी सांख्यिकीय पद्धति जो बिनिंग का उपयोग करती है, अंततः अप्रचलित माना जाता है। 1990 के दशक के मध्य से निरंतर अंशांकन वक्र का अनुमान आम है। आमतौर पर इस्तेमाल की जाने वाली विधियां कम (बाहरी पता लगाने के साथ बंद), रैखिक लॉजिस्टिक कैलिब्रेशन और स्लाइन लॉजिस्टिक कैलिब्रेशन हैं। मैं अपने प्रतिगमन मॉडलिंग रणनीतियों पुस्तक और पाठ्यक्रम नोटों में इस पर विस्तार से जाता हूं । Http://www.fharrell.com/p/blog-page.html देखें । आर rmsपैकेज एक स्वतंत्र बाहरी नमूने का उपयोग करके या मूल मॉडल विकास नमूने पर बूटस्ट्रैप का उपयोग करके, आसानी से प्राप्त करने के लिए सहज गैर-अंशांकन अंशांकन बनाता है।


0

मेरे अनुभव में बायनिंग संभाव्यता वितरण की कल्पना के लिए अच्छा है, लेकिन यह आमतौर पर एक बुरा विचार है, अगर कोई चाहे तो सांख्यिकीय परीक्षण और / या पैरामीटर इंट्रेंस का उपयोग कर सकता है। मुख्य रूप से क्योंकि कोई तुरंत बिन चौड़ाई द्वारा परिशुद्धता को सीमित करता है। एक और आम समस्या यह है कि जब चर बाध्य नहीं होता है, तो किसी को कम और उच्च कटऑफ पेश करना पड़ता है।

Kolmogorov-Smirnov स्पिरिट में संचयी वितरण के साथ काम करने से इनमें से कई समस्याएं होती हैं। इस मामले में कई अच्छे सांख्यिकीय तरीके भी उपलब्ध हैं। (देखें, उदाहरण के लिए, https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test )

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.