मैं अपने अंशांकन को मापने के लिए सबसे अच्छा मीट्रिक कैसे चुनूं?


10

मैं कार्यक्रम करता हूं और परीक्षण-संचालित विकास करता हूं। अपने कोड में बदलाव करने के बाद मैंने अपने परीक्षण चलाए। कभी वे सफल होते हैं तो कभी असफल। इससे पहले कि मैं एक परीक्षण चलाऊं मैं अपनी विश्वसनीयता के लिए 0.01 से 0.99 तक की संख्या लिखता हूं कि परीक्षण सफल होगा।

मैं जानना चाहता हूं कि क्या मैं यह अनुमान लगाने में सुधार कर रहा हूं कि मेरा परीक्षण सफल होगा या असफल। यह अच्छा होगा अगर मैं ट्रैक कर सकता हूं कि क्या मैं भविष्यवाणी करने में बेहतर हूं कि क्या परीक्षण सोमवार या शुक्रवार को सफल होगा। यदि परीक्षण की सफलता की भविष्यवाणी करने की मेरी क्षमता अन्य मीट्रिक मैं ट्रैक करती है, तो मैं जानना चाहता हूं।

यह मुझे सही मीट्रिक चुनने के कार्य के साथ छोड़ देता है। सुपरफोकास्टिंग में फिलिप टेटलॉक ने बैरियर स्कोर का उपयोग यह मापने के लिए किया है कि विशेषज्ञों को कितनी अच्छी तरह कैलिब्रेट किया जाता है। साहित्य में प्रस्तावित एक अन्य मीट्रिक लॉगरिदमिक स्कोरिंग नियम है । अन्य संभावित उम्मीदवार भी हैं।

मैं कैसे तय करूं कि किस मीट्रिक का उपयोग करना है? क्या दूसरों पर एक स्कोरिंग नियम के पक्ष में तर्क है?


1
आप पूर्वानुमान कौशल में बदलाव को मापने में कठिनाई का एक संभावित स्रोत यह है कि पूर्वानुमान समस्या की अंतर्निहित कठिनाई बदल सकती है। आपके कौशल में परिवर्तन समस्या कठिनाई में परिवर्तन से अप्रभेद्य हो सकता है।
मैथ्यू गन

जवाबों:


1

मुझे लगता है कि आप अपने कोड के लिए यूनिट-परीक्षण कर रहे हैं।

एक विचार जो मैं सोच सकता हूं, जो शायद आप क्या चाहते हैं, एक रैखिक मॉडल का उपयोग करने के लिए नहीं है।

ऐसा करने का लाभ यह है कि आप अन्य चर का एक गुच्छा बना सकते हैं जिसे आप विश्लेषण में शामिल कर सकते हैं।

मान लें कि आपके पास एक वेक्टर जिसमें आपके परीक्षण के परिणाम शामिल हैं, और दूसरा वेक्टर जिसमें परिणाम की आपकी भविष्यवाणियां शामिल हैं।x यYx

अब आप बस रैखिक मॉडल फिट कर सकते हैं

yi=a+bxi+ϵ

और का मान ज्ञात , उच्च का मूल्य संकेत मिलता है कि अपने भविष्यवाणियों बेहतर होते जा रहे हैं।बीbb

इस दृष्टिकोण को अच्छा बनाने वाली बात यह है कि अब आप अन्य चर का एक गुच्छा जोड़ना शुरू कर सकते हैं यह देखने के लिए कि क्या एक बेहतर मॉडल बनाता है, और वे चर बेहतर पूर्वानुमान बनाने में मदद कर सकते हैं। चर सप्ताह के दिन के लिए एक संकेतक हो सकते हैं, उदाहरण के लिए सोमवार के लिए यह हमेशा 1 होगा, और अन्य सभी दिनों के लिए शून्य होगा। यदि आप उस चर को मॉडल में शामिल करते हैं, तो आपको मिलेगा:

yi=a+aMonday+bxi+ϵ

और यदि चर महत्वपूर्ण और सकारात्मक है, तो इसका मतलब यह हो सकता है कि आप सोमवार को अपनी भविष्यवाणियों में अधिक रूढ़िवादी हैं।aMonday

आप एक नया चर भी बना सकते हैं, जहाँ आप अपने द्वारा किए गए कार्य की कठिनाई का आकलन करने के लिए एक अंक देते हैं। यदि आपके पास संस्करण नियंत्रण है, तो आप उदाहरण के लिए कोड की पंक्तियों की संख्या को कठिनाई के रूप में उपयोग कर सकते हैं, अर्थात जितना अधिक कोड आप लिखेंगे, उतनी अधिक संभावना कुछ टूट जाएगी।

अन्य चर हो सकते हैं, उस दिन कॉफी कप की संख्या, आगामी समय सीमा के लिए संकेतक, मतलब सामान खत्म करने के लिए अधिक तनाव आदि।

आप यह देखने के लिए भी समय चर का उपयोग कर सकते हैं कि आपकी भविष्यवाणियाँ बेहतर हो रही हैं या नहीं। इसके अलावा, आपने कार्य पर कितना समय बिताया है, या आपने उस पर कितने सत्र बिताए हैं, क्या आप एक त्वरित सुधार कर रहे थे और यह टेढ़ा हो सकता है आदि।

अंत में आपके पास एक भविष्यवाणी मॉडल है, जहां आप सफलता की संभावना का अनुमान लगाने की कोशिश कर सकते हैं। यदि आप इसे बनाने का प्रबंधन करते हैं, तो शायद आपको अपनी खुद की भविष्यवाणियां करने की भी आवश्यकता नहीं है, आप बस सभी चर का उपयोग कर सकते हैं और इस बात पर बहुत अच्छा अनुमान लगा सकते हैं कि क्या चीजें काम करेंगी।

बात यह है कि आप केवल एक ही नंबर चाहते थे। उस मामले में आप शुरुआत में प्रस्तुत किए गए सरल मॉडल का उपयोग कर सकते हैं और बस ढलान का उपयोग कर सकते हैं, और प्रत्येक अवधि के लिए गणनाओं को फिर से कर सकते हैं, फिर आप देख सकते हैं कि क्या समय के साथ उस स्कोर में एक प्रवृत्ति है।

उम्मीद है की यह मदद करेगा।


1
मेरा तर्क है कि एक उच्च ढलान ( आपके सरल मॉडल में ) हमेशा एक बेहतर भविष्यवाणी के अनुरूप नहीं होता है: एक लॉजिस्टिक प्रतिगमन को मानते हुए, यदि = 'सत्य' / परिणाम की संभावना देखी गई है, जबकि पूर्वानुमानित संभावना है, की तुलना 0 होना चाहिए और होना चाहिए 1. कोई भी उच्च परिणाम के overprediction का सुझाव देगा, जबकि 1 से कम एक अंडरप्रेडिशन का सुझाव देगा। यह विधि वास्तव में मेरे उत्तर में मेरे द्वारा संदर्भित संदर्भ में वर्णित है। संक्षेप में, यह ढलान विधि का उपयोग करने के लिए ठीक है, लेकिन 1 के निकट ढलान सबसे अच्छा है (जब = 0)। Y x a b b b abYxabbba
IWS

@IWS इनपुट के लिए धन्यवाद, मैं आपके साथ इस हद तक सहमत हूं कि आप अपने प्रदर्शन का अनुमान लगाने के लिए एक मूल्य चाहते हैं, फिर इंटरसेप्ट को छोड़ना एक अच्छा विचार है। यदि आप डेटा को किसी भी तरह से व्याख्या करने की कोशिश करना चाहते हैं, (और आपके पास पर्याप्त है), तो, यह इंटरप्ट को जोड़ने और मॉडलों की तुलना करने के लिए एक अच्छा विचार हो सकता है।
गोमो

1

हालांकि यह एक उत्तर से दूर है और एक संदर्भ से अधिक है, यह Steyerberg E - महामारी विज्ञान 2012 की जांच करने के लिए एक अच्छा विचार हो सकता है ।

इस लेख में स्टेयरबर्ग और सहकर्मियों को द्विआधारी परिणामों (succes या विफलता) के साथ मॉडल के लिए भविष्यवाणी मॉडल प्रदर्शन की जांच करने के विभिन्न तरीकों की व्याख्या की गई है। अंशांकन सिर्फ इन उपायों में से एक है। इस बात पर निर्भर करते हुए कि क्या आप एक सटीक संभावना , सटीक वर्गीकरण या सटीक पुनरावर्तन चाहते हैं, जिसे आप मॉडल प्रदर्शन के विभिन्न उपायों का उपयोग करना चाहते हैं। हालांकि इस पांडुलिपि के मॉडल का उपयोग जैव चिकित्सा अनुसंधान में उपयोग किए जाने वाले मॉडल से होता है, मुझे लगता है कि वे अन्य स्थितियों (आपके) पर भी लागू हो सकते हैं।

आपकी स्थिति के लिए अधिक विशिष्ट, अंशांकन मैट्रिक्स की व्याख्या करना वास्तव में कठिन है क्योंकि वे संभावित पूर्वानुमानों की पूरी श्रृंखला पर अंशांकन (अर्थात औसत) करते हैं। नतीजतन, आपके पास एक अच्छा अंशांकन सारांश स्कोर हो सकता है, जबकि आपकी भविष्यवाणियां संभावित संभावनाओं की एक महत्वपूर्ण श्रेणी में बंद थीं (उदाहरण के लिए, आपके पास कम (= अच्छा) अवरोधक स्कोर हो सकता है, जबकि सक्सेज के लिए भविष्यवाणी एक निश्चित या उससे ऊपर है। अनुमानित संभावना) या इसके विपरीत (एक खराब सारांश स्कोर, जबकि पूर्वानुमान महत्वपूर्ण क्षेत्र में अच्छी तरह से कैलिब्रेट किए जाते हैं)। इसलिए मैं आपको सुझाव दूंगा कि क्या इस तरह की एक महत्वपूर्ण श्रेणी की भविष्यवाणी की गई संभावनाएं आपके मामले में मौजूद हैं। यदि ऐसा है, तो उपयुक्त उपायों का उपयोग करें (उदाहरण के लिए पुनर्वर्गीकरण सूचकांक)। यदि नहीं (मतलब आप समग्र अंशांकन में रुचि रखते हैं), तो ब्रायर का उपयोग करें,

निष्कर्ष निकालने के लिए, अंशांकन सारांश उपायों में से किसी एक को आपके पहले संभावित संभावनाओं बनाम मनाया संभावना को प्लॉट करने के लिए आपके पहले कदम की आवश्यकता होती है (उदाहरण के लिए आउटवर्ल्ड का जवाब देखें)। अगला, सारांश माप की गणना की जा सकती है, लेकिन सारांश उपाय की पसंद को पहली जगह में विफलता का अनुमान लगाने के लक्ष्य को प्रतिबिंबित करना चाहिए।


0

मैंने विरल डेटा पर भविष्यवाणी मॉडल किया है और इन मामलों में अपने मॉडल को कैलिब्रेट करना एक बड़ी चुनौती है। मैं आपको बताऊंगा कि मैंने क्या किया, आप उससे कुछ मदद ले सकते हैं।

मैंने अनुमानित संभावना के 20 डिब्बे बनाए और सफलता की औसत अनुमानित और वास्तविक संभावना की साजिश करने की कोशिश की। औसत अनुमानित संभावना के लिए, मैंने बिन रेंज का औसत लिया। औसत वास्तविक संभावना के लिए, मैंने डिब्बे में वास्तविक सफलता और विफलता की गणना की, जिससे मुझे बिन में सफलता की वास्तविक (औसत) संभावना मिली। बाहरी लोगों के प्रभाव को कम करने के लिए, मैंने प्रत्येक बिन में वास्तविक औसत संभावना लेने से पहले शीर्ष और निचले 5% डेटा को हटा दिया।

एक बार मुझे ये मिल गया तो मैं आसानी से डेटा को प्लॉट कर सकता हूं।


यह बताना अच्छा होगा कि फिट टेस्ट की होस्मेर-लेमेशो अच्छाई की गणना करने के लिए यह पहला कदम है।
jwimberley
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.