घ 100% हिट दर संभावना और 0% झूठी अलार्म संभावना के साथ प्रमुख


10

मैं एक स्मृति कार्य के लिए डी प्राइम की गणना करना चाहता हूं जिसमें पुरानी और नई वस्तुओं का पता लगाना शामिल है। मेरे पास समस्या यह है कि कुछ विषयों में 1 और / या झूठी अलार्म दर की दर 0 है, जो क्रमशः 100% और 0% संभावनाएं बनाती है।

के लिए सूत्र घ प्रधानमंत्री है d' = z(H) - z(F), जहां z(H)और z(F)हिट दर और झूठी चेतावनी है, क्रमशः की जेड रूपांतरण कर रहे हैं।

Z ट्रांसफ़ॉर्म की गणना करने के लिए, मैं Excel फ़ंक्शन NORMSINV (यानी, z(H)=NORMSINV(hit rate)) का उपयोग करता हूं । हालाँकि, यदि हिट दर या गलत अलार्म दर क्रमशः 1 या 0 है, तो फ़ंक्शन एक त्रुटि देता है। ऐसा इसलिए है क्योंकि z रूपांतर, जैसा कि मैं समझता हूं, आरओसी वक्र के तहत क्षेत्र को इंगित करता है, जो गणितीय रूप से 100% या 0% संभावना के लिए अनुमति नहीं देता है। इस मामले में, मुझे यकीन नहीं है कि सीलिंग प्रदर्शन वाले विषयों के लिए डी की गणना कैसे की जाए।

एक वेबसाइट 1 और 1 की जगह 1 - 1 / (2N) और 1 / 2N की जगह लेती है जिसमें N को सबसे अधिक संख्या में हिट और झूठे अलार्म मिलते हैं। एक अन्य वेबसाइट का कहना है कि "न तो एच और न ही एफ 0 या 1 हो सकता है (यदि हां, तो थोड़ा ऊपर या नीचे समायोजित करें)"। यह मनमाना लगता है। क्या इस पर किसी की राय है या मुझे सही संसाधनों की ओर संकेत करना चाहते हैं?

जवाबों:


13

स्टेनिस्लाव और टोडोरोव (1999) ने जीरो या वन के हेडिंग और फाल्स-अलार्म रेट्स के तहत इसकी अच्छी चर्चा की है ।

वे इन चरम मूल्यों से निपटने के लिए कई तरीकों के पेशेवरों और विपक्षों पर चर्चा करते हैं, जिनमें शामिल हैं:

  • एक गैर पैरामीट्रिक सांख्यिकीय का उपयोग करें जैसे कि बजाय (क्रेग, 1979)d Ad

  • सांख्यिकी (मैकमिलन और कपलान, 1985 की गणना करने से पहले कई विषयों से डेटा एकत्र करें)

  • हिट की संख्या और झूठे अलार्म की संख्या दोनों में 0.5 जोड़ें, और सिग्नल परीक्षणों की संख्या और शोर परीक्षणों की संख्या दोनों में 1 जोड़ें; करार दिया loglinear दृष्टिकोण (Hautus, 1995)

  • 0 के और 1 की दर के साथ केवल चरम मानों को समायोजित करें जहां सिग्नल या शोर परीक्षणों की संख्या है (मैकमिलन और कपलान, 1985)( एन - 0.5 ) / एन एन0.5/n(n0.5)/nn

चुनाव अंततः आप पर निर्भर है। व्यक्तिगत रूप से मैं तीसरे दृष्टिकोण को पसंद करता हूं। पहला दृष्टिकोण यह है कि आपके पाठकों के लिए कम व्याख्या योग्य है जो साथ बहुत अधिक परिचित हैं । यदि आप एकल-विषय व्यवहार में रुचि रखते हैं तो दूसरा दृष्टिकोण उपयुक्त नहीं हो सकता है। चौथा दृष्टिकोण पक्षपाती है क्योंकि आप अपने डेटा बिंदुओं के साथ समान रूप से व्यवहार नहीं कर रहे हैं।d Ad


मैकमिलन और कापलान एक लोकप्रिय संदर्भ है, लेकिन मेरा मानना ​​है कि एक ग्रीक या रूसी लेखक है जो उन्हें एक ही सलाह के लिए भविष्यवाणी करता है ... नाम मुझे याद रखने के लिए बहुत लंबा है। एसएंडटी पर मेरी त्वरित नज़र यह है कि यह बहुत व्यापक नहीं है, लेकिन यह मुझे याद दिलाता है कि मुझे गलती से ए 'का उल्लेख नहीं किया गया था। बेशक, एक बार जब आप ऐसा करते हैं, तो आपको यह समझाना होगा कि वास्तव में गैर-पैरामीट्रिक पर स्विच करने का क्या मतलब है।
जॉन

6

दोनों साइटें एक ही बात का सुझाव दे रही हैं, लेकिन एक लगातार समायोजन की मात्रा का चयन करने का एक तरीका है। यह कई लोगों के लिए जिम्मेदार ठहराया गया है, लेकिन मुझे नहीं लगता कि कोई भी जानता है कि वास्तव में कौन पहले इसके साथ आया था। विभिन्न क्षेत्रों में सिग्नल का पता लगाने पर एक अलग सेमिनल बुक या लेखक होता है। यह महत्वपूर्ण है कि आपके द्वारा चयनित विधि उचित है।

आपके द्वारा आमतौर पर पोस्ट की गई एक विधि का अर्थ यह लगाया जाता है कि यदि आपके पास वस्तुओं का बड़ा सेट (2N) होता तो आप कम से कम एक त्रुटि का पता लगा सकते थे। यदि यह समस्या के बारे में सोचने का एक उचित तरीका है तो आप कर रहे हैं। मुझे संदेह है कि यह एक मेमोरी टेस्ट के लिए है। भविष्य में आप यह सुनिश्चित करने के लिए एन को उठाना चाहते हैं कि ऐसा होने की संभावना बहुत कम है। फिर भी, यदि आप इसे एक अलग तरीके से मानते हैं, तो विधि निस्तारण योग्य है। आप समान संख्या में मेमोरी आइटम के दो रनों के काल्पनिक औसत पर समायोजित कर रहे हैं। उस स्थिति में आप कह रहे हैं कि प्रयोग के एक अन्य भाग में (नई वस्तुओं को संभालने या वे सभी पुराने को भूल गए) कोई त्रुटि हुई होगी। या, अधिक सरलता से, आप उच्चतम अपूर्ण स्कोर के बीच आधे रास्ते का चयन कर रहे हैं जिसे आप माप सकते हैं और एक पूर्ण स्कोर कर सकते हैं।

यह एक सरल सार्वभौमिक समाधान के साथ एक समस्या है। पहला सवाल जो आपको पूछने की ज़रूरत है, क्या आप मानते हैं कि आपके मामले में, आपके पास वास्तविक पूर्ण वर्गीकरण है। उस स्थिति में आपका डेटा आपका डेटा है। यदि नहीं, तो आप मानते हैं कि यह नमूने में सिर्फ परिवर्तनशीलता है, जिससे हिट 100% हो सकता है। एक बार जब आप यह निष्कर्ष निकाल लेते हैं कि तब आप उचित तरीकों पर विचार करने के लिए तैयार हो गए हैं, जिसका अनुमान लगाने के लिए कि आप क्या मानते हैं। और इसलिए आपको खुद से पूछना होगा कि यह वास्तव में क्या है।

यह निर्धारित करने का सबसे आसान तरीका है कि डी क्या होना चाहिए, उसी स्थिति में अन्य डेटा को देखना चाहिए। आप शायद अनुमान लगा सकते हैं कि इस एक प्रतिभागी के लिए सटीकता अगले सर्वोत्तम मूल्य के बीच आधा रास्ता है जो आपके पास है और 100% (जो आपके द्वारा पाए गए मूल्य के बिल्कुल समान हो सकता है)। या, यह कुछ बहुत छोटी राशि अधिक हो सकती है। या यह सिर्फ सर्वोत्तम मूल्यों के बराबर हो सकता है। आपको यह चुनने के लिए मिला है कि आप जो मानते हैं वह आपके डेटा के आधार पर सबसे अच्छा उत्तर है। पोस्ट किया गया एक अधिक विशिष्ट प्रश्न यहां आपकी सहायता कर सकता है।

आपको यह सुनिश्चित करने का प्रयास करना चाहिए कि आप क्या कर सकते हैं, जितना संभव हो उतना मानदंड पर कम प्रभाव डालें। आपके मामले में हिट्स और एफए के लिए एक समायोजन कसौटी का कारण नहीं होगा। हालांकि, अगर आप एफए = 0.2 के अनुसार हिट समायोजित करते हैं, तो आपको इस बारे में सावधान रहना होगा कि यह समायोजन कसौटी की व्याख्या को कैसे प्रभावित करेगा। आप सुनिश्चित करें कि हिट सुनिश्चित करने के लिए आप उस मामले में बाध्य हैं।


आपके दृष्टिकोण और तर्क के लिए धन्यवाद, जॉन। जो वास्तव में मदद करता है। मुझे जोड़ना चाहिए कि एन की बढ़ती संख्या एक अच्छा समाधान है, लेकिन हमारा कार्य एफएमआरआई स्कैनर के अंदर किया जाता है और हम सीमित हैं कि हम कितने परीक्षण कर सकते हैं इससे पहले कि वे फ़िजी हो जाएं और गति के साथ हमारे डेटा को बर्बाद कर दें।
ए। रेनर

"आप शायद अनुमान लगा सकते हैं कि इस एक प्रतिभागी के लिए सटीकता अगले सर्वोत्तम मूल्य के बीच का आधा रास्ता है जो आपके पास है और 100% (जो कि आपके द्वारा पाए गए मूल्य के समान ही हो सकता है)" अच्छी सलाह है। यह विषय प्रदर्शन रैंकिंग के क्रम को बनाए रखेगा।
ए। रेनर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.