माइकल के लिए एरिक का जवाब लागू करना :
आप एक ही तरह की सोच कर सकते हैं एरिक का अर्थ है प्रदर्शन माप का चयन करते समय।
मुझे उन सवालों के अलग-अलग उपायों का उल्लेख करने में मदद मिलती है, जिनका वे जवाब देते हैं (यहां मेडिकल डायग्नोस्टिक्स की भाषा में, जिनसे मैं सबसे अधिक परिचित हूं - लेकिन शायद आप स्पैम द्वारा पाठ और बीमारी से रोगी को बदल सकते हैं ;-)):
संवेदनशीलता: रोगी को सही मायने में यह बीमारी है, इसका एहसास करने के लिए क्लासिफायर होने की कितनी संभावना है?
विशिष्टता: रोगी को सही मायने में यह बीमारी नहीं है, यह जानने के लिए क्लासिफायर की संभावना कितनी है?
सकारात्मक भविष्य कहनेवाला मूल्य: दिया गया क्लासिफायर रोगी को रोगग्रस्त होने का दावा करता है, रोगी को वास्तव में बीमारी होने की कितनी संभावना है?
नकारात्मक भविष्य कहनेवाला मूल्य: दिया गया क्लासिफायर दावा करता है कि रोगी रोगग्रस्त नहीं है, तो रोगी को वास्तव में बीमारी होने की कितनी संभावना है?
जैसा कि आप देख रहे हैं कि विधेय मूल्य वे हैं जो डॉक्टर और रोगी वास्तव में रुचि रखते हैं। हालांकि, लगभग हर कोई संवेदनशीलता और विशिष्टता के द्वारा अपने क्लासिफायर का वर्णन करता है। इसका कारण यह है कि भविष्यवाणियों में रोग के प्रसार को ध्यान में रखने की आवश्यकता होती है, और यह विभिन्न प्रकार के रोगियों के लिए बेहद (परिमाण के आदेश) भिन्न हो सकते हैं।
अपने प्रश्न के लिए विषय पर और अधिक:
मुझे यकीन है आप चिंता करने में सही हैं।
एरिक के दोनों परिदृश्यों को एक उदाहरण में लेना:
यहाँ स्वतंत्र परीक्षण नमूने हैं:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(ध्यान दें कि यह परीक्षण दो-पक्षीय था, यह मानते हुए कि दो क्लासीफायर प्रकाशित किए गए होंगे, भले ही परिणाम दूसरे दौर के थे ...)
यहां सर्वोत्तम संभव स्थिति है: युग्मित परीक्षण, और नया क्लासिफायर सभी नमूनों के लिए सही है पुराना एक सही है, बहुत अधिक 10 अधिक:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(पी-मान जादुई ०.०५ से नीचे रहता है, जब तक कि १००० में से १० से अधिक नमूने दो क्लासिफ़रों द्वारा अलग-अलग भविष्यवाणी नहीं किए गए थे)।
भले ही पी-वैल्यू गलत प्रश्न का सही उत्तर हो, लेकिन यह संकेत है कि यह एक तंग जगह की तरह है।
हालांकि, सामान्य वैज्ञानिक अभ्यास को ध्यान में रखते हुए अर्थात नई सुविधाओं की एक अज्ञात (अप्रकाशित) संख्या का परीक्षण किया गया था, और केवल वह जो थोड़ा बेहतर काम करता था, प्रकाशित किया गया था, वह स्थान और भी तंग हो जाता है। और फिर, 80% क्लासिफायर सिर्फ कुछ 79% classifer का उत्तराधिकारी हो सकता है ...
यदि आप जर्मन पढ़ने का आनंद लेते हैं, तो बेक-बोर्नहोल्ड और डबबेन की कुछ अच्छी किताबें हैं। अगर मुझे सही तरीके से याद है, तो मितर एक वेहर्सचेन्लिचिट ग्रेनेजेंडर सिचेरिट में इन समस्याओं की बहुत अच्छी चर्चा है। (मुझे नहीं पता कि अंग्रेजी संस्करण है या नहीं, शीर्षक का शाब्दिक अनुवाद "संभावना पर निश्चित सीमा के साथ" है)