जाँच करना कि क्या सटीकता में सुधार महत्वपूर्ण है


14

मान लीजिए मेरे पास एक एल्गोरिथ्म है जो चीजों को दो श्रेणियों में वर्गीकृत करता है। मैं 1000 टेस्ट चीजों को कहने पर एल्गोरिथ्म की सटीकता को माप सकता हूं - मान लीजिए कि 80% चीजों को सही तरीके से वर्गीकृत किया गया है।

मान लीजिए कि मैं एल्गोरिदम को किसी तरह संशोधित करता हूं ताकि 81% चीजों को सही ढंग से वर्गीकृत किया जाए।

क्या आंकड़े मुझे इस बारे में कुछ बता सकते हैं कि क्या एल्गोरिथ्म में मेरा सुधार सांख्यिकीय रूप से महत्वपूर्ण है? क्या इस स्थिति में सांख्यिकीय महत्व की अवधारणा फिर से लागू है? कृपया मुझे कुछ संसाधनों की दिशा में इंगित करें जो प्रासंगिक हो सकते हैं।

बहुत धन्यवाद।

जवाबों:


3

संक्षेप में, हाँ। सांख्यिकीय महत्व यहां प्रासंगिक है। आप वर्गीकरण त्रुटि देख रहे हैं (या, जैसा कि आप इसे यहाँ सटीकता = 1- वर्गीकरण त्रुटि देते हैं)। यदि आप अलग-अलग 1000 नमूनों पर सहपाठियों की तुलना करते हैं, तो आप बस द्विपद परीक्षण का उपयोग कर सकते हैं, यदि यह वही 1000 नमूने हैं जिन्हें आपको McNemar के परीक्षण का उपयोग करने की आवश्यकता है। ध्यान दें कि इस तरह से वर्गीकरण त्रुटि का परीक्षण करना उप-विषयक है क्योंकि आप या तो यह मानते हैं कि वर्गीकरण त्रुटि सही वर्ग से स्वतंत्र है या कि आपके संभावित अनुप्रयोगों में सच्चे वर्गों का अनुपात समान है।

इसका मतलब है कि आपको सही सकारात्मक दर, झूठी सकारात्मक दर या एयूसी जैसे उपायों पर एक नज़र रखना चाहिए। क्या उपयोग करना है और इसका परीक्षण कैसे करना है, यह आपके क्लासिकेटर के आउटपुट पर निर्भर करता है। यह सिर्फ एक वर्ग हो सकता है या यह एक निरंतर संख्या हो सकती है जो एक निश्चित वर्ग से संबंधित होने की संभावना देता है।


यह बहुत अच्छा है, धन्यवाद। मैं वास्तव में टेक्स्ट डॉक्युमेंट्स के सेंटिमेंट एनालिसिस को देख रहा हूं - उन्हें "पॉजिटिव" या "नेगेटिव" में वर्गीकृत कर रहा हूं - बहुत से काम प्रकाशित हैं, जहां लोग कुछ सूक्ष्म तरीके से फीचर सलेक्शन में बदलाव करते हैं, 1% सटीकता सुधार के साथ - और लिखें इस बारे में एक पेपर। मुझे आश्चर्य है कि क्या इनमें से कई मामलों में लेखक वर्गीकरण सटीकता में सांख्यिकीय रूप से महत्वपूर्ण सुधार के लिए सबूत देने में विफल रहे हैं।
बेन

मैकनेमर का परीक्षण आपको बताता है कि क्या मॉडल महत्वपूर्ण रूप से भिन्न हैं, जो हमेशा सटीकता में अंतर को महत्वपूर्ण नहीं मानते हैं (विभिन्न मॉडल एक ही सटीकता हो सकते हैं)। सटीकता में वृद्धि के महत्व को सीधे जांचने के लिए, आप सटीकता के वितरण को मैप करने के लिए कई सटीकता अनुमान लगाना चाहते हैं और इस प्रकार अनुमान लगाते हैं कि क्या वे अलग हैं। इसका मतलब होगा कि अपने मॉडलों को कई बार प्रशिक्षण देना।
drevicko

3

जैसा कि एरिक ने कहा, हां आप सांख्यिकीय महत्व के लिए इसकी जांच कर सकते हैं। हालाँकि, एक पल के लिए सोचें कि आप क्या जाँचना चाहते हैं। मुझे लगता है कि यह पूछने के लिए एक अधिक दिलचस्प सवाल हो सकता है कि यह कितनी संभावना है कि कथित रूप से "बेहतर" एल्गोरिथ्म मूल से बेहतर (या सार्थक रूप से बेहतर) है, एक देखे गए 1% अंतर के डेटा को देखते हुए। "सांख्यिकीय महत्व" के संदर्भ में प्रश्न पूछना विपरीत प्रकार के प्रश्न को जन्म देता है: यह देखते हुए कि दो एल्गोरिदम समान हैं, क्या 5% से कम मौका है जो कम से कम इस सुधार का अवलोकन कर रहा है?

मेरे लिए, बाद का प्रश्न पीछे की ओर है, लेकिन यह किसी भी तरह मानक बन गया है। आप सांख्यिकीय परिकल्पना परीक्षण में विवाद पर विकिपीडिया की जाँच कर सकते हैं । आप बाद में बायेसियन इंट्रेंस में दिलचस्पी ले सकते हैं । यदि आप वास्तव में बायेसियन डेटा विश्लेषण में उतरना चाहते हैं, तो आप गेलमैन एट अल के "बायेसियन डेटा विश्लेषण" या इस प्रश्न की जांच कर सकते हैं ।


2

माइकल के लिए एरिक का जवाब लागू करना :

आप एक ही तरह की सोच कर सकते हैं एरिक का अर्थ है प्रदर्शन माप का चयन करते समय।

मुझे उन सवालों के अलग-अलग उपायों का उल्लेख करने में मदद मिलती है, जिनका वे जवाब देते हैं (यहां मेडिकल डायग्नोस्टिक्स की भाषा में, जिनसे मैं सबसे अधिक परिचित हूं - लेकिन शायद आप स्पैम द्वारा पाठ और बीमारी से रोगी को बदल सकते हैं ;-)):

  • संवेदनशीलता: रोगी को सही मायने में यह बीमारी है, इसका एहसास करने के लिए क्लासिफायर होने की कितनी संभावना है?

  • विशिष्टता: रोगी को सही मायने में यह बीमारी नहीं है, यह जानने के लिए क्लासिफायर की संभावना कितनी है?

  • सकारात्मक भविष्य कहनेवाला मूल्य: दिया गया क्लासिफायर रोगी को रोगग्रस्त होने का दावा करता है, रोगी को वास्तव में बीमारी होने की कितनी संभावना है?

  • नकारात्मक भविष्य कहनेवाला मूल्य: दिया गया क्लासिफायर दावा करता है कि रोगी रोगग्रस्त नहीं है, तो रोगी को वास्तव में बीमारी होने की कितनी संभावना है?

जैसा कि आप देख रहे हैं कि विधेय मूल्य वे हैं जो डॉक्टर और रोगी वास्तव में रुचि रखते हैं। हालांकि, लगभग हर कोई संवेदनशीलता और विशिष्टता के द्वारा अपने क्लासिफायर का वर्णन करता है। इसका कारण यह है कि भविष्यवाणियों में रोग के प्रसार को ध्यान में रखने की आवश्यकता होती है, और यह विभिन्न प्रकार के रोगियों के लिए बेहद (परिमाण के आदेश) भिन्न हो सकते हैं।

अपने प्रश्न के लिए विषय पर और अधिक:

मुझे यकीन है आप चिंता करने में सही हैं।

एरिक के दोनों परिदृश्यों को एक उदाहरण में लेना:

यहाँ स्वतंत्र परीक्षण नमूने हैं:

> binom.test (x = 810, n = 1000, p = 0.8)

    Exact binomial test

data:  810 and 1000 
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8 
95 percent confidence interval:
 0.7842863 0.8338735 
sample estimates:
probability of success 
                  0.81 

(ध्यान दें कि यह परीक्षण दो-पक्षीय था, यह मानते हुए कि दो क्लासीफायर प्रकाशित किए गए होंगे, भले ही परिणाम दूसरे दौर के थे ...)

यहां सर्वोत्तम संभव स्थिति है: युग्मित परीक्षण, और नया क्लासिफायर सभी नमूनों के लिए सही है पुराना एक सही है, बहुत अधिक 10 अधिक:

> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
          newclassif
oldclassif correct wrong
   correct     800     0
   wrong        10   190
> mcnemar.test (oldclassif, newclassif)

    McNemar's Chi-squared test with continuity correction

data:  oldclassif and newclassif 
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427

(पी-मान जादुई ०.०५ से नीचे रहता है, जब तक कि १००० में से १० से अधिक नमूने दो क्लासिफ़रों द्वारा अलग-अलग भविष्यवाणी नहीं किए गए थे)।

भले ही पी-वैल्यू गलत प्रश्न का सही उत्तर हो, लेकिन यह संकेत है कि यह एक तंग जगह की तरह है।

हालांकि, सामान्य वैज्ञानिक अभ्यास को ध्यान में रखते हुए अर्थात नई सुविधाओं की एक अज्ञात (अप्रकाशित) संख्या का परीक्षण किया गया था, और केवल वह जो थोड़ा बेहतर काम करता था, प्रकाशित किया गया था, वह स्थान और भी तंग हो जाता है। और फिर, 80% क्लासिफायर सिर्फ कुछ 79% classifer का उत्तराधिकारी हो सकता है ...

यदि आप जर्मन पढ़ने का आनंद लेते हैं, तो बेक-बोर्नहोल्ड और डबबेन की कुछ अच्छी किताबें हैं। अगर मुझे सही तरीके से याद है, तो मितर एक वेहर्सचेन्लिचिट ग्रेनेजेंडर सिचेरिट में इन समस्याओं की बहुत अच्छी चर्चा है। (मुझे नहीं पता कि अंग्रेजी संस्करण है या नहीं, शीर्षक का शाब्दिक अनुवाद "संभावना पर निश्चित सीमा के साथ" है)


1

मैं किसी भी अनुचित अनुचित स्कोरिंग नियम (संवेदनशीलता, विशिष्टता, अनुपात में वर्गीकृत सटीकता स्कोर जब किसी फर्जी मॉडल में अनुकूलित परिणाम प्राप्त करता हूं) के उपयोग को बहुत हतोत्साहित करता हूं और इसके बजाय नए के अतिरिक्त मूल्य के लिए संभावना अनुपात परीक्षण या आंशिक एफ परीक्षण का उपयोग करता हूं। चर।

समस्याओं को सही ढंग से वर्गीकृत करने के अनुपात को देखने के कई तरीकों में से एक यह है कि यदि किसी श्रेणी में कुल अनुपात 0.9 है तो आप उस समय के 0.9 आँकड़ों को अनदेखा करके और उस श्रेणी में होने वाले हर अवलोकन को वर्गीकृत करके सही होंगे।


2
हाँ कभी-कभी सटीकता का उपयोग करने के लिए एक घटिया मीट्रिक है, और कभी-कभी यह एक भयानक तरीका है; निर्भर करता है। हालांकि यह पूरी तरह से स्पष्ट है कि सवाल क्या है। सवाल यह निर्धारित करने के बारे में है कि क्या एक नया एल्गोरिथ्म एक ज्ञात मीट्रिक के अनुसार बेहतर है, न कि पहली जगह में एक मीट्रिक चुनने के बारे में।
माइकल मैकगोवन

मुझे लगता है कि हमें लक्ष्यों और उपयोगिता कार्यों का सावधानीपूर्वक वर्णन करने की आवश्यकता है, और यदि हम उपयोगिता कार्यों को प्रदान नहीं करना चाहते हैं, तो हमें उपयोगिता फ़ंक्शन के लिए बैकसोल्व करने की आवश्यकता है जिसे प्रभावी ढंग से माना जाता है जब वर्गीकरण किया जाता है।
फ्रैंक हरेल

इतने गुमनाम पतन का कोई कारण?
chl

2
@ मुझे लगा कि मैंने समझाया कि वास्तव में पूछे गए सवाल का जवाब नहीं देने के लिए मैं नीचे आया।
माइकल मैकगोवन

@MichaelMcGowan मेला काफी
chl
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.