टी-टेस्ट के साथ सांख्यिकीय महत्व के लिए दो क्लासिफायर सटीकता परिणामों की तुलना करना


17

मैं सांख्यिकीय महत्व के लिए दो वर्गीकरणों की सटीकता की तुलना करना चाहता हूं। दोनों क्लासिफायर एक ही डेटा सेट पर चलाए जाते हैं। यह मुझे विश्वास दिलाता है कि मुझे जो पढ़ा गया है उसमें से एक नमूना टी-टेस्ट का उपयोग करना चाहिए ।

उदाहरण के लिए:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

क्या यह सही परीक्षण है? यदि हां, तो मैं कैसे गणना करूं कि यदि वर्गीकरण के बीच सटीकता में अंतर महत्वपूर्ण है?

या मुझे एक और परीक्षण का उपयोग करना चाहिए?

जवाबों:


14

मैं शायद मैकनेमर के परीक्षण का विकल्प चुनूंगा, यदि आप केवल एक बार क्लासिफायर ट्रेन करते हैं। डेविड बार्बर एक बल्कि साफ-सुथरा बायेसियन टेस्ट भी सुझाते हैं, जो मुझे बहुत सुंदर लगता है, लेकिन इसका व्यापक रूप से उपयोग नहीं किया जाता है (यह उनकी पुस्तक में भी वर्णित है )।

सिर्फ जोड़ने के लिए, जैसा कि पीटर फ्लॉम कहते हैं, उत्तर लगभग निश्चित रूप से "हां" है प्रदर्शन में अंतर और नमूने के आकार को देखते हुए (मैं उद्धृत आंकड़े प्रशिक्षण सेट प्रदर्शन के बजाय परीक्षण सेट प्रदर्शन कर रहे हैं)।

संयोग से Japkowicz और शाह ने हाल ही में एक किताब निकाली है "मूल्यांकन सीखना एल्गोरिदम: एक वर्गीकरण परिप्रेक्ष्य" , मैंने इसे नहीं पढ़ा है, लेकिन यह इस तरह के मुद्दों के लिए एक उपयोगी संदर्भ जैसा दिखता है।


1
मैं इन परिणामों को प्राप्त करने के लिए 10-गुना क्रॉस सत्यापन चला रहा हूं। क्या इसका मतलब है कि वे वास्तव में अलग-अलग डेटा सेट हैं। यह कुल आकार है, जो क्रॉस सत्यापन में परीक्षण / ट्रेन के लिए विभाजित है
क्रिस

4
प्रत्येक तह के लिए सटीकता स्वतंत्र नहीं होगी, जो कि अधिकांश सांख्यिकीय परीक्षणों की मान्यताओं का उल्लंघन होगा, लेकिन शायद यह एक बड़ा मुद्दा नहीं होगा। मैं अक्सर 100 यादृच्छिक प्रशिक्षण / परीक्षण विभाजन का उपयोग करता हूं और फिर विलकॉक्सन युग्मित हस्ताक्षरित रैंक परीक्षण का उपयोग करता हूं (दोनों कक्षा के लिए समान यादृच्छिक विभाजन का उपयोग करें)। मैं उस तरह के परीक्षण को पसंद करता हूं, जैसा कि मैं अक्सर छोटे डेटासेट का उपयोग करता हूं (जैसा कि मैं ओवरफिटिंग में दिलचस्पी रखता हूं) इसलिए यादृच्छिक विभाजन के बीच परिवर्तनशीलता को वर्गीकृत करने वालों के बीच प्रदर्शन के अंतर के बराबर होता है।
डिक्रान मार्सुपियल

2
(+1) विल्कोक्सन के लिए हस्ताक्षरित रैंक टेस्ट (और पुस्तक की कड़ी ... अगर टो अपने वादों को पूरा कर सकता है, तो यह पुस्तक सभी विधायकों का अवश्य पढ़ें: O)
steffen

3
मैंने हस्ताक्षरित रैंक परीक्षणों के साथ-साथ सहपाठियों की तुलना के लिए युग्मित टी-परीक्षणों का भी उपयोग किया है। हालाँकि, हर बार जब मैं इस उद्देश्य के लिए एक-पक्षीय परीक्षण का उपयोग करता हूं तो मुझे समीक्षकों से कठिन समय मिलता है इसलिए दो-तरफा परीक्षणों का उपयोग करने के लिए वापस आ गया है!
बिग्रीन जूल

2
यह देखते हुए कि ओपी ने टिप्पणियों में स्पष्ट किया कि प्रश्न वास्तव में क्रॉस-वैरिफिकेशन के बारे में था, क्या आप शायद उस विषय को कवर करने के लिए अपने उत्तर का विस्तार करने पर विचार करेंगे? हम Q को तब संपादित कर सकते हैं। यह एक महत्वपूर्ण विषय है और बहुत ही संबंधित (या यहां तक ​​कि डुप्लिकेट) सवालों के एक जोड़े हैं, लेकिन किसी के पास भी एक अच्छा जवाब नहीं है। ऊपर एक टिप्पणी में आप सीवी अनुमानों पर एक युग्मित परीक्षण का उपयोग करने की सलाह देते हैं और कहते हैं कि आपको नहीं लगता कि गैर-स्वतंत्रता यहां एक बड़ा मुद्दा है। क्यों नहीं? यह मुझे एक संभावित बड़े पैमाने पर मुद्दे की तरह लगता है!
अमीबा का कहना है कि मोनिका

4

मैं आपको बता सकता हूं, बिना कुछ भी चल रहा है, कि अंतर अत्यधिक सांख्यिकीय रूप से महत्वपूर्ण होगा। यह IOTT (अंतरकोशिकीय आघात परीक्षण - यह आपको आंखों के बीच से टकराता है) से गुजरता है।

यदि आप एक परीक्षण करना चाहते हैं, हालांकि, आप इसे दो अनुपातों के परीक्षण के रूप में कर सकते हैं - यह एक दो नमूना टी-परीक्षण के साथ किया जा सकता है।

आप इसके घटकों में "सटीकता" को तोड़ना चाह सकते हैं, हालांकि; संवेदनशीलता और विशिष्टता, या गलत-सकारात्मक और गलत-नकारात्मक। कई अनुप्रयोगों में, विभिन्न त्रुटियों की लागत काफी भिन्न होती है।


सहमत - यह स्पष्ट रूप से महत्वपूर्ण होगा। नाइटपिक: आप दो अनुपात (लगभग) का परीक्षण करने के लिए एक -est का उपयोग करेंगे - यह n के रूप में सामान्य रूप से एक द्विपद वितरण के अभिसरण के साथ करना है । अनुभाग 5.2 देखें। enikw.org.org/wiki/Statutic_hypothesis_testingzn
मैक्रो

दूसरी सोचा पर, एक -Test अभी भी asymptotically वैध, हो सकता है CLT से है, लेकिन वहाँ एक कारण होना चाहिए जेड -Test आम तौर पर यहाँ प्रयोग किया जाता है। tz
मैक्रों

2
मैंने अपने प्रश्न में जो सटीकता प्रतिशत रखा है, वह केवल एक उदाहरण है।
क्रिस

0

सटीकता के बाद से, इस मामले में, है सही ढंग से वर्गीकृत किए गए नमूनों अनुपात है, हम दो अनुपातों की एक प्रणाली से संबंधित परिकल्पना के परीक्षण को लागू कर सकते हैं।

चलो पी 1 और पी 2 सत्यता क्रमशः classifiers 1 और 2 से प्राप्त हो सकता है, और एन नमूनों की संख्या हो। कक्षा 1 और 2 में सही ढंग से वर्गीकृत किए गए नमूनों की संख्या क्रमशः x 1 और x 2 है।p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

परीक्षण आँकड़ा द्वारा दिया जाता है

Z=p^1p^22p^(1p^)/n कहाँ पे p^=(x1+x2)/2n

p2p1

  • H0:p1=p2 (दोनों को समान बताते हुए अशक्त परिकल्पना)
  • Ha:p1<p2 (नए का दावा करने वाला वैकल्पिक काल्पनिकता मौजूदा से बेहतर है)

अस्वीकृति क्षेत्र द्वारा दिया जाता है

Z<zα (if true reject H0 and accept Ha)

where zα is obtained from a standard normal distribition that pertains to a level of significance, α. For instance z0.5=1.645 for 5% level of significance. This means that if the relation Z<1.645 is true, then we could say with 95% confidence level (1α) that classifier 2 is more accurate than classifier 1.

References:

  1. R. Johnson and J. Freund, Miller and Freund’s Probability and Statistics for Engineers, 8th Ed. Prentice Hall International, 2011. (Primary source)
  2. Test of Hypothesis-Concise Formula Summary. (Adopted from [1])

Shouldn't p^ be the average of p^1 and p^2? So the denominator should be 2n in p^=(x1+x2)/2n.
Shiva Tp

Though I agree that a test for proportions could be used, there is nothing in the original question that suggests a one-sided test is appropriate. Moreover, "we could say with 95% confidence" is a common misinterpretation. See e.g. here: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg

@ShivaTp Indeed. Thanks for pointing the much needed typo correction. Edit confirmed.
Ébe Isaac
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.