वर्गीकरण परिणामों के महत्व का परीक्षण करने का सही तरीका क्या है


21

ऐसी कई स्थितियाँ हैं जहाँ आप कई अलग-अलग क्लासिफायर को प्रशिक्षित कर सकते हैं, या कई अलग-अलग फ़ीचर निष्कर्षण विधियों का उपयोग कर सकते हैं। साहित्य लेखकों में अक्सर डेटा के यादृच्छिक विभाजन के एक सेट (यानी एक डबल नेस्टेड-क्रॉस-सत्यापन के बाद) के माध्यम से माध्य वर्गीकरण त्रुटि देते हैं, और कभी-कभी विभाजन के साथ-साथ त्रुटि पर भी भिन्नता देते हैं। हालांकि यह अपने आप में यह कहने के लिए पर्याप्त नहीं है कि एक क्लासिफायरियर दूसरे की तुलना में काफी बेहतर है। मैंने इसके लिए कई अलग-अलग दृष्टिकोण देखे हैं - ची-स्क्वेर परीक्षण, टी-टेस्ट, एनोवा के साथ पश्च-परीक्षण परीक्षण आदि का उपयोग करना।

सांख्यिकीय महत्व को निर्धारित करने के लिए किस पद्धति का उपयोग किया जाना चाहिए? उस प्रश्न को समझना: वर्गीकरण स्कोर के वितरण के बारे में हमें क्या धारणाएँ बनानी चाहिए?


2
क्या आप उदाहरण के कागजात के साथ पोस्ट कर सकते हैं: "मैंने इसके लिए कई अलग-अलग दृष्टिकोण देखे हैं - ची-चुकता परीक्षण, टी-परीक्षण, पोस्ट-हॉक परीक्षण आदि के साथ एनोवा का उपयोग करना"? मुझे वाकई में दिलचस्पी है।
जेबी

1
@jb इस पर एक नज़र डालें: cmpe.boun.edu.tr/~ethem/i2ml/slides/v1-1/i2ml-chap14-v1-1.pdf
Dov

जवाबों:


9

@ Jb. के शानदार उत्तर के अलावा, मुझे यह बताने दें कि आप एक ही टेस्ट सेट पर McNemar के परीक्षण का उपयोग यह निर्धारित करने के लिए कर सकते हैं कि एक क्लासिफायर दूसरे की तुलना में काफी बेहतर है या नहीं। यह केवल वर्गीकरण की समस्याओं के लिए काम करेगा (जो मैकनीमार के मूल काम को "द्विभाजित विशेषता" कहता है) जिसका अर्थ है कि क्लासिफायर या तो इसे सही या गलत मिलता है, बीच में कोई स्थान नहीं।


परिदृश्य में जब क्लासिफायर पास हो सकता है तो क्या होगा? जैसा कि इसमें कहा गया है कि यह नहीं जानता। क्या आप अभी भी मैकनेमर के परीक्षण का उपयोग कर सकते हैं?
S0rin

5

चूंकि वर्गीकरण त्रुटियों का वितरण एक द्विआधारी वितरण है (या तो मिसकल्सीफिकेशन है या कोई भी नहीं है) --- मैं कहूंगा कि ची-स्क्वायर का उपयोग करना समझदारी नहीं है।

इसके अलावा केवल उसी डेटासेट पर काम करने वाले क्लासिफायर की तुलनात्मक क्षमता समझदार है --- 'नो फ्री लंच प्रमेय' में कहा गया है कि सभी मॉडल सभी डेटासेट पर एक ही औसत दक्षता रखते हैं, जिससे कि कौन सा मॉडल बेहतर दिखाई देगा यह केवल उन आंकड़ों पर निर्भर करेगा जो उन्हें प्रशिक्षित करने के लिए चुना http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization

यदि आप डेटासेट A और B के डेटासेट की तुलना D से कर रहे हैं, तो मुझे लगता है कि औसत दक्षता + मतलब चुनाव करने के लिए पर्याप्त है।

इसके अलावा अगर किसी के पास कई मॉडल हैं जिनकी प्रतिध्वनि क्षमता है (और एक दूसरे से रैखिक रूप से स्वतंत्र हैं) तो मैं केवल एक मॉडल को चुनने की तुलना में पहनावा मॉडल का निर्माण करूँगा।


लेकिन एक एकल क्लासिफायर के लिए आप स्कोर के एक सेट के साथ समाप्त होते हैं (उदाहरण के लिए 100 से अधिक विभाजन पर MSE), जो उदाहरण के लिए [0,1] रेंज में हो सकता है। मुझे लगता है कि हर एक रन के परिणामों को लेना और उनका विश्लेषण करना बहुत महंगा होगा।
tdc

हाँ। लेकिन इस मामले में माध्य + stddev यह परीक्षण करने के लिए पर्याप्त है कि क्या कोई अन्य की तुलना में काफी बेहतर है, किसी अन्य माप के साथ की तरह।
जेबी

2
मुझे बहुत ज़्यादा यकीन नहीं है। माध्य और stddev एक शुरुआत के लिए गौसियनिटी को मानता है, और दूसरी बात यह ध्यान में नहीं आती है कि कितनी तुलनाएं की जा रही हैं (उदाहरण के लिए बोनफेरोनी सुधार की आवश्यकता हो सकती है)
tdc

1
यह बुनियादी मापक सिद्धांत में समान है। मान लेते हैं कि हमारे पास एक माइक्रोमीटर है और हम यह जांचना चाहते हैं कि क्या दो छड़ों में एक ही डायमैटर है, हम दोनों छड़ के 100 माप लेते हैं और जांचते हैं कि क्या मतलब है + stddev ओवरलैप। दोनों मामलों में (रॉड मापक और मॉडल मीट्रिक) हम केवल परिणामों के गॉसियन वितरण को मानते हैं, केवल समझदार तर्क केंद्रीय सीमा प्रमेय है
जेबी

3

मैं टॉम डिटेरिच द्वारा "सुपरवाइज़्ड क्लासिफिकेशन लर्निंग एल्गोरिदम की तुलना के लिए अनुमानित सांख्यिकीय टेस्ट" शीर्षक से पेपर की सिफारिश करता हूं। यहाँ CiteSeer पर पेपर का प्रोफाइल दिया गया है: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 । अमूर्त से: "यह पेपर यह निर्धारित करने के लिए पाँच अनुमानित सांख्यिकीय परीक्षणों की समीक्षा करता है कि क्या एक सीखने का एल्गोरिथ्म एक विशेष शिक्षण कार्य पर दूसरे का प्रदर्शन करता है। इन परीक्षणों की तुलना प्रयोगात्मक रूप से की जाती है ताकि कोई अंतर मौजूद न होने पर किसी अंतर का गलत तरीके से पता लगाने की उनकी संभावना का निर्धारण किया जा सके (प्रकार I त्रुटि। )। ... मैकनेमर के परीक्षण में निम्न प्रकार I त्रुटि दिखाई गई है। ... "


2

IMHO किसी भी अन्य प्रकार के डेटा के वितरण के स्कोर के बीच कोई अंतर नहीं होना चाहिए। तो बुनियादी तौर पर आप सभी की जांच करने के लिए है अपने डेटा सामान्य रूप से वितरित किया जाता है या नहीं यह देखने के लिए कि क्या है यहां । इसके अलावा, ऐसी महान पुस्तकें हैं जो इस प्रश्न को अच्छी तरह से यहां देखती हैं (यानी संक्षेप में: वे सभी परीक्षण करते हैं कि क्या दो क्लासिफायर का परिणाम काफी अलग है .. और यदि वे करते हैं, तो उन्हें एक - पहनावा मॉडल में जोड़ा जा सकता है)


मुझे लगता है कि वे सामान्य रूप से वितरित नहीं होने की बहुत संभावना है । सामान्य स्थिति में स्कोर सकारात्मक होगा और सीमा के एक छोर की ओर तिरछा (1 या 0 निर्भर करता है कि आप सटीकता या त्रुटि को माप के रूप में उपयोग कर रहे हैं)।
tdc

@tdc: यह केस फंक्शन डिस्ट्रीब्यूशन (मिसकॉलिफिकेशन की संख्या) -> (मिसकॉलसिफैक्शंस की इस गिनती के साथ मॉडल्स की संख्या) अक्सर IMHO समान पॉइसन डिसएबिब्यूशन होगा।
जेबी

@ डॉव: परीक्षण जो मॉडल काफी बेहतर है (वह ओपी प्रश्न है) और टेस्टिन अगर वे अलग हैं तो यह काफी अलग चीज है।
जेबी

@jb। धन्यवाद। लेकिन मैंने कहा कि काफी अलग है बेहतर नहीं ...
Dov

@ आपका पहला लिंक टूट गया है - मैं नहीं बता सकता कि यह कहाँ इंगित करना है।
तामज़िन ब्लेक

2

कोई एकल परीक्षण नहीं है जो सभी स्थितियों के लिए उपयुक्त है; मैं नथाली जापकोविज़ और मोहक शाह, कैम्ब्रिज यूनिवर्सिटी प्रेस, 2011 द्वारा "एवैल्यूइंग लर्निंग अल्गोरिद्म" पुस्तक की सिफारिश कर सकता हूं। इस विषय पर लगभग 400 पृष्ठों की एक किताब लिखी जा सकती है। मैंने अक्सर पाया है कि कोई ऐसा परीक्षण नहीं है जो वास्तव में मेरे अध्ययन की आवश्यकताओं के अनुरूप हो, इसलिए जो भी विधि अंततः उपयोग की जाती है, उसके फायदे और नुकसान की अच्छी समझ होना जरूरी है।

एक आम समस्या यह है कि बड़े डेटासेट के लिए सांख्यिकीय रूप से महत्वपूर्ण अंतर एक प्रभाव आकार के साथ प्राप्त किया जा सकता है जो कि कोई व्यावहारिक महत्व नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.