मशीन लर्निंग क्लासिफायर के प्रदर्शन की सांख्यिकीय रूप से तुलना कैसे करें?


29

अनुमानित वर्गीकरण सटीकता के आधार पर, मैं यह परीक्षण करना चाहता हूं कि क्या एक क्लासिफायरियर दूसरे क्लासिफायरियर की तुलना में बेस सेट पर सांख्यिकीय रूप से बेहतर है। प्रत्येक क्लासिफायरियर के लिए, मैं बेस सेट से बेतरतीब ढंग से एक प्रशिक्षण और परीक्षण नमूने का चयन करता हूं, मॉडल को प्रशिक्षित करता हूं, और मॉडल का परीक्षण करता हूं। मैं प्रत्येक क्लासिफायर के लिए यह दस बार करता हूं। इसलिए मेरे पास प्रत्येक क्लासिफायर के लिए दस अनुमान वर्गीकरण सटीकता माप हैं। मैं कैसे सांख्यिकीय परीक्षण है कि क्या करना से बेहतर वर्गीकारक है आधार डाटासेट पर। क्या टी-टेस्ट का उपयोग करना उचित है?classifier1classifier2


क्या आपने समान नमूनों पर क्लासिफायर का परीक्षण किया? यानी, नमूना 1, सी 1 (नमूना 1), सी 2 (नमूना 1)? या क्या आपने प्रत्येक क्लासिफायर के लिए अलग-अलग नमूनों का उपयोग किया है?
जॉन मूएलर

इस परिदृश्य में युग्मित टी-परीक्षण उचित होगा।
गेल

1
@ एलवेलन: सटीकता एक अनुपात है: टी-परीक्षण आमतौर पर उपयुक्त नहीं होते हैं ।
cbeleites मोनिका

3
@ जॉनमोलेर: "अनुपात का अंतर" एक खोज शब्द होगा, स्वतंत्र या निर्भर जिसे हम अभी तक नहीं जानते हैं। अगर इसे जोड़ा जाता है: मैकनेमर का परीक्षण। मैं अनुमान लगा रहा हूं कि टी-टेस्ट का मतलब छोटे नमूने का आकार है, इसलिए संभवतः सामान्य सन्निकटन एक अच्छा विचार नहीं है। मैं विवरण देखने के लिए दरों और अनुपात के लिए सांख्यिकीय तरीकों के लिए जाऊँगा ।
केबिलाइट मोनिका

2
@ जॉनमोलेर: मैं कह रहा हूं कि प्रत्येक सटीकता एक अनुपात है। यदि आप उनकी तुलना करना चाहते हैं, तो "अनुपात के अंतर" के लिए तरीकों का उपयोग करें। मैंने अंतहीन टिप्पणियों को रोकने के लिए एक उत्तर में इसका विस्तार किया।
केबेलाइट्स

जवाबों:


14

डाइटेरिच कहते हैं: " उचित मूल्यों के लिए एक सामान्य वितरण द्वारा द्विपद वितरण को अच्छी तरह से समझा जा सकता है ।" अब तक, आपने हमें यह नहीं बताया कि आपके पास उचित । @ जॉनमोहेलर के 30 मामले सामान्य सन्निकटन (कम से कम और बारे में कोई जानकारी के बिना ) के लिए । nnp1p2
cbeleites

मेरे पास आधार डेटासेट में प्रति वर्ग कम से कम 4000 रिकॉर्ड उपलब्ध हैं, इसलिए मैं जो नमूना चुनता हूं, वह इससे कम भी हो सकता है। आनुपातिक परीक्षणों के अंतर के साथ सबसे बड़ी कमी यह है कि वे "लर्निंग अल्गोरिथम की आंतरिक भिन्नता" की उपेक्षा करते हैं। मुझे लगता है कि यह इस तरह के एक तंत्रिका नेटवर्क के लिए एक क्लासिफायरियर के लिए महत्वपूर्ण है, जिसका मैं उपयोग कर रहा हूं।
एंट्रोपी

अच्छी तरह से, यह एक पूरी तरह से अलग स्थिति है जिसमें जॉनमोहेलर ने साथ दिया था। यदि आप "आंतरिक भिन्नता" द्वारा मॉडल की अस्थिरता का मतलब है: आप इसे माप सकते हैं। मैं अपना जवाब अपडेट करूंगा।
केबेलाइट्स

स्पष्ट करने के लिए, 30 बार मैं परीक्षण / ट्रेन विभाजन सेटों का चयन करता हूं, कि मेरे द्वारा चुने गए परीक्षण बिंदुओं की संख्या।
जॉन म्यूलर

@ जोहोनेमेलर: क्षमा करें, मुझे पूरी तरह से गलतफहमी हो गई है (एक क्षेत्र से आ रहा है जहाँ "नमूना" किसी प्रकार का भौतिक नमूना है)।
केलीलाइट्स मोनिका

10

मेरे पास फ्लेस बुक नहीं है, इसलिए यह सब IIRC है।

पल के लिए टिप्पणियों में @ जॉनमोहेलर के प्रश्न का उत्तर देना: मूल प्रश्न IMHO जैसा है वैसा ही अचूक है।

तो मान लीजिए कि मेरे पास 30 नमूने हैं, और मैं प्रत्येक नमूने पर c1 और c2 का परीक्षण करता हूं, और प्रत्येक नमूने पर प्रत्येक के लिए सटीकता रिकॉर्ड करता हूं।

ऐसा करने से, आप एक 2 x 2 आकस्मिक तालिका के साथ समाप्त होते हैं, जो कि क्लासिफायर 2 सही / गलत के खिलाफ क्लासिफायर 1 सही / गलत है। जो कि मैकनेमर के परीक्षण के लिए शुरुआती बिंदु है । तो यह एक युग्मित तुलना के लिए है, जो "स्वतंत्र" अनुपात की तुलना में अधिक शक्तिशाली है (जो पूरी तरह से स्वतंत्र नहीं हैं यदि वे एक ही परिमित नमूने से यादृच्छिक रूप से ड्राइंग करते हैं)।

मैं अभी मैकनीमार के "छोटे प्रिंट" को नहीं देख सकता, लेकिन 30 नमूने ज्यादा नहीं हैं। तो आप भी McNemar से फिशर के सटीक परीक्षण [या कुछ और] जो द्विपद संभावनाओं की गणना करता है पर स्विच करना पड़ सकता है।


अनुपात के मायने:
यह मायने नहीं रखता कि आप 10 में से एक या एक ही क्लासिफायर 10x का परीक्षण करते हैं या एक बार उन सभी 100 मामलों के साथ (2 x 2 तालिका केवल सभी परीक्षण मामलों को गिनता है)।

यदि मूल प्रश्न में प्रत्येक क्लासिफायर के लिए सटीकता के 10 अनुमान यादृच्छिक पकड़ या 10-गुना क्रॉस सत्यापन या 10x आउट-ऑफ-बूटस्ट्रैप द्वारा प्राप्त किए जाते हैं, तो यह धारणा आमतौर पर है कि प्रत्येक क्लासिफायर के लिए गणना की गई 10 सरोगेट मॉडल समकक्ष हैं (= एक ही सटीकता है), इसलिए परीक्षण के परिणाम * जमा किए जा सकते हैं। 10-गुना क्रॉस सत्यापन के लिए आप तब मान लेते हैं कि परीक्षण नमूना आकार परीक्षण नमूनों की कुल संख्या के बराबर है। अन्य विधियों के लिए मैं इतना निश्चित नहीं हूं: आप एक ही मामले को एक से अधिक बार परख सकते हैं। डेटा / समस्या / आवेदन के आधार पर, यह किसी नए मामले का परीक्षण करने के लिए उतनी जानकारी नहीं है।

* यदि सरोगेट मॉडल अस्थिर हैं, तो यह धारणा टूट जाती है। लेकिन आप इसे माप सकते हैं: पुनरावृत्त -fold क्रॉस सत्यापन करें। प्रत्येक पूर्ण रन प्रत्येक मामले के लिए एक भविष्यवाणी देता है। इसलिए यदि आप कई अलग-अलग सरोगेट मॉडल पर एक ही परीक्षण के मामले की भविष्यवाणियों की तुलना करते हैं, तो आप कुछ प्रशिक्षण डेटा के आदान-प्रदान के कारण भिन्नता को माप सकते हैं। यह विचरण परिमित कुल नमूना आकार के कारण विचरण के अतिरिक्त है।k

अपने पुनरावृत्त सीवी परिणाम को "सही वर्गीकरण मैट्रिक्स" में एक पंक्ति में एक केस और सरोगेट मॉडल में से प्रत्येक कॉलम के अनुरूप रखें। अब पंक्तियों के साथ विचरण (सभी खाली तत्वों को हटाने) केवल सरोगेट मॉडल में अस्थिरता के कारण है। स्तंभों में विचरण इस सरोगेट मॉडल के परीक्षण के लिए आपके द्वारा उपयोग किए जाने वाले मामलों की परिमित संख्या के कारण है। कहो, तुम हो से बाहर सही predicitions एक कॉलम में परीक्षण मामलों। सटीकता के लिए बिंदु का अनुमान , यह विचरण अधीन है । जाँच करें कि परिक्षण के कारण विचरण बड़ा है या छोटा, परिक्षण परीक्षण नमूना आकार के कारण विचरण की तुलना में छोटा है।knp^=knσ2(p^)=σ2(kn)=p(1p)n


आह अच्छा। यह आखिरी बिट है जो चीजों को साफ करता है, कम से कम मेरे लिए। धन्यवाद।
जॉन म्यूलर

जवाब के लिए धन्यवाद। बस पालन करने की प्रक्रिया पर स्पष्ट नहीं है। आप कहते हैं कि किसी एकल डेटासेट पर 10-गुना क्रॉस सत्यापन पहले से करें। होल्ड आउट नमूना पर सटीकता को मापें, जो 2x2 भ्रम मैट्रिक्स की गणना करता है। दस 2x2 भ्रम की परिपक्वता जोड़ें। एग्रीगेटेड 2x2 कन्फ्यूजन मैट्रिक्स पर मैकनेमर के परीक्षण को रोकें।
एन्ट्रापी

@entropy: 1. 2x2 आकस्मिक तालिका भ्रम मैट्रिक्स नहीं है। 2. नया नमूना हर बार बनाम एक ही परीक्षण डेटा पर दोनों क्लासिफायर का परीक्षण: बनती परीक्षण अधिक शक्तिशाली (और यहां संभव है)। अद्यतन उत्तर देखें।
केबिल

इसके लिए क्षमा करें, हाँ, आकस्मिक तालिका। क्या मैं यह कहने के लिए सही हूं कि मैक्नेमर का परीक्षण सीधे बहु-वर्गीय समस्या में भी अनुवाद करता है।
एंट्रोपी

@cbeleites प्रतिक्रिया के लिए बहुत बहुत धन्यवाद !!! मुझे लगता है कि आपने अब मेरे सवालों का सही जवाब दिया है। हालाँकि, मैं अभी भी पालन करने के लिए सटीक प्रक्रिया नहीं समझता। क्या आप अंतिम पैराग्राफ पर विस्तार से ध्यान देंगे
एंट्रॉपी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.