मैं कई डेटा सेट पर कई एल्गोरिदम के प्रदर्शन की तुलना कर रहा हूं। चूंकि उन प्रदर्शन मापों को सामान्य रूप से वितरित करने की गारंटी नहीं है, इसलिए मैंने डेमेसर (2006) के आधार पर नेमेनी पोस्ट-हॉक टेस्ट के साथ फ्रीडमैन टेस्ट को चुना ।
फिर मुझे एक और पेपर मिला, जो कि बाद में शफर पोस्ट-हॉक टेस्ट के साथ क्वैड टेस्ट जैसे अन्य तरीकों का सुझाव देने से अलग, वे नेमेनी परीक्षा को अलग तरीके से लागू करते हैं।
मैं नेमेनी पोस्ट-हॉक टेस्ट को सही तरीके से कैसे लागू करूं?
1. स्टूडेंटाइज्ड रेंज स्टैटिस्टिक का उपयोग करना?
डेमेज़र के पेपर में यह अशक्त परिकल्पना (दो एल्गोरिदम का कोई प्रदर्शन अंतर) को अस्वीकार करने के लिए कहता है यदि औसत रैंक अंतर महत्वपूर्ण दूरी सीडी से अधिक है
"जहाँ महत्वपूर्ण मान qα द्वारा विभाजित स्टूडेंटाइज्ड रेंज स्टैटिस्टिक्स पर आधारित हैं "
कुछ खुदाई के बाद मैंने पाया है कि आप उन "महत्वपूर्ण मूल्यों" को कुछ अल्फ़ाज़ों के लिए देख सकते हैं, उदाहरण के लिए एक तालिका में, स्वतंत्रता की अनंत डिग्री के लिए (प्रत्येक तालिका के नीचे)।
2. या सामान्य वितरण का उपयोग कर?
बस जब मुझे लगा कि मुझे पता है कि मुझे क्या करना है, तो मुझे एक और पेपर मिला जिसने मुझे फिर से भ्रमित कर दिया, क्योंकि वे केवल सामान्य वितरण का उपयोग कर रहे थे। Demšar 12 पृष्ठ पर एक समान बात कह रहा है:
इन विधियों का उपयोग करके i-th और j-th classi these er की तुलना करने के लिए परीक्षण आँकड़े है
Z मान का उपयोग सामान्य वितरण की तालिका से संबंधित संभावना को to nd करने के लिए किया जाता है, जो तब एक उपयुक्त के साथ तुलना की जाती है । परीक्षण उस तरह से भिन्न होते हैं जैसे वे मूल्य को समायोजित करते हैं कई तुलना के लिए क्षतिपूर्ति करने के लिए।
इस पैराग्राफ में वह सभी एल्गोरिदम की एक नियंत्रण एल्गोरिदम से तुलना करने के बारे में बात कर रहा था, लेकिन टिप्पणी "जिस तरह से वे समायोजित करते हैं ... कई तुलनाओं के लिए क्षतिपूर्ति करने के लिए अलग-अलग होते हैं" यह सुझाव देता है कि यह नेमेनी परीक्षा के लिए भी होना चाहिए।
तो क्या मेरे लिए तार्किक लगता है की गणना करने के लिए है पी परीक्षण आंकड़ा के आधार पर -value, जो आम तौर पर वितरित किया जाता है, और उस एक को विभाजित करके सही करता है ।
हालांकि, यह पूरी तरह से अलग रैंक के अंतर पैदा करता है जिस पर अशक्त परिकल्पना को अस्वीकार करना है। और अब मैं फंस गया हूं और पता नहीं है कि किस विधि को लागू करना है। मैं सामान्य वितरण का उपयोग करके दृढ़ता से झुक रहा हूं , क्योंकि यह मेरे लिए सरल और अधिक तार्किक है। मुझे तालिकाओं में मूल्यों को देखने की आवश्यकता नहीं है और मैं कुछ महत्वपूर्ण मूल्यों के लिए बाध्य नहीं हूं।
फिर, मैंने कभी भी स्टूडेंटेड रेंज स्टेटिस्टिक के साथ काम नहीं किया है और मुझे यह समझ में नहीं आया है।