मैं कई डेटा सेट पर कई एल्गोरिदम के प्रदर्शन की तुलना कर रहा हूं। चूंकि उन प्रदर्शन मापों को सामान्य रूप से वितरित करने की गारंटी नहीं है, इसलिए मैंने डेमेसर (2006) के आधार पर नेमेनी पोस्ट-हॉक टेस्ट के साथ फ्रीडमैन टेस्ट को चुना ।

फिर मुझे एक और पेपर मिला, जो कि बाद में शफर पोस्ट-हॉक टेस्ट के साथ क्वैड टेस्ट जैसे अन्य तरीकों का सुझाव देने से अलग, वे नेमेनी परीक्षा को अलग तरीके से लागू करते हैं।

मैं नेमेनी पोस्ट-हॉक टेस्ट को सही तरीके से कैसे लागू करूं?

1. स्टूडेंटाइज्ड रेंज स्टैटिस्टिक का उपयोग करना?

डेमेज़र के पेपर में यह अशक्त परिकल्पना (दो एल्गोरिदम का कोई प्रदर्शन अंतर) को अस्वीकार करने के लिए कहता है यदि औसत रैंक अंतर महत्वपूर्ण दूरी सीडी से अधिक है

C D = q_{α} \sqrt{\frac{k (k + 1)}{6 N}}

$CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}}$

"जहाँ महत्वपूर्ण मान qα द्वारा विभाजित स्टूडेंटाइज्ड रेंज स्टैटिस्टिक्स पर आधारित हैं $\sqrt{2}.$ "

कुछ खुदाई के बाद मैंने पाया है कि आप उन "महत्वपूर्ण मूल्यों" को कुछ अल्फ़ाज़ों के लिए देख सकते हैं, उदाहरण के लिए एक तालिका में $\alpha = 0.05$ , स्वतंत्रता की अनंत डिग्री के लिए (प्रत्येक तालिका के नीचे)।

2. या सामान्य वितरण का उपयोग कर?

बस जब मुझे लगा कि मुझे पता है कि मुझे क्या करना है, तो मुझे एक और पेपर मिला जिसने मुझे फिर से भ्रमित कर दिया, क्योंकि वे केवल सामान्य वितरण का उपयोग कर रहे थे। Demšar 12 पृष्ठ पर एक समान बात कह रहा है:

इन विधियों का उपयोग करके i-th और j-th classi these er की तुलना करने के लिए परीक्षण आँकड़े है
$z = \frac{(R_{i} - R_{j})}{\sqrt{\frac{k (k + 1)}{6 N}}}$ $z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}}$ Z मान का उपयोग सामान्य वितरण की तालिका से संबंधित संभावना को to nd करने के लिए किया जाता है, जो तब एक उपयुक्त के साथ तुलना की जाती है $\alpha$ । परीक्षण उस तरह से भिन्न होते हैं जैसे वे मूल्य को समायोजित करते हैं $\alpha$ कई तुलना के लिए क्षतिपूर्ति करने के लिए।

इस पैराग्राफ में वह सभी एल्गोरिदम की एक नियंत्रण एल्गोरिदम से तुलना करने के बारे में बात कर रहा था, लेकिन टिप्पणी "जिस तरह से वे समायोजित करते हैं ... कई तुलनाओं के लिए क्षतिपूर्ति करने के लिए अलग-अलग होते हैं" यह सुझाव देता है कि यह नेमेनी परीक्षा के लिए भी होना चाहिए।

तो क्या मेरे लिए तार्किक लगता है की गणना करने के लिए है पी परीक्षण आंकड़ा के आधार पर -value $z$ , जो आम तौर पर वितरित किया जाता है, और उस एक को विभाजित करके सही करता है $k(k-1)/2$ ।

हालांकि, यह पूरी तरह से अलग रैंक के अंतर पैदा करता है जिस पर अशक्त परिकल्पना को अस्वीकार करना है। और अब मैं फंस गया हूं और पता नहीं है कि किस विधि को लागू करना है। मैं सामान्य वितरण का उपयोग करके दृढ़ता से झुक रहा हूं , क्योंकि यह मेरे लिए सरल और अधिक तार्किक है। मुझे तालिकाओं में मूल्यों को देखने की आवश्यकता नहीं है और मैं कुछ महत्वपूर्ण मूल्यों के लिए बाध्य नहीं हूं।

फिर, मैंने कभी भी स्टूडेंटेड रेंज स्टेटिस्टिक के साथ काम नहीं किया है और मुझे यह समझ में नहीं आया है।

nonparametric multiple-comparisons post-hoc

— पहरेदार
स्रोत

5

मैंने भी बस इस सवाल को देखना शुरू कर दिया।

जैसा कि पहले उल्लेख किया गया है, जब हम प्रत्येक परीक्षण के लिए पी-मानों की गणना करने के लिए सामान्य वितरण का उपयोग करते हैं, तो ये पी-मान कई परीक्षण को ध्यान में नहीं रखते हैं। इसके लिए सही करने और परिवार-वार त्रुटि दर को नियंत्रित करने के लिए, हमें कुछ समायोजन की आवश्यकता है। बोनफेरोनी, अर्थात् महत्व स्तर को विभाजित करना या परीक्षणों की संख्या से कच्चे पी-मूल्यों को गुणा करना, केवल एक संभव सुधार है। बड़ी संख्या में कई अन्य परीक्षण पी-मूल्य सुधार हैं जो कई मामलों में कम रूढ़िवादी हैं।

ये पी-मूल्य सुधार हाइपोथीसिस परीक्षणों की विशिष्ट संरचना को ध्यान में नहीं रखते हैं।

क्रुक्कल-वालिस या फ्राइडमैन परीक्षणों में रैंक किए गए डेटा के बजाय मूल डेटा की जोड़ीवार तुलना से मैं अधिक परिचित हूं। उस मामले में, जो कि टके एचएसडी टेस्ट है, मल्टीपल तुलना के लिए टेस्ट स्टेटिस्टिक को स्टूडेंटाइज्ड रेंज डिस्ट्रीब्यूशन के अनुसार वितरित किया जाता है, जो कि स्वतंत्र नमूनों की धारणा के तहत सभी जोड़ीदार तुलनाओं के लिए वितरण है। यह बहुभिन्नरूपी सामान्य वितरण की संभावनाओं पर आधारित है जिसकी गणना संख्यात्मक एकीकरण द्वारा की जा सकती है लेकिन आमतौर पर इसका उपयोग तालिकाओं से किया जाता है।

मेरा अनुमान, क्योंकि मैं सिद्धांत को नहीं जानता, यह है कि छात्र श्रेणी के वितरण को उसी तरह से रैंक परीक्षणों के मामले में लागू किया जा सकता है, जैसे कि टकी एचएसडी जोड़ीदार तुलना में।

तो, (2) सामान्य वितरण और एकाधिक परीक्षण पी-मूल्य सुधार का उपयोग करना और (1) छात्र श्रेणी वितरण का उपयोग करना, परीक्षण के आँकड़ों के अनुमानित वितरण के दो अलग-अलग तरीके हैं। हालांकि, अगर छात्र श्रेणी वितरण के उपयोग के लिए मान्यताओं को संतुष्ट किया जाता है, तो यह एक बेहतर सन्निकटन प्रदान करना चाहिए क्योंकि यह सभी जोड़ीदार तुलनाओं की विशिष्ट समस्या के लिए डिज़ाइन किया गया है।

— जोसेफ
स्रोत

1

जहाँ तक मुझे पता है, जब केवल 2 एल्गोरिदम की तुलना करते हैं, तो डेमेकर फ्राइडमैन + पोस्टहॉक के बजाय विलकॉक्सन पर हस्ताक्षर किए गए रैंक परीक्षण का सुझाव देते हैं। मैं दुखी हूं, जैसे ही आप के रूप में भ्रमित हो गया जब यह समझने की बात आती है कि के -1 के द्वारा डिमार्सर के विभाजन का क्या मतलब है।

— 5xum
स्रोत

1

द्वारा विभाजित (k-1) वह है जब आप एक नियंत्रण विधि के खिलाफ कई एल्गोरिदम की तुलना करते हैं। लेकिन यह एक बनाम प्रत्येक, इसलिए एनएक्सएन। विभाजित करने वाला हिस्सा मैं समझ सकता हूं, लेकिन स्टूडेंटाइज्ड रेंज डिस्ट्रीब्यूशन का संबंध मेरी समझ से परे है।

— संतरी

@ संतरी: आपको यहां समायोजन कारक के साथ गुणा करना होगा, गुणा नहीं करना चाहिए। कृपया मेरा उत्तर ऊपर देखें।

— क्रिस

0

मैं यह भी खोज में ठोकर खाई कि क्या एक सामान्य या छात्र टी-वितरण से पी-मूल्य की गणना करना है। दुर्भाग्य से, मैं अभी भी इसका जवाब नहीं दे सकता, क्योंकि विभिन्न पत्र अलग-अलग तरीकों से संवाद करते हैं।

फिर भी, समायोजित पी-मानों की गणना करने के लिए, आपको समायोजन कारक, जैसे p * (k-1) को एक नियंत्रण विधि या p * (k (k *-k-1) के खिलाफ तुलना के मामले में अनपेक्षित पी-मान से गुणा करना होगा। )) / 2) nxn तुलना के लिए।

यदि आपको समायोजन कारक द्वारा विभाजित करना चाहिए तो अल्फा वैल्यू है, अगर अनपेक्षित पी के साथ तुलना की जाती है।

— क्रिस
स्रोत

फ्रीडमैन टेस्ट के बाद नेमेनी पोस्ट-हॉक टेस्ट को सही तरीके से कैसे लागू करें

मैं नेमेनी पोस्ट-हॉक टेस्ट को सही तरीके से कैसे लागू करूं?