क्या कोलमोगोरोव-स्मिर्नोव टेस्ट के लिए कई-नमूना संस्करण या विकल्प है?


12

मैं छह जोड़ी भूखंडों में पेड़ों के आकार के वितरण की तुलना कर रहा हूं जहां एक भूखंड को एक उपचार मिला और दूसरे को नियंत्रण। भूखंडों की प्रत्येक जोड़ी पर एक Kolmogorov-स्मिर्नोव परीक्षण का उपयोग करते हुए मुझे लगता है कि लगता है से लेकर करने के लिए । क्या सभी प्रतिकृति के साथ एक साथ काम करने के लिए कोई उपयुक्त तरीके हैं, जैसे कि केएस परीक्षण का एक बहु-नमूना विस्तार, या क्या एक उपयुक्त अनुवर्ती परीक्षण है? या मुझे कुछ निष्कर्ष निकालना चाहिए जैसे " प्लॉट के 2 जोड़े में आकार वितरण ) में काफी भिन्नता है और एक जोड़ी भूखंडों में मामूली रूप से ( ) है।"पी0.00037070.75(पी<0.05पी=0.59


2
इन वितरणों के बारे में आप क्या तुलना करना चाहते हैं, कि वे केंद्रीय प्रवृत्ति में भिन्न हैं, या वे आकार में भिन्न हैं? मैं वितरण के आकार / प्रकृति के बारे में अधिक होने के रूप में केएस के बारे में सोचता हूं, लेकिन फ्राइडमैन परीक्षण जैसा कुछ निर्धारित कर सकता है कि नमूने केंद्रीय प्रवृत्ति में भिन्न हैं।
गूँग - मोनिका

जवाबों:


13

वास्तव में कुछ मल्टीपल सैंपल केएस टेस्ट हैं। उदाहरण के लिए, साथ एक आर-सैंपल Kolmogorov-Smirnov-Test , जो, मेरा मानना ​​है कि अच्छी शक्ति है। उस सुंदर कागज की एक छाप यहाँ उपलब्ध है । मुझे कोलमोगोरोव-स्मिरनोव और क्रामर-वी के के-सैंपल एनालॉग्स का भी पता है टेस्ट करता है (लेकिन जहाँ तक मुझे पता है, उनकी शक्ति कम है)।आर2


5
वैसे, बोहम और हॉर्निक द्वारा उस "सुंदर" पेपर का नुकसान यह है कि जहां तक ​​मैं बता सकता हूं वहां कोई सार्वजनिक रूप से उपलब्ध कार्यान्वयन उपलब्ध नहीं है। गणित काफी जटिल है कि आप इसे स्वयं लागू नहीं करना चाहेंगे। मैंने लेखकों को मेल किया और उनसे पूछा लेकिन उन्होंने जवाब नहीं दिया। ध्यान दें कि Hornik R Core Developers समूह का सदस्य है ... यदि किसी को कार्यान्वयन के बारे में पता है, तो pls यहां एक लिंक पोस्ट करें!
लैरीक्स डेसीडुआ

8

एक आर पैकेज kSamples है जो आपको अन्य चीजों के साथ, एक गैर-पैरामीट्रिक के-नमूना एंडरसन-डार्लिंग परीक्षण प्रदान करता है। अशक्त परिकल्पना यह है कि सभी k नमूने समान वितरण से आए हैं जिन्हें निर्दिष्ट करने की आवश्यकता नहीं है। शायद आप इसका उपयोग कर सकते हैं।

सामान्य और गामा-वितरित नमूनों की तुलना करने पर थोड़ा उदाहरण ताकि वे समान माध्य और विचरण करें:

library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0  # Gamma parameters shape and scale, using Wikipedia notation
gam.mean <- alpha * theta # mean of the Gamma
gam.sd <- sqrt(alpha) * theta # S.D. of the Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)  # Normal with the same mean and SD as the Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "not significant, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significant, p ~ 0.00066"

4

दृष्टिकोण के एक जोड़े:

जोड़ीदार पी-वैल्यू का उपयोग करें लेकिन बॉन फेरोनी या फाल्सी डिस्कवरी रेट एडजस्टमेंट जैसे कुछ का उपयोग करके कई तुलनाओं के लिए उन्हें समायोजित करें (पहले शायद रूढ़िवादी से थोड़ा अधिक होगा)। तब आप आश्वस्त हो सकते हैं कि कोई भी जो अभी भी काफी भिन्न है, संभवतः कई परीक्षण के कारण नहीं हैं।

आप किसी भी वितरण के बीच सबसे बड़ी दूरी पाकर केएस के स्वाद में एक समग्र परीक्षण बना सकते हैं, यानी सभी अनुभवजन्य cdf की साजिश रच सकते हैं और बॉटलमॉस्ट लाइन से सबसे ऊपरी लाइन तक की सबसे बड़ी दूरी का पता लगा सकते हैं, या शायद औसत दूरी या कुछ और सार्थक मापने। फिर आप पा सकते हैं कि क्या यह क्रमपरिवर्तन परीक्षण करके महत्वपूर्ण है: सभी डेटा को 1 बड़े बिन में समूहित करें, फिर यादृच्छिक रूप से इसे अपने मूल समूहों के समान नमूना आकार वाले समूहों में विभाजित करें, अनुमत डेटा पर स्टेट को पुन: लिखें और प्रक्रिया को दोहराएं कई बार (999 या तो)। फिर देखें कि आपका मूल डेटा अनुमत डेटा सेट की तुलना कैसे करता है। यदि मूल डेटा आँकड़ा परमिटेड लोगों के बीच में आता है तो कोई महत्वपूर्ण अंतर नहीं पाया जाता है, लेकिन यदि यह किनारे पर है, या किसी भी अनुज्ञापत्र से परे तो कुछ महत्वपूर्ण चल रहा है (लेकिन यह आपको नहीं बताता जो अलग हैं)। आपको संभवतः नकली डेटा के साथ इसे आज़माना चाहिए जहाँ आपको पता है कि एक अंतर है जो दिलचस्प अंतर खोजने के लिए इस परीक्षण की शक्ति की जाँच करने के लिए दिलचस्प होने के लिए पर्याप्त बड़ा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.