मैं इस परिकल्पना का परीक्षण करना चाहूंगा कि नमूनों या आबादी के वितरण के बारे में कोई भी धारणा बनाए बिना, दो नमूने एक ही जनसंख्या से तैयार किए गए हैं। मुझे यह कैसे करना चाहिए?
विकिपीडिया से मेरी धारणा है कि मान व्हिटनी यू परीक्षण उपयुक्त होना चाहिए, लेकिन यह व्यवहार में मेरे लिए काम नहीं करता है।
संक्षिप्तता के लिए मैंने दो नमूने (ए, बी) के साथ एक डेटासेट बनाया है जो बड़े (एन = 10000) हैं और दो आबादी से खींचे गए हैं जो गैर-सामान्य (बिमोडल) हैं, समान (समान मतलब) हैं, लेकिन अलग हैं (मानक विचलन) "हम्प्स।") के आसपास मैं एक ऐसे परीक्षण की तलाश में हूं जो यह पहचान सके कि ये नमूने एक ही आबादी के नहीं हैं।
हिस्टोग्राम देखें:
आर कोड:
a <- tibble(group = "a",
n = c(rnorm(1e4, mean=50, sd=10),
rnorm(1e4, mean=100, sd=10)))
b <- tibble(group = "b",
n = c(rnorm(1e4, mean=50, sd=3),
rnorm(1e4, mean=100, sd=3)))
ggplot(rbind(a,b), aes(x=n, fill=group)) +
geom_histogram(position='dodge', bins=100)
यहाँ मान व्हिटनी परीक्षण आश्चर्यजनक रूप से (?) शून्य परिकल्पना को अस्वीकार करने में विफल रहा है कि नमूने एक ही जनसंख्या से हैं:
> wilcox.test(n ~ group, rbind(a,b))
Wilcoxon rank sum test with continuity correction
data: n by group
W = 199990000, p-value = 0.9932
alternative hypothesis: true location shift is not equal to 0
मदद! मुझे विभिन्न वितरणों का पता लगाने के लिए कोड को कैसे अपडेट करना चाहिए? (मैं विशेष रूप से यदि उपलब्ध हो तो जेनेरिक रैंडमाइजेशन / रिसमलिंग पर आधारित एक विधि पसंद करूंगा।)
संपादित करें:
उत्तर के लिए आप सभी को धन्यवाद! मैं Kolmogorov-Smirnov के बारे में अधिक उत्साहित हूं जो मेरे उद्देश्यों के लिए बहुत उपयुक्त लगता है।
मैं समझता हूं कि केएस परीक्षण दो नमूनों के इन ईसीडीएफ की तुलना कर रहा है:
यहां मैं नेत्रहीन रूप से तीन दिलचस्प विशेषताएं देख सकता हूं। (1) नमूने विभिन्न वितरण से हैं। (२) A कुछ बिंदुओं पर स्पष्ट रूप से B से ऊपर है। (३) कुछ अन्य बिंदुओं पर A स्पष्ट रूप से B से नीचे है।
केएस परीक्षण इन सभी विशेषताओं की परिकल्पना-जाँच करने में सक्षम है:
> ks.test(a$n, b$n)
Two-sample Kolmogorov-Smirnov test
data: a$n and b$n
D = 0.1364, p-value < 2.2e-16
alternative hypothesis: two-sided
> ks.test(a$n, b$n, alternative="greater")
Two-sample Kolmogorov-Smirnov test
data: a$n and b$n
D^+ = 0.1364, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies above that of y
> ks.test(a$n, b$n, alternative="less")
Two-sample Kolmogorov-Smirnov test
data: a$n and b$n
D^- = 0.1322, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies below that of y
यह वास्तव में साफ है! मेरी इन सभी विशेषताओं में व्यावहारिक रुचि है और इसलिए यह बहुत अच्छा है कि केएस परीक्षण उनमें से प्रत्येक की जांच कर सकता है।