गैर-पैरामीट्रिक परीक्षण यदि एक ही वितरण से दो नमूने खींचे जाते हैं


19

मैं इस परिकल्पना का परीक्षण करना चाहूंगा कि नमूनों या आबादी के वितरण के बारे में कोई भी धारणा बनाए बिना, दो नमूने एक ही जनसंख्या से तैयार किए गए हैं। मुझे यह कैसे करना चाहिए?

विकिपीडिया से मेरी धारणा है कि मान व्हिटनी यू परीक्षण उपयुक्त होना चाहिए, लेकिन यह व्यवहार में मेरे लिए काम नहीं करता है।

संक्षिप्तता के लिए मैंने दो नमूने (ए, बी) के साथ एक डेटासेट बनाया है जो बड़े (एन = 10000) हैं और दो आबादी से खींचे गए हैं जो गैर-सामान्य (बिमोडल) हैं, समान (समान मतलब) हैं, लेकिन अलग हैं (मानक विचलन) "हम्प्स।") के आसपास मैं एक ऐसे परीक्षण की तलाश में हूं जो यह पहचान सके कि ये नमूने एक ही आबादी के नहीं हैं।

हिस्टोग्राम देखें:

bimodal नमूने

आर कोड:

a <- tibble(group = "a",
            n = c(rnorm(1e4, mean=50, sd=10),
                  rnorm(1e4, mean=100, sd=10)))
b <- tibble(group = "b",
            n = c(rnorm(1e4, mean=50, sd=3),
                  rnorm(1e4, mean=100, sd=3)))
ggplot(rbind(a,b), aes(x=n, fill=group)) +
  geom_histogram(position='dodge', bins=100)

यहाँ मान व्हिटनी परीक्षण आश्चर्यजनक रूप से (?) शून्य परिकल्पना को अस्वीकार करने में विफल रहा है कि नमूने एक ही जनसंख्या से हैं:

> wilcox.test(n ~ group, rbind(a,b))

        Wilcoxon rank sum test with continuity correction

data:  n by group
W = 199990000, p-value = 0.9932
alternative hypothesis: true location shift is not equal to 0

मदद! मुझे विभिन्न वितरणों का पता लगाने के लिए कोड को कैसे अपडेट करना चाहिए? (मैं विशेष रूप से यदि उपलब्ध हो तो जेनेरिक रैंडमाइजेशन / रिसमलिंग पर आधारित एक विधि पसंद करूंगा।)

संपादित करें:

उत्तर के लिए आप सभी को धन्यवाद! मैं Kolmogorov-Smirnov के बारे में अधिक उत्साहित हूं जो मेरे उद्देश्यों के लिए बहुत उपयुक्त लगता है।

मैं समझता हूं कि केएस परीक्षण दो नमूनों के इन ईसीडीएफ की तुलना कर रहा है:

ECDFs

यहां मैं नेत्रहीन रूप से तीन दिलचस्प विशेषताएं देख सकता हूं। (1) नमूने विभिन्न वितरण से हैं। (२) A कुछ बिंदुओं पर स्पष्ट रूप से B से ऊपर है। (३) कुछ अन्य बिंदुओं पर A स्पष्ट रूप से B से नीचे है।

केएस परीक्षण इन सभी विशेषताओं की परिकल्पना-जाँच करने में सक्षम है:

> ks.test(a$n, b$n)

        Two-sample Kolmogorov-Smirnov test

data:  a$n and b$n
D = 0.1364, p-value < 2.2e-16
alternative hypothesis: two-sided

> ks.test(a$n, b$n, alternative="greater")

        Two-sample Kolmogorov-Smirnov test

data:  a$n and b$n
D^+ = 0.1364, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies above that of y

> ks.test(a$n, b$n, alternative="less")

        Two-sample Kolmogorov-Smirnov test

data:  a$n and b$n
D^- = 0.1322, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies below that of y

यह वास्तव में साफ है! मेरी इन सभी विशेषताओं में व्यावहारिक रुचि है और इसलिए यह बहुत अच्छा है कि केएस परीक्षण उनमें से प्रत्येक की जांच कर सकता है।


यह बहुत आश्चर्य की बात नहीं है कि MW अस्वीकार नहीं करता है। एक तरफा परीक्षण के लिए यह परीक्षण करता है कि क्या Pr (a> b) <0.05 जहां a और b यादृच्छिक रूप से आपकी आबादी के सदस्य चुने गए हैं।
mdewey

1
मान-व्हिटनी की परिकल्पना को कभी-कभी दो समूहों की "स्थिति", या व्यवस्थित स्टोचस्टिक अंतर की तर्ज पर कुछ कहा जाता है। आपके डेटा के मामले में, दोनों समूह सममित रूप से लगभग 75 वितरित किए जाते हैं, इसलिए MW को निश्चित रूप से अंतर नहीं खोजना चाहिए।
साल २०:४४ को साल २०१

4
यह भ्रम का एक अच्छा उदाहरण है जिसे हम बोते हैं जब हम एक परीक्षण के लिए परिकल्पना के बारे में स्पष्ट नहीं होते हैं। दुर्भाग्य से, लोगों को दो समूहों की तुलना करने के लिए एक टी -टेस्ट का उपयोग करने के लिए सिखाया जाता है , वास्तव में यह सोचकर कि यह परीक्षण दो साधनों की तुलना करता है , जबकि दो मध्यस्थों , मैन-व्हिटनी की तुलना करने के लिए एक माध्य परीक्षण है जो कुछ और की तुलना करता है, अन्य प्रतिशत की तुलना में मात्रात्मक प्रतिगमन वितरणों की तुलना करने के लिए परीक्षण, कोलमोगोरोव-स्मिरनोव के वितरण की तुलना करने के लिए, और इसी तरह ... हम कभी-कभी कहते हैं कि हम दो "आबादी" की तुलना बिना स्पष्ट किए करना चाहते हैं कि हम वास्तव में किस परिकल्पना का परीक्षण करना चाहते हैं।
साल मंगिफ़िको

प्रतिबिंब पर ऐसा लगता है जैसे MW टेस्ट के लिए विकिपीडिया पृष्ठ परिकल्पना को बहुत स्पष्ट रूप से बताता है और यह मेरी तरफ से एक गलतफहमी (निराधार छलांग) थी, यह सोचने के लिए कि यह परिकल्पना भी निहित है कि नमूने समान वितरण से आते हैं। वास्तव में, समस्या स्पष्ट हो जाती है जब दो अलग-अलग वितरणों की तुलना की जाती है जो एक ही केंद्रीय बिंदु के आसपास सममित होते हैं।
ल्यूक गोरी

जवाबों:


17

कोल्मोगोरोव-स्मिरनोव परीक्षण ऐसा करने का सबसे आम तरीका है, लेकिन कुछ अन्य विकल्प भी हैं।

परीक्षण अनुभवजन्य संचयी वितरण कार्यों पर आधारित हैं। मूल प्रक्रिया है:

  • एलपी
  • अशक्त परिकल्पना के तहत परीक्षण सांख्यिकीय के वितरण का पता लगाएं कि नमूने समान वितरण से आते हैं (सौभाग्य से लोगों ने पहले से ही सबसे सामान्य दूरी के लिए ऐसा किया है!)
  • αα%

एल

ks.test(a,b)

पी

एल2dgofcvm.test()

संपादित करें:

n

इसे नमूना-प्रकार की प्रक्रिया में बदलने के लिए, हम निम्नलिखित कार्य कर सकते हैं:

  1. nn
  2. नमूनों के लिए अपनी दूरी की मीट्रिक की गणना करें। केएस परीक्षण के लिए, यह सिर्फ अधिकतम है। अनुभवजन्य सीडीएफ के बीच अंतर।
  3. परिणाम स्टोर करें और चरण 1 पर वापस जाएं।

आखिरकार आप अशक्त परिकल्पना के तहत परीक्षण सांख्यिकीय के वितरण से बहुत सारे नमूनों का निर्माण करेंगे, जिनकी मात्राएँ आप अपनी परिकल्पना परीक्षण का उपयोग करना चाहते हैं, जो भी आप चाहते हैं। केएस परीक्षण सांख्यिकीय के लिए, इस वितरण को कोलमोगोरोव वितरण कहा जाता है।

ध्यान दें कि केएस परीक्षण के लिए, यह केवल कम्प्यूटेशनल प्रयास की बर्बादी है क्योंकि क्वांटिल्स को बहुत ही सैद्धांतिक रूप से विशेषता है, लेकिन प्रक्रिया आम तौर पर किसी भी परिकल्पना परीक्षण पर लागू होती है।


धन्यवाद! कोल्मोगोरोव-स्मिरनोव परीक्षण वास्तव में अशक्त परिकल्पना को खारिज करता है कि ये नमूने एक ही आबादी के हैं। और सहज रूप से यह ECDFs की तुलना करने के लिए समझ में आता है क्योंकि यह अधिक-या-कम है जो मैं हिस्टोग्राम के साथ नेत्रहीन कर रहा हूं। प्रश्न: मान लीजिए कि मुझे आर जैसे उपकरण के बिना खरोंच से इस परीक्षण को लागू करने की आवश्यकता है। क्या एक सरल तरीका है जो पर्याप्त होगा? (शायद बूटस्ट्रैपिंग पर आधारित?) मैं पूछता हूं क्योंकि मेरी पृष्ठभूमि कंप्यूटर प्रोग्रामिंग है और मुझे सिमुलेशन-आधारित विधियां वास्तव में समझने में बहुत आसान लगती हैं।
ल्यूक गोरी

आपको यादृच्छिककरण या क्रमपरिवर्तन पर ध्यान देना चाहिए। मैं गैर-सामान्य परीक्षणों के लिए इन्हें पसंद करता हूं। वे आंकड़ों के बजाय अनुकरण होने के उर मानदंड को पूरा करते हैं
आरटीबार्ड

2
@JamesAdamCampbell क्या आप उस पर एक अलग जवाब में थोड़ा विस्तार कर सकते हैं?
विल

1
एल

1
मैं उस के साथ कोई समस्या नहीं देख रहा हूँ। यदि आप इस सामान को आज़माते हैं तो मुझे परिणाम देखने में दिलचस्पी होगी! यह देखने के लिए अच्छा होगा कि क्या सीआई दृष्टिकोण और सीधे केएस परीक्षण आपको हमेशा एक ही उत्तर देगा। मुझे संदेह है कि वे :)
विल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.