सांख्यिकीय परीक्षण यह बताने के लिए कि क्या एक ही जनसंख्या से दो नमूने खींचे गए हैं?


30

मान लीजिए कि मेरे पास दो नमूने हैं। अगर मैं यह बताना चाहता हूं कि क्या उन्हें अलग-अलग आबादी से खींचा गया है, तो मैं एक टी-टेस्ट चला सकता हूं। लेकिन मान लीजिए कि मैं परीक्षण करना चाहता हूं कि नमूने एक ही आबादी के हैं या नहीं। कोई इसे कैसे करता है? यही है, मैं सांख्यिकीय संभावना की गणना कैसे करूं कि ये दोनों नमूने एक ही आबादी से खींचे गए थे?


1
कृपया समझाएं - जितना संभव हो उतना मात्रात्मक रूप से - आपका मतलब है "वही।" यह स्पष्ट करने में मदद करेगा कि आप "स्थिति" से क्या मतलब है।
whuber

एक दो-नमूना कोलमोगोरोव-स्मिर्नोव की तरह एक परीक्षण (केवल संभावना नहीं है; सामान्य मान्यताओं के साथ, टी-टेस्ट एक ही चीज़ का परीक्षण कर रहा है, जैसा कि आप ध्यान दें) यह परीक्षण कर सकते हैं कि क्या जनसंख्या वितरण अलग हैं (लेकिन अस्वीकार करने में विफलता नहीं है) टी का मतलब है कि वे वास्तव में एक ही हैं)। हालांकि, कोई भी परीक्षण आपको यह नहीं बता सकता है कि क्या दो वितरण जो बहुत अधिक भिन्न नहीं हैं, वास्तव में समान जनसंख्या के हैं , बल्कि समान वितरण वाले दो अलग-अलग आबादी हैं। कि या तो मान्यताओं या अन्य जांच से आना होगा। ... ctd
Glen_b -Reinstate मोनिका

3
ctd ... इसी तरह, परीक्षण आपको यह भी नहीं बता सकते हैं कि वितरण समान हैं, क्योंकि वे तुच्छ तरीकों से भिन्न हो सकते हैं। आप 'समतुल्यता परीक्षण' या 'समतुल्यता परीक्षण' पर खोज कर सकते हैं, जिस पर आपको यहाँ या Google पर कुछ हिट मिलनी चाहिए।
Glen_b -Reinstate मोनिका

जवाबों:


20

वितरण की तुलना करने वाले परीक्षण नियम-आउट परीक्षण हैं। वे शून्य परिकल्पना के साथ शुरू करते हैं कि 2 आबादी समान हैं, फिर उस परिकल्पना को अस्वीकार करने का प्रयास करें। हम कभी भी शून्य को सही साबित नहीं कर सकते हैं, बस इसे अस्वीकार कर दें, इसलिए इन परीक्षणों का उपयोग वास्तव में यह दिखाने के लिए नहीं किया जा सकता है कि 2 नमूने एक ही आबादी (या समान आबादी) से आते हैं।

इसका कारण यह है कि वितरण में मामूली अंतर हो सकता है (जिसका अर्थ है कि वे समान नहीं हैं), लेकिन इतने छोटे कि परीक्षण वास्तव में अंतर नहीं पा सकते हैं।

2 वितरण पर विचार करें, पहला 0 से 1 तक समान है, दूसरा 2 वर्दी का मिश्रण है, इसलिए यह 1 से 0 और 0.999 के बीच है, और 1 से 9.999 और 10 (0 अन्यत्र) के बीच भी है। तो स्पष्ट रूप से ये वितरण अलग-अलग हैं (चाहे अंतर सार्थक हो, यह एक और सवाल है), लेकिन यदि आप प्रत्येक से 50 का नमूना आकार लेते हैं (कुल 100) तो 90% से अधिक संभावना है कि आप केवल 0 और 0.999 के बीच मान देखेंगे कोई वास्तविक अंतर देखने में असमर्थ होना।

वहाँ करने के तरीके हैं जिन्हें समतुल्यता परीक्षण कहा जाता है जहां आप पूछते हैं कि क्या 2 वितरण / आबादी समतुल्य हैं, लेकिन आपको यह परिभाषित करने की आवश्यकता है कि आप क्या समतुल्य मानते हैं। यह आमतौर पर होता है कि अंतर का कुछ माप किसी दी गई सीमा के भीतर होता है, अर्थात 2 साधनों में अंतर 2 साधनों के औसत के 5% से कम होता है, या केएस आँकड़ा किसी दिए गए कट-ऑफ के नीचे होता है, यदि आप फिर अंतर सांख्यिकीय के लिए एक विश्वास अंतराल की गणना कर सकता है (साधनों का अंतर केवल टी आत्मविश्वास अंतराल, बूटस्ट्रैपिंग, सिमुलेशन या अन्य आंकड़ों के लिए अन्य तरीकों की आवश्यकता हो सकती है)। यदि संपूर्ण आत्मविश्वास अंतराल "समतुल्यता क्षेत्र" में आता है, तो हम 2 आबादी / वितरण को "समतुल्य" मानते हैं।

कठिन हिस्सा समझ रहा है कि समतुल्यता क्षेत्र क्या होना चाहिए।


2
एक अशक्त परिकल्पना परीक्षण, निरर्थक परिकल्पना के लिए प्रमाण प्रदान नहीं कर सकता, सच है। मॉडल चयन, या तो बायेसियन या कुछ "मानदंड" (एआईसी, बीआईसी) पर आधारित हो सकता है, लेकिन यह संकेत दे सकता है कि एक वैकल्पिक मॉडल (अलग वितरण) की तुलना में एक अशक्त मॉडल (समान वितरण) डेटा का बेहतर विवरण है। सभी निश्चित रूप से मान्यताओं की एक गुच्छा के तहत।
ए। डोंडा

6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

मान लें कि आपके नमूना मूल्य निरंतर वितरण से आते हैं, मैं कोलमोगोरोव-स्मिरनोव परीक्षण का सुझाव दूंगा। यह परीक्षण करने के लिए इस्तेमाल किया जा सकता है कि क्या दो नमूने अलग-अलग वितरणों से आते हैं (यह है कि मैं कैसे उनके उपयोग की व्याख्या कर रहा हूं) उनके संबंधित अनुभवजन्य वितरण के आधार पर।

सीधे विकिपीडिया से:

इस सांख्यिकीय के शून्य वितरण की गणना शून्य परिकल्पना के तहत की जाती है कि नमूने एक ही वितरण (दो-नमूना मामले में) से तैयार किए गए हैं

इस परीक्षण के लिए R में ks.test फ़ंक्शन का उपयोग किया जा सकता है।

हालांकि यह सच है कि केस्टेस्ट समरूपता के लिए परीक्षण नहीं करता है, मेरा तर्क है कि यदि आप एक बड़े पर्याप्त नमूना आकार (एक उच्च शक्ति परीक्षण) के साथ अस्वीकार करने में विफल रहते हैं, तो आप दावा कर सकते हैं कि अंतर व्यावहारिक रूप से महत्वपूर्ण नहीं हैं। आप अनुमान लगा सकते हैं कि यदि अंतर मौजूद हैं, तो वे संभवतः सार्थक नहीं हैं (फिर से, बड़े नमूना आकार को ग्रहण करते हुए)। आप निष्कर्ष नहीं निकाल सकते कि वे उसी आबादी से हैं, जैसा कि अन्य लोगों ने सही कहा है। यह सब कहा जा रहा है, आम तौर पर मैं सिर्फ दो नमूनों की समानता की जांच करूंगा।


6
मुझे संदेह है कि वितरणात्मक तुल्यता दिखाने के लिए केएस परीक्षण का उपयोग किया जा सकता है।
माइकल एम

@MichaelMayer बिल्कुल सही है। ओपी समरूपता के एक परीक्षण में रुचि रखते हैं ... जिसमें कई अंतर्निहित कार्यप्रणाली मुद्दे हैं। विषमता के लिए केएस में भी इसके मुद्दे हैं: व्यावहारिक रूप से, यह बड़े नमूनों में खारिज कर देगा चाहे आबादी सभी पहलुओं में व्यावहारिक रूप से समान हो। यह सिर्फ यह दिखाने के लिए जाता है कि परीक्षण, और फलस्वरूप पी-मान, सांख्यिकीय महत्व की तुलना में नमूना आकार के उपायों के रूप में बेहतर माना जाता है।
अदमो

@ अदमो हाँ, लेकिन अगर आपके पास बड़े नमूने हैं और आप अस्वीकार करने में विफल हैं, तो मुझे विश्वास होगा कि आबादी व्यावहारिक रूप से समान हैं। जहां तक ​​मुझे पता है, इसको वापस करने के लिए कोई सिद्धांत नहीं है, लेकिन अनुभव से, यह जानते हुए कि विषमता के लिए केएस बड़े नमूना आकार के साथ मिनट के अंतर का पता लगा सकते हैं, जिससे आप व्यावहारिक रूप से एक वास्तविक नमूना के रूप में एक असफल बड़े नमूना परीक्षण का उपयोग कर सकते हैं। समान आबादी। क्या मेरी प्रतिक्रिया इस सवाल का जवाब देती है कि "सांख्यिकीय संभावना की गणना करें कि ये दोनों नमूने एक ही आबादी से खींचे गए थे"? हरगिज नहीं।
अंडरमैंस्टर

यदि मेरे अंक द्वि-आयामी हैं, तो मैं क्या कर सकता हूं ? यही है, मेरे पास दो-आयामी बिंदुओं के दो नमूने हैं, और मैं जानना चाहता हूं कि क्या वे अलग-अलग वितरण से आते हैं।
बेको

केएस परीक्षण केवल एक पूर्व-निर्धारित वितरण के खिलाफ काम करता है, डेटा से अनुमानित मापदंडों के साथ वितरण से नहीं।
क्यूर

2

आप एक 'शिफ्ट फंक्शन' का उपयोग कर सकते हैं, जो यह जाँचता है कि क्या 2 डिस्ट्रीब्यूशन प्रत्येक डिकाइल में अलग-अलग हैं। हालांकि इसकी तकनीकी रूप से एक परीक्षा है कि क्या वे एक ही के बजाय अलग-अलग आबादी से हैं, यदि वितरण किसी भी निर्णय पर अलग नहीं है, तो आप तर्कसंगत रूप से सुनिश्चित कर सकते हैं कि वे एक ही आबादी से हैं, खासकर यदि समूह आकार बड़े हैं।

मैं 2 समूहों की कल्पना भी करूंगा: उनके वितरण को ओवरले करूंगा और देखूंगा कि क्या वे एक दूसरे से मिलते-जुलते हैं, या बेहतर अभी तक प्रत्येक समूह से कुछ हजार बूटस्ट्रैप नमूने खींचते हैं और उन्हें प्लॉट करते हैं , क्योंकि इससे आपको अंदाजा होगा कि क्या वे उसी से आते हैं विशेष रूप से जनसंख्या यदि प्रश्न में जनसंख्या सामान्य रूप से आपके द्वारा दिए गए चर के लिए वितरित की जाती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.