वितरण में अंतर के महत्व का आकलन करना


22

मेरे पास डेटा के दो समूह हैं। प्रत्येक एक से अधिक चर के विभिन्न वितरण के साथ। मैं यह निर्धारित करने की कोशिश कर रहा हूं कि क्या ये दो समूहों के वितरण सांख्यिकीय रूप से महत्वपूर्ण हैं। मेरे पास दोनों कच्चे रूप में डेटा है और प्रत्येक में आवृत्ति गणना के साथ असतत श्रेणियों से निपटने के लिए आसान तरीके से तैयार किया गया है।

यह निर्धारित करने के लिए कि मुझे इन दो समूहों में काफी भिन्नता है या नहीं, मुझे एसएएस या आर (या ऑरेंज) में क्या परीक्षण या प्रक्रिया / विधियों का उपयोग करना चाहिए?


2
क्या आप इस बात में रुचि रखते हैं कि क्या वितरण एक अलग रूप हैं (उदाहरण के लिए, सामान्य, पॉइसन, आदि) या क्या पैरामीटर अलग हैं (जैसे, सामान्य वितरण का माध्य या एसडी) या दोनों?
जेरोमे एंग्लीम

एक संबंधित प्रश्न: आंकड़े.stackexchange.com/questions/9311/…
GaBorgulya

जवाबों:


15

मेरा मानना ​​है कि यह दो-नमूना कोलमोगोरोव-स्मिर्नोव परीक्षण , या पसंद के लिए कहता है । दो-नमूना Kolmogorov – Smirnov परीक्षण अनुभवजन्य वितरण कार्यों में अंतर की तुलना करने पर आधारित है दो नमूनों (ECDF) , जिसका अर्थ है कि यह दोनों नमूनों के स्थान और आकार दोनों के लिए संवेदनशील है। यह एक बहुभिन्नरूपी रूप को भी बताता है।

यह परीक्षण आर में विभिन्न पैकेजों में विभिन्न रूपों में पाया जाता है, इसलिए यदि आप मूल रूप से कुशल हैं, तो आपको बस इतना करना है कि उनमें से एक को स्थापित करें (जैसे fBasics ), और इसे अपने नमूना डेटा पर चलाएं।


5
R ks.test के लिए डिफ़ॉल्ट रूप से "आँकड़े" पैकेज अतिरिक्त पैकेज स्थापित किए बिना KS परीक्षण कर सकता है।
रुसेलपिएरेस

SAS में, KS टेस्ट में उपलब्ध है proc npar1way। आर में, इसके अलावा ks.test(), nortestपैकेज है जो कई अन्य समायोजन परीक्षण प्रदान करता है।
chl

8

मैं सलाहकार के गूंगे सवाल पूछने जा रहा हूं। आप जानना चाहते हैं कि क्या ये वितरण सांख्यिकीय रूप से महत्वपूर्ण हैं?

क्या यह है कि आप जो डेटा उपयोग कर रहे हैं, वह आबादी या प्रक्रियाओं के प्रतिनिधि नमूने हैं, और आप उन सबूतों का आकलन करना चाहते हैं जो उन आबादी या प्रक्रियाओं में भिन्न हैं? यदि ऐसा है, तो एक सांख्यिकीय परीक्षण आपके लिए सही है। लेकिन यह मुझे एक अजीब सा सवाल लगता है।

या, क्या आप इस बात में रुचि रखते हैं कि क्या आपको वास्तव में ऐसा व्यवहार करने की आवश्यकता है जैसे कि उन आबादी या प्रक्रियाएं अलग-अलग हैं, सच्चाई की परवाह किए बिना? तब आप एक नुकसान फ़ंक्शन का निर्धारण करने से बेहतर होंगे, आदर्श रूप से एक ऐसी इकाइयाँ जो आपके लिए सार्थक हैं, और अपेक्षित हानि की भविष्यवाणी करते समय आप (ए) आबादी को अलग मानते हैं, और (बी) उन्हें एक ही मानते हैं। या यदि आप अधिक या कम रूढ़िवादी स्थिति अपनाना चाहते हैं, तो आप नुकसान वितरण के कुछ मात्रात्मक को चुन सकते हैं।


आपका स्वर थोड़ा कर्कश और कृपालु है ... लेकिन आप सही कह रहे हैं, मुझे लगता है कि मैं वास्तव में उसके बाद था या नहीं, मैं मान सकता हूं कि दो वितरण समान हैं।
जय स्टीवंस

3
क्षमा करें कि आपको मेरा स्वर पसंद नहीं है। यदि आप जानना चाहते हैं कि क्या आप यथोचित मान सकते हैं कि दो वितरण समान हैं, तो केएस आपको गुमराह करेगा, क्योंकि यह अशक्त परिकल्पना का परीक्षण करता है कि दोनों वितरण समान हैं।
एंड्रयू रॉबिन्सन

5

आपको सापेक्ष वितरण विधियों को लागू करने में रुचि हो सकती है। एक समूह को संदर्भ समूह और दूसरे को तुलना समूह कहें। एक तरह से प्रायिकता-प्रायिकता प्लॉट के निर्माण के समान, आप एक सापेक्ष CDF / PDF का निर्माण कर सकते हैं, जो घनत्व का अनुपात है। इस सापेक्ष घनत्व का उपयोग अनुमान के लिए किया जा सकता है। यदि वितरण समान हैं, तो आप एक समान सापेक्ष वितरण की अपेक्षा करते हैं। एकरूपता से प्रस्थान का पता लगाने और जांचने के लिए उपकरण, चित्रमय और सांख्यिकीय हैं।

एक बेहतर अर्थ प्राप्त करने के लिए एक अच्छा प्रारंभिक बिंदु आर में रिलेटिव डिस्ट्रिब्यूशन मेथड्स और आर । में रिडिस्ट पैकेज है। विवरण के लिए, आपको हैंडकॉक और मॉरिस द्वारा सामाजिक विज्ञान में पुस्तक, सापेक्ष वितरण विधियों का उल्लेख करना होगा । प्रासंगिक तकनीकों को कवर करने वाले लेखकों द्वारा एक पेपर भी है ।


2

दो वितरणों के बीच अंतर का एक माप "अधिकतम औसत विसंगति" मानदंड है, जो मूल रूप से दो वितरणों से पुनरावर्ती कर्नेल हिल्बर्ट स्पेस (RKHS) में नमूनों के अनुभवजन्य साधनों के बीच अंतर को मापता है। इस पेपर को "दो नमूना समस्या के लिए एक कर्नेल विधि" देखें ।


यह विधि मेरे विचार में सबसे मजबूत है, लेकिन अच्छी तरह से ज्ञात नहीं है क्योंकि यह समान रूप से अच्छी तरह से काम करता है यदि आपके पास आपके वितरण के लिए परिमित नमूना है (और इस प्रकार आपके नमूना वितरण पूरी तरह से निरंतर नहीं हैं)। यह बहुराष्ट्रीय वितरणों के साथ भी काम करता है जो केएस परीक्षण के लिए अभी भी सक्रिय शोध है जहाँ तक मुझे पता है
www3

-1

मुझे नहीं पता कि एसएएस / आर / ऑरेंज का उपयोग कैसे किया जाए, लेकिन यह लगता है कि आपको जिस तरह की परीक्षा की आवश्यकता है वह ची-स्क्वायर टेस्ट है


मैंने सोचा कि ची-सक मुख्य रूप से श्रेणीबद्ध डेटा (आकस्मिक तालिकाओं) बनाम निरंतर के लिए था?
जय स्टीवंस

1
हम्म् मैं वास्तव में केएस परीक्षा उत्तर की तरह मेरा से बेहतर है!
सुरेश वेंकटसुब्रमण्यम

1
नहीं, यह सही नहीं है।
स्मॉलचेयर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.