असतत डेटा के साथ कोलमोगोरोव-स्मिरनोव: आर में dgof :: ks.test का उचित उपयोग क्या है?


23

शुरुआती प्रश्न:

मैं परीक्षण करना चाहता हूं कि क्या दो असतत डेटा सेट एक ही वितरण से आते हैं। मुझे एक कोलमोगोरोव-स्मिरनोव परीक्षण का सुझाव दिया गया था।

कॉनोवर ( प्रैक्टिकल नॉनपैरेमेट्रिक स्टैटिस्टिक्स , 3 डी) का कहना है कि कोलमोगोरोव-स्मिर्नोव टेस्ट का उपयोग इस उद्देश्य के लिए किया जा सकता है, लेकिन इसका व्यवहार असतत वितरण के साथ "रूढ़िवादी" है, और मुझे यकीन नहीं है कि इसका क्या मतलब है।

एक अन्य प्रश्न पर डेविड की टिप्पणी कहती है, "... आप अभी भी केएस आँकड़ा के आधार पर एक स्तर α परीक्षण कर सकते हैं, लेकिन आपको महत्वपूर्ण मान प्राप्त करने के लिए कुछ अन्य विधि ढूंढनी होगी, जैसे अनुकरण द्वारा।"

Dgof R पैकेज में ks.test () का संस्करण ( लेख , क्रैन ) कुछ क्षमताओं को जोड़ देता है जो आँकड़े पैकेज में ks.test () के डिफ़ॉल्ट संस्करण में मौजूद नहीं हैं। अन्य बातों के अलावा, dgof :: ks.test में यह पैरामीटर शामिल है:

simulate.p.value: मोंटे कार्लो सिमुलेशन द्वारा पी-मूल्यों की गणना करने के लिए एक तार्किक संकेत है, केवल असतत अच्छाई-से-फिट परीक्षणों के लिए।

क्या DavidR का सुझाव देने के लिए simulate.p.value = T का उद्देश्य है?

यहां तक ​​कि अगर यह है, तो मुझे यकीन नहीं है कि क्या मैं दो-नमूना परीक्षण के लिए dgof :: ks.test का उपयोग कर सकता हूं। ऐसा लगता है कि यह केवल निरंतर वितरण के लिए दो-नमूना परीक्षण प्रदान करता है:

यदि y संख्यात्मक है, तो शून्य परिकल्पना का एक दो-नमूना परीक्षण जो कि x और y एक ही निरंतर वितरण से खींचा गया था, किया जाता है।

वैकल्पिक रूप से, y एक सतत (संचयी) वितरण समारोह (या इस तरह के एक समारोह), या एक ecdf फ़ंक्शन (या कक्षा stepfun की वस्तु) नामकरण एक चरित्र स्ट्रिंग एक असतत वितरण दे सकता है। इन मामलों में, एक-नमूना परीक्षण शून्य से बाहर किया जाता है कि वितरण समारोह जो x उत्पन्न करता है, वितरण y है ...।

(पृष्ठभूमि का विवरण: सख्ती से बोलना, मेरे अंतर्निहित वितरण निरंतर हैं, लेकिन डेटा कुछ मुट्ठी भर बिंदुओं के पास बहुत झूठ बोलते हैं। प्रत्येक बिंदु एक सिमुलेशन का परिणाम है, और -1 के बीच 10 या 20 वास्तविक संख्याओं का मतलब है। 1. सिमुलेशन के अंत तक, वे संख्या लगभग हमेशा .9 या -.9 के करीब होती हैं। इस प्रकार कुछ मूल्यों के आसपास क्लस्टर का मतलब है, और मैं उन्हें असतत के रूप में मान रहा हूं। अनुकरण जटिल है, और मेरे पास नहीं है। यह सोचने का कारण है कि डेटा एक प्रसिद्ध वितरण का अनुसरण करता है।)

सलाह?


मैंने सिर्फ डॉ। जी की टिप्पणी पर ध्यान दिया है जो बताता है कि केसबूट वह है जिसकी मुझे आवश्यकता है, लेकिन मुझे अभी भी आश्चर्य है कि क्या dgof :: ks.test का सिमुलेशन विकल्प काम करेगा, और "अभिसारी" का क्या अर्थ है।
मंगल

जवाबों:


16

यह @jbrucks एक्सटेंशन का उत्तर है (लेकिन साथ ही मूल का उत्तर देता है)।

एक सामान्य परीक्षण कि क्या 2 नमूने एक ही जनसंख्या / वितरण से आते हैं या यदि कोई अंतर है तो क्रमपरिवर्तन परीक्षण है। रुचि का एक आँकड़ा चुनें, यह KS परीक्षण आँकड़ा हो सकता है या साधनों का अंतर या मध्यिका या भिन्नता का अनुपात या ... (जो भी आपके प्रश्न के लिए सबसे अधिक सार्थक है, आप संभावित परिस्थितियों में सिमुलेशन देख सकते हैं। कौन सा आँकड़ा आपको सर्वोत्तम परिणाम देता है) और उस प्रतिमा को मूल 2 नमूनों पर गणना करें। फिर आप समूहों के बीच टिप्पणियों को यादृच्छिक रूप से अनुमति देते हैं (सभी डेटा बिंदुओं को एक बड़े पूल में समूहित करते हैं, फिर उन्हें यादृच्छिक रूप से 2 समूहों में मूल नमूनों के समान आकार में विभाजित करते हैं) और अनुमत नमूनों पर ब्याज की सांख्यिकीय गणना करते हैं। इसे बार-बार दोहराएं, नमूना आँकड़ों का वितरण आपके अशक्त वितरण को बनाता है और आप परीक्षण को बनाने के लिए इस वितरण के मूल आंकड़ों की तुलना करते हैं। ध्यान दें कि शून्य परिकल्पना यह है कि वितरण समान हैं, न कि केवल साधन / मंझला / आदि। बराबर हैं।

यदि आप यह नहीं मानना ​​चाहते हैं कि वितरण समान हैं, लेकिन साधनों / मध्यस्थों / आदि में अंतर के लिए परीक्षण करना चाहते हैं। तब आप बूटस्ट्रैप कर सकते थे।

यदि आप जानते हैं कि डेटा किस वितरण से आता है (या कम से कम एक वितरण मानने के लिए तैयार हैं) तो आप मापदंडों की समानता पर एक संभावना अनुपात परीक्षण कर सकते हैं (मॉडल से दोनों समूहों में मापदंडों के एकल सेट के साथ मॉडल की तुलना करें) मापदंडों के अलग सेट के साथ)। संभावना अनुपात परीक्षण आमतौर पर एक ची-वर्गीय वितरण का उपयोग करता है जो कई मामलों में ठीक होता है (asymtotics), लेकिन यदि आप छोटे नमूना आकारों का उपयोग कर रहे हैं या इसकी सीमा के पास एक पैरामीटर का परीक्षण कर रहे हैं (उदाहरण के लिए एक विचरण 0) तो सन्निकटन नहीं हो सकता है अच्छा, आप फिर से एक बेहतर अशक्त वितरण प्राप्त करने के लिए क्रमपरिवर्तन परीक्षण का उपयोग कर सकते हैं।

ये सभी परीक्षण निरंतर या असतत वितरण पर काम करते हैं। आपको अनिश्चितता की मात्रा को इंगित करने के लिए शक्ति के कुछ माप या एक आत्मविश्वास अंतराल को भी शामिल करना चाहिए, महत्व की कमी कम शक्ति के कारण हो सकती है या सांख्यिकीय रूप से महत्वपूर्ण अंतर अभी भी व्यावहारिक रूप से निरर्थक हो सकता है।


ग्रेग, धन्यवाद। यह jbruck के प्रश्न का एक बहुत ही उपयोगी सामान्य उत्तर है, और यह मेरे लिए भी उपयोगी है। (मेरे प्रश्न अधिक विशिष्ट थे। शायद उत्तर देने की अपेक्षा बहुत कम है।)
मंगल

1
@ दोस्तों, मुझे लगता है कि मेरा उत्तर अप्रत्यक्ष रूप से आपके कम से कम भागों में उत्तर देता है। नियमित केएस परीक्षण कोई संबंध नहीं मानता है और अशक्त परिकल्पना के तहत परीक्षण सांख्यिकीय के लिए एक सैद्धांतिक मॉडल का उपयोग करता है। संबंधों के साथ सैद्धांतिक मॉडल सटीक नहीं है, लेकिन आप इसके बजाय सिमुलेशन का उपयोग कर सकते हैं (क्रमपरिवर्तन परीक्षण, शून्य डिस्टर्ब से अनुकरण, आदि) अशक्त वितरण की गणना करने के लिए और इसलिए एक पी-मूल्य प्राप्त करें, आदि। मुझे लगता है कि यही अनुकरण है आपके द्वारा किया गया तर्क।
ग्रेग स्नो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.