शुरुआती प्रश्न:
मैं परीक्षण करना चाहता हूं कि क्या दो असतत डेटा सेट एक ही वितरण से आते हैं। मुझे एक कोलमोगोरोव-स्मिरनोव परीक्षण का सुझाव दिया गया था।
कॉनोवर ( प्रैक्टिकल नॉनपैरेमेट्रिक स्टैटिस्टिक्स , 3 डी) का कहना है कि कोलमोगोरोव-स्मिर्नोव टेस्ट का उपयोग इस उद्देश्य के लिए किया जा सकता है, लेकिन इसका व्यवहार असतत वितरण के साथ "रूढ़िवादी" है, और मुझे यकीन नहीं है कि इसका क्या मतलब है।
एक अन्य प्रश्न पर डेविड की टिप्पणी कहती है, "... आप अभी भी केएस आँकड़ा के आधार पर एक स्तर α परीक्षण कर सकते हैं, लेकिन आपको महत्वपूर्ण मान प्राप्त करने के लिए कुछ अन्य विधि ढूंढनी होगी, जैसे अनुकरण द्वारा।"
Dgof R पैकेज में ks.test () का संस्करण ( लेख , क्रैन ) कुछ क्षमताओं को जोड़ देता है जो आँकड़े पैकेज में ks.test () के डिफ़ॉल्ट संस्करण में मौजूद नहीं हैं। अन्य बातों के अलावा, dgof :: ks.test में यह पैरामीटर शामिल है:
simulate.p.value: मोंटे कार्लो सिमुलेशन द्वारा पी-मूल्यों की गणना करने के लिए एक तार्किक संकेत है, केवल असतत अच्छाई-से-फिट परीक्षणों के लिए।
क्या DavidR का सुझाव देने के लिए simulate.p.value = T का उद्देश्य है?
यहां तक कि अगर यह है, तो मुझे यकीन नहीं है कि क्या मैं दो-नमूना परीक्षण के लिए dgof :: ks.test का उपयोग कर सकता हूं। ऐसा लगता है कि यह केवल निरंतर वितरण के लिए दो-नमूना परीक्षण प्रदान करता है:
यदि y संख्यात्मक है, तो शून्य परिकल्पना का एक दो-नमूना परीक्षण जो कि x और y एक ही निरंतर वितरण से खींचा गया था, किया जाता है।
वैकल्पिक रूप से, y एक सतत (संचयी) वितरण समारोह (या इस तरह के एक समारोह), या एक ecdf फ़ंक्शन (या कक्षा stepfun की वस्तु) नामकरण एक चरित्र स्ट्रिंग एक असतत वितरण दे सकता है। इन मामलों में, एक-नमूना परीक्षण शून्य से बाहर किया जाता है कि वितरण समारोह जो x उत्पन्न करता है, वितरण y है ...।
(पृष्ठभूमि का विवरण: सख्ती से बोलना, मेरे अंतर्निहित वितरण निरंतर हैं, लेकिन डेटा कुछ मुट्ठी भर बिंदुओं के पास बहुत झूठ बोलते हैं। प्रत्येक बिंदु एक सिमुलेशन का परिणाम है, और -1 के बीच 10 या 20 वास्तविक संख्याओं का मतलब है। 1. सिमुलेशन के अंत तक, वे संख्या लगभग हमेशा .9 या -.9 के करीब होती हैं। इस प्रकार कुछ मूल्यों के आसपास क्लस्टर का मतलब है, और मैं उन्हें असतत के रूप में मान रहा हूं। अनुकरण जटिल है, और मेरे पास नहीं है। यह सोचने का कारण है कि डेटा एक प्रसिद्ध वितरण का अनुसरण करता है।)
सलाह?