कोलमोगोरोव-स्मिरनोव परीक्षण (अजगर) के पी-मूल्य की व्याख्या कैसे करें?


30

मेरे पास दो नमूने हैं जिन्हें मैं परीक्षण करना चाहता हूं (अजगर का उपयोग करके) यदि वे समान वितरण से तैयार किए गए हैं। ऐसा करने के लिए मैं scipy.stats से सांख्यिकीय फ़ंक्शन ks_2samp का उपयोग करता हूं। यह 2 मान लौटाता है और मुझे मुश्किलें आती हैं कि उनकी व्याख्या कैसे करें। कृपया मदद करें!

जवाबों:


23

जैसा कि Stijn ने बताया है कि, ks टेस्ट डी स्टेटिस्टिक और डी स्टेटिस्टिक के अनुरूप पी-वैल्यू देता है। डी स्टेटिस्टिक दो नमूनों के सीडीएफ के बीच पूर्ण अधिकतम दूरी (सुपरमम) है। यह संख्या करीब 0 है अधिक संभावना यह है कि दो नमूने एक ही वितरण से तैयार किए गए थे। Ks परीक्षण के लिए विकिपीडिया पृष्ठ देखें। यह एक अच्छी व्याख्या प्रदान करता है: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Ks परीक्षण द्वारा लौटाया गया पी-मान अन्य पी-मानों के समान ही है। आप शून्य परिकल्पना को अस्वीकार करते हैं कि दो नमूने समान वितरण से तैयार किए गए थे यदि पी-मान आपके महत्व स्तर से कम है। यदि आप प्रक्रिया में रुचि रखते हैं, तो आप डी आंकड़े के पी-मूल्य में रूपांतरण के लिए ऑनलाइन टेबल पा सकते हैं।


आपके उत्तर के लिए धन्यवाद। वास्तव में, मैं 2 मूल्यों डी और पी-मूल्य का अर्थ जानता हूं, लेकिन मैं उनके बीच संबंध नहीं देख सकता। मैं महत्व स्तर को कैसे परिभाषित कर सकता हूं? क्या आप मुझे D स्टैटिस्टिकम के पी-वैल्यू में रूपांतरण के लिए लिंक दे सकते हैं?
मारी

ज़रूर, डी स्टेट को पी-वैल्यू में बदलने के लिए टेबल: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading

@CrossValidatedTrading: डी-स्टेट-टू-पी-वैल्यू टेबल के लिए आपका लिंक अब 404 है।
james.garriss

@CrossValidatedTrading 2-पक्षीय KS परीक्षण से p-मान और D-मान के बीच कोई संबंध होना चाहिए? कुछ उदाहरणों में, मैंने आनुपातिक संबंध देखा है, जहां पी-मूल्य के साथ डी-स्टेटिस्टिक बढ़ता है। ऐसा लगता है कि यह विपरीत होगा: कि दो घटता अधिक अंतर (बड़ा डी-स्टेटिस्टिक) के साथ, अधिक महत्वपूर्ण रूप से भिन्न (कम पी-मूल्य) होगा ...
थॉमस मैथ्यू

यदि p मान 0.05 है, तो आपके दो नमूने समान और संतुलित होने चाहिए।
user798719

5

Ks_2samp के लिए Google खोज करते समय, पहली हिट इस वेबसाइट की है। उस पर, आप फ़ंक्शन विनिर्देश देख सकते हैं:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

ए और बी पैरामीटर मेरे डेटा के अनुक्रम हैं या मुझे ks_2samp का उपयोग करने के लिए सीडीएफ की गणना करनी चाहिए?
मारी

@meri: मेरे द्वारा लिंक किए गए पृष्ठ पर एक उदाहरण है।
टिजिन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.