मैं कोलमोगोरोव-स्मिरनोव परीक्षण फ़ंक्शन (दो नमूने, दो तरफा) के आउटपुट को समझने की कोशिश कर रहा हूं। यहाँ एक सरल परीक्षण है।
x <- c(1,2,2,3,3,3,3,4,5,6)
y <- c(2,3,4,5,5,6,6,6,6,7)
z <- c(12,13,14,15,15,16,16,16,16,17)
ks.test(x,y)
# Two-sample Kolmogorov-Smirnov test
#
#data: x and y
#D = 0.5, p-value = 0.1641
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, y) : cannot compute exact p-value with ties
ks.test(x,z)
#Two-sample Kolmogorov-Smirnov test
#data: x and z
#D = 1, p-value = 9.08e-05
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, z) : cannot compute exact p-value with ties
ks.test(x,x)
#Two-sample Kolmogorov-Smirnov test
#data: x and x
#D = 0, p-value = 1
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, x) : cannot compute exact p-value with ties
यहां कुछ चीजें हैं जो मुझे समझ नहीं आ रही हैं।
से मदद , ऐसा लगता है कि पी-मूल्य परिकल्पना को संदर्भित करता है
var1=var2
। हालाँकि, यहाँ इसका मतलब यह होगा कि परीक्षण कहता है (p<0.05
):ए। ऐसा नहीं कह सकते
X = Y
;ख। कह सकते हैं कि
X = Z
;सी। ऐसा नहीं कह सकते
X = X
()
दिखने के अलावा कि x अपने आप से अलग है (!), यह मेरे लिए भी काफी अजीब है x=z
, क्योंकि दो वितरणों में शून्य ओवरलैपिंग का समर्थन है। वो कैसे संभव है?
परीक्षण की परिभाषा के अनुसार,
D
दो प्रायिकता वितरण के बीच अधिकतम अंतर होना चाहिए, लेकिन उदाहरण के लिए मामले में(x,y)
यह होना चाहिएD = Max|P(x)-P(y)| = 4
(मामले में जबP(x)
,P(y)
सामान्यीकृत नहीं हैं) याD=0.3
(यदि वे सामान्यीकृत हैं)। क्यों डी उससे अलग है?मैंने जानबूझकर कई संबंधों के साथ एक उदाहरण बनाया है , क्योंकि मैं जिस डेटा के साथ काम कर रहा हूं उसमें बहुत सारे समान मूल्य हैं। यह परीक्षण को भ्रमित क्यों करता है? मैंने सोचा कि यह एक संभाव्यता वितरण की गणना करता है जो दोहराया मूल्यों से प्रभावित नहीं होना चाहिए। कोई उपाय?