कोलमोगोरोव-स्मिर्नोव परीक्षण क्यों काम करता है?


25

2-नमूना केएस परीक्षण के बारे में पढ़ने में, मुझे ठीक-ठीक समझ में आ रहा है कि यह क्या कर रहा है, लेकिन मुझे समझ नहीं आ रहा है कि यह क्यों काम करता है

दूसरे शब्दों में, मैं अनुभवजन्य वितरण कार्यों की गणना करने के लिए सभी चरणों का पालन कर सकता हूं, डी-स्टेटिस्टिक खोजने के लिए दोनों के बीच अधिकतम अंतर पा सकता हूं, महत्वपूर्ण मानों की गणना कर सकता हूं, डी-स्टेटिस्टिक को पी-मूल्य में बदल सकता हूं आदि।

लेकिन, मुझे नहीं पता कि इनमें से कोई भी वास्तव में मुझे दो वितरणों के बारे में कुछ क्यों बताता है।

कोई व्यक्ति आसानी से मुझे बता सकता है कि मुझे एक गधे पर कूदने की ज़रूरत है और गिनें कि यह कितनी तेजी से भागता है और यदि वेग 2 किमी / घंटा से कम है तो मैं अशक्त-परिकल्पना को अस्वीकार करता हूं। निश्चित रूप से मैं वही कर सकता हूं जो आपने मुझे करने के लिए कहा था, लेकिन इसमें से किसी का भी अशक्त-परिकल्पना से क्या लेना-देना है?

2-नमूना केएस परीक्षण क्यों काम करता है? ECDFs के बीच अधिकतम अंतर की गणना करने से क्या फर्क पड़ता है कि दोनों वितरण अलग-अलग हैं?

किसी भी मदद की सराहना की है। मैं एक सांख्यिकीविद् नहीं हूं, इसलिए मान लें कि यदि संभव हो तो मैं एक बेवकूफ हूं।


4
सीवी, डार्सी में आपका स्वागत है! बड़ा अच्छा सवाल!
एलेक्सिस

1
एक गधे पर कूदो ... :)
रिचर्ड हार्डी

जवाबों:


9

असल में, परीक्षण Glivenko Cantelli प्रमेय के प्रत्यक्ष परिणाम के रूप में सुसंगत है, जो अनुभवजन्य प्रक्रियाओं और शायद आंकड़ों के सबसे महत्वपूर्ण परिणामों में से एक है।

जीसी हमें बताता है कि कोलमोगोरोव स्मिरनोव परीक्षण सांख्यिकीय शून्य परिकल्पना के तहत 0 n के रूप में जाता है। यह तब तक सहज लग सकता है जब तक आप वास्तविक विश्लेषण और सिद्धांत की सीमा से जूझते हैं। यह एक रहस्योद्घाटन है क्योंकि प्रक्रिया को यादृच्छिक प्रक्रियाओं की एक अनन्त रूप से अनंत संख्या के रूप में सोचा जा सकता है, इसलिए कानून या संभाव्यता यह मानने के लिए प्रेरित करेगी कि हमेशा एक बिंदु होता है जो किसी भी एप्सिलॉन सीमा से अधिक हो सकता है लेकिन नहीं, सर्वोच्च में परिवर्तित हो जाएगा लम्बे समय में।

कितना लंबा? मीमाइया मैं नहीं जानता। परीक्षण की शक्ति संदिग्ध है। मैं इसे हकीकत में कभी इस्तेमाल नहीं करूँगा।

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf


2
+1 हाय एडमो! सत्ता पर एक से दो वाक्य "संदिग्ध की तरह?" मैं उस परिप्रेक्ष्य को पसंद करूंगा (मैं इकट्ठा हुआ हूं कि परीक्षण आसानी से "प्रबल" माना जाता है)।
एलेक्सिस

1
@Alexis परीक्षण जबर्दस्ती नहीं है, IRL हम लगभग उम्मीद कभी नहीं अशक्त सच होना है, बल्कि हम सिर्फ परवाह नहीं है कि क्या के बीच 0.1 से अलग है प्रतिशतक 99.999 वां और एफ 2 ।, इसलिए जब भी मैं देख रहा हूँ पी > 0.05 एस परीक्षण से, सभी मुझे लगता है कि है, "एक झूठी नकारात्मक है कि" और जब भी मैं देख रहा हूँ पी < 0.05 मुझे लगता है कि "ललकार-डी-करते तो क्या आप के बारे में कह सकते हैं कि ?"। मजबूत शून्य परिकल्पना एफ 1 = एफ 2 के परीक्षण वैज्ञानिक साक्ष्य प्रस्तुत करने का सम्मोहक तरीका नहीं हैं। F1F2p>0.05p<0.05F1=F2
एडमो

1
ठीक है। मैं अंतर के लिए परिकल्पना परीक्षणों के साथ येर चिंता प्राप्त करता हूं। लेकिन क्या सत्ता के बारे में आपकी चिंता साधारण वैज्ञानिक धारणा से उत्पन्न होती है कि लगभग निश्चित रूप से concern F 2 है ? या वहाँ asymptotics या वहाँ कुछ और के बारे में और अधिक मैथी है? F1F2
एलेक्सिस

2
@ एलेक्सिस नो, मुझे परीक्षण के गणित से कोई सरोकार नहीं है। वास्तव में, मुझे लगता है कि यह काफी सुरुचिपूर्ण है और सीमा प्रमेय परिणाम बहुत प्रभावशाली है।
एडमो

2
@Alexis मैं कहेंगे, सेटिंग्स जहां यह में है संभव के लिए बिल्कुल के बराबर होना एफ 2 , परीक्षण सुंदर काम हो सकता है। मैं मानता हूं कि बहुत सारे वैज्ञानिक अनुप्रयोग उस बिल में फिट नहीं होते हैं, लेकिन एक सांख्यिकीय कंप्यूटिंग संदर्भ में, जहां आप यह सत्यापित करना चाहते हैं कि आपके द्वारा लिखा गया कुछ सॉफ्टवेयर कुछ ज्ञात वितरण से छद्म यादृच्छिक संख्या उत्पन्न कर रहा है, यह काफी उपयोगी है। यह प्रभावी रूप से उस अंतर्ज्ञान को संहिताबद्ध करता है, जिसे आप प्रायिकता के प्लॉट से देखते हैं। F1F2
जेसीजी

9

हम दो स्वतंत्र, univariate नमूने:

X1,X2,...,XNiidFY1,Y2,...,YMiidG,
जहांGऔरFनिरंतर संचयी बंटन कार्य हैं। Kolmogorov-Smirnov परीक्षणH0का परीक्षण कर रहा है
H0:F(x)=G(x)for all xRH1:F(x)G(x)for some xR.
यदि शून्य परिकल्पना सत्य है, तो{Xi}i=1N और{Yj}j=1M समान वितरण से नमूने हैं। सभी कोXiऔरYjलिए अलग-अलग डिस्ट्रीब्यूशन से ड्रॉ होता है,FऔरGलिए किसी भी राशि से कम से कम एकxवैल्यू मेंअंतरकरना होता है। तो केएस परीक्षणFऔरजीका आकलन कर रहा हैGप्रत्येक नमूने के अनुभवजन्य CDFS, दोनों के बीच सबसे बड़ा अंतर pointwise पर पकड़ भी है, और अगर है कि अंतर "बड़ा पर्याप्त" समाप्त करने के लिए है पूछ के साथ कि F(x)G(x) कुछ पर xR


8

एक सहज ज्ञान युक्त लेना:

कोलमोगोरोव-स्मिरनोव परीक्षण वितरण द्वारा टिप्पणियों के आदेश पर बहुत मौलिक रूप से निर्भर करता है। तर्क यह है कि यदि दो अंतर्निहित वितरण समान हैं, तो - नमूना आकारों पर निर्भर करते हैं - आदेश को दोनों के बीच बहुत अच्छी तरह से फेरबदल किया जाना चाहिए।

YXD

DXY

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.