कोई भी Kolmogorov-Smirnov 2 या अधिक आयामों के परीक्षण का सामान्यीकरण क्यों नहीं कर सकता है?


10

सवाल यह सब कहता है। मैंने दोनों को पढ़ा है कि केएस को दो या उससे अधिक के आयाम के बराबर सामान्य नहीं किया जा सकता है , और न्यूमेरिकल व्यंजनों में उस तरह के प्रसिद्ध कार्यान्वयन बस गलत हैं। क्या आप बता सकते हैं कि ऐसा क्यों है?


मैंने कागज के उद्धृत (मेरे उत्तर में) अनुभाग के आधार पर कुछ टैग (बायवेरिएट, अनुभवजन्य और सीएफडी) जोड़े।
Glen_b -Reinstate मोनिका

पीडोफ्रेक्टीरा - मैंने अपने उत्तर में काफी बदलाव किया है (मेरा मूल गलत था; उस बारे में खेद है)। मैं संभवतः अधिक संपादन करूंगा क्योंकि मैं कई बहुभिन्नरूपी केएस परीक्षणों के संदर्भ में वापस आने का इरादा रखता हूं।
Glen_b -Reinstate मोनिका

@Glen_b अपने सभी समय और प्रयास के लिए बहुत बहुत धन्यवाद!
पीडोफ्रेगिरा

जवाबों:


13

मेरा मानना ​​है कि विचाराधीन अनुच्छेद के संबंधित भाग को उद्धृत करना वैध है:

3. केएस परीक्षण दो या अधिक आयामों में लागू नहीं किया जा सकता है। खगोलविदों के पास अक्सर एक रेखा के बजाय एक विमान या उच्च आयामों में वितरित बिंदुओं के साथ डेटासेट होते हैं। खगोलीय साहित्य के कई पहलुओं में दो-आयामी केएस परीक्षण प्रस्तुत करने के लिए, और एक को प्रसिद्ध मात्रा न्यूमेरिकल व्यंजनों में पुन: पेश किया जाता है। हालांकि, कोई भी EDF- आधारित परीक्षण (इसमें KS, AD और संबंधित परीक्षण शामिल नहीं हैं) को दो या उच्चतर आयामों में लागू किया जा सकता है, क्योंकि अंकों को आदेश देने का कोई अनूठा तरीका नहीं है ताकि अच्छी तरह से परिभाषित EDF के बीच की दूरी की गणना की जा सके। कोई कुछ आदेश देने की प्रक्रिया के आधार पर एक आँकड़ा का निर्माण कर सकता है, और फिर दो डेटासेट (या एक डेटासेट और एक वक्र) के बीच की सर्वोच्च दूरी की गणना कर सकता है। लेकिन परिणामस्वरूप सांख्यिकीय के महत्वपूर्ण मूल्य वितरण-मुक्त नहीं हैं।

जैसा कि कहा गया है, यह बहुत मजबूत है।

1) वितरण समारोह, जो है, जो एक मानचित्र है से । है यही कारण है, समारोह लेता univariate संभावनाओं जा रहा है - - 0 और 1. उन मूल्यों के बीच वास्तविक मूल्यों निश्चित रूप से कर रहे हैं पहले से ही "का आदेश दिया" - और इस (फंक्शन का मान) बात हम ECDF आधारित परीक्षण के लिए पर तुलना करने की जरूरत है । इसी तरह, bdfariate मामले में ecdf, को अच्छी तरह से परिभाषित किया गया है।F(x1,x2)=P(X1x1,X2x2)R2[0,1]F^

मुझे नहीं लगता कि पाठ के सुझाव के अनुसार एक संयुक्त संयुक्त चर के कुछ फ़ंक्शन में इसे बदलने की कोशिश करने की आवश्यकता है। आप बस हर आवश्यक संयोजन में और गणना करते हैं और अंतर की गणना करते हैं।FF^

2) हालांकि, इस सवाल पर कि क्या यह वितरण-मुक्त है, उनके पास एक बिंदु है:

a) स्पष्ट रूप से इस तरह के एक टेस्ट स्टैटिस्टिक्स को मार्जिन के परिवर्तनों में परिवर्तन से बदल नहीं दिया जाएगा, जो यह कहना है, यदि स्वतंत्र वर्दी, परीक्षण के रूप में निर्मित किया जाता है , तो यह समान रूप से काम करता है साथ ही स्वतंत्र का परीक्षण जहां । इस अर्थ में, यह वितरण-मुक्त है (हम 'मार्जिन-फ्री' कह सकते हैं)।U=(U1,U2)(X1,X2)Ui=Fi(Xi)

ख) हालांकि, व्यापक अर्थों में एक अंतर्निहित बिंदु अधिक आम तौर पर है कि केएस स्टेटिस्टिक का एक भोला संस्करण (जैसे कि मैंने अभी वर्णित किया है) अधिक आम तौर पर वितरण मुक्त नहीं है; हम बस मनमाने ढंग से रूपांतरित नहीं कर सकते ।UX=g(U)

मेरे उत्तर के पहले संस्करण में मैंने कहा:

कोई कठिनाई नहीं है, कोई समस्या नहीं है

यह गलत है। वास्तव में ऐसे मुद्दे हैं, यदि केवल स्वतंत्र उल्लेख के अनुसार, द्विभाजित स्वतंत्र वर्दी से हाशिये का परिवर्तन नहीं है। हालाँकि, उन कठिनाइयों को कई मायनों में माना गया है, जो कोलमोगोरोव-स्मिर्नोव आँकड़ों के द्विभाजित / बहुभिन्नरूपी संस्करणों का उत्पादन करती हैं जो उस समस्या से ग्रस्त नहीं हैं।

मैं वापस आ सकता हूं और उन संदर्भों में से कुछ को जोड़ सकता हूं और समय की अनुमति मिलते ही वे कैसे काम करते हैं, इसकी चर्चा।


यह उत्तर स्पष्ट रूप से सही है, लेकिन सावधान रहें: केएस परीक्षण का उपयोग किया जा सकता है, इसका मतलब यह नहीं होना चाहिए। आमतौर पर वहाँ बेहतर परीक्षण (अधिक शक्तिशाली) वाले हैं।
kjetil b halvorsen

निश्चित रूप से - हालांकि यह इस बात पर निर्भर करता है कि विकल्प क्या ब्याज के हैं।
Glen_b -Reinstate मोनिका

1
मैं इस उत्तर को पूरी तरह से नहीं समझता। मैं कई खगोलीय डेटासेट (साथ ही कई अन्य छोटे आयामी डेटासेट) की कल्पना करता हूं जो आंतरिक रूप से सार्थक समन्वय प्रणालियों के साथ नहीं आते हैं। इस प्रकार आपका दावा है कि अंक "पहले से ही आदेश दिए गए हैं" ऐसी परिस्थितियों में अमान्य होंगे। इसे बचाया जा सकता है यदि आप यह दिखाने में सक्षम थे कि केएस आँकड़ा स्थानों की पहचान करने के लिए उपयोग किए जाने वाले निर्देशांक से स्वतंत्र है । मुझे नहीं लगता कि यह दो या दो से अधिक आयामों में सच है, लेकिन मुझसे गलती हो सकती है।
whuber

1
@ मैंने आपकी त्रुटि के प्रति आपकी बहुत ही प्रतिक्रिया के आलोक में पर्याप्त परिवर्तन किए हैं। मैं संभावित रूप से और परिवर्तन करूंगा क्योंकि मैं उत्तर बनाने की उम्मीद में संदर्भ और अधिक विवरण जोड़ता हूं जो लंबी अवधि में अधिक उपयोगी होगा।
Glen_b -Reinstate मोनिका

(+1) बहुत बहुत धन्यवाद, ग्लेन, इस उत्तर को व्यापक बनाने और इसे अधिक सूक्ष्म बनाने के लिए। हालाँकि, मुझे ओपी के संदिग्ध गुण का संदर्भ मिलता है (शुरुआत में यह परिकल्पना परीक्षणों का गलत अर्थ निकालता है), यह अंत में स्वीकार करता है कि "बूटस्ट्रैप बचाव में आ सकता है, और विशेष रूप से बहुआयामी आंकड़े के लिए महत्व स्तर और अध्ययन के तहत विशेष डेटासेट हो सकते हैं। संख्यात्मक रूप से गणना की गई। ” यह कम से कम भावना में गठबंधन किया हुआ लगता है कि आपका उत्तर कैसे आकार दे रहा है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.