कई आयामों में एकरूपता का परीक्षण कैसे करें?


13

एकरूपता के लिए परीक्षण कुछ सामान्य है, हालांकि मुझे आश्चर्य है कि अंकों के बहुआयामी बादल के लिए इसे करने के तरीके क्या हैं।


दिलचस्प सवाल। क्या आप स्वतंत्र प्रविष्टियों पर विचार कर रहे हैं?

1
@Procrastinator मैं अभी इस बिंदु के बारे में सोच रहा हूं। यह पता लगाने की कोशिश की जा रही है कि क्या स्वतंत्रता के बिना एकरूपता संभव है। किसी भी संकेत का स्वागत है।
गुई ११

4
हां, स्वतंत्रता के बिना एकरूपता संभव है। उदाहरण के लिए, यूनिट क्यूब से नमूना epsilon- क्यूब्स की एक समान ग्रिड का निर्माण करके को कवर करता है और क्यूब पर एक समान वितरण के अनुसार इसके मूल को ऑफसेट करता है । यूनिट क्यूब के भीतर गिरने वाले उन epsilon- क्यूब्स के केंद्रों को फिर से बनाएं। यदि आप चाहें, तो उनसे बेतरतीब ढंग से सदस्यता लें। सभी बिंदुओं के चयनित होने की समान संभावना है: वितरण एक समान है। परिणाम भी एक जैसा दिखता है, लेकिन चूंकि कोई भी दो बिंदु एक दूसरे के दूरी के भीतर हो सकते हैं , जाहिर है कि अंक स्वतंत्र नहीं हैं। ϵ R n ϵ ϵ ϵnϵRnϵϵϵ
whuber

जवाबों:


14

मानक विधि रिप्ले के K फ़ंक्शन या उससे प्राप्त किसी चीज़ जैसे L फ़ंक्शन का उपयोग करती है। यह एक ऐसा प्लॉट है जो अंकों के पड़ोसियों की औसत संख्या को अधिकतम दूरी ( ) के फंक्शन के रूप में बताता है । आयामों में एक समान वितरण के लिए , उस औसत को तरह व्यवहार करना चाहिए : और यह हमेशा छोटे लिए होगा । यह क्लस्टरिंग के कारण इस तरह के व्यवहार से बाहर निकलता है, स्थानिक स्वतंत्रता के अन्य रूपों, और बढ़त प्रभाव (यह अंक द्वारा निर्दिष्ट क्षेत्र को निर्दिष्ट करने के लिए महत्वपूर्ण है)। इस जटिलता के कारण - जो रूप में खराब हो जाता हैn ρ n ρ एनρnρnρnवृद्धि - अधिकांश अनुप्रयोगों में एक आत्मविश्वास बैंड सिमुलेशन के माध्यम से नल K फ़ंक्शन के लिए बनाया गया है और भ्रमण का पता लगाने के लिए मनाया गया K फ़ंक्शन ओवरप्लेट किया गया है। कुछ विचार और अनुभव के साथ, यात्रा को कुछ दूरी पर क्लस्टर करने या न करने की प्रवृत्ति के संदर्भ में व्याख्या की जा सकती है।

आकृति 1

एक K फ़ंक्शन के उदाहरण और डिक्सन (2001), ibid से संबंधित एल-फ़ंक्शन। L फ़ंक्शन का निर्माण इसलिए किया जाता है ताकि समान वितरण के लिए शून्य पर क्षैतिज रेखा हो: एक अच्छा दृश्य संदर्भ। सिमुलेशन के माध्यम से गणना की गई इस विशेष अध्ययन क्षेत्र के लिए धराशायी लाइनें विश्वास बैंड हैं। डेटा के लिए ठोस ग्रे ट्रेस L फ़ंक्शन है। 0-20 मीटर की दूरी पर सकारात्मक भ्रमण इन दूरियों पर कुछ संकेत देता है।L(ρ)ρ

मैंने /stats//a/7984 पर संबंधित प्रश्न के जवाब में एक काम किया उदाहरण पोस्ट किया है , जहां एक गणित के वितरण के लिए K- फ़ंक्शन से व्युत्पन्न दो-आयामी मैनिफ़ोल्ड पर एक समान वितरण के लिए सिमुलेशन द्वारा अनुमानित है।R3

में R, spatstat कार्यों kestऔर k3estगणना के लिए K-समारोह और , क्रमशः। 3 से अधिक आयामों में आप शायद अपने दम पर हैं, लेकिन एल्गोरिदम बिल्कुल समान होंगे। आप एक दूरी मैट्रिक्स से गणना कम्प्यूटेशनल (मध्यम दक्षता के साथ) के रूप में कर सकते हैं ।एन = 3n=2n=3stats::dist


क्या आपने कभी ब्राउनियन पुल और उन भूखंडों के बीच संबंध का पता लगाया है जिन्हें आप लिंक से जवाब देते हैं?
गुई 11 अउम

13

यह पता चला है कि सवाल जितना मैंने सोचा था उससे अधिक कठिन है। फिर भी, मैंने अपना होमवर्क किया और चारों ओर देखने के बाद, मुझे कई आयामों में एकरूपता का परीक्षण करने के लिए रिप्ले के कार्यों के अलावा दो तरीके मिले।

मैंने एक R पैकेज बनाया, unfजिसमें दोनों परीक्षणों को लागू किया गया। आप इसे github से https://github.com/gui11aume/unf पर डाउनलोड कर सकते हैं । इसका एक बड़ा हिस्सा C में है, इसलिए आपको इसे अपनी मशीन पर संकलित करना होगा R CMD INSTALL unf। जिन लेखों पर कार्यान्वयन आधारित है, वे पैकेज में पीडीएफ प्रारूप में हैं।

χ2

library(unf)
set.seed(123)
# Put 20 points uniformally in the 5D hypercube.
x <- matrix(runif(100), ncol=20)
liang(x) # Outputs the p-value of the test.
[1] 0.9470392

दूसरा दृष्टिकोण कम पारंपरिक है और न्यूनतम फैले पेड़ों का उपयोग करता है । 1979 में फ्राइडमैन एंड राफ्स्की द्वारा प्रारंभिक कार्य (पैकेज में संदर्भ) का परीक्षण किया गया था कि क्या दो बहुभिन्नरूपी नमूने एक ही वितरण से आते हैं। नीचे दी गई छवि सिद्धांत को दर्शाती है।

वर्दी

दो द्विभाजित नमूनों के अंक को उनके मूल नमूने (बाएं पैनल) के आधार पर लाल या नीले रंग में प्लॉट किया जाता है। दो आयामों में जमा किए गए नमूने का न्यूनतम फैले हुए पेड़ की गणना (मध्य पैनल) की जाती है। यह न्यूनतम लंबाई के किनारे वाला पेड़ है। पेड़ को उप-पेड़ों में विघटित किया जाता है जहां सभी बिंदुओं पर समान लेबल (दाएं पैनल) होता है।

नीचे दिए गए आंकड़े में, मैं एक मामला दिखाता हूं जहां नीले डॉट्स एकत्रित होते हैं, जो प्रक्रिया के अंत में पेड़ों की संख्या कम कर देता है, जैसा कि आप दाहिने पैनल पर देख सकते हैं। फ्रीडमैन और रफस्की ने प्रक्रिया में प्राप्त होने वाले पेड़ों की संख्या के विषम वितरण की गणना की है, जो एक परीक्षण करने की अनुमति देता है।

गैर एकरूपता

मल्टीवेरेट नमूने की एकरूपता के लिए एक सामान्य परीक्षण बनाने का यह विचार 1984 में स्मिथ और जैन द्वारा विकसित किया गया है , और बेन पफैफ द्वारा सी (पैकेज में संदर्भ) में लागू किया गया है। दूसरा नमूना पहले नमूने के अनुमानित उत्तल पतले में समान रूप से उत्पन्न होता है और दो-नमूना पूल पर फ्रीडमैन और राफ्स्की का परीक्षण किया जाता है।

विधि का लाभ यह है कि यह हर उत्तल बहुभिन्नरूपी आकृति पर एकरूपता का परीक्षण करता है न कि केवल हाइपरक्यूब पर। मजबूत नुकसान, यह है कि परीक्षण में एक यादृच्छिक घटक होता है क्योंकि दूसरा नमूना यादृच्छिक पर उत्पन्न होता है। बेशक, कोई भी परीक्षण दोहरा सकता है और परिणाम एक प्रतिलिपि प्रस्तुत करने योग्य उत्तर प्राप्त करने के लिए औसत कर सकता है, लेकिन यह आसान नहीं है।

पिछले R सत्र को जारी रखते हुए, यहां बताया गया है कि यह कैसे जाता है।

pfaff(x) # Outputs the p-value of the test.
pfaff(x) # Most likely another p-value.

जीथब से कोड को कॉपी / कांटा करने के लिए स्वतंत्र महसूस करें।


1
शानदार अवलोकन, धन्यवाद! भावी पीढ़ियों के लिए, मुझे यह लेख एक उपयोगी "व्यावहारिक" सारांश भी मिला (किसी भी तरह से लेखकों से संबद्ध नहीं)।
MInner

3

(U,Z)UUniform(0,1)Z=U0<p<1W1pWUniform(0,1)U

nnχ2


1
2n

@ जब तक मुझे नहीं लगता कि हमने इस बात पर समझौता कर लिया कि न्यूनतम संख्या में कोशिकाओं की क्या आवश्यकता है और कई आयामों का मतलब यहाँ बड़ा होना जरूरी नहीं है। क्या हम सिर्फ 3 या 4 के साथ काम कर सकते हैं
माइकल आर। चेरिक

5
जब आप इसका दायरा और संभावित प्रयोज्यता बढ़ाते हैं, तो आपका उत्तर सभी पाठकों के लिए अधिक उपयोगी हो जाता है। (सुधार के लिए +1।) (एक वैकल्पिक रणनीति, अच्छा सांख्यिकीय परामर्श की भावना में, टिप्पणियों का उपयोग करने के लिए आयामों की संभावित संख्या और फिर दर्जी है कि करने के लिए अपने जवाब के बारे में ओ पी पूछने के लिए है।)
whuber

"फिर एकरूपता के लिए a \ Chi ^ 2 परीक्षण करते हैं।" - क्या आप उस पर विस्तार कर सकते हैं? विकिपीडिया en.wikipedia.org/wiki/Pearson%27s_chi-squared_test में केवल फिट की अच्छाई का एक ही परीक्षण है, एकरूपता और स्वतंत्रता का।
यारोस्लाव निकितेंको
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.