एकरूपता के लिए परीक्षण कुछ सामान्य है, हालांकि मुझे आश्चर्य है कि अंकों के बहुआयामी बादल के लिए इसे करने के तरीके क्या हैं।
एकरूपता के लिए परीक्षण कुछ सामान्य है, हालांकि मुझे आश्चर्य है कि अंकों के बहुआयामी बादल के लिए इसे करने के तरीके क्या हैं।
जवाबों:
मानक विधि रिप्ले के K फ़ंक्शन या उससे प्राप्त किसी चीज़ जैसे L फ़ंक्शन का उपयोग करती है। यह एक ऐसा प्लॉट है जो अंकों के पड़ोसियों की औसत संख्या को अधिकतम दूरी ( ) के फंक्शन के रूप में बताता है । आयामों में एक समान वितरण के लिए , उस औसत को तरह व्यवहार करना चाहिए : और यह हमेशा छोटे लिए होगा । यह क्लस्टरिंग के कारण इस तरह के व्यवहार से बाहर निकलता है, स्थानिक स्वतंत्रता के अन्य रूपों, और बढ़त प्रभाव (यह अंक द्वारा निर्दिष्ट क्षेत्र को निर्दिष्ट करने के लिए महत्वपूर्ण है)। इस जटिलता के कारण - जो रूप में खराब हो जाता हैn ρ n ρ एनवृद्धि - अधिकांश अनुप्रयोगों में एक आत्मविश्वास बैंड सिमुलेशन के माध्यम से नल K फ़ंक्शन के लिए बनाया गया है और भ्रमण का पता लगाने के लिए मनाया गया K फ़ंक्शन ओवरप्लेट किया गया है। कुछ विचार और अनुभव के साथ, यात्रा को कुछ दूरी पर क्लस्टर करने या न करने की प्रवृत्ति के संदर्भ में व्याख्या की जा सकती है।
एक K फ़ंक्शन के उदाहरण और डिक्सन (2001), ibid से संबंधित एल-फ़ंक्शन। L फ़ंक्शन का निर्माण इसलिए किया जाता है ताकि समान वितरण के लिए शून्य पर क्षैतिज रेखा हो: एक अच्छा दृश्य संदर्भ। सिमुलेशन के माध्यम से गणना की गई इस विशेष अध्ययन क्षेत्र के लिए धराशायी लाइनें विश्वास बैंड हैं। डेटा के लिए ठोस ग्रे ट्रेस L फ़ंक्शन है। 0-20 मीटर की दूरी पर सकारात्मक भ्रमण इन दूरियों पर कुछ संकेत देता है।
मैंने /stats//a/7984 पर संबंधित प्रश्न के जवाब में एक काम किया उदाहरण पोस्ट किया है , जहां एक गणित के वितरण के लिए K- फ़ंक्शन से व्युत्पन्न दो-आयामी मैनिफ़ोल्ड पर एक समान वितरण के लिए सिमुलेशन द्वारा अनुमानित है।
में R
, spatstat कार्यों kest
और k3est
गणना के लिए K-समारोह और , क्रमशः। 3 से अधिक आयामों में आप शायद अपने दम पर हैं, लेकिन एल्गोरिदम बिल्कुल समान होंगे। आप एक दूरी मैट्रिक्स से गणना कम्प्यूटेशनल (मध्यम दक्षता के साथ) के रूप में कर सकते हैं ।एन = 3stats::dist
यह पता चला है कि सवाल जितना मैंने सोचा था उससे अधिक कठिन है। फिर भी, मैंने अपना होमवर्क किया और चारों ओर देखने के बाद, मुझे कई आयामों में एकरूपता का परीक्षण करने के लिए रिप्ले के कार्यों के अलावा दो तरीके मिले।
मैंने एक R पैकेज बनाया, unf
जिसमें दोनों परीक्षणों को लागू किया गया। आप इसे github से https://github.com/gui11aume/unf पर डाउनलोड कर सकते हैं । इसका एक बड़ा हिस्सा C में है, इसलिए आपको इसे अपनी मशीन पर संकलित करना होगा R CMD INSTALL unf
। जिन लेखों पर कार्यान्वयन आधारित है, वे पैकेज में पीडीएफ प्रारूप में हैं।
library(unf)
set.seed(123)
# Put 20 points uniformally in the 5D hypercube.
x <- matrix(runif(100), ncol=20)
liang(x) # Outputs the p-value of the test.
[1] 0.9470392
दूसरा दृष्टिकोण कम पारंपरिक है और न्यूनतम फैले पेड़ों का उपयोग करता है । 1979 में फ्राइडमैन एंड राफ्स्की द्वारा प्रारंभिक कार्य (पैकेज में संदर्भ) का परीक्षण किया गया था कि क्या दो बहुभिन्नरूपी नमूने एक ही वितरण से आते हैं। नीचे दी गई छवि सिद्धांत को दर्शाती है।
दो द्विभाजित नमूनों के अंक को उनके मूल नमूने (बाएं पैनल) के आधार पर लाल या नीले रंग में प्लॉट किया जाता है। दो आयामों में जमा किए गए नमूने का न्यूनतम फैले हुए पेड़ की गणना (मध्य पैनल) की जाती है। यह न्यूनतम लंबाई के किनारे वाला पेड़ है। पेड़ को उप-पेड़ों में विघटित किया जाता है जहां सभी बिंदुओं पर समान लेबल (दाएं पैनल) होता है।
नीचे दिए गए आंकड़े में, मैं एक मामला दिखाता हूं जहां नीले डॉट्स एकत्रित होते हैं, जो प्रक्रिया के अंत में पेड़ों की संख्या कम कर देता है, जैसा कि आप दाहिने पैनल पर देख सकते हैं। फ्रीडमैन और रफस्की ने प्रक्रिया में प्राप्त होने वाले पेड़ों की संख्या के विषम वितरण की गणना की है, जो एक परीक्षण करने की अनुमति देता है।
मल्टीवेरेट नमूने की एकरूपता के लिए एक सामान्य परीक्षण बनाने का यह विचार 1984 में स्मिथ और जैन द्वारा विकसित किया गया है , और बेन पफैफ द्वारा सी (पैकेज में संदर्भ) में लागू किया गया है। दूसरा नमूना पहले नमूने के अनुमानित उत्तल पतले में समान रूप से उत्पन्न होता है और दो-नमूना पूल पर फ्रीडमैन और राफ्स्की का परीक्षण किया जाता है।
विधि का लाभ यह है कि यह हर उत्तल बहुभिन्नरूपी आकृति पर एकरूपता का परीक्षण करता है न कि केवल हाइपरक्यूब पर। मजबूत नुकसान, यह है कि परीक्षण में एक यादृच्छिक घटक होता है क्योंकि दूसरा नमूना यादृच्छिक पर उत्पन्न होता है। बेशक, कोई भी परीक्षण दोहरा सकता है और परिणाम एक प्रतिलिपि प्रस्तुत करने योग्य उत्तर प्राप्त करने के लिए औसत कर सकता है, लेकिन यह आसान नहीं है।
पिछले R सत्र को जारी रखते हुए, यहां बताया गया है कि यह कैसे जाता है।
pfaff(x) # Outputs the p-value of the test.
pfaff(x) # Most likely another p-value.
जीथब से कोड को कॉपी / कांटा करने के लिए स्वतंत्र महसूस करें।