2 डी वर्ग में अंकों के वितरण की एकरूपता को मापें


11

मेरे पास 2 डी वर्ग है, और मेरे पास इसके अंदर बिंदुओं का एक सेट है, कहते हैं, 1000 अंक। मुझे यह देखने का एक तरीका चाहिए कि क्या वर्ग के अंदर के बिंदुओं का वितरण बाहर फैला हुआ है (या कम या ज्यादा समान रूप से वितरित) या वे वर्ग के अंदर किसी स्थान पर एक साथ इकट्ठा होने की प्रवृत्ति रखते हैं।

इसे निर्धारित करने के लिए मुझे गणितीय / सांख्यिकीय (प्रोग्रामिंग नहीं) तरीका चाहिए। मैंने गुगली की, कुछ अच्छा पाया जैसे फिट, कोलमोगोरोव, आदि, और बस आश्चर्य होता है कि क्या इसे प्राप्त करने के लिए अन्य दृष्टिकोण हैं। कक्षा के पेपर के लिए यह आवश्यक है।

इनपुट्स: एक 2 डी वर्ग, और 1000 अंक। आउटपुट: हां / नहीं (हां = समान रूप से फैला हुआ, नहीं = कुछ स्थानों में एक साथ इकट्ठा होना)।


1
आपने पर्याप्त रूप से स्पष्ट नहीं किया है कि आपके लिए "समान रूप से वितरित" क्या है। क्या आपका मतलब समान रूप से 2 डी वर्दी घन या कुछ और है? उदाहरण के लिए, समान रूप से अंक की श्रृंखला? या अंकों का एक चक्र? एक मायने में, ये आंकड़े समान रूप से फैले हुए हैं।
ttnphns 11

3
@ttnphns इस संदर्भ में, "वर्दी" का एक अच्छी तरह से स्थापित पारंपरिक अर्थ है। यह निरंतर तीव्रता के साथ एक पॉइसन प्रक्रिया से मेल खाती है। यह अक्सर "सीएसआर" के रूप में जाना जाता है पूरी तरह से स्थानिक रूप से यादृच्छिक
whuber

2
@ आप "स्थानिक बिंदु प्रक्रियाओं" पर शोध करना चाहते हैं। अच्छे कीवर्ड में "रिप्ले के फंक्शन," "सीएसआर", और "पॉइसन" शामिल हैं। आपके लिए एक सुलभ संदर्भ ओ'सूलीवन एंड अनविन, भौगोलिक सूचना विश्लेषण होगा। एक क्लासिक रिप्ले है, स्थानिक सांख्यिकी : यह बिंदु प्रक्रियाओं पर केंद्रित है। अनुप्रयोगों के लिए, क्राइमस्टैट पर एक त्वरित नज़र डालें । यदि आप सहज हैं R, तो इस कार्य के लिए बहुत सारे उपकरण हैं
whuber

जवाबों:


5

मुझे लगता है कि @ जॉ का विचार ची = स्क्वायर टेस्ट जाने का एक तरीका है।

आप 2-डी पर पैच चाहते हैं, लेकिन आप 1 तरह से ची-स्क्वायर टेस्ट का उपयोग करके उनका परीक्षण करना चाहेंगे; अर्थात्, कोशिकाओं के लिए अपेक्षित मान जहां N कोशिकाओं की संख्या है।1000एन

लेकिन यह संभव है कि विभिन्न संख्या में कोशिकाएं अलग-अलग निष्कर्ष दें।

एक और संभावना यह है कि अंकों के बीच की औसत दूरी की गणना करें और फिर इसकी तुलना उस औसत के सिम्युलेटेड परिणामों से करें। कि कोशिकाओं की एक मनमानी संख्या की समस्या से बचा जाता है।

EDIT (औसत दूरी पर अधिक)

1000 अंक के साथ, देखते हैं अंक के बीच 2 जोड़ीदार दूरी। इनमें से प्रत्येक की गणना की जा सकती है (उपयोग, कहते हैं, यूक्लिडियन दूरी)। इन दूरियों को औसत किया जा सकता है।1000*9992

फिर आप 1000 अंकों के सेट के एन (बड़ी संख्या) उत्पन्न कर सकते हैं जो समान रूप से वितरित किए जाते हैं। उन N सेटों में से प्रत्येक में अंकों के बीच एक औसत दूरी भी है।

नकली बिंदुओं के वास्तविक बिंदुओं के परिणामों की तुलना करें, या तो पी-मूल्य प्राप्त करने के लिए या केवल यह देखने के लिए कि वे कहां गिरते हैं।


मैं सहमत हूं कि एक-नमूना ची-स्क्वायर ("समझौता ची-स्क्वायर परीक्षण") उचित तरीकों में से है। लेकिन क्या आप अपने "एवरेज डिस्टेंस" प्रस्ताव पर अधिक विस्तार कर सकते हैं? मुझे यह समझ में नहीं आया।
ttnphns

@ttnphns, स्थानिक विश्लेषण में उपयोग किए जाने वाले निकटतम पड़ोसी परीक्षण (उर्फ क्लार्क और इवांस परीक्षण) हैं, या रिप्ले के। उदाहरण के लिए आर लाइब्रेरी स्पैटस्टैट या क्राइमस्टैट प्रलेखन देखें । सिमुलेशन पर आधारित एक और संभावना "स्कैन" परीक्षण हैं, लेकिन ये औसत दूरी पर आधारित नहीं हैं।
एंडी डब्ल्यू

3

एक और संभावना ची-चुकता परीक्षण है। वर्ग को समान रूप से गैर-अतिव्यापी पैच में विभाजित करें, और एकरूपता के एक परिकल्पना के तहत उनके अपेक्षित मायने के खिलाफ पैच में पड़ने वाले बिंदुओं की गिनती का परीक्षण करें (यदि पैच सभी के लिए समान है / पैच_ की उम्मीद कुल योग है) , और ची-चुकता परीक्षण लागू करें। 1000 अंकों के लिए 9 पैच पर्याप्त होना चाहिए, लेकिन आप अपने डेटा की तरह दिखने के आधार पर अधिक ग्रैन्युलैरिटी का उपयोग करना चाह सकते हैं।


1
मुझे लगता है कि आप कुछ पर हैं, लेकिन फिट ची-स्क्वायर की एक अच्छाई प्रत्येक सेल में वास्तविक काउंट की तुलना समान कोशिकाओं की अपेक्षित गणना के साथ होगी जो आप चाहते हैं। एक आकस्मिक परीक्षण का उपयोग करके यह परीक्षण नहीं किया जाएगा कि क्या आपके कक्षों में समान वितरण था, केवल यदि पंक्ति स्तंभ पर निर्भर थी।
जॉन

इसके अलावा, ची-स्क्वायर टेस्ट आपको केवल यह बताएगा कि वे आपके द्वारा चुनी गई कोशिकाओं में समान नहीं थे। यह नहीं बताएगा कि वे वर्दी में थे।
जॉन

हां, मेरा मतलब था कि एकरूपता की शून्य परिकल्पना के तहत उनकी अपेक्षित गिनती के खिलाफ मायने रखता है, अगर यह स्पष्ट नहीं था तो मेरी माफी। आप इसे केवल एक तालिका के रूप में देख सकते हैं जो यह समझने में मदद करती है कि अविवाहितों के लिए क्या हो रहा है! और जाहिर है आप अमूर्त अर्थ में एकरूपता के बजाय आपके द्वारा चुनी गई कोशिकाओं के खिलाफ परीक्षण तक सीमित हैं
बेन एलीसन

@ जॉन, आमतौर पर जब कोई यह "फैलाव परीक्षण" करता है, तो आमतौर पर दो तरफा परीक्षण करता है। यदि आप वास्तव में यह देखना चाहते हैं कि क्या पैटर्न संयोग से अपेक्षा से अधिक समान था, तो आप बस यह देखने के लिए देख सकते हैं कि क्या वितरण की बाईं पूंछ में ची-स्क्वायर परीक्षण गिर गया था (जो भी कट-ऑफ आप पसंद करते हैं)।
एंडी डब्ल्यू

एंडी, आपको एक जवाब देना चाहिए जो फिट टेस्ट के इस दो तरफा अच्छाई का विवरण देता है। आमतौर पर दो तरफा परीक्षण केवल दो अलग-अलग विकल्पों का परीक्षण करते हैं, लेकिन फिर भी शून्य प्रदर्शित नहीं कर सकते। आपका प्रस्ताव पेचीदा है।
जॉन

1

कोलमोगोरोव-स्मिर्नोव परीक्षण का उपयोग क्यों नहीं किया जाता है? यही मैं करूंगा, खासकर यह देखते हुए कि शक्ति की कमी की भरपाई के लिए आपके नमूने का आकार काफी बड़ा है।

वैकल्पिक रूप से, आप कुछ अनुकरण कर सकते हैं। यह कठोर नहीं है, लेकिन यह कुछ सबूत प्रदान करता है कि क्या डेटा को समान रूप से वितरित किया गया है।


@whuber KS के 2-आयामी विस्तार को अच्छी तरह से जाना जाता है ( यहाँ देखें )। इस मामले में, हम जांच कर रहे हैं कि क्या ये 1000 ड्रॉ (निर्देशांक (x, y)) को 2-आयामी संयुक्त रूप से समान वितरण से खींचा जा सकता है - कम से कम यह है कि मैंने "समान रूप से फैला हुआ" कैसे पढ़ा। @ जॉन मैं खुद को अनाड़ी (न तो गणित और न ही अंग्रेजी मेरी पहली भाषा है) व्यक्त कर सकता हूं। मेरा मतलब यह था कि सटीक पी-मूल्य को केएस जैसे परीक्षण का उपयोग करके गणना की जा सकती है, जबकि पी-मूल्य (या जिसे आप समतुल्य कहते हैं) केवल अनुकरण करते समय स्पर्शोन्मुख रूप से झुकता है।


अनुकरण कठोर क्यों नहीं होगा?
जॉन

1
क्या आप बता सकते हैं कि केएस टेस्ट - जो कि वास्तविक संख्याओं के सेटों के लिए होता है, को एक सतत यादृच्छिक चर के परिणाम के रूप में माना जाता है - इस स्थानिक डेटासेट पर लागू होगा ?
whuber

@ जब भी मैंने आपके जवाब के लिए कोशिश करने और जवाब देने के लिए अपना जवाब संपादित किया है। श्रेष्ठ।
अबूमान

@ जॉन मैंने समझाने का प्रयास किया है कि मेरा क्या मतलब है। श्रेष्ठ।
अबूमान
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.