दो स्थानिक बिंदु पैटर्न की तुलना?


41

यदि मेरे पास एक ही भौगोलिक क्षेत्र में दो बिंदु पैटर्न वितरण हैं, तो मैं उन दो वितरणों की तुलनात्मक दृष्टि से और मात्रात्मक रूप से कैसे करूँगा?

यह भी मान लें कि मेरे पास एक छोटे से क्षेत्र के भीतर कई बिंदु हैं, इसलिए बस एक पिन मानचित्र प्रदर्शित करना असंक्रामक है।

जवाबों:


32

हमेशा की तरह, यह आपके उद्देश्यों और डेटा की प्रकृति पर निर्भर करता है। के लिए पूरी तरह से मैप किया गया डेटा, एक शक्तिशाली उपकरण रिप्ले की एल समारोह, के एक करीबी रिश्तेदार है रिप्ले की कश्मीर समारोह । सॉफ्टवेयर के बहुत सारे यह गणना कर सकते हैं। आर्कगिस अब तक कर सकता है; मैंने जाँच नहीं की है। CrimeStat करता है। तो जियोडा और आर । संबंधित मानचित्रों के साथ इसके उपयोग का एक उदाहरण दिखाई देता है

सिंटन, डीएस और डब्ल्यू ह्यूबर। संयुक्त राज्य अमेरिका में पोल्का और इसकी जातीय विरासत का मानचित्रण। जर्नल ऑफ़ ज्योग्राफी वॉल्यूम। 106: 41-47। 2007

यहाँ Ripley's K के "L फ़ंक्शन" संस्करण का एक क्राइमस्टैट स्क्रीनशॉट है:

रिप्ले के के फंक्शन का स्क्रीनशॉट

नीले रंग की वक्र बिंदुओं के एक बहुत ही गैर-यादृच्छिक वितरण का दस्तावेज है, क्योंकि यह शून्य के आसपास के लाल और हरे रंग के बैंड के बीच झूठ नहीं बोलता है, जो कि एक यादृच्छिक वितरण के एल-फ़ंक्शन के लिए नीले रंग का निशान है।

के लिए नमूना डेटा, ज्यादा नमूने की प्रकृति पर निर्भर करता है। इसके लिए एक अच्छा संसाधन, गणित और सांख्यिकी में सीमित (लेकिन पूरी तरह से अनुपस्थित) पृष्ठभूमि वाले लोगों के लिए सुलभ, नमूनाकरण पर स्टीवन थॉम्पसन की पाठ्यपुस्तक है ।

यह आम तौर पर ऐसा होता है कि अधिकांश सांख्यिकीय तुलनाओं को रेखांकन के साथ चित्रित किया जा सकता है और सभी सांख्यिकीय तुलनाएं सांख्यिकीय समकक्ष के अनुरूप या सुझाव देती हैं। इसलिए, सांख्यिकीय साहित्य से आपको जो भी विचार मिलते हैं, वे मानचित्र के उपयोगी तरीके सुझा सकते हैं या अन्यथा दो डेटासेट की तुलना कर सकते हैं।


डिक्सन पेपर के लिए धन्यवाद, यह एक उत्कृष्ट संसाधन प्रतीत होता है। मैं कभी-कभी स्थानिक बातचीत और बहु-चर पैटर्न के लिए यादृच्छिक लेबलिंग के बीच अंतर नहीं आया था। मुझे पढ़ने की आवश्यकता होगी।
एंडी डब्ल्यू

+1 अच्छा संसाधन। तो पुरानी मछली पकड़ने की ट्रिज्म कि "90% मछली झील के 10% में हैं" वास्तव में नमूना विधि पर निर्भर करता है?
कर्क कुक्केंडल

@ किर्क हम में से कई लोगों के लिए, झील के 10% हिस्से में 0% मछली होती है जिसे हम वास्तव में पहुंचाने का प्रबंधन करते हैं!
whuber

14

नोट: निम्नलिखित को व्हीबर की टिप्पणी के बाद संपादित किया गया था

आप मोंटे कार्लो दृष्टिकोण अपनाना चाह सकते हैं। यहाँ एक सरल उदाहरण है। मान लें कि आप निर्धारित करना चाहते हैं कि क्या अपराध की घटनाओं का वितरण ए सांख्यिकीय रूप से बी के समान है, तो आप ए और बी की घटनाओं के बीच के आंकड़े को तुलनात्मक रूप से पुन: असाइन किए गए 'मार्कर' के लिए इस तरह के माप के अनुभवजन्य वितरण से तुलना कर सकते हैं।

उदाहरण के लिए, A (श्वेत) और B (नीला) का वितरण,

यहाँ छवि विवरण दर्ज करें

आप संयुक्त डेटासेट में सभी बिंदुओं पर A और B को यादृच्छिक रूप से पुन: असाइन करते हैं। यह एकल अनुकरण का एक उदाहरण है:

यहाँ छवि विवरण दर्ज करें

आप इसे कई बार दोहराते हैं (999 बार कहते हैं), और प्रत्येक सिमुलेशन के लिए, आप बेतरतीब ढंग से लेबल किए गए बिंदुओं का उपयोग करके एक आँकड़ा (इस उदाहरण में औसत निकटतम पड़ोसी आँकड़ा) की गणना करते हैं। कोड के स्निपेट्स जो आर में हैं ( स्पैटस्टेट लाइब्रेरी के उपयोग की आवश्यकता है )।

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

फिर आप परिणामों की तुलना रेखांकन से कर सकते हैं (लाल खड़ी रेखा मूल सांख्यिकीय है),

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

यहाँ छवि विवरण दर्ज करें

या संख्यात्मक रूप से।

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

ध्यान दें कि औसत निकटतम पड़ोसी आँकड़ा आपकी समस्या के लिए सबसे अच्छा सांख्यिकीय उपाय नहीं हो सकता है। K- फ़ंक्शन जैसी आँकड़े अधिक खुलासा हो सकते हैं (व्ह्यूबर के उत्तर देखें)।

उपरोक्त को आसानी से मॉडलबिल्डर का उपयोग करके आर्कगिस के अंदर लागू किया जा सकता है। एक लूप में, बेतरतीब ढंग से प्रत्येक बिंदु को गुण मान फिर से एक स्थानिक सांख्यिकीय की गणना करते हैं। आपको तालिका में परिणामों को मिलान करने में सक्षम होना चाहिए।


2
आप कर्नेल घनत्व दृष्टिकोण मैनी के बजाय एक क्रमचय परीक्षण पर विचार करना चाह सकते हैं। शून्य परिकल्पना यह है कि नीले और सफेद लेबल बिंदुओं से स्वतंत्र हैं। इसका परीक्षण करने के लिए, पड़ोस के लिए एक उपयुक्त आंकड़ा अपनाएं (जैसे कि नीले और सफेद बिंदुओं के बीच निकटतम दूरी, सड़कों पर यात्रा करना)। सभी बिंदुओं को रंग को पुन: असाइन करता है, समान मात्रा में नीले और सफेद रखते हुए, और आंकड़े को पुनर्गणना करते हैं। सांख्यिकीय के अशक्त वितरण का अनुमान लगाने के लिए कई बार दोहराएं। P- मान प्राप्त करने के लिए इस वितरण के आँकड़ों का वास्तविक मूल्य देखें।
whuber

शुक्रिया व्हीबर यह मेरे लिए कभी नहीं हुआ कि इसे एक चिह्नित बिंदु समस्या के रूप में देखा जाए। मैंने इस दृष्टिकोण को दर्शाने के लिए अपना उत्तर अपडेट किया। हालाँकि, यह मेरे लिए स्पष्ट नहीं है कि मेरे मूल दृष्टिकोण (यानी यादृच्छिक बिंदुओं को उत्पन्न करने के लिए कर्नेल घनत्व ग्रिड का उपयोग करने) के परिणामस्वरूप एक अलग परिणाम क्यों हुआ। वास्तव में, यह (मेरा मूल समाधान) ईमानदारी से इस तथ्य को प्रतिबिंबित नहीं करता था कि ए और बी दोनों एक समान प्रक्रिया से आए थे। क्या इसलिए कि कर्नेल घनत्व दृष्टिकोण बिंदु डेटा द्वारा हमें प्रदान किए गए विवरण का लाभ नहीं उठाता है?
मन्नीग

1
कर्नेल घनत्व में मनमानेपन का एक छोटा तत्व होता है (अर्धव्यास की पसंद के साथ जुड़ा हुआ)। इससे फर्क पड़ सकता है। यह वास्तव में चल रहा है से कुछ हद तक हटा दिया गया है: एक अंतर्निहित प्रक्रिया उत्पादक बिंदु है; आपको उस प्रक्रिया का एक बोध दिखाई देता है; आप इसका एक केडीई बनाते हैं ; फिर आप उस केडीई से नए अहसास खींचते हैं। वास्तव में, आप नए कॉन्फ़िगरेशन को पुन: प्रस्तुत कर रहे हैं, जो आपके द्वारा देखे गए एकल कॉन्फ़िगरेशन जैसा है। क्रमचय दृष्टिकोण में, अशक्त परिकल्पना कि दोनों वितरण समान हैं, चिह्नों को अनुमति देने का औचित्य है: यह प्रत्यक्ष और शक्तिशाली है।
whuber

1
इनपुट के लिए धन्यवाद, जब मेरे पास अधिक समय होगा तब मैं अधिक पूर्ण टिप्पणी दूंगा। इस आर कोड को नोट करना अच्छा होगा (क्या आपने इसका उल्लेख किया है कि यह उत्तर में आर कोड है?) और यह spatstatपैकेज में कार्यों का उपयोग करता है ।
एंडी डब्ल्यू

2
+1, इस तरह के क्रमपरिवर्तन परीक्षणों के उपयोग के बारे में एक अच्छी बात है 1) जब जियोकोड (अधिकांश परिस्थितियों में अपराध डेटा के लिए पता या पता सीमा) की विशिष्टता के लिए विवश होकर पूर्ण स्थानिक यादृच्छिकता की तुलना में बिंदु पैटर्न का मूल्यांकन करते हैं। बहुत समझदारी। 2) इस तरह के क्रमपरिवर्तन परीक्षण बढ़त के प्रभाव वाली समस्याओं से बचते हैं। बेशक ये अति-सामान्यीकरण हैं, लेकिन मुझे लगता है कि इस तरह के ढांचे को कई अलग-अलग प्रकार के बिंदु पैटर्न आँकड़ों के मूल्यांकन के लिए सामान्यीकृत किया जा सकता है।
एंडी डब्ल्यू

4

आप क्राइमस्टैट की जांच कर सकते हैं।

वेबसाइट के अनुसार:

क्राइमस्टैट अपराध घटना स्थानों के विश्लेषण के लिए एक स्थानिक सांख्यिकी कार्यक्रम है, जिसे नेड लेवाइन एंड एसोसिएट्स द्वारा विकसित किया गया है, जिसे राष्ट्रीय न्याय संस्थान (अनुदान-1997-आईजे-सीएक्स-0040, 1999-आईजे-सीएक्स -0044) से अनुदान द्वारा वित्त पोषित किया गया था। 2002-IJ-CX-0007, और 2005-IJ-CX-K037)। कार्यक्रम विंडोज-आधारित है और अधिकांश डेस्कटॉप जीआईएस कार्यक्रमों के साथ इंटरफेस करता है। उद्देश्य कानून प्रवर्तन एजेंसियों और आपराधिक न्याय शोधकर्ताओं को उनके अपराध मानचित्रण प्रयासों में सहायता करने के लिए पूरक सांख्यिकीय उपकरण प्रदान करना है। क्राइमस्टैट का उपयोग दुनिया भर के कई पुलिस विभागों के साथ-साथ आपराधिक न्याय और अन्य शोधकर्ताओं द्वारा किया जा रहा है। नवीनतम संस्करण 3.3 (क्राइमस्टैट III) है।


2

एक सरल और तेज़ दृष्टिकोण हीटमैप और उन दो हीटमैपों के अंतर मानचित्र बनाने के लिए हो सकता है। संबंधित: कैसे प्रभावी गर्मी के नक्शे बनाने के लिए?


3
दुर्भाग्यवश, दो प्रक्षेपित या चिकने मानचित्रों में अंतर करने से आपको डेटा के बारे में प्रक्षेप या स्मूथिंग विधि के बारे में बहुत कुछ बताने की आवश्यकता होती है :-( यदि आपको प्रक्षेप करना चाहिए, तो इसे अच्छी तरह से करने के लिए ध्यान रखें (उदाहरण के लिए, ईडीए और वैरोग्राफी के साथ krige) और केवल एक डेटासेट को प्रक्षेपित करें। आप एक सेट में वास्तविक डेटा की तुलना दूसरे के प्रक्षेपित मूल्यों से कर सकते हैं, जिससे दो प्रक्षेपित मानचित्रों की तुलना करने की आधी त्रुटि समाप्त हो जाएगी। ध्यान दें कि प्रक्षेप कई प्रकार के डेटा के लिए मान्य नहीं है और सुचारू करना अनुचित है। डेटा के अन्य प्रकार।
whuber

मैं मानता हूं कि यह विधि कई प्रकार के इनपुट डेटा के लिए उपयुक्त नहीं है। मुझे लगता है कि बिंदु घनत्व पैटर्न का विश्लेषण करते समय यह एक अच्छा पहला प्रभाव दे सकता है।
UnderDark

मुझे कोई संदेह नहीं है कि जब एक विशेषज्ञ द्वारा प्रक्षेप किया जाता है और विवेकपूर्ण तरीके से व्याख्या की जाती है तो आप सही होते हैं।
whuber

2

मान लीजिए आपने स्थानिक ऑटो-सहसंबंध पर साहित्य की समीक्षा की है। आर्कगिस में टूलबॉक्स स्क्रिप्ट के माध्यम से आपके लिए ऐसा करने के लिए विभिन्न बिंदु और क्लिक टूल हैं: स्थानिक सांख्यिकी टूल -> विश्लेषण पैटर्न

आप पीछे की ओर काम कर सकते हैं - एक उपकरण ढूंढें और यह देखने के लिए कार्यान्वित एल्गोरिथ्म की समीक्षा करें कि क्या यह आपके परिदृश्य को सूट करता है। मृदा खनिजों की घटना में स्थानिक संबंध की जांच के दौरान मैंने कुछ समय पहले मोरन के सूचकांक का उपयोग किया था।


2

आप दो चर और महत्व के स्तर के बीच सांख्यिकीय सहसंबंध के स्तर को निर्धारित करने के लिए कई सांख्यिकीय सॉफ्टवेअर में एक द्विवार्षिक सहसंबंध विश्लेषण चला सकते हैं। आप तब एक क्लोरोप्लेथ योजना का उपयोग करके एक चर, और स्नातक किए गए प्रतीकों का उपयोग करके दूसरे चर का मानचित्रण करके अपने सांख्यिकीय निष्कर्ष निकाल सकते हैं। एक बार ओवरले होने के बाद, आप यह निर्धारित कर सकते हैं कि कौन से क्षेत्र उच्च / उच्च, उच्च / निम्न और निम्न / निम्न स्थानिक संबंध प्रदर्शित करते हैं। इस प्रस्तुति के कुछ अच्छे उदाहरण हैं।

आप कुछ अद्वितीय भूविश्लेषण सॉफ्टवेयर्स भी आजमा सकते हैं। मैं वास्तव में इस तरह के विज़ुअलाइज़ेशन के लिए कॉमनजीआईएस पसंद करता हूं। आप एक पड़ोस (अपने उदाहरण) का चयन कर सकते हैं और सभी उपयोगी आंकड़े और भूखंड आपको तुरंत उपलब्ध होंगे। यह मल्टी वेरिएबल मैप्स के विश्लेषण को काफी सरल बनाता है।


2
ये अच्छे विचार हैं, लेकिन मैं ध्यान देता हूं कि आपके द्वारा संदर्भित उदाहरण सफल हैं क्योंकि विशेषताएँ सुविधाओं के सामान्य सेट के अनुरूप हैं। वर्तमान प्रश्न में, सुविधाओं के अलग-अलग स्थान हैं और वे स्थान यादृच्छिक चर (उदाहरण के लिए, निश्चित प्रशासनिक इकाइयां नहीं) हैं। ये महत्वपूर्ण जटिलताएं हैं, क्योंकि अब हमें एक स्थान पर अन्य स्थानों पर मूल्यों से संबंधित करने के लिए कुछ सार्थक प्रक्रिया खोजने की आवश्यकता है और हमें स्वयं स्थानों के यादृच्छिक चरित्र के साथ सामना करने की आवश्यकता है।
whuber

उस स्पष्टीकरण के लिए धन्यवाद! मैंने ओपी को गलत तरीके से पढ़ा और यह मान लिया कि यह दो स्वतंत्र चर के लिए था जिसने एक स्थान / भौगोलिक सीमा (जैसे डीए / सीटी आदि के साथ) साझा की थी
माइकल मार्कीटा

1

एक चतुष्कोण विश्लेषण इसके लिए बहुत अच्छा होगा। यह विभिन्न बिंदु डेटा परतों के स्थानिक पैटर्न को उजागर करने और तुलना करने में सक्षम जीआईएस दृष्टिकोण है।

कई बिंदु डेटा परतों के बीच स्थानिक संबंधों को निर्धारित करता है कि एक quadrat विश्लेषण की रूपरेखा http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents//_daag_poster.pdf पर पाया जा सकता है ।


1
(1) लिंक 404 है (यही कारण है कि हम सभी लिंक के सारांश शामिल करने के लिए उत्तर पूछते हैं)। (२) चतुष्कोणीय विश्लेषण दो बिंदु वितरणों की तुलना में कितना सही होगा ?
whuber

(१) लिंक अब काम कर सकता है। (२) एक चतुष्कोण विश्लेषण किसी दिए गए क्षेत्र को समान आकार की इकाइयों में विभाजित करता है, उचित रूप से आकार देता है। तब यह प्रत्येक क्वाडट्रेट बनाम प्रत्येक आवृत्ति के लिए एक अपेक्षित मान के भीतर बिंदुओं की वास्तविक आवृत्ति निर्धारित करने के लिए संभाव्यता विश्लेषण का उपयोग करता है। ArcMap के स्थानिक विश्लेषक एक्सटेंशन में टेबल टूल्स के रूप में बिंदु घनत्व कमांड और जोनल आँकड़ों का उपयोग करके, हम प्रतिगमन विश्लेषण के लिए इन बिंदु सुविधा वर्गों को सारांशित करने के अलावा उच्च घनत्व बिंदु स्थानों की निकटता के भीतर के क्षेत्रों को उजागर कर सकते हैं।

आपने बिंदु वितरण के अविभाज्य विश्लेषण के लिए एक प्रक्रिया का वर्णन किया है। यह दो प्रक्रियाओं के सह-घटना की डिग्री की तुलना करने के लिए (क्वाड्रैट सहसंबंधों का आकलन करके) अनुकूलित किया जा सकता है, लेकिन दो महत्वपूर्ण सीमाओं से ग्रस्त है। सबसे पहले, यह दूरी के एक समारोह के रूप में प्रक्रियाओं के बीच संबंधों का अध्ययन नहीं करता है; दूसरा, द्वारा binning quadrats में अंक यह शक्ति खो देता है। बिजली की हानि का मतलब है कि आप महत्वपूर्ण पैटर्न की पहचान करने में विफल हो सकते हैं या इसका मतलब है कि जांच उद्देश्यों को प्राप्त करने के लिए आपको अधिक डेटा एकत्र करने की आवश्यकता है।
whuber

मैंने बिंदु वितरण के बहुभिन्नरूपी विश्लेषण के लिए इस "प्रक्रिया" का उपयोग किया है। हालांकि यह शक्ति का नुकसान करता है, यह एकत्रीकरण के अनूठे स्तरों पर दो बिंदु पैटर्न वितरण की तुलना में नेत्रहीन और मात्रात्मक रूप से तुलना करने का एक तरीका प्रदान करता है (मूल प्रश्न का समाधान यहां)।

मुझे आशा है कि आपने हमारी साइट पर जो पढ़ा है वह आपको भविष्य में वैकल्पिक दृष्टिकोणों पर विचार करने के लिए प्रेरित करता है: वे आपके डेटा और सीमित अनुसंधान संसाधनों का अधिकतम उपयोग करने की आपकी क्षमता का विस्तार करेंगे।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.