यह उत्तर दो स्थानिक डेटासेट के बीच मनमानी विसंगतियों को मापने के लिए एक उद्देश्य विधि का वर्णन करता है। ऐसी विसंगतियों में स्थिति की बदलाव, आकार में बदलाव और एक डेटासेट में मौजूद विशेषताएं शामिल हो सकती हैं लेकिन दूसरे में नहीं। यह उत्तर यह निर्धारित करने के लिए कोई साधन प्रदान नहीं करता है कि "बेहतर" क्या है, क्योंकि यह केवल डेटा की तुलना में बहुत अधिक निर्भर करता है और यह विशेष रूप से इस बात पर निर्भर करता है कि डेटा का उपयोग किस लिए किया जाएगा।
पृष्ठभूमि
इस तरह के माप के एक बड़े सेट के लिए एक अच्छी नींव प्रत्येक डेटासेट के यूक्लिडियन दूरी परिवर्तन पर निर्भर करती है । यह विमान के बिंदुओं के संग्रह का प्रतिनिधित्व करने के रूप में प्रत्येक डेटासेट को देखता है। आइए इन कलेक्शंस B को ब्लू फीचर्स के लिए और R को रेड फीचर्स के लिए कॉल करें ।
विमान में किसी भी बिंदु x के लिए, एक बिंदु सेट ए के यूक्लिडियन दूरी परिवर्तन एक्स और ए के बीच की दूरी की सबसे बड़ी निचली सीमा की गणना करता है । हम इस परिवर्तन को एक "सतह" बनाने के बारे में सोच सकते हैं जिसकी x पर ऊँचाई x से A तक की सबसे छोटी दूरी के बराबर है । इस प्रकार इस सतह पर A के सभी बिंदुओं पर घाटियाँ हैं , जहाँ इसकी ऊँचाई शून्य है, और A से 1: 1 ढलान पर ऊपर उठती है । यह स्पष्ट है कि दूरी बदले में परिणत निर्धारित करता है एक (या तकनीकी रूप से अपने मीट्रिक बंद है, जो जीआईएस डेटासेट के लिए के रूप में ही है एक) शून्य की ऊंचाई पर सभी बिंदुओं के सेट के रूप में। इस प्रकार यह दूरी A की सभी स्थानिक जानकारी को पूरी तरह से पकड़ लेती है जो GIS प्रतिनिधित्व करने में सक्षम है।
यह आंकड़ा छद्म राहत में बी (बाईं ओर) और आर (दाईं ओर) की दूरी को दिखाता है।
दो डैट्स की तुलना करना
B और R की तुलना करने के लिए , प्रत्येक को दूसरे के दूरी परिवर्तन के साथ ओवरले करें:
दूरी के मूल्यों को लाल रंग के माध्यम से ब्लूज़ (0 के पास) से रंग के रूप में दिखाया गया है।
उदाहरण के लिए, बाएं मानचित्र, B के बिंदु दिखाता है और R से उनकी दूरी के अनुसार उन्हें रंग देता है । B और R की भूमिकाएँ सही नक्शे में स्विच की गई हैं।
पहले से ही ये तुलना करने में आंख की सहायता करते हैं: प्रत्येक मानचित्र एक डेटासेट के बिंदु दिखाता है और, रंग के उपयोग से, उन बिंदुओं पर जोर देता है जो अन्य डेटासेट में किसी भी बिंदु से बहुत दूर हैं। ध्यान दें कि तुलना के लिए दोनों मानचित्रों की आवश्यकता होती है, क्योंकि प्रत्येक शो एक-दूसरे पर इंगित करता है।
विस्तृत नक्शे पर, रंग को देखना मुश्किल हो सकता है, इसलिए हम इसे प्रस्तुति या दृश्य मूल्यांकन के लिए थोड़ा धुंधला करने का विकल्प चुन सकते हैं:
नायब: रंग दो मानचित्रों के बीच तुलनीय नहीं हैं: प्रत्येक नक्शे के भीतर उन्हें उस नक्शे में दूरी की पूरी श्रृंखला दिखाने के लिए स्केल किया जाता है।
मतभेदों का सांख्यिकीय विश्लेषण
इस दृष्टिकोण की सुंदरता पोस्ट-प्रोसेसिंग में क्या हो सकती है, इसमें निहित है। दूरी परिवर्तन और उनकी ओवरले का प्रतिनिधित्व करने के लिए एक रेखापुंज का उपयोग करना , हम विसंगतियों को मापने के लिए आसानी से आंकड़े - स्थानीय और वैश्विक - प्राप्त कर सकते हैं। उदाहरण के लिए, हम कुछ छोटी सीमा से बड़ी सभी दूरी पर ध्यान केंद्रित कर सकते हैं जो उनकी आवृत्ति वितरण का पता लगाते हैं:
इस हिस्टोग्राम में ब्लू बार ब्लू फीचर्स के लिए होता है, रेड फीचर्स के लिए रेड बार। (क्षैतिज अक्ष पर लघुगणक पैमाने पर ध्यान दें।) यह हिस्टोग्राम मूल अतिव्यापी डेटा दिखाता है, न कि व्युत्पन्न धुंधले डेटा। इसने मूल छवि में केवल तीन पिक्सल्स से बड़ी दूरी को चुना है।
इन हिस्टोग्राम्स से पता चलता है कि नीले रंग की सुविधाओं के लिए इसके विपरीत लाल विशेषताओं से बहुत अधिक झूठ बोलना संभव है : नीले रंग की पट्टियाँ लाल रंग की तुलना में अधिक होती हैं और वे अधिक दूरी (दाईं ओर) तक फैल जाती हैं। वर्णनात्मक आंकड़ों का पूरा शस्त्रागार अब दो डेटासेट के बीच अंतर को निर्धारित करने के लिए उपलब्ध है। इन आंकड़ों को ब्याज के पूरे क्षेत्र पर लागू किया जा सकता है या स्थान के अनुसार दोनों डेटासेट अलग-अलग हैं, यह पता लगाने के लिए इसे "विंडो" पर लागू किया जा सकता है।
कार्यान्वयन
अधिकांश रेखापुंज GISes एक यूक्लिडियन दूरी परिवर्तन प्रदान करते हैं (जैसे कि आर्कगिस में यूक्लिडियनडिस्टेंस और GRASS में r.grow.distance ), और सभी इस विश्लेषण को करने के लिए सरल (मास्किंग) ओवरले का समर्थन करते हैं। धुंधला हो जाना, यदि वांछित है, तो एक पड़ोस मीन या कर्नेल कनवल्शन के साथ किया जा सकता है (जिसमें सभी इमेज प्रोसेसिंग सॉफ्टवेयर में उपलब्ध "गॉसियन ब्लर" शामिल है)। अधिकांश जीआईएस , रेखापुंज डेटा के पूर्ण सांख्यिकीय विश्लेषण के लिए पर्याप्त समर्थन प्रदान नहीं करते हैं, हालांकि, वे सांख्यिकीय और गणितीय सॉफ़्टवेयर जैसे कि R
या मैथमेटिका (जो यहां सभी आंकड़े बनाते हैं) द्वारा पठनीय प्रारूप में इस तरह के डेटा को निर्यात करने में अच्छे हैं ।