कर्नेल घनत्व के आधार पर क्लस्टर पॉइंट्स कैसे करें?


10

मेरे पास 36k अंक के साथ एक बड़ा डेटासेट है, जो प्रत्येक वर्ग दृश्य वाले क्षेत्र के साथ वाणिज्यिक भूमि उपयोगों का प्रतिनिधित्व करता है। मैंने इस डेटासेट पर एक कर्नेल घनत्व विश्लेषण चलाया है, जो पूरे मेट्रो क्षेत्र पर वाणिज्यिक वर्ग फुटेज का घनत्व दिखाते हुए एक रास्टर का निर्माण करता है। मुझे इस मैस्टर को स्थानीय मैक्सीमा के अनुरूप क्षेत्रों में विभाजित करने की आवश्यकता है, जिसे मैं "केंद्र" कहता हूं। मैंने पहले ही केंद्रों के स्थानों का निर्धारण कर लिया है, और अब मुझे दो काम करने होंगे:

  • एक बिंदु क्लस्टरिंग टूल का उपयोग करें, जैसे कि "मेडोइड्स के आसपास विभाजन", बिंदुओं को मैंने पहचाने गए केंद्रों के आसपास क्लस्टर में बिंदुओं को समूहित करने के लिए। इस पद्धति के साथ समस्या यह है कि यह कम्प्यूटेशनल रूप से तीव्र है, और इससे भी अधिक अगर मैं आकार से अंक को वजन करने के लिए एक असमानता मैट्रिक्स का उपयोग करने की कोशिश करता हूं।

  • किसी तरह कर्नेल घनत्व रेखापुंज को विभाजित करें (जो मोटे तौर पर एक इलाके रेखापुंज जैसा दिखता है) प्रत्येक केंद्र के आसपास व्यक्तिगत "पहाड़ियों" में। लेकिन मैं ऐसा करने के लिए किसी भी उपकरण के बारे में नहीं सोच सकता।

इस समस्या ने मुझे कुछ समय के लिए त्रस्त कर दिया है, और मुझे आशा है कि मैं आर में क्लस्टरिंग विधि का प्रदर्शन कर सकूंगा, लेकिन यह समय लेने वाला है और मैं समय से बाहर चल रहा हूं। क्या किसी को घनत्व के चूहों को तीव्रता के पड़ोस में विभाजित करने या बड़े डेटासेट को जल्दी से क्लस्टर करने के लिए एक सरल विधि के बारे में पता है?


1
यह सवाल निकट से संबंधित है: stats.stackexchange.com/questions/13995/...
whuber

1
और मेरे द्वारा पोस्ट की गई, जैसा कि यह निकला।
पैट्रिक

कि पैट्रिक के लिए 1 pt होगा मुझे लगता है .....
BWill

जवाबों:


6

बारीकी से संबंधित पोस्ट के बाद चर्चा से एक सरल, प्रभावी समाधान का पता चला : "पहाड़ियों" को खोजने के लिए, ग्रिड को उल्टा-मोड़ें (इसके मूल्यों की उपेक्षा करके) और वाटरशेड ढूंढें। पहाड़ियों सिंक और वाटरशेड सीमाएँ ग्रिड को उन सिंक में विभाजित करती हैं।


यह समाधान सरल, त्वरित और ठीक वही है जिसकी मुझे तलाश थी। धन्यवाद।
पैट्रिक

3

सबसे सरल उत्तर यह होगा कि थ्रेसहोल्ड से नीचे आने वाले क्षेत्रों को बाहर निकालने के लिए थ्रेशोल्ड का उपयोग किया जाए। इससे आपको अपने केंद्रों के आसपास के अलग-अलग क्षेत्र देने चाहिए। फिर उन क्षेत्रों को आकृतियों में परिवर्तित करने में सक्षम होना चाहिए।

तुम भी स्थानिक आँकड़े उपकरण पा सकते हैं : रेखापुंज डेटा पर क्लस्टरिंग विश्लेषण एक समान समस्या की एक उपयोगी चर्चा।


हाँ, यह एक बहुत ही प्रासंगिक चर्चा है! मैं आपके एमएससी थीसिस के माध्यम से पढ़ रहा हूं और कुछ तरीकों की कोशिश करूंगा।
पैट्रिक

2
दहलीज का उपयोग करना शायद यहां काम नहीं करेगा, क्योंकि मैं दूसरे केंद्रों से तुरंत सटे केंद्रों को अलग करने की कोशिश कर रहा हूं। शहर के कोर में, दोनों के बीच की सीमा में बहुत अधिक घनत्व होगा, लेकिन उपनगरीय फ्रिंज में, इसका घनत्व बहुत कम होगा। लेकिन मुझे उम्मीद है कि दूसरी व्युत्पन्न का उपयोग करना प्रभावी होगा।
पैट्रिक

3

मुझे लगता है कि आपको अपनी प्रारंभिक समस्या पर वापस जाना चाहिए: एक पूरे मेट्रो क्षेत्र में वाणिज्यिक वर्ग फुटेज के क्लस्टर ढूंढें।

मुझे लगता है कि आपके अंक वर्ग फुटेज के मान के साथ पार्सल के केन्द्रक हैं वाणिज्यिक? मुझे लगता है कि तुम भी पार्सल की एक बहुभुज परत हो सकता है प्रत्येक पार्सल के लिए कुल वर्ग फुटेज के साथ? जो आपको क्रमशः वर्ग फुटेज वाणिज्यिक और वर्ग फुटेज के लिए एक केस सेट (केन्द्रक) और एक आबादी (पार्सल बहुभुज) देता है।

SatScan http://www.satscan.org/ पर जाएं और एक स्थान केवल पॉइसन -वितरित मॉडल को चलाएं और आपके पास अपने वाणिज्यिक वर्ग के फुटेज क्लस्टर बहुत तेज क्रम में होंगे। (आप अंतरिक्ष के निर्माण के वर्ग फुटेज के बजाय अपनी जनसंख्या के रूप में भूमि के वर्ग फुटेज का भी उपयोग कर सकते हैं। यह बेहतर आबादी भी हो सकती है।)


आप सही कह रहे हैं कि अंक सेंट्रोइड्स हैं, लेकिन दुर्भाग्य से डेटासेट को प्रत्येक काउंटी के पार्सल लेयर से दूसरों द्वारा संकलित किया गया था और केवल उन बिंदुओं को वितरित किया गया था। लेकिन SatScan एक बहुत उपयोगी सॉफ्टवेयर की तरह दिखता है, इसलिए मैं अन्य अनुप्रयोगों के लिए ध्यान में रखूंगा।
पैट्रिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.