आर में स्थानिक डेटा क्लस्टरिंग


12

मेरे पास समुद्र की सतह के तापमान (एसएसटी) मासिक डेटा का एक सेट है और मैं समान एसएसटी पैटर्न वाले क्षेत्रों का पता लगाने के लिए कुछ क्लस्टर पद्धति लागू करना चाहता हूं। मेरे पास 1985 से 2009 तक चलने वाली मासिक डेटा फ़ाइलों का एक सेट है और पहले चरण के रूप में प्रत्येक महीने क्लस्टरिंग लागू करना चाहते हैं।

प्रत्येक फ़ाइल में 358416 बिंदुओं के लिए ग्रिड डेटा होता है जहां लगभग 50% भूमि होती है और 99.99 मूल्य के साथ चिह्नित होती है जो NA होगी। डेटा प्रारूप है:

   lon     lat   sst
-10.042  44.979  12.38
 -9.998  44.979  12.69
 -9.954  44.979  12.90
 -9.910  44.979  12.90
 -9.866  44.979  12.54
 -9.822  44.979  12.37
 -9.778  44.979  12.37
 -9.734  44.979  12.51
 -9.690  44.979  12.39
 -9.646  44.979  12.36

मैंने क्लारा क्लस्टरिंग विधि की कोशिश की है और कुछ स्पष्ट रूप से अच्छे परिणाम मिले हैं, लेकिन यह मुझे भी लगता है कि बस स्मूथिंग (समूहीकरण) आइसोलाइन है। तब मुझे यकीन नहीं है कि यह स्थानिक डेटा का विश्लेषण करने के लिए सबसे अच्छा क्लस्टरिंग विधि है।

क्या कोई अन्य क्लस्टरिंग विधि इस प्रकार के डेटासेट के लिए समर्पित है? कुछ संदर्भ पढ़ना शुरू करने के लिए अच्छा होगा।

अग्रिम में धन्यवाद।


2
आपको cran.r-project.org/web/views/Spatial.html देखना चाहिए । कुछ पैकेज ऐसे हैं जिनके नाम में क्लस्टर राइट है जो शायद ब्याज का होगा।
एंडी डब्ल्यू

क्या आपको स्थानिक डेटा क्लस्टर करने के लिए कोई अच्छा R पैकेज मिला?
कप्तान

@kaptan दुर्भाग्य से मैंने ऐसा नहीं किया और यह
23

(x,y,T)R3R

जवाबों:


2

स्केलेबल क्लस्टरिंग, डिवाइड और विजयी दृष्टिकोण, समानांतर क्लस्टरिंग और वृद्धिशील के लिए अलग-अलग दृष्टिकोण है। सामान्य क्लस्टरिंग विधियों का उपयोग करने के बाद यह सामान्य दृष्टिकोण के लिए है। क्लस्टरिंग का एक अच्छा तरीका है जिसकी मैं वास्तव में सराहना करता हूं DBSCAN (घनत्व-आधारित स्थानिक क्लस्टरिंग ऑफ एप्लिकेशन विथ नॉइज़) यह सबसे अधिक उपयोग की जाने वाली क्लस्टरिंग एल्गोरिदम में से एक है।


ठीक है, मैं DBSCAN की तलाश करूंगा और इसे आजमाऊंगा। धन्यवाद
pacomet

यदि किसी उत्तर ने आपकी मदद की या आपको कोई दूसरा तरीका पता चला तो हमें देना बेहतर होगा, इसलिए सभी समुदाय इसका लाभ उठाएंगे। या प्रश्न को बंद करने का उत्तर चुनिए, thx
404Dreamer_ML

मुझे जवाब देने में देरी के लिए खेद है, लेकिन बिंदु यह है कि मुझे डेब्स्कन का प्रयास करने के लिए ज्यादा समय नहीं मिला है और पहले प्रयासों के परिणामस्वरूप एक स्मृति समस्या हुई। आर का कहना है कि यह वेक्टर आवंटित नहीं कर सकता है। मैं 779191 अंकों के साथ 4 किमी की दूरी वाले ग्रिड से शुरू करता हूं जो 300000 अंकों में समाप्त होता है जब भूमि को हटा दिया जाता है (वैध नहीं) एसएसटी अंक। शायद मुझे सही दृष्टिकोण नहीं मिल रहा है, किसी भी संकेत की सराहना की जाएगी।
पैकोमेट

1
नमस्ते, मैं अभी भी एक समाधान नहीं मिल सकता है। मैंने DBSCAN के बारे में कुछ डॉक्स पढ़े हैं और उनके बारे में कुछ प्रश्न हैं। आर के साथ न्यूनतम दूरी कैसे खोजें? जैसा कि मेरे डेटा तीन आयामी देशांतर, अक्षांश और तापमान हैं, मुझे किस "दूरी" का उपयोग करना चाहिए? व्हिस्की आयाम उस दूरी से संबंधित है? तापमान? क्या क्लस्टर के लिए न्यूनतम अंक निर्धारित करने की कोई विधि है? Google की खोज करते हुए मैं अपने समान डेटासेट में dbscan का उपयोग करने के लिए R उदाहरण नहीं खोज सका, क्या आप इस तरह के उदाहरणों के साथ किसी भी वेबसाइट को जानते हैं? इसलिए मैं पढ़ सकता हूं और अपने मामले के अनुकूल होने का प्रयास कर सकता हूं। धन्यवाद फिर से
pacomet

0

स्थानिक विश्लेषण के लिए एक अच्छी तरह से प्रलेखित पाइथन लाइब्रेरी जिसमें कुछ क्लस्टरिंग है, pySAL है

विकास चरण में एक और अजगर पुस्तकालय जो स्थानिक क्लस्टरिंग पर केंद्रित है, क्लस्टरपी (पीडीएफ स्लाइड प्रस्तुति) है

क्लस्टरिंग एल्गोरिदम के अधिक सीमित विकल्प के साथ लेकिन अच्छे मैपिंग इंटरफ़ेस के साथ जीयूआई सॉफ्टवेयर जियोग्राउपर है


धन्यवाद, मैंने कभी अजगर के साथ काम नहीं किया। मैं एक R समाधान खोजने की कोशिश करूँगा
pacomet
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.