आर का उपयोग करके अक्षांश / लंबे जोड़े से बिंदुओं के समूह बनाना?


11

मेरे पास एक डेटाबेस है जिसमें रुचि के बिंदुओं के स्थान की पहचान करने के लिए लैट / लॉन्ग जोड़े हैं। मैं 10 के समूहों में रुचि के अंक समूह बनाना चाहूंगा। समूह भौगोलिक रूप से स्थानीय होना चाहिए और इसमें ठीक 10 अंक होने चाहिए। प्रत्येक समूह न्यूनतम क्षेत्र का होना चाहिए।

मैंने आर में विभिन्न कार्यान्वयन देखे हैं, लेकिन उनमें से कोई भी (जो मैं देख सकता हूं) आपको एक निश्चित क्लस्टर आकार निर्दिष्ट करने की अनुमति देता है।

मैंने पहले समूह के मानचित्र बिंदुओं को निश्चित क्लस्टर आकारों में पूछा था ? लेकिन मुझे नहीं लगता कि मैं एक अच्छा उत्तर पाने के लिए अपने प्रश्न में सटीक था।


भौगोलिक रूप से स्थानीय - मुझे लगता है कि मेरा मतलब है कि समूहों को ओवरलैप नहीं होना चाहिए। मेरे आवेदन में (निगरानी उद्देश्यों के लिए समूहों को लोगों को आवंटित करना) यह आदर्श होगा यदि प्रत्येक समूह भौतिक क्षेत्र में जितना संभव हो उतना छोटा था।
न्यूनतम क्षेत्र - फिर से, समूह क्षेत्र को न्यूनतम रखने की कोशिश कर रहा है। मुझे लगता है कि इसे प्रत्येक समूह के क्षेत्र को एक निर्दिष्ट सीमा से नीचे रखने के रूप में निर्धारित किया जा सकता है (दर्जनों छोटे समूहों और एक बड़े एक से बचने के लिए)।


2
यह थोड़ा और सटीक होने में मदद करेगा कि आप क्या खोज रहे हैं। आप "भौगोलिक रूप से स्थानीय" और "न्यूनतम क्षेत्र" कैसे निर्धारित करेंगे?
व्हिबर

कुछ स्थितियों में, "न्यूनतम क्षेत्र" और "ठीक 10 अंक" पारस्परिक रूप से अनन्य नहीं होंगे? आप कैसे उम्मीद कर सकते हैं कि दोनों का उपयोग किया जा सकता है, उदाहरण के लिए, आपके पास 1 मील "न्यूनतम क्षेत्र" है, और 1 विशेषता है जिसमें 10 मील (एक बाहरी, संभवतः) के भीतर कोई अन्य विशेषता नहीं है?
रयानकेडाल्टन

मुझे उम्मीद है कि कुछ अपवाद होंगे, लेकिन इनसे निपटा जा सकता है। मेरे पास एक निश्चित आकार का डेटा सेट है और कुछ समूहों को मैन्युअल रूप से बनाने में कोई आपत्ति नहीं है, लेकिन मैं वास्तव में बाकी के लिए एक स्वचालित समाधान चाहूंगा! :)
ग्रीम हिल्टन


विवरण अभी भी "हाथ से लहराती है" स्वचालित रूप से हल करने योग्य है। क्या आप डेटा सार्वजनिक कर सकते हैं?
ब्रैडहार्ड्स

जवाबों:


1

मुझे लगता है कि आप एक के-निकटतम पड़ोसी उपकरण की तलाश कर रहे होंगे। इस प्रकार के टूल का उपयोग आपके डेटासेट में सभी बिंदुओं के 10 निकटतम पड़ोसियों की पहचान करने के लिए किया जा सकता है। इसके लिए कुछ अलग विकल्प प्रतीत होते हैं (कुछ अलग एल्गोरिदम का उपयोग करने के साथ या थोड़े अलग कार्यात्मकता के साथ), और मुझे यकीन नहीं है कि सबसे अच्छा विकल्प होगा। लेकिन यहां कुछ लिंक दिए गए हैं:

http://stat.ethz.ch/R-manual/R-patched/library/class/html/knn.html http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/kNN

आपको उन बिंदुओं के समूहों की पहचान करने के लिए एक क्लस्टरिंग एल्गोरिदम या क्लस्टर एनसेंबल टूल के साथ परिणामों को संयोजित करने की आवश्यकता हो सकती है जिनके पास अंकों के वर्गीकरण में प्राप्त करने के लिए पड़ोसियों के समान सेट हैं, जहां बहुत कम-से-कोई ओवरलैप नहीं है। आपको आउटपुट के साथ थोड़ा सा फिडलिंग करने की आवश्यकता हो सकती है, लेकिन यह आपको काम के एक बड़े हिस्से को स्वचालित करने की अनुमति देनी चाहिए

कुछ लिंक: http://jmlr.csail.mit.edu/papers/volume3/strehl02a/strehl02a.pdf http://cran.r-project.org/web/packages/clue/vignettes/clue.pdf

आप एक k- साधन क्लस्टरिंग टूल भी पा सकते हैं जो यह सब एक चरण में करेगा और क्लस्टर नियम में 10 बिंदु को लागू करेगा (बस अंकों की कुल संख्या को 10 से विभाजित करेगा और वांछित क्लस्टर्स की संख्या के रूप में चुनें। औज़ार)।


इसके अलावा, मैंने R के लिए YaRi ट्यूटोरियल को उपयोगी पाया है: ahandel.myweb.uga.edu/resources.htm
Jezibelle
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.