स्थान संग्रहण और क्वेरी एल्गोरिदम को समझना?


9

जीआईएस से लैस डेटाबेस का एक सबसे महत्वपूर्ण पहलू यह है कि यह उपयोगकर्ता को कुछ अतिरिक्त मानदंडों से मेल खाने वाले कुछ मनमाने भौगोलिक क्षेत्र के भीतर सभी बिंदुओं के लिए जल्दी से क्वेरी करने की क्षमता प्रदान करता है। (उदाहरण के लिए "मुझे मानचित्र पर इस बिंदु पर निकटतम 3 रेस्तरां ढूंढें।")

क्या कोई मुझे शामिल एल्गोरिदम की सैद्धांतिक चर्चा करने के लिए इंगित कर सकता है? मैं सीखना चाहता हूं कि वे कैसे काम करते हैं।

अंततः, मैं संख्यात्मक डेटा के सामान्यीकृत सेटों के लिए एक ही क्षमता लागू करना चाहता हूं - एक मनमाना, n- आयामी, गैर-यूक्लिडियन स्थान में अंकों का एक बड़ा बादल। उदाहरण के लिए, किसी व्यक्ति के चेहरे को संख्याओं के वेक्टर के रूप में चित्रित किया जा सकता है: [आंखों के बीच की दूरी, आंख से मुंह की दूरी, चेहरे की चौड़ाई, चेहरे की लंबाई, आदि]। मैं फुटपाथ यातायात फिल्म करना चाहता हूं, प्रत्येक व्यक्ति के चेहरे की विशेषताओं का अनुमान लगाता हूं, और फिर बाद में डेटा पर प्रश्न करने में सक्षम हो सकता हूं जैसे "इस व्यक्ति का चेहरा दिया, मुझे 100 सबसे अधिक समान चेहरे मिलते हैं।"

क्या वर्तमान में कोई मौजूदा सॉफ़्टवेयर है जो इन सामान्यीकृत स्थानों पर खोज करने की क्षमता प्रदान करता है?

जवाबों:


4

2 और 3 आयामों में एल्गोरिदम के अच्छे खाते क्लासिक पाठ में रेडी और शमोस द्वारा दिखाई देते हैं । जीआईएस में उपयोग किए जाने वाले एल्गोरिदम हनन समेट की एक विशेषता है , जिन्होंने इस विषय पर कई किताबें प्रकाशित की हैं।

उच्च-आयामी खोजों को आमतौर पर प्रारंभिक डेटा खनन, क्लस्टरिंग या आयाम-कम करने वाली तकनीकों के माध्यम से सहायता या सहायता दी जाती है। यह डेटा विश्लेषण और सांख्यिकी का मामला है, जीआईएस का नहीं, जो कि इसकी प्रकृति द्वारा चार यूक्लिडियन आयामों में से एक में खोजों पर केंद्रित है। अधिक जानकारी के लिए हमारे बहन मंच खोज stats.stackexchange.com जैसे संभावना शब्दों के लिए क्लस्टरिंग , आयामी स्वरूप में कमी , और बहुआयामी स्केलिंग और की तरह कम स्पष्ट लोगों के लिए पीसीए (प्रिंसिपल घटक विश्लेषण) और SVM (समर्थन वेक्टर मशीन)। मौजूदा सॉफ़्टवेयर के बारे में पूछने के लिए यह एक अच्छी जगह है।


4

क्लासिक (paleogeographer) उत्तर में डेटा को संग्रहीत करने के लिए एक केडी वृक्ष का उपयोग करना है (देखें http://en.wikipedia.org/wiki/Kd-tree )। जब आप पेड़ से नीचे जाते हैं, तो प्रत्येक आयाम में डेटा को लगभग दो भागों में विभाजित करके काम करते हैं। इनका लाभ यह है कि जैसे ही आप निकटतम वस्तु पाते हैं, आप बिना किसी अतिरिक्त लागत के लिए जाने वाले निकटतम वस्तुओं की एक सूची भी बना सकते हैं, इसलिए तीन निकटतम रेस्तरां क्या हैं, इसका उत्तर देना सबसे आसान है।

मैंने कहीं पढ़ा है कि एहर्मोनी केडी पेड़ों का उपयोग 14 आयामों में "संगत मिलान" खोजने के लिए करता है।


+1 एक कुशल खोज विधि का संक्षिप्त स्पष्ट विवरण अच्छी तरह से किया गया है।
whuber

2

मैंने सुना है कि Netezza ने कुछ नवीन स्थानिक समानांतर प्रसंस्करण एल्गोरिदम लागू किए हैं। श्वेतपत्र यहाँ है

Netezza की असममित बड़े पैमाने पर समानांतर प्रसंस्करण वास्तुकला सममित बहुसंकेतन (एसएमपी) और बड़े पैमाने पर समानांतर प्रसंस्करण (एमपीपी) का सबसे अच्छा संयोजन प्रदान करता है, जो पारंपरिक प्रणालियों में आवश्यक जटिलता, ट्यूनिंग और एकत्रीकरण के बिना स्थानिक और गैर-स्थानिक डेटा दोनों के टेरासेल, जटिल क्वेरी प्रसंस्करण की सुविधा प्रदान करता है।

अपडेट करें

मैं यह उल्लेख करना भूल गया कि नेत्जेजा बेयस प्रमेय का भारी लाभ उठाता है । यहां वीडियो का एक संग्रह है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.