औसत जीपीएस बिंदु ढूँढना


11

मुझे अंकों की आबादी से औसत जीपीएस बिंदु खोजने के लिए एक कार्यक्रम लिखने की आवश्यकता है।

व्यवहार में निम्नलिखित होता है:

  • हर महीने एक व्यक्ति एक ही स्थिर संपत्ति का एक जीपीएस बिंदु रिकॉर्ड करता है।
  • जीपीएस की प्रकृति के कारण, ये बिंदु हर महीने थोड़ा भिन्न होते हैं।
  • कभी-कभी व्यक्ति एक गलती को पूरी तरह से अलग स्थान पर गलत आश्वासन देता है।
  • प्रत्येक GPS बिंदु में एक निश्चित भार ( HDOP ) होता है जो दर्शाता है कि वर्तमान GPS डेटा कितना सही है। बेहतर HDOP मूल्यों के साथ जीपीएस अंक कम लोगों पर पसंद किए जाते हैं।

मैं निम्नलिखित कैसे निर्धारित करूं:

  • 2 मानों के साथ डेटा के साथ सौदा करें। (लोगों की आबादी में औसत आयु का पता लगाएं)
  • आउटलेर का निर्धारण करें। नीचे दिए गए उदाहरण में [-28.252, 25.018] और [-28.632, 25.219] होगा।
  • बाहरी लोगों को बाहर करने के बाद, औसत जीपीएस बिंदु ढूंढें इसमें यह [-28.389, 25.245] हो सकता है।
  • यह एक बोनस होगा यदि एचडीओपी मूल्य द्वारा प्रदान किए गए "वजन" को प्रत्येक बिंदु के लिए काम कर सकते हैं।

वैकल्पिक शब्द


1
यह उत्तर आपको अंकों के औसत के साथ आपकी मदद करने के लिए पर्याप्त है, आँकड़े.स्टैकएक्सचेंज.com / questions / 2493 / , उस फ्रेम में वजन को शामिल करना सरल है। मुझे लगता है कि आप आउटलेर्स की पहचान करने के लिए कुछ सरल अनुमानों का उपयोग करने में सक्षम होंगे, लेकिन इससे आपको अधिक अनुभवजन्य दृष्टिकोण प्राप्त करने में कोई दिक्कत नहीं होगी जैसे कि स्टीफन ने सुझाव दिया था।
एंडी डब्ल्यू

जवाबों:


8

बहुभिन्नरूपी डेटा के साथ समस्याओं में से एक पर निर्णय ले रहा है, और फिर व्याख्या, दूरी की गणना के लिए एक उपयुक्त मीट्रिक, इसलिए महालनोबिस दूरी जैसे चालाक लेकिन कुछ हद तक कठिन व्याख्या करने वाली अवधारणाएं हैं। लेकिन इस मामले में निश्चित रूप से पसंद स्पष्ट है - यूक्लिडियन दूरी । मैं एक सरल अनुमानी एल्गोरिथ्म का सुझाव देना चाहूंगा जैसे:

  1. 2 बिंदुओं के डेटा बिंदुओं (यानी (अनवीटेड)) का अर्थ (अनवीटेड) सेंट्रोइड की गणना करें
  2. सेंट्रोइड से सभी रीडिंग की यूक्लिडियन दूरी की गणना करें
  3. ऐसी किसी भी रीडिंग को छोड़ दें जो एक निश्चित दूरी से आगे हो (आपके अनुभव और तकनीक के ज्ञान के आधार पर निर्धारित की जाए, या असफल हो जाए कि थोड़ा सा ट्रायल और एरर क्रॉस-वेलिडेशन - 100 मीटर, 1 किमी, 10 किमी ??)
  4. शेष बिंदुओं के दोनों कोर्ड्स के भारित औसत की गणना करें, HDOP स्कोर (या इसके कुछ मोनोटोनिक फ़ंक्शन) के व्युत्क्रम से भारित करें - मैं प्रश्न में जुड़े विकिपीडिया पृष्ठ पर एक त्वरित नज़र रखता था और लगता है कि शायद आप ऐसा नहीं करते हैं एक समारोह लेकिन मुझे यह सुनिश्चित करने के लिए आगे अध्ययन करने की आवश्यकता होगी)

इसे और अधिक परिष्कृत बनाने के कई तरीके हैं, जैसे डाउन-वेटिंग आउटलेर या एम-एसेटर का उपयोग करने के बजाय बस उन्हें बाहर करना, लेकिन मुझे यकीन नहीं है कि इस तरह के परिष्कार वास्तव में यहां आवश्यक हैं।


3

रोब Hyndman ने हाल ही में बहुभिन्नरूपी डेटा में आउटलेर्स का पता लगाने के बारे में एक सवाल पेश किया । उत्तर कुछ संभावित दृष्टिकोण प्रदान कर सकते हैं (और अन्यथा, आप 2-डी आउटलेर को एक अलग प्रश्न में खोजने का सवाल रखना चाहते हैं)।

और आप अपने शेष जीपीएस डेटा घटक को औसत कर सकते हैं - सभी पहले घटकों को जोड़ सकते हैं और अंकों की संख्या से विभाजित कर सकते हैं, जो आपको औसत का पहला घटक देगा। दूसरे घटकों के साथ भी।

यह औसत HDOP द्वारा भारित किया जा सकता है। पहले घटक के उत्पादों को जोड़ दें, इसी HDOP स्कोर के साथ गुणा करें, और HDOP स्कोर के योग से विभाजित करें। दूसरे घटकों के साथ भी।

मैं "सामान्य-वितरण" टैग को हटाने की स्वतंत्रता लूंगा ...


धन्यवाद @ स्टेफ़ान कोलासा, यह पहले से ही एक समाधान खोजने में मदद करेगा।
फिलिप फूरी

2

एचडीओपी को स्वतंत्र चर कहें। बाद में वेटिंग के लिए इसका इस्तेमाल करें। तो आपके पास समन्वय के सेट हैं - इसे कॉल करें (X1, y1); (x2, y2), आदि ... पहले आउटलेयर की उपेक्षा करें। [(X1 * h1) + (x2 * h2) + .... + (xn * hn)] / [sum (h1, h2, ..., hn) के रूप में x सह-निर्देशांक के भारित औसत की गणना करें। जहां h1, h2, ... एचडीओपी मूल्य है। Y को-ऑर्डिनेट्स के लिए भी यही करें। यह प्रत्येक समन्वय के लिए काफी सटीक औसत मूल्य देगा।

बाहरी लोगों के साथ व्यवहार करना थोड़ा मुश्किल हो सकता है। आपको कैसे पता चलेगा कि वे आउटलेयर हैं या नहीं? कड़ाई से आपको टिप्पणियों के लिए एक सांख्यिकीय फिट निर्धारित करने की आवश्यकता होती है और एक आत्मविश्वास अंतराल के भीतर यह निर्धारित करता है कि वे वास्तविक हैं या नहीं। इस सवाल को देखते हुए ज़हर का वितरण दिमाग में आता है। लेकिन यह शायद बहुत काम है और मुझे यकीन है कि आप इसमें नहीं जाना चाहते हैं। शायद एक सन्निकटन का उपयोग करें? मान लें कि आप मानते हैं कि औसत को-ऑर्डिनेट वैल्यू उपयोग करने के लिए एक अच्छा साधन है। फिर मानक विचलन के लिए एक मूल्य निर्धारित करें। मुझे लगता है कि मानक देव या विष वितरण 1 / (औसत) है। फिर सामान्य वितरण और एक 95% विश्वास अंतराल का उपयोग करके अनुमानित। मान लीजिए कि यदि कोई अंतराल अंतराल के बाहर है (मतलब- * 1.645 * एसटी देव; मतलब + 1.645 * एसटी देव) तो यह एक बाहरी है? इसे विदा दो।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.