मैं कुछ सॉफ़्टवेयर पर काम कर रहा हूं, जो कई जीपीएस-आधारित रिपोर्ट से वास्तविक दुनिया के स्थानों (फ़े स्पीड कैम) को निर्धारित करना चाहिए । किसी उपयोगकर्ता को किसी स्थान की रिपोर्ट करते समय ड्राइविंग की जाएगी, इस प्रकार यह रिपोर्ट बहुत गलत है। उस समस्या को हल करने के लिए मुझे उसी स्थान के बारे में रिपोर्ट क्लस्टर करनी होगी और एक औसत की गणना करनी होगी।
मेरा प्रश्न उन रिपोर्टों को कैसे क्लस्टर करना है, के बारे में है । मैंने एक्सपेक्टेशन-मैक्सिमाइज़ेशन एल्गोरिदम और के-मतलब क्लस्टरिंग के बारे में पढ़ा , लेकिन जैसा कि मैंने समझा था कि मुझे पहले से वास्तविक स्थानों की संख्या निर्धारित करने की आवश्यकता होगी।
क्या कोई अन्य एल्गोरिदम है, जिसे वास्तविक स्थानों की सटीक संख्या की आवश्यकता नहीं है, लेकिन इसके बजाय कुछ किनारे की स्थिति (न्यूनतम न्यूनतम दूरी) का उपयोग करें?
एक रिपोर्ट में देशांतर , अक्षांश और सटीकता (मीटर में) होती है। कोई नाम या कुछ और नहीं है जो डुप्लिकेट की पहचान करने के लिए इस्तेमाल किया जा सकता है।
एक और बाधा यह हो सकती है कि यह सामान्य होगा, कि वास्तविक विश्व स्थान के लिए केवल एक रिपोर्ट है। इससे आउटलेर्स को अच्छे डेटा से अलग करना मुश्किल हो जाता है।