संदर्भ: मैं एक ऐसी प्रणाली विकसित कर रहा हूं, जो कि टाइप करने योग्य डेटा को छानने के लिए नैदानिक डेटा का विश्लेषण करती है जो कि टाइपोस हो सकती है।
मैंने अब तक क्या किया:
पठनीयता की मात्रा निर्धारित करने के लिए, मेरा अब तक का प्रयास डेटा को सामान्य करने का था और फिर सेट डी (= प्रशिक्षण सेट) में ज्ञात डेटा बिंदुओं की दूरी के आधार पर बिंदु p के लिए एक संभाव्यता मान की गणना करें:
उस परिमाण के साथ, मैं तब एक दहलीज का चयन कर सकता हूं जो प्रशंसनीय डेटा को अनुमानित डेटा से अलग करता है। मैं अजगर / सुन्न का उपयोग कर रहा हूँ।
मेरी समस्याएं:
- यह एल्गोरिथ्म स्वतंत्र आयामों का पता नहीं लगा सकता है। आदर्श रूप में, मैं एल्गोरिथ्म में रिकॉर्ड के बारे में जो कुछ भी जानता हूं उसे डाल सकता हूं और यह खुद ही पता लगा सकता हूं कि आयाम एक्स रिकॉर्ड की बहुलता को प्रभावित नहीं करता है।
- एल्गोरिथ्म वास्तव में असतत मूल्यों जैसे बुलियन या चुनिंदा इनपुट के लिए काम नहीं करता है। उन्हें निरंतर मूल्यों पर मैप किया जा सकता है, लेकिन यह काउंटर-सहज ज्ञान युक्त है कि Select 1, Select 3 की तुलना में Select 2 के करीब है।
सवाल:
इस कार्य के लिए मुझे किस प्रकार के एल्गोरिदम को देखना चाहिए? निकटतम पड़ोसी आधारित, क्लस्टरिंग आधारित और सांख्यिकीय दृष्टिकोण सहित विकल्पों में से एक टन प्रतीत होता है। इसके अलावा, मुझे ऐसे कागजात खोजने में परेशानी होती है जो इस जटिलता के विसंगति का पता लगाते हैं।
किसी भी सलाह बहुत सराहना की है।
[संपादित करें] उदाहरण:
मान लीजिए कि डेटा में एक व्यक्ति की ऊंचाई, एक व्यक्ति का वजन और टाइमस्टैम्प शामिल है - तो यह 3 डी-डेटा है। वजन और ऊंचाई सहसंबद्ध हैं, लेकिन टाइमस्टैम्प पूरी तरह से स्वतंत्र है। अगर मैं सिर्फ यूक्लिडियन दूरियों पर विचार करता हूं, तो मुझे अपने अधिकांश क्रॉस सत्यापन डेटा को फिट करने के लिए एक छोटी सी सीमा चुननी होगी। आदर्श रूप से, एल्गोरिथ्म सिर्फ टाइमस्टैम्प आयाम को अनदेखा करेगा, क्योंकि यह निर्धारित करना अप्रासंगिक है कि कोई रिकॉर्ड प्रशंसनीय है, क्योंकि टाइमस्टैम्प किसी भी तरह से अन्य आयामों के साथ संबंध नहीं रखता है। किसी भी टाइमस्टैम्प प्रशंसनीय है।
दूसरी ओर, कोई भी ऐसे उदाहरण बना सकता है जहां टाइमस्टैम्प मायने रखता है। उदाहरण के लिए यह हो सकता है कि सुविधा X के लिए मान Y एक निश्चित तिथि से पहले मापा जाता है, लेकिन एक निश्चित तिथि के बाद नहीं।