tl; डॉ
discrete
विसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ?categorical
विसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ?- यह उत्तर केवल परिणामों को फ़िल्टर करने के लिए असतत डेटा का उपयोग करने का सुझाव देता है।
- संभवत: अवलोकन के संभावित अवसर के साथ श्रेणी मूल्य को बदलें?
पहचान
यह मेरा पहली बार यहाँ पोस्टिंग है, इसलिए कृपया, अगर कुछ भी तकनीकी रूप से सही नहीं लगता है, या तो प्रारूपण में, या सही परिभाषा का उपयोग, मुझे यह जानने में दिलचस्पी है कि इसके बजाय क्या उपयोग किया जाना चाहिए।
आगे।
मैं हाल ही में एंड्रयू एनजी द्वारा मशीन लर्निंग क्लास का हिस्सा ले रहा हूं
विसंगति का पता लगाने के लिए हमें यह निर्धारित करने के लिए सिखाया गया है कि किसी दिए गए फ़ीचर / वैरिएबल, के लिए डेटा सेट के भीतर सामान्य / गॉसियन वितरण पैरामीटर क्या हैं , और फिर प्रशिक्षण के उदाहरण / अवलोकन मान के चुने हुए सेट की संभावना को निर्धारित करें। विशेष रूप से गाऊसी वितरण, और फिर सुविधाओं की संभावनाओं का उत्पाद लेना।
तरीका
सुविधाएँ / वैरिएबल चुनें जो हमें लगता है कि गतिविधि को प्रश्न में समझाते हैं: { x 1 , x 2 , … , x i }
प्रत्येक सुविधा के लिए गॉसियन के मापदंडों को फिट करें: σ2=1
प्रत्येक प्रशिक्षण उदाहरण के लिए, , गणना:
हम फिर एक विसंगति ( ) के रूप में झंडा देते हैं :
यह हमें वह विधि देता है जिसके साथ यह निर्धारित करने के लिए कि किसी उदाहरण के लिए और निरीक्षण की आवश्यकता है।
मेरे सवाल)
यह निरंतर चर / सुविधाओं के लिए ठीक लगता है, लेकिन असतत डेटा को संबोधित नहीं किया जाता है।
डमी चरों के बारे में क्या है, उदाहरण के लिए एक लिंग ध्वज विशेषता, संभवतः कहा जाता है [IsMale]
कि मान ? खाते में डमी सुविधा लेने के लिए क्या हम गणना करने के बजाय द्विपद वितरण का उपयोग करेंगे ?
कार रंग जैसे श्रेणीबद्ध डेटा के बारे में क्या? जबकि हम संख्यात्मक मानों के लिए रंगों को मैप कर सकते हैं, उदाहरण के लिए , इस तरह के एक श्रेणीगत विशेषता का वितरण वर्दी के करीब हो सकता है (अर्थात किसी भी रंग के समान संभावना), और आगे, जैसा भी हो संख्यात्मक मानचित्रण जो घटित होता है (अर्थात मान आदि) क्रमिक नहीं है, क्या यह सामान्य रूप से वितरित किए जाने वाले रंगों के लिए आवृत्तियों के किसी भी गैर-सामान्य वितरण को आज़माने और बदलने के लिए समझ में नहीं आता है (क्या यह भी मामला है कि यह सामान्य नहीं है? ?)? उदाहरण के लिए, मेरे लिए, यह समझ में नहीं आता कि रूपांतरित करना क्योंकि डेटा न तो निरंतर है और न ही क्रमिक है। तो शायद यह एक असतत वितरण खोजने के लिए सबसे अच्छा होगाr e d 1 l o g ( ) उस सुविधा को फिट करता है, जैसा कि गाऊसी को फिट करने के लिए डेटा को "टॉर्चर" करने के लिए है?
प्रश्न: (अद्यतन: 2015-11-24)
क्या द्विआधारी चर को एक द्विपदीय संभाव्यता वितरण के साथ मॉडल किया जा सकता है और गणना में एक और कारक बन सकता है ?श्रेणीबद्ध चरों को गॉसियन के बजाय असतत संभाव्यता वितरण के साथ प्रतिरूपित किया जाना चाहिए, और गणना में एक और कारक बन जाना चाहिए ?क्या पूरी तरह से एक और तरीका है जो इस बात को ध्यान में रखता है कि मैं यहां क्या पूछ रहा हूं कि मैं इसके बारे में और अनुसंधान / सीख सकता हूं?discrete
विसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ?categorical
विसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ?
संपादित करें: 2017-05-03
- यह उत्तर केवल परिणामों को फ़िल्टर करने के लिए असतत डेटा का उपयोग करने का सुझाव देता है।
- संभवत: अवलोकन के संभावित अवसर के साथ श्रेणी मूल्य को बदलें?