डमी सुविधाओं के साथ विसंगति का पता लगाने (और अन्य असतत / श्रेणीबद्ध विशेषताएं)


18

tl; डॉ

  • discreteविसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ?
  • categoricalविसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ?
  • यह उत्तर केवल परिणामों को फ़िल्टर करने के लिए असतत डेटा का उपयोग करने का सुझाव देता है।
  • संभवत: अवलोकन के संभावित अवसर के साथ श्रेणी मूल्य को बदलें?

पहचान

यह मेरा पहली बार यहाँ पोस्टिंग है, इसलिए कृपया, अगर कुछ भी तकनीकी रूप से सही नहीं लगता है, या तो प्रारूपण में, या सही परिभाषा का उपयोग, मुझे यह जानने में दिलचस्पी है कि इसके बजाय क्या उपयोग किया जाना चाहिए।

आगे।

मैं हाल ही में एंड्रयू एनजी द्वारा मशीन लर्निंग क्लास का हिस्सा ले रहा हूं

विसंगति का पता लगाने के लिए हमें यह निर्धारित करने के लिए सिखाया गया है कि किसी दिए गए फ़ीचर / वैरिएबल, के लिए डेटा सेट के भीतर सामान्य / गॉसियन वितरण पैरामीटर क्या हैं , और फिर प्रशिक्षण के उदाहरण / अवलोकन मान के चुने हुए सेट की संभावना को निर्धारित करें। विशेष रूप से गाऊसी वितरण, और फिर सुविधाओं की संभावनाओं का उत्पाद लेना।xi

तरीका

सुविधाएँ / वैरिएबल चुनें जो हमें लगता है कि गतिविधि को प्रश्न में समझाते हैं: { x 1 , x 2 , , x i }xi

{x1,x2,,xi}

प्रत्येक सुविधा के लिए गॉसियन के मापदंडों को फिट करें: σ2=1

μj=1mi=1mxj(i)
σ2=1mi=1m(xj(i)μj)2

प्रत्येक प्रशिक्षण उदाहरण के लिए, , गणना: x

p(x)=j=1n p(xj;μj,σj2)

हम फिर एक विसंगति ( ) के रूप में झंडा देते हैं : y=1

y={1p(x)<ϵ0p(x)ϵ

यह हमें वह विधि देता है जिसके साथ यह निर्धारित करने के लिए कि किसी उदाहरण के लिए और निरीक्षण की आवश्यकता है।

मेरे सवाल)

यह निरंतर चर / सुविधाओं के लिए ठीक लगता है, लेकिन असतत डेटा को संबोधित नहीं किया जाता है।

डमी चरों के बारे में क्या है, उदाहरण के लिए एक लिंग ध्वज विशेषता, संभवतः कहा जाता है [IsMale]कि मान ? खाते में डमी सुविधा लेने के लिए क्या हम गणना करने के बजाय द्विपद वितरण का उपयोग करेंगे ?0,1p(x)

कार रंग जैसे श्रेणीबद्ध डेटा के बारे में क्या? जबकि हम संख्यात्मक मानों के लिए रंगों को मैप कर सकते हैं, उदाहरण के लिए , इस तरह के एक श्रेणीगत विशेषता का वितरण वर्दी के करीब हो सकता है (अर्थात किसी भी रंग के समान संभावना), और आगे, जैसा भी हो संख्यात्मक मानचित्रण जो घटित होता है (अर्थात मान आदि) क्रमिक नहीं है, क्या यह सामान्य रूप से वितरित किए जाने वाले रंगों के लिए आवृत्तियों के किसी भी गैर-सामान्य वितरण को आज़माने और बदलने के लिए समझ में नहीं आता है (क्या यह भी मामला है कि यह सामान्य नहीं है? ?)? उदाहरण के लिए, मेरे लिए, यह समझ में नहीं आता कि रूपांतरित करना क्योंकि डेटा न तो निरंतर है और न ही क्रमिक है। तो शायद यह एक असतत वितरण खोजने के लिए सबसे अच्छा होगाr e d 1 l o g ( )red1,blue2red1log() उस सुविधा को फिट करता है, जैसा कि गाऊसी को फिट करने के लिए डेटा को "टॉर्चर" करने के लिए है?

प्रश्न: (अद्यतन: 2015-11-24)

  • क्या द्विआधारी चर को एक द्विपदीय संभाव्यता वितरण के साथ मॉडल किया जा सकता है और गणना में एक और कारक बन सकता है ?p(x)
  • श्रेणीबद्ध चरों को गॉसियन के बजाय असतत संभाव्यता वितरण के साथ प्रतिरूपित किया जाना चाहिए, और गणना में एक और कारक बन जाना चाहिए ?p(x)
  • क्या पूरी तरह से एक और तरीका है जो इस बात को ध्यान में रखता है कि मैं यहां क्या पूछ रहा हूं कि मैं इसके बारे में और अनुसंधान / सीख सकता हूं?
  • discreteविसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ?
  • categoricalविसंगति का पता लगाने के दौरान डेटा से निपटने के लिए अनुशंसित तरीका क्या है ?

संपादित करें: 2017-05-03

  • यह उत्तर केवल परिणामों को फ़िल्टर करने के लिए असतत डेटा का उपयोग करने का सुझाव देता है।
  • संभवत: अवलोकन के संभावित अवसर के साथ श्रेणी मूल्य को बदलें?

<अस्वीकरण> मैं खतरनाक होने के लिए सिर्फ पर्याप्त आँकड़े पृष्ठभूमि वाला व्यक्ति हूं। </ अस्वीकरण> तो खतरनाक होने देता है .... मेरा अंतर्ज्ञान आपके साथ सहमत है कि गॉसियन गैर-निरंतर डेटा को संभालने का तरीका नहीं है। निरंतर डेटा के लिए संख्या रेखा पर एक मान का अन्य सभी मूल्यों के साथ एक अलग प्रकार का संबंध है, जो पूर्णांक रेखा, या बाइनरी वैरिएबल पर एक संख्या करता है। द्विपद वितरण द्विआधारी चर का वर्णन करते हैं। बहुराष्ट्रीय वितरण बहुराष्ट्रीय चर का वर्णन करते हैं। क्या ये सभी घातीय परिवार के सदस्य नहीं हैं?
एंग्रीस्टूडेंट - मोनिका


एक और जो किसी चर्चा में शामिल हो सकता है: विषय: श्रेणीबद्ध आउटलेयर।
एड्रियन टॉरी

pp(x;μ,σ2)=1σ2πe(xμ)22σ2

@uvts_cvs गॉसियन की संभावना घनत्व फ़ंक्शन का उपयोग किया जाता है।
एड्रियन टॉरी

जवाबों:


4

सामान्य तौर पर, दोनों असतत * और श्रेणीबद्ध विशेषताओं के लिए, यह विधि विशेष रूप से बाह्य विश्लेषण के लिए उत्तरदायी नहीं है। चूंकि श्रेणीबद्ध भविष्यवक्ताओं के साथ कोई परिमाण नहीं है, इसलिए हम इसके साथ काम कर रहे हैं:

  • वैश्विक डेटा में देखी जा रही श्रेणी की आवृत्ति
  • डेटा की उप-श्रेणियों में देखी जा रही श्रेणी की आवृत्ति

ध्यान दें कि इन गुणों में से किसी को भी अलगाव में विश्लेषण नहीं किया जा सकता है, क्योंकि आपके गौसियन विधि की आवश्यकता होती है। इसके बजाय, हमें एक ऐसी विधि की आवश्यकता होती है जो श्रेणीबद्ध विशेषताओं को संदर्भित करती है और डेटा के सहसंबंधी प्रकृति पर विचार करती है।

अग्रवाल द्वारा बाहरी विश्लेषण पर आधारित श्रेणीबद्ध और मिश्रित विशेषता डेटा के लिए कुछ तकनीकें हैं :

  • SS=Qkλk2QkTQkE=QkλkE
  • यदि आपके पास विशुद्ध रूप से श्रेणीबद्ध विशेषताएं हैं, तो एक मिश्रण मॉडल को कच्चे वर्गीकरण डेटा में फिट करें। विषम बिंदुओं में सबसे कम जेनेरिक संभावना होती है।
  • का प्रयोग करें एक गर्म एन्कोडिंग स्पष्ट भविष्यवक्ताओं के लिए और वैकल्पिक रूप से अव्यक्त चर विश्लेषण गैर स्पष्ट निरंतर मैपिंग के साथ क्रमसूचक चर के लिए **
    • गैर-एक-गर्म सुविधाओं को मानकीकृत करें (एक-गर्म सुविधाओं को पहले से ही स्पष्ट रूप से मानकीकृत किया गया है) और प्रमुख घटक विश्लेषण करें । शीर्ष प्रमुख घटकों (या एक नरम PCA दृष्टिकोण जहां eigenvectors eigenvalues ​​द्वारा भारित होते हैं) का उपयोग करते हुए आयामी गतिशीलता में कमी करें और एक विशिष्ट निरंतर बहिर्गमन विश्लेषण विधि (जैसे एक मिश्रण मॉडल या आपकी गाऊसी विधि) चलाएं
    • कोण-आधारित विश्लेषण करें। प्रत्येक अवलोकन के लिए, सभी जोड़े बिंदुओं के बीच कोसाइन समानताओं की गणना करें। इन समानताओं के सबसे छोटे संस्करण के साथ अवलोकन (जिसे "एंगल-आधारित आउटलेयर फैक्टर" के रूप में जाना जाता है) सबसे अधिक संभावना है। यह निर्धारित करने के लिए कि क्या विसंगति है, ABOF के अनुभवजन्य वितरण के अंतिम विश्लेषण की आवश्यकता हो सकती है।
    • यदि आपने आउटलेर्स को लेबल किया है: इंजीनियर डेटा (लॉजिस्टिक रिग्रेशन, एसवीएम, आदि) के लिए एक भविष्य कहनेवाला मॉडल फिट करें।

* असतत सुविधाओं को संभवतः आपके गौसियन विधि में लगभग संभाला जा सकता है। सही परिस्थितियों में, एक सुविधा को सामान्य वितरण (उदाहरण के लिए npq> 3 के साथ द्विपद यादृच्छिक चर) द्वारा अच्छी तरह से अनुमानित किया जा सकता है। यदि नहीं, तो उन्हें ऊपर वर्णित अध्यादेशों के रूप में संभालें।

** यह आपके विचार के समान है "अवलोकन के प्रतिशत अवसर के साथ श्रेणी मूल्य को बदलें"


K=1

@ अकाबाबा, उदाहरण के लिए, आप EM एल्गोरिथ्म का उपयोग करते हुए बहुराष्ट्रीय मानकों पर MLEs की गणना कर सकते हैं। बहुराष्ट्रीय आरवी की स्वतंत्रता को मानते हुए, यह दृष्टिकोण मनमाने ढंग से श्रेणीबद्ध भविष्यवक्ता सेटों के लिए सामान्यीकृत करता है। उदाहरण यहाँ
khol

0

एंड्रयू एनजी वर्ग गणित "असतत" डेटा को बहुत संभालता है जैसे यह "गैर-असतत" डेटा को संभालता है। हमें बस इतना करना है कि सामान्य वितरण मापदंडों का अनुभवजन्य अनुमान लगाना है, और यह पूरी तरह से असतत डेटा के लिए किया जा सकता है।

यदि आप इसके बारे में सोचते हैं, तो मशीन लर्निंग हमेशा असतत डेटा के साथ सौदा करती है: डेटा बिंदुओं की संख्या अनंत नहीं है और कंप्यूटर द्वारा नियंत्रित बिट्स की संख्या अनंत नहीं है।

यदि असतत डेटा बिंदुओं की एक दूसरे के बीच तुलना की जा सकती है, तो मशीन सीखने के तरीकों के लिए कोई मूलभूत अंतर नहीं है, जब कहते हैं, लंबाई: 1.15 फीट 1.34 फीट 3.4 फीट

या पेड़ पर कितनी शाखाएँ हैं: 1 2 3 5

आप फ़्लोटिंग पॉइंट या संपूर्ण संख्याओं को केवल एक ही जोड़ सकते हैं।

अब, स्पष्ट डेटा के लिए। श्रेणीबद्ध डेटा बिंदुओं की तुलना {कार बनाम मोटरसाइकिल बनाम नाव) से नहीं की जा सकती है। हम इसे कैसे संभालेंगे?

समझ बनाने के लिए श्रेणियों की संख्या कम से कम दो होनी चाहिए, अन्यथा निरंतर सुविधा में क्या बात है? 2 श्रेणियों के मामले में, हम एक श्रेणी की विशेषता को बाइनरी फीचर {0, 1} के रूप में दर्शा सकते हैं। 0 और 1 का उपयोग गणित के लिए किया जा सकता है, इसलिए ऊपर देखें।

यदि श्रेणियों (K) की संख्या [3 .. inf] है, तो हम अपनी एकल सुविधा को K बाइनरी पारस्परिक रूप से अनन्य सुविधाओं में मैप करते हैं। उदाहरण के लिए, "मोटरसाइकिल" श्रेणी बाइनरी फीचर्स {IsCar: 0, IsMotorcycle: 1, IsBoat: 0} का एक संयोजन बन जाती है, बोट पॉइंट {IsCar: 0, IsMotorcycle: 0, IsBoat: 1} और इसी तरह बन जाता है।

हम इन नई सुविधाओं से अनुभवजन्य वितरण मापदंडों का अनुमान लगा सकते हैं। हमारे पास और अधिक आयाम होंगे, बस।


1
यह डमी एन्कोडिंग की व्याख्या कर रहा है, लेकिन यह सवाल का जवाब नहीं है
Pieter
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.