क्या वर्गीकरण और प्रतिगमन के संयोजन का कोई एल्गोरिथम है?


25

मैं सोच रहा था कि कोई एल्गोरिथ्म एक ही समय में वर्गीकरण और प्रतिगमन कर सकता है। उदाहरण के लिए, मैं एल्गोरिथ्म को एक क्लासिफायरियर सीखने देना चाहता हूं, और प्रत्येक लेबल के भीतर एक ही समय में , यह एक निरंतर लक्ष्य भी सीखता है। इस प्रकार, प्रत्येक प्रशिक्षण उदाहरण के लिए, इसमें एक श्रेणीगत लेबल और एक निरंतर मूल्य है।

मैं पहले एक क्लासिफायरफ़ायर प्रशिक्षित कर सकता था, और फिर प्रत्येक लेबल के भीतर एक रजिस्ट्रार को प्रशिक्षित कर सकता था, लेकिन मैं बस सोच रहा था कि अगर कोई एल्गोरिथ्म है जो दोनों कर सकता है, तो यह अद्भुत होगा।


निष्पक्ष पुनरावर्ती विभाजन पर एक नजर डालें
adrian1121

@ टिम, [परिमित-स्थिरता-मॉडल] (एक टैग जो आपने यहां इस्तेमाल किया था) में कोई अंश नहीं है। एक प्रदान करने के लिए देखभाल?
अमीबा का कहना है कि मोनिका

शुदोंग, क्या आपका मतलब "वर्गीकरण" था या आपका मतलब "क्लस्टरिंग" था? आपने वर्गीकरण के बारे में पूछा लेकिन फिर टिम के उत्तर को स्वीकार कर लिया जो कि क्लस्टरिंग के बारे में है।
अमीबा का कहना है कि मोनिका

@amoeba किया, यह बिल्कुल सही नहीं है कि शायद किसी दिन, अंश में सुधार होगा।
टिम

@amoeba मेरा मतलब है वर्गीकरण। Tims उत्तर कुछ करीब है। कोई अन्य उत्तर नहीं है। शायद मुझे थोड़ा इंतजार करना चाहिए?
शुदॉन्ग

जवाबों:


35

आपके द्वारा बताई गई समस्या को अव्यक्त वर्ग प्रतिगमन , या क्लस्टर-वार प्रतिगमन द्वारा हल किया जा सकता है , या यह सामान्यीकृत रैखिक मॉडल का विस्तार मिश्रण है जो सभी परिमित मिश्रण मॉडल , या अव्यक्त वर्ग मॉडल के व्यापक परिवार के सभी सदस्य हैं

यह वर्गीकरण (पर्यवेक्षित शिक्षण) और प्रतिगमन प्रतिगमन का संयोजन नहीं है , बल्कि क्लस्टरिंग (अनुपयोगी शिक्षा) और प्रतिगमन है। मूल दृष्टिकोण को बढ़ाया जा सकता है ताकि आप सहवर्ती चर का उपयोग करके वर्ग सदस्यता की भविष्यवाणी करें, जो आपको ढूंढ रहा है, उसके करीब भी बनाता है। वास्तव में, वर्गीकरण के लिए अव्यक्त वर्ग मॉडल का उपयोग वर्मंट और मैगिडसन (2003) द्वारा वर्णित किया गया था जो इस तरह के डालने के लिए सलाह देते हैं।

अव्यक्त वर्ग प्रतिगमन

यह दृष्टिकोण मूल रूप से एक परिमित मिश्रण मॉडल (या अव्यक्त वर्ग विश्लेषण ) के रूप में है

(y|एक्स,ψ)=Σकश्मीर=1कश्मीरπकश्मीरकश्मीर(y|एक्स,θकश्मीर)

जहां सभी मापदंडों और का एक वेक्टर है कश्मीर मिश्रण घटकों द्वारा parametrized हैं θ कश्मीर , और अव्यक्त अनुपात के साथ प्रत्येक घटक प्रकट होता है π कश्मीर । तो विचार है कि अपने डेटा के वितरण का एक मिश्रण है है कश्मीर एक प्रतिगमन मॉडल के आधार पर कहा जा सकता है कि घटक, प्रत्येक कश्मीर संभावना के साथ प्रदर्शित होने π कश्मीर । परिमित मिश्रण मॉडल f k की पसंद में बहुत लचीले होते हैंψ=(π,θ)कश्मीरθकश्मीरπकश्मीरकश्मीरकश्मीरπकश्मीरकश्मीर घटकों और मॉडल के विभिन्न वर्गों के अन्य रूपों और मिश्रण के लिए बढ़ाया जा सकता है (उदाहरण के लिए कारक analyzers का मिश्रण)।

सहवर्ती चर के आधार पर वर्ग के सदस्यों की संभावना की भविष्यवाणी करना

सरल अव्यक्त वर्ग प्रतिगमन मॉडल को सहवर्ती चर को शामिल करने के लिए बढ़ाया जा सकता है जो कक्षा की सदस्यता (डेटन और मैक्डर, 1998) की भविष्यवाणी करते हैं; यह भी देखें: लाइनर और लेविस, 2011; ग्रुन और लेइस्क, 2008; मैककॉचॉन, 1987; हागेनेर्स और मैककेंच, 2009)। , ऐसे मामले में मॉडल बन जाता है

(y|एक्स,w,ψ)=Σकश्मीर=1कश्मीरπकश्मीर(w,α)कश्मीर(y|एक्स,θकश्मीर)

ψwπकश्मीर(w,α)

फायदा और नुकसान

इसके बारे में क्या अच्छा है, यह है कि यह एक मॉडल-आधारित क्लस्टरिंग तकनीक है, इसका क्या मतलब है कि आप मॉडल को अपने डेटा में फिट करते हैं, और ऐसे मॉडल की तुलना मॉडल की तुलना के लिए विभिन्न तरीकों का उपयोग करके की जा सकती है (संभावना-अनुपात परीक्षण, बीआईसी, एआईसी आदि)। ), इसलिए अंतिम मॉडल की पसंद सामान्य रूप से क्लस्टर विश्लेषण के साथ व्यक्तिपरक नहीं है। समस्या को क्लस्टरिंग की दो स्वतंत्र समस्याओं में तोड़ना और फिर प्रतिगमन लागू करने से पक्षपाती परिणाम हो सकते हैं और एक मॉडल के भीतर सब कुछ का आकलन करने से आप अपने डेटा का अधिक कुशलता से उपयोग कर सकते हैं।

नकारात्मक पक्ष यह है कि आपको अपने मॉडल के बारे में कई धारणाएँ बनाने की ज़रूरत है और इसके बारे में कुछ सोचा है, इसलिए यह एक ब्लैक-बॉक्स पद्धति नहीं है जो केवल डेटा लेगी और आपको इसके बारे में परेशान किए बिना कुछ परिणाम लौटाएगी। शोर डेटा और जटिल मॉडल के साथ आप मॉडल पहचानने योग्य मुद्दे भी रख सकते हैं। चूंकि ऐसे मॉडल लोकप्रिय नहीं होते हैं, इसलिए व्यापक रूप से लागू नहीं किए जाते हैं (आप महान आर पैकेजों की जांच कर सकते हैं flexmixऔर poLCA, जहां तक ​​मुझे पता है कि यह एसएएस और कुछ हद तक Mplus में भी लागू है), जो आपको सॉफ्टवेयर पर निर्भर करता है।

उदाहरण

नीचे आप flexmixलाइब्रेरी से ऐसे मॉडल का उदाहरण देख सकते हैं (Leisch, 2004; Grun and Leisch, 2008) दो रिग्रेशन मॉडलों के विगनेट फिटिंग मिश्रण से लेकर डेटा तक।

library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
## 
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
## 
##        prior size post>0 ratio
## Comp.1 0.506  100    141 0.709
## Comp.2 0.494  100    145 0.690
## 
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09   BIC: 1332.775 
parameters(m1, component = 1)
##                      Comp.1
## coef.(Intercept) 14.7171662
## coef.x            9.8458171
## coef.I(x^2)      -0.9682602
## sigma             3.4808332
parameters(m1, component = 2)
##                       Comp.2
## coef.(Intercept) -0.20910955
## coef.x            4.81646040
## coef.I(x^2)       0.03629501
## sigma             3.47505076

यह निम्नलिखित भूखंडों पर कल्पना की गई है (अंक आकार सही वर्ग हैं, रंग वर्गीकरण हैं)।

अव्यक्त वर्ग प्रतिगमन का उदाहरण

संदर्भ और अतिरिक्त संसाधन

अधिक जानकारी के लिए आप निम्नलिखित पुस्तकों और पत्रों की जांच कर सकते हैं:

वेसल, एम। और डेसारबो, डब्ल्यूएस (1995)। एक मिश्रित संभावना मॉडल सामान्यीकृत रैखिक मॉडल के लिए। वर्गीकरण का जर्नल, 12 , 21–55।

वेसल, एम। और कामाकुरा, WA (2001)। बाजार विभाजन - वैचारिक और कार्यप्रणाली नींव। क्लूवर अकादमिक प्रकाशक।

लेइस्क, एफ। (2004)। फ्लेक्समिक्स: आर। जर्नल ऑफ़ स्टैटिस्टिकल सॉफ्टवेयर में परिमित मिश्रण मॉडल और अव्यक्त ग्लास रिग्रेशन के लिए एक सामान्य ढांचा , 11 (8) , 1-18।

ग्रुन, बी और लेइस्क, एफ (2008)। FlexMix संस्करण 2: सहवर्ती चर और अलग-अलग और निरंतर मापदंडों के साथ परिमित मिश्रण। जर्नल ऑफ़ स्टैटिस्टिकल सॉफ्टवेयर, 28 (1) , 1-35।

मैक्लाक्लन, जी। और पील, डी। (2000)। परिमित मिश्रण मॉडल। जॉन विले एंड संस।

डेटन, सीएम और मैक्डर्ड, जीबी (1988)। सहवर्ती-परिवर्तनीय अव्यक्त-वर्ग मॉडल। जर्नल ऑफ़ द अमेरिकन स्टेटिस्टिकल एसोसिएशन, 83 (401), 173-178।

लाइनर, डीए और लुईस, जेबी (2011)। poLCA: पॉलीटोमस वैरिएबल लेटेंट क्लास एनालिसिस के लिए एक आर पैकेज। जर्नल ऑफ़ स्टैटिस्टिकल सॉफ्टवेयर, 42 (10), 1-29।

मैककचेचोन, एएल (1987)। अव्यक्त वर्ग विश्लेषण। साधू।

हैगनारर्स जेए और मैककॉचॉन, एएल (2009)। एप्लाइड लेटेंट क्लास एनालिसिस। कैम्ब्रिज यूनिवर्सिटी प्रेस।

वर्मंट, जेके, और मैगिडसन, जे (2003)। वर्गीकरण के लिए अव्यक्त वर्ग मॉडल। कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण, 41 (3), 531-537।

ग्रुएन, बी और लेइस्क, एफ (2007)। प्रतिगमन मॉडल के परिमित मिश्रण के अनुप्रयोग। flexmix पैकेज विगनेट।

ग्रुएन, बी।, और लेइस्क, एफ (2007)। आर। कम्प्यूटेशनल स्टैटिस्टिक्स एंड डेटा एनालिसिस, 51 (11), 5247-5252 में सामान्यीकृत रेखीय रजिस्टरों के परिमित मिश्रणों की फिटिंग

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.