आपके द्वारा बताई गई समस्या को अव्यक्त वर्ग प्रतिगमन , या क्लस्टर-वार प्रतिगमन द्वारा हल किया जा सकता है , या यह सामान्यीकृत रैखिक मॉडल का विस्तार मिश्रण है जो सभी परिमित मिश्रण मॉडल , या अव्यक्त वर्ग मॉडल के व्यापक परिवार के सभी सदस्य हैं ।
यह वर्गीकरण (पर्यवेक्षित शिक्षण) और प्रतिगमन प्रतिगमन का संयोजन नहीं है , बल्कि क्लस्टरिंग (अनुपयोगी शिक्षा) और प्रतिगमन है। मूल दृष्टिकोण को बढ़ाया जा सकता है ताकि आप सहवर्ती चर का उपयोग करके वर्ग सदस्यता की भविष्यवाणी करें, जो आपको ढूंढ रहा है, उसके करीब भी बनाता है। वास्तव में, वर्गीकरण के लिए अव्यक्त वर्ग मॉडल का उपयोग वर्मंट और मैगिडसन (2003) द्वारा वर्णित किया गया था जो इस तरह के डालने के लिए सलाह देते हैं।
अव्यक्त वर्ग प्रतिगमन
यह दृष्टिकोण मूल रूप से एक परिमित मिश्रण मॉडल (या अव्यक्त वर्ग विश्लेषण ) के रूप में है
च( y| एक्स , ψ ) = Σके = १कश्मीरπकश्मीरचकश्मीर( y| एक्स , θकश्मीर)
जहां सभी मापदंडों और का एक वेक्टर है च कश्मीर मिश्रण घटकों द्वारा parametrized हैं θ कश्मीर , और अव्यक्त अनुपात के साथ प्रत्येक घटक प्रकट होता है π कश्मीर । तो विचार है कि अपने डेटा के वितरण का एक मिश्रण है है कश्मीर एक प्रतिगमन मॉडल के आधार पर कहा जा सकता है कि घटक, प्रत्येक च कश्मीर संभावना के साथ प्रदर्शित होने π कश्मीर । परिमित मिश्रण मॉडल f k की पसंद में बहुत लचीले होते हैंψ = ( π , θ )चकश्मीरθकश्मीरπकश्मीरकश्मीरचकश्मीरπकश्मीरचकश्मीर घटकों और मॉडल के विभिन्न वर्गों के अन्य रूपों और मिश्रण के लिए बढ़ाया जा सकता है (उदाहरण के लिए कारक analyzers का मिश्रण)।
सहवर्ती चर के आधार पर वर्ग के सदस्यों की संभावना की भविष्यवाणी करना
सरल अव्यक्त वर्ग प्रतिगमन मॉडल को सहवर्ती चर को शामिल करने के लिए बढ़ाया जा सकता है जो कक्षा की सदस्यता (डेटन और मैक्डर, 1998) की भविष्यवाणी करते हैं; यह भी देखें: लाइनर और लेविस, 2011; ग्रुन और लेइस्क, 2008; मैककॉचॉन, 1987; हागेनेर्स और मैककेंच, 2009)। , ऐसे मामले में मॉडल बन जाता है
च( y| एक्स , डब्ल्यू , ψ ) = Σके = १कश्मीरπकश्मीर( डब्ल्यू , α )चकश्मीर( y| एक्स , θकश्मीर)
ψwπकश्मीर( डब्ल्यू , α )
फायदा और नुकसान
इसके बारे में क्या अच्छा है, यह है कि यह एक मॉडल-आधारित क्लस्टरिंग तकनीक है, इसका क्या मतलब है कि आप मॉडल को अपने डेटा में फिट करते हैं, और ऐसे मॉडल की तुलना मॉडल की तुलना के लिए विभिन्न तरीकों का उपयोग करके की जा सकती है (संभावना-अनुपात परीक्षण, बीआईसी, एआईसी आदि)। ), इसलिए अंतिम मॉडल की पसंद सामान्य रूप से क्लस्टर विश्लेषण के साथ व्यक्तिपरक नहीं है। समस्या को क्लस्टरिंग की दो स्वतंत्र समस्याओं में तोड़ना और फिर प्रतिगमन लागू करने से पक्षपाती परिणाम हो सकते हैं और एक मॉडल के भीतर सब कुछ का आकलन करने से आप अपने डेटा का अधिक कुशलता से उपयोग कर सकते हैं।
नकारात्मक पक्ष यह है कि आपको अपने मॉडल के बारे में कई धारणाएँ बनाने की ज़रूरत है और इसके बारे में कुछ सोचा है, इसलिए यह एक ब्लैक-बॉक्स पद्धति नहीं है जो केवल डेटा लेगी और आपको इसके बारे में परेशान किए बिना कुछ परिणाम लौटाएगी। शोर डेटा और जटिल मॉडल के साथ आप मॉडल पहचानने योग्य मुद्दे भी रख सकते हैं। चूंकि ऐसे मॉडल लोकप्रिय नहीं होते हैं, इसलिए व्यापक रूप से लागू नहीं किए जाते हैं (आप महान आर पैकेजों की जांच कर सकते हैं flexmix
और poLCA
, जहां तक मुझे पता है कि यह एसएएस और कुछ हद तक Mplus में भी लागू है), जो आपको सॉफ्टवेयर पर निर्भर करता है।
उदाहरण
नीचे आप flexmix
लाइब्रेरी से ऐसे मॉडल का उदाहरण देख सकते हैं (Leisch, 2004; Grun and Leisch, 2008) दो रिग्रेशन मॉडलों के विगनेट फिटिंग मिश्रण से लेकर डेटा तक।
library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
##
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
##
## prior size post>0 ratio
## Comp.1 0.506 100 141 0.709
## Comp.2 0.494 100 145 0.690
##
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09 BIC: 1332.775
parameters(m1, component = 1)
## Comp.1
## coef.(Intercept) 14.7171662
## coef.x 9.8458171
## coef.I(x^2) -0.9682602
## sigma 3.4808332
parameters(m1, component = 2)
## Comp.2
## coef.(Intercept) -0.20910955
## coef.x 4.81646040
## coef.I(x^2) 0.03629501
## sigma 3.47505076
यह निम्नलिखित भूखंडों पर कल्पना की गई है (अंक आकार सही वर्ग हैं, रंग वर्गीकरण हैं)।
संदर्भ और अतिरिक्त संसाधन
अधिक जानकारी के लिए आप निम्नलिखित पुस्तकों और पत्रों की जांच कर सकते हैं:
वेसल, एम। और डेसारबो, डब्ल्यूएस (1995)। एक मिश्रित संभावना मॉडल सामान्यीकृत रैखिक मॉडल के लिए। वर्गीकरण का जर्नल, 12 , 21–55।
वेसल, एम। और कामाकुरा, WA (2001)। बाजार विभाजन - वैचारिक और कार्यप्रणाली नींव। क्लूवर अकादमिक प्रकाशक।
लेइस्क, एफ। (2004)। फ्लेक्समिक्स: आर। जर्नल ऑफ़ स्टैटिस्टिकल सॉफ्टवेयर में परिमित मिश्रण मॉडल और अव्यक्त ग्लास रिग्रेशन के लिए एक सामान्य ढांचा , 11 (8) , 1-18।
ग्रुन, बी और लेइस्क, एफ (2008)। FlexMix संस्करण 2: सहवर्ती चर और अलग-अलग और निरंतर मापदंडों के साथ परिमित मिश्रण।
जर्नल ऑफ़ स्टैटिस्टिकल सॉफ्टवेयर, 28 (1) , 1-35।
मैक्लाक्लन, जी। और पील, डी। (2000)। परिमित मिश्रण मॉडल। जॉन विले एंड संस।
डेटन, सीएम और मैक्डर्ड, जीबी (1988)। सहवर्ती-परिवर्तनीय अव्यक्त-वर्ग मॉडल। जर्नल ऑफ़ द अमेरिकन स्टेटिस्टिकल एसोसिएशन, 83 (401), 173-178।
लाइनर, डीए और लुईस, जेबी (2011)। poLCA: पॉलीटोमस वैरिएबल लेटेंट क्लास एनालिसिस के लिए एक आर पैकेज। जर्नल ऑफ़ स्टैटिस्टिकल सॉफ्टवेयर, 42 (10), 1-29।
मैककचेचोन, एएल (1987)। अव्यक्त वर्ग विश्लेषण। साधू।
हैगनारर्स जेए और मैककॉचॉन, एएल (2009)। एप्लाइड लेटेंट क्लास एनालिसिस। कैम्ब्रिज यूनिवर्सिटी प्रेस।
वर्मंट, जेके, और मैगिडसन, जे (2003)। वर्गीकरण के लिए अव्यक्त वर्ग मॉडल। कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण, 41 (3), 531-537।
ग्रुएन, बी और लेइस्क, एफ (2007)। प्रतिगमन मॉडल के परिमित मिश्रण के अनुप्रयोग। flexmix पैकेज विगनेट।
ग्रुएन, बी।, और लेइस्क, एफ (2007)। आर। कम्प्यूटेशनल स्टैटिस्टिक्स एंड डेटा एनालिसिस, 51 (11), 5247-5252 में सामान्यीकृत रेखीय रजिस्टरों के परिमित मिश्रणों की फिटिंग ।