मल्टीवीरेट मशीन लर्निंग कैसे करें? (कई आश्रित चर की भविष्यवाणी)


9

मैं उन वस्तुओं के समूहों की भविष्यवाणी करना चाह रहा हूं जो कोई खरीदेगा ... यानी, मेरे पास कई, कॉलिनियर पर निर्भर चर हैं।

7 वस्तुओं में से प्रत्येक को खरीदने की संभावना की भविष्यवाणी करने के लिए 7 या इतने स्वतंत्र मॉडल के निर्माण के बजाय, और फिर परिणामों को मिलाकर, मुझे किन तरीकों पर ध्यान देना चाहिए कि एक मॉडल है जो 7 संबंधित, आश्रित चर के बीच संबंधों के लिए खाता है ( वे चीजें खरीद सकते हैं)।

मैं एक प्रोग्रामिंग भाषा के रूप में आर का उपयोग कर रहा हूं, इसलिए किसी भी आर विशिष्ट सलाह की सराहना की जाती है।

जवाबों:


7

आपके विवरण के आधार पर, यह प्रतीत होता है कि एक बहुराष्ट्रीय उपस्कर प्रतिगमन उपयुक्त है। अपने परिणाम मान लिया जाये कि 7 स्तरों (7 खरीदने विकल्पों में से एक) के साथ एक कारक है, तो आप जल्दी से सदस्यता एक बहुपद रसद प्रतिगमन मॉडल (देखें का उपयोग कर भविष्यवाणी कर सकते हैं ?multinomमें nnetअनुसंधान में पैकेज)। यदि आपके परिणाम को 7 स्तरों के साथ एक कारक में जोड़ा नहीं जा सकता है, तो बहु-विषयक लॉजिस्टिक प्रतिगमन को फिट करने से पहले आइटम को एक साथ समूहित करने के लिए क्लस्टर विश्लेषण की आवश्यकता होगी।


यह बहुराष्ट्रीय प्रतिगमन नहीं है। मेरे पास 7 अलग-अलग उत्पाद हैं, प्रत्येक उत्पाद में 4 कारक हैं .... स्ट्रॉबेरी, और स्ट्रॉबेरी के प्रकार हैं, और फिर दूध और विभिन्न प्रकार के दूध, और सेब और विभिन्न प्रकार के सेब हैं, और मुझे सही भविष्यवाणी करने की आवश्यकता है शॉपिंग कार्ट ... 2% दूध आदि के साथ, हरी स्ट्रॉबेरी की खेती के साथ सेब,
ब्लास्ट 00

1
मेरे पास तुम्हारा हल है! मैं बहुपद अव्यक्त वर्ग विश्लेषण की सिफारिश करूंगा, जिसमें परिणाम एक या अधिक अव्यक्त वर्गों में समूह के लिए ग्रहण किए गए कारकों का एक समूह है। इन वर्गों में सदस्यता का अनुमान बहुराष्ट्रीय लॉजिस्टिक रिग्रेशन पर आधारित है। ?poLCAइस मॉडल की फिटिंग के बारे में अधिक जानकारी के लिए R में देखें ।
22

मैं इस के माध्यम से पढ़ रहा हूँ - धन्यवाद आँकड़े। हालांकि अन्य तरीके भी होने चाहिए।
ब्लास्ट 00

विशेष रूप से, मशीन सीखने के तरीके, क्योंकि मुझे संभावना वितरण को फिट करने की आवश्यकता नहीं है / मैं एक ब्लैक बॉक्स मॉडल के साथ ठीक
हूं

ध्यान रखें कि सांख्यिकीय मॉडल का एक बड़ा सौदा वास्तव में अनपरावीकृत मशीन लर्निंग मॉडल हैं - लेकिन आप सही हैं कि हम आमतौर पर इन मॉडलों के इनपुट के बारे में परवाह करते हैं। कई इनपुट और परिणामों (और एक ब्लैक बॉक्स गुणवत्ता) के साथ पर्यवेक्षित मशीन सीखने के लिए, मैं तंत्रिका नेटवर्क ( ?nnetआर में) का सुझाव दूंगा ।
सांख्यिकीस

5

आप एक यादृच्छिक जंगल का निर्माण कर सकते हैं जहां आपकी प्रत्येक कक्षा वस्तुओं का समूह है (यानी "2% दूध के साथ खेती की गई स्ट्रॉबेरी के साथ हरे सेब")। फिर, दुकानदार की विशेषताओं या आपके भविष्यवक्ताओं के आधार पर, आप वस्तुओं के प्रत्येक समूह के लिए खरीद की अनुमानित संभावना प्रदान कर सकते हैं। मैं ऐसा करने के लिए R के randomForest पैकेज ( https://cran.r-project.org/web/packages/randomForest/index.html ) का उपयोग करूंगा ।


3

एक विकल्प उत्पाद खरीद के सभी संयोजनों की आवृत्तियों को प्राप्त करना है; कुछ सबसे सामान्य संयोजनों का चयन करें; फिर प्रत्येक व्यक्ति के चुने हुए संयोजन की भविष्यवाणी करने के लिए एक प्रतिगमन मॉडल बनाएं। उदाहरण के लिए, बाइनरी लॉजिस्टिक रिग्रेशन के साथ आप एक) व्हाइट वाइन, ब्री, स्ट्रॉबेरी और अंगूर बनाम बी) रेड वाइन, चेडर और गौडा की खरीद का अनुमान लगा सकते हैं। 2 से अधिक ऐसे संयोजनों के साथ, या यदि आप "उपरोक्त में से कोई नहीं" की श्रेणी को शामिल करना चाहते हैं, तो बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन संभवतः पसंद का तरीका होगा।

ध्यान दें कि केवल सामान्य कॉम्बो सहित इसका मतलब है कि आपके पास प्रत्येक की अधिक व्यावहारिक संख्या होगी, लेकिन आप दूसरों को छोड़कर, कम से कम इस प्रक्रिया के लिए होंगे। मैं कम से कम कुछ लोगों द्वारा चुने गए प्रत्येक कंबोज के दर्जनों बनाने वाली 7 वस्तुओं की कल्पना कर सकता था। यह संभवतः आपके नमूना आकार के लिए कई श्रेणियां हैं। इसके अलावा, अगर किसी कॉम्बो को सिर्फ कुछ लोगों द्वारा चुना जाता है, तो आपके मॉडल के साथ काम करने के लिए बहुत कम जानकारी होगी।

एक अन्य विकल्प उन वस्तुओं के कुछ सेटों तक पहुंचने के लिए क्लस्टर विश्लेषण का उपयोग करना है जो एक साथ खरीदे जाते हैं। 7 वस्तुओं के साथ, आप शायद 4 से कम समूहों को समाप्त करेंगे, जो आपके काम को आसान बना सकते हैं। यदि आप क्लस्टर विश्लेषण का प्रयास करते हैं और परिणामों को अयोग्य पाते हैं, तो कोई कारण नहीं है कि आपको उनका उपयोग करना है: बस ऊपर वर्णित आवृत्ति-आधारित दृष्टिकोण पर वापस जाएं। इस मामले में, यदि मैं आपको सही पढ़ता हूं, तो आप श्रेणियों के सबसे वर्णनात्मक और दिलचस्प सरणी की तलाश कर रहे हैं, और इसे स्थापित करने में, आपको स्वतंत्रता या कई तुलनाओं या ऐसी किसी भी चिंता के बारे में चिंता करने की आवश्यकता नहीं है जो लागू हो सकती है। यदि आप कुछ हीन परीक्षण करने में कई तरीकों की कोशिश कर रहे थे।


इस सुझाव के लिए धन्यवाद। हालांकि बहुभिन्नरूपी मशीन सीखने के तरीके होने चाहिए। Simliar कैसे आप एक "आसान" प्रतिगमन मॉडल में 2 आश्रित चर हो सकता है .. और आप सिर्फ lm (y + z ~ ...) .. मुझे लगता है कि ..
ब्लास्ट 00

0

मैं मान रहा हूं कि आप निम्न के समान स्थिति का विश्लेषण करना चाहते हैं;

Yi = f (X), जहाँ f () एक गैर-रैखिक लिंक है और X covariates का एक वेक्टर है और Yi i-th निर्भर चर है, जो प्रकृति में क्रमिक है (यदि यह स्पष्ट है Yi खिचड़ी भाषा दो से अधिक है श्रेणियां), और अपने मॉडल में कहें कि मैं = 1, 2, ... 5 और यी के प्रत्येक सहसंबद्ध है ... यदि हां, तो आप निश्चित रूप से मल्टीवेरेट प्रोबेट को नियोजित कर सकते हैं। आर, एमप्लस और एसएएस एमवीपी का अनुमान लगा सकते हैं

इसके विपरीत, आपके पास वाई = एफ (एक्स) है, और वाई (नोटिस केवल एक वाई है) श्रेणीबद्ध है और उदाहरण के लिए, एन श्रेणियां हैं ताकि एन श्रेणियों पर किए गए विकल्प अनन्य और संपूर्ण हों; आपको बहुराष्ट्रीय लॉगिट मॉडल फिट करने की आवश्यकता है। वहाँ कुछ कहा जाता है के रूप में अच्छी तरह से बहुराष्ट्रीय जांच, बहुराष्ट्रीय Logit करने के लिए simialr।

उम्मीद है की यह मदद करेगा। धन्यवाद संजय

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.