लॉजिस्टिक प्रतिगमन के लिए डेटा को विभाजित करने के साधन के रूप में क्लस्टरिंग


11

मैं एक लॉजिस्टिक रिग्रेशन मॉडल के साथ कुछ विशेषताओं के आधार पर छात्रों की सफलता या विफलता की भविष्यवाणी करने की कोशिश कर रहा हूं। मॉडल के प्रदर्शन में सुधार करने के लिए, मैंने पहले ही स्पष्ट अंतर के आधार पर छात्रों को अलग-अलग समूहों में विभाजित करने और प्रत्येक समूह के लिए अलग-अलग मॉडल बनाने के बारे में सोचा है। लेकिन मुझे लगता है कि परीक्षा द्वारा इन समूहों को पहचानना मुश्किल हो सकता है, इसलिए मैंने छात्रों को उनकी विशेषताओं पर ध्यान केंद्रित करके विभाजित करने के बारे में सोचा। क्या इस तरह के मॉडल बनाने में यह एक आम बात है? क्या आप यह सुझाव देंगे कि मैं इसे स्पष्ट समूहों (उदाहरण के लिए, पहले छात्र बनाम लौटने वाले छात्र) में तोड़ दूं और फिर उन समूहों पर क्लस्टरिंग करूं या शुरू से क्लस्टर करूं?

स्पष्ट करने का प्रयास करने के लिए:

मेरा मतलब है कि मैं समूहों में लॉजिस्टिक प्रतिगमन के लिए अपने प्रशिक्षण सेट को तोड़ने के लिए एक क्लस्टरिंग एल्गोरिथ्म का उपयोग करने पर विचार कर रहा हूं । फिर मैं उन समूहों में से प्रत्येक के लिए अलग-अलग लॉजिस्टिक रेजिमेंट करूँगा। फिर जब किसी छात्र के परिणाम की भविष्यवाणी करने के लिए लॉजिस्टिक रिग्रेशन का उपयोग किया जाता है, तो मैं यह चुनूंगा कि कौन सा मॉडल किस समूह के आधार पर उपयोग करना है।

शायद मैं एक समूह पहचानकर्ता को शामिल करके एक ही काम कर सकता था, उदाहरण के लिए, एक छात्र अगर वापस आ रहा है और एक 0 यदि नहीं।

अब आप मुझे इस बारे में सोचने लगे हैं कि क्या प्रशिक्षण डेटा सेट को क्लस्टर करना और प्रत्येक जनसंख्या के लिए अलग लॉजिस्टिक रिग्रेशन मॉडल बनाने के बजाय लॉजिस्टिक रिग्रेशन में एक सुविधा के रूप में उनके क्लस्टर लेबल का उपयोग करना फायदेमंद हो सकता है।

यदि उन छात्रों के लिए समूह पहचानकर्ता को शामिल करना उपयोगी है जो छात्रों बनाम नए छात्रों को वापस कर रहे हैं, तो क्या यह समूहों की सूची का विस्तार करने के लिए भी उपयोगी हो सकता है? ऐसा करने के लिए क्लस्टरिंग एक प्राकृतिक तरीका लगता है।

मुझे उम्मीद है कि यह स्पष्ट है ...


मुझे लगता है कि मैं समझ नहीं पा रहा हूं कि "क्लस्टरिंग" और लॉजिस्टिक रिग्रेशन मॉडल एक दूसरे को कैसे प्रभावित करेंगे या प्रभावित करेंगे। क्या आप इस संदर्भ में "क्लस्टरिंग" के बीच का अंतर समझा सकते हैं और प्रतिगमन में एक व्याख्यात्मक चर के रूप में एक समूह पहचानकर्ता सहित?
whuber

जवाबों:


4

मेरा मानना ​​है कि यदि आपके समूहों के बीच आपके आश्रित चर में महत्वपूर्ण अंतर है तो पहले क्लस्टरिंग का दृष्टिकोण निश्चित रूप से सहायक होगा। भले ही आपका चुना हुआ सीखने का एल्गोरिदम हो।

यह मेरा विचार है कि एक संपूर्ण आधार पर एक लीनियर एल्गोरिथ्म चलाने से एकत्रीकरण के निचले स्तर पर सार्थक अंतर को कवर किया जा सकता है।

सिम्पसन के विरोधाभास के बारे में किसी ने भी सुना है, यह एक गहरी समस्या का एक कठिन मामला है जहां आपके पास विभिन्न समूहों में अलग-अलग सहसंबंध हैं जो बड़े नमूना शोर और बड़े समूह के कमजोर सहसंबंधों से आच्छादित हैं।


आप सही हो सकते हैं, लेकिन मैं आपके तर्क का पालन नहीं करता। क्या आप इस बात की वकालत कर रहे हैं कि ओपी पाए गए समूहों पर अलग से एलआर चलाते हैं, कोवरिएट्स के अलावा क्लस्टर इंडेक्स को जोड़ते हैं , या कोवरिएट्स के बजाय ? यह निश्चित रूप से सच है कि वेधशाला अनुसंधान में सहसंयोजकों को w / छोड़े गए चर को भ्रमित किया जा सकता है, लेकिन क्या आप कह रहे हैं कि CA ऐसी जानकारी उत्पन्न कर सकता है जो उस चर में नहीं है जो उस पर चलाई जाती है? सिम्पसन के विरोधाभास के रूप में, सीवी पर यहां चर्चा की जाती है यदि आप रुचि रखते हैं।
गंग - मोनिका

मैं सुझाव दे रहा हूं कि असुरक्षित विश्लेषण आईवी के स्वतंत्र सेट (स्वतंत्र चर) के साथ समरूप समूहों को बाहर निकालता है। इसके बाद आप अपने आप को तय कर सकते हैं यदि आप एक ही सेट के साथ प्रगति करते हैं या एक नया सेट या एलआर के साथ अपने मॉडलिंग के अगले चरण के लिए एक संयुक्त सेट। इसका उद्देश्य 1 एलआर प्रति क्लस्टर का निर्माण और ट्यून करना है (यह देखते हुए कि क्लस्टर के अलग-अलग डीवी वैल्यू या फ्रीक्वेंसी हैं)।
5

मैंने वास्तव में लाइफ इंश्योरेंस उत्पादों को बेचने के लिए एक ले-अप मॉडल के संदर्भ में खुद को अंजाम दिया है और 3 क्लस्टर से पतला होने वाले समूहों में से 2 पर बेहतर पूर्वानुमान पाया।
क्लिंटन

मुझे आश्चर्य है कि अगर मॉडल को एक स्प्लिन शब्द की आवश्यकता हो सकती है। क्या आप कुछ डेटा, एक बुनियादी फिट, CA, और अंतिम (बेहतर) फिट w / क्लस्टर इंडिकेटर का अनुकरण शामिल कर सकते हैं? मुझे यह देखने में दिलचस्पी होगी, और यह समझने के लिए कि क्या चल रहा है, इसके साथ खेलना।
गोबर -

हाय गंग, मैं प्यार करता हूँ, लेकिन समय नहीं मिल सकता है। मुझे परिवार के साथ भारी निवेश किया गया है, अपने मॉडलिंग कौशल को सुधारने और सुधारने का काम कर रहा हूं। मैं अभी MARS मॉडलिंग के साथ काम करना शुरू कर रहा हूं और मुझे यकीन नहीं है कि यह वर्णित क्लस्टर + LR कलाकारों की टुकड़ी के समान वांछित परिणाम को संतुष्ट करेगा।
क्ले

8

आपका प्रस्तावित सामान्य दृष्टिकोण - विभिन्न बेस क्लासिफायर के लिए अलग-अलग डेटा बिंदुओं को असाइन करने के लिए अव्यक्त विभाजन का उपयोग करना - वर्गीकरण के लिए एक अच्छी तरह से शोध किया गया दृष्टिकोण है।

इन विधियों का व्यापक रूप से उपयोग नहीं किए जाने की संभावना है क्योंकि वे अपेक्षाकृत जटिल हैं और लॉजिस्टिक प्रतिगमन या एसवीएम की तुलना में अधिक समय तक चलते हैं। कई मामलों में, ऐसा लगता है कि वे बेहतर वर्गीकरण प्रदर्शन का नेतृत्व कर सकते हैं।

यहाँ कुछ संदर्भ हैं:

  • शाहबाबा, बी और नील, आर। "ड्यूरिचलेट प्रक्रिया मिश्रण का उपयोग कर नॉनलाइनियर मॉडल"

  • झू, जे। और चेन, एन। और जिंग, ईपी "वर्गीकरण के लिए अनंत अव्यक्त एसवीएम और बहु-कार्य सीखना"

  • रासमुसेन, सीई और गह्रामनी, जेड। "गॉसियन प्रक्रिया विशेषज्ञों की अनंत मिश्रण"

  • Meeds, E. और Osindero, S. "गाऊसी प्रक्रिया के विशेषज्ञों का एक वैकल्पिक अनंत मिश्रण"


1

मैं शुरू से ही स्वीकार करना चाहता हूं कि मैं क्लस्टरिंग के बारे में अपेक्षाकृत कम जानता हूं। हालाँकि, मैं आपके द्वारा वर्णित प्रक्रिया का बिंदु नहीं देखता। यदि आप सोचते हैं, उदाहरण के लिए, पहला कार्यकाल बनाम लौटने वाले छात्र भिन्न हो सकते हैं, तो एक कोवरिएट को शामिल क्यों नहीं किया जाता है जो कि अनुक्रमित करता है? इसी तरह अगर आपको लगता है कि छात्रों की एक और विशेषता प्रासंगिक है, तो आप उसे भी शामिल कर सकते हैं। यदि आप चिंतित हैं कि आपकी प्राथमिक भविष्यवक्ता के बीच संबंध और सफलता की दर भिन्न हो सकती है, तो आप उस भविष्यवक्ता और पहले कार्यकाल बनाम रिटर्निंग आदि के बीच की बातचीत को भी शामिल कर सकते हैं, आदि लॉजिस्टिक प्रतिगमन इन सवालों के समाधान के लिए अच्छी तरह से सुसज्जित है। मॉडल में शर्तें।

दूसरी ओर, जब तक आप केवल इन सुविधाओं पर क्लस्टर करते हैं, और ऐसा पहले करते हैं (प्रतिक्रिया को देखे बिना), मुझे कोई समस्या उत्पन्न नहीं होती है। मुझे संदेह है कि यह दृष्टिकोण अक्षम होगा, प्रत्येक मॉडल में कम शक्ति होगी क्योंकि यह केवल डेटा के सबसेट पर फिट है, लेकिन मुझे नहीं लगता कि यह मापदंडों को पूर्वाग्रह करेगा या परीक्षणों को अमान्य करेगा। तो मुझे लगता है कि अगर आप वास्तव में चाहते हैं तो आप यह कोशिश कर सकते हैं।

अपडेट करें:

मेरा अनुमान है कि सभी डेटा के साथ एक मॉडल को फिट करना सबसे अच्छा (यानी, सबसे कुशल) होगा। आप अपने प्राथमिक हित से परे कुछ अतिरिक्त कोवरिएट्स (जैसे कि लौटने बनाम नहीं) और एक समूहन सूचक को शामिल कर सकते हैं जिसे आपने पहले से क्लस्टर विश्लेषण चलाने के माध्यम से खोजा था। हालाँकि, अगर क्लस्टर विश्लेषण में गए कोवरिएट्स को लॉजिस्टिक रिग्रेशन मॉडल भी उपलब्ध कराया जाता है, तो मुझे यकीन नहीं है कि क्या मैं देख सकता हूं कि एलआर मॉडल में बिना कोविरेट्स के सभी शामिल हैं।क्लस्टर संकेतक। इसका एक फायदा यह भी हो सकता है कि मैं इससे परिचित नहीं हूं, क्योंकि मैं क्लस्टर विश्लेषण में विशेषज्ञ नहीं हूं, लेकिन मुझे नहीं पता कि यह क्या होगा। यह मुझे लगता है कि सीए अतिरिक्त जानकारी उत्पन्न नहीं करेगा जो पहले से ही कोवरिएट में नहीं था, और इस तरह एलआर मॉडल में कुछ भी नहीं जोड़ा जाएगा। आप इसे आज़मा सकते हैं; शायद मैं गलत हूँ। लेकिन मेरा अनुमान है कि आप स्वतंत्रता की कुछ अतिरिक्त डिग्री जला देंगे।

एक अलग तरीका यह होगा कि क्लस्टर संकेतक को एलआर मॉडल में कोवरिएट्स के बजाय प्रवेश किया जाए, जिस पर यह आधारित है। मुझे संदेह है कि यह फायदेमंद होगा। सीए एकदम सही नहीं होगा, किसी भी अन्य विश्लेषण की तुलना में कभी भी अधिक है, और इसलिए मूल कोवरिएट्स से व्युत्पन्न क्लस्टर संकेतक में जाने से कुछ मात्रा में सूचना हानि की संभावना है । (फिर से, मुझे नहीं पता कि, लेकिन मुझे बहुत संदेह है कि यह सच है।) फिर से, आप इसे दोनों तरीकों से आजमा सकते हैं और एक अकादमिक अभ्यास के रूप में तुलना कर सकते हैं, हालांकि बस बहुत सारे सामान की कोशिश करना और उस परिणाम पर समझौता करना जो सबसे अच्छा लगता है। यदि आप अपने परिणामों को गंभीरता से लेना चाहते हैं।

मैं क्लस्टर विश्लेषण पर सिर्फ कार्प नहीं करना चाहता। सामान्य रूप से उनके कई लाभ हो सकते हैं, और यहां उनके लिए एक अच्छा उपयोग हो सकता है। हालांकि, जैसा कि मैं आपकी स्थिति को समझता हूं, मुझे लगता है कि सिर्फ कोविरेट्स के साथ एक एलआर मॉडल बनाना आपको लगता है कि प्रासंगिक हो सकता है जाने का रास्ता है।


1

यदि आप लॉजिस्टिक रिग्रेशन से बंधे नहीं हैं, तो मैं सुझाव दूंगा कि आप एक रैंडम फॉरेस्ट क्लासिफायरियर का उपयोग करें, क्योंकि इसमें एक तरह का बिल्ट इन क्लस्टरिंग है। क्लस्टर के लिए निकटता मैट्रिक्स का उपयोग करने का विचार होगा। निकटवर्ती मैट्रिक्स बैग के पेड़ों के बाहर के अंश के लिए N_Obs मैट्रिक्स द्वारा N_Obs है, जहां एक ही टर्मिनल नोड में टिप्पणियों का अवलोकन किया जाता है। इसके बाद आप इसे फीचर लेवल मैट्रिक्स द्वारा एक फीचर लेवल में एग्रीगेट कर सकते हैं जहां एलिमेंट मैट्रिक्स में अंश का औसत होता है। आप तब सभी स्तरों को एक साथ जोड़ देंगे, जब वे एक सीमा को पार करेंगे और देखेंगे कि इससे आपकी भविष्यवाणी में सुधार होता है या नहीं। इष्टतम क्लस्टरिंग खोजने के लिए एक कदम-वार पुनरावृत्ति दृष्टिकोण लेना सबसे अच्छा है, लेकिन आप अन्य तरीकों से एक सीमा चुन सकते हैं। जब यह क्लस्टरिंग किया जाता है तो आप इस सुविधा को क्लस्टर लेबल से बदल सकते हैं या क्लस्टर लेबल को एक नई सुविधा के रूप में जोड़ सकते हैं। मुझे लगता है कि इस बिंदु पर आप लॉजिस्टिक प्रतिगमन पर वापस जा सकते हैं यदि आप वास्तव में चाहते थे।


0

मल्टी-सेग्मेंट मॉडल बनाते समय, मुझे लगता है कि सबसे अच्छा तरीका उन सेगमेंट को बनाना है जो अंतर्निहित वितरण में वास्तविक अंतर से बात करते हैं। प्रथम-अवधि वाले छात्र बनाम लौटने वाले छात्र एक महान उदाहरण हैं, क्योंकि इन दो आबादी के लिए भविष्यवक्ता वितरण बहुत भिन्न होगा। इससे भी महत्वपूर्ण बात, इन अंतरों की सहज व्याख्या है।


मुझे एक सहज व्याख्या का मूल्य मिलता है - यह आपको अपने मॉडल की व्याख्या करने में मदद करता है। लेकिन क्या यह सोचने का कोई कारण नहीं है कि यदि आप लोगों को उनकी समानता के आधार पर समूहों में विभाजित करते हैं, तो आपके द्वारा उपलब्ध सुविधाओं के संदर्भ में, आपको एक समान लाभ मिलेगा, भले ही समान व्याख्या के साथ न हो? मुझे लगता है कि क्लस्टरिंग के उपयोग के पीछे विचार यह है कि जब यह समूह जो श्रेणियों हम हर दिन जीवन में उपयोग करने के साथ बड़े करीने से अनुरूप नहीं की पहचान करने के लिए आता है, मशीनों मनुष्यों की तुलना में बेहतर रहे हैं ...
डेव

और, इसके अलावा, यदि आप समान छात्रों के एक सेट पर एक प्रतिगमन मॉडल को प्रशिक्षित करते हैं, तो यह मॉडल उन छात्रों की सफलता की भविष्यवाणियों में अधिक सटीक होगा, जो एक मॉडल की तुलना में छात्रों के व्यापक सेट का उपयोग करके प्रशिक्षित किया गया था।
डेव
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.