क्या बेहतर भविष्यवाणी करने वाले मॉडल के निर्माण में मदद करना पसंद है?


9

मंथन के कार्य के लिए मैं विचार कर रहा था:

  1. डेटा के लिए k समूहों की गणना करें
  2. प्रत्येक क्लस्टर के लिए k मॉडल व्यक्तिगत रूप से बनाएं।

इसके लिए तर्क यह है कि यह साबित करने के लिए कुछ भी नहीं है कि उप-जनसंख्या की आबादी समरूप है, इसलिए यह मानने के लिए उचित है कि डेटा-जनरेट करने की प्रक्रिया भिन्न "समूहों" के लिए भिन्न हो सकती है

मेरा प्रश्न यह है कि क्या यह एक उपयुक्त विधि है? क्या यह किसी भी चीज का उल्लंघन करता है, या इसे किसी कारण से बुरा माना जाता है? यदि हां, तो क्यों?

यदि नहीं, तो क्या आप उस मुद्दे पर कुछ सर्वोत्तम प्रथाओं को साझा करेंगे? और दूसरी बात - क्या यह आमतौर पर मॉडल ट्री की तुलना में प्रीक्लिस्टिंग करना बेहतर या बुरा होता है (जैसा कि लीफ़्स में मॉडल वाले Witten, फ्रैंक - वर्गीकरण / रिग्रेशन ट्री में परिभाषित किया गया है। सहज रूप से ऐसा लगता है कि निर्णय-ट्री चरण केवल क्लस्टरिंग का एक और रूप है, लेकिन idk अगर यह "सामान्य" क्लस्टरिंग पर कोई लाभ है।)।

जवाबों:


3

क्लस्टरवाइज़ रिग्रेशन नामक एक विधि है जो इसी तरह की समस्या को हल करती है (पहले क्लस्टर डेटा और फिर प्रेडिक्टिव मॉडल बनाती है)। उदाहरण के लिए देखें


1
मैंने इसे यहां ऊपर देखा: tandfonline.com/doi/abs/10.1080/00273170701836653 और सार में निम्न पाया गया: "n कुछ मामलों में, प्रतिक्रिया चर में अधिकांश बदलाव वस्तुओं को क्लस्टर करके समझाया गया है, जिसके द्वारा थोड़ा अतिरिक्त लाभ प्रदान किया गया है। भीतर-क्लस्टर प्रतिगमन मॉडल। तदनुसार, क्लस्टरवाइज प्रतिगमन के साथ ओवरफिटिंग की जबरदस्त संभावना है। वास्तव में आशाजनक नहीं लगता।
ज़िल

ठीक है, लेकिन वे यह नहीं कहते कि यह हमेशा विफल रहता है। मैंने कभी भी उस पद्धति का उपयोग नहीं किया है, मैं केवल यह जानता हूं कि यह पर्यवेक्षित और अनुपयोगी दृष्टिकोण का संयोजन हो सकता है लेकिन इस पद्धति का उपयोग करने वाले कागजात की एक छोटी संख्या है।
मिरोस्लाव सबो

इसके अलावा, मेरे द्वारा पाए गए अधिकांश एप्लिकेशन मार्केटिंग और वित्त के बारे में हैं, इसलिए शायद यह विशेष रूप से इस तरह के डेटा के लिए उपयुक्त है।
मिरोस्लाव सबो

1
यह विपणन के क्षेत्र के लिए बहुत सहज लगता है - मंथन, क्रॉस / अपसेल।
ज़ील

2

दो बिंदु जो टिप्पणी करने के लिए बहुत लंबे हैं:

  • शुद्ध क्लस्टर्स (यानी केवल एक वर्ग के मामलों वाले) प्रति से कोई समस्या नहीं हैं: इसलिए प्रत्येक वर्ग को एक- दूसरे के सभी वर्गों से स्वतंत्र क्लास -क्लास मॉडल कहा जाता है। वे इससे पूरी तरह निपट सकते हैं।

  • हालाँकि, यदि डेटा क्लस्टर इस तरह से होता है कि कक्षाएं काफी अलग हो जाती हैं, यानी क्लस्टर अधिक शुद्ध होते हैं, तो इसका मतलब है कि एक बहुत मजबूत संरचना मौजूद है, एक संरचना जो क्लस्टर विश्लेषण वर्ग लेबल द्वारा मार्गदर्शन के बिना खोजने में सक्षम है। इसका अर्थ है कि क्लस्टर विश्लेषण द्वारा उपयोग किए गए समान दूरी के आधार पर कुछ प्रकार के क्लासीफायर जैसे निकटतम पड़ोसी तरीके डेटा के लिए उपयुक्त हैं।

  • दूसरी संभावना, ऐसी परिस्थितियाँ जहाँ क्लस्टर शुद्ध नहीं होते हैं, लेकिन क्लस्टर और वर्गीकरण विधियों का संयोजन पेड़ों के लिए उपयुक्त हो सकता है। पेड़ क्लस्टरिंग का हिस्सा करेगा (और शुद्ध नोड्स को एक समस्या नहीं माना जाता है।) यहां एक कृत्रिम उदाहरण है, XOR-problem का 2 क्लस्टर संस्करण:
    XOR क्लस्टर

  • शुद्ध क्लस्टर होने के जोखिम को चलाने के बिना क्लस्टर जानकारी को शामिल करने का एक और तरीका होगा कि एक फीचर जनरेशन स्टेप के रूप में क्लस्टरिंग का उपयोग किया जाए: क्लस्टर विश्लेषण के परिणाम को डेटा मैट्रिक्स में नए संस्करण के रूप में जोड़ें।

  • आप पूछते हैं कि क्या यह किसी कारण से खराब है: एक नुकसान यह है कि यह तालमेल स्वतंत्रता की कई डिग्री के साथ मॉडल की ओर जाता है। ओवरफिट न करने के लिए आपको विशेष रूप से सावधान रहना होगा।

  • मॉडल-आधारित पेड़ों पर एक नज़र डालें, उदाहरण के लिए mbq का जवाब यहाँ मुझे लगता है कि वे एक अवधारणा को लागू करते हैं जो कि व्हार्ट लुक के लिए बहुत करीब है। उन्हें जंगल के रूप में भी लागू किया जा सकता है: उदाहरण के लिए आर पैकेज मोबाइल


1

मैं इन दिनों इसी तरह की समस्या से जूझ रहा हूं। क्लासिफायर बनाने के लिए मेरे पास सैकड़ों फीचर हैं। विभिन्न मॉडलों (पूर्व: यादृच्छिक वन, ढाल को बढ़ावा देने, आदि ...) की कोशिश करने के बाद, मुझे अभी भी कम सटीकता / याद मिली। इसलिए मैं कुछ क्लस्टरिंग करने की कोशिश कर रहा हूं, फिर विभिन्न समूहों में क्लासिफायर का निर्माण करें। मेरी चिंता यह है, जैसे कि एनी-मूस कहता है, अगर मैं सभी सूचनाओं को क्लस्टरिंग में उपयोग करता हूं तो मुझे क्लासिफायर से अधिक जानकारी कैसे मिल सकती है? तो यहां मैं आगे क्या करने वाला हूं:

  1. क्लस्टरिंग करने के लिए कुछ सुविधाओं (पूर्व ज्ञान के अनुसार कम) का उपयोग करें।
  2. सहपाठियों को प्रशिक्षित करने के लिए अन्य सुविधाओं (अधिक) का उपयोग करें।

मुझे लगता है कि यह जटिलता को कम करने में भी मदद कर सकता है, काश यह मदद करता।


1

इमारत क्लस्टर और फिर संगत मॉडल बिल्कुल संभव है। पैथोलॉजिकल केस में टिप्पणी में कहा गया है कि क्लस्टर्स के परिणामों को पूरी तरह से अलग करने से क्लासिफायर के लिए कठिनाइयों का सामना करना पड़ेगा, यह एक सैद्धांतिक समस्या है, लेकिन एक जो मुझे लगता है कि संभावना नहीं है (विशेषकर एक उच्च आयामी मामले में)। इसके अलावा, यदि आप ऐसे समूहों का निर्माण कर सकते हैं, तो आप केवल भविष्यवाणी के लिए उन समूहों का उपयोग कर सकते हैं!

इसके अलावा, अगर प्रक्रिया के साथ शुरू होता है N नमूने, वर्गीकरण केवल उपयोग कर सकते हैं N/नमूने हैं। इस प्रकार, एक अधिक शक्तिशाली दृष्टिकोण एक एकल वर्गीकरणकर्ता के निर्माण में समूहों का उपयोग करना होगा जो कि प्रतिगमन के मिश्रण का उपयोग करके समूहों में विविधता को शामिल करता है। मॉडल-आधारित क्लस्टरिंग में, कोई मानता है कि डेटा मिश्रण वितरण से उत्पन्न होता हैYiN(μi,σi2) कहाँ पे मैं=1 संभाव्यता के साथ π तथा मैं=2 संभाव्यता के साथ 1-π तथा μ1 μ2 तथा σ12σ22। एक मिश्रण प्रतिगमन एक विस्तार है जो किसी को सह-चर पर निर्भर होने के रूप में डेटा को मॉडल करने की अनुमति देता है;μमैं के साथ बदल दिया गया है βमैंएक्समैं, जहां βमैंअनुमान लगाना होगा। हालांकि यह उदाहरण एक अविभाज्य, गाऊसी मामले के लिए है, ढांचा कई डेटा को समायोजित कर सकता है (बहुपद-लॉगिट श्रेणीबद्ध चर के लिए उपयुक्त होगा)। Flexmix पैकेज आर के लिए एक अधिक विस्तृत विवरण प्रदान करता है और निश्चित रूप से एक अपेक्षाकृत आसान और विस्तृत रास्ते से इस दृष्टिकोण को लागू करने।

वैकल्पिक रूप से, एक भेदभावपूर्ण सेटिंग में, कोई क्लस्टर असाइनमेंट (हार्ड या सॉफ्ट) को विकल्प के वर्गीकरण एल्गोरिदम को प्रशिक्षित करने के लिए एक सुविधा के रूप में शामिल कर सकता है (जैसे NB, ANN, SVM, RF, आदि)


0

ठीक है, अगर आपके क्लस्टर वास्तव में अच्छे हैं, तो आपके क्लासीफायर बकवास होंगे। क्योंकि उनके प्रशिक्षण डेटा में पर्याप्त डायवर्सन नहीं है।

कहते हैं कि आपके समूह सही हैं अर्थात शुद्ध हैं। तुम भी ठीक से एक क्लासिफायरिएड अब वहाँ प्रशिक्षित नहीं कर सकते। क्लासीफायर को सकारात्मक और नकारात्मक उदाहरणों की आवश्यकता है!

रैंडम फॉरेस्ट सटीक विपरीत करने में बहुत सफल होते हैं। वे डेटा का एक यादृच्छिक नमूना लेते हैं, उस पर एक क्लासिफायर ट्रेन करते हैं, और फिर सभी प्रशिक्षित क्लासिफायर का उपयोग करते हैं।

क्लस्टरिंग का उपयोग करने के लिए क्या काम हो सकता है, और फिर प्रत्येक जोड़ी समूहों पर एक क्लासिफायर ट्रेन करें , कम से कम यदि वे पर्याप्त असहमत हैं (यदि एक वर्ग दो समूहों में विभाजित है, तो आप अभी भी वहां एक क्लासिफायर ट्रेन नहीं कर सकते हैं!)


क्लस्टरिंग का उद्देश्य "शुद्ध" क्लस्टर ढूंढना नहीं है, अर्थात जो मेरे लक्ष्य चर को भेदने में भयानक हैं। क्लस्टरिंग का उद्देश्य "अन्य" क्षेत्र में समरूप समूहों को ढूंढ रहा है। एक उदाहरण देने के लिए: मुझे लगता है कि मंथन में "गुणवत्ता वाले" ग्राहक और "लागत-आशावादी" ग्राहक हैं। मुझे नहीं लगता कि मुझे यह मान लेना चाहिए कि वर्गीकरण के लिए प्रासंगिक विशेषताएं दोनों समूहों में समान हैं इसलिए मैं प्रत्येक समूह के लिए अलग मॉडल बनाना चाहता हूं। बेशक मेरे पास "गुणवत्ता" और "लागत" समूह स्पष्ट नहीं हैं, इसलिए इस तरह के समूहों को डेटा से प्राप्त करने के लिए क्लस्टरिंग के लिए विचार।
ज़ील

डेटा में किसी भी तरह का अतिरिक्त असंतुलन और सहसंबंध नुकसान पहुंचा सकता है। देखें, एक वर्गीकारक सकता है चाहता हूँ विचार "केवल गुणवत्ता" और "लागत अनुकूलन करने के लिए"। यदि उसे केवल एक समूह मिलता है, तो वह इस भेद का उपयोग नहीं कर सकता है।
QUIT है - Anony-Mousse

1
लेकिन केवल अगर आप दो-स्तरीय दृष्टिकोण करते हैं, तो पहले समूहों द्वारा वर्गीकृत करें, फिर क्लस्टर क्लासिफायरियर का मूल्यांकन करें। अन्यथा, निरंतर क्लासिफायरियर बेकार है। फिर तुम सारा बोझ कलछी पर डाल रहे हो।
है क्विट - ऐनी-मूस

1
खैर, यह है कि मैं ओपी को कैसे समझ गया।
SX32

1
आप निश्चित रूप से ऐसा कर सकते हैं, लेकिन संभावना है कि आपके क्लस्टर इतने अच्छे नहीं हैं, और आप "अतिव्यापी" क्लासिफायर के एक उचित पहनावा के साथ बेहतर हैं। जैसे रैंडमफोर्स करता है।
है क्विट - Anony-Mousse
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.