मंथन के कार्य के लिए मैं विचार कर रहा था:
- डेटा के लिए k समूहों की गणना करें
- प्रत्येक क्लस्टर के लिए k मॉडल व्यक्तिगत रूप से बनाएं।
इसके लिए तर्क यह है कि यह साबित करने के लिए कुछ भी नहीं है कि उप-जनसंख्या की आबादी समरूप है, इसलिए यह मानने के लिए उचित है कि डेटा-जनरेट करने की प्रक्रिया भिन्न "समूहों" के लिए भिन्न हो सकती है
मेरा प्रश्न यह है कि क्या यह एक उपयुक्त विधि है? क्या यह किसी भी चीज का उल्लंघन करता है, या इसे किसी कारण से बुरा माना जाता है? यदि हां, तो क्यों?
यदि नहीं, तो क्या आप उस मुद्दे पर कुछ सर्वोत्तम प्रथाओं को साझा करेंगे? और दूसरी बात - क्या यह आमतौर पर मॉडल ट्री की तुलना में प्रीक्लिस्टिंग करना बेहतर या बुरा होता है (जैसा कि लीफ़्स में मॉडल वाले Witten, फ्रैंक - वर्गीकरण / रिग्रेशन ट्री में परिभाषित किया गया है। सहज रूप से ऐसा लगता है कि निर्णय-ट्री चरण केवल क्लस्टरिंग का एक और रूप है, लेकिन idk अगर यह "सामान्य" क्लस्टरिंग पर कोई लाभ है।)।