मेरे पास एक डेटासेट है जिसमें 5 विशेषताएं हैं: ए, बी, सी, डी, ई। वे सभी संख्यात्मक मूल्य हैं। घनत्व-आधारित क्लस्टरिंग करने के बजाय, मैं जो करना चाहता हूं वह डेटा को निर्णय-ट्री-जैसे तरीके से क्लस्टर करना है।
मेरा मतलब है कि दृष्टिकोण कुछ इस तरह है:
एल्गोरिथ्म डेटा को सुविधा C के आधार पर X प्रारंभिक क्लस्टर में विभाजित कर सकता है, अर्थात X क्लस्टर में छोटे C, मध्यम C, बड़े C और बहुत बड़े C मान आदि हो सकते हैं। अगला, प्रत्येक X क्लस्टर नोड्स के तहत, एल्गोरिथ्म आगे विभाजित करता है। सुविधा ए पर एल्गोरिदम में डेटा ए। एल्गोरिथ्म जारी है जब तक कि सभी सुविधाओं का उपयोग नहीं किया जाता है।
जो एल्गोरिथ्म मैंने ऊपर वर्णित किया है वह एक निर्णय-पेड़ एल्गोरिथ्म की तरह है। लेकिन मुझे इसकी निगरानी पर्यवेक्षित वर्गीकरण के बजाय अप्रकाशित क्लस्टरिंग के लिए चाहिए।
मेरे प्रश्न निम्नलिखित हैं:
- क्या ऐसे एल्गोरिदम पहले से मौजूद हैं? ऐसे एल्गोरिथ्म का सही नाम क्या है
- क्या कोई आर / अजगर पैकेज / पुस्तकालय है जिसमें इस तरह के एल्गोरिदम का कार्यान्वयन है?
CHAIDउदाहरण के लिए, पेड़ ले लो । आपको निर्भर चर चुनना होगा। इसे ए रहने दें। एल्गोरिथ्म बी, सी, डी, ई के बीच का चयन करता है, चर ए और बीन्स के साथ सबसे अधिक सहसंबंधित है (चर, यह, भविष्यवक्ता, डी) को दो या अधिक श्रेणियों में "आशावादी" कहा जाता है - ताकि सहसंबंध (श्रेणीबद्ध चर D और चर A के बीच अधिकतम है। मान लीजिए, इसने 3 समूहों, D1, D2, D3 को छोड़ दिया। अगला, D की प्रत्येक श्रेणी (समूह) के अंदर एक ही प्रक्रिया को दोहराया जाता है, और B, C के बीच सबसे अच्छा भविष्यवक्ता। , ई को इसे कम करने के लिए देखा जाता है। आदि। वास्तव में आपको यहाँ क्या पसंद नहीं है?
But I need it for unsupervised clustering, instead of supervised classificationयह कुंजी वाक्यांश बहुत संक्षिप्त है और स्पष्ट रूप से यह स्पष्ट नहीं करता है कि आप क्या चाहते हैं। इसके ऊपर आपने वर्णन किया कि मुझे एक निर्णय वृक्ष लगता है। क्या आप अब अपने इच्छित अहंकार के बारे में एक समान मार्ग दे सकते हैं?