मेरे पास एक डेटासेट है जिसमें 5 विशेषताएं हैं: ए, बी, सी, डी, ई। वे सभी संख्यात्मक मूल्य हैं। घनत्व-आधारित क्लस्टरिंग करने के बजाय, मैं जो करना चाहता हूं वह डेटा को निर्णय-ट्री-जैसे तरीके से क्लस्टर करना है।
मेरा मतलब है कि दृष्टिकोण कुछ इस तरह है:
एल्गोरिथ्म डेटा को सुविधा C के आधार पर X प्रारंभिक क्लस्टर में विभाजित कर सकता है, अर्थात X क्लस्टर में छोटे C, मध्यम C, बड़े C और बहुत बड़े C मान आदि हो सकते हैं। अगला, प्रत्येक X क्लस्टर नोड्स के तहत, एल्गोरिथ्म आगे विभाजित करता है। सुविधा ए पर एल्गोरिदम में डेटा ए। एल्गोरिथ्म जारी है जब तक कि सभी सुविधाओं का उपयोग नहीं किया जाता है।
जो एल्गोरिथ्म मैंने ऊपर वर्णित किया है वह एक निर्णय-पेड़ एल्गोरिथ्म की तरह है। लेकिन मुझे इसकी निगरानी पर्यवेक्षित वर्गीकरण के बजाय अप्रकाशित क्लस्टरिंग के लिए चाहिए।
मेरे प्रश्न निम्नलिखित हैं:
- क्या ऐसे एल्गोरिदम पहले से मौजूद हैं? ऐसे एल्गोरिथ्म का सही नाम क्या है
- क्या कोई आर / अजगर पैकेज / पुस्तकालय है जिसमें इस तरह के एल्गोरिदम का कार्यान्वयन है?
CHAID
उदाहरण के लिए, पेड़ ले लो । आपको निर्भर चर चुनना होगा। इसे ए रहने दें। एल्गोरिथ्म बी, सी, डी, ई के बीच का चयन करता है, चर ए और बीन्स के साथ सबसे अधिक सहसंबंधित है (चर, यह, भविष्यवक्ता, डी) को दो या अधिक श्रेणियों में "आशावादी" कहा जाता है - ताकि सहसंबंध (श्रेणीबद्ध चर D और चर A के बीच अधिकतम है। मान लीजिए, इसने 3 समूहों, D1, D2, D3 को छोड़ दिया। अगला, D की प्रत्येक श्रेणी (समूह) के अंदर एक ही प्रक्रिया को दोहराया जाता है, और B, C के बीच सबसे अच्छा भविष्यवक्ता। , ई को इसे कम करने के लिए देखा जाता है। आदि। वास्तव में आपको यहाँ क्या पसंद नहीं है?
But I need it for unsupervised clustering, instead of supervised classification
यह कुंजी वाक्यांश बहुत संक्षिप्त है और स्पष्ट रूप से यह स्पष्ट नहीं करता है कि आप क्या चाहते हैं। इसके ऊपर आपने वर्णन किया कि मुझे एक निर्णय वृक्ष लगता है। क्या आप अब अपने इच्छित अहंकार के बारे में एक समान मार्ग दे सकते हैं?