एक सेट से समान आइटम का मिलान करना


10

मैं आइटम से मिलान करने का प्रयास कर रहा हूं। वस्तुओं के एक सेट को देखते हुए मैं 0 से 100 के पैमाने पर रैंक कर सकता हूं कि वे एक दूसरे के समान कैसे हैं। उदाहरण के लिए, यदि आइटम दूध है और आइटम भी दूध है, तो और बीच समानता 100% होगी। यदि सोडा है, तो और बीच समानता , शायद, 80% और इसी तरह होगी।nn1n2n1n2n3n1n3

मैं यह पता लगाने की कोशिश कर रहा हूं कि समान मदों के समूहों में वस्तुओं को कैसे समूहित किया जाए , लेकिन यह एक चुनौतीपूर्ण समस्या है। मैं निम्नलिखित मुद्दे पर चलता हूं: एक घोड़ा गाय के समान होता है, जो बकरी के समान होता है, जो कि बकरी पनीर के समान होता है, जो पनीर के समान होता है, जो पटाखे से संबंधित होता है। हालांकि, मुझे पटाखे के रूप में एक ही समूह में होने की उम्मीद नहीं होगी। प्रत्येक आइटम जोड़ी-वार सहसंबद्ध हो सकता है, लेकिन शुरुआत और अंत नहीं हो सकता है।n

कोई विचार?


विकासवादी जीव विज्ञान में इस तरह के जोड़ीदार क्लस्टरिंग के परिणामों को फ़्लोग्लेंटिक पेड़ कहा जाता है , इसलिए आप इसे अपने उपयोगी खोज शब्दों के सेट में जोड़ सकते हैं।
हार्डमैथ

जवाबों:


7

आप यहाँ क्या करना चाहते हैं, K समूहों में विभाजन N अवलोकन हैं जो समान गुणों को प्रदर्शित करते हैं। इसे क्लस्टरिंग कहा जाता है और आप यहां अधिक जानकारी पा सकते हैं ।

चूँकि आपके पास पहले से ही एक संख्यात्मक समानता उपाय है, यह मुझे के-मीन्स एल्गोरिथ्म का उपयोग करने के बारे में सोचता है, जिसमें आप कई चरणों में काम करते हैं:

  • प्रारंभिक रूप से क्लस्टर सेंट्रोइड्स को प्रारंभ करें
  • निकटतम सेंट्रोइड के अनुरूप क्लस्टर में प्रत्येक अवलोकन निर्दिष्ट करें।
  • क्लस्टर में तत्वों के नए माध्यम के रूप में केन्द्रक को अद्यतन करें।

आप अभिसरण के लिए जाँच कर सकते हैं जब सेंट्रोइड्स ने चलना बंद कर दिया है या एक निश्चित सीमा के भीतर।

यह सुनिश्चित करेगा कि प्रत्येक क्लस्टर में आइटम कुछ हद तक सहसंबद्ध हैं, और आप एल्गोरिथ्म ("के") में क्लस्टर की संख्या में वृद्धि करके अधिक महीन दाने वाले गुच्छे रख सकते हैं। समूहों की संख्या का पता लगाना प्रत्येक समस्या पर निर्भर करता है, और मैं आपको सलाह देता हूं कि आप अपनी समस्याओं के लिए मूल्यों का एक गुच्छा आज़माएं, जो एक साथ समूहीकृत होता है उसे देखें, और देखें कि क्या समझ में आता है।

उम्मीद है की वो मदद करदे।


5

मुझे लगता है कि आप जो देख रहे हैं उसे "क्लस्टर विश्लेषण" या "क्लस्टरिंग" कहा जाता है। कई अलग-अलग एल्गोरिदम मौजूद हैं। आपके मामले में, आप कुछ "कनेक्टिविटी क्लस्टरिंग" चाहते हैं, अर्थात समूह तत्व एक साथ एक संपत्ति के आधार पर जो प्रत्येक दो को जोड़ता है।

Scikits.learn (पायथन कोड) में क्लस्टरिंग एल्गोरिदम और वहां उल्लिखित संदर्भों पर एक नज़र डालें ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.