मैं सीखना चाहता हूं (डिड्यूस) मेरे डिसिमिलरिटी माप के लिए वेट एट्रिब्यूट वेटिंग जो मैं क्लस्टरिंग के लिए उपयोग कर सकता हूं।
मेरे पास वस्तुओं के जोड़े के कुछ उदाहरण हैं जो "समान" (समान क्लस्टर में होने चाहिए), साथ ही साथ वस्तुओं के जोड़े के कुछ उदाहरण जो "समान नहीं" हैं (नहीं होना चाहिए) एक ही क्लस्टर में हो)। प्रत्येक वस्तु विशेषताओं की एक संख्या है: यदि आप चाहें, तो हम एक के रूप में प्रत्येक वस्तु के बारे में सोच सकते सुविधाओं के आयामी वेक्टर, जहां प्रत्येक सुविधा के लिए एक गैर नकारात्मक पूर्णांक है। क्या एक समान / प्रसार वस्तुओं के ऐसे उदाहरणों का उपयोग करने की तकनीकें हैं जिससे उन्हें अनुमान लगाया जा सके कि एक भिन्नता माप के लिए इष्टतम सुविधा भार है?
अगर यह मदद करता है, तो मेरे आवेदन में, यह संभव है कि एक असमानता मापक सीखने पर ध्यान केंद्रित किया जाए जो कि एक भारित L2 स्रोत है:
जहां वजन ज्ञात नहीं हैं और सीखा जाना चाहिए। (या, भारित कोज्या समानता उपाय किसी तरह का भी उचित हो सकता है।) वहाँ वजन जानने के लिए अच्छा एल्गोरिदम हैं इस तरह के एक उपाय के लिए, उदाहरण दिया? या क्या समानता के उपाय / असमानता के उपाय को सीखने के लिए कोई अन्य तरीका है, जिस पर मुझे विचार करना चाहिए?
आयामों की संख्या दुर्भाग्य से बहुत बड़ी है (हजारों या उच्चतर; यह बैग-ऑफ-शब्द सुविधाओं से ली गई है)। हालांकि, मेरे पास कई हज़ारों उदाहरण हैं। मेरे पास तब सैकड़ों हज़ार ऑब्जेक्ट्स हैं जिन्हें मैं क्लस्टर करना चाहता हूं, इसलिए एक अच्छा डिसिमिलर मीट्रिक सीखने के लिए उदाहरणों से सामान्यीकरण करना महत्वपूर्ण है।
मैं इकट्ठा करता हूं कि यह अर्ध-पर्यवेक्षित क्लस्टरिंग के मैला में गिरता है, और ऐसा लगता है कि यह "समानता-अनुकूल" नस का हो सकता है, लेकिन मैं इस उद्देश्य के लिए उपयोग करने के लिए एल्गोरिदम का स्पष्ट विवरण नहीं ढूंढ सका हूं।