कैसे एक असमानता उपाय के लिए वजन खोजने के लिए


9

मैं सीखना चाहता हूं (डिड्यूस) मेरे डिसिमिलरिटी माप के लिए वेट एट्रिब्यूट वेटिंग जो मैं क्लस्टरिंग के लिए उपयोग कर सकता हूं।

मेरे पास वस्तुओं के जोड़े के कुछ उदाहरण हैं जो "समान" (समान क्लस्टर में होने चाहिए), साथ ही साथ वस्तुओं के जोड़े के कुछ उदाहरण जो "समान नहीं" हैं (नहीं होना चाहिए) एक ही क्लस्टर में हो)। प्रत्येक वस्तु विशेषताओं की एक संख्या है: यदि आप चाहें, तो हम एक के रूप में प्रत्येक वस्तु के बारे में सोच सकते सुविधाओं के आयामी वेक्टर, जहां प्रत्येक सुविधा के लिए एक गैर नकारात्मक पूर्णांक है। क्या एक समान / प्रसार वस्तुओं के ऐसे उदाहरणों का उपयोग करने की तकनीकें हैं जिससे उन्हें अनुमान लगाया जा सके कि एक भिन्नता माप के लिए इष्टतम सुविधा भार है?(ai,bi)(ci,di)d

अगर यह मदद करता है, तो मेरे आवेदन में, यह संभव है कि एक असमानता मापक सीखने पर ध्यान केंद्रित किया जाए जो कि एक भारित L2 स्रोत है:

d(x,y)=jαj(x[j]y[j])2.

जहां वजन ज्ञात नहीं हैं और सीखा जाना चाहिए। (या, भारित कोज्या समानता उपाय किसी तरह का भी उचित हो सकता है।) वहाँ वजन जानने के लिए अच्छा एल्गोरिदम हैं इस तरह के एक उपाय के लिए, उदाहरण दिया? या क्या समानता के उपाय / असमानता के उपाय को सीखने के लिए कोई अन्य तरीका है, जिस पर मुझे विचार करना चाहिए?αjαजे

आयामों की संख्या दुर्भाग्य से बहुत बड़ी है (हजारों या उच्चतर; यह बैग-ऑफ-शब्द सुविधाओं से ली गई है)। हालांकि, मेरे पास कई हज़ारों उदाहरण हैं। मेरे पास तब सैकड़ों हज़ार ऑब्जेक्ट्स हैं जिन्हें मैं क्लस्टर करना चाहता हूं, इसलिए एक अच्छा डिसिमिलर मीट्रिक सीखने के लिए उदाहरणों से सामान्यीकरण करना महत्वपूर्ण है।

मैं इकट्ठा करता हूं कि यह अर्ध-पर्यवेक्षित क्लस्टरिंग के मैला में गिरता है, और ऐसा लगता है कि यह "समानता-अनुकूल" नस का हो सकता है, लेकिन मैं इस उद्देश्य के लिए उपयोग करने के लिए एल्गोरिदम का स्पष्ट विवरण नहीं ढूंढ सका हूं।


बहुत ही रोचक समस्या। अगर मुझे आपकी समस्या ठीक लगती है, तो आपको इसके तत्वों के साथ मुख्य रूप से खाली मैट्रिक्स दिया जाता है, जो कि जोड़ीदार समानता या असमानता को कूटबद्ध करता है। कुछ तत्व भरे हुए हैं लेकिन अधिकांश गायब हैं। मैं पहले उस मैट्रिक्स को भरने की कोशिश करूँगा (उदाहरण के लिए निम्न-श्रेणी की धारणा का उपयोग करके)।
व्लादिस्लाव डोभालगस

@xeon, यह एक दृष्टिकोण होगा, लेकिन यह सुविधाओं की अनदेखी करता है। मेरी परिकल्पना यह है कि कुछ सुविधाएँ अत्यधिक प्रासंगिक हैं और कुछ विशेषताएँ प्रासंगिक नहीं हैं, और यह कि प्रासंगिक विशेषताओं में अंतर को देखना एक उचित असमानता मीट्रिक देता है - लेकिन हम उस मीट्रिक को कैसे खोजें? केवल मैट्रिक्स को पूरा करने की कोशिश कर रहा है जैसा कि आप सुझाव देते हैं कि इस संरचना को अनदेखा करता है और इस प्रकार हमारे पास मौजूद डेटा का पूरा लाभ नहीं उठाता है।
DW

आपका अंतिम लक्ष्य क्या है? यह सिर्फ दूरी मीट्रिक सीखना नहीं है, है ना? आप डेटा बिंदुओं को वर्गीकृत करना चाहते हैं, क्या आप नहीं हैं?
व्लादिस्लाव्स डोवलगेस

1
ऐसी चीजें हैं जो मुझे लगता है कि आपने बहुत स्पष्ट नहीं की हैं। क्या उदाहरण के पूरे जोड़े जोड़े पूर्ण बाइनरी बनाते हैं (1 = समान; 0 = असमान) मैट्रिक्स या कुछ कोशिकाओं की जानकारी गायब है? क्या मैट्रिक्स "नॉन-कॉन्ट्रैडिटरी" है - अर्थात, उदाहरण ऑब्जेक्ट्स को नॉनओवरलैपिंग वर्गों में विभाजित करता है? इसके अलावा, ध्यान दें कि कोई भी सीखने की विधि (या इसका उपयोग नहीं किया जा सकता है) आपको माप के प्रकार की सलाह देता है (जैसे कि यह L2 या L1 मानदंड, उदाहरण के लिए) क्योंकि ऐसी पसंद सैद्धांतिक है (यह विशेषता के प्रकार पर निर्भर करता है, सुविधा की अवधारणा अंतरिक्ष, आप तब उपयोग करने जा रहे हैं क्लस्टरिंग की विधि)।
ttnphns

यह यथोचित उत्तर देने के लिए व्यापक है। भारोत्तोलन, चयन और दूरस्थ कार्यों के सीखने के लिए समर्पित साहित्य की एक बड़ी मात्रा है। मुझे लगता है कि मैंने समानता सीखने पर भी एक सम्मेलन देखा है!
है क्विट - Anony-Mousse

जवाबों:


6

मशीन लर्निंग के कुछ क्षेत्रों में यह एक बड़ा मुद्दा है। मैं इससे उतना परिचित नहीं हूं जितना मैं चाहूंगा, लेकिन मुझे लगता है कि ये आपको शुरू कर देना चाहिए।

यह देखते हुए कि आपका डेटा इतना उच्च-आयामी है (और शायद विरल है?), आपको कुछ भी नहीं की आवश्यकता हो सकती है। शायद पड़ोस के घटकों का विश्लेषण शुरू करने के लिए सबसे अच्छी जगह है? यह एक भारित के विचार के सबसे करीब हैएल2 मानदंड, जैसे आपने अपने प्रश्न में सुझाव दिया है।


हाँ, डेटा विरल है। यह बेहद मददगार लग रहा है, धन्यवाद। क्या पड़ोस के घटक विश्लेषण का एक प्रकार है जहां मैट्रिक्सक्यू विकर्ण होने के लिए प्रतिबंधित है (समकक्ष) विकर्ण है)? (ऐसा लगता है कि यह मेरे प्रश्न में उल्लिखित असमानता के उपायों के वर्ग के अनुरूप हो सकता है।)
DW

मैं यह नहीं देखता कि आप उस प्रतिबंध को शामिल क्यों नहीं कर सकते। मुझे यकीन नहीं है कि अगर परिणामस्वरूप मॉडल का नाम है, हालांकि।
डेविड जे। हैरिस

1

लगाना a मैंआपकी समानता के माप में एक विशेषता पर वजन आपके डेटा सेट को स्केल करने के बराबर है1/wमैं

दूसरे शब्दों में, आप डेटा प्रीप्रोसेसिंग और स्केलिंग के बारे में पूछ रहे हैं। यह एक प्रश्न में अच्छी तरह से उत्तर दिया जाना बहुत व्यापक है। ढूंढें:

  • फीचर चयन
  • वजन बढ़ाना
  • मानकीकरण
  • आयाम में कमी
  • अन्य प्रक्षेपण तकनीक
  • अन्य दूरी के कार्य
  • "रैंक करना सीखना"

साहित्य की एक विशाल मात्रा है और यहां तक ​​कि सम्मेलन ट्रैक भी इसी को समर्पित हैं। आरंभ करने के लिए कुछ तरीके:

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.