K- साधनों को ढाल वंश का उपयोग करके अनुकूलित क्यों नहीं किया जाता है?


14

मुझे पता है कि k- साधन आमतौर पर एक्सपेक्टेशन मैक्सिमाइजेशन का उपयोग करके अनुकूलित किया जाता है । हालाँकि हम इसके नुकसान फ़ंक्शन को उसी तरह से अनुकूलित कर सकते हैं जिस तरह से हम किसी अन्य को अनुकूलित करते हैं!

मुझे कुछ कागजात मिले जो वास्तव में बड़े पैमाने पर के-साधनों के लिए स्टोकेस्टिक ग्रेडिएंट वंश का उपयोग करते हैं , लेकिन मुझे मेरे प्रश्न का उत्तर नहीं मिला।

तो, क्या किसी को पता है कि क्यों है? क्या यह इसलिए है कि अपेक्षा अधिकतमकरण तेजी से परिवर्तित होता है ? क्या इसकी कोई विशेष गारंटी है? या यह एक ऐतिहासिक कारण है ?


अधिकतमकरण कदम पहले से ही संभावना ढाल (उम्मीद कदम द्वारा चुने गए मूल्यों पर सशर्त) पर चढ़ता है, है ना?
डेविड जे। हैरिस

@ डेविड जे.रिसिस मुझे नहीं लगता कि ओपी विवादित है कि ईएम जैसा व्यवहार करता है, लेकिन यह पूछ रहा है कि एक विधि का व्यापक रूप से उपयोग क्यों किया जाता है और दूसरी विधि का इतना उपयोग नहीं किया जाता है। आपकी टिप्पणी सीधे पता नहीं लगती है कि EM को क्यों पसंद किया जा सकता है।
Glen_b -Reinstate मोनिका

1
हाय @ DavidJ.Harris, यह Glen_b के रूप में है, मैं समझता हूं कि दोनों एल्गोरिदम या तो संभावना (ईएम) या लॉग संभावना (ढाल मूल) का अनुकूलन करते हैं। Google और दोस्तों में खुदाई करने के बाद, मुझे इस पेपर लिंक से मिला कि क्या यह प्रश्न पता है। अगर मुझे समझ में नहीं आता है, तो ईएमआई धीरे-धीरे वंश की तुलना में एक बेहतर समाधान हो जाता है।
elsonidoq

K- साधनों को अनुकूलित करने के लिए उद्देश्य फ़ंक्शन क्या है? क्या यह अलग है?
व्लादिस्लाव डोवगलकेस

3
यह मापदंडों (क्लस्टर साधनों) में आसानी से भिन्न है, लेकिन निश्चित रूप से क्लस्टर असाइनमेंट में नहीं है (जो कि बहुराष्ट्रीय संकेतक चर हैं)?
रूबेन वैन बर्गन

जवाबों:


7

जैसा कि ओपी का उल्लेख है, क्रमिक वंश का उपयोग करके k- साधनों को हल करना संभव है, और यह बड़े पैमाने पर समस्याओं के मामले में उपयोगी हो सकता है।

के-मीन्स (यानी लॉयड्स एल्गोरिदम) को हल करने के लिए ईएम शैली के एल्गोरिदम की व्यापकता के ऐतिहासिक कारण निश्चित रूप से हैं। लॉयड का एल्गोरिथ्म इतना लोकप्रिय है कि लोग कभी-कभी इसे "के-साधन एल्गोरिथ्म" कहते हैं, और यहां तक ​​कि इस बात से भी अनजान हो सकते हैं कि अन्य दृष्टिकोण मौजूद हैं। लेकिन, यह लोकप्रियता अवांछनीय नहीं है।

बोटाउ और बेंगियो (1995) ने दिखाया कि लॉयड का एल्गोरिथ्म न्यूटन की विधि का उपयोग करते हुए k- साधन लागत फ़ंक्शन को अनुकूलित करने के बराबर है। सामान्य अनुकूलन समस्याओं में, न्यूटन की विधि जैसी दूसरी क्रम विधियां पहले क्रम विधियों जैसे ढाल वंश की तुलना में तेजी से रूपांतरित हो सकती हैं क्योंकि वे उद्देश्य फ़ंक्शन की वक्रता के बारे में जानकारी का शोषण करते हैं (और पहले क्रम के तरीके नहीं)। प्रसिद्ध आइरिस डाटासेट पर एक प्रयोग में, उन्होंने दिखाया कि लॉयड के एल्गोरिथ्म ने वास्तव में ढाल वंश की तुलना में तेजी से अभिसरण किया। यह तुलना विभिन्न प्रकार के डेटासेट पर देखना दिलचस्प होगा।

संदर्भ:

बोटौ और बेंगियो (1995) । K- साधन एल्गोरिदम के अभिसरण गुण।


2

K-mean clustering unsupervised है, और निकटतम unsupervised तकनीक जो EM का उपयोग करती है, वह मॉडल-आधारित क्लस्टरिंग (Gaussian मिश्रण मॉडल, GMM) है। जीएमएम मॉडल-आधारित क्लस्टरिंग के साथ एक कष्टप्रद समस्या तब होती है जब कई विशेषताएं सहसंबद्ध होती हैं, जो सुविधा-आधारित सहसंयोजक (सहसंबंध) मैट्रिक्स में निकट-विलक्षणता का कारण बनती हैं। इस स्थिति में, संभावना समारोह अस्थिर हो जाता है, स्थिति सूचकांक अनंत तक पहुंचने के साथ, जिससे जीएमएम पूरी तरह से टूट जाता है।

इस प्रकार, EM और kNN के विचार को छोड़ दें - क्योंकि यह अनपेक्षित विश्लेषण के लिए सहसंयोजक (सहसंबंध) मैट्रिक्स पर आधारित है। अनुकूलन पर आपकी जांच समन मैपिंग और शास्त्रीय मीट्रिक और गैर-मीट्रिक बहु-आयामी स्केलिंग (MDS) से मिलती जुलती है। सैमोन मैपिंग व्युत्पन्न-पुनरावृत्त आधारित है, जबकि एमडीएस के विभिन्न रूप आमतौर पर पुनरावृत्त या एक-चरण ईगेंडेकोम्पोजिशन हैं, जो फिर भी एक-चरण मैट्रिक्स ऑपरेशन के दौरान अनुकूलित कर सकते हैं।

आपके अनुरोध पर फिर से देख रहे हैं: जवाब है: यह पहले से ही सैमोन मैपिंग में किया गया है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.