हाइपरपरिमेट ट्यूनिंग के लिए बायेसियन ऑप्टिमाइज़ेशन पर कण झुंड अनुकूलन का लाभ?


18

एमएल हाइपरपैरमीटर ट्यूनिंग के लिए बायेसियन ऑप्टिमाइज़ेशन (1) पर पर्याप्त समकालीन शोध है । यहां ड्राइविंग प्रेरणा यह है कि कम से कम संख्या में डेटा बिंदुओं के बारे में सूचित विकल्प बनाने के लिए आवश्यक है कि कौन से बिंदुओं का प्रयास करने के लिए सार्थक हैं (उद्देश्य फ़ंक्शन कॉल महंगे हैं, इसलिए कम करना बेहतर है) क्योंकि प्रशिक्षण एक मॉडल समय-गहन है - कुछ मामूली SVM की समस्याओं को बढ़ाएँ, जिन पर मैंने काम किया है उन्हें पूरा होने में मिनट और घंटे लग सकते हैं।

दूसरी ओर, Optunity उसी कार्य के लिए संबोधित करने के लिए एक कण झुंड कार्यान्वयन है। मैं पीएसओ से अत्यधिक परिचित नहीं हूं, लेकिन ऐसा लगता है कि हाइपरपरमीटर सतह का आकलन करने के लिए बड़ी संख्या में परीक्षण बिंदुओं की आवश्यकता होती है, और इसलिए उद्देश्य फ़ंक्शन मूल्यांकन की आवश्यकता के संदर्भ में यह कम कुशल होना चाहिए।

क्या मुझे एक महत्वपूर्ण विवरण याद आ रहा है जो मशीन सीखने के संदर्भ में PSO को BO के लिए पसंद करता है? या हाइपरपरिमेट ट्यूनिंग कार्य के लिए हमेशा दो के बीच का चुनाव प्रासंगिक है?


(1) शाहरी एट अल, "टेकिंग द ह्यूमन आउट ऑफ़ द लूप: ए रिव्यू ऑफ़ बायेसियन ऑप्टिमाइज़िटॉन।"


ढाल की जरूरत नहीं है। असंतोष के साथ काम करता है। मध्यम कुशल। कई आयामों को संभालता है। शोर को अच्छी तरह से संभालता है। में अनुमानक की मजबूती है।
EngrStudent -

@EngrStudent आप BO के बारे में उन सभी चीजों के बारे में कह सकते हैं, जिन्हें छोड़कर BO अधिक कुशल प्रतीत होता है क्योंकि इसके लिए कम से कम मेरे मूल्यांकन में फ़ंक्शन मूल्यांकन की आवश्यकता होती है। मैं सामान्य तौर पर PSO के बारे में नहीं पूछ रहा हूँ, मैं BO के सापेक्ष इसकी खूबियों के बारे में पूछ रहा हूँ।
साइकोरैक्स का कहना है कि मोनिका

1
इस विषय पर एक निश्चित उत्तर देने के लिए पर्याप्त रूप से शिक्षित नहीं किया गया है, लेकिन मुझे लगता है कि बायेसियन ऑप्टिमाइज़ेशन को अत्यधिक बहु-मोडल समस्याओं के साथ सबसे कुशल ऑप्टिमाइज़र के रूप में एक ही भाग्य को नुकसान उठाना चाहिए (देखें: 95% मशीन सीखने की समस्याएं): यह शून्य पर वैश्विक अंतरिक्ष "सर्वेक्षण" के बिना न्यूनतम स्थानीय। मुझे लगता है कि कण झुंड गैर-स्थानीय न्यूनतम खोजने के लिए बेहतर भाग्य होगा।
क्लिफ एबी

2
पार्टी में मेरे देर से आगमन के लिए क्षमा याचना, सुनिश्चित नहीं है कि मैं इतने लंबे समय के लिए Optunity के बारे में एक सवाल को कैसे अनदेखा कर सका! :-)
मार्क क्लेसेन

1
@MarcClaesen मुझे स्वीकार करना चाहिए, मैं उम्मीद कर रहा था कि आपको किसी बिंदु पर जवाब देने का समय मिलेगा। देर से या नहीं, मुझे लगता है कि हम सभी खुश हैं कि आप आ गए हैं।
साइकोरैक्स का कहना है कि मोनिका

जवाबों:


25

Optunity के प्रमुख डेवलपर के रूप में मैं अपने दो सेंट जोड़ूंगा।

हमने वास्तविक दुनिया की समस्याओं पर सबसे लोकप्रिय बायेसियन सॉल्वर्स (जैसे, हाइपरटॉप, एसएमएसी, बायसेप्ट) के साथ ऑप्ट्यूनिटी की तुलना करने वाले व्यापक बेंचमार्क किए हैं, और परिणाम बताते हैं कि पीएसओ वास्तव में कई व्यावहारिक मामलों में कम कुशल नहीं है। हमारे बेंचमार्क में, जिसमें विभिन्न डेटासेट पर एसवीएम क्लासिफायर ट्यूनिंग शामिल हैं, ऑप्ट्यूनिटी वास्तव में हाइपरॉप्ट और एसएमएसी की तुलना में अधिक कुशल है, लेकिन बेयसॉप्ट की तुलना में थोड़ा कम कुशल है। मैं यहां परिणाम साझा करना पसंद करूंगा, लेकिन मैं तब तक इंतजार करता रहूंगा जब तक Optunity आखिरकार JMLR में प्रकाशित नहीं हो जाती (एक वर्ष से अधिक समय तक समीक्षा के तहत, इसलिए अपनी सांस को रोककर न रखें ...)।

जैसा कि आप इंगित करते हैं, बढ़ी हुई दक्षता बेयसियन अनुकूलन के लिए आमतौर पर इस्तेमाल किया जाने वाला विक्रय बिंदु है, लेकिन व्यवहार में यह केवल पानी रखता है यदि अंतर्निहित सरोगेट मॉडल की धारणाएं पकड़ती हैं, जो तुच्छ से दूर है। हमारे प्रयोगों में, Optunity का बहुत ही सरल PSO सॉल्वर अक्सर फ़ंक्शन मूल्यांकन की संख्या के संदर्भ में जटिल बेयसियन दृष्टिकोणों के साथ प्रतिस्पर्धी है। बेइज़ियन सॉल्वर्स अच्छे पुजारियों के साथ प्रदान किए जाने पर बहुत अच्छी तरह से काम करते हैं, लेकिन एक पूर्व सूचना के साथ दक्षता के मामले में पीएसओ जैसे मेटाएहिस्टिक तरीकों पर लगभग कोई संरचनात्मक लाभ नहीं है।

पीएसओ के लिए एक बड़ा विक्रय बिंदु यह तथ्य है कि यह समान रूप से समानांतर है। बायेसियन ऑप्टिमाइज़ेशन को समानांतर करना मुश्किल है, इसकी स्वाभाविक रूप से अनुक्रमिक प्रकृति के कारण (हाइपरॉप्ट का कार्यान्वयन एकमात्र वास्तविक अपवाद है)। वितरित करने के अवसरों को देखते हुए, जो आदर्श बनता जा रहा है, Optunity जल्दी से अच्छे समाधान प्राप्त करने के लिए दीवार-घड़ी के समय में नेतृत्व करता है।

Optunity और सबसे अन्य समर्पित हाइपरपरेट ऑप्टिमाइज़ेशन लाइब्रेरी के बीच एक और महत्वपूर्ण अंतर है लक्षित दर्शक: Optunity में सबसे सरल इंटरफ़ेस है और इसे गैर-मशीन लर्निंग विशेषज्ञों की ओर लक्षित किया जाता है, जबकि अधिकांश अन्य पुस्तकालयों को प्रभावी ढंग से उपयोग करने के लिए बायेसियन ऑप्टिमाइज़ेशन की कुछ समझ की आवश्यकता होती है (अर्थात, वे हैं) विशेषज्ञों की ओर लक्षित)।

हमने लाइब्रेरी बनाने का कारण यह है कि इस तथ्य के बावजूद कि समर्पित हाइपरपरमेट ऑप्टिमाइज़ेशन विधियाँ मौजूद हैं, उनके पास अभ्यास में अपनाने की कमी है। अधिकांश लोग अभी भी या तो ट्यूनिंग नहीं कर रहे हैं, इसे मैन्युअल रूप से कर रहे हैं, या ग्रिड या यादृच्छिक खोज जैसे भोले दृष्टिकोणों के माध्यम से कर रहे हैं। हमारी राय में, इसका एक प्रमुख कारण यह तथ्य है कि Optunity को विकसित करने से पहले मौजूदा पुस्तकालयों को स्थापना, प्रलेखन, एपीआई के संदर्भ में उपयोग करना बहुत मुश्किल था और अक्सर एक ही वातावरण तक सीमित होता है।


4
एक जवाब के रूप में हम मिल सकता है के रूप में सूचित किया! मैं उत्सुक हूं: आप कहते हैं कि पीएसओ सॉल्वर बायेसियन ऑप्टिमाइजेशन दृष्टिकोणों के साथ प्रतिस्पर्धी है। क्या यह कहना है कि समानांतर में चलने वाला PSO , बायसेन ऑप्टिमाइज़ेशन से क्रमिक रूप से चलने से अधिक तेज़ पाया जाता है ? मतलबी होने की कोशिश नहीं कर रहा है, लेकिन मुझे समझना एक महत्वपूर्ण अंतर है।
क्लिफ एबी

2
नहीं, दोनों क्रमिक रूप से चल रहे हैं। हमारे प्रयोगों (एसवीएम को ट्यूनिंग) में, पीएसओ और बायेसियन ऑप्टिमाइज़ेशन की दक्षता फ़ंक्शन मूल्यांकन की संख्या के संदर्भ में प्रतिस्पर्धी है। हमने वितरित सेटिंग्स में दीवार-घड़ी के समय के मामले में दक्षता की तुलना नहीं की है क्योंकि यह एक सस्ता शॉट का एक बिट होगा क्योंकि कई बायेसियन अनुकूलन विधियों बस ऐसा नहीं कर सकते हैं।
मार्क क्लेसेन

यह तो दिलचस्प है। किसी भी विचार क्यों? अस्थिर हाइपर-पैरामीटर सतह?
क्लिफ एबी

3
मुझे लगता है कि इसके कई कारण हैं। एक के लिए, हाइपरपरमीटर सतहों में बहुत सारे स्थानीय ऑप्टिमा होते हैं (उदाहरण के लिए, परिमित नमूना प्रभावों के कारण, क्रॉस-सत्यापन सिलवटों, कुछ सीखने के तरीकों में अंतर्निहित यादृच्छिकता)। दूसरे, बायेसियन अनुकूलन सटीक सरोगेट उद्देश्य कार्यों के निर्माण पर निर्भर करता है, जो कि एक आसान काम नहीं है जब तक कि उद्देश्य फ़ंक्शन को बहुत बार नमूना नहीं लिया गया हो। अभिसरण की गति (अक्सर एक छोड़ा गया विवरण) होने से पहले बायेसियन अनुकूलन होता है। उस समय तक पीएसओ जैसे मेटाएहिस्टिक तरीके अपने स्थानीय खोज चरण में भी पहुँच चुके हैं। स्थानीय खोज में PSO बहुत अच्छा है।
मार्क क्लेसेन

4
एक उत्कृष्ट उत्तर के लिए +1। मैंने अपना खुद का बीओ सॉफ्टवेयर बनाया है, जिसे मुझे मानना ​​होगा कि इस बिंदु पर ज्यादातर एक वैनिटी प्रोजेक्ट है, इसलिए मैं समझता हूं कि बीओ प्रक्रिया कुछ विस्तार से कैसे काम करती है; मुझे खुशी है कि मैं हाइपरपैरेट ट्यूनिंग दुनिया पर और क्या चल रहा है इसकी सतह को खरोंचना शुरू कर सकता हूं। भोली दृष्टिकोण के बारे में आपकी टिप्पणी वास्तव में मेरे साथ घर पर हिट होती है, क्योंकि मेरे पुराने भोले ट्यूनिंग कार्यक्रमों में से एक एक सप्ताह के लिए एक मॉडल को देखते हुए अब कोई अंत नहीं है ... आपके योगदान के लिए धन्यवाद, और मुझे यकीन है कि मेरे पास होगा अधिक प्रश्न एक बार जब मैं इसे पचाता हूं।
साइकोरैक्स का कहना है कि मोनिका

0

जवाब समस्या-निर्भर है और अतिरिक्त संदर्भ के बिना नहीं दिया जा सकता है। आमतौर पर, उत्तर इस प्रकार होगा। बायसेक्सियन ऑप्टिमाइज़ेशन कम-आयामी समस्याओं के लिए कम्प्यूटेशनल बजट के साथ 10x-100x चर की संख्या कहने के लिए अधिक उपयुक्त है। PSO बहुत बड़े बजट के लिए काफी कुशल हो सकता है, लेकिन इसके आला में अत्याधुनिक नहीं है।


टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
गुंग - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.