टी एल; डॉ
मैं LIPO का उपयोग करने की सलाह देता हूं। यह शुद्ध यादृच्छिक खोज (PRS) की तुलना में काफी सही और काफी बेहतर है। यह लागू करने के लिए भी बेहद सरल है, और इसमें कोई हाइपरपरमेटर्स नहीं है। मैंने एक विश्लेषण नहीं किया है जो LIPO की तुलना BO से करता है, लेकिन मेरी अपेक्षा यह है कि LIPO की सादगी और दक्षता का अर्थ है कि यह BO का प्रदर्शन करेगा।
(यह भी देखें: बायेसियन हाइपर पैरामीटर ऑप्टिमाइज़ेशन के कुछ नुकसान क्या हैं? )
बायेसियन ऑप्टिमाइज़ेशन
बायेसियन ऑप्टिमाइज़ेशन-प्रकार के तरीके पैरामीटर स्पेस का पता लगाने के लिए गॉसियन प्रक्रिया सरोगेट मॉडल का निर्माण करते हैं। मुख्य विचार यह है कि पैरामीटर ट्यूपल्स जो एक साथ करीब हैं, उनमें समान फ़ंक्शन मान होंगे, इसलिए अंक के बीच एक सह-विचरण संरचना की धारणा एल्गोरिदम को शिक्षित अनुमान लगाने की अनुमति देता है कि सबसे अच्छा पैरामीटर टपल आगे क्या करने के लिए सबसे अधिक सार्थक है। यह रणनीति फ़ंक्शन मूल्यांकन की संख्या को कम करने में मदद करती है; वास्तव में, बीओ विधियों की प्रेरणा "मूल्यांकन पूरी भैंस का उपयोग करते समय" जितना संभव हो उतना कम रखने के लिए है, जिससे कि अगले बिंदु का परीक्षण करने के बारे में अच्छे अनुमान लगा सकें। योग्यता के अलग-अलग आंकड़े हैं (अपेक्षित सुधार, अपेक्षित मात्रात्मक सुधार, सुधार की संभावना ...) जो कि अगली यात्रा के लिए बिंदुओं की तुलना करने के लिए उपयोग किए जाते हैं।
इसे एक ग्रिड खोज की तरह कुछ के विपरीत करें, जो अपने पिछले फ़ंक्शन मूल्यांकन से किसी भी जानकारी का उपयोग करने के लिए यह सूचित नहीं करेगा कि आगे कहां जाना है।
संयोग से, यह भी एक शक्तिशाली वैश्विक अनुकूलन तकनीक है, और इस तरह सतह की उत्तलता के बारे में कोई धारणा नहीं है। इसके अतिरिक्त, यदि फ़ंक्शन स्टोचैस्टिक है (कहते हैं, मूल्यांकन में कुछ अंतर्निहित यादृच्छिक शोर हैं), तो यह सीधे जीपी मॉडल के लिए जिम्मेदार हो सकता है।
दूसरी ओर, आपको प्रत्येक पुनरावृत्ति (या कई, कम से कम एक जीपी "फिट करना होगा," सबसे अच्छा ", या विकल्पों पर औसत, या पूरी तरह से बायेसियन विधियों को चुनना)। फिर, मॉडल का उपयोग भविष्यवाणियों के (शायद हजारों) करने के लिए किया जाता है, आमतौर पर मल्टीस्टार्ट स्थानीय अनुकूलन के रूप में, अवलोकन के साथ कि यह अनुकूलन के तहत फ़ंक्शन की तुलना में जीपी भविष्यवाणी फ़ंक्शन का मूल्यांकन करने के लिए बहुत सस्ता है। लेकिन यहां तक कि इस कम्प्यूटेशनल ओवरहेड के साथ, यह मामला है कि यहां तक कि nonconvex फ़ंक्शन अपेक्षाकृत कम संख्या में फ़ंक्शन कॉल के साथ अनुकूलित किया जा सकता है।
इस विषय पर एक व्यापक रूप से उद्धृत पेपर जोन्स एट अल है , "महंगी ब्लैक-बॉक्स कार्यों के कुशल वैश्विक अनुकूलन।" लेकिन इस विचार पर कई विविधताएं हैं।
यादृच्छिक खोज
यहां तक कि जब लागत फ़ंक्शन का मूल्यांकन करना महंगा होता है, तब भी यादृच्छिक खोज उपयोगी हो सकती है। यादृच्छिक खोज गंदगी-सरल है जिसे लागू करना आसान है। एक शोधकर्ता के लिए एकमात्र विकल्प संभावना सेट कर रहा है जो आप चाहते हैं कि आपके परिणाम कुछ मात्रात्मक क्यू में झूठ हों ; बाकी मूल संभावना से परिणाम का उपयोग करके स्वचालित रूप से आगे बढ़ता है।पी क्ष
मान लीजिए कि आपका परिमाण और आप एक p = 0.95 संभावना चाहते हैं कि मॉडल के परिणाम शीर्ष 100 × ( 1 - q ) = सभी हाइपरपरेटर टुपल्स के 5 प्रतिशत हों। संभावना है कि सभी n प्रयास किए गए tuples उस विंडो में नहीं हैं q n = 0.95 n (क्योंकि वे समान वितरण से यादृच्छिक रूप से चुने गए हैं), इसलिए संभावना है कि उस क्षेत्र में कम से कम एक tuple 1 है - 0.01 nक्ष= 0.95पी = 0.95100 × ( 1 - q) = 5nक्षn= 0.95n1 - 0.95n। यह सब एक साथ रखकर, हमारे पास है
1 - qn≥ पी⟹n ≥ लॉग( 1 - पी )लॉग इन करें( क्यू)
जो हमारे विशिष्ट मामले में पैदावार ।n ≥ 59
n = 60n = 60
चूंकि आपके पास इस बात की एक संभावित गारंटी है कि परिणाम कितने अच्छे हैं, इसलिए यह आपके बॉस को समझाने के लिए एक प्रेरक उपकरण हो सकता है कि अधिक प्रयोग चलाना आवश्यक नहीं है।
LIPO और इसके वेरिएंट
यह एक रोमांचक आगमन है, जो यदि नया नहीं है , तो निश्चित रूप से मेरे लिए नया है। यह फ़ंक्शन पर सूचित सीमा रखने, और सर्वोत्तम बाउंड से नमूना लेने, और द्विघात अनुमान का उपयोग करने के बीच वैकल्पिक रूप से आगे बढ़ता है। मैं अभी भी सभी विवरणों के माध्यम से काम कर रहा हूं, लेकिन मुझे लगता है कि यह बहुत आशाजनक है। यह एक अच्छा ब्लॉग लेखन है , और पेपर है सेड्रिक मैलेर्बे और निकोलस वायटिस "लिप्सचित्ज़ कार्यों का वैश्विक अनुकूलन ।"