व्यावहारिक हाइपरपैरिमेट अनुकूलन: रैंडम बनाम ग्रिड खोज

41

मैं वर्तमान में बेंगियो और बर्गस्टा के रैंडम सर्च फॉर हाइपर-पैरामीटर ऑप्टिमाइज़ेशन के माध्यम से जा रहा हूं [1] जहां लेखक दावा करते हैं कि यादृच्छिक खोज लगभग समान प्रदर्शन प्राप्त करने में ग्रिड खोज से अधिक कुशल है।

मेरा प्रश्न है: क्या यहाँ के लोग उस दावे से सहमत हैं? अपने काम में मैं ग्रिड खोज का उपयोग ज्यादातर आसानी से यादृच्छिक खोज करने के लिए उपलब्ध उपकरणों की कमी के कारण कर रहा हूं।

ग्रिड बनाम यादृच्छिक खोज का उपयोग करने वाले लोगों का अनुभव क्या है?

machine-learning hyperparameter optimization

— बार
स्रोत

रैंडम खोज बेहतर है और इसे हमेशा प्राथमिकता दी जानी चाहिए। हालांकि, हाइपरपरमीटर ऑप्टिमाइज़ेशन के लिए समर्पित लाइब्रेरियों का उपयोग करना बेहतर होगा, जैसे ऑप्ट्यूनिटी , हाइपरॉप्ट या बायसेप्ट।

— मार्क क्लेसेन

बेंगियो एट अल। इसके बारे में यहां लिखें: पेपर.निप्स.सीसीपी / / / तो, जीपी सबसे अच्छा काम करता है, लेकिन आरएस भी महान काम करता है।

— गाइ एल

10

@Marc जब आप किसी ऐसी चीज का लिंक प्रदान करते हैं जिसके साथ आप जुड़े होते हैं, तो आपको अपना जुड़ाव स्पष्ट कर देना चाहिए (एक या दो शब्द पर्याप्त हो सकते हैं, यहां तक कि कुछ संक्षिप्त रूप में भी इसका उल्लेख our Optunityकरना चाहिए); व्यवहार पर मदद के रूप में कहते हैं, "अगर कुछ ... आपके उत्पाद या वेबसाइट के बारे में होने के लिए, यह ठीक है। हालांकि, आपको अपनी संबद्धता का खुलासा करना होगा"

— Glen_b

39

यादृच्छिक खोज में केवल 60 पुनरावृत्तियों के साथ 5% ऑप्टिमा के भीतर मापदंडों के संयोजन को खोजने में 95% की संभावना है। अन्य तरीकों की तुलना में यह स्थानीय ऑप्टिमा में कम नहीं है।

एलिस झेंग द्वारा दातो में इस महान ब्लॉग पोस्ट की जांच करें , विशेष रूप से अनुभाग हाइपरपरमीटर ट्यूनिंग एल्गोरिदम ।

मुझे ऐसी फिल्में पसंद हैं जहाँ दलित व्यक्ति जीतता है, और मैं मशीन लर्निंग पेपर से प्यार करता हूँ जहाँ सरल समाधान आश्चर्यजनक रूप से प्रभावी होते हैं। यह बर्गस्ट्रा और बेंगियो द्वारा "रैंडम सर्च फॉर हाइपरपरिमेट ऑप्टिमाइज़ेशन" की कहानी है। [...] यादृच्छिक खोज को पहले बहुत गंभीरता से नहीं लिया गया था। ऐसा इसलिए है क्योंकि यह सभी ग्रिड बिंदुओं पर खोज नहीं करता है, इसलिए यह संभवतः ग्रिड खोज द्वारा प्राप्त इष्टतम को हरा नहीं सकता है। लेकिन फिर बर्गस्ट्रा और बेंगियो के साथ आया। उन्होंने दिखाया कि आश्चर्यजनक रूप से कई उदाहरणों में, यादृच्छिक खोज प्रदर्शन के साथ-साथ ग्रिड खोज भी करती है। कुल मिलाकर, ग्रिड से सैंपल लिए गए 60 रैंडम पॉइंट्स काफी अच्छे लगते हैं।

दृष्टिहीनता में, परिणाम के लिए एक सरल संभाव्य स्पष्टीकरण है: किसी परिमित स्थान के साथ नमूना स्थान पर किसी भी वितरण के लिए, अधिकतम 60 यादृच्छिक प्रेक्षण 95% प्रायिकता के साथ, वास्तविक अधिकतम के शीर्ष 5% के भीतर निहित है। यह जटिल लग सकता है, लेकिन ऐसा नहीं है। वास्तविक अधिकतम के आसपास 5% अंतराल की कल्पना करें। अब कल्पना करें कि हम उसके स्थान से नमूना लेते हैं और देखते हैं कि उसमें से कोई भी उस अधिकतम भूमि के भीतर है। प्रत्येक यादृच्छिक ड्रॉ में उस अंतराल में उतरने का 5% मौका होता है, अगर हम स्वतंत्र रूप से n अंक खींचते हैं, तो संभावना है कि उनमें से सभी को वांछित अंतराल याद है $\left(1−0.05\right)^{n}$ । तो संभावना है कि उनमें से कम से कम एक अंतराल को मारने में सफल होता है 1 मात्रा है। हम सफलता की कम से कम -95 संभावना चाहते हैं। हमारी ज़रूरत के हिसाब से ड्रा की संख्या जानने के लिए, समीकरण में n को हल करें:

$1 - {(1 - 0.05)}^{n} > 0.95$ $1−\left(1−0.05\right)^{n}>0.95$
हमें मिलता है । टा-दा! $n\geqslant60$

कहानी का नैतिक है: यदि हाइपरपैरमीटर का क्लोज-टू-इष्टतम क्षेत्र ग्रिड की सतह के कम से कम 5% पर रहता है, तो 60 परीक्षणों के साथ यादृच्छिक खोज उस क्षेत्र को उच्च संभावना के साथ पाएगी।

आप अधिक से अधिक परीक्षणों के साथ उस अवसर को बेहतर बना सकते हैं।

सभी के सभी, यदि आपके पास धुन करने के लिए बहुत सारे पैरामीटर हैं, तो ग्रिड खोज संभव नहीं हो सकती है। जब मैं यादृच्छिक खोज का प्रयास करता हूं।

— Firebug
स्रोत

3

ब्लॉग पोस्ट का लिंक नीचे है :( क्या यह एक ही लेख हो सकता है? अयस्कली

— ऐडेस

@DexterMorgan अरे, सिर के लिए धन्यवाद। हाँ, ब्लॉग जाहिरा तौर पर नीचे है, और मुझे यकीन नहीं है कि मुझे अन्य स्रोतों से लिंक करना चाहिए जो "आधिकारिक" नहीं हो सकते हैं , इसलिए मैं अभी इसे छोड़ दूंगा जैसा कि अब मुझे लगता है।

— फायरबग

ब्लॉग अभी भी नीचे है ... इसे पढ़ने के लिए धन्यवाद और @ n1k31t4 आगे पढ़ने के लिए एक लिंक प्रदान करने के लिए धन्यवाद!

— llrs

8

कागज से ग्राफिक को फिर से देखें (चित्र 1)। यह कहें कि आपके पास दो पैरामीटर हैं, 3x3 ग्रिड खोज के साथ आप प्रत्येक पैरामीटर से केवल तीन अलग-अलग पैरामीटर मानों की जांच करते हैं (बाईं ओर स्थित भूखंड पर तीन पंक्तियाँ और तीन कॉलम), जबकि यादृच्छिक खोज के साथ आप नौ (!) विभिन्न पैरामीटर मानों की जाँच करते हैं! प्रत्येक पैरामीटर (नौ अलग-अलग पंक्तियाँ और नौ अलग-अलग कॉलम)।

जाहिर है, यादृच्छिक खोज, संयोग से, सभी मापदंडों के लिए प्रतिनिधि नहीं हो सकती है, लेकिन जैसा कि नमूना आकार बढ़ता है, इस की संभावनाएं छोटी और छोटी हो जाती हैं।

— टिम
स्रोत

6

यदि आप ग्रिड खोज के लिए एक फ़ंक्शन लिख सकते हैं, तो यादृच्छिक खोज करने के लिए फ़ंक्शन लिखना शायद और भी आसान है क्योंकि आपको ग्रिड को पूर्व-निर्दिष्ट करने और स्टोर करने की आवश्यकता नहीं है।

इसे अलग करते हुए, LIPO, पार्टिकल स्वार्म ऑप्टिमाइज़ेशन और बेयसियन ऑप्टिमाइज़ेशन जैसे तरीके बुद्धिमान विकल्प बनाते हैं जिसके बारे में हाइपरपैरेटर्स बेहतर होने की संभावना है, इसलिए यदि आपको मॉडल की संख्या को पूर्ण न्यूनतम रखने की आवश्यकता है (तो, क्योंकि इसे फिट करना महंगा है मॉडल), ये उपकरण आशाजनक विकल्प हैं। वे वैश्विक आशावादी भी हैं, इसलिए उनके पास वैश्विक अधिकतम का पता लगाने की उच्च संभावना है। बीओ तरीकों के अधिग्रहण कार्यों में से कुछ में अफसोसजनक सीमाएं हैं, जो उन्हें और भी आकर्षक बनाती हैं।

इन प्रश्नों में अधिक जानकारी प्राप्त की जा सकती है:

बायेसियन हाइपर पैरामीटर ऑप्टिमाइज़ेशन के कुछ नुकसान क्या हैं?

मूल्यांकन करने के लिए लागत समारोह धीमा होने पर अनुकूलन

— मोनिका को बहाल करो
स्रोत

2

डिफ़ॉल्ट रूप से, यादृच्छिक खोज और ग्रिड खोज भयानक एल्गोरिदम हैं जब तक कि निम्न में से कोई एक धारण नहीं करता है।

आपकी समस्या में वैश्विक संरचना नहीं है, उदाहरण के लिए, यदि समस्या बहुविध है और स्थानीय ऑप्टिमा की संख्या बहुत बड़ी है
आपकी समस्या शोर है, यानी, एक ही समाधान का दो बार मूल्यांकन करने से विभिन्न उद्देश्य फ़ंक्शन मान उत्पन्न होते हैं
वस्तुनिष्ठ फ़ंक्शन कॉल का बजट चर की संख्या की तुलना में बहुत छोटा है, उदाहरण के लिए, 1x या 10x से छोटा।
चरों की संख्या बहुत कम है, उदाहरण के लिए, 5 (अभ्यास में) से छोटा।
कुछ अन्य शर्तें।

अधिकांश लोगों का दावा है कि यादृच्छिक खोज ग्रिड खोज से बेहतर है। हालांकि, ध्यान दें कि जब फ़ंक्शन मूल्यांकन की कुल संख्या पूर्वनिर्धारित होती है, तो ग्रिड खोज से खोज स्थान का अच्छा कवरेज हो जाएगा जो एक ही बजट के साथ यादृच्छिक खोज से भी बदतर नहीं है और यदि कोई है तो दोनों के बीच का अंतर नगण्य है। यदि आप कुछ मान्यताओं को जोड़ना शुरू करते हैं, उदाहरण के लिए, कि आपकी समस्या अलग है या लगभग अलग है, तो आपको ग्रिड खोज का समर्थन करने के लिए तर्क मिलेंगे। कुल मिलाकर, दोनों बहुत कम मामलों में तुलनात्मक रूप से भयानक हैं। इस प्रकार, उनके बीच अंतर करने की आवश्यकता नहीं है जब तक कि समस्या के बारे में कुछ अतिरिक्त धारणाओं पर विचार नहीं किया जाता है।

— IndieSolver
स्रोत

क्या आप कुछ बेहतर प्रस्तावित कर सकते हैं? अगर हम कोशिश नहीं करते हैं तो हम कैसे जान सकते हैं कि सबसे अच्छा क्या है? मुझे लगता है कि कई मॉडलों पर यादृच्छिक खोज सबसे अच्छा समझौता समाधान है।

— 16 अक्टूबर को JPErwin

0

केवल एक मैक्सिमा के साथ एक 2 डी स्थलाकृति में 95% मैक्सिमा के भीतर एक स्थान खोजना 100% / 25 = 25%, 6.25%, 1.5625%, या 16 अवलोकनों को लेता है। जब तक पहले चार अवलोकन सही ढंग से निर्धारित करते हैं कि अधिकतम (एक्स्ट्रामा) किस चतुर्थांश में है। 1 डी स्थलाकृति में 100/2 = 50, 25, 12.5, 6.25, 3.125 या 5 * 2 लगते हैं। मुझे लगता है कि कई दूर-दराज के स्थानीय मैक्सिमा के लिए खोज करने वाले लोग बड़े इनिटल ग्रिड खोज का उपयोग करते हैं, फिर प्रतिगमन या कुछ अन्य भविष्यवाणी विधि। 60 अवलोकनों की ग्रिड में एक्स्ट्रेमा के 100/60 = 1.66% के भीतर एक अवलोकन होना चाहिए। वैश्विक अनुकूलन विकिपीडिया मुझे अभी भी लगता है कि यादृच्छिकता की तुलना में हमेशा एक बेहतर तरीका है।

— ran8
स्रोत

सिमुलेटेड एनीलिंग यादृच्छिक खोज का एक रूप है जो कई वर्षों से आसपास है।

— माइकल चेरिक