एक नाम में क्या है: हाइपरपरमेटर्स


19

इसलिए एक सामान्य वितरण में, हमारे पास दो पैरामीटर हैं: माध्य और विचरण । पुस्तक पैटर्न रिकॉग्निशन एंड मशीन लर्निंग में , त्रुटि फ़ंक्शन के नियमितीकरण की शर्तों में अचानक एक हाइपरपेरमेटर प्रकट होता है ।μσ2λ

हाइपरपरमेटर्स क्या हैं? उनका नाम ऐसा क्यों रखा गया है? और वे कैसे सहज रूप से मापदंडों से अलग हैं?


3
मुझे व्यक्तिगत रूप से लगता है कि यह हाइपर जा रहे लोगों की एक महामारी है। हाइपर यह, हाइपर कि। हाइपरस्फेयर - यह एक क्षेत्र है, डी @ मैनिट, केवल इसलिए हाइपर मिलना बंद कर दें क्योंकि आयाम 3. से अधिक हो जाता है - हाइपरपरमीटर - यह एक पैरामीटर है, डी @ एमएनआईटी, सिर्फ इसलिए हाइपर मिलना बंद कर दें क्योंकि आपके पास उनमें से कई हैं, और आपको किसी भी तरह से सोचने की आवश्यकता है। पदानुक्रम स्तर या कुछ इंगित करें। किसी भी घटना में, यदि आपके पास अनुकूलन समस्या है, तो स्पष्ट रूप से समझें कि क्या मापदंडों को अनुकूलित किया जा रहा है, और किसी भी बाधा (यदि यह बहु-स्तरीय अनुकूलन है, तो इसे बाहर करें)। मुझे आशा है कि मैं इस टिप्पणी में बहुत अधिक नहीं मिला।
मार्क एल स्टोन

2
मैंने हमेशा "सह-आयाम एक क्षेत्र" का अर्थ करने के लिए "हाइपरस्फेयर" का उपयोग किया, इसलिए कम से कम गणित में, इसका मतलब कुछ है। या कम से कम जब मैं गणित के बारे में बात करता हूं। मैं अब शांत हो जाऊंगा।
मैथ्यू ड्र्यू

जवाबों:


18

हाइपरपरमीटर शब्द बहुत अस्पष्ट है। मैं इसका उपयोग एक पैरामीटर को संदर्भित करने के लिए करूँगा जो अन्य मापदंडों की तुलना में उच्च स्तर के पदानुक्रम में है। एक उदाहरण के लिए, एक ज्ञात विचरण के साथ प्रतिगमन मॉडल पर विचार करें (इस मामले में 1)

y~एन(एक्सβ,मैं)

और फिर मापदंडों पर एक पूर्व, उदा

β~एन(0,λमैं)

यहाँ के वितरण को निर्धारित करता है और लिए वितरण को निर्धारित करता है । जब मैं सिर्फ को संदर्भित करना चाहता हूं तो मैं इसे पैरामीटर कह सकता हूं और जब मैं सिर्फ को संदर्भित करना चाहता हूं, तो मैं इसे हाइपरपरमीटर कह सकता हूं।λββyβλ

जब पैरामीटर कई स्तरों पर दिखाई देते हैं या जब अधिक पदानुक्रमित स्तर होते हैं (और आप हाइपरहाइपरप्रेमर्स शब्द का उपयोग नहीं करना चाहते हैं) तो नामकरण अधिक जटिल हो जाता है। यह सबसे अच्छा है अगर लेखक ने यह निर्दिष्ट किया है कि उस मामले के लिए हाइपरपरमीटर या पैरामीटर शब्द का उपयोग करने का क्या मतलब है।


यह एक अच्छी व्याख्या है। मैं अब इसे 'कार्य-ईश की रचना' के रूप में कल्पना कर रहा हूं। जो आप प्रतीकों में डालते हैं, उसका अनुवाद करने के लिए, को सामान्य रूप से माध्य साथ वितरित किया जाता है , लेकिन बदले में है, सामान्य रूप से ऐसा और वितरित किया जाता है। धन्यवादyएक्सβटी
सीजीओ

10

हाइपरपैरमीटर बस एक पैरामीटर है जो पूरी तरह से या आंशिक रूप से, अन्य मापदंडों को प्रभावित करता है। वे सीधे आपके सामने आने वाली अनुकूलन समस्या को हल नहीं करते हैं, बल्कि उन मापदंडों को अनुकूलित करते हैं जो समस्या को हल कर सकते हैं (इसलिए हाइपर , क्योंकि वे अनुकूलन समस्या का हिस्सा नहीं हैं, बल्कि "एडऑन" हैं)। जो मैंने देखा है, उसके लिए, लेकिन मेरे पास कोई संदर्भ नहीं है, यह संबंध यूनिडायरेक्शनल है (एक हाइपरपैरमीटर उन मापदंडों से प्रभावित नहीं हो सकता है जिन पर इसका प्रभाव है, इसलिए हाइपर भी )। उन्हें आमतौर पर नियमितीकरण या मेटा-ऑप्टिमाइज़ेशन स्कीमों में पेश किया जाता है।

उदाहरण के लिए, अपने पैरामीटर स्वतंत्र रूप से प्रभावित कर सकता है μ और σ नियमितीकरण लागत के लिए समायोजित करने के लिए (लेकिन μ और σ पर कोई असर नहीं है λ )। इस प्रकार, λ के लिए एक hyperparameter है μ और σ । आप एक अतिरिक्त था τ को प्रभावित पैरामीटर λ , इसके लिए एक hyperparameter होगा λ , और के लिए एक hyperhyperparameter μ और σ (लेकिन मैं इस nomenclatura कभी नहीं देखा है, लेकिन मैं महसूस नहीं यह गलत होगा अगर मैं इसे देखा था) ।λμσμσλλμστλλμσ

मैंने हाइपरपेरेटरी अवधारणा को क्रॉस-वैलिडेशन के लिए बहुत उपयोगी पाया, क्योंकि यह आपको मापदंडों के पदानुक्रम की याद दिलाता है, साथ ही आपको यह भी याद दिलाता है कि यदि आप अभी भी (हाइपर) मापदंडों को संशोधित कर रहे हैं, तो आप अभी भी क्रॉस-वैरिफाइंग कर रहे हैं और सामान्य नहीं कर रहे हैं इसलिए अपने निष्कर्ष के बारे में सावधान रहें (परिपत्र सोच से बचने के लिए)।


7

अन्य स्पष्टीकरण थोड़ा अस्पष्ट हैं; यहाँ एक और अधिक ठोस व्याख्या है जो इसे स्पष्ट करनी चाहिए।

Hyperparameters केवल मॉडल की पैरामीटर हैं , कि उस भौतिक प्रक्रिया का जो मॉडलिंग की जा रही है। आप परिमित डेटा और / या परिमित संगणना समय की उपस्थिति में अपने मॉडल को "काम" बनाने के लिए "कृत्रिम रूप से" उनका परिचय देते हैं । यदि आपके पास किसी भी चीज़ को मापने या उसकी गणना करने की असीम शक्ति है, तो हाइपरपरमेटर्स आपके मॉडल में मौजूद नहीं होंगे, क्योंकि वे वास्तविक प्रणाली के किसी भी भौतिक पहलू का वर्णन नहीं करेंगे।

दूसरी ओर, नियमित पैरामीटर, वे हैं जो भौतिक प्रणाली का वर्णन करते हैं, और केवल कलाकृतियों को मॉडलिंग नहीं कर रहे हैं।


6

यह एक सटीक परिभाषित शब्द नहीं है, इसलिए मैं आगे बढ़ूंगा और आपको एक और परिभाषा दूंगा जो आम उपयोग के अनुरूप प्रतीत होती है।

हाइपरपैरमीटर एक मशीन लर्निंग एल्गोरिदम में अनुमानित मात्रा है जो अंतिम भविष्य कहनेवाला कार्य के कार्यात्मक रूप में भाग नहीं लेता है।

मुझे एक उदाहरण, रिज रिग्रेशन के साथ खोल दें। रिज रिग्रेशन में हम निम्नलिखित अनुकूलन समस्या को हल करते हैं:

β*(λ)=argminβ((y-एक्सβ)टी(y-एक्सβ)+λβटीβ)
β*=argminλ(y'-एक्स'β(λ))टी(y'-एक्स'β(λ))

एक्स,yएक्स',y'

(एक्स)=एक्सβ*

λβλ


3

के रूप में ठीक @jaradniemi से कहा, अवधि में से एक का उपयोग करें hyperparameter श्रेणीबद्ध या बहुस्तरीय मॉडलिंग, जहां सांख्यिकीय मॉडल की एक झरना, एक के ऊपर बना हुआ / दूसरों के तहत है, आम तौर पर सशर्त संभावना बयानों का उपयोग कर से आता है।

लेकिन एक ही शब्दावली अन्य संदर्भों में अलग-अलग अर्थों के साथ भी उत्पन्न होती है। उदाहरण के लिए, मैंने देखा है कि हाइपरपरेट शब्द का उपयोग एक स्टोकेस्टिक मॉडल के सिमुलेशन के मापदंडों (दौड़ने की लंबाई, स्वतंत्र प्रतिकृति की संख्या, प्रत्येक प्रतिकृति में परस्पर कणों की संख्या आदि) को संदर्भित करने के लिए किया गया है, जिसका परिणाम एक बहुस्तरीय से नहीं हुआ। मॉडलिंग।


1
एफडब्ल्यूआईडब्ल्यू मैं आमतौर पर ट्यूनिंग मापदंडों के रूप में चलने की लंबाई, अंतःक्रियात्मक कणों की संख्या आदि को संदर्भित करता है।
जारदनीमनी

मैं सहमत हूँ। मेरे लिए, यह हाइपरपैरामीटर की तुलना में अधिक पर्याप्त विकल्प लगता है। बहरहाल, दूसरों के लिए, ज्ञान के अन्य क्षेत्रों में, यह अभी भी उचित उचित लग रहा था।
मार्सेलो वेंचुरा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.