optimization पर टैग किए गए जवाब

आँकड़ों के भीतर अनुकूलन के किसी भी उपयोग के लिए इस टैग का उपयोग करें।

8
मशीन लर्निंग में न्यूटन की विधि का व्यापक रूप से उपयोग क्यों नहीं किया जाता है?
यह कुछ ऐसा है जो मुझे थोड़ी देर के लिए परेशान कर रहा है, और मुझे ऑनलाइन कोई संतोषजनक उत्तर नहीं मिला, इसलिए यहां जाता है: उत्तल अनुकूलन पर व्याख्यान के एक सेट की समीक्षा करने के बाद, न्यूटन की विधि वैश्विक रूप से इष्टतम समाधान खोजने के लिए ढाल …

3
बैच ढाल वंश बनाम स्टोचैस्टिक ग्रेडिएंट वंश
मान लीजिए हमारे पास लिए कुछ प्रशिक्षण सेट । यह भी मान लीजिए कि हम प्रशिक्षण सेट पर कुछ प्रकार के पर्यवेक्षित शिक्षण एल्गोरिथ्म चलाते हैं। Hypotheses को । हमें और बीच "दूरी" को कम से कम करने वाले पैरामीटर को खोजने की आवश्यकता है । आज्ञा देना(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = …

6
क्या बैकप्रॉपैगैशन के बिना तंत्रिका नेटवर्क को प्रशिक्षित करना संभव है?
कई तंत्रिका नेटवर्क किताबें और ट्यूटोरियल बैकप्रॉपैगैशन एल्गोरिथ्म पर बहुत समय बिताते हैं, जो अनिवार्य रूप से ढाल की गणना करने के लिए एक उपकरण है। मान लें कि हम ~ 10K पैरामीटर / वेट के साथ एक मॉडल बना रहे हैं। क्या कुछ ढाल मुक्त अनुकूलन एल्गोरिदम का उपयोग …

2
तन सक्रियण कार्य बनाम सिग्माइड सक्रियण कार्य
तन सक्रियण क्रिया है: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 कहाँ , अवग्रह समारोह, के रूप में परिभाषित किया गया है: σ ( x ) = ई एक्सσ(x)σ(x)\sigma(x) ।σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} प्रशन: क्या यह वास्तव में उन दो सक्रियण कार्यों …

7
प्रायिकता के बजाय अधिकतम लॉग संभावना का अनुकूलन क्यों करें
सबसे मशीन सीखने कार्यों जहाँ आप कुछ संभावना तैयार कर सकते हैं में ppp जो अधिकतम जाना चाहिए, हम वास्तव में लॉग संभावना का अनुकूलन होगा logplog⁡p\log p कुछ मानकों के लिए संभावना के बजाय θθ\theta । उदाहरण के लिए अधिकतम संभावना प्रशिक्षण में, यह आमतौर पर लॉग-लाइबिलिटी है। कुछ …

7
मूल्यांकन करने के लिए लागत समारोह धीमा होने पर अनुकूलन
लागत कार्यों में स्थानीय मिनिमा खोजने के लिए धीरे-धीरे वंश और कई अन्य विधियां उपयोगी हैं। वे तब कुशल हो सकते हैं जब प्रत्येक बिंदु पर लागत फ़ंक्शन का त्वरित रूप से मूल्यांकन किया जा सकता है, चाहे संख्यात्मक रूप से या विश्लेषणात्मक रूप से। मेरे पास वह है जो …

5
पीसीए एक ज्यामितीय समस्या (दूरियों के साथ) से रैखिक बीजगणित की समस्या (आइगेनट्रैक्टर्स के साथ) में कैसे बदल जाता है, इसके लिए एक सहज व्याख्या क्या है?
मैंने पीसीए के बारे में बहुत कुछ पढ़ा है, जिसमें विभिन्न ट्यूटोरियल और प्रश्न शामिल हैं (जैसे कि यह एक , यह एक , यह एक और यह एक )। पीसीए अनुकूलन करने की कोशिश कर रही ज्यामितीय समस्या मेरे लिए स्पष्ट है: पीसीए पुनर्निर्माण (प्रक्षेपण) त्रुटि को कम करके …

4
गति आधारित ढाल वंश और नेस्टरोव के त्वरित ढाल वंश के बीच क्या अंतर है?
तो गति आधारित ढाल वंश निम्नानुसार काम करता है: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g जहां पिछले वजन अद्यतन है, और जी मापदंडों पी के संबंध में वर्तमान ढाल है , एल आर सीखने की दर है, और एस ई एल एफ है । m o m e n t u m एक स्थिर है।mmmgggppplrlrlrself.momentumself.momentumself.momentum …

1
समझना "लगभग सभी स्थानीय न्यूनतम वैश्विक इष्टतम के लिए समान फ़ंक्शन मान है"
रोंग जी के एक हालिया ब्लॉग पोस्ट में , यह कहा गया था कि: यह माना जाता है कि गहरी जाल सीखने सहित कई समस्याओं के लिए, लगभग सभी स्थानीय न्यूनतम वैश्विक इष्टतम के लिए बहुत समान फ़ंक्शन मूल्य हैं, और इसलिए स्थानीय न्यूनतम ढूंढना काफी अच्छा है। यह विश्वास …

1
स्टोकेस्टिक क्रमिक वंश के एडम विधि कैसे काम करती है?
मैं तंत्रिका नेटवर्क के प्रशिक्षण के लिए बुनियादी ढाल वंश एल्गोरिदम से परिचित हूं। मैंने एडम को प्रस्तावित करने वाला पेपर पढ़ा है: एडम: एक मैथोड फॉर स्टेटिक ऑप्टिमाइज़ेशन । जबकि मुझे निश्चित रूप से कुछ अंतर्दृष्टि (कम से कम) मिली है , कागज मुझे समग्र रूप से बहुत उच्च …

1
तंत्रिका नेटवर्क: वजन में परिवर्तन की गति और वजन में गिरावट
मोमेंटम का उपयोग लगातार पुनरावृत्तियों पर वज़न में होने वाले उतार-चढ़ाव को कम करने के लिए किया जाता है:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), जहां त्रुटि फ़ंक्शन है, - वेट के वेक्टर, - सीखने की दर।E(w)E(w)E({\bf w})ww{\bf w}ηη\eta वजन में कमी वजन में परिवर्तन को …

5
व्यावहारिक हाइपरपैरिमेट अनुकूलन: रैंडम बनाम ग्रिड खोज
मैं वर्तमान में बेंगियो और बर्गस्टा के रैंडम सर्च फॉर हाइपर-पैरामीटर ऑप्टिमाइज़ेशन के माध्यम से जा रहा हूं [1] जहां लेखक दावा करते हैं कि यादृच्छिक खोज लगभग समान प्रदर्शन प्राप्त करने में ग्रिड खोज से अधिक कुशल है। मेरा प्रश्न है: क्या यहाँ के लोग उस दावे से सहमत …

1
ग्लेमर अधिकतम संभावना को प्राप्त नहीं करता है (जैसा कि आगे सामान्य अनुकूलन लागू करके सत्यापित किया गया है)?
जीएलएमएम के MLE s को संख्यात्मक रूप से प्राप्त करना कठिन है और, व्यवहार में, मुझे पता है, हमें ब्रूट फोर्स ऑप्टिमाइज़ेशन (जैसे, सरल तरीके से उपयोग करना) का उपयोग नहीं करना चाहिए । लेकिन अपने स्वयं के शैक्षिक उद्देश्य के लिए, मैं यह सुनिश्चित करने के लिए कोशिश करना …

3
एसवीएम और लॉजिस्टिक रिग्रेशन की तुलना करना
क्या कोई कृपया मुझे कुछ अंतर्ज्ञान दे सकता है जब एसवीएम या एलआर को चुनना है? मैं दो के हाइपरप्लेन को सीखने के अनुकूलन मानदंड में अंतर के पीछे अंतरंगता को समझना चाहता हूं, जहां संबंधित उद्देश्य निम्नानुसार हैं: एसवीएम: निकटतम समर्थन वैक्टर के बीच के मार्जिन को अधिकतम करने …

5
क्या आप CV / बूटस्ट्रैप का उपयोग करके मशीन लर्निंग एल्गोरिदम द्वारा ओवरफिट कर सकते हैं?
यह सवाल एक निश्चित जवाब पाने के लिए अच्छी तरह से खुला हो सकता है, लेकिन उम्मीद नहीं है। मशीन लर्निंग एल्गोरिदम, जैसे एसवीएम, जीबीएम, रैंडम फॉरेस्ट आदि, आम तौर पर कुछ मुफ्त पैरामीटर होते हैं, जो अंगूठे के मार्गदर्शन के कुछ नियम से परे, प्रत्येक डेटा सेट पर ट्यून …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.