regularization पर टैग किए गए जवाब

मॉडल फिटिंग प्रक्रिया में अतिरिक्त बाधाओं (आमतौर पर जटिलता के लिए एक दंड) का समावेश। ओवरफिटिंग को रोकने के लिए / पूर्वानुमान की सटीकता बढ़ाने के लिए उपयोग किया जाता है।

6
विरल मॉडल के लिए एल 1 मानदंड क्यों
मैं रैखिक प्रतिगमन के बारे में किताबें पढ़ रहा हूं। एल 1 और एल 2 मानक के बारे में कुछ वाक्य हैं। मैं उन्हें जानता हूं, बस समझ में नहीं आता कि विरल मॉडल के लिए एल 1 मानदंड क्यों। क्या कोई व्यक्ति सरल स्पष्टीकरण दे सकता है?


3
लसो वैरिएबल चयन क्यों प्रदान करता है?
मैं स्टैटिस्टिकल लर्निंग के एलीमेंट्स पढ़ रहा हूं, और मैं जानना चाहूंगा कि लास्सो वेरिएबल सेलेक्शन और रिज रिग्रेशन क्यों नहीं देता। दोनों विधियाँ वर्गों के अवशिष्ट योग को कम करती हैं और पैरामीटर के संभावित मूल्यों पर एक बाधा होती हैं । लास्सो के लिए, बाधा है , जबकि …

5
सादे अंग्रेजी में नियमितीकरण क्या है?
अन्य लेखों के विपरीत, मुझे इस विषय के लिए विकिपीडिया प्रविष्टि एक गैर-गणित व्यक्ति (मेरे जैसे) के लिए अप्राप्य लगी। मैंने मूल विचार को समझा, कि आप कम नियमों वाले मॉडल का पक्ष लेते हैं। मुझे क्या नहीं मिलता है कि आप नियमों के एक सेट से एक 'नियमितीकरण स्कोर' …

6
L2 नियमितीकरण गौसियन प्रायर के बराबर है
मैं इसे पढ़ता रहता हूं और सहज रूप से मैं इसे देख सकता हूं लेकिन कोई एल 2 नियमितीकरण से यह कहने के लिए कैसे जाता है कि यह विश्लेषणात्मक रूप से एक गाऊसी पूर्व है? L1 कहने के लिए समान पूर्ववर्ती एक लाप्लासियन के बराबर है। आगे कोई संदर्भ …

2
सिकुड़न क्यों काम करती है?
मॉडल चयन की समस्याओं को हल करने के लिए, कई तरीके (LASSO, रिज रिग्रेशन, आदि) भविष्यवाणियों के गुणांक को शून्य की ओर कम कर देंगे। मैं एक सहज व्याख्या की तलाश कर रहा हूं कि यह भविष्य कहनेवाला क्षमता में सुधार क्यों करता है। यदि चर का वास्तविक प्रभाव वास्तव …

7
नियमितीकरण शब्द को * लागत कार्य (गुणक आदि के बजाय) * से क्यों जोड़ा गया है?
J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 मेरा प्रश्न यह है कि इस नियमितीकरण शब्द को जोड़ा गया है, जो मूल लागत फ़ंक्शन में जोड़ा गया है और गुणा या कुछ और नहीं है जो नियमितीकरण के विचार के पीछे प्रेरणा की भावना रखता है? क्या यह इसलिए है क्योंकि यदि …

6
उच्च आयाम ( ) में रिज रिग्रेशन बेकार है ? ओएलएस ओवरफिट करने में कैसे विफल हो सकता है?
भविष्यवक्ताओं और नमूना आकार साथ एक अच्छी पुरानी प्रतिगमन समस्या पर विचार करें । सामान्य ज्ञान यह है कि ओएलएस आकलनकर्ता ओवरफिट करेगा और आम तौर पर रिज रिग्रेशन अनुमानक द्वारा बेहतर प्रदर्शन करेगा:यह एक इष्टतम नियमितीकरण पैरामीटर खोजने के लिए क्रॉस-मान्यता का उपयोग करने के लिए मानक है । …

6
आधुनिक सांख्यिकी / मशीन लर्निंग में मल्टीकोलिनरिटी की जाँच क्यों नहीं की जाती है
पारंपरिक आंकड़ों में, एक मॉडल का निर्माण करते समय, हम विचरण मुद्रास्फीति कारक (VIF) जैसे अनुमानों का उपयोग करते हुए मल्टीकोलिनरिटी की जांच करते हैं, लेकिन मशीन लर्निंग में, हम इसके बजाय सुविधा चयन के लिए नियमितीकरण का उपयोग करते हैं और यह जांचने के लिए प्रतीत नहीं होते हैं …

3
लॉजिस्टिक रिग्रेशन के लिए नियमितीकरण के तरीके
रेखीय प्रतिगमन के लिए रिज, लास्सो, इलास्टिकनेट जैसे तरीकों का उपयोग करते हुए नियमितीकरण काफी सामान्य है। मैं निम्नलिखित जानना चाहता था: क्या ये तरीके लॉजिस्टिक प्रतिगमन के लिए लागू हैं? यदि हां, तो क्या लॉजिस्टिक रिग्रेशन के लिए उनका उपयोग करने के तरीके में कोई अंतर है? यदि ये …

1
तंत्रिका नेटवर्क: वजन में परिवर्तन की गति और वजन में गिरावट
मोमेंटम का उपयोग लगातार पुनरावृत्तियों पर वज़न में होने वाले उतार-चढ़ाव को कम करने के लिए किया जाता है:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), जहां त्रुटि फ़ंक्शन है, - वेट के वेक्टर, - सीखने की दर।E(w)E(w)E({\bf w})ww{\bf w}ηη\eta वजन में कमी वजन में परिवर्तन को …

5
रिज प्रतिगमन समाधान कैसे प्राप्त करें?
मैं रिज प्रतिगमन के समाधान के व्युत्पन्न के साथ कुछ मुद्दे रख रहा हूं। मैं नियमितीकरण शब्द के बिना प्रतिगमन समाधान जानता हूं: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

3
क्रॉस-मान्यता का उपयोग करते समय एक मानक त्रुटि नियम के लिए अनुभवजन्य औचित्य
क्या कोई अनुभवजन्य अध्ययन पारसीमोनी के पक्ष में एक मानक त्रुटि नियम के उपयोग को सही ठहरा रहा है? जाहिर है कि यह डेटा के डेटा-जनरेशन प्रोसेस पर निर्भर करता है, लेकिन डेटासेट के एक बड़े कॉर्पस का विश्लेषण करने वाली कोई भी चीज़ बहुत दिलचस्प होगी। क्रॉस-वेलिडेशन के माध्यम …

7
नियमितीकरण से डेटा के लिए डीप न्यूरल नेट्स की भूख क्यों नहीं मिटती?
एक मुद्दा जिसे मैंने सामान्य रूप से न्यूरल नेटवर्क्स के संदर्भ में अक्सर देखा है, और विशेष रूप से डीप न्यूरल नेटवर्क्स, यह है कि वे "डेटा भूखे" हैं - यही है कि वे तब तक अच्छा प्रदर्शन नहीं करते हैं जब तक कि हमारे पास एक बड़ा डेटा सेट …

2
यदि केवल भविष्यवाणी में रुचि है, तो रिज पर लस्सी का उपयोग क्यों करें?
पृष्ठ संख्या 223 में सांख्यिकीय शिक्षा के लिए एक परिचय में , लेखक रिज रिग्रेशन और लासो के बीच के अंतर को संक्षेप में प्रस्तुत करते हैं। वे एक उदाहरण (चित्र 6.9) प्रदान करते हैं, जब "लास्सो पूर्वाग्रह, प्रसरण और MSE के संदर्भ में रिज प्रतिगमन को बेहतर बनाता है"। …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.