dynamic-programming पर टैग किए गए जवाब

3
जब इष्टतम नियंत्रण विफल हो जाता है (?)
"मेरा सवाल पूछने के लिए", मुझे पहले एक मॉडल को हल करना होगा। मैं कुछ चरणों को छोड़ दूंगा लेकिन फिर भी, यह अनजाने में इस पोस्ट को बहुत लंबा कर देगा-यह देखने के लिए भी एक परीक्षण है कि क्या यह समुदाय इस तरह के प्रश्नों को पसंद करता …

1
हैमिल्टन-जैकोबी-बेलमैन समीकरण को हल करना; इष्टतमता के लिए आवश्यक और पर्याप्त?
निम्नलिखित विभेदक समीकरण पर विचार करें जहां राज्य है और नियंत्रण चर है। समाधान जहाँ दी गई जन्मजात अवस्था है।एक्सयूएक्स(टी)=एक्स0+∫ टी 0 एफ(एक्स(रों),यू(रों))घरों। x0:=x(0)x˙(t)=f(x(t),u(t))x˙(t)=f(x(t),u(t))\begin{align} \dot x(t)=f(x(t),u(t)) \end{align}xxxuuux(t)=x0+∫t0f(x(s),u(s))ds.x(t)=x0+∫0tf(x(s),u(s))ds.\begin{align} x(t)=x_0 + \int^t_0f(x(s),u(s))ds. \end{align}x0:=x(0)x0:=x(0)x_0:=x(0) अब निम्नलिखित प्रोग्राम पर विचार करें जहां \ rho> 0 समय वरीयता को दर्शाता है, V (\ cdot) मान …

6
सतत-समय गतिशील प्रोग्रामिंग सीखने के लिए संदर्भ
क्या किसी को निरंतर समय गतिशील प्रोग्रामिंग सीखने के लिए अच्छे संदर्भों का पता है? संदर्भों को किताबें नहीं होना चाहिए। वे ऑनलाइन संसाधनों के लिंक भी हो सकते हैं। लिंक की स्पष्ट, संक्षिप्त चर्चा भी मूल बातें उपयोगी होगी।

1
अनुमान करें और सत्यापित करें
गतिशील प्रोग्रामिंग में, अनिर्धारित गुणांक की विधि को कभी-कभी "अनुमान और सत्यापित" के रूप में जाना जाता है। मैंने समय-समय पर सुना है कि कैनोनिकल अनुमान हैं कि कोई भी बना सकता है। विशेष रूप से, मैंने देखा है V(k)=A+Bln(k)V(k)=A+Bln⁡(k)V(k) = A + B\ln(k) V(k)=Bk1−σ1−σV(k)=Bk1−σ1−σV(k) = \frac{Bk^{1-\sigma}}{1-\sigma} पूर्व लॉग उपयोगिता …

1
समय की लागत और सेंट पीटर्सबर्ग विरोधाभास
सेंट पीटर्सबर्ग विरोधाभास में, हम इस समस्या के साथ समाप्त होते हैं कि एक तर्कसंगत एजेंट किसी भी दांव के लिए खेल खेलने के लिए तैयार होना चाहिए, अगर हम अपेक्षित आय या अपेक्षित आय की उपयोगिता को देखते हैं। इसके लिए मानक "समाधान" इसके बजाय आय की अपेक्षित उपयोगिता …

1
बेलमैन समीकरण का समाधान एक निश्चित बिंदु है
मैंने हाल ही में गतिशील अनुकूलन का अध्ययन शुरू किया है। मैं इस तथ्य के बारे में अपना सिर नहीं लपेट सकता कि बेलमैन समीकरण का मान फ़ंक्शन एक संकुचन मानचित्रण का एक निश्चित बिंदु है। जहां तक मेरी समझ बल्कि अनुभवहीन है: अगर समस्या परिमित है, कहते हैं: Σt …

1
निरंतर समय में मूल्य समारोह का अद्यतन - HJB
हल करते समय (संख्यात्मक रूप से, मान कार्य क्रम द्वारा) असतत समय में एक गतिशील प्रोग्रामिंग समस्या, जैसे $$ V_1 (a) = \ max_ {c} \ u (c) + \ dfrac {1} {1+ \ rho} V_0 (a) $$ हम नियंत्रण चर के संबंध में अधिकतम करते हैं और पहले आदेश …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.