निरंतर समय में मूल्य समारोह का अद्यतन - HJB


1

हल करते समय (संख्यात्मक रूप से, मान कार्य क्रम द्वारा) असतत समय में एक गतिशील प्रोग्रामिंग समस्या, जैसे

$$ V_1 (a) = \ max_ {c} \ u (c) + \ dfrac {1} {1+ \ rho} V_0 (a) $$

हम नियंत्रण चर के संबंध में अधिकतम करते हैं और पहले आदेश की स्थिति प्राप्त करते हैं जिसे हम ऊपर दिखाए गए कार्यात्मक समीकरण में वापस प्लग करते हैं। इस चरण के परिणाम, $ V (a) _1 $, का उपयोग तब दूसरी पुनरावृत्ति के RHS पर किया जाएगा

$$ V_2 (a) = \ max_ {c} \ u (c) + \ dfrac {1} {1+ \ rho} V_1 (a) $$

और हम इस प्रक्रिया को $ V (a) _n-V (a) _ {n + 1} & lt; \ epsilon $ तक दोहराते हैं।

मेरा सवाल यह है कि निरंतर समय में वैल्यू फंक्शन का अपडेट कैसे काम करता है? मैं एक ऐसे पेपर पर काम कर रहा हूं जो निरंतर समय की गतिशील प्रोग्रामिंग का उपयोग करता है, इसलिए बेलमैन समीकरण इस प्रकार है

$$ \ rho V_n (a) = \ max_ {c} \ u (c) + \ dfrac {\ आंशिक V_n (a)} {\ आंशिक a} da_t \ quad (*) $ $

जहाँ संक्रमण समीकरण $ da_t $ द्वारा दर्शाया गया है। मैंने जो देखा है, उससे $ \ Delta $ की गणना करके मूल्य फ़ंक्शन का अद्यतन किया जाता है:

$$ \ Delta = \ u (c (a ^ *)) + \ dfrac {\ आंशिक V_n (a)} {\ आंशिक a} da_t (a ^ *) - \ rho V_n (a) $ $

जहाँ $ u (c (a ^ *)) $ और $ da_t (a ^ *) $ इष्टतम नीति के कार्यों के रूप में नियंत्रण और संक्रमण समीकरण का प्रतिनिधित्व करते हैं। यही है, हम पिछले उदाहरण (असतत समय मामले) के रूप में आरएचएस को अधिकतम करते हैं, लेकिन फिर हम दोनों पक्षों से $ \ rho V (a) $ घटाते हैं। फिर मान फ़ंक्शन को अपडेट करना निम्नानुसार किया जाता है:

$ $ V_ {n + 1} (a) = V_n (a) + \ Delta $ $

ऐसा कैसे हो सकता है? मैंने सोचा होगा कि मैं (*) के अधिकतम आरएचएस का उपयोग करूंगा और एक नए पुनरावृत्ति में प्लग करूंगा। कैसे अन्य विधि सही है?


क्या आप पूछ रहे हैं कि इस समस्या को संख्यात्मक रूप से कैसे हल किया जाता है? आपका अंकन भ्रमित कर रहा है और यह बताना मुश्किल है कि आप क्या पूछ रहे हैं।
NickJ

हाय निक, हाँ मैं पूछ रहा हूँ कि यह संख्यात्मक रूप से कैसे हल किया जाता है। मान फ़ंक्शन पुनरावृत्ति आमतौर पर कार्यात्मक समीकरण के आरएचएस को अधिकतम करता है, एफओसी से एक नीति नियम प्राप्त करता है और फिर इसे आरएचएस पर वापस प्लग करता है। यह चरण तब तक किया जाता है जब तक कि मान फ़ंक्शन परिवर्तित नहीं हो जाता। यह पिछले समीकरण में दर्शाई गई विधि से अलग है, आप देख सकते हैं कि मान फ़ंक्शन पुनरावृत्ति को अलग तरीके से किया जाता है: हम अभी भी आरएचएस को अधिकतम करते हैं लेकिन फिर हम उस योगात्मक विधि का उपयोग करते हैं जहां हम उस मूल्य फ़ंक्शन के साथ डेल्टा जोड़ते हैं जो मैंने शुरू किया था।
Sophie

1
आमतौर पर (हमेशा?) जब मूल्य फ़ंक्शन पुनरावृत्ति करते हैं, तो हम राज्य स्थान को अलग करते हैं और संख्यात्मक रूप से अधिकतम करते हैं, कोई भी पहले की स्थिति नहीं ली जाती है। क्या मैं आपके प्रश्न को निम्नलिखित के रूप में फिर से उद्धृत कर सकता हूं? "मुझे पता है कि असतत समय गतिशील प्रोग्रामिंग समस्या के लिए बेलमैन समीकरण को संख्यात्मक अंदाजा लगाने के लिए मूल्य फ़ंक्शन पुनरावृत्ति का उपयोग कैसे किया जाता है, लेकिन समय के निरंतर होने पर मैं समाधान का संख्यात्मक रूप से अनुमान कैसे लगा सकता हूं?"
NickJ

बेन मोल का सामान देखें। कोड के साथ भी बहुत पारदर्शी। princeton.edu/~moll/HACTproject/HACT_Additional_Codes.pdf
clueless

जवाबों:


1

आप एक निश्चित बिंदु की ओर पुनरावृत्ति करते हैं, इसलिए आप ऐसी स्थिति तक पहुंचना चाहते हैं जहां आपके वर्तमान पुनरावृत्त मूल्य में प्लगिंग स्वयं उत्पन्न होती है। अब आपके अंकन का उपयोग करते हुए, हमें बताया गया है कि हमें गणना करनी चाहिए

$ $ V_ {n + 1} (a) = V_n (a) + \ Delta $ $

कहा पे

$$ \ Delta = \ u (c (a ^ *)) + \ dfrac {\ आंशिक V_n (a)} {\ आंशिक a} da_t (a ^ *) - \ rho V_n (a) $ $

पुनरावृत्ति नियम क्या है यह देखने के लिए पहले में दूसरा डालें:

$ $ V_ {n + 1} (a) = V_n (a) + \ u (c (a * *)) + \ dfrac {\ आंशिक V_n (a)} {\ आंशिक a} da_t (a ^ *) - \ rho V_n (ए) $ $

जब आप एक बिंदु पर पहुंच जाते हैं जहां

$ $ V_ {n + 1} (a) = V_n (a) $ $

(या $ \ epsilon $ -so)

इसका मतलब होगा

$$ \ rho V_n (a) = \ u (c (a ^ *)) + \ dfrac {\ आंशिक V_n (a)} {\ आंशिक a} da_t (a ^ *) $ $

जो आपको संतुष्ट करना है।

कुछ सितारों आदि को पूरी तरह से सुसंगत संकेतन के लिए उपरोक्त में समायोजित किया जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.