एक इष्टतम नियंत्रण मॉडल: एक स्थिर अवस्था के लिए एक हास्यास्पद परिणाम


7

मैं एक प्रतीत होता है सरल इष्टतम नियंत्रण समस्या के साथ प्रयोग कर रहा था जो अंतर समीकरणों की एक प्रणाली उत्पन्न करता है। जब मैं सिस्टम की स्थिर स्थिति के मूल्यों की गणना करता हूं तो मुझे कुछ बहुत ही अजीब परिणाम मिलते हैं, मेरा मानना ​​है कि मैंने अधिकतम सिद्धांत लागू करने पर कुछ गलत किया। यदि आप कुछ पाठ पढ़ने के लिए पर्याप्त धैर्य रखते हैं, तो मैं आपके सुझावों को सुनने के लिए आभारी रहूंगा कि क्या गलत हो सकता है।

नोटेशन

जब भी कोई चर समय पर निर्भर करता है, मैं एक सबस्क्रिप्ट $ t $ का उपयोग करता हूं। जैसे $ A_t (x_1, x_2): = ए (x_1, x_2, टी) $

सेट अप

एक रैखिक उत्पादन समारोह के साथ एक बंद अर्थव्यवस्था की कल्पना करें। उत्पादित माल की मात्रा मानव पूंजी $ A_t $ और कुछ निश्चित रीसोर्स एंडॉमेंट $ R $ के स्तर पर निर्भर करती है। इस प्रकार,

$ Y_t: = A_tR $

जिस अर्थव्यवस्था की हम कल्पना करते हैं, उसमें असुरक्षित माहौल है और $ p $ (बहिर्जात) की संभावना के साथ यादृच्छिक पर हमला किया जा सकता है। जब भी देश पर हमला होता है, तो वह अपनी आय का कुछ नुकसान करता है। मैं शेष शेयर $ q_t $ को निरूपित करता हूं। संरक्षित आय का हिस्सा इस बात पर निर्भर करता है कि देश द्वारा संचित मानव पूंजी के स्तर पर किस देश ने कितना खर्च किया है:

$ q_t: = 1- \ frac {1} {\ Alpha A ^ m_t M_t} $

मैं [0,1] $ में $ m \ ग्रहण करता हूं इस प्रकार अधिक से अधिक सैन्य खर्च है, अधिक सुरक्षित वर्तमान आय है। ध्यान दें कि सैन्य खर्च $ m & lt; 1 $ के संरक्षण में बेहतर काम करता है।

यह सब देखते हुए, मान लें कि अर्थव्यवस्था 3 प्रकार के माल का उत्पादन करती है: उपभोग का सामान $ C_t $, सैन्य सामान $ M_t $ और मानव पूंजी $ A_t $। सादगी के लिए मान लें, कि $ A_t $ एकमात्र चर है जो उपभोग के सामानों और सैन्य सामानों को जमा करता है और समय पर हर पल तुरंत खपत होता है। अगर कोई इस पर सहमत होता है, तो मानव पूंजी के लिए गति के समीकरण को व्यक्त करने का एक तरीका यह है कि देश की आय का भारित औसत, मानव पूंजी के उपभोग, सैन्य और अवमूल्यन पर न्यूनतम व्यय है:

$ \ dot {A} _t = \ underbrace {pq_tY_t} _ \ text {युद्ध के बाद की आय} + \ underbrace {(1-p) Y_t} _ \ text {कोई युद्ध की आय} - C_t - M_t - \ delta A_t $

यह मानते हुए कि सभी चर सकारात्मक वास्तविक रेखा से संबंधित हैं, अतिरिक्त $ A_t, M_t & gt; 0 $, एक अवतल उपयोगिता कार्य $ U '(C_t) & gt; 0, U' '(C_t) और lt; 0 $ और `शुरुआती' कुछ प्रारंभिक अनुदान दे रहा है; मानव पूंजी का मूल्य $ A (t = 0) = A_0 $ एक निम्नलिखित इष्टतम नियंत्रण समस्या तैयार कर सकता है: \ Begin {} समीकरण     \ max_ {C_t, M_t} \ int_0 ^ \ infty U (C_t) e ^ {- \ rho t} dt \ अंत {} समीकरण

शब्दों में: अनंत क्षितिज स्टीयरिंग की खपत और सैन्य पर अधिकतम उपयोगिता।

ऐसा है कि: \ Begin {} समीकरण \ dot {A} _t = p \ left (1- \ frac {1} {\ Alpha A ^ m_t M_t} \ right) A_tR + (1-p) A_tR - C_t - M_t_ \ delta A_t \ अंत {} समीकरण और ट्रांसवर्सिटी स्थिति: \ Begin {} समीकरण \ lim_ {t- & gt; \ infty} e ^ {- \ rho t} \ lambda_t At = 0 \ अंत {} समीकरण

हैमिल्टनियन और समाधान

वर्तमान-मूल्य हैमिल्टनियन इस तरह दिखता है ($ \ mu_t = \ lambda_t e ^ {- \ rho t} $): \ Begin {} समीकरण H ^ c = U (C_t) + \ _ mu_t \ left (p \ left (1- \ frac {1} {\ Alpha A ^ m_t M_t} \ right) A_tR + (1-p) A -tR - C_t - M_t - \ डेल्टा A_t \ right) \ अंत {} समीकरण

च्यांग (1992) का तर्क है कि यदि हैमिल्टन नियंत्रण और राज्य चर में अछूता है, तो कोई भी हैमिल्टन के डेरिवेटिव को ले जाकर और शून्य के बराबर स्थापित करके पहले-क्रम की स्थिति प्राप्त करता है।

\ Begin {} समीकरण \ frac {\ आंशिक H ^ c} {\ आंशिक C_t}: U '(C_t) - \ mut_ 0 \ अंत {} समीकरण

\ Begin {} समीकरण \ frac {\ आंशिक H ^ c} {\ आंशिक C_t}: \ mu_t \ left (pA ^ {1-m} _tR \ frac {1} {\ Alpha M ^ 2_t} -1 \ right) 0 \ अंत {} समीकरण

\ Begin {} समीकरण \ _ \ _ mu} _t = \ rho \ mu_t - \ mu_t \ left (pR \ frac {m-1} {\ Alpha A ^ m_t M_t} + R - \ delta's right \ अंत {} समीकरण

$ \ Dot {\ mu} _t $ और $ \ dot {A} _t $ के लिए भाव अंतर समीकरणों की एक प्रणाली बनाते हैं। लेकिन \ _ {mu} _t की व्याख्या करना काउंटर-सहज ज्ञान युक्त है। इसके बजाय, आमतौर पर $ U '' (C) _t = \ dot {\ mu} _t $ के संबंध में खपत के लिए FOC को विभेदित किया जाता है और गति के समीकरण से \ _ mu} _t लागू होता है। चूँकि $ U '(C_t) = \ mu_t $, $ $ \ _ {C} _t $ में $ $ mu_t से छुटकारा पा सकता है। फिर भी, सिस्टम में दो समीकरण $ \ dot {C} _t, \ dot {A} _t $ और तीन चर $ A_t $, $ C_t $, $ M_t $ शामिल होंगे।

\ Begin {} समीकरण     \ Begin {} मामलों         \ dot {C} _t = - \ frac {U '(C_t)} {U' '(C_t)} \ left (pR \ frac {m-1} {\ Alpha A ^ m_t M_t} "R - \ delta -" \ rho \ right) \\         \ dot {A} _t = A_t R - A ^ {1-m} _t \ frac {pR} {M_t} - C_t - M_t - \ delta A_t     \ अंत {} मामलों \ अंत {} समीकरण

मुझे अन्य चर या मापदंडों के कार्य के रूप में $ M_t $ व्यक्त करने का एक तरीका चाहिए। इस प्रकार मैं दूसरा FOC लेता हूं, इसे शून्य के बराबर करता हूं ($ $ mu_t = 0 $ के विकल्प को खारिज करता हूं क्योंकि $ \ mu_t = U '(C_t) & gt; 0 $) और $ M_t $ को $ A_t $: के कार्य के रूप में प्राप्त करता हूं। एम ^ * _ टी: = एक ^ {\ frac {1 मीटर} {2}} _ टी \ sqrt {\ frac {पीआर} {\ अल्फा}} $

मैं ऊपर सिस्टम में $ M ^ * _ t $ को लागू करता हूं, $ \ _ {C} _t = \ dot {A} _t = 0 $ सेट करता हूं और स्थिर अवस्था के लिए भावों की गणना करता हूं। तुच्छ समाधान $ C_t = 0 $ को खारिज करते हुए, मैं निम्नलिखित संतुलन मूल्य प्राप्त करता हूं:

मानव पूंजी

\ Begin {} समीकरण     \ bar {A} _t = \ left (\ frac {pR} {\ Alpha} \ frac {(1-m) ^ 2} {(R - \ delta - \ rho) ^ 2} \ right) ^ {\ frac {1} {1 + m}} \ अंत {} समीकरण

सैन्य

\ Begin {} समीकरण         \ बार {M_t} = \ left (\ frac {pR} {\ Alpha} \ frac {(1-m) ^ 2} {(R - \ delta - \ rho) ^ 2} \ right) ^ {\ f {{ 1-m} {2 (1 + m)}} \ sqrt {\ frac {p R} {\ अल्फा}} \ अंत {} समीकरण

सेवन

\ Begin {} multline     \ bar {C_t} = \ left (\ frac {pR} {\ Alpha} \ frac {(1-m) ^ 2} {(R - \ delta - \ rho) ^ 2} \ right) ^ {\ _ f {{ 1} {1 + m}} (R - \ delta) \\ - \ left (\ frac {pR} {\ Alpha} \ frac {(1-m) ^ 2} {(R - \ delta - \ rho) ^ 2} (दाएं) ^ {\ frac {1-m} {2 (1 + m)}} \ sqrt {\ Alpha pR} \ left (1 + \ frac {1} {\ Alpha} \ right) \ अंत {} multline

खपत के लिए अभिव्यक्ति अनाड़ी दिखती है। यह वास्तव में है! जब मैंने कुछ अधिक या कम उचित मापदंडों ($ p = 0.052 $, $ m = 0.21 $, $ \ डेल्टा = 0.242 $, $ \ अल्फा = 2.54 $, $ \ rho = 1.48 $) के मूल्य की गणना करने की कोशिश की। मुझे मिला नकारात्मक संख्या। $ R $ (क्षैतिज अक्ष) के एक समारोह के रूप में $ C_t $ (ऊर्ध्वाधर अक्ष) का चित्रण करने वाले Mathematica से एक स्क्रीनशॉट: Steady state consumption with $p=0.052$, $m=0.21$, $\delta=0.242$, $\alpha = 2.54$, $\rho=1.48$

मुझे उम्मीद नहीं है कि असुरक्षित संपत्ति के अधिकार का परिचय एक रैखिक उत्पादन समारोह को दिए गए नकारात्मक मूल्यों के लिए स्थिर राज्य खपत को बदल देगा। ऐसा लगता है कि मैंने अधिकतम सिद्धांत एल्गोरिथ्म को गलत तरीके से लागू किया है, लेकिन मैं यह पता नहीं लगा सकता कि मेरी गलती क्या थी। क्या कोई मुझे बता सकता है कि क्या गलत हुआ? कोई विचार? अनुलेख आप एक नायक हैं यदि आप बहुत अंत तक पढ़ते हैं :)

अद्यतन: जैसा कि यहां कुछ लोगों ने सुझाव दिया है, अधिकतम सिद्धांत विफल हो जाता है क्योंकि मैं एक स्टोकेस्टिक मॉडल के लिए निर्धारक विधि लागू करता हूं। यह एक उचित चिंता है। मैंने यह जांचने का फैसला किया कि क्या विधि $ 1 = 1 $ सेट करने की स्थिति में काम करती है (अर्थव्यवस्था के लिए असीम रूप से लंबे युद्ध-परिदृश्य का अर्थ है)।

विनिर्देश के साथ विहित समीकरण इस तरह दिखते हैं:

\ Begin {} समीकरण \ frac {\ आंशिक H ^ c} {\ आंशिक C_t}: U '(C_t) - \ mut_ 0 \ अंत {} समीकरण

\ Begin {} समीकरण \ frac {\ आंशिक H ^ c} {\ आंशिक C_t}: \ mu_t \ left (pA ^ {1-m} _tR \ frac {1} {\ Alpha M ^ 2_t} -1 \ right) 0 \ अंत {} समीकरण

\ Begin {} समीकरण \ _ \ _ mu} _t = \ rho \ mu_t - \ mu_t \ left (R - R \ frac {1-m} {\ Alpha A ^ m_t M_t} - \ delta \ right) \ अंत {} समीकरण

मैं पहले की तरह समाधान के साथ आगे बढ़ा और निम्न गतिशील प्रणाली ($ U (C_t) = \ ln {C_t} $ प्राप्त की:)

\ Begin {} समीकरण     \ Begin {} मामलों         \ dot {C} _t = C_t \ left (R - R \ frac {1-m} {\ Alpha A ^ m_t M_t} + R - \ delta - \ rho \ right) \\         \ dot {A} _t = A_t R - A ^ {1-m} _t \ frac {R} {M_t} - C_t - M_t - \ delta A_t     \ अंत {} मामलों \ अंत {} समीकरण

स्थिर अवस्था के लिए इसे हल करें। यहां मानव पूंजी, सैन्य और उपभोग के लिए मेरे संतुलन के मूल्य हैं।

\ Begin {} समीकरण \ bar {A} = \ left (\ frac {(1-m) ^ 2} {(R- \ delta- \ rho) ^ 2} \ frac {R} {\ अल्फा} \ right) ^ {\ frac { 1} {1 + m}} \ अंत {} समीकरण

\ Begin {} समीकरण \ बार {M} = \ छोड़ दिया (\ frac {आर} {\ अल्फा} \ right) ^ {1/2} \ छोड़ दिया (\ frac {(1-एम) ^ 2} {(R- \ delta- \ रो ) ^ 2} \ frac {R} {\ Alpha} \ right) ^ {\ frac {1-m} {2 (1 + m)}} \ अंत {} समीकरण

\ Begin {} समीकरण \ bar {C} = (R- \ delta) \ left (\ frac {(1-m) ^ 2} {(R- \ delta- \ rho) ^ 2} \ frac {R} {\ Alpha} \ right ) ^ {\ frac {1} {1 + m}} - 2 \ छोड़ दिया (\ frac {आर} {\ अल्फा} \ right) ^ {1/2} \ छोड़ दिया (\ frac {(1-एम) ^ 2 } {(R- \ delta- \ rho) ^ 2} \ frac {R} {\ Alpha} \ right) ^ {\ frac {1-m} {2 (1 + m)}} \ अंत {} समीकरण

मैंने फिर से $ C_t $ के मूल्यों का अनुकरण किया। यहाँ मुझे क्या मिलेगा: Consumption (vertical axis) as a function of resource endowment (horizontal axis)

विभिन्न समीकरण, फिर भी समान तस्वीर। तो मॉडल की स्टोचस्टिक प्रकृति एकमात्र समस्या नहीं है। शायद मुझे यहाँ धमाकेदार समाधान की तरह कुछ याद आ रहा है? या शायद यह बस मामले में मौजूद नहीं है?


साइट पर आपका स्वागत है। जब आप खपत की गणना करते हैं, तो आपने $ R $ के लिए क्या मान लिया था?
Adam Bailey

टिप्पणी के लिए धन्यवाद। मैं यह उल्लेख करना भूल गया कि जिस ग्राफ को आप संसाधन बंदोबस्ती के कार्य के रूप में दर्शाते हैं। $ C_t = g (R) $। $ C $ ऊर्ध्वाधर अक्ष पर है और $ R $ क्षैतिज अक्ष पर है। $ R $ 0 से 10 000 तक फैला है।
Artem Kochnev

@ArtemKochnev के रूप में एलेकोस नीचे अपने जवाब में बताते हैं, मुझे नहीं लगता कि इसे नियतात्मक नियंत्रण समस्या के रूप में तैयार किया जा सकता है। $ M $ और $ C की आपकी पसंद कुछ ऐसी कूदने की प्रक्रिया को प्रेरित करती है जिसके लिए आपको स्टोचस्टिक नियंत्रण सिद्धांत के साधनों की आवश्यकता होगी। स्टोकेस्टिक नियंत्रण के लिए पोंट्रीगिन के सिद्धांत का एक एनालॉग है, लेकिन आपको वहां पहुंचने के लिए कुछ बहुत परिष्कृत उपकरणों की आवश्यकता होगी।
Theoretical Economist

धन्यवाद :) मुझे लगता है कि आप इस पर सही हैं, लेकिन फिर मॉडल के एक निर्धारक संस्करण में स्थिर-अवस्था की गणना करने के बाद इसे गायब हो जाना चाहिए ($ p = 1 $)। फिर भी, मैं उसी समस्या का सामना करता हूं। ऊपर अद्यतन देखें।
Artem Kochnev

जवाबों:


4

एक सामान्य मुद्दा जो मैं देख रहा हूं, वह यह है कि आप एक नियतात्मक सेटअप के लिए विकसित ढांचे में अनिश्चितता को शामिल करने का प्रयास करते हैं।

आप जो भी करते हैं उसका उपयोग करना है अपेक्षित होना मानव पूंजी के लिए गति के समीकरण में आय। $ I_ {a, t} $ को हमले के लिए संकेतक फ़ंक्शन को सूचित करें, जब कोई हमला होता है, तो $ 1 $ मूल्य लेता है, और $ 0 $ का मूल्य तब होता है जब नहीं होता है। फिर, ठीक से,

$ $ \ _ {अ} _t = \ underbrace {I_ {a, t} q_tY_t} _ \ text {युद्ध के बाद की आय} + \ underbrace {(1-I_ {a, t}) Yt} _ \ _ {text -वार आय} - C_t - M_t - \ delta A_t $$

और जो आप अपने मॉडल में उपयोग कर रहे हैं वह $ \ mathbb E (\ dot A_t) $ है। हम्म ..., मुझे यकीन नहीं है कि यह इतना आसान है ... क्या आपने निरंतर समय में स्टोचैस्टिक ऑप्टिमल कंट्रोल की मशीनरी को देखा है?

इसके अलावा, मुझे दो पैरामीटर मान भी दिखाई देते हैं जो आपके सिमुलेशन में अजीब हैं, सिवाय इसके कि कुछ ऐसा है जो आप हमें नहीं बताते हैं।

1) $ \ डेल्टा = 0.242 $ का अर्थ है $ 24.2 $% प्रति अवधि मानव पूंजी का मूल्यह्रास। यहाँ आपकी "अवधि" क्या है? दी, यह निरंतर समय है, लेकिन सिमुलेशन परिणामों का आकलन करने और यह देखने के लिए कि क्या वे समझ में आते हैं, आपको "समय अवधि" की असतत लंबाई निर्धारित करनी चाहिए। एक बेंचमार्क वार्षिक मूल्य $ \ डेल्टा = 0.04 $ होगा, फिर आपका लगभग 7 साल की अवधि से मेल खाता है।

2) $ \ rho = 1.48 $ के बराबर शुद्ध समय वरीयता की दर ?? आप एकता से अधिक मूल्य के साथ कैसे आए? ... एक वार्षिक अवधि के लिए एक बेंचमार्क मूल्य $ \ rho = 0.02 $ है। इसलिए यदि हम मूल्यह्रास दर के लिए निहित 7-वर्ष की अवधि के अनुरूप होना चाहते हैं, तो इसे लगभग $ r = = 0.132 $ होना चाहिए। तो $ \ डेल्टा $ पैरामीटर के अनुरूप होने के लिए, आपको $ \ rho $ बदलना चाहिए।

लेकिन यह परिणाम को प्रभावित नहीं करेगा, जैसा कि आपके समीकरणों से स्पष्ट होना चाहिए, खासकर जब से $ R $ की तुलना में बहुत बड़े मूल्यों के लिए जाँच की जाती है।

अंत में, और उपरोक्त सभी को अनदेखा करना, यह तथ्य नहीं है कि आपने "असुरक्षित संपत्ति अधिकार" पेश किया है, यह है विशिष्ट कार्यात्मक रूप आपने उन्हें मॉडल में शामिल करने के लिए चुना, जो जाहिर तौर पर सभी परेशानी का कारण बनता है। गणितीय रूप उपकरण हैं, और यहां तक ​​कि जब हमारे पास कई उचित उपकरण होते हैं ($ q_t $ फ़ंक्शन का आपका विनिर्देश अनुचित नहीं है), तो सभी मॉडल के लिए सभी उपयुक्त नहीं हैं।

"असुरक्षित संपत्ति अधिकारों" को शामिल करने के कई अन्य तरीके हैं- उदाहरण के लिए: आप तर्क दे सकते हैं कि सैन्य खर्च हमले की संभावना को प्रभावित करता है। आप $ q_t $ के लिए अभिव्यक्ति में मानव पूंजी को शामिल नहीं करने का विकल्प चुन सकते हैं। आदि।

इसलिए अगर आप सिद्धांत में अनिश्चितता (मेरी पहली टिप्पणी) को कैसे संभालते हैं, तो यह मुद्दा बिल्कुल नहीं है, तो आपको हमले के कारण और / या खो जाने की संभावना को मॉडल करने के तरीके को बदलना चाहिए।

याद रखें कि आप सिर्फ एक मॉडल का निर्माण कर रहे हैं -और यह वह मॉडल है जिसे वास्तविकता और तर्क के अनुरूप होना चाहिए, न कि दूसरे तरीके से। और स्थिर-राज्य खपत के बाद से होगा- बहिर्जात संसाधन बंदोबस्ती में कमी उचित या यथार्थवादी नहीं है, आपको अपने मॉडल को ट्वीक करना चाहिए। यह है नहीं मामला है कि आप सिर्फ मानव व्यवहार के बारे में एक आश्चर्यजनक कानून का खुलासा किया (अभी तक कम से कम नहीं)।

यह गैर-मोनोटोनिक परिणाम प्राप्त करने के लिए दिलचस्प होगा - एसएस-खपत के लिए $ R / - में न्यूनतम या अधिकतम होने के लिए कहें। उस वास्तव में tantalizing होगा।


टिप्पणी के लिए धन्यवाद। मैंने शायद इस पर ज्यादा जोर नहीं दिया: मुझे जो चिंता है, वह यह है कि इसका कोई मतलब नहीं है। मेरा यह कहने का कोई इरादा नहीं था कि 'देखो: मुझे प्रकृति का एक नियम मिला'। बेशक नहीं :) और जब से मेरे पास ऐसा भ्रामक परिणाम आया है, मैंने सोचा कि मैंने कुछ गलत किया है। स्टोकेस्टिक नियंत्रण के बारे में आपके सुझाव के बारे में। मुझे लगता है कि आप सिद्धांत रूप में सही हैं। फिर भी, अपडेट में दिखाए गए निर्धारक मॉडल में मेरे परिणामों की जांच करें: मुझे अभी भी वही परेशानी है। इस प्रकार, यह संभव है कि मुझे कुछ और याद है।
Artem Kochnev

@ArtemKochnev दूसरी बात जो मैंने अपने उत्तर में लिखी है, वह यह है कि आपको $ q_t $ फ़ंक्शन को अपने कार्यात्मक रूप के संबंध में और जिस तरह के तर्कों को शामिल करना चाहिए, उसे बदलना चाहिए। इसके कार्यात्मक रूप के लिए आपकी वर्तमान पसंद गैर-संवेदी जोखिम देती है और इसलिए इसे छोड़ दिया जाना चाहिए।
Alecos Papadopoulos
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.