अनुकूलन: डायनेमिक प्रोग्रामिंग बनाम कुह्न-टकर


7

प्रतिनिधि गृह के मानक उपयोगिता अधिकतमकरण पर विचार करते हुए, जो हमेशा के लिए रहता है, एक असतत समय के मामले में गतिशील प्रोग्रामिंग और कुह्न-टकर का उपयोग कर सकता है। उदाहरण के लिए, कोई हल करना चाहेगा,

अधिकतम अधीनΣtU(C(t),N(t))P(t)C(t)+Q(t)B(t)<B(t1)+W(t)N(t)+D(t)

जहाँ खपत है, बंधन है, बंधन मूल्य है, एक लाभांश है, और श्रम की मात्रा है।C(t)BQD(t)N(t)

क्या डायनेमिक प्रोग्रामिंग या कुह्न-टकर का उपयोग करने पर व्याख्या अलग होती है? क्या यह कुछ इस तरह से होगा: DP में सभी रास्तों को t के साथ ऑप्टिमाइज़ किया गया है, लेकिन Kuhn-Tucker में केवल टाइम टी का पथ ऑप्टिमाइज़ किया गया है

यदि हां, तो आप उपरोक्त कथन कैसे बना सकते हैं?

जवाबों:


1

मैं कहूंगा कि मुख्य अंतर समाधान पद्धति से उपजा है, जिसके परिणामस्वरूप आपके सभी कथन बनाम केवल पथ के बारे में समय पर सच होने का परिणाम है।

गतिशील प्रोग्रामिंग (कम से कम जब संख्यात्मक रूप से किया जाता है) में पिछड़े प्रेरण शामिल होते हैं। एक अंतिम अवधि में राज्य चर के सभी संभावित मूल्यों के लिए इष्टतम कार्रवाई की पहचान करने की कोशिश करता है, और फिर राज्य समीकरण के बाद पीछे का कारण बनता है। इस तरह से एक समाधान न केवल उस पथ के लिए होता है जैसे हम वर्तमान में हैं, बल्कि सभी अन्य पथ भी हैं।

इसी प्रकार, यदि कोई बेलमैन समीकरण के मान फ़ंक्शन को हल करने के लिए अनुमान-और-सत्यापित विधि का उपयोग करता है, तो मान फ़ंक्शन एक अनुमान राज्य चर के सभी संभावित मूल्यों के लिए इष्टतम निर्णय को परिभाषित करता है। इस प्रकार एक वर्तमान सहित सभी संभव रास्तों के लिए एक समाधान हो जाता है।

कुह्न-टकर मूल रूप से चारों ओर काम करता है। एक आवश्यक और पर्याप्त स्थितियों का सूत्रीकरण करता है, और आरंभिक बिंदुओं के रूप में प्रारंभिक स्थितियों का उपयोग करके परिणामी अंतर समीकरणों को हल करता है।


आपकी टिप्पणी के लिए बहुत बहुत धन्यवाद। इसलिए ज्यादातर मामलों में दोनों तरीकों का इस्तेमाल घर के इष्टतम व्यवहार को खोजने के लिए किया जा सकता है, लेकिन व्याख्या अलग हो सकती है। क्या यह सही है?
रॉय_ओशी

वास्तव में दोनों तरीकों का उपयोग इष्टतम समाधान खोजने के लिए किया जा सकता है। मुझे यकीन नहीं है कि "व्याख्या अलग हो सकती है" की व्याख्या से आपका क्या मतलब है? समाधान दोनों मामलों में समान होगा, मुख्य अंतर यह है कि डीपी आपको "अन्य समाधानों" की मेजबानी भी प्रदान करेगा यदि आप वर्तमान में इष्टतम पथ पर नहीं हैं।
Maarten Punt

मुझे लगता है कि कोई कह सकता है कि इस उपभोक्ता के पास भविष्य में खपत के किसी अन्य मार्ग का पालन करने के लिए कोई प्रोत्साहन नहीं है जब डीपी को लागू किया जाता है क्योंकि सभी मार्ग अनुकूलित होते हैं (प्रतिबद्धता का प्रकार)। दूसरी ओर, यदि खपत पथ का अनुकूलन कुह्न-टकर द्वारा हल किया जाता है, तो घर भविष्य में उपभोग पथ से बाहर निकल सकता है क्योंकि केवल समय टी और समय टी + 1 का मार्ग अनुकूलित है।
रॉय_ओशी

नहीं, उपभोक्ता के पास वैसे भी इष्टतम रास्ता छोड़ने के लिए कोई प्रोत्साहन नहीं होगा, अन्यथा यह इष्टतम नहीं होगा। यह अधिक पसंद है: यदि उपभोक्ता "गलती" करेगा या यदि हम किसी तरह उसे इष्टतम रास्ते से हटा देंगे, तो डीपी वापस रास्ता प्रदान करेगा। KT केवल t और t + 1 पर पथ का अनुकूलन नहीं करता है, यह पूर्ण पथ का अनुकूलन करता है। इसका कारण यह है कि हम आम तौर पर इसे सभी टी के लिए हल नहीं करते हैं, यह है कि समाधान आम तौर पर सभी भविष्य के टी के लिए एक संबंधित टी और टी + 1 है (बशर्ते उपभोक्ता इष्टतम पथ पर रहता है)
मार्टेन पंट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.