समय के साथ अधिक विस्तृत व्याख्यात्मक चर शामिल करना


9

मैं यह समझने की कोशिश कर रहा हूं कि मैं एक वैरिएबल को कैसे मॉडल कर सकता हूं जहां समय के साथ मैंने तेजी से विस्तृत भविष्यवाणियां प्राप्त की हैं। उदाहरण के लिए, डिफ़ॉल्ट ऋणों पर मॉडलिंग रिकवरी दरों पर विचार करें। मान लीजिए कि हमारे पास 20 वर्षों के डेटा के साथ एक डेटासेट है, और उन वर्षों के पहले 15 में हम केवल यह जानते हैं कि ऋण संपार्श्विक किया गया था या नहीं, लेकिन उस संपार्श्विक की विशेषताओं के बारे में कुछ भी नहीं। पिछले पांच वर्षों के लिए, हालांकि, हम संपार्श्विक को श्रेणियों की एक श्रेणी में तोड़ सकते हैं, जो कि वसूली दर का एक अच्छा भविष्यवक्ता होने की उम्मीद है।

इस सेटअप को देखते हुए मैं डेटा के लिए एक मॉडल को फिट करना चाहता हूं, भविष्यवाणियों के सांख्यिकीय महत्व जैसे उपायों को निर्धारित करता हूं, और फिर मॉडल के साथ पूर्वानुमान करता हूं।

क्या लापता डेटा फ्रेम में फिट बैठता है? क्या इस तथ्य से संबंधित कोई विशेष विचार हैं कि अधिक विस्तृत व्याख्यात्मक चर केवल दिए गए बिंदु के बाद ही उपलब्ध हो जाते हैं, जैसा कि पूरे ऐतिहासिक नमूने में बिखरे हुए हैं?

जवाबों:


1

ठीक है, ऐतिहासिक डेटा का उपयोग करने में अनुभव से, अधिक इतिहास प्रतिगमन फिट को बेहतर बना सकता है, लेकिन अगर भविष्यवाणी करना व्यायाम का बिंदु है, तो सामान्य उत्तर चेतावनी दी गई है। उस मामले में जहां डेटा अवधि को दर्शाता है जिसके लिए 'दुनिया' बहुत अलग थी, सहसंबंधों की स्थिरता संदिग्ध है। यह विशेष रूप से अर्थशास्त्र में होता है जहां बाजार और नियम लगातार विकसित हो रहे हैं।

यह अचल संपत्ति बाजार के लिए भी है, जो इसके अलावा, एक लंबा चक्र हो सकता है। उदाहरण के लिए, बंधक समर्थित प्रतिभूतियों के आविष्कार ने बंधक बाजार को बदल दिया और बंधक उत्पत्ति के लिए बाढ़ के द्वार खोल दिए, और साथ ही, दुर्भाग्य से, अटकलें लगाई गईं (वास्तव में कोई पूर्ण / निम्न दस्तावेज़ नहीं था जिसे ऋण ऋण कहा जाता है)।

शासन परिवर्तन के लिए परीक्षण करने वाले तरीके इतिहास को बाहर करने के लिए गैर-व्यक्तिपरक तरीके से निर्णय लेने में विशेष रूप से मूल्यवान हो सकते हैं।


1

आमतौर पर, इसे एक बंधे हुए पैरामीटर मान समस्या के रूप में देखा जा सकता है। जैसा कि मैं आपके प्रश्न को समझता हूं, आपके पास कम जानकारीपूर्ण पैरामीटर (अज्ञात गुणवत्ता [जमानत]) आपके डेटा में जल्दी और अधिक जानकारीपूर्ण (उच्च [Ch], मध्यम [Cm], या निम्न [Cl] गुणवत्ता) के साथ संपार्श्विक है बाद में डेटा।

यदि आप मानते हैं कि मॉडल के लिए गैर-मनाया गया पैरामीटर समय के साथ नहीं बदलता है, तो विधि सरल हो सकती है जहां आप मानते हैं कि प्रत्येक का बिंदु अनुमान Cl <Cm <Ch और Cl <= Cu <= Ch है। तर्क यह है कि Cl सबसे खराब है और Ch सबसे अच्छा है, इसलिए जब डेटा अज्ञात होता है तो यह उन लोगों के बीच या उसके बराबर होना चाहिए। यदि आप थोड़ा प्रतिबंध लगाने के लिए तैयार हैं और यह मानते हैं कि सभी संपार्श्विक पहले 15 वर्षों के दौरान उच्च या निम्न गुणवत्ता वाले नहीं थे, तो आप मान सकते हैं कि Cl <Cu <Ch जो अनुमान लगाने में काफी सरल बनाता है।

गणितीय रूप से, इनका अनुमान कुछ इस तरह से लगाया जा सकता है:

सीएल=exp(β1)सी=exp(β1)+exp(β2)सीयू=exp(β1)+exp(β3)1+exp(-β4)सी=exp(β1)+exp(β2)+exp(β3)

जहां Cu में लॉगिट फ़ंक्शन Cm के सापेक्ष इसे प्रतिबंधित किए बिना Cl और Ch के बीच मान को प्रतिबंधित करता है। (0 और 1 के बीच बँधे अन्य कार्यों का भी उपयोग किया जा सकता है।)

मॉडल में एक और अंतर यह होना चाहिए कि विचरण को संरचित किया जाना चाहिए ताकि अवशिष्ट विचरण समय अवधि पर निर्भर हो क्योंकि प्रत्येक अवधि के भीतर की जानकारी अलग होती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.