प्रतिगमन में अधिक हाल के अवलोकनों को अधिक भार सौंपना


9

मैं आर में अधिक हालिया टिप्पणियों के लिए अधिक वजन कैसे निर्दिष्ट करूं?

मैं इसे आम तौर पर पूछे जाने वाले प्रश्न या इच्छा के रूप में मानता हूं, लेकिन मुझे यह पता लगाने में कठिन समय है कि इसे कैसे लागू किया जाए। मैंने इसके लिए बहुत कुछ खोजने की कोशिश की है लेकिन मैं एक अच्छा व्यावहारिक उदाहरण नहीं खोज पा रहा हूं।

मेरे उदाहरण में मेरे पास समय के साथ एक बड़ा डेटासेट होगा। मैं कहना चाहता हूं कि डेटा की पंक्तियों के कुछ प्रकार के घातीय भार को लागू करें जो हाल ही में अधिक हैं। इसलिए मेरे पास कुछ प्रकार के घातीय कार्य होंगे जिसमें कहा गया था कि 2015 में टिप्पणियों ___ 2012 में टिप्पणियों की तुलना में मॉडल को प्रशिक्षित करने के लिए अधिक महत्वपूर्ण हैं।

मेरे डेटासेट चर में श्रेणीबद्ध और संख्यात्मक मानों का मिश्रण होता है और मेरा लक्ष्य एक संख्यात्मक मान है - यदि यह मायने रखता है।

मैं आदर्श रूप से CARET पैकेज में GBM / रैंडम फ़ॉरेस्ट जैसे मॉडलों का उपयोग करके इसका परीक्षण / परीक्षण करना चाहता हूँ।

अद्यतन-सवाल

मैं नीचे दी गई प्रतिक्रिया की सराहना करता हूं कि कैसे दो बिंदुओं के बीच की तारीख की दूरी से वजन का तेजी से क्षय होता है।

हालांकि, जब इस मॉडल को कैरेट में प्रशिक्षित करने की बात आती है, तो वास्तव में वजन कारक कैसे होता है? प्रशिक्षण पंक्तियों में से प्रत्येक में वजन मूल्य भविष्य में कुछ बिंदु के बीच की दूरी है और जब वह बिंदु ऐतिहासिक रूप से कम हो जाता है।

क्या भविष्यवाणी के दौरान वजन केवल खेल में आता है? क्योंकि अगर वे प्रशिक्षण के दौरान खेलने आते हैं, तो इससे सभी तरह की समस्याएं नहीं होंगी क्योंकि विभिन्न क्रॉस-फोल्ड में अलग-अलग वजन होंगे, जो कुछ भविष्यवाणी करने की कोशिश कर रहे होंगे जो वास्तव में समय से पहले एक बिंदु पर हो सकते हैं?


3
क्लोजवोट क्योंकि प्रश्नकर्ता को सांख्यिकीय मुद्दों को स्पष्ट करने की आवश्यकता होती है। यह मेरे लिए स्पष्ट नहीं है कि GBN या RF यहां उपयुक्त हैं। यह सुझाव दिया जाता है कि CV.com पर
प्रवासित हों

ठीक। मैं जल्द ही एक उदाहरण जोड़ूंगा। मैं इस तरह के प्रश्न को पूरे इंटरनेट पर देखता हूं, लेकिन इसे लागू करने / हल करने का कोई ठोस उदाहरण नहीं है।
user3788557

जवाबों:


5

मैं आर में अधिक हालिया टिप्पणियों के लिए अधिक वजन कैसे निर्दिष्ट करूं?

मुझे लगता है कि आपके पास प्रत्येक अवलोकन के साथ एक टाइमस्टैम्प जुड़ा हुआ है। आप एक चर की गणना कर सकते हैं timeElapsed = modelingTime - observationTime। अब आप के रूप में एक सरल घातीय समारोह लागू W=K*exp(-timeElapsed/T)जहां, Kएक स्केलिंग स्थिर है और Tहै समय निरंतर क्षय समारोह के लिए। Wकेस-वेट के रूप में काम करता है।

मेरे ज्ञान का सबसे अच्छा करने के लिए, एक पैरामीटर के रूप में caretअनुमति देने के लिए कई फ़ंक्शन weight, जो कि संबंधित अवलोकन के लिए प्रदान किए जाने वाले केस-वेट का एक कॉलम है (इस प्रकार #rows की समान लंबाई है)।


1
में कार्य caret::trainहै weights
टाइमलक्कुलास

उज्जवल को धन्यवाद - लेकिन आपके समीकरण में 'के' का निर्धारण करने की पद्धति क्या है? किसी भी दिशा-निर्देश या सर्वोत्तम अभ्यास? इसके अलावा, क्षय समारोह के लिए 'समय-अवधि' से आपका क्या तात्पर्य है?
user3788557

K केवल एक स्केलिंग स्थिरांक है और यह मॉडल परिणामों को बहुत प्रभावित नहीं करेगा। आप कुछ मूल्य पर सेट कर सकते हैं ताकि केस-वेट मानों की सीमा संभवतः 0-1 के पास हो। "समय-अवधि" के बारे में, इसे 1 आदेश घातीय क्षय फ़ंक्शन या माध्य-जीवनकाल के लिए समय-स्थिरांक भी कहा जाता है। आप इसे विकिपीडिया पर देख सकते हैं।
उज्ज्वल कुमार

कृपया मेरी पोस्ट को मेरा अपडेट देखें। क्या प्रशिक्षण के दौरान यह सही ढंग से काम करेगा? क्या प्रशिक्षण मॉडल में पूर्वाग्रह हैं क्योंकि परीक्षण सेट के खिलाफ वजन का उपयोग केवल तभी किया जा सकता है? जब प्रशिक्षण सेट बेतरतीब ढंग से फेरबदल किया जाता है, तो यह खराब हो सकता है यदि उच्च भार का उपयोग अतीत में कीमतों की भविष्यवाणी करने के लिए किया जाता है या एक समय अवधि के खिलाफ होता है जो समय में पास नहीं होता है।
user3788557

केस-वेट के बिना, आपका मॉडल प्रशिक्षण पुराने और नए डेटा दोनों को समान महत्व देगा, लेकिन प्रस्तावित केस-वेट के साथ, यह नए डेटा को अधिक महत्व देगा, इसलिए इस अर्थ में, यह नए अवलोकन के लिए पक्षपाती है, लेकिन यह है आप क्या चाहते थे। मुझे समझ नहीं आता कि "वजन केवल परीक्षण मामलों के लिए अनुमति दी जा सकती है" । इसके अलावा, जब प्रशिक्षण सेट को बेतरतीब ढंग से फेरबदल किया जाता है, तो पुराने मूल्यों के लिए उच्च भार का उपयोग कैसे किया जाएगा? जब मॉडलिंगटाइम को सभी प्रशिक्षण मामलों के लिए समान रखा जाता है। पीएस केस-वेट केवल एक मॉडल का उपयोग करते समय लागू नहीं होता है, यह केवल प्रशिक्षण अवधि के लिए लागू होता है।
उज्ज्वल कुमार

0

डेटा (अनुमान लगाने वाले विश्लेषक नहीं - अनुमान) अक्सर भार योजना का रूप सुझा सकते हैं। यह जीएलएस के माध्यम से किया जाता है, जहां भारित कम से कम वर्गों के मॉडल के लिए उचित वजन त्रुटि विचलन में पाए गए सांख्यिकीय महत्वपूर्ण अंतर से प्राप्त होते हैं। ARIMA (Tsay प्रक्रिया) और यहां http://docplayer.net/12080848-Outliers-level-shifts-and-variance-changes-in-time-serser.html के माध्यम से परिवर्तन और आउटलेयर का पता लगाने पर एक नज़र डालें । यदि आप डेटा पोस्ट करना चाहते हैं तो कृपया यहाँ करें और मैं आगे कोशिश करूँगा और मदद करूँगा क्योंकि मेरे पास सॉफ़्टवेयर की नियमित पहुँच है जो आपको बता सकती है।

मेरे द्वारा उपयोग किए जा रहे सॉफ़्टवेयर का एक R संस्करण है।

आप ARIMA के साथ हस्तक्षेप विश्लेषण में नियंत्रण चर कैसे शामिल कर सकते हैं? चूंकि इसका उदाहरण है कि कैसे वजन की पहचान की जाती है और इसका उपयोग त्रुटि भिन्नता को प्रभावी ढंग से स्थिर करने के लिए किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.