स्पलाइन / स्मूथ रिग्रेशन के साथ नए डेटा की भविष्यवाणी कैसे करें


11

क्या कोई वैचारिक स्पष्टीकरण दे सकता है कि भविष्यवाणियों के लिए स्मूथ / स्प्लिन का उपयोग करते समय नए डेटा के लिए भविष्यवाणियाँ कैसे की जाती हैं? उदाहरण के लिए, एक मॉडल का उपयोग कर बनाई दिया gamboostमें mboostआर में पैकेज, पी-splines के साथ, कैसे नए डेटा के लिए भविष्यवाणियों बना रहे हैं? प्रशिक्षण डेटा से क्या उपयोग किया जाता है?

यह कहें कि स्वतंत्र चर x का एक नया मूल्य है और हम y की भविष्यवाणी करना चाहते हैं। क्या मॉडल को प्रशिक्षित करते समय उपयोग किए जाने वाले समुद्री मील या df का उपयोग करके इस नए डेटा मान पर लागू किए जाने वाले स्पिलिन निर्माण का एक फार्मूला है, जो प्रशिक्षित मॉडल से गुणांक को भविष्यवाणी को आउटपुट करने के लिए लागू किया जाता है?

यहां R के साथ एक उदाहरण दिया गया है, नए डेटा के लिए 899.4139 को आउटपुट करने के लिए वैचारिक रूप से क्या भविष्यवाणी की जा रही है इसका मतलब है_रेडियस = 15.99?

#take the data wpbc as example
library(mboost)
data(wpbc)

modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5))
test<-data.frame(mean_radius=15.99)
predict(modNew,test)

प्रश्न: यह इंटरपोलेशन (डोमेन के इंटीरियर) या एक्सट्रपलेशन के बारे में है? उन्हें अलग तरह से संभाला जाता है। वे "आधार" फ़ंक्शन पर भी बहुत निर्भर हैं। जीएलएम में एक रेडियल आधार फ़ंक्शन की अपेक्षा की जाएगी, विशेष रूप से कुछ उच्च (एर) बहुपद आधार की तुलना में, अलग-अलग व्यवहार करना होगा, विशेष रूप से पूंछ से परे।
EngrStudent

EngrStudent, मुझे यह समझने में दिलचस्पी है कि दोनों मामलों में क्या होता है। मैंने मान लिया (शायद गलत तरीके से) कि प्रक्रिया दोनों मामलों में समान थी लेकिन परिणामी मान अलग-अलग होते हैं और उपयोग किए गए आधार कार्यों से भिन्न होते हैं (लेकिन यह प्रक्रिया समान थी)
B_Miner

बहुपद आधारों में कभी-कभी "गिब्स प्रभाव" नामक एक घटना होती है। यदि आप ऐसे डेटा को फिट करते हैं जो 10 वीं क्रम के बहुपद की तरह एक मानक सामान्य वितरण के समान नमूने हैं, और फिर प्रक्षेप की गुणवत्ता को देखें तो आप देखेंगे कि छोर पर ढलान अधिक हैं और प्रक्षेप बहुत खराब है। बहुपद ठिकानों में यह इंटरपोलेंट की तुलना में निचले क्रम के एक्सट्रपलट का उपयोग करने के लिए प्रथागत है। घटना को परिभाषित करने वाले "भौतिकी" को जाने बिना एक्स्ट्रापोलेंट अक्सर रैखिक होते हैं। मैं MatLab: mathworks.com/help/matlab/ref/interp1.html का उपयोग करता हूं ।
EngrStudent

जवाबों:


10

जिस तरह से भविष्यवाणी की जाती है वह इस प्रकार है:

मूल फिट से, आपके गाँठ स्थान mean_radiusआपके प्रशिक्षण डेटा की सीमा के माध्यम से फैले हुए हैं । साथ में बी-स्पलाइन आधार (डिफ़ॉल्ट रूप से क्यूबिक mboost) की डिग्री के साथ , ये गाँठ स्थान आपके बी-स्पाइन आधार कार्यों के आकार को परिभाषित करते हैं। डिफ़ॉल्ट में mboost20 आंतरिक समुद्री मील हैं, जो 24 क्यूबिक बी-स्पैन आधार कार्यों को परिभाषित करते हैं (पूछें नहीं ...)। इन आधार कार्यों को । आपके सहसंयोजक x = `` mean_radius`` का प्रभाव बस f ( x ) = 24 c j के रूप में दर्शाया गया है Bj(x);j=1,,24x= यह एक बहुत ही साफ चाल है, क्योंकि यह अनिर्दिष्ट समारोह का आकलन करने के लिए मुश्किल समस्या को कम कर देता( एक्स ) रेखीय प्रतीपगमन भार का आकलन करने के बहुत सरल समस्या का θ जे सिंथेटिक covariates का एक संग्रह के साथ जुड़े बी जे ( x )

f(x)=j24Bj(x)θj
f(x)θjBj(x)

भविष्यवाणी तो नहीं है कि जटिल है: अनुमानित गुणांकों को देखते हुए θ जे , हम मूल्यांकन करने की जरूरत बी जे ( ) ;θ^jBj();j=1,,24xnew

f^(xnew)=j24Bj(xnew)θ^j.

mstop1,,mstop

bbs(rnorm(100))$dpp(rep(1,100))$predict,

और वहां से जाएं। उदाहरण के लिए,

with(environment(bbs(rnorm(100))$dpp(rep(1,100))$predict), newX)

कॉल

with(environment(bbs(rnorm(100))$dpp(rep(1,100))$predict), Xfun)

Bj()xnew


यह महान है। मुझे आश्चर्य है कि यदि आप मोटे तौर पर समझाते हैं कि ये कार्य क्या करते हैं? क्या यह सच है कि नए डेटा को "स्कोर" करने के लिए क्या आवश्यक है, प्रशिक्षण के दौरान गुणांक, गाँठ के स्थानों का उपयोग किया जाता है और स्प्लिन के लिए सूत्र? क्या नए डेटा (जैसे KNN मॉडल) को स्कोर करने के लिए किसी अन्य प्रशिक्षण डेटा की आवश्यकता है?
B_Miner

1
आपको कौन सी जानकारी की आवश्यकता है, यह आपके द्वारा उपयोग किए जाने वाले स्पलाइन के प्रकार पर निर्भर करता है। बी-स्प्लिन के लिए, आपको सभी को पता होना चाहिए कि बी-स्प्लिन (द्विघात / घन / आदि) का क्रम और गाँठ स्थान हैं। बी-स्प्लिन के लिए "सूत्र" एक पुनरावृत्ति है, कॉक्स-डी बूर पुनरावृत्ति । मैंने अपने उत्तर में एक आधा वाक्य जोड़ा है।
फैबियों
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.