एमजीसीवी में अनुकूली जीएएम सुचारू करता है


9

GAMs और उनके संबद्ध R पैकेज mgcv पर साइमन वुड की पुस्तक अत्यधिक विस्तृत और सूचनात्मक है जब यह GAM सिद्धांत और मॉडल-फिटिंग के लिए वास्तविक और सिम्युलेटेड डेटा की बात आती है।

1 डी स्मूथ के लिए, वास्तव में चिंता करने के लिए बहुत कुछ नहीं है, यह तय करने के लिए बचत करें कि क्या चक्रीय बनाम अनुकूली आधार कार्यों को लागू करना है, जो क्यूबिक, पतली-प्लेट और पी-स्पलाइन स्मूथ की तुलना में बहुत अलग भविष्यवाणी परिणाम दे सकते हैं , क्योंकि, अनुकूली मामले, कई गम्स को अलग-अलग क्षेत्रों में एक सीमा के साथ लगाया जाता है। जहां तक ​​मैं बता सकता हूं, समय-श्रृंखला मॉडलिंग में चक्रीय आधार आम हैं, जबकि प्रतिक्रियाशील चर के संबंध में डेटा के बहुत भिन्न होने पर अनुकूली चिकनी पर विचार किया जाना चाहिए; हालांकि, अनुकूली स्मूथी का उपयोग "संयमपूर्वक और देखभाल के साथ" किया जाना चाहिए।

मैं पिछले कुछ समय से जीएएम की जांच कर रहा हूं, और अपने शोध प्रश्न को देखते हुए, मैं खुद को अपने दिमाग को बहुत बदल रहा हूं, जब यह लागू करने के लिए सहज हो। mgcv में (मेरी गिनती से) चुनने के लिए 17 अलग-अलग चिकनी शामिल हैं। मैंने क्यूबिक और पी-स्पलाइन स्मूथ दोनों पर विचार किया है।

मेरा सवाल अब यह है : जब गैर-अनुकूली समकक्षों पर अनुकूली चिकनी को माना जाना चाहिए, अगर अंतिम लक्ष्य भविष्यवाणी उद्देश्यों के लिए सज्जित जीएएम का उपयोग करना है? अपने उद्देश्यों के लिए, मैं डिफ़ॉल्ट GCV चिकनाई कसौटी के साथ चिपका रहा हूं, भले ही यह कम-चिकनी करने की प्रवृत्ति हो।

लागू पारिस्थितिक GAM में साहित्य बढ़ रहा है, लेकिन मुझे अभी तक एक अध्ययन में आना बाकी है जो एक अनुकूली चिकनी को लागू करता है।

किसी भी सलाह की सराहना की है।

जवाबों:


20

Mgcv टूलबॉक्स में अधिकांश अतिरिक्त स्मूच वास्तव में विशेषज्ञ अनुप्रयोगों के लिए हैं - आप सामान्य जीएएम के लिए उन्हें विशेष रूप से नजरअंदाज कर सकते हैं, विशेष रूप से अनिवारीय स्मूथ (आपको यादृच्छिक प्रभाव स्पलाइन की आवश्यकता नहीं है, क्षेत्र पर एक मार्कोव यादृच्छिक क्षेत्र,) या यदि आपके पास उदाहरण के लिए एकतरफा डेटा है तो साबुन-फिल्म चिकनी है।)

यदि आप सेटअप लागत को सहन कर सकते हैं, तो पतली-प्लेट प्रतिगमन विभाजन (टीपीआरएस) का उपयोग करें।

ये स्पाइन एक स्पर्शोन्मुख एमएसई अर्थ में इष्टतम हैं, लेकिन प्रति अवलोकन एक आधार फ़ंक्शन की आवश्यकता होती है। Mgcv में साइमन जो करता है वह पूर्ण TPRS के आधार पर मानक TPRS का निम्न-श्रेणी संस्करण उत्पन्न करता है और इसे एक eigendecomposition के अधीन करता है। यह एक नया आधार बनाता है जहां kनए अंतरिक्ष में पहला आधार कार्य मूल आधार में अधिकांश सिग्नल को बनाए रखता है, लेकिन कई कम आधार कार्यों में। यह कैसे mgcv एक TPRS प्राप्त करने का प्रबंधन करता है जो एक अवलोकन के बजाय केवल आधार कार्यों की एक निर्दिष्ट संख्या का उपयोग करता है। यह eigendecomposition क्लासिक TPRS आधार की अधिकतमता को बनाए रखता है, लेकिन कुछ डेटा सेट के लिए काफी कम्प्यूटेशनल प्रयास करता है।

यदि आप TPRS की स्थापना लागत वहन नहीं कर सकते हैं, तो घन प्रतिगमन विभाजन (CRS) का उपयोग करें

यह उत्पन्न करने का एक त्वरित आधार है और इसलिए बहुत सारे डेटा के साथ समस्याओं के अनुकूल है। हालाँकि, यह गाँठ-आधारित है, इसलिए कुछ हद तक उपयोगकर्ता को अब यह चुनने की ज़रूरत है कि उन गाँठों को कहाँ रखा जाना चाहिए। अधिकांश समस्याओं के लिए डिफ़ॉल्ट गाँठ लगाने (डेटा की सीमा पर और बीच में समान रूप से दूरी पर) से आगे बढ़ने के लिए बहुत कम है, लेकिन अगर आपके पास कोवरिएट की सीमा पर विशेष रूप से असमान नमूना है, तो आप समुद्री मील जगह चुन सकते हैं। उदाहरण के लिए, कोवरिएट के समान रूप से नमूना मात्राएँ।

Mgcv में हर दूसरी चिकनी विशेष है, जहाँ आप आइसोट्रोपिक स्मूथ या दो या अधिक कोवरिअट्स चाहते हैं, या स्थानिक चौरसाई के लिए उपयोग किया जाता है, या जो संकोचन, या यादृच्छिक प्रभाव और यादृच्छिक स्प्लिन को लागू करता है, या जहां कोविरेट्स चक्रीय होते हैं, या विग्लगनेस अलग-अलग होती है एक कोवरिएट की सीमा। आपको केवल इस टूल को सुचारू टूलबॉक्स में बदलने की आवश्यकता है यदि आपको कोई समस्या है जिसके लिए विशेष हैंडलिंग की आवश्यकता होती है।

संकोचन

दोनों TPRS का संकोचन संस्करणों और सीआरएस हैं mgcv । ये एक ऐसी सीमा को लागू करते हैं जहां आधार का पूरी तरह से चिकना हिस्सा भी चिकनाई दंड के अधीन है। यह चिकनाई की चयन प्रक्रिया को एक रैखिक कार्य से परे एक चिकनी पीठ को सिकोड़ने के लिए अनिवार्य रूप से शून्य करने की अनुमति देता है। यह सुविधा चयन करने के लिए चिकनाई दंड की अनुमति देता है।

Duchon splines, P splines और B splines

ये स्प्लिन विशेषज्ञ अनुप्रयोगों के लिए उपलब्ध हैं जहाँ आपको आधार आदेश और जुर्माना आदेश को अलग से निर्दिष्ट करने की आवश्यकता होती है। Duchon स्प्लिन TPRS को सामान्य करता है। मुझे लगता है कि पी स्प्लिन को अन्य दंडित संभावना आधारित दृष्टिकोणों के साथ तुलना करने की अनुमति देने के लिए एमजीसीवी में जोड़ा गया था , और क्योंकि वे अपने 1996 के पेपर में एइलर एंड मार्क्स द्वारा उपयोग किए गए स्प्लिन हैं जो गामा के बाद के कार्यों में बहुत अधिक थे। पी स्प्लिन अन्य स्प्लिन के लिए एक आधार के रूप में भी उपयोगी हैं, जैसे आकार की बाधाओं के साथ स्प्लिन और अनुकूली स्प्लिन।

बी स्पाइन , जैसा कि एमजीसीवी में कार्यान्वित किया जाता है, स्प्लीन के लिए दंड और गांठ स्थापित करने में लचीलेपन का एक बड़ा सौदा करने की अनुमति देता है, जो कि देखे गए डेटा की सीमा से परे कुछ एक्सट्रपलेशन के लिए अनुमति दे सकता है।

चक्रीय विभाजन

यदि एक कोवरिएट के लिए मानों की सीमा को एक सर्कल के रूप में माना जा सकता है, जहां सीमा के अंतिम बिंदु वास्तव में समतुल्य होने चाहिए (महीने या दिन, आंदोलन के कोण, पहलू, हवा की दिशा), इस बाधा को लगाया जा सकता है आधार। यदि आपके पास इस तरह के सहसंयोजक हैं, तो यह इस बाधा को लागू करने के लिए समझ में आता है।

अनुकूली स्मूदी

कोवरिएट के वर्गों में एक अलग जीएएम फिट करने के बजाय, अनुकूली विभाजन एक भारित दंड मैट्रिक्स का उपयोग करते हैं, जहां वजन को कोवरिएट की सीमा पर सुचारू रूप से भिन्न होने की अनुमति है। उदाहरण के लिए, टीपीआरएस और सीआरएस स्प्लिन के लिए, वे कोवरिएट की सीमा में समान चिकनाई की डिग्री मानते हैं। यदि आपके पास एक संबंध है जहां यह मामला नहीं है, तो आप स्वतंत्रता की अधिक डिग्री का उपयोग करके समाप्त कर सकते हैं, जिससे कि स्पेल के लिए विगली और गैर-विगली भागों के अनुकूल होने की अनुमति मिलती है। चौरसाई साहित्य में एक क्लासिक उदाहरण है

library('ggplot2')
theme_set(theme_bw())
library('mgcv')
data(mcycle, package = 'MASS')
pdata <- with(mcycle,
              data.frame(times = seq(min(times), max(times), length = 500)))

ggplot(mcycle, aes(x = times, y = accel)) + geom_point()

यहाँ छवि विवरण दर्ज करें

ये आंकड़े स्पष्ट रूप से विभिन्न चिकनाई की अवधि प्रदर्शित करते हैं - श्रृंखला के पहले भाग के लिए प्रभावी रूप से शून्य, इसके प्रभाव के दौरान बहुत, इसके बाद कम करना।

अगर हम इन डेटा के लिए एक मानक GAM फिट करते हैं,

m1 <- gam(accel ~ s(times, k = 20), data = mcycle, method = 'REML')

हमें एक उचित फिट मिलता है, लेकिन शुरुआत में कुछ अतिरिक्त विग्लिग्नेस होती है timesऔर सीमा समाप्त होती है और फिट का उपयोग किया जाता है ~ 14 डिग्री की स्वतंत्रता

plot(m1, scheme = 1, residuals = TRUE, pch= 16)

यहाँ छवि विवरण दर्ज करें

बदलती विग्लगनेस को समायोजित करने के लिए, एक अनुकूली तख़्ता वजन वाले पेनल्टी मैट्रिक्स का उपयोग करता है, जो वजन कोवेट के साथ आसानी से बदलता है। यहां मैं मूल मॉडल को उसी आधार आयाम (k = 20) के साथ परिष्कृत करता हूं, लेकिन अब हमारे पास m = 5मूल 1 के बजाय 5 चिकनाई पैरामीटर (डिफ़ॉल्ट है )।

m2 <- gam(accel ~ s(times, k = 20, bs = 'ad'), data = mcycle, method = 'REML')

ध्यान दें कि यह मॉडल स्वतंत्रता की बहुत कम डिग्री (~ 8) का उपयोग करता है और फिट सुचारू छोर पर बहुत कम अस्पष्ट है, जबकि प्रभाव के दौरान सिर त्वरण में बड़े बदलाव को पर्याप्त रूप से फिट करने में सक्षम होने के बावजूद।

यहाँ छवि विवरण दर्ज करें

वास्तव में यहां क्या हो रहा है कि तख़्त के पास चिकनी के लिए एक आधार है और दंड के लिए एक आधार है (वजन को कोवरिएट के साथ आसानी से अलग करने की अनुमति देने के लिए)। डिफ़ॉल्ट इन दोनों के द्वारा पी splines हैं, लेकिन आप भी सीआरएस आधार प्रकार का उपयोग कर सकते हैं ( bsकेवल से एक हो सकता 'ps', 'cr', 'cc', 'cs'।)

जैसा कि यहाँ सचित्र है, अनुकूल होने या न जाने का विकल्प वास्तव में समस्या पर निर्भर करता है; यदि आपके पास एक रिश्ता है जिसके लिए आप कार्यात्मक रूप को सहज मानते हैं, लेकिन सहजता की डिग्री रिश्ते में सहसंयोजक की सीमा से भिन्न होती है तो एक अनुकूली सीमा समझ में आ सकती है। यदि आपकी श्रृंखला में तेजी से बदलाव और कम या अधिक क्रमिक परिवर्तन की अवधि थी, तो यह संकेत कर सकता है कि एक अनुकूली चिकनी की आवश्यकता हो सकती है।


1
धन्यवाद गेविन! यह वास्तव में एक उत्कृष्ट जवाब है जो मुझे लगता है कि समान चिंता के साथ दूसरों की मदद भी करेगा।
compbiostats

मेरी समस्या के लिए, मैं एक मोनोटोनिक बढ़ती वक्र को फिट करता हूं जो अंततः एक क्षैतिज असममितता के लिए पठार है। मेरे वक्र की शुरुआत में, डेटा में काफी तेजी से वृद्धि होती है, अंततः एक asymptote की ओर धीमा होने से पहले। कुछ मामलों में, मनाया डेटा की सीमा से परे एक्सट्रपलेशन (करीब / दूर) आवश्यक है। मेरे मॉडल बहुत सरल हैं, लेकिन मुझे एहसास है कि यहां पूर्वानुमान सबसे अच्छे हैं।
compbiostats
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.