क्यूबिक स्प्लिन और दंडित स्प्लीन कितने अलग हैं?


11

मैं विभिन्न प्रतिगमन समस्याओं में splines का उपयोग करने के बारे में बहुत कुछ पढ़ रहा हूं। कुछ किताबें (उदाहरण के लिए हॉजेस रिचली पैरामैट्रिअज़ लिनियर मॉडल्स ) दंडित विभाजन की सलाह देती हैं। अन्य (उदाहरण के लिए, हार्इल रिग्रेशन मॉडलिंग रणनीतियाँ ) प्रतिबंधित क्यूबिक स्प्लीन के लिए चुनते हैं।

व्यवहार में ये कितने अलग हैं? क्या आप अक्सर एक या दूसरे का उपयोग करने से अलग-अलग परिणाम प्राप्त करेंगे? क्या एक या दूसरे के विशेष फायदे हैं?

जवाबों:


9

मेरे पढ़ने से, आप जिन दो अवधारणाओं की तुलना करने के लिए हमसे पूछते हैं, वे काफी भिन्न जानवर हैं और उन्हें एक सेब और संतरे जैसी तुलना की आवश्यकता होगी। यह आपके कई प्रश्नों को कुछ हद तक गलत बना देता है - आदर्श रूप से (किसी को आवश्यक रूप में आरसीएस आधार के लिए एक अस्पष्टता दंड लिख सकता है) आप एक दंडित प्रतिबंधित क्यूबिक रिग्रेशन स्पलाइन मॉडल का उपयोग करेंगे।

प्रतिबंधित क्यूबिक स्प्लिन

एक प्रतिबंधित क्यूबलाइन (या एक प्राकृतिक स्पलाइन) एक स्पिनलाइन है जो कि टुकड़े-टुकड़े क्यूबिक बहुपदीय कार्यों से निर्मित है जो कुछ पूर्व-निर्दिष्ट स्थानों, या समुद्री मील पर आसानी से जुड़ते हैं। एक क्यूबिक स्लाइन से एक प्रतिबंधित क्यूब स्पिंक को क्या अलग करता है, यह प्रतिबंधित संस्करण पर अतिरिक्त बाधाएं लगाई जाती हैं, जैसे कि पहली गाँठ से पहले और आखिरी गाँठ के बाद स्पाइन रैखिक होता है। यह की पूंछ में तख़्ता के प्रदर्शन को बेहतर बनाने के लिए किया जाता है ।X

आरसीएस के साथ मॉडल चयन में आम तौर पर समुद्री मील की संख्या और उनके स्थान को चुनना शामिल होता है, पूर्व शासन के साथ कि परिणामी सीमा कितनी अस्पष्ट या जटिल है। जब तक मॉडल फिटिंग के दौरान अनुमानित गुणांक को नियमित करने के लिए कुछ और कदम उठाए जाते हैं, तब गांठों की संख्या सीधे स्थानिक जटिलता को नियंत्रित करती है।

इसका मतलब यह है कि एक या अधिक आरसीएस शब्दों वाले मॉडल का आकलन करते समय उपयोगकर्ता को कुछ समस्याओं को दूर करना होगा:

  1. कितने समुद्री मील का उपयोग करने के लिए?
  2. की अवधि में उन समुद्री मील को कहाँ रखें ?X
  3. विभिन्न नंबरों के साथ मॉडल की तुलना कैसे करें?

अपने दम पर, आरसीएस शर्तों को इन समस्याओं को हल करने के लिए उपयोगकर्ता के हस्तक्षेप की आवश्यकता होती है।

दंडित छींटे

दंडित प्रतिगमन विभाजन (सेंसु होजेस) अपने स्वयं के निपटने के मुद्दे पर 3. केवल, लेकिन वे अंक 1 के लिए अनुमति देते हैं । यहां विचार यह है कि के आधार विस्तार के साथ-साथ अब के लिए बस मान लें कि यह एक क्यूबलाइन आधार है, तो आप एक wiggliness पेनल्टी मैट्रिक्स भी बनाते हैं। Wiggliness अनुमानित व्युत्पन्न के कुछ व्युत्पन्न का उपयोग करके मापा जाता है, जिसमें विशिष्ट व्युत्पन्न का उपयोग दूसरा व्युत्पन्न किया जाता है, और दंड स्वयं की सीमा पर एकीकृत दूसरे व्युत्पन्न वर्ग का प्रतिनिधित्व करता है । इस दंड को द्विघात रूप में लिखा जा सकता हैXX

βTSβ

जहां एक दंड मैट्रिक्स है और मॉडल गुणांक हैं। फिर मान दंडित लॉग- ceriterion को अधिकतम करने के लिए पाए जाते हैंSβLp

Lp=LλβTSβ

जहां मॉडल की लॉग- लाइबिलिटी है और चिकनाई पैरामीटर है, जो नियंत्रित करता है कि स्पलाइन के विगैलेनेस को कैसे दंडित किया जाए।Lλ

दंडित लॉग-संभावना मॉडल गुणांकों के संदर्भ में मूल्यांकन किया जा सकता है, इस मॉडल फिटिंग को प्रभावी ढंग से करने के लिए एक इष्टतम मूल्य खोजने में एक समस्या बन जाता है कि इष्टतम के लिए खोज के दौरान गुणांकों को अद्यतन करने, जबकि ।λλ

λ को क्रॉस-मान्यता, सामान्यीकृत क्रॉस-वैलिडेशन (GCV), या सीमांत संभावना या प्रतिबंधित सीमांत संभावना मानदंडों का उपयोग करके चुना जा सकता है। बाद के दो प्रभावी रूप से मिश्रित मॉडल के रूप में स्पलाइन मॉडल को पुन: प्राप्त करते हैं (आधार के पूरी तरह से चिकने हिस्से निश्चित प्रभाव बन जाते हैं और आधार के अस्पष्ट भाग यादृच्छिक प्रभाव होते हैं, और चिकनाई का पैरामीटर यादृच्छिक प्रभावों के लिए भिन्नता शब्द से विपरीत होता है। ), जो होजेस अपनी पुस्तक में विचार कर रहा है।

यह समस्या का समाधान करता है कि कितने समुद्री मील का उपयोग करें? खैर, यह केवल उस तरह का है। यह प्रत्येक अद्वितीय डेटा बिंदु (एक चौरसाई पट्टी) पर गाँठ की आवश्यकता नहीं होने की समस्या को हल करता है, लेकिन आपको अभी भी यह चुनने की आवश्यकता है कि कितने समुद्री मील या आधार कार्यों का उपयोग करना है। हालाँकि, क्योंकि जुर्माना गुणांक को छोटा करता है, जिसे आप बड़े आधार आयाम के रूप में चुन सकते हैं, जैसा कि आपको लगता है कि इसमें या तो सही फ़ंक्शन या एक निकट सन्निकटन शामिल करने की आवश्यकता है, और फिर आप दंड को नियंत्रित करते हैं कि अनुमानित रूप से अनुमानित अंतराल को कैसे नियंत्रित किया जाए। दंड द्वारा हटाए या नियंत्रित किए जा रहे आधार में उपलब्ध अतिरिक्त संभावित विग्लगनेस के साथ।

तुलना

दंडित (प्रतिगमन) स्प्लिन और आरसीएस काफी अलग अवधारणाएं हैं। आरसीएस आधार और द्विघात रूप में संबद्ध दंड बनाने से आपको रोकना कुछ भी नहीं है और फिर दंडित प्रतिगमन तख़्ता मॉडल से विचारों का उपयोग करके वर्तनी गुणांक का आकलन करना।

आरसीएस केवल एक प्रकार का आधार है जिसका उपयोग आप एक आधारभूत आधार बनाने के लिए कर सकते हैं, और दंडित प्रतिगमन स्प्लिन एक तरह से संबंधित विगैलेनेस दंड के साथ एक या अधिक विभाजन वाले मॉडल का अनुमान लगाने का एक तरीका है।

क्या हम 1., 2. और 3. मुद्दों से बच सकते हैं?

हां, कुछ हद तक, एक पतली प्लेट तख़्ता (टीपीएस) आधार के साथ। में अद्वितीय डेटा मानों के रूप में TPS आधार में कई आधार कार्य होते हैं । वुड (2003) ने दिखाया कि आप थिन प्लेट रिग्रेशन स्पलाइन (टीपीआरएस) आधार बना सकते हैं , जो टीपीएस आधार कार्यों के एक ईगेंडेकोम्पोजिशन का उपयोग करता है, और केवल पहले सबसे बड़े कहने को बनाए रखता है । आपको अभी भी निर्दिष्ट करना हैXkk, आप कितने आधार फ़ंक्शंस का उपयोग करना चाहते हैं, लेकिन चुनाव आम तौर पर इस आधार पर होता है कि आप किस तरह से फिटेड फंक्शन की उम्मीद करते हैं और आप कितना कॉम्पिटिटिव हिट लेना चाहते हैं। गाँठ स्थानों को निर्दिष्ट करने की कोई आवश्यकता नहीं है, और जुर्माना गुणांक को सिकोड़ता है, इसलिए मॉडल चयन समस्या से बचा जाता है क्योंकि आपके पास केवल एक दंडित मॉडल है जिसमें नॉट के अलग-अलग संख्याओं के साथ कई अनपेक्षित मॉडल नहीं हैं।

पी-splines

बस चीजों को और अधिक जटिल बनाने के लिए, एक प्रकार का एक आधार रेखा है जिसे P-spline (Eilers & Marx, 1996) के रूप में जाना जाता है, जहां अक्सर "दंडित" के रूप में व्याख्या की जाती है। पी-स्पाइन एक बी-तख़्ता आधार है जिसमें एक अंतर दंड सीधे मॉडल गुणांकों पर लागू होता है। विशिष्ट उपयोग में पी-स्पाइन दंड आसन्न मॉडल गुणांक के बीच वर्ग अंतर को दंडित करता है, जो बदले में वैराग्य को दंडित करता है। P-splines सेट अप करने के लिए बहुत आसान है और एक विरल पेनल्टी मैट्रिक्स में परिणाम होता है जो उन्हें MCMC आधारित बायेसियन मॉडल (वुड, 2017) में वर्तनी की शर्तों के आकलन के लिए बहुत ही सरल बनाता है।P

संदर्भ

ईलर, पीएचसी, और बीडी मार्क्स। 1996. फ्लेक्सिबल स्मूथिंग विथ -सप्लीन्स एंड पेनल्टीज़। स्टेट। विज्ञान।

लकड़ी, एसएन 2003. पतली प्लेट प्रतिगमन विभाजन। जेआर स्टेट। समाज। सीरीज़ बी स्टेट। Methodol। 65: 95-114। डोई: 10.1111 / 1467-9868.00374

वुड, एसएन 2017. सामान्यीकृत एडिटिव मॉडल: आर के साथ एक परिचय, दूसरा संस्करण, सीआरसी प्रेस।


4
+6, उत्कृष्ट उपचार। मुझे एक दो दिनों में याद दिलाएं, अगर मैं भूल गया, और मैं इस पर एक इनाम दूंगा।
गुंग - को पुनः स्थापित मोनिका

1
इसके लिए धन्यवाद!
पीटर Flom

इनाम ??????
kjetil b halvorsen
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.