बी-स्प्लिन्स वीएस उच्च क्रम बहुपद प्रतिगमन में


10

मेरे पास कोई विशिष्ट उदाहरण या कार्य नहीं है। मैं बी-स्प्लिन का उपयोग करने में अभी नया हूं और मैं प्रतिगमन संदर्भ में इस फ़ंक्शन की बेहतर समझ प्राप्त करना चाहता था।

मान लेते हैं कि हम प्रतिक्रिया चर और कुछ भविष्यवक्ताओं के बीच संबंधों का आकलन करना चाहते हैं । भविष्यवाणियों में कुछ संख्यात्मक चर के साथ-साथ कुछ श्रेणीबद्ध भी शामिल हैं।x 1 , x 2 , , एक्स पीyx1,x2,...,xp

मान लीजिए कि एक प्रतिगमन मॉडल को फिट करने के बाद, संख्यात्मक चर में से एक जैसे महत्वपूर्ण है। बाद में एक तार्किक कदम का आकलन करना है कि क्या उच्च क्रम के बहुपद हैं जैसे: और को ओवरफिटिंग के बिना रिश्ते को पर्याप्त रूप से समझाने के लिए आवश्यक है।x 2 1 x 3 1x1x12x13

मेरे प्रश्न हैं:

  1. किस बिंदु पर आपने बी-स्प्लिन या सरल उच्च क्रम बहुपद के बीच चुना। आर में जैसे:

    y ~ poly(x1,3) + x2 + x3
    

    बनाम

     y ~ bs(x1,3) + x2 + x3
    
  2. आप उन दो के बीच अपनी पसंद को सूचित करने के लिए भूखंडों का उपयोग कैसे कर सकते हैं और क्या होता है यदि यह भूखंडों से वास्तव में स्पष्ट नहीं है (जैसे: बड़े पैमाने पर डेटा बिंदुओं के कारण)

  3. आप बीच दो-तरफ़ा इंटरैक्शन शर्तों का आकलन कैसे करेंगे और लें किx 3x2x3

  4. विभिन्न प्रकार के मॉडल के लिए उपरोक्त परिवर्तन कैसे किया जाता है

  5. क्या आप उच्च क्रम के बहुपदों का उपयोग कभी नहीं करने के लिए विचार करेंगे और हमेशा फिटिंग वाले बी-स्प्लिन और उच्च लचीलेपन को दंडित करेंगे?


9
मैंने इसके बारे में यहाँ बड़े पैमाने पर लिखा है: madrury.github.io/jekyll/update/statistics/2017/08/04/…
मैथ्यू ड्र्यू

यह देखते हुए कि कितनी अच्छी तरह से विकसित mgcvहै, क्यों नहीं (सामान्यीकृत) additive मॉडल का उपयोग करें। चिकनाई का चयन स्वचालित है, और अनुमानात्मक तरीके अच्छी तरह से विकसित हैं।
जेनेरिक_यूज़र

जवाबों:


17

मैं आमतौर पर केवल बहुपद के बजाय स्प्लिन पर विचार करता हूं। बहुपद थ्रेसहोल्ड को मॉडल नहीं कर सकते हैं और अक्सर अवांछनीय रूप से वैश्विक होते हैं, अर्थात, भविष्यवक्ता की एक सीमा पर टिप्पणियों का एक अलग सीमा पर मॉडल पर एक मजबूत प्रभाव पड़ता है ( Magee, 1998, अमेरिकी सांख्यिकीविद् और फ्रैंक क्रेल के प्रतिगमन मॉडलिंग रणनीतियाँ )। और निश्चित रूप से प्रतिबंधित छींटे जो अतिवादी समुद्री मील के बाहर रैखिक हैं, एक्सट्रपलेशन के लिए बेहतर हैं, या यहां तक ​​कि भविष्यवक्ताओं के चरम मूल्यों पर भी घुसपैठ है।

एक मामला जहां आप बहुपदों पर विचार करना चाह सकते हैं, जब यह आपके मॉडल को एक गैर-तकनीकी दर्शकों को समझाने के लिए महत्वपूर्ण है। लोग बहुपद को स्प्लिन से बेहतर समझते हैं। (संपादित करें: मैथ्यू डॉरी बताते हैं कि लोग केवल यह सोच सकते हैं कि वे बहुपदों को स्प्लिन से बेहतर समझते हैं। मैं इस प्रश्न पर पक्ष नहीं लूंगा।)

नॉनलाइनियरिटी से निपटने के विभिन्न तरीकों के बीच निर्णय लेने में भूखंड अक्सर बहुत उपयोगी नहीं होते हैं। क्रॉस-वेलिडेशन करने के लिए बेहतर है। इससे आपको इंटरैक्शन का आकलन करने में मदद मिलेगी, या एक अच्छा दंड मिलेगा।

अंत में, मेरा जवाब मॉडल के प्रकार के साथ नहीं बदलता है, क्योंकि ऊपर दिए गए बिंदु किसी भी सांख्यिकीय या एमएल मॉडल के लिए मान्य हैं।


आपके उत्तर के लिए बहुत बहुत धन्यवाद, यह बहुत मददगार था। बस एक त्वरित अनुवर्ती प्रश्न। क्या गांठों को खोजने के लिए "कला की स्थिति" है? मेरा सबसे अच्छा अनुमान 1 होगा) अंतर्ज्ञान का उपयोग करें जैसे: यदि चर महीनों के संदर्भ में समय का प्रतिनिधित्व करता है तो हर 6 या 12 में समुद्री मील का उपयोग करें? 2) एक अनुक्रम पेश करें जो चर की सीमा से गुजरता है और संभवतया इष्टतम समुद्री मील खोजने के लिए क्रॉस-मान्यता का उपयोग करता है?
वासिलिस वासिलिउ

8
लोगों को लगता है कि वे बहुपदों को स्प्लिन से बेहतर समझते हैं।
मैथ्यू ड्र्यू

3
गाँठ लगाने के बारे में: क्रॉस-वैलिडेशन एक दृष्टिकोण है, लेकिन ईमानदार होने के लिए, मुझे लगता है कि परिणाम प्लेसमेंट को जानने के लिए काफी असंवेदनशील होंगे, जब तक कि गांठें यथोचित रूप से रखी जाती हैं और एक साथ बहुत अधिक क्लस्टर नहीं होती हैं। फ्रैंक हारेल के पास प्रतिगमन मॉडल स्ट्रैटेजीज में भविष्यवक्ता के वितरण के मात्राओं के संदर्भ में अनुमानी गाँठ प्लेसमेंट के साथ एक तालिका है ।
Stephan Kolassa

1
जबकि इस संदर्भ में आपका उत्तर पूरी तरह से मान्य है, आपका कथन यह मानते हुए बहुत मजबूत है कि कई वास्तविक दुनिया की प्रक्रियाओं को बहुपदों द्वारा बेहतर ढंग से तैयार किया जा सकता है।
कोलो

6

"द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग" के खंड 7.4.5 में, यह कहा गया है कि विभाजन अक्सर बहुपद प्रतिगमन की तुलना में बेहतर परिणाम देते हैं, क्योंकि:

  • यह लचीला फिट पैदा करता है;
  • अधिक स्थिर अनुमान पैदा करता है;
  • बहुपद सीमाओं पर अवांछनीय परिणाम उत्पन्न कर सकते हैं।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.