स्प्लिन्स, स्मूद स्प्लिन और गॉसियन प्रोसेस एमुलेटर का उपयोग करने के क्या फायदे / नुकसान हैं?


20

मुझे बहुपद प्रक्षेप के विकल्प के रूप में सीखने (और कार्यान्वित करने) में दिलचस्पी है।

हालाँकि, मुझे यह वर्णन करने में समस्या हो रही है कि ये तरीके कैसे काम करते हैं, कैसे संबंधित हैं, और वे कैसे तुलना करते हैं।

मैं पेशेवरों / विपक्ष / शर्तों पर आपके इनपुट की सराहना करूंगा, जिसके तहत ये तरीके या विकल्प उपयोगी होंगे, लेकिन ग्रंथों, स्लाइड्स या पॉडकास्ट के लिए कुछ अच्छे संदर्भ पर्याप्त होंगे।


यह वास्तव में एक बहुत ही दिलचस्प सवाल है, लेकिन शायद (केवल शायद) math.stackexchange.com के लिए अधिक उपयुक्त है ?
स्टेफेन

हेस्टी एट अल द्वारा द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग में स्प्लिन और स्मूथिंग स्प्लिन पर कुछ सामग्री है ।
एनपीई

8
मुझे लगता है कि यह गणना आंकड़ों पर एक बिल्कुल उचित सवाल है।
csgillespie

@csgillespie: सभी मुझे उन अंकों और प्रक्षेपों के बारे में पता है जो मैंने संख्यात्मक / गणित व्याख्यानों में सीखे हैं। इसलिए मैं थोड़ा पक्षपाती हो सकता हूं;)।
स्टेपनी

जवाबों:


24

बेसिक ओएलएस रिग्रेशन एक फंक्शन को डेटा के सेट पर फिट करने की एक बहुत अच्छी तकनीक है। हालांकि, सरल प्रतिगमन केवल एक सीधी रेखा को फिट करता है जो के पूरे संभव रेंज के लिए स्थिर है । यह दी गई स्थिति के लिए उपयुक्त नहीं हो सकता है। उदाहरण के लिए, डेटा कभी-कभी एक वक्रतापूर्ण संबंध दिखाते हैं । यह , परिवर्तन पर को पुनः प्राप्त करने के माध्यम से निपटा जा सकता है । विभिन्न परिवर्तन संभव हैं। स्थितियों जहाँ के बीच संबंधों को और है monotonic इस्तेमाल किया जा सकता। एक अन्य लोकप्रिय विकल्प एक बहुपद का उपयोग करना है जहां को ऊपर उठाने से नई शर्तें बनती हैंY X f ( X ) X Y X X 2 X 3एक्सYएक्स(एक्स)एक्सY , लेकिन लगातार बंद tapers, एक लॉग बदलनेएक्सशक्तियों की एक श्रृंखला के लिए (जैसे, ,एक्स2एक्स3 , आदि)। इस रणनीति को लागू करना आसान है, और आप फिट की व्याख्या यह बता सकते हैं कि आपके डेटा में कितने 'झुकता' मौजूद है (जहां झुकना की संख्या उच्चतम शक्ति के बराबर माइनस 1 है)।

हालांकि, लघुगणक या सहसंयोजक के एक प्रतिपादक पर आधारित प्रतिगमन केवल तभी उपयुक्त होगा जब वह सच्चे रिश्ते की सटीक प्रकृति हो। यह कल्पना करना काफी उचित है कि और बीच एक वक्रतापूर्ण संबंध है जो उन परिवर्तनों की संभावनाओं से अलग है। इस प्रकार, हम दो अन्य रणनीतियों के लिए आते हैं। पहले दृष्टिकोण है लेस , भारित रैखिक प्रतिगमन एक चलती खिड़की पर अभिकलन की एक श्रृंखला। यह दृष्टिकोण पुराना है, और खोजपूर्ण डेटा विश्लेषण के लिए बेहतर अनुकूल हैवाईएक्सY

अन्य दृष्टिकोण स्प्लिन का उपयोग करना है। यह सबसे सरल है, एक तख़्ता एक नया शब्द है जो की सीमा के केवल एक हिस्से पर लागू होता है । उदाहरण के लिए, 0 से 1 तक हो सकता है, और स्पलाइन शब्द केवल .7 से लेकर 1 तक हो सकता है। इस उदाहरण में, .7 गाँठ है । एक सरल, रैखिक वर्तनी शब्द की गणना इस तरह की जाएगी: और मूल अलावा , आपके मॉडल में जोड़ा जाएगाX X s p l l i n e = { 0एक्सएक्स एक्सएक्स 3 रों पी एल मैं एन

एक्सरोंपीएलमैंn={0अगर एक्स.7एक्स-.7अगर एक्स>.7

एक्सअवधि। सज्जित मॉडल 0 से .7 तक सीधी रेखा के साथ .7 पर एक तेज ब्रेक दिखाएगा, और एक अलग ढलान के साथ 1.7 से 1. लाइन पर जारी रखने वाली रेखा, हालांकि, एक स्पलाइन टर्म को रैखिक होने की आवश्यकता नहीं है। विशेष रूप से, यह निर्धारित किया गया है कि क्यूबिक स्प्लिन विशेष रूप से उपयोगी हैं (यानी, )। तेज ब्रेक की जरूरत नहीं होती है, या तो। एल्गोरिदम विकसित किया गया है जो फिट किए गए मापदंडों को विवश करता है जैसे कि समुद्री मील पर पहला और दूसरा डेरिवेटिव मैच, जो उत्पादन में पता लगाने के लिए समुद्री मील को असंभव बनाता है। इस सब का अंतिम परिणाम यह है कि पसंद स्थानों में केवल कुछ समुद्री मील (आमतौर पर 3-5) के साथ (जो सॉफ्टवेयर आपके लिए निर्धारित कर सकता है) बहुत अधिक प्रजनन कर सकता हैएक्सरोंपीएलमैंn3 किसी भीवक्र। इसके अलावा, स्वतंत्रता की डिग्री की गणना सही ढंग से की जाती है, इसलिए आप परिणामों पर भरोसा कर सकते हैं, जो तब सच नहीं होता जब आप पहले अपने डेटा को देखते हैं और फिर एक चुकता शब्द फिट करने का निर्णय लेते हैं क्योंकि आपने एक मोड़ देखा था। इसके अलावा, यह सब बुनियादी रेखीय मॉडल का सिर्फ एक और (यद्यपि अधिक जटिल) संस्करण है। इस प्रकार, हम जो कुछ भी रैखिक मॉडल के साथ प्राप्त करते हैं, वह इसके साथ आता है (जैसे, भविष्यवाणियां, अवशेष, विश्वास बैंड, परीक्षण, आदि) ये पर्याप्त फायदे हैं।

इन विषयों का सबसे सरल परिचय जो मुझे पता है:


6

कॉस्मा शालिज़ी के अपने व्याख्यान पाठ्यक्रम पर ऑनलाइन नोट्स एलीमेंटरी पॉइंट ऑफ़ व्यू से उन्नत डेटा विश्लेषण इस विषय पर काफी अच्छे हैं, एक नज़रिए से चीजों को देखते हुए जहां प्रक्षेप और प्रतिगमन एक ही समस्या के दो दृष्टिकोण हैं। मैं विशेष रूप से अध्यायों पर आपका ध्यान चौरसाई विधियों और बंटवारे पर आकर्षित करूँगा ।


आपके लिंक अपडेट का उपयोग कर सकते हैं। मैंने इसे दिया, लेकिन आपको यह जांचना चाहिए कि मेरे प्रस्तावित संपादन आपके इच्छित पृष्ठों को हिट करते हैं।
ग्रेगॉर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.