गैर-पैरामीट्रिक रिग्रेशन का उपयोग कब करें?


9

मैं एसएएस में PROC GLM का उपयोग कर रहा हूं ताकि निम्नलिखित फॉर्म का एक प्रतिगमन समीकरण फिट किया जा सके

Y=b0+b1X1+b2X2+b3X3+b4t

परिणामस्वरूप redsiduals की QQ साजिश सामान्यता से विचलन का संकेत देती है। अवशेषों को सामान्य बनाने में का कोई भी परिवर्तन उपयोगी नहीं है।Y

इस बिंदु पर, क्या मैं सुरक्षित रूप से PROC LOESS जैसे गैर-पैरामीट्रिक तरीकों पर स्विच कर सकता हूं।

मैंने पहले ही PROC LOESS का उपयोग किया है, और फिट PROC GLM से बेहतर है। लेकिन मुझे गैर-पैरामीट्रिक प्रतिगमन में बहुत ज्ञान नहीं है। मुझे नहीं पता कि पैरामीट्रिक रिग्रेशन पर गैर-पैरामीट्रिक रिग्रेशन का चयन कब करना है।

क्या कोई इस में मेरी मदद कर सकता है?

मैं आगे जाकर एक और सवाल जोड़ूंगा। मॉडल में मेरे चर का विवरण निम्नलिखित हैं। कभी-कभी मुझे नकारात्मक अनुमानित लागत मिलती है। इसका कोई अर्थ नहीं है। मैं इस मुद्दे को कैसे संबोधित कर सकता हूं?

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=समय

2
आप निश्चित रूप से इसके लॉग को मॉडलिंग करके नकारात्मक लागत का अनुमान लगाने से बच सकते हैं: एलजी(Y)=0+1एक्स1+2एक्स2+3एक्स3+4टी
डर्क होर्स्टन

जवाबों:


10

अवशिष्टों के QQplots पर देखने से पहले, आपको मॉडल में भविष्यवाणियों के खिलाफ अवशिष्टों की साजिश रचकर (और संभवतः, आपके द्वारा उपयोग नहीं किए गए अन्य चर के खिलाफ भी) फिट की गुणवत्ता का आकलन करना चाहिए। इस भूखंडों में गैर-रैखिकता दिखाई जानी चाहिए। यदि चर का प्रभावएक्स वास्तव में रैखिक है, आप के खिलाफ अवशिष्ट के भूखंड की उम्मीद है एक्स "क्षैतिज" होने के लिए, दृश्यमान संरचना के बिना:

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

यही है, बिंदुओं के एक यादृच्छिक क्षैतिज "बूँद", जो कि रेखा के अवशेष = 0 के आसपास केंद्रित है।

यदि प्रभाव गैर-रैखिक है, तो आप इस भूखंड में कुछ वक्रता देखने की उम्मीद करते हैं। (और, कृपया, QQplots को अनदेखा करें जब तक कि आप गैर-रैखिकता को हल नहीं करते हैं, ऊपर दिए गए भूखंडों का उपयोग करके!)

आपको संभावित बातचीत के बारे में भी सोचना चाहिए (आमतौर पर उत्पाद की शर्तों के अनुसार), यानी एक चर का प्रभाव दूसरे के स्तरों पर निर्भर करता है, (यदि आपके सभी तीन चर एक ही समय में उच्च मूल्य रखते हैं, तो शायद यह कुछ विशेष रूप से मुश्किल दिखाता है रोगी? यदि हां, तो बातचीत की आवश्यकता हो सकती है)।

यदि आप कुछ गैर-रैखिक मॉडल के लिए जाते हैं, तो बातचीत और परिवर्तनों के लिए प्रयास करने के बाद (क्या आपने कोशिश की log(Cost)?) क्या आपने कुछ बॉक्स-कॉक्स-परिवर्तनों की कोशिश की? चूँकि आपके पास कई प्रतिगमन हैं, इसलिए मुझे नहीं लगता loessहै कि आपको क्या चाहिए, आपको gam(सामान्यीकृत योज्य मॉडल, एसएएस के लिए यह होना चाहिए, आर पैकेज में है mgcv)।


1
मूल्यवान जानकारी के लिए धन्यवाद। मैंने रैखिक प्रतिगमन के साथ लॉग (लागत) की कोशिश की, लेकिन यह बहुत मदद नहीं करता था। मैं बातचीत प्रभाव जोड़ूंगा और देखूंगा कि क्या होता है। मैं भी परिवर्तनों के साथ फिर से प्रयोग करूंगा। मैं अपने घटनाक्रम और निष्कर्षों के साथ सभी को तैनात रखूंगा।
एन

6

एक LOESS हमेशा प्रतिगमन की तुलना में एक बेहतर फिट देगा, जब तक कि डेटा वास्तव में एक सीधी रेखा के साथ झूठ न हो। LOESS एक स्थानीय रेखीय सन्निकटन है जो डेटा के करीब से गुजरने के लिए बनाया गया है। ये विधियां मूल रूप से खोजपूर्ण हैं। और जब यह फिट की सीमा से परे एक रेखीय मॉडल को एक्सट्रपलेशन करने के लिए खतरनाक होता है, तो एक्सओस के मामले में एक्सट्रपलेशन लापरवाह होगा।

यदि आपका मॉडल आपको नकारात्मक लागत देता है, तो यह एक बहुत अच्छा संकेत है कि आपके पास मौजूद चर पर एक रैखिक प्रतिगमन उचित नहीं है। आप कहते हैं कि आपने परिवर्तनों की कोशिश की। क्या आपने अपने भविष्यवक्ताओं के खिलाफ लागत का लॉग लिया?

चीजों की प्रकृति में, यह संभावना नहीं है कि लागत और आपके द्वारा उल्लिखित चर के बीच एक सरल संबंध है। कभी-कभी एक रेखीय प्रतिगमन का उद्देश्य बस यह प्रदर्शित करना है कि किसी प्रकार का सहसंबंध मौजूद है, और शायद भविष्यवक्ताओं के समझदार सेट का चयन करने के लिए।


1
यह बहुत समझ में आता है जब यू ने उल्लेख किया कि नकारात्मक लागत इंगित करती है कि रैखिक प्रतिगमन उचित नहीं हो सकता है। मैं अपना विश्लेषण जारी रखूंगा और कुछ बातचीत जोड़ूंगा। धन्यवाद।
एन

3

अवशिष्ट विश्लेषण करने के लिए ब्रावो। आपको विशिष्ट विश्लेषक से आगे बढ़ने की कोशिश करता है। (मॉडल का आपका वर्णन त्रुटि संरचना का वर्णन नहीं करने में कमी है, हालांकि।) आपको एक्स के परिवर्तनों के साथ-साथ वाई के परिवर्तनों को देखते हुए विचार करना चाहिए। मुझे पता है कि एसएएस आर के पीछे मॉडलिंग में फिट बैठता है, लेकिन मैं समझता हूं कि हाल के संस्करणों ने उस क्षमता की पेशकश की है। एक्स की शर्तों के लिए प्रतिबंधित क्यूब स्पाइन को जोड़ने पर विचार करें। एक संदर्भ के रूप में फ्रैंक हैरेल के पाठ "रिग्रेशन मॉडलिंग रणनीतियाँ" को हराना कठिन है। इस दृष्टिकोण के लिए ठोस सांख्यिकीय तर्क हैं। यह एक पैरामीट्रिक दृष्टिकोण है जो डेटा में संरचना की खोज करने की अनुमति देता है जो अन्य बुद्धिमानों से चूक जाएगा।


सराहना DWin के लिए धन्यवाद। मैंने अभी स्नातक किया है, और यह एक विश्लेषक के रूप में मेरा पहला काम है। संयोगवश, कंपनी के लिए भी इस तरह का विश्लेषण नया है। इसलिए, मैं केवल एक विश्लेषण लाने की कोशिश कर रहा हूं जो पूरी तरह से बकवास नहीं है। मैं आपका सुझाव लूंगा और दोनों पर परिवर्तन करने का प्रयास करूंगाY तथा एक्सचर। मैं संदर्भ के माध्यम से भी जाऊंगा। मुझे बस एक पीडीएफ संस्करण ऑनलाइन मिला। आपके सहयोग के लिए धन्यवाद।
एन

लॉग इन और आउटपुट में कुछ गड़बड़ है, जो सहज रूप से रैखिक रूप से निर्भर करता है। यदि आप मॉडलएलजी(Y)=0+1एलजी(एक्स1)+2एलजी(एक्स2) कहाँ पे एक्स1 दाहिने हाथ में इंजेक्शन हैं और एक्स2बाईं भुजा में इंजेक्शन हैं, आप एक ही बांह में सभी इंजेक्शन रखने वाले किसी व्यक्ति के लिए पूरी तरह से अलग-अलग लागतों का अनुमान लगाते हैं और कोई ऐसा व्यक्ति जो प्रत्येक पक्ष में आधा हो
डिर्क होर्स्टन

आपकी टिप्पणी मेरी प्रतिक्रिया के बजाय स्पर्शनीय लगती है (और इस सवाल के लिए कि बांह से इंजेक्शन के विभाजन का उल्लेख कभी नहीं किया गया था) मुझे आशा है कि आपको नहीं लगता कि तख़्त कार्य लॉग ट्रांसफ़ॉर्मेशन के बराबर हैं। Y का लॉग ट्रांसफ़ॉर्मेशन एक मॉडल बनाता है जहाँ लागत पैमाना में परिवर्तित होने पर भविष्यवाणियों में मॉडल गुणक होता है। यह एक बहुत बड़ा बदलाव है और जिसकी समस्याओं का आपने पर्याप्त रूप से प्रश्नकर्ता को वर्णन नहीं किया है।
डीडिन

2

मुझे लगता है कि kjetil ने आपको कुछ अच्छे सुझाव दिए हैं। मैं जोड़ूंगा कि गैर-सामान्य अवशिष्टों का मतलब यह नहीं है कि आपको रैखिक या नॉनलाइनर रिग्रेशन से नॉनपेर्मेट्रिक रिग्रेशन तक कूदना होगा। नॉनपरमेट्रिक रिग्रेशन पर जाकर आप एक कार्यात्मक रूप की संरचना को छोड़ देते हैं। OLS प्रतिगमन के लिए मजबूत प्रतिगमन विकल्प हैं जो आप पहले जा सकते हैं। अगले चरणों की जरूरत है तो फिर सामान्यीकृत रैखिक मॉडल और सामान्यीकृत additive मॉडल। मेरे विचार में LOESS आपका अंतिम उपाय होना चाहिए। मुझे लगता है कि मैं उस पर kjetil के साथ सहमत हूँ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.