कई रैखिक प्रतिगमन के लिए टिप्पणियों की न्यूनतम संख्या


12

मैं कई रैखिक प्रतिगमन कर रहा हूं। मेरे 21 अवलोकन और 5 चर हैं। मेरा उद्देश्य केवल चरों के बीच के संबंध का पता लगाना है

  1. क्या मेरा डेटा कई प्रतिगमन करने के लिए पर्याप्त है?
  2. टी-टेस्ट परिणाम से पता चला कि मेरे 3 चर महत्वपूर्ण नहीं हैं। क्या मुझे महत्वपूर्ण चर (या मेरा पहला प्रतिगमन निष्कर्ष निकालने के लिए पर्याप्त है) के साथ फिर से अपना प्रतिगमन करने की आवश्यकता है? मेरा सहसंबंध मैट्रिक्स के रूप में है

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 और var 2 चर रहे हैं और var 3 से 5are श्रेणीगत चर और y मेरा आश्रित चर है।

यह उस महत्वपूर्ण चर का उल्लेख किया जाना चाहिए जिसे साहित्य में माना गया है क्योंकि मेरे आश्रित चर पर सबसे प्रभावशाली कारक मेरे डेटा सीमा के कारण मेरे प्रतिगमन चर में भी नहीं है। क्या अब भी इस महत्वपूर्ण चर के बिना प्रतिगमन करने का कोई मतलब है?

यहाँ मेरा आत्मविश्वास अंतराल है

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

जवाबों:


17

अंगूठे का सामान्य नियम (फ्रैंक हैरेल की पुस्तक, रिग्रेशन मॉडलिंग रणनीतियाँ में सामान के आधार पर ) यह है कि यदि आप उचित शक्ति के साथ उचित आकार के प्रभावों का पता लगाने में सक्षम हैं , तो आपको प्रति पैरामीटर 10-20 टिप्पणियों की आवश्यकता है (कोवरिएट) का अनुमान है। हरेल ने "आयाम में कमी" के लिए बहुत सारे विकल्पों पर चर्चा की (अधिक उचित आकार के लिए अपने कोवरिएट्स की संख्या प्राप्त करना), जैसे कि पीसीए, लेकिन सबसे महत्वपूर्ण बात यह है कि परिणाम आयाम में किसी भी आत्मविश्वास को कम करने के लिए किया जाना चाहिए। प्रतिक्रिया चर को देखे बिना । केवल महत्वपूर्ण चर के साथ फिर से प्रतिगमन करना, जैसा कि आप ऊपर सुझाव देते हैं, लगभग हर मामले में एक बुरा विचार है।

हालाँकि, चूंकि आप एक डेटा सेट और कोवरिएट्स के एक सेट के साथ फंस गए हैं, जिसमें आप रुचि रखते हैं, मुझे नहीं लगता है कि इस तरह से कई प्रतिगमन को चलाना स्वाभाविक है। मुझे लगता है कि सबसे अच्छी बात परिणाम को स्वीकार करना होगा क्योंकि वे पूर्ण मॉडल से हैं (बिंदु अनुमान और आत्मविश्वास अंतराल को देखने के लिए मत भूलें कि क्या महत्वपूर्ण प्रभाव कुछ वास्तविक में "बड़े" होने का अनुमान है- विश्व बोध, और क्या गैर-महत्वपूर्ण प्रभाव वास्तव में महत्वपूर्ण प्रभावों से छोटा है या नहीं) का अनुमान है।

जैसे कि यह भविष्यवाणी करने वाले के बिना विश्लेषण करने के लिए कोई मतलब है कि आपका क्षेत्र महत्वपूर्ण मानता है: मुझे नहीं पता। यह निर्भर करता है कि आप मॉडल के आधार पर किस तरह के इंफ़ॉर्मेंस बनाना चाहते हैं। संकीर्ण अर्थों में, प्रतिगमन मॉडल अभी भी अच्छी तरह से परिभाषित है ("इस प्रतिक्रिया पर इन भविष्यवाणियों के सीमांत प्रभाव क्या हैं?"), लेकिन आपके क्षेत्र में कोई व्यक्ति शायद ही सही कह सकता है कि विश्लेषण का कोई मतलब नहीं है। यह थोड़ा सा मदद करेगा यदि आप जानते थे कि आपके द्वारा भविष्यवाणी की गई भविष्यवक्ता अच्छी तरह से ज्ञात भविष्यवक्ता (जो भी हो) से असंबद्ध है, या वह प्रसिद्ध भविष्यवक्ता आपके डेटा के लिए निरंतर या लगभग स्थिर है: तो कम से कम आप यह कह सकते हैं कि जाने-माने भविष्यवक्ता के अलावा कुछ भी प्रतिक्रिया पर प्रभाव पड़ता है।


टिप्पणी के लिए धन्यवाद, लेकिन मुझे समझ नहीं आ रहा है कि विश्वास अंतराल की जाँच करने का क्या मतलब है?
गुलाब

चूंकि बेन ने फ्रैंक के लिए जवाब दिया था, इसलिए मैं बेन के लिए जवाब दूंगा और वह मुझे सही कर सकता है अगर उसके दिमाग में कुछ और था। बेन पूर्ण मॉडल का उपयोग करके jsut का सुझाव दे रहा है। फिर कम से कम आप जानते हैं कि आपने 5 के सेट से एक महत्वपूर्ण चर नहीं छोड़ा है। ओवरफिटिंग की समस्या भविष्यवाणी को चोट पहुंचा सकती है, लेकिन कम से कम आपके पास मापदंडों के लिए आत्मविश्वास अंतराल है और आप भविष्यवाणी के लिए विश्वास अंतराल प्राप्त कर सकते हैं। मुझे लगता है कि यह ठीक काम करेगा यदि आपके पास कोलिनियरिटी की समस्या है और मापदंडों पर विश्वास अंतराल है तो आपको बताएं कि क्या पैरामीटर मान 0. हो सकता है
माइकल आर। चेर्निक

यदि मॉडल अभी भी याद नहीं कर रहा है, तो चर भविष्यवाणी अच्छी नहीं हो सकती है और दिए गए डेटा के आधार पर भविष्यवाणी सटीकता का आकलन गलत हो सकता है। मॉडल प्रक्षेपन के बारे में चिंता करें और हमेशा अवशिष्टों की जाँच करें। फ्रैंक हरेल इस साइट के एक सक्रिय सदस्य हैं। इसलिए मुझे उम्मीद है कि इस सवाल पर उनका ध्यान जाता है और हम फिर सीधे उनसे सुन सकते हैं।
माइकल आर। चेरिक

आप हमेशा महत्वपूर्ण चर गायब कर सकते हैं, और आप वास्तव में कभी नहीं जान सकते हैं ... मैंने सुझाव दिया कि आत्मविश्वास अंतराल को देखें क्योंकि बस पूछ रहा है कि क्या चर महत्वपूर्ण है या नहीं, बहुत सारी जानकारी खो रही है। एक परिदृश्य यह होगा कि आपके सभी मापदंडों पर प्रभाव की अनुमानित अनुमानित मात्रा के बारे में है, लेकिन उनकी अनिश्चितताएं अलग-अलग हैं ताकि कुछ महत्वपूर्ण हों और अन्य नहीं। आप निश्चित रूप से इस मामले में निष्कर्ष नहीं निकालना चाहते हैं कि "चर ए और बी महत्वपूर्ण हैं, चर सी, डी, और ई नहीं हैं"। सीआई आपको इसकी जानकारी देंगे। p<0.05
बजे बेन बोलकर

मेरे विचार से मुझे लगता है कि पर्याप्त अवलोकन की कमी और मेरे डेटा सेट में सबसे महत्वपूर्ण स्वतंत्र चर की अनुपस्थिति के कारण मुझे निष्कर्ष निकालना चाहिए: 1-महत्वपूर्ण चर वह चर नहीं है जो टी-टेस्ट में उत्तीर्ण हुआ है। महत्वपूर्ण वह है जो टी-टेस्ट पास करता है और इसका आत्मविश्वास अंतराल 0. 2 सहित नहीं है-अवशिष्ट की सामान्यता को जांचना चाहिए। 3-सहसंबंध की मैट्रिक जाँच होनी चाहिए।
गुलाब

2

सामान्य प्रश्न का उत्तर यह है कि यह मुख्य कारकों के साथ कई कारकों पर निर्भर करता है (1) अनुमानों और अवशिष्टों के कोवरिएट्स (2) की संख्या। एक छोटे नमूने के साथ आपके पास 0. से अंतर का पता लगाने के लिए बहुत शक्ति नहीं है। इसलिए मैं प्रतिगमन मापदंडों के अनुमानित विचरण को देखूंगा। प्रतिगमन के साथ मेरे अनुभव से 5 चर के साथ 21 अवलोकनों के लिए पर्याप्त डेटा नहीं है। इसलिए मैं चर को फेंकने के लिए इतनी जल्दी नहीं होता और न ही बहुत महत्वपूर्ण दिखने वाले लोगों के साथ आसक्त होता हूं। जब तक आपके पास बहुत अधिक डेटा नहीं है, तब तक इंतजार करने का सबसे अच्छा जवाब है। कभी-कभी यह कहना आसान होता है लेकिन करना मुश्किल। मैं स्टेप वाइज रिग्रेशन, फॉरवर्ड और बैकवर्ड रिग्रेशन को सिर्फ यह देखने के लिए देखूंगा कि चरों का चयन क्या होता है। यदि सहसंयोजक अत्यधिक सहसंबद्ध हैं तो यह बहुत भिन्न प्रकार के चर का चयन कर सकता है। मॉडल चयन प्रक्रिया को बूटस्ट्रैप करें जैसा कि डेटा में परिवर्तन के लिए चर चयन की संवेदनशीलता के रूप में प्रकट होगा। आपको सहसंयोजकों के लिए सहसंबंध मैट्रिक्स की गणना करनी चाहिए। हो सकता है कि फ्रैंक हरेल इस पर झंकार करेंगे। वह चर चयन पर एक वास्तविक विशेषज्ञ है। मुझे लगता है कि वह कम से कम मेरे साथ सहमत होंगे कि आपको इन 21 डेटा बिंदुओं पर आधारित अंतिम मॉडल को नहीं चुनना चाहिए।


आपके सुझाव के लिए धन्यवाद। मैंने अपना सहसंबंध मैट्रिक्स जोड़ा। क्या आपको लगता है कि इस सहसंबंध मैट्रिक्स के साथ प्रतिगमन उचित है? बस इस बात पर जोर दें कि मैं अधिक डेटा एकत्र नहीं कर सकता हूं और यह भी कि मैं मॉडल या भविष्यवाणी नहीं करना चाहता हूं। बस मैं स्वतंत्र चर और आश्रित चर के बीच किसी भी संभावित संबंध को खोजना चाहता हूं।
गुलाब

सहसंबंध मैट्रिक्स आपको कोलिनियरिटी के कुछ विचार देने के लिए है। अनुमानों में संभवतः बड़ा परिवर्तन होगा और इसलिए सांख्यिकीय महत्व फोकस नहीं होना चाहिए। Ypu collinearity के लिए प्रतिगमन निदान को देख सकता है। वह मदद कर सकता है। लेकिन मैं यह देखने के लिए कई प्रकार के सबसेट मॉडल देख रहा हूं कि फिट कैसे बदलते हैं और कौन-से वैरिएबल के संयोजन अच्छे लगते हैं और खराब प्रदर्शन करते हैं। मुझे वास्तव में लगता है कि डेटा बूटस्ट्रैपिंग आपको भविष्यवाणियों की पसंद की स्थिरता के बारे में कुछ दिखाएगा।
माइकल आर। चेरिक

1
लेकिन डेटा की कमी से कुछ नहीं होगा। मुझे लगता है कि आप केवल यह देखना चाहते हैं कि क्या एक या दो चर हैं जो बाकी हिस्सों से ऊपर कंधे उठाते हैं। लेकिन आपको कुछ भी मिल सकता है।
माइकल आर। चेरनिक

हम वास्तव में covariates से क्या मतलब है? मान लें कि हमारे पास कुछ प्रेडिक्टर वेरिएबल , तो क्या कहते हैं, को एक अलग कोवरिएट के रूप में गिना जाए? कैसे के बारे में , , आदि। चूंकि इन भविष्यवक्ताओं के बीच कुछ सहसंबंध है, संभवतः उनके अनुमानित गुणांक 1 "से कम" स्वतंत्रता के लायक हैं। और क्या कहते हैं, प्रतिगमन विभाजन या अन्य स्थानीय प्रतिगमन: क्या हमें इस तथ्य के लिए ध्यान देना है कि घटकों के निर्माण में केवल टिप्पणियों का एक सबसेट उपयोग किया जाता है? और अगर हम भविष्यवक्ताओं को भार लागू करने के लिए एक कर्नेल का उपयोग करते हैं, तो क्या यह प्रभावी टिप्पणियों की संख्या को प्रभावित करता है? xx2x3x4
चकित
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.