कई प्रतिगमन में भविष्यवाणियों का महत्व: आंशिक


21

मैं सोच रहा हूं कि एक रैखिक मॉडल में आंशिक और गुणांक के बीच सटीक संबंध क्या है और क्या मुझे कारकों के महत्व और प्रभाव को स्पष्ट करने के लिए केवल एक या दोनों का उपयोग करना चाहिए।आर2

जहां तक ​​मुझे पता है, summaryमुझे गुणांक के अनुमान मिलते हैं, और anovaप्रत्येक कारक के लिए वर्गों के योग के साथ - वर्गों के योग से विभाजित एक कारक के वर्गों के अनुपात का अनुपात और अवशिष्ट आंशिक (निम्नलिखित कोड में है )।आर2R

library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
    summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe)

Residuals:
    Min      1Q  Median      3Q     Max 
-60.240 -15.738  -1.156  15.883  51.380 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.868e+02  6.492e+01  -4.418 5.82e-05 ***
income       8.065e-02  9.299e-03   8.674 2.56e-11 ***
young        8.173e-01  1.598e-01   5.115 5.69e-06 ***
urban       -1.058e-01  3.428e-02  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df Sum Sq Mean Sq F value    Pr(>F)    
income     1  48087   48087 67.4869 1.219e-10 ***
young      1  19537   19537 27.4192 3.767e-06 ***
urban      1   6787    6787  9.5255  0.003393 ** 
Residuals 47  33489     713                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

'युवा' (0.8) और 'शहरी' के लिए गुणांक का आकार (-0.1, पूर्व के 1/8 के बारे में, अनदेखा करना '-') समझाया गया विचरण ('युवा' ~ 19500 और 'शहरी' ~ से मेल नहीं खाता 6790, यानी लगभग 1/3)।

इसलिए मुझे लगा कि मुझे अपने डेटा को स्केल करने की आवश्यकता होगी क्योंकि मैंने यह मान लिया था कि यदि किसी कारक की सीमा दूसरे कारक की सीमा से अधिक व्यापक है, तो उनके गुणांक की तुलना करना कठिन होगा:

Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.29675 -0.33879 -0.02489  0.34191  1.10602 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.084e-16  8.046e-02   0.000  1.00000    
income       9.723e-01  1.121e-01   8.674 2.56e-11 ***
young        4.216e-01  8.242e-02   5.115 5.69e-06 ***
urban       -3.447e-01  1.117e-01  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df  Sum Sq Mean Sq F value    Pr(>F)    
income     1 22.2830 22.2830 67.4869 1.219e-10 ***
young      1  9.0533  9.0533 27.4192 3.767e-06 ***
urban      1  3.1451  3.1451  9.5255  0.003393 ** 
Residuals 47 15.5186  0.3302                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1    

लेकिन इससे वास्तव में कोई फर्क नहीं पड़ता, आंशिक और गुणांक के आकार (ये अब मानकीकृत गुणांक हैं ) अभी भी मेल नहीं खाते हैं:आर2

22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young:  partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban:  partial R2 0.062, Coeff -0.34

तो क्या यह कहना उचित है कि 'युवा' तीन बार 'शहरी' के रूप में अधिक विचरण करता है क्योंकि 'युवा' के लिए आंशिक 'शहरी' की तुलना में तीन गुना है? आर2'युवा ’का गुणांक क्यों नहीं (शहरी’ (संकेत की अनदेखी) से तीन गुना है?

मुझे लगता है कि इस प्रश्न का उत्तर मुझे अपनी प्रारंभिक क्वेरी का उत्तर भी बताएगा: क्या मुझे कारकों के सापेक्ष महत्व को स्पष्ट करने के लिए आंशिक या गुणांक का उपयोग करना चाहिए ? (प्रभाव की अनदेखी दिशा - संकेत - समय के लिए।)आर2

संपादित करें:

आंशिक एटा-वर्ग मुझे आंशिक कहा जाता है के लिए एक और नाम प्रतीत होता है । etasq {heplots} एक उपयोगी कार्य है जो समान परिणाम उत्पन्न करता है:आर2

etasq(mod)
          Partial eta^2
income        0.6154918
young         0.3576083
urban         0.1685162
Residuals            NA

आप वास्तव में क्या करने या दिखाने की कोशिश कर रहे हैं? अनुमानित प्रभाव? महत्व?
IMA

हां, मैं t- और एफ-परीक्षणों से परिचित हूं। मैं अनुमानित प्रभाव दिखाना चाहता हूं, जिसके लिए एफ-टी और एफ-परीक्षण उपयुक्त नहीं हैं।
रोबर्ट

1
मेरा सवाल है: क्या मुझे आंशिक आर² या गुणांक का उपयोग करना चाहिए ताकि यह दिखाया जा सके कि परिणाम पर प्रत्येक कारक का कितना प्रभाव है? मैं दोनों को एक ही दिशा में इंगित करने के लिए मान रहा था। आप कह रहे हैं कि यह सच नहीं है क्योंकि डेटा में बहुसंख्या है। ठीक है, इसलिए जब मैं कारक 'युवा' के रूप में एक बयान करना चाहता हूं तो परिणाम x को अधिक बार प्रभावित करता है / क्या कारक 'शहरी' की तुलना में x गुना अधिक महत्वपूर्ण है, क्या मैं आंशिक R I या गुणांक को देखता हूं?
रॉबर्ट

1
मैं @IMA से सहमत नहीं हूँ। आंशिक आर स्क्वेर्ड सीधे आंशिक सहसंबंध से जुड़ा हुआ है, जो iv और DV के बीच कन्फ़्यूज़र-समायोजित संबंधों का अध्ययन करने का एक अच्छा तरीका है।
माइकल एम

1
मैंने आपके प्रश्न को फिर से फ्रंट पेज पर प्रदर्शित करने के लिए संपादित किया। मुझे एक अच्छे उत्तर में बहुत दिलचस्पी होगी; यदि कोई नहीं दिखाई देता है तो मैं एक इनाम भी दे सकता हूं। वैसे, सभी भविष्यवक्ताओं के मानकीकरण के बाद प्रतिगमन गुणांक को "मानकीकृत गुणांक" कहा जाता है। मैंने इस शब्द को आपके प्रश्न में डाल दिया है, इसे स्पष्ट करने के लिए।
अमीबा का कहना है कि मोनिका

जवाबों:


10

संक्षेप में , मैं एक ही विश्लेषण में आंशिक और मानकीकृत गुणांक दोनों का उपयोग नहीं करूंगा , क्योंकि वे स्वतंत्र नहीं हैं। मैं तर्क था कि यह आम तौर पर शायद अधिक सहज ज्ञान युक्त मानकीकृत गुणांकों का उपयोग कर रिश्तों की तुलना करना है, क्योंकि वे मॉडल परिभाषा के लिए आसानी से संबंधित हैं (यानी Y = β एक्स )। आंशिक आर 2 , बारी में, अनिवार्य रूप से भविष्यवक्ता और निर्भर चर (DV) के बीच अद्वितीय साझा विचरण का अनुपात (ताकि पहले भविष्यवक्ता के लिए यह आंशिक सहसंबंध के वर्ग है आर एक्स 1 y एक्स 2X nR2Y=βXR2आरएक्स1yएक्स2एक्सn)। इसके अलावा, एक बहुत छोटी त्रुटि के साथ एक फिट के लिए सभी गुणांक आंशिक होते हैं, इसलिए वे भविष्यवक्ताओं के सापेक्ष महत्व की पहचान करने में उपयोगी नहीं होते हैं।आर2


प्रभाव आकार परिभाषाएँ

  • मानकीकृत गुणांक, - गुणांक बीटा मानकीकृत चर पर एक मॉडल का आकलन से प्राप्त (मतलब = 0, मानक विचलन = 1)।βरोंटीβ
  • आंशिक - अवशिष्ट भिन्नता के अनुपात को विवश मॉडल (भविष्यवक्ता के बिना पूर्ण मॉडल) में पूर्वसूचक को जोड़कर समझाया गया है। के समान:आर2

    • मॉडल में अन्य सभी भविष्यवक्ताओं के लिए नियंत्रित करने वाले और आश्रित चर के बीच आंशिक सहसंबंध का वर्ग। आरपीआरटीमैंएल2=आरएक्समैंyएक्सएक्समैं2
    • आंशिक - प्रकार के अनुपात में भविष्यवक्ता और त्रुटि के लिए जिम्मेदार ठहराया वर्गों का योग करने के लिए भविष्यवक्ता से वर्गों का तृतीय रकम एसएस प्रभाव / ( एसएस प्रभाव + एसएस त्रुटि )η2एसएसप्रभाव/(एसएसप्रभाव+एसएसत्रुटि)
  • -विवश और पूर्ण मॉडल के बीच R 2 में अंतर। के बराबर:Δआर2आर2

    • वर्गाकार अर्धचालक सहसंबंध आरएक्समैं(yएक्सएक्समैं)2
    • प्रकार के वर्ग III योग के लिए एसएस प्रभाव / एसएस कुल - आपप्रश्न मेंआंशिक आर 2 के रूप में क्या गणना कर रहे थे।η2एसएसप्रभाव/एसएससंपूर्णआर2

ये सभी निकटता से संबंधित हैं, लेकिन वे भिन्न हैं कि वे चर के बीच सहसंबंध संरचना को कैसे संभालते हैं। इस अंतर को थोड़ा बेहतर समझने के लिए, मान लें कि हमारे पास 3 मानकीकृत (मतलब = 0, एसडी = 1) चर जिनके सहसंबंध r x y , r x z , r y z हैं । हम x को आश्रित चर और y और z के रूप में लेंगेएक्स,y,zआरएक्सy,आरएक्सz,आरyzएक्सyzभविष्यवक्ता के रूप में। हम सहसंबंधों के संदर्भ में सभी प्रभाव आकार गुणांक व्यक्त करेंगे ताकि हम स्पष्ट रूप से देख सकें कि सहसंबंध संरचना प्रत्येक द्वारा कैसे नियंत्रित की जाती है। पहले हम प्रतिगमन मॉडल में गुणांक सूची जाएगा OLS उपयोग कर अनुमान लगाया। गुणांक के लिए सूत्र: β y = आर x y - आर वाई जेड आर जेड एक्सएक्स=βyY+βzजेडभविष्यवाणियों के लिएआंशिक रूप सेR2का वर्गमूलसमान होगा:

βy=rxyryzrzx1ryz2βz=rxzryzryx1ryz2,
Rpartial2

आरएक्सyz2=आरएक्सy-आरyzआरzएक्स(1-आरएक्सz2)(1-आरyz2)आरएक्सzy2=आरएक्सz-आरyzआरyएक्स(1-आरएक्सy2)(1-आरyz2)

द्वारा दिया गया है:Δआर2

आरएक्सyz2-आरएक्सz2=आरy(एक्सz)=आरएक्सy-आरyzआरzएक्स(1-आरyz2)आरएक्सzy2-आरएक्सy2=आरz(एक्सy)=आरएक्सz-आरyzआरyएक्स(1-आरyz2)

इन के बीच का अंतर विभाजक, के लिए जो है और β में केवल भविष्यवाणियों के बीच संबंध शामिल है। कृपया ध्यान दें कि अधिकांश संदर्भों में (कमजोर सहसंबद्ध भविष्यवक्ताओं के लिए) इन दोनों का आकार बहुत समान होगा, इसलिए यह निर्णय आपकी व्याख्या को बहुत अधिक प्रभावित नहीं करेगा। इसके अलावा, भविष्यवक्ताओं निर्भर चर के साथ सह-संबंध की एक ऐसी ही शक्ति है और नहीं कर रहे हैं कि बहुत दृढ़ता से के अनुपात सहसंबद्ध अगरΔआर2 के अनुपात के समान होगाβरोंटीडीआरआंशिक2βरोंटी

अपने कोड पर वापस आ रहा है। anovaआर उपयोग में समारोह मैं, डिफ़ॉल्ट रूप से वर्गों का योग जबकि आंशिक टाइप ऊपर वर्गों (जो मेरा मानना है कि एक प्रकार का तृतीय योग पर आधारित गणना की जानी चाहिए वर्णित के रूप में वर्गों की एक प्रकार द्वितीय राशि के बराबर है अगर कोई बातचीत मौजूद है अपने मॉडल में)। अंतर यह है कि व्याख्याताओं के बीच समझाया एसएस को कैसे विभाजित किया जाता है। टाइप I SS में पहले भविष्यवक्ता को सभी समझाए गए SS को सौंपा गया है, दूसरा केवल "SS के ऊपर छोड़ दिया गया" और तीसरा केवल SS के उस पर छोड़ दिया गया, इसलिए आपके कॉल में आपके चर दर्ज करने के क्रम में उनके संबंधित SS में परिवर्तन होता है। । मॉडल गुणांक की व्याख्या करते समय यह संभवत: सबसे अधिक नहीं है जो आप चाहते हैं।आर2lm

Anovacarएफटीएफ(1,n)=टी2(n)anova(mod)Anova(mod, type = 2)options(contrasts = c("contr.sum","contr.poly"))Anova(mod,type=3)आर2etasq()पीआर2


श्रेय


β=(एक्सएक्स)एक्सy

1
आप सही हैं, मेरा मतलब था कि तृतीय एसएस टाइप और गुणांक के लिए परीक्षण मूल रूप से एक ही एफ परीक्षण और पी मूल्य देते हैं।
क्रिस नोवाक

2
@amoeba कुछ गणनाएं करने के बाद मैंने आपके सुझावों को शामिल करने के लिए मेरे उत्तर को संपादित किया, दो प्रभाव आकारों के बीच के अंतरों को थोड़ा स्पष्ट किया और ओपी के उत्तर को बेहतर तरीके से संबोधित किया।
क्रिस नोवाक

1
Δआर2आर2आर2आर2

1
Δआर2आरपी2Δआर2आरपी2आर21
अमीबा का कहना है कि मोनिका

8

जैसा कि पहले ही कई अन्य उत्तरों और टिप्पणियों में समझाया जा चुका है, यह सवाल कम से कम तीन भ्रमों पर आधारित था:

  1. anova()टीAnova()car

  2. आर2βरोंटी

  3. आर2एसएसप्रभाव/(एसएसप्रभाव+एसएसत्रुटि)एसएसप्रभाव/एसएससंपूर्णआर2एसएसप्रभाव

इन भ्रमों को स्पष्ट करने के बाद, यह सवाल बना रहता है कि भविष्यवक्ता प्रभाव आकार, या महत्व के सबसे उपयुक्त उपाय क्या हैं।


आर में, एक पैकेज है relaimpoजो सापेक्ष महत्व के कई उपाय प्रदान करता है।

library(car)
library(relaimpo)
mod <- lm(education~income+young+urban, data=Anscombe)
metrics <- calc.relimp(mod, type = c("lmg", "first", "last", "betasq", "pratt", "genizi", "car"))

Anscombeआपके प्रश्न में समान डेटासेट का उपयोग करके , यह निम्नलिखित मीट्रिक उत्पन्न करता है:

Relative importance metrics: 

              lmg      last      first    betasq       pratt     genizi        car
income 0.47702843 0.4968187 0.44565951 0.9453764  0.64908857 0.47690056 0.55375085
young  0.14069003 0.1727782 0.09702319 0.1777135  0.13131006 0.13751552 0.13572338
urban  0.07191039 0.0629027 0.06933945 0.1188235 -0.09076978 0.07521276 0.00015460

इनमें से कुछ मैट्रिक्स पर पहले ही चर्चा की जा चुकी है:

  • betasqस्क्वैयर मानकीकृत गुणांक हैं, वही मान जिन्हें आपने प्राप्त किया है lm()
  • firstएसएसप्रभाव/एसएससंपूर्णएसएसप्रभावanova()
  • lastआर2एसएसप्रभाव/एसएससंपूर्णएसएसप्रभावआर2anova()

आर2

इसमें चार और मेट्रिक्स हैं relaimpo- और एक और (पांचवां) उपलब्ध है यदि पैकेज relaimpoमैन्युअल रूप से स्थापित किया गया है: सीआरएएन संस्करण अपने लेखक के साथ संभावित संघर्ष के कारण इस मीट्रिक को बाहर कर देता है, जो पागल लगता है, उसके विधि पर यूएस पेटेंट है । मैं आर ऑनलाइन चला रहा हूं और इसकी पहुंच नहीं है, इसलिए यदि कोई भी मैन्युअल रूप से इंस्टॉल कर सकता है relaimpo, तो कृपया इस अतिरिक्त मीट्रिक को मेरे आउटपुट के लिए पूर्णता के साथ जोड़ें।

दो मैट्रिक्स ऐसे हैं prattजो नकारात्मक (खराब) हो सकते हैं और geniziयह बहुत अस्पष्ट है।

दो दिलचस्प दृष्टिकोण हैं lmgऔर car

एसएसप्रभाव/एसएससंपूर्णएसएसप्रभाव

दूसरा (जुबेर और स्ट्रिमर, 2011) में पेश किया गया है और इसमें कई आकर्षक सैद्धांतिक गुण हैं; यह पहले से मानकीकृत किया गया है और फिर ZCA / Mahalanobis परिवर्तन (यानी पुनर्निर्माण त्रुटि को कम करते हुए सफेदी) के साथ सफेद कर दिया गया है के बाद यह मानकीकृत गुणांक चुकता है।

2:1lmg878:1car

ग्रंथ सूची:

  1. Ulrike Grömping की वेबसाइट पर रिश्तेदार महत्व पर संदर्भ - वह के लेखक हैं relaimpo

  2. ग्रोम्पिंग, यू। (2006)। आर में रैखिक प्रतिगमन के लिए सापेक्ष महत्व: पैकेज रिलेम्पो । सांख्यिकीय सॉफ्टवेयर 17, अंक 1 की पत्रिका।

  3. ग्रोम्पिंग, यू। (2007)। रैखिक विघटन के आधार पर रैखिक प्रतिगमन में सापेक्ष महत्व के अनुमानक । अमेरिकी सांख्यिकीविद् 61, 139-147।

  4. जुबेर, वी। और स्ट्रिमर, के। (2010)। सीएआर स्कोर का उपयोग करके उच्च-आयामी प्रतिगमन और चर चयन । आनुवांशिकी और आणविक जीव विज्ञान में सांख्यिकीय अनुप्रयोग 10.1 (2011): 1-27।

  5. ग्रोम्पिंग, यू। (2015)। प्रतिगमन मॉडल में परिवर्तनशील महत्व । विली अंतःविषय समीक्षा: कम्प्यूटेशनल सांख्यिकी, 7 (2), 137-152। (पे वॉल के पीछे)


विभिन्न महत्व के गुणकों पर एक अतिरिक्त क़ीमती जानकारी के साथ बहुत अच्छा सारांश। BTW, क्या आप इस R इंजन pbil.univ-lyon1.fr/Rweb या किसी अन्य ऑनलाइन का उपयोग कर रहे हैं ?
ttnphns

1
मैं r-fiddle.org का उपयोग करता हूं , लेकिन मैंने कभी कुछ और करने की कोशिश नहीं की और यह नहीं जानता कि यह कैसे तुलना करता है। यह हालांकि बहुत चिकना लग रहा है।
अमीबा ने कहा कि मोनिका

प्रभाव के आकार (+1) पर बहुत स्पष्ट सारांश और अतिरिक्त जानकारी
क्रिस नोवाक

4

आप ने लिखा:

मेरा सवाल है: क्या मुझे आंशिक आर² या गुणांक का उपयोग करना चाहिए ताकि यह दिखाया जा सके कि परिणाम पर प्रत्येक कारक का कितना प्रभाव है?

यहां दो चीजों को भ्रमित नहीं करना महत्वपूर्ण है। सबसे पहले, मॉडल विनिर्देश का सवाल है। एलएम एल्गोरिथ्म मानता है कि ओएलएस-धारणाएं पूरी होती हैं। अन्य बातों के अलावा इसका मतलब यह है कि निष्पक्ष अनुमानों के लिए, कोई भी हस्ताक्षरकर्ता चर मॉडल से गायब हो सकता है (सिवाय इसके कि यह अन्य सभी रजिस्टरों के लिए असंबंधित है, दुर्लभ)।
इसलिए एक मॉडल खोजने में, R finding या समायोजित R of पर अतिरिक्त प्रभाव निश्चित रूप से रुचि का है। उदाहरण के लिए, समायोजित R improving में सुधार होने तक रजिस्टरों को जोड़ना उचित होगा। इस तरह के रूप में चरणबद्ध प्रतिगमन प्रक्रियाओं के साथ दिलचस्प समस्याएं हैं, लेकिन यह विषय नहीं है। किसी भी मामले में मुझे लगता है कि एक कारण था कि आपने अपना मॉडल चुना था।

कैसे: RE पर यह अतिरिक्त प्रभाव स्वतंत्र चर पर regressor के वास्तविक या कुल प्रभाव के समान नहीं है, ठीक इसी प्रकार मल्टीकोलेनेरिटी के कारण: यदि आप regressor को हटा देते हैं, तो इसके प्रभाव का हिस्सा अब अन्य रजिस्टरों के लिए जिम्मेदार होगा इसे सहसंबद्ध किया जाता है। इसलिए अब सही प्रभाव नहीं दिखाया गया है।

और एक और समस्या है: अनुमान केवल पूर्ण मॉडल के लिए मान्य हैं जो अन्य सभी रजिस्टरों के साथ मौजूद हैं। या तो यह मॉडल अभी तक सही नहीं है और इसलिए प्रभाव के बारे में चर्चा व्यर्थ है - या यह सही है और फिर आप एक रजिस्ट्रार को समाप्त नहीं कर सकते हैं और फिर भी सफलता के साथ ओएलएस के तरीकों का उपयोग कर सकते हैं।

तो: क्या आपका मॉडल और OLS का उपयोग उचित है? यदि यह है, तो अनुमान आपके प्रश्न का उत्तर देते हैं - वे आपके शाब्दिक हैं regressand या आश्रित चर पर चर के प्रभाव का सबसे अच्छा अनुमान।
यदि नहीं, तो आपका पहला काम एक सही मॉडल खोजना है। इसके लिए आंशिक R² का उपयोग एक तरीका हो सकता है। मॉडल स्पेसिफिकेशन या स्टेप वाइज रिग्रेशन पर एक खोज इस मंच में कई दिलचस्प दृष्टिकोण का उत्पादन करेगी। आपके डेटा पर क्या कार्य निर्भर करेगा


1
चार आपका जवाब धन्यवाद! मुझे यकीन नहीं है कि आपका कथन "R not पर यह अतिरिक्त प्रभाव स्वतंत्र चर पर प्रतिगामी के वास्तविक या कुल प्रभाव के समान नहीं है" यह अविवादित है। पैकेज relaimpo cran.r-project.org/web/packages/relaimpo/relaimpo.pdf उदाहरण के लिए आंशिक का उपयोग करता है "रैखिक मॉडल में सापेक्ष महत्व का आकलन करने के लिए"।
रॉबर्ट

1
क्या आपको लगता है कि आप अपने विचार के लिए एक संदर्भ प्रदान कर सकते हैं कि R only का उपयोग केवल मॉडल चयन के लिए किया जाना चाहिए?
रॉबर्ट

1
@robert: raison d'etre relaimpoको आंशिक R ^ 2 के लिए विकल्प प्रदान करना है, वास्तव में इसका कारण IMA देता है!
Scortchi - को पुनः स्थापित मोनिका

1
@ स्कोर्टची: वाह, relaimpoपैकेज के मैनुअल में देखने के बाद मैंने महसूस किया कि रैखिक प्रतिगमन में भविष्यवक्ताओं के सापेक्ष महत्व को निर्धारित करने के लिए विभिन्न दृष्टिकोणों की एक पूरी दुनिया है । मैं वर्तमान में वहां से जुड़े कुछ पत्रों को देख रहा हूं ( यह 2010 की छाप अब तक बहुत अच्छी लग रही है), और यह एक गड़बड़ है! मुझे महसूस नहीं हुआ कि यह मुद्दा इतना जटिल है, जब मैंने अपनी अमानत की पेशकश की। ऐसा लगता नहीं है कि सीवी पर ठीक से चर्चा की गई है। क्या यह एक अस्पष्ट विषय है? यदि हां, तो क्यों?
अमीबा का कहना है कि मोनिका

2
@amoeba: एक ऑफ-द-कफ उत्तर यह है कि "भविष्यवक्ताओं का सापेक्ष महत्व" सभी उद्देश्यों के लिए महत्वपूर्ण नहीं है। यदि आपके पास एक मॉडल है जिससे आप खुश हैं, तो आप यह कह सकते हैं कि एक दिन में एक सिगरेट पीने जैसी चीजें दिल का दौरा पड़ने के जोखिम के मामले में पांच हैम्बर्गर खाने के बराबर हैं - महत्व क्या है की महत्वपूर्ण व्याख्या से आता है आप मॉडलिंग कर रहे हैं; यदि आप उन मॉडलों की तुलना कर रहे हैं जो आप पूरे मॉडल की तुलना करते हैं - तो भविष्यवाणियों की महंगी-से-माप जोड़ी के साथ और बिना लोगों को कहते हैं - और इस बारे में चिंता करने की ज़रूरत नहीं है कि भविष्य कहनेवाला शक्ति काफी विभाजित हो सकती है।
Scortchi - को पुनः स्थापित मोनिका

3

रेखीय प्रतीपगमन गुणांक और आंशिक सहसंबंध आप पढ़ सकते हैं के बीच अंतर के बारे में इस उदाहरण के लिए,।

हालाँकि, प्रश्न में व्यक्त भ्रम दूसरी प्रकृति का प्रतीत होता है। यह इस या उस सांख्यिकीय पैकेज (विषय, बार-बार आपकी साइट पर चर्चा की गई) द्वारा उपयोग किए जाने वाले डिफ़ॉल्ट प्रकार के रकम-वर्गों के बारे में प्रतीत होता है। रैखिक प्रतिगमन का उपयोग करता है जो एनोवा टाइप III एसएस रेकनिंग में कहा जाता है। कई एनोवा कार्यक्रमों में जो डिफ़ॉल्ट विकल्प भी है। में Rसमारोह anova, पर मुझे ऐसा लगता (मैं, उपयोगकर्ता अनुसंधान नहीं कर रहा हूँ तो मैं बस यह लगता है) डिफ़ॉल्ट गणना प्रकार मैं एस एस (एक "अनुक्रमिक एसएस" जो आदेश predictors मॉडल में निर्दिष्ट कर रहे हैं पर निर्भर करता है) है। तो, आपके द्वारा देखी गई विसंगति और जब आप मानकीकृत ("स्केल किए गए") अपने वेरिएबल्स को गायब नहीं करते थे, क्योंकि आपने डिफ़ॉल्ट प्रकार I विकल्प के साथ ANOVA निर्दिष्ट किया था।

आपके डेटा के साथ SPSS में प्राप्त परिणाम नीचे दिए गए हैं:

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें

आप इन प्रिंट-आउट में चुन सकते हैं कि पैरामीटर (प्रतिगामी गुणांक) समान एसएस गणना के समान हैं। आप यह भी देख सकते हैं कि आंशिक एटा वर्ग [जो कि SSeffect / (SSeffect + SSerror) है और = आंशिक R- वर्ग हमारे मामले में है क्योंकि भविष्यवक्ता संख्यात्मक सहसंयोजक हैं] पूरी तरह से प्रभाव और गुणांक के तालिका में समान है जब केवल SS टाइप करें III है। जब टाइप एसएस मैं होता है, तो केवल 3 भविष्यवक्ताओं में से अंतिम, "शहरी", समान मूल्य (.169) को बरकरार रखता है; इसका कारण यह है कि भविष्यवक्ताओं के इनपुट के अनुक्रम में यह अंतिम है। प्रकार III एसएस के मामले में इनपुट का क्रम मायने नहीं रखता, जैसा कि प्रतिगमन में है। वैसे, विसंगति को पी-मूल्यों में भी माना जाता है। यद्यपि आप इसे मेरी तालिकाओं में नहीं देखते हैं क्योंकि "सिग" कॉलम में केवल 3 दशमलव अंक हैं,

आप एनोवा / रैखिक मॉडल में विभिन्न "एसएस प्रकार" के बारे में अधिक पढ़ना चाह सकते हैं। वैचारिक रूप से, III या "प्रतिगमन" प्रकार का एसएस मौलिक और मौलिक है। अन्य प्रकार के एसएस (I, II, IV, वहां और भी मौजूद हैं) प्रभाव को अधिक व्यापक रूप से अनुमान लगाने के लिए विशेष उपकरण हैं, प्रतिगमन मापदंडों की तुलना में कम बर्बादी सहसंबद्ध भविष्यवक्ताओं की स्थिति में अनुमति देते हैं।

आमतौर पर, प्रभाव आकार और उनके पी-मान मापदंडों और उनके पी-मूल्यों की तुलना में रिपोर्ट करने के लिए अधिक महत्वपूर्ण होते हैं, जब तक कि अध्ययन का उद्देश्य भविष्य के लिए मॉडल बनाना न हो। पैरामीटर वे हैं जो आपको भविष्यवाणी करने की अनुमति देते हैं, लेकिन "प्रभाव" या "प्रभाव" "रैखिक भविष्यवाणी की ताकत" की तुलना में एक व्यापक अवधारणा हो सकती है। प्रभाव या महत्व की रिपोर्ट करने के लिए आंशिक एटा वर्ग के अलावा अन्य गुणांक संभव हैं। एक होने के लिए छुट्टी-एक-आउट गुणांक है: एक भविष्यवक्ता का महत्व मॉडल से हटाए गए भविष्यवक्ता के साथ वर्गों का अवशिष्ट योग है, सामान्यीकृत किया गया है ताकि सभी भविष्यवक्ताओं के लिए महत्व मान 1 से बराबर हो।


+1, चर्चा में शामिल होने के लिए धन्यवाद। मेरा एक पारिभाषिक प्रश्न है। "आंशिक आर चौकोर" को SSeffect / (SSeffect + SSerror) के रूप में परिभाषित किया गया है। SSeffect / SStotal का क्या नाम है? जहां तक ​​मैं समझता हूं (मुझे गलत समझें तो सही करें), यदि हम टाइप III एसएस अपघटन का उपयोग करते हैं, तो यह SSeffect / SStotal प्रतिक्रिया और इस भविष्यवक्ता (सभी अन्य लोगों के लिए नियंत्रण) के बीच आंशिक सहसंबंध के बराबर होगा। क्या इस मात्रा का कोई नाम है? आंशिक आर 2 आंशिक एटा वर्ग के अनुरूप है, लेकिन एटा वर्ग के एनालॉग के लिए कोई नाम क्यों नहीं है? मैं इससे भ्रमित हूं।
अमीबा का कहना है कि मोनिका

उफ़, मुझे लगता है कि मैंने कुछ बकवास ऊपर लिखी है: चुकता आंशिक सहसंबंध SSeffect / (SSeffect + SSerror) है, अर्थात बिल्कुल आंशिक R2, सही? फिर भी, SSeffect / SStotal को कॉल करने का तरीका (जो ओपी ने अपने मूल प्रश्न में गणना करने की कोशिश की है!) बनी हुई है। क्या हमें इसे एटा स्क्वायर्ड कहना चाहिए? या "विभाजन आर 2" (निश्चित रूप से III एसएस के लिए, ये "विभाजन" कुल R2 के योग नहीं होंगे)?
अमीबा का कहना है कि

1
हां, SSeffect / SStotal केवल एटा स्क्वेर्ड है। यह उस विशिष्ट मॉडल में भविष्यवक्ता का एटा वर्ग है (सीमांत एटा वर्ग के साथ भ्रमित करने के लिए नहीं = एटा वर्ग जब भविष्यवक्ता मॉडल में केवल एक = शून्य-क्रम पियरसन आर ^ 2 है, हमारे निरंतर भविष्यवक्ताओं के मामले में)।
ttnphns

1
सटीक। भाग सहसंबंध (एटा का एक विशिष्ट उदाहरण) है। मुझे लगता है कि यह है इसलिए उचित मॉडल में है कि ईटा कॉल करने के लिए भाग ईटा। मुझे अभी कोई भी पाठ याद नहीं है, जहाँ मैं "भाग" या "अर्धविराम" शब्द का सामना करता हूँ। अगर आपको इसका पता चले तो कृपया मुझे बताएं।
ttnphns

1
हाँ; क्यों, मैं उसी तरह सोचता हूं। लेकिन r, आंशिक r, semipartial r विशेष मामले हैं, जो इसी eta हैं। दोनों के बीच महत्वपूर्ण पारिभाषिक भेद, हालांकि, संदर्भ में तब उठता है, जब इसके अलावा, समग्र श्रेणीगत (डमी) "nonlinear" प्रभाव हम भविष्यवक्ता के रैखिक (या बहुपद) प्रभाव को जोड़ते हैं जैसे कि संख्यात्मक-कोडित। यहां हम 3 प्रभाव प्रदर्शित करते हैं: संयुक्त Etasq = रैखिक रुपये + विचलन-से-रैखिकता।
tnnphns 10
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.