R में ड्रॉप 1 आउटपुट की व्याख्या करना


14

आर में, drop1कमांड कुछ साफ करता है।
ये दो कमांड आपको कुछ आउटपुट मिलना चाहिए:
example(step)#-> swiss
drop1(lm1, test="F")

मेरा ऐसा दिखता है:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

इन सभी का क्या अर्थ है? मैं मान रहा हूं कि "तारों" को यह तय करने में मदद मिलती है कि कौन से इनपुट चर रखे जाने हैं। उपरोक्त आउटपुट को देखते हुए, मैं "परीक्षा" चर को दूर करना चाहता हूं और "शिक्षा" चर पर ध्यान केंद्रित करना चाहता हूं, क्या यह सही है?

इसके अलावा, एआईसी मूल्य, कम बेहतर है, हाँ?

ईडी। कृपया नीचे दिए गए सामुदायिक विकी के उत्तर पर ध्यान दें और यदि आप इस आउटपुट को स्पष्ट करने के लिए फिट होते हैं तो इसे जोड़ दें।


7
R की मदद आपको यह समझाने के लिए है कि फ़ंक्शन का उपयोग कैसे करें। यह आँकड़ों पर एक पाठ्यक्रम होने के लिए नहीं है। और इस संबंध में, सामान्य तौर पर मेरा मानना ​​है कि आर मदद पृष्ठ उन सभी खुले स्रोत पैकेजों से सबसे अधिक पूर्ण और आसान हैं, जिनके बारे में मुझे पता है। और उस बात के लिए पैकेज देना। एसपीएसएस और एसएएस आपको अर्ध-सत्य के साथ बहुत सारे मंबो-जंबो देते हैं और "व्याख्या के लिए मार्गदर्शक" के रूप में पूरा करते हैं।
जोरिस मेव्स

1
इस सवाल को दरकिनार कर दिया गया। मैंने अपना +1 देने का इरादा नहीं किया था, लेकिन अब मुझे ऐसा लगता है कि इसे वोट करना बहुत रचनात्मक नहीं है: (1) ओपी स्पष्ट करता है कि यह होमवर्क है और चित्रण के लिए आर-निर्मित डेटा सेट का उपयोग करता है, न कि उसका डेटा, (2) के साथ एक संबंधित प्रश्न step()इस लेखन के समय +2 मूल्यांकन किया गया है (इसलिए क्यों ?!), (3) ओपी ने @ जॉरिस की प्रतिक्रिया की उपयोगिता को स्वीकार किया।
chl

@chl: ऐसा लगता है कि मैं संवेदनशील पैर की उंगलियों के साथ केवल एक ही नहीं हूं जब यह आर मदद पृष्ठों पर आता है :-)। लेकिन मैं आपसे तहे दिल से सहमत हूं। सवाल वैध है, स्पष्ट तरीके से पूछा गया है और इसलिए इसे कम करने का कोई कारण नहीं है।
जोरिस मेव्स

हेह, मुझे खेद है कि अगर मैंने अपने पैर की उंगलियों पर मेरे सहारे की मदद से कदम रखा, तो मैं बहुत धैर्यवान नहीं हूं जब यह वास्तव में कमांड लाइन के साथ आता है। मैं अजीब हूँ, मुझे पता है। आप इस पर मुझे कॉल करने वाले पहले व्यक्ति नहीं होंगे :) मुझे यह जगह पसंद है, लोग ईमानदार हैं।
गकेरा

वहां हम जाते हैं, मैंने प्रश्न को संपादित किया ताकि यह आर और आर मदद के अधिवक्ताओं के लिए बंद न हो जाए :) और ओआईसी को केवल पाठकों को भ्रमित करने से बचने के लिए एआईसी पर प्रश्न को फिर से प्रस्तुत किया।
गकेरा

जवाबों:


10

drop1आपको AIC मानदंड के आधार पर मॉडल की तुलना देता है, और विकल्प का उपयोग करते समय test="F"आप इसमें "टाइप II ANOVA" जोड़ते हैं, जैसा कि मदद फाइलों में बताया गया है । जब तक आपके पास केवल निरंतर चर होते हैं, तब तक यह तालिका पूरी तरह से समतुल्य होती है summary(lm1), क्योंकि एफ-मूल्य केवल उन टी-मानों के वर्ग हैं। P- मान बिल्कुल समान हैं।

तो इसके साथ क्या करना है? इसे बिल्कुल उसी तरीके से व्याख्या करें: यह एक तरह से व्यक्त करता है यदि उस शब्द के बिना मॉडल उस शब्द के साथ मॉडल से "महत्वपूर्ण" है। मन को "महत्वपूर्ण" के रूप में समझें, क्योंकि यहाँ महत्व की व्याख्या नहीं की जा सकती, जैसा कि ज्यादातर लोग सोचते हैं। (बहु-परीक्षण समस्या और सभी ...)

और एआईसी के बारे में: कम बेहतर इसे अधिक पसंद करता है। एआईसी एक ऐसा मूल्य है जो मॉडल के लिए जाता है , चर के लिए नहीं। तो उस आउटपुट का सबसे अच्छा मॉडल चर परीक्षा के बिना एक होगा।

ध्यान रहे, AIC और F स्टेटिस्टिक दोनों की गणना R फ़ंक्शन AIC(lm1)सम्मान से अलग है । anova(lm1)। के लिए AIC(), वह जानकारी सहायता पृष्ठों पर दी गई है extractAIC()। के लिए anova()समारोह, यह बजाय स्पष्ट है कि प्रकार मैं और प्रकार द्वितीय एस एस ही नहीं हैं।

मैं असभ्य होने की कोशिश नहीं कर रहा हूं, लेकिन अगर आपको यह समझ में नहीं आता है कि वहां की मदद फाइलों में क्या बताया गया है, तो आपको पहले स्थान पर फ़ंक्शन का उपयोग नहीं करना चाहिए। स्टेपवाइज रिग्रेशन अविश्वसनीय रूप से पेचीदा है, जो आपके पी-वैल्यू को सबसे गहरा तरीके से खतरे में डालता है। इसलिए फिर से, अपने आप को पी-वैल्यू पर आधारित करें। आपके मॉडल को आपकी परिकल्पना को प्रतिबिंबित करना चाहिए न कि दूसरे तरीके को।


1
मुझे यह भावना पसंद है, "अगर मुझे समझ नहीं आ रहा है कि मैं पहले से क्या कर रहा हूं, तो मुझे इसे सीखने की कोशिश नहीं करनी चाहिए ..." यह भी आर सहायता में लिया गया दृष्टिकोण है - यह तब तक उपयोगी नहीं है जब तक कि आपको पहले से ही पता नहीं है कि क्या है चल रहा। मैं उम्मीद कर रहा था कि यह कुछ अलग शुरुआत हो सकती है।
गकेरे

लेकिन मैं आपके उत्तर के इस हिस्से का उपयोग कर सकता हूं: "इसे बिल्कुल उसी तरीके से व्याख्या करें: यह व्यक्त करता है कि उस शब्द के बिना मॉडल उस शब्द के साथ मॉडल से काफी अलग है।" मेरे लिए इसका अर्थ है कि Pr (F) मान इनमें से प्रत्येक शब्द का महत्व है, और एक छोटा मूल्य का अर्थ है कि यह चर महत्वपूर्ण है। तो, एक अच्छे मॉडल में "***" वैरिएबल शामिल होने चाहिए, न कि वे जिनमें कोई स्टार नहीं है।
gakera

4
@gakera: तुम मुझे गलत मिला। यदि आपको समझ में नहीं आ रहा है कि आप क्या कर रहे हैं, तो आपको इसका उपयोग करने से पहले इसे सीखने की कोशिश जरूर करनी चाहिए । इसका मतलब है, आंकड़ों पर पढ़ना और पाठ्यक्रम का पालन करना। तो, एक अच्छे मॉडल में वे चर शामिल होने चाहिए जो परिकल्पना में तैयार किए गए हैं। यदि आप "***" चर पर खुद को आधार बनाते हैं, तो आपको पहले मॉडलिंग पर गहन पाठ्यक्रम की आवश्यकता है। आपने स्पष्ट रूप से मेरी पिछली टिप्पणी को नहीं समझा। प्रत्यक्ष संचार के लिए क्षमा करें, लड़के के साथ आता है। व्यक्तिगत कुछ नहीं।
जॉरिस मेव्स

@ वगैर: मैंने कुछ बिंदुओं को स्पष्ट करने के लिए अपना उत्तर अपडेट किया जो महत्वपूर्ण हैं। मुख्य रूप से क्योंकि आपने अपने द्वारा उपयोग किए गए भाग को गलत समझा।
जोरिस मेव्स

मैं यह करके सीख रहा हूं, यह सब होमवर्क है, अगर मुझे यह अधिकार नहीं मिला तो कोई भी मरने वाला नहीं है - मछलियां पहले ही मर चुकी हैं: पी अब तक मदद के लिए धन्यवाद, और चिंता न करें, यह नहीं है इंटरनेट पर मेरा पहली बार :)
gakera

4

संदर्भ के लिए, ये तालिका में शामिल मूल्य हैं: स्वतंत्रता की डिग्री को
Df संदर्भित करता है , " स्वतंत्रता की डिग्री की संख्या एक आंकड़े की अंतिम गणना में मूल्यों की संख्या है जो अलग-अलग होने के लिए स्वतंत्र हैं।"

Sum of Sqस्तंभ को संदर्भित करता है वर्गों का योग (या अधिक सटीक वर्ग विचलन का योग )। संक्षेप में, यह उस राशि का एक माप है जो प्रत्येक व्यक्तिगत मूल्य उन मूल्यों के समग्र अर्थ से विचलित करता है। चौकों
RSS का अवशिष्ट योग है । ये इस बात का एक पैमाना है कि आश्रित (या आउटपुट) चर का अनुमानित मूल्य, सेट में प्रत्येक डेटा बिंदु (या अधिक बोलचाल में: डेटा तालिका में प्रत्येक "लाइन") के लिए सही मान से भिन्न होता है।

AICहै Akaike जानकारी कसौटी जो आम तौर पर संक्षेप में माना जाता है "बहुत जटिल व्याख्या करने के लिए" लेकिन है, एक अनुमान के अनुसार सांख्यिकीय मॉडल के फिट की अच्छाई का एक उपाय। यदि आपको और विवरण की आवश्यकता है, तो आपको उन शब्दों के साथ मृत पेड़ों की ओर मुड़ना होगा (यानी, किताबें)। या विकिपीडिया और वहाँ के संसाधन।

इसका F valueउपयोग प्रदर्शन करने के लिए किया जाता है जिसे एफ-परीक्षण कहा जाता है और इसमें से Pr(F)मान लिया जाता है , जो बताता है कि एफ मान क्या है (या संभावित = पीआर)। एक पीआर (एफ) मूल्य शून्य के करीब (द्वारा संकेत दिया गया ***) एक इनपुट चर का संकेत है जो किसी अच्छे मॉडल में शामिल करने के लिए महत्वपूर्ण है, अर्थात, ऐसा मॉडल जो इसे शामिल नहीं करता है, वह "काफी" एक से भिन्न है वैसा करता है।

ये सभी मान drop1कमांड के संदर्भ में हैं, जो आउटपुट तालिका में प्रत्येक पंक्ति के प्रति एक विशिष्ट चर को हटाने के परिणामस्वरूप मॉडल के साथ समग्र मॉडल (सभी इनपुट चर सहित) की तुलना करने के लिए गणना की जाती है।

अब, अगर इसमें सुधार किया जा सकता है, तो कृपया इसे जोड़ने या किसी भी मुद्दे को स्पष्ट करने के लिए स्वतंत्र महसूस करें। मेरा लक्ष्य केवल R कमांड के आउटपुट से एक बेहतर "रिवर्स लुकअप" संदर्भ है और इसका वास्तविक अर्थ प्रदान करना है।


R का उपयोग करके @gakera व्यावहारिक प्रतिगमन और एनोवा रैखिक मॉडल, और चर / मॉडल चयन से संबंधित तरीकों को समझने के लिए एक अच्छा प्रारंभिक बिंदु है। जैसा कि @ जॉरिस द्वारा बताया गया है, स्टेप वाइज रिजेक्शन शायद ही रामबाण है।
chl

हा, लिंक को जोड़ने के लिए धन्यवाद @chl अपने अस्वीकरण को बनाए रखते हुए कि मैं उन्हें पोस्ट क्यों नहीं कर सकता। आपको इस बात से सहमत होना चाहिए कि मैं
चूसता

1
@gakera मुझे लगता है कि आपको प्रति संपादन एक से अधिक लिंक जोड़ने के लिए अधिक प्रतिनिधि की आवश्यकता है - मैं समझ सकता हूं कि प्रश्नोत्तर वेबसाइट पर शुरू करते समय यह बहुत सुखद नहीं है। मैं मान रहा था कि आप अपना आखिरी वाक्य खुद निकाल देंगे। दूसरी ओर, मुझे लगता है कि आपको अपने स्वयं के प्रश्न का उत्तर प्रदान करने के लिए बहुत अधिक उत्थान की उम्मीद नहीं करनी चाहिए, क्योंकि यह एक प्रकार का पुनरावृत्ति है (उपयोगी, हालांकि)।
chl

मैं upvotes के लिए ऐसा नहीं कर रहा हूँ (यह इतना Reddit: P) है - उपयोगी पुनर्कथन वही है जिसके लिए मैं जा रहा हूँ - मुख्यतः अपने लिए लेकिन शायद दूसरों के लिए भी उपयोगी हो।
गकेरा

@ वगैरह मुझे यकीन है कि यह उठाव के लिए नहीं था। जब हम आगे या विरोधाभासी जानकारी नहीं जोड़ते हैं, तो ज्यादातर बार, हम समुदाय विकी (सीडब्ल्यू) के रूप में अपनी प्रतिक्रिया निर्धारित करते हैं। यह दूसरों की प्रतिक्रियाओं को योग या एकत्र करने का एक तटस्थ तरीका है।
chl
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.