सप्ताह के दिनों में उदाहरण के लिए प्रतिगमन


11

मुझे सही दिशा में आगे बढ़ने के लिए थोड़ी मदद की जरूरत है। यह एक लंबा समय है जब मैंने किसी भी आँकड़े का अध्ययन किया है और शब्दजाल बदल गया है।

कल्पना कीजिए कि मेरे पास कार से संबंधित डेटा का एक सेट है जैसे कि

  • शहर ए से शहर बी तक की यात्रा का समय
  • शहर A से शहर B की दूरी
  • इंजन का आकार
  • चालक के जूते का आकार
  • कार का मॉडल और बनाएं
  • सप्ताह के दिन

मैं यात्रा के समय की भविष्यवाणी करना चाहता हूं।

मुझे लगता है कि समय और दूरी के बीच एक मजबूत सहसंबंध है और शायद इंजन आकार के लिए एक कमजोर (और जूता आकार के लिए कोई नहीं)। संभवतः कई प्रतिगमन विश्लेषण / ANOVA उपयोग करने का उपकरण है। लेकिन मैं सप्ताह के दिन को कैसे शामिल करूं, क्योंकि रविवार / 1, सोमवार = 2 इत्यादि को कोड करना बहुत गलत लगता है?

उदाहरण के लिए, एक्सेल के प्रतिगमन उपकरण का उपयोग करने के बाद, मैं परिणामों की व्याख्या कैसे करूं? संभवतः यदि R 1 के करीब है तो यह अच्छा है (हालाँकि यदि कई डेटा आइटम हैं तो ऐसा लगता है कि यह छोटा हो सकता है लेकिन अभी भी महत्वपूर्ण है)। लेकिन कुछ स्रोत आर-स्क्वेर्ड को संदर्भित करते हैं जो एसडी लगता है, इसलिए शून्य के करीब एक मूल्य अच्छा है। यह टी स्टेट, पी-वैल्यू, एफ और सिग्नेचर एफ को भी दिखाता है, जो कुछ भी वे हो सकते हैं। क्या कोई अच्छा संदर्भ स्रोत सुझा सकता है?


2
रिकॉर्ड के लिए, इन सवालों (प्रतिगमन उत्पादन की व्याख्या के बारे में) को यहां एक और सूत्र में पूछा गया है , लेकिन प्रश्न इतनी बुरी तरह से तैयार किया गया था कि यह कोई अच्छा जवाब नहीं जुटा पाया। यह एक मौलिक प्रश्न है जो एक "विहित" उत्तर का हकदार है जो प्राथमिक रूप से पूरी तरह से स्पष्ट, स्पष्ट और अच्छी तरह से समझाया गया है।
whuber

जवाबों:


26

क्या आप की जरूरत है प्रतिगमन पद्धति की एक ठोस समीक्षा है। हालाँकि, ये प्रश्न पर्याप्त रूप से बुनियादी हैं (गलत तरीके से मत लें) कि बुनियादी आँकड़ों का एक अच्छा अवलोकन भी आपको लाभान्वित करेगा। हॉवेल ने एक बहुत लोकप्रिय पाठ्यपुस्तक लिखी है जो घने गणित की आवश्यकता के बिना एक व्यापक वैचारिक आधार प्रदान करती है। इसे पढ़ने के लिए आपका समय अच्छा हो सकता है। यहां उस सभी सामग्री को कवर करना संभव नहीं है। हालाँकि, मैं आपको अपने कुछ विशिष्ट प्रश्नों पर आरंभ करने का प्रयास कर सकता हूं।

पहले, सप्ताह के दिनों को एक कोडिंग योजना के माध्यम से शामिल किया जाता है। सबसे लोकप्रिय 'संदर्भ श्रेणी' कोडिंग है (आमतौर पर डमी कोडिंग कहा जाता है)। आइए कल्पना करें कि आपका डेटा मैट्रिक्स में दर्शाया गया है, आपके मामलों में पंक्तियों में और स्तंभों में आपके चर में। इस योजना में, यदि आपके पास 7 श्रेणीबद्ध चर (जैसे, सप्ताह के दिनों के लिए) हैं, तो आप 6 नए कॉलम जोड़ेंगे। आप संदर्भ श्रेणी के रूप में एक दिन चुनेंगे, आम तौर पर वह जिसे डिफ़ॉल्ट के रूप में माना जाता है। अक्सर यह सिद्धांत, संदर्भ या शोध प्रश्न द्वारा सूचित किया जाता है। मुझे नहीं पता कि सप्ताह के दिनों के लिए कौन सा सबसे अच्छा होगा, लेकिन यह भी वास्तव में बहुत मायने नहीं रखता है, आप बस किसी भी पुराने को चुन सकते हैं। एक बार जब आपके पास संदर्भ श्रेणी होती है, तो आप दूसरों को अपने नए 6 चर के लिए असाइन कर सकते हैं, फिर आप बस यह संकेत देते हैं कि क्या वह चर प्रत्येक मामले के लिए प्राप्त करता है। उदाहरण के लिए, आप संदर्भ श्रेणी के रूप में रविवार को चुनें, आपके नए कॉलम / चर सोमवार-शनिवार होंगे। सोमवार को होने वाले प्रत्येक अवलोकन को एक के साथ इंगित किया जाएगा१ १ 1सोमवार कॉलम में , और कहीं और । मंगलवार और इतने पर टिप्पणियों के साथ भी ऐसा ही होगा। ध्यान दें कि किसी भी मामले में से 2 या अधिक कॉलम नहीं मिल सकते हैं, और यह कि रविवार (संदर्भ श्रेणी) में हुई टिप्पणियों का आपके सभी नए चर में होगा । कई अन्य कोडिंग योजनाएं संभव हैं, और लिंक उन्हें पेश करने का अच्छा काम करता है। आप यह देखने के लिए परीक्षण कर सकते हैं कि सप्ताह के दिन नेस्टेड मॉडल के परीक्षण से कोई फर्क पड़ता है या नहीं, सभी नए 6 वेरिएबल गिराए गए सभी 6 के साथ पूर्ण मॉडल। ध्यान दें कि आपको उन परीक्षणों का उपयोग नहीं करना चाहिए जो मानक आउटपुट के साथ रिपोर्ट किए गए हैं, क्योंकि ये स्वतंत्र नहीं हैं और इसमें कई तुलनात्मक समस्याएं हैं। 010

यह एक लंबा समय रहा है जब मैंने देखा है कि एक्सेल कैसे आँकड़े करता है, और मुझे यह बहुत स्पष्ट रूप से याद नहीं है, इसलिए कोई और आपको वहां मदद करने में सक्षम हो सकता है। इस पृष्ठ से लगता है कि एक्सेल में प्रतिगमन की बारीकियों के बारे में कुछ जानकारी है। मैं आपको आमतौर पर प्रतिगमन उत्पादन में बताए गए आंकड़ों के बारे में थोड़ा और बता सकता हूं:

  • एक -score जो के करीब है, यह इंगित करता है कि मूल्य प्रतिक्रिया चर भविष्यवाणियों चर के मूल्यों द्वारा लगभग पूरी तरह से निर्धारित किया जा सकता है। जाहिर है यह एक बड़ी होगी प्रभाव है, लेकिन यह नहीं है एक-प्रायोरी स्पष्ट है कि इस 'अच्छा' है - कि एक बिल्कुल अलग और दार्शनिक कांटेदार मुद्दा है। r1
  • rrrrr
  • rr×r10r1R21rR2) कई प्रतिगमन में अत्यधिक पक्षपाती है। यही है, आप अपने मॉडल में जितने अधिक भविष्यवक्ता जोड़ते हैं, ये आंकड़े उतने ही अधिक होंगे, चाहे कोई संबंध हो या न हो। इस प्रकार आपको उनकी व्याख्या करने के बारे में सतर्क रहना चाहिए।
  • tF
  • p
  • tFpF1F
  • FF

एक अंतिम बिंदु जो इस बात पर जोर देने के लायक है कि यह प्रक्रिया अपने संदर्भ से तलाक नहीं ले सकती है। डेटा का विश्लेषण करने का एक अच्छा काम करने के लिए, आपको अपनी पृष्ठभूमि का ज्ञान और शोध प्रश्न को ध्यान में रखना चाहिए। संदर्भ श्रेणी के चुनाव के संबंध में मैंने इसे ऊपर बताया। उदाहरण के लिए, आप ध्यान दें कि जूते का आकार प्रासंगिक नहीं होना चाहिए, लेकिन फ्लिंटस्टोन्स के लिए यह संभवतः था! मैं सिर्फ इस तथ्य को शामिल करना चाहता हूं, क्योंकि यह अक्सर भुला दिया गया लगता है।


5
(+1) एक्सेल वास्तव में कई प्रतिगमन कर सकता है और एक कमांड है जो एक मानक सारांश तालिका बनाने में सक्षम है। कम्प्यूटेशनल वितरण मूल्यों के साथ (बहुत) मैला होने की अपनी ऐतिहासिक प्रवृत्ति को देखते हुए, क्षमता को सैमुअल जॉनसन के कुत्ते की तरह देखा जाना चाहिए : "... एक कुत्ते के अपने पैरों पर चलना। यह अच्छी तरह से नहीं किया गया है; लेकिन आप इसे खोजने के लिए आश्चर्यचकित हैं। यह बिल्कुल हो गया। ”
whuber

3

आप बहुत सारे प्रश्नों को समाप्त करते हैं जिनके लिए "शिक्षण" प्रतिगमन की आवश्यकता होती है। मुझे कहना है कि उच्च आर ^ 2 बेहतर है, लेकिन कैवियट हैं। R ^ 2 हमेशा ऊपर जाता है क्योंकि आप चर जोड़ते हैं ताकि आप इसे कृत्रिम रूप से फुला सकें। महत्व परीक्षणों को देखें, अवशिष्ट निदानों को देखें, आदि सप्ताह के दिन के संबंध में, सोमवार = 1, मंगलवार = 2, आदि जाने का रास्ता नहीं होगा। आप क्या चाहते हैं मौसमी संकेतक चर: 0/1 यदि सोमवार, 0/1 यदि मंगलवार, आदि।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.