सबसे अच्छी फिट की रेखा एक अच्छी फिट की तरह नहीं दिखती है। क्यों?


82

इस एक्सेल ग्राफ पर एक नजर: लेखाचित्र

'कॉमन सेंस' लाइन-ऑफ-बेस्ट-फिट (लगभग लाल रंग में हाथ से संपादित) बिंदुओं के केंद्र के माध्यम से सीधी खड़ी रेखा होगी। हालांकि एक्सेल द्वारा तय की गई रैखिक प्रवृत्ति रेखा विकर्ण काली रेखा है।

  1. एक्सेल ने कुछ ऐसा क्यों उत्पादित किया है (मानव आंख के लिए) गलत प्रतीत होता है?
  2. मैं एक सबसे अच्छी फिट लाइन का उत्पादन कैसे कर सकता हूं जो थोड़ी अधिक सहज (यानी लाल रेखा जैसी चीज) दिखती है?

अद्यतन 1. डेटा और ग्राफ़ के साथ एक एक्सेल स्प्रेडशीट यहां उपलब्ध है: उदाहरण डेटा , पास्टेबिन में सीएसवी । एक्सेल फ़ंक्शन के रूप में टाइप 1 और टाइप 2 रिग्रेशन तकनीक उपलब्ध हैं?

अद्यतन 2. डेटा हवा के साथ बहती थर्मल में एक पैराग्लाइडर पर चढ़ने का प्रतिनिधित्व करता है। अंतिम उद्देश्य यह जांचना है कि हवा की ताकत और दिशा ऊंचाई के साथ कैसे बदलती है। मैं एक इंजीनियर हूं, गणितज्ञ या सांख्यिकीविद् नहीं, इसलिए इन प्रतिक्रियाओं की जानकारी ने मुझे अनुसंधान के लिए बहुत अधिक क्षेत्र दिए हैं।


5
सच कहूं तो, मुझे संदेह है कि यह डीईएस रिग्रेशन बनाम ओएलएस का सवाल है। और वाई में बहुत कम पूर्ण परिवर्तनशीलता को देखते हुए , मुझे लगता है कि यह एक्सेल में एक संख्यात्मक मुद्दा हो सकता है। क्या आप डेटा को शामिल करने के लिए अपने प्रश्न को संपादित कर सकते हैं? एक्सy
Stephan Kolassa

12
यह घटना 19 वीं शताब्दी की प्रमुख सांख्यिकीय खोजों में से एक थी (यदि सभी समय की नहीं)। इसे माध्य की ओर प्रतिगमन कहा जाता है । वास्तव में, यह बहुत ही कारण है कि इस सांख्यिकीय प्रक्रिया को "प्रतिगमन" कहा जाता है!
whuber

3
मुझे यह जोड़ना चाहिए कि फिट होने का मुख्य कारण इतना अलग है कि प्लॉट y- अक्ष में पैमाने को बहुत बढ़ा देता है। इसे चित्रित करने से जहां दोनों पैमाने सीमांत मानक विचलन के लिए आनुपातिक हैं, आप पूरी तरह से अलग निष्कर्ष पर पहुंच सकते हैं जिसके बारे में फिट अधिक "सामान्य ज्ञान" है।
whuber

6
@StephanKolassa - ध्यान दें कि यदि आपने लाल रेखा का उपयोग किया है और x = - 0.714 के लिए पूर्वानुमानित कितनी बड़ी त्रुटि होगी ; लाल रेखा एक सबसे कम वर्ग फिट नहीं हो सकती है। एक्सेल में निश्चित रूप से इसकी समस्याएं हैं, लेकिन मुझे लगता है कि यह उनमें से एक नहीं है। yएक्स=-0.714
जूलमैन

7
यह पहले से ही साइट पर कई बार संबोधित किया गया है (उदाहरण के लिए यहां देखें )। जब आप समझते हैं कि एक प्रतिगमन रेखा क्या है, तो यह देखना आसान है कि यह काली रेखा क्यों है। अपने आप से दो प्रश्न पूछें: 1: x का औसत मान क्या है जब x लगभग 0.712 है? 2. लाल और काली रेखाएं क्या भविष्यवाणी करती हैं कि यह कैसा होना चाहिए? ... [मैंने अब तक के लिए डुप्लिकेट के रूप में बंद करना बंद कर दिया है क्योंकि आपके डेटा के साथ कुछ विशिष्ट मुद्दे हैं जो आपके प्रश्न पर फिर से विचार करने के लायक होंगे]
ग्लेन_ बी

जवाबों:


111

क्या कोई आश्रित चर है?

एक्सेल में ट्रेंड लाइन स्वतंत्र चर "लोन " पर निर्भर चर "लैट" के प्रतिगमन से है । जब आप "सामान्य ज्ञान की रेखा" कहते हैं, तो आप तब प्राप्त कर सकते हैं जब आप आश्रित चर को नामित नहीं करते हैं , और अक्षांश और देशांतर दोनों को समान रूप से मानते हैं। पीसीए लगाकर उत्तरार्द्ध प्राप्त किया जा सकता है । विशेष रूप से, यह इन चर के सहसंयोजक मैट्रिक्स के ईजन वैक्टर में से एक है। आप इसे किसी भी दिए गए कम से कम दूरी को कम करने वाली रेखा के रूप में सोच सकते हैं (, अर्थात आप एक रेखा के लिए लंबवत आकर्षित करते हैं, और प्रत्येक अवलोकन के लिए उन लोगों का योग कम करते हैं।(एक्समैं,yमैं)

यहाँ छवि विवरण दर्ज करें

यहाँ आप इसे R में कैसे कर सकते हैं:

> para <- read.csv("para.csv")
> plot(para)
> 
> # run PCA
> pZ=prcomp(para,rank.=1)
> # look at 1st PC
> pZ$rotation
           PC1
lon 0.09504313
lat 0.99547316
> 
> colMeans(para) # PCA was centered
       lon        lat 
-0.7129371 53.9368720 
> # recover the data from 1st PC
> pc1=t(pZ$rotation %*% t(pZ$x) )
> # center and show
> lines(pc1 + t(t(rep(1,123))) %*% c)

एक्सेल से आपको मिलने वाली ट्रेंड लाइन पीसीए से ईजन वेक्टर के रूप में एक सामान्य ज्ञान है जब आप समझते हैं कि एक्सेल रिग्रेशन में चर समान नहीं हैं। यहाँ आप एक कम से कम कर रहे हैं ऊर्ध्वाधर से दूरी करने के लिए y ( एक्स मैं ) है, जहां y- अक्ष अक्षांश है और x- अक्ष देशांतर है।yमैंy(एक्समैं)

आप चर का समान रूप से इलाज करना चाहते हैं या नहीं, यह उद्देश्य पर निर्भर करता है। यह डेटा की अंतर्निहित गुणवत्ता नहीं है। आपको डेटा का विश्लेषण करने के लिए सही सांख्यिकीय उपकरण चुनना होगा, इस मामले में प्रतिगमन और पीसीए के बीच चयन करना होगा।

एक सवाल का जवाब जो नहीं पूछा गया था

तो, क्यों आपके मामले में एक्सेल में (प्रतिगमन) ट्रेंड लाइन आपके मामले के लिए एक उपयुक्त उपकरण नहीं लगती है? कारण यह है कि ट्रेंड लाइन एक सवाल का जवाब है जो नहीं पूछा गया था। यहाँ पर क्यों।

एलटी=+×एलn

कल्पना कीजिए कि कोई हवा नहीं थी। एक पैराग्लाइडर एक ही सर्कल को बार-बार बना रहा होगा। ट्रेंड लाइन क्या होगी? जाहिर है, यह फ्लैट क्षैतिज रेखा होगी, इसकी ढलान शून्य होगी, फिर भी इसका मतलब यह नहीं है कि हवा क्षैतिज दिशा में बह रही है!

y~एक्स

यहाँ छवि विवरण दर्ज करें

सिमुलेशन के लिए आर कोड:

t=1:123
a=1 #1
b=0 #1/10
y=10*sin(t)+a*t
x=10*cos(t)+b*t

plot(x,y,xlim=c(-60,60))
xp=-60:60
lines(b*t,a*t,col='red')

model=lm(y~x)
lines(xp,xp*model$coefficients[2]+model$coefficients[1])

तो, हवा की दिशा स्पष्ट रूप से ट्रेंड लाइन के साथ बिल्कुल भी संरेखित नहीं है। वे जुड़े हुए हैं, ज़ाहिर है, लेकिन एक नॉनवेज तरीके से। इसलिए, मेरा कथन है कि एक्सेल ट्रेंड लाइन कुछ प्रश्न का उत्तर है, लेकिन वह नहीं जो आपने पूछा था।

PCA क्यों?

जैसा कि आपने उल्लेख किया कि पैराग्लाइडर की गति के कम से कम दो घटक हैं: पैराग्लाइडर द्वारा नियंत्रित हवा और परिपत्र गति के साथ बहाव। जब आप अपने प्लॉट पर डॉट्स कनेक्ट करते हैं तो यह स्पष्ट रूप से देखा जाता है:

यहाँ छवि विवरण दर्ज करें

एक तरफ, परिपत्र गति वास्तव में आपके लिए एक उपद्रव है: आप हवा में रुचि रखते हैं। हालांकि दूसरी ओर, आप हवा की गति का निरीक्षण नहीं करते हैं, आप केवल पैराग्लाइडर का निरीक्षण करते हैं। तो, आपका उद्देश्य अवलोकन करने योग्य पैराग्लाइडर के स्थान पढ़ने से अप्राप्य हवा का अनुमान लगाना है। यह वास्तव में ऐसी स्थिति है जहां कारक विश्लेषण और पीसीए जैसे उपकरण उपयोगी हो सकते हैं।

पीसीए का उद्देश्य कुछ कारकों को अलग करना है जो आउटपुट में सहसंबंधों का विश्लेषण करके कई आउटपुट का निर्धारण करते हैं। यह तब प्रभावी होता है जब आउटपुट कारकों से रैखिक रूप से जुड़ा होता है, जो आपके डेटा में होता है: हवा का बहाव केवल परिपत्र गति के निर्देशांक में जोड़ता है, इसीलिए पीसीए यहां काम कर रहा है।

पीसीए सेटअप

इसलिए, हमने यह स्थापित किया कि पीसीए के पास यहां एक मौका होना चाहिए, लेकिन हम वास्तव में इसे कैसे स्थापित करेंगे? आइए तीसरे चर, समय को जोड़ने के साथ शुरू करें। हम निरंतर नमूना आवृत्ति को मानते हुए, प्रत्येक 123 अवलोकन के लिए 1 से 123 तक समय देने जा रहे हैं। यहां बताया गया है कि 3D प्लॉट डेटा की तरह कैसा दिखता है, इसकी सर्पिल संरचना का पता चलता है:

यहाँ छवि विवरण दर्ज करें

अगला कथानक पैराग्लाइडर के घूर्णन के काल्पनिक केंद्र को भूरे घेरे के रूप में दिखाता है। आप देख सकते हैं कि यह हवा के साथ लैट-लॉन विमान पर कैसे बहती है, जबकि एक नीली बिंदी के साथ दिखाया गया पैराग्लाइडर इसके चारों ओर चक्कर लगा रहा है। समय ऊर्ध्वाधर अक्ष पर है। मैंने रोटेशन के केंद्र को केवल पहले दो सर्कल दिखाते हुए एक पैराग्लाइडर के संबंधित स्थान से जोड़ा।

यहाँ छवि विवरण दर्ज करें

इसी R कोड:

library(plotly)       

 para <- read.csv("C:/Users/akuketay/Downloads/para.csv")
 n=24

   para$t=1:123 # add time parameter

   # run PCA
     pZ3=prcomp(para)
     c3=colMeans(para) # PCA was centered
     # look at PCs in columns
       pZ3$rotation

       # get the imaginary center of rotation 
       pc31=t(pZ3$rotation[,1] %*% t(pZ3$x[,1]) )
     eye = pc31 + t(t(rep(1,123))) %*% c3
     eyedata = data.frame(eye)

     p = plot_ly(x=para[1:n,1],y=para[1:n,2],z=para[1:n,3],mode="lines+markers",type="scatter3d") %>%
       layout(showlegend=FALSE,scene=list(xaxis = list(title = 'lat'),yaxis = list(title = 'lon'),zaxis = list(title = 't'))) %>%
     add_trace(x=eyedata[1:n,1],y=eyedata[1:n,2],z=eyedata[1:n,3],mode="markers",type="scatter3d") 
     for( i in 1:n){
         p = add_trace(p,x=c(eyedata[i,1],para[i,1]),y=c(eyedata[i,2],para[i,2]),z=c(eyedata[i,3],para[i,3]),color="black",mode="lines",type="scatter3d")
       }

subplot(p)

पैराग्लाइडर के रोटेशन के केंद्र का बहाव मुख्य रूप से हवा के कारण होता है, और बहाव के मार्ग और गति को दिशा और हवा की गति के साथ सहसंबद्ध किया जाता है, ब्याज की अप्रतिरोध्य चर। यह इस तरह है कि जब बहाव लैन प्लेन के सामने आता है तो बहाव कैसा दिखता है:

यहाँ छवि विवरण दर्ज करें

पीसीए प्रतिगमन

इसलिए, पहले हमने स्थापित किया था कि नियमित रैखिक प्रतिगमन यहां बहुत अच्छी तरह से काम नहीं करता है। हमने यह भी सोचा कि क्यों: क्योंकि यह अंतर्निहित प्रक्रिया को प्रतिबिंबित नहीं करता है, क्योंकि पैराग्लाइडर की गति अत्यधिक नॉनलाइन है। यह परिपत्र गति और एक रैखिक बहाव का एक संयोजन है। हमने यह भी चर्चा की कि इस स्थिति में कारक विश्लेषण सहायक हो सकता है। यहां इस डेटा को मॉडलिंग करने के लिए एक संभावित दृष्टिकोण की रूपरेखा है: पीसीए प्रतिगमन । लेकिन मुट्ठी मैं तुम्हें पीसीए प्रतिगमन फिटेड वक्र दिखाऊंगा :

यहाँ छवि विवरण दर्ज करें

यह निम्नानुसार प्राप्त किया गया है। पहले सेट किए गए आंकड़ों के अनुसार पीसीए चलाएं जिसमें अतिरिक्त कॉलम t = 1: 123 है। आपको तीन प्रमुख घटक मिलते हैं। पहला वाला बस टी है। दूसरा लोन कॉलम से मेल खाता है, और तीसरा लाट कॉलम से।

पाप(ωटी+φ)ω,φ

बस। फिट किए गए मूल्यों को प्राप्त करने के लिए आप पीसीए रोटेशन मैट्रिक्स के पूर्वानुमान को प्लग करके डेटा को ठीक किए गए पूर्वानुमानित प्रमुख घटकों में बदल देते हैं। ऊपर मेरा आर कोड प्रक्रिया के कुछ हिस्सों को दिखाता है, और बाकी आप आसानी से समझ सकते हैं।

निष्कर्ष

यह देखना दिलचस्प है कि भौतिक घटनाओं के लिए पीसीए और अन्य सरल उपकरण कितने शक्तिशाली हैं, जहां अंतर्निहित प्रक्रियाएं स्थिर हैं, और इनपुट रैखिक (या रैखिक) संबंधों के माध्यम से आउटपुट में अनुवाद करते हैं। इसलिए हमारे मामले में सर्कुलर मोशन बहुत ही नॉनलाइन है, लेकिन हमने टाइम टी पैरामीटर पर साइन / कोसाइन फंक्शन्स का उपयोग करके इसे आसानी से रैखिक बना दिया है। मेरे प्लॉट आर कोड की कुछ ही लाइनों के साथ उत्पन्न हुए थे जैसा कि आपने देखा।

प्रतिगमन मॉडल को अंतर्निहित प्रक्रिया को प्रतिबिंबित करना चाहिए, तभी आप उम्मीद कर सकते हैं कि इसके पैरामीटर सार्थक हैं। यदि यह हवा में बहता हुआ पैराग्लाइडर है, तो मूल प्रश्न की तरह एक सरल तितर बितर साजिश प्रक्रिया की समय संरचना को छिपाएगा।

साथ ही एक्सेल रिग्रेशन एक क्रॉस सेक्शनल एनालिसिस था, जिसके लिए लीनियर रिग्रेशन सबसे अच्छा काम करता है, जबकि आपका डेटा एक टाइम सीरीज़ प्रोसेस है, जहाँ ऑब्ज़र्वेशन समय में आर्डर किया जाता है। समय श्रृंखला विश्लेषण यहां लागू किया जाना चाहिए, और यह पीसीए प्रतिगमन में किया गया था।

एक समारोह में नोट्स

y=(एक्स)एक्सyएक्सyyएक्सएलटी=(एलn)


11
 पाप ωटी+ क्योंकि ωटी

11
आप उन्हें समान रूप से व्यवहार करना चाहते हैं या नहीं, यह उद्देश्य पर निर्भर करता है। यह डेटा की अंतर्निहित गुणवत्ता नहीं है। - महान बिंदु और +1।
रिचर्ड हार्डी

@NickCox, यह सही है, यह कम काम भी हो गया होता
Aksakal

यह इंगित करने के लायक हो सकता है कि पीसीए उस स्थिति के लिए प्रमुख अक्ष प्रतिगमन का सामान्यीकरण है जहां आपके पास> 2 चर हैं। लेकिन चूंकि इस मामले में केवल 2 चर हैं, तकनीक का मानक नाम प्रमुख अक्ष प्रतिगमन होगा (जिसे कभी-कभी ऑर्थोगोनल प्रतिगमन या टाइप II प्रतिगमन भी कहा जाता है)।
टॉम वेन्सलेर्स

61

इसका उत्तर शायद यह है कि आप मानसिक रूप से प्रतिगमन रेखा की दूरी को कैसे समझ रहे हैं। मानक (प्रकार 1) प्रतिगमन चुकता त्रुटि को कम करता है, जहां पंक्ति के लिए ऊर्ध्वाधर दूरी के आधार पर त्रुटि की गणना की जाती है

टाइप 2 रिग्रेशन सर्वोत्तम लाइन के आपके निर्णय के अनुरूप हो सकता है। इसमें, चुकता त्रुटि न्यूनतम लाइन के लिए लंबवत दूरी है । इस अंतर के कई परिणाम हैं। एक महत्वपूर्ण यह है कि यदि आप अपने प्लॉट में X- और Y- कुल्हाड़ियों को स्वैप करते हैं और लाइन को रिफिट करते हैं, तो आपको टाइप 1 रिग्रेशन के लिए चर के बीच एक अलग संबंध मिलेगा। टाइप 2 रिग्रेशन के लिए, संबंध समान रहता है।

मेरी धारणा यह है कि टाइप 1 बनाम टाइप 2 रिग्रेशन का उपयोग करने के बारे में उचित मात्रा में बहस चल रही है, और इसलिए मैं यह तय करने से पहले मतभेदों के बारे में सावधानीपूर्वक पढ़ने का सुझाव देता हूं जिसे लागू करना है। प्रकार 1 प्रतिगमन अक्सर उन मामलों में अनुशंसित होता है जहां एक अक्ष को या तो प्रयोगात्मक रूप से नियंत्रित किया जाता है, या कम से कम दूसरे की तुलना में कम त्रुटि के साथ मापा जाता है। यदि ये स्थितियां पूरी नहीं हुई हैं, तो टाइप 1 प्रतिगमन 0 की ओर ढलान पूर्वाग्रह करेगा और इसलिए टाइप 2 प्रतिगमन की सिफारिश की जाती है। हालांकि, दोनों कुल्हाड़ियों में पर्याप्त शोर के साथ, टाइप 2 प्रतिगमन जाहिरा तौर पर उन्हें 1. पक्षपात एट अल की ओर पूर्वाग्रह करता है (2006) और स्मिथ (2009) बहस को समझने के लिए अच्छे स्रोत हैं।

यह भी ध्यान दें कि टाइप 2 रिग्रेशन (मेजर एक्सिस, रिड्यूस्ड मेजर एक्सिस, और स्टैंडर्ड मेजर एक्सिस रिग्रेशन) की व्यापक श्रेणी के भीतर कई अलग-अलग तरीके हैं, और विशिष्ट तरीकों के बारे में शब्दावली असंगत है।

वार्टन, डि, आईजे राइट, डीएस फाल्स्टर, और एम। वेस्टोबी। 2006. एलीवेट्री के लिए बिवरिएट लाइन-फिटिंग विधियाँ। बॉय। Rev. 81: 259-291। डोई: 10.1017 / S1464793106007007

स्मिथ, आरजे 2009. लाइन-फिटिंग के लिए कम प्रमुख अक्ष के उपयोग और दुरुपयोग पर। Am। जे। भौतिकी। Anthropol। 140: 476-486। डोई: 10.1002 / ajpa.21090


संपादित करें :

@amoeba बताती है कि जिसे मैं टाइप 2 रिग्रेशन कह रहा हूं उसे ऑर्थोगोनल रिग्रेशन भी कहा जाता है; यह अधिक उपयुक्त शब्द हो सकता है। जैसा कि मैंने ऊपर कहा, इस क्षेत्र में शब्दावली असंगत है, जो अतिरिक्त देखभाल का वारंट करती है।


19
टाइप 1 या टाइप 2 का उपयोग करने के बारे में बहस? जब आप जानते हैं कि आपका लक्ष्य (उद्देश्य समारोह या हानि समारोह) क्या है, इस बारे में बहस करने के लिए कुछ भी नहीं है। और यदि आप ठीक नहीं हैं, तो आपको आगे बढ़ने से पहले स्पष्ट करना चाहिए।
रिचर्ड हार्डी

7
यदि दोनों कुल्हाड़ी विभिन्न इकाइयों का उपयोग करते हैं तो टाइप 2 भी निरर्थक परिणाम उत्पन्न करता है।
जॉन ड्वोरक

4
आप "टाइप 1" और "टाइप 2" का उपयोग कर रहे हैं जैसे कि ये मानक शब्द थे। क्या वो? मैंने कभी किसी को सामान्य प्रतिगमन और ऑर्थोगोनल रिग्रेशन "टाइप 1" और "टाइप 2" कहते हुए सिर नहीं उठाया है।
अमीबा

2
@ रीचर्डहार्डी, निश्चित रूप से किसी के विशिष्ट लक्ष्य को स्पष्ट करना सबसे अच्छा है। लेकिन जैसा कि मैंने उत्तर में कहा था, मेरी धारणा यह है कि मामलों के एक सबसेट में उनके उपयोग के बारे में एक बहस चल रही है - और वे कागजात जो मैं उद्धृत करता हूं (साथ ही साथ समीक्षकों से मुझे जो परस्पर विरोधी सिफारिशें मिलती रहती हैं) इसको सहन करना प्रतीत होता है।
जिनकी बाज़ार

3
@mkt, आपके स्पष्टीकरण के लिए धन्यवाद। वास्तव में, लोगों के बीच कुछ बहस हो सकती है जो यह सुनिश्चित नहीं कर रहे हैं कि वे क्या हैं। वहां, बहस का फोकस दोनों में से कौन सा अपने विषय-वस्तु के लक्ष्य के लिए अधिक प्रासंगिक है। जो मैं तनाव करना चाहता था वह यह है कि आपके लक्ष्य को अच्छी तरह से परिभाषित करने के बाद कोई बहस नहीं होती है, अर्थात विषय-वस्तु के लक्ष्य का सांख्यिकीय भाषा में अनुवाद किया जाता है (जो कि अगर सांख्यिकीय विधियों को लागू करने के लिए अपरिहार्य है)। इसलिए मुझे लगता है कि हम सहमत हैं, हम तर्क के विभिन्न हिस्सों पर जोर दे रहे हैं।
रिचर्ड हार्डी

31

एक्सेल जिस सवाल का जवाब देने की कोशिश करता है, वह यह है: "यह मानकर कि y x पर निर्भर है, कौन सी लाइन y को सर्वश्रेष्ठ रूप से बताती है"। इसका उत्तर यह है कि y में भारी भिन्नता के कारण, कोई भी रेखा विशेष रूप से अच्छी नहीं हो सकती है, और जो एक्सेल प्रदर्शित करता है वह सबसे अच्छा है जो आप कर सकते हैं।

यदि आप अपनी प्रस्तावित लाल रेखा को लेते हैं, और इसे x = -0.714 और x = -0.712 तक जारी रखते हैं, तो आप पाएंगे कि इसके मान रास्ते हैं, चार्ट से दूर हैं, और यह संबंधित y मानों से बहुत बड़ी दूरी पर है ।

एक्सेल उत्तर "प्रश्न कौन सी रेखा डेटा बिंदुओं के सबसे करीब है" नहीं है, लेकिन "कौन सी रेखा x मानों से y मानों की भविष्यवाणी करने के लिए सबसे अच्छा है", और यह इसे सही ढंग से करता है।


4
ठीक ठीक। अंतर्निहित धारणा है "x दिया जाता है, y को मापा जाता है / भविष्यवाणी की जाती है"।
फ्लोरिस

12

मैं अन्य उत्तरों में कुछ भी जोड़ना नहीं चाहता, लेकिन मैं यह कहना चाहता हूं कि आप बुरी शब्दावली से भटक गए हैं, विशेष रूप से शब्द "सर्वश्रेष्ठ फिट की रेखा" जिसका उपयोग कुछ सांख्यिकी पाठ्यक्रमों में किया जाता है।

सहज रूप से, "सर्वश्रेष्ठ फिट की एक पंक्ति" आपकी लाल रेखा की तरह दिखाई देगी। लेकिन एक्सेल द्वारा निर्मित लाइन "सर्वश्रेष्ठ फिट की रेखा" नहीं है; यह भी होने की कोशिश नहीं कर रहा है। यह एक पंक्ति है जो प्रश्न का उत्तर देती है: x का मान दिया, y के लिए मेरी सबसे अच्छी संभावित भविष्यवाणी क्या है? या वैकल्पिक रूप से, प्रत्येक x मान के लिए औसत y मान क्या है?

एक्स और वाई के बीच यहां विषमता को नोटिस करें; "लाइन ऑफ बेस्ट फिट" नाम का उपयोग करने से यह अस्पष्ट हो जाता है। तो क्या एक्सेल "ट्रेंडलाइन" का उपयोग करता है।

यह निम्नलिखित लिंक पर बहुत अच्छी तरह से समझाया गया है:

https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm

आप कुछ और पसंद कर सकते हैं जैसे कि ऊपर दिए गए उत्तर में "टाइप 2", या बर्कले सांख्यिकी पाठ्यक्रम पृष्ठ पर "एसडी लाइन"।


11

ऑप्टिकल मुद्दे का एक हिस्सा विभिन्न पैमानों से आता है - यदि आप दोनों अक्ष पर समान पैमाने का उपयोग करते हैं, तो यह पहले से ही अलग दिखाई देगा।

दूसरे शब्दों में, आप एक धुरी के पैमाने को फैलाकर ऐसी 'सबसे अच्छी फिट' रेखाओं को 'अनइंस्टिट्यूट' बना सकते हैं।


1
मैं मानता हूं कि यह उत्तर है - मानों की एक्स रेंज लगभग 0.02 चौड़ी है, लेकिन वाई रेंज केवल 0.005 के बारे में है - वास्तव में चार्ट लगभग 4 गुना चौड़ा होना चाहिए क्योंकि यह उच्च है, और यह स्पष्ट होगा कि सबसे अच्छा फिट क्षैतिज होगा। प्रश्न में घटना अलग-अलग पैमानों के कारण विशुद्ध रूप से दृश्य है।
रेमकोगर्लिच

3
@RemcoGerlich हम सहमत हो सकते हैं कि जैसा कि प्रश्न में दिखाया गया है कि ग्राफ का पहलू अनुपात सहायक नहीं है। लेकिन सुझाव है कि आप एक ग्राफ 4 गुना अधिक के रूप में व्यापक की जरूरत है क्योंकि संख्यात्मक रूप से रेंज उस अनुपात में हैं और एक निश्चित रूप से तथ्य की बात नहीं है। यदि 1000 के एक कारक द्वारा अक्ष पर इकाइयों को बदल दिया गया, तो क्या आप 4000 या 0.004 के पहलू अनुपात का सुझाव देंगे? 4x का अनुपात विभिन्न इकाइयों का एक साइड-इफ़ेक्ट होने की संभावना है।
निक कॉक्स

4
अन्य उत्तर सही उत्तर देते हैं। यह एक दुख की बात नहीं है। यदि हम मूल्यों को पुनर्विक्रय करते हैं, जैसे कि हमें एक ही दृश्य छवि मिलती है, लेकिन समान कुल्हाड़ियों के साथ, यह अभी भी "टाइप 1" बनाम "टाइप 2" फिटिंग की समस्या है।
हंस जानसेन

1
वह "सामान्य ज्ञान" के बारे में बात करता है सबसे अच्छा फिट, क्या सही है "मानव आंख के लिए"। और फिर कुल्हाड़ियों की स्केलिंग मुख्य चीज है जो प्रासंगिक है।
रेमकोगर्लिच

उसके पास एक बिंदु है, कभी-कभी जो सहज दिखता है वह स्केलिंग जैसी मूर्खतापूर्ण चीजों से प्रभावित होता है, हालांकि यह ऐसा मामला नहीं है। यहां हमारे पास एक वास्तविक बेमेल है कि एक्सेल क्या करता है और ओपी क्या चाहता है
अक्षल

4

कुछ व्यक्तियों ने नोट किया है कि समस्या दृश्य है - नियोजित ग्राफिकल स्केलिंग भ्रामक जानकारी पैदा करती है। अधिक विशेष रूप से, "लोन" की स्केलिंग ऐसी है कि यह एक तंग सर्पिल प्रतीत होता है जो सुझाव देता है कि प्रतिगमन रेखा एक खराब फिट प्रदान करती है (एक आकलन जिससे मैं सहमत हूं, आपके द्वारा ड्रा की गई लाल रेखा डेटा को कम चुकता त्रुटियां प्रदान करेगी। प्रस्तुत तरीके से आकार दिया गया था)।

नीचे मैं एक्सेल में बनाया गया एक स्कैल्पलॉट प्रदान करता हूं जिसमें "लोन" के लिए स्केलिंग होती है ताकि यह आपके स्कैटरप्लॉट में तंग सर्पिल का उत्पादन न करे। इस परिवर्तन के साथ, प्रतिगमन रेखा अब एक बेहतर दृश्य फिट प्रदान करती है और मुझे लगता है कि यह प्रदर्शित करने में मदद करता है कि मूल स्कैल्पलॉट में स्केलिंग ने कैसे फिट के भ्रामक मूल्यांकन प्रदान किया।

मुझे लगता है कि प्रतिगमन यहाँ अच्छा काम करता है। मुझे नहीं लगता कि अधिक जटिल विश्लेषण की आवश्यकता है।

यहाँ छवि विवरण दर्ज करें

किसी भी दिलचस्पी के लिए, मैंने मैपिंग टूल का उपयोग करके डेटा को प्लॉट किया है और डेटा को फिट किए गए रिग्रेशन को दिखाता है। लाल डॉट्स रिकॉर्ड किए गए डेटा हैं और हरे रंग की प्रतिगमन रेखा है।

यहाँ छवि विवरण दर्ज करें

और यहाँ प्रतिगमन रेखा के साथ एक स्कैटर प्लॉट में समान डेटा हैं; यहाँ लैट को आश्रित माना जाता है और भौगोलिक प्रोफाइल के साथ फिट होने के लिए लेट स्कोर को उलट दिया जाता है।

यहाँ छवि विवरण दर्ज करें


1
प्रतिगमन एक हवा के बहाव की दिशा नहीं दिखाता है
अक्षल

हम केवल लेट और लोन जानते हैं, और डेटा के लिए यह एक रिश्तेदार को दूसरे के परिवर्तन को दिखाता है।
ब्रायन

तो यह ट्रेंड लाइन क्या दर्शाता है?
अक्कल

डेटा फ़ाइल में पहला बिंदु मानते हुए शुरुआती स्थान है, ऐसा प्रतीत होता है कि आगे की यात्रा की गई मार्ग में थोड़ी उत्तरी वृद्धि हुई है। डेटा हवा की ताकत या ऊंचाई के बारे में कोई जानकारी प्रदान नहीं करता है, लेकिन उत्तर द्वारा पूर्व - दिशा प्रदान करता है।
ब्रायन

सुधार, मैपिंग सॉफ़्टवेयर जिसका मैंने अनुरोध किया था, lat-lon कूच)।
ब्रायन

1

आपका भ्रमित साधारण न्यूनतम वर्ग (OLS) प्रतिगमन (जो कि अनुमानित मानों के बारे में चुकता विचलन की राशि को कम करता है, (मनाया-अनुमानित) ^ 2) और प्रमुख अक्ष प्रतिगमन (जो प्रत्येक बिंदु के बीच लंबवत दूरी के वर्गों के योग को कम करता है) प्रतिगमन रेखा, कभी-कभी इसे प्रकार II प्रतिगमन, ऑर्थोगोनल प्रतिगमन या मानकीकृत प्रमुख घटक प्रतिगमन) के रूप में संदर्भित किया जाता है।

यदि आप R में केवल दो दृष्टिकोणों की तुलना करना चाहते हैं, तो बस देखें

data=read.csv("https://pastebin.com/raw/4TsstQYm")
require(lmodel2)
fit = lmodel2(lat ~ lon, data=data)
plot(fit,method="OLS") # ordinary least squares regression

यहाँ छवि विवरण दर्ज करें

plot(fit,method="MA") # major axis regression

यहाँ छवि विवरण दर्ज करें

आप जो सबसे अधिक सहज (आपकी लाल रेखा) पाते हैं वह सिर्फ प्रमुख अक्ष प्रतिगमन है, जो नेत्रहीन बोलना वास्तव में वह है जो सबसे अधिक तार्किक दिखता है, क्योंकि यह आपके बिंदुओं के लंबवत दूरी को कम करता है। ओएलएस प्रतिगमन केवल आपके बिंदुओं के लंबवत दूरी को कम करने के लिए दिखाई देगा यदि x और y चर समान माप पैमाने पर और / या त्रुटि की समान मात्रा है (आप इसे केवल पाइथागोरस प्रमेय के आधार पर देख सकते हैं)। आपके मामले में, आपके y चर ने इस पर अधिक प्रसार किया है, इसलिए अंतर ...


0

पीसीए उत्तर सबसे अच्छा है क्योंकि मुझे लगता है कि आपको वही करना चाहिए जो आपकी समस्या का विवरण देता है, हालांकि पीसीए उत्तर पीसीए और प्रतिगमन को भ्रमित कर सकता है जो पूरी तरह से अलग चीजें हैं। यदि आप इस विशेष डेटा सेट को एक्सट्रपलेशन करना चाहते हैं, तो आपको प्रतिगमन करने की आवश्यकता है, और संभवत: डेमिंग प्रतिगमन करना चाहते हैं (जो मुझे लगता है कि कभी-कभी टाइप II द्वारा जाता है, इस विवरण के बारे में कभी नहीं सुना)। हालाँकि, यदि आप यह पता लगाना चाहते हैं कि कौन से दिशाएँ सबसे महत्वपूर्ण हैं (eigenvectors) और डेटा सेट (eigenvalues) पर उनके सापेक्ष प्रभाव का एक मीट्रिक है तो PCA सही दृष्टिकोण है।


4
यह ज्यादातर अन्य उत्तरों पर टिप्पणियों की एक श्रृंखला है। प्रत्येक पर सीधे टिप्पणी करना बेहतर होगा। मुझे नहीं लगता कि @ अक्षल द्वारा दिया गया जवाब पीसीए और प्रतिगमन को भ्रमित करता है।
निक कॉक्स

मैं सीधे टिप्पणी करना चाहता था, लेकिन बहुत सम्मानित नहीं था। मुझे नहीं लगता कि अक्सकाल प्रतिगमन को भ्रमित कर रहा है, लेकिन यह ओपी को इंगित करने के लायक है कि पीसीए और प्रतिगमन पूरी तरह से अलग हैं।
एंड्रयू एच
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.