यदि प्रतिगमन से पहले व्याख्यात्मक और प्रतिक्रिया चर स्वतंत्र रूप से हल किए जाते हैं तो क्या होता है?


302

मान लीजिए कि हमारे पास अंक के साथ डेटा सेट । हम एक रेखीय प्रतिगमन करना चाहते हैं, लेकिन पहले हम डेटा सेट (X_i, Y_j) बनाते हुए X_i मान और एक दूसरे के स्वतंत्र रूप से Y_i मानों को सॉर्ट करते हैं । क्या नए डेटा सेट पर प्रतिगमन की कोई सार्थक व्याख्या है? क्या इसका कोई नाम है?(Xi,Yi)nवाई आई ( एक्स आई , वाई जे )XiYi(Xi,Yj)

मुझे लगता है कि यह एक मूर्खतापूर्ण सवाल है इसलिए मैं माफी मांगता हूं, मैं औपचारिक रूप से आंकड़ों में प्रशिक्षित नहीं हूं। मेरे दिमाग में यह पूरी तरह से हमारे डेटा को नष्ट कर देता है और प्रतिगमन व्यर्थ है। लेकिन मेरे प्रबंधक का कहना है कि उन्हें "जब भी वह ऐसा करता है तो" बेहतर प्रतिसाद प्राप्त करता है "(यहाँ" बेहतर "का अर्थ अधिक पूर्वानुमान है)। मुझे लगता है कि वह खुद को धोखा दे रही है।

संपादित करें: आपके सभी अच्छे और रोगी उदाहरणों के लिए धन्यवाद। मैंने उन्हें @ RUser4512 और @gung द्वारा उदाहरण दिखाए और वे कट्टर बने रहे। वह चिड़चिड़ा हो रहा है और मैं थका हुआ हूँ। मैं क्रेस्टफेलन महसूस करता हूं। मैं शायद जल्द ही अन्य नौकरियों की तलाश शुरू करूंगा।


120
लेकिन मेरे प्रबंधक का कहना है कि जब वह ऐसा करता है, तो उसे "अधिक समय तक बेहतर मुकदमे" मिलते हैं। हे भगवान ...
जेक वेस्टफॉल

56
वहाँ निश्चित रूप से आप शर्मिंदा महसूस करने के लिए कोई कारण नहीं है !
जेक वेस्टफॉल

36
"विज्ञान वह है जो हम चाहते हैं कि वह हो।" - डॉ। लियो स्पेसमैन
साइकोरैक्स

52
इस विचार का मुझे सामना करना पड़ा एक और के साथ प्रतिस्पर्धा करना है: यदि आपका नमूना छोटा है, तो बस उसी डेटा की कई प्रतियों के साथ इसे थोक करें।
निक कॉक्स

47
आपको अपने बॉस को बताना चाहिए कि आपके पास एक बेहतर विचार है। वास्तविक डेटा का उपयोग करने के बजाय केवल अपना स्वयं का उत्पादन करें क्योंकि यह मॉडल करना आसान होगा।
dsaxton

जवाबों:


147

मुझे यकीन नहीं है कि आपके बॉस को "अधिक पूर्वानुमान" का क्या मतलब है। कई लोग गलत तरीके से मानते हैं कि कम वैल्यू का मतलब एक बेहतर / अधिक पूर्वानुमान मॉडल है। यह जरूरी नहीं है कि सच है (यह एक मामला है)। हालांकि, स्वतंत्र रूप से दोनों चर पहले से छँटाई एक कम की गारंटी देगा -value। दूसरी ओर, हम एक मॉडल की भविष्यवाणिय सटीकता का आकलन कर सकते हैं, इसकी भविष्यवाणियों की तुलना नए डेटा से करते हैं जो उसी प्रक्रिया से उत्पन्न हुए थे। मैं इसे एक साधारण उदाहरण में (नीचे कोडित ) करता हूं । पीppR

options(digits=3)                       # for cleaner output
set.seed(9149)                          # this makes the example exactly reproducible

B1 = .3
N  = 50                                 # 50 data
x  = rnorm(N, mean=0, sd=1)             # standard normal X
y  = 0 + B1*x + rnorm(N, mean=0, sd=1)  # cor(x, y) = .31
sx = sort(x)                            # sorted independently
sy = sort(y)
cor(x,y)    # [1] 0.309
cor(sx,sy)  # [1] 0.993

model.u = lm(y~x)
model.s = lm(sy~sx)
summary(model.u)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.021      0.139   0.151    0.881
# x              0.340      0.151   2.251    0.029  # significant
summary(model.s)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.162     0.0168    9.68 7.37e-13
# sx             1.094     0.0183   59.86 9.31e-47  # wildly significant

u.error = vector(length=N)              # these will hold the output
s.error = vector(length=N)
for(i in 1:N){
  new.x      = rnorm(1, mean=0, sd=1)   # data generated in exactly the same way
  new.y      = 0 + B1*x + rnorm(N, mean=0, sd=1)
  pred.u     = predict(model.u, newdata=data.frame(x=new.x))
  pred.s     = predict(model.s, newdata=data.frame(x=new.x))
  u.error[i] = abs(pred.u-new.y)        # these are the absolute values of
  s.error[i] = abs(pred.s-new.y)        #  the predictive errors
};  rm(i, new.x, new.y, pred.u, pred.s)
u.s = u.error-s.error                   # negative values means the original
                                        # yielded more accurate predictions
mean(u.error)  # [1] 1.1
mean(s.error)  # [1] 1.98
mean(u.s<0)    # [1] 0.68


windows()
  layout(matrix(1:4, nrow=2, byrow=TRUE))
  plot(x, y,   main="Original data")
  abline(model.u, col="blue")
  plot(sx, sy, main="Sorted data")
  abline(model.s, col="red")
  h.u = hist(u.error, breaks=10, plot=FALSE)
  h.s = hist(s.error, breaks=9,  plot=FALSE)
  plot(h.u, xlim=c(0,5), ylim=c(0,11), main="Histogram of prediction errors",
       xlab="Magnitude of prediction error", col=rgb(0,0,1,1/2))
  plot(h.s, col=rgb(1,0,0,1/4), add=TRUE)
  legend("topright", legend=c("original","sorted"), pch=15, 
         col=c(rgb(0,0,1,1/2),rgb(1,0,0,1/4)))
  dotchart(u.s, color=ifelse(u.s<0, "blue", "red"), lcolor="white",
           main="Difference between predictive errors")
  abline(v=0, col="gray")
  legend("topright", legend=c("u better", "s better"), pch=1, col=c("blue","red"))

यहां छवि विवरण दर्ज करें

ऊपरी बाएं प्लॉट मूल डेटा दिखाता है। और बीच कुछ संबंध है (अर्थात; सहसंबंध लगभग ।) ऊपरी दाहिने भूखंड से पता चलता है कि दोनों चर को स्वतंत्र रूप से छाँटने के बाद डेटा कैसा दिखता है। आप आसानी से देख सकते हैं कि सहसंबंध की ताकत में काफी वृद्धि हुई है (यह अब के बारे में है )। हालांकि, निचले भूखंडों में, हम देखते हैं कि मूल (अनसोल्ड) डेटा पर प्रशिक्षित मॉडल के लिए अनुमानित त्रुटियों का वितरण करीब है । मूल डेटा का उपयोग करने वाले मॉडल के लिए औसत निरपेक्ष भविष्यवाणी त्रुटि , जबकि क्रमबद्ध डेटा पर प्रशिक्षित मॉडल के लिए औसत निरपेक्ष त्रुटिy .31 .99 0 1.1 1.98 y 68 %xy.31.9901.11.98-सबसे बड़ा दो बार। इसका मतलब है कि सॉर्ट किए गए डेटा मॉडल की भविष्यवाणियां सही मूल्यों से बहुत आगे हैं। निचले दाएं चतुर्थांश में स्थित प्लॉट एक डॉट प्लॉट है। यह मूल डेटा के साथ और सॉर्ट किए गए डेटा के साथ अनुमानित त्रुटि के बीच के अंतर को प्रदर्शित करता है। यह आपको प्रत्येक नए अवलोकन के लिए दो संगत भविष्यवाणियों की तुलना करने की अनुमति देता है। बाईं ओर ब्लू डॉट्स ऐसे समय होते हैं जब मूल डेटा नए -value के करीब थे , और दाईं ओर लाल डॉट्स ऐसे समय होते हैं जब सॉर्ट किए गए डेटा से बेहतर भविष्यवाणियां होती हैं। समय के मूल डेटा पर प्रशिक्षित मॉडल से अधिक सटीक पूर्वानुमान थे । y68%


जिस डिग्री को छांटने से इन समस्याओं का कारण होगा, वह आपके संबंधों में मौजूद रैखिक संबंध का एक कार्य है। अगर बीच संबंध और थे पहले से ही, छंटाई कोई असर नहीं होगा और इस प्रकार हानिकारक नहीं हो। दूसरी ओर, यदि सहसंबंधy 1.0 - 1.0xy1.01.0छँटाई पूरी तरह से रिश्ते को उल्टा कर देगी, जिससे मॉडल संभव के रूप में गलत हो जाएगा। यदि मूल रूप से डेटा पूरी तरह से असंबंधित थे, तो छंटनी में एक मध्यवर्ती होगा, लेकिन इसके परिणामस्वरूप मॉडल की भविष्यवाणिय सटीकता पर अभी भी काफी बड़ा, निंदनीय प्रभाव है। चूँकि आप उल्लेख करते हैं कि आपका डेटा आमतौर पर सहसंबद्ध है, इसलिए मुझे संदेह है कि इस प्रक्रिया के लिए आंतरिक हानि के खिलाफ कुछ सुरक्षा प्रदान की गई है। बहरहाल, पहले छांटना निश्चित रूप से हानिकारक है। इन संभावनाओं का पता लगाने के लिए, हम उपरोक्त कोड को अलग-अलग मानों के लिए फिर से चला सकते हैं B1(प्रजनन के लिए एक ही बीज का उपयोग करके) और आउटपुट की जांच करें:

  1. B1 = -5:

    cor(x,y)                            # [1] -0.978
    summary(model.u)$coefficients[2,4]  # [1]  1.6e-34  # (i.e., the p-value)
    summary(model.s)$coefficients[2,4]  # [1]  1.82e-42
    mean(u.error)                       # [1]  7.27
    mean(s.error)                       # [1] 15.4
    mean(u.s<0)                         # [1]  0.98
    
  2. B1 = 0:

    cor(x,y)                            # [1] 0.0385
    summary(model.u)$coefficients[2,4]  # [1] 0.791
    summary(model.s)$coefficients[2,4]  # [1] 4.42e-36
    mean(u.error)                       # [1] 0.908
    mean(s.error)                       # [1] 2.12
    mean(u.s<0)                         # [1] 0.82
    
  3. B1 = 5:

    cor(x,y)                            # [1] 0.979
    summary(model.u)$coefficients[2,4]  # [1] 7.62e-35
    summary(model.s)$coefficients[2,4]  # [1] 3e-49
    mean(u.error)                       # [1] 7.55
    mean(s.error)                       # [1] 6.33
    mean(u.s<0)                         # [1] 0.44
    

12
आपका उत्तर बहुत अच्छा बिंदु बनाता है, लेकिन शायद उतना स्पष्ट रूप से नहीं जितना कि यह और चाहिए। यह जरूरी नहीं है कि एक लेपर्सन (जैसे, ओपी के प्रबंधक) अंत में उन सभी भूखंडों (आर कोड को ध्यान में न रखें) को वास्तव में दिखाते हैं और दिखाते हैं। IMO, आपका उत्तर वास्तव में एक व्याख्यात्मक अनुच्छेद या दो का उपयोग कर सकता है।
इल्मरी करोनें 19

3
आपकी टिप्पणी के लिए धन्यवाद, @IlmariKaronen। क्या आप चीजों को जोड़ने का सुझाव दे सकते हैं? मैंने कोड को यथासंभव आत्म-व्याख्यात्मक बनाने की कोशिश की, और इसे बड़े पैमाने पर टिप्पणी की। लेकिन मैं अब इन चीजों को किसी ऐसे व्यक्ति की आंखों से नहीं देख पाऊंगा जो परिचित डब्ल्यू / इन विषयों में नहीं है। तल पर भूखंडों का वर्णन करने के लिए मैं कुछ पाठ जोड़ूंगा। यदि आप कुछ और सोच सकते हैं, तो कृपया मुझे बताएं।
गंग

13
+1 यह अभी भी एकमात्र उत्तर है जो प्रस्तावित स्थिति को संबोधित करता है: जब दो चर पहले से ही कुछ सकारात्मक संघ का प्रदर्शन करते हैं, फिर भी यह स्वतंत्र रूप से क्रमबद्ध मूल्यों को फिर से प्राप्त करने के लिए एक त्रुटि है। अन्य सभी उत्तर मानते हैं कि कोई संबंध नहीं है या यह वास्तव में नकारात्मक है। हालांकि वे अच्छे उदाहरण हैं, क्योंकि वे लागू नहीं करते हैं वे आश्वस्त नहीं होंगे। हमारे पास अभी भी जो कमी है, वह डेटा की एक गुट-स्तरीय सहज वास्तविक दुनिया का उदाहरण है, जो यहां नकली हैं जहां गलती की प्रकृति शर्मनाक है।
whuber

8
+1 को रूढ़िवादियों द्वारा
बहाने

@dsaxton, मैं <-कभी-कभी उपयोग करता हूं , लेकिन CV पर मेरा लक्ष्य R कोड को यथासंभव pseudocode के करीब लिखना है ताकि यह उन लोगों के लिए अधिक पठनीय हो, जो परिचित नहीं हैं w / R =, असाइनमेंट ऑपरेटर के रूप में प्रोग्रामिंग भाषाओं में बहुत सार्वभौमिक है ।
गंग

103

यदि आप अपने बॉस को विश्वास दिलाना चाहते हैं, तो आप दिखा सकते हैं कि नकली, यादृच्छिक, स्वतंत्र डेटा के साथ क्या हो रहा है । आर के साथ:x,yयहां छवि विवरण दर्ज करें

n <- 1000

y<- runif(n)
x <- runif(n)

linearModel <- lm(y ~ x)


x_sorted <- sort(x)
y_sorted <- sort(y)

linearModel_sorted <- lm(y_sorted ~ x_sorted)

par(mfrow = c(2,1))
plot(x,y, main = "Random data")
abline(linearModel,col = "red")


plot(x_sorted,y_sorted, main = "Random, sorted data")
abline(linearModel_sorted,col = "red")

जाहिर है, क्रमबद्ध परिणाम एक बहुत अच्छे प्रतिगमन की पेशकश करते हैं। हालांकि, डेटा (दो स्वतंत्र नमूने) उत्पन्न करने के लिए उपयोग की जाने वाली प्रक्रिया को देखते हुए, इस बात की कोई संभावना नहीं है कि एक का उपयोग दूसरे का अनुमान लगाने के लिए किया जा सकता है।


8
यह लगभग सभी इंटरनेट विज्ञापनों :) "से पहले बनाम के बाद" की तरह है
टिम

यह एक अच्छा उदाहरण है, लेकिन यह नहीं लगता कि यह उसे मना लेगा क्योंकि हमारे डेटा को सॉर्ट करने से पहले सकारात्मक सहसंबंध है। सिर्फ रिश्ते को "पुष्ट" करता है।
यूजर का मनमानी

17
@ शब्दभेदी: ठीक है, सॉर्ट किए गए डेटा हमेशा एक सकारात्मक (अच्छी तरह से, गैर-नकारात्मक) सहसंबंध दिखाएगा, चाहे कोई भी हो, मूल डेटा में कोई संबंध नहीं था। यदि आप जानते हैं कि मूल डेटा में हमेशा एक सकारात्मक सहसंबंध होता है, तो यह "दुर्घटना से सही" है - लेकिन फिर भी, सहसंबंध की जाँच करने के लिए भी परेशान क्यों करें, यदि आप पहले से ही जानते हैं कि यह वर्तमान और सकारात्मक है? आपके प्रबंधक द्वारा जो परीक्षण चल रहा है, वह "एयर क्वालिटी डिटेक्टर" की तरह एक सा है जो हमेशा "सांस लेने वाली हवा का पता लगाता है" - यह पूरी तरह से काम करता है, जब तक आप इसे कहीं भी नहीं ले जाते हैं जहां सांस लेने वाली हवा नहीं है।
इल्मरी करोनें

2
@arbiteathuser एक और उदाहरण जो आपको मिल सकता है वह यह है कि x = 0: 50, और y = 0: -50, ढलान -1 के साथ एक परिपूर्ण रेखा लेना है। यदि आप उन्हें क्रमबद्ध करते हैं, तो संबंध ढलान के साथ एक आदर्श रेखा में बदल जाता है। 1. यदि सच्चाई यह है कि आपके चर सही विपक्ष में भिन्न होते हैं, और आप अपनी गलत धारणा के आधार पर एक नीति पर्चे बनाते हैं कि वे सही समझौते में भिन्न होते हैं, तो आप होंगे बिल्कुल गलत काम कर रहे हैं।
जॉन रौसर

99

आपका अंतर्ज्ञान सही है: स्वतंत्र रूप से सॉर्ट किए गए डेटा का कोई विश्वसनीय अर्थ नहीं है क्योंकि इनपुट और आउटपुट बेतरतीब ढंग से एक दूसरे के लिए मैप किए जा रहे हैं बजाय कि देखे गए संबंध क्या थे।

एक अच्छा (अच्छा) मौका है कि सॉर्ट किए गए डेटा पर प्रतिगमन अच्छा लगेगा, लेकिन यह संदर्भ में अर्थहीन है।

(X=age,Y=height)

x,y


25
+ 1 - लेकिन मैं "अनिवार्य रूप से" छोड़ दूंगा और "अर्थहीन" पर फिर से जोर दूंगा।
whuber

12
ध्यान दें कि ओपी स्वतंत्र रूप से डेटा को छांटने के रूप में संदर्भित करता है ताकि इसे फेरबदल किया जा सके। यह एक सूक्ष्म लेकिन महत्वपूर्ण अंतर है क्योंकि यह माना जाता है कि दिए गए ऑपरेशन को लागू करने के बाद देखे गए "संबंध" क्या होगा।
कार्डिनल

3
xy

12
@amoeba सामान्य डेटा सेट: औसत किशोर, मध्य -30 NBA केंद्र, बुजुर्ग औसत महिला। भविष्यवाणी एल्गोरिथ्म को छाँटने के बाद यह है कि सबसे पुराना सबसे लंबा है।
d0rmLife 21

1
@amoeba मैं देखता हूं कि इसकी व्याख्या कैसे की जा सकती है, मैं स्पष्ट करूंगा।
d0rmLife

40

Viti

(ti,Vi)

(0,1.0),(1,0.9),(2,0.8),(3,0.7),(4,0.6),(5,0.5).
(0,0.5),(1,0.6),(2,0.7),(3,0.8),(4,0.9),(5,1.0).
और यह क्रमबद्ध डेटा सेट से निष्कर्ष यह है कि समय बढ़ जाती है, पानी के आयतन में वृद्धि और इसके अलावा के रूप में, कि 1 लीटर पानी से शुरू, जब तक आप प्रतीक्षा के 5 घंटे, के बाद मिलेगा और अधिक से अधिक 1 लीटर पानी की। यह उल्लेखनीय नहीं है? न केवल यह निष्कर्ष है कि मूल डेटा ने क्या कहा, इसके विपरीत यह भी पता चलता है कि हमने नई भौतिकी की खोज की है!

5
अच्छा सहज ज्ञान युक्त उदाहरण! अंतिम पंक्ति को छोड़कर। मूल डेटा के साथ हमें समय के बाद एक नकारात्मक वॉल्यूम मिलेगा, जो कि नए भौतिकी के समान है। आप वास्तव में एक प्रतिगमन को एक्सट्रपलेशन नहीं कर सकते।
जोन्गमा

22

यह एक वास्तविक कला है और मनोविज्ञान की एक वास्तविक समझ के लिए कुछ लोगों को उनके तरीकों की त्रुटि को समझाने में सक्षम होना चाहिए। उपरोक्त सभी उत्कृष्ट उदाहरणों के अलावा, एक उपयोगी रणनीति कभी-कभी यह दिखाने के लिए है कि किसी व्यक्ति का विश्वास खुद के साथ एक असंगति की ओर जाता है। या इस दृष्टिकोण की कोशिश करो। अपने बॉस को इस बात पर दृढ़ता से विश्वास दिलाएं कि व्यक्ति किस तरह से कार्य करते हैं Y का कोई संबंध नहीं है कि उनके पास कितनी विशेषता X है। दिखाएँ कि आपके बॉस के अपने दृष्टिकोण का परिणाम X और Y के बीच एक मजबूत संबंध के निष्कर्ष के रूप में कैसे होगा / राजनीतिक / नस्लीय / धार्मिक विश्वासों पर कैपिटलाइज़ करें।

चेहरे की अमान्यता काफी होनी चाहिए थी। क्या जिद्दी बॉस है। इस बीच एक बेहतर नौकरी की तलाश करें। सौभाग्य।


12

एक और उदाहरण। कल्पना करें कि आपके पास दो चर हैं, एक चॉकलेट खाने से जुड़ा है और दूसरा समग्र कल्याण से जुड़ा है। आपके पास दो का नमूना है और आपका डेटा नीचे की तरह दिखता है:

chocolateno happinessno chocolatehappiness

आपके नमूने के आधार पर चॉकलेट और खुशी का क्या संबंध है? और अब, कॉलम में से एक का क्रम बदलें - इस ऑपरेशन के बाद क्या संबंध है?

tNt

iXiY

ध्यान दें कि कभी-कभी हम वास्तव में मामलों के बदलते क्रम में रुचि रखते हैं, हम तरीकों को फिर से शुरू करने में ऐसा करते हैं । उदाहरण के लिए, हम जानबूझकर कई बार टिप्पणियों में फेरबदल कर सकते हैं ताकि हमारे डेटा के अशक्त वितरण के बारे में कुछ सीख सकें (हमारे डेटा कैसे दिखेंगे यदि कोई जोड़ीदार संबंध नहीं थे), और अगला हम तुलना कर सकते हैं कि क्या हमारा वास्तविक डेटा किसी भी तरह यादृच्छिक से बेहतर है shuffled। आपका प्रबंधक जो करता है वह बिल्कुल विपरीत है - वह जानबूझकर उन टिप्पणियों को मजबूर करता है जहां कृत्रिम संरचना होती है जहां कोई संरचना नहीं थी, जो फर्जी सहसंबंध की ओर जाता है।


8

एक सरल उदाहरण जिसे शायद आपका प्रबंधक समझ सकता है:

मान लीजिए कि आपके पास सिक्का वाई और सिक्का एक्स है, और आप उनमें से प्रत्येक को 100 बार फ्लिप करते हैं। फिर आप भविष्यवाणी करना चाहते हैं कि क्या सिक्का X (IV) के साथ एक सिर प्राप्त करने से सिक्का Y (DV) के साथ एक सिर प्राप्त करने की संभावना बढ़ सकती है।

सॉर्टिंग के बिना, संबंध कोई भी नहीं होगा, क्योंकि सिक्का एक्स के परिणाम को सिक्का वाई के परिणाम को प्रभावित नहीं करना चाहिए। छंटाई के साथ, संबंध लगभग सही होगा।

यह निष्कर्ष निकालने के लिए कैसे समझ में आता है कि आपके पास एक सिक्का फ्लिप पर एक सिर पाने का एक अच्छा मौका है अगर आपने अभी-अभी एक अलग सिक्के के साथ एक सिर फ़्लिप किया है?


1
किसी भी मुद्रा के लिए अनुवाद की आवश्यकता होती है, लेकिन जिसे आप मान रहे हैं। (मुझे पता है कि यह पूरी तरह से तुच्छ आपत्ति है, और किसी भी समस्या को ठीक करना आसान है, लेकिन यह कभी-कभी इस बात पर जोर देने के लायक है कि यह एक अंतरराष्ट्रीय मंच है।)
निक कॉक्स

8

यह तकनीक वास्तव में अद्भुत है। मुझे हर तरह के रिश्ते मिल रहे हैं, जिन पर मुझे कभी शक नहीं हुआ। उदाहरण के लिए, मुझे संदेह नहीं होता कि पावरबॉल लॉटरी में जो संख्याएँ दिखाई देती हैं, जो कि यह अनियमित है, वास्तव में उसी दिन Apple स्टॉक के शुरुआती मूल्य के साथ अत्यधिक सहसंबद्ध हैं! दोस्तों, मुझे लगता है कि हम बड़े समय में नकदी के बारे में हैं। :)

> powerball_last_number = scan()
1: 69 66 64 53 65 68 63 64 57 69 40 68
13: 
Read 12 items
> #Nov. 18, 14, 11, 7, 4
> #Oct. 31, 28, 24, 21, 17, 14, 10
> #These are powerball dates.  Stock opening prices 
> #are on same or preceding day.
> 
> appl_stock_open = scan()
1: 115.76  115.20 116.26  121.11  123.13 
6: 120.99  116.93  116.70  114.00  111.78
11: 111.29  110.00
13: 
Read 12 items
> hold = lm(appl_stock_open ~ powerball_last_number)
> summary(hold)


Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           112.08555    9.45628  11.853 3.28e-07 ***
powerball_last_number   0.06451    0.15083   0.428    0.678    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.249 on 10 degrees of freedom
Multiple R-squared:  0.01796,   Adjusted R-squared:  -0.08024 
F-statistic: 0.1829 on 1 and 10 DF,  p-value: 0.6779

हम्म, एक महत्वपूर्ण रिश्ता नहीं लगता है। लेकिन नई, बेहतर तकनीक का उपयोग कर:

> 
> vastly_improved_regression = lm(sort(appl_stock_open)~sort(powerball_last_number))
> summary(vastly_improved_regression)

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 91.34418    5.36136  17.038 1.02e-08 ***
sort(powerball_last_number)  0.39815    0.08551   4.656    9e-04 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.409 on 10 degrees of freedom
Multiple R-squared:  0.6843,    Adjusted R-squared:  0.6528 
F-statistic: 21.68 on 1 and 10 DF,  p-value: 0.0008998

नोट: इसका मतलब गंभीर विश्लेषण नहीं है। बस अपने प्रबंधक को दिखाएं कि यदि आप उन दोनों को क्रमबद्ध करते हैं तो वे किसी भी दो चर को महत्वपूर्ण रूप से संबंधित बना सकते हैं।


6

यहाँ में बहुत अच्छे काउंटर उदाहरण हैं। मुझे सिर्फ समस्या के दिल के बारे में एक पैराग्राफ जोड़ना चाहिए।

XiYiXYiiX1Y1X2Y2XYX1Y1X1Y1

वास्तव में, मुझे एक पैराग्राफ जोड़ना चाहिए कि यह "काम" क्यों करता है।

XaXbXaXYaXzXYzYXaYaXzYzX1Y1


6

दरअसल, जिस परीक्षण का वर्णन किया गया है (यानी एक्स मानों और वाई मूल्यों को स्वतंत्र रूप से सॉर्ट करें और एक को दूसरे के खिलाफ फिर से लिखें) कुछ का परीक्षण करें, यह मानते हुए कि एक्स (वाई, वाई) को एक द्विभाजित वितरण से स्वतंत्र जोड़े के रूप में देखा जाता है। यह सिर्फ एक परीक्षण नहीं है कि आपका प्रबंधक क्या परीक्षण करना चाहता है। यह अनिवार्य रूप से एक क्यूक्यू-प्लॉट की रैखिकता की जांच कर रहा है, एक्स के सीमांत वितरण की तुलना वाईएस के सीमांत वितरण के साथ करता है। विशेष रूप से, 'डेटा' एक सीधी रेखा के करीब आएगा यदि Xs (f (x)) का घनत्व Ys (g (y)) के घनत्व से इस तरह से संबंधित है:

f(x)=g((ya)/b)ab>0


4

अजीब बात है कि सबसे स्पष्ट जवाबी कार्रवाई अभी भी अपने सरलतम रूप में जवाबों के बीच मौजूद नहीं है।

Y=X

Y^X

यह एक तरह का "प्रत्यक्ष प्रतिलोम" है, जिसे आप यहां खोजने के लिए तैयार हो सकते हैं।


क्या आप बता सकते हैं कि यह कौन सा दावा है?
whuber

इनपुट और आउटपुट को स्वतंत्र रूप से सॉर्ट करके "आप हर समय बेहतर रिग्रेशन प्राप्त कर सकते हैं" प्रबंधक का दावा।
केटी।

R2=1

R2

1
R2Y=X

3

तुम सही हो। आपके प्रबंधक को "अच्छे" परिणाम मिलेंगे! लेकिन वे अर्थहीन हैं। जब आप उन्हें स्वतंत्र रूप से छाँटते हैं, तो यह होता है कि दोनों या तो समान रूप से बढ़ते हैं या घटते हैं और इससे एक अच्छे मॉडल की झलक मिलती है। लेकिन दो चर उनके वास्तविक संबंध छीन लिए गए हैं और मॉडल गलत है।


3

xx2xx2x

रैखिक प्रतिगमन आमतौर पर कम उचित है (अपवाद मौजूद हैं, अन्य उत्तर देखें); लेकिन पूंछ और त्रुटियों के वितरण की ज्यामिति आपको बताती है कि समान वितरण से कितनी दूर हैं।


2

मेरे पास एक सरल अंतर्ज्ञान है कि यह वास्तव में एक अच्छा विचार है यदि फ़ंक्शन मोनोटोन है :

x1,x2,,xnxi<xi+1f:yi=f(xi)+εiεi

εi=f(xi+δ)f(xi)
δ{Δ,Δ+1,Δ1,Δ}ΔNΔ=0Δ=n

f

εi

पुनश्च: मुझे यह आश्चर्यजनक लगता है कि कैसे एक स्पष्ट रूप से सरल प्रश्न फिर से सोचने के मानकों के दिलचस्प नए तरीके पैदा कर सकता है। कृपया धन्यवाद मालिक!


1
xi+δi+δ<1i+δ>n

2

मान लें कि आपके पास त्रिज्या के एक वृत्त पर ये बिंदु हैं। आप सहसंबंध की गणना करते हैं:

import pandas as pd
s1 = [(-5, 0), (-4, -3), (-4, 3), (-3, -4), (-3, 4), (0, 5), (0, -5), (3, -4), (3, 4), (4, -3), (4, 3), (5, 0)]
df1 = pd.DataFrame(s1, columns=["x", "y"])
print(df1.corr())

   x  y
x  1  0
y  0  1

फिर आप अपने x- और y- मानों को क्रमित करते हैं और सहसंबंध फिर से करते हैं:

s2 = [(-5, -5), (-4, -4), (-4, -4), (-3, -3), (-3, -3), (0, 0), (0, 0), (3, 3), (3, 3), (4, 4), (4, 4), (5, 5)]
df2 = pd.DataFrame(s2, columns=["x", "y"])
print(df2.corr())

   x  y
x  1  1
y  1  1

इस हेरफेर से, आप 1.0 सहसंबंध के साथ 0.0 सहसंबंध के साथ एक डेटा सेट को बदलते हैं। ये एक समस्या है।


1

मुझे यहाँ डेविल्स एडवोकेट की भूमिका निभानी है। मुझे लगता है कि कई जवाबों ने आश्वस्त किया है कि बॉस की प्रक्रिया मौलिक रूप से गलत है। उसी समय, मैं एक काउंटर-उदाहरण प्रस्तुत करता हूं जो बताता है कि बॉस ने वास्तव में इस गलत परिवर्तन के साथ परिणामों में सुधार देखा हो सकता है।

मुझे लगता है कि यह स्वीकार करते हुए कि यह प्रक्रिया बॉस के लिए "काम" हो सकती है, अधिक प्रेरक तर्क शुरू कर सकती है: निश्चित रूप से, इसने काम किया, लेकिन केवल इन भाग्यशाली परिस्थितियों के तहत जो आमतौर पर पकड़ में नहीं आएंगे। फिर हम दिखा सकते हैं - जैसा कि उत्कृष्ट स्वीकृत उत्तर में है - जब हम भाग्यशाली नहीं होते हैं तो यह कितना बुरा हो सकता है। जो ज्यादातर समय होता है। अलगाव में, बॉस को यह दिखाते हुए कि यह कितना बुरा हो सकता है, उसे मना नहीं कर सकता क्योंकि उसने एक ऐसा मामला देखा होगा जहां यह चीजों में सुधार करता है, और यह आंकड़ा करता है कि हमारे फैंसी तर्क में कहीं न कहीं कोई दोष है।

मुझे यह डेटा ऑनलाइन मिला, और निश्चित रूप से पर्याप्त है, ऐसा प्रतीत होता है कि एक्स और वाई की स्वतंत्र छँटाई द्वारा प्रतिगमन में सुधार होता है क्योंकि: ए) डेटा अत्यधिक सकारात्मक रूप से सहसंबद्ध है, और बी) ओएलएस वास्तव में चरम (उच्च) के साथ अच्छा नहीं करता है (लाभ) आउटलेर्स। ऊँचाई और वजन में बहिर्गमन के साथ 0.19 का सहसंबंध होता है, बहिष्कृत के साथ 0.77 और बाहर एक्स और वाई के साथ 0.78 स्वतंत्र रूप से छंटनी होती है।

x <- read.csv ("https://vincentarelbundock.github.io/Rdatasets/csv/car/Davis.csv", header=TRUE)

plot (weight ~ height, data=x)

lm1 <- lm (weight ~ height, data=x)

xx <- x
xx$weight <- sort (xx$weight)
xx$height <- sort (xx$height)

plot (weight ~ height, data=xx)

lm2 <- lm (weight ~ height, data=xx)

plot (weight ~ height, data=x)
abline (lm1)
abline (lm2, col="red")

यहां छवि विवरण दर्ज करें

plot (x$height, x$weight)
points (xx$height, xx$weight, col="red")

यहां छवि विवरण दर्ज करें

तो यह मुझे प्रतीत होता है कि इस डेटासेट पर प्रतिगमन मॉडल स्वतंत्र छँटाई (पहले ग्राफ़ में काली बनाम लाल रेखा) द्वारा सुधारा जाता है, और विशेष डेटासेट होने के कारण दृश्य संबंध (दूसरे ग्राफ़ में काला बनाम लाल) है अत्यधिक (सकारात्मक) सहसंबद्ध और सही प्रकार के आउटलेयर हैं जो कि फेरबदल से अधिक प्रतिगमन को नुकसान पहुंचाते हैं जो तब होता है जब आप स्वतंत्र रूप से x और y को सॉर्ट करते हैं।

फिर से, स्वतंत्र रूप से सॉर्टिंग नहीं कहना सामान्य तौर पर कुछ भी समझदार है, और न ही यह यहां सही उत्तर है। बस मालिक को कुछ ऐसा दिखाई दे सकता है जो सिर्फ सही परिस्थितियों में काम करने के लिए हुआ हो।


1
यह एक शुद्ध संयोग जैसा लगता है कि आप इसी तरह के सहसंबंध गुणांक में पहुंचे। यह उदाहरण मूल और स्वतंत्र रूप से सॉर्ट किए गए डेटा के बीच संबंध के बारे में कुछ भी प्रदर्शित नहीं करता है।
whuber

2
@whuber: दूसरे ग्राफ के बारे में कैसे? यह मुझे लगता है कि अगर मूल डेटा अत्यधिक सहसंबद्ध है, तो उन्हें छाँटने से केवल थोड़ा सा फेरबदल हो सकता है, मूल रूप से मूल संबंध +/- को संरक्षित कर सकता है। आउटलेयर के एक जोड़े के साथ, चीजों को फिर से व्यवस्थित किया जाता है, लेकिन ... माफ करना, मेरे पास इससे आगे जाने के लिए गणित नहीं है।
वेन

1
मुझे लगता है कि आपके द्वारा व्यक्त अंतर्ज्ञान सही है, वेन। प्रश्न का तर्क - जैसा कि मैं इसकी व्याख्या करता हूं - चिंता करता है कि आप मूल डेटा के बारे में क्या कह सकते हैं जो केवल छांटे गए चर के बिखरने पर आधारित है। इसका उत्तर यह है कि आप उनके अलग (अविभाज्य) वितरण से क्या अनुमान लगा सकते हैं, इससे परे कुछ भी नहीं है। मुद्दा यह है कि आपके दूसरे ग्राफ़ में लाल डॉट्स न केवल आपके द्वारा दिखाए जाने वाले डेटा के साथ संगत हैं, बल्कि उन सभी डेटा की अन्य खगोलीय संख्या के सभी खगोलीय रूप से भी - और आपके पास यह जानने का कोई तरीका नहीं है कि इनमें से कौन से क्रमपरिवर्तन हैं यह सही है।
whuber

2
@ जब मुझे लगता है कि यहाँ मुख्य अंतर यह है कि ओपी ने कहा कि इसे डेटा को "पूरी तरह से नष्ट" करना चाहिए। आपका स्वीकृत उत्तर विस्तार से दिखाता है कि यह कैसा मामला है, सामान्य तौर पर। आपको इस तरीके से व्यवहार किया गया डेटा नहीं दिया जा सकता है और यदि परिणाम समझ में आता है तो कोई भी विचार नहीं है। लेकिन, यह भी सच है कि प्रबंधक पहले मेरे (काउंटर-) उदाहरण जैसे उदाहरणों से निपट सकता था और पाया कि इस गुमराह परिवर्तन ने वास्तव में परिणामों में सुधार किया। तो हम इस बात से सहमत हो सकते हैं कि प्रबंधक को मूल रूप से गलत माना गया था, लेकिन यह भी बहुत भाग्यशाली हो सकता है - और भाग्यशाली मामले में, यह काम करता है।
वेन

@whuber: मैंने अपने उत्तर का परिचय इस तरह से संपादित किया है कि मुझे लगता है कि यह चर्चा के लिए प्रासंगिक है। मुझे लगता है कि यह स्वीकार करना कि बॉस की प्रक्रिया उसके लिए कैसे काम कर सकती है, एक अधिक प्रेरक तर्क में पहला कदम हो सकता है जो बॉस के अनुभव के साथ लिपटता है। आपके विचार के लिए।
वेन

-7

यदि उसने चरों को मोनोटोन होने की बात कही है, तो यह वास्तव में काफी मजबूत है। Google "अनुचित रैखिक मॉडल" और "रॉबिन डावेस" या "हॉवर्ड वेनर।" Dawes और Wainer गुणांक चुनने के वैकल्पिक तरीकों के बारे में बात करते हैं। जॉन कुक के पास एक छोटा कॉलम ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ) है।


4
कुक ने उस ब्लॉग पोस्ट में जो चर्चा की है, वह स्वतंत्र रूप से एक दूसरे के लिए x और y को छाँटने और फिर छाँटे गए चर के प्रतिगमन मॉडल को फिट करने के समान नहीं है।
गंग

4
ओपी का बॉस जो कर रहा है, वह FInverse (G (x)), जहां F और G, Y और X के ecdfs हैं, द्वारा "पूर्वानुमान [आईएनजी] नहीं है।" आप मेरे जवाब में कोड में प्रक्रिया देख सकते हैं।
गंग

4
क्या आप 1. दाविस और / या वेनर द्वारा किसी विशेष पेपर का संदर्भ जोड़ सकते हैं, 2. स्पष्ट करें कि यह बॉस की छँटाई प्रक्रिया से कैसे संबंधित है? या सिर्फ इतना है कि अगर गुणांक का मूल्य तब तक ज्यादा मायने नहीं रखता है जब तक कि हस्ताक्षर सही है और संकेत द्वारा सही है, तो यह ज्यादा मायने नहीं रखता है कि बॉस की प्रक्रिया गुणांक के लिए अजीब मान देती है?
जुहो कोक्कला

2
1. संदर्भ: - डावेस, आरएम "निर्णय लेने में अनुचित रैखिक मॉडल की मजबूत सुंदरता।" आमेर। साइकोल। 34, सं। 7 (1979): 571. - वेनर, एच। "रैखिक मॉडल में गुणांक का अनुमान लगाना: यह कोई महत्वपूर्ण बात नहीं है।" साइक। सांड। 83, सं। 2 (1976): 213. - डावेस, आरएम, और कोरिगन, बी "निर्णय लेने में रैखिक मॉडल।" साइक। बुल।, 81 95-106 (1974) 2. दाविस और वेनर दोनों बताते हैं कि वास्तविक डेटा और वास्तविक भविष्यवाणी समस्याओं के साथ, अपने साधनों से विचलन के साथ एक्स से भविष्य वाई की भविष्यवाणी करते हुए या रैंक मिलान करके काफी अच्छी तरह से काम करता है, और यह बजाय ढलान के प्रति असंवेदनशील।
बिल रेनॉर

2
ये संदर्भ और स्पष्टीकरण टिप्पणियों में दफन करने के बजाय आपके उत्तर में बेहतर होंगे।
Scortchi

-8

मैंने इसके बारे में सोचा, और सोचा कि ऑर्डर के आंकड़ों के आधार पर यहां कुछ संरचना है। मैंने जाँच की, और ऐसा लगता है कि प्रबंधक के रूप में पागल नहीं है जितना लगता है

आदेश सांख्यिकी सहसंबंध गुणांक बायोसिग्नल विश्लेषण के अनुप्रयोगों के साथ एक उपन्यास एसोसिएशन मापन के रूप में

http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.pdf

हम आदेश आँकड़ों और पुनर्व्यवस्था असमानता के आधार पर एक उपन्यास सहसंबंध गुणांक का प्रस्ताव करते हैं। प्रस्तावित गुणांक पियर्सन के रैखिक गुणांक और दो रैंक-आधारित गुणांकों के बीच एक समझौते का प्रतिनिधित्व करता है, जिसका नाम है स्पीयरमैन का रो और केंडल का ताऊ। सैद्धांतिक व्युत्पन्न बताते हैं कि हमारे गुणांक में तीन शास्त्रीय गुणांक के समान मूल गुण हैं। चार मॉडल और छह बायोसिग्नल्स पर आधारित प्रायोगिक अध्ययन बताते हैं कि रैखिक गुणांक को मापते समय हमारे गुणांक दो रैंक-आधारित गुणांक से बेहतर प्रदर्शन करते हैं; हालांकि यह दो रैंक-आधारित गुणांकों की तरह मोनोटोन नॉनलाइनियर संघों का पता लगाने में सक्षम है। व्यापक सांख्यिकीय विश्लेषण यह भी सुझाव देते हैं कि हमारे नए गुणांक में बेहतर एंटी-नॉइज़ मजबूती, छोटे पूर्वाग्रह हैं,


14
यह वह नहीं है जो प्रश्न का वर्णन कर रहा है। जब डेटा को ऑर्डर के आँकड़ों से बदल दिया जाता है, तो डेटा के जोड़े अभी भी जुड़े हुए हैं जैसा कि वे हमेशा से थे। सवाल एक ऑपरेशन का वर्णन करता है जो उन कनेक्शनों को नष्ट कर देता है, जो उनके संयुक्त वितरण के बारे में सभी जानकारी को दोहराते हैं।
whuber

जरुरी नहीं। डेटा सेट का निर्माण (या घटित होना) संभव है जहाँ स्वतंत्र छँटाई संयुक्त संभाव्यता के बारे में सभी जानकारी को नष्ट नहीं करती है।
डेनियल

5
कृपया हमें अपने दावे का एक स्पष्ट उदाहरण दें, क्योंकि यह देखना मुश्किल है कि ऐसा कैसे गणितीय रूप से भी संभव है, व्यवहार में बहुत कम संभव है।
whuber

@whuber: कृपया मेरा नया उत्तर देखें, जिसमें एक वास्तविक-वाला डेटासेट है जो आपके प्रश्न को संतुष्ट करता है ... मुझे लगता है।
वेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.