क्या सहसंबंध का उपयोग करने के लिए एक सांख्यिकीय वैध दृष्टिकोण का निर्धारण करना है?


10

मेरे पास 1,449 डेटा बिंदुओं का एक नमूना है जो सहसंबद्ध नहीं हैं (आर-स्क्वेर्ड 0.006)।

डेटा का विश्लेषण करते समय, मैंने पाया कि स्वतंत्र चर मानों को सकारात्मक और नकारात्मक समूहों में विभाजित करके, प्रत्येक समूह के लिए निर्भर चर के औसत में एक महत्वपूर्ण अंतर प्रतीत होता है।

स्वतंत्र परिवर्तनशील मानों का उपयोग करते हुए अंकों को 10 बिन (डिकाइल) में विभाजित करने से, डिकाइल संख्या और औसत आश्रित चर मानों के बीच एक मजबूत सहसंबंध प्रतीत होता है (r-squared 0.27)।

मुझे आँकड़ों के बारे में ज्यादा जानकारी नहीं है इसलिए यहाँ कुछ सवाल हैं:

  1. क्या यह एक वैध सांख्यिकीय दृष्टिकोण है?
  2. क्या डिब्बे की सबसे अच्छी संख्या खोजने के लिए एक विधि है?
  3. इस दृष्टिकोण के लिए उचित शब्द क्या है ताकि मैं इसे Google कर सकूं?
  4. इस दृष्टिकोण के बारे में जानने के लिए कुछ परिचयात्मक संसाधन क्या हैं?
  5. इस डेटा में संबंधों को खोजने के लिए मैं कुछ अन्य दृष्टिकोण क्या उपयोग कर सकता हूं?

यहाँ संदर्भ के लिए निर्णायक डेटा है: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

संपादित करें: यहां डेटा की एक छवि है: उद्योग गति स्वतंत्र चर है, प्रवेश बिंदु गुणवत्ता निर्भर है

उद्योग गति स्वतंत्र चर है, प्रवेश बिंदु गुणवत्ता निर्भर है


उम्मीद है कि मेरा जवाब (विशेष रूप से 2-4 में) उस अर्थ में समझा जाता है, जिसका वह इरादा था।
Glen_b -Reinstate मोनिका

यदि आपका उद्देश्य स्वतंत्र और आश्रित के बीच एक संबंध रूप का पता लगाना है, तो यह एक अच्छी खोजपूर्ण तकनीक है। यह सांख्यिकीविदों को नाराज कर सकता है, लेकिन हर समय उद्योग में उपयोग किया जाता है (जैसे क्रेडिट जोखिम)। यदि आप एक पूर्वानुमान मॉडल का निर्माण कर रहे हैं, तो फिर से सुविधा इंजीनियरिंग ठीक है - अगर यह एक प्रशिक्षण सेट पर किया जाता है एक उचित रूप से मान्य है।
B_Miner

क्या आप यह सुनिश्चित करने के लिए कोई परिणाम प्रदान कर सकते हैं कि परिणाम "ठीक से मान्य" कैसे है?
बी सेवन

"सहसंबद्ध नहीं (आर-स्क्वेर्ड 0.006)" का अर्थ है कि वे रैखिक रूप से सहसंबद्ध नहीं हैं । शायद कुछ अन्य सहसंबंध शामिल हैं। क्या आपने कच्चा डेटा (निर्भर बनाम स्वतंत्र) प्लॉट किया है ?
एमिल फ्रीडमैन

मैंने डेटा को प्लॉट किया था, लेकिन इसे प्रश्न में जोड़ने के लिए नहीं सोचा था। क्या कमाल का तरीका है! कृपया अद्यतन प्रश्न देखें।
बी सेवन

जवाबों:


9

0. सहसंबंध (0.0775) छोटा है, लेकिन (सांख्यिकीय) 0. से काफी अलग है। ऐसा लगता है कि वास्तव में सहसंबंध है, यह सिर्फ बहुत छोटा है / कमजोर (समकक्ष, रिश्ते के आसपास बहुत शोर है)।

1. डिब्बे के भीतर क्या औसत डेटा में भिन्नता को कम करता है (ए) σ/nमाध्य की मानक त्रुटि के लिए प्रभाव), जिसका अर्थ है कि आप कृत्रिम रूप से कमजोर सहसंबंध को बढ़ाते हैं। इसे (कुछ हद तक) संबंधित मुद्दा भी देखें ।

2. निश्चित रूप से, कम डिब्बे का मतलब है कि अधिक डेटा औसत हो जाता है, शोर को कम करता है, लेकिन वे जितने व्यापक हैं, "फजीयर" औसत प्रत्येक बिन में हो जाता है क्योंकि इसका मतलब काफी स्थिर नहीं है - एक व्यापार बंद है। जबकि एक लीनियरिटी की धारणा और वितरण के तहत सहसंबंध को अनुकूलित करने के लिए एक सूत्र प्राप्त कर सकता हैxयह डेटा में शोर के कुछ शोषक प्रभाव का पूरा हिसाब नहीं लेगा। आसान तरीका यह है कि आप तब तक विभिन्न प्रकार की अलग-अलग बिन सीमाओं की कोशिश करें, जब तक आपको वह पसंद न आ जाए। बिन-चौड़ाई और बिन-मूल को अलग करने का प्रयास करना न भूलें। यह रणनीति कभी-कभी घनीभूतता के साथ आश्चर्यजनक रूप से उपयोगी साबित हो सकती है , और इस तरह के सामयिक लाभ को कार्यात्मक रिश्तों तक ले जाया जा सकता है - शायद आपको उसी परिणाम को प्राप्त करने में सक्षम करें जिसके लिए आप आशा करते थे

3. हां। संभवतः इस खोज के साथ शुरू करें , फिर शायद समानार्थक शब्द का प्रयास करें।

4. यह शुरू करने के लिए एक अच्छी जगह है; यह गैर-सांख्यिकीविदों के उद्देश्य से एक बहुत लोकप्रिय पुस्तक है।

5. (अधिक गंभीरता से :) मैं सुझाव दूंगा (जैसे कि स्थानीय बहुपद प्रतिगमन / कर्नेल स्मूथिंग के माध्यम से, रिश्तों की जांच करने के एक तरीके के रूप में)। यह इस बात पर निर्भर करता है कि आप क्या चाहते हैं, बिल्कुल, लेकिन यह एक वैध दृष्टिकोण हो सकता है जब आप किसी रिश्ते के रूप को नहीं जानते, जब तक आप डेटा-ड्रेजिंग समस्या से बचते हैं।


एक लोकप्रिय उद्धरण है, जिसके प्रवर्तक रोनाल्ड कोसे प्रतीत होते हैं :

"यदि आप डेटा को पर्याप्त यातना देते हैं, तो प्रकृति हमेशा कबूल करेगी।"


अंक 1 और 2 इस बात की अच्छी व्याख्या हैं कि ओपी का दृष्टिकोण एक वैध सांख्यिकीय दृष्टिकोण क्यों नहीं है, हालांकि यह प्वाइंट 0 (कमजोर सहसंबंध) के बारे में समझाने के लिए एक उपयोगी अनुमान है।
असद इब्राहिम

9

शायद आप एक खोज उपकरण से लाभान्वित होंगे। डेटा को x निर्देशांक के डिकाइल्स में विभाजित करना प्रतीत होता है कि उस भावना में प्रदर्शन किया गया है। नीचे वर्णित संशोधनों के साथ, यह पूरी तरह से ठीक दृष्टिकोण है।

कई द्विभाजित खोज विधियों का आविष्कार किया गया है। जॉन टके ( EDA , एडिसन-वेस्ले 1977) द्वारा प्रस्तावित एक सरल "उनका योजनाबद्ध भूखंड है।" आप एक्स-समन्वय को डिब्बे में काटते हैं, प्रत्येक बिन के माध्यिका पर संबंधित y डेटा के एक ऊर्ध्वाधर बॉक्सप्लॉट को खड़ा करते हैं, और बॉक्सप्लॉट (मेडियन, टिका, आदि) के प्रमुख भागों को वक्रों में जोड़ते हैं (वैकल्पिक रूप से उन्हें चिकना कर रहे हैं)। ये "भटकने वाले निशान" डेटा के द्विभाजित वितरण की एक तस्वीर प्रदान करते हैं और सहसंबंध, संबंध की रैखिकता, बाहरी, और सीमांत वितरण के तत्काल दृश्य मूल्यांकन की अनुमति देते हैं, साथ ही साथ किसी भी नॉनलाइन रिग्रेशन फ़ंक्शन के मजबूत आकलन और अच्छाई-फिट मूल्यांकन। ।

इस विचार के लिए, Tukey ने बॉक्सप्लाट विचार के अनुरूप विचार को जोड़ा, कि डेटा के वितरण की जांच करने का एक अच्छा तरीका मध्य में शुरू करना और बाहर की ओर काम करना है, जो आपके जाते ही डेटा की मात्रा को कम कर देता है। यही है, उपयोग करने के लिए डिब्बे को समान रूप से दूरी वाले क्वांटाइलों में कटौती करने की आवश्यकता नहीं है, लेकिन इसके बजाय बिंदुओं पर मात्राओं को प्रतिबिंबित करना चाहिए2k तथा 12k के लिये k=1,2,3,

अलग-अलग बिन आबादी को प्रदर्शित करने के लिए हम प्रत्येक बॉक्सप्लेट की चौड़ाई को उस डेटा की मात्रा के आनुपातिक बना सकते हैं जो इसका प्रतिनिधित्व करता है।

परिणामस्वरूप भटक योजनाबद्ध भूखंड कुछ इस तरह दिखाई देगा। डेटा, जिसे डेटा सारांश से विकसित किया गया है, को पृष्ठभूमि में ग्रे डॉट्स के रूप में दिखाया गया है। इस पर भटकते हुए योजनाबद्ध भूखंड को खींचा गया है, जिसमें रंग में पांच निशान और काले और सफेद में बॉक्सप्लेट (दिखाए गए किसी भी आउटलेयर सहित) हैं।

आकृति

निकट-शून्य सहसंबंध की प्रकृति तुरंत स्पष्ट हो जाती है: चारों ओर डेटा मोड़। उनके केंद्र के पास, से लेकरx=4 सेवा x=4, उनके पास एक मजबूत सकारात्मक सहसंबंध है। अत्यधिक मूल्यों पर, ये डेटा वक्रतापूर्ण संबंधों को प्रदर्शित करते हैं जो संपूर्ण नकारात्मक होते हैं। शुद्ध सहसंबंध गुणांक (जो होता है0.074इन आंकड़ों के लिए) शून्य के करीब है। हालांकि, यह व्याख्या करने पर जोर देते हुए कि "लगभग कोई सहसंबंध नहीं" या "महत्वपूर्ण लेकिन कम सहसंबंध" के रूप में वही त्रुटि होगी जो सांख्यिकीविद् के बारे में पुराने चुटकुले में खराब हुई थी, जो ओवन में उसके सिर और आइसबॉक्स में उसके सिर के साथ खुश थी क्योंकि औसतन तापमान आरामदायक था। कभी-कभी एक एकल संख्या सिर्फ स्थिति का वर्णन करने के लिए नहीं करेगी।

इसी तरह के उद्देश्यों के साथ वैकल्पिक खोज साधनों में डेटा के विंडो किए गए क्वांटिलों की मजबूत चिकनाई शामिल होती है और क्वांटाइल्स की एक श्रृंखला का उपयोग करके क्वांटाइल रिग्रेसन के फिट होते हैं। इन गणनाओं को करने के लिए सॉफ्टवेयर की तैयार उपलब्धता के साथ वे शायद भटकते हुए योजनाबद्ध ट्रेस की तुलना में निष्पादित करना आसान हो गया है, लेकिन वे निर्माण की समान सादगी, व्याख्या में आसानी और व्यापक प्रयोज्यता का आनंद नहीं लेते हैं।


निम्नलिखित Rकोड ने आंकड़े का उत्पादन किया और मूल डेटा पर बहुत कम या कोई बदलाव नहीं किया जा सकता है। (इसके द्वारा bpltकहे गए bxp) द्वारा उत्पन्न चेतावनियों को नजरअंदाज करें : यह शिकायत करता है कि इसके पास खींचने के लिए कोई आउटलेयर नहीं है।)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

@EngrStudent कोड चलाने से पहले कृपया इस पोस्ट का पाठ पढ़ें। उस चेतावनी का उल्लेख और व्याख्या की जाती है।
whuber

मैं यह नहीं बताता कि यह वेक्टर कहां से आ रहा है c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6), क्या यह उत्पन्न हो रहा है और डेटा निर्भर ( x) है? आप उल्लेख करते हैं 2^*(-k)लेकिन यह संबंधित नहीं है।
मैक्सिमिलियन

@ मोम वह वेक्टर इस विशेष उदाहरण को उत्पन्न करता है।
whuber

ठीक है, लेकिन आपने आंकड़ों को कैसे संसाधित किया? यह स्पष्ट रूप से गलत है:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
मैक्सिमिलियन

@ मोम मैं आपके स्पष्ट अर्थ से "थाह" का मतलब नहीं समझ सकता। आप मेरे कोड का उल्लेख नहीं कर सकते: एक चेक के रूप में, मैंने इसे फिर से चलाया और इसने हर विवरण में आंकड़े को पुन: पेश किया।
whuber

6

मैं नहीं मानता कि बिनिंग समस्या का वैज्ञानिक दृष्टिकोण है। यह जानकारी खोने और मनमानी है। रैंक (क्रमिक; अर्धवृत्ताकार) विधियां कहीं बेहतर हैं और जानकारी नहीं खोती हैं। यहां तक ​​कि अगर किसी को डिकाइल बाइनिंग पर बसना था, तो विधि अभी भी दूसरों द्वारा मनमाना और गैर-प्रतिलिपि प्रस्तुत करने योग्य है, केवल इसलिए कि बड़ी संख्या में परिभाषाएं जो डेटा में संबंधों के मामले में क्वांटाइल्स के लिए उपयोग की जाती हैं। और जैसा कि ऊपर दिए गए अच्छे डेटा टॉर्चर कमेंट में दिया गया है, हावर्ड वेनर में एक अच्छा पेपर है, जिसमें दिखाया गया है कि कैसे डिब्बे मिल सकते हैं जो एक सकारात्मक जुड़ाव पैदा कर सकते हैं, और एक ऐसे डेटासेट से एक नकारात्मक जुड़ाव पैदा कर सकते हैं।

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

यह मुझे संदेह है। यदि आप अलग-अलग संख्या में डिब्बे चुनते हैं, तो आप जो कुछ भी खोज रहे हैं उसे दिखाने के लिए सर्वोत्तम सहसंबंध पा सकते हैं। लेकिन परिणाम प्रजनन योग्य या वैज्ञानिक रूप से मान्य नहीं होंगे। क्या आप रैंकिंग के बारे में किसी भी परिचयात्मक संसाधनों के बारे में जानते हैं?
बी सेवन

3
यह लेने के लिए एक अत्यधिक चरम स्थिति की तरह लगता है। बेशक रैंक-आधारित विधियां भी जानकारी खो देती हैं: वे वास्तविक मूल्यों के बारे में सभी जानकारी को छोड़ देते हैं। तो जानकारी हानि के बारे में सवाल यह है कि एक चिंता का विषय है कि विश्लेषण क्यों किया जा रहा है? यदि यह खोज और अन्वेषण के लिए है, तो बाइनिंग के विभिन्न निर्देशित रूप एक अच्छा काम कर सकते हैं जबकि रैंक के साथ सब कुछ की जगह रिश्तों को अस्पष्ट और विकृत कर देगा। यदि यह पुष्टि या परिकल्पना परीक्षण के लिए है, तो आपकी टिप्पणी अधिक सामान्यतः लागू और रक्षात्मक होगी।
whuber

2
मैं वास्तव में इससे सहमत नहीं हूं। रैंक-आधारित विधियों द्वारा खोई गई जानकारी का प्रकार न्यूनतम है (जैसे,π3πगाऊसी अवशिष्ट मामले में), और अधिक धारणा से भरे तरीकों के सापेक्ष वे जानकारी प्राप्त कर सकते हैं। माध्य और मात्राओं का अनुमान लगाने के लिए एक अर्धवृत्ताकार मॉडल (जैसे, आनुपातिक बाधाओं मॉडल) का उपयोग करना मुश्किल नहीं हैY|X। सूचना हानि लगभग हमेशा एक बुरी चीज है, चाहे अन्वेषण के दौरान (आप कुछ महत्वपूर्ण याद कर सकते हैं) या औपचारिक विश्लेषण के दौरान (शक्ति और सटीक नुकसान और मनमानी)।
फ्रैंक हरेल

2

देखे गए एक्स ("एंट्री पॉइंट क्वालिटी") के आधार पर डेटा को डिकाइल्स में विभाजित करना एक पुरानी विधि का सामान्यीकरण प्रतीत होता है, जिसे पहले वाल्ड द्वारा प्रस्तावित किया गया था और बाद में दूसरों के लिए उन स्थितियों के लिए जहां एक्स और वाई दोनों त्रुटि के अधीन हैं। (वाल्ड ने डेटा को दो समूहों में विभाजित किया। नायर और श्रीवास्तव और बार्टलेट ने इसे तीन में विभाजित किया।) इसे होजलिन, एस्टर और टुकी (विली, 1983) द्वारा संपादित अंडरस्टैंडिंग मजबूत और एक्सप्लोरेटरी डेटा विश्लेषण की धारा 5 सी में वर्णित किया गया है। हालांकि, इस तरह के "मापन त्रुटि" या "चर मॉडल में त्रुटि" पर बहुत काम किया गया है। मैंने जो पाठ्यपुस्तकें देखी हैं, वे माप त्रुटि हैं: जॉन बुओनाकोर्सी (सीआरसी प्रेस) द्वारा मॉडल, तरीके और अनुप्रयोग

आपकी स्थिति कुछ अलग हो सकती है क्योंकि आपका स्कैल्पलॉट मुझे संदेह करने के लिए प्रेरित करता है कि दोनों अवलोकन यादृच्छिक चर हैं और मुझे नहीं पता कि क्या वे प्रत्येक माप त्रुटि करते हैं। चर क्या दर्शाते हैं?


एंट्री पॉइंट क्वॉलिटी एक निश्चित समय में किसी स्टॉक में कितनी बढ़ोतरी या गिरावट आती है। इंडस्ट्री मोमेंटम उसी समय में स्टॉक के लिए उद्योग में "गति" का एक उपाय है। परिकल्पना यह है कि उद्योग की गति और स्टॉक की भविष्य की कीमत के बीच एक संबंध है।
बी सेवन

1
हम आम तौर पर ऊर्ध्वाधर अक्ष पर प्रतिक्रिया डालते हैं। दृश्य निरीक्षण से पता चलता है कि भले ही वास्तविक सहसंबंध हो, लेकिन प्रवेश बिंदु की गुणवत्ता में भिन्नता इसे बहुत बेकार बनाती है। लेकिन जब से आप स्टॉक की कीमतों के साथ काम कर रहे हैं, चीजें और भी जटिल हो जाती हैं क्योंकि समय श्रृंखला शामिल है।
एमिल फ्रीडमैन

2

मुझे इसके लिए लोकलगज़ पैकेज बहुत उपयोगी लगा। https://cran.r-project.org/web/packages/localgauss/index.html

पैकेज में शामिल है

स्थानीय गाऊसी मापदंडों का आकलन और कल्पना करने के लिए कम्प्यूटेशनल दिनचर्या। स्थानीय गौसियन पैरामीटर बिवरिएट डेटा के भीतर गैर-रैखिक निर्भरता के लिए चिह्नित करने और परीक्षण करने के लिए उपयोगी हैं।

उदाहरण:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

परिणाम:

यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.