मैं इस स्कैटर प्लॉट की व्याख्या कैसे करूं?


12

मेरे पास एक तितर बितर भूखंड है जिसका नमूना आकार है जो x अक्ष पर लोगों की संख्या के बराबर है और y अक्ष पर औसत वेतन है, मैं यह पता लगाने की कोशिश कर रहा हूं कि क्या नमूना आकार का औसत वेतन पर कोई प्रभाव पड़ता है।

यह साजिश है:

यहाँ छवि विवरण दर्ज करें

मैं इस साजिश की व्याख्या कैसे करूं?


3
यदि आप कर सकते हैं, तो मैं दोनों चर के परिवर्तन के साथ काम करने का सुझाव दूंगा। यदि न तो चर सटीक शून्य है, तो लॉग-लॉग पैमाने पर एक नज़र डालें
Glen_b -Reinstate Monica

@Glen_b क्षमा करें, आप उन शर्तों से परिचित नहीं हैं, जो आपने बताई हैं, बस कथानक को देखते हुए, क्या आप दो चर के बीच संबंध बना सकते हैं? मैं अनुमान लगा सकता हूं कि 1000 तक के सैंपल साइज के लिए है, एक ही सैंपल साइज वैल्यू के लिए कोई संबंध नहीं है। 1000 से अधिक के मूल्यों के लिए, औसत वेतन में कमी आती है। तुम क्या सोचते हो ?
समीप

मुझे इसके लिए कोई स्पष्ट प्रमाण नहीं दिख रहा है, यह मुझे बहुत सपाट लग रहा है; यदि स्पष्ट रूप से परिवर्तन हो तो यह संभवतः नमूना आकार के निचले हिस्से में चल रहा है। क्या आपके पास डेटा है, या केवल प्लॉट की छवि है?
Glen_b -Reinstate Monica

4
यदि आप माध्यिका को n यादृच्छिक चर के माध्यिका के रूप में देखते हैं, तो यह समझ में आता है कि नमूना का आकार बढ़ने पर माध्यिका की भिन्नता घट जाती है। यह भूखंड के बाईं ओर बड़े प्रसार की व्याख्या करेगा।
JAD

2
आपका विवरण "1000 तक नमूना आकार के लिए समान नमूना आकार मूल्यों के लिए कोई संबंध नहीं है, कई मध्ययुगीन मूल्य हैं" गलत है।
पीटर Flom - को पुनः स्थापित मोनिका

जवाबों:


9

"पता करें" इंगित करता है कि आप डेटा की खोज कर रहे हैं । औपचारिक परीक्षण सतही और संदिग्ध होंगे। इसके बजाय, डेटा में क्या हो सकता है यह प्रकट करने के लिए मानक खोजपूर्ण डेटा विश्लेषण (EDA) तकनीक लागू करें।

ये मानक तकनीकों में शामिल हैं फिर से अभिव्यक्ति , अवशिष्ट विश्लेषण , मजबूत तकनीक ( "तीन आर के" EDA की) और चौरसाई के रूप में अपने क्लासिक किताब में जॉन Tukey द्वारा वर्णित डेटा की EDA (1977)। बॉक्स-कॉक्स पर मेरी पोस्ट में इनमें से कुछ को कैसे व्यवस्थित किया जाए जैसे कि स्वतंत्र चर के लिए परिवर्तन? और रैखिक प्रतिगमन में, वास्तविक मूल्यों के बजाय एक स्वतंत्र चर के लॉग का उपयोग करना कब उचित है? , अन्य बातों के साथ

अपशॉट यह है कि लॉग-लॉग कुल्हाड़ियों (प्रभावी रूप से दोनों चर को फिर से व्यक्त करना) में परिवर्तन करके, डेटा को बहुत अधिक आक्रामक रूप से चौरसाई नहीं किया जा सकता है, और चिकनी की अवशिष्ट की जांच करके यह जांचने के लिए कि वह क्या याद कर सकता है, जैसा कि मैं वर्णन करता हूं।

यहां डेटा को एक सुचारू रूप से दिखाया गया है - डेटा के प्रति निष्ठा की अलग-अलग डिग्री के साथ कई स्मूथ की जांच करने के बाद - बहुत अधिक और बहुत कम स्मूथिंग के बीच एक अच्छा समझौता जैसा लगता है। यह एक प्रसिद्ध मजबूत विधि Loess का उपयोग करता है (यह लंबवत रूप से बाहरी बिंदुओं से बहुत प्रभावित नहीं है)।

लॉग-लॉग स्कैप्लॉट

ऊर्ध्वाधर ग्रिड 10,000 के चरणों में है। चिकनी करता है के कुछ बदलाव का सुझाव Grad_medianनमूना आकार के साथ: - विशेष रूप से छोटे नमूने, जहां नमूना त्रुटि अपेक्षाकृत बड़े होने की उम्मीद है के लिए - यह ड्रॉप करने नमूना आकार के दृष्टिकोण के रूप में 1000 (के सिरों चिकनी भरोसेमंद नहीं हैं लगता है तो डॉन 't उनमें बहुत अधिक पढ़ा है।) एक वास्तविक ड्रॉप की यह धारणा सॉफ्टवेयर द्वारा चिकनी के आसपास खींचे गए (बहुत ही मोटे) आत्मविश्वास बैंड द्वारा समर्थित है: इसके "विगल्स" बैंड की चौड़ाई से अधिक हैं।

यह देखने के लिए कि यह विश्लेषण क्या याद कर सकता है, अगला आंकड़ा अवशिष्टों को देखता है। (ये प्राकृतिक लघुगणक के अंतर हैं, सीधे डेटा के बीच लंबवत विसंगतियों को मापने से पहले चिकनी होती हैं। क्योंकि वे छोटी संख्याएं हैं जिन्हें आनुपातिक अंतर के रूप में व्याख्या किया जा सकता है; उदाहरण के लिए, एक डेटा मान को दर्शाता है जो संबंधित स्मूथ से लगभग कम है; मूल्य।)20 %0.220%

हम (ए) में रुचि रखते हैं कि क्या नमूने के आकार में परिवर्तन के रूप में भिन्नता के अतिरिक्त पैटर्न हैं और (बी) क्या प्रतिक्रिया के सशर्त वितरण - बिंदु पदों के ऊर्ध्वाधर वितरण - नमूना आकार के सभी मूल्यों के समान हैं, या क्या उनमें से कुछ पहलू (जैसे उनके प्रसार या समरूपता) बदल सकते हैं।

! [चित्र 2 अवशिष्ट के प्लॉट

यह चिकनी पहले की तुलना में अधिक बारीकी से डेटा पॉइंट्स का पालन करने की कोशिश करता है। फिर भी यह अनिवार्य रूप से क्षैतिज है (आत्मविश्वास बैंड के दायरे के भीतर, जो हमेशा का एक वाई-मूल्य कवर करता है ), सुझाव है कि आगे कोई भिन्नता का पता नहीं लगाया जा सकता है। यदि मध्य में औपचारिक रूप से परीक्षण किया जाए, तो मध्य के निकट ऊर्ध्वाधर प्रसार में मामूली वृद्धि (2000 से 3000 का नमूना आकार) महत्वपूर्ण नहीं होगी, और इसलिए यह निश्चित रूप से अचूक है। इस समग्र व्यवहार से कोई स्पष्ट, व्यवस्थित विचलन नहीं है, किसी भी अलग-अलग श्रेणियों में स्पष्ट (प्रतिष्ठित, बहुत अच्छी तरह से नहीं, रंग से - मैंने उन्हें अलग-अलग विश्लेषण किया यहां दिखाए गए आंकड़ों में अलग से नहीं)।0.0

नतीजतन, यह सरल सारांश:

माध्य वेतन 1000 के पास नमूना आकार के लिए लगभग 10,000 कम है

डेटा में दिखने वाले रिश्तों को पर्याप्त रूप से पकड़ लेता है और सभी प्रमुख श्रेणियों में समान रूप से पकड़ लेता है। चाहे वह महत्वपूर्ण हो - यानी, चाहे वह अतिरिक्त डेटा के साथ सामना करने पर खड़ा हो - केवल उन अतिरिक्त डेटा को इकट्ठा करके मूल्यांकन किया जा सकता है।


उन लोगों के लिए जो इस काम की जाँच करना चाहते हैं या इसे आगे ले जाना चाहते हैं, यहाँ Rकोड है।

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

Glen_b आपको सुझाव दे रहा है कि नमूना_साइज़ और माध्य वेतन का लघुगणक देखें कि क्या डेटा का अर्थ समझ में आता है।

मुझे नहीं पता कि मैं आपके विश्वास से सहमत हूं कि एक बार नमूना आकार 1,000 से ऊपर हो जाने पर मध्य वेतन कम हो जाता है। मैं यह कहना चाहूंगा कि कोई संबंध नहीं है। क्या आपका सिद्धांत भविष्यवाणी करता है कि संबंध होना चाहिए?

एक और तरीका है कि आप एक संभावित संबंध का आकलन कर सकते हैं डेटा के लिए एक प्रतिगमन लाइन फिट है। वैकल्पिक रूप से, आप एक नीच वक्र का उपयोग भी कर सकते हैं। अपने डेटा में दोनों लाइनों को प्लॉट करें और देखें कि क्या कुछ भी छेड़ा जा सकता है (मुझे संदेह है कि कुछ भी अत्यधिक है, हालांकि)।


3
स्कैप्लेटोट मेटा-विश्लेषण में उपयोग किए जाने वाले फ़नल प्लाट के समान है। एक समान उदाहरण देखें । फ़नल बैंड्स को प्लॉट करना अधिक स्पष्ट रूप से दिखाएगा यदि कोई संबंध है, तो इस उदाहरण में थोड़ा सकारात्मक हो सकता है।
एंडी डब्ल्यू

6

मैं भी मानता हूं कि कोई रिश्ता नहीं है। मैंने आपके मूल स्कैटर प्लॉट (बाएं) को पुन: पेश किया और लॉग-लॉग स्कैटर प्लॉट को glen_b (दाएं) द्वारा सुझाया गया।

यहाँ छवि विवरण दर्ज करें

ऐसा लगता है कि दोनों का कोई संबंध नहीं है। लॉग-रूपांतरित डेटा के बीच सहसंबंध कमजोर है (पियर्सन आर = -.13) और महत्वहीन (पी = .09)। आपके पास कितनी अतिरिक्त जानकारी है इसके आधार पर कुछ कमजोर नकारात्मक सहसंबंध को देखने का एक कारण हो सकता है, लेकिन यह एक खिंचाव जैसा लगता है। मुझे लगता है कि आप जो भी स्पष्ट पैटर्न देख रहे हैं, वही प्रभाव यहाँ देखा गया है

संपादित करें: @ famargar के भूखंडों को देखने के बाद मुझे एहसास हुआ कि मैंने औसत नमूना वेतन बनाम गैर- औसत मध्यस्थ वेतन दिया है। मैं चाहता था नमूने का आकार बनाम @sameed विश्वास स्नातक -median वेतन, हालांकि यह पूरी तरह से स्पष्ट नहीं है। बाद के लिए मैं @ famargar की संख्याओं को पुन: पेश करता हूं, अर्थात ( ) और हमारे प्लॉट समान दिखते हैं।पी = 0.98R=0.0022p=0.98


ग्रेड-माध्य और ग्रेड-नमूना-आकार के बीच सहसंबंध को देखने के लिए धन्यवाद; संख्याओं के अंतर से मैं बहुत हैरान था!
पारिवारिक

0

एक रेखीय प्रतिगमन की कोशिश करना आपको इस संबंध के बारे में कुछ सिखाएगा, जैसा कि पहले उत्तर में सुझाया गया है। चूँकि ऐसा लगता है कि आप इस प्लॉट के लिए अजगर प्लस मैट्लोटलिब का उपयोग कर रहे हैं, इसलिए आप समाधान से दूर कोड की एक पंक्ति हैं।

आप सीबोर्न संयुक्त का उपयोग कर सकते हैं, जो रैखिक प्रतिगमन रेखा, पियर्सन सहसंबंध गुणांक और इसके पी-मूल्य को भी प्रदर्शित करेगा:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

यहाँ छवि विवरण दर्ज करें

जैसा कि आप देख सकते हैं कि कोई संबंध नहीं है। इस अंतिम कथानक को देखते हुए, ऐसा लगता है कि एक्स-वेरिएबल को लॉग-ट्रांसफॉर्म करना उपयोगी होगा। चलो यह कोशिश करते हैं:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

यहाँ छवि विवरण दर्ज करें

आप स्पष्ट रूप से देख सकते हैं कि - लॉग-ट्रांसफॉर्मेशन या नहीं - सहसंबंध छोटा है, और पी-मूल्य और आत्मविश्वास अंतराल दोनों कहते हैं कि यह सांख्यिकीय रूप से सार्थक नहीं है।


3
दृढ़ता से तिरछे सशर्त वितरण के संकेत यह एक अच्छा दृष्टिकोण नहीं है। जब आप यह भी देखते हैं कि नमूना आकार के वितरण का तिरछापन कुछ सबसे बड़े नमूने आकारों का कारण बनेगा, तो प्रतिगमन में एक प्रवृत्ति की उपस्थिति को नियंत्रित करने के लिए, आप देखेंगे कि अन्य लोग डेटा के प्रारंभिक परिवर्तनों की सिफारिश क्यों कर रहे हैं।
whuber

1
मैं अनुमान या अनुमान नहीं लगा रहा हूं: प्रश्न में कथानक इन विशेषताओं को स्पष्ट रूप से दर्शाता है। आर ग्रेग स्टेसी द्वारा बनाए गए भूखंडों को भी देखें , जो कि सुझाए गए लॉग-लॉग परिवर्तनों को लागू करके - यह दर्शाता है कि वे क्या पूरा करते हैं।
whuber

मुझे सिर्फ डेटा मिला और अध्ययन स्वयं किया - कृपया अद्यतन उत्तर देखें।
पारिवारिक

आपके अध्ययन ने मेरे द्वारा बताई गई दो समस्याओं के आगे घुटने टेक दिए: "कोई सहसंबंध" की उपस्थिति तिरछी सशर्त प्रतिक्रियाओं के लिए छोटे हिस्से में नहीं आती है और उच्च प्रतिगामी मूल्यों के लिए लाभ उठाती है। विशेष रूप से, न तो फिट लाइन और न ही इसके त्रुटि बैंड भरोसेमंद हैं।
whuber

कृपया मेरे द्वारा जोड़े गए प्लॉट को देखें; मुझे उम्मीद है कि मैं इस अंतिम पुनरावृत्ति में कुछ भी याद नहीं कर रहा हूं।
पारिवारिक

-1

यह कथानक केंद्रीय सीमा प्रमेय के प्रदर्शन के रूप में काम करता है, जहां नमूने के बीच परिवर्तनशीलता नमूना आकार बढ़ने के साथ घट जाती है। यह भी आकार है कि आप वेतन की तरह जोरदार तिरछी चर के साथ उम्मीद करेंगे।


3
ये आम आबादी से स्वतंत्र नमूने नहीं हैं। यह CLT की प्रासंगिकता को समस्याग्रस्त बनाता है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.