कई उभरती हुई लाइनों के साथ एक स्कैप्लेट पर चर्चा कैसे करें?

11

हमने दो चर मापे हैं, और स्कैल्पलॉट कई "रैखिक" मॉडल का सुझाव देता है। क्या उन मॉडलों को खराब करने की कोशिश करने का एक तरीका है? अन्य स्वतंत्र चर की पहचान करना मुश्किल हो गया है।

दो चर का स्कैटरप्लॉट

दोनों चर भारी-भारी (छोटी संख्याओं की ओर) तिरछे हैं, यह हमारे डोमेन में अपेक्षित वितरण है। डॉट की तीव्रता इस पर डेटा बिंदुओं की मात्रा (एक पैमाने पर) का प्रतिनिधित्व करती है । $\log_{10}$ $<x,y>$

वैकल्पिक रूप से, क्या अंक को क्लस्टर करने का एक तरीका है?

हमारे क्षेत्र में, यह दावा किया जाता है कि ये दो चर रैखिक रूप से सहसंबंधित हैं। हम यह समझने / समझाने की कोशिश कर रहे हैं कि हमारे डेटा में ऐसा क्यों नहीं है।

(ध्यान दें, हमारे पास 17M डेटा पॉइंट हैं)

अद्यतन: सभी उत्तर के लिए धन्यवाद, यहां कुछ अनुरोधित स्पष्टीकरण दिए गए हैं:

दोनों चर केवल पूर्णांक हैं, जो लॉग स्कैप्लेट में कुछ पैटर्न की व्याख्या करते हैं।
सौभाग्य से, परिभाषा में दोनों चर का न्यूनतम मूल्य 1 है।
$<3,1>$

यहाँ अनुरोधित भूखंड हैं:

लॉग-लॉग स्कैप्लॉट: लॉग लॉग में स्कैटरप्लॉट

(रिक्तता पूर्णांक मानों के कारण होती है)

धुवीय निर्देशांक $\theta = y$

अनुपात का हिस्टोग्राम:

$1/3$

linear-model scatterplot

— डेवी लैंडमैन
स्रोत

2

(r, θ)

$(r,\theta)$

X

$X$

Y

$Y$

θ

$\theta$

θ

$\theta$

क्या Y और X प्राप्त करने में अनुपात शामिल हैं? क्या वे चर जो केवल असतत मूल्यों को शामिल करते हैं? यह लॉग-लॉग प्लॉट के रूप में कैसे दिखता है?

— Glen_b -Reinstate मोनिका

1

@whuber & Glen_b मैंने उन परिवर्तनों के साथ भूखंड जोड़े हैं।

— डेवी लैंडमैन

r

$r$

θ

$\theta$

θ

$\theta$

θ

$\theta$

@ जब मैंने प्लॉट को अपडेट किया है, थीटा को y पर रखा है, तो क्या यह आपके द्वारा बताई गई लाइनें हैं?

— डेवी लैंडमैन

7

$Y$ $X$ $Y/X$

$X/k$ $kX$ $k$

$Y = 0$ $\log(Y + \text{constant})$

शब्दावली का एक बिंदु: आंकड़ों में तिरछापन को पूंछ के संदर्भ में वर्णित किया जाता है जो अधिक फैला हुआ होता है। आप इस शब्दावली को पीछे की ओर समझने के लिए स्वतंत्र हैं। यहाँ दोनों चर उच्च मूल्यों या सकारात्मक या दाहिने-तिरछे तिरछे हैं।

$Y = 1$ $Y = 0$

पहले की तरह, मैं अलग-अलग धारियों को अलग-अलग तरीके से वैज्ञानिक सलाह के बिना उन्हें अलग करने या उन्हें अलग से व्यवहार करने की सलाह नहीं दूंगा। आपके पास जो है, उस पर आपको औसतन काम करना चाहिए। (विसंगति को दबाने के लिए इस तरह के डेटा के साथ ज्ञात तरीके हो सकते हैं। यदि आपके क्षेत्र के लोग नियमित रूप से प्रत्येक भूखंड के लिए लाखों बिंदुओं को मापते हैं, तो यह मानना मुश्किल है कि यह पहले नहीं देखा गया है।)

सहसंबंध निश्चित रूप से सकारात्मक होना चाहिए। एक औपचारिक महत्व परीक्षण के अलावा, जो यहां पूरी तरह से बेकार होगा क्योंकि मिनट के सहसंबंध इस नमूना आकार के साथ महत्वपूर्ण होंगे, चाहे इसे मजबूत घोषित किया जाए, यह आपके क्षेत्र में उम्मीदों और मानकों का मामला है। अपने सहसंबंध की तुलना दूसरों के परिणामों के साथ मात्रात्मक रूप से करना एक रास्ता है।

विवरण: सांख्यिकीय कन्वेंशन के अनुसार तिरछापन अभी भी गलत तरीके से गोल बताया गया है। ये चर सही तिरछा हैं; यह शब्दजगह जब क्षैतिज परिमाण अक्ष के साथ एक हिस्टोग्राम को देखता है और यह ध्यान देता है कि तिरछा नाम लंबी पूंछ के लिए रखा गया है, अधिक मूल्यों के साथ एकाग्रता नहीं।

— निक कॉक्स
स्रोत

मैंने लॉग-लॉग प्लॉट जोड़ा है, और तिरछापन के बारे में अधिक सटीक होने की कोशिश की है।

— डेवी लैंडमैन

4

\begin{aligned} Y_{i} & = α_{1} + β_{1} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_1 + \beta_1X_i + \epsilon_i \end{align}$

m^{t h}

$m^{th}$

\begin{aligned} Y_{i} & = α_{m} + β_{m} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_m + \beta_mX_i + \epsilon_i \end{align}$

M

$M$

m^{t h}

$m^{th}$

p_{m}

$p_m$

\sum_{m} p_{m} = 1

$\sum_m p_m =1$

$\epsilon$ $N(0,\sigma^2)$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} p_{m} \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M p_m\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

ϕ

$\phi$

3 M + 1

$3M+1$

\sum_{m} p_{m} = 1, p_{m} \geq 0

$\sum_m p_m=1,\; p_m\ge0$

α

$\alpha$

β

$\beta$

p_{m}

$p_m$

\frac{1}{M}

$\frac{1}{M}$

α

$\alpha$

β

$\beta$

$Z_i$ $p_m$ $p_m$ $Z_i$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} (\frac{e x p (δ_{m} + γ_{m} Z_{i})}{\sum_{m^{'}} e x p (δ_{m^{'}} + γ_{m^{'}} Z_{i})}) \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M \left(\frac{exp(\delta_m+\gamma_mZ_i)}{\sum_{m'} exp(\delta_{m'}+\gamma_{m'}Z_i)}\right)\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

$5M+1$ $5M-1$ $\delta, \gamma$

$M$

— बिल
स्रोत

2

M

$M$

2

मैंने अपने कुछ डेटा सेटों में समान व्यवहार देखा है। मेरे मामले में मेरे एक प्रोसेसिंग एल्गोरिदम में मात्रा-निर्धारण त्रुटि के कारण कई-विभिन्न लाइनें थीं।

यही है, हम संसाधित डेटा के तितर बितर भूखंडों को देख रहे हैं, और प्रसंस्करण एल्गोरिथ्म में कुछ मात्रा का प्रभाव था, जिससे डेटा में निर्भरताएं ठीक उसी तरह दिखती थीं जैसे आप ऊपर दिखते हैं।

परिमाणीकरण प्रभावों को ठीक करना, हमारे उत्पादन को दूर तक कम और कम clumped लग रहा है।

आपकी "रैखिक सहसंबंध" टिप्पणी के लिए। आपके द्वारा प्रस्तुत यह निर्धारित करने के लिए अपर्याप्त है कि क्या यह डेटा रैखिक सहसंबद्ध है या नहीं। अर्थात्, कुछ क्षेत्रों में, considered 0.7 का सहसंबंध गुणांक मजबूत रैखिक सहसंबंध माना जाता है। यह देखते हुए कि आपका अधिकांश डेटा मूल के पास है, यह काफी बोधगम्य है कि आपका डेटा "पारंपरिक ज्ञान" जो कहेगा उसके सापेक्ष रैखिक रूप से सहसंबद्ध है। सहसंबंध आपको डेटा सेट के बारे में बहुत कम बताता है।

— जॉन
स्रोत