कई उभरती हुई लाइनों के साथ एक स्कैप्लेट पर चर्चा कैसे करें?


11

हमने दो चर मापे हैं, और स्कैल्पलॉट कई "रैखिक" मॉडल का सुझाव देता है। क्या उन मॉडलों को खराब करने की कोशिश करने का एक तरीका है? अन्य स्वतंत्र चर की पहचान करना मुश्किल हो गया है।

दो चर का स्कैटरप्लॉट

दोनों चर भारी-भारी (छोटी संख्याओं की ओर) तिरछे हैं, यह हमारे डोमेन में अपेक्षित वितरण है। डॉट की तीव्रता इस < x , y > पर डेटा बिंदुओं की मात्रा (एक पैमाने पर) का प्रतिनिधित्व करती है । log10<x,y>

वैकल्पिक रूप से, क्या अंक को क्लस्टर करने का एक तरीका है?

हमारे क्षेत्र में, यह दावा किया जाता है कि ये दो चर रैखिक रूप से सहसंबंधित हैं। हम यह समझने / समझाने की कोशिश कर रहे हैं कि हमारे डेटा में ऐसा क्यों नहीं है।

(ध्यान दें, हमारे पास 17M डेटा पॉइंट हैं)

अद्यतन: सभी उत्तर के लिए धन्यवाद, यहां कुछ अनुरोधित स्पष्टीकरण दिए गए हैं:

  • दोनों चर केवल पूर्णांक हैं, जो लॉग स्कैप्लेट में कुछ पैटर्न की व्याख्या करते हैं।
  • सौभाग्य से, परिभाषा में दोनों चर का न्यूनतम मूल्य 1 है।
  • <3,1>

यहाँ अनुरोधित भूखंड हैं:

लॉग-लॉग स्कैप्लॉट: लॉग लॉग में स्कैटरप्लॉट

(रिक्तता पूर्णांक मानों के कारण होती है)

धुवीय निर्देशांक θ=y

अनुपात का हिस्टोग्राम: अनुपात का हिस्टोग्राम

1/3


2
(r,θ)XYθθ

क्या Y और X प्राप्त करने में अनुपात शामिल हैं? क्या वे चर जो केवल असतत मूल्यों को शामिल करते हैं? यह लॉग-लॉग प्लॉट के रूप में कैसे दिखता है?
Glen_b -Reinstate मोनिका

1
@whuber & Glen_b मैंने उन परिवर्तनों के साथ भूखंड जोड़े हैं।
डेवी लैंडमैन

rθθθ

@ जब मैंने प्लॉट को अपडेट किया है, थीटा को y पर रखा है, तो क्या यह आपके द्वारा बताई गई लाइनें हैं?
डेवी लैंडमैन

जवाबों:


7

YXY/X

X/kkXk

Y=0log(Y+constant)

शब्दावली का एक बिंदु: आंकड़ों में तिरछापन को पूंछ के संदर्भ में वर्णित किया जाता है जो अधिक फैला हुआ होता है। आप इस शब्दावली को पीछे की ओर समझने के लिए स्वतंत्र हैं। यहाँ दोनों चर उच्च मूल्यों या सकारात्मक या दाहिने-तिरछे तिरछे हैं।

Y=1Y=0

पहले की तरह, मैं अलग-अलग धारियों को अलग-अलग तरीके से वैज्ञानिक सलाह के बिना उन्हें अलग करने या उन्हें अलग से व्यवहार करने की सलाह नहीं दूंगा। आपके पास जो है, उस पर आपको औसतन काम करना चाहिए। (विसंगति को दबाने के लिए इस तरह के डेटा के साथ ज्ञात तरीके हो सकते हैं। यदि आपके क्षेत्र के लोग नियमित रूप से प्रत्येक भूखंड के लिए लाखों बिंदुओं को मापते हैं, तो यह मानना ​​मुश्किल है कि यह पहले नहीं देखा गया है।)

सहसंबंध निश्चित रूप से सकारात्मक होना चाहिए। एक औपचारिक महत्व परीक्षण के अलावा, जो यहां पूरी तरह से बेकार होगा क्योंकि मिनट के सहसंबंध इस नमूना आकार के साथ महत्वपूर्ण होंगे, चाहे इसे मजबूत घोषित किया जाए, यह आपके क्षेत्र में उम्मीदों और मानकों का मामला है। अपने सहसंबंध की तुलना दूसरों के परिणामों के साथ मात्रात्मक रूप से करना एक रास्ता है।

विवरण: सांख्यिकीय कन्वेंशन के अनुसार तिरछापन अभी भी गलत तरीके से गोल बताया गया है। ये चर सही तिरछा हैं; यह शब्दजगह जब क्षैतिज परिमाण अक्ष के साथ एक हिस्टोग्राम को देखता है और यह ध्यान देता है कि तिरछा नाम लंबी पूंछ के लिए रखा गया है, अधिक मूल्यों के साथ एकाग्रता नहीं।


मैंने लॉग-लॉग प्लॉट जोड़ा है, और तिरछापन के बारे में अधिक सटीक होने की कोशिश की है।
डेवी लैंडमैन

4

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmthpmmpm=1

ϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpm1Mαβ

ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

5M+15M1δ,γ

M


2
M

2

मैंने अपने कुछ डेटा सेटों में समान व्यवहार देखा है। मेरे मामले में मेरे एक प्रोसेसिंग एल्गोरिदम में मात्रा-निर्धारण त्रुटि के कारण कई-विभिन्न लाइनें थीं।

यही है, हम संसाधित डेटा के तितर बितर भूखंडों को देख रहे हैं, और प्रसंस्करण एल्गोरिथ्म में कुछ मात्रा का प्रभाव था, जिससे डेटा में निर्भरताएं ठीक उसी तरह दिखती थीं जैसे आप ऊपर दिखते हैं।

परिमाणीकरण प्रभावों को ठीक करना, हमारे उत्पादन को दूर तक कम और कम clumped लग रहा है।

आपकी "रैखिक सहसंबंध" टिप्पणी के लिए। आपके द्वारा प्रस्तुत यह निर्धारित करने के लिए अपर्याप्त है कि क्या यह डेटा रैखिक सहसंबद्ध है या नहीं। अर्थात्, कुछ क्षेत्रों में, considered 0.7 का सहसंबंध गुणांक मजबूत रैखिक सहसंबंध माना जाता है। यह देखते हुए कि आपका अधिकांश डेटा मूल के पास है, यह काफी बोधगम्य है कि आपका डेटा "पारंपरिक ज्ञान" जो कहेगा उसके सापेक्ष रैखिक रूप से सहसंबद्ध है। सहसंबंध आपको डेटा सेट के बारे में बहुत कम बताता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.