हमने दो चर मापे हैं, और स्कैल्पलॉट कई "रैखिक" मॉडल का सुझाव देता है। क्या उन मॉडलों को खराब करने की कोशिश करने का एक तरीका है? अन्य स्वतंत्र चर की पहचान करना मुश्किल हो गया है।
दोनों चर भारी-भारी (छोटी संख्याओं की ओर) तिरछे हैं, यह हमारे डोमेन में अपेक्षित वितरण है। डॉट की तीव्रता इस < x , y > पर डेटा बिंदुओं की मात्रा (एक पैमाने पर) का प्रतिनिधित्व करती है ।
वैकल्पिक रूप से, क्या अंक को क्लस्टर करने का एक तरीका है?
हमारे क्षेत्र में, यह दावा किया जाता है कि ये दो चर रैखिक रूप से सहसंबंधित हैं। हम यह समझने / समझाने की कोशिश कर रहे हैं कि हमारे डेटा में ऐसा क्यों नहीं है।
(ध्यान दें, हमारे पास 17M डेटा पॉइंट हैं)
अद्यतन: सभी उत्तर के लिए धन्यवाद, यहां कुछ अनुरोधित स्पष्टीकरण दिए गए हैं:
- दोनों चर केवल पूर्णांक हैं, जो लॉग स्कैप्लेट में कुछ पैटर्न की व्याख्या करते हैं।
- सौभाग्य से, परिभाषा में दोनों चर का न्यूनतम मूल्य 1 है।
यहाँ अनुरोधित भूखंड हैं:
लॉग-लॉग स्कैप्लॉट:
(रिक्तता पूर्णांक मानों के कारण होती है)
अनुपात का हिस्टोग्राम: