कई रिग्रेशन के लिए अवशिष्ट बनाम सज्जित मूल्यों की सीधी रेखा में विकर्ण


11

मैं अपने डेटा के लिए अवशिष्ट में अजीब पैटर्न देख रहा हूं: यहां छवि विवरण दर्ज करें

[संपादित करें] यहाँ दो चर के लिए आंशिक प्रतिगमन भूखंड हैं:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] पीपी प्लॉट जोड़ा गया http://i.imgur.com/pCKFA.png

ऐसा लगता है कि वितरण ठीक हो रहा है (नीचे देखें) लेकिन मुझे कोई सुराग नहीं है कि यह सीधी रेखा कहां से आ रही है। कोई विचार? यहां छवि विवरण दर्ज करें

[अद्यतन 31.07]

यह पता चला है कि आप बिल्कुल सही थे, मेरे पास ऐसे मामले थे जहां रिट्वीट की गिनती वास्तव में 0 थी और इन ~ 15 मामलों के परिणामस्वरूप उन अजीब अवशिष्ट पैटर्न थे।

अवशेष अब बहुत अच्छे लगते हैं: http://i.imgur.com/XGas9.png

मैंने एक आंशिक लाइन के साथ आंशिक प्रतिगमन को भी शामिल किया है। http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


क्या आप मूल डेटा पर भी फिट की गई लाइन जोड़ सकते हैं?
9

इसके अलावा, आंकड़े के उपशीर्षक कहते हैं "समुदाय: मोबाइल फोनों" और "समुदाय: ज्योतिष", जो कि लगता है कि ये भूखंड विभिन्न डेटा सेटों से आते हैं ...
9

मुझे याद है कि मेरे अवशिष्ट में इस प्रकार के पैटर्न देखने को मिलते हैं जब मेरे आश्रित चर स्पष्ट या 'निरंतर पर्याप्त नहीं' होते हैं।
राजा

मैंने उचित पीपी प्लॉट और दो IV के आंशिक प्लॉट
जोड़े हैं

जवाबों:


23

ऐसा लगता है कि इसकी कुछ व्यवस्था पर आपका आश्रित चर स्थिर है या भविष्यवक्ता (ओं) पर रैखिक रूप से निर्भर है। चलो दो सहसंबद्ध चर हैं, X और Y (Y निर्भर है)। बिखराव बाईं ओर है।

यहां छवि विवरण दर्ज करें

चलो, उदाहरण के लिए, पहली ("स्थिर") संभावना पर लौटते हैं। सबसे कम से -0.5 तक सभी Y मानों को एकल मान -1 (केंद्र में चित्र) देखें। एक्स पर रेग वाई और प्लॉट के अवशेष बिखरे हुए हैं, अर्थात, केंद्रीय चित्र को घुमाएं ताकि भविष्यवाणी लाइन अब क्षैतिज हो। क्या यह आपकी तस्वीर जैसा दिखता है?


6
यह सबसे अच्छा है फोरेंसिक आँकड़े! एक बड़ा +1।
माइकल आर। चेर्निक

यह पता चला है कि आप बिल्कुल सही थे, मेरे पास ऐसे मामले थे जहां रिट्वीट की गिनती वास्तव में 0 थी और इन ~ 15 मामलों के परिणामस्वरूप उन अजीब अवशिष्ट पैटर्न थे। i.imgur.com/XGas9.png
प्लूटी

4

यह आश्चर्य की बात नहीं है कि आप हिस्टोग्राम में पैटर्न नहीं देखते हैं, विषम पैटर्न हिस्टोग्राम की काफी हद तक फैला है और प्रत्येक बिन में केवल कुछ डेटा बिंदुओं का प्रतिनिधित्व करता है। आपको वास्तव में यह पता लगाने की आवश्यकता है कि कौन से डेटा बिंदु हैं और उन्हें देखें। आप उन्हें आसानी से खोजने के लिए अनुमानित मूल्यों और अवशिष्टों का उपयोग कर सकते हैं। एक बार जब आप मान पाते हैं कि उन लोगों की जांच क्यों शुरू हो सकती है कि वे विशेष क्यों हो सकते हैं।

कहा जाता है कि, यह विशेष पैटर्न केवल विशेष है क्योंकि यह लंबा है। यदि आप अपने अवशिष्ट प्लॉट और अपने क्वांटाइल प्लॉट को ध्यान से देखते हैं तो आप देखेंगे कि यह दोहराता है लेकिन यह छोटा क्रम है। शायद यह वास्तव में सिर्फ एक विसंगति है। या शायद यह वास्तव में एक पैटर्न है जो दोहराता है। लेकिन, आपको यह पता लगाना होगा कि यह कच्चे डेटा में कहां है और इसे समझने के लिए किसी भी तरह की उम्मीद है।

आपको थोड़ी मदद करने के लिए, क्वांटाइल-क्वांटाइल प्लॉट से पता चलता है कि आपके पास समान अवशिष्टों का एक समूह है। यह संभव है कि यह एक कोडिंग त्रुटि हो सकती है। मैं आर के साथ कुछ इसी तरह उत्पन्न कर सकते हैं ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

लाइन में फ्लैट दो फ्लैट स्पॉट पर ध्यान दें। हालाँकि, यह उससे कहीं अधिक जटिल लगता है क्योंकि वहाँ एक निहितार्थ है कि समान अवशिष्ट भविष्यवक्ताओं की एक श्रेणी में आ रहे हैं।


3

ऐसा लगता है कि आप उपयोग कर रहे हैं R। यदि हां, तो ध्यान दें कि आप का उपयोग कर एक scatterplot पर बिंदुओं की पहचान कर सकते हैं ? पहचान । मुझे लगता है कि यहां कई चीजें चल रही हैं। पहले, आपके पास LN_RT_vol_in ~ LN_AT_vol_in(.2, 1.5) पर (हाइलाइट किए गए) के प्लॉट पर एक बहुत प्रभावशाली बिंदु है । यह लगभग -3.7 के मानकीकृत अवशिष्ट होने की बहुत संभावना है। उस बिंदु का प्रभाव प्रतिगमन रेखा को समतल करने के लिए होगा, इसे तेजी से ऊपर की ओर की रेखा से अधिक क्षैतिज रूप से झुकाना होगा अन्यथा आपको मिल जाएगा। इसका एक प्रभाव यह है कि आपके सभी अवशेषों को जहां वे अन्यथा भूखंड के भीतर स्थित हैं (कम से कम जब उस कोवरिएट के संदर्भ में सोचते हैं और दूसरे को अनदेखा करते हैं) के सापेक्ष वामावर्त घुमाया जाएगा residual ~ predicted

फिर भी, आपके द्वारा देखे जाने वाले अवशिष्टों की स्पष्ट सीधी रेखा अभी भी वहाँ होगी, क्योंकि वे आपके मूल डेटा के 3-आयामी क्लाउड में कहीं मौजूद हैं। वे सीमांत भूखंडों में से किसी एक में मिलना मुश्किल हो सकता है। आप पहचान () फ़ंक्शन का उपयोग मदद करने के लिए कर सकते हैं, और आप एक गतिशील 3 डी स्कैल्प्लॉट बनाने के लिए rgl पैकेज का उपयोग भी कर सकते हैं जिसे आप अपने माउस के साथ स्वतंत्र रूप से घुमा सकते हैं। हालांकि, ध्यान दें कि सीधी रेखा के अवशेष उनके अनुमानित मूल्य में सभी 0 से नीचे हैं, और 0 से नीचे के अवशेष हैं (यानी, वे फिट किए गए प्रतिगमन लाइन से नीचे हैं); जहाँ आप को देखने के लिए एक बड़ा संकेत देता है। के अपने प्लॉट पर फिर से देख रहे हैंLN_RT_vol_in ~ LN_AT_vol_in, मुझे लगता है कि मैं उन्हें देख सकता हूं। उस क्षेत्र में बिंदुओं के बादल के निचले किनारे पर तिरछे नीचे और बाएँ से लगभग (-.01, -1.00) चलने वाले बिंदुओं का एक बहुत सीधा समूह है। मुझे संदेह है कि प्रश्न में वे बिंदु हैं।

दूसरे शब्दों में, अवशिष्ट उस तरह से दिखते हैं क्योंकि वे उस तरह से पहले से ही डेटा स्थान के भीतर कहीं हैं। संक्षेप में, यह वही है जो @ttnphns सुझाव दे रहा है, लेकिन मुझे नहीं लगता कि यह किसी भी मूल आयाम में एक स्थिर है - यह आपके मूल अक्षों के कोण पर एक आयाम में एक निरंतर है। मैं आगे @MichaelChernick से सहमत हूं कि अवशिष्ट भूखंड में यह स्पष्टता शायद हानिरहित है, लेकिन यह कि आपका डेटा वास्तव में बहुत सामान्य नहीं है। हालांकि, वे कुछ सामान्य-ईश हैं, और आपको डेटा की एक सभ्य संख्या प्रतीत होती है, इसलिए CLT आपको कवर कर सकता है, लेकिन आप केवल मामले में बूटस्ट्रैप करना चाहते हैं। अंत में, मुझे चिंता होगी कि वह 'बाहरी' आपके परिणामों को चला रहा है; एक मजबूत दृष्टिकोण शायद विलय कर दिया गया है।


1
क्या यह आपका कथन it's a constant in a dimension at an angle to your original axesमेरे साथ तुलना करने योग्य हो सकता है is exactly linearly dependent on the predictor(s), या आपका मतलब कुछ अलग है?
ttnphns

@ttnphns, जब मैंने इसे स्किम्ड किया, तो मुझे आपके उत्तर का वह हिस्सा याद आ गया; मैंने "स्थिर" देखा और आपके प्लॉट में बिंदुओं को देखा, और यही मैंने दूर ले लिया। हां, "यह एक आयाम में एक स्थिर है ..." तार्किक रूप से पर्यायवाची है w / "बिल्कुल रैखिक रूप से निर्भर है ..."। मुझे अब एहसास हुआ कि मेरा मुख्य बिंदु काफी हद तक आपका (+1) जैसा है, हालांकि मुझे लगता है कि मेरे कुछ अन्य बिंदु (फिर से कौन से डेटा के अपराधी होने की संभावना है, आर रणनीतियों, मजबूत दृष्टिकोण, आदि) अभी भी चर्चा में कुछ योगदान करते हैं।
गंग -

यकीन है, आपके जवाब ने मेरे लिए बहुत योगदान दिया।
ttnphns

1

मैं जरूरी नहीं कहूंगा कि हिस्टोग्राम ठीक है। हिस्टोग्राम पर सामान्य रूप से सबसे अच्छी फिटिंग को सुपरइम्पोज़ करना भ्रामक हो सकता है और आपका हिस्टोग्रसम बिन चौड़ाई की पसंद के प्रति संवेदनशील हो सकता है। सामान्य संभावना प्लॉट सामान्य से बड़े प्रस्थान का संकेत देता है और यहां तक ​​कि हिस्टोग्राम को देखने से मेरी आंख थोड़ी तिरछी लगती है ([0.5,0] बिन की तुलना में [0, + 0.5] बिन में अधिक आवृत्ति) और गंभीर कर्टोसिस (अंतराल में एक आवृत्ति का बहुत बड़ा [-4, -3.5] और [2.5, 3])।

पैटर्न के बारे में आप यह देख सकते हैं कि यह स्कैल्पलॉट के माध्यम से चयनात्मक खोज से आ रहा है। ऐसा लगता है कि यदि आप कुछ और शिकार करते हैं, तो आप दो या तीन और लाइनें पा सकते हैं, जो आपके द्वारा चुने गए के समानांतर हैं। मुझे लगता है कि आप इसमें बहुत अधिक पढ़ रहे हैं। लेकिन गैर-असमानता एक वास्तविक चिंता है। आपके पास लगभग -4 के अवशिष्ट के साथ एक बहुत बड़ा बाहरी क्षेत्र है। क्या ये अवशेष कम से कम वर्गों से आते हैं? मैं सहमत हूं कि डेटा के एक बिखरे हुए भूखंड पर फिट लाइन को देखने के लिए यह ज्ञानवर्धक हो सकता है।


मैंने दो IV के आंशिक भूखंडों को इस पर अधिक प्रकाश डालने के लिए जोड़ा है
प्लूटी

1
मैं सबसे बुनियादी बात देखना चाहूंगा, डेटा की एक बिखरी हुई साजिश के माध्यम से चलने वाली फिट लाइन।
माइकल आर। चेर्निक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.