मैं एकाधिक प्रतिगमन विश्लेषण में रैखिकता धारणा का परीक्षण करने के लिए के मूल्य का उपयोग कैसे कर सकता हूं ?


13

नीचे दिए गए रेखांकन एक प्रतिगमन परीक्षण के अवशिष्ट तितर बितर भूखंड हैं, जिसके लिए "सामान्यता", "समरूपता" और "स्वतंत्रता" मान्यताओं को पहले से ही सुनिश्चित किया गया है! "रैखिकता" धारणा का परीक्षण करने के लिए , हालांकि, ग्राफ़ को देखकर यह अनुमान लगाया जा सकता है कि संबंध वक्रतापूर्ण है, लेकिन सवाल यह है: रैखिकता धारणा का परीक्षण करने के लिए "R2 रैखिक" के मूल्य का उपयोग कैसे किया जा सकता है? यदि संबंध रैखिक हो रहा है, तो यह तय करने के लिए "R2 रैखिक" के मूल्य के लिए स्वीकार्य सीमा क्या है ? जब रैखिकता धारणा को पूरा नहीं किया जाता है और IVs को बदलने से भी मदद नहीं मिलती है तो क्या करें? !!

यहां परीक्षा के पूर्ण परिणामों की लिंक दी गई है।

तितर बितर भूखंडों:

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें


3
मैं उन रेखांकन के लुक से देखता हूं जो आप SPSS का उपयोग कर रहे हैं। बस संपादित करने के लिए ग्राफ खोलें और "फिट लाइन बटन जोड़ें" वहां आपको कुछ नॉनलाइनर रेखा-ड्राइंग विकल्प, जैसे कि Loess मिलेंगे। जांचें कि क्या यह विकल्प आपको एक सीधी रेखा देता है।
ttnphns

@ ttnphns: मैंने Loess लाइन 2 के साथ साजिश को जोड़ा।
सायरस

खैर, यह काफी घटिया प्रतीत होता है, है ना? क्या होता है यह देखने के लिए आप लूस मापदंडों के साथ अधिक खेल सकते हैं। यदि रेखा घुमावदार है तो आप नेत्रहीन निष्कर्ष निकाल सकते हैं कि संबंध रैखिक नहीं है।
ttnphns

@ साइरस, मैंने इस प्रश्न का एक सामान्य उत्तर पोस्ट किया है, लेकिन आपके भूखंडों पर थोड़ी व्याख्या करने वाला था और महसूस किया कि मुझे यकीन नहीं है कि आपके प्लॉट में और अक्ष क्या हैं - क्या आप स्पष्ट कर सकते हैं? xy
मैक्रों

@ ttnphns: हाँ, यह वक्र है। मैं नहीं जानता कि कैसे इस मॉडल का इलाज करने के लिए! इस परीक्षण (# 2) में मेरे पास 2 IVs हैं जो सीधे DV (PIT) को प्रभावित करते हैं। प्रतिगमन परिणाम से पता चला है कि IV में से केवल 1 DV को काफी प्रभावित करता है। R2 बहुत कम है (0.172) और रैखिकता भी कम हो रही है (कम से कम, ग्राफ के अनुसार, जब IV निम्न स्तर पर है)। मुझे नहीं पता कि यह परीक्षण स्वीकार्य है या नहीं! यहां तक ​​कि मैंने दोनों IVs (अपने एलएन की गणना करके) को फिर से चलाया और प्रतिगमन को फिर से चलाया, लेकिन नतीजा और भी बुरा निकला!
सायरस

जवाबों:


15

नोट linearity धारणा आप केवल की बात कर रहे का कहना है कि की सशर्त मतलब दिया रैखिक कार्य हैX iYiXi । आप इस धारणा का परीक्षण करने के लिए के मान का उपयोग नहीं कर सकते ।R2

इसका कारण यह है कि केवल देखे गए और पूर्वानुमानित मानों के बीच वर्गीय सहसंबंध है और सहसंबंध गुणांक का विशिष्ट रूप से और (रैखिक या अन्यथा) के बीच संबंध निर्धारित नहीं किया जाता है और निम्नलिखित दोनों परिदृश्य संभव हैं: एक्स वाईR2XY

  • उच्च लेकिन रैखिकता धारणा अभी भी एक महत्वपूर्ण तरीके से गलत हैR2

  • कम लेकिन रैखिकता धारणा अभी भी संतुष्ट हैR2

मैं प्रत्येक पर बारी-बारी से चर्चा करूंगा:

(1) हाई लेकिन एक महत्वपूर्ण तरीके से रैखिकता धारणा अभी भी गलत है:R2 यहां ट्रिक इस तथ्य को हेरफेर करने के लिए है कि सहसंबंध आउटलेर के प्रति बहुत संवेदनशील है । मान लीजिए कि आपके पास भविष्यवाणियां हैं जो कि एक मिश्रण वितरण से उत्पन्न होता है जो कि मानक सामान्य है और एक बिंदु द्रव्यमान अन्य और एक प्रतिक्रिया चर है जो कि है एक्स 1 ,, एक्स एन 99%एम1%X1,...,Xn99%M1%

Yi={Ziif XiMMif Xi=M

जहाँ और एक सकारात्मक स्थिरांक है जो , जैसे कि । फिर और लगभग पूरी तरह से सहसंबद्ध होंगे:ZiN(μ,1)Mμμ=0,M=105XiYi

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

तथ्य यह है कि के उम्मीद मूल्य के बावजूद दिया रैखिक नहीं है - वास्तव में यह एक असंतत कदम समारोह और की उम्मीद मूल्य है करता है भी पर निर्भर नहीं जब छोड़कर ।YiXiYiXiXi=M

(2) निम्न लेकिन रैखिकता धारणा अभी भी संतुष्ट है:R2 यहाँ चाल रैखिक बड़े आकार के चारों ओर "शोर" की मात्रा बनाने के लिए है। मान लीजिए कि आपके पास एक भविष्यवक्ता और प्रतिक्रिया और मॉडल हैXiYi

Yi=β0+β1Xi+εi

सही मॉडल था। इसलिए, की सशर्त मतलब दिया रैखिक कार्य है तो linearity धारणा संतुष्ट हो जाता है,। यदि सापेक्ष बड़ा है तो छोटा होगा। उदाहरण के लिए,एक्स मैं एक्स मैं वी एक आर ( ε मैं ) = σ 2 β 1 आर 2YiXiXivar(εi)=σ2β1R2

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

इसलिए, रैखिकता धारणा का आकलन यह देखने का विषय नहीं है कि कुछ सहन करने योग्य सीमा के भीतर हैR2 , लेकिन यह भविष्यवाणियों / पूर्वानुमानित मूल्यों और प्रतिक्रिया के बीच तितर बितर भूखंडों की जांच करने और एक (शायद व्यक्तिपरक) निर्णय लेने का मामला है।

पुन: क्या करें जब रैखिकता धारणा को पूरा नहीं किया जाता है और IVs को बदलने से भी मदद नहीं मिलती है? !!

जब गैर-रैखिकता एक मुद्दा है, तो यह प्रत्येक भविष्यवक्ता बनाम अवशेषों के भूखंडों को देखने के लिए सहायक हो सकता है - यदि कोई ध्यान देने योग्य पैटर्न है, तो यह उस भविष्यवक्ता में गैर-रैखिकता का संकेत दे सकता है। उदाहरण के लिए, यदि यह भूखंड अवशेषों और भविष्यवक्ता के बीच "कटोरे के आकार का" संबंध को प्रकट करता है, तो यह उस भविष्यवक्ता में एक लापता द्विघात शब्द को इंगित कर सकता है। अन्य पैटर्न एक अलग कार्यात्मक रूप का संकेत दे सकते हैं। कुछ मामलों में, यह हो सकता है कि आपने सही परिवर्तन करने की कोशिश नहीं की है या यह सच है कि मॉडल चर के किसी भी रूपांतरित संस्करण में रैखिक नहीं है (हालांकि यह एक उचित अनुमान लगाने के लिए संभव हो सकता है)।

अपने उदाहरण के बारे में: दो अलग-अलग आश्रित चर के लिए अनुमानित बनाम वास्तविक भूखंडों (मूल पोस्ट में 1 और 3 भूखंड) के आधार पर, यह मुझे लगता है कि दोनों मामलों के लिए रैखिकता धारणा स्थिर है। पहले कथानक में, ऐसा लगता है कि कुछ विषमलैंगिकता हो सकती है, लेकिन दोनों के बीच संबंध बहुत रैखिक दिखता है। दूसरे प्लॉट में, संबंध रैखिक दिखता है, लेकिन रिश्ते की ताकत कमजोर होती है, जैसा कि रेखा के चारों ओर बड़े बिखराव से संकेत मिलता है (यानी बड़ी त्रुटि भिन्नता) - यही कारण है कि आप कम देख रहे हैं ।R2


4

निश्चित रूप से LOESS की तरह एक चिकनी फिटिंग और यह देखना कि फिट के लिए रैखिक कितना करीब है, फ़ंक्शन के रैखिकता का आकलन करने का एक तरीका है। मैं प्रश्न के मुख्य बिंदु को संबोधित करना चाहता हूं जो कि आर स्क्वायर किस सीमा तक रैखिकता को माप सकता है। स्पष्ट रूप से एक मतलब है कि डेटा एक लाइन पर पूरी तरह से गिरता है। लेकिन यह कैसे के करीब का सवाल करता है की जरूरत निर्धारित करने के लिए कि वक्र रैखिक है और अधिक कठिन की तुलना में यह लग सकता है है किया जाना है। निश्चित रूप से नमूना आकार एक कारक है। यदि आपके पास सिर्फ 3 से 6 अंक1 R 2 R 2 2 1 < x < 2 R 2 R 2R2=11R2R2फ़ंक्शन के आकार की परवाह किए बिना बहुत अधिक होगा, जो डेटा का प्रतिनिधित्व कर सकता है। यहां तक ​​कि बड़े नमूनों में उस क्षेत्र में जहां डेटा एकत्र किया जाता है। Nonlinear फ़ंक्शंस स्थानीय रूप से रैखिक दिखाई देंगे। यह विशेष रूप से बहुपद के लिए सच है। फ़ंक्शन पर विचार करें y = x । क्षेत्र में फ़ंक्शन रैखिक दिखता है और इस मॉडल से उत्पन्न होने वाले डेटा को थोड़ा अतिरिक्त शोर के साथ लिए उच्च मूल्य मिलेगा । दूसरी ओर मॉडल पूरी तरह से रैखिक हो सकता है लेकिन एक बड़ा शोर घटक है और छोटा हो सकता है।21<x<2R2R2


धन्यवाद माइकल। मेरे नमूने का आकार 302 है। मैं इसकी सराहना करता हूँ यदि u यहाँ परीक्षण के परिणामों पर एक नज़र डाल सकता है और देख सकता है कि क्या यह प्रशंसनीय और रिपोर्ट करने योग्य है। TQ
सायरस

@ साइरस यह एक कठिन है। अवशिष्ट ऐसे दिखते हैं जैसे वे सामान्य रूप से अच्छी तरह से फिट होते हैं और ऐसा कुछ भी नहीं है जो मैं देख सकता हूं कि रैखिक प्रतिगमन के साथ गलत होगा। आपके पास एक अच्छी मात्रा में डेटा है। आर वर्ग कम है क्योंकि यादृच्छिक शोर घटक बड़ा है। LOESS प्लॉट स्वतंत्र चर के निचले मूल्यों पर कुछ वक्रता दिखाता है। लेकिन मुझे यह समझ में नहीं आता है। मुझे लगता है कि यह अच्छी तरह से रैखिक हो सकता है और यह दिखाता है कि आर स्क्वायर इस मामले में एक अच्छा संकेतक क्यों नहीं है।
माइकल आर। चेरिक जूल 22'12

Tq माइकल :) हाँ, यह वास्तव में हैरान करने वाला है! सभी धारणाएँ पूरी तरह से मिलती हैं, लेकिन रैखिकता! जैसा कि आप ऊपर दिए गए 1 ग्राफ में देख सकते हैं, द्विघात R2 (0.199) रैखिक R2 (0.172) से बड़ा है, जिसका अर्थ है कि यह मॉडल का बेहतर अनुमान लगा सकता है। वास्तव में जब मैंने द्विघात प्रतिगमन किया था (SC2 जोड़कर) परिणाम में बिखराव की साजिश इतनी विषम थी! मैं बहुत उलझन में हूँ! पता नहीं इस मॉडल के साथ क्या करना है! यह केवल समस्या है इसकी कम रैखिकता। मैं नहीं जानता कि अगर मैं अपनी रिपोर्ट में बिखराव की साजिश को लागू करता हूं तो यह कैसे रैखिकता का औचित्य साबित करता है। द्विघात प्रतिगमन भी 2meet समरूपता धारणा को विफल करता है। मदद
साइरस

1
मुझे नहीं लगता कि यह चिंताजनक है। यह काफी रैखिक दिखता है। कई प्रकार की परिवर्तनशीलता है जिसके कारण R वर्ग कम है। मुझे लगता है कि परिवर्तनशीलता को कम करने के लिए एक ही तरीका हो सकता है कि आप व्याख्यात्मक चर का पता लगाएं।
माइकल आर। चेरनिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.