रैखिकता प्राप्त करने के लिए सबसे अच्छा परिवर्तन कैसे चुनें?


10

मैं कई रैखिक प्रतिगमन करना चाहता हूं और फिर थोड़ा एक्सट्रपलेशन के साथ नए मूल्यों की भविष्यवाणी करना चाहता हूं। मेरी प्रतिक्रिया चर में -2 से +7 तक है, और तीन भविष्यवक्ता (+10 - +200 के बारे में सीमाएं) हैं। वितरण लगभग सामान्य है। लेकिन प्रतिक्रिया और भविष्यवक्ताओं के बीच संबंध रैखिक नहीं है, मैं भूखंडों पर घटता देखता हूं। इस तरह के उदाहरण के लिए: http://cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg

मैं रैखिकता प्राप्त करने के लिए एक परिवर्तन लागू करना चाहूंगा। मैंने विभिन्न कार्यों की जांच करके और प्रतिक्रिया और भविष्यवक्ताओं के बीच एक रैखिक संबंध देखने के लिए परिणामी भूखंडों को देखकर प्रतिक्रिया चर को बदलने की कोशिश की। और मैंने पाया कि कई कार्य हैं जो मुझे दृश्यमान संबंध दिखा सकते हैं। उदाहरण के लिए, कार्य

t1=log(y+2.5)

t2=1log(y+5)

t3=1y+5

t4=1(y+10)3

आदि समान परिणाम देते हैं: http://cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpgt5=1(y+3)13

बाद मैं पूर्वानुमानित मानों को वापस बदलने जा रहा हूं ( के रूप मेंy'=1t=1(y+10)3और इतने पर)। वितरण सामान्य से कम या ज्यादा समान हैं।y=1t1310

मैं अपने डेटा के लिए सबसे अच्छा परिवर्तन कैसे चुन सकता हूं? क्या रैखिकता का मूल्यांकन करने के लिए एक मात्रात्मक (और बहुत जटिल नहीं) तरीका है? यह साबित करने के लिए कि चयनित परिवर्तन सबसे अच्छा है या यदि संभव हो तो इसे स्वचालित रूप से ढूंढना है।

या गैर-रैखिक कई प्रतिगमन करने का एकमात्र तरीका है?


मुझे आपके फ़ार्मुलों के प्रारूपण में सुधार करने में मदद मिली थी लेकिन हो सकता है कि कुछ गलतियाँ हुई हों - कृपया जाँच करें।
पीटर एलिस

मुझे तुम पर विश्वास नहीं है। यह गणितीय संभव नहीं है के लिए के माध्यम से टी 5 एक साथ सीमा पर एक छठी चर साथ एक रैखिक संबंध है करने के लिए 0 ... 200 । मुझे लगता है कि आपने y के इन परिवर्तनों की गणना करने में गलती की होगी । t1t50200y
whuber

1
@ उत्तर के लिए धन्यवाद। मैंने R cs9579.userapi.com/u17020874/153949434/z_9fa17c02.jpg cs9579.userapi.com/u17020874-153949434/z_7fa6891c.jpg
nadya

2
आप सही हे। यह बहुत आश्चर्यजनक है कि इस तरह की एक विस्तृत श्रृंखला y की पुनः अभिव्यक्ति r के साथ एक रैखिक संबंध में रहेगी। साझा करने के लिए धन्यवाद। यदि आप अवशिष्टों की साजिश करते हैं, तो आप पाएंगे कि सबसे अच्छा दिखता है, और फिर r को कोई पुनः अभिव्यक्ति की आवश्यकता नहीं है :। 1/(y+5)rplot(lm(1/(y+5)~r))
whuber

जवाबों:


14

यह कुछ हद तक एक कला है, लेकिन कुछ मानक, सीधी चीजें हैं जो हमेशा प्रयास कर सकते हैं।

अवशेषों को सामान्य बनाने के लिए आश्रित चर ( ) को फिर से व्यक्त करने के लिए पहली बात यह है । यह वास्तव में इस उदाहरण में लागू नहीं है, जहां अंक बहुत कम बिखराव के साथ एक चिकनी nonlinear वक्र के साथ आते हैं। इसलिए हम अगले चरण पर जाते हैं।y

अगली बात रिश्ते को रेखीयित करने के लिए स्वतंत्र चर ( ) को फिर से व्यक्त करना है । ऐसा करने का एक सरल, आसान तरीका है। वक्र के साथ तीन प्रतिनिधि बिंदु चुनें, अधिमानतः दोनों छोर और मध्य में। पहले आंकड़े से मैंने ऑर्डर किए गए जोड़े ( आर , वाई ) = ( 10 , 7 ) , ( 90 , 0 ) , और ( 180 , - 2 ) को पढ़ा । अन्य किसी भी जानकारी है कि तुलना में बिना आर हमेशा दिखाई देता है सकारात्मक होने के लिए, एक अच्छा विकल्प जा सकता है बॉक्स कॉक्स परिवर्तनोंr(r,y)(10,7)(90,0)(180,2)r विभिन्न शक्तियों के लिए पी , आम तौर पर के गुणकों के रूप में चुना 1 / 2 या 1 / 3 और आम तौर पर बीच - 1 और 1 । (के रूप में सीमित मूल्य पी दृष्टिकोण 0 है लॉग ( आर ) ।) यह परिवर्तन एक अनुमानित रैखिक संबंध बनाएगा दूसरी जोड़ी के बीच ढलान के बराबर होती है पहले दो अंक के बीच ढलान प्रदान की है।r(rp1)/pp1/21/311p0log(r)

उदाहरण के लिए, अनियंत्रित डेटा के ढलान हैं = - 0.088 और ( - 2 - 0 ) / ( 180 - 90 ) = - 0.022 । ये काफी अलग हैं: एक दूसरे के बारे में चार गुना है। कोशिश कर रहा है पी = - 1 / 2 की ढलानों देता है ( 0 - 7 ) / ( 90 - 1 /(07)/(9010)0.088(20)/(18090)0.022p=1/2, आदि, जो करने के लिए बाहर काम-16.6और-32.4: अब उनमें से एक है जो एक सुधार है केवल दो बार अन्य है। इस फैशन में जारी रखते हुए (एक स्प्रेडशीट सुविधाजनक है), मुझे लगता है कि लगता हैपी0अच्छी तरह से काम करता है: ढलानों अब कर रहे हैं-7.3और-6.6, लगभग एक ही मूल्य। परिणामस्वरूप, आप प्रपत्र के एक मॉडल की कोशिश करनी चाहिएy=α+βलॉग(आर)। फिर दोहराएं: एक पंक्ति फिट करें, अवशेषों की जांच करें,वाई केएक परिवर्तन की पहचान करें(07)/(901/211/2101/211/2)16.632.4p07.36.6y=α+βlog(r)y उन्हें लगभग सममित बनाने के लिए, और पुनरावृति।

y


बॉक्स-कॉक्स परिवर्तन की सलाह के लिए धन्यवाद। क्या इसका कोई अर्थ है कि l- (1 / (y + 5) ~ r) के l- वर्ग की जाँच करें और अन्य कार्यों के lm और फिर इन R- वर्ग की तुलना करें?
नाद्या

rR2rR2

उत्तर देने के लिए बहुत धन्यवाद! मैं
नाद्या

y

@ आप उस पुस्तक के हर बिट को गहराई से पुरस्कृत कर रहे हैं: आखिरकार, यदि आप पेंसिल और कागज के साथ कुछ कर सकते हैं, तो आप इसे करने के लिए एक कंप्यूटर प्रोग्राम कर सकते हैं :-)। एक एकल चर के साथ अक्सर इसे समरूपता (इसके अनुभवजन्य वितरण के लिए) में बदलना अच्छा होता है ; Tukey इसे "थोड़ा सौदा" कहता है। इस तरह के परिवर्तन की पहचान करने का एक सरल तरीका धारा 3 ई में वर्णित है, "जल्दी से देखना।" यह दर्शाता है कि एक एन-अक्षर सारांश पर एक नज़र से क्या सीखा जा सकता है (टके एक 7- या 9-अक्षर सारांश का सुझाव देता है)। यह समझना कि कौशल आपके लिए गणना करने के लिए कंप्यूटर प्रोग्राम होने से अधिक मूल्यवान है।
whuber

1

यदि आपकी प्रतिक्रिया चर (या बल्कि, जो आपके प्रतिक्रिया चर के अवशिष्ट बन जाएगी) मूल पैमाने पर एक सामान्य वितरण है जैसा कि आप का अर्थ है, तो इसे दूसरे चर के साथ एक रैखिक संबंध बनाने के लिए बदलने का मतलब होगा कि यह अब सामान्य नहीं है और यह इसके विचरण और माध्य मानों के बीच संबंध को भी बदल देगा। तो आपके विवरण के उस हिस्से से मुझे लगता है कि आप प्रतिक्रिया को बदलने की तुलना में गैर-रेखीय प्रतिगमन का उपयोग कर रहे हैं। अन्यथा, प्रतिक्रिया के रैखिक परिवर्तन के बाद, आपको अधिक जटिल त्रुटि संरचना की आवश्यकता होगी (हालांकि यह निर्णय का विषय हो सकता है और आपको ग्राफिकल विधियों का उपयोग करके जांच करने की आवश्यकता होगी)।

वैकल्पिक रूप से, व्याख्यात्मक चर के परिवर्तन की जांच करें । सीधे रूपांतरों के साथ-साथ, आपके पास द्विघात शब्दों को जोड़ने का विकल्प भी है।

आम तौर पर, परिवर्तन एक विज्ञान की तुलना में अधिक कला है, अगर यह सुझाव देने के लिए कोई मौजूदा सिद्धांत नहीं है कि आपको परिवर्तन के आधार के रूप में क्या उपयोग करना चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.