रैखिक बनाम नॉनलाइनर प्रतिगमन


13

मेरे पास मानों का एक सेट है और जो सैद्धांतिक रूप से तेजी से संबंधित हैं:xy

y=axb

गुणांक प्राप्त करने का एक तरीका दोनों पक्षों में प्राकृतिक लघुगणक लागू करना और एक रैखिक मॉडल फिटिंग करना है:

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

इसे प्राप्त करने का एक और तरीका एक गैर-प्रतिगमन प्रतिगमन का उपयोग कर रहा है, जिसे प्रारंभ मानों का एक सैद्धांतिक सेट दिया गया है:

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

यदि मैं दूसरी एल्गोरिथ्म लागू करता हूं तो मेरे परीक्षण बेहतर और अधिक सिद्धांत-संबंधित परिणाम दिखाते हैं। हालांकि, मैं प्रत्येक विधि के सांख्यिकीय अर्थ और निहितार्थ जानना चाहूंगा।

उनमें से कौन बेहतर है?


3
कृपया इस पोस्ट पर एक नज़र डालें जो एक समान प्रश्न से संबंधित है। यह पेपर रुचि का भी हो सकता है।
कोलशेरश

5
"घातीय" का अर्थ आमतौर पर कुछ के आधार पर होता है exp(): आपके पास यहां जो कुछ भी है उसे आमतौर पर पावर फ़ंक्शन, पावर लॉ या स्केलिंग कानून कहा जाता है। अन्य नामों में कोई संदेह नहीं है। परिकल्पना परीक्षण के अर्थ में शक्ति के साथ कोई संबंध नहीं है।
निक कॉक्स

जवाबों:


16

"बेहतर" आपके मॉडल का एक कार्य है।

आपके भ्रम का कारण आप केवल अपने मॉडल का आधा हिस्सा ही लिख सकते हैं।

जब आप कहते हैं , तो यह वास्तव में सच नहीं है। आपके देखे गए मान बराबर नहीं हैं ; उनके पास एक त्रुटि घटक है।y=axbyaxb

उदाहरण के लिए, आपके द्वारा उल्लिखित दो मॉडल (किसी भी तरह से केवल संभव मॉडल नहीं) त्रुटि के बारे में पूरी तरह से अलग धारणा बनाते हैं।

आप शायद करीब कुछ मतलब है ।E(Y|X=x)=axb

लेकिन तब हम किसी दिए गए पर उस अपेक्षा से दूर की भिन्नता के बारे में क्या कहते हैं ? यह मायने रखता है!Yx

  • जब आप अरेखीय कम से कम वर्गों के मॉडल को फिट करते हैं, तो आप कह रहे हैं कि त्रुटियां योगात्मक हैं और त्रुटियों का मानक विचलन डेटा में निरंतर है:

    yiN(axib,σ2)

    या समकक्ष

    yi=axib+ei ,var(ei)=σ2

  • इसके विपरीत जब आप लॉग लेते हैं और एक रेखीय मॉडल को फिट करते हैं, तो आप कह रहे हैं कि त्रुटि लॉग पैमाने पर और (लॉग स्केल पर) डेटा में स्थिर है। इसका मतलब यह है कि प्रेक्षणों के पैमाने पर, त्रुटि शब्द गुणात्मक है , और इसलिए त्रुटियां बड़ी होती हैं जब अपेक्षित मान बहुत अधिक होते हैं:

    yilogN(loga+blogxi,σ2)

    या समकक्ष

    η मैं ~ logn ( 0 , σ 2 )yi=axibηi ,ηilogN(0,σ2)

    (ध्यान दें कि नहीं है। 1. यदि छोटा है, तो आपको इस आशय की अनुमति देने की आवश्यकता है)σ 2E(η)σ2

(आप सामान्यता / तार्किक वितरण को ग्रहण किए बिना कम से कम वर्ग कर सकते हैं, लेकिन जिस केंद्रीय मुद्दे पर चर्चा की जा रही है, वह अभी भी लागू होता है ... और यदि आप कहीं भी सामान्यता के पास नहीं हैं, तो आपको शायद वैसे भी एक अलग त्रुटि मॉडल पर विचार करना चाहिए)

तो जो सबसे अच्छा है वह इस बात पर निर्भर करता है कि किस तरह का त्रुटि मॉडल आपकी परिस्थितियों का वर्णन करता है।

[यदि आप किसी तरह के डेटा के साथ कुछ खोजपूर्ण विश्लेषण कर रहे हैं, जो पहले नहीं देखा गया है, तो आप इस तरह के प्रश्नों पर विचार करेंगे कि "डेटा किस तरह दिखता है? (यानी को विरुद्ध प्लॉट किया गया है ? अवशिष्ट विरुद्ध कैसा दिखता है ? "दूसरी ओर यदि चर इस तरह के असामान्य नहीं हैं तो आपको पहले से ही उनके सामान्य व्यवहार के बारे में जानकारी होनी चाहिए।]x xyxx


9

जब आप या तो मॉडल फिट करते हैं, तो आप मान रहे हैं कि अवशेषों का सेट (वाई के मनाया और अनुमानित मूल्यों के बीच विसंगतियां) एक गाऊसी वितरण का पालन करते हैं। यदि यह धारणा आपके कच्चे डेटा (नॉनलाइन रिग्रेशन) के साथ सही है, तो यह लॉग-ट्रांसफ़ॉर्म किए गए मानों (रैखिक प्रतिगमन) और इसके विपरीत के लिए सही नहीं होगा।

कौन सा मॉडल "बेहतर" है? वह जहां मॉडल की मान्यताओं को सबसे अधिक निकटता से मिलाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.